CN116843807A - 虚拟形象生成、模型的训练方法、装置及电子设备 - Google Patents
虚拟形象生成、模型的训练方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116843807A CN116843807A CN202310798428.4A CN202310798428A CN116843807A CN 116843807 A CN116843807 A CN 116843807A CN 202310798428 A CN202310798428 A CN 202310798428A CN 116843807 A CN116843807 A CN 116843807A
- Authority
- CN
- China
- Prior art keywords
- information
- point cloud
- sub
- area
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 120
- 238000012549 training Methods 0.000 title claims abstract description 67
- 238000009877 rendering Methods 0.000 claims abstract description 185
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 238000013136 deep learning model Methods 0.000 claims description 98
- 238000012512 characterization method Methods 0.000 claims description 41
- 238000013528 artificial neural network Methods 0.000 claims description 36
- 230000000007 visual effect Effects 0.000 claims description 31
- 238000004040 coloring Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000003190 augmentative effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 23
- 238000012545 processing Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000008921 facial expression Effects 0.000 description 8
- 238000013461 design Methods 0.000 description 5
- 238000005286 illumination Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000013475 authorization Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/55—Radiosity
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Geometry (AREA)
- Processing Or Creating Images (AREA)
Abstract
本公开提供了虚拟形象生成、模型的训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景。具体实现方案为:根据对象第一子区域的第一子区域点云信息和对象第二子区域的第二子区域几何信息,确定对象目标区域的目标区域点云信息,对象目标区域包括对象第一子区域和对象第二子区域;以及根据目标渲染颜色信息和目标区域点云信息,生成对象目标区域的虚拟形象。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景,具体地,涉及一种虚拟形象生成、模型的训练方法、装置及电子设备。
背景技术
虚拟数字人是创建元宇宙虚拟世界的关键元素之一。根据数字人的业务需求不同,数字人可分为2维、3维、卡通、写实、超写实等。在实际场景中,需要针对虚拟数字人构建适配业务需求的基本虚拟形象。
发明内容
本公开提供了一种虚拟形象生成、模型的训练方法、装置及电子设备。
根据本公开的一方面,提供了一种虚拟形象生成方法,包括:根据对象第一子区域的第一子区域点云信息和对象第二子区域的第二子区域几何信息,确定对象目标区域的目标区域点云信息,所述对象目标区域包括所述对象第一子区域和所述对象第二子区域;以及根据目标渲染颜色信息和所述目标区域点云信息,生成所述对象目标区域的虚拟形象。
根据本公开的另一方面,提供了一种深度学习模型的训练方法,包括:将对象目标区域的样本视频输入深度学习模型的第一神经网络,得到样本对象第一子区域的样本第一子区域点云信息和样本对象第二子区域的样本第二子区域几何信息,所述样本视频具有真实渲染颜色标签、真实目标区域点云标签;将所述样本第一子区域点云信息和所述样本第二子区域几何信息输入深度学习模型的第二神经网络,得到所述样本对象目标区域的样本目标区域点云信息,所述样本对象目标区域包括所述样本对象第一子区域和所述样本对象第二子区域,所述样本目标区域点云信息包括样本目标区域漫反射信息和样本目标区域伪法线信息;将所述样本目标区域漫反射信息和样本目标区域伪法线信息输入所述深度学习模型的第三神经网络,得到样本渲染颜色信息;以及根据所述样本渲染颜色信息、所述真实渲染颜色标签、所述样本目标区域点云信息和所述真实目标区域点云标签,对所述深度学习模型进行训练,得到经训练的深度学习模型。
根据本公开的一方面,提供了一种虚拟形象生成方法,包括:获取待处理视频,所述待处理视频中包括待处理对象;以及将所述待处理视频输入深度学习模型,得到所述待处理对象的虚拟形象,其中,所述深度学习模型是利用根据本公开所述的深度学习模型的训练方法训练得到的。
根据本公开的另一方面,提供了一种虚拟形象生成装置,包括:目标点云确定模块,用于根据对象第一子区域的第一子区域点云信息和对象第二子区域的第二子区域几何信息,确定对象目标区域的目标区域点云信息,所述对象目标区域包括所述对象第一子区域和所述对象第二子区域;以及生成模块,用于根据目标渲染颜色信息和所述目标区域点云信息,生成所述对象目标区域的虚拟形象。
根据本公开的一方面,提供了一种深度学习模型的训练装置,包括:第一网络模块,用于将对象目标区域的样本视频输入深度学习模型的第一神经网络,得到样本对象第一子区域的样本第一子区域点云信息和样本对象第二子区域的样本第二子区域几何信息,所述样本视频具有真实渲染颜色标签、真实目标区域点云标签;第二网络模块,用于将所述样本第一子区域点云信息和所述样本第二子区域几何信息输入深度学习模型的第二神经网络,得到所述样本对象目标区域的样本目标区域点云信息,所述样本对象目标区域包括所述样本对象第一子区域和所述样本对象第二子区域,所述样本目标区域点云信息包括样本目标区域漫反射信息和样本目标区域伪法线信息;第三网络模块,用于将所述样本目标区域漫反射信息和样本目标区域伪法线信息输入所述深度学习模型的第三神经网络,得到样本渲染颜色信息;以及训练模块,用于根据所述样本渲染颜色信息、所述真实渲染颜色标签、所述样本目标区域点云信息和所述真实目标区域点云标签,对所述深度学习模型进行训练,得到经训练的深度学习模型。
根据本公开的另一方面,提供了一种虚拟形象生成装置,包括:视频获取模块,用于获取待处理视频,所述待处理视频中包括待处理对象;以及深度学习模块,用于将所述待处理视频输入深度学习模型,得到所述待处理对象的虚拟形象,其中,所述深度学习模型是利用根据本公开所述的深度学习模型的训练装置训练得到的。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开的虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现本公开的虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法及相应装置的示例性系统架构;
图2示意性示出了根据本公开实施例的虚拟形象生成方法的流程图;
图3示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图;
图4示意性示出了根据本公开实施例的基于深度学习模型生成虚拟形象的方法;
图5示意性示出了根据本公开实施例的基于深度学习模型生成虚拟形象的示意图;
图6示意性示出了根据本公开实施例的虚拟形象生成装置的框图;
图7示意性示出了根据本公开实施例的深度学习模型的训练装置的框图;
图8示意性示出了根据本公开实施例的虚拟形象生成装置的框图;以及
图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
在设计高质量虚拟数字人的虚拟形象时,需要专业的动画师对虚拟形象的几何建模、纹理贴图、光照贴图等进行专业优化设计,以构建适配业务需求的基本虚拟形象。例如,由于虚拟形象在各类场景中的驱动需求,需要对数字人材质、光照模型、3D模型等进行细粒度建模。在设计虚拟形象的渲染贴图时,需要依赖专业设计人员,根据业务需求进行迭代优化设计。
发明人在实现本公开构思的过程中发现,上述生成虚拟形象的方法,需要由专业设计人员依赖专业软件,对几何纹理等多方面进行专业性设计,硬件成本和设计成本均较高。此外,扩展性弱,难以实现低成本的迁移。
图1示意性示出了根据本公开实施例的可以应用虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法及相应装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法及相应装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法及相应装置。
如图1所示,根据该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103,网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
需要说明的是,本公开实施例所提供的虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法一般可以由第一终端设备101、第二终端设备102或第三终端设备103执行。相应地,本公开实施例所提供的虚拟形象生成装置和深度学习模型的训练装置其中至少一种装置也可以设置于第一终端设备101、第二终端设备102或第三终端设备103中。
或者,本公开实施例所提供的虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法一般也可以由服务器105执行。相应地,本公开实施例所提供的虚拟形象生成装置和深度学习模型的训练装置其中至少一种装置一般可以设置于服务器105中。本公开实施例所提供的虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的虚拟形象生成装置和深度学习模型的训练装置其中至少一种装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
例如,在需要生成虚拟形象时,第一终端设备101、第二终端设备102、第三终端设备103可以获取对象第一子区域的第一子区域点云信息和对象第二子区域的第二子区域几何信息,然后根据第一子区域点云信息和第二子区域几何信息,确定对象目标区域的目标区域点云信息,对象目标区域包括对象第一子区域和对象第二子区域,并根据目标渲染颜色信息和目标区域点云信息,生成对象目标区域的虚拟形象。或者由能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群对第一子区域点云信息和第二子区域几何信息进行分析,并实现生成对象目标区域的虚拟形象。
例如,在需要训练深度学习模型时,第一终端设备101、第二终端设备102、第三终端设备103可以获取样本对象第一子区域的样本第一子区域点云信息和样本对象第二子区域的样本第二子区域几何信息,以及对象目标区域的样本视频,然后将获取的样本第一子区域点云信息、样本第二子区域几何信息、样本视频发送给服务器105,由服务器105将样本第一子区域点云信息和样本第二子区域几何信息输入深度学习模型的第一神经网络,得到样本对象目标区域的样本目标区域点云信息,对象目标区域包括对象第一子区域和对象第二子区域,样本目标区域点云信息包括样本目标区域漫反射信息和样本目标区域伪法线信息;将样本目标区域漫反射信息和样本目标区域伪法线信息输入深度学习模型的第二神经网络,得到目标渲染颜色信息;根据样本视频,确定真实渲染颜色标签、真实目标区域点云标签;以及根据目标渲染颜色信息、真实渲染颜色标签、样本目标区域点云信息和真实目标区域点云标签,对深度学习模型进行训练,得到经训练的深度学习模型。或者由能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行前述操作,并实现得到经训练的深度学习模型。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的虚拟形象生成方法的流程图。
如图2所示,该方法包括操作S210~S220。
在操作S210,根据对象第一子区域的第一子区域点云信息和对象第二子区域的第二子区域几何信息,确定对象目标区域的目标区域点云信息,对象目标区域包括对象第一子区域和对象第二子区域。
在操作S220,根据目标渲染颜色信息和目标区域点云信息,生成对象目标区域的虚拟形象。
根据本公开的实施例,对象可以包括动物、植物、人及自然界中的其他物体等其中任意之一,且可不限于此。对象第一子区域和对象第二子区域可以表征对象目标区域中的同一部分子区域,也可以表征不同部分子区域,在此不做限定。
根据本公开的实施例,可以将第一子区域点云信息和第二子区域几何信息作为输入,目标区域点云信息作为输出,训练第一网络模型,以便于基于该训练得到的第一网络模型,实现上述操作S210所对应的过程。也可以将第一子区域点云信息和第二子区域几何信息两者的参数化信息作为自变量,将目标区域点云信息的参数化信息作为因变量,构建第一算法程式,以便于基于该第一算法程式,实现上述操作S210所对应的过程。
例如,对象目标区域可以为人头,对象第一子区域和对象第二子区域可以为人脸或人脸中的部分区域。第一子区域点云信息可以表征人脸点云信息。第二子区域几何信息可以表征人脸几何形状、人脸表情系数等其中至少之一,且可不限于此。在该实施例中,可以根据人脸点云信息和人脸表情系数,确定包括人脸,以及脖子、头发等在内的人头点云信息。也可以根据人脸点云信息和人脸几何形状,确定包括人脸面部,以及脖子、头发等在内的人头点云信息。
需要说明的是,在对象区域为人头的情况下,本实施例中所获取的人头并不是针对某一特定用户的人头,并不能反映出某一特定用户的个人信息。本实施例中对应于人头的虚拟形象生成方法的执行主体可以通过各种公开、合法合规的方式获取人头信息或人脸信息,例如可以是从公开数据集处获取的,或者是经过了用户的授权从用户处获取的。
根据本公开的实施例,目标渲染颜色信息可以包括根据业务需求预先定义的颜色信息。例如,可以定义某个区域的点云固定显示为某种设定的颜色。在该实施例中,可以根据根据目标渲染颜色信息和所述目标区域点云信息,确定经渲染的目标区域点云信息。根据经渲染的目标区域点云信息,可以生成对象目标区域的虚拟形象。
根据本公开的实施例,目标渲染颜色信息也可以包括通过将目标区域点云信息作为输入,对象目标区域的虚拟形象作为输出,训练得到的第二网络模型学习到的颜色信息。在该实施例中,通过基于经训练的第二网络模型处理输入的目标区域点云信息,可以学习到目标区域点云信息所表征的目标点云中各个点的目标渲染颜色信息,并可以结合目标区域点云信息可以输出对象目标区域的虚拟形象。
根据本公开的实施例,也可以将目标渲染颜色信息和目标区域点云信息两者的参数化信息作为自变量,将对象目标区域的虚拟形象的参数化信息作为因变量,构建第二算法程式,以便于基于该第二算法程式,学习目标渲染颜色信息,以及实现上述操作S220所对应的过程。
根据本公开的实施例,第一网络模型和第二网络模型可以为各类神经渲染网络。例如,第一网络模型可以为变形网络、卷积网络等,且可不限于此。第二网络模型可以为MLP(multilayer perceptron,多层感知机)网络,且可不限于此。
需要说明的是,对于上述第一网络模型、第二网络模型的模型结构,以及上述第一算法程式、第二算法程式中参数项和算法规则的配置,在此不进行限定,只要能够实现上述操作S210和S220即可。
通过本公开的上述实施例,可以基于对象部分区域的信息,生成与对象相应区域相对应的较为完整的虚拟形象,降低了虚拟形象的生成困难度,并可适用于多种场景,可有效提高多种场景下虚拟形象的生成及渲染效果。
下面结合具体实施例,对图2所示的方法做进一步说明。
根据本公开的实施例,在执行上述操作S210之前,可以首先获取第一子区域点云信息和第二子区域几何信息,该方法可以包括:获取对象目标区域的视频信息,视频信息包括至少一个视频帧。获取视频帧的相机内外参。根据相机内外参,对视频帧中表征对象第一子区域的第一像素区域,构建点云信息,得到第一子区域点云信息。根据相机内外参和视频帧中表征对象第二子区域的第二像素区域,确定第二子区域几何信息。
根据本公开的实施例,可以首先根据相机内外参,确定视频帧中的各个像素点表征的空间属性信息。空间属性信息可以为二维空间属性信息,也可以为三维空间属性信息,在此不做限定。例如,可以获得第一像素区域的第一像素点表征的第一空间属性信息。然后,可以以第一空间属性信息为约束,构建满足该约束的点云信息,得到第一子区域点云信息。基于前述方式,也可以首先获得第二像素区域的第二像素点表征的第二空间属性信息。然后,可以根据第二空间属性信息所表征的形状,确定第二子区域几何信息。
例如,对象目标区域为人头,可以首先获取包括该人头或人头中部分区域(如人脸)的一个视频帧或多个连续的视频帧,得到视频信息。然后,可以结合相机内外参,确定如人头区域的人头三维空间属性信息,并基于此,通过构建点云信息和提取三维形状信息信息,例如可以得到人头区域点云信息和人脸区域几何信息,或者可以得到人脸区域点云信息和人脸区域几何信息,或者可以得到人头区域点云信息和人头区域几何信息,或者可以得到人脸区域点云信息和人头区域几何信息,在此不进行限定。
需要说明的是,在对象目标区域为人头的情况下,本实施例中的视频信息可以来自于公开数据集,或者视频信息的获取是经过了相应用户的授权。
根据本公开的实施例,上述根据相机内外参,对视频帧中表征对象第一子区域的第一像素区域,构建点云信息,得到第一子区域点云信息和第二子区域几何信息可以包括:根据相机内外参,将视频帧中的第一像素区域投影到三维空间,得到视频帧中的第一像素区域的第一三维表征结果。对至少一个视频帧中的第一像素区域的第一三维表征结果,构建点云信息,得到第一子区域点云信息。
根据本公开的实施例,在视频信息中仅包括一个视频帧的情况下,在得到一个视频帧中的第一像素区域的第一三维表征结果之后,可以根据该第一三维表征结果,对对象第一子区域进行三维重建,得到第一子区域三维重建结果。然后,对第一子区域三维重建结果,构建点云信息,得到第一子区域点云信息。
根据本公开的实施例,在视频信息中包括多个视频帧的情况下,可以首先获得每一个视频帧中的第一像素区域的第一三维表征结果,得到多个第一三维表征结果。然后,可以根据该多个第一三维表征结果,对对象第一子区域进行三维重建,得到第一子区域三维重建结果。之后,对第一子区域三维重建结果,构建点云信息,可以得到第一子区域点云信息。
根据本公开的实施例,上述根据相机内外参和视频帧中表征对象第二子区域的第二像素区域,确定第二子区域几何信息可以包括:根据相机内外参,将视频帧中的第二像素区域投影到三维空间,得到视频帧中的第二像素区域的第二三维表征结果。根据至少一个视频帧中的第二像素区域的第二三维表征结果,确定第二子区域几何信息。
根据本公开的实施例,在视频信息中仅包括一个视频帧的情况下,在得到一个视频帧中的第二像素区域的第二三维表征结果之后,可以根据该第二三维表征结果,对对象第二子区域进行三维重建,得到第二子区域三维重建结果。然后,可以根据第二子区域三维重建结果所表征的形状信息,确定第二子区域几何信息。
根据本公开的实施例,在视频信息中包括多个视频帧的情况下,可以首先获得每一个视频帧中的第二像素区域的第二三维表征结果,得到多个第二三维表征结果。然后,可以根据该多个第二三维表征结果,对对象第二子区域进行三维重建,得到第二子区域三维重建结果。之后,可以根据第二子区域三维重建结果所表征的形状信息,确定第二子区域几何信息。
例如,视频信息包括50个视频帧,每两个视频帧可以对应有相同或不同的图像内容。相同的图像内容例如可以包括对象和背景均相同。不同的图像内容例如可以包括对象相同但背景不同,对象不同但背景相同,对象和背景均不同等。对象相同例如可以表现为在不同视频帧中采集到的对象的位置、角度、方向、大小等对象属性均相同。对象不同例如可以表现为在不同视频帧中采集到的对象的位置、角度、方向、大小等其中至少一种属性不同。背景不同可以表现为对象所处场景不同、对象所处场景的光照不同等,且可不限于此。
在上述实施例中,针对每一个视频帧,可以结合与该视频帧相对应的相机内外参,分别将从该视频帧中获得的第一像素区域和第二像素区域投影到三维空间,得到第一三维表征结果和第二三维表征结果。也可以将从该视频帧中获得的第一像素区域和第二像素区域的合并区域投影到三维空间,得到该合并区域的合并三维表征结果。针对50个视频帧,例如可以基于前述处理获得50个相对应的第一三维表征结果和第二三维表征结果,或者50个合并三维表征结果。相同视频帧下的第一三维表征结果和第二三维表征结果可以具有关联关系,相同视角及光照下的第一三维表征结果和第二三维表征结果也可以具有关联关系。
根据本公开的实施例,可以根据具有关联关系的第一三维表征结果和第二三维表征结果,对对象目标区域进行点云重建,得到相应视角及光照下的目标区域点云信息。也可以根据合并三维表征结果,对对象目标区域进行点云重建,得到目标区域点云信息。在此不进行限定。对应于上述实施例,例如可以得到至多50个目标区域点云信息。
根据本公开的实施例,对应于上述50个视频帧的处理得到的50个目标区域点云信息,例如可以结合经训练的第二网络模型的学习,得到例如至多50个目标渲染颜色信息。基于相同视频帧确定的目标区域点云信息和目标渲染颜色信息可以具有关联关系。
根据本公开的实施例,在根据目标渲染颜色信息和目标区域点云信息,生成对象目标区域的虚拟形象的过程中,可以根据具有关联关系的目标区域点云信息和目标渲染颜色信息,确定基于相应视频帧生成的对象目标区域的虚拟形象。
通过本公开的上述实施例,通过获取视频信息中每个视频帧所表征的第一子区域点云信息和第二子区域几何信息,可以有利于实现基于运动对象生成运动的虚拟形象,并可在虚拟形象中保持相对应的光照特征,提高虚拟形象的生成效果。
根据本公开的实施例,在获得第一子区域点云信息和第二子区域几何信息之后,可以执行上述操作S210。上述操作S210可以包括:根据第一子区域点云信息和第二子区域几何信息,对对象目标区域进行几何重建,得到对象目标区域的目标区域几何信息。根据第一子区域点云信息、第二子区域几何信息和目标区域几何信息,对对象目标区域进行点云重建,得到目标区域点云信息。
例如,对象目标区域可以为人头,第一子区域点云信息可以表征人脸点云信息,第二子区域几何信息可以表征人脸表情系数。则可以根据人脸点云信息和人脸表情系数,对人头进行几何重建,得到人头几何信息,并根据人脸点云信息、人脸表情系数和人头几何信息,对人头进行点云重建,得到人头点云信息。该过程可以基于经训练的网络模型或已构建的算法程式实现,在此不做限定。
根据本公开的实施例,上述根据第一子区域点云信息和第二子区域几何信息,对对象目标区域进行点云重建,得到对象目标区域的目标区域几何信息可以包括:根据第一子区域点云信息和第二子区域几何信息,对对象目标区域中的非第二子区域进行几何重建,得到非第二子区域的非第二子区域几何信息。根据非第二子区域几何信息和第二子区域几何信息,对对象目标区域进行几何重建,得到目标区域几何信息。
例如,对应于前述实施例,可以根据人脸点云信息和人脸表情系数,对人头中人脸之外的区域进行几何重建,得到人脸之外的区域的几何信息,例如可以包括头发区域几何信息、脖子区域几何信息等。然后,可以根据头发区域几何信息、脖子区域几何信息等以及人脸表情系数,对人头进行几何重建,确定包括人脸、脖子、头发等全部区域在内的人头几何信息。
根据本公开的实施例,第一子区域点云信息可以包括第一子区域伪法线信息、第一子区域漫反射信息。根据第一子区域点云信息、第二子区域几何信息和目标区域几何信息,对对象目标区域进行点云重建,得到目标区域点云信息可以包括:根据第一子区域伪法线信息、第一子区域漫反射信息和第二子区域几何信息,对对象目标区域中的非第一子区域进行渲染,得到非第一子区域的非第一子区域伪法线信息和非第一子区域漫反射信息。根据非第一子区域伪法线信息和非第一子区域漫反射信息,对非第一子区域进行点云重建,得到非第一子区域的非第一子区域点云信息。根据第一子区域点云信息、非第一子区域点云信息和目标区域几何信息,对对象目标区域进行点云重建,得到目标区域点云信息。
根据本公开的实施例,伪法线信息可以表征点云中的点在空间中的位置、朝向等特征,漫反射信息可以表征对象区域的纹理特征。根据视频信息获得的第一子区域点云信息可以包括对象第一子区域的点云的伪法线信息和漫反射信息。
例如,对应于前述实施例,根据人脸点云信息可以首先确定人脸伪法线信息和人脸漫反射信息。根据人脸伪法线信息、人脸漫反射信息和人脸表情系数,对人脸之外的区域进行渲染,可以得到人脸之外的区域的伪法线信息和漫反射信息,例如可以包括头发区域伪法线信息、头发区域漫反射信息、脖子区域伪法线信息、脖子区域漫反射信息等。根据头发区域伪法线信息、头发区域漫反射信息、脖子区域伪法线信息、脖子区域漫反射信息等,对人脸之外的区域进行点云重建,例如可以得到头发区域点云信息、脖子区域点云信息等。然后,可以根据人脸点云信息、头发区域点云信息、脖子区域点云信息和人头几何信息,对人头区域进行点云重建,得到人头点云信息。
需要说明的是,上述实施例中以对象目标区域为人头进行描述的实施例仅是示例性实施例,但不限于此。对于自然界中存在的其他实体对象,也可以实现上述根据对象第一子区域的第一子区域点云信息和对象第二子区域的第二子区域几何信息,确定对象目标区域的目标区域点云信息的过程,在此不再赘述。
通过本公开的上述实施例,可以基于较细粒度处理方法,得到各部分区域的特征信息,并结合各部分区域的特征信息和整体区域的特征信息进一步确定目标区域点云信息,通过细粒度的处理方式,可以有利于提高确定的目标区域点云信息的精度。
根据本公开的实施例,上述目标区域点云信息可以包括目标区域伪法线信息、目标区域漫反射信息。在执行上述操作S220之前,可以首先确定目标渲染颜色信息。该方法可以包括:根据目标区域伪法线信息、目标区域漫反射信息和目标区域几何信息其中至少一种信息,对目标区域点云信息进行渲染进行渲染,得到目标渲染颜色信息。
根据本公开的实施例,根据目标区域伪法线信息、目标区域漫反射信息,可以确定与目标区域点云信息表征的目标点云中的每个点相对应的点伪法线信息和点漫反射信息。根据点伪法线信息和点漫反射信息,可以确定目标点云中的每个点的点颜色信息,该点颜色信息可以作为目标点云中每个点的目标渲染颜色信息。
根据本公开的实施例,也可以根据目标点云中各个点的点颜色信息,结合目标区域几何信息所表征的目标点云中每个点的位置信息,确定目标点云的目标渲染颜色信息。
根据本公开的实施例,还可以根据目标点云中各个点的点颜色信息和位置信息确定目标点云的初始渲染颜色信息。然后,可以结合目标区域几何信息,对该初始渲染颜色信息进行去噪处理,得到目标渲染颜色信息。
需要说明的是,上述得到目标渲染颜色信息的方法仅是示例性实施例,在实际应用中,可以根据业务需求,选择目标区域伪法线信息、目标区域漫反射信息和目标区域几何信息其中至少一种信息,对目标区域点云信息进行渲染进行渲染,得到目标渲染颜色信息,在此不进行限定。
通过本公开的上述实施例,可以针对三维点云得到较为精确的且可反映对象自身颜色特征的目标渲染颜色信息,实现较好的渲染效果。
根据本公开的实施例,根据目标区域伪法线信息、目标区域漫反射信息和目标区域几何信息其中至少一种信息,对目标区域点云信息进行渲染,得到目标渲染颜色信息可以包括:根据目标区域伪法线信息和目标区域漫反射信息,确定目标点云在第一视角的第一视角伪法线信息和第一视角漫反射信息,目标点云为目标区域点云信息表征的点云。根据第一视角伪法线信息、第一视角漫反射信息和目标区域几何信息其中至少一种信息,对目标点云在第一视角所表征的目标区域点云信息进行渲染,得到目标点云在第一视角的图像空间着色信息。对图像空间着色信息和第一视角漫反射信息进行融合,得到目标渲染颜色信息。
根据本公开的实施例,第一视角可以表征能够观测到目标点云的任意一个视角。可以将目标区域伪法线信息和目标区域漫反射信息输入经训练的第二网络模型,第二网络模型可以基于一个或多个视角,学习目标点云在各个视角下表现出来的特征信息。
例如,第二网络模型在第一视角可以首先学习目标点云在第一视角表现出来的第一视角伪法线信息和第一视角漫反射信息。然后,第二网络模型可以根据第一视角伪法线信息、第一视角漫反射信息和目标区域几何信息,学习到目标点云基于第一视角投影到图像空间时的图像空间着色信息。图像空间着色信息可以不具有纹理信息。之后,第二网络模型可以对学习到的图像空间着色信息和第一视角漫反射信息进行融合,得到目标点云基于第一视角投影到图像空间的目标渲染颜色信息。目标渲染颜色信息可以包括颜色信息和纹理信息。
通过本公开的上述实施例,可以得到目标点云在第一视角的目标渲染颜色信息,例如可适用于生成二维虚拟形象的场景,可表现出较好的渲染效果。
需要说明的是,上述实施例也可适用于生成三维虚拟形象的场景,例如可适用于仅需徐然一个视角的三维虚拟形象的场景,且可不限于此。
根据本公开的实施例,上述对图像空间着色信息和第一视角漫反射信息进行融合,得到目标渲染颜色信息可以包括:对图像空间着色信息和第一视角漫反射信息进行,得到目标点云在第一视角的图像空间渲染颜色信息。根据多个视角的图像空间渲染颜色信息,确定目标渲染颜色信息。
根据本公开的实施例,多个视角可以包括第一视角以及不同于第一视角的至少一个其他视角。针对多个视角中的每一个视角,可以结合前述方法,得到相应视角的图像空间渲染颜色信息,并可以多个视角对应的多个图像空间渲染颜色信息确定为目标渲染颜色信息。
通过本公开的上述实施例,通过根据多个视角的图像空间渲染颜色信息,确定目标渲染颜色信息,可适用于生成三维虚拟形象以及运动虚拟形象的场景,可表现出较好的渲染效果及驱动效果。
根据本公开的实施例,在基于前述方式获得目标渲染颜色信息之后,可以执行上述操作S220。上述操作S220可以包括:根据目标渲染颜色信息,对目标点云在第二视角所表征的目标区域点云信息进行渲染,得到目标点云在第二视角的第二视角渲染颜色信息和第二视角点云信息。根据第二视角渲染颜色信息,对第二视角点云信息进行渲染,得到对象目标区域在第二视角的虚拟形象渲染结果。根据虚拟形象渲染结果,生成虚拟形象。
根据本公开的实施例,第二视角和第一视角可以表征相同的视角,也可以表征不同的视角。在获得第二视角的第二视角渲染颜色信息和第二视角点云信息之后,可以对第二视角渲染颜色信息和第二视角点云信息进行融合,得到第二视角的虚拟形象渲染结果。在该实施例中,生成的虚拟形象可以为仅展示第二视角的二维虚拟形象,也可以为仅渲染第二视角的三维虚拟形象。对于三维虚拟形象中其他未被渲染到的区域,可以以默认效果或者设置默认渲染效果进行展示。
根据本公开的实施例,上述根据所述虚拟形象渲染结果,生成虚拟形象可以包括:根据多个视角的虚拟形象渲染结果,生成虚拟形象。
根据本公开的实施例,可以基于前述获得第二视角的虚拟形象渲染结果的方式,获得不同于第二视角的其他视角的虚拟形象渲染结果,得到多个视角的虚拟形象渲染结果。结合多个视角的虚拟形象渲染结果,可以确定目标点云在各个视角的渲染效果。在该实施例中,生成的虚拟形象可以为针对各个视角均进行渲染后得到的三维虚拟形象。
通过本公开的上述实施例,可以实现各个维度、各种运动状态的虚拟形象生成方法,尤其是对于运动的虚拟形象,通过结合视角特征进行渲染,可以是的渲染得到的虚拟形象在运动至各个角度时均能展现出良好的显示效果,可有效提升运动虚拟形象的驱动效果。
根据本公开的实施例,上述虚拟形象生成方法可以通过训练一个完整的深度学习模型实现。
图3示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。
如图3所示,该方法包括操作S310~S340。
在操作S310,将对象目标区域的样本视频输入深度学习模型的第一神经网络,得到样本对象第一子区域的样本第一子区域点云信息和样本对象第二子区域的样本第二子区域几何信息,样本视频具有真实渲染颜色标签、真实目标区域点云标签。
在操作S320,将样本第一子区域点云信息和样本第二子区域几何信息输入深度学习模型的第二神经网络,得到样本对象目标区域的样本目标区域点云信息,样本对象目标区域包括样本对象第一子区域和样本对象第二子区域,样本目标区域点云信息包括样本目标区域漫反射信息和样本目标区域伪法线信息。
在操作S330,将样本目标区域漫反射信息和样本目标区域伪法线信息输入深度学习模型的第三神经网络,得到样本渲染颜色信息。
在操作S340,根据样本渲染颜色信息、真实渲染颜色标签、样本目标区域点云信息和真实目标区域点云标签,对深度学习模型进行训练,得到经训练的深度学习模型。
根据本公开的实施例,样本对象可以具有与前述对象相同或相似的特征。样本对象第一子区域可以具有与前述第一子区域相同或相似的特征,样本第一子区域点云信息可以具有与前述第一子区域点云信息相同或相似的特征。样本对象第二子区域可以具有与前述第二子区域相同或相似的特征,样本第二子区域几何信息可以具有与前述第二子区域几何信息相同或相似的特征。样本对象目标区域可以具有与前述对象目标区域相同或相似的特征,样本目标区域点云信息可以具有与前述对象目标区域点云信息相同或相似的特征。样本目标区域漫反射信息可以具有与前述目标区域漫反射信息相同或相似的特征。样本目标区域伪法线信息可以具有与前述目标区域伪法线信息相同或相似的特征。第二神经网络可以具有与前述第一网络模型相同或相似的特征,第三神经网络可以具有与前述第二网络模型相同或相似的特征。样本渲染颜色信息可以具有与前述目标渲染颜色信息相同或相似的特征。样本视频可以具有与前述视频信息相同或相似的特征。在此不再赘述。
根据本公开的实施例,第一神经网络例如可以包括点云生成模型以及如下中的任意之一:3DMM(3D Morphable Models,三维可变形模型)、albedo-3DMM(反射率-三维可变形模型)等,且可不限于此。点云生成模型可以为任意能够根据图像信息生成点云信息的神经网络模型,在此不做限定。基于点云生成模型,对样本视频进行处理,可以得到样本第一子区域点云信息。基于如3DMM,对样本视频进行处理,可以得到样本第二子区域几何信息。
根据本公开的实施例,真实渲染颜色标签可以表征通过对样本视频中的对象目标区域直接分析得到的目标区域颜色信息。真实目标区域点云标签可以表征基于精度较高的点云构建模型对样本视频中的对象目标区域进行处理得到的目标区域点云信息。真实目标区域点云标签可以包括目标区域点云信息所表征的目标点云的真实漫反射信息和真实伪法线信息。
根据本公开的实施例,上述训练过程中对应于第一神经网络、第二神经网络和第三神经网络的更细节的学习过程,可参见前述实施例,在此不再赘述。
根据本公开的实施例,在上述训练过程中,可以构建RGB损失,感知损失,对象特征损失,mask(掩膜)损失,eikonal-sdf损失等进行网络监督,通过训练网络使得该些损失收敛,完成训练过程。RGB监督可用于约束深度学习模型输出的样本渲染颜色信息趋近于真实渲染颜色标签所表征的颜色信息。感知损失可以针对样本目标区域点云信息和真实目标区域点云标签建立粗粒度的约束,可用于约束不同视角针对的是同一个样本对象。对象特征损失可以针对对应于同一视角的样本目标区域点云信息和真实目标区域点云标签建立细粒度的约束,可用于约束对应于同一视角的样本目标区域点云信息趋近于真实目标区域点云标签所表征的点云信息。mask损失可用于约束对应于同一视角的样本渲染颜色信息和样本目标区域点云信息融合后表征的语义信息趋近于对应于相同视角的真实渲染颜色标签和真实目标区域点云标签融合后表征的语义信息。eikonal-sdf损失可用于约束样本渲染颜色信息和样本目标区域点云信息的所表征的表面趋于平滑。
需要说明的是,在对象目标区域为人头的情况下,通过本实施例得到的深度学习模型包含了对象的人脸信息,但该深度学习模型的构建是在经用户授权后执行的,其构建过程符合相关法律法规。
通过本公开的上述实施例,可以实现一直适用于生成运动虚拟形象的方法的模型,该模型扩展性强,可适用于多种虚拟形象生成场景。
根据本公开的实施例,上述操作S310可以包括:根据样本视频,确定第一子区域稀疏点云信息。对第一子区域稀疏点云信息进行上采样,得到第一子区域稠密点云信息。根据第一子区域稀疏点云信息和第一子区域稠密点云信息其中至少之一,确定样本第一子区域点云信息。
根据本公开的实施例,可以基于例如KNN-均值算法实现上述上采样过程。例如,可以首先根据第一子区域稀疏点云信息确定第一子区域稀疏点云中每个点的位置信息。然后,可以对第一子区域稀疏点云中相邻多个点的位置信息求取位置平均值,得到插入点位置信息。通过在插入点位置插入新的点,得到较为稠密的第一子区域稠密点云,可以实现上采样过程。在该过程中,在插入点位置插入的新点的伪法线信息和漫反射信息,也可以通过求取与该新点相邻的多个原始点的伪法线信息和漫反射信息的平均值确定。
需要说明的是,上述上采样过程可以执行多次,每一次上采样之后可以得到一个稠密度更高的第一子区域稠密点云信息。每一个阶段的训练可以采用一个或多个不同稠密度的第一子区域点云信息。
例如,在开始训练深度学习模型时,可以首先使用第一子区域稀疏点云信息,结合训练过程中需要的其他信息,进行训练,得到第一阶段训练完成的深度学习模型。之后,可以使用第一子区域稠密点云信息,结合训练过程中需要的其他信息,对第一阶段训练完成的深度学习模型进行进一步训练,得到第二阶段训练完成的深度学习模型。之后,可以使用对第一子区域稠密点云信息进行上采样得到的稠密度更高的第一子区域稠密点云信息,结合训练过程中需要的其他信息,对第二阶段训练完成的深度学习模型进行进一步训练,得到下一阶段训练完成的深度学习模型。以此类推,该过程可以循环多次。
通过本公开的上述实施例,通过每隔一段时间或者根据设定的增量阈值动态采样变化点云数量,可以增加几何学习的细腻度,提高深度学习模型的输出精度及渲染效果。
根据本公开的实施例,在需要生成寻形象时,可以基于上述训练得到的深度学习模型,生成虚拟形象。
图4示意性示出了根据本公开实施例的基于深度学习模型生成虚拟形象的方法。
如图4所示,该方法包括操作S410~S420。
在操作S410,获取待处理视频,待处理视频中包括待处理对象。
在操作S420,将待处理视频输入深度学习模型,得到待处理对象的虚拟形象。
根据本公开的实施例,待处理视频可以具有与前述视频信息相同或相似的特征。待处理对象可以具有与前述对象相同或相似的特征。在此不再赘述。
图5示意性示出了根据本公开实施例的基于深度学习模型生成虚拟形象的示意图。
如图5所示,深度学习模型500包括第一神经网络510、第二神经网络520、第三神经网络530。待处理视频501中的待处理对象例如为人头。将待处理视频501输入深度学习模型500之后,例如经由第一神经网络510可以提取得到人脸几何信息511、人脸点云信息512。人脸几何信息511和人脸点云信息512可以经由第二神经网络520处理,得到人头点云信息521。人头点云信息521中可以包括人头几何信息、人头漫反射信息和人头伪法线信息。人头点云信息可以输入第三神经网络530进行处理,第三神经网络530通过学习到人头着色信息,可以输出多个视角的人头渲染颜色信息531。通过导出第二神经网络520输出的人头点云信息521,结合第三神经网络530输出的人头渲染颜色信息531,使用渲染管线嵌入动态光照效果,可以生成经渲染得到的二维或三维的虚拟形象541。
通过本公开的上述实施例,提供了一种虚拟形象生成驱动方法,该方法在算力成本、硬件成本、终端适配性、渲染引擎适配、收敛速度等相对其他方法都有很大优势。不仅适用于元宇宙虚拟数字人的生成交互场景,而且适用于目前大多数终端的虚拟形象生成交互场景。有望成为元宇宙中多终端数字人生成显示交互的标准形态。
图6示意性示出了根据本公开实施例的虚拟形象生成装置的框图。
如图6所示,虚拟形象生成装置600包括目标点云确定模块610和生成模块620。
目标点云确定模块610,用于根据对象第一子区域的第一子区域点云信息和对象第二子区域的第二子区域几何信息,确定对象目标区域的目标区域点云信息,对象目标区域包括对象第一子区域和对象第二子区域。
生成模块620,用于根据目标渲染颜色信息和目标区域点云信息,生成对象目标区域的虚拟形象。
根据本公开的实施例,虚拟形象生成装置还包括视频信息获取模块、相机内外参获取模块、点云构建模块和几何确定模块。
视频信息获取模块,用于获取对象目标区域的视频信息,视频信息包括至少一个视频帧。
相机内外参获取模块,用于获取视频帧的相机内外参。
点云构建模块,用于根据相机内外参,对视频帧中表征对象第一子区域的第一像素区域,构建点云信息,得到第一子区域点云信息。
几何确定模块,用于根据相机内外参和视频帧中表征对象第二子区域的第二像素区域,确定第二子区域几何信息。
根据本公开的实施例,点云构建模块包括第一投影单元和点云构建单元。
第一投影单元,用于根据相机内外参,将视频帧中的第一像素区域投影到三维空间,得到视频帧中的第一像素区域的第一三维表征结果。
点云构建单元,用于对至少一个视频帧中的第一像素区域的第一三维表征结果,构建点云信息,得到第一子区域点云信息。
根据本公开的实施例,几何确定模块包括第二投影单元和几何确定单元。
第二投影单元,用于根据相机内外参,将视频帧中的第二像素区域投影到三维空间,得到视频帧中的第二像素区域的第二三维表征结果。
几何确定单元,用于根据至少一个视频帧中的第二像素区域的第二三维表征结果,确定第二子区域几何信息。
根据本公开的实施例,目标点云确定模块包括几何重建单元和点云重建单元。
几何重建单元,用于根据第一子区域点云信息和第二子区域几何信息,对对象目标区域进行几何重建,得到对象目标区域的目标区域几何信息。
点云重建单元,用于根据第一子区域点云信息、第二子区域几何信息和目标区域几何信息,对对象目标区域进行点云重建,得到目标区域点云信息。
根据本公开的实施例,几何重建单元包括第一几何重建子单元和第二几何重建子单元。
第一几何重建子单元,用于根据第一子区域点云信息和第二子区域几何信息,对对象目标区域中的非第二子区域进行几何重建,得到非第二子区域的非第二子区域几何信息。
第二几何重建子单元,用于根据非第二子区域几何信息和第二子区域几何信息,对对象目标区域进行几何重建,得到目标区域几何信息。
根据本公开的实施例,第一子区域点云信息包括第一子区域伪法线信息、第一子区域漫反射信息。点云重建单元包括渲染子单元、第一点云重建子单元和第二点云重建子单元。
渲染子单元,用于根据第一子区域伪法线信息、第一子区域漫反射信息和第二子区域几何信息,对对象目标区域中的非第一子区域进行渲染,得到非第一子区域的非第一子区域伪法线信息和非第一子区域漫反射信息。
第一点云重建子单元,用于根据非第一子区域伪法线信息和非第一子区域漫反射信息,对非第一子区域进行点云重建,得到非第一子区域的非第一子区域点云信息。
第二点云重建子单元,用于根据第一子区域点云信息、非第一子区域点云信息和目标区域几何信息,对对象目标区域进行点云重建,得到目标区域点云信息。
根据本公开的实施例,目标区域点云信息包括目标区域伪法线信息、目标区域漫反射信息。虚拟形象生成装置还包括渲染模块。
渲染模块,用于根据目标区域伪法线信息、目标区域漫反射信息和目标区域几何信息其中至少一种信息,对目标区域点云信息进行渲染,得到目标渲染颜色信息。
根据本公开的实施例,渲染模块包括第一视角信息确定单元、第一渲染单元和融合单元。
第一视角信息确定单元,用于根据目标区域伪法线信息和目标区域漫反射信息,确定目标点云在第一视角的第一视角伪法线信息和第一视角漫反射信息,目标点云为目标区域点云信息表征的点云。
第一渲染单元,用于根据第一视角伪法线信息、第一视角漫反射信息和目标区域几何信息其中至少一种信息,对所述目标点云在所述第一视角所表征的目标区域点云信息进行渲染,得到目标点云在第一视角的图像空间着色信息。
融合单元,用于对图像空间着色信息和第一视角漫反射信息进行融合,得到目标渲染颜色信息。
根据本公开的实施例,融合单元包括融合子单元和渲染颜色确定子单元。
融合子单元,用于对图像空间着色信息和第一视角漫反射信息进行融合,得到目标点云在第一视角的图像空间渲染颜色信息。
渲染颜色确定子单元,用于根据多个视角的图像空间渲染颜色信息,确定目标渲染颜色信息。
根据本公开的实施例,生成模块包括第二渲染单元、第三渲染单元和生成单元。
第二渲染单元,用于根据目标渲染颜色信息,对目标点云在第二视角所表征的目标区域点云信息进行渲染,得到目标点云在第二视角的第二视角渲染颜色信息和第二视角点云信息。
第三渲染单元,用于根据第二视角渲染颜色信息,对第二视角点云信息进行渲染,得到对象目标区域在第二视角的虚拟形象渲染结果。
生成单元,用于根据虚拟形象渲染结果,生成虚拟形象。
根据本公开的实施例,生成单元包括生成子单元。
生成子单元,用于根据多个视角的虚拟形象渲染结果,生成虚拟形象。
图7示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。
如图7所示,深度学习模型的训练装置700包括第一网络模块710、第二网络模块720、第三网络模块730和训练模块740。
第一网络模块710,用于将对象目标区域的样本视频输入深度学习模型的第一神经网络,得到样本对象第一子区域的样本第一子区域点云信息和样本对象第二子区域的样本第二子区域几何信息,样本视频具有真实渲染颜色标签、真实目标区域点云标签。
第二网络模块720,用于将样本第一子区域点云信息和样本第二子区域几何信息输入深度学习模型的第二神经网络,得到样本对象目标区域的样本目标区域点云信息,样本对象目标区域包括样本对象第一子区域和样本对象第二子区域,样本目标区域点云信息包括样本目标区域漫反射信息和样本目标区域伪法线信息。
第三网络模块730,用于将样本目标区域漫反射信息和样本目标区域伪法线信息输入深度学习模型的第三神经网络,得到样本渲染颜色信息。
训练模块740,用于根据样本渲染颜色信息、真实渲染颜色标签、样本目标区域点云信息和真实目标区域点云标签,对深度学习模型进行训练,得到经训练的深度学习模型。
根据本公开的实施例,第一网络模块包括稀疏点云确定单元、上采样单元和样本点云确定单元。
稀疏点云确定单元,用于根据样本视频,确定第一子区域稀疏点云信息。
上采样单元,用于对第一子区域稀疏点云信息进行上采样,得到第一子区域稠密点云信息。
样本点云确定单元,用于根据第一子区域稀疏点云信息和第一子区域稠密点云信息其中至少之一,确定样本第一子区域点云信息。
图8示意性示出了根据本公开实施例的虚拟形象生成装置的框图。
如图8所示,虚拟形象生成装置800包括视频获取模块810和深度学习模块820。
视频获取模块810,用于获取待处理视频,待处理视频中包括待处理对象。
深度学习模块820,用于将待处理视频输入深度学习模型,得到待处理对象的虚拟形象,其中,深度学习模型是利用根据本公开所述的深度学习模型的训练装置训练得到的。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开的虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开的虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序存储于可读存储介质和电子设备其中至少之一上,计算机程序在被处理器执行时实现本公开的虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至输入/输出(I/O)接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法。例如,在一些实施例中,虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行虚拟形象生成方法和深度学习模型的训练方法其中至少一种方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (33)
1.一种虚拟形象生成方法,包括:
根据对象第一子区域的第一子区域点云信息和对象第二子区域的第二子区域几何信息,确定对象目标区域的目标区域点云信息,所述对象目标区域包括所述对象第一子区域和所述对象第二子区域;以及
根据目标渲染颜色信息和所述目标区域点云信息,生成所述对象目标区域的虚拟形象。
2.根据权利要求1所述的方法,还包括:在所述根据对象第一子区域的第一子区域点云信息和对象第二子区域的第二子区域几何信息,确定对象目标区域的目标区域点云信息之前,
获取所述对象目标区域的视频信息,所述视频信息包括至少一个视频帧;
获取所述视频帧的相机内外参;
根据所述相机内外参,对所述视频帧中表征所述对象第一子区域的第一像素区域,构建点云信息,得到所述第一子区域点云信息;以及
根据所述相机内外参和所述视频帧中表征所述对象第二子区域的第二像素区域,确定所述第二子区域几何信息。
3.根据权利要求2所述的方法,其中,所述根据所述相机内外参,对所述视频帧中表征所述对象第一子区域的第一像素区域,构建点云信息,得到所述第一子区域点云信息包括:
根据所述相机内外参,将所述视频帧中的第一像素区域投影到三维空间,得到所述视频帧中的第一像素区域的第一三维表征结果;以及
对所述至少一个视频帧中的第一像素区域的第一三维表征结果,构建点云信息,得到所述第一子区域点云信息。
4.根据权利要求2所述的方法,其中,所述根据所述相机内外参和所述视频帧中表征所述对象第二子区域的第二像素区域,确定所述第二子区域几何信息包括:
根据所述相机内外参,将所述视频帧中的第二像素区域投影到三维空间,得到所述视频帧中的第二像素区域的第二三维表征结果;以及
根据所述至少一个视频帧中的第二像素区域的第二三维表征结果,确定所述第二子区域几何信息。
5.根据权利要求1-4中任一项所述的方法,其中,所述根据对象第一子区域的第一子区域点云信息和对象第二子区域的第二子区域几何信息,确定对象目标区域的目标区域点云信息包括:
根据所述第一子区域点云信息和所述第二子区域几何信息,对所述对象目标区域进行几何重建,得到所述对象目标区域的目标区域几何信息;以及
根据所述第一子区域点云信息、所述第二子区域几何信息和所述目标区域几何信息,对所述对象目标区域进行点云重建,得到所述目标区域点云信息。
6.根据权利要求5所述的方法,其中,所述根据所述第一子区域点云信息和所述第二子区域几何信息,对所述对象目标区域进行几何重建,得到所述对象目标区域的目标区域几何信息包括:
根据所述第一子区域点云信息和所述第二子区域几何信息,对所述对象目标区域中的非第二子区域进行几何重建,得到所述非第二子区域的非第二子区域几何信息;以及
根据所述非第二子区域几何信息和所述第二子区域几何信息,对所述对象目标区域进行几何重建,得到所述目标区域几何信息。
7.根据权利要求5或6所述的方法,其中,所述第一子区域点云信息包括第一子区域伪法线信息、第一子区域漫反射信息;所述根据所述第一子区域点云信息、所述第二子区域几何信息和所述目标区域几何信息,对所述对象目标区域进行点云重建,得到所述目标区域点云信息包括:
根据所述第一子区域伪法线信息、所述第一子区域漫反射信息和所述第二子区域几何信息,对所述对象目标区域中的非第一子区域进行渲染,得到所述非第一子区域的非第一子区域伪法线信息和非第一子区域漫反射信息;
根据所述非第一子区域伪法线信息和所述非第一子区域漫反射信息,对所述非第一子区域进行点云重建,得到所述非第一子区域的非第一子区域点云信息;以及
根据所述第一子区域点云信息、所述非第一子区域点云信息和所述目标区域几何信息,对所述对象目标区域进行点云重建,得到所述目标区域点云信息。
8.根据权利要求5所述的方法,其中,所述目标区域点云信息包括目标区域伪法线信息、目标区域漫反射信息;所述方法还包括:在所述根据目标渲染颜色信息和所述目标区域点云信息,生成所述对象目标区域的虚拟形象之前,
根据所述目标区域伪法线信息、所述目标区域漫反射信息和所述目标区域几何信息其中至少一种信息,对所述目标区域点云信息进行渲染,得到所述目标渲染颜色信息。
9.根据权利要求8所述的方法,其中,所述根据所述目标区域伪法线信息、所述目标区域漫反射信息和所述目标区域几何信息其中至少一种信息,对所述目标区域点云信息进行渲染,得到所述目标渲染颜色信息包括:
根据所述目标区域伪法线信息和所述目标区域漫反射信息,确定目标点云在第一视角的第一视角伪法线信息和第一视角漫反射信息,所述目标点云为所述目标区域点云信息表征的点云;
根据所述第一视角伪法线信息、所述第一视角漫反射信息和所述目标区域几何信息其中至少一种信息,对所述目标点云在所述第一视角所表征的目标区域点云信息进行渲染,得到所述目标点云在所述第一视角的图像空间着色信息;以及
对所述图像空间着色信息和所述第一视角漫反射信息进行融合,得到所述目标渲染颜色信息。
10.根据权利要求9所述的方法,其中,所述对所述图像空间着色信息和所述第一视角漫反射信息进行融合,得到所述目标渲染颜色信息包括:
对所述图像空间着色信息和所述第一视角漫反射信息进行融合,得到所述目标点云在所述第一视角的图像空间渲染颜色信息;以及
根据多个视角的图像空间渲染颜色信息,确定所述目标渲染颜色信息。
11.根据权利要求9或10所述的方法,其中,所述根据目标渲染颜色信息和所述目标区域点云信息,生成所述对象目标区域的虚拟形象包括:
根据所述目标渲染颜色信息,对所述目标点云在第二视角所表征的目标区域点云信息进行渲染,得到所述目标点云在所述第二视角的第二视角渲染颜色信息和第二视角点云信息;
根据所述第二视角渲染颜色信息,对所述第二视角点云信息进行渲染,得到所述对象目标区域在所述第二视角的虚拟形象渲染结果;以及
根据所述虚拟形象渲染结果,生成所述虚拟形象。
12.根据权利要求11所述的方法,其中,所述根据所述虚拟形象渲染结果,生成所述虚拟形象包括:
根据多个视角的虚拟形象渲染结果,生成所述虚拟形象。
13.一种深度学习模型的训练方法,包括:
将对象目标区域的样本视频输入深度学习模型的第一神经网络,得到样本对象第一子区域的样本第一子区域点云信息和样本对象第二子区域的样本第二子区域几何信息,所述样本视频具有真实渲染颜色标签、真实目标区域点云标签;
将所述样本第一子区域点云信息和所述样本第二子区域几何信息输入深度学习模型的第二神经网络,得到所述样本对象目标区域的样本目标区域点云信息,所述样本对象目标区域包括所述样本对象第一子区域和所述样本对象第二子区域,所述样本目标区域点云信息包括样本目标区域漫反射信息和样本目标区域伪法线信息;
将所述样本目标区域漫反射信息和样本目标区域伪法线信息输入所述深度学习模型的第三神经网络,得到样本渲染颜色信息;以及
根据所述样本渲染颜色信息、所述真实渲染颜色标签、所述样本目标区域点云信息和所述真实目标区域点云标签,对所述深度学习模型进行训练,得到经训练的深度学习模型。
14.根据权利要求13所述的方法,其中,所述将对象目标区域的样本视频输入深度学习模型的第一神经网络,得到样本对象第一子区域的样本第一子区域点云信息包括:
根据所述样本视频,确定第一子区域稀疏点云信息;
对所述第一子区域稀疏点云信息进行上采样,得到第一子区域稠密点云信息;以及
根据所述第一子区域稀疏点云信息和所述第一子区域稠密点云信息其中至少之一,确定所述样本第一子区域点云信息。
15.一种虚拟形象生成方法,包括:
获取待处理视频,所述待处理视频中包括待处理对象;以及
将所述待处理视频输入深度学习模型,得到所述待处理对象的虚拟形象,
其中,所述深度学习模型是利用根据权利要求13-14中任一项所述的方法训练得到的。
16.一种虚拟形象生成装置,包括:
目标点云确定模块,用于根据对象第一子区域的第一子区域点云信息和对象第二子区域的第二子区域几何信息,确定对象目标区域的目标区域点云信息,所述对象目标区域包括所述对象第一子区域和所述对象第二子区域;以及
生成模块,用于根据目标渲染颜色信息和所述目标区域点云信息,生成所述对象目标区域的虚拟形象。
17.根据权利要求16所述的装置,还包括:
视频信息获取模块,用于获取所述对象目标区域的视频信息,所述视频信息包括至少一个视频帧;
相机内外参获取模块,用于获取所述视频帧的相机内外参;
点云构建模块,用于根据所述相机内外参,对所述视频帧中表征所述对象第一子区域的第一像素区域,构建点云信息,得到所述第一子区域点云信息;以及
几何确定模块,用于根据所述相机内外参和所述视频帧中表征所述对象第二子区域的第二像素区域,确定所述第二子区域几何信息。
18.根据权利要求17所述的装置,其中,所述点云构建模块包括:
第一投影单元,用于根据所述相机内外参,将所述视频帧中的第一像素区域投影到三维空间,得到所述视频帧中的第一像素区域的第一三维表征结果;以及
点云构建单元,用于对所述至少一个视频帧中的第一像素区域的第一三维表征结果,构建点云信息,得到所述第一子区域点云信息。
19.根据权利要求17所述的装置,其中,所述几何确定模块包括:
第二投影单元,用于根据所述相机内外参,将所述视频帧中的第二像素区域投影到三维空间,得到所述视频帧中的第二像素区域的第二三维表征结果;以及
几何确定单元,用于根据所述至少一个视频帧中的第二像素区域的第二三维表征结果,确定所述第二子区域几何信息。
20.根据权利要求16-19中任一项所述的装置,其中,所述目标点云确定模块包括:
几何重建单元,用于根据所述第一子区域点云信息和所述第二子区域几何信息,对所述对象目标区域进行几何重建,得到所述对象目标区域的目标区域几何信息;以及
点云重建单元,用于根据所述第一子区域点云信息、所述第二子区域几何信息和所述目标区域几何信息,对所述对象目标区域进行点云重建,得到所述目标区域点云信息。
21.根据权利要求20所述的装置,其中,所述几何重建单元包括:
第一几何重建子单元,用于根据所述第一子区域点云信息和所述第二子区域几何信息,对所述对象目标区域中的非第二子区域进行几何重建,得到所述非第二子区域的非第二子区域几何信息;以及
第二几何重建子单元,用于根据所述非第二子区域几何信息和所述第二子区域几何信息,对所述对象目标区域进行几何重建,得到所述目标区域几何信息。
22.根据权利要求20或21所述的装置,其中,所述第一子区域点云信息包括第一子区域伪法线信息、第一子区域漫反射信息;所述点云重建单元包括:
渲染子单元,用于根据所述第一子区域伪法线信息、所述第一子区域漫反射信息和所述第二子区域几何信息,对所述对象目标区域中的非第一子区域进行渲染,得到所述非第一子区域的非第一子区域伪法线信息和非第一子区域漫反射信息;
第一点云重建子单元,用于根据所述非第一子区域伪法线信息和所述非第一子区域漫反射信息,对所述非第一子区域进行点云重建,得到所述非第一子区域的非第一子区域点云信息;以及
第二点云重建子单元,用于根据所述第一子区域点云信息、所述非第一子区域点云信息和所述目标区域几何信息,对所述对象目标区域进行点云重建,得到所述目标区域点云信息。
23.根据权利要求20所述的装置,其中,所述目标区域点云信息包括目标区域伪法线信息、目标区域漫反射信息;所述装置还包括:
渲染模块,用于根据所述目标区域伪法线信息、所述目标区域漫反射信息和所述目标区域几何信息其中至少一种信息,对所述目标区域点云信息进行渲染,得到所述目标渲染颜色信息。
24.根据权利要求23所述的装置,其中,所述渲染模块包括:
第一视角信息确定单元,用于根据所述目标区域伪法线信息和所述目标区域漫反射信息,确定目标点云在第一视角的第一视角伪法线信息和第一视角漫反射信息,所述目标点云为所述目标区域点云信息表征的点云;
第一渲染单元,用于根据所述第一视角伪法线信息、所述第一视角漫反射信息和所述目标区域几何信息其中至少一种信息,对所述目标点云在所述第一视角所表征的目标区域点云信息进行渲染,得到目标点云在所述第一视角的图像空间着色信息;以及
融合单元,用于对所述图像空间着色信息和所述第一视角漫反射信息进行融合,得到所述目标渲染颜色信息。
25.根据权利要求24所述的装置,其中,所述融合单元包括:
融合子单元,用于对所述图像空间着色信息和所述第一视角漫反射信息进行融合,得到所述目标点云在所述第一视角的图像空间渲染颜色信息;以及
渲染颜色确定子单元,用于根据多个视角的图像空间渲染颜色信息,确定所述目标渲染颜色信息。
26.根据权利要求24或25所述的装置,其中,所述生成模块包括:
第二渲染单元,用于根据所述目标渲染颜色信息,对所述目标点云在第二视角所表征的目标区域点云信息进行渲染,得到所述目标点云在所述第二视角的第二视角渲染颜色信息和第二视角点云信息;
第三渲染单元,用于根据所述第二视角渲染颜色信息,对所述第二视角点云信息进行渲染,得到所述对象目标区域在所述第二视角的虚拟形象渲染结果;以及
生成单元,用于根据所述虚拟形象渲染结果,生成所述虚拟形象。
27.根据权利要求26所述的装置,其中,所述生成单元包括:
生成子单元,用于根据多个视角的虚拟形象渲染结果,生成所述虚拟形象。
28.一种深度学习模型的训练装置,包括:
第一网络模块,用于将对象目标区域的样本视频输入深度学习模型的第一神经网络,得到样本对象第一子区域的样本第一子区域点云信息和样本对象第二子区域的样本第二子区域几何信息,所述样本视频具有真实渲染颜色标签、真实目标区域点云标签;
第二网络模块,用于将所述样本第一子区域点云信息和所述样本第二子区域几何信息输入深度学习模型的第二神经网络,得到所述样本对象目标区域的样本目标区域点云信息,所述样本对象目标区域包括所述样本对象第一子区域和所述样本对象第二子区域,所述样本目标区域点云信息包括样本目标区域漫反射信息和样本目标区域伪法线信息;
第三网络模块,用于将所述样本目标区域漫反射信息和样本目标区域伪法线信息输入所述深度学习模型的第三神经网络,得到样本渲染颜色信息;以及
训练模块,用于根据所述样本渲染颜色信息、所述真实渲染颜色标签、所述样本目标区域点云信息和所述真实目标区域点云标签,对所述深度学习模型进行训练,得到经训练的深度学习模型。
29.根据权利要求28所述的装置,其中,所述第一网络模块包括:
稀疏点云确定单元,用于根据所述样本视频,确定第一子区域稀疏点云信息;
上采样单元,用于对所述第一子区域稀疏点云信息进行上采样,得到第一子区域稠密点云信息;以及
样本点云确定单元,用于根据所述第一子区域稀疏点云信息和所述第一子区域稠密点云信息其中至少之一,确定所述样本第一子区域点云信息。
30.一种虚拟形象生成装置,包括:
视频获取模块,用于获取待处理视频,所述待处理视频中包括待处理对象;以及
深度学习模块,用于将所述待处理视频输入深度学习模型,得到所述待处理对象的虚拟形象,
其中,所述深度学习模型是利用根据权利要求26-27中任一项所述的装置训练得到的。
31.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。
32.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。
33.一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310798428.4A CN116843807B (zh) | 2023-06-30 | 2023-06-30 | 虚拟形象生成、模型的训练方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310798428.4A CN116843807B (zh) | 2023-06-30 | 2023-06-30 | 虚拟形象生成、模型的训练方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116843807A true CN116843807A (zh) | 2023-10-03 |
CN116843807B CN116843807B (zh) | 2024-09-03 |
Family
ID=88159393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310798428.4A Active CN116843807B (zh) | 2023-06-30 | 2023-06-30 | 虚拟形象生成、模型的训练方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116843807B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422815A (zh) * | 2023-12-19 | 2024-01-19 | 北京渲光科技有限公司 | 基于神经辐射场的逆向渲染方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111710036A (zh) * | 2020-07-16 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 三维人脸模型的构建方法、装置、设备及存储介质 |
CN112785492A (zh) * | 2021-01-20 | 2021-05-11 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
WO2022135172A1 (zh) * | 2020-12-25 | 2022-06-30 | 北京一径科技有限公司 | 激光雷达点云处理方法和装置、存储介质及电子装置 |
WO2023272725A1 (zh) * | 2021-07-02 | 2023-01-05 | 华为技术有限公司 | 人脸图像处理方法、装置和车辆 |
US20230047211A1 (en) * | 2020-12-24 | 2023-02-16 | Applications Mobiles Overview Inc. | Method and system for automatic characterization of a three-dimensional (3d) point cloud |
US20230102054A1 (en) * | 2021-09-30 | 2023-03-30 | Nokia Technologies Oy | Method, an apparatus and a computer program product for video encoding and video decoding |
CN116228947A (zh) * | 2022-12-29 | 2023-06-06 | 深圳技术大学 | 一种虚拟形象渲染方法 |
CN116310179A (zh) * | 2023-03-24 | 2023-06-23 | 斯乾(上海)科技有限公司 | 点云补全方法、装置、设备和介质 |
US20230206607A1 (en) * | 2021-12-23 | 2023-06-29 | Cutting Edge AI | Systems and methods for training artificial intelligence models using 3d renderings |
-
2023
- 2023-06-30 CN CN202310798428.4A patent/CN116843807B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111710036A (zh) * | 2020-07-16 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 三维人脸模型的构建方法、装置、设备及存储介质 |
US20230047211A1 (en) * | 2020-12-24 | 2023-02-16 | Applications Mobiles Overview Inc. | Method and system for automatic characterization of a three-dimensional (3d) point cloud |
WO2022135172A1 (zh) * | 2020-12-25 | 2022-06-30 | 北京一径科技有限公司 | 激光雷达点云处理方法和装置、存储介质及电子装置 |
CN112785492A (zh) * | 2021-01-20 | 2021-05-11 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
WO2023272725A1 (zh) * | 2021-07-02 | 2023-01-05 | 华为技术有限公司 | 人脸图像处理方法、装置和车辆 |
US20230102054A1 (en) * | 2021-09-30 | 2023-03-30 | Nokia Technologies Oy | Method, an apparatus and a computer program product for video encoding and video decoding |
US20230206607A1 (en) * | 2021-12-23 | 2023-06-29 | Cutting Edge AI | Systems and methods for training artificial intelligence models using 3d renderings |
CN116228947A (zh) * | 2022-12-29 | 2023-06-06 | 深圳技术大学 | 一种虚拟形象渲染方法 |
CN116310179A (zh) * | 2023-03-24 | 2023-06-23 | 斯乾(上海)科技有限公司 | 点云补全方法、装置、设备和介质 |
Non-Patent Citations (4)
Title |
---|
YUFAN CHEN ET AL: "MonoGaussianAvatar: Monocular Gaussian Point-based Head Avatar", ARXIV, 7 December 2023 (2023-12-07), pages 21057 - 21067 * |
孙曦: "基于双目立体视觉的人脸三维重建与识别", 中国博士学位论文电子期刊网, 15 September 2011 (2011-09-15), pages 2 - 55 * |
查红彬 等: "视觉信息处理研究前沿", 31 December 2019, 上海交通大学出版社, pages: 385 - 386 * |
解仑 等: "智能机器人技术丛书 智能机器人人工心理方法与应用", 31 March 2022, 国防工业出版社, pages: 55 - 56 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422815A (zh) * | 2023-12-19 | 2024-01-19 | 北京渲光科技有限公司 | 基于神经辐射场的逆向渲染方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116843807B (zh) | 2024-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114187633B (zh) | 图像处理方法及装置、图像生成模型的训练方法及装置 | |
CN116612204B (zh) | 图像生成方法、训练方法、装置、电子设备以及存储介质 | |
CN114792355B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN116843807B (zh) | 虚拟形象生成、模型的训练方法、装置及电子设备 | |
WO2021222386A1 (en) | Photometric-based 3d object modeling | |
CN113052962A (zh) | 模型训练、信息输出方法,装置,设备以及存储介质 | |
CN114708374A (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN113870439A (zh) | 用于处理图像的方法、装置、设备以及存储介质 | |
Zhu et al. | Learning-based inverse rendering of complex indoor scenes with differentiable monte carlo raytracing | |
CN115100337A (zh) | 一种基于卷积神经网络的全身人像视频重照明方法和装置 | |
US20240203030A1 (en) | 3d model rendering method and apparatus, electronic device, and storage medium | |
CN113962845B (zh) | 图像处理方法、图像处理装置、电子设备以及存储介质 | |
CN115965735B (zh) | 纹理贴图的生成方法和装置 | |
CN115775300B (zh) | 人体模型的重建方法、人体重建模型的训练方法及装置 | |
CN115082298A (zh) | 图像生成方法、装置、电子设备以及存储介质 | |
CN116843808B (zh) | 基于点云的渲染、模型训练、虚拟形象生成方法及装置 | |
CN116385643B (zh) | 虚拟形象生成、模型的训练方法、装置及电子设备 | |
CN114419253A (zh) | 一种卡通人脸的构建、直播方法及相关装置 | |
CN116012666B (zh) | 图像生成、模型的训练、信息重建方法、装置及电子设备 | |
CN116229008B (zh) | 图像处理方法和装置 | |
CN114820908B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN116051694B (zh) | 虚拟形象生成方法、装置、电子设备以及存储介质 | |
CN118521699B (zh) | 一种虚拟人三维头发丝发型的生成方法及系统 | |
CN116363331B (zh) | 图像生成方法、装置、设备以及存储介质 | |
CN117934733B (zh) | 一种全开放词表3d场景图生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |