CN116152417B - 一种多视点类透视空间拟合与渲染的方法和装置 - Google Patents
一种多视点类透视空间拟合与渲染的方法和装置 Download PDFInfo
- Publication number
- CN116152417B CN116152417B CN202310418876.7A CN202310418876A CN116152417B CN 116152417 B CN116152417 B CN 116152417B CN 202310418876 A CN202310418876 A CN 202310418876A CN 116152417 B CN116152417 B CN 116152417B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- model
- perspective
- space
- voxel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Graphics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明实施例提供一种多视点类透视空间拟合与渲染的方法和装置,该方法包括:获取多视点的二维图;对二维图的三维信息进行透视处理和模糊神经网络处理,得到三维像素空间,对三维像素空间的像素点对点对齐得到第一类像素空间;对第一类像素空间进行三维重建得到三维模型,根据第一类像素空间调节三维模型的体积;根据三维模型中的数据确定体素包,对体素包进行体积渲染得到三维交互模型;将三维交互模型与虚拟场景进行空间拟合得到动态变化的三维模型空间。该方法可以真实地还原三维场景。
Description
技术领域
本发明涉及三维视觉重建领域,具体地涉及一种多视点类透视空间拟合与渲染的方法和装置。
背景技术
随着三维图形计算的发展,通过二维图像渲染重建得到三维视图的技术也在不断地发展。
现有的神经辐射场或 NeRF主要通过Instant NeRF工具实现,具体通过映射不同2D 镜头的颜色和光线强度生成数据,并结合摄像机位置数据将这些来自不同位置的图像连接起来,渲染出一个完整的 3D 场景。该方法对1帧高清图像的推理时间超过50s,一个物体的建模时间长达两天以上,所以整体的推理速度太慢,而且具体的细致纹理也无法还原,存在着部分视角渲染效果不理想的问题。
发明内容
本发明实施例的目的是提供一种多视点类透视空间拟合与渲染的方法和装置,该方法可以对所有视角进行精准地还原。
为了实现上述目的,本发明实施例提供一种多视点类透视空间拟合与渲染的方法,该方法包括:获取多视点的二维图;对所述二维图的三维信息进行透视处理和模糊神经网络处理,得到三维像素空间,对所述三维像素空间的像素点对点对齐得到第一类像素空间;对所述第一类像素空间进行三维重建得到三维模型,根据所述第一类像素空间调节所述三维模型的体积;根据所述三维模型中的数据确定体素包,对所述体素包进行体积渲染得到三维交互模型;将所述三维交互模型与虚拟场景进行空间拟合得到动态变化的三维模型空间。
可选的,所述多视点的二维图至少包括四个不同视角的二维图;所述四个不同视角包括前视角、后视角、左视角及右视角;所述三维信息为通过识别和转换所述二维图得到的信息。
可选的,所述透视处理为对图像进行平行透视、成角透视、倾斜透视、一点透视、二点透视、三点透视中的至少一种处理。
可选的,所述模糊神经网络处理为人工神经网络处理和函数增强型神经网络处理相结合。
可选的,所述根据所述三维模型中的数据确定体素包,包括:对所述三维模型中的数据压缩封装得到体素包;所述三维模型中的数据至少包括光照贴图、网格体及多视点融合图。
可选的,所述空间拟合包括碰撞检测、场景空间建立、空间八叉树更新及视锥裁剪中的至少一种。
另一方面,本发明还提出一种多视点类透视空间拟合与渲染的装置,该装置包括:获取模块,用于获取多视点的二维图;第一处理模块,用于对所述二维图的三维信息进行透视处理和模糊神经网络处理,得到三维像素空间,对所述三维像素空间的像素点对点对齐得到第一类像素空间;第二处理模块,用于对所述第一类像素空间进行三维重建得到三维模型,根据所述第一类像素空间调节所述三维模型的体积;第三处理模块,用于根据所述三维模型中的数据确定体素包,对所述体素包进行体积渲染得到三维交互模型;第四处理模块,用于将所述三维交互模型与虚拟场景进行空间拟合得到动态变化的三维模型空间。
可选的,所述多视点的二维图至少包括四个不同视角的二维图;所述四个不同视角包括前视角、后视角、左视角及右视角;所述三维信息为对通过识别和转换所述二维图得到的信息;所述透视处理为对图像进行平行透视、成角透视、倾斜透视、一点透视、二点透视、三点透视中的至少一种处理。
可选地,所述模糊神经网络处理包括人工神经网络处理和函数增强型神经网络处理。
可选的,所述根据所述三维模型中的数据确定体素包,包括:对所述三维模型中的数据压缩封装得到体素包;所述三维模型中的数据至少包括光照贴图、网格体及多视点融合图。
本发明的一种多视点类透视空间拟合与渲染的方法包括:获取多视点的二维图;对所述二维图的三维信息进行透视处理和模糊神经网络处理,得到三维像素空间,对所述三维像素空间的像素点对点对齐得到第一类像素空间;对所述第一类像素空间进行三维重建得到三维模型,根据所述第一类类像素空间调节所述三维模型的体积;根据所述三维模型中的数据确定体素包,对所述体素包进行体积渲染得到三维交互模型;将所述三维交互模型与虚拟场景进行空间拟合得到动态变化的三维模型空间。该方法可以通过少量的多视点二维图像还原出三维渲染场景,将多视点二维图像基于三维视觉重建,并将多视点二维图像转换为具有物理碰撞的三维数字场景,仅通过视频就可以在虚拟引擎中真实地还原出真实世界场景。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明的一种多视点类透视空间拟合与渲染的方法的流程示意图;
图2是本发明的一种多视点类透视空间拟合与渲染的方法的具体实施例示意图;
图3是本发明的二维图处理的示意图;
图4是本发明的模糊神经网络的示意图;
图5是本发明的对三维模型编辑体积的示意图;
图6是本发明的图像深层处理机制的示意图;
图7是本发明的AI渲染管线的显示模式示意图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
图1是本发明的一种多视点类透视空间拟合与渲染的方法的流程示意图,如图1所示,该方法包括:步骤S101为获取多视点的二维图。优选的,所述多视点的二维图至少包括四个不同视角的二维图;所述四个不同视角包括前视角、后视角、左视角及右视角。对所述二维图进行识别和存储转换,使得二维信息转化为三维信息,得到三维信息;具体的,对于目标物体的进行多个视角拍摄采集图像,多视点代表多种角度拍摄采集图像,类似于把摄像的多个镜头分割再重新组合。可以通过摄像机或者手机来采集多视点的二维图像。
步骤S102为对所述二维图的三维信息进行透视处理和模糊神经网络处理,得到三维像素空间,对所述三维像素空间的像素点对点对齐得到第一类像素空间。所述透视处理为对图像进行平行透视、成角透视、倾斜透视、一点透视、二点透视、三点透视中的至少一种处理。所述透视透视处理即为模拟透视现象,将二维的图像基于三维视觉进行实时三维重建。按照一种具体的实施方式,如图3所示,通过AI模块识别多视点二维图像,获取二维图的第一类像素空间的数据信息。
所述模糊神经网络处理为人工神经网络处理和函数增强型神经网络处理相结合。具体的,人工神经网络(Artificial Neural Network,简称ANN )是指由大量的处理单元(神经元)互相连接而形成的复杂网络结构,是对人脑组织结构和运行机制的某种抽象、简化和模拟,以数学模型模拟神经元活动,是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。所述函数增强型神经网络 (FunctionalLinkNet,简称FLN)是一种无隐含层的新型网络,应用其三阶联合激励增强特性来形成条件进行识别研究。
如图4所示,模糊神经网络是非数值型的非线性函数的逼近器、估计器、和动态系统,其不需要数学模型进行描述,但可用数学工具进行处理。适合于VLSI、光电器件等硬件实现。其工作机制为大量数据的高度连接,通过学习语言变量,通过隐含、推理和去模糊处理获得结果。模糊神经网络是将ANN的学习机制和FLN的人类思维和推理结合起来。用神经元网络来实现模糊隶属函数、模糊推理,属于FLN。神经网络模糊化(ANN)的主要工作就是结合模糊神经的混合系统来处理多视点二维图像。模糊神经元网络可综合模糊逻辑推理和神经网络的非线性变换机制与学习能力,模拟生物神经系统的信号处理机制和过程。本申请基于模糊神经网络快速对齐多视点二维图像的相对应点。结合相对应的点,得到第一类像素空间。
AI模块识别第一类像素空间的数据信息,第一管线根据所述图像数据信息得到所述网格体的光照贴图。光照贴图的作用就是让每个目标物体都拥有自己独特的材质从而对光照做出不同的反应。这样目标物体三维重建后的三维模型放入一个光照场景中能够得到每个物体的一个独特外观,给目标物体的三维模型视觉输出提供足够的灵活性和准确性。所述光照贴图是对图像进行修复。所述第一管线是指三维重建的过程,第一管线主要的作用就是获取少量多视点的拍摄图像,在第一管线中得到三维重建的数据信息。
将所述网格体进行平滑和拓补处理,以及模糊滤波,能有效的过滤掉图像内部的噪声。在空间滤波中,先定义一个掩模,然后将掩模逐步移过像素点,掩模中心即当前像素点的值为掩模内所有像素点的值通过某种方式计算得到,掩模大小可以根据情况选择。但对于边界的点,由于其掩模有一部分在图像外围,所以此时要对其做一些特殊处理来去除图像内部噪声。然后进行拓补处理,拓补关系的建立是以弧段为基础的。弧段是由一系列坐标点组成,是构成多边形边界的数据体,对每个区而言,弧段是有向的。模型节点是弧段的端点,或是数条弧段的端点。拓补是模型要素的空间关系,比如邻接、连通、邻近和重叠等,拓扑关系可以看成是空间约束,可把它们应用到空间数据上。在拓补处理中,一旦建立了模型节点,数据文件便有了模型节点信息。将识别多视点二维图像的原始数据与三维模型有关的数据做离散采样处理。离散采样是指对信号的离散化采样。步骤为采样、量化、编码。采样包括低通采样和带通采样,其都是为了满足奈奎斯特准则。奈奎斯特准则是保证信号无失真传输的条件。这里的无失真并非确保时域上的数据集全部被记录下来,而是保证频谱的完整性。量化通俗说来就是将采样后的数据按大小分类。量化包括均匀量化、对数量化和自适应量化,具体选择需要参考量化信噪比以及其应用的目的。通信里面大体上涉及编码的一般有信源编码和信道编码,在采样时采用信源编码,目的是减少冗余度,而信道编码则是为了提高可靠性以及提高检错纠错功能。将数据进行离散采样处理得到并保存为一个特征文件,以便于进行拓补处理。
步骤S103为对所述第一类像素空间进行三维重建得到三维模型,根据所述第一类像素空间调节所述三维模型的体积。重建的三维模型没有体积大小限制,例如戒指、笔、旋钮等小体积物体,一座城市、街景、大楼等大体积物体。
本申请基于神经网络扭曲多视点二维图像,修正多视点二维图像的透视关系,包括放大和缩小变形等的多视点二维图像的透视关系,校正透视和变形,使得图像更精准,校准单元校准多视点二维图像的数量。本申请对所有的多视点二维图像数量进行校准。数量指事物的多少,对所有导入的图片数据信息的数据量抽象的表达方式。数量只有大小值,没有方向的量,数量运算遵循代数运算法则,对数量进行校准。将第一管线中多视点二维图像的数量和多视点二维图像的数量进行校准。用于快速对齐多视点二维图像的点,得到第一类像素空间,通过第一类像素空间点对点之间的关系AI模块将从第一类像素空间中提取到的三维数据信息,AI模块和校准单元通过不断地调整和校准得到三维模型的数据信息,在第一管线中生成网格体,在本发明中网格体是指三维模型。传统重建的模型基本都是闭合的表面,传统的网格体都是由一个个顶点组成,既没有面也没有体,而本申请中的重建网格体是指三维模型。
步骤S104为根据所述三维模型中的数据确定体素包,对所述体素包进行体积渲染得到三维交互模型。按照一种优选的实施方式,所述根据所述三维模型中的数据确定体素包,包括:对所述三维模型中的数据进行压缩封装得到体素包;所述三维模型中的数据至少包括光照贴图、网格体及多视点融合图。光照贴图可以进一步提升体积质量,例如在多视点二维图像素材场景中的光照中放置不同管线通道合成一张纹理贴图,再在多视点二维图像素材里获取场景实时平行光光照方向,根据光照方向插值不同光照方向离线分配的贴图在虚拟场景中得到实时高质量光照和阴影。
根据所述体素包AI模块自动或手动来打开或者关闭潜识层选择传输至实时引擎中的第二管线或者第四管线。根据所述潜识层选择的第二管线实时渲染重建的得到最终结果三维交互模型。根据所述潜识层选择的第四管线实时得到动态粒子和网格体的结合得到最终结果三维交互模型。
体积素是一种新的储存三维显示数据的方式,体积素不具备传统三维显示的网格体,更像是多个角度的照片和视点组成。在本发明中体积素是经过特别编码的数据,包含传统的网格体和像素显示阵列,但仅用于校准使用。体素包是多视点照片的顺序储存和读取的一种编码格式总称。将所述光照贴图、处理后的网格体和至少四张多角度融合图的数据信息压缩封装,具体可以基于神经网络将数据存储单元的体积素进行压缩封装得到体素包。
按照一种具体的实施方式,基于神经网络将数据存储单元的体积素进行压缩封装,得到体素包。将体素包传输至第二管线,在经过第二管线渲染处理之后,数据封装单元解封装,基于神经网络释放体素包。其中在三维渲染引擎中展示体积素,需要如下步骤:根据需求编辑改变模型体积,得到三维交互模型。当改变三维模型的体积时,通过对已经放大或者缩小的模型进行重新拍摄获得新的多视点二维图像,将新的多视点二维图像进行重建,得到三维交互模型。
将所述体素包传输至实时引擎中,当三维模型的体积不需要改变时,实时引擎将体素包传输至实时引擎中的第二管线中;所述第二管线是指实时AI体积渲染管线将已知视点、光源、三维物体(包含材质纹理信息)、光照模型等信息生成能够交互的三维模型。所述三维模型能与三维数字化场景空间产生物理碰撞,诸如碰撞检测、场景空间建立、空间八叉树更新、视锥裁剪等功能。在该阶段的末端,几何体数据(顶点坐标、法向量、纹理坐标、纹理等)作为几何阶段地输入到引擎中。主要负责顶点坐标变换和光照计算,物体坐标系到世界坐标系,再到观测坐标系。从观察坐标系到视锥体空间,再到规范立方体空间,对空间的立体纵深做处理。立体纵深是指三维世界空间的空间的纵深感。平面构成给人以前进或后退、曲面或阴影以及其他复杂的具有三维化的立体感、纵深感、节奏感和韵律感。三维是指在平面二维系中又加入了一个方向向量构成的空间系。
体积渲染通常是塑造场景中不可或缺的效果,体积渲染有着较高的性能消耗。现有的神经辐射场或 NeRF主要通过Instant NeRF工具实现,具体通过映射不同2D镜头的颜色和光线强度生成数据,并结合摄像机位置数据将这些来自不同位置的图像连接起来,渲染出一个完整的 3D 场景。该方法对1帧高清图像的推理时间超过50s,一个物体的建模时间长达两天以上,所以整体的推理速度太慢,而且具体的细致纹理也无法还原,存在着部分视角渲染效果不理想的问题。而本发明的方法可以真实地还原三维场景。解决了现有技术推理速度慢的问题,可以实时生成高清图像。本发明实现了对图像深层处理及对目标物体的实时建模。
本发明中的图像深层处理机制能够还原出建模模型的细致纹理,而现有的技术无法将建模模型的细致纹理还原。本发明能将建模模型的细致纹理还原的同时还原出物体的材质,以及一分钟重建一个三维模型,而传统技术需要两天以上的时间重建三维模型。
如图6所示,首先将多视点图像通过模糊神经网络处理,也就是进行ANN学习机制和FLN的人类思维推导得到深度学习的模型。深度模型是指深度模型让模型具有泛化能力,所述泛化能力为模型传递特征的相关特性,以及发掘系数包括从未出现过的稀有特征最终标签相关性的能力,深度神经网络通过特征的多次自动组合,可以深度发掘数据中签字的模式,即使是非常稀疏的特征向量输入,也能得到较稳定平滑的推荐概率。特征性的传递即发现数据中或者历史数据中少数或者没有出现的新组合。通过泛化能力得到深度学习模型的部署和路线指向。虚拟摄像系统和网络摄像系统和显示系统通过网络显示媒介的目标物体的三维模型的表面材质和纹理,得到更加精确的深度学习模型的部署和路线指向,实现深度学习模型的自主功能演示。比如风车的多视点二维图像进行深度学习建模得到深度学习模型,此时的深度学习模型在虚拟三维世界中动态演绎,就是风车根据虚拟世界中其他深度学习模型产生新的特性,如风车转动起来。当深度学习模型存在指定路线时,指定路线是由GPU和信息交互文件以及深度学习优化和加速处理模块共同制定,运算控制系统(cpu)按照指定路线运行。
所述三维数字化场景为通过少量的多视点二维图像,实时还原出三维渲染场景。三维重建模型主要是厂区、厂房、花盆、人物、桌子、物料等视觉物体对象的三维模型或模型处理,其要点在于模型的几何精度、精细度、数据量、纹理贴图、光照贴图效果等。
所述第二管线读取体素包信息,将网格体信息隐藏,当处理物理碰撞反应时使用,将至少四张多角度融合图像在第二管线中显示并且渲染,得到扩散高清图,再将光照贴图读取出来。然后图像中的光线处理,主要为对三维数字化场景的光线进行追踪处理。追踪光线是指光线追踪复制图像的光线路线,每一条光线在AI模块中都要用一个数学计算方程式来表示,三维视觉重建,通过图像还原出三维数字场景时,将光线的路径全部还原,然后对三维模型的光照进行贴图处理。数据封装单元基于神经网络将所述体素包中数据释放出来,通过空间拟合得到最终的结果。
如图7所示,所述体素包传输至实时引擎第三管线,还有一种方式通过体素包自动根据体素包数据信息打开或者关闭潜识层。当关闭潜识层时体素包传输至实时引擎中的第二管线。当潜识层打开时传输至第四管线(AI体积渲染管线)。第二管线是三维模型显示的一种方式,其中第四管线就是第二种三维模型的显示方式,第二种显示方式可以选择打开或者关闭。其中第四管线中两种三维模型的组成方式动态粒子(点云、体积渲染素材等)、网格体。
本发明中动态粒子代表着三维模型都是由许多微小粒子组成并显示。动态粒子互动系统通过发射许多微小粒子来表示三维交互模型的动态演绎,实现火、云、烟花、雨、雪花、撞击变形、水流涌动、动作变化等效果的实现。使用动态粒子来显示三维交互模型是用来实现感知视觉和情感体验的体感动态交互,如人体粒子在虚拟粒子空间上走动时,周围的粒子就会跟随移动、散开,还有人体粒子的动作细节、衣服以及面部表情的粒子会跟随自然规律的特征性变化,还原两种不同类物体粒子摩擦的动感。每个粒子是可以连接或动态的,粒子能对不同的物理效应和物理碰撞做出反应。而网格体从存储的角度看,网格体只是由一个顶点组成,既没有面也没有体因为平面,可以由三个点来确定面,立体可以由闭合的面确定,不用额外存储信息,以此达到压缩最大化的目的。所以三维网格体看上去是由若干个三角形组成,存储时都是一些点而已。一个完整的网格体(mesh)可以由一系列基本的几何信息描述。
每个粒子可以是一个光点或网格,并且可以是连接或者动态的。本发明中提出将网格体和动态粒子来重建三维交互模型,将动态粒子和网格体放入AI体素动态管理模型中,网格体结合动态密度的辅助显示粒子来显示点云、或其他体积素等。如现有技术重建的三维交互空间中的点云不是真正意义上的云。当三维交互空间中的人进入灌木从的时候,传统的方式只是人进入一半灌木丛,人遮挡了一部分灌木丛,真实世界的自然规律是人左右两边的灌木从应该向左边或右边移动的动感。因为现有技术中的灌木丛其实是由多角度图像组成。例如当人走进云中,云应该是发生分散式动态变化。所以本发明中结合动态粒子和网格体并兼容普渲染管线实现云或灌木从的动态变化。每个网格体是由三个动态粒子组成的面,可以由三个点来确定面。所以三维网格体看上去是由若干个三角形组成。也就是将网格体中的点替换为粒子,互动系统通过发射许多微小粒子来表示三维交互模型的动态演绎,实现火、云、烟花、雨、雪花、撞击变形、水流涌动、动作变化等效果的实现。使用动态粒子来显示三维交互模型是用来实现感知视觉和情感体验的体感动态交互,就如人体粒子在虚拟粒子空间上走动时,周围的粒子就会跟随移动、散开,还有人体粒子的动作细节、衣服以及面部表情的粒子会跟随自然规律的特征性变化,还原两种不同类物体粒子摩擦的动感。每个粒子是可以连接或动态的,粒子能对不同的物理效应和物理碰撞做出反应。动态粒子是将网格体没有渲染出来的地方给补齐,最终得到最终结果,实现完美的感知视觉和情感体验的体感动态交互。在本申请中空间拟合是指实现将目标物的三维交互模型放入虚拟的场景中,所述三维交互模型能与虚拟场景空间发生一系列交互行为。例如虚拟场景光照发生变化,三维交互模型的光照也发生变化,车子的三维交互模型能在虚拟场景的公路上开动,并且汽车开动与周围的虚拟场景空间的阴影变化能实时显示。数字化人体是指将人体的结构信息数字化,通过计算机技术和图像处理技术,在计算机显示器上显示一个看似真实的模拟人体,再进一步将人体功能性的研究成果加以数字化,将人体功能的信息转换为智能信号赋加到这个人形态框架上。数字化人在三维数字化场景中走动及物理碰撞。
当三维模型的体积大小需要改变时,实时引擎将体素包传输至第三管线中,所述第三管线是指对三维模型的体积进行编辑,根据需求编辑改变模型体积得到三维交互模型。在第三管线中将三维模型调整至合适的体积。将编辑调整后的三维模型显示在第三管线中,获取剪裁数据信息,AI模块处理编辑调整后的三维模型。获取所述编辑调整后三维模型至少前、后、左、右四个视点的多视点二维图像。如图5所示,将这些多视点二维图像传输到第一管管线中,重复第一管线的步骤和第二管线步骤得到最终的结果。
步骤S105为将所述三维交互模型与虚拟场景进行空间拟合得到动态变化的三维模型空间。所述空间拟合包括碰撞检测、场景空间建立、空间八叉树更新及视锥裁剪中的至少一种。
所述空间拟合是指收集空间信息、建立合理的数据解算模型,用以表达空间数据之间的关系。支持向量机应用于空间数据拟合,以便于建立三维模型的空间结构。在拟合空间起伏较大数据时,提出了对支持向量残差再拟合,以提高数据拟合的精度。空间内插算法是一种通过已知点的数据推求同一区域其他位置点数据的计算措施。空间外推算法通过已知的数据信息,推求其他区域数据的措施被称作空间拟合,空间拟合存在拟合函数,拟合函数是线性就叫做线性拟合或者线性回归,拟合函数是非线性就叫做非线性拟合和非线性回归。
本发明解决了现有技术推理速度慢的问题,本发明可以实时生成一帧高清图像。现有技术一个物体建模时间长达两天以上,而本发明实现对一个物体实时建模。现有技术的建模模型的细致纹理无法还原,而本发明中对建模模型的细致纹理精确的还原。现有技术部分视角选择效果不理想,而本发明实现对所有视角进行精准的还原。
本发明还提出一种多视点类透视空间拟合与渲染的装置,该装置包括:获取模块,用于获取多视点的二维图;第一处理模块,用于对所述二维图进行透视处理和模糊神经网络处理,用于对所述二维图的像素点对点对齐得到第一类图像;第二处理模块,用于对所述第一类图像进行三维重建得到三维模型,根据所述二维图的像素调节所述三维模型的体积;第三处理模块,用于根据所述三维模型中的数据确定体素包,对所述体素包进行体积渲染得到三维交互模型;第四处理模块,用于将所述三维交互模型与虚拟场景进行空间拟合得到动态变化的三维模型空间。
按照一种具体的实施方式,如图2所示,首先通过获取模块获取目标物体的多视点的二维图像。所述获取模块采集丰富的透视情节的图像,可以通过摄像机或者手机来采集。将目标物体的多视点的二维图像传输至实时引擎(包括实时渲染软件技术、三维模型重建技术和AI体积编辑技术,也有称为虚拟引擎,游戏引擎,渲染引擎,制作引擎,三维引擎等)中进行处理。具体的,将目标物体的少量多视点二维图像传输至实时引擎中的第一管线中,少量多视点二维图像至少包括前、后、左、右四种视点的四张二维图像。首先通过AI模块识别图像,需要AI模块和对所有多视点二维图像的图像像素模糊神经网络处理。先模糊复杂目标,获得高真实感建模模型,实时引擎沉浸式渲染,其中物体的亮度与颜色和视图强相关。对于三重建三维模型,先通过模糊成像的过程进行建模,通过对模型合成的模糊结果进行分析从而进行去模糊。通过在每个位置变形轨迹来模拟变化的模糊。模糊的建模步骤依次为获取模糊图像、将模糊图像转换成清晰图像、将模糊图像和清晰图像进行卷积、添加噪声。
本发明的一种多视点类透视空间拟合与渲染的方法包括:获取多视点的二维图;对所述二维图进行透视处理和模糊神经网络处理,用于对所述二维图的像素点对点对齐得到第一类图像;对所述第一类图像进行三维重建得到三维模型,根据所述二维图的像素调节所述三维模型的体积;根据所述三维模型中的数据确定体素包,对所述体素包进行体积渲染得到三维交互模型;将所述三维交互模型与虚拟场景进行空间拟合得到动态变化的三维模型空间。该方法可以通过手机或者摄像机获取四种视点的拍摄图像,参照少量的多视点拍摄图像获得具有物理碰撞的三维交互模型。在实时引擎中重建后的三维模型,第二管线可以对三维模型的体积大小进行调节,当模型体积发生改变时将重复三维重建步骤,得到三维交互模型。根据多视点的二维图像还原三维世界的透视空间,基于神经网络和类透视的方法还原出真实三维空间的空间结构,还包括对三维模型的光场空间的搭建,将数据信息从二维规范到立方体空间,空间中各个模型动态变化并且能产生物理碰撞,最终实现真实还原三维场景。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。
Claims (10)
1.一种多视点类透视空间拟合与渲染的方法,其特征在于,该方法包括:
获取多视点的二维图的三维信息;
对所述二维图的三维信息进行透视处理和模糊神经网络处理,得到三维像素空间,对所述三维像素空间的像素点对点对齐得到第一类像素空间;
对所述第一类像素空间进行三维重建和实时渲染得到三维模型,根据所述第一类像素空间调节所述三维模型的体积;
根据所述三维模型中的数据确定体素包,对所述体素包进行体积渲染得到三维交互模型,所述三维交互模型为动态粒子和网格体的结合;
将所述三维交互模型与虚拟场景进行空间拟合得到动态变化的三维模型空间;
所述多视点的二维图至少包括四个不同视角的二维图;
所述三维信息为通过识别和转换所述二维图得到的信息;
所述根据所述三维模型中的数据确定体素包,对所述体素包进行体积渲染得到三维交互模型,包括:
对所述三维模型中的数据压缩封装得到体素包,所述体素包为多视点的二维图的顺序储存和读取的一种编码格式;
当改变三维模型的体积时,对改变的三维模型进行重新拍摄获得新的多视点的二维图,对新的多视点的二维图进行重建,确定三维交互模型。
2.根据权利要求1所述的方法,其特征在于,
所述四个不同视角包括前视角、后视角、左视角及右视角。
3.根据权利要求1所述的方法,其特征在于,
所述透视处理为对图像进行平行透视、成角透视、倾斜透视、一点透视、二点透视、三点透视中的至少一种处理。
4.根据权利要求1所述的方法,其特征在于,
所述模糊神经网络处理为人工神经网络处理和函数增强型神经网络处理相结合。
5.根据权利要求1所述的方法,其特征在于,
所述三维模型中的数据至少包括光照贴图、网格体及多视点融合图。
6.根据权利要求1所述的方法,其特征在于,
所述空间拟合包括碰撞检测、场景空间建立、空间八叉树更新及视锥裁剪中的至少一种。
7.一种多视点类透视空间拟合与渲染的装置,其特征在于,该装置包括:
获取模块,用于获取多视点的二维图;
第一处理模块,用于对所述二维图的三维信息进行透视处理和模糊神经网络处理,得到三维像素空间,对所述三维像素空间的像素点对点对齐得到第一类像素空间;
第二处理模块,用于对所述第一类像素空间进行三维重建得到三维模型,根据所述第一类像素空间调节所述三维模型的体积;
第三处理模块,用于根据所述三维模型中的数据确定体素包,对所述体素包进行体积渲染得到三维交互模型,所述三维交互模型为动态粒子和网格体的结合;
第四处理模块,用于将所述三维交互模型与虚拟场景进行空间拟合得到动态变化的三维模型空间;
所述多视点的二维图至少包括四个不同视角的二维图;
所述三维信息为通过识别和转换所述二维图得到的信息;
所述根据所述三维模型中的数据确定体素包,对所述体素包进行体积渲染得到三维交互模型,包括:
对所述三维模型中的数据压缩封装得到体素包,所述体素包为多视点的二维图的顺序储存和读取的一种编码格式;
当改变三维模型的体积时,对改变的三维模型进行重新拍摄获得新的多视点的二维图,对新的多视点的二维图进行重建,确定三维交互模型。
8.根据权利要求7所述的装置,其特征在于,
所述四个不同视角包括前视角、后视角、左视角及右视角;
所述透视处理为对图像进行平行透视、成角透视、倾斜透视、一点透视、二点透视、三点透视中的至少一种处理。
9.根据权利要求7所述的装置,其特征在于,
所述模糊神经网络处理包括人工神经网络处理和函数增强型神经网络处理。
10.根据权利要求7所述的装置,其特征在于,
所述三维模型中的数据至少包括光照贴图、网格体及多视点融合图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310418876.7A CN116152417B (zh) | 2023-04-19 | 2023-04-19 | 一种多视点类透视空间拟合与渲染的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310418876.7A CN116152417B (zh) | 2023-04-19 | 2023-04-19 | 一种多视点类透视空间拟合与渲染的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116152417A CN116152417A (zh) | 2023-05-23 |
CN116152417B true CN116152417B (zh) | 2023-06-23 |
Family
ID=86350941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310418876.7A Active CN116152417B (zh) | 2023-04-19 | 2023-04-19 | 一种多视点类透视空间拟合与渲染的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116152417B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117456076A (zh) * | 2023-10-30 | 2024-01-26 | 神力视界(深圳)文化科技有限公司 | 一种材质贴图生成方法及相关设备 |
CN117876550B (zh) * | 2024-03-11 | 2024-05-14 | 国网电商科技有限公司 | 一种基于大数据的虚拟数字人渲染方法、系统及终端设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109658449B (zh) * | 2018-12-03 | 2020-07-10 | 华中科技大学 | 一种基于rgb-d图像的室内场景三维重建方法 |
CN110633628B (zh) * | 2019-08-02 | 2022-05-06 | 杭州电子科技大学 | 基于人工神经网络的rgb图像场景三维模型重建方法 |
CN112465955B (zh) * | 2020-12-10 | 2023-04-07 | 浙江大学 | 一种动态人体三维重建和视角合成方法 |
CN114255313B (zh) * | 2022-02-28 | 2022-05-24 | 深圳星坊科技有限公司 | 镜面物体三维重建方法、装置、计算机设备和存储介质 |
CN114782634B (zh) * | 2022-05-10 | 2024-05-14 | 中山大学 | 基于表面隐函数的单目图像着装人体重建方法与系统 |
CN115841539A (zh) * | 2022-11-28 | 2023-03-24 | 北京邮电大学 | 一种基于可视外壳的三维光场生成方法和装置 |
-
2023
- 2023-04-19 CN CN202310418876.7A patent/CN116152417B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116152417A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116152417B (zh) | 一种多视点类透视空间拟合与渲染的方法和装置 | |
CN112465955B (zh) | 一种动态人体三维重建和视角合成方法 | |
CN103021017B (zh) | 基于gpu加速的三维场景重建方法 | |
JP4679033B2 (ja) | 深度マップのメジアン値融合のためのシステムおよび方法 | |
CN110570522B (zh) | 一种多视图三维重建方法 | |
CN110223370B (zh) | 一种从单视点图片生成完整人体纹理贴图的方法 | |
CN104732585A (zh) | 一种人体体型重构的方法及装置 | |
CN110246209B (zh) | 图像处理方法及装置 | |
US11887256B2 (en) | Deferred neural rendering for view extrapolation | |
EP3533218B1 (en) | Simulating depth of field | |
CN104077808A (zh) | 一种用于计算机图形图像处理的、基于深度信息的实时三维人脸建模方法 | |
CN112837406A (zh) | 一种三维重建方法、装置及系统 | |
CN115841559A (zh) | 一种基于神经辐射场的城市大场景重建方法 | |
KR20110062083A (ko) | 영상 복원 장치 및 그 방법 | |
CN116977522A (zh) | 三维模型的渲染方法、装置、计算机设备和存储介质 | |
CN114998515A (zh) | 一种基于多视角图像的3d人体自监督重建方法 | |
CN113763231A (zh) | 模型生成方法、图像透视图确定方法、装置、设备及介质 | |
Zhang et al. | [Retracted] Virtual Reality Design and Realization of Interactive Garden Landscape | |
CN108230378A (zh) | 一种基于光线追踪的计算全息遮挡处理算法 | |
JP2007507945A (ja) | 立体映像化 | |
CN113989434A (zh) | 一种人体三维重建方法及设备 | |
CN113139992A (zh) | 多分辨率体素网格化 | |
CN109816765B (zh) | 面向动态场景的纹理实时确定方法、装置、设备和介质 | |
Freer et al. | Novel-view synthesis of human tourist photos | |
CN114723915A (zh) | 一种基于多视红外的稠密点云生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |