CN115049783A - 模型的确定方法、场景重建模型、介质、设备及产品 - Google Patents

模型的确定方法、场景重建模型、介质、设备及产品 Download PDF

Info

Publication number
CN115049783A
CN115049783A CN202210560348.0A CN202210560348A CN115049783A CN 115049783 A CN115049783 A CN 115049783A CN 202210560348 A CN202210560348 A CN 202210560348A CN 115049783 A CN115049783 A CN 115049783A
Authority
CN
China
Prior art keywords
scene
reconstruction model
grained
image
coarse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210560348.0A
Other languages
English (en)
Other versions
CN115049783B (zh
Inventor
曹佳炯
丁菁汀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210560348.0A priority Critical patent/CN115049783B/zh
Publication of CN115049783A publication Critical patent/CN115049783A/zh
Application granted granted Critical
Publication of CN115049783B publication Critical patent/CN115049783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本说明书实施例提供一种场景重建模型的确定方法及装置、场景重建模型、计算机可读存储介质、电子设备及计算机程序产品,该方法包括:获取多个场景中每个场景对应的图像,并根据多个场景的图像将上述多个场景划分为多个场景类。通过每个场景类对应的图像训练原始重建模型,得到该场景类对应的粗粒度场景重建模型。进一步地,根据每个场景所属场景类所对应的粗粒度场景重建模型,确定每个场景对应的细粒度场景重建模型。进一步地,对于每个场景来说,级联该场景所属场景类所对应的粗粒度场景重建模型与该场景对应的细粒度场景重建模型,并将其作为该场景的场景重建模型。

Description

模型的确定方法、场景重建模型、介质、设备及产品
技术领域
本说明书涉及场景数字化技术领域,尤其涉及一种场景重建模型的确定方法及装置、场景重建模型、计算机可读存储介质、电子设备以及计算机程序产品。
背景技术
随着元宇宙以及数字孪生概念的兴起,人们对于物理世界在数字世界的各种重建(即,场景重建)的需求变得愈加强烈。例如,在数字世界重建一条购物街,让用户拥有和线下完全一致的逛街体验,相比传统的手机浏览商品就会有更加真实的感受。
相关技术中每个场景需训练一个模型。例如,为需要场景重建的小卖部训练一机器学习模型,得到该小卖部对应的场景重建模型a,从而通过该场景重建模型a能够实现对应小卖部的重建。为需要场景重建的衣服店训练一机器学习模型,得到该衣服店对应的场景重建模型b,从而通过该场景重建模型b能够实现对应衣服店的重建。然而,由于每个场景都需要单独训练模型,当需要重建的场景数量较多的情况下,云端的训练压力和存储压力就会很大。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本说明书的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本说明书的目的在于提供一种场景重建模型的确定方法及装置、场景重建模型、计算机可读存储介质、电子设备以及计算机程序产品,至少在一定程度上缓解了云端的训练压力和存储压力。
本说明书的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本说明书的实践而习得。
根据本说明书的一个方面,提供一种场景重建模型的确定方法,该方法包括:获取M个场景中每个场景对应的图像,根据上述M个场景的图像将上述M个场景划分为N个场景类,N小于M,每个场景类对应于至少一个场景;通过第i个场景类对应的图像训练原始重建模型,得到第i粗粒度场景重建模型,i取值为1至N之间且包括1和N的整数;根据第j个场景所对应的第h粗粒度场景重建模型,确定第j个场景对应的第j细粒度场景重建模型,j取值为1至M之间且包括1和M的整数,h取值为不大于N的正整数;以及,级联上述第h粗粒度场景重建模型与上述第j细粒度场景重建模型,得到上述第j场景的场景重建模型。
根据本说明书的另一个方面,提供一种场景重建模型,目标场景对应的场景重建模型包括:粗粒度场景重建模型部分和细粒度场景重建模型部分;
其中,上述粗粒度场景重建模型部分为根据与上述目标场景的图像之间相似度大于预设值的图像训练得到;上述细粒度场景重建模型部分为根据上述目标场景的图像以及粗粒度生成图像训练得到,上述粗粒度生成图像为上述目标场景的图像为经上述粗粒度场景重建模型部分处理得到的。
根据本说明书的再一个方面,提供一种场景重建模型的确定装置,该装置包括:获取模块、第一确定模块、第二确定模块,以及级联模块。
其中,上述获取模块,用于获取M个场景中每个场景对应的图像,根据上述M个场景的图像将上述M个场景划分为N个场景类,N小于M,每个场景类对应于至少一个场景;上述第一确定模块,用于通过第i个场景类对应的图像训练原始重建模型,得到第i粗粒度场景重建模型,i取值为1至N之间且包括1和N的整数;上述第二确定模块,用于根据第j个场景所对应的第h粗粒度场景重建模型,确定第j个场景对应的第j细粒度场景重建模型,j取值为1至M之间且包括1和M的整数,h取值为不大于N的正整数;以及,上述级联模块,用于级联上述第h粗粒度场景重建模型与上述第j细粒度场景重建模型,得到上述第j场景的场景重建模型。
根据本说明书的另一个方面,提供一种电子设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述实施例中的场景重建模型的确定方法。
根据本说明书的一个方面,提供一种计算机可读存储介质,上述计算机可读存储介质中存储有指令,当上述指令在计算机或处理器上运行时,使得上述计算机或处理器执行如上述实施例中的场景重建模型的确定方法。
根据本说明书的另一个方面,提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或处理器执行如上述实施例中的场景重建模型的确定方法。
本说明书的实施例所提供的场景重建模型的确定方法及装置、场景重建模型、计算机可读存储介质、电子设备以及计算机程序产品,具备以下技术效果:
本说明书示例性适用于多个场景的场景重建模型的确定方案。具体地,获取M个场景中每个场景对应的图像,并根据M个场景的图像将M个场景划分为N个场景类。通过第i个场景类对应的图像训练原始重建模型,得到该场景类对应的粗粒度场景重建模型,记作“第i粗粒度场景重建模型”。根据第j个场景所对应的第h粗粒度场景重建模型,确定第j个场景对应的第j细粒度场景重建模型。进一步地,级联第h粗粒度场景重建模型与第j细粒度场景重建模型,得到第j场景的场景重建模型。
本说明书实施例无需针对每个场景均训练一个模型,而是同一场景类中的多个场景共享相同的粗粒度场景重建模型,从而有利于缓解云端的训练压力和存储压力。同时,为了保证模型的数字化精度,对于每个场景,在粗粒度场景重建模型的基础上确定该场景对应的细粒度场景重建模型,进一步地,结合粗粒度场景重建模型和细粒度场景重建模型来实现场景重建,在缓解云端的训练压力和存储压力的同时,还可以满足场景重建的精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一实施例提供的场景重建模型的确定方法的流程示意图。
图2为本说明书一实施例提供的场景图像获取方法的流程示意图。
图3为本说明书为一实施例提供的粗粒度场景重建模型的确定方法的流程示意图。
图4为本说明书一实施例提供的将多个场景划分为场景类的方法的流程示意图。
图5为本说明书另一实施例提供的粗粒度场景重建模型的确定方法的流程示意图。
图6为本说明书一实施例提供的细粒度场景重建模型的确定方法的流程示意图。
图7为本说明书另一实施例提供的细粒度场景重建模型的确定方法的流程示意图。
图8为本说明书再一实施例提供的细粒度场景重建模型的确定方法的流程示意图。
图9为本说明书一实施例提供的关于第j场景的场景重建方法的流程示意图。
图10为本说明书一实施例提供的场景重建模型的结构示意图。
图11为本说明书一实施例提供的场景重建模型的确定装置的结构示意图。
图12为本说明书另一实施例提供的场景重建模型的确定装置的结构示意图。
图13为本说明书实施例提供的电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合附图对本说明书实施例方式作进一步地详细描述。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本说明书将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本说明书的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本说明书的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本说明书的各方面变得模糊。
此外,附图仅为本说明书的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在数字世界除了重建线下店铺,另外物理世界的街道、建筑等也有重建的需求。这类场景重建的过程可以称作为场景数字化(或者称为场景重建)。相关技术提供的方案是基于神经辐射场的场景数字化方法。这类方法需要采集较为密集的多视角场景图像(仅需要RGB信息),然后通过估计不同视角的相机姿态,得到RGB信息和姿态信息作为模型的输入信息。进一步地,使用输入信息训练神经网络估计得到场景密度和各个视角的RGB信息,最终利用这个模型可以完成场景的各角度展示。其优点在于成本低,使用手机等通用采集设备就可以完成重建工作。但是每个场景都需要单独训练模型,导致云端存储压力较大,同时训练压力也大。
为了解决相关技术存在的问题,本说明书实施例提出了一种场景重建模型的确定方法及装置、场景重建模型、计算机可读存储介质、电子设备以及计算机程序产品。
具体的,以下先通过图1至图9对本说明书提供的场景重建模型的确定方法实施例进行详细阐述:
示例性的,图1为本说明书一实施例提供的场景重建模型的确定方法的流程示意图。参考图1,该图所示实施例包括:S110-S140。
在S110中,获取M个场景中每个场景对应的图像,根据上述M个场景的图像将上述M个场景划分为N个场景类。
其中,M取值为正整数。
在示例性的实施例中,对于M个场景中的任意一个场景如图2,可以采集设备可以是手机或者外接摄像头等等,对于架子鼓场景22,可以在多个角度(如图中24)下拍摄图像,从而获取关于架子鼓场景22的多张图像,例如,采集不同视角数据约50张左右。
在示例性的实施例中,在获取M个场景中每个场景对应的图像之后,根据上述M个场景的图像将上述M个场景划分为N个场景类。示例性的参考图3,对于多个场景(场景A、场景B、场景C、场景D以及场景E)中的图像均进行特征处理(步骤(1)),得到每个场景对应的图像特征。进一步地,对于根据多个场景对应的图像特征对多个场景进行分类(步骤(2))。
示例性的,图4为本说明书一实施例提供的对场景的分类方法的流程示意图,可以作为S110的一种具体实施方式。参考图4,该图所示实施例包括:S1102-S1106。
在S1102中,通过预训练的特征提取模型对上述关于上述M个场景的每张图像进行特征提取。
示例性的,利用预训练后的非对称卷积模型Inception-v3对于每一个场景的每一张图像进行特征提取,其中,Inception-v3可以是基于ImageNet数据集训练得到的。示例性的,通过Inception-v3对第j场景中第s张图像xjs进行特征提取得到图像xjs对应的特征fjs可以表示为:
fjk=g(xjk)
其中,s的取值为1至S之间的整数,S表示第j个场景中用于参与计算聚合特征Fj的特征数量。
在S1104中,对每个场景中图像对应的提取特征进行特征聚合,得到每个场景分别对应的聚合特征。
示例性的,第j个场景对应的聚合特征Fj可以表示为:
Figure BDA0003654964740000071
在S1106中,根据上述每个场景分别对应的聚合特征,进行相似度计算,并根据上述相似度将上述M个场景分类为N个场景类。
其中,M和N均为正整数,且N小于M,也就是说,每个场景类至少包含一个场景。
示例性的,可以利用如下公式计算第j个场景与第j+1个场景之间的相似度scorej,j+1可以表示为:
scorej,j+1=Fj*Fj+1/(||Fj||*||Fj+1||)
在示例性的实施例中,若两场景之间的score大于预设值(如0.8),则将相关场景确定为属于同一场景类。例如,参考图3,场景A、场景B和场景C两两之间的相似度大于预设值,则可以确定场景A、场景B和场景C属于同一场景类(场景类S1)。同时,场景D与场景A/场景B/场景C之间的相似度不大于上述预设值,则场景D则不属于场景类S1,而属于场景类S2。
图4所示实施例中,对于M个场景中的每个场景,确定出用于代表该场景的聚合向量,进一步地,根据聚合向量来计算场景之间的相似度,并将相似度较高的场景聚类为同一场景类。以下实施例中将针对每个场景类来确定一粗粒度场景重建模型,以减少模型的训练压力以及模型的存储压力。
在S120中,通过第i个场景类对应的图像训练原始重建模型,得到第i粗粒度场景重建模型。其中,i取值为1至N之间且包括1和N的整数。
在示例性的实施例中,参考图3,通过第S1个场景类对应的图像来训练(步骤(3))原始重建模型,即,通过关于场景A的图像、关于场景B的图像以及关于场景C的图像训练(步骤(3))原始重建模型,得到第S1粗粒度场景重建模型。同理,通过第S2个场景类对应的图像来训练(步骤(3))原始重建模型,即,通过关于场景D的图像以及关于场景E的图像训练(步骤(3))原始重建模型,得到第S2粗粒度场景重建模型。
示例性的,上述原始重建模型可以采用神经辐射场(Neural Radiance Fields,NeRF),采用神经辐射场可仅基于RGB图像训练神经网络估计得到场景密度和各个视角的RGB信息,最终利用这个模型可以完成该场景类中各个场景在各角度的图像展示。
在示例性的实施例中,图5为本说明书一实施例提供的粗粒度场景重建模型的确定方法的流程示意图,可以作为S120的一种具体实施方式。参考图5,该图所示实施例包括:
参考图5,本实施例中所采用的原始重建模型50包括:多层感知器(Multi-LayerPerception,MLP)部分510和全连接部分520。通过属于第i个场景类的图像来训练该场景类对应的场景重建模型(记作:第i粗粒度场景重建模型)。图5所示实施例中以属于第i个场景类的任一个场景的图像(记作,第k个图像,k取值为正整数)为例,介绍确定第i粗粒度场景重建模型。具体地:
S1:对第i场景类中第k个图像进行视角估计:使用已有方法p()对第k个图像xik进行视角估计,得到视角参数θik,如下面公式(1)所示:
θik=p(xik) (1)
S2:将第k个图像输入(步骤(1))至原始重建模型50的MLP部分510进行特征处理,MLP部分510输出(步骤(2))第k场景密度特征和第k中间特征。本实施例中用于进行模型训练的训练样本包含属于第i场景类的N’个图像,则k的取值为不大于N’的正整数。
示例性的,当场景的面积较大时,可以适当增加模型的层数和输出特征的维度。
S3:将上述第k中间特征和第k个图像的第k视角参数θik输入(步骤(3))原始重建模型50的全连接部分520进行特征处理,全连接部分520输出(步骤(4))第k视角下的第k颜色特征。本实施例中,经过上述特征处理之后,记作C(xikik)。
S4:对第k场景密度特征和第k颜色特征进行渲染(步骤(5))处理,得到第k个生成图像,记作render(C(xikik))。其中,示例性的渲染函数为render(),也可以采用view(),本文对此不做限定。
S5:根据第i场景类中第k个图像xik和第k个生成图像render(C(xikik))确定关于第i粗粒度场景重建模型的损失函数(记作,第一损失函数)。
示例性的,上述第一损失函数Lossicorase可以表示以下公式(2),具体为多个视角的渲染重建的render(C(xikik))对应的第k个图像xk之间的L2范数(步骤(6))。
Figure BDA0003654964740000091
本实施例中,N’代表训练原始场景模型的属于第i场景类的图像的数量。
S6:基于上述第一损失函数优化上述原始重建模型50的模型参数(步骤(7)),得到第i粗粒度场景重建模型500。示例性的,基于上述原始重建模型50和第一损失函数Lossicorase进行模型训练,直至模型收敛。
通过图5所示实施例,针对每个场景类来确定一粗粒度场景重建模型,以减少模型的训练压力以及模型的存储压力。进一步地,为了提升每个场景的数字化精度,以下实施例将介绍为每个场景确定一细粒度场景重建模型。
继续参考图1,为了提升每个场景重建精度,通过S130确定每个场景对应的中细粒度场景重建模型。具体地,对于第j个场景,首先确定第j个场景所对应的粗粒度场景重建模型(记作,第h粗粒度场景重建模型)。进一步地,根据第h粗粒度场景重建模型,确定第j个场景对应的细粒度场景重建模型(记作,第j细粒度场景重建模型)。
在示例性的实施例中,图6为本说明书一实施例提供的细粒度场景重建模型的确定方法的流程示意图,可以作为S130的一种具体实施方式。参考图6,该图所示实施例包括:S1302-S1308。
在S1302中,对于第j个场景,确定上述第j个场景所属的第h个场景类。其中,j取值为1至M之间且包括1和M的整数,h取值为不大于N的正整数。
在S1304中,将上述第j个场景中的第s个图像输入至上述第h粗粒度场景重建模型,得到上述第j个场景中的第s个图像对应的第s个粗粒度生成图像。
示例性的,上述第h粗粒度场景重建模型,为第h个场景类的图像根据图5所示实施例的方法而确定的。
示例性的,获取关于第j场景的多张图像(参考图2),例如,每个场景采集50帧左右。参考图7,将第j个场景中的第s个图像输入(步骤(4))至上述第h粗粒度场景重建模型710,经过该模型处理之后,输出(步骤(5))第j个场景中的第s个图像xjs对应的第s个粗粒度生成图像render(Ccorase(xjsjs))。
在S1306中,将上述第j个场景中的第s个图像对应的第s个粗粒度生成图像,与上述第j个场景中的第s个图像作为第s组训练样本。以及,在S1308中,通过多组上述训练样本训练训练原始重建模型,得到上述第j个场景对应的第j细粒度场景重建模型。
示例性的,再次参考图7,将上述第s个图像xjs对应的第s个粗粒度生成图像render(Ccorase(xjsjs)),与上述第s个图像xjs作为第s组训练样本,记作(xjs,render(Ccorase(xjsjs)))。并通过多组上述训练样本训练训练原始重建模型(步骤(6)),得到上述第j个场景对应的第j细粒度场景重建模型720。
在示例性的实施例中,图8为本说明书一实施例提供的细粒度场景重建模型的确定方法的流程示意图,可以作为S1308的一种具体实施方式。参考图8:
S1:对关于第j场景中的第s组训练样本(xjs,render(Ccorase(xjsjs))),中的第s个图像xjs进行视角估计:使用已有方法p()对xjs进行视角估计,得到视角参数θjs,如公式(1)所示:
θjs=p(xjs) (1)
S2:将第s组训练样本中的第s个图像xjs以及第s个粗粒度场景重建图像render(Ccorase(xjsjs)),输入(步骤(1))至原始重建模型80的MLP部分810进行特征处理,MLP部分810输出(步骤(2))第s场景密度特征和第s中间特征。本实施例中用于进行模型训练的训练样本包含属于第j场景类的M’个图像,则s的取值为不大于M’的正整数。
示例性的,当场景的面积较大时,可以适当增加模型的层数和输出特征的维度。
S3:将上述第s中间特征和第s个图像的第s视角参数θjs输入(步骤(3))原始重建模型80的全连接部分820进行特征处理,全连接部分820输出(步骤(4))第s视角下的第s颜色特征。本实施例中,经过上述特征处理之后,记作Cfine(xjsjs)。
S4:对第s场景密度特征和第s颜色特征进行渲染(步骤(5))处理,得到第s个细粒度生成图像,记作render(Cfine(xjsjs))。其中,示例性的渲染函数为render(),也可以采用view(),本文对此不做限定。
S5:根据第j场景中第s个图像xjs、第s个粗粒度生成图像render(Ccorase(xjsjs))以及第s个细粒度生成图像render(Cfine(xjsjs)),确定关于第j细粒度场景重建模型的损失函数(记作,第二损失函数)。
在示例性的实施例中,根据第j场景中的第s个图像xjs和第s个粗粒度生成图像render(Ccorase(xjsjs)),确定上述第s组训练样本对应的粗粒度损失
Figure BDA0003654964740000121
根据上述第s个图像xjs和上述第s个细粒度生成图像render(Cfine(xjsjs)),确定上述第s组训练样本对应的细粒度损失
Figure BDA0003654964740000122
进一步地,根据上述第s组训练样本对应的粗粒度损失和上述第s组训练样本对应的细粒度损失,确定关于第j细粒度场景重建模型的损失函数,即上述第二损失函数Lossj fine
示例性的,上述第二损失函数Lossj fine可以表示以下公式(3):
Figure BDA0003654964740000123
其中,Lossjfine表示关于所述第j细粒度场景重建模型的损失函数,α为系数,取值为小于1的系数(例如,取值为0.1),M'表示训练样本的组数,xjs表示所述第j场景中的第s个图像,render(Ccoarse(xjsjs))表示第s个粗粒度生成图像,render(Cfine(xjsjs))表示第s个细粒度生成图像,
Figure BDA0003654964740000124
表示第s个图像和第s个粗粒度生成图像之间的L2范数,
Figure BDA0003654964740000125
表示第s个图像和第s个细粒度生成图像之间的L2范数。
本实施例中,M’代表训练原始场景模型的属于第j场景类中图像的数量。
S6:基于上述第二损失函数优化上述原始重建模型80的模型参数(步骤(6)),得到第j细粒度场景重建模型。示例性的,基于上述原始重建模型80和第二损失函数Lossj fine进行模型训练,直至模型收敛。
通过图8所示实施例,针对每个场景来确定一细粒度场景重建模型,以通过级联该场景对应的粗粒度场景重建模型与细粒度场景重建模型,以提升场景的重建精度。
再次参考图1,在S140中,级联上述第h粗粒度场景重建模型与上述第j细粒度场景重建模型,得到上述第j场景的场景重建模型。
示例性的,参考图9,上述第j场景的场景重建模型900是通过将上述第h粗粒度场景重建模型710与上述第j细粒度场景重建模型720级联得到的。
示例性的,在得到上述第j场景的场景重建模型900之后,将关于第j场景的目标视角输入(步骤(1))至第h粗粒度场景重建模型710,经过第h粗粒度场景重建模型710处理之后,输出(步骤(2))目标视角下粗粒度生成图像。进一步地,将上述目标视角下粗粒度生成图像输入(步骤(3))至第j细粒度场景重建模型720,经过第j细粒度场景重建模型720处理之后,输出(步骤(4))目标视角下细粒度生成图像。
在示例性的实施例中,上述级联后的场景重建模型可以用于对应场景的场景数字化,具体地:可以将级联后的场景重建模型型部署在云端。则当用户从视角θ进行观察时,级联后的场景重建模型可以输出视角θ相应的细粒度的RGB生成图像,向用户进行展示。
在示例性的实施例中,图10为本说明书一实施例提供的场景重建模型的结构示意图。
参考图10,目标场景对应的场景重建模型1000包括:粗粒度场景重建模型部分1010和细粒度场景重建模型部分1020。其中,上述粗粒度场景重建模型部分1010为根据与目标场景的图像之间相似度大于预设值的图像训练得到,上述细粒度场景重建模型部分1020为根据目标场景的图像和粗粒度生成图像训练得到的,其中粗粒度生成图像为目标场景的图像为经粗粒度场景重建模型部分1010处理得到的。
本说明书实施例提供的场景重建模型的确定过程中,无需针对每个场景均训练一个模型,而是同一场景类中的多个场景共享相同的粗粒度场景重建模型,从而有利于缓解云端的训练压力和存储压力。同时,为了保证模型的数字化精度,对于每个场景,在粗粒度场景重建模型的基础上确定该场景对应的细粒度场景重建模型,进一步地,结合粗粒度场景重建模型和细粒度场景重建模型来实现场景重建,在缓解云端的训练压力和存储压力的同时,还可以满足场景重建的精度。
需要注意的是,上述附图仅是根据本说明书示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本说明书装置实施例,可以用于执行本说明书方法实施例。对于本说明书装置实施例中未披露的细节,请参照本说明书方法实施例。
其中,图11示出了可以应用本说明书一实施例的场景重建模型的确定装置的结构示意图。请参见图11,该图所示的场景重建模型的确定装置可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分,还可以作为独立的模块集成于服务器上,还可以作为独立的模块集成于电子设备中。
本说明书实施例中的上述场景重建模型的确定装置1100包括:分类模块1110、第一确定模块1120、第二确定模块1130,以及级联模块1140。
其中,上述分类模块1110,用于获取M个场景中每个场景对应的图像,根据上述M个场景的图像将上述M个场景划分为N个场景类,N小于M,每个场景类对应于至少一个场景;上述第一确定模块1120,用于通过第i个场景类对应的图像训练原始重建模型,得到第i粗粒度场景重建模型,i取值为1至N之间且包括1和N的整数;上述第二确定模块1130,用于根据第j个场景所对应的第h粗粒度场景重建模型,确定第j个场景对应的第j细粒度场景重建模型,j取值为1至M之间且包括1和M的整数,h取值为不大于N的正整数;以及,上述级联模块1040,用于级联上述第h粗粒度场景重建模型与上述第j细粒度场景重建模型,得到上述第j场景的场景重建模型。
在示例性的实施例中,图12示意性示出了根据本说明书另一示例性的实施例中场景重建模型的确定装置的结构图。请参见图12:
在示例性的实施例中,基于前述方案,上述场景重建模型的确定装置1100还包括:图像获取模块1150。
其中,上述图像获取模块1150,用于:获取第j个场景在多角度下的图像,得到关于上述第j个场景的图像。
在示例性的实施例中,基于前述方案,上述分类模块1110,具体用于:通过预训练的特征提取模型对上述关于上述M个场景的每张图像进行特征提取;对每个场景中图像对应的提取特征进行特征聚合,得到每个场景分别对应的聚合特征;以及,根据上述每个场景分别对应的聚合特征,进行相似度计算,并根据上述相似度将上述M个场景分类为N个场景类。
在示例性的实施例中,基于前述方案,上述原始重建模型为神经辐射场,上述原始重建模型包括多层感知机MLP部分和全连接部分;
上述第一确定模块1120,具体用于:
将上述第i个场景类对应的第k个图像输入至上述MLP部分进行特征处理,得到第k场景密度特征和第k中间特征,k取值为正整数;将上述第k中间特征和上述第k个图像的第k视角输入上述全连接部分进行特征处理,得到上述第k视角下的第k颜色特征;对上述第k场景密度特征和上述第k颜色特征进行渲染处理,得到第k个生成图像;以及,根据上述第k个图像和上述第k个生成图像确定第一损失函数,并基于上述第一损失函数优化上述原始重建模型的模型参数,得到上述第i粗粒度场景重建模型。
在示例性的实施例中,基于前述方案,上述第二确定模块1130,包括:样本确定单元11302和模型训练单元11304。
其中,上述样本确定单元11302,用于:对于第j个场景,确定上述第j个场景所属的第h个场景类,j取值为1至M之间且包括1和M的整数,h取值为不大于N的正整数;将上述第j个场景中的目标图像输入至上述第h粗粒度场景重建模型,得到上述第j个场景中的目标图像对应的目标粗粒度生成图像;以及,将上述第j个场景中的目标图像对应的目标粗粒度生成图像,与上述第j个场景中的目标图像作为一组训练样本;
上述模型训练单元11304,用于:通过多组上述训练样本训练训练原始重建模型,得到上述第j个场景对应的第j细粒度场景重建模型。
在示例性的实施例中,基于前述方案,上述原始重建模型为神经辐射场,上述原始重建模型包括多层感知机MLP部分和全连接部分;
上述上述模型训练单元11304,包括:特征处理子单元和参数优化子单元。
其中,上述特征处理子单元,用于:对于包含第s个目标图像和第s个目标粗粒度生成图像的第s组训练样本,将上述第s个目标图像和上述第s个目标粗粒度生成图像输入至上述MLP部分进行特征处理,得到第s场景密度特征和第s中间特征,s取值为正整数;将上述第s中间特征和上述第s目标图像的第s视角输入上述全连接部分进行特征处理,得到上述第s视角下的第s颜色特征;以及,对上述第s场景密度特征和上述第s颜色特征进行渲染处理,得到第s个目标细粒度生成图像;
其中,上述参数优化子单元,用于:根据上述第s个目标图像、上述第s个目标细粒度生成图像和上述第s个目标粗粒度生成图像确定第二损失函数;以及,基于上述第二损失函数优化上述原始重建模型的模型参数,得到上述第j细粒度场景重建模型。
在示例性的实施例中,基于前述方案,上述参数优化子单元,具体用于:根据上述第s个目标图像和上述第s个目标粗粒度生成图像,确定上述第s组训练样本对应的粗粒度损失;根据上述第s个目标图像和上述第s个目标粗粒度生成图像,确定上述第s组训练样本对应的细粒度损失;以及,根据上述第s组训练样本对应的粗粒度损失和上述第s组训练样本对应的细粒度损失,确定上述第二损失函数。
在示例性的实施例中,基于前述方案,上述参数优化子单元,具体用于:
Figure BDA0003654964740000161
其中,,Lossjfine表示关于上述第j细粒度场景重建模型的损失函数,α为系数,取值为小于1的系数,M'表示训练样本的组数,xjs表示上述第j场景中的第s个目标图像,render(Ccoarse(xjsjs))表示第s个目标粗粒度生成图像,render(Cfine(xjsjs))表示第s个目标细粒度生成图像,
Figure BDA0003654964740000171
表示第s个目标图像和第s个目标粗粒度生成图像之间的L2范数,
Figure BDA0003654964740000172
表示第s个目标图像和第s个目标细粒度生成图像之间的L2范数。
需要说明的是,上述实施例提供的场景重建模型的确定装置在执行场景重建模型的确定方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述实施例提供的场景重建模型的确定装置与场景重建模型的确定方法实施例属于同一构思,因此对于本说明书装置实施例中未披露的细节,请参照本说明书上述的场景重建模型的确定方法的实施例,这里不再赘述。
上述本说明书实施例序号仅仅为了描述,不代表实施例的优劣。
本说明书实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例方法的步骤。
图13示意性示出了根据本说明书一示例性的实施例中电子设备的结构图。请参见图13所示,电子设备1300包括有:处理器1301和存储器1302。
本说明书实施例中,处理器1301为计算机系统的控制中心,可以是实体机的处理器,也可以是虚拟机的处理器。处理器1301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1301可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器;协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。
在本说明书实施例中,上述处理器1301具体用于:
获取M个场景中每个场景对应的图像,根据上述M个场景的图像将上述M个场景划分为N个场景类,N小于M,每个场景类对应于至少一个场景;通过第i个场景类对应的图像训练原始重建模型,得到第i粗粒度场景重建模型,i取值为1至N之间且包括1和N的整数;根据第j个场景所对应的第h粗粒度场景重建模型,确定第j个场景对应的第j细粒度场景重建模型,j取值为1至M之间且包括1和M的整数,h取值为不大于N的正整数;以及,级联上述第h粗粒度场景重建模型与上述第j细粒度场景重建模型,得到上述第j场景的场景重建模型。
进一步地,上述获取M个场景中每个场景对应的图像,包括:获取第j个场景在多角度下的图像,得到关于上述第j个场景的图像。
进一步地,上述根据上述M个场景的图像将上述M个场景划分为N个场景类,包括:通过预训练的特征提取模型对上述关于上述M个场景的每张图像进行特征提取;对每个场景中图像对应的提取特征进行特征聚合,得到每个场景分别对应的聚合特征;以及,根据上述每个场景分别对应的聚合特征,进行相似度计算,并根据上述相似度将上述M个场景分类为N个场景类。
进一步地,上述原始重建模型为神经辐射场,上述原始重建模型包括多层感知机MLP部分和全连接部分;
上述通过第i个场景类对应的图像训练原始重建模型,得到第i粗粒度场景重建模型,包括:将上述第i个场景类对应的第k个图像输入至上述MLP部分进行特征处理,得到第k场景密度特征和第k中间特征,k取值为正整数;将上述第k中间特征和上述第k个图像的第k视角输入上述全连接部分进行特征处理,得到上述第k视角下的第k颜色特征;对上述第k场景密度特征和上述第k颜色特征进行渲染处理,得到第k个生成图像;以及,根据上述第k个图像和上述第k个生成图像确定第一损失函数,并基于上述第一损失函数优化上述原始重建模型的模型参数,得到上述第i粗粒度场景重建模型。
进一步地,上述根据第j个场景所对应的第h粗粒度场景重建模型,确定第j个场景对应的第j细粒度场景重建模型,包括:对于第j个场景,确定上述第j个场景所属的第h个场景类,j取值为1至M之间且包括1和M的整数,h取值为不大于N的正整数;将上述第j个场景中的目标图像输入至上述第h粗粒度场景重建模型,得到上述第j个场景中的目标图像对应的目标粗粒度生成图像;将上述第j个场景中的目标图像对应的目标粗粒度生成图像,与上述第j个场景中的目标图像作为一组训练样本;以及,通过多组上述训练样本训练训练原始重建模型,得到上述第j个场景对应的第j细粒度场景重建模型。
进一步地,上述原始重建模型为神经辐射场,上述原始重建模型包括多层感知机MLP部分和全连接部分;
上述通过多组上述训练样本训练训练原始重建模型,得到上述第j个场景对应的第j细粒度场景重建模型,包括:对于包含第s个目标图像和第s个目标粗粒度生成图像的第s组训练样本,将上述第s个目标图像和上述第s个目标粗粒度生成图像输入至上述MLP部分进行特征处理,得到第s场景密度特征和第s中间特征,s取值为正整数;将上述第s中间特征和上述第s目标图像的第s视角输入上述全连接部分进行特征处理,得到上述第s视角下的第s颜色特征;对上述第s场景密度特征和上述第s颜色特征进行渲染处理,得到第s个目标细粒度生成图像;根据上述第s个目标图像、上述第s个目标细粒度生成图像和上述第s个目标粗粒度生成图像确定第二损失函数;以及,基于上述第二损失函数优化上述原始重建模型的模型参数,得到上述第j细粒度场景重建模型。
进一步地,上述根据上述第s个目标图像、上述第s个目标细粒度生成图像和上述第s个目标粗粒度生成图像确定第二损失函数,包括:根据上述第s个目标图像和上述第s个目标粗粒度生成图像,确定上述第s组训练样本对应的粗粒度损失;根据上述第s个目标图像和上述第s个目标粗粒度生成图像,确定上述第s组训练样本对应的细粒度损失;以及,根据上述第s组训练样本对应的粗粒度损失和上述第s组训练样本对应的细粒度损失,确定上述第二损失函数。
进一步地,上述根据上述第s组训练样本对应的粗粒度损失和上述第s组训练样本对应的细粒度损失,确定上述第二损失函数,包括:
Figure BDA0003654964740000201
其中,Lossjfine表示关于上述第j细粒度场景重建模型的损失函数,α为系数,取值为小于1的系数,M'表示训练样本的组数,xjs表示上述第j场景中的第s个目标图像,render(Ccoarse(xjsjs))表示第s个目标粗粒度生成图像,render(Cfine(xjsjs))表示第s个目标细粒度生成图像,
Figure BDA0003654964740000202
表示第s个目标图像和第s个目标粗粒度生成图像之间的L2范数,
Figure BDA0003654964740000203
表示第s个目标图像和第s个目标细粒度生成图像之间的L2范数。
存储器1302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在本说明书的一些实施例中,存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1301所执行以实现本说明书实施例中的方法。
一些实施例中,电子设备1300还包括有:外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地,外围设备包括:显示屏1304、摄像头1305和音频电路1306中的至少一种。
外围设备接口1303可被用于将输入/输出(Input/Output,I/O)相关的至少一个外围设备连接到处理器1301和存储器1302。在本说明书的一些实施例中,处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上;在本说明书的一些其他实施例中,处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现。本说明书实施例对此不作具体限定。
显示屏1304用于显示用户界面(User Interface,UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1304是触摸显示屏时,显示屏1304还具有采集在显示屏1304的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时,显示屏1304还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在本说明书的一些实施例中,显示屏1304可以为一个,设置电子设备1300的前面板;在本说明书的另一些实施例中,显示屏1304可以为至少两个,分别设置在电子设备1300的不同表面或呈折叠设计;在本说明书的再一些实施例中,显示屏1304可以是柔性显示屏,设置在电子设备1300的弯曲表面上或折叠面上。甚至,显示屏1304还可以设置成非矩形的不规则图形,也即异形屏。显示屏1304可以采用液晶显示屏(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等材质制备。
摄像头1305用于采集图像或视频。可选地,摄像头1305包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备的前面板,后置摄像头设置在电子设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(Virtual Reality,VR)拍摄功能或者其它融合拍摄功能。在本说明书的一些实施例中,摄像头1305还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1306可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1301进行处理。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。
电源1307用于为电子设备1300中的各个组件进行供电。电源1307可以是交流电、直流电、一次性电池或可充电电池。当电源1307包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本说明书实施例中示出的电子设备结构框图并不构成对电子设备1300的限定,电子设备1300可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在本说明书的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本说明书中的具体含义。此外,在本说明书的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本说明书实施例还提供了计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述实施例中的一个或多个步骤。上述场景重建模型的确定装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时,全部或部分地产生按照本说明书实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(DigitalVersatile Disc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
需要注意的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述,仅为本说明书的具体实施方式,但本说明书的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本说明书的保护范围之内。因此,依本说明书权利要求所作的等同变化,仍属本说明书所涵盖的范围。

Claims (13)

1.一种场景重建模型的确定方法,其中,所述方法包括:
获取M个场景中每个场景对应的图像,根据所述M个场景的图像将所述M个场景划分为N个场景类,N小于M,每个场景类对应于至少一个场景;
通过第i个场景类对应的图像训练原始重建模型,得到第i粗粒度场景重建模型,i取值为1至N之间且包括1和N的整数;
根据第j个场景所对应的第h粗粒度场景重建模型,确定第j个场景对应的第j细粒度场景重建模型,j取值为1至M之间且包括1和M的整数,h取值为不大于N的正整数;
级联所述第h粗粒度场景重建模型与所述第j细粒度场景重建模型,得到所述第j场景的场景重建模型。
2.根据权利要求1所述的方法,其中,所述获取M个场景中每个场景对应的图像,包括:
获取第j个场景在多角度下的图像,得到关于所述第j个场景的图像。
3.根据权利要求1所述的方法,其中,所述根据所述M个场景的图像将所述M个场景划分为N个场景类,包括:
通过预训练的特征提取模型对所述关于所述M个场景的每张图像进行特征提取;
对每个场景中图像对应的提取特征进行特征聚合,得到每个场景分别对应的聚合特征;
根据所述每个场景分别对应的聚合特征,进行相似度计算,并根据所述相似度将所述M个场景分类为N个场景类。
4.根据权利要求1所述的方法,其中,所述原始重建模型为神经辐射场,所述原始重建模型包括多层感知机MLP部分和全连接部分;
所述通过第i个场景类对应的图像训练原始重建模型,得到第i粗粒度场景重建模型,包括:
将所述第i个场景类对应的第k个图像输入至所述MLP部分进行特征处理,得到第k场景密度特征和第k中间特征,k取值为正整数;
将所述第k中间特征和所述第k个图像的第k视角输入所述全连接部分进行特征处理,得到所述第k视角下的第k颜色特征;
对所述第k场景密度特征和所述第k颜色特征进行渲染处理,得到第k个生成图像;
根据所述第k个图像和所述第k个生成图像确定第一损失函数,并基于所述第一损失函数优化所述原始重建模型的模型参数,得到所述第i粗粒度场景重建模型。
5.根据权利要求1所述的方法,其中,所述根据第j个场景所对应的第h粗粒度场景重建模型,确定第j个场景对应的第j细粒度场景重建模型,包括:
对于第j个场景,确定所述第j个场景所属的第h个场景类,j取值为1至M之间且包括1和M的整数,h取值为不大于N的正整数;
将所述第j个场景中的目标图像输入至所述第h粗粒度场景重建模型,得到所述第j个场景中的目标图像对应的目标粗粒度生成图像;
将所述第j个场景中的目标图像对应的目标粗粒度生成图像,与所述第j个场景中的目标图像作为一组训练样本;
通过多组所述训练样本训练训练原始重建模型,得到所述第j个场景对应的第j细粒度场景重建模型。
6.根据权利要求5所述的方法,其中,所述原始重建模型为神经辐射场,所述原始重建模型包括多层感知机MLP部分和全连接部分;
所述通过多组所述训练样本训练训练原始重建模型,得到所述第j个场景对应的第j细粒度场景重建模型,包括:
对于包含第s个目标图像和第s个目标粗粒度生成图像的第s组训练样本,将所述第s个目标图像和所述第s个目标粗粒度生成图像输入至所述MLP部分进行特征处理,得到第s场景密度特征和第s中间特征,s取值为正整数;
将所述第s中间特征和所述第s目标图像的第s视角输入所述全连接部分进行特征处理,得到所述第s视角下的第s颜色特征;
对所述第s场景密度特征和所述第s颜色特征进行渲染处理,得到第s个目标细粒度生成图像;
根据所述第s个目标图像、所述第s个目标细粒度生成图像和所述第s个目标粗粒度生成图像确定第二损失函数;
基于所述第二损失函数优化所述原始重建模型的模型参数,得到所述第j细粒度场景重建模型。
7.根据权利要求6所述的方法,其中,所述根据所述第s个目标图像、所述第s个目标细粒度生成图像和所述第s个目标粗粒度生成图像确定第二损失函数,包括:
根据所述第s个目标图像和所述第s个目标粗粒度生成图像,确定所述第s组训练样本对应的粗粒度损失;
根据所述第s个目标图像和所述第s个目标细粒度生成图像,确定所述第s组训练样本对应的细粒度损失;
根据所述第s组训练样本对应的粗粒度损失和所述第s组训练样本对应的细粒度损失,确定所述第二损失函数。
8.根据权利要求7所述的方法,其中,通过以下公式确定所述第二损失函数,包括:
Figure FDA0003654964730000031
其中,Lossjfine表示关于所述第j细粒度场景重建模型的损失函数,α为系数,取值为小于1的系数,M'表示训练样本的组数,xjs表示所述第j场景中的第s个目标图像,render(Ccoarse(xjsjs))表示第s个目标粗粒度生成图像,render(Cfine(xjsjs))表示第s个目标细粒度生成图像,
Figure FDA0003654964730000032
表示第s个目标图像和第s个目标粗粒度生成图像之间的L2范数,
Figure FDA0003654964730000033
表示第s个目标图像和第s个目标细粒度生成图像之间的L2范数。
9.一种场景重建模型,其中,目标场景对应的场景重建模型包括:
粗粒度场景重建模型部分和细粒度场景重建模型部分;
其中,所述粗粒度场景重建模型部分为根据与所述目标场景的图像之间相似度大于预设值的图像训练得到;所述细粒度场景重建模型部分为根据所述目标场景的图像以及粗粒度生成图像训练得到,所述粗粒度生成图像为所述目标场景的图像为经所述粗粒度场景重建模型部分处理得到的。
10.一种场景重建模型的确定装置,其中,所述装置包括:
获取模块,用于获取M个场景中每个场景对应的图像,根据所述M个场景的图像将所述M个场景划分为N个场景类,N小于M,每个场景类对应于至少一个场景;
第一确定模块,用于通过第i个场景类对应的图像训练原始重建模型,得到第i粗粒度场景重建模型,i取值为1至N之间且包括1和N的整数;
第二确定模块,用于根据第j个场景所对应的第h粗粒度场景重建模型,确定第j个场景对应的第j细粒度场景重建模型,j取值为1至M之间且包括1和M的整数,h取值为不大于N的正整数;
级联模块,用于级联所述第h粗粒度场景重建模型与所述第j细粒度场景重建模型,得到所述第j场景的场景重建模型。
11.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机或处理器上运行时,使得所述计算机或处理器执行如权利要求1至8中任意一项所述的场景重建模型的确定方法。
12.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的场景重建模型的确定方法。
13.一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或处理器执行如权利要求1至8中任意一项所述的场景重建模型的确定方法。
CN202210560348.0A 2022-05-20 2022-05-20 模型的确定方法、场景重建模型、介质、设备及产品 Active CN115049783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210560348.0A CN115049783B (zh) 2022-05-20 2022-05-20 模型的确定方法、场景重建模型、介质、设备及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210560348.0A CN115049783B (zh) 2022-05-20 2022-05-20 模型的确定方法、场景重建模型、介质、设备及产品

Publications (2)

Publication Number Publication Date
CN115049783A true CN115049783A (zh) 2022-09-13
CN115049783B CN115049783B (zh) 2024-04-02

Family

ID=83159892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210560348.0A Active CN115049783B (zh) 2022-05-20 2022-05-20 模型的确定方法、场景重建模型、介质、设备及产品

Country Status (1)

Country Link
CN (1) CN115049783B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433822A (zh) * 2023-04-28 2023-07-14 北京数原数字化城市研究中心 一种神经辐射场训练方法、装置、设备及介质
CN117095132A (zh) * 2023-10-18 2023-11-21 北京渲光科技有限公司 基于隐式函数的三维重建方法和系统

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734773A (zh) * 2018-05-18 2018-11-02 中国科学院光电研究院 一种用于混合图片的三维重建方法及系统
CN109697740A (zh) * 2018-12-26 2019-04-30 上海联影智能医疗科技有限公司 图像重建方法、装置和计算机设备
CN112750203A (zh) * 2021-01-21 2021-05-04 脸萌有限公司 模型重建方法、装置、设备及存储介质
CN113327319A (zh) * 2021-06-03 2021-08-31 中德(珠海)人工智能研究院有限公司 一种复杂场景建模方法、装置、服务器及可读存储介质
CN113592991A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 一种基于神经辐射场的图像渲染方法、装置及电子设备
CN113706714A (zh) * 2021-09-03 2021-11-26 中科计算技术创新研究院 基于深度图像和神经辐射场的新视角合成方法
WO2021249401A1 (zh) * 2020-06-08 2021-12-16 北京京东乾石科技有限公司 模型生成方法、图像透视图确定方法、装置、设备及介质
CN113888689A (zh) * 2021-11-05 2022-01-04 上海壁仞智能科技有限公司 图像渲染模型训练、图像渲染方法及装置
CN113971719A (zh) * 2021-10-26 2022-01-25 上海脉衍人工智能科技有限公司 一种神经辐射场采样与重建的系统、方法及设备
CN114004941A (zh) * 2022-01-04 2022-02-01 苏州浪潮智能科技有限公司 一种基于神经辐射场的室内场景三维重建系统及方法
CN114022630A (zh) * 2021-11-10 2022-02-08 深圳市其域创新科技有限公司 三维场景的重建方法、装置、设备和计算机可读存储介质
CN114026599A (zh) * 2019-06-17 2022-02-08 阿里尔Ai公司 根据二维图像重建三维场景
CN114119849A (zh) * 2022-01-24 2022-03-01 阿里巴巴(中国)有限公司 三维场景渲染方法、设备以及存储介质
CN114140510A (zh) * 2021-12-03 2022-03-04 北京影谱科技股份有限公司 一种增量式三维重建方法、装置以及计算机设备
CN114255313A (zh) * 2022-02-28 2022-03-29 深圳星坊科技有限公司 镜面物体三维重建方法、装置、计算机设备和存储介质
CN114299180A (zh) * 2021-12-29 2022-04-08 苏州科达科技股份有限公司 图像重建方法、装置、设备及存储介质
CN114493995A (zh) * 2022-01-17 2022-05-13 上海壁仞智能科技有限公司 图像渲染模型训练、图像渲染方法及装置
WO2022104178A1 (en) * 2020-11-16 2022-05-19 Google Llc Inverting neural radiance fields for pose estimation

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734773A (zh) * 2018-05-18 2018-11-02 中国科学院光电研究院 一种用于混合图片的三维重建方法及系统
CN109697740A (zh) * 2018-12-26 2019-04-30 上海联影智能医疗科技有限公司 图像重建方法、装置和计算机设备
CN114026599A (zh) * 2019-06-17 2022-02-08 阿里尔Ai公司 根据二维图像重建三维场景
WO2021249401A1 (zh) * 2020-06-08 2021-12-16 北京京东乾石科技有限公司 模型生成方法、图像透视图确定方法、装置、设备及介质
WO2022104178A1 (en) * 2020-11-16 2022-05-19 Google Llc Inverting neural radiance fields for pose estimation
CN112750203A (zh) * 2021-01-21 2021-05-04 脸萌有限公司 模型重建方法、装置、设备及存储介质
CN113327319A (zh) * 2021-06-03 2021-08-31 中德(珠海)人工智能研究院有限公司 一种复杂场景建模方法、装置、服务器及可读存储介质
CN113592991A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 一种基于神经辐射场的图像渲染方法、装置及电子设备
CN113706714A (zh) * 2021-09-03 2021-11-26 中科计算技术创新研究院 基于深度图像和神经辐射场的新视角合成方法
CN113971719A (zh) * 2021-10-26 2022-01-25 上海脉衍人工智能科技有限公司 一种神经辐射场采样与重建的系统、方法及设备
CN113888689A (zh) * 2021-11-05 2022-01-04 上海壁仞智能科技有限公司 图像渲染模型训练、图像渲染方法及装置
CN114022630A (zh) * 2021-11-10 2022-02-08 深圳市其域创新科技有限公司 三维场景的重建方法、装置、设备和计算机可读存储介质
CN114140510A (zh) * 2021-12-03 2022-03-04 北京影谱科技股份有限公司 一种增量式三维重建方法、装置以及计算机设备
CN114299180A (zh) * 2021-12-29 2022-04-08 苏州科达科技股份有限公司 图像重建方法、装置、设备及存储介质
CN114004941A (zh) * 2022-01-04 2022-02-01 苏州浪潮智能科技有限公司 一种基于神经辐射场的室内场景三维重建系统及方法
CN114493995A (zh) * 2022-01-17 2022-05-13 上海壁仞智能科技有限公司 图像渲染模型训练、图像渲染方法及装置
CN114119849A (zh) * 2022-01-24 2022-03-01 阿里巴巴(中国)有限公司 三维场景渲染方法、设备以及存储介质
CN114255313A (zh) * 2022-02-28 2022-03-29 深圳星坊科技有限公司 镜面物体三维重建方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BEN MILDENHALL ET AL.: "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis", ARXIV, no. 2003, 3 August 2020 (2020-08-03), pages 1 - 25, XP055921628 *
ZHANG K, RIEGLER G, SNAVELY N, ET AL.: "Nerf++: Analyzing and improving neural radiance fields", ARXIV, no. 2010, 21 October 2020 (2020-10-21), pages 1 - 9 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433822A (zh) * 2023-04-28 2023-07-14 北京数原数字化城市研究中心 一种神经辐射场训练方法、装置、设备及介质
CN116433822B (zh) * 2023-04-28 2023-11-07 北京数原数字化城市研究中心 一种神经辐射场训练方法、装置、设备及介质
CN117095132A (zh) * 2023-10-18 2023-11-21 北京渲光科技有限公司 基于隐式函数的三维重建方法和系统
CN117095132B (zh) * 2023-10-18 2024-02-20 北京渲光科技有限公司 基于隐式函数的三维重建方法和系统

Also Published As

Publication number Publication date
CN115049783B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN115049783B (zh) 模型的确定方法、场景重建模型、介质、设备及产品
TWI706379B (zh) 圖像處理方法及裝置、電子設備和儲存介質
CN111541907B (zh) 物品显示方法、装置、设备及存储介质
JP2022508988A (ja) 顔認識のための圧縮-拡張深さ方向畳み込みニューラルネットワーク
CN111931877B (zh) 目标检测方法、装置、设备及存储介质
CN110135336B (zh) 行人生成模型的训练方法、装置及存储介质
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
US11044398B2 (en) Panoramic light field capture, processing, and display
CN111091166A (zh) 图像处理模型训练方法、图像处理方法、设备及存储介质
US20200195910A1 (en) Apparatus including multiple cameras and image processing method
CN112381707B (zh) 图像生成方法、装置、设备以及存储介质
WO2023202285A1 (zh) 图像处理方法、装置、计算机设备及存储介质
WO2023169283A1 (zh) 双目立体全景图像的生成方法、装置、设备、存储介质和产品
CN112990053A (zh) 图像处理方法、装置、设备及存储介质
CN115170896A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN115222875A (zh) 模型的确定方法、局部场景重建方法、介质、设备及产品
CN112508959A (zh) 视频目标分割方法、装置、电子设备及存储介质
CN116206175A (zh) 场景分析模型的预训练方法、确定方法、设备及产品
Zhu et al. A shared augmented virtual environment for real‐time mixed reality applications
CN114511082A (zh) 特征提取模型的训练方法、图像处理方法、装置及设备
CN115914860A (zh) 一种拍摄方法及电子设备
CN114240843A (zh) 图像检测方法、装置以及电子设备
CN113362260A (zh) 图像优化方法及装置、存储介质及电子设备
CN113361376A (zh) 获取视频封面的方法、装置、计算机设备及可读存储介质
CN115147608A (zh) 目标检测方法、目标检测装置、介质、设备及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant