CN115409949A - 模型训练方法、视角图像生成方法、装置、设备及介质 - Google Patents
模型训练方法、视角图像生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115409949A CN115409949A CN202211124534.6A CN202211124534A CN115409949A CN 115409949 A CN115409949 A CN 115409949A CN 202211124534 A CN202211124534 A CN 202211124534A CN 115409949 A CN115409949 A CN 115409949A
- Authority
- CN
- China
- Prior art keywords
- preset
- target
- image
- dimensional
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 238000012549 training Methods 0.000 title claims abstract description 80
- 230000000007 visual effect Effects 0.000 title claims abstract description 79
- 238000005070 sampling Methods 0.000 claims abstract description 164
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000002776 aggregation Effects 0.000 claims description 46
- 238000004220 aggregation Methods 0.000 claims description 46
- 238000009877 rendering Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种模型训练方法、视角图像生成方法、装置、设备及介质,涉及图像处理技术领域。该模型训练方法包括:获取预设三维场景中在预设目标视角下的样本预设二维图像以及多个预设源视角下的多个样本源视角图像,然后,获取在预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征。再根据每个空间采样点的多个原始投影像素坐标以及多个样本源视角图像,生成每个空间采样点的多个新的投影像素坐标以及多个新的投影图像特征,进而生成每个空间采样点在多个预设源视角下的目标投影图像特征、预设三维场景中在预设目标视角下的样本目标二维图像;最后进行模型训练,生成视角图像生成模型。
Description
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种模型训练方法、视角图像生成方法、装置、设备及介质。
背景技术
基于神经辐射场的图像渲染方法在新视角生成任务中取得了巨大的成功,显著地提升了生成图像的质量。
但是,现有基于神经辐射场的新视角图像生成方法对输入源视角图像的数量有较高的要求和限制,往往需要数量较多、较稠密的源视角图像来保证其所生成的目标图像的质量。当给定的源视角图像的数量减少时,其生成的目标图像很容易变得模糊不清、缺乏锐利的细节。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种模型训练方法、视角图像生成方法、装置、设备及介质,以便有效处理源视角图像数量较少、较稀疏的情况,显著提升生成目标图像的视觉质量和清晰度。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种模型训练方法,包括:
获取预设三维场景中在预设目标视角下的样本预设二维图像以及多个预设源视角下的多个样本源视角图像;
获取在所述预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征,其中,所述多个原始投影像素坐标分别对应所述多个预设源视角,所述多个原始投影图像特征为所述多个样本源视角图像中所述多个原始投影像素坐标处的图像特征;
根据所述每个空间采样点的所述多个原始投影像素坐标以及所述多个样本源视角图像,生成所述每个空间采样点的多个新的投影像素坐标以及多个新的投影图像特征,其中,所述多个新的投影像素坐标对应所述多个预设源视角,所述多个新的投影图像特征为所述多个样本源视角图像中所述多个新的二维投影像素坐标处的图像特征;
根据所述多个原始投影图像特征和所述多个新的投影图像特征,生成所述每个空间采样点在所述多个预设源视角下的目标投影图像特征;
根据多个空间采样点在所述多个预设源视角下的目标投影图像特征,生成所述预设三维场景中在所述预设目标视角下的样本目标二维图像;
根据所述预设三维场景中在所述预设目标视角下的样本目标二维图像以及所述预设目标视角下的样本预设二维图像进行模型训练,生成所述视角图像生成模型。
第二方面,本申请实施例还提供了一种视角图像生成方法,包括:
获取预设三维场景中在多个源视角下的多个源视角图像;
根据所述多个源视角图像和所述目标视角,采用预先训练的视角图像生成模型,生成所述预设三维场景中在所述目标视角下的目标二维图像,其中,所述视角图像生成模型为采用第一方面任一所述模型训练方法训练得到的模型。
第三方面,本申请实施例还提供了一种模型的训练装置,包括:
获取模块,用于获取预设三维场景中在预设目标视角下的样本预设二维图像以及多个预设源视角下的多个样本源视角图像;
原始图像特征生成模块,用于获取在所述预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征,其中,所述多个原始投影像素坐标分别对应所述多个预设源视角,所述多个原始投影图像特征为所述多个样本源视角图像中所述多个原始投影像素坐标处的图像特征;
新投影特征生成模块,用于根据所述每个空间采样点的所述多个原始投影像素坐标以及所述多个样本源视角图像,生成所述每个空间采样点的多个新的投影像素坐标以及多个新的投影图像特征,其中,所述多个新的投影像素坐标对应所述多个预设源视角,所述多个新的投影图像特征为所述多个样本源视角图像中所述多个新的二维投影像素坐标处的图像特征;
目标投影图像特征生成模块,用于根据所述多个原始投影图像特征和所述多个新的投影图像特征,生成所述每个空间采样点在所述多个预设源视角下的目标投影图像特征;
目标二维图像生成模块,用于根据多个空间采样点在所述多个预设源视角下的目标投影图像特征,生成所述预设三维场景中在所述预设目标视角下的样本目标二维图像;
视角图像生成模块,用于根据所述预设三维场景中在所述预设目标视角下的样本目标二维图像以及所述预设目标视角下的样本预设二维图像进行模型训练,生成所述视角图像生成模型。
第四方面,本申请实施例还提供了一种视角图像生成装置,包括图像获取模块、图像生成模块:
图像获取模块,用于获取预设三维场景中在多个源视角下的多个源视角图像;
图像生成模块,用于根据所述多个源视角图像和所述目标视角,采用预先训练的视角图像生成模型,生成所述预设三维场景中在所述目标视角下的目标二维图像,其中,所述视角图像生成模型为采用上述第一方面任一所述模型训练方法训练得到的模型。
第五方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行时执行如第一方面任一所述的模型训练方法的步骤,或者,执行如第二方面所述的视角图像生成方法的步骤。
第六方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面任一所述的模型训练方法的步骤,或者,执行如第二方面所述的视角图像生成方法的步骤。
本申请的有益效果是:本申请实施例提供一种模型训练方法,首先获取预设三维场景中在预设目标视角下的样本预设二维图像以及多个预设源视角下的多个样本源视角图像,然后,获取在预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征。再根据每个空间采样点的多个原始投影像素坐标以及多个样本源视角图像,生成每个空间采样点的多个新的投影像素坐标以及多个新的投影图像特征,进而生成每个空间采样点在多个预设源视角下的目标投影图像特征;根据多个空间采样点在多个预设源视角下的目标投影图像特征,生成预设三维场景在预设目标视角下的样本目标二维图像;最后根据预设三维场景中在预设目标视角下的样本目标二维图像以及预设目标视角下的样本预设二维图像进行模型训练,生成视角图像生成模型。通过处理原始投影图像特征与生成的新的投影图像特征,生成样本目标二维图像对视角图像生成模型进行训练,由此得到的视角图像生成模型能够有效地减少、降低新视角生成过程中对源视角图像的数量要求和限制,显著地提升在源图像数量较少情况时的目标图像的生成质量和清晰程度。此外,较少的源视角图像输入还可以有效地减少运算复杂度,提高模型效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例提供的一种模型训练方法的流程图;
图2为本申请又一实施例提供的一种模型训练方法的流程图;
图3为本申请另一实施例提供的一种模型训练方法的流程图;
图4为本申请再一实施例提供的一种模型训练方法的流程图;
图5为本申请再二实施例提供的一种模型训练方法的流程图;
图6为本申请再三实施例提供的一种模型训练方法的流程图;
图7为本申请再四实施例提供的一种模型训练方法的流程图;
图8为本申请再五实施例提供的一种模型训练方法的流程图;
图9为本申请一实施例提供的一种视角图像生成方法的流程图;
图10为本申请一实施例提供的一种模型的训练装置的示意图;
图11为本申请一实施例提供的一种视角图像生成装置的示意图;
图12为本申请实施例提供的一种电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
在本申请中,除非另有明确的规定和限定,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包含至少一个特征。在本发明中的描述中,“多个”的含义是至少两个,例如两个、三个,除非另有明确具体的限定。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
给定特定3D场景下的若干张2D源视角图像以及其对应的相机姿态,新视角生成任务旨在生成新的目标视角下的该场景所对应的逼真2D图像。目前,该技术已被广泛地应用于3D重建、增强现实(AR)、虚拟现实(VR)等诸多领域,具备广泛的应用前景和巨大的市场价值。
近年来,基于神经辐射场(Neural Radiance Fields,NeRF)的图像渲染方法在新视角生成任务中取得了巨大的成功,显著地提升了生成图像的质量。当前基于NeRF的可泛化的新视角生成模型训练主要包含如下流程:
从给定或选择特定场景下选择若干个源视角下的源视角图像中多个3D采样点的投影图像特征。通过对上述投影图像特征进行聚合以及颜色密度预测,渲染得到目标视角下的图像。最后根据得到的目标视角图像,对模型参数进行调整,得到训练好的新视角生成模型。
通过上述方法训练的新视角生成模型虽然可以生成视觉质量尚可的结果,可以解决部分应用问题。
但是,现有方法得到的新视角生成模型对输入源视角图像的数量有较高的要求和限制,需要数量较多、较稠密的源视角图像来保证生成目标图像的质量。当给定的源视角图像的数量减少时,其生成的目标图像很容易变得模糊不清、缺乏锐利的细节。
针对目前的新视角生成模型存在的问题,本申请实施例提供了多种可能的实现方式,以便有效处理源视角图像数量较少、较稀疏的情况,显著提升生成目标图像的视觉质量和清晰度。如下结合附图通过多个示例进行解释说明。图1为本申请一实施例提供的一种模型训练方法的流程图,该方法可由运行有上述模型训练方法的电子设备实现,该电子设备例如可以为终端设备,也可以为服务器。如图1所示,该方法包括:
步骤101:获取预设三维场景中在预设目标视角下的样本预设二维图像以及多个预设源视角下的多个样本源视角图像。
需要说明的是,本申请对预设目标视角与多个预设源视角的具体视角设置不做限定,只要样本预设二维图像与多个样本源视角图像中包括相同的目标观测物体即可,本申请步骤105得到的样本目标二维图像是包括该目标观测物体的预设目标视角的二维图像。此外,本申请中多个样本源视角图像为多个样本源视角的二维图像,且该多个由用户根据具体使用情况确定,本申请对样本源视角图像的具体数量不做限定。
还需要说明的是,预设三维场景可以是现实三维场景(例如下例中提出的挖掘机挖斗的场景),也可以是虚拟三维场景(例如三维游戏场景、三维地图场景等),本申请对此不做限定。
步骤102:获取在预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征,其中,多个原始投影像素坐标分别对应多个预设源视角,多个原始投影图像特征为多个样本源视角图像中多个原始投影像素坐标处的图像特征。
需要说明的是,根据预设目标视角下的每个像素点所发出的光线生成采样空间,在采样空间的每个像素点所发出的光线上(即采样空间的每条光纤上)设置多个(例如P个,P为正整数)空间采样点。
还需要说明的是,本申请中原始投影图像特征例如可以包括语义特征、视角信息等,本申请对此不做限定。
由于空间采样点均位于预设目标视角下,因此每个空间采样点所在的光纤都存在对应的目标观测物体的像素。根据空间采样点与目标观测物体的像素的对应关系,以及预设目标视角以及多个样本源视角图像,可以确定该目标观测物体的像素在多个样本源视角图像对应的多个原始投影像素坐标,进而可以获得每个原始投影像素坐标位置处的原始投影图像特征。
上述仅为示例说明,在实际实现中,还可以有其他的原始投影像素坐标以及原始投影图像特征的获取方式,本申请对此不做限定。
步骤103:根据每个空间采样点的多个原始投影像素坐标以及多个样本源视角图像,生成每个空间采样点的多个新的投影像素坐标以及多个新的投影图像特征,其中,多个新的投影像素坐标对应多个预设源视角,多个新的投影图像特征为多个样本源视角图像中多个新的二维投影像素坐标处的图像特征。
根据每个空间采样点的多个原始投影像素坐标以及多个样本源视角图像,可以获取每个空间采样点在一组新的源视角(不同于多个预设源视角的一组新的源视角)下多个新的投影像素坐标以及多个新的投影图像特征,其中,新的投影像素坐标、新的投影图像特征的获取方式可以参考步骤102中预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征的获取方式,本申请在此不再赘述。
需要说明的是,空间采样点的存在新的投影像素坐标以及新的投影图像特征,在本申请中新的投影像素坐标可以通过对原始投影像素坐标处理得到,也可以通过其他偏移计算方式得到,本申请对此不做限定。
步骤104:根据多个原始投影图像特征和多个新的投影图像特征,生成每个空间采样点在多个预设源视角下的目标投影图像特征。
需要说明的是,多个原始投影图像特征和多个新的投影图像特征都是对针对目标观测物体的图像特征,因此可以通过对多个原始投影图像特征和多个新的投影图像特征处理,生成每个空间采样点在多个预设源视角下的目标投影图像特征,从而实现隐式视角增强。
在一种可能的实现方式中,可以对多个原始投影图像特征和多个新的投影图像特征进行聚合,进而生成每个空间采样点在多个预设源视角下的目标投影图像特征。
上述仅为示例说明,在实际实现中,还可以有其他的目标投影图像特征生成方式,本申请对此不做限定。
步骤105:根据多个空间采样点在多个预设源视角下的目标投影图像特征,生成预设三维场景中在预设目标视角下的样本目标二维图像。
对多个空间采样点在多个预设源视角下的目标投影图像特征进行处理,生成预设三维场景中在预设目标视角下的样本目标二维图像。需要说明的是,对多个预设源视角下的目标投影图像特征进行处理的具体处理方式例如可以为针对每个空间采样点的颜色预测、密度预测等,本申请对此不做限定,只要能够生成预设三维场景中在预设目标视角下的样本目标二维图像即可。
步骤106:根据预设三维场景中在预设目标视角下的样本目标二维图像以及预设目标视角下的样本预设二维图像进行模型训练,生成视角图像生成模型。
在一种可能的实现方式中,计算生成样本目标二维图像与样本预设二维图像之间(也就是生成的样本目标二维图像与预设真值图像之间)的基于均方误差(Mean squarederror,MSE)以作为网络的损失函数,通过梯度下降算法来迭代地更新、优化视角图像生成模型的网络参数,使得生成样本目标二维图像与预设二维图像之间尽可能一致(即模型的输出与真值尽可能地一致),从而最终得到符合开发人员要求的视角图像生成模型。
在一种可能的实现方式中,可以预设迭代次数阈值,重复上述步骤,对视角图像生成模型的网络参数进行优化,直到循环次数达到预设的迭代次数阈值,保存最后的模型的网络参数,生成视角图像生成模型。
上述仅为示例说明,在实际实现中,视角图像生成模型损失函数的计算方法、模型训练方法等还可以有其他的计算、训练方式,本申请对此不做限定。
综上,本申请实施例提供一种模型训练方法,首先获取预设三维场景中在预设目标视角下的样本预设二维图像以及多个预设源视角下的多个样本源视角图像,然后,获取在预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征。再根据每个空间采样点的多个原始投影像素坐标以及多个样本源视角图像,生成每个空间采样点的多个新的投影像素坐标以及多个新的投影图像特征,进而生成每个空间采样点在多个预设源视角下的目标投影图像特征;根据多个空间采样点在多个预设源视角下的目标投影图像特征,生成预设三维场景中在预设目标视角下的样本目标二维图像;最后根据预设三维场景中在预设目标视角下的样本目标二维图像以及预设目标视角下的样本预设二维图像进行模型训练,生成视角图像生成模型。通过处理原始投影图像特征与生成的新的投影图像特征,生成样本目标二维图像对视角图像生成模型进行训练,由此得到的视角图像生成模型能够有效地减少、降低新视角生成过程中对源视角图像的数量要求和限制,显著地提升在源图像数量较少情况时的目标图像的生成质量和清晰程度。此外,较少的源视角图像输入还可以有效地减少运算复杂度,提高模型效率。
可选的,在上述图1的基础上,本申请还提供一种模型训练方法的可能实现方式,图2为本申请又一实施例提供的一种模型训练方法的流程图;如图2所示,步骤103根据每个空间采样点的多个原始投影像素坐标以及多个样本源视角图像,生成每个空间采样点的多个新的二维投影像素坐标以及多个新的投影图像特征,包括:
步骤201:根据每个空间采样点的多个原始投影像素坐标,生成每个空间采样点的多个新的二维投影像素坐标。
生成每个空间采样点的多个新的二维投影像素坐标以及多个新的投影图像特征,需要新的二维投影像素坐标。对此,新的二维投影像素坐标可以根据每个空间采样点的多个原始投影像素坐标获取,例如对每个空间采样点的多个原始投影像素坐标通过预设手段进行位置计算,该预设手段例如可以为位置偏移(例如将每个原始投影坐标向至少一个方向偏移预设长度)、位置计算(例如可以根据预设计算方式对每个原始投影坐标,具体实例参见步骤301、步骤302)等,本申请对此不做限定。
步骤202:根据多个样本源视角图像,以及多个新的二维投影像素坐标,生成多个新的投影图像特征。
根据多个样本源视角图像,以及多个新的二维投影像素坐标,生成多个新的投影图像特征,其具体实现方式与步骤102中根据多个样本源视角图像,以及多个原始投影像素坐标生成多个原始投影图像特征的方式相同,本申请在此不再赘述。
在一种可能的实现方式中,还可以根据多个样本源视角图像对应的源图像特征特征,以及多个新的二维投影像素坐标,生成多个新的投影图像特征。其中,多个样本源视角图像对应的源图像特征可以通过对每个样本源视角图像进行特征提取得到。由此,在生成多个新的投影图像特征时,可以根据多个新的二维投影像素坐标,从多个样本源视角图像对应的源图像特征中采样得到多个空间采样点的一组新的投影图像特征
可选的,在上述图2的基础上,本申请还提供一种模型训练方法的可能实现方式,图3为本申请另一实施例提供的一种模型训练方法的流程图;如图3所示,步骤201根据每个空间采样点的多个原始投影像素坐标,生成每个空间采样点的多个新的二维投影像素坐标,包括:
步骤301:根据每个空间采样点多个原始投影图像特征,生成每个空间采样点的多个二维坐标偏移量,多个二维坐标偏移量分别对应多个预设源视角;
需要说明的是,根据每个空间采样点多个原始投影图像特征,可以得到每个空间采样点在预设源视角下相对于原始投影像素坐标的偏移量,即二维坐标偏移量。由此,每个二维坐标偏移量对应一个预设源视角。本申请对二维坐标偏移量的具体生成方式不做限定,只要该二维坐标偏移量基于原始投影图像特征生成,从而保证了模型训练的稳定性,且该二维坐标偏移量可以在后续步骤中正常使用即可。在一种可能的实现方式中,多个二维坐标偏移量的生成方式可以参考步骤401、步骤402,但需要指出,该方式并非唯一的二维坐标偏移量生成方式。
步骤302:根据多个原始投影像素坐标以及多个二维坐标偏移量,生成每个空间采样点的多个新的二维投影像素坐标。
在一种可能的实现方式中,根据多个原始投影像素坐标以及多个二维坐标偏移量,可以使用坐标累加(即将二维坐标偏移量与原始投影像素坐标相加得到新的二维投影图像坐标)的方式生成每个空间采样点的多个新的二维投影像素坐标。
上述仅为实例说明,在实际实现中,还可以有其他的多个新的二维投影像素坐标计算方式,本申请对此不做限定。
可选的,在上述图3的基础上,本申请还提供一种模型训练方法的可能实现方式,图4为本申请再一实施例提供的一种模型训练方法的流程图;如图4所示,步骤301根据每个空间采样点多个原始投影图像特征,生成每个空间采样点的多个二维坐标偏移量,包括:
步骤401:对每个空间采样点的多个原始投影图像特征进行特征聚合,生成每个空间采样点的原始聚合特征;
在一种可能的实现方式中,可以通过对原始投影图像特征进行平均池化操作,从而来整合不同视角下的原始投影图像特征,从而生成每个空间采样点的原始聚合特征。
上述仅为实例说明,在实际实现中,还可以有其他的原始聚合特征生成方式,本申请对此不做限定。
步骤402:根据每个空间采样点的原始聚合特征和多个原始投影图像特征,生成每个空间采样点的多个二维坐标偏移量。
得到每个空间采样点的原始聚合特征后,该原始聚合特征相对于每个原始投影图像特征都可能存在差异,因此,可以通过每个空间采样点的原始聚合特征和多个原始投影图像特征之间的差异,生成每个空间采样点的多个二维坐标偏移量。
在一种可能的实现方式中,具体的每个空间采样点的多个二维坐标偏移量可以参考步骤501、步骤502,也可以由其他方式,本申请对此不做限定。
可选的,在上述图4的基础上,本申请还提供一种模型训练方法的可能实现方式,图5为本申请再二实施例提供的一种模型训练方法的流程图;如图5所示,步骤402根据每个空间采样点的原始聚合特征和多个原始投影图像特征,生成每个空间采样点的多个二维坐标偏移量,包括:
步骤501:根据每个空间采样点的原始聚合特征和多个原始投影图像特征,生成每个空间采样点的多个特征差,多个特征差对应多个预设源视角;
在一种可能的实现方式中,对每个空间采样点的多个原始投影图像特征进行特征聚合生成每个空间采样点的原始聚合特征根据每个空间采样点的原始聚合特征和多个原始投影图像特征生成每个空间采样点的多个特征差每个特征差中包含了在高阶特征层次中不同预设源视角下的原始投影特征跟原始聚合特征的差异信息。
在一种具体的实现方式中,每个空间采样点的多个特征差可以通过如下方式进行计算:
上述仅为示例说明,在实际实现中,还可以有其他的特征差计算方式(例如增加权重、影响因子等),本申请对此不做限定。
步骤502:对多个特征差进行映射,生成多个二维坐标偏移量。
通过对上述多个特征差进行映射,即可生成多个二维坐标偏移量。
在一种可能的实现方式中,可以通过多层感知器(Multi-Layer Perceptron,MLP)将多个特征差映射为多个二维坐标偏移量,该偏移值表示空间采样点在不同预设源视角下相对其原始投影像素坐标的位置偏移量。特征差越大,说明该空间采样点在当前预设源视角下的原始投影图像特征跟其在初始聚合特征(可以理解为所有预设源视角下的平均投影特征)的区别越大,则该点在当前视角下的原始投影像素坐标对应的像素点越可能是不够准确的离群点,对于这种情况,可以通过调整上述多层感知器(Multi-Layer Perceptron,MLP)的映射网络,使其输出一个相对较大的坐标偏移量(即二维坐标偏移量越大)以扩大搜索范围、捕获有用信息;特征差越小,说明该空间采样点在当前预设源视角下的原始投影像素坐标对应的像素点越可能是准确度、置信度较高的像素点,对于这种情况,可以通过调整上述多层感知器(Multi-Layer Perceptron,MLP)的映射网络,使其输出一个相对较小的坐标偏移量(即二维坐标偏移量越小)以适当减小搜索范围,在该原始投影像素坐标的临近范围内捕获有用信息既可。
在上述步骤的基础上,将其分别跟原始投影像素坐标相加即可得到该空间采样点在不同预设源视角下的一组新的二维投影像素坐标,进而可以采样得到该空间采样点的一组新的投影图像特征;
可选的,在上述图1基础上,本申请还提供一种模型训练方法的可能实现方式,图6为本申请再三实施例提供的一种模型训练方法的流程图;如图6所示,步骤104:据多个原始投影图像特征和多个新的投影图像特征,生成每个空间采样点在多个预设源视角下的目标投影图像特征,包括:
步骤601:从多个新的投影图像特征中确定至少一个新的投影图像特征。
由于每个新的投影图像特征与原始投影图像特征的相似度存在差异,因此可以从多个新的投影图像特征中确定至少一个新的投影图像特征。
在一种可能的实现方式中,对于多个新的投影图像特征,可以通过向量点乘(内积)计算相似度的方式从上述的新的投影图像特征中选择出跟原始投影图像特征最为接近的K个(K可以取大于等于1的正整数)作为新的投影图像特征(即额外的隐式视角增强的投影图像特征)。
在另一种可能的实现方式中,由于原始聚合特征可以体现所有预设源视角下的平均投影特征,因此,对于多个新的投影图像特征,可以通过向量点乘(内积)计算相似度的方式从上述的新的投影图像特征中选择出跟原始聚合特征最为接近的K个(K可以取大于等于1的正整数)作为新的投影图像特征(即额外的隐式视角增强的投影图像特征)。
在又一种可能的实现方式中,可以通过计算特征之间的L1、L2等距离来决定相似度(与原始投影图像特征的相似度,或者,与原始聚合特征的相似度),进而根据相似度的大小确定新的投影图像特征;除此之外,还可以使用预设的神经网络来计算特征之间的相似度等。
上述仅为示例说明,在实际实现中,还可以有其他的实现方式,本申请对此不做限定。
步骤602:根据多个原始投影图像特征和至少一个新的投影图像特征,生成每个空间采样点在多个预设源视角下的目标投影图像特征。
在一种具体的实现方式中,可以沿着视角方向对每个空间采样点在多个预设源视角下的目标投影图像特征多个原始投影图像特征和至少一个新的投影图像特征进行特征拼接,可以理解为视角的增加。具体而言,假设原始投影图像特征有N个(每个原始投影图像特征为d维),新的投影图像特征有K个增强的投影特征(每个新的投影图像特征也是d维),拼接后就得到了N+K个投影特征,即目标投影图像特征有N+K个,且每个目标投影图像特征为d维。
上述仅为示例说明,在实际实现中,目标投影图像特征还可以有其他的生成实现方式,本申请对此不做限定。
可选的,在上述图1基础上,本申请还提供一种模型训练方法的可能实现方式,图7为本申请再四实施例提供的一种模型训练方法的流程图;如图7所示,步骤105:根据多个空间采样点在多个预设源视角下的目标投影图像特征,生成预设三维场景中在预设目标视角下的样本目标二维图像,包括:
步骤701:对每个空间采样点在多个预设源视角下的目标投影图像特征进行特征聚合,生成每个空间采样点的目标聚合特征;
在一种可能的实现方式中,可以通过将拼接后的全部投影图像特征一起输入特征聚合网络(该特征聚合网络例如可以是预设神经网络,也可以是能够实现平均池化操作的网络,本申请对此不做限定)中,得到每个空间采样点的目标聚合特征
上述仅为示例说明,在实际实现中,目标投影图像特征还可以有其他的目标聚合特征生成方式,本申请对此不做限定。
步骤702:根据多个空间采样点的目标聚合特征,生成预设三维场景中在预设目标视角下的样本目标二维图像。
在一种可能的实现方式中,根据多个空间采样点的目标聚合特征,可以进一步对每个空间采样点的色彩、密度等进行预测,进而生成预设三维场景中在预设目标视角下的样本目标二维图像。
可选的,在上述图1基础上,本申请还提供一种模型训练方法的可能实现方式,图8为本申请再五实施例提供的一种模型训练方法的流程图;如图8所示,步骤105根据多个空间采样点的目标聚合特征,生成预设三维场景中在预设目标视角下的样本目标二维图像,包括:
步骤801:根据多个空间采样点的目标聚合特征,确定多个空间采样点对应的渲染参数;
需要说明的是,除了空间颜色和密度之外,还可能存在其他的渲染参数,本申请对此不做限定。
步骤802:根据多个空间采样点对应的渲染参数进行图像渲染,生成样本目标二维图像。
在一种可能的实现方式中,可以使用立体渲染的方式来沿光线方向累加、积分不同空间采样点的渲染参数对应的颜色、密度等,最终生成样本目标二维图像。
本申请还提供一种视角图像生成方法,图9为本申请一实施例提供的一种视角图像生成方法的流程图;如图9所示,该方法包括:
步骤901:获取预设三维场景中在多个源视角下的多个源视角图像。
需要说民的是,多个源视角图像为多个源视角下的二维图像,多个源视角为与目标视角的视角偏差在预设视角偏差范围内的多个不同视角。
在一种可能的实现方式中,获取预设三维场景下与目标视角的视角偏差在预设视角偏差范围内的多个不同视角的多个源视角图像。需要说明的是,本申请对获取的源视角图像的数量不做限定,用户可以根据实际需要进行选择。此外,源视角图像的数量与视角图像生成模型训练时使用的样本源视角图像的数量可以一样,也可以不同,本申请对此不做限定。
步骤902:根据多个源视角图像和目标视角,采用预先训练的视角图像生成模型,生成预设三维场景中在目标视角下的目标二维图像,其中,视角图像生成模型为采用上述模型训练方法任一实施例训练得到的模型。
将多个源视角图像和目标视角作为输入,输入到上述模型训练方法训练得到的视角图像生成模型中,即可得到生成预设三维场景中在目标视角下的目标二维图像。
需要说明的是,输入的目标视角可以是目标视角的位置、姿态等参数,本申请对此不做限定,只要输入的参数能够唯一地确定目标视角即可。
可选的,在上述图1基础上,本申请还提供一种模型训练方法的可能实现方式,多个预设源视角为:与所述预设目标视角的视角偏差在预设视角偏差范围内的多个不同视角。
在一种可能的实施方式中,多个预设源视角与预设目标视角的视角偏差在预设视角偏差范围内,可以通过如下方式限定:预设源视角到目标观测物体的连线,与预设目标视角到目标观测物体的连线的夹角在预设视角偏差范围内。例如目标观测物体为挖掘机挖斗,目标视角例如可以为一个确定的挖斗目标观测视角,为了简单说明,该挖斗目标观测视角到挖掘机挖斗之间可以确定一条连线,该连线可以作为基准线。对该挖掘机挖斗还可能存在其他的多个观测视角,这些观测视角例如可以是摄像头拍摄目标观测物体的二维图像的拍摄视角。这些观测视角与挖掘机挖斗之间同样可以确定连线,在这些连线中,与基准线的夹角(或者夹角的绝对值)小于预设视角偏差(或者在预设视角偏差范围内)的连线对应的观测视角即可为预设源视角。例如预设视角偏差范围为-10度到+10度,则当其他的多个观测视角的连线与基准线的夹角在-10度到+10度(或者夹角的绝对值小于10度)时,在预设视角偏差范围内的连线对应的观测视角即可为预设源视角。
可以理解,若使用上述方法确定预设源视角,则预设视角偏差范围越小,预设目标视角对目标观测物体的观测范围与预设源视角对目标观测物体的观测范围的重叠越大。
可选的,在上述图1基础上,本申请还提供一种模型训练方法的可能实现方式,获取在所述预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征,包括:
根据所述预设目标视角以及所述多个样本源视角图像,获取所述多个原始投影像素坐标以及所述多个原始投影图像特征。
在一种可能的实现方式中,对于从目标视角下的每个像素点所发出的光线上的每个空间采样点P,首先根据预设源视角(或者预设源视角的相机姿态)将每个空间采样点P分别投影到上述N个预设源视角对应的N个的样本源视角图像中以得到每个采样点P在N个不同预设源视角下的原始投影像素坐标进而获得对应原始投影像素坐标位置处的原始投影图像特征例如对于坐标为(X,Y,Z)空间采样点,由于每个预设源视角是已知的(也就是知道每个预设源视角的位置姿态,因此可以通过将该空间采样点投影到每个预设源视角下,即可得到该空间采样点的原始投影像素坐标。
在另一种可能的实现方式中,取得每个3D采样点P在N个不同预设源视角下的原始投影像素坐标之后,可以根据原始投影像素坐标从样本源视角图像对应的空间位置处进行采样,得到原始投影像素坐标对应位置处的原始投影图像特征
在又一种可能的实现方式中,还可以根据多个样本源视角图像对应的源图像特征,以及多个新的二维投影像素坐标,生成多个新的投影图像特征。其中,多个样本源视角图像对应的源图像特征可以通过对每个样本源视角图像进行特征提取得到。由此,根据预设目标视角以及多个样本源视角图像对应的源图像特征,生成预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征。
在一种具体的实现方式中,对预设三维场景下N样本源视角图像(二维图像)可以使用权重共享的图像特征提取网络从每个输入的样本源视角图像中分别提取得到相应的源图像特征源图像特征中可以包括预设源视角下的语义特征等(需要说明的是,一般地,对样本源视角图像进行源图像特征提取后,提取的源图像特征的空间分辨率降低,深度增加,由此,在后续实施例中使用源图像特征一方面可以过滤掉样本源视角图像中与不需要的图像特征,也可以减少运算量,加快运算速度);再根据预设源视角(或者预设源视角的相机姿态)将每个空间采样点P分别投影到上述N个预设源视角对应的N个的样本源视角图像提取得到的源图像特征中以得到每个采样点P在N个不同预设源视角下的原始投影像素坐标进而获得对应原始投影像素坐标位置处的原始投影图像特征
上述仅为示例说明,在实际实现中,还可以有其他的原始投影图像特征的获取方式,本申请对此不做限定。
本申请基于上述模型训练方法实现的视角图像生成方法,有效地减少、降低新视角生成过程中对源视角图像的数量要求和限制,显著地提升在源图像数量较少情况时的目标图像的生成质量和清晰程度。
下述对用以执行本申请所提供的模型的训练装置、视角图像生成装置、电子设备及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
本申请实施例提供一种模型的训练装置的可能实现示例,能够执行上述实施例提供的模型训练方法。图10为本申请一实施例提供的一种模型的训练装置的示意图。如图10所示,上述模型的训练装置100,包括:获取模块11、原始图像特征生成模块13、新投影特征生成模块15、目标投影图像特征生成模块17、目标二维图像生成模块18、视角图像生成模块19;
获取模块11,用于获取预设三维场景中在预设目标视角下的样本预设二维图像以及多个预设源视角下的多个样本源视角图像;
原始图像特征生成模块13,用于获取在预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征,其中,多个原始投影像素坐标分别对应多个预设源视角,多个原始投影图像特征为多个样本源视角图像中多个原始投影像素坐标处的图像特征;
新投影特征生成模块15,用于根据每个空间采样点的多个原始投影像素坐标以及多个样本源视角图像,生成每个空间采样点的多个新的投影像素坐标以及多个新的投影图像特征,其中,多个新的投影像素坐标对应多个预设源视角,多个新的投影图像特征为多个样本源视角图像中多个新的二维投影像素坐标处的图像特征;
目标投影图像特征生成模块17,用于根据多个原始投影图像特征和多个新的投影图像特征,生成每个空间采样点在多个预设源视角下的目标投影图像特征;
目标二维图像生成模块18,用于根据多个空间采样点在多个预设源视角下的目标投影图像特征,生成预设三维场景中在预设目标视角下的样本目标二维图像;
视角图像生成模块19,用于根据预设三维场景中在预设目标视角下的样本目标二维图像以及预设目标视角下的样本预设二维图像进行模型训练,生成视角图像生成模型。
可选的,新投影特征生成模块15,用于根据每个空间采样点的多个原始投影像素坐标,生成每个空间采样点的多个新的二维投影像素坐标;根据多个样本源视角图像,以及多个新的二维投影像素坐标,生成多个新的投影图像特征。
可选的,新投影特征生成模块15,用于根据每个空间采样点多个原始投影图像特征,生成每个空间采样点的多个二维坐标偏移量,多个二维坐标偏移量分别对应多个预设源视角;根据多个原始投影像素坐标以及多个二维坐标偏移量,生成每个空间采样点的多个新的二维投影像素坐标。
可选的,新投影特征生成模块15,用于对每个空间采样点的多个原始投影图像特征进行特征聚合,生成每个空间采样点的原始聚合特征;根据每个空间采样点的原始聚合特征和多个原始投影图像特征,生成每个空间采样点的多个二维坐标偏移量。
可选的,新投影特征生成模块15,用于根据每个空间采样点的原始聚合特征和多个原始投影图像特征,生成每个空间采样点的多个特征差,多个特征差对应多个预设源视角;对多个特征差进行映射,生成多个二维坐标偏移量。
可选的,目标投影图像特征生成模块17,用于从多个新的投影图像特征中确定至少一个新的投影图像特征;根据多个原始投影图像特征和至少一个新的投影图像特征,生成每个空间采样点在多个预设源视角下的目标投影图像特征。
可选的,目标二维图像生成模块18,用于对每个空间采样点在多个预设源视角下的目标投影图像特征进行特征聚合,生成每个空间采样点的目标聚合特征;根据多个空间采样点的目标聚合特征,生成预设三维场景中在预设目标视角下的样本目标二维图像。
可选的,目标二维图像生成模块18,用于根据多个空间采样点的目标聚合特征,确定多个空间采样点对应的渲染参数;根据多个空间采样点对应的渲染参数进行图像渲染,生成样本目标二维图像。
可选的,原始图像特征生成模块13,用于根据所述预设目标视角以及所述多个样本源视角图像,获取所述多个原始投影像素坐标以及所述多个原始投影图像特征。
本申请实施例提供一种视角图像生成装置的可能实现示例,能够执行上述实施例提供的视角图像生成方法。图11为本申请一实施例提供的一种视角图像生成装置的示意图。如图11所示,上述视角图像生成装置300,包括:图像获取模块21、图像生成模块23:
图像获取模块21,用于获取预设三维场景中在多个源视角下的多个源视角图像;
图像生成模块23,用于根据多个源视角图像和目标视角,采用预先训练的视角图像生成模型,生成预设三维场景中在目标视角下的目标二维图像,其中,视角图像生成模型为采用上述任一实施例的模型训练方法训练得到的模型。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
本申请实施例提供一种电子设备的可能实现示例,能够执行上述实施例提供的模型训练方法或者视角图像生成方法。图12为本申请实施例提供的一种电子设备的示意图,该设备可以集成于终端设备或者终端设备的芯片,该终端可以是具备数据处理功能的计算设备。
该电子设备包括:处理器1201、存储介质1202和总线,存储介质存储有处理器可执行的程序指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行程序指令,以执行时执行上述模型训练方法的步骤或者上述视角图像生成方法的步骤。具体实现方式和技术效果类似,这里不再赘述。
本申请实施例提供一种计算机可读存储介质的可能实现示例,能够执行上述实施例提供的模型训练方法,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述模型训练方法的步骤或者上述视角图像生成方法的步骤。
存储在一个存储介质中的计算机程序,可以包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (15)
1.一种模型训练方法,其特征在于,包括:
获取预设三维场景中在预设目标视角下的样本预设二维图像以及多个预设源视角下的多个样本源视角图像;
获取在所述预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征,其中,所述多个原始投影像素坐标分别对应所述多个预设源视角,所述多个原始投影图像特征为所述多个样本源视角图像中所述多个原始投影像素坐标处的图像特征;
根据所述每个空间采样点的所述多个原始投影像素坐标以及所述多个样本源视角图像,生成所述每个空间采样点的多个新的投影像素坐标以及多个新的投影图像特征,其中,所述多个新的投影像素坐标对应所述多个预设源视角,所述多个新的投影图像特征为所述多个样本源视角图像中多个新的二维投影像素坐标处的图像特征;
根据所述多个原始投影图像特征和所述多个新的投影图像特征,生成所述每个空间采样点在所述多个预设源视角下的目标投影图像特征;
根据多个空间采样点在所述多个预设源视角下的目标投影图像特征,生成所述预设三维场景中在所述预设目标视角下的样本目标二维图像;
根据所述预设三维场景中在所述预设目标视角下的样本目标二维图像以及所述预设目标视角下的样本预设二维图像进行模型训练,生成视角图像生成模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每个空间采样点的所述多个原始投影像素坐标以及所述多个样本源视角图像,生成所述每个空间采样点的多个新的二维投影像素坐标以及多个新的投影图像特征,包括:
根据所述每个空间采样点的所述多个原始投影像素坐标,生成所述每个空间采样点的所述多个新的二维投影像素坐标;
根据所述多个样本源视角图像,以及所述多个新的二维投影像素坐标,生成所述多个新的投影图像特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个空间采样点的所述多个原始投影像素坐标,生成所述每个空间采样点的所述多个新的二维投影像素坐标,包括:
根据所述每个空间采样点所述多个原始投影图像特征,生成所述每个空间采样点的多个二维坐标偏移量,所述多个二维坐标偏移量分别对应所述多个预设源视角;
根据所述多个原始投影像素坐标以及所述多个二维坐标偏移量,生成所述每个空间采样点的所述多个新的二维投影像素坐标。
4.根据权利要求3所述的方法,其特征在于,所述根据所述每个空间采样点所述多个原始投影图像特征,生成所述每个空间采样点的多个二维坐标偏移量,包括:
对所述每个空间采样点的所述多个原始投影图像特征进行特征聚合,生成所述每个空间采样点的原始聚合特征;
根据所述每个空间采样点的原始聚合特征和所述多个原始投影图像特征,生成所述每个空间采样点的多个二维坐标偏移量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个空间采样点的原始聚合特征和所述多个原始投影图像特征,生成所述每个空间采样点的多个二维坐标偏移量,包括:
根据所述每个空间采样点的原始聚合特征和所述多个原始投影图像特征,生成所述每个空间采样点的多个特征差,所述多个特征差对应所述多个预设源视角;
对所述多个特征差进行映射,生成所述多个二维坐标偏移量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述多个原始投影图像特征和所述多个新的投影图像特征,生成所述每个空间采样点在所述多个预设源视角下的目标投影图像特征,包括:
从所述多个新的投影图像特征中确定至少一个新的投影图像特征;
根据所述多个原始投影图像特征和所述至少一个新的投影图像特征,生成所述每个空间采样点在所述多个预设源视角下的目标投影图像特征。
7.根据权利要求1所述的方法,其特征在于,所述根据多个空间采样点在所述多个预设源视角下的目标投影图像特征,生成所述预设三维场景中在所述预设目标视角下的样本目标二维图像,包括:
对所述每个空间采样点在所述多个预设源视角下的目标投影图像特征进行特征聚合,生成所述每个空间采样点的目标聚合特征;
根据所述多个空间采样点的目标聚合特征,生成所述预设三维场景中在所述预设目标视角下的样本目标二维图像。
8.根据权利要求7所述的方法,其特征在于,所述根据所述多个空间采样点的目标聚合特征,生成所述预设三维场景中在所述预设目标视角下的样本目标二维图像,包括:
根据所述多个空间采样点的目标聚合特征,确定所述多个空间采样点对应的渲染参数;
根据所述多个空间采样点对应的渲染参数进行图像渲染,生成所述样本目标二维图像。
9.根据权利要求1所述的方法,其特征在于,所述多个预设源视角为:与所述预设目标视角的视角偏差在预设视角偏差范围内的多个不同视角。
10.根据权利要求1所述的方法,其特征在于,所述获取在所述预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征,包括:
根据所述预设目标视角以及所述多个样本源视角图像,获取所述多个原始投影像素坐标以及所述多个原始投影图像特征。
11.一种视角图像生成方法,其特征在于,包括:
获取预设三维场景中在多个源视角下的多个源视角图像;
根据所述多个源视角图像和目标视角,采用预先训练的视角图像生成模型,生成所述预设三维场景中在所述目标视角下的目标二维图像,其中,所述视角图像生成模型为采用上述权利要求1-10任一所述模型训练方法训练得到的模型。
12.一种模型训练装置,其特征在于,包括:
获取模块,用于获取预设三维场景中在预设目标视角下的样本预设二维图像以及多个预设源视角下的多个样本源视角图像;
原始图像特征生成模块,用于获取在所述预设目标视角下每个空间采样点的多个原始投影像素坐标以及多个原始投影图像特征,其中,所述多个原始投影像素坐标分别对应所述多个预设源视角,所述多个原始投影图像特征为所述多个样本源视角图像中所述多个原始投影像素坐标处的图像特征;
新投影特征生成模块,用于根据所述每个空间采样点的所述多个原始投影像素坐标以及所述多个样本源视角图像,生成所述每个空间采样点的多个新的投影像素坐标以及多个新的投影图像特征,其中,所述多个新的投影像素坐标对应所述多个预设源视角,所述多个新的投影图像特征为所述多个样本源视角图像中多个新的二维投影像素坐标处的图像特征;
目标投影图像特征生成模块,用于根据所述多个原始投影图像特征和所述多个新的投影图像特征,生成所述每个空间采样点在所述多个预设源视角下的目标投影图像特征;
目标二维图像生成模块,用于根据多个空间采样点在所述多个预设源视角下的目标投影图像特征,生成所述预设三维场景中在所述预设目标视角下的样本目标二维图像;
视角图像生成模块,用于根据所述预设三维场景中在所述预设目标视角下的样本目标二维图像以及所述预设目标视角下的样本预设二维图像进行模型训练,生成所述视角图像生成模型。
13.一种视角图像生成装置,其特征在于,包括:图像获取模块、图像生成模块:
图像获取模块,用于获取预设三维场景中在多个源视角下的多个源视角图像;
图像生成模块,用于根据所述多个源视角图像和所述目标视角,采用预先训练的视角图像生成模型,生成所述预设三维场景中在所述目标视角下的目标二维图像,其中,所述视角图像生成模型为采用上述权利要求1-10任一所述模型训练方法训练得到的模型。
14.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行时执行如权利要求1至10任一所述的模型训练方法的步骤,或者,执行如权利要求11所述的视角图像生成方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至10任一所述的模型训练方法的步骤,或者,执行如权利要求11所述的视角图像生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211124534.6A CN115409949A (zh) | 2022-09-15 | 2022-09-15 | 模型训练方法、视角图像生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211124534.6A CN115409949A (zh) | 2022-09-15 | 2022-09-15 | 模型训练方法、视角图像生成方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115409949A true CN115409949A (zh) | 2022-11-29 |
Family
ID=84165281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211124534.6A Pending CN115409949A (zh) | 2022-09-15 | 2022-09-15 | 模型训练方法、视角图像生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115409949A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116563303A (zh) * | 2023-07-11 | 2023-08-08 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种场景可泛化的交互式辐射场分割方法 |
-
2022
- 2022-09-15 CN CN202211124534.6A patent/CN115409949A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116563303A (zh) * | 2023-07-11 | 2023-08-08 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种场景可泛化的交互式辐射场分割方法 |
CN116563303B (zh) * | 2023-07-11 | 2023-10-27 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种场景可泛化的交互式辐射场分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021077720A1 (zh) | 获取对象三维模型的方法、装置、电子设备及系统 | |
Zheng et al. | Hybridfusion: Real-time performance capture using a single depth sensor and sparse imus | |
US10977818B2 (en) | Machine learning based model localization system | |
CN106803267B (zh) | 基于Kinect的室内场景三维重建方法 | |
CN106940704B (zh) | 一种基于栅格地图的定位方法及装置 | |
JP7403528B2 (ja) | シーンの色及び深度の情報を再構成するための方法及びシステム | |
US9426444B2 (en) | Depth measurement quality enhancement | |
KR101560508B1 (ko) | 3차원 이미지 모델 조정을 위한 방법 및 장치 | |
US20200057778A1 (en) | Depth image pose search with a bootstrapped-created database | |
CN109766896B (zh) | 一种相似度度量方法、装置、设备和存储介质 | |
CN114049434A (zh) | 一种基于全卷积神经网络的3d建模方法及系统 | |
Özbay et al. | A voxelize structured refinement method for registration of point clouds from Kinect sensors | |
CN116563493A (zh) | 基于三维重建的模型训练方法、三维重建方法及装置 | |
CN114519772A (zh) | 一种基于稀疏点云和代价聚合的三维重建方法及系统 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN115409949A (zh) | 模型训练方法、视角图像生成方法、装置、设备及介质 | |
KR20230150867A (ko) | 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측 | |
CN112150609A (zh) | 一种基于室内实时稠密三维重建技术的vr系统 | |
CN114913287B (zh) | 一种三维人体模型重建方法及系统 | |
US10861174B2 (en) | Selective 3D registration | |
Villa-Uriol et al. | Automatic creation of three-dimensional avatars | |
CN115760888A (zh) | 图像处理方法、装置、计算机及可读存储介质 | |
CN111260544A (zh) | 数据处理方法及装置、电子设备和计算机存储介质 | |
CN111582120A (zh) | 用于捕捉眼球活动特征的方法、终端设备 | |
Jian et al. | Realistic face animation generation from videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |