CN117689822A - 一种三维模型构建方法、装置、存储介质及电子设备 - Google Patents

一种三维模型构建方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117689822A
CN117689822A CN202410136686.0A CN202410136686A CN117689822A CN 117689822 A CN117689822 A CN 117689822A CN 202410136686 A CN202410136686 A CN 202410136686A CN 117689822 A CN117689822 A CN 117689822A
Authority
CN
China
Prior art keywords
dimensional
image
dimensional image
generator
visual angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410136686.0A
Other languages
English (en)
Other versions
CN117689822B (zh
Inventor
王宏升
林峰
岳金鸿
杨鑫
徐迅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202410136686.0A priority Critical patent/CN117689822B/zh
Publication of CN117689822A publication Critical patent/CN117689822A/zh
Application granted granted Critical
Publication of CN117689822B publication Critical patent/CN117689822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本说明书公开了一种三维模型构建方法、装置、存储介质及电子设备,通过提示参数,对生成器的参数进行调整,可使得生成器生成的图像特征为提示要求的图像特征。也就是说,通过提示参数,对生成器生成的图像特征进行限制,增强生成器的控制能力。对初始视角图像特征进行位置编码,获取了若干个预设视角图像特征,获取了不同于初始视角的图像特征可提高根据图像特征构建三维模型的准确性,减少当生成器的生成准确率较低时,对构建的三维模型的影响。

Description

一种三维模型构建方法、装置、存储介质及电子设备
技术领域
本说明书涉及图像处理领域,尤其涉及一种三维模型构建方法、装置、存储介质及电子设备。
背景技术
随着图像处理技术的发展,图像处理设备可通过二维图像得到对应的三维模型,例如,将多张不同视角的二维图像输入神经辐射场模型,得到二维图像的特征参数,以根据该特征参数,生成三维模型。还可将多张二维图像的图像特征输入训练好的生成对抗网络的生成器,得到用于构建三维模型的三维顶点数据,进而确定三维模型。
但是通过神经辐射场模型生成三维模型,需要先获取二维图像的像素点到图像采集设备的距离,以确定该像素点的相机射线,再对该相机射线进行采样,得到若干采样点,再对采样点进行渲染,过程较为复杂,使得生成三维模型的速度较慢。
此外,一般的生成对抗网络主要通过生成器与判别器对抗训练,以提高生成器的生成准确率及判别器的判别准确率,但仅通过生成器与判别器对抗训练,可能使得生成器生成三维顶点数据的准确率较低,从而影响生成的三维模型的准确率。例如,生成器的训练主要依赖于生成对抗网络中判别器的判别结果,而判别器的判别结果依赖于判别器的标注三维顶点数据的准确性,若标注三维顶点数据准确性较低,则使得判别结果准确性较低,导致生成器未得到充分训练,使得生成器生成的预测三维顶点数据的准确性低,进而影响生成的三维模型的准确性。
基于此,本说明书提供一种三维模型构建方法。
发明内容
本说明书提供一种三维模型构建方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种三维模型构建方法,所述方法包括:
获取二维图像及所述二维图像的提示参数,所述提示参数包括所述二维图像的采集视角参数;
将所述提示参数输入训练好的生成对抗网络的生成器中的映射网络,以使所述映射网络根据所述提示参数,调整所述生成器,得到调整后的生成器;
将所述二维图像输入所述调整后的生成器,得到所述调整后的生成器输出的所述二维图像的初始视角图像特征;
将所述初始视角图像特征进行位置编码,得到预设视角图像特征;
根据所述预设视角图像特征,构建所述二维图像的三维模型。
可选地,将所述初始视角图像特征进行位置编码,得到预设视角图像特征,具体包括:
根据预设卷积方式,对所述初始视角图像特征进行卷积,得到新的初始视角图像特征;
对新的初始视角图像特征进行位置编码,得到预设视角图像特征。
可选地,对新的初始视角图像特征进行位置编码,得到预设视角图像特征,具体包括:
在所述新的初始视角图像特征所在的三维空间内,针对所述三维空间的每个二维平面,根据所述新的初始视角图像特征,对该二维平面进行双线性插值,得到该二维平面的平面特征;
确定不同频率的位置编码函数;
针对每种频率的位置编码函数,根据该位置编码函数,对所述平面特征进行位置编码,得到预设视角图像特征。
可选地,根据所述预设视角图像特征,构建所述二维图像的三维模型,具体包括:
确定所述二维图像中每个像素点对应的世界坐标系中的三维坐标;
针对每个三维坐标,将该三维坐标映射至所述新的初始视角图像特征所在的三维空间内,得到映射后的三维坐标;
根据所述映射后的三维坐标及所述预设视角图像特征,构建所述二维图像的三维模型。
可选地,根据所述映射后的三维坐标及所述预设视角图像特征,构建所述二维图像的三维模型,具体包括:
针对每个映射后的三维坐标,确定该映射后的三维坐标的位置编码,得到坐标位置编码;并在若干个预设视角图像特征中,确定该映射后的三维坐标的每个二维平面的预设视角图像特征;
根据映射后的三维坐标的每个二维平面的预设视角图像特征及所述坐标位置编码,确定第三图像特征;
根据所述第三图像特征,构建所述二维图像的三维模型。
可选地,根据所述第三图像特征,构建所述二维图像的三维模型,具体包括:
对所述第三图像特征进行解码,得到所述映射后的三维坐标的特征参数;
针对所述二维图像中每个像素点,根据所述特征参数,确定该像素点的色彩特征;
根据所述色彩特征,构建所述二维图像的三维模型。
可选地,根据所述色彩特征,构建所述二维图像的三维模型,具体包括:
根据所述提示参数及所述色彩特征,确定所述二维图像的第一三维图像;
对所述色彩特征进行采样,得到采样后的色彩特征;并根据采样后的色彩特征,确定所述二维图像的第二三维图像;
对所述第二三维图像进行上采样,得到上采样后的所述第二三维图像;
根据所述上采样后的所述第二三维图像及所述第一三维图像,构建所述二维图像的三维模型。
可选地,训练所述生成对抗网络的生成器,具体包括:
获取样本二维图像,并获取所述样本二维图像的标注三维图像及标注提示参数,作为所述样本二维图像的标签;
将所述样本二维图像输入所述生成对抗网络的生成器,得到所述生成器输出的所述样本二维图像的预测图像特征;
对所述预测图像特征进行位置编码,得到编码后的预测图像特征;
根据所述编码后的预测图像特征,确定所述样本二维图像的预测三维图像;
将所述预测三维图像输入所述生成对抗网络的判别器,以使所述判别器根据所述标签,输出的所述样本二维图像的判别结果;
根据所述判别结果,对所述生成器进行训练。
本说明书提供了一种三维模型构建装置,所述装置包括:
二维图像获取模块,用于获取二维图像及所述二维图像的提示参数,所述提示参数包括所述二维图像的采集视角参数;
调整模块,用于将所述提示参数输入训练好的生成对抗网络的生成器中的映射网络,以使所述映射网络根据所述提示参数,调整所述生成器,得到调整后的生成器;
初始视角图像特征确定模块,用于将所述二维图像输入所述调整后的生成器,得到所述调整后的生成器输出的所述二维图像的初始视角图像特征;
预设视角图像特征确定模块,用于将所述初始视角图像特征进行位置编码,得到预设视角图像特征;
构建模块,用于根据所述预设视角图像特征,构建所述二维图像的三维模型。
可选地,所述预设视角图像特征确定模块具体用于,根据预设卷积方式,对所述初始视角图像特征进行卷积,得到新的初始视角图像特征;对新的初始视角图像特征进行位置编码,得到预设视角图像特征。
可选地,所述预设视角图像特征确定模块具体用于,在所述新的初始视角图像特征所在的三维空间内,针对所述三维空间的每个二维平面,根据所述新的初始视角图像特征,对该二维平面进行双线性插值,得到该二维平面的平面特征;确定不同频率的位置编码函数;针对每种频率的位置编码函数,根据该位置编码函数,对所述平面特征进行位置编码,得到预设视角图像特征。
可选地,所述构建模块具体用于,确定所述二维图像中每个像素点对应的世界坐标系中的三维坐标;针对每个三维坐标,将该三维坐标映射至所述新的初始视角图像特征所在的三维空间内,得到映射后的三维坐标;根据所述映射后的三维坐标及所述预设视角图像特征,构建所述二维图像的三维模型。
可选地,所述构建模块具体用于,针对每个映射后的三维坐标,确定该映射后的三维坐标的位置编码,得到坐标位置编码;并在若干个预设视角图像特征中,确定该映射后的三维坐标的每个二维平面的预设视角图像特征;根据映射后的三维坐标的每个二维平面的预设视角图像特征及所述坐标位置编码,确定第三图像特征;根据所述第三图像特征,构建所述二维图像的三维模型。
可选地,所述构建模块具体用于,对所述第三图像特征进行解码,得到所述映射后的三维坐标的特征参数;针对所述二维图像中每个像素点,根据所述特征参数,确定该像素点的色彩特征;根据所述色彩特征,构建所述二维图像的三维模型。
可选地,所述构建模块具体用于,根据所述提示参数及所述色彩特征,确定所述二维图像的第一三维图像;对所述色彩特征进行采样,得到采样后的色彩特征;并根据采样后的色彩特征,确定所述二维图像的第二三维图像;对所述第二三维图像进行上采样,得到上采样后的所述第二三维图像;根据所述上采样后的所述第二三维图像及所述第一三维图像,构建所述二维图像的三维模型。
可选地,所述装置还包括:
训练模块,用于获取样本二维图像,并获取所述样本二维图像的标注三维图像及标注提示参数,作为所述样本二维图像的标签;将所述样本二维图像输入所述生成对抗网络的生成器,得到所述生成器输出的所述样本二维图像的预测图像特征;对所述预测图像特征进行位置编码,得到编码后的预测图像特征;根据所述编码后的预测图像特征,确定所述样本二维图像的预测三维图像;将所述预测三维图像输入所述生成对抗网络的判别器,以使所述判别器根据所述标签,输出的所述样本二维图像的判别结果;根据所述判别结果,对所述生成器进行训练。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述三维模型构建方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述三维模型构建方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
从本说明书提供的三维模型构建方法可以看出,通过提示参数,对生成器的参数进行调整,可使得生成器生成的图像特征为提示要求的图像特征。也就是说,通过提示参数,对生成器生成的图像特征进行限制,增强生成器的控制能力。对初始视角图像特征进行位置编码,获取了若干个预设视角图像特征,获取了不同于初始视角的图像特征可提高根据图像特征构建三维模型的准确性,减少当生成器的生成准确率较低时,对构建的三维模型的影响。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种三维模型构建方法的流程示意图;
图2为本说明提供的构建三维模型示意图;
图3为本说明书提供的一种三维模型构建装置的示意图;
图4为本说明书提供的一种对应于图1的电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的一种三维模型构建方法的流程示意图,包括以下步骤:
S100:获取二维图像及所述二维图像的提示参数,所述提示参数包括所述二维图像的采集视角参数。
现存较多的通过二维图像生成三维图像的方式,以便利用三维图像进行模型构建。例如,利用神经辐射场模型,得到三维图像。通过训练好的生成对抗网络的生成器生成构建三维模型的三维顶点数据,进而构建三维模型。但神经辐射场的参数较多,处理过程较为复杂,导致生成三维图像的速度较慢。而生成对抗网络的可控性不足,即无法生成条件要求的图像,泛化能力较差。且较依赖判别器的标签,判别器的标签的准确性较高时,三维图像质量较高,即三维图像的准确性较高,反之,三维图像质量较低。也就是说,判别器的标签的准确性导致三维图像质量不稳定,进而影响构建的三维模型。因此,本说明书提供一种三维模型构建方法。本说明书的执行主体可为构建三维模型的服务器,也可为训练生成对抗网络的服务器,还可为部署了生成对抗网络的生成器的服务器或其他电子设备,本说明说对此不作限制,为了便于说明,本说明书以服务器为执行主体进行说明。
服务器构建三维模型需要先获取用于构建三维模型的数据,数据可包括三维图像、点云等。三维图像可通过二维图像获取,那么,服务器可先获取二维图像,该二维图像可通过图像采集设备采集得到,本说明不限制图像采集设备的类型。该二维图像可为人体二维图像或其他物体的二维图像,本说明书对此不做限制。
为了增加生成对抗网络中生成器的可控性,服务器还可获取该二维图像的限制参数,限制参数可限制生成器的生成结果。例如,条件为输出蓝色背景三维图像,那么,通过限制参数的限制,生成器生成的图像特征可得到蓝色背景三维图像,图像特征可包括图像的颜色特征、纹理特征、形状特征和空间关系特征等。还可获取该二维图像的提示参数,该提示参数可包括获取该二维图像的采集视角参数、相机参数,相机参数包括相机内参及相机外参。当然,采集视角参数可根据该相机参数确定,例如,根据相机参数中的焦距、相机位置和姿态,进而确定采集视角参数。还可通过相机参数,确定二维图像中像素点对应的世界坐标系的三维坐标等。采集视角包括三维空间内任意一个视角,如获取六视图的六种视角中任意一种视角。采集视角参数可提示生成器生成的图像特征,以提高生成器的准确性。需要说明的是,本说明书不限制提示参数及限制参数的种类,只要通过该提示参数及限制参数提高生成器的控制能力及获取的三维图像的准确性即可,生成器的控制能力与三维图像的准确性正相关。限制参数及提示参数在应用过程中较为相似,因此,本说明书中以提示参数为例进行说明。
S102:将所述提示参数输入训练好的生成对抗网络的生成器中的映射网络,以使所述映射网络根据所述提示参数,调整所述生成器,得到调整后的生成器。
提示参数可用于提示生成器的生成结果,因此,服务器将该提示参数输入训练好的生成对抗网络的生成器中的映射网络,以使该映射网络根据该提示参数,调整该生成器,得到调整后的生成器,其中,该映射网络包括多层感知机。
具体的,服务器将该提示参数输入训练好的生成对抗网络的生成器中的映射网络后,该映射网络对该提示参数进行编码,得到用于提示生成过程的提示编码,服务器可根据该提示编码调整生成器,得到调整后的生成器。调整生成器可包括调整生成器的参数、权重、偏置等,以生成符合条件要求的图像特征,其中,生成器的参数包括生成器中包含的神经网络的层数、每层的神经元数量、激活函数等,可根据需要设置,本说明书对此不作限制。
S104:将所述二维图像输入所述调整后的生成器,得到所述调整后的生成器输出的所述二维图像的初始视角图像特征。
在本说明书一个或多个实施例中,该初始视角图像特征位于预先构建的三维空间内,该三维空间中x、y、z三个轴可组成三个二维平面,即xy平面、xz平面及yz平面。那么,该初始视角图像特征包括三平面特征,即该二维图像在xy平面、xz平面及yz平面三个二维平面的特征。三平面特征的尺寸可根据需要设置,例如,512*512*32。使用三平面特征来表示二维图像的图像特征在三维空间中分布,可将复杂的三维空间特征转化为三个正交特征平面上的特征投影,更高效的表示出图像特征在三维空间中的真实分布。
需要说明的是,步骤S102与步骤S104还可同时执行,即将二维图像即提示参数同时输入生成器,生成器根据提示参数进行调整,并生成符合条件要求的二维图像的初始视角图像特征。
S106:将所述初始视角图像特征进行位置编码,得到预设视角图像特征。
为了进一步提高根据图像特征生成三维图像的准确性,以提高构建三维模型的准确性,服务器还可对初始视角图像特征进行处理,即将该初始视角图像特征进行位置编码,得到预设视角图像特征。初始视角及预设视角均包括三维空间内任意一个视角,如获取六视图的六种视角中任意一种视角,但预设视角与初始视角可不相同,例如,初始视角为获取正视图的视角,那么预设视角可为获取俯视图的视角。
具体的,服务器可先根据预设卷积方式,对该初始视角图像特征进行卷积,得到新的初始视角图像特征,再对新的初始视角图像特征进行位置编码,得到预设视角图像特征,预设卷积方式包括窗口自注意力卷积(Swin-Transformer,Swin-T)等。
由于该初始视角图像特征位于三个二维平面中,因此,对该初始视角图像特征进行卷积,即对三个二维平面中的特征进行卷积。那么,服务器进行卷积时,首先,针对三维空间中每一个二维平面,假使该二维平面的尺寸为,初始视角图像特征为T0,通过大小为4的窗口,将该二维平面划分成/>个互不重叠的窗口。对每一个窗口的16个不同的长度为/>的特征向量,在每一个窗口内实现自注意力机制,生成形状相同的新初始视角图像特征T1,/>代表三个二维平面的特征通道数,/>为三个二维平面的尺寸,本说明书不限制/>及/>的取值,可根据需要设置。
得到新初始视角图像特征T1后,再分别大小为8和16的窗口,对T1进行卷积,生成形状相同的新三平面特征T2和T3。最后,将T0、T1、T2及T3四个三平面特征进行拼接,生成的新的三平面特征,即新的初始视角图像特征。
得到新的初始视角图像特征之后,服务器可对新的初始视角图像特征进行位置编码,得到预设视角图像特征。即服务器先在该新的初始视角图像特征所在的三维空间内,针对该三维空间的每个二维平面,根据该新的初始视角图像特征,对该二维平面进行双线性插值,得到该二维平面的平面特征。并确定不同频率的位置编码函数,最后,针对每种频率的位置编码函数,根据该位置编码函数,对该平面特征进行位置编码,得到预设视角图像特征。其中,若用表示第k种编码器输入x生成的编码,则位置编码函数如下式所示:
d 为编码向量的维度,即该平面特征的维度,与特征数量相同,i为预设调整次数。
服务器可通过调整系数调整编码频率,以使的频率随着k的增加而增加。那么,编码后的预设视角图像特征如下式所示:
其中,、/>及/>为编码后的预设视角图像特征,/>及/>为三个二维平面的平面特征,/>为对相同维度向量的逐元素乘法。
本说明书通过双线性插值的方式可使得仅输入单视图的二维图像,该生成器可生成多视图的图像特征。
S108:根据所述预设视角图像特征,构建所述二维图像的三维模型。
具体的,服务器确定该二维图像中每个像素点对应的世界坐标系中的三维坐标,该三维坐标可根据相机参数等确定,本说明书对此不做限制。例如,先获取相机射线,再采集相机射线上的若干个点,得到采样点,根据相机参数,确定该采样点的深度,对若干采样点的深度信息进行积分,得到二维图像中每个像素点对应的世界坐标系中的三维坐标。
之后,针对每个三维坐标,将该三维坐标映射至该新的初始视角图像特征所在的三维空间内,得到映射后的三维坐标,根据该映射后的三维坐标及该预设视角图像特征,构建该二维图像的三维模型。
需要说明的是,根据该映射后的三维坐标及该预设视角图像特征,构建该二维图像的三维模型,需要先确定映射后的三维坐标与图像特征的对应关系,即需要确定每个预设视角图像特征对应的三维坐标,以构建三维模型。
那么,针对每个映射后的三维坐标,服务器在若干个预设视角图像特征中,确定该映射后的三维坐标的每个二维平面的预设视角图像特征,根据映射后的三维坐标的每个二维平面的预设视角图像特征,构建该二维图像的三维模型。根据图像特征,构建三维模型是发展较为成熟的技术,本说明书对此不再赘述。
基于图1所示的三维模型构建方法,通过提示参数,对生成器的参数进行调整,可使得生成器生成的图像特征为提示要求的图像特征。也就是说,通过提示参数,对生成器生成的图像特征进行限制,增强生成器的控制能力。对初始视角图像特征进行位置编码,获取了若干个预设视角图像特征,获取了不同于初始视角的图像特征可提高根据图像特征构建三维模型的准确性,减少当生成器的生成准确率较低时,对构建的三维模型的影响。
针对步骤S108,为了能降低高频噪声的影响,进一步提高三维模型生成的准确性,服务器还可针对每个映射后的三维坐标,确定该映射后的三维坐标的位置编码,得到坐标位置编码。
具体的,可仿照傅里叶分解,用多组三角函数来拟合任意函数:
其中,
推广到三维空间,则有下式:
展开得下式:/>
则此时有:
提取其中有价值的项:
同理,展开,并提取所有有价值的项,作为映射后的三维坐标的坐标位置编码,坐标位置编码如下式:
那么,服务器根据映射后的三维坐标的每个二维平面的预设视角图像特征及该坐标位置编码,确定第三图像特征,即将映射后的三维坐标的每个二维平面的预设视角图像特征与该坐标位置编码拼接,得到第三图像特征,该第三图像特征可表示为:
再对该第三图像特征进行解码,得到该映射后的三维坐标的特征参数,该特征参数包括体密度和RGB色彩向量,解码器可为多层感知机。即从采集视角处发射一条光线穿过渲染视窗上的一个像素点 p,获得光线上所有采样点的体密度和RGB色彩向量。之后,针对该二维图像中每个像素点,根据该特征参数,确定该像素点的色彩特征。
然后,服务器可根据所有像素点的色彩特征,构建三维模型。
图2为本说明提供的构建三维模型示意图,如图2所示。
根据所有像素点的色彩特征,构建三维模型时,服务器先根据该提示参数及该色彩特征,确定该二维图像的第一三维图像。再对该色彩特征进行采样,得到采样后的色彩特征,并根据采样后的色彩特征,确定该二维图像的第二三维图像。然后,对该第二三维图像进行上采样,得到上采样后的该第二三维图像。最后,根据该上采样后的该第二三维图像及该第一三维图像,构建该二维图像的三维模型。
与传统神经辐射场表示方法相比,本说明书通过三个二维平面的特征表示方法,在不损失三维模型的特征的情况下,大幅提高了计算效率。此外,与仅使用传统的生成对抗网络相比,本说明书利用窗口自注意力卷卷积,获取了不同视角的图像特征,提升了三个二维平面在的细节特征表达能力。
本说明书还提供一种生成对抗网络的生成器的训练方法,执行主体为训练生成器的服务器。
首先,服务器获取样本二维图像,并获取该样本二维图像的标注三维图像及标注提示参数,作为该样本二维图像的标签。然后,将该样本二维图像输入该生成对抗网络的生成器,得到该生成器输出的该样本二维图像的预测图像特征。之后,对该预测图像特征进行位置编码,得到编码后的预测图像特征。再根据该编码后的预测图像特征,确定该样本二维图像的预测三维图像,接着,将该预测三维图像输入该生成对抗网络的判别器,以使该判别器根据该标签,输出的该样本二维图像的判别结果。最后,根据该判别结果,对该生成器进行训练。
此外,标注提示参数用于训练生成对抗网络中的映射网络,以使该映射网络输出提示参数的提示编码,对生成器的参数进行调整。
需要说明的是,在训练阶段,生成器输出图像特征后,也可执行步骤S104~步骤S108的内容,以提高生成器的准确性。
以上为本说明书的一个或多个实施的方法,基于图1所示的三维模型构建方法的流程示意图,本说明书还提供了相应的三维模型构建装置,如图3所示。
图3为本说明书提供的一种三维模型构建装置的示意图,包括:
二维图像获取模块300,用于获取二维图像及所述二维图像的提示参数,所述提示参数包括所述二维图像的采集视角参数;
调整模块302,用于将所述提示参数输入训练好的生成对抗网络的生成器中的映射网络,以使所述映射网络根据所述提示参数,调整所述生成器,得到调整后的生成器;
初始视角图像特征确定模块304,用于将所述二维图像输入所述调整后的生成器,得到所述调整后的生成器输出的所述二维图像的初始视角图像特征;
预设视角图像特征确定模块306,用于将所述初始视角图像特征进行位置编码,得到预设视角图像特征;
构建模块308,用于根据所述预设视角图像特征,构建所述二维图像的三维模型。
可选地,所述预设视角图像特征确定模块306具体用于,根据预设卷积方式,对所述初始视角图像特征进行卷积,得到新的初始视角图像特征;对新的初始视角图像特征进行位置编码,得到预设视角图像特征。
可选地,所述预设视角图像特征确定模块306具体用于,在所述新的初始视角图像特征所在的三维空间内,针对所述三维空间的每个二维平面,根据所述新的初始视角图像特征,对该二维平面进行双线性插值,得到该二维平面的平面特征;确定不同频率的位置编码函数;针对每种频率的位置编码函数,根据该位置编码函数,对所述平面特征进行位置编码,得到预设视角图像特征。
可选地,所述构建模块308具体用于,确定所述二维图像中每个像素点对应的世界坐标系中的三维坐标;针对每个三维坐标,将该三维坐标映射至所述新的初始视角图像特征所在的三维空间内,得到映射后的三维坐标;根据所述映射后的三维坐标及所述预设视角图像特征,构建所述二维图像的三维模型。
可选地,所述构建模块308具体用于,针对每个映射后的三维坐标,确定该映射后的三维坐标的位置编码,得到坐标位置编码;并在若干个预设视角图像特征中,确定该映射后的三维坐标的每个二维平面的预设视角图像特征;根据映射后的三维坐标的每个二维平面的预设视角图像特征及所述坐标位置编码,确定第三图像特征;根据所述第三图像特征,构建所述二维图像的三维模型。
可选地,所述构建模块308具体用于,对所述第三图像特征进行解码,得到所述映射后的三维坐标的特征参数;针对所述二维图像中每个像素点,根据所述特征参数,确定该像素点的色彩特征;根据所述色彩特征,构建所述二维图像的三维模型。
可选地,所述构建模块308具体用于,根据所述提示参数及所述色彩特征,确定所述二维图像的第一三维图像;对所述色彩特征进行采样,得到采样后的色彩特征;并根据采样后的色彩特征,确定所述二维图像的第二三维图像;对所述第二三维图像进行上采样,得到上采样后的所述第二三维图像;根据所述上采样后的所述第二三维图像及所述第一三维图像,构建所述二维图像的三维模型。
可选地,所述装置还包括:
训练模块310,用于获取样本二维图像,并获取所述样本二维图像的标注三维图像及标注提示参数,作为所述样本二维图像的标签;将所述样本二维图像输入所述生成对抗网络的生成器,得到所述生成器输出的所述样本二维图像的预测图像特征;对所述预测图像特征进行位置编码,得到编码后的预测图像特征;根据所述编码后的预测图像特征,确定所述样本二维图像的预测三维图像;将所述预测三维图像输入所述生成对抗网络的判别器,以使所述判别器根据所述标签,输出的所述样本二维图像的判别结果;根据所述判别结果,对所述生成器进行训练。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述三维模型构建方法。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的一种三维模型构建方法。
本说明书还提供了图4所示的一种对应于图1的电子设备的结构示意图。如图4所示,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的三维模型构建方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(第一芯粒)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种三维模型构建方法,其特征在于,所述方法包括:
获取二维图像及所述二维图像的提示参数,所述提示参数包括所述二维图像的采集视角参数;
将所述提示参数输入训练好的生成对抗网络的生成器中的映射网络,以使所述映射网络根据所述提示参数,调整所述生成器,得到调整后的生成器;
将所述二维图像输入所述调整后的生成器,得到所述调整后的生成器输出的所述二维图像的初始视角图像特征;
将所述初始视角图像特征进行位置编码,得到预设视角图像特征;
根据所述预设视角图像特征,构建所述二维图像的三维模型。
2.如权利要求1所述的方法,其特征在于,将所述初始视角图像特征进行位置编码,得到预设视角图像特征,具体包括:
根据预设卷积方式,对所述初始视角图像特征进行卷积,得到新的初始视角图像特征;
对新的初始视角图像特征进行位置编码,得到预设视角图像特征。
3.如权利要求2所述的方法,其特征在于,对新的初始视角图像特征进行位置编码,得到预设视角图像特征,具体包括:
在所述新的初始视角图像特征所在的三维空间内,针对所述三维空间的每个二维平面,根据所述新的初始视角图像特征,对该二维平面进行双线性插值,得到该二维平面的平面特征;
确定不同频率的位置编码函数;
针对每种频率的位置编码函数,根据该位置编码函数,对所述平面特征进行位置编码,得到预设视角图像特征。
4.如权利要求2所述的方法,其特征在于,根据所述预设视角图像特征,构建所述二维图像的三维模型,具体包括:
确定所述二维图像中每个像素点对应的世界坐标系中的三维坐标;
针对每个三维坐标,将该三维坐标映射至所述新的初始视角图像特征所在的三维空间内,得到映射后的三维坐标;
根据所述映射后的三维坐标及所述预设视角图像特征,构建所述二维图像的三维模型。
5.如权利要求4所述的方法,其特征在于,根据所述映射后的三维坐标及所述预设视角图像特征,构建所述二维图像的三维模型,具体包括:
针对每个映射后的三维坐标,确定该映射后的三维坐标的位置编码,得到坐标位置编码;并在若干个预设视角图像特征中,确定该映射后的三维坐标的每个二维平面的预设视角图像特征;
根据映射后的三维坐标的每个二维平面的预设视角图像特征及所述坐标位置编码,确定第三图像特征;
根据所述第三图像特征,构建所述二维图像的三维模型。
6.如权利要求5所述的方法,其特征在于,根据所述第三图像特征,构建所述二维图像的三维模型,具体包括:
对所述第三图像特征进行解码,得到所述映射后的三维坐标的特征参数;
针对所述二维图像中每个像素点,根据所述特征参数,确定该像素点的色彩特征;
根据所述色彩特征,构建所述二维图像的三维模型。
7.如权利要求6所述的方法,其特征在于,根据所述色彩特征,构建所述二维图像的三维模型,具体包括:
根据所述提示参数及所述色彩特征,确定所述二维图像的第一三维图像;
对所述色彩特征进行采样,得到采样后的色彩特征;并根据采样后的色彩特征,确定所述二维图像的第二三维图像;
对所述第二三维图像进行上采样,得到上采样后的所述第二三维图像;
根据所述上采样后的所述第二三维图像及所述第一三维图像,构建所述二维图像的三维模型。
8.如权利要求1所述的方法,其特征在于,训练所述生成对抗网络的生成器,具体包括:
获取样本二维图像,并获取所述样本二维图像的标注三维图像及标注提示参数,作为所述样本二维图像的标签;
将所述样本二维图像输入所述生成对抗网络的生成器,得到所述生成器输出的所述样本二维图像的预测图像特征;
对所述预测图像特征进行位置编码,得到编码后的预测图像特征;
根据所述编码后的预测图像特征,确定所述样本二维图像的预测三维图像;
将所述预测三维图像输入所述生成对抗网络的判别器,以使所述判别器根据所述标签,输出的所述样本二维图像的判别结果;
根据所述判别结果,对所述生成器进行训练。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~8任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~8任一项所述的方法。
CN202410136686.0A 2024-01-31 2024-01-31 一种三维模型构建方法、装置、存储介质及电子设备 Active CN117689822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410136686.0A CN117689822B (zh) 2024-01-31 2024-01-31 一种三维模型构建方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410136686.0A CN117689822B (zh) 2024-01-31 2024-01-31 一种三维模型构建方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN117689822A true CN117689822A (zh) 2024-03-12
CN117689822B CN117689822B (zh) 2024-04-16

Family

ID=90126818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410136686.0A Active CN117689822B (zh) 2024-01-31 2024-01-31 一种三维模型构建方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117689822B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373933A1 (en) * 2015-12-30 2018-12-27 Telecom Italia S.P.A System for generating 3d images for image recognition based positioning
CN116051722A (zh) * 2022-07-15 2023-05-02 咪咕文化科技有限公司 三维头部模型重建方法、装置及终端
CN116523757A (zh) * 2023-06-02 2023-08-01 电子科技大学 基于生成对抗网络的光场图像超分辨率模型及其训练方法
CN116630514A (zh) * 2023-05-24 2023-08-22 中国电信股份有限公司北京研究院 图像处理方法、装置、计算机可读存储介质及电子设备
US20230281913A1 (en) * 2022-03-01 2023-09-07 Google Llc Radiance Fields for Three-Dimensional Reconstruction and Novel View Synthesis in Large-Scale Environments
CN116977525A (zh) * 2023-07-31 2023-10-31 之江实验室 一种图像渲染方法、装置、存储介质及电子设备
CN117252984A (zh) * 2023-09-15 2023-12-19 腾讯科技(深圳)有限公司 三维模型生成方法、装置、设备、存储介质及程序产品
CN117372631A (zh) * 2023-12-07 2024-01-09 之江实验室 一种多视角图像生成模型的训练方法、应用方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373933A1 (en) * 2015-12-30 2018-12-27 Telecom Italia S.P.A System for generating 3d images for image recognition based positioning
US20230281913A1 (en) * 2022-03-01 2023-09-07 Google Llc Radiance Fields for Three-Dimensional Reconstruction and Novel View Synthesis in Large-Scale Environments
CN116051722A (zh) * 2022-07-15 2023-05-02 咪咕文化科技有限公司 三维头部模型重建方法、装置及终端
CN116630514A (zh) * 2023-05-24 2023-08-22 中国电信股份有限公司北京研究院 图像处理方法、装置、计算机可读存储介质及电子设备
CN116523757A (zh) * 2023-06-02 2023-08-01 电子科技大学 基于生成对抗网络的光场图像超分辨率模型及其训练方法
CN116977525A (zh) * 2023-07-31 2023-10-31 之江实验室 一种图像渲染方法、装置、存储介质及电子设备
CN117252984A (zh) * 2023-09-15 2023-12-19 腾讯科技(深圳)有限公司 三维模型生成方法、装置、设备、存储介质及程序产品
CN117372631A (zh) * 2023-12-07 2024-01-09 之江实验室 一种多视角图像生成模型的训练方法、应用方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
余翀等: "基于半监督生成对抗网络的三维重建云工作室", 智能科学与技术学报, no. 01, 15 March 2019 (2019-03-15) *
高小天等: "基于布局图的多物体场景新视角图像生成网络", 计算机应用研究, vol. 39, no. 8, 31 August 2022 (2022-08-31), pages 2526 - 2531 *

Also Published As

Publication number Publication date
CN117689822B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
Gwak et al. Generative sparse detection networks for 3d single-shot object detection
CN110428388B (zh) 一种图像数据生成方法及装置
US11640690B2 (en) High resolution neural rendering
CN117372631B (zh) 一种多视角图像生成模型的训练方法、应用方法
CN116977525B (zh) 一种图像渲染方法、装置、存储介质及电子设备
CN117635822A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN117689822B (zh) 一种三维模型构建方法、装置、存储介质及电子设备
CN116012483A (zh) 一种图像渲染的方法、装置、存储介质及电子设备
CN115661320A (zh) 图像处理方法及电子设备
CN113920282B (zh) 图像处理方法和装置、计算机可读存储介质、电子设备
WO2022197439A1 (en) High resolution neural rendering
CN117830564B (zh) 一种姿态分布指导的三维虚拟人模型重建方法
CN116309924B (zh) 一种模型训练的方法、图像展示的方法及装置
CN117808976B (zh) 一种三维模型构建方法、装置、存储介质及电子设备
CN117893692B (zh) 一种基于对称视图的三维重建方法、装置及存储介质
CN115661929B (zh) 一种时序特征编码方法、装置、电子设备及存储介质
CN116612244B (zh) 一种图像生成方法、装置、存储介质及电子设备
CN117726760B (zh) 一种用于视频的三维人体重建模型的训练方法及装置
CN115761565B (zh) 视频生成方法、装置、设备与计算机可读存储介质
CN117726907B (zh) 一种建模模型的训练方法、三维人体建模的方法以及装置
CN117274344B (zh) 真实材质纹理的模型训练方法、纹理合成及映射方法
CN117934858B (zh) 一种点云的处理方法、装置、存储介质及电子设备
CN118211132A (zh) 一种基于点云的三维人体表面数据生成方法及装置
CN117953111A (zh) 三维头部处理方法、三维头部处理模型的训练方法及装置
CN117745956A (zh) 一种基于位姿引导的图像生成方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant