CN116597098B - 三维重建方法、装置、电子设备和计算机可读存储介质 - Google Patents

三维重建方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN116597098B
CN116597098B CN202310865498.7A CN202310865498A CN116597098B CN 116597098 B CN116597098 B CN 116597098B CN 202310865498 A CN202310865498 A CN 202310865498A CN 116597098 B CN116597098 B CN 116597098B
Authority
CN
China
Prior art keywords
image
parallax
target
target object
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310865498.7A
Other languages
English (en)
Other versions
CN116597098A (zh
Inventor
查俊伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310865498.7A priority Critical patent/CN116597098B/zh
Publication of CN116597098A publication Critical patent/CN116597098A/zh
Application granted granted Critical
Publication of CN116597098B publication Critical patent/CN116597098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种三维重建方法、装置、电子设备和计算机可读存储介质;本发明实施例在获取目标对象在双目标视觉下的目标图像对之后,对目标图像对进行特征提取,得到目标图像对中每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图,然后,基于图像特征和初始视差图,确定目标对象对应的视差增量,根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图,然后,基于目标视差图,在云平台对目标对象进行三维重建,得到目标对象的三维对象图像;该方案可以提升三维重建的准确率。

Description

三维重建方法、装置、电子设备和计算机可读存储介质
技术领域
本发明涉及图像处理领域,具体涉及一种三维重建方法、装置、电子设备和计算机可读存储介质。
背景技术
近年来,随着互联网技术的飞速发展,三维重建技术也越来越成熟。在三维重建中,需要通过立体匹配技术推断出对象的深度信息,从而实现三维重建。现有的三维重建方法往往从0视差开始迭代更新视差图,并基于更新后的视差图进行三维重建。
在对现有技术的研究和实践过程中,本申请的发明人发现双目视觉下的图像的视差一般都不为0,将0视差作为初始值与实际视差的差别往往较大,从而增加迭代次数,由于初始值距离最优的目标视差较远,多次迭代往往也会引入较多的噪声,使得估计出的视差图准确度不足,因此,导致三维重建的准确性不足。
发明内容
本发明实施例提供一种三维重建方法、装置、电子设备和计算机可读存储介质,可以提高三维重建的准确率。
一种三维重建方法,包括:
获取目标对象的目标图像对,所述目标图像对包括所述目标对象在双目视觉下的对象图像;
对所述目标图像对进行特征提取,得到每一对象图像对应的图像特征,并对所述图像特征进行特征解码,以得到所述目标对象的初始视差图;
基于所述图像特征和所述初始视差图,确定所述目标对象对应的视差增量;
根据所述视差增量,对所述初始视差图进行更新,以得到所述目标对象的目标视差图;
基于所述目标视差图,对所述目标对象进行三维重建,得到所述目标对象的三维对象图像。
相应的,本发明实施例提供一种三维重建装置,包括:
获取单元,用于获取目标对象的目标图像对,所述目标图像对包括所述目标对象在双目视觉下的对象图像;
解码单元,用于对所述目标图像对进行特征提取,得到每一对象图像对应的图像特征,并对所述图像特征进行特征解码,以得到所述目标对象的初始视差图;
确定单元,用于基于所述图像特征和所述初始视差图,确定所述目标对象对应的视差增量;
更新单元,用于根据所述视差增量,对所述初始视差图进行更新,以得到所述目标对象的目标视差图;
三维重建单元,用于基于所述目标视差图,对所述目标对象进行三维重建,得到所述目标对象的三维对象图像。
在一些实施例中,所述更新单元,具体可以用于根据所述视差增量,对所述初始视差图进行调整,得到调整后视差图;基于所述图像特征,对所述调整后视差图进行迭代更新,得到所述目标对象的目标视差图。
在一些实施例中,所述更新单元,具体可以用于在所述初始视差图中识别出所述目标对象的每一像素对应的初始视差值;在所述视差增量中提取出所述目标对象的每一像素对应的视差增量值;将所述视差增量值与对应的所述初始视差值进行融合,以得到调整后视差图。
在一些实施例中,所述更新单元,具体可以用于将所述调整后视差图作为所述初始视差图;返回执行所述基于所述图像特征和所述初始视差图,确定所述目标对象对应的视差增量的步骤,直至达到预设迭代次数为止,得到所述目标对象的目标视差图。
在一些实施例中,所述三维重建单元,具体可以用于获取所述目标图像对的采集参数;根据所述采集参数和所述目标视差图,确定所述目标对象的点云集合;基于所述点云集合,构建所述目标对象的三维对象图像。
在一些实施例中,所述三维重建单元,具体可以用于基于所述目标视差图和所述采集参数,确定所述对象图像中所述目标对象对应的像素深度;将所述像素深度转换为所述目标对象的像素对应的点云坐标,得到所述目标对象的点云集合。
在一些实施例中,所述三维重建单元,具体可以用于在所述采集参数中提取出取景参数和每一对象图像对应的采集位置;计算所述采集位置之间的坐标差值,并在所述目标视差图中提取出所述目标对象的每一像素对应的目标视差值;将所述坐标差值、目标视差值和所述取景参数进行融合,得到所述对象图像中所述目标对象对应的像素深度。
在一些实施例中,所述三维重建单元,具体可以用于将所述焦距长度和所述基线长度进行融合,得到融合后取景参数;基于所述坐标差值,对所述目标视差值进行调整,得到所述对象图像中所述目标对象的每一像素的调整后视差值;计算所述调整后视差值与所述融合后取景参数之间的比值,得到每一像素的像素深度。
在一些实施例中,所述三维重建单元,具体可以用于在所述采集参数中提取出双目采集设备的内参矩阵;在所述对象图像中识别出所述目标对象的每一像素的像素坐标;基于所述内参矩阵和所述像素深度,将所述像素坐标转换为点云坐标,得到所述目标对象的点云集合。
在一些实施例中,所述三维重建单元,具体可以用于根据所述像素深度,对所述像素坐标进行调整,得到调整后坐标值;基于所述调整后坐标值和所述像素深度,构建每一像素对应的坐标矩阵;将所述内参矩阵与所述坐标矩阵进行融合,得到每一像素对应的点云齐次坐标,并将每一像素对应的点云齐次坐标作为所述目标对象的点云集合。
在一些实施例中,所述解码单元,具体可以用于将所述图像特征进行拼接,得到所述目标对象对应的目标图像特征;采用视差识别模型的解码网络对所述目标图像特征进行特征解码,以得到所述目标对象的初始视差图;所述基于所述图像特征和所述初始视差图,确定所述目标对象对应的视差增量,包括:采用所述视差识别模型的增量预测网络,基于所述图像特征和所述初始视差图,预测出所述目标对象对应的视差增量。
在一些实施例中,所述三维重建装置还可以包括训练单元,所述训练单元,具体可以用于获取样本对象的样本图像对,并对所述样本图像对进行特征提取,以得到样本图像特征;采用预设视差识别模型,基于所述样本图像特征,预测出所述样本对象的预测视差图;基于所述预测视差图与所述样本对象的标注视差图,确定视差损失,并根据所述视差损失,对所述预设视差识别模型进行收敛,得到视差识别模型。
在一些实施例中,所述训练单元,具体可以用于获取所述样本对象的标注视差图,并对所述标注视差图进行特征提取,得到标注视差特征;对所述预测视差图进行特征提取,得到预测视差特征;计算所述标注视差特征与所述预测视差特征之间的特征距离,以得到视差损失。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的三维重建方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种三维重建方法中的步骤。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现本申请实施例提供的三维重建方法中的步骤。
本发明实施例在获取目标对象在双目标视觉下的目标图像对之后,对目标图像对进行特征提取,得到目标图像对中每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图,基于图像特征和初始视差图,确定目标对象对应的视差增量,根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图,基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像;由于该方案可以在双目视觉下的对象图像的图像特征中解码出一个初略的视差图,将解码出的视差图作为后续计算视差图增量的初始视差图,相对于全0的初始视差图而言,更加接近真实视差图,从而可以减少后续迭代更新的次数,并提升计算出的目标视差图的精度,因此,可以提升三维重建的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的三维重建方法的场景示意图;
图2是本发明实施例提供的三维重建方法的流程示意图;
图3是本发明实施例提供的针对目标对象的三维重建的整体流程示意图;
图4是本发明实施例提供的双目视觉下的目标图像对的示意图;
图5是本发明实施例提供的初值优化前的目标视差图的示意图;
图6是本发明实施例提供的初值优化后的目标视差图的示意图;
图7是本发明实施例提供的初值优化前的重建点云的示意图;
图8是本发明实施例提供的初值优化后的重建点云的示意图;
图9是本发明实施例提供的三维重建方法的另一流程示意图;
图10是本发明实施例提供的三维重建装置的结构示意图;
图11是本发明实施例提供的三维重建装置的另一结构示意图;
图12是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种三维重建方法、装置、电子设备和计算机可读存储介质。其中,该三维重建装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,参见图1,以三维重建装置集成在电子设备中为例,电子设备在获取目标对象在双目标视觉下的目标图像对之后,对目标图像对进行特征提取,得到目标图像对中每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图,基于图像特征和初始视差图,确定目标对象对应的视差增量,根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图,基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像,进而提升三维重建的准确率。
其中,可以在云平台对目标对象进行三维重建。所谓云平台也称云计算平台,是指基于硬件资源和软件资源的服务,提供计算、网络和存储能力。云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS (Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
其中,可以理解的是,在本申请的具体实施方式中,涉及到对象的目标图像对或对象图像等相关数据,当本申请以下实施例运用到具体产品或技术中时,需要获得许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从三维重建装置的角度进行描述,该三维重建装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以进行三维重建的智能设备等设备。
一种三维重建方法,包括:
获取目标对象的目标图像对,该目标图像对包括目标对象在双目视觉下的对象图像,对目标图像对进行特征提取,得到每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图,基于图像特征和初始视差图,确定目标对象对应的视差增量,根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图,基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像。
如图2所示,该三维重建方法的具体流程如下:
101、获取目标对象的目标图像对。
其中,目标对象可以包括任意具备三维特性的实体,比如,可以包括人、动物、植物、建筑、设备、零件、物品、以及自然或加工形成的三维实体,等等。
其中,目标图像对可以包括目标对像在双目视觉下的对象图像。所谓双目视觉可以理解为目标对象在双目相机下的视觉。所谓双目相机可以理解为包含两个单目相机的相机组,这两个单目相机之间存在一定的位置或空间关系。所谓单目相机可以包括一个摄像头或其他类型的图像采集设备,将三维空间信息存储了二维图像,相当于某个场景在图像上的一个投影。目标图像对中就可以包括采用双目相机针对目标对象进行采集后得到的不同的对象图像。不同视觉(即双目相机中不同相机)对应的对象图像中可以包含相同内容,即均可以包括目标对象的对象内容,比如,以目标对象为人脸为例,对象内容可以包括眼睛、鼻子或耳朵等,又比如,以目标对象为建筑物,譬如房屋为例,对象内容就可以为房屋的大门、窗户或屋顶等等。在不同的对象图像中同一对象内容的像素位置可以相同,也可以不同。不同视觉对应的对象图像中也可以包括不同的内容,即除了对象内容以外的其他内容。另外,目标对象对中的对象图像的图像采集时间可以相同也可以不相同,采集位置可以相同也可以不同。
其中,获取目标对象的目标图像对的方式可以有多种,具体可以如下:
例如,可以直接接收终端或客户端上传的目标对象的目标图像对,或者,通过双目相机采集目标对象的对象图像,得到目标图像对,或者,可以在网络或者图像数据库中筛选出目标对象的至少两张原始对象图像,得到原始对象图像集合,在原始对象图像集合中提取出双目相机采集的对象图像,从而得到目标图像对,或者,当目标对象的数量较多或者对象图像的内存较大时,还可以接收三维重建请求,该三维重建请求携带目标对象的目标图像对的存储地址,基于该存储地址,获取目标对象的目标图像对,等等。
102、对目标图像对进行特征提取,得到每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图。
其中,初始视差图可以包括为目标对象的同一像素在不同对象图像下视差的初始值。
其中,对目标图像对进行特征提取的方式可以有多种,具体可以如下:
例如,可以采用图像特征提取网络在目标图像对中每一对象图像中提取出与视差相关的特征信息,从而得到每一对象图像对应的图像特征;或者,还可以将目标图像对发送至第三方服务器,以便第三方服务器对目标图像对中的每一对象图像进行特征提取,接收第三方服务器返回的每一对象图像的图像特征,等等。
其中,需要说明的是,对目标图像对进行特征提取时,可以采用同一个图像特征提取网络分别对目标对象对中的每一对象图像进行特征提取。针对目标对象对中的两个对象图像来说,可以采用同一个图像特征提取网络同时对两个对象图像进行特征提取,也可以采用同一个图像特征提取网络对两个对象图像分开进行特征提取(即特征提取的时间可以为不同时间)。
其中,图像特征提取网络(器)的网络结构可以有多种,比如,可以包括CNN(卷积神经网络)、DNN(深度神经网络)或者其他可以进行图像特征提取的网络,等等。以目标图像对包括对象图像和/>,图像特征提取网络E为例,采用图像特征提取网络E可以分别对图像/>和/>进行特征提取,从而得到对象图像/>的图像特征/>和对象图像/>的图像特征/>,具体可以如公式(1)所示,具体可以如下:
其中,为对象图像/>的图像特征,/>为对象图像/>的图像特征,/>和/>分别为目标图像对中的左视图对象图像以及右视图对象图像,E为图像特征提取网络。
在对目标图像对进行特征提取之后,便可以对提取出的图像特征进行特征解码,从而得到目标对象的初始视差图。对图像特征进行特征解码的方式可以有多种,比如,可以将图像特征进行拼接,得到目标对象对应的目标图像特征,采用视差识别模型的解码网络对目标图像特征进行特征解码,以得到目标对象的初始视差图。
其中,视差识别模型的解码网络的类型可以有多种,比如,可以包括Unet网络或者其他可以学习从特征到视差图的映射的网络,等等。以解码网络为Unet网络为例,解码出的初始视差图D=Unet(,/>)。
其中,需要说明的是,图像特征中解码出的视差图D的效果比全0的初始视差图要更接近理想的视差图,将解码出的视差图D作为初始视差图,就可以减少迭代更新的轮数或者次数,从而提升更新出的目标视差图的精度。
可选的,该训练后的视差识别模型可以预先进行设置,也可以由三维重建装置自行训练得到的,即步骤“采用视差识别模型的解码网络对目标图像特征进行特征解码,以得到目标对象的初始视差图”之前,该三维重建方法还可以包括:
获取样本对象的样本图像对,并对样本图像对进行特征提取,以得到样本图像特征,采用预设视差识别模型,基于样本图像特征,预测出样本对象的预测视差图,基于预测视差图与样本对象的标注视差图,确定视差损失,并根据视差损失,对预设视差识别模型进行收敛,得到视差识别模型,具体可以如下:
(1)获取样本对象的样本图像对,并对样本图像对进行特征提取,以得到样本图像特征。
例如,获取样本图像对的方式可以与获取目标图像对的方式类似,详见上文所述,在此就不在一一赘述。
在获取样本图像对之后,便可以对样本图像对进行特征提取,对样本图像对进行特征提取的方式可以与对目标图像对进行特征提取的方式类似,详见上文所述,在此就不再一一赘述。
(2)采用预设视差识别模型,基于样本图像特征,预测出样本对象的预测视差图。
例如,可以采用预设视差识别模型中的解码网络,对样本图像进行特征解码,得到样本初始视差图,采用预设视差识别模型中的增量预测网络,基于样本图像特征和样本初始视差图,预测出样本对象对应的样本视差增量,基于样本视差增量,对样本初始视差图进行更新,以得到样本对象的预测视差图。
其中,增量预测网络的网络结构可以有多种,比如,可以包括RAFT(视差增量预测器)或者其他可以预测出视差增量的网络,等等。
其中,基于样本视差增量对样本初始视差图进行更新的方式与根据视差增对初始视差图进行更新的方式类似,详见下文所述。
(3)基于预测视差图与样本对象的标注视差图,确定视差损失,并根据视差损失,对预设视差识别模型进行收敛,得到视差识别模型。
例如,可以获取样本对象的标注视差图,并对标注视差图进行特征提取,得到标注视差特征,对预测视差特征进行特征提取,得到预测视差特征,计算标注视差特征与预测视差特征之间的特征距离,以得到视差损失。
其中,特征距离可以包括标注视差特征与预测视差特征之间的距离,也可以包括标注视差图与预测视差图中对应的像素值之间的距离。特征距离的类型可以有多种,比如,可以包括L1距离、L2距离或者余弦相似度对应的距离,等等。以特征距离为L1为例,则确定视差损失可以如公式(2)所示,具体可以如下:
其中,L1为视差损失,D为预测视差图,Dgt为标注视差图。
在确定出视差损失之后,便可以根据视差损失,对预设视差识别模型进行收敛,得到视差识别模型。对预设视差识别模型进行收敛的方式可以有多种,比如,采用梯度下降算法,基于视差损失,分别对预设视差识别模型的解码网络和增量预测网络的网络参数进行更新,得到更新后的视差识别模型,将更新后的视差识别模型作为预设视差识别模型,返回执行获取样本对象的样本图像对的步骤,直至预设视差识别模型收敛时为止,从而得到训练后的视差识别模型。
其中,需要说明的是,以预设视差的解码网络为Unet,增量预测网络为RAFT为例,对预设视差识别模型训练是,训练阶段的目标就是最小化视差损失L1,并对解码网络Unet和增量预测网络RAFT的参数进行更新,从而使得预测的D越来越接近与训练数据的真实视差Dgt,即
103、基于图像特征和初始视差图,确定目标对象对应的视差增量。
其中,视差增量可以理解为初始视差图中目标对象的每一像素对应的视差值的增量。
其中,基于图像特征和初始视差图,确定目标对象对应的视差增量的方式可以有多种,具体可以如下:
例如,可以采用视差识别模型的增量预测网络,基于图像特征和初始视差图,预测出目标对象对应的视差增量。
其中,增量预测网络的网络结构可以有多种,比如,可以包括RAFT(视差增量预测器)或者其他可以预测出视差增量的网络,等等。以增量预测网络为RAFT为例,则预测出的视差增量d=RAFT(Fl,Fr,D) ,D可以为初始视差图。
104、根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图。
例如,可以根据视差增量,对初始视差图进行调整,得到调整后视差图,基于图像特征,对调整后视差图进行迭代更新,得到目标对象的目标视差图。
其中,根据视差增量,对初始视差图进行调整的方式可以有多种,比如,可以在初始视差图中识别出目标对象的每一像素对应的初始视差值,在视差增量中提取出目标对象的每一像素对应的视差增量值,将视差增量值与对应的初始视差值进行融合,以得到调整后视差图。
其中,将视差增量值与对应的初始视差值进行融合的方式可以有多种,比如,将目标对象的同一像素对应的视差增量值与初始视差值相加,从而得到每一像素对应的更新后视差值,将更新后视差值作为调整后视差图中每一像素的视差值,具体可以如公式(3)所示,具体可以如下:
其中,为调整后视差图,D为初始视差图,d为视差增量。
在对初始视差图进行调整之后,便可以基于图像特征,对调整后视差图进行迭代更新,得到目标对象的目标视差图。对调整后视差图进行迭代更新的方式可以有多种,比如,可以将调整后视差图作为初始视差图,返回执行基于图像特征和初始视差图,确定目标对象对应的视差增量的步骤,直至达到预设迭代次数为止,得到目标对象的目标视差图。
其中,预设迭代次数可以为预先设定的迭代次数。预设迭代次数可以为大于0的整数,比如,可以包括5、6、7、8或者其他任意大于0的数值,等等。对于预设迭代次数来说,不同类型的目标对象所对应的预设迭代次数可以相同,也可以不同;不同尺寸或不同图像类型的目标图像对对应的预设迭代次数可以相同,也可以不同;不同的双目相机采集的目标图像对对应的预设迭代次数可以不同,也可以不同。因此,预设迭代次数可以为唯一的值,也可以包括多个值。对于预设迭代次数包括多个值来说,确定预设迭代次数的方式可以有多种,比如,获取目标对象或目标图像对的属性信息,基于属性信息,在预设迭代次数集合中筛选出预设迭代次数,或者,还可以获取目标对象的对象属性信息和目标图像对的图像属性信息,基于对象属性信息和图像属性信息,在预设迭代次数集合中筛选出预设迭代次数,等等。
105、基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像。
其中,三维对象图像可以为对目标对象进行三维重建(基于点云重建)后得到的三维图像。
其中,基于目标视差图,对目标对象进行三维重建的方式可以有多种,具体可以如下:
例如,可以获取目标图像对的采集参数,根据采集参数和目标视差图,确定目标对象的点云集合,基于点云集合,构建目标对象的三维对象图像。
其中,采集参数可以包括目标图像对中的对象图像在采集时的参数,采集参数可以包括取景参数、采集位置和内参矩阵,等等。所谓取景参数可以包括双目相机的焦距长度和基线长度,等等。
其中,点云集合可以包括目标对象中每一像素对应的点云坐标的集合。通过点云集合便可以构建出目标对象的三维对象图像。根据采集参数和目标视差图,确定目标对象的点云集合的方式可以有多种,比如,可以基于目标视差图和采集参数,确定对象图像中目标对象对应的像素深度,将像素深度转换为目标对象的像素对应的点云坐标,得到目标对象的点云集合。
其中,像素深度可以包括任意一个对象图像中目标对象的每一像素的深度。基于目标视差图和采集参数,确定对象图像中目标对象的像素深度的方式可以有多种,比如,可以在采集参数中提取出取景参数和每一对象图像对应的采集位置,计算采集位置之间的坐标差值,并在目标视差图中提取出目标对象的每一像素对应的目标视差值,将坐标差值、目标视差值和取景参数进行融合,得到对象图像中目标对象对应的像素深度。
其中,采集位置可以包括目标图像对对应的双目相机中不同单目相机的主点位置。坐标差值就可以为双目相机中不同单目相机的主点位置对应的坐标之间的差值。取景参数可以包括双目相机的焦距长度和基线长度。将坐标差值、目标视差值和取景参数进行融合的方式可以有多种,比如,可以将焦距长度和基线长度进行融合,得到融合后取景参数,基于坐标差值,对目标视差值进行调整,得到对象图像中目标对象的每一像素的调整后视差值,计算调整后视差值与融合后取景参数之间的比值,得到每一像素的像素深度,进而就可以得到对象图像中目标对象对应的像素深度图,就可以具体可以如公式(4)所示,具体可以如下:
其中,G为像素深度图,f为焦距长度,b为基线长度,D为目标视差图,cr为双目相机中右侧相机(单目相机)的主点位置,cl为双目相机中左侧相机(单目相机)的主点位置。
在确定出对象图像中目标对象对应的像素深度之后,便可以将像素深度转换为目标对象的像素对应的点云坐标,从而得到目标对象的点云集合。将像素深度转换为点云坐标的方式可以有多种,比如,可以在采集参数中提取出双目采集设备的内参矩阵,在对象图像中识别出的目标对象的每一像素的像素坐标,基于内参矩阵和像素深度,将像素坐标转换为点云坐标,得到目标对象的点云集合。
其中,内参矩阵也可以称之为相机内参矩阵,可以为相机的内参数,内参矩阵是在计算机视觉中,用于描述摄像头的光学参数和图像采集规律的一个重要矩阵,通常用K来表示。它包含了摄像头的内部参数,如焦距、像元大小、主点位置等,同时也包含了摄像头的几何形变参数,如径向畸变和切向畸变等。以相机坐标系为参考系的图像像素坐标与三维物理坐标成比例关系,而这种关系就是由内参矩阵所描述的。基于内参矩阵和像素深度,将像素坐标转换为点云坐标的方式可以有多种,比如,可以根据像素深度,对像素坐标进行调整,得到调整后坐标值,基于调整后坐标值和像素深度,构建每一像素的坐标矩阵,将内参矩阵与坐标矩阵进行融合,得到每一像素对应的点云齐次坐标,并将每一像素对应的点云齐次坐标作为目标对象的点云集合,具体可以如公式(5)所示,具体可以如下:
其中,P(u,v)为像素点P的点云齐次坐标,u和v分别为对象图像中P的像素坐标,D(u,v)为对象图像中对应的像素点的像素深度,K为内参矩阵,为坐标矩阵。
在确定出目标对象的点云集合之后,便可以基于点云集合,构建目标对象的三维对象图像。基于点云集合,构建目标对象的三维对象图像的方式可以有多种,比如,基于点云集合,构建目标对象的三维实体,并生成三维实体对应的三维图像,从而得到目标对象的三维对象图像,或者,还可以基于点云集合,直接生成目标对象对应的三维对象图像,等等。
其中,以目标图像对包括目标对象的对象图像和/>为例,基于对象图像,对目标对象进行三维重建的整体流程可以如图3所示,对目标图像对中的/>,/>进行特征提取,并基于提取出的图像特征预测出初始视差D,然后,基于初始视差D和图像特征,预测视差增量d,并基于视差增量对初始视差D进行更新,将更新后视差作为初始视差D,返回执行基于初始视差D和图像特征,预测视差增量d的过程,对初始视差D进行迭代更新,当迭代达到预设次数或轮数时,就可以得到目标视差,基于目标视差,确定出对象图像中目标对象对应的像素深度G,并将像素深度转换为点云坐标,从而得到对象图像中目标对象的点云集合P,基于点云集合P构建目标对象的三维对象图像。以目标图像对中的对象图像为图4所示的图像为例,采用全0值为初始视差图(即初值优化前)进行迭代更新后得到的目标视差图可以如图5所示,本方案中采用图像特征解码后的初始视差图(即初值优化后)进行迭代更新后得到的目标视差图可以如图6所示,采用图5所示的目标视差图(即初值优化前)得到的重建点云可以如图7所示,采用图6所示的目标视差图(即初值优化后)得到的重建点云可以如图8所示。通过将图5与图6、以及图7与图8进行对比,可以发现,对于同一双目相机拍摄的图像对,未进行初值优化的方法预测出的目标视差图具有明显的噪声,目标视差图中背景与人物发生了粘连,而相应重建出的点云中含有较多孤立的噪点,特别是人物手部上方的噪声十分明显,而本方案(即采用初值优化)的方法预测出的目标视差图中人物边缘轮廓较为清晰,噪声较少,相应的重建出的点云也更加清晰准确,人物手部上方的噪点得到了有效的抑制。另外,还需要说明的是,本方案中对初始视差图进行优化后还可以加速视差迭代优化的收敛速度,从而以更少的迭代次数得到目标精度,表1展示了初值优化前后方法达到同一视差精度的处理速度。
表1
通过表1可以发现进行初值优化(即本方案中采用图像特征解码后的初始视差图进行迭代更新)的方法可以以两倍以上的处理速度达到未进行初值优化方法的相同精度。
由以上可知,本申请实施例在获取目标对象在双目标视觉下的目标图像对之后,对目标图像对进行特征提取,得到目标图像对中每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图,基于图像特征和初始视差图,确定目标对象对应的视差增量,根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图,基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像;由于该方案可以在双目视觉下的对象图像的图像特征中解码出一个初略的视差图,将解码出的视差图作为后续计算视差图增量的初始视差图,相对于全0的初始视差图而言,更加接近真实视差图,从而可以减少后续迭代更新的次数,并提升计算出的目标视差图的精度,因此,可以提升三维重建的准确率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该三维重建装置具体集成在电子设备,电子设备为服务器,视差识别模型中的解码网络为Unet网络,增量预测网络为RAFT网络为例进行说明。
(一)视差识别模型的训练
(1)服务器获取样本对象的样本图像对,并对样本图像对进行特征提取,以得到样本图像特征。
例如,服务器可以获取样本图像对,并对样本图像对进行特征提取,从而得到样本图像特征,具体可以参见上文所述,在此就不再一一赘述。
(2)服务器采用预设视差识别模型,基于样本图像特征,预测出样本对象的预测视差图。
例如,服务器可以采用预设视差识别模型中的Unet网络,对样本图像进行特征解码,得到样本初始视差图,采用的预设视差识别模型中的RAFT网络,基于样本图像特征和样本初始视差图,预测出样本对象对应的样本视差增量,基于样本视差增量,对样本初始视差图进行更新,以得到样本对象的预测视差图。
(3)服务器基于预测视差图与样本对象的标注视差图,确定视差损失,并根据视差损失,对预设视差识别模型进行收敛,得到视差识别模型。
例如,服务器可以获取样本对象的标注视差图,并对标注视差图进行特征提取,得到标注视差特征,对预测视差特征进行特征提取,得到预测视差特征,计算标注视差特征与预测视差特征之间的L1距离,以得到视差损失,具体可以如公式(2)所示。
服务器可以采用梯度下降算法,基于视差损失,分别对预设视差识别模型的解码网络和增量预测网络的网络参数进行更新,得到更新后的视差识别模型,将更新后的视差识别模型作为预设视差识别模型,返回执行获取样本对象的样本图像对的步骤,直至预设视差识别模型收敛时为止,从而得到训练后的视差识别模型。
(二)服务器采用训练后的视差识别模型,基于目标对象的目标图像对,生成目标对象的三维对象图像。
其中,训练后的视差识别模型可以包括Unet网络和RAFT网络,等等。
如图9所示,一种三维重建方法,具体流程如下:
201、服务器获取目标对象的目标图像对。
例如,服务器可以直接接收终端或客户端上传的目标对象的目标图像对,或者,通过双目相机采集目标对象的对象图像,得到目标图像对,或者,可以在网络或者图像数据库中筛选出目标对象在不同视觉下的对象图像,从而得到目标图像对,或者,当目标对象的数量较多或者对象图像的内存较大时,还可以接收三维重建请求,该三维重建请求携带目标对象的目标图像对的存储地址,基于该存储地址,获取目标对象的目标图像对,等等。
202、服务器对目标图像对进行特征提取,得到每一对象图像对应的图像特征。
例如,服务器可以采用图像特征提取网络在目标图像对中每一对象图像中提取出与视差相关的特征信息,从而得到每一对象图像对应的图像特征;或者,还可以将目标图像对发送至第三方服务器,以便第三方服务器对目标图像对中的每一对象图像进行特征提取,接收第三方服务器返回的每一对象图像的图像特征,等等。
203、服务器对图像特征进行特征解码,以得到目标对象的初始视差图。
例如,服务器可以将图像特征进行拼接,得到目标对象对应的目标图像特征,采用视差识别模型的Unet网络对目标图像特征进行特征解码,以得到目标对象的初始视差图。
204、服务器基于图像特征和初始视差图,确定目标对象对应的视差增量。
例如,服务器可以采用视差识别模型的RAFT网络,基于图像特征和初始视差图,预测出目标对象对应的视差增量。
205、服务器根据视差增量,对初始视差图进行调整,得到调整后视差图。
例如,服务器可以在初始视差图中识别出目标对象的每一像素对应的初始视差值,在视差增量中提取出目标对象的每一像素对应的视差增量值。将目标对象的同一像素对应的视差增量值与初始视差值相加,从而得到每一像素对应的更新后视差值,将更新后视差值作为调整后视差图中每一像素的视差值,具体可以如公式(3)所示。
206、服务器基于图像特征,对调整后视差图进行迭代更新,得到调整后视差图。
例如,服务器可以将调整后视差图作为初始视差图,返回执行基于图像特征和初始视差图,确定目标对象对应的视差增量的步骤,直至迭代次数达到7次或者其他预设迭代次数为止,得到目标对象的目标视差图。
207、服务器基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像。
例如,服务器可以获取目标图像对的采集参数,采集参数可以包括目标图像对中的对象图像在采集时的参数,采集参数可以包括取景参数、采集位置和内参矩阵,等等。取景参数可以包括双目相机的焦距长度和基线长度,等等。
服务器在采集参数中提取出取景参数和每一对象图像对应的采集位置,计算采集位置之间的坐标差值,并在目标视差图中提取出目标对象的每一像素对应的目标视差值。可以将焦距长度和基线长度进行融合,得到融合后取景参数,基于坐标差值,对目标视差值进行调整,得到对象图像中目标对象的每一像素的调整后视差值,计算调整后视差值与融合后取景参数之间的比值,得到每一像素的像素深度,进而就可以得到对象图像中目标对象对应的像素深度图,就可以具体可以如公式(4)所示。
服务器在采集参数中提取出双目采集设备的内参矩阵,在对象图像中识别出的目标对象的每一像素的像素坐标。根据像素深度,对像素坐标进行调整,得到调整后坐标值,基于调整后坐标值和像素深度,构建每一像素的坐标矩阵,将内参矩阵与坐标矩阵进行融合,得到每一像素对应的点云齐次坐标,并将每一像素对应的点云齐次坐标作为目标对象的点云集合,具体可以如公式(5)所示。
服务器基于点云集合,构建目标对象的三维实体,并生成三维实体对应的三维图像,从而得到目标对象的三维对象图像,或者,还可以基于点云集合,直接生成目标对象对应的三维对象图像,等等。
由以上可知,本实施例服务器在获取目标对象在双目标视觉下的目标图像对之后,对目标图像对进行特征提取,得到目标图像对中每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图,基于图像特征和初始视差图,确定目标对象对应的视差增量,根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图,基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像;由于该方案可以在双目视觉下的对象图像的图像特征中解码出一个初略的视差图,将解码出的视差图作为后续计算视差图增量的初始视差图,相对于全0的初始视差图而言,更加接近真实视差图,从而可以减少后续迭代更新的次数,并提升计算出的目标视差图的精度,因此,可以提升三维重建的准确率。
为了更好地实施以上方法,本发明实施例还提供一种三维重建装置,该三维重建装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图10所示,该三维重建装置可以包括获取单元301、解码单元302、确定单元303、更新单元304和三维重建单元305,如下:
(1)获取单元301;
获取单元301,用于获取目标对象的目标图像对,该目标图像对包括目标对象在双目视觉下的对象图像。
例如,获取单元301,具体可以用于接收终端或客户端上传的目标对象的目标图像对,或者,通过双目相机采集目标对象的对象图像,得到目标图像对,或者,可以在网络或者图像数据库中筛选出目标对象在不同视觉下的对象图像,从而得到目标图像对,或者,当目标对象的数量较多或者对象图像的内存较大时,还可以接收三维重建请求,该三维重建请求携带目标对象的目标图像对的存储地址,基于该存储地址,获取目标对象的目标图像对。
(2)解码单元302;
解码单元302,用于对目标图像对进行特征提取,得到每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图。
例如,解码单元302,具体可以用于采用图像特征提取网络在目标图像对中每一对象图像中提取出与视差相关的特征信息,从而得到每一对象图像对应的图像特征,将图像特征进行拼接,得到目标对象对应的目标图像特征,采用视差识别模型的解码网络对目标图像特征进行特征解码,以得到目标对象的初始视差图。
(3)确定单元303;
确定单元303,用于基于图像特征和所述初始视差图,确定目标对象对应的视差增量。
例如,确定单元303,具体可以用于采用视差识别模型的增量预测网络,基于图像特征和初始视差图,预测出目标对象对应的视差增量。
(4)更新单元304;
更新单元304,用于根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图。
例如,更新单元304,具体可以用于根据视差增量,对初始视差图进行调整,得到调整后视差图,基于图像特征,对调整后视差图进行迭代更新,得到目标对象的目标视差图。
(5)三维重建单元305;
三维重建单元305,用于基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像。
例如,三维重建单元305,具体可以用于获取目标图像对的采集参数,根据采集参数和目标视差图,确定目标对象的点云集合,基于点云集合,构建目标对象的三维对象图像。
可选的,三维重建装置还可以包括训练单元306,如图11所示,具体可以如下:
训练单元306,用于对预设视差识别模型进行训练,得到训练后的视差识别模型。
例如,训练单元306,具体可以用于获取样本对象的样本图像对,并对样本图像对进行特征提取,以得到样本图像特征,采用预设视差识别模型,基于样本图像特征,预测出样本对象的预测视差图,基于预测视差图与样本对象的标注视差图,确定视差损失,并根据视差损失,对预设视差识别模型进行收敛,得到视差识别模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在获取单元301获取目标对象在双目标视觉下的目标图像对之后,解码单元302对目标图像对进行特征提取,得到目标图像对中每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图,确定单元303基于图像特征和初始视差图,确定目标对象对应的视差增量,更新单元304根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图,三维重建单元305基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像;由于该方案可以在双目视觉下的对象图像的图像特征中解码出一个初略的视差图,将解码出的视差图作为后续计算视差图增量的初始视差图,相对于全0的初始视差图而言,更加接近真实视差图,从而可以减少后续迭代更新的次数,并提升计算出的目标视差图的精度,因此,可以提升三维重建的准确率。
本发明实施例还提供一种电子设备,如图12所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图12中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取目标对象的目标图像对,该目标图像对包括目标对象在双目视觉下的对象图像,对目标图像对进行特征提取,得到每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图,基于图像特征和初始视差图,确定目标对象对应的视差增量,根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图,基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像。
例如,电子设备获取目标对象的目标图像对,该目标图像对包括目标对象在双目视觉下的对象图像;采用图像特征提取网络在目标图像对中每一对象图像中提取出与视差相关的特征信息,从而得到每一对象图像对应的图像特征,将图像特征进行拼接,得到目标对象对应的目标图像特征,采用视差识别模型的解码网络对目标图像特征进行特征解码,以得到目标对象的初始视差图;采用视差识别模型的增量预测网络,基于图像特征和初始视差图,预测出目标对象对应的视差增量;根据视差增量,对初始视差图进行调整,得到调整后视差图,基于图像特征,对调整后视差图进行迭代更新,得到目标对象的目标视差图;获取目标图像对的采集参数,根据采集参数和目标视差图,确定目标对象的点云集合,基于点云集合,构建目标对象的三维对象图像。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本发明实施例在获取目标对象在双目标视觉下的目标图像对之后,对目标图像对进行特征提取,得到目标图像对中每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图,基于图像特征和初始视差图,确定目标对象对应的视差增量,根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图,基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像;由于该方案可以在双目视觉下的对象图像的图像特征中解码出一个初略的视差图,将解码出的视差图作为后续计算视差图增量的初始视差图,相对于全0的初始视差图而言,更加接近真实视差图,从而可以减少后续迭代更新的次数,并提升计算出的目标视差图的精度,因此,可以提升三维重建的准确率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种三维重建方法中的步骤。例如,该指令可以执行如下步骤:
获取目标对象的目标图像对,该目标图像对包括目标对象在双目视觉下的对象图像,对目标图像对进行特征提取,得到每一对象图像对应的图像特征,并对图像特征进行特征解码,以得到目标对象的初始视差图,基于图像特征和初始视差图,确定目标对象对应的视差增量,根据视差增量,对初始视差图进行更新,以得到目标对象的目标视差图,基于目标视差图,对目标对象进行三维重建,得到目标对象的三维对象图像。
例如,电子设备获取目标对象的目标图像对,该目标图像对包括目标对象在双目视觉下的对象图像;采用图像特征提取网络在目标图像对中每一对象图像中提取出与视差相关的特征信息,从而得到每一对象图像对应的图像特征,将图像特征进行拼接,得到目标对象对应的目标图像特征,采用视差识别模型的解码网络对目标图像特征进行特征解码,以得到目标对象的初始视差图;采用视差识别模型的增量预测网络,基于图像特征和初始视差图,预测出目标对象对应的视差增量;根据视差增量,对初始视差图进行调整,得到调整后视差图,基于图像特征,对调整后视差图进行迭代更新,得到目标对象的目标视差图;获取目标图像对的采集参数,根据采集参数和目标视差图,确定目标对象的点云集合,基于点云集合,构建目标对象的三维对象图像。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种三维重建方法中的步骤,因此,可以实现本发明实施例所提供的任一种三维重建方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述三维重建方面或者点云重建方面的各种可选实现方式中提供的方法。
以上对本发明实施例所提供的一种三维重建方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种三维重建方法,其特征在于,包括:
获取目标对象的目标图像对,所述目标图像对包括所述目标对象在双目视觉下的对象图像;
对所述目标图像对进行特征提取,得到每一对象图像对应的图像特征,并对所述图像特征进行特征解码,以得到所述目标对象的初始视差图;
基于所述图像特征和所述初始视差图,确定所述目标对象对应的视差增量;
根据所述视差增量,对所述初始视差图进行更新,以得到所述目标对象的目标视差图;
基于所述目标视差图,对所述目标对象进行三维重建,得到所述目标对象的三维对象图像。
2.根据权利要求1所述的三维重建方法,其特征在于,所述根据所述视差增量,对所述初始视差图进行更新,以得到所述目标对象的目标视差图,包括:
根据所述视差增量,对所述初始视差图进行调整,得到调整后视差图;
基于所述图像特征,对所述调整后视差图进行迭代更新,得到所述目标对象的目标视差图。
3.根据权利要求2所述的三维重建方法,其特征在于,所述根据所述视差增量,对所述初始视差图进行调整,得到调整后视差图,包括:
在所述初始视差图中识别出所述目标对象的每一像素对应的初始视差值;
在所述视差增量中提取出所述目标对象的每一像素对应的视差增量值;
将所述视差增量值与对应的所述初始视差值进行融合,以得到调整后视差图。
4.根据权利要求2所述的三维重建方法,其特征在于,所述基于所述图像特征,对所述调整后视差图进行迭代更新,得到所述目标对象的目标视差图,包括:
将所述调整后视差图作为所述初始视差图;
返回执行所述基于所述图像特征和所述初始视差图,确定所述目标对象对应的视差增量的步骤,直至达到预设迭代次数为止,得到所述目标对象的目标视差图。
5.根据权利要求1所述的三维重建方法,其特征在于,所述基于所述目标视差图,对所述目标对象进行三维重建,得到所述目标对象的三维对象图像,包括:
获取所述目标图像对的采集参数;
根据所述采集参数和所述目标视差图,确定所述目标对象的点云集合;
基于所述点云集合,构建所述目标对象的三维对象图像。
6.根据权利要求5所述的三维重建方法,其特征在于,所述根据所述采集参数和所述目标视差图,确定所述目标对象的点云集合,包括:
基于所述目标视差图和所述采集参数,确定所述对象图像中所述目标对象对应的像素深度;
将所述像素深度转换为所述目标对象的像素对应的点云坐标,得到所述目标对象的点云集合。
7.根据权利要求6所述的三维重建方法,其特征在于,所述基于所述目标视差图和所述采集参数,确定所述对象图像中所述目标对象对应的像素深度,包括:
在所述采集参数中提取出取景参数和每一对象图像对应的采集位置;
计算所述采集位置之间的坐标差值,并在所述目标视差图中提取出所述目标对象的每一像素对应的目标视差值;
将所述坐标差值、目标视差值和所述取景参数进行融合,得到所述对象图像中所述目标对象对应的像素深度。
8.根据权利要求7所述的三维重建方法,其特征在于,所述取景参数包括焦距长度和基线长度,所述将所述坐标差值、目标视差值和所述取景参数进行融合,得到所述对象图像中所述目标对象对应的像素深度,包括:
将所述焦距长度和所述基线长度进行融合,得到融合后取景参数;
基于所述坐标差值,对所述目标视差值进行调整,得到所述对象图像中所述目标对象的每一像素的调整后视差值;
计算所述调整后视差值与所述融合后取景参数之间的比值,得到每一像素的像素深度。
9.根据权利要求6所述的三维重建方法,其特征在于,所述将所述像素深度转换为所述目标对象的像素对应的点云坐标,得到所述目标对象的点云集合,包括:
在所述采集参数中提取出双目采集设备的内参矩阵;
在所述对象图像中识别出所述目标对象的每一像素的像素坐标;
基于所述内参矩阵和所述像素深度,将所述像素坐标转换为点云坐标,得到所述目标对象的点云集合。
10.根据权利要求9所述的三维重建方法,其特征在于,所述基于所述内参矩阵和所述像素深度,将所述像素坐标转换为点云坐标,得到所述目标对象的点云集合,包括:
根据所述像素深度,对所述像素坐标进行调整,得到调整后坐标值;
基于所述调整后坐标值和所述像素深度,构建每一像素对应的坐标矩阵;
将所述内参矩阵与所述坐标矩阵进行融合,得到每一像素对应的点云齐次坐标,并将每一像素对应的点云齐次坐标作为所述目标对象的点云集合。
11.根据权利要求1所述的三维重建方法,其特征在于,所述对所述图像特征进行特征解码,以得到所述目标对象的初始视差图,包括:
将所述图像特征进行拼接,得到所述目标对象对应的目标图像特征;
采用视差识别模型的解码网络对所述目标图像特征进行特征解码,以得到所述目标对象的初始视差图;
所述基于所述图像特征和所述初始视差图,确定所述目标对象对应的视差增量,包括:采用所述视差识别模型的增量预测网络,基于所述图像特征和所述初始视差图,预测出所述目标对象对应的视差增量。
12.根据权利要求11所述的三维重建方法,其特征在于,所述采用视差识别模型的解码网络对所述目标图像特征进行特征解码之前,还包括:
获取样本对象的样本图像对,并对所述样本图像对进行特征提取,以得到样本图像特征;
采用预设视差识别模型,基于所述样本图像特征,预测出所述样本对象的预测视差图;
基于所述预测视差图与所述样本对象的标注视差图,确定视差损失,并根据所述视差损失,对所述预设视差识别模型进行收敛,得到视差识别模型。
13.根据权利要求12所述的三维重建方法,其特征在于,所述基于所述预测视差图与所述样本对象的标注视差图,确定视差损失,包括:
获取所述样本对象的标注视差图,并对所述标注视差图进行特征提取,得到标注视差特征;
对所述预测视差图进行特征提取,得到预测视差特征;
计算所述标注视差特征与所述预测视差特征之间的特征距离,以得到视差损失。
14.一种三维重建装置,其特征在于,包括:
获取单元,用于获取目标对象的目标图像对,所述目标图像对包括所述目标对象在双目视觉下的对象图像;
解码单元,用于对所述目标图像对进行特征提取,得到每一对象图像对应的图像特征,并对所述图像特征进行特征解码,以得到所述目标对象的初始视差图;
确定单元,用于基于所述图像特征和所述初始视差图,确定所述目标对象对应的视差增量;
更新单元,用于根据所述视差增量,对所述初始视差图进行更新,以得到所述目标对象的目标视差图;
三维重建单元,用于基于所述目标视差图,对所述目标对象进行三维重建,得到所述目标对象的三维对象图像。
15.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至13任一项所述的三维重建方法中的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至13任一项所述的三维重建方法中的步骤。
CN202310865498.7A 2023-07-14 2023-07-14 三维重建方法、装置、电子设备和计算机可读存储介质 Active CN116597098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310865498.7A CN116597098B (zh) 2023-07-14 2023-07-14 三维重建方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310865498.7A CN116597098B (zh) 2023-07-14 2023-07-14 三维重建方法、装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN116597098A CN116597098A (zh) 2023-08-15
CN116597098B true CN116597098B (zh) 2024-01-30

Family

ID=87599409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310865498.7A Active CN116597098B (zh) 2023-07-14 2023-07-14 三维重建方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116597098B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961383A (zh) * 2017-05-19 2018-12-07 杭州海康威视数字技术股份有限公司 三维重建方法及装置
CN111462096A (zh) * 2020-04-03 2020-07-28 浙江商汤科技开发有限公司 三维目标检测方法及装置
KR20210075618A (ko) * 2019-12-13 2021-06-23 재단법인대구경북과학기술원 엣지 이미지를 이용한 시차맵 생성 방법 및 장치
CN113902781A (zh) * 2021-10-18 2022-01-07 深圳追一科技有限公司 三维人脸重建方法、装置、设备及介质
CN115496925A (zh) * 2022-08-25 2022-12-20 北京极感科技有限公司 图像处理方法、设备、存储介质及程序产品
CN116029996A (zh) * 2022-12-27 2023-04-28 天津云圣智能科技有限责任公司 立体匹配的方法、装置和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961383A (zh) * 2017-05-19 2018-12-07 杭州海康威视数字技术股份有限公司 三维重建方法及装置
KR20210075618A (ko) * 2019-12-13 2021-06-23 재단법인대구경북과학기술원 엣지 이미지를 이용한 시차맵 생성 방법 및 장치
CN111462096A (zh) * 2020-04-03 2020-07-28 浙江商汤科技开发有限公司 三维目标检测方法及装置
CN113902781A (zh) * 2021-10-18 2022-01-07 深圳追一科技有限公司 三维人脸重建方法、装置、设备及介质
CN115496925A (zh) * 2022-08-25 2022-12-20 北京极感科技有限公司 图像处理方法、设备、存储介质及程序产品
CN116029996A (zh) * 2022-12-27 2023-04-28 天津云圣智能科技有限责任公司 立体匹配的方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于双目视觉的目标测距和三维重建研究;周珂;《信息技术与信息化》(第6期);68-71 *

Also Published As

Publication number Publication date
CN116597098A (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
JP7373554B2 (ja) クロスドメイン画像変換
CN109492128B (zh) 用于生成模型的方法和装置
CN109658445A (zh) 网络训练方法、增量建图方法、定位方法、装置及设备
US20240046557A1 (en) Method, device, and non-transitory computer-readable storage medium for reconstructing a three-dimensional model
WO2022017163A1 (zh) 图像处理方法、装置、设备及存储介质
CN108629823B (zh) 多视角图像的生成方法和装置
EP4137991A1 (en) Pedestrian re-identification method and device
CN112862877B (zh) 用于训练图像处理网络和图像处理的方法和装置
CN111008935B (zh) 一种人脸图像增强方法、装置、系统及存储介质
CN109272543B (zh) 用于生成模型的方法和装置
EP3744088A1 (en) Techniques to capture and edit dynamic depth images
WO2014105921A1 (en) Redundant pixel mitigation
CN111815738B (zh) 一种构建地图的方法和装置
CN113129352B (zh) 一种稀疏光场重建方法及装置
CN114792355B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN110211017B (zh) 图像处理方法、装置及电子设备
CN112598780A (zh) 实例对象模型构建方法及装置、可读介质和电子设备
US20230100427A1 (en) Face image processing method, face image processing model training method, apparatus, device, storage medium, and program product
CN115205925A (zh) 表情系数确定方法、装置、电子设备及存储介质
CN115769260A (zh) 基于光度测量的3d对象建模
CN115578515A (zh) 三维重建模型的训练方法、三维场景渲染方法及装置
CN113313832A (zh) 三维模型的语义生成方法、装置、存储介质与电子设备
CN112668608A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN110827341A (zh) 一种图片深度估计方法、装置和存储介质
CN113766117B (zh) 一种视频去抖动方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40093112

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant