CN116486008A - 一种三维重建方法、显示方法及电子设备 - Google Patents

一种三维重建方法、显示方法及电子设备 Download PDF

Info

Publication number
CN116486008A
CN116486008A CN202310430278.1A CN202310430278A CN116486008A CN 116486008 A CN116486008 A CN 116486008A CN 202310430278 A CN202310430278 A CN 202310430278A CN 116486008 A CN116486008 A CN 116486008A
Authority
CN
China
Prior art keywords
image
images
video data
scene
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310430278.1A
Other languages
English (en)
Other versions
CN116486008B (zh
Inventor
宋亚龙
刘小伟
陈讯
郭睿
贾明峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202310430278.1A priority Critical patent/CN116486008B/zh
Publication of CN116486008A publication Critical patent/CN116486008A/zh
Application granted granted Critical
Publication of CN116486008B publication Critical patent/CN116486008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请提供一种三维重建方法、显示方法及电子设备,涉及图像处理技术领域。电子设备在得到待重建场景的视频数据后,对于该视频数据中的每张图像,可以对该图像进行特征提取,得到该图像的初始图像特征。该电子设备在该图像的初始图像特征的基础上,结合该图像对应的前后图像的初始图像特征,以构建该图像的时序图像特征,以降低图像上的对象之间的相似度。之后,电子设备可以基于视频数据中的图像的目标图像特征,计算视频数据中的图像之间的相似度,以供电子设备利用图像之间的相似度确定该视频数据中的每张图像对应的三维点云数据,实现待重建场景对应的三维点云数据的准确确定,从而保证三维重建的效果。

Description

一种三维重建方法、显示方法及电子设备
技术领域
本申请涉及图像处理领域,尤其涉及一种三维重建方法、显示方法及电子设备
背景技术
随着数字化技术的发展,数字化技术被广泛应用在不同领域中,例如,基于数字化技术实现建筑物(如房屋、图书馆、博物馆)、人物等场景的三维重建。
然而,当三维重建的场景中存在相似度较高的多个对象时,容易出现对象误重建的情况,例如,房屋中的客厅的窗户和卧室的窗户比较相似,在进行三维重建时,可能会出现将客厅的窗户重建在卧室,客厅的窗户缺失的情况,降低对象的三维重建的准确性,从而影响场景的三维重建的效果。
发明内容
本申请实施例提供一种三维重建方法、显示方法及电子设备,用于提高三维重建的准确性。
第一方面,提供了一种三维重建方法,在需要对待重建场景进行三维重建的情况下,第一设备可以获取待重建场景的视频数据,其中,所述视频数据包括具有时序关系的多张图像。
第一设备可以对于上述视频数据中的每张图像,对该图像进行特征提取,得到该图像的初始图像特征。
上述第一设备可以基于该图像的初始图像特征,结合该图像对应的参考图像的初始图像特征,得到该图像的目标图像特征;该图像对应的参考图像包括上述视频数据中的处于该图像之前的至少一张图像,和/或,处于该图像后的至少一张图像;
上述第一设备可以基于上述视频数据中的图像的目标图像特征,计算视频数据中的任意两张图像之间的相似度;其中,两张图像之间的相似度表示两张图像之间的匹配的特征点的数量。两张图像之间的相似度越高,表明两张图像之间的匹配的特征点的数量越多,即相同的特征点的数量越多,那么该两张图像对应的拍摄位置可能越近。两张图像之间的相似度越低,表明两张图像之间的匹配的特征点的数量越少,那么该两张图像对应的拍摄位置可能越远。在一定程度上两张图像之间的相似度可以表示两张图像对应的拍摄位置距离的远近。
上述第一设备可以基于该视频数据中的任意两张图像之间的相似度,进行增量重建,确定该视频数据中的每张图像对应的三维点云数据;其中,图像对应的三维点云数据包括该图像上的对象的三维坐标,该三维坐标表示在世界坐标系下的位置。
本申请中,对于待重建场景的视频数据中的每张图像,第一设备可以基于该图像的初始图像特征,结合该图像对应的参考图像的初始图像特征,确定该图像的目标图像特征(或称为时序图像特征),实现时序图像特征的构建,使得某张图像的图像特征融合了前后图像的图像特征。之后,在计算图像之间的相似度时,利用图像的时序图像特征,而不仅是图像本身的图像特征(即初始图像特征),可以降低相似度较高,但拍摄位置相差较大(或描述为对象的位置相差较大)的图像之间的相似度,即降低不同位置对应的图像之间的相似度,如两张图像之间虽然包含的对象相似度很高,但由于该对象处于不同位置,也就是该两张图像对应的位置不同,基于这两张图像的目标时序特征计算这两张图像之间的相似度,可以降低两张图像之间的相似度,也就是降低不同位置上的对象之间的相似度,避免图像之间的误匹配,从而在基于图像之间的匹配关系,也就是图像之间的相似度进行增量重建时,可以准确地确定不同位置上的对象的三维坐标,保证图像对应的三维点云数据的计算准确度,进而提高待重建场景的三维重建效果,实现待重建场景的准确还原,避免对象被错误重建以及对象重建缺失的情况的出现,如避免出现客厅的窗户重建在卧室,客厅的窗户缺失的情况。
在第一方面的一种可能的实现方式中,第一设备可以采用第一预设算法或第二预设算法对图像进行特征提取,得到该图像的初始图像特征。
其中,上述第一预设算法表示无需预先进行训练等过程,而可以直接使用的图像特征提取算法,其可以包括尺度不变特征变换匹配SIFT算法、加速稳健特征SURF算法、FAST算法和ORB算法中的至少一个;相应的,图像的特征点的类型可以是SIFT特征点、SURF特征点、FAST特征点、ORB特征点中的一个特征点类型。
上述第二预设算法指示需要预先进行训练等过程的图像特征提取算法,其可以包括人工智能AI算法和/或VGG网络模型。
示例性的,上述图像的初始图像特征指示整张图像的特征,其可以是由图像上的特征点的特征信息组成,也就是说上述图像的初始图像特征可以包括该图像的特征点的特征信息。简单来说,假设图像上的特征点是图像上的某些像素点,那么图像特征可以是由这些像素点的特征信息组成,其中,特征可以是颜色特征、纹理特征、形状特征、空间关系特征等。
本申请中,第一设备可以通过第一预设算法或第二预设算法,对待重建场景的视频数据中的每张图像进行特征提取,以确定每张图像自身的图像特征,也就是初始图像特征,实现图像的初始图像特征的成功提取。
在第一方面的一种可能的实现方式中,第一设备可以根据需求选取特征提取所使用的算法。例如,为了提高图像特征的提取精度,第一设备可以采用SIFT算法,对图像进行特征提取,也就是提取图像上的特征点的特征信息,以得到图像的初始图像特征。又例如,为了提高图像特征的确定效率,第一设备可以采用FAST算法,提取图像上的特征点的特征信息。
在第一方面的一种可能的实现方式中,第一设备可以去除上述待重建场景的视频数据中的异常图像,也就是去除该视频数据中的所有图像的初始图像特征中的异常的初始图像特征。示例性的,对于待重建场景的视频数据中的每张图像,第一设备可以判断该图像的初始图像特征是否属于预设异常图像特征。在该图像的初始图像特征属于预设异常图像特征的情况下,表明该图像的初始图像特征异常,该图像是异常图像,第一设备可以去除该图像的初始图像特征。在该图像的初始图像特征不属于预设异常图像特征的情况下,表明该图像的初始图像特征正常,该图像不是异常图像,第一设备可以不去除该图像的初始图像特征,从而避免异常图像,也就是异常的图像的初始图像特征对待重建场景的三维重建效果的影响,保证三维重建的精度。
在第一方面的一种可能的实现方式中,上述基于图像的初始图像特征,结合该图像对应的参考图像的初始图像特征,得到该图像的目标图像特征的过程可以包括:第一设备可以对该图像的初始图像特征和该图像对应的参考图像的初始图像特征进行加权处理,得到所述图像的目标图像特征(或称为时序图像特征),使得该图像的图像特征结合前后图像的图像特征,使得该图像上的对象与前后图像上的对象产生关联,降低处于不同位置,但相似度较高的对象之间的相似度,避免相似度较高的不同位置上的对象被错误重建。
示例性的,上述加权处理的过程可以包括:
对于上述视频数据中的每张图像,第一设备可以计算该图像的初始图像特征与该图像对应的权重的乘积,得到第一乘积;
对于该图像对应的每张参考图像,第一设备可以计算该参考图像的初始图像特征与该参考图像对应的权重,得到该参考图像对应的第二乘积;
计算上述第一乘积与该图像对应的每张参考图像所对应的第二乘积之和,得到该图像的目标图像特征,实现图像的图像特征的加权计算,从而使图像的图像特征与该图像对应的前后图像的图像特征产生关联。
其中,上述图像对应的每张参考图像所对应的权重可以是相同的,也可以是不同的。示例性的,上述各张参考图像对应的权重不同,参考图像对应的权重不同可以是各张参考图像对应的权重均不相同,或者部分参考图像对应的权重是不同。相应的,确定参考图像对应的权重的过程可以包括:对于上述图像对应的每张参考图像,第一设备可以获取该参考图像对应的相对位置所对应的权重,并将其作为该参考图像对应的权重。其中,参考图像对应的相对位置表示该参考图像与对应图像之间的相对位置。参考图像对应的权重的大小和参考图像与该参考图像对应的图像之间的相对位置成正比关系;
在第一方面的一种可能的实现方式中,第一设备可以利用图像数量或时序范围确定图像对应的参考图像,实现图像的前后图像的确定,以供第一设备可以结合图像的前后图像的初始图像特征,确定该图像的目标图像特征。
在一种示例中,第一设备可以利用图像数量确定图像对应的参考图像。相应的,上述图像对应的参考图像可以包括上述视频数据中的处于该图像之前,且与所述图像相邻的M张图像,和/或,处于所述图像之后,且与该图像相邻的N张图像;其中,M和N均为正整数。M和N可以是相同数值,也可以是不同数值。
一种情况下,图像对应的参考图像可以包括上述视频数据中的处于该图像之前,且与该图像相邻的M张图像。
另一种情况下,图像对应的参考图像可以包括上述视频数据中的处于该图像之后,且与该图像相邻的N张图像。
另一种情况下,图像对应的参考图像包括上述视频数据中的处于该图像之前,且与该图像相邻的M张图像,和,处于该图像之后,且与该图像相邻的N张图像。
在另一种示例中,上述第一设备可以利用时序范围确定图像对应的参考图像。相应的,上述图像对应的参考图像可以包括所述图像对应的参考图像包括所述视频数据中的时间戳处于所述图像的时间戳之前的第一预设时长内的图像,和/或,时间戳处于所述图像的时间戳之后的第二预设时长内的图像;其中,所述图像的时间戳表示所述图像的拍摄时间。
一种情况下,图像对应的参考图像可以包括上述视频数据中的时间戳处于该图像的时间戳之前的第一预设时长内的图像。
另一种情况下,图像对应的参考图像可以包括上述视频数据中的时间戳处于该图像的时间戳之后的第二预设时长内的图像。
另一种情况下,图像对应的参考图像可以包括上述视频数据中的时间戳处于该图像的时间戳之前的第一预设时长内的图像,以及时间戳处于该图像的时间戳之后的第二预设时长内的图像。
本申请中,第一设备可以根据需求选取图像之前的图像和/或之后的图像作为该图像对应的参考图像。为了提高图像特征确定效率,第一设备选取图像之前或之后的图像作为参考图像,例如,选取时间戳处于某张图像的时间戳之前的第一预设时长内的图像作为该图像对应的参考图像;又例如,选取时间戳处于某张图像的时间戳之后的第二预设时长内的图像作为该图像对应的参考图像;又例如,选取处于该图像之前,且与该图像相邻的M张图像作为该图像对应的参考图像;又例如,选取处于该图像之后,且与该图像相邻的N张图像作为该图像对应的参考图像。
为了保证三维重建精度,第一设备可以选取图像之前和之后的图像作为参考图像。例如,如选取时间戳处于图像的时间戳之前的第一预设时长内的图像以及时间戳处于该图像的时间戳之后的第二预设时长内的图像作为该图像对应的参考图像。又例如,选取处于该图像之前,且与该图像相邻的M张图像,以及处于该图像之后,且与该图像相邻的N张图像作为该图像对应的参考图像。
在第一方面的一种可能的实现方式中,第一设备可以将上述待重建场景的视频数据中的每张图像的信息依次保存在双向链表中的节点中。其中,双向链表中的一个节点存储有该视频数据中的一张图像的信息,双向链表中的一个节点之前的节点存储有该视频数据中的处于该一张图像之前的图像的信息,双向链表中的该一个节点之后的节点存储有该视频数据中的处于该一张图像之后的图像的信息,也就是说双向链表中的相邻两个节点中的保存的是视频数据中的相邻两张图像的信息,实现图像之间的时序关系的建立。
相应的,第一设备可以利用双向链表实现图像对应的参考图像的快速确定。对于视频数据中的每张图像,基于双向链表中的处于保存有该图像的信息的节点之前的节点中的图像信息和/或之后的节点中的图像的信息,确定该图像对应的参考图像。
其中,上述图像的信息可以包括图像的时间戳、图像的初始图像特征、图像标识(例如图像ID)中的至少一个信息。
本申请中,通过将待重建场景的视频数据中的图像的信息依次保存在双向链表中的节点中,使得第一设备可以通过前后节点实现图像对应的参考图像的快速确定,方便第一设备查找图像对应的参考图像。
在第一方面的一种可能的实现方式中,在得到上述视频数据中的图像的目标图像特征之后,第一设备可采用数据压缩算法,对图像的目标图像特征进行降维处理,以将高维的图像特征向量转换为低维图像特征向量。
相应的,第一设备可以基于上述视频数据中的图像的降维后的目标图像特征,计算视频数据中的图像之间的相似度,以减少数据计算量,提高计算效率,从而提高待重建场景的三维重建效率。
在第一方面的一种可能的实现方式中,上述计算图像之间的相似度的过程可以包括:对于上述视频数据中的每张图像,第一设备可以基于该图像的目标图像特征与该图像对应的剩余图像的目标图像特征,计算该图像与该图像对应的剩余图像之间的相似度。其中,图像对应的剩余图像(或称为第二剩余图像)表示该待重建场景的视频数据中的除该图像以外的图像。该图像与该图像对应的剩余图像之间的相似度表示该图像与该图像对应的剩余图像中的每张图像之间的相似度,从而实现待重建场景的视频数据中的每两张图像之间的相似度的计算。
示例性的,对于上述视频数据中的每张图像,第一设备可以采用预设相似度算法或者预设编码解码器,确定该图像与该图像对应的剩余图像之间的相似度。
在一种示例中,上述第一设备可以采用相似度算法,计算两张图像之间的相似度。示例性的,相似度算法可以包括反余弦算法。
在另一种示例中,第一设备可以将上述待重建场景的视频数据中的所有图像的目标图像特征输入至预设编码解码器,以使该预设编码解码器对于每张图像,计算该图像与该图像对应的剩余图像中的每张图像之间的相似度,并输出该图像与剩余图像中的每张图像之间的相似度,实现视频数据中的图像之间的相似度的确定。
或者,第一设备可以将该图像与该图像对应的剩余图像中的一张图像输入至预设编码解码器,以使该预设编码解码器计算并输入这两张图像之间的相似度,基于此,第一设备可以得到该图像与剩余图像中的每张图像之间的相似度,也就是得到上述待重建场景的视频数据中的任意两张图像之间的相似度。
其中,上述预设编码解码器可以是基于深度学习模型构建的。通过对该深度学习模型进行训练等过程,得到预设编码解码器,其可以实现图像之间的相似度的计算,并保证相似度的计算精度。
在第一方面的一种可能的实现方式中,上述基于视频数据中的图像之间的相似度,进行增量重建的过程可以包括:
上述第一设备可以基于目标图像对,进行增量初始化,得到该目标图像对对应的第一三维点云数据。其中,目标图像对表示上述视频数据中的相似度最高的两张图像,也就是说匹配的特征点数量最多的两张图像,或者目标图像对表示上述视频数据中的相似度高于预设相似度阈值的两张图像。示例性的,该增量初始化的过程可以包括:第一设备可以采用PNP算法,对目标图像对进行位姿估计,得到该目标图像对对应的相机位姿。其中,目标图像对对应的相机位姿表示拍摄设备在拍摄该目标图像对时的相机位姿,其可以包括目标图像对中的每张图像对应的相机位姿。之后,第一设备可以对目标图像对以及目标图像对对应的相机位姿,进行三角化处理,得到目标图像对对应的三维点云数据(即第一三维点云数据),实现SFM模型的建立。其中,该目标图像对对应的三维点云数据包括该目标图像对中的每张图像上的对象的三维坐标,通过目标图像对对应的三维点云数据可以实现该目标图像对中的每张图像上的对象的三维重建,即可以实现该对象的三维还原。
上述第一设备基于第一三维点云数据,以及第一剩余图像,得到第一剩余图像对应的第二三维点云数据。其中,第一剩余图像包括上述待重建场景的视频数据中的除目标图像对以外的图像。示例性的,在确定第一三维点云数据后,第一设备可以开始对第一剩余图像中的图像,即新的图像进行图像注册,根据已有的SFM模型估计新的图像对应的相机位姿,也就是根据新的图像与已有的2D-3D的对应关系,进行PNP计算,得到该新的图像对应的相机位姿,完成图像注册。之后,第一设备可以基于新注册图像对应的相机位姿和已有3D地图点,三角化出新的3D地图点,该新的图像是指与已有SFM模型对应的特征点存在相同的特征点图像,从而实现第一剩余图像中的每张图像对应的三维点云数据以及相机位姿的确定。
在第一方面的一种可能的实现方式中,在确定视频数据中的每张图像对应的三维点云数据后,第一设备可以采用BA算法,对每张图像对应的三维点云数据进行重投影误差优化,实现全局优化,以提高三维点云数据的准确度,将不合理的三维点云数据调整至合理,从而提高三维重建的准确性,保证三维重建的效果。
在第一方面的一种可能的实现方式中,在确定视频数据中的每张图像对应的三维点云数据后,第一设备可以采用BA算法,对每张图像对应的三维点云数据进行重投影误差优化,实现全局优化,以提高三维点云数据的准确度,将不合理的三维点云数据调整至合理,从而提高三维重建的准确性,保证三维重建的效果。
在第一方面的一种可能的实现方式中,在确定视频数据中的每张图像对应的三维点云数据后,第一设备可以采用BA算法,对每张图像对应的三维点云数据进行重投影误差优化,实现全局优化,以提高三维点云数据的准确度,将不合理的三维点云数据调整至合理,从而提高三维重建的准确性,保证三维重建的效果。
在第一方面的一种可能的实现方式中,在确定视频数据中的每张图像对应的三维点云数据以及相机位姿后,第一设备可以采用BA算法,对每张图像对应的三维点云数据以及相机位姿进行重投影误差优化,以提高三维点云数据和相机位姿的准确度,保证三维重建的效果。
在第一方面的一种可能的实现方式中,第一设备可以基于优化后的三维点云数据生成上述待重建场景对应的三维重建模型,实现待重建场景的三维展示,使得用户可以通过观看待重建场景对应的三维重建模型了解待重建场景的细节信息,实现在线观看待重建场景,提高用户体验。
第二方面,提供了一种显示方法,该方法可以包括:第二设备接收用户的第一操作,该第一操作触发显示待重建场景对应的三维重建模型;
响应于上述第一操作,第二设备显示待重建场景对应的三维重建模型;
其中,所述待重建场景对应的三维重建模型是基于所述待重建场景的视频数据中的每张图像所对应的三维点云数据生成的;所述视频数据中的图像对应的三维点云数据是基于所述视频数据中的图像之间的相似度进行增量重建得到的;
所述视频数据中的图像之间的相似度是基于所述视频数据中的图像的目标图像特征计算得到的,所述图像的目标图像特征是基于所述图像的初始图像特征,结合所述图像对应的参考图像的初始图像特征得到的;
所述图像对应的参考图像包括处于所述图像之前的至少一张图像,和/或,处于所述图像后的至少一张图像。
本申请中,在接收到用户输入的第一操作的情况下,表明需要显示待重建场景的三维结构,该第二设备可以基于该待重建场景对应的三维点云数据生成该待重建场景对应的三维重建模型,并显示该待重建场景对应的三维重建模型。由于该待重建场景对应的三维点云数据是利用图像的时序图像特征确定的,而不仅是图像本身图像特征确定的,可以避免待重建场景中的对象被错误重建,保证三维重建的准确性。
其中,上述第二设备与上述第一设备可以是同一设备,也可以是不同设备,如上述第一设备为服务器,该第二设备可以是客户端,第一设备可以将待重建场景对应的三维点云数据推送至第二设备,以使第二设备能够利用该待重建场景对应的三维点云数据实现数字化的待重建场景的显示。
在第二方面的一种可能的实现方式中,上述待重建场景的视频数据中的每张图像所对应的三维点云数据可以是基于上述第一方面所述的三维重建方法确定的。
第三方面,本申请提供一种电子设备,所述电子设备作为上述第一设备,所述电子设备包括存储器和一个或多个处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;当所述处理器执行所述计算机指令时,使得所述电子设备执行如上所述的三维重建方法。
第四方面,本申请提供一种电子设备,所述电子设备作为上述第二设备,所述电子设备包括显示屏、存储器和一个或多个处理器;所述显示屏、所述存储器和所述处理器耦合;所述显示屏用于显示所述处理器生成的图像,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;当所述处理器执行所述计算机指令时,使得所述电子设备执行如上所述的显示方法。
第五方面,本申请提供一种计算机可读存储介质,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如上所述的三维重建方法或显示方法。
第六方面,本申请提供一种计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行如上所述的三维重建方法或显示方法。
可以理解地,上述提供的第二方面所述的显示方法,第三方面、第四方面所述的电子设备,第五方面所述的计算机可读存储介质,第六方面所述的计算机程序产品所能达到的有益效果,可参考第一方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种电子设备的硬件结构示意图;
图2A为本申请实施例提供的一种房屋拍摄示意图;
图2B为本申请实施例提供的一种房屋三维重建示意图;
图3为本申请实施例提供的一种三维重建流程图一;
图4A为本申请实施例提供的一种待重建场景图像示意图一;
图4B为本申请实施例提供的一种待重建场景图像示意图二;
图4C为本申请实施例提供的一种图像对示意图;
图4D为本申请实施例提供的一种三维重建效果图一;
图4E为本申请实施例提供的一种三维重建效果图二;
图5为本申请实施例提供的一种三维重建流程图二;
图6为本申请实施例提供的一种三维重建流程图三;
图7为本申请实施例提供的一种待重建场景图像示意图三;
图8为本申请实施例提供的一种待重建场景图像示意图四;
图9为本申请实施例提供的一种三维重建效果图三;
图10为本申请实施例提供的一种三维重建效果图四。
具体实施方式
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
下面先对本申请涉及的名词进行介绍。
三维(3Dimensions,3D)重建:是相机成像的逆过程,相机成像是指将三维立体场景成像为二维图像,而三维重建是将二维图像还原成三维立体场景。
图像的特征点:是指图像中具有鲜明特性并能够有效反映图像本质特征能够标识图像中对象的点。
运动恢复结构(structure-from-motion,SFM):是一种三维重建算法,用于从时间系列的2D图像中推算3D信息,实现三维重建。本申请实施例中,SFM可以为从拍摄得到的视频数据中恢复待重建场景的三维结构的方法。
角度-N-点(perspective-n-point,PNP):是指在给定一组n个3D点及其在图像中相应的2D投影的情况下,估计相机位姿的问题。例如,在已知的n个3D点坐标及其二维投影位置的情况下,估计相机的位姿。其中,该相机的位姿可以包括相机方向、以及相机光心位置,即相机拍摄图像时的位置。
三角测量(triangulation):是指通过相机的运动来估计特征点的空间位置。本申请实施例中,三角测量又可以称为三角化,三角处理。
光束平差(bundle adjustment,BA):是指最小化重投影误差。重投影误差表示一个3D的投影位置与实际位置之间的差值。
上面介绍了本申请所涉及的名词,下面将开始介绍本申请的技术方案。
示例性的,图1示出了电子设备200的结构示意图。如图1所示,电子设备200可以包括处理器210,外部存储器接口220,内部存储器221,通用串行总线(universal serialbus,USB)接口230,充电管理模块211,电源管理模块212,电池213,天线1,天线2,移动通信模块240,无线通信模块250,音频模块270,扬声器270A,受话器270B,麦克风270C,耳机接口270D,传感器模块280,按键290,马达291,指示器292,摄像头293,显示屏294,以及用户标识模块(subscriber identification module,SIM)卡接口295等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中,电子设备200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备200的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器210中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器210的等待时间,因而提高了系统的效率。
在一些实施例中,处理器210可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备200的结构限定。在本申请另一些实施例中,电子设备200也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块211用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块211可以通过USB接口230接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块211可以通过电子设备200的无线充电线圈接收无线充电输入。充电管理模块211为电池213充电的同时,还可以通过电源管理模块212为电子设备供电。
电子设备200的无线通信功能可以通过天线1,天线2,移动通信模块240,无线通信模块250,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块240可以提供应用在电子设备200上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块240可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块240可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块240还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块240的至少部分功能模块可以被设置于处理器210中。在一些实施例中,移动通信模块240的至少部分功能模块可以与处理器210的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器270A,受话器270B等)输出声音信号,或通过显示屏294显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器210,与移动通信模块240或其他功能模块设置在同一个器件中。
无线通信模块250可以提供应用在电子设备200上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块250可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块250经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器210。无线通信模块250还可以从处理器210接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
电子设备200通过GPU,显示屏294,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏294和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器210可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏294用于显示图像,视频等。显示屏294包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备200可以包括1个或N个显示屏294,N为大于1的正整数。
电子设备200可以通过ISP,摄像头293,视频编解码器,GPU,显示屏294以及应用处理器等实现拍摄功能。
ISP用于处理摄像头293反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头293中。
摄像头293用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备200可以包括1个或N个摄像头293,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备200在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备200可以支持一种或多种视频编解码器。这样,电子设备200可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备200的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口220可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备200的存储能力。
内部存储器221可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器210通过运行存储在内部存储器221的指令,从而执行电子设备200的各种功能应用以及数据处理。内部存储器221可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备200使用过程中所创建的数据(比如声音,电话本等)等。此外,内部存储器221可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
电子设备200可以通过音频模块270,扬声器270A,受话器270B,麦克风270C,耳机接口270D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块270用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。
扬声器270A,也称“喇叭”,用于将音频电信号转换为声音信号。
受话器270B,也称“听筒”,用于将音频电信号转换成声音信号。
麦克风270C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。
耳机接口270D用于连接有线耳机。
按键290包括开机键,音量键等。按键290可以是机械按键。也可以是触摸式按键。
指示器292可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
传感器模块280可以包括压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,接近光传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
数字化三维重建被广泛应用在各种场景中,如文物重建、建筑物(如房屋、图书馆、博物馆)重建、人物重建等场景的重建。例如,如图2A所示,房屋A的管理人员(如房主)可以通过拍摄设备100拍摄房屋A,得到房屋A的视频数据。之后,电子设备可以利用房屋A的视频数据进行三维重建,得到房屋A的三维点云数据,以供利用该房屋A的三维点云数据生成该房屋A的三维重建模型,实现房屋A的还原。租房人员可以通过手机上的相关看房应用所展示的该房屋A的三维重建模型(如图2B所示的房屋A的客厅图像),获知房屋A的详细情况,实现在线看房。
在一些实施例中,为了实现场景的三维重建,电子设备可以基于该场景的视频数据,结合SFM算法,对该场景进行三维重建,实现该场景的还原。示例性的,如图3所示,该三维重建的过程可以包括:首先,手机可以拍摄待重建场景,得到待重建场景的视频数据。之后,电子设备可以获取手机拍摄的待重建场景的视频数据。之后,电子设备可以提取该待重建场景的视频数据中的每张图像的图像特征。图像的图像特征可以包括该图像的特征点的特征信息,例如,该特征信息可以包括纹理特征。
之后,电子设备可以对待重建场景的视频数据中的图像进行图像特征匹配,也就是确定待重建场景的视频数据中的存在匹配关系的图像对。存在匹配关系的图像对表示匹配的特征点的数量较多(如高于预设数量)的两张图像,也就是匹配程度高于预设程度的两张图像。两张图像之间的匹配程度越高,表明两张图像上的匹配的特征点的数量越多,即相同的特征点的数量越多,该两张图像的拍摄位置越近。
在一些实施例中,电子设备在进行图像特征匹配后,可以进行外点剔除操作。其中,外点可以是指异常的特征点。
之后,电子设备利用上述待重建场景的视频数据中的存在匹配关系的图像对,进行增量重建,以确定该视频数据中的每张图像对应的相机位姿和三维点云数据。其中,图像对应的相机位姿表示相机(这里也可以描述为上述手机)拍摄该图像时的位姿。该位姿可以包括位置和方位角。图像对应的三维点云数据表示该图像上的对象的三维位置。
示例性的,上述增量重建的过程可以包括:电子设备从待重建场景的视频数据中选取匹配的特征点数量最多的两张图像。该匹配的特征点数量最多的两张图像可以相当于相机在同一位置拍摄的两张图像,也就是可以理解为双目相机在同一时间拍摄的两张图像。之后,电子设备可以基于该匹配的特征点数量最多的两张图像,进行增量初始化,得到该两张图像中的每张图像对应的三维点云数据以及相机位姿。然后,电子设备可以基于该两张图像中的每张图像对应的三维点云数据以及相机位姿,确定待重建场景的视频数据中除该两张图像以外的剩余图像所对应的三维点云数据以及相机位姿。具体的,电子设备可以从该剩余图像中选取与已确定三维点云数据以及相机位姿的至少一张图像(如上述匹配的特征点数量最多的两张图像中的至少一张图像)存在匹配关系的新的图像。然后,该电子设备可以对该新的图像进行图像注册(image registration),即根据已确定三维点云数据以及相机位姿的图像所对应的三维点云数据以及相机位姿,确定该新的图像所对应的三维点云数据以及相机位姿,实现待重建场景的视频数据中的每张图像的三维点云数据以及相机位姿的确定。
之后,为了提高三维点云数据以及相机位姿的确定精度,以提高三维重建效果,电子设备可以采用全局BA算法,对上述待重建场景的视频数据中的每张图像对应的三维点云数据以及相机位姿进行重投影误差优化,得到该每张图像对应的优化后的三维点云数据以及相机位姿,以供电子设备可以根据该每张图像对应的优化后的三维点云数据以及相机位姿,实现待重建场景的三维重建。
然而,当待重建场景存在相似度高的对象时,可能会出现图像特征误匹配的情况。例如,待重建场景的视频数据包括图4A所示的图像和图4B所示的图像。图4A所示的图像10是在1楼拍摄的,图4B所示的图像20是在2楼拍摄的,但图像10和图像20上的对象基本相同,导致这两张图像之间的相似度很高。而由于这两张图像之间的相似度很高,导致电子设备可能会认为这两张图像是在同一位置拍摄的,也就是拍摄位置相同,导致出现图像的拍摄位置误确定的情况,出现图像之间的误匹配的情况。
又例如,如图4C所示的两张图像,即图像身份标识号码(identity,ID)为3096的图像和图像ID为2575的图像之间的纹理特征大范围重复,也就是该两张图像之间的匹配的特征点的数量非常多,电子设备可能会错误地确定这两张图像存在匹配关系,但在三维重建时,由于这两张图像上的对象实际并不是同一个对象,这两张图像对应的拍摄位置相差较大,这两张图像实际并不存在匹配关系,导致图像对的误匹配。其中,图4C所示的image_id表示图像ID。num_matches表示匹配的特征点的数量。例如,图像ID为3095图像上的468个特征点都能够从视频数据中的其它图像上找到。config表示匹配方式,CALIBRATED和UNCALIBRATED表示匹配方式对应的具体值,例如,当匹配方式的标识为2时,其与CALIBRATED对应;当匹配方式的标识为3时,其与UNCALIBRATED对应。
因此,在基于图像之间的匹配关系,也就是在基于图像之间的图像特征匹配情况进行增量重建时,可能会导致确定的图像所对应的三维点云数据以及相机位姿出现错误,从而造成图像所对应的三维点云数据以及相机位姿精度较低,从而三维重建效果较差,无法准确地还原待重建场景。例如,将上述图像20上的对象(如饮水机、墙面)重建在1楼,而不是2楼,导致对象重建错误。又例如,如图4D所示,由于图像特征误匹配,导致右侧轨迹重叠,左侧轨迹缺失,该左侧轨迹对应的图像已经被错误匹配至右侧,也就是说该左侧轨迹对应的图像上的对象已经被错误重建至右侧。又例如,如图4E所示,由于图像特征误匹配,导致区域1部分轨迹注册错误,从而造成区域2部分轨迹缺失较大,也就是说区域2对应的部分图像被错误匹配至区域1,换言之,区域2所对应的部分图像上的对象被错误重建至区域1。
针对上述三维重建效果较差的问题,本申请提出一种新的SFM算法,电子设备可以利用该新的SFM算法进行三维重建,以提高确定的待重建场景对应的三维点云数据以及相机位姿的精度,从而提高待重建场景的三维重建效果。示例性的,如图5所示,电子设备利用新的SFM算法进行三维重建的过程可以包括:首先,拍摄设备(如手机)可以拍摄待重建场景,得到待重建场景的视频数据。之后,电子设备可以获取拍摄设备拍摄的待重建场景的视频数据。之后,对于待重建场景的视频数据中的每张图像,电子设备可以提取该图像的图像特征,得到该图像的初始图像特征。之后,对于该待重建场景的视频数据中的每张图像,电子设备基于该图像的初始图像特征,结合该图像对应的参考图像的初始图像特征,确定该图像的目标图像特征(或称为时序图像特征),实现时序图像特征的构建,其中,图像对应的参考图像可以包括处于该图像之前的至少一张图像,和/或,处于该图像后的至少一张图像。
之后,电子设备可以进行时序图像特征搜索,也就是基于待重建场景的视频数据中的图像的目标图像特征,计算待重建场景的视频数据中的任意两张图像之间的相似度。两张图像之间的相似度相当于匹配程度,两张图像之间的相似度表示两者拍摄位置距离的远近。两张图像之间的相似度越高,表明两张图像上的匹配的特征点的数量越多,即相同的特征点的数量越多,该两张图像的拍摄位置越近。
由于图像的目标图像特征是在该图像本身图像特征的基础上,结合参考图像(如前后图像)本身图像特征确定的,即使待重建场景中存在相似度高的两个对象(即对象1和对象2),也就是说即使待重建场景的视频数据中的包括该对象1的图像a和包括该对象2的图像b两者本身图像特征匹配程度高,但由于对象1的前后对象和对象2的前后对象不同,也就是说图像a所对应的参考图像和图像b所对应的参考图像不同,导致利用该图像a所对应的参考图像确定的该图像a所对应的目标图像特征和利用该图像b所对应的参考图像确定的该图像b所对应的目标图像特征之间的匹配程度较低,降低对象1和对象2之间的相似度,也就是降低图像a和图像b之间的相似度,从而避免图像a与图像b之间的误匹配,也就是避免造成图像对误匹配。
之后,电子设备可以基于待重建场景的视频数据中的图像之间的相似度,进行增量重建,以确定该待重建场景的视频数据中的每张图像所对应的相机位姿和三维点云数据。其中,电子设备基于待重建场景的视频数据中的图像之间的相似度,进行增量重建的过程与上述利用待重建场景的视频数据中的存在匹配关系的图像对,进行增量重建的过程类似,此处不再进行赘述。
本申请中,通过在计算图像之间的相似度时,利用图像的时序图像特征,而不仅是图像本身的图像特征,可以避免图像之间的误匹配,从而在基于图像之间的匹配关系,也就是图像之间的相似度进行三维重建时,可以避免图像注册错误,如避免将上述图像20和上述图像10误认为是拍摄设备在同一位置拍摄的图像,从而保证图像对应的相机位姿以及三维点云数据的计算准确度,进而提高待重建场景的三维重建效果,实现待重建场景的准确还原。
在一些实施例中,如上述图5所示,为了提高三维重建精度,电子设备可以采用BA算法,对上述待重建场景的视频数据中的每张图像对应的三维点云数据以及相机位姿进行重投影误差优化,得到每张图像对应的优化后的三维点云数据以及相机位姿,以供电子设备可以根据该每张图像对应的优化后的三维点云数据以及相机位姿,实现待重建场景的三维重建,提高三维重建效果。
示例性的,上述电子设备可以是计算机、手机、服务器、平板电脑等具有计算能力的设备。
上面概述了本申请提供的利用新的SFM算法实现三维重建的过程,下面将结合图6详细介绍该三维重建过程。如图6所示,该三维重建过程可以包括S301-S308。
S301、电子设备获取待重建场景的视频数据。
示例性的,待重建场景表示需要进行三维重建的场景(如文物重建场景、建筑物重建场景、人物重建场景等)。用户可以使用拍摄设备拍摄该待重建场景,得到该待重建场景的视频数据,以供电子设备利用该待重建场景的视频数据还原该待重建场景,实现该待重建场景的三维重建。该待重建场景的视频数据包括具有时序关系的多张图像,也就是具有按照时间采集的多张图像。
其中,上述拍摄设备表示能够拍摄视频的设备,如手机、照相机等。例如,以拍摄设备是手机,待重建场景为房屋重建场景为例,用户想要对房屋1进行出租,用户可以使用手机对房屋1进行拍摄,得到房屋1的视频数据。之后,用户可以启动手机上的相关租房应用,点击该租房应用中的上传控件,以上传该房屋1的视频数据。之后,电子设备可以获取该房屋1的视频数据,以供利用该房屋1对应的视频数据对该房屋1进行三维重建,以得到该房屋1的三维重建模型,该三维重建模型表示房屋1的三维结构,也就是相当于房屋1的三维版的图像数据。这里电子设备可以是采集房屋1的视频数据的手机,也就是说手机在采集待重建场景的视频数据后,可以直接利用该待重建场景的视频数据实现该待重建场景的三维重建。或者,这里电子设备可以是该租房应用对应的服务器,该手机可以向服务器发送待重建场景的视频数据,以使服务器利用该视频数据实现该待重建场景的三维重建。
又例如,以拍摄设备是照相机,待重建场景是博物馆重建场景为例,用户想要建立数字化博物馆,用户可以将照相机拍摄的博物馆的视频数据导入至电子设备,该电子设备可以利用该博物馆的视频数据,对该博物馆进行三维重建。
S302、对于上述待重建场景的视频数据中的每张图像,电子设备对该图像进行特征提取,得到该图像的初始图像特征。其中,该图像的初始图像特征包括该图像的特征点的特征信息。
示例性的,对于待重建场景的视频数据中的每张图像,电子设备可以采用第一预设算法,对该图像进行特征提取,即提取该图像上的特征点的特征信息,得到该图像的图像特征,并将该图像的图像特征作为该图像的初始图像特征。其中,第一预设算法表示无需预先进行训练等过程,而可以直接使用的图像特征提取算法。
例如,该第一预设算法可以包括尺度不变特征变换匹配(scale invariantfeature transform,SIFT)算法、加速稳健特征(speeded up robust features,SURF)算法、FAST(features fromaccelerated segment test)、ORB(oriented FAST androtatedBRIEF)等算法,相应的,图像的特征点的类型可以是SIFT特征点、SURF特征点、FAST特征点、ORB特征点中的一个特征点类型。
或者,电子设备可以采用第二预设算法,对该图像进行特征提取,得到该图像的图像特征,并将该图像的图像特征作为该图像的初始图像特征,实现图像自身特征的提取。其中,第二预设算法指示需要预先进行训练等过程的图像特征提取算法。
例如,第二预设算法可以包括人工智能(artificial intelligence,AI)算法、VGG(visual geometry group)网络模型等。相应的,采用AI算法对图像进行特征提取,电子设备得到图像上的特征点可以为AI特征点(如superpoint)。
在一些实施例中,用户可以根据需求设置电子设备对图像进行特征提取,也就是确定图像的初始图像特征所采用的算法,例如,为了提高图像特征的提取精度,电子设备可以采用SIFT算法,提取图像上的特征点的特征信息,以得到图像的初始图像特征。又例如,为了提高图像特征的确定效率,电子设备可以采用FAST算法,提取图像上的特征点的特征信息。
可以理解,上述图像的初始图像特征指示整张图像的特征,其可以是由图像上的特征点的特征信息组成,是一个向量。简单来说,假设图像上的特征点是图像上的某些像素点,那么图像特征可以是由这些像素点的特征信息组成,其中,特征可以是颜色特征、纹理特征、形状特征、空间关系特征等。
在一些实施例中,为了提高三维重建效果,电子设备可以去除上述待重建场景的视频数据中的异常图像(如黑屏图像)。当待重建场景的视频数据中的图像是异常图像时,该图像的初始图像特征也是异常的,因此,电子设备在得到待重建场景的视频数据中的各张图像的初始图像特征后,可以去除异常的初始图像特征,从而实现待重建场景的视频数据中的异常图像的图像。示例性的,对于待重建场景的视频数据中的各张图像,电子设备可以判断该图像的初始图像特征是否属于预设异常图像特征。如果该图像的初始图像特征属于预设异常图像特征,表明该图像的初始图像特征异常,该图像是异常图像,电子设备可以去除该图像的初始图像特征,也就无需继续对该图像执行下面所介绍的操作,如确定该图像的目标图像特征。
如果该图像的初始图像特征不属于预设异常图像特征,表明该图像的初始图像特征正常,该图像不是异常图像,电子设备可以继续对该图像执行下面所介绍的操作,如确定该图像的目标图像特征,从而避免异常图像对三维重建效果的影响,保证三维重建的精度。
应理解,上述利用预设异常图像特征确定图像的初始图像特征是否异常,即待重建场景的视频数据中的图像是否是异常图像仅为一种示例,电子设备还可以采用其它方法确定图像是否是异常图像,本申请不对其限制。
S303、对于上述待重建场景的视频数据中的每张图像,电子设备基于该图像的初始图像特征,结合该图像对应的参考图像的初始图像特征,确定该图像的目标图像特征。
其中,图像对应的参考图像可以包括处于该图像之前的至少一张图像,和/或,处于该图像之后的至少一张图像。处于该图像之前的图像表示采集时间,即时间戳处于该图像的时间戳之前,也就是在采集该图像之前采集的图像。处于该图像之后的图像表示时间戳处于该图像的时间戳之后的图像。
S304、对于上述每张图像,电子设备基于该图像的目标图像特征与该图像对应的剩余图像的目标图像特征,计算该图像与该图像对应的剩余图像之间的相似度。
其中,两张图像之间的相似度表示两张图像之间的匹配的特征点的数量。两张图像之间的相似度越高,表明两张图像之间的匹配的特征点的数量越多,即相同的特征点的数量越多,那么该两张图像对应的拍摄位置可能越近。两张图像之间的相似度越低,表明两张图像之间的匹配的特征点的数量越少,那么该两张图像对应的拍摄位置可能越远。在一定程度上两张图像之间的相似度可以表示两张图像对应的拍摄位置距离的远近。
示例性的,对于上述待重建场景的视频数据中的每张图像,电子设备可以对该图像的初始图像特征和该图像对应的参考图像的初始图像特征进行加权处理,得到该图像的目标图像特征。具体的,对于待重建场景的视频数据中的每张图像,电子设备可以计算该图像的初始图像特征与该图像对应的权重的乘积,得到第一乘积。对于该图像对应的每张参考图像,该电子设备计算该参考图像的初始图像特征与该参考图像对应的权重,得到该参考图像对应的第二乘积。之后,该电子设备计算该第一乘积与所有参考图像对应的第二乘积之和,得到该图像的目标图像特征。
其中,各张参考图像对应的权重可以是相同的,也可以是不同的。
在一些实施例中,上述各张参考图像对应的权重不同。对于上述图像对应的每张参考图像,电子设备可以获取该参考图像对应的相对位置所对应的权重,并将其作为该参考图像对应的权重。例如,视频数据包括图像1,图像2,图像3,图像4,图像5,图像6,图像7。图像3对应的参考图像包括图像1,图像2,图像4,图像5。图像3对应的权重为w0,图像2对应的相对位置为-1。图像1对应的相对位置为-2。图像4对应的相对位置为1,图像5对应的相对位置为2。-2(如图像1)对应的权重为w-2,-1(如图像2)对应的权重为w-1,1(如图像4)对应的权重为w1,2(如图像5)对应的权重为w2。电子设备可以计算w0*feat3,得到第一乘积,该feat3表示图像3对应的初始图像特征。对于图像3对应的每张参考图像,即对于图像1,电子设备可以计算w-2*feat1,得到图像1对应的第二乘积,该feat1表示图像1对应的初始图像特征;对于图像2,电子设备可以计算w-1*feat2,得到图像2对应的第二乘积,该feat2表示图像2对应的初始图像特征;对于图像4,电子设备可以计算w1*feat4,得到图像4对应的第二乘积,该feat4表示图像4对应的初始图像特征;对于图像5,电子设备可以计算w2*feat5,得到图像5对应的第二乘积,该feat5表示图像5对应的初始图像特征。之后,电子设备可以计算第一乘积、图像1对应的第二乘积、图像2对应的第二乘积、图像4对应的第二乘积和图像5对应的第二乘积之和,得到图像3对应的目标图像特征。
其中,上述参考图像对应的权重不同可以是各张参考图像对应的权重均不相同,如上述w-1、w-2,w1和w2均不相同。或者部分参考图像对应的权重是不同。例如,上述w-1和w1相同(如为0.2),w-2和w2相同(如为0.1)。
在一些实施例,图像对应的参考图像所对应的权重的大小和该参考图像所对应的相对位置成正比关系,也就是距离该图像越近的参考图像所对应的权重可以越大。其中,图像对应的参考图像所述对应的相对位置表示该图像与该图像对应的参考图像之间的相对位置。例如,参考图像对应的相对位置可以表示上述视频数据中的处于该参考图像与该图像之间的帧数差值,即图像的数量。参考图像与图像之间的帧数差值越少,参考图像距离图像越近,参考图像对应的权重越大。如上述图像2和图像3之间的帧数差值为0,且图像2处于图像3之前,那么图像2对应的相对位置为-1。图像1和图像3之间的帧数差值为1,且图像1处于图像3之前,图像1对应的相对位置为-2。同理,图像4和图像3之间的帧数差值为0,且图像4处于图像3之后,那么图像4对应的相对位置为1,图像5对应的相对位置为2,上述w-1大于w-2。又例如,参考图像对应的相对位置可以表示参考图像与图像之间的时间戳的差值。参考图像与图像之间的时间戳的差值越小,表明该参考图像距离该图像越近,该参考图像对应的权重越大。
应理解,上述图像对应的各个参考图像对应的权重与该图像对应的权重之和为1,如上述w0,w-1、w1,w-2和w2之和为1。
在另一些实施例中,上述各张参考图像对应的权重相同,也就是图像对应的各张图像所对应的权重是同一数值。如上述w-1、w-2,w1和w2是同一数值。
在一些实施例中,上述电子设备可以利用时序范围或者图像数量确定图像对应的参考图像。一种情况下,上述电子设备可以利用图像数量确定图像对应的参考图像。图像对应的参考图像可以包括处于该图像之前,且与该图像相邻的M张图像,和/或,处于该图像之后,且与该图像相邻的N张图像。其中,M和N均为正整数。M和N可以是相同数值,也可以是不同数值。
在一示例中,图像对应的参考图像可以包括处于该图像之前,且与该图像相邻的M张图像。例如,待重建场景的视频数据包括5张图像,分别为图像1、图像2、图像3、图像4和图像5,M为2,则图像3对应的参考图像可以包括图像1和图像2。
在另一示例中,图像对应的参考图像可以包括处于该图像之后,且与该图像相邻的N张图像。例如,待重建场景的视频数据包括5张图像,分别为图像1、图像2、图像3、图像4和图像5,N为2,则图像3对应的参考图像可以包括图像4和图像5。
在另一示例中,图像对应的参考图像包括处于该图像之前,且与该图像相邻的M张图像,和,处于该图像之后,且与该图像相邻的N张图像。例如,待重建场景的视频数据包括5张图像,分别为图像1,图像2,图像3,图像4和图像5,M为2,N为2,则图像3对应的参考图像可以包括图像1、图像2、图像4和图像5。
应理解,如果一张图像对应的参考图像包括处于该图像之前,且与该图像相邻的M张图像,在该图像之前的图像的数量小于M张的情况下,该图像对应的参考图像可以包括在该图像之前的所有图像。同理,如果一张图像对应的参考图像包括处于该图像之后,且与该图像相邻的N张图像,在该图像之后的图像的数量小于N张的情况下,该图像对应的参考图像可以包括在该图像之后的所有图像。
另一种情况下,上述电子设备可以利用时序范围确定图像对应的参考图像。图像对应的参考图像可以包括时间戳处于该图像的时间戳之前的第一预设时长内的图像,和/或,时间戳处于该图像的时间戳之后的第二预设时长内的图像。其中,图像的时间戳表示该图像的采集时间,即拍摄时间。第一预设时长和第二预设时长可以根据实际需求设置,第一预设时长和第二预设时长可以是不同的时间长度,也可以是相同的时间长度,如第一预设时长和第二预设时长均为1秒。
在一示例中,图像对应的参考图像可以包括时间戳处于该图像的时间戳之前的第一预设时长内的图像。例如,待重建场景的视频数据可以包括5张图像,分别为图像1、图像2、图像3、图像4和图像5。图像3的时间戳为时间1,第一预设时长为1秒,时间戳在时间1之前的1秒内的图像包括图像1和图像2。相应的,图像3对应的参考图像包括图像1和图像2。
在另一示例中,图像对应的参考图像可以包括时间戳处于该图像的时间戳之后的第二预设时长内的图像。例如,待重建场景的视频数据可以包括5张图像,分别为图像1、图像2、图像3、图像4和图像5。图像3的时间戳为时间1,第二预设时长为1秒,时间戳在时间1之后的1秒内的图像包括图像4和图像5。相应的,图像3对应的参考图像包括图像4和图像5。
在另一示例中,图像对应的参考图像可以包括时间戳处于该图像的时间戳之前的第一预设时长内的图像,以及时间戳处于该图像的时间戳之后的第二预设时长内的图像。
本申请中,电子设备可以根据需求选取图像之前的图像和/或之后的图像作为该图像对应的参考图像。为了提高图像特征确定效率,电子设备选取图像之前或之后的图像作为参考图像,如选择时间戳处于某张图像的时间戳之前的第一预设时长内的图像作为该张图像对应的参考图像。为了保证重建效果,电子设备可以选取图像之前和之后的图像作为参考图像,如选择时间戳处于某张图像的时间戳之前的第一预设时长内的图像以及时间戳处于某张图像的时间戳之后的第二预设时长内的图像作为该张图像对应的参考图像。
在一些实施例中,为了方便电子设备查找图像对应的参考图像,电子设备可以将上述待重建场景的视频数据中的各张图像的信息(如图像的时间戳、图像的初始图像特征、图像标识(例如图像ID))依次保存在双向链表中,双向链表中的一个节点(如节点1)保存该视频数据中的一张图像(图像1)的信息,双向链表中的节点1之前的节点保存时间戳处于该图像1之前的图像的信息,双向链表中的节点1之后的节点保存时间戳处于该图像1之前的图像的信息,也就是说相邻两个节点中的保存的是相邻两张图像的信息,实现图像之间的时序关系的建立,从而电子设备在确定图像对应的参考图像时,可以通过前后节点实现该图像对应的参考图像的快速确定。举例来说,待重建场景的视频数据包括5张图像,分别为图像1、图像2、图像3、图像4和图像5,双向链表中的节点1保存图像1的信息,节点2保存图像2的信息,节点3保存图像3的信息,节点4保存图像4的信息,节点5保存图像5的信息。在基于图像数量确定图像对应的参考图像的情况下,上述M为1,N为1,对于图像3,电子设备可以直接将图像3的信息所在的节点(即节点3)之前的一个节点(即节点2)中的图像的信息,和之后的一个节点(即节点4)中的图像信息作为图像3对应的参考图像的信息,由于双向链表可以双向读取,从而实现参考图像的快速确定。
在基于时序范围确定图像对应的参考图像的情况下,上述第一预设时长为1s,对于图像3,电子设备可以读取节点3之前的节点中的图像信息,以判断之前的节点中的图像的时间戳是否处于图像3的时间戳之前的1s内,如果处于,表明该之前的节点中的图像为图像3对应的参考图像。
当然,电子设备也可以将待重建场景的视频数据中图像的信息保存在其它类型的数据结构中,如单向链表、数组等,本申请不对其限制。
本申请实施例中,由于图像之间的间隔时间非常短,相邻图像一般包括相同的物体和部分不同的物体。为了避免由于待重建场景中存在相似度很高的不同对象导致电子设备误认为相似度很高的不同对象是同一对象,从而造成对象的位置重建错误,或者对象重建缺失,电子设备可以基于图像的初始图像特征,结合该图像的相邻若干张图像(即参考图像)的初始图像特征,确定该图像的目标图像特征(即时序图像特征)。即使两张图像的初始图像特征比较相似,两张图像本身匹配的特征点的数量较多,但由于图像的目标图像特征融合了该图像对应的参考图像的初始图像特征,也就是融合该图像对应的参考图像的特征点的特征信息,当两张图像上的对象位置不同时,两张图像对应的参考图像的之间的匹配的特征点较少,使得两张图像之间的匹配的特征点的数量大幅度减少,从而降低两张图像之间的相似度,也就是降低待重建场景中的相似度较高的处于不同位置的对象之间的相似度。而当两张图像上的对象位置相同时,也就是说该两张图像上的对象是同一对象时,两张图像对应的参考图像的之间的匹配的特征点也会比较多,两张图像之间的匹配的特征点的数量减少程度较小,两张图像之间的相似度仍比较高。之后,电子设备利用图像的目标图像特征对待重建场景中的对象进行三维重建,可以实现对象的准确还原。
举例来说,待重建场景的视频数据包括如图7所示的图像40、图像41和图像42,以及包括如图8所示的图像50、图像51和图像52。该图像40、图像41和图像42是拍摄设备在1楼拍摄的,图像50、图像51和图像52是在2楼拍摄的。其中,图像41和图像51上的对象相似度很高,也就是图像41和图像51之间的相似度很高,
如果直接基于图像41自身图像特征(即初始图像特征)和图像51自身图像特征(即初始图像特征),计算图像41和图像51之间的相似度,两者之间的相似度可以为如下表1所示的0.9,图像41和图像51之间的匹配程度很高,电子设备可能会认为图像41和图像51是在同一位置(或相近位置)拍摄的。如果在计算图像41的图像特征时,利用之前的图像(如图像40)和之后的图像(如图像42)的图像特征,得到图像41的目标图像特征。同理,计算图像51的图像特征时,利用之前的图像(如图像50)和之后的图像(如图像52)的图像特征,得到该图像51所示的目标图像特征。电子设备基于图像41的目标图像特征和图像51的目标图像特征计算两者之间的相似度,由于图像41对应的参考图像(即图像41和图像42)和图像51对应的参考图像(即图像51和图像52)上的对象相似度较低,本身匹配的特征点的数量较少,也就是初始图像特征相似度较低。当图像41融合了图像41对应的参考图像,图像51融合了图像51对应的参考图像后,融合后的图像41和融合后的图像51之间的匹配的特征点的数量会大幅度减少,相似度可以大幅度降低,如两者之间的相似度可以为表1所示的0.4,避免图像51上的对象误重建在1楼。
表1
初始图像特征 目标图像特征
相似度 0.9 0.4
可以理解的,一张图像(如第一图像)对应的参考图像(或描述临近图像)上的对象通过会包括第一图像上的对象,以及第一图像上的对象以外的对象,第一图像对应的参考图像可以反映出第一图像上的对象当前所处的周围环境,结合第一图像对应的参考图像上的对象的特征信息可以更好地标识该对象的位置,从而当待重建对象中的两个对象的相似度较高时,即当第一图像和第二图像上的对象相似度较高时,由于第一图像上的目标对象与第二图像上的类似对象所处的环境不同,通过结合参考图像的图像特征,可以更好地确定出第一图像上的目标对象与第二图像上的类似对象不是同一对象,也就是不是处于同一位置,使得第一图像和第二图像之间的相似度显著降低,避免将这两张图像上的对象的位置确定为同一位置,也就是避免将这两个对象重建在同一位置。并且由于结合临近图像上的图像特征,由于第一图像对应的临近图像通常会包含与第一图像不同的内容,因而第一图像对应的临近图像的图像特征(即初始图像特征)通常与该张图像的图像特征不同,从而使得结合了临近图像的图像特征的第一图像的目标图像特征与第一图像的初始图像特征不同,进而在基于图像的目标图像特征计算图像之间的相似度时,可以大幅度降低存在相似对象的两张图像(如第一图像和第二图像)之间的目标图像特征的匹配程度,也就是显著降低两张图像之间的匹配的特征点的数量,使得两张图像之间的相似度大幅度降低。
在一些实施例中,为了减少数据计算量,电子设备可以对图像的目标图像特征进行降维处理,得到该图像的降维后的目标图像特征。示例性的,电子设备可以采用数据压缩算法(如PCA(principal component analysis)算法)对图像的目标图像特征进行降维处理,以将高维的图像特征向量转换为低维图像特征向量。相应的,在利用图像的目标图像特征进行相关计算(如相似度计算)时,电子设备可以用图像的降维后的目标图像特征进行相关计算,而不是利用图像的目标图像特征进行相关计算,提高计算效率。
示例性的,在确定上述待重建场景的视频数据中的各张图像的目标图像特征后,对于各张图像,电子设备可以基于该图像的目标图像特征,从该图像对应的剩余图像的目标图像特征中进行图像特征搜索,以确定该图像与剩余图像中的每张图像之间的相似度。其中,该图像对应的剩余图像(或称为第二剩余图像)表示该待重建场景的视频数据中的除该图像以外的图像。
在一些实施例中,电子设备可以采用相似度算法,计算两张图像之间的相似度。例如,该相似度算法可以为反余弦算法。或者,电子设备可以将上述待重建场景的视频数据中的每张图像的目标图像特征输入至预设编码解码器。对于每张图像,该预设编码解码器计算该图像与该图像对应的剩余图像中的每张图像之间的相似度,并输出该图像与剩余图像中的每张图像之间的相似度。当然,电子设备也可以将两张图像输入至预设编码解码器,以使该预设编码解码器计算并输入这两张图像之间的相似度,基于此,电子设备可以得到上述图像与剩余图像之间的相似度,也就是得到上述待重建场景的视频数据中的任意两张图像之间的相似度。
其中,上述预设编码解码器可以是基于深度学习模型构建的。通过对该深度学习模型进行训练等过程,得到预设编码解码器。
举例来说,待重建场景的视频数据包括图像1、图像2、图像3、图像4和图像5。
首先,电子设备可以计算图像1和图像2之间的相似度,图像1和图像3之间的相似度,图像1和图像4之间的相似度,图像1和图像5之间的相似度。之后,电子设备可以计算图像2和图像3之间的相似度,图像2和图像4之间的相似度,图像2和图像5之间的相似度。之后,电子设备可以计算图像3和图像4之间的相似度,图像3和图像5之间的相似度。之后,电子设备可以计算图像4和图像5之间的相似度,实现待重建场景的视频数据中的任意两张图像之间的相似度的计算。
S305、上述电子设备基于目标图像对,进行增量初始化,得到该目标图像对对应的第一三维点云数据。
S306、上述电子设备基于第一三维点云数据,以及第一剩余图像,得到第一剩余图像对应的第二三维点云数据。其中,第一剩余图像包括上述待重建场景的视频数据中的除目标图像对以外的图像。
其中,目标图像对表示上述视频数据中的相似度最高的两张图像,或者相似度高于预设相似度阈值的两张图像。
本申请中,在得到待重建场景的视频数据中的任意两张图像之间的相似度后,电子设备可以开始增量重建。示例性的,电子设备可以将相似度最高的两张图像作为目标图像对,该目标图像对表示匹配点对数量最多的两张图像,该匹配点对表示匹配的特征点,即相同的特征点。或者,电子设备可以从相似度高于第一预设相似度阈值的图像对中任意选取一个图像对,并将选取的图像对作为目标图像对。
其中,上述目标图像对相当于拍摄设备在同一位置上拍摄的两张图像,其可以理解为双目相机在同一时刻拍摄的两张图像。
之后,电子设备可以采用PNP算法,对目标图像对进行位姿估计,得到该目标图像对对应的相机位姿,该目标图像对对应的相机位姿表示拍摄设备在拍摄该目标图像对时的相机位姿,其可以包括目标图像对中的每张图像对应的相机位姿。示例性的,电子设备可以设定目标图像对中一张图像的位姿为单位阵,然后通过它们之间的匹配点对估计出E矩阵,将E矩阵分解获得另一张图像的位姿。
之后,在估计出目标图像对中的两张图像对应的相机位姿后,电子设备可以对目标图像对以及目标图像对对应的相机位姿,进行三角化处理,得到目标图像对对应的三维点云数据(即第一三维点云数据),实现SFM模型的建立。其中,该目标图像对对应的三维点云数据包括该目标图像对中的每张图像上的对象(或描述为每张图像上的3D地图点)在世界坐标系下的位置(即三维坐标),通过目标图像对对应的三维点云数据可以实现该目标图像对中的每张图像上的对象的三维重建,即可以实现该对象的三维还原。例如,目标图像对包括图像c和图像d,图像c包括客厅的窗户图像,图像d也包括客厅的窗户图像以及盆栽图像,该盆栽图像所指示的盆栽是客厅所放置的盆栽的一部分。相应的,目标图像对对应三维点云数据可以包括图像c和图像d上的对象,或描述图像c和图像d所指示的对象(如客厅的窗户、部分盆栽)的三维坐标。
可以理解的是,图像所指示的对象的位置可以是图像上的特征点的位置,也就是说3D地图点可以是特征点,实现2D-3D的对应。上述相机位姿可以包括位置和朝向。
之后,在得到第一三维点云数据,即目标图像对中的每张图像上的3D地图点的位置后,电子设备可以开始迭代第一剩余图像,即对新的图像进行图像注册,根据已有的SFM模型估计新的图像对应的相机位姿,也就是根据新的图像与已有的2D-3D的对应关系,进行PNP计算,得到该新的图像对应的相机位姿,完成图像注册。之后,电子设备可以基于新注册图像对应的相机位姿和已有3D地图点,三角化出新的3D地图点,该新的图像是指与已有SFM模型对应的特征点存在相同的特征点图像,也就是与已有SFM模型对应的图像(如上述目标图像对)中的至少一张图像存在匹配关系的图像,从而实现第一剩余图像中的每张图像对应的三维点云数据(或称为第二三维点云数据)的确定。
具体的,电子设备可以从第一剩余图像中选取一张与该目标图像对中的第一目标图像存在相同的特征点,即存在匹配关系的图像(又可以称为新的一张图像)。其中,第一目标图像可以是目标图像对中的任一张图像。与第一目标图像存在相同的特征点的图像(即新的一张图像)可以是第一剩余图像中的与第一目标图像之间的相似度高于第二预设相似度阈值的一张图像,或者,可以是第一剩余图像中的与第一目标图像之间的相似度最高的一张图像。
之后,电子设备可以采用PNP算法,基于第一目标图像对应的相机位姿、第一三维点云数据,对与该第一目标图像存在匹配关系的新的一张图像进行位姿估计,得到该新的一张图像对应的相机位姿。该新的一张图像对应的相机位姿表示上述拍摄设备拍摄该新的一张图像时的位姿。之后,电子设备可以基于该新的一张图像对应的相机位姿以及第一目标图像对应的第一三维电晕数据,确定该新的一张图像上的新的特征点对应的三维坐标,即新的3D地图点的位置,也就是得到新的一张图像对应的三维点云数据(即第二三维点云数据)。之后,电子设备可以增量迭代第一剩余图像中的其它图像,从而实现第一剩余图像中的各张图像对应的相机位姿的确定,以及3D地图点的位置的确定,进而使得电子设备可以根据待重建场景的视频数据中的各张图像对应的三维点云数据以及相机位姿实现该对象的三维重建。
S307、上述电子设备采用BA算法,对上述第一三维点云数据和第二三维点云数据进行重投影误差优化。
S308、上述电子设备基于优化后的三维点云数据生成上述待重建场景对应的三维重建模型。
示例性的,为了提高三维重建的准确性,电子设备在确定待重建场景中的每张图像对应的相机位姿以及3D地图点的位置后,可以采用BA算法,对每张图像对应的相机位姿以及3D地图点的位置进行全局优化,以将不合理的3D地图点的位置调整至合理,例如,待重建场景中存在电视机和盆栽,确定盆栽的位置在电视机的位置中间,可见盆栽和电视机的三维坐标不合理,电子设备可以对其进行优化,以调整盆栽和电视机的三维坐标。之后,电子设备可以基于优化后的相机位姿以及3D地图点的位置进行三维重建,生成待重建场景对应的三维重建模型,实现待重建场景的精准还原,提高待重建场景的三维重建精准度,使得用户可以通过观看待重建场景对应的三维重建模型了解待重建场景的细节信息,实现在线观看待重建场景,提高用户体验。
在一些实施例中,电子设备还可以对上述第一三维点云数据和/或第二三维点云数据进行外点剔除操作,该外点表示异常的特征点,也就是异常的3D地图点。该外点剔除操作可以是在进行重投影误差优化过程中进行的,也可以是单独进行的,如在执行上述S304后,可以进行外点剔除操作。
需要说明的是,上述待重建场景对应的三维重建模型是由待重建场景对应的三维点云数据(即待重建场景中的每张图像对应的三维点云数据)组成的,使得可以通过该待重建场景对应的三维点云数据实现待重建场景的三维重建。其中,可选的,该待重建场景对应的三维重建模型还可以包括是待重建场景中的每张图像对应的相机位姿。
在一些实施例中,电子设备也可以不执行上述S307,也就是可以不对待重建场景中的每张图像对应的相机位姿以及3D地图点的位置进行优化,而是直接利用3D地图点的位置以及相机位置进行三维重建,实现待重建场景的快速还原。
在一些实施例中,电子设备也可以不执行上述S308,也就是无需基于待重建场景对应的三维点云数据,即待重建场景的视频数据中的每张图像对应的三维点云数据(如上述第一三维点云数据、第二三维点云数据)生成待重建场景对应的三维重建模型。当需要显示待重建场景的情况下,可以由该电子设备或其它设备基于该待重建场景对应的三维点云数据,显示该重建场景对应的三维重建模型。在一种示例中,在上述电子设备是服务器的情况下,该电子设备可以将待重建场景对应的三维点云数据推送至其它设备(如客户端)。在接收到用户输入的第一操作的情况下,响应于该第一操作,该客户端可以基于待重建场景对应的三维点云数据显示待重建场景对应的三维重建模型。该第一操作用于触发客户端显示待重建场景对应的三维重建模型。其中,客户端可以表示如安装相关应用的设备,该相关应用可以表示具备显示待重建场景对应的三维重建模型的应用。例如,该第一操作可以是用户点击租房应用中的该待重建场景对应的展示图标的操作,以触发该客户端展示该待重建场景对应的三维重建模型,使用户可以进行虚拟现实(virtual reality,VR)看房,这里的客户端便为安装有租房应用的设备。
在另一示例中,用户可以直接通过电子设备观看待重建场景对应的三维重建模型。也就是说,该电子设备在得到待重建场景对应的三维点云数据后,可以直接生成并显示待重建场景对应的三维重建模型,实现待重建场景的三维重建。示例性的,在接收到用户输入的第一操作的情况下,响应于该第一操作,电子设备可以显示待重建场景对应的三维重建模型。该第一操作用于触发电子设备显示待重建场景对应的三维重建模型。
在一些实施例中,上述世界坐标系的原点可以是上述待重建场景的视频数据中的第一帧图像的位置,即电子设备可以将拍摄设备拍摄第一帧图像时的位置作为世界坐标系的原点。
本申请实施例中,对于待重建场景的视频数据中的每张图像,电子设备在确定图像的图像时,结合时序信息,也就是在该图像自身图像特征(即初始图像特征)的基础上,结合在该图像之前和/或之后的图像的初始图像特征,以确定该图像的时序图像特征。之后,在计算图像之间的相似度时,利用图像的时序图像特征,可以大幅度降低存在相似度较高的对象,即纹理特征大面积相同,但在不同拍摄位置拍摄(或描述为不同位置)的图像之间的相似度(如上述图像41和图像51之间的相似度),也就是降低图像和存在与该图像上的对象类似的对象,但该对象与该类似的对象并不是同一位置的图像之间的相似度,使得不同位置上的相似对象之间的相似度可以大幅度降低,从而避免出现图像误匹配的问题。在基于图像之间的相似度,即匹配关系进行增量重建时,可以避免图像的误注册,实现图像上的3D地图点,即对象的三维点云数据的准确确定,从而实现待重建场景的精准重建,保证三维重建的效果,如实现如图9所示的三维重建效果,待重建场景对应的轨迹是完整的,也就是说待重建场景中的各个对象被正确重建至对应位置,对象没有被误重建在其它位置上,并且也没有出现对象缺失的情况。
本申请实施例中,相较于上述图4D所示的三维重建效果,在基于时序图像特征进行三维重建时,如图10所示,图像ID为544的图像被正确注册至左侧轨迹部分,使得图像ID为544的图像上的对象被正确重建至左侧轨迹对应的位置,避免待重建场景中的对象被错误重建、重建缺失,提高三维重建效果。
在一些实施例中,可以利用其它设备的日志确定该其它设备是否采用本申请所述的方案对某个场景进行三维重建。如果通过日志确定三维重建过程存在时序图像特征相关的字段,可以确定该其它设备采用了本申请所述的方案。
其中,可选的,还可以结合场景的三维重建效果确定是否采用本申请所述的方案。例如,场景中存在相似或相同的对象,如果该场景对应的三维重建模型中的对象均被正确重建,而没有被错误重建在其它位置上,或者没有出现对象缺失的情况,可以认为该场景的三维重建可能采用本申请所述的方案。如果该场景的三维重建的相关日志中存在时序图像特征相关的字段,可以确定该场景的三维重建采用了本申请所述的方案。
在一些实施例中,本申请提供一种计算机可读存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如上所述的方法。
在一些实施例中,本申请提供一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行如上所述的方法。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种三维重建方法,其特征在于,包括:
获取待重建场景的视频数据,其中,所述视频数据包括具有时序关系的多张图像;
对于所述视频数据中的每张图像,对所述图像进行特征提取,得到所述图像的初始图像特征;所述图像的初始图像特征包括所述图像的特征点的特征信息;
基于所述图像的初始图像特征,结合所述图像对应的参考图像的初始图像特征,得到所述图像的目标图像特征;所述图像对应的参考图像包括所述视频数据中的处于所述图像之前的至少一张图像,和/或,处于所述图像后的至少一张图像;
基于所述视频数据中的图像的目标图像特征,计算所述视频数据中的图像之间的相似度;其中,两张图像之间的相似度表示所述两张图像之间的匹配的特征点的数量;
基于所述视频数据中的图像之间的相似度,进行增量重建,确定所述视频数据中的每张图像对应的三维点云数据;其中,所述图像对应的三维点云数据包括所述图像上的对象的三维坐标。
2.根据权利要求1所述的方法,其特征在于,所述基于所述图像的初始图像特征,结合所述图像对应的参考图像的初始图像特征,得到所述图像的目标图像特征,包括:
对所述图像的初始图像特征和所述图像对应的参考图像的初始图像特征进行加权处理,得到所述图像的目标图像特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述图像的初始图像特征和所述图像对应的参考图像的初始图像特征进行加权处理,得到所述图像的目标图像特征,包括:
计算所述图像的初始图像特征与所述图像对应的权重的乘积,得到第一乘积;
对于所述图像对应的每张参考图像,计算所述参考图像的初始图像特征与所述参考图像对应的权重,得到所述参考图像对应的第二乘积;其中,所述每张参考图像对应的权重不同,所述参考图像对应的权重的大小和所述视频数据中的所述参考图像与所述图像之间的相对位置成正比关系;
计算所述第一乘积与所有所述参考图像对应的第二乘积之和,得到所述图像的目标图像特征。
4.根据权利要求1至3中任一项所述的方法,其特征在于,在所述得到所述图像的目标图像特征之后,所述方法还包括:
采用数据压缩算法,对所述图像的目标图像特征进行降维处理;
所述基于所述视频数据中的图像的目标图像特征,计算所述视频数据中的图像之间的相似度,包括:
基于所述视频数据中的图像的降维后的目标图像特征,计算所述视频数据中的图像之间的相似度。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述图像对应的参考图像包括所述视频数据中的处于所述图像之前,且与所述图像相邻的M张图像,和/或,处于所述图像之后,且与所述图像相邻的N张图像;其中,M和N均为正整数;
或者,所述图像对应的参考图像包括所述视频数据中的时间戳处于所述图像的时间戳之前的第一预设时长内的图像,和/或,时间戳处于所述图像的时间戳之后的第二预设时长内的图像;其中,所述图像的时间戳表示所述图像的拍摄时间。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述视频数据中的每张图像的信息依次保存在双向链表的节点中,其中,所述双向链表中的一个节点保存所述视频数据中的一张图像的信息,所述双向链表中的所述一个节点之前的节点保存所述视频数据中的所述一张图像之前的图像的信息,所述双向链表中的所述一个节点之后的节点保存所述视频数据中的所述一张图像之后的图像的信息;所述图像的信息包括所述图像的初始图像特征、标识和时间戳中的一个或多个;
所述方法还包括:
对于所述视频数据中的每张图像,基于所述双向链表中的处于保存有所述图像的信息的节点之前的节点中的图像信息和/或之后的节点中的图像的信息,确定所述图像对应的参考图像。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述图像的初始图像特征是通过第一预设算法或第二预设算法对所述图像进行特征提取得到的;
其中,所述第一预设算法包括尺度不变特征变换匹配SIFT算法、加速稳健特征SURF算法、FAST算法和ORB算法中的至少一个;
所述第二预设算法包括人工智能AI算法和/或VGG网络模型;
所述方法还包括:
采用光束平差BA算法,对所述视频数据中的每张图像对应的三维点云数据进行重投影误差优化。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述基于所述视频数据中的图像之间的相似度,进行增量重建,确定所述视频数据中的每张图像对应的三维点云数据,包括:
基于目标图像对,进行增量初始化,得到所述目标图像对对应的第一三维点云数据;其中,所述目标图像对表示所述视频数据中的相似度最高的两张图像;
基于所述第一三维点云数据,以及第一剩余图像,得到第一剩余图像对应的第二三维点云数据;其中,第一剩余图像包括所述视频数据中的除目标图像对以外的图像。
9.一种显示方法,其特征在于,包括:
响应于用户的第一操作,显示待重建场景对应的三维重建模型;
其中,所述待重建场景对应的三维重建模型是基于所述待重建场景的视频数据中的每张图像所对应的三维点云数据生成的;
所述视频数据中的图像对应的三维点云数据是基于所述视频数据中的图像之间的相似度进行增量重建得到的;
所述视频数据中的图像之间的相似度是基于所述视频数据中的图像的目标图像特征计算得到的,所述图像的目标图像特征是基于所述图像的初始图像特征,结合所述图像对应的参考图像的初始图像特征得到的;
所述图像对应的参考图像包括处于所述图像之前的至少一张图像,和/或,处于所述图像后的至少一张图像。
10.一种电子设备,其特征在于,所述电子设备包括存储器和一个或多个处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;当所述处理器执行所述计算机指令时,使得所述电子设备执行如权利要求1至8中任一项所述的三维重建方法或如权利要求9所示的显示方法。
11.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1至8中任一项所述的三维重建方法,或者如权利要求9所述的显示方法。
CN202310430278.1A 2023-04-12 2023-04-12 一种三维重建方法、显示方法及电子设备 Active CN116486008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310430278.1A CN116486008B (zh) 2023-04-12 2023-04-12 一种三维重建方法、显示方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310430278.1A CN116486008B (zh) 2023-04-12 2023-04-12 一种三维重建方法、显示方法及电子设备

Publications (2)

Publication Number Publication Date
CN116486008A true CN116486008A (zh) 2023-07-25
CN116486008B CN116486008B (zh) 2023-12-12

Family

ID=87217264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310430278.1A Active CN116486008B (zh) 2023-04-12 2023-04-12 一种三维重建方法、显示方法及电子设备

Country Status (1)

Country Link
CN (1) CN116486008B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170372127A1 (en) * 2016-06-24 2017-12-28 Skusub LLC System and Method for Part Identification Using 3D Imaging
US20190018861A1 (en) * 2016-01-04 2019-01-17 Mapillary Ab Method for navigating through a set of images
CN110211223A (zh) * 2019-05-28 2019-09-06 哈工大新材料智能装备技术研究院(招远)有限公司 一种增量式多视图三维重建方法
CN112767538A (zh) * 2021-01-11 2021-05-07 浙江商汤科技开发有限公司 三维重建及相关交互、测量方法和相关装置、设备
CN113936085A (zh) * 2021-12-17 2022-01-14 荣耀终端有限公司 三维重建方法和装置
CN114429495A (zh) * 2022-03-14 2022-05-03 荣耀终端有限公司 一种三维场景的重建方法和电子设备
WO2022135272A1 (zh) * 2020-12-25 2022-06-30 花瓣云科技有限公司 三维模型重建方法、设备和存储介质
CN114820935A (zh) * 2022-04-19 2022-07-29 北京达佳互联信息技术有限公司 三维重建方法、装置、设备及存储介质
CN114972645A (zh) * 2022-05-27 2022-08-30 深圳市商汤科技有限公司 一种三维重建方法、装置、计算机设备及存储介质
CN115035235A (zh) * 2021-03-05 2022-09-09 华为技术有限公司 三维重建方法及装置
CN115082617A (zh) * 2022-05-25 2022-09-20 同济大学 基于多视图优化的管道三维重建方法、装置及存储介质
CN115526983A (zh) * 2022-03-30 2022-12-27 荣耀终端有限公司 一种三维重建方法及相关设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190018861A1 (en) * 2016-01-04 2019-01-17 Mapillary Ab Method for navigating through a set of images
US20170372127A1 (en) * 2016-06-24 2017-12-28 Skusub LLC System and Method for Part Identification Using 3D Imaging
CN110211223A (zh) * 2019-05-28 2019-09-06 哈工大新材料智能装备技术研究院(招远)有限公司 一种增量式多视图三维重建方法
WO2022135272A1 (zh) * 2020-12-25 2022-06-30 花瓣云科技有限公司 三维模型重建方法、设备和存储介质
CN112767538A (zh) * 2021-01-11 2021-05-07 浙江商汤科技开发有限公司 三维重建及相关交互、测量方法和相关装置、设备
CN115035235A (zh) * 2021-03-05 2022-09-09 华为技术有限公司 三维重建方法及装置
CN113936085A (zh) * 2021-12-17 2022-01-14 荣耀终端有限公司 三维重建方法和装置
CN114429495A (zh) * 2022-03-14 2022-05-03 荣耀终端有限公司 一种三维场景的重建方法和电子设备
CN115526983A (zh) * 2022-03-30 2022-12-27 荣耀终端有限公司 一种三维重建方法及相关设备
CN114820935A (zh) * 2022-04-19 2022-07-29 北京达佳互联信息技术有限公司 三维重建方法、装置、设备及存储介质
CN115082617A (zh) * 2022-05-25 2022-09-20 同济大学 基于多视图优化的管道三维重建方法、装置及存储介质
CN114972645A (zh) * 2022-05-27 2022-08-30 深圳市商汤科技有限公司 一种三维重建方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN116486008B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
CN108810538B (zh) 视频编码方法、装置、终端及存储介质
US10740431B2 (en) Apparatus and method of five dimensional (5D) video stabilization with camera and gyroscope fusion
CN111429517A (zh) 重定位方法、重定位装置、存储介质与电子设备
CN110807361B (zh) 人体识别方法、装置、计算机设备及存储介质
CN105247859A (zh) 一个或多个卫星设备的主动立体显像
CN115526983B (zh) 一种三维重建方法及相关设备
US11948280B2 (en) System and method for multi-frame contextual attention for multi-frame image and video processing using deep neural networks
CN113096185B (zh) 视觉定位方法、视觉定位装置、存储介质与电子设备
CN108776822B (zh) 目标区域检测方法、装置、终端及存储介质
CN111476783A (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN112257552B (zh) 图像处理方法、装置、设备及存储介质
CN113052056B (zh) 一种视频处理的方法以及装置
CN113936085B (zh) 三维重建方法和装置
CN114429495B (zh) 一种三维场景的重建方法和电子设备
CN111815666A (zh) 图像处理方法及装置、计算机可读存储介质和电子设备
CN111652933B (zh) 基于单目相机的重定位方法、装置、存储介质与电子设备
CN110956571B (zh) 基于slam进行虚实融合的方法及电子设备
CN116468917A (zh) 图像处理方法、电子设备及存储介质
CN114827442B (zh) 生成图像的方法和电子设备
CN112381749B (zh) 一种图像处理方法、图像处理装置和电子设备
CN111385481A (zh) 图像处理方法及装置、电子设备及存储介质
CN116486008B (zh) 一种三维重建方法、显示方法及电子设备
CN115049819A (zh) 注视区域识别方法及装置
CN117132515A (zh) 一种图像处理方法及电子设备
CN112700525A (zh) 一种图像处理方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant