CN117409072A - 一种描述子确定方法、装置、设备及介质 - Google Patents
一种描述子确定方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117409072A CN117409072A CN202210806932.XA CN202210806932A CN117409072A CN 117409072 A CN117409072 A CN 117409072A CN 202210806932 A CN202210806932 A CN 202210806932A CN 117409072 A CN117409072 A CN 117409072A
- Authority
- CN
- China
- Prior art keywords
- point
- plane
- target
- determining
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003384 imaging method Methods 0.000 claims abstract description 65
- 239000013598 vector Substances 0.000 claims description 91
- 238000012217 deletion Methods 0.000 claims description 16
- 230000037430 deletion Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000001154 acute effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例涉及一种描述子确定方法、装置、设备及介质,其中该方法包括:获取深度相机采集的图像帧以及深度相机的位置和姿态,图像帧包括深度图像和RGB图像;基于深度图像以及深度相机的姿态进行三维平面拟合,得到点云平面;基于深度相机的位置确定成像平面,并基于点云平面和成像平面确定角平分面;基于RGB图像和角平分面确定图像帧的目标描述子。采用上述技术方案,基于深度相机的位置和姿态、深度相机采集的深度图像,可以确定一个点云平面和成像平面的角平分面,基于该角平分面和RGB图像可以确定优化后的描述子,有效提升了图像的描述子的旋转鲁棒性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种描述子确定方法、装置、设备及介质。
背景技术
随着虚拟现实(Virtual Reality,VR)技术和增强现实(Augmented Reality),AR)技术的不断发展,VR/AR设备日渐成熟,人们对VR/AR设备要求越来越高。VR/AR设备具有视觉定位系统(Visual Positioning System,VPS),而VPS严重依赖图像的描述子。
相关技术中,VPS通过采用基于深度学习的描述子,能够对复杂多变的场景有较好的鲁棒性。但是由于基于深度学习的描述子在训练时需要不断对图像做仿射变换,旋转鲁棒性不能满足需求。
发明内容
为了解决上述技术问题,本公开提供了一种描述子确定方法、装置、设备及介质。
本公开实施例提供了一种描述子确定方法,所述方法包括:
获取深度相机采集的图像帧以及所述深度相机的位置和姿态,所述图像帧包括深度图像和RGB图像;
基于所述深度图像以及所述深度相机的姿态进行三维平面拟合,得到点云平面;
基于所述深度相机的位置确定成像平面,并基于所述点云平面和所述成像平面确定角平分面;
基于所述RGB图像和所述角平分面确定所述图像帧的目标描述子。
本公开实施例还提供了一种描述子确定装置,所述装置包括:
获取模块,用于获取深度相机采集的图像帧以及所述深度相机的位置和姿态,所述图像帧包括深度图像和RGB图像;
点云平面模块,用于基于所述深度图像以及所述深度相机的姿态进行三维平面拟合,得到点云平面;
角平分面模块,用于基于所述深度相机的位置确定成像平面,并基于所述点云平面和所述成像平面确定角平分面;
确定模块,用于基于所述RGB图像和所述角平分面确定所述图像帧的目标描述子。
本公开实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的描述子确定方法。
本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的描述子确定方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:本公开实施例提供的描述子确定方案,获取深度相机采集的图像帧以及深度相机的位置和姿态,图像帧包括深度图像和RGB图像;基于深度图像以及深度相机的姿态进行三维平面拟合,得到点云平面;基于深度相机的位置确定成像平面,并基于点云平面和成像平面确定角平分面;基于RGB图像和角平分面确定图像帧的目标描述子。采用上述技术方案,基于深度相机的位置和姿态、深度相机采集的深度图像,可以确定一个点云平面和成像平面的角平分面,基于该角平分面和RGB图像可以确定优化后的描述子,有效提升了图像的描述子的旋转鲁棒性。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例提供的一种描述子确定方法的流程示意图;
图2为本公开实施例提供的一种确定三维坐标的示意图;
图3为本公开实施例提供的一种RGB图像投影到角平分面的示意图;
图4为本公开实施例提供的另一种描述子确定方法的流程示意图;
图5为本公开实施例提供的一种描述子确定装置的结构示意图;
图6为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在真实环境中通常需要放置虚拟锚点,例如虚拟时钟,电影屏幕,以及虚拟人物等。当放置虚拟锚点后,用户需要在本次机器使用能看到虚拟物体的同时,还需要下次开机时,虚拟物体仍然能够被看到,这就要求VR/AR设备具有视觉定位系统,而VPS严重依赖图像的描述子。
在传统特征点中,尺度不变特征变换(Scale-invariant feature transform,SIFT)点提供了较好的性能,但是由于客户使用场景环境多变,比如客厅开关灯、白天夜晚等光照都有较大的差别,使得SIFT点在这种场景几乎是失效的。相关技术中通过采用基于深度学习的描述子,能够对复杂多变的场景有较好的鲁棒性,深度学习的描述子可以对这种复杂多变的场景都采集数据集进行训练,从而对抗这种场景剧烈变化带来的影响,但是由于基于深度学习的描述子在训练时需要不断对图像做仿射变换,旋转鲁棒性不能满足需求。
为了解决上述问题,本公开实施例提供了一种描述子确定方法,下面结合具体的实施例对该方法进行介绍。
图1为本公开实施例提供的一种描述子确定方法的流程示意图,该方法可以由描述子确定装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法包括:
步骤101、获取深度相机采集的图像帧以及深度相机的位置和姿态,图像帧包括深度图像和RGB图像。
本公开实施例的描述子确定方法可以应用于VR/AR设备,VR/AR设备上可以设置多个相机,其中包括深度相机,深度相机可以是能够检测出拍摄三维空间的深度距离的相机。
图像帧是指通过深度相机采集的图像的一帧,图像帧的数量可以为多个,本公开实施例针对每一帧图像帧均进行描述子的确定。并且图像帧可以包括深度图像和RGB图像。
在本公开实施例中,描述子确定装置可以获取深度相机采集到的深度图像和RGB图像,并且通过视觉惯性里程计(Visual-Inertial Odometry,VIO)获取深度相机当前的位置和姿态,以备后续使用。
步骤102、基于深度图像以及深度相机的姿态进行三维平面拟合,得到点云平面。
其中,点云平面可以是基于深度图像在三维空Π间中对应的三维坐标而拟合得到的一个平面。
在一些实施例中,基于深度图像以及深度相机的姿态进行三维平面拟合,得到点云平面,包括:基于深度图像、深度相机的姿态和相机投影模型,得到深度图像在三维空间的点云坐标集合;基于点云坐标集合进行平面拟合,得到点云平面。
其中,点云坐标集合可以包括深度图像中各像素点在三维空间对应的三维点的三维坐标。
描述子确定装置在获取深度图像以及深度相机的姿态之后,可以根据深度图像、深度相机的姿态以及相机投影模型,得到当前深度图像在三维空间的点云坐标集合,具体可以通过公式求解得到,其中/>表示点云坐标集合,i表示第i个三维点,n表示深度图像在三维空间的三维点的数量,C表示当前深度图像,W表示在世界坐标系下描述这个三维点,Twc表示深度相机的姿态,pi表示第i个像素坐标,Dc(pi)表示深度图像中第i个像素坐标的深度,π表示相机投影模型,π-1表示相机投影模型的逆映射,表示将深度图像的各像素点投影到归一化平面上,归一化平面是指z=1的平面。在确定点云坐标集合之后,可以基于该点云坐标集合进行一个平面拟合,具体拟合方式不限,得到点云平面。
示例性的,图2为本公开实施例提供的一种确定三维坐标的示意图,如图2所示,图中展示了基于深度图像Dc确定对应的三维点的三维坐标的过程,先将深度图像Dc的各像素点的像素坐标pi投影到归一化平面上,也即图中Z=1的平面上,之后乘以深度图像中第i个像素坐标的深度以及深度相机的姿态,得到三维点p,多个三维点组合得到点云坐标集合。
步骤103、基于深度相机的位置确定成像平面,并基于点云平面和成像平面确定角平分面。
其中,成像平面可以是深度相机拍摄的图像所在的平面,也即当前深度相机所在的平面。角平分面可以是基于点云平面和成像平面的两个法向量确定的角平分向量作为法向量对应的平面。
在一些实施例中,基于深度相机的位置确定成像平面,可以包括:将深度相机的位置确定为成像平面的一个目标点,并将深度相机的Z轴确定为成像平面的法向量;基于目标点的坐标以及法向量确定成像平面。
描述子确定装置在确定成像平面时,可以将深度相机的位置确定为成像平面的目标点,也即目标点的坐标与深度相机的位置相同,并将深度相机的Z轴确定为成像平面的法向量,之后可以根据目标点的坐标以及成像平面的法向量采用点法式求解成像平面的方程,得到成像平面。假设成像平面的法向量表示为N=(a,b,c),目标点的坐标表示为P=(x0,y0,z0),采用点法式确定的成像平面的方程可以表示为a*(x-x0)+b*(y-y0)+c*(z-z0)=0。
在一些实施例中,基于点云平面和成像平面确定角平分面,可以包括:将点云平面的法向量和成像平面的法向量归一化并相加之后,确定角平分向量;将角平分向量确定为角平分面的法向量计算确定角平分面。
描述子确定装置基于点云平面和成像平面确定角平分面时,可以先基于将点云平面的法向量和成像平面的法向量确定角平分向量,具体假设点云平面的法向量表示为成像平面的法向量表示为/>将两个向量/>分别归一化,得到/>之后角平分向量可以为/>在确定角平分向量之后,可以将角平分向量确定为角平分面的法向量,之后可以确定成像平面和点云平面的交线上的一个交点,根据该交点的坐标和角平分面的法向量可以求解得到角平分面的方程。
步骤104、基于RGB图像和角平分面确定图像帧的目标描述子。
其中,描述子(Descriptor)可以是刻画特征的一个数据结构,一个描述子的维数可以是多维的,目标描述子可以是本公开实施例基于图像帧、深度相机的位置和姿态确定的优化后的描述子,可以是一个128*1的向量。
在一些实施例中,基于RGB图像和角平分面确定图像帧的目标描述子,可以包括:基于角平分面的法向量和成像平面的法向量,确定旋转矩阵;基于旋转矩阵将RGB图像投影到角平分面上,得到目标图像;将目标图像输入预先构建的描述子生成模型中,得到图像帧的目标描述子。
其中,描述子生成模型可以是用于生成描述子的深度学习模型,具体采用的模型不限,例如可以采用superpoint网络。
描述子确定装置确定角平分面之后,可以先基于角分平面和成像平面的法向量,采用四分数变换确定表征两个法向量之间的旋转关系的旋转矩阵;之后可以利用该旋转矩阵对RGB图像进行变换,投影到角平分面上,得到目标图像,具体公式如下:其中pi表示第i个像素坐标,Ic表示RGB图像,π表示相机投影模型,π-1表示相机投影模型的逆映射,表示将RGB图像上的各像素点投影到归一化平面上,R表示旋转矩阵,/>表示目标图像。在得到目标图像之后,可以将该目标图像输入预先构建的用于生成描述子的深度学习模型中,可以得到对应的目标描述子。
示例性的,图3为本公开实施例提供的一种RGB图像投影到角平分面的示意图,如图3所示,图中Ic表示RGB图像,表示目标图像,RGB图像上的像素坐标Pi对应于目标图像上的像素坐标π(Rπ-1(pi))。
本公开实施例提供的描述子确定方案,获取深度相机采集的图像帧以及深度相机的位置和姿态,图像帧包括深度图像和RGB图像;基于深度图像以及深度相机的姿态进行三维平面拟合,得到点云平面;基于深度相机的位置确定成像平面,并基于点云平面和成像平面确定角平分面;基于RGB图像和角平分面确定图像帧的目标描述子。采用上述技术方案,基于深度相机的位置和姿态、深度相机采集的深度图像,可以确定一个点云平面和成像平面的角平分面,基于该角平分面和RGB图像可以确定优化后的描述子,有效提升了图像的描述子的旋转鲁棒性。
示例性的,图4为本公开实施例提供的另一种描述子确定方法的流程示意图,如图4所示,在一种可行的实施方式中,当图像帧的数量为多个,描述子确定方法还可以包括:
步骤401、针对每个图像帧确定对应的目标描述子和特征点。
其中,特征点可以是在上述实施例的基础上生成优化后的目标描述子时同时生成的,针对每个图像帧可以得到多个特征点的像素坐标。
本公开实施例中,深度相机可以采集多个图像帧,描述子确定装置获取到多个图像帧之后,针对每个图像帧可以执行一次上述步骤101-步骤104,得到对应的目标描述子和特征点,以备后续使用。
步骤402、基于多个图像帧进行三维重建,得到多个三维点,其中,每个三维点对应一个特征点集合,特征点集合由包括该三维点的成像点的多个目标图像帧对应的目标特征点组合得到。
其中,三维点可以是三维空间中的实际点。
具体的,描述子确定装置可以运行一个三维重建系统SFM(Structure frommotion),并将多个图像帧中的深度图像和RGB图像输入该三维重建系统,可以得到多个图像帧在三维空间中对应的多个三维点。一个三维点可以对应多个图像帧中的部分图像帧,这些图像帧中包括该三维点的成像点,称为目标图像帧,将每个目标图像帧中该三维点的成像点对应的特征点组合在一起,得到该三维点对应的特征点集合。不同三维点对应的特征点集合可以不同,例如一个三维点对应10个目标图像帧,另一个三维点对应20个目标图像帧,因此对应的特征点集合可以不同。
步骤403、基于各三维点的特征点集合以及对应的多个目标图像帧中目标深度图像,确定各三维点的全局点云法向量。
其中,全局点云法向量可以是基于一个三维点的各特征点拟合得到的多个局部点云法向量平均得到的一个法向量,一个特征点通过拟合可以确定对应的局部点云法向量。
在一些实施例中,基于各三维点的特征点集合以及对应的多个目标图像帧中目标深度图像,确定各三维点的全局点云法向量,包括:将每个三维点确定为待处理三维点;针对待处理三维点的特征点集合中的每个目标特征点,以该目标特征点在对应目标深度图像所在深度像素点作为中心访问预设数量的深度像素点,拟合得到对应局部点云法向量;基于待处理三维点的多个目标特征点的局部点云法向量通过计算平均值,确定待处理三维点的全局点云法向量。
由于三维点的数量为多个,描述子确定装置可以将每个三维点确定为待处理三维点,对其确定对应的全局点云法向量,待处理三维点可以是当前正在进行处理的三维点。具体过程可以包括:针对待处理三维点的特征点集合的每个目标特征点,以每个目标特征点在对应目标深度图像所在深度像素点访问附近预设数量的深度像素点,经过拟合得到每个目标特征点对应的局部点云法向量,预设数量可以根据实际情况确定,例如预设数量可以为3*3,也即以每个目标特征点在对应目标深度图像所在深度像素点为中心附近的9个深度像素点;在确定待处理三维点的各目标特征点对应的局部点云法向量之后,可以对多个局部点云发向量计算平均值,得到待处理三维点的全局法向量。
在一些实施例中,针对待处理三维点的特征点集合中的每个目标特征点,以该目标特征点在对应目标深度图像所在深度像素块作为中心访问预设数量的深度像素块,拟合得到对应局部点云法向量,可以包括:针对待处理三维点的特征点集合中的每个目标特征点,以该目标特征点在对应目标深度图像所在深度像素点作为中心提取预设数量的深度像素点的像素坐标;基于预设数量的深度像素点的像素坐标确定对应的三维点坐标集合;基于三维点坐标集合进行平面拟合之后计算法向量,得到每个目标特征点的局部点云法向量。
假设第k个三维点pk的特征点集合表示为 表示三维点pk在第i个目标图像帧中成像点所对应的特征点,m表示三维点pk对应的目标图像帧数量,k=1,…,n,n表示三维重建得到的三维点的总数量。将第k个三维点pk确定为待处理三维点,遍历也即遍历每个目标特征点,基于/>在第i个目标图像帧的目标深度图像中所在深度像素点为中心提取附近预设数量的深度像素点的像素坐标,之后基于预设数量的深度像素点的像素坐标,确定每个深度像素点在三维空间中对应的三维点坐标,具体通过公式/>确定,其中/>表示以/>在第i个目标图像帧的目标深度图像中所在深度像素点为中心的第j个深度像素点的像素坐标,/>表示上述目标深度图像中第j个深度像素点的深度,C表示第i个目标图像帧的目标深度图像,W表示在世界坐标系下描述这个三维点,Twc表示深度相机的姿态;遍历j=0,…,l,l表示预设数量,得到9个三维点的三维点坐标组合得到三维点坐标集合,将三维点坐标集合拟合一个平面并确定该平面的法向量,得到待处理三维点的每个目标特征点对应的局部点云法向量。之后对多个局部点云发向量计算平均值,得到待处理三维点的全局法向量。
步骤404、针对每个三维点,基于对应的多个目标图像帧的Z方向与全局点云法向量的夹角,确定对应的最佳观测视图帧。
其中,目标图像帧的Z方向可以是通过深度相机拍摄目标图像帧时深度相机的Z轴方向。最佳观测视图帧可以理解为针对一个三维点确定的能够观测到该三维点的最佳的图像帧,也即通过该最佳观测视图帧能够最大程度地反应三维点的特性。
在一些实施例中,针对每个三维点,基于对应的多个目标图像帧的Z方向与全局点云法向量的夹角,确定对应的最佳观测视图帧,可以包括:针对每个三维点,确定该三维点的多个目标图像帧的Z方向与全局点云法向量的多个夹角,其中,夹角为锐角;将每个三维点的多个目标图像帧中夹角大于角度阈值的目标图像帧删除;针对每个三维点,基于删除之后的目标图像帧确定最佳观测视图帧。
其中,角度阈值可以根据实际情况设置,具体不限。
描述子确定装置在确定每个三维点的最佳观测视图帧时,可以先确定该三维点的全局点云法向量与其对应的多个目标图像帧的Z方向的夹角,得到多个夹角,每个夹角均取锐角;之后可以将每个夹角与角度阈值进行对比,将夹角大于角度阈值的目标图像帧删除;基于删除之后的目标图像帧确定每个三位点的最佳观测视图帧。
可选的,针对每个三维点,基于删除之后的目标图像帧确定最佳观测视图帧,可以包括:针对每个三维点,当多个目标图像帧全部删除,则将夹角最小的目标图像帧确定为最佳观测视图帧;当删除之后剩余一个目标图像帧,则将该剩余的目标图像帧确定为最佳观测视图帧;当删除之后剩余至少两个目标图像帧,则基于该三维点到至少两个目标图像帧的距离确定其中一个目标图像帧为最佳观测视图帧。
描述子确定装置针对每个三维点,基于删除之后的目标图像帧确定对应的最佳观测视图帧时,当删除之后的目标图像帧为零,则可以将夹角最小的目标图像帧确定为最佳观测视图帧;而当删除之后的目标图像帧为一个时,可以将这一个目标图像帧确定为最佳观测视图帧;当删除之后的目标图像帧为至少两个,则计算当前三维点分别到剩余的至少两个目标图像帧的距离,得到多个距离,取多个距离的中位数对应的目标图像帧确定为最佳观测视图帧。
步骤405、将每个三维点的最佳观测视图帧的目标描述子确定为该三维点的描述子。
描述子确定装置在确定每个三维点的最佳观测视图帧之后,由于在步骤401中针对每个最佳观测视图帧均确定了对应的目标描述子,此时可以将每个三维点的最佳观测视图帧的目标描述子确定为该三维点的描述子,之后在视觉定位系统的定位时,可以将多个图像帧的目标特征点、目标描述子以及各三维点的描述子进行匹配。
上述方案中,在对图像帧的描述子进行旋转鲁棒性的优化的基础上,可以进一步基于图像帧的描述子和特征点,通过遍历和计算选取三维空间中每个三维点对应的最佳观测视图帧的描述子作为该三维点的描述子,提升了三维点的描述子确定的旋转鲁棒性,并且有助于提升后续视觉定位系统定位时的匹配性能,提升定位准确性。
图5为本公开实施例提供的一种描述子确定装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中。如图5所示,该装置包括:
获取模块501,用于获取深度相机采集的图像帧以及所述深度相机的位置和姿态,所述图像帧包括深度图像和RGB图像;
点云平面模块502,用于基于所述深度图像以及所述深度相机的姿态进行三维平面拟合,得到点云平面;
角平分面模块503,用于基于所述深度相机的位置确定成像平面,并基于所述点云平面和所述成像平面确定角平分面;
确定模块504,用于基于所述RGB图像和所述角平分面确定所述图像帧的目标描述子。
可选的,点云平面模块502用于:
基于所述深度图像、所述深度相机的姿态和相机投影模型,得到所述深度图像在三维空间的点云坐标集合;
基于所述点云坐标集合进行平面拟合,得到所述点云平面。
可选的,角平分面模块503包括成像单元,用于:
将所述深度相机的位置确定为成像平面的一个目标点,并将所述深度相机的Z轴确定为所述成像平面的法向量;
基于所述目标点的坐标以及所述法向量确定所述成像平面。
可选的,角平分面模块503包括确定单元,用于:
将所述点云平面的法向量和所述成像平面的法向量归一化并相加之后,确定角平分向量;
将所述角平分向量确定为角平分面的法向量计算确定所述角平分面。
可选的,确定模块504用于:
基于所述角平分面的法向量和所述成像平面的法向量,确定旋转矩阵;
基于所述旋转矩阵将所述RGB图像投影到所述角平分面上,得到目标图像;
将所述目标图像输入预先构建的描述子生成模型中,得到所述图像帧的目标描述子。
可选的,所述装置还包括空间点模块,用于:当所述图像帧的数量为多个,
第一单元,用于针对每个图像帧确定对应的目标描述子和特征点;
第二单元,用于基于多个所述图像帧进行三维重建,得到多个三维点,其中,每个所述三维点对应一个特征点集合,所述特征点集合由包括该三维点的成像点的多个目标图像帧对应的目标特征点组合得到;
第三单元,用于基于各所述三维点的特征点集合以及对应的多个目标图像帧中目标深度图像,确定各所述三维点的全局点云法向量;
第四单元,用于针对每个所述三维点,基于对应的多个目标图像帧的Z方向与所述全局点云法向量的夹角,确定对应的最佳观测视图帧;
第五单元,用于将每个所述三维点的所述最佳观测视图帧的目标描述子确定为该三维点的描述子。
可选的,所述第三单元用于:
将每个所述三维点确定为待处理三维点;
针对所述待处理三维点的特征点集合中的每个目标特征点,以该目标特征点在对应目标深度图像所在深度像素点作为中心访问预设数量的深度像素点,拟合得到对应局部点云法向量;
基于所述待处理三维点的多个目标特征点的所述局部点云法向量通过计算平均值,确定所述待处理三维点的全局点云法向量。
可选的,所述第三单元用于:
针对所述待处理三维点的特征点集合中的每个目标特征点,以该目标特征点在对应目标深度图像所在深度像素点作为中心提取预设数量的深度像素点的像素坐标;
基于所述预设数量的深度像素点的像素坐标确定对应的三维点坐标集合;
基于所述三维点坐标集合进行平面拟合之后计算法向量,得到每个目标特征点的局部点云法向量。
可选的,第四单元用于:
针对每个所述三维点,确定该三维点的多个目标图像帧的Z方向与所述全局点云法向量的多个夹角,其中,所述夹角为锐角;
将每个所述三维点的多个目标图像帧中夹角大于角度阈值的目标图像帧删除;
针对每个所述三维点,基于删除之后的目标图像帧确定最佳观测视图帧。
可选的,第四单元用于:
针对每个所述三维点,当所述多个目标图像帧全部删除,则将夹角最小的目标图像帧确定为最佳观测视图帧;
当删除之后剩余一个目标图像帧,则将该剩余的目标图像帧确定为最佳观测视图帧;
当删除之后剩余至少两个目标图像帧,则基于该三维点到所述至少两个目标图像帧的距离确定其中一个目标图像帧为最佳观测视图帧。
本公开实施例所提供的描述子确定装置可执行本公开任意实施例所提供的描述子确定方法,具备执行方法相应的功能模块和有益效果。
本公开实施例还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本公开任意实施例所提供的描述子确定方法。
图6为本公开实施例提供的一种电子设备的结构示意图。下面具体参考图6,其示出了适于用来实现本公开实施例中的电子设备600的结构示意图。本公开实施例中的电子设备600可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的描述子确定方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取深度相机采集的图像帧以及所述深度相机的位置和姿态,所述图像帧包括深度图像和RGB图像;基于所述深度图像以及所述深度相机的姿态进行三维平面拟合,得到点云平面;基于所述深度相机的位置确定成像平面,并基于所述点云平面和所述成像平面确定角平分面;基于所述RGB图像和所述角平分面确定所述图像帧的目标描述子。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
可以理解的是,在使用本公开各实施例公开的技术方案之前,应当依据相关法律法规通过恰当的方式对本公开所涉及的信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (13)
1.一种描述子确定方法,其特征在于,包括:
获取深度相机采集的图像帧以及所述深度相机的位置和姿态,所述图像帧包括深度图像和RGB图像;
基于所述深度图像以及所述深度相机的姿态进行三维平面拟合,得到点云平面;
基于所述深度相机的位置确定成像平面,并基于所述点云平面和所述成像平面确定角平分面;
基于所述RGB图像和所述角平分面确定所述图像帧的目标描述子。
2.根据权利要求1所述的方法,其特征在于,基于所述深度图像以及所述深度相机的姿态进行三维平面拟合,得到点云平面,包括:
基于所述深度图像、所述深度相机的姿态和相机投影模型,得到所述深度图像在三维空间的点云坐标集合;
基于所述点云坐标集合进行平面拟合,得到所述点云平面。
3.根据权利要求1所述的方法,其特征在于,基于所述深度相机的位置确定成像平面,包括:
将所述深度相机的位置确定为成像平面的一个目标点,并将所述深度相机的Z轴确定为所述成像平面的法向量;
基于所述目标点的坐标以及所述法向量确定所述成像平面。
4.根据权利要求1所述的方法,其特征在于,基于所述点云平面和所述成像平面确定角平分面,包括:
将所述点云平面的法向量和所述成像平面的法向量归一化并相加之后,确定角平分向量;
将所述角平分向量确定为角平分面的法向量计算确定所述角平分面。
5.根据权利要求1所述的方法,其特征在于,基于所述RGB图像和所述角平分面确定所述图像帧的目标描述子,包括:
基于所述角平分面的法向量和所述成像平面的法向量,确定旋转矩阵;
基于所述旋转矩阵将所述RGB图像投影到所述角平分面上,得到目标图像;
将所述目标图像输入预先构建的描述子生成模型中,得到所述图像帧的目标描述子。
6.根据权利要求1-5中任一所述的方法,其特征在于,当所述图像帧的数量为多个,所述方法还包括:
针对每个图像帧确定对应的目标描述子和特征点;
基于多个所述图像帧进行三维重建,得到多个三维点,其中,每个所述三维点对应一个特征点集合,所述特征点集合由包括该三维点的成像点的多个目标图像帧对应的目标特征点组合得到;
基于各所述三维点的特征点集合以及对应的多个目标图像帧中目标深度图像,确定各所述三维点的全局点云法向量;
针对每个所述三维点,基于对应的多个目标图像帧的Z方向与所述全局点云法向量的夹角,确定对应的最佳观测视图帧;
将每个所述三维点的所述最佳观测视图帧的目标描述子确定为该三维点的描述子。
7.根据权利要求6所述的方法,其特征在于,基于各所述三维点的特征点集合以及对应的多个目标图像帧中目标深度图像,确定各所述三维点的全局点云法向量,包括:
将每个所述三维点确定为待处理三维点;
针对所述待处理三维点的特征点集合中的每个目标特征点,以该目标特征点在对应目标深度图像所在深度像素点作为中心访问预设数量的深度像素点,拟合得到对应局部点云法向量;
基于所述待处理三维点的多个目标特征点的所述局部点云法向量通过计算平均值,确定所述待处理三维点的全局点云法向量。
8.根据权利要求7所述的方法,其特征在于,针对所述待处理三维点的特征点集合中的每个目标特征点,以该目标特征点在对应目标深度图像所在深度像素块作为中心访问预设数量的深度像素块,拟合得到对应局部点云法向量,包括:
针对所述待处理三维点的特征点集合中的每个目标特征点,以该目标特征点在对应目标深度图像所在深度像素点作为中心提取预设数量的深度像素点的像素坐标;
基于所述预设数量的深度像素点的像素坐标确定对应的三维点坐标集合;
基于所述三维点坐标集合进行平面拟合之后计算法向量,得到每个目标特征点的局部点云法向量。
9.根据权利要求6所述的方法,其特征在于,针对每个所述三维点,基于对应的多个目标图像帧的Z方向与所述全局点云法向量的夹角,确定对应的最佳观测视图帧,包括:
针对每个所述三维点,确定该三维点的多个目标图像帧的Z方向与所述全局点云法向量的多个夹角,其中,所述夹角为锐角;
将每个所述三维点的多个目标图像帧中夹角大于角度阈值的目标图像帧删除;
针对每个所述三维点,基于删除之后的目标图像帧确定最佳观测视图帧。
10.根据权利要求9所述的方法,其特征在于,针对每个所述三维点,基于删除之后的目标图像帧确定最佳观测视图帧,包括:
针对每个所述三维点,当所述多个目标图像帧全部删除,则将夹角最小的目标图像帧确定为最佳观测视图帧;
当删除之后剩余一个目标图像帧,则将该剩余的目标图像帧确定为最佳观测视图帧;
当删除之后剩余至少两个目标图像帧,则基于该三维点到所述至少两个目标图像帧的距离确定其中一个目标图像帧为最佳观测视图帧。
11.一种描述子确定装置,其特征在于,包括:
获取模块,用于获取深度相机采集的图像帧以及所述深度相机的位置和姿态,所述图像帧包括深度图像和RGB图像;
点云平面模块,用于基于所述深度图像以及所述深度相机的姿态进行三维平面拟合,得到点云平面;
角平分面模块,用于基于所述深度相机的位置确定成像平面,并基于所述点云平面和所述成像平面确定角平分面;
确定模块,用于基于所述RGB图像和所述角平分面确定所述图像帧的目标描述子。
12.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-10中任一所述的描述子确定方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-10中任一所述的描述子确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210806932.XA CN117409072A (zh) | 2022-07-08 | 2022-07-08 | 一种描述子确定方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210806932.XA CN117409072A (zh) | 2022-07-08 | 2022-07-08 | 一种描述子确定方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117409072A true CN117409072A (zh) | 2024-01-16 |
Family
ID=89487672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210806932.XA Pending CN117409072A (zh) | 2022-07-08 | 2022-07-08 | 一种描述子确定方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409072A (zh) |
-
2022
- 2022-07-08 CN CN202210806932.XA patent/CN117409072A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11557083B2 (en) | Photography-based 3D modeling system and method, and automatic 3D modeling apparatus and method | |
CN112733820B (zh) | 障碍物信息生成方法、装置、电子设备和计算机可读介质 | |
CN110728622B (zh) | 鱼眼图像处理方法、装置、电子设备及计算机可读介质 | |
CN112288853A (zh) | 三维重建方法、三维重建装置、存储介质 | |
WO2024104248A1 (zh) | 虚拟全景图的渲染方法、装置、设备及存储介质 | |
WO2022247630A1 (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115908679A (zh) | 纹理映射方法、装置、设备及存储介质 | |
US20220139016A1 (en) | Sticker generating method and apparatus, and medium and electronic device | |
CN114863071A (zh) | 目标对象标注方法、装置、存储介质及电子设备 | |
CN112270242B (zh) | 轨迹的显示方法、装置、可读介质和电子设备 | |
CN111833459B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN114049403A (zh) | 一种多角度三维人脸重建方法、装置及存储介质 | |
CN113436247B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
WO2022194145A1 (zh) | 一种拍摄位置确定方法、装置、设备及介质 | |
CN117788659A (zh) | 渲染图像的方法、装置、电子设备及存储介质 | |
CN112132909B (zh) | 参数获取方法及装置、媒体数据处理方法和存储介质 | |
CN117409072A (zh) | 一种描述子确定方法、装置、设备及介质 | |
CN112037280A (zh) | 物体距离测量方法及装置 | |
CN112668474B (zh) | 平面生成方法和装置、存储介质和电子设备 | |
CN112991542B (zh) | 房屋三维重建方法、装置和电子设备 | |
CN113808050B (zh) | 3d点云的去噪方法、装置、设备及存储介质 | |
CN115937010B (zh) | 一种图像处理方法、装置、设备及介质 | |
WO2024060923A1 (zh) | 移动物体的深度估计方法、装置、电子设备及存储介质 | |
CA3102860C (en) | Photography-based 3d modeling system and method, and automatic 3d modeling apparatus and method | |
US20240203020A1 (en) | Systems and methods for generating or rendering a three-dimensional representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |