CN115410014A - 一种鱼眼图像的自监督特征点匹配方法及其存储介质 - Google Patents
一种鱼眼图像的自监督特征点匹配方法及其存储介质 Download PDFInfo
- Publication number
- CN115410014A CN115410014A CN202211027390.2A CN202211027390A CN115410014A CN 115410014 A CN115410014 A CN 115410014A CN 202211027390 A CN202211027390 A CN 202211027390A CN 115410014 A CN115410014 A CN 115410014A
- Authority
- CN
- China
- Prior art keywords
- image
- matching
- fisheye
- self
- fisheye image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000006870 function Effects 0.000 claims abstract description 26
- 238000003062 neural network model Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000009466 transformation Effects 0.000 claims description 40
- 238000013507 mapping Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims 3
- 238000002372 labelling Methods 0.000 abstract description 3
- 230000008447 perception Effects 0.000 abstract description 3
- 230000007786 learning performance Effects 0.000 abstract 1
- 230000000007 visual effect Effects 0.000 description 17
- 238000005070 sampling Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000000265 homogenisation Methods 0.000 description 2
- 238000003702 image correction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012634 optical imaging Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
- G06T3/047—Fisheye or wide-angle transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种鱼眼图像的自监督特征点匹配方法及其存储介质,包括以下步骤:S1将成对图像输入到神经网络模型中,进行离线训练,得到训练好的匹配模型;S2将待测的数据输入训练好的匹配模型,提取出特征描述子,计算特征描述子损失函数并输出对应的匹配结果图。与现有技术相比,本发明聚焦于鱼眼图像的特征点匹配,方法中避免对原图像进行去畸变处理而损失大量像素信息和立体几何关系;模型采用的UnsuperPoint自监督学习策略,使得该方法的应用不受限于鱼眼数据集的稀少和标注的高成本;本发明对模型的网络层和损失函数进行了改进,增强网络在复杂几何关系中捕捉重要信息的能力,提高了网络的学习性能,为鱼眼相机在感知领域中的广泛应用搭建桥梁。
Description
技术领域
本发明涉及智能驾驶技术领域,尤其是涉及一种鱼眼图像的自监督特征点匹配方法及其存储介质。
背景技术
在智能驾驶汽车发展中,视觉环境感知起着关键作用,传统的环境信息获取方式是应用窄角针孔摄像头,但是此摄像头视野有限,存在盲区,一方面,当相机发生旋转,偏移路线的时候,有限的可视角度会导致特征点丢失;另一方面,当场景中动态物体较多的时候,可能导致相机的视野被动态的车辆和行人占满,导致位姿估计错误。针对这个问题,随后出现了鱼眼相机,它可以为视觉定位创造一个超大范围的场景视角,甚至可以直接获取半球域的图像信息,理论上仅需两个摄像头即可覆盖360°全景视图,为视觉感知提供更多信息,减少了镜头及图像采集模块数目,简化系统、提高运算速度、降低成本。鱼眼相机的缺点是存在着较大的畸变,大畸变会使得普通的相机模型无法适配,并且普通的描述子也不能适用,但无论是生成全景图像还是三维重建都需要首先进行特征匹配,准确的特征匹配是图像拼接和三维景深计算的关键。因此在需要增大视觉视场的大背景下,鱼眼图像的特征区域提取和匹配是非常有意义的。目前,对于鱼眼图像的特征匹配通常是先按照透视投影模型将畸变图像矫正为符合人眼视觉习惯的透视投影图,再对矫正后的待匹配图像实施线性极线校正,最后采用尺度不变特征变换、加速稳健特征以及定向快速旋转等传统方法提取局部特征的算法实现特征匹配。近年来,基于深度学习的兴趣点检测器和描述符越来越受欢迎,然而针对环视鱼眼图像的该方面研究主要面临两个难题:1)到目前为止,最先进的基于深度学习的计算机视觉算法需要大规模的像素级注释图像来进行模型训练和参数优化,大规模的数据集对模型优化起着至关重要的作用。然而由于数据集注释过程是费时且昂贵的工作,关于环视鱼眼图像的大规模标注数据集很少,直接阻碍环视鱼眼图像处理算法的发展与验证评价。因此,环视鱼眼图像的相关研究应与弱监督或无监督学习结合。近年来提出了迁移学习或强化学习等基于弱监督或无监督的方法,这些方法对数据的需求不高,能部分缓解数据缺乏的弊端,这也是深度学习未来的发展趋势,不再以数据为驱动。2)虽然常规图像视觉算法已十分成熟,有的已经落地运用,但由于鱼眼相机展示的更加复杂的投影几何以及目标畸变导致核心特征提取不易等问题,因此在窄角针孔摄像机上学习的模型不能很好地迁移到鱼眼摄像机上,需要创建一个新的针对鱼眼图像视觉信息处理的模型算法。通过检索中国专利CN114049479A中公开的一种基于自监督的鱼眼相机图像特征点提取方法、装置及存储介质,采用安装在预设位置的若干个鱼眼相机获取关于预设场景不同位置的若干张鱼眼图片,基于获取的鱼眼图片,采用预先训练好的特征点提取模型,提取预设场景内的特征点,确定预设场景内的特征点的坐标,以及每个特征点对应的特征向量。该专利解决了现有技术方案中不存在“无需人为标注特征点的情况下基于场景通过学习实现特征点、特征向量的提取”的技术缺陷,但是针对鱼眼相机存在畸变这一问题并没有得到解决。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种鱼眼图像的自监督特征点匹配方法及其存储介质,能够对存在畸变的鱼眼图像进行可靠的特征点提取和匹配,并且通过自监督学习的方法,有效缓解鱼眼数据集少以及标注成本高的问题,从而促进具有更大视角的鱼眼相机在自动驾驶领域中的广泛应用。
本发明的目的可以通过以下技术方案来实现:
本发明包括以下步骤:
S1将原始鱼眼图像和加入视角变换的鱼眼图像成对输入到神经网络模型中,进行离线训练,得到训练好的匹配模型;
S2将待测的数据输入训练好的匹配模型,以提取出特征描述子,计算特征描述子损失函数并输出对应的匹配结果图。
进一步地,所述的神经网络模型将提取的点通过单应矩阵的真值和去畸变映射函数,将点的坐标投影到同一图像坐标系中,计算每对的点距离,构建点对应关系,以进行自监督学习。
进一步地,所述的离线训练是对鱼眼图像的视角变换进行建模,将原始图像进行去畸变得到的中间图像作为单应性变换的输入,再对单应性变换后的图像进行去畸变的逆变换,将该输出作为视角变换后的鱼眼图像。
进一步地,所述的鱼眼图像的视角变换是一种非线性映射,区别于普通图像的单应性变换,映射函数为图像上的每个像素点生成对应的查找表,具体可由以下方式得到:
设F-1为鱼眼图像域到去畸变后图像域的映射:F-1:I2→S2。右上角2表示该映射是一个二维空间的映射,I2为鱼眼图像域点的像素坐标值,S2为去畸变后图像域点的像素坐标值。
则F为去畸变后图像域到鱼眼图像域的映射:F:S2→I2
使用上面描述的函数(F和F-1),我们可以通过以下步骤来生成一个新的鱼眼扭曲图像:
W(I2)=F(H*F-1(I2))
其中F映射根据所采用的去畸变方案不同而不同。原则上,具体使用哪个鱼眼映射函数并不重要,只要它提供了一个精确的图像变换模型。在本发明中,我们采用了基于标定的鱼眼图像校正方法,即根据相机的内参(焦距和畸变系数)和外参(旋转矩阵和平移向量),从光学成像几何模型入手,利用标定获得的精确模型参数重构入射光线几何,并实现从球面透视投影到柱面投影的空间重映射,本发明中所采用的Woodscape数据集已给出相机的内外参,不需额外标定,F可表示为:
其中us,vs为去畸变图像上点的2D坐标,uI,vI为鱼眼图像坐标系点的2D坐标,本发明中F计算的具体原理为:
上述公式描述的过程为:根据us,vs,f(此处的us,vs为图像坐标系坐标),将去畸变图像中的点投影为相机坐标系下的三维坐标X,Y,Z,本发明中该部分投影采用柱面投影模型:
ρ(θ)=a1θ+a2θ2+…+anθn
上述公式中,θ为三维点和相机原点的连线与相机光轴的夹角,ρ为鱼眼相机成像平面的点到成像平面原点的距离,本例中n=4,F的逆运算过程中要对一个4阶多项式函数求根。
在实际应用中,为了避免新图像的稀疏性,将新图像上的每个像素逆变换到原始图像上相应的亚像素位置,并采用双线性插值法进行采样。
此外,由于需要一个多项式根求解器,F-1的计算代价很高,因此训练前预先为数据集中的每张图片生成对应的F-1查找表以减少训练计算量。
通过W映射,我们可得到成对的原始鱼眼图像和视角变换后的鱼眼图像,二者即为网络的输入。需要注意的是,虽然该过程中采用了鱼眼图像去畸变方案,但去畸变结果仅作为整个映射过程的中间变量,并没有作为网络的输入,因此原始鱼眼图像的大视角图像信息并没有因为去畸变过程而丢失。
进一步地,所述的神经网络模型为UnsuperPoint-DCNv2神经网络模型,在本发明中,构建的UnsuperPoint-DCNv2神经网络模型的骨干网络用于执行点置信估计、点坐标回归以及描述子提取的联合任务。其包含两个分支,一个分支用于处理原始图像,另一个分支则用于处理视角变换后的图像,第二条分支中提取的点坐标通过F-1函数,在查找表中查找到对应的去畸变后的像素坐标值;第一条分支中提取的点坐标也通过F-1变换在查找表中查找对应值,再通过单应矩阵H的真值投影到同一图像坐标系中,计算每对的点距离,以距离小于4像素的点对作为有效点对,构建点对应关系,以进行自监督学习。采用卷积核大小为3、步长为1的卷积网络层,为了提高模型对不同几何变换的适应能力,模型中除了每个子任务的最后一层外,所有的卷积层都替换为可变形卷积DCNv2,对每个卷积的采样点施加偏置和权重。具体公式和原理为:
首先对于一个普通卷积,它的计算可以概括成两步:
从输入特征图上采样一组像素点R,例如一个3×3卷积的采样位置可以表示为R={(-1,-1),(-1,0),(-1,1),(0,-1),(0,0),(0,1),(1,-1),(1,0),(1,1)}。使用卷积操作对采样的结果进行计算,得到卷积之后的结果,表示为:
其中x(p0)为位置p0处的像素值,w(pn)为卷积核在采样位置pn处的权重。
而对于一个可变形卷积,它不是直接改变卷积核的形状。而是对采样的位置进行修改,从而间接的达成改变卷积核形状的效果。在可变形卷积中,我们可以使用偏移量Δpn对特征图上的采样位置pn进行扩充,其中{Δpn|n=1,2,3,…,N},便是说明书附图中我们通过卷积操作预测的卷积核偏移量。同时施加权重Δmn,此时可变形卷积的计算方式表示为:
进一步地,所述的UnsuperPoint-DCNv2神经网络模型的学习损失函数具体为:L=αscoreLscore+αposLpos+αrepLrep+αuniLuni+αdesLdes+αdes_coorLdes_coor
其中,A为原始图像的标识,B为视角变换后图像的标识,L为总损失函数;其他损失项分别为:
Lscore为点置信度损失,该损失由A与B相同点的得分差值的平方表示,αscore为相应的权重;
Lpos为点对的欧式距离损失,αpos为其相应的权重;
Luni为坐标均匀化的损失,即坐标分布与均匀分布的差值和,αuni为相应的权重;
Ldes为描述子损失,本发明中该部分与原论文中损失函数的设计不同,描述子损失部分采取基于负例的对比学习损失SimCLR;zi,zj分别为A和B中特征点的描述子向量,sim(zi,zj)为zi,zj的相似性计算值,τ为温度超参数,用于控制学习负例的强度;1是一个提示符,它和后面的自然指数运算相乘,如果k不等于i,则该提示符的值为1,否则为0。
Ldes_coor通过最小化分支的协方差矩阵的非对角项来降低维度之间的相关性,用于提升描述子在空间上的紧致程度,αdes_coor为相应的权重。
与现有技术相比,本发明具有以下有益效果:
1.本发明聚焦于鱼眼图像的特征点匹配,方案中避免对原图像进行去畸变处理而损失大量像素信息和立体几何关系,模型中采用的UnsuperPoint自监督学习策略,解除了训练中对合成数据的依赖,使得该方案的应用不受限于鱼眼数据集的稀少和标注的高成本。
2.对模型的网络层和损失函数进行了改进,将网络层中的普通卷积替换为可变形卷积,增强网络在复杂的几何关系中捕捉重要信息的能力,提升了网络对鱼眼图像的适应性。
3.本发明基于神经网络学习一个适应于鱼眼图像提取点和描述子的模型,为鱼眼相机在自动驾驶感知领域中的广泛应用搭建桥梁,以期达到降低传感器数量、简化系统以及降低成本的目的。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的UnsuperPoint-DCNv2神经网络架构示意图。
图3为本发明的可变形卷积示意图。
图4为本发明的自监督学习框架示意图。
图5为本发明的鱼眼图像描述子匹配示例图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,一种鱼眼图像的自监督特征点匹配方法及其存储介质,其特征在于,包括以下步骤:
S1将成对图像输入到神经网络模型中,进行离线训练,得到训练好的匹配模型;
S2将待测的数据输入训练好的匹配模型,以提取出特征描述子,计算特征描述子损失函数并输出对应的匹配结果图。
离线训练是对鱼眼图像的视角变换进行建模,将原始图像进行去畸变得到的中间图像作为单应性变换的输入,再对单应性变换后的图像进行去畸变的逆变换,将该输出作为视角变换后的鱼眼图像。
鱼眼图像的视角变换是一种非线性映射,区别于普通图像的单应性变换,映射函数为图像上的每个像素点生成对应的查找表,具体可由以下方式得到:
设F-1为鱼眼图像域到去畸变后图像域的映射:F-1:I2→S2。右上角2表示该映射是一个二维空间的映射,I2为鱼眼图像域点的像素坐标值,S2为去畸变后图像域点的像素坐标值。
则F为去畸变后图像域到鱼眼图像域的映射:F:S2→I2
使用上面描述的函数(F和F-1),我们可以通过以下步骤来生成一个新的鱼眼扭曲图像:
W(I2)=F(H*F-1(I2))
其中F映射根据所采用的去畸变方案不同而不同。原则上,具体使用哪个鱼眼映射函数并不重要,只要它提供了一个精确的图像变换模型。在本发明中,我们采用了基于标定的鱼眼图像校正方法,即根据相机的内参(焦距和畸变系数)和外参(旋转矩阵和平移向量),从光学成像几何模型入手,利用标定获得的精确模型参数重构入射光线几何,并实现从球面透视投影到柱面投影的空间重映射,本发明中所采用的Woodscape数据集已给出相机的内外参,不需额外标定,F可表示为:
其中us,vs为去畸变图像上点的2D坐标,uI,vI为鱼眼图像坐标系点的2D坐标,本发明中F计算的具体原理为:
上述公式描述的过程为:根据us,vs,f(此处的us,vs为图像坐标系坐标),将去畸变图像中的点投影为相机坐标系下的三维坐标X,Y,Z,本发明中该部分投影采用柱面投影模型:
ρ(θ)=a1θ+a2θ2+…+anθn
上述公式中,θ为三维点和相机原点的连线与相机光轴的夹角,ρ为鱼眼相机成像平面的点到成像平面原点的距离,本例中n=4,F的逆运算过程中要对一个4阶多项式函数求根。
在实际应用中,为了避免新图像的稀疏性,将新图像上的每个像素逆变换到原始图像上相应的亚像素位置,并采用双线性插值法进行采样。
此外,由于需要一个多项式根求解器,F-1的计算代价很高,因此训练前预先为数据集中的每张图片生成对应的F-1查找表以减少训练计算量。
通过W映射,我们可得到成对的原始鱼眼图像和视角变换后的鱼眼图像,二者即为网络的输入。需要注意的是,虽然该过程中采用了鱼眼图像去畸变方案,但去畸变结果仅作为整个映射过程的中间变量,并没有作为网络的输入,因此原始鱼眼图像的大视角图像信息并没有因为去畸变过程而丢失。
如图2所示,构建的UnsuperPoint-DCNv2神经网络模型的骨干网络用于执行点置信估计、点坐标回归以及描述子提取的联合任务。其包含两个分支,一个分支用于处理原始图像,另一个分支则用于处理视角变换后的图像,第二条分支中提取的点坐标通过F-1函数,在查找表中查找到对应的去畸变后的像素坐标值;第一条分支中提取的点坐标也通过F-1变换在查找表中查找对应值,再通过单应矩阵H的真值投影到同一图像坐标系中,计算每对的点距离,以距离小于4像素的点对作为有效点对,构建点对应关系,以进行自监督学习,如图4所示。
如图3所示,采用卷积核大小为3、步长为1的卷积网络层,为了提高模型对不同几何变化的适应能力,模型中除了每个子任务的最后一层外,所有的卷积层都替换为可变形卷积DCNv2,对每个卷积的采样点施加偏置和权重。具体公式和原理为:
首先对于一个普通卷积,它的计算可以概括成两步:
从输入特征图上采样一组像素点R,例如一个3×3卷积的采样位置可以表示为R={(-1,-1),(-1,0),(-1,1),(0,-1),(0,0),(0,1),(1,-1),(1,0),(1,1)}。使用卷积操作对采样的结果进行计算,得到卷积之后的结果,表示为:
其中x(p0)为位置p0处的像素值,w(pn)为卷积核在采样位置pn处的权重。
而对于一个可变形卷积,它不是直接的改变卷积核的形状。而是对采样的位置进行修改,从而间接的达成改变卷积核形状的效果。在可变形卷积中,我们可以使用偏移量Δpn对特征图上的采样位置pn进行扩充,其中{Δpn|n=1,2,3,…,N},便是说明书附图中我们通过卷积操作预测的卷积核偏移量。同时施加权重Δmn,此时可变形卷积的计算方式表示为:
进一步地,所述的UnsuperPoint-DCNv2神经网络模型的学习损失函数具体为:L=αscoreLscore+αposLpos+αrepLrep+αuniLuni+αdesLdes+αdes_coorLdes_coor
其中,A为原始图像的标识,B为视角变换后图像的标识,L为总损失函数;其他损失项分别为:
Lscore为点置信度损失,该损失由A与B相同点的得分差值的平方表示,αscore为相应的权重;
Lpos为点对的欧式距离损失,αpos为其相应的权重;
Luni为坐标均匀化的损失,即坐标分布与均匀分布的差值和,αuni为相应的权重;
Ldes为描述子损失,本发明中该部分与原论文中损失函数的设计不同,描述子损失部分采取基于负例的对比学习损失SimCLR;zi,zj分别为A和B中特征点的描述子向量,sim(zi,zj)为zi,zj的相似性计算值,τ为温度超参数,用于控制学习负例的强度;1是一个提示符,它和后面的自然指数运算相乘,如果k不等于i,则该提示符的值为1,否则为0。
Ldes_coor通过最小化分支的协方差矩阵的非对角项来降低维度之间的相关性,用于提升描述子在空间上的紧致程度,αdes_coor为相应的权重。
如图5所示为本实施例中鱼眼图像的描述子匹配示例,训练中评价指标如下表示:
用O表示原图,W表示经过变换的图像,且变换的坐标映射关系已知,此时将O中提取的点由作F逆变换和H变换,记为Ptw,将W中的点作F逆变换,记为Pw。
RS(Repeatability Score)重复率:
其中距离阈值设置为3。
LE(Localization Error)位置误差:
LE=点对间的平均像素距离
其中以距离小于4像素为有效点对。
HA(Homography Accuracy)单应性变换估计精度:
首先以L2距离衡量描述子的相似度,然后根据匹配结果结合随机抽样一致性算法,以估计两张图像之间的单应性变换矩阵。在对原始图像进行F逆变换的图像上,可得到四个边缘点的坐标,计算四个点在估计的单应性变换下和变换矩阵真值下的平均误差距离,这部分指标也称为HE(Homography Error)单应性错误,根据不同的阈值判断估计是否正确,本实施例中以1,3,5,10,20,50像素作为评估阈值。
MS(Matching Score)匹配分数:
其中以距离小于1.2作为正确的匹配。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种鱼眼图像的自监督特征点匹配方法及其存储介质,其特征在于,包括以下步骤:
S1将成对图像输入到神经网络模型中,进行离线训练,得到训练好的匹配模型;
S2将待测的数据输入训练好的匹配模型,以提取出特征描述子,计算特征描述子损失函数并输出对应的匹配结果图。
2.根据权利要求1所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质,其特征在于,所述步骤S1中的成对图像为原始鱼眼图像以及加入视角变换的鱼眼图像。
3.根据权利要求1所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质,其特征在于,所述步骤S1中的神经网络模型将提取的点通过单应矩阵的真值和去畸变映射函数,将点的坐标投影到同一图像坐标系中,计算每对的点距离,构建点对应关系,以进行自监督学习。
4.根据权利要求1所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质,其特征在于,所述步骤S1中的离线训练是对鱼眼图像的视角变换进行建模,将原始图像进行去畸变得到的中间图像作为单应性变换的输入,再对单应性变换后的图像进行去畸变的逆变换,将该输出作为视角变换后的鱼眼图像。
5.根据权利要求4所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质,其特征在于,所述的鱼眼图像的视角变换是一种非线性映射,映射函数为图像上的每个像素点生成对应的查找表。
6.根据权利要求5所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质,其特征在于,所述的非线性映射的过程中采用鱼眼图像去畸变,去畸变结果作为整个映射过程的中间变量,保留原始鱼眼图像的大视角图像信息。
7.根据权利要求1所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质,其特征在于,所述步骤S1中的神经网络模型为UnsuperPoint-DCNv2神经网络模型,该模型采用UnsuperPoint网络架构,其中除了每个子任务的最后一层外,所有的卷积层都替换为可变形卷积DCNv2。
8.根据权利要求7所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质,其特征在于,所述的UnsuperPoint-DCNv2神经网络模型的骨干网络分为两个分支,一个分支用于处理原始图像,另一个分支用于处理单应矩阵变换后的图像,所述的骨干网络用于执行点置信估计、点坐标回归以及描述子提取的联合任务。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时用于实现如权利要求1至9任一项所述一种鱼眼图像的自监督特征点匹配方法及存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211027390.2A CN115410014A (zh) | 2022-08-25 | 2022-08-25 | 一种鱼眼图像的自监督特征点匹配方法及其存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211027390.2A CN115410014A (zh) | 2022-08-25 | 2022-08-25 | 一种鱼眼图像的自监督特征点匹配方法及其存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115410014A true CN115410014A (zh) | 2022-11-29 |
Family
ID=84162196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211027390.2A Pending CN115410014A (zh) | 2022-08-25 | 2022-08-25 | 一种鱼眼图像的自监督特征点匹配方法及其存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115410014A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116246209A (zh) * | 2023-03-09 | 2023-06-09 | 彩虹鱼科技(广东)有限公司 | 基于偏移卷积核的广角镜头生物目标检测方法 |
-
2022
- 2022-08-25 CN CN202211027390.2A patent/CN115410014A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116246209A (zh) * | 2023-03-09 | 2023-06-09 | 彩虹鱼科技(广东)有限公司 | 基于偏移卷积核的广角镜头生物目标检测方法 |
CN116246209B (zh) * | 2023-03-09 | 2024-02-13 | 彩虹鱼科技(广东)有限公司 | 基于偏移卷积核的广角镜头生物目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | 360sd-net: 360 stereo depth estimation with learnable cost volume | |
CN107330439B (zh) | 一种图像中物体姿态的确定方法、客户端及服务器 | |
CN107833181B (zh) | 一种基于变焦立体视觉的三维全景图像生成方法 | |
CN109685078B (zh) | 基于自动标注的红外图像识别方法 | |
CN115205489A (zh) | 一种大场景下的三维重建方法、系统及装置 | |
CN111709980A (zh) | 基于深度学习的多尺度图像配准方法和装置 | |
CN109859137B (zh) | 一种广角相机非规则畸变全域校正方法 | |
CN111144349B (zh) | 一种室内视觉重定位方法及系统 | |
CN110517211B (zh) | 一种基于梯度域映射的图像融合方法 | |
CN113538569B (zh) | 一种弱纹理物体位姿估计方法和系统 | |
CN111553845B (zh) | 一种基于优化的三维重建的快速图像拼接方法 | |
CN116129037B (zh) | 视触觉传感器及其三维重建方法、系统、设备及存储介质 | |
CN113963117B (zh) | 一种基于可变卷积深度网络的多视图三维重建方法及装置 | |
CN108154536A (zh) | 二维平面迭代的相机标定法 | |
CN112767478B (zh) | 一种基于表观指导的六自由度位姿估计方法 | |
CN111368733B (zh) | 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端 | |
CN111325828B (zh) | 一种基于三目相机的三维人脸采集方法及装置 | |
CN114332689A (zh) | 一种柑橘识别定位方法、装置、设备及存储介质 | |
CN116579962A (zh) | 一种基于鱼眼相机的全景感知方法、装置、设备及介质 | |
CN116912405A (zh) | 一种基于改进MVSNet的三维重建方法及系统 | |
Gao et al. | DCT-based local descriptor for robust matching and feature tracking in wide area motion imagery | |
CN115410014A (zh) | 一种鱼眼图像的自监督特征点匹配方法及其存储介质 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN117197333A (zh) | 基于多目视觉的空间目标重构与位姿估计方法及系统 | |
CN116402904A (zh) | 一种基于激光雷达间和单目相机的联合标定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |