CN115410014A

CN115410014A - 一种鱼眼图像的自监督特征点匹配方法及其存储介质

Info

Publication number: CN115410014A
Application number: CN202211027390.2A
Authority: CN
Inventors: 田炜; 蔡培
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-11-29

Abstract

本发明涉及一种鱼眼图像的自监督特征点匹配方法及其存储介质，包括以下步骤：S1将成对图像输入到神经网络模型中，进行离线训练，得到训练好的匹配模型；S2将待测的数据输入训练好的匹配模型，提取出特征描述子，计算特征描述子损失函数并输出对应的匹配结果图。与现有技术相比，本发明聚焦于鱼眼图像的特征点匹配，方法中避免对原图像进行去畸变处理而损失大量像素信息和立体几何关系；模型采用的UnsuperPoint自监督学习策略，使得该方法的应用不受限于鱼眼数据集的稀少和标注的高成本；本发明对模型的网络层和损失函数进行了改进，增强网络在复杂几何关系中捕捉重要信息的能力，提高了网络的学习性能，为鱼眼相机在感知领域中的广泛应用搭建桥梁。

Description

一种鱼眼图像的自监督特征点匹配方法及其存储介质

技术领域

本发明涉及智能驾驶技术领域，尤其是涉及一种鱼眼图像的自监督特征点匹配方法及其存储介质。

背景技术

在智能驾驶汽车发展中，视觉环境感知起着关键作用，传统的环境信息获取方式是应用窄角针孔摄像头，但是此摄像头视野有限，存在盲区，一方面，当相机发生旋转，偏移路线的时候，有限的可视角度会导致特征点丢失；另一方面，当场景中动态物体较多的时候，可能导致相机的视野被动态的车辆和行人占满，导致位姿估计错误。针对这个问题，随后出现了鱼眼相机，它可以为视觉定位创造一个超大范围的场景视角，甚至可以直接获取半球域的图像信息，理论上仅需两个摄像头即可覆盖360°全景视图，为视觉感知提供更多信息，减少了镜头及图像采集模块数目，简化系统、提高运算速度、降低成本。鱼眼相机的缺点是存在着较大的畸变，大畸变会使得普通的相机模型无法适配，并且普通的描述子也不能适用，但无论是生成全景图像还是三维重建都需要首先进行特征匹配，准确的特征匹配是图像拼接和三维景深计算的关键。因此在需要增大视觉视场的大背景下，鱼眼图像的特征区域提取和匹配是非常有意义的。目前，对于鱼眼图像的特征匹配通常是先按照透视投影模型将畸变图像矫正为符合人眼视觉习惯的透视投影图，再对矫正后的待匹配图像实施线性极线校正，最后采用尺度不变特征变换、加速稳健特征以及定向快速旋转等传统方法提取局部特征的算法实现特征匹配。近年来，基于深度学习的兴趣点检测器和描述符越来越受欢迎，然而针对环视鱼眼图像的该方面研究主要面临两个难题：1)到目前为止，最先进的基于深度学习的计算机视觉算法需要大规模的像素级注释图像来进行模型训练和参数优化，大规模的数据集对模型优化起着至关重要的作用。然而由于数据集注释过程是费时且昂贵的工作，关于环视鱼眼图像的大规模标注数据集很少，直接阻碍环视鱼眼图像处理算法的发展与验证评价。因此，环视鱼眼图像的相关研究应与弱监督或无监督学习结合。近年来提出了迁移学习或强化学习等基于弱监督或无监督的方法，这些方法对数据的需求不高，能部分缓解数据缺乏的弊端，这也是深度学习未来的发展趋势，不再以数据为驱动。2)虽然常规图像视觉算法已十分成熟，有的已经落地运用，但由于鱼眼相机展示的更加复杂的投影几何以及目标畸变导致核心特征提取不易等问题，因此在窄角针孔摄像机上学习的模型不能很好地迁移到鱼眼摄像机上，需要创建一个新的针对鱼眼图像视觉信息处理的模型算法。通过检索中国专利CN114049479A中公开的一种基于自监督的鱼眼相机图像特征点提取方法、装置及存储介质，采用安装在预设位置的若干个鱼眼相机获取关于预设场景不同位置的若干张鱼眼图片，基于获取的鱼眼图片，采用预先训练好的特征点提取模型，提取预设场景内的特征点，确定预设场景内的特征点的坐标，以及每个特征点对应的特征向量。该专利解决了现有技术方案中不存在“无需人为标注特征点的情况下基于场景通过学习实现特征点、特征向量的提取”的技术缺陷，但是针对鱼眼相机存在畸变这一问题并没有得到解决。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种鱼眼图像的自监督特征点匹配方法及其存储介质，能够对存在畸变的鱼眼图像进行可靠的特征点提取和匹配，并且通过自监督学习的方法，有效缓解鱼眼数据集少以及标注成本高的问题，从而促进具有更大视角的鱼眼相机在自动驾驶领域中的广泛应用。

本发明的目的可以通过以下技术方案来实现：

本发明包括以下步骤：

S1将原始鱼眼图像和加入视角变换的鱼眼图像成对输入到神经网络模型中，进行离线训练，得到训练好的匹配模型；

S2将待测的数据输入训练好的匹配模型，以提取出特征描述子，计算特征描述子损失函数并输出对应的匹配结果图。

进一步地，所述的神经网络模型将提取的点通过单应矩阵的真值和去畸变映射函数，将点的坐标投影到同一图像坐标系中，计算每对的点距离，构建点对应关系，以进行自监督学习。

进一步地，所述的离线训练是对鱼眼图像的视角变换进行建模，将原始图像进行去畸变得到的中间图像作为单应性变换的输入，再对单应性变换后的图像进行去畸变的逆变换，将该输出作为视角变换后的鱼眼图像。

进一步地，所述的鱼眼图像的视角变换是一种非线性映射，区别于普通图像的单应性变换，映射函数为图像上的每个像素点生成对应的查找表，具体可由以下方式得到：

设F^-1为鱼眼图像域到去畸变后图像域的映射：F^-1：I²→S²。右上角2表示该映射是一个二维空间的映射，I²为鱼眼图像域点的像素坐标值，S²为去畸变后图像域点的像素坐标值。

则F为去畸变后图像域到鱼眼图像域的映射：F：S²→I²

H为单应性矩阵，对普通图像进行单应性变换的公式为：

使用上面描述的函数(F和F^-1)，我们可以通过以下步骤来生成一个新的鱼眼扭曲图像：

W(I²)＝F(H*F^-1(I²))

其中F映射根据所采用的去畸变方案不同而不同。原则上，具体使用哪个鱼眼映射函数并不重要，只要它提供了一个精确的图像变换模型。在本发明中，我们采用了基于标定的鱼眼图像校正方法，即根据相机的内参(焦距和畸变系数)和外参(旋转矩阵和平移向量)，从光学成像几何模型入手，利用标定获得的精确模型参数重构入射光线几何，并实现从球面透视投影到柱面投影的空间重映射，本发明中所采用的Woodscape数据集已给出相机的内外参，不需额外标定，F可表示为：

其中u_s,v_s为去畸变图像上点的2D坐标，u_I,v_I为鱼眼图像坐标系点的2D坐标，本发明中F计算的具体原理为：

f为焦距

上述公式描述的过程为：根据u_s，v_s，f(此处的u_s，v_s为图像坐标系坐标)，将去畸变图像中的点投影为相机坐标系下的三维坐标X，Y，Z，本发明中该部分投影采用柱面投影模型：

ρ(θ)＝a₁θ+a₂θ²+…+a_nθⁿ

上述公式中，θ为三维点和相机原点的连线与相机光轴的夹角，ρ为鱼眼相机成像平面的点到成像平面原点的距离，本例中n＝4，F的逆运算过程中要对一个4阶多项式函数求根。

在实际应用中，为了避免新图像的稀疏性，将新图像上的每个像素逆变换到原始图像上相应的亚像素位置，并采用双线性插值法进行采样。

此外，由于需要一个多项式根求解器，F^-1的计算代价很高，因此训练前预先为数据集中的每张图片生成对应的F^-1查找表以减少训练计算量。

通过W映射，我们可得到成对的原始鱼眼图像和视角变换后的鱼眼图像，二者即为网络的输入。需要注意的是，虽然该过程中采用了鱼眼图像去畸变方案，但去畸变结果仅作为整个映射过程的中间变量，并没有作为网络的输入，因此原始鱼眼图像的大视角图像信息并没有因为去畸变过程而丢失。

进一步地，所述的神经网络模型为UnsuperPoint-DCNv2神经网络模型，在本发明中，构建的UnsuperPoint-DCNv2神经网络模型的骨干网络用于执行点置信估计、点坐标回归以及描述子提取的联合任务。其包含两个分支，一个分支用于处理原始图像，另一个分支则用于处理视角变换后的图像，第二条分支中提取的点坐标通过F^-1函数，在查找表中查找到对应的去畸变后的像素坐标值；第一条分支中提取的点坐标也通过F^-1变换在查找表中查找对应值，再通过单应矩阵H的真值投影到同一图像坐标系中，计算每对的点距离，以距离小于4像素的点对作为有效点对，构建点对应关系，以进行自监督学习。采用卷积核大小为3、步长为1的卷积网络层，为了提高模型对不同几何变换的适应能力，模型中除了每个子任务的最后一层外，所有的卷积层都替换为可变形卷积DCNv2，对每个卷积的采样点施加偏置和权重。具体公式和原理为：

首先对于一个普通卷积，它的计算可以概括成两步：

从输入特征图上采样一组像素点R，例如一个3×3卷积的采样位置可以表示为R＝{(-1，-1)，(-1，0)，(-1，1)，(0，-1)，(0，0)，(0，1)，(1，-1)，(1，0)，(1，1)}。使用卷积操作对采样的结果进行计算，得到卷积之后的结果，表示为：

其中x(p₀)为位置p₀处的像素值，w(p_n)为卷积核在采样位置p_n处的权重。

而对于一个可变形卷积，它不是直接改变卷积核的形状。而是对采样的位置进行修改，从而间接的达成改变卷积核形状的效果。在可变形卷积中，我们可以使用偏移量Δp_n对特征图上的采样位置p_n进行扩充，其中{Δp_n|n＝1,2,3,…,N}，便是说明书附图中我们通过卷积操作预测的卷积核偏移量。同时施加权重Δm_n，此时可变形卷积的计算方式表示为：

进一步地，所述的UnsuperPoint-DCNv2神经网络模型的学习损失函数具体为：L＝α_scoreL_score+α_posL_pos+α_repL_rep+α_uniL_uni+α_desL_des+α_{des_coor}L_{des_coor}

其中，A为原始图像的标识，B为视角变换后图像的标识，L为总损失函数；其他损失项分别为：

L_score为点置信度损失，该损失由A与B相同点的得分差值的平方表示，α_score为相应的权重；

L_pos为点对的欧式距离损失，α_pos为其相应的权重；

L_rep为基于点对距离的可重复性损失，s为提取点的预测置信度，d为点对的距离，

为所有点对的距离均值，α_rep为相应权重；

L_uni为坐标均匀化的损失，即坐标分布与均匀分布的差值和，α_uni为相应的权重；

L_des为描述子损失，本发明中该部分与原论文中损失函数的设计不同，描述子损失部分采取基于负例的对比学习损失SimCLR；z_i,z_j分别为A和B中特征点的描述子向量，sim(z_i,z_j)为z_i,z_j的相似性计算值，τ为温度超参数，用于控制学习负例的强度；1是一个提示符，它和后面的自然指数运算相乘，如果k不等于i，则该提示符的值为1，否则为0。

L_{des_coor}通过最小化分支的协方差矩阵的非对角项来降低维度之间的相关性，用于提升描述子在空间上的紧致程度，α_{des_coor}为相应的权重。

与现有技术相比，本发明具有以下有益效果：

1.本发明聚焦于鱼眼图像的特征点匹配，方案中避免对原图像进行去畸变处理而损失大量像素信息和立体几何关系，模型中采用的UnsuperPoint自监督学习策略，解除了训练中对合成数据的依赖，使得该方案的应用不受限于鱼眼数据集的稀少和标注的高成本。

2.对模型的网络层和损失函数进行了改进，将网络层中的普通卷积替换为可变形卷积，增强网络在复杂的几何关系中捕捉重要信息的能力，提升了网络对鱼眼图像的适应性。

3.本发明基于神经网络学习一个适应于鱼眼图像提取点和描述子的模型，为鱼眼相机在自动驾驶感知领域中的广泛应用搭建桥梁，以期达到降低传感器数量、简化系统以及降低成本的目的。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的UnsuperPoint-DCNv2神经网络架构示意图。

图3为本发明的可变形卷积示意图。

图4为本发明的自监督学习框架示意图。

图5为本发明的鱼眼图像描述子匹配示例图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

如图1所示，一种鱼眼图像的自监督特征点匹配方法及其存储介质，其特征在于，包括以下步骤：

S1将成对图像输入到神经网络模型中，进行离线训练，得到训练好的匹配模型；

离线训练是对鱼眼图像的视角变换进行建模，将原始图像进行去畸变得到的中间图像作为单应性变换的输入，再对单应性变换后的图像进行去畸变的逆变换，将该输出作为视角变换后的鱼眼图像。

鱼眼图像的视角变换是一种非线性映射，区别于普通图像的单应性变换，映射函数为图像上的每个像素点生成对应的查找表，具体可由以下方式得到：

则F为去畸变后图像域到鱼眼图像域的映射：F：S²→I²

H为单应性矩阵，对普通图像进行单应性变换的公式为：

W(I²)＝F(H*F^-1(I²))

f为焦距

ρ(θ)＝a₁θ+a₂θ²+…+a_nθⁿ

如图2所示，构建的UnsuperPoint-DCNv2神经网络模型的骨干网络用于执行点置信估计、点坐标回归以及描述子提取的联合任务。其包含两个分支，一个分支用于处理原始图像，另一个分支则用于处理视角变换后的图像，第二条分支中提取的点坐标通过F^-1函数，在查找表中查找到对应的去畸变后的像素坐标值；第一条分支中提取的点坐标也通过F^-1变换在查找表中查找对应值，再通过单应矩阵H的真值投影到同一图像坐标系中，计算每对的点距离，以距离小于4像素的点对作为有效点对，构建点对应关系，以进行自监督学习，如图4所示。

如图3所示，采用卷积核大小为3、步长为1的卷积网络层，为了提高模型对不同几何变化的适应能力，模型中除了每个子任务的最后一层外，所有的卷积层都替换为可变形卷积DCNv2，对每个卷积的采样点施加偏置和权重。具体公式和原理为：

首先对于一个普通卷积，它的计算可以概括成两步：

而对于一个可变形卷积，它不是直接的改变卷积核的形状。而是对采样的位置进行修改，从而间接的达成改变卷积核形状的效果。在可变形卷积中，我们可以使用偏移量Δp_n对特征图上的采样位置p_n进行扩充，其中{Δp_n|n＝1,2,3,…,N}，便是说明书附图中我们通过卷积操作预测的卷积核偏移量。同时施加权重Δm_n，此时可变形卷积的计算方式表示为：

L_pos为点对的欧式距离损失，α_pos为其相应的权重；

为所有点对的距离均值，α_rep为相应权重；

如图5所示为本实施例中鱼眼图像的描述子匹配示例，训练中评价指标如下表示：

用O表示原图，W表示经过变换的图像，且变换的坐标映射关系已知，此时将O中提取的点由作F逆变换和H变换，记为Ptw，将W中的点作F逆变换，记为Pw。

RS(Repeatability Score)重复率：

其中距离阈值设置为3。

LE(Localization Error)位置误差：

LE＝点对间的平均像素距离

其中以距离小于4像素为有效点对。

HA(Homography Accuracy)单应性变换估计精度：

首先以L2距离衡量描述子的相似度，然后根据匹配结果结合随机抽样一致性算法，以估计两张图像之间的单应性变换矩阵。在对原始图像进行F逆变换的图像上，可得到四个边缘点的坐标，计算四个点在估计的单应性变换下和变换矩阵真值下的平均误差距离，这部分指标也称为HE(Homography Error)单应性错误，根据不同的阈值判断估计是否正确，本实施例中以1，3，5，10，20，50像素作为评估阈值。

MS(Matching Score)匹配分数：

其中以距离小于1.2作为正确的匹配。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种鱼眼图像的自监督特征点匹配方法及其存储介质，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质，其特征在于，所述步骤S1中的成对图像为原始鱼眼图像以及加入视角变换的鱼眼图像。

3.根据权利要求1所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质，其特征在于，所述步骤S1中的神经网络模型将提取的点通过单应矩阵的真值和去畸变映射函数，将点的坐标投影到同一图像坐标系中，计算每对的点距离，构建点对应关系，以进行自监督学习。

4.根据权利要求1所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质，其特征在于，所述步骤S1中的离线训练是对鱼眼图像的视角变换进行建模，将原始图像进行去畸变得到的中间图像作为单应性变换的输入，再对单应性变换后的图像进行去畸变的逆变换，将该输出作为视角变换后的鱼眼图像。

5.根据权利要求4所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质，其特征在于，所述的鱼眼图像的视角变换是一种非线性映射，映射函数为图像上的每个像素点生成对应的查找表。

6.根据权利要求5所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质，其特征在于，所述的非线性映射的过程中采用鱼眼图像去畸变，去畸变结果作为整个映射过程的中间变量，保留原始鱼眼图像的大视角图像信息。

7.根据权利要求1所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质，其特征在于，所述步骤S1中的神经网络模型为UnsuperPoint-DCNv2神经网络模型，该模型采用UnsuperPoint网络架构，其中除了每个子任务的最后一层外，所有的卷积层都替换为可变形卷积DCNv2。

8.根据权利要求7所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质，其特征在于，所述的UnsuperPoint-DCNv2神经网络模型的骨干网络分为两个分支，一个分支用于处理原始图像，另一个分支用于处理单应矩阵变换后的图像，所述的骨干网络用于执行点置信估计、点坐标回归以及描述子提取的联合任务。

9.根据权利要求1所述的一种鱼眼图像的自监督特征点匹配方法及其存储介质，其特征在于，所述步骤S2中的神经网络模型的描述子损失函数采用了SimCLR的学习损失，具体公式为：

其中，L_des为描述子损失，1是一个提示符，它和后面的自然指数运算相乘，如果k不等于i，则该提示符的值为1，否则为0，z_i,z_j为两个描述子向量，sim(z_i,z_j)为z_i,z_j的相似计算值，τ为温度超参数。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现如权利要求1至9任一项所述一种鱼眼图像的自监督特征点匹配方法及存储介质。