CN115860091A - 一种基于正交约束的深度特征描述符学习方法 - Google Patents

一种基于正交约束的深度特征描述符学习方法 Download PDF

Info

Publication number
CN115860091A
CN115860091A CN202310117794.9A CN202310117794A CN115860091A CN 115860091 A CN115860091 A CN 115860091A CN 202310117794 A CN202310117794 A CN 202310117794A CN 115860091 A CN115860091 A CN 115860091A
Authority
CN
China
Prior art keywords
image
feature
network
orthogonal
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310117794.9A
Other languages
English (en)
Other versions
CN115860091B (zh
Inventor
孙琨
方纯
徐振宏
唐厂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Tuke Intelligent Information Technology Co ltd
Original Assignee
Wuhan Tuke Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Tuke Intelligent Technology Co ltd filed Critical Wuhan Tuke Intelligent Technology Co ltd
Priority to CN202310117794.9A priority Critical patent/CN115860091B/zh
Publication of CN115860091A publication Critical patent/CN115860091A/zh
Application granted granted Critical
Publication of CN115860091B publication Critical patent/CN115860091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种基于正交约束的深度特征描述符学习方法,包括:根据图像的类别生成各个图像对;对两个图像或图像块分别进行关键点检测后分别得到第一组特征点和第二组特征点,基于图像对以及第一组特征点和第二组特征点构建数据集;构建正交描述符学习网络和带正交约束项的图像特征匹配损失函数;正交描述符学习网络包括:依次连接的基础特征提取网络、双分支图像特征网络和双分支图像特征融合模块;基于数据集构建训练集,基于训练集对正交描述符学习网络进行训练,得到训练完成的正交描述符学习网络;利用多个具有正交性的特征来描述同一关键点的信息,得到信息更加丰富更优秀的描述符,从而能够获得更好的图像特征匹配结果。

Description

一种基于正交约束的深度特征描述符学习方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于正交约束的深度特征描述符学习方法。
背景技术
图像特征匹配旨在建立图像之间精确的像素点对应关系,更是许多后续计算机视觉应用的重要前提,诸如图像检索、图像拼接、图像定位、三维重建等。典型的图像特征匹配流程为:第一步,图像关键点检测,即检测图像中独特性与可重复性高的像素点,这些点更有利于在图像之间建立精确点对应关系;第二步,图像特征描述,使用特定的计算规则为每一个关键点计算一个高维特征向量;第三步,图像特征匹配,在上一步骤得到不同图像的特征向量集后,在特征集之间建立精确的一一对应关系。在上述流程中,特征向量对图像关键点信息的表征能力直接影响着最终匹配结果的好坏,因此足够优秀的特征描述算法至关重要。与图像关键点一样,性能优异的特征描述符应同样具备较好的独特性和可重复性,其中前者使同一幅图像不同关键点的特征可相互区分开来,后者确保不同图像同一关键点的特征具备较好的相似性。
传统图像特征描述算法通常由设计者主观设计,通常是对图像关键点局部邻域信息的数学化语言描述。在那之后很长的一段时间,手工设计的描述符都是该领域研究的主流,直至深度学习的出现。自深度学习技术出现以来,应用了深度学习技术的各个研究领域都能取得不错的表现,计算机视觉也不例外。与传统手工方法相比,由数据驱动的深度学习方法可以应对更具挑战的环境,处理更难的、甚至极端的场景。通过巧妙设计网络结构,合理设定损失函数,充分使用数据集进行训练,基于深度学习的图像特征描述方法能够更加容易获得利于建立匹配的特征描述符。尽管这些基于深度学习的特征描述方法大多都表现优秀,但它们通常仅仅学得单一的描述符。由于图像中存在着类似光照变换、视角变换等多种干扰导致这种单一的描述符很难全面的阐释图像特征,所以本发明提出一种双分支网络结构并加以正交约束来学得两个尽可能互补的特征,再将其融合在一起得到信息更加丰富的描述符,并用于后续的特征匹配。
发明内容
本发明针对现有技术中存在的技术问题,提供一种基于正交约束的深度特征描述符学习方法,利用多个具有正交性的特征来描述同一关键点的信息,得到信息更加丰富更优秀的描述符,从而能够获得更好的图像特征匹配结果。
根据本发明的第一方面,提供了一种基于正交约束的深度特征描述符学习方法,包括:
步骤1,根据图像的类别生成各个图像对,所述图像对包括两个图像或两个图像块;对两个图像或图像块分别进行关键点检测后分别得到第一组特征点和第二组特征点,基于所述图像对以及所述第一组特征点和第二组特征点构建数据集;
步骤2,构建正交描述符学习网络和带正交约束项的图像特征匹配损失函数;所述正交描述符学习网络包括:依次连接的基础特征提取网络、双分支图像特征网络和双分支图像特征融合模块;
所述基础特征提取网络用于对所述图像对进行特征提取,基于所述损失函数在所述基础特征提取网络的约束项后添加对特征图的正交约束;所述双分支图像特征网络用于基于对所述图像对进行特征学习,所述双分支图像特征融合模块用于对所述图像对进行特征融合后输出深度特征描述符;
步骤3,基于所述数据集构建训练集,基于所述训练集对所述正交描述符学习网络进行训练,得到训练完成的所述正交描述符学习网络。
在上述技术方案的基础上,本发明还可以作出如下改进。
可选的,所述步骤1中生成包含两个图像块的图像对的过程包括:
步骤101,以检测到的关键点为中心对各个图像进行提取得到设定大小的各个图像块,且对每个图像块对应的真值信息进行同步处理;
步骤102,按照场景进行类别的划分,随机选择同一类别的两个图像块作为一个图像对,在每个类别中选择设定数量的图像对生成所述数据集;
步骤103,根据图像对之间的匹配难度将所述数据集划分为多个类别的数据集。
可选的,所述步骤1中生成包含两个图像的图像对的过程包括:
步骤101',对各个图像的尺寸进行归一化处理得到设定大小的图像,且将每个图像的内参和外参根据缩放比例进行调成,重新得到图像缩放后的真值;
步骤102',按照场景进行类别的划分,随机选择同一类别的两个图像作为一个图像对,在每个类别中选择设定数量的图像对生成所述数据集;
步骤103',根据图像对之间的匹配难度将所述数据集划分为多个类别的数据集。
可选的,所述正交描述符学习网络中,所述双分支图像特征网络的两个分支分别包含一个卷积模块;
所述基础特征提取网络的输入为所述图像或图像块,输出所述图像或图像块的特征图至所述双分支图像特征网络的两个分支;
两个卷积模块对所述图像或图像块分别进行学习后输出两个特征至所述双分支图像特征融合模块;
所述双分支图像特征融合模块对所述图像或图像块的两个特征进行融合,最终输出所述图像或图像块的特征描述符。
可选的,所述双分支图像特征网络包含的两个卷积模块的结构相同;
所述卷积模块包括:两个3X3的卷积和一个1X1的卷积;三个卷积后均接有一个批归一化层以及一个激活函数。
可选的,所述损失函数中的正交约束损失项
Figure SMS_1
为式(1)-(3)中的任意一个:
Figure SMS_2
(1)/>
Figure SMS_3
(2)
Figure SMS_4
(3)
其中,i表示图像对中第i张图像或图像块,
Figure SMS_5
表示特征维度,/>
Figure SMS_6
和/>
Figure SMS_7
分别表示第i张图像或图像块分别经过两个所述卷积模块后输出的特征中的第c个维度。
可选的,将所述正交约束损失项
Figure SMS_8
以设定的权重/>
Figure SMS_9
与所述基础特征提取网络本身的损失函数相结合后构成所述带正交约束项的图像特征匹配损失函数。
可选的,所述步骤3之后还包括:
步骤4,基于所述数据集构建测试集,基于所述测试集将训练完成的所述正交描述符学习网络应用于真实场景上进行测试得到描述性能符;使用评估方法对所述描述性能符进行多种指标评估。
可选的,所述使用评估方法对所述描述性能符进行多种指标评估包括:使用单应性矩阵估计精度评估在平面场景的下游任务中的表现,每一对图像之间的单应性矩阵评估的正确性由下式定义:
Figure SMS_10
(4)
其中,e表示给定的像素阈值,
Figure SMS_11
和/>
Figure SMS_12
分别是通过算法估计和真值单应性矩阵变换的源图像四个角点。
可选的,所述使用评估方法对所述描述性能符进行多种指标评估包括:使用相对姿态估计精度评估在非平面场景的下游任务中的表现,基于旋转矩阵与实际旋转矩阵计算角度误差,计算规则为:
Figure SMS_13
(5)
其中,
Figure SMS_14
表示角度预测值,/>
Figure SMS_15
表示角度真实值;
当角度
Figure SMS_16
小于给定阈值时则认为估计错误。
本发明提供的一种基于正交约束的深度特征描述符学习方法,有益效果包括:
利用双分支特征的正交性来学得更丰富的信息,从而得到更优秀的描述符;本发明可作为一个插件使用,这仅需要在所选的基础网络后添加本发明的双分支模块即可,不需要过多的空间和计算量,并且在实际数据中得到的匹配结果能实现精度上的明显提升,从而获得一个综合性能的提升。
附图说明
图1为本发明提供的一种基于正交约束的深度特征描述符学习方法的流程图;
图2所示为本发明提供的一种正交描述符学习网络的实施例的结构框图;
图3为本发明实施例子提供的一种基于图像块描述符学习网络进行基于正交约束的描述符学习方法的流程图;
图4为本发明实施例子提供的一种基于稠密描述符学习网络进行基于正交约束的描述符学习方法的流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明提供的一种基于正交约束的深度特征描述符学习方法的流程图,结合图1可知,该学习方法包括:
步骤1,根据图像的类别生成各个图像对,图像对包括两个图像或两个图像块;对两个图像或图像块分别进行关键点检测后分别得到第一组特征点和第二组特征点,基于图像对以及第一组特征点和第二组特征点构建数据集。
具体实施中,可以将该数据集划分为训练集、验证集和测试集。
步骤2,构建正交描述符学习网络和带正交约束项的图像特征匹配损失函数。
如图2所示为本发明提供的一种正交描述符学习网络的实施例的结构框图,结合图1和图2可知,正交描述符学习网络包括:依次连接的基础特征提取网络、双分支图像特征网络和双分支图像特征融合模块。
基础特征提取网络用于对图像对进行特征提取,基于损失函数在基础特征提取网络的约束项后添加对特征图的正交约束;双分支图像特征网络用于基于对图像对进行特征学习,双分支图像特征融合模块用于对图像对进行特征融合后输出深度特征描述符。
步骤3,基于数据集构建训练集,基于训练集对正交描述符学习网络进行训练,得到训练完成的正交描述符学习网络。
本发明提供的一种基于正交约束的深度特征描述符学习方法,利用多个具有正交性的特征来描述同一关键点的信息,得到信息更加丰富更优秀的描述符,从而能够获得更好的图像特征匹配结果。
实施例1
本发明提供的实施例1为本发明提供的一种基于正交约束的深度特征描述符学习方法的一种实施例。本实施例采用基于图像块的正交描述符学习网络。基于图像块的描述符学习网络,是将原始图像分割为指定大小的图像块,网络为每个图像块学习一个描述符,可以使用HardNet、SOSNet、L2Net、GeoDesc等基于图像块学习的描述符。本实施例以HardNet(Working hard to know your neighbor’s margins: Local descriptorlearning loss)算法为例来具体说明。HardNet算法是基于L2Net的网络结构来学习得到图像块的描述符,HardNet提出了有名的三元组损失(Triplet loss),该损失要求正对图像块的特征距离要与一个边距的和小于负对图像块的特征距离,边距迫使网络关注那些难以区分开的负样本,从而使得特征更具可区分性。
如图3所示为本发明实施例子提供的一种基于图像块描述符学习网络进行基于正交约束的描述符学习方法的流程图。结合图1-图3可知,该学习方法的一种实施例包括:
步骤1,根据图像的类别生成各个图像对,图像对包括两个图像块;对两个图像块分别进行关键点检测后分别得到第一组特征点和第二组特征点,基于图像对以及第一组特征点和第二组特征点构建数据集。
该步骤1为数据准备阶段,为网络的训练以及测试准备数据集。首先,将数据集中的图像尺寸进行归一化,同步处理每张图像的真值信息;其次,基于某种关键点检测方法为每张图像检测出关键点;最后,基于特定的分类规则,将所有数据分类整理好,以备后续使用。
在一种可能的实施例方式中,该步骤1包括:
步骤101,以检测到的关键点为中心对各个图像进行提取得到设定大小的各个图像块,且对每个图像块对应的真值信息进行同步处理。
具体实施中,为了方便后续网络训练,对训练集中所有图像尺寸进行归一化处理,本实施例选择的HardNet算法所使用的训练集是由一对对的锚点图像和正样本图像组成。以关键点检测算法检测到的关键点为中心,提取
Figure SMS_17
大小的图像块,/>
Figure SMS_18
可为32或64等,基于所选择的方法而定。而后从同一类别的图像块中随机选取2张图像块作为网络输入的图像对时,其中一张作为锚点图像,另一张作为正样本图像即可。
步骤102,按照场景进行类别的划分,随机选择同一类别的两个图像块作为一个图像对,在每个类别中选择设定数量的图像对生成数据集。
步骤103,根据图像对之间的匹配难度将数据集划分为多个类别的数据集。
具体实施中,本实施例选择的数据集包括但不限于COLMAP、MegaDepth、ScanNet等数据集。由于每个场景的图像之间存在视角差异等因素,所以可以根据图像对之间的匹配难度将数据集划分为多个类别的数据集。具体的对于COLMAP和MegaDepth而言,可以以图像对之间的角度差异将整个数据集划分为easy(0°-15°)、moderate(15°-30°)、hard(30°-60°)三类。对于ScanNet而言,可以以图像对之间的帧数差将整个数据集划分为easy(10帧)、moderate(30帧)、hard(60帧)三类。
步骤104,对所选数据集的所有的图像对基于关键点检测方法进行特征检测,获取图像对中的第一图像块
Figure SMS_19
的m个特征点组成第一组特征点,获取图像对中第二图像块/>
Figure SMS_20
的n个特征点组成第二组特征点。
其中,可以使用不同的特征检测算法获得特征点,比如SIFT检测子、Surf检测子、Harris角点、S uperPoint等。
步骤2,构建正交描述符学习网络和带正交约束项的图像特征匹配损失函数;正交描述符学习网络包括:依次连接的基础特征提取网络、双分支图像特征网络和双分支图像特征融合模块;本实例选择的HardNet算法的基础网络。
基础特征提取网络用于对图像对进行特征提取,基于损失函数在基础特征提取网络的约束项后添加对特征图的正交约束;双分支图像特征网络用于基于对图像对进行特征学习,双分支图像特征融合模块用于对图像对进行特征融合后输出深度特征描述符。
在一种可能的实施例方式中,正交描述符学习网络中,双分支图像特征网络的两个分支分别包含一个卷积模块。
基础特征提取网络的输入为图像块,输出图像块的特征图至双分支图像特征网络的两个分支。
为了减少网络的参数量,在双分支图像特征网络之前设置一个共享权重的基础特征提取网络。基础特征提取网络的输入是一张图像块,输出是特征图,其长宽与输入图像块相同。本发明的基础网络模块可选方案较多,可根据需求选择合适的基础网络。
两个卷积模块对图像块分别进行学习后输出两个特征至双分支图像特征融合模块。
双分支图像特征融合模块对图像块的两个特征进行融合,最终输出图像块的特征描述符。
对于图像对中的
Figure SMS_22
,将两分支卷积模块/>
Figure SMS_23
和/>
Figure SMS_24
输出的特征/>
Figure SMS_25
和/>
Figure SMS_26
基于特定的规则融合得到相加得到最终的特征描述符/>
Figure SMS_27
,同理得到图像对中的/>
Figure SMS_28
的最终的特征描述符/>
Figure SMS_21
在一种可能的实施例方式中,双分支图像特征网络包含的两个卷积模块的结构相同。
卷积模块包括:两个3X3的卷积和一个1X1的卷积;三个卷积后均接有一个批归一化层以及一个激活函数。
在基础特征提取网络后面添加两个卷积模块
Figure SMS_29
和/>
Figure SMS_30
,这两个卷积模块都是具备相同的网络结构,但互相独立,不共享权重,目的是使得两分支学得尽可能不相同的信息。
在基础网络后面添加两个卷积模块
Figure SMS_31
和/>
Figure SMS_32
,这两个卷积模块都是由两个
Figure SMS_33
和一个/>
Figure SMS_34
的卷积组成,且三个卷积后面都接了一个批归一化(BatchNormalization)层以及一个激活函数ReLU,其中,批归一化层用于实现层与层之间的解耦。对于/>
Figure SMS_35
的卷积而言,stride为1,padding为1;对于/>
Figure SMS_36
得卷积而言,stride为1,padding为0,以此来保证每次卷积后的特征图大小不变。
带正交约束项的图像特征匹配损失函数迫使网络分支学习不同的图像信息。本发明所提出的正交损失约束项,可与当前主流方法的损失函数结合。
在一种可能的实施例方式中,结合本实施例所选择的基础网络模块,以及设计的双分支网络模块,构建一个针对该双分支网络的正交约束损失项
Figure SMS_37
为:
Figure SMS_38
(1)
其中,i表示图像对中第i张图像块,
Figure SMS_39
表示特征维度,/>
Figure SMS_40
和/>
Figure SMS_41
分别表示第i张图像块分别经过两个卷积模块后输出的特征中的第c个维度。这里的正交损失的计算方法是两个分支输出的特征图按位点乘后求绝对值(保证损失值为非负数)。
特别的,此处的正交损失形式不止公式(1)一种,还有如下正交损失形式:
Figure SMS_42
(2)/>
Figure SMS_43
(3)
在一种可能的实施例方式中,将正交约束损失项
Figure SMS_44
以设定的权重/>
Figure SMS_45
与基础特征提取网络本身的损失函数相结合后构成带正交约束项的图像特征匹配损失函数。
步骤3,基于数据集构建训练集,基于训练集对正交描述符学习网络进行训练,得到训练完成的正交描述符学习网络。
在网络训练阶段,基于步骤1准备的数据集来训练本发明的网络。在训练中,一次epoch为使用训练集的全部数据对模型进行一次完整训练,而batch为使用训练集中对模型权重进行一次反向传播的参数更新的一小部分样本,iteration为使用一个batch数据对模型进行一次参数更新的过程。本发明可选择不同的训练结果,比如使用最后一次迭代的模型作为最终模型,或者训练时可加入验证集来选择验证结果最好的模型作为最终的模型,或者使用多次epoch训练后再选择最好的模型作为结果等。同时,batch-size对网络训练结果也存在一定的影响,故可以根据网络训练结果调整网络超参数。
在本发明实施例中,可以使用多次epoch训练方式,epoch的次数为200000次,batch-size设定为6,优化器用的是ADAM,学习率为
Figure SMS_46
在一种可能的实施例方式中,步骤3之后还包括:
步骤4,基于数据集构建测试集,基于测试集将训练完成的正交描述符学习网络应用于真实场景上进行测试得到描述性能符;使用评估方法对描述性能符进行多种指标评估。
具体实施中,真实场景如三维重建、姿态估计、图像匹配等。使用当下流行的评估方法进行多种指标评估,如单应性矩阵估计、相对姿态估计精度等。
在一种可能的实施例方式中,使用评估方法对描述性能符进行多种指标评估包括:使用单应性矩阵估计精度(Homography Estimation Accuracy)评估在平面场景的下游任务中的表现,参照SuperPoint,每一对图像之间的单应性矩阵评估的正确性由下式定义:
Figure SMS_47
(4)
其中,e表示给定的像素阈值,
Figure SMS_48
和/>
Figure SMS_49
分别是通过算法估计和真值单应性矩阵变换的源图像四个角点。
在一种可能的实施例方式中,使用评估方法对描述性能符进行多种指标评估包括:使用相对姿态估计精度(Rotation Estimation Accuracy和Translation EstimationAccuracy)评估在非平面场景的下游任务中的表现,基于旋转矩阵与实际旋转矩阵计算角度误差,计算规则为:
Figure SMS_50
(5)
其中,
Figure SMS_51
表示角度预测值,/>
Figure SMS_52
表示角度真实值。/>
当角度
Figure SMS_53
小于给定阈值时则认为估计错误,平移同样以角度误差计算估计精度,因为现有的算法只能计算单位大小的平移向量。
实施例2
本发明提供的实施例2为本发明提供的一种基于正交约束的深度特征描述符学习方法的另一种实施例。
本实施例采用稠密像素的正交描述符学习网络,是对于整张原始图像中的每个像素都学习一个描述符,本发明以CAPS(Learning Feature Descriptors using CameraPose Supervision)算法为例来具体说明。CAPS提出了一个由粗到精的仅包含特征描述的弱监督框架,该工作最主要的贡献是提出了用相对相机姿态直接作为损失函数,从而可以避免大量训练数据集的标注工作。
如图4为本发明实施例子提供的一种基于稠密描述符学习网络进行基于正交约束的描述符学习方法的流程图,结合图1、图2和图4可知,该学习方法的另一种实施例包括:
步骤1,根据图像的类别生成各个图像对,图像对包括两个图;对两个图像分别进行关键点检测后分别得到第一组特征点和第二组特征点,基于图像对以及第一组特征点和第二组特征点构建数据集。
该步骤1为数据准备阶段,为网络的训练以及测试准备数据集。首先,将数据集中的图像尺寸进行归一化,同步处理每张图像的真值信息;其次,基于某种关键点检测方法为每张图像检测出关键点;最后,基于特定的分类规则,将所有数据分类整理好,以备后续使用。
在一种可能的实施例方式中,该步骤1包括:
步骤101',对各个图像的尺寸进行归一化处理得到设定大小的图像,且将每个图像的内参和外参根据缩放比例进行调成,重新得到图像缩放后的真值;
具体实施中,本实施例选择的CAPS算法所使用的数据集是由一对对随机挑选的同一场景的图像对组成。为例方便训练,可以将图像尺寸归一化到
Figure SMS_54
大小。
步骤102',按照场景进行类别的划分,随机选择同一类别的两个图像作为一个图像对,在每个类别中选择设定数量的图像对生成数据集。
步骤103',根据图像对之间的匹配难度将数据集划分为多个类别的数据集。
具体实施中,本实施例选择的数据集包括但不限于COLMAP、MegaDepth、ScanNet等数据集。由于每个场景的图像之间存在视角差异等因素,所以可以根据图像对之间的匹配难度将数据集划分为多个类别的数据集。具体的对于COLMAP和MegaDepth而言,可以以图像对之间的角度差异将整个数据集划分为easy(0°-15°)、moderate(15°-30°)、hard(30°-60°)三类。对于ScanNet而言,可以以图像对之间的帧数差将整个数据集划分为easy(10帧)、moderate(30帧)、hard(60帧)三类。
步骤104,对所选数据集的所有的图像对基于关键点检测方法进行特征检测,获取图像对中的第一图像
Figure SMS_55
的m个特征点组成第一组特征点,获取图像对中第二图像/>
Figure SMS_56
的n个特征点组成第二组特征点。
其中,可以使用不同的特征检测算法获得特征点,比如SIFT检测子、Surf检测子、Harris角点、SuperPoint等。
步骤2,构建正交描述符学习网络和带正交约束项的图像特征匹配损失函数;正交描述符学习网络包括:依次连接的基础特征提取网络、双分支图像特征网络和双分支图像特征融合模块;本实例选择的CAPS算法的基础网络。
基础特征提取网络用于对图像对进行特征提取,基于损失函数在基础特征提取网络的约束项后添加对特征图的正交约束;双分支图像特征网络用于基于对图像对进行特征学习,双分支图像特征融合模块用于对图像对进行特征融合后输出深度特征描述符。
在一种可能的实施例方式中,正交描述符学习网络中,双分支图像特征网络的两个分支分别包含一个卷积模块。
基础特征提取网络的输入为图像,输出图像的特征图至双分支图像特征网络的两个分支。
为了减少网络的参数量,在双分支图像特征网络之前设置一个共享权重的基础特征提取网络。基础特征提取网络的输入是一张图像,输出是特征图,其长宽与输入图像相同。本发明的基础网络模块可选方案较多,可根据需求选择合适的基础网络。
两个卷积模块对图像分别进行学习后输出两个特征至双分支图像特征融合模块。
双分支图像特征融合模块对图像的两个特征进行融合,最终输出图像的特征描述符。
对于图像对中的
Figure SMS_58
,将两分支卷积模块/>
Figure SMS_59
和/>
Figure SMS_60
输出的特征/>
Figure SMS_61
和/>
Figure SMS_62
基于特定的规则融合得到相加得到最终的特征描述符/>
Figure SMS_63
,同理得到图像对中的/>
Figure SMS_64
的最终的特征描述符/>
Figure SMS_57
在一种可能的实施例方式中,双分支图像特征网络包含的两个卷积模块的结构相同。
卷积模块包括:两个3X3的卷积和一个1X1的卷积;三个卷积后均接有一个批归一化层以及一个激活函数。
在基础特征提取网络后面添加两个卷积模块
Figure SMS_65
和/>
Figure SMS_66
,这两个卷积模块都是具备相同的网络结构,但互相独立,不共享权重,目的是使得两分支学得尽可能不相同的信息。
在基础网络后面添加两个卷积模块
Figure SMS_67
和/>
Figure SMS_68
,这两个卷积模块都是由两个3X3和一个1X1的卷积组成,且三个卷积后面都接了一个批归一化(Batch Normalization)层以及一个激活函数ReLU,其中,批归一化层用于实现层与层之间的解耦。对于3X3的卷积而言,stride为1,padding为1;对于1X1得卷积而言,stride为1,padding为0,以此来保证每次卷积后的特征图大小不变。
带正交约束项的图像特征匹配损失函数迫使网络分支学习不同的图像信息。本发明所提出的正交损失约束项,可与当前主流方法的损失函数结合。
种可能的实施例方式中,结合本实施例所选择的基础网络模块,以及设计的双分支网络模块,构建一个针对该双分支网络的正交约束损失项
Figure SMS_69
为:
Figure SMS_70
(8)
其中,i表示图像对中第i张图像,
Figure SMS_71
表示特征维度,/>
Figure SMS_72
和/>
Figure SMS_73
分别表示第i张图像分别经过两个卷积模块后输出的特征中的第c个维度。这里的正交损失的计算方法是两个分支输出的特征图按位点乘后求绝对值(保证损失值为非负数)。
特别的,此处的正交损失形式不止公式(1)一种,还有如下正交损失形式:
Figure SMS_74
(7)
Figure SMS_75
(8)
在一种可能的实施例方式中,将正交约束损失项
Figure SMS_76
以设定的权重/>
Figure SMS_77
与基础特征提取网络本身的损失函数相结合后构成带正交约束项的图像特征匹配损失函数。
步骤3,基于数据集构建训练集,基于训练集对正交描述符学习网络进行训练,得到训练完成的正交描述符学习网络。
在网络训练阶段,基于步骤1准备的数据集来训练本发明的网络。在训练中,一次epoch为使用训练集的全部数据对模型进行一次完整训练,而batch为使用训练集中对模型权重进行一次反向传播的参数更新的一小部分样本,iteration为使用一个batch数据对模型进行一次参数更新的过程。本发明可选择不同的训练结果,比如使用最后一次迭代的模型作为最终模型,或者训练时可加入验证集来选择验证结果最好的模型作为最终的模型,或者使用多次epoch训练后再选择最好的模型作为结果等。同时,batch-size对网络训练结果也存在一定的影响,故可以根据网络训练结果调整网络超参数。
在本发明实施例中,可以使用多次epoch训练方式,epoch的次数为10次,batch-size设定为1024,优化器用的是SGD,学习率为10.0。
在一种可能的实施例方式中,步骤3之后还包括:
步骤4,基于数据集构建测试集,基于测试集将训练完成的正交描述符学习网络应用于真实场景上进行测试得到描述性能符;使用评估方法对描述性能符进行多种指标评估。
具体实施中,真实场景如三维重建、姿态估计、图像匹配等。使用当下流行的评估方法进行多种指标评估,如单应性矩阵估计、相对姿态估计精度等。
在一种可能的实施例方式中,使用评估方法对描述性能符进行多种指标评估包括:使用单应性矩阵估计精度(Homography Estimation Accuracy)评估在平面场景的下游任务中的表现,参照SuperPoint,每一对图像之间的单应性矩阵评估的正确性由下式定义:
Figure SMS_78
(9)
其中,e表示给定的像素阈值,
Figure SMS_79
和/>
Figure SMS_80
分别是通过算法估计和真值单应性矩阵变换的源图像四个角点。
在一种可能的实施例方式中,使用评估方法对描述性能符进行多种指标评估包括:使用相对姿态估计精度(Rotation Estimation Accuracy和Translation EstimationAccuracy)评估在非平面场景的下游任务中的表现,基于旋转矩阵与实际旋转矩阵计算角度误差,计算规则为:
Figure SMS_81
(10)
其中,
Figure SMS_82
表示角度预测值,/>
Figure SMS_83
表示角度真实值。
当角度
Figure SMS_84
小于给定阈值时则认为估计错误,平移同样以角度误差计算估计精度,因为现有的算法只能计算单位大小的平移向量。
作为一个可选的实施例,本发明基于近年来表现较好的稠密描述符学习网络进行了验证实验,在公开图像对数据集MegaDepth、COLMAP、HPatches上给出了以下对比结果。
表1
Figure SMS_85
表1是近年来基于学习的和传统手工描述子方法在MegaDepth上的相对位姿估计结果,最后一行的数据精度最高。
表2
Figure SMS_86
表2是近年来基于学习的和传统手工描述子方法在COLMAP上的相对位姿估计结果,最后一行的数据精度最高。
表3
Figure SMS_87
表3是近年来基于学习的和传统手工描述子方法在HPatches上的不同像素阈值下的单应性矩阵估计精度对比结果,最后一行的数据精度最高。
由上面的表格结果可以看出,本发明提供的一种涉及正交约束的描述符学习方法来获得信息更加丰富的描述符,从而能够获得更好的图像特征匹配结果是有效的。
本发明实施例提供的一种基于正交约束的深度特征描述符学习方法,属于计算机视觉技术领域,更具体地,图像特征匹配分支。图像关键点是图像中一些视觉上较为突出的像素点,图像关键点特征是对以关键点为中心的局部图像的高度抽象表示,其信息性能的好坏对图像特征匹配的结果有着至关重要的影响。图像特征描述方法发展至今,包括传统的手工描述方法和当下流行的基于深度学习的特征描述方法。尽管现有的基于深度学习的方法有着更加优秀的表现,但大多数网络学习特征的方式比较单一,即通过一个前向卷积网络来学习图像特征,这种结构很可能会忽略一些对特征描述符有益的潜在信息。
为了进一步挖掘图像中存在的潜在信息,本发明的工作在一些现有的基于深度学习的特征描述网络架构基础上,引入了正交约束,即建立不同的特征分支来学习同一图像关键点的正交特征。进一步地,基于特定的规则将多个分支学习得到的正交特征融合,从而得到包含更加丰富的图像信息的特征描述符,基于该特征可以建立更加准确的图像特征匹配结果。具体而言,基于某一非特定的特征描述符学习网络,该工作在其网络结构后增加两个不共享权重的轻量级分支模块,并在损失项中对来自两个分支的特征添加正交约束项,满足正交约束的正交特征进一步融合得到最终特征。本发明能够做到在现有的描述符学习方法上不增加过多额外的计算,而能在下游应用上提升指标。
有益效果包括:利用双分支特征的正交性来学得更丰富的信息,从而得到更优秀的描述符;本发明可作为一个插件使用,这仅需要在所选的基础网络后添加本发明的双分支模块即可,不需要过多的空间和计算量,并且在实际数据中得到的匹配结果能实现精度上的明显提升,从而获得一个综合性能的提升。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种基于正交约束的深度特征描述符学习方法,其特征在于,所述学习方法包括:
步骤1,根据图像的类别生成各个图像对,所述图像对包括两个图像或两个图像块;对两个图像或图像块分别进行关键点检测后分别得到第一组特征点和第二组特征点,基于所述图像对以及所述第一组特征点和第二组特征点构建数据集;
步骤2,构建正交描述符学习网络和带正交约束项的图像特征匹配损失函数;所述正交描述符学习网络包括:依次连接的基础特征提取网络、双分支图像特征网络和双分支图像特征融合模块;
所述基础特征提取网络用于对所述图像对进行特征提取,基于所述损失函数在所述基础特征提取网络的约束项后添加对特征图的正交约束;所述双分支图像特征网络用于基于对所述图像对进行特征学习,所述双分支图像特征融合模块用于对所述图像对进行特征融合后输出深度特征描述符;
步骤3,基于所述数据集构建训练集,基于所述训练集对所述正交描述符学习网络进行训练,得到训练完成的所述正交描述符学习网络。
2.根据权利要求1所述的学习方法,其特征在于,所述步骤1中生成包含两个图像块的图像对的过程包括:
步骤101,以检测到的关键点为中心对各个图像进行提取得到设定大小的各个图像块,且对每个图像块对应的真值信息进行同步处理;
步骤102,按照场景进行类别的划分,随机选择同一类别的两个图像块作为一个图像对,在每个类别中选择设定数量的图像对生成所述数据集;
步骤103,根据图像对之间的匹配难度将所述数据集划分为多个类别的数据集。
3.根据权利要求1所述的学习方法,其特征在于,所述步骤1中生成包含两个图像的图像对的过程包括:
步骤101',对各个图像的尺寸进行归一化处理得到设定大小的图像,且将每个图像的内参和外参根据缩放比例进行调成,重新得到图像缩放后的真值;
步骤102',按照场景进行类别的划分,随机选择同一类别的两个图像作为一个图像对,在每个类别中选择设定数量的图像对生成所述数据集;
步骤103',根据图像对之间的匹配难度将所述数据集划分为多个类别的数据集。
4.根据权利要求1所述的学习方法,其特征在于,所述正交描述符学习网络中,所述双分支图像特征网络的两个分支分别包含一个卷积模块;
所述基础特征提取网络的输入为所述图像或图像块,输出所述图像或图像块的特征图至所述双分支图像特征网络的两个分支;
两个卷积模块对所述图像或图像块分别进行学习后输出两个特征至所述双分支图像特征融合模块;
所述双分支图像特征融合模块对所述图像或图像块的两个特征进行融合,最终输出所述图像或图像块的特征描述符。
5.根据权利要求4所述的学习方法,其特征在于,所述双分支图像特征网络包含的两个卷积模块的结构相同;
所述卷积模块包括:两个3X3的卷积和一个1X1的卷积;三个卷积后均接有一个批归一化层以及一个激活函数。
6.根据权利要求4所述的学习方法,其特征在于,所述损失函数中的正交约束损失项
Figure QLYQS_1
为式(1)-(3)中的任意一个:
Figure QLYQS_2
(1)
Figure QLYQS_3
(2)
Figure QLYQS_4
(3)
其中,i表示图像对中第i张图像或图像块,
Figure QLYQS_5
表示特征维度,/>
Figure QLYQS_6
和/>
Figure QLYQS_7
分别表示第i张图像或图像块分别经过两个所述卷积模块后输出的特征中的第c个维度。
7.根据权利要求6所述的学习方法,其特征在于,将所述正交约束损失项
Figure QLYQS_8
以设定的权重/>
Figure QLYQS_9
与所述基础特征提取网络本身的损失函数相结合后构成所述带正交约束项的图像特征匹配损失函数。
8.根据权利要求1所述的学习方法,其特征在于,所述步骤3之后还包括:
步骤4,基于所述数据集构建测试集,基于所述测试集将训练完成的所述正交描述符学习网络应用于真实场景上进行测试得到描述性能符;使用评估方法对所述描述性能符进行多种指标评估。
9.根据权利要求8所述的学习方法,其特征在于,所述使用评估方法对所述描述性能符进行多种指标评估包括:使用单应性矩阵估计精度评估在平面场景的下游任务中的表现,每一对图像之间的单应性矩阵评估的正确性由下式定义:
Figure QLYQS_10
(4)
其中,e表示给定的像素阈值,
Figure QLYQS_11
和/>
Figure QLYQS_12
分别是通过算法估计和真值单应性矩阵变换的源图像四个角点。
10.根据权利要求8所述的学习方法,其特征在于,所述使用评估方法对所述描述性能符进行多种指标评估包括:使用相对姿态估计精度评估在非平面场景的下游任务中的表现,基于旋转矩阵与实际旋转矩阵计算角度误差,计算规则为:
Figure QLYQS_13
(5)
其中,
Figure QLYQS_14
表示角度预测值,/>
Figure QLYQS_15
表示角度真实值;
当角度
Figure QLYQS_16
小于给定阈值时则认为估计错误。/>
CN202310117794.9A 2023-02-15 2023-02-15 一种基于正交约束的深度特征描述符学习方法 Active CN115860091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310117794.9A CN115860091B (zh) 2023-02-15 2023-02-15 一种基于正交约束的深度特征描述符学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310117794.9A CN115860091B (zh) 2023-02-15 2023-02-15 一种基于正交约束的深度特征描述符学习方法

Publications (2)

Publication Number Publication Date
CN115860091A true CN115860091A (zh) 2023-03-28
CN115860091B CN115860091B (zh) 2023-04-28

Family

ID=85658109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310117794.9A Active CN115860091B (zh) 2023-02-15 2023-02-15 一种基于正交约束的深度特征描述符学习方法

Country Status (1)

Country Link
CN (1) CN115860091B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129228A (zh) * 2023-04-19 2023-05-16 中国科学技术大学 图像匹配模型的训练方法、图像匹配方法及其装置
CN117253156A (zh) * 2023-11-17 2023-12-19 深圳元戎启行科技有限公司 基于图像分割的特征描述提取方法、装置、终端及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法
US20200104719A1 (en) * 2018-10-02 2020-04-02 InSitu, Inc., a subsidiary of the Boeing Company Change Detection In Digital Images
US20210256290A1 (en) * 2018-06-15 2021-08-19 Nippon Telegraph And Telephone Corporation Image feature learning device, image feature learning method, image feature extraction device, image feature extraction method, and program
CN113361542A (zh) * 2021-06-02 2021-09-07 合肥工业大学 一种基于深度学习的局部特征提取方法
CN113449739A (zh) * 2020-03-26 2021-09-28 阿里巴巴集团控股有限公司 数据处理方法、装置和系统
WO2021191908A1 (en) * 2020-03-25 2021-09-30 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Deep learning-based anomaly detection in images
US20220028110A1 (en) * 2018-11-15 2022-01-27 Magic Leap, Inc. Systems and methods for performing self-improving visual odometry
WO2022166412A1 (zh) * 2021-02-05 2022-08-11 中国科学院深圳先进技术研究院 基于协同分割与数据增强的自监督三维重建方法及系统
CN115439669A (zh) * 2022-08-04 2022-12-06 艾迪恩(山东)科技有限公司 基于深度学习的特征点检测网络及跨分辨率图像匹配方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210256290A1 (en) * 2018-06-15 2021-08-19 Nippon Telegraph And Telephone Corporation Image feature learning device, image feature learning method, image feature extraction device, image feature extraction method, and program
US20200104719A1 (en) * 2018-10-02 2020-04-02 InSitu, Inc., a subsidiary of the Boeing Company Change Detection In Digital Images
US20220028110A1 (en) * 2018-11-15 2022-01-27 Magic Leap, Inc. Systems and methods for performing self-improving visual odometry
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法
WO2021191908A1 (en) * 2020-03-25 2021-09-30 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Deep learning-based anomaly detection in images
CN113449739A (zh) * 2020-03-26 2021-09-28 阿里巴巴集团控股有限公司 数据处理方法、装置和系统
WO2022166412A1 (zh) * 2021-02-05 2022-08-11 中国科学院深圳先进技术研究院 基于协同分割与数据增强的自监督三维重建方法及系统
CN113361542A (zh) * 2021-06-02 2021-09-07 合肥工业大学 一种基于深度学习的局部特征提取方法
CN115439669A (zh) * 2022-08-04 2022-12-06 艾迪恩(山东)科技有限公司 基于深度学习的特征点检测网络及跨分辨率图像匹配方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129228A (zh) * 2023-04-19 2023-05-16 中国科学技术大学 图像匹配模型的训练方法、图像匹配方法及其装置
CN117253156A (zh) * 2023-11-17 2023-12-19 深圳元戎启行科技有限公司 基于图像分割的特征描述提取方法、装置、终端及介质
CN117253156B (zh) * 2023-11-17 2024-03-29 深圳元戎启行科技有限公司 基于图像分割的特征描述提取方法、装置、终端及介质

Also Published As

Publication number Publication date
CN115860091B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
Li et al. Dual-resolution correspondence networks
CN107481279B (zh) 一种单目视频深度图计算方法
CN109685121B (zh) 图像检索模型的训练方法、图像检索方法、计算机设备
Ma et al. Stage-wise salient object detection in 360 omnidirectional image via object-level semantical saliency ranking
CN115860091B (zh) 一种基于正交约束的深度特征描述符学习方法
CN108197618B (zh) 用于生成人脸检测模型的方法和装置
CN111968123B (zh) 一种半监督视频目标分割方法
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及系统
Liao et al. A deep ordinal distortion estimation approach for distortion rectification
US9202138B2 (en) Adjusting a contour by a shape model
CN112365511B (zh) 基于重叠区域检索与对齐的点云分割方法
CN114140623A (zh) 一种图像特征点提取方法及系统
CN110544202A (zh) 一种基于模板匹配与特征聚类的视差图像拼接方法及系统
CN110826411A (zh) 一种基于无人机图像的车辆目标快速识别方法
Liu et al. Content-aware unsupervised deep homography estimation and its extensions
CN114219824A (zh) 基于深度网络的可见光-红外目标跟踪方法及系统
Dong et al. Robust camera translation estimation via rank enforcement
Xue et al. Fisheye distortion rectification from deep straight lines
CN112270748B (zh) 基于图像的三维重建方法及装置
CN109087344B (zh) 三维重建中的图像选择方法及装置
Zhang et al. Exploring spatial correlation for light field saliency detection: Expansion from a single view
CN115984949B (zh) 一种带有注意力机制的低质量人脸图像识别方法及设备
CN112364747A (zh) 一种有限样本下的目标检测方法
CN112084855A (zh) 一种基于改进ransac方法对视频流的外点剔除方法
CN116664867A (zh) 一种基于多证据融合选取训练样本的特征提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: No. 548, 5th Floor, Building 10, No. 28 Linping Avenue, Donghu Street, Linping District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Tuke Intelligent Information Technology Co.,Ltd.

Country or region after: China

Address before: 430000 B033, No. 05, 4th floor, building 2, international enterprise center, No. 1, Guanggu Avenue, Donghu New Technology Development Zone, Wuhan, Hubei (Wuhan area of free trade zone)

Patentee before: Wuhan Tuke Intelligent Technology Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address