CN112396089A - 基于lfgc网络和压缩激励模块的图像匹配方法 - Google Patents

基于lfgc网络和压缩激励模块的图像匹配方法 Download PDF

Info

Publication number
CN112396089A
CN112396089A CN202011125890.0A CN202011125890A CN112396089A CN 112396089 A CN112396089 A CN 112396089A CN 202011125890 A CN202011125890 A CN 202011125890A CN 112396089 A CN112396089 A CN 112396089A
Authority
CN
China
Prior art keywords
feature
channel
matching
image matching
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011125890.0A
Other languages
English (en)
Other versions
CN112396089B (zh
Inventor
陈珺
顾越
罗林波
龚文平
王永涛
宋俊磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202011125890.0A priority Critical patent/CN112396089B/zh
Publication of CN112396089A publication Critical patent/CN112396089A/zh
Application granted granted Critical
Publication of CN112396089B publication Critical patent/CN112396089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于LFGC网络和压缩激励模块的图像匹配方法,获取图像,所述图像中,一部分作为训练集,一部分作为验证集,剩下的一部分作为测试集;将压缩激励模块融入LFGC网络中,构建用于图像匹配的网络模型;利用作为训练集的图像对所述用于图像匹配的网络模型进行训练,获得训练好的用于图像匹配的网络模型;利用所述训练好的用于图像匹配的网络模型对待匹配图像进行匹配,获得待匹配图像的匹配结果。本发明可以使用全局信息来有选择地强调信息丰富的特征,并抑制无用特征,并提高了网络的表征能力。

Description

基于LFGC网络和压缩激励模块的图像匹配方法
技术领域
本发明涉及图像匹配领域,尤其涉及一种基于LFGC网络和压缩激励模块的图像匹配方法。
背景技术
在两组图像点集间建立一组可靠的匹配关系是计算机视觉中的一项基本任务,在目标识别与跟踪(Target recognition and tracking)、医学图像分析(Medical imageanalysis)及遥感图像处理(Remote sensing image processing)等方面的广泛应用使得这一任务受到了研究者们的关注。从现有的研究成果来看,图像匹配通常采用两步法,即先建立初始匹配然后再剔除掉错误匹配(离群点)。建立初始匹配的过程通常是对一些局部特征描述子进行匹配,例如SIFT和LIFT。但是,由于关键点定位错误、局部描述子的局限性和视角变化等问题,初始匹配中通常都会不可避免地出现一些错误匹配。为了解决这个问题,研究者们通常采用离群点剔除方法作为后处理,以确保剔除掉更多错误匹配从而提高最终匹配结果的准确性。另外,离群点剔除算法对于精确的相机相对姿态估计也是必需的,在剔除掉离群点之后可以从内点中恢复出由本质矩阵编码的相机相对姿态。
图像匹配技术有着广泛的应用背景,其涉及的领域包括计算机视觉、医学图像分析以及遥感图像处理等。在计算机视觉领域中,图像匹配技术用于对目标进行三维形状重建、对监控视频进行实时监测以及对实时图像的模板进行匹配;医学图像分析中图像匹配技术的应用包括了对康复治疗及肿瘤变化的监控,以及对病人图像与数字化人体图像进行对比,从而能够为病人提供有效的治疗方案;在遥感图像处理中,土地使用监测、景观规划和航空卫星影像匹配等都使用到了图像匹配技术。另外,该技术还用于融合不同传感器获取的具有不同特征的信息,例如提供最佳空间分辨率的全色图像以及独立于云量和太阳光照的雷达图像等。在诸多领域中的应用无疑说明了图像匹配技术的重要性。从图像匹配技术在以上领域中的应用可以发现,不同领域的人们对匹配技术的要求越来越高。在这种需求下,如何才能使图像匹配算法达到匹配结果准确率高的同时又拥有较好的实时性、鲁棒性和抗干扰性成为了研究人员们首要的追求目标。另外,在实际应用过程中,待匹配的图像点集往往数量庞大且种类复杂多样,想要设计一个统一的通用算法来解决所有的图像匹配问题是非常困难的。因此,对图像匹配技术进行进一步的研究具有重要的意义。
发明内容
为了解决上述问题,本发明提供了一种基于LFGC网络和压缩激励模块的图像匹配方法,包括以下步骤:
S1、获取图像,所述图像中,一部分作为训练集,一部分作为验证集,剩下的一部分作为测试集;
S2、将压缩激励模块融入LFGC网络中,构建用于图像匹配的网络模型;
S3、利用步骤S1中作为训练集的图像对所述用于图像匹配的网络模型进行训练,获得训练好的用于图像匹配的网络模型;
S4、利用所述训练好的用于图像匹配的网络模型对待匹配图像进行匹配,获得待匹配图像的匹配结果。
进一步地,在步骤S2中,所述用于图像匹配的网络模型的输入为一个H×D的张量P,输出为一个H×C的张量O;
所述用于图像匹配的网络模型包含M个SE-CNe模块,且M个残差网络模块从上到下依次连接;
每个SE-CNe模块中均包括:第一感知器、上下文标准化层、批量标准化层与ReLU激活函数、第二感知器和压缩激励模块;
其中,第一感知器用于生成特征图,并将张量P的维度从输入维度H×D转换为特征维度H×C,并将所述特征图输入到上下文标准化层;
上下文标准化层用于根据输入的特征图来获取全局上下文关系,并对所述全局上下文关系进行建模,得到上下标准化后的特征图,并将所述上下标准化后的特征图输入到批量标准化层与ReLU激活函数;
批量标准化层与ReLU激活函数用于对每个神经元的输入进行标准化,得到批量标准化并激活后的特征图,并将所述批量标准化并激活后的特征图输入到第二感知器;
第二感知器用于接收所述批量标准化并激活后的特征图,处理后得到合并上下文信息后的特征图,并将所述合并上下文信息后的特征图分别输入到压缩激励模块中的全局平均池化层和Scale层;其中,所述合并上下文信息后的特征图中包括多个特征通道;
所述合并上下文信息后的特征图输入到压缩激励模块中的全局平均池化层后,对所述合并上下文信息后的特征图进行挤压与激励操作,得到所述合并上下文信息后的特征图中各特征通道的权重,并将所述各特征通道的权重输入到Scale层;
Scale层用于接收所述合并上下文信息后的特征图和所述各特征通道权重,然后将所述合并上下文信息后的特征图与所述各通道权重进行逐通道相乘,得到重新标定后的特征图;
所述重新标定后的特征图与所述第一感知器生成的特征图进行相加后得到的结果即为当前SE-CNe模块的输出;
其中,第1个SE-CNe模块的输入为一个H×D的张量P,第m个SE-CNe模块的输入为:第m-1个SE-CNe模块的输出,m∈[2,M];第M个SE-CNe模块的输出结果,即为用于图像匹配的网络模型的输出结果;
进一步地,步骤S3中,利用步骤S1中作为训练集的图像对所述用于图像匹配的网络模型进行训练,包括以下步骤:
S3-1、采用SIFT算法对步骤S1中作为训练集的图像进行特征点提取,并建立初始匹配集;
S3-2、将步骤S3-1中所述初始匹配集输入到所述用于图像匹配的网络模型,对所述用于图像匹配的网络模型进行训练;
进一步地,所述压缩激励模块包括:全局平均池化层、第一全连接层与ReLU激活函数、第二全连接层与Sigmoid激活函数和Scale层;
其中,全局平均池化层用来生成各特征通道的统计信息,得到描述全局空间信息的通道描述子,并将所述通道描述子输入到第一全连接层与ReLU激活函数;
第一全连接层与ReLU激活函数用来对所述通道描述子进行降维,得到降维后的通道描述子,并将所述降维后的通道描述子输入到第二全连接层与Sigmoid激活函数;
第二全连接层与Sigmoid激活函数用来对所述降维后的通道描述子进行升维,得到各特征通道的权重;
利用所述压缩激励模块来对各特征通道之间的依赖关系进行建模,并获得各特征通道的权重,具体包括:
1)将全局空间信息压缩到通道描述子中,采用全局平均池化来生成各特征通道的统计信息,具体如公式(1):
Figure BDA0002733600030000041
其中,sn表示第n个特征通道的统计信息,un表示第n个合并上下文信息后的特征图,G×R表示空间维度,Fsq()表示挤压操作,n∈[1,N],N表示特征通道的总数,i表示合并上下文信息后的特征图的第i行,j表示合并上下文信息后的特征图的第j列,un(i,j)表示第n个合并上下文信息后的特征图中第i行第j列的元素;
2)采用一个门控机制来捕获各特征通道的权重信息,如公式(2):
e=Fex(s,W)=σ(W2δ(W1s)) (2)
其中,e={e1,...,en,...,eN},en表示第n个特征通道的权重,Fex()表示激励操作,σ()表示Sigmoid激活函数,s={s1,...,sn,...,sN},sn表示第n个特征通道的统计信息,W表示全连接层的参数,W1和W2分别表示第一全连接层和第二全连接层的参数;
该门控机制中包括两个全连接层和一个ReLU激活函数,其中,所述两个全连接层中,一个具有参数W1的降维层和一个具有参数W2的升维层;
3)利用各特征通道的权重对第二感知器的输出进行缩放,来获得压缩激励模块的最终输出,该过程如公式(3):
zn=Fscale(un,en)=en·un (3)
其中,zn表示第n个合并上下文信息后的特征图与第n个特征通道权重相乘后的特征图,Fscale()代表第n个合并上下文信息后的特征图un和第n个特征通道的权重en之间的逐通道乘法,所述第二感知器的输出即为所述合并上下文信息后的特征图;
进一步地,在步骤S4中,任意两张待匹配图像之间的匹配方法如下:
S41、采用SIFT算法提取两张待匹配图像中的特征点,并获取两张待匹配图像的初始匹配集合x=[c1,...,ch,...,cH],其中,ch=[ah,bh,a'h,b'h],ch表示第h组初始匹配对,H表示初始匹配集中匹配对总数,(ah,bh)和(a'h,b'h)分别表示两张图像中对应特征点的坐标;
S42、将步骤S41中的初始匹配集合输入到所述用于图像匹配的网络模型中,剔除步骤S41中所述初始匹配集合中的离群点,得到两张待匹配图像的最终匹配集合,即为两张待匹配图像的匹配结果,如公式(4)和(5):
f=fφ(x) (4)
w=tanh(ReLU(z)) (5)
其中,f是用于分类的逻辑值,fφ(·)表示用于图像匹配的网络模型,φ表示用于图像匹配的网络模型中的参数,tanh()和ReLU()为激活函数,w是赋予的初始匹配的权重,w=[w1...wh...wH],wh的值为0或1,wh=0表示ch是一个离群点,即表示初始匹配对ch是一个错误匹配,wh=1表示ch是一个内点,即表示初始匹配对ch是一个正确匹配,最终的匹配集合即为保留wh=1的所有初始匹配对构成的集合;
进一步地,用于图像匹配的网络模型的优化目标是最小化混合损失函数,该混合损失函数loss的计算公式如公式(6)所示:
Figure BDA0002733600030000051
其中,less的计算公式如(7)所示:
Figure BDA0002733600030000052
Figure BDA0002733600030000053
的计算公式如(8)所示:
Figure BDA0002733600030000054
其中,L是匹配的地真标签,E是地真本质矩阵,
Figure BDA0002733600030000055
是用于图像匹配的网络模型所预测的本质矩阵,lcls是分类项的二元交叉熵损失函数,less是对于本质矩阵的回归损失函数,β是用来平衡两种损失的权重,g(w,x)是一个将初始匹配集合x与权重矩阵w作为输入并得到本质矩阵
Figure BDA0002733600030000056
的函数,||.||2表示范数的平方;
进一步地,M=24。
本发明提供的技术方案带来的有益效果是:可以使用全局信息来有选择地强调信息丰富的特征,并抑制无用特征,并提高了网络的表征能力。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中基于LFGC网络和压缩激励模块的图像匹配方法的流程图;
图2是本发明实施例中用于图像匹配的网络模型的结构示意图;
图3是本发明实施例中压缩激励模块的结构示意图;
图4是本发明实施例中St.Peters数据集中不同阈值下的mAP比较结果;
图5是本发明实施例中Brown数据集中不同阈值下的mAP比较结果;
图6是本发明实施例中Reichstag数据集中不同阈值下的mAP比较结果;
图7是本发明实施例中精确率比较结果;
图8是本发明实施例中召回率比较结果;
图9是本发明实施例中F分数比较结果。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种基于LFGC网络和压缩激励模块的图像匹配方法。
请参考图1,图1是本发明实施例中基于LFGC网络和压缩激励模块的图像匹配方法的流程图,该方法包括以下步骤:
S1、获取图像,所述图像中,一部分作为训练集,一部分作为验证集,剩下的一部分作为测试集;其中,所述图像包括:室外数据集St.Peters和Reichstag以及室内数据集Brown;St.Peters和Brown数据集中分别包含有2506和841个图像对,内点比率分别为6.4%和9.4%,这些图像对中存在有视点变化、遮挡、深度变化、无纹理区域和重复区域等问题,能够有效的测试算法的性能;Reichstag则为图像未知数据集,内点比率为10.7%;本实施例中,将每个数据集中的图像拆分为三组,即60%的图像作为训练集,20%的图像作为验证集,以及20%的图像作为测试集;
S2、将压缩激励模块融入LFGC网络中,构建用于图像匹配的网络模型;
S3、利用步骤S1中作为训练集的图像对所述用于图像匹配的网络模型进行训练,获得训练好的用于图像匹配的网络模型;其中,利用步骤S1中作为验证集和测试集的图像对用于图像匹配的网络模型进行验证;
利用步骤S1中作为训练集的图像对所述用于图像匹配的网络模型进行训练,包括以下步骤:
S3-1、采用SIFT算法对步骤S1中作为训练集的图像进行特征点提取,并建立初始匹配集;
S3-2、将步骤S3-1中所述初始匹配集输入到所述用于图像匹配的网络模型,对所述用于图像匹配的网络模型进行训练;
S4、利用所述训练好的用于图像匹配的网络模型对待匹配图像进行匹配,获得待匹配图像的匹配结果;
任意两张待匹配图像之间的匹配方法如下:
S41、采用SIFT算法提取两张待匹配图像中的特征点,并获取两张待匹配图像的初始匹配集合x=[c1,...,ch,...,cH],其中,ch=[ah,bh,a'h,b'h],ch表示第h组初始匹配对,H表示初始匹配集中匹配对总数,(ah,bh)和(a'h,b'h)分别表示两张图像中对应特征点的坐标;
S42、将步骤S41中的初始匹配集合输入到所述用于图像匹配的网络模型中,剔除步骤S41中所述初始匹配集合中的离群点,得到两张待匹配图像的最终匹配集合,即为两张待匹配图像的匹配结果,如公式(1)和(2):
f=fφ(x) (1)
w=tanh(ReLU(z)) (2)
其中,f是用于分类的逻辑值,fφ(·)表示用于图像匹配的网络模型,φ表示用于图像匹配的网络模型中的参数,tanh()和ReLU()为激活函数,w是赋予的初始匹配的权重,w=[w1...wh...wH],wh的值为0或1,wh=0表示ch是一个离群点,即表示初始匹配对ch是一个错误匹配,wh=1表示ch是一个内点,即表示初始匹配对ch是一个正确匹配,最终的匹配集合即为保留wh=1的所有初始匹配对构成的集合。
请参考图2,图2是本发明实施例中用于图像匹配的网络模型的结构示意图;如图所示,所述用于图像匹配的网络模型的输入为一个H×D的张量P,输出为一个H×C的张量O;其中,H表示初始匹配对的总数,D表示初始匹配集合的维度,C表示所述用于图像匹配的网络模型输出的特征图的特征维度;
所述用于图像匹配的网络模型包含M个SE-CNe模块,且M个SE-CNe模块从上到下依次连接,M=24;
每个SE-CNe模块中均包括:第一感知器
Figure BDA0002733600030000081
上下文标准化层(ContextNorm)、批量标准化层(BatchNorm)与ReLU激活函数、第二感知器
Figure BDA0002733600030000082
和压缩激励模块;
其中,第一感知器用于生成特征图,并将张量P的维度从输入维度H×D转换为特征维度H×C,并将所述特征图输入到上下文标准化层;
上下文标准化层用于根据输入的特征图来获取全局上下文关系,并对所述全局上下文关系进行建模,得到上下标准化后的特征图,并将所述上下标准化后的特征图输入到批量标准化层与ReLU激活函数;
批量标准化层与ReLU激活函数用于对每个神经元的输入进行标准化,得到批量标准化并激活后的特征图,并将所述批量标准化并激活后的特征图输入到第二感知器;
第二感知器用于接收所述批量标准化并激活后的特征图,处理后得到合并上下文信息后的特征图,并将所述合并上下文信息后的特征图分别输入到压缩激励模块中的全局平均池化层和Scale层;其中,所述合并上下文信息后的特征图中包括多个特征通道;
所述合并上下文信息后的特征图输入到压缩激励模块中的全局平均池化层后,对所述合并上下文信息后的特征图进行挤压与激励操作,得到所述合并上下文信息后的特征图中各特征通道的权重,并将所述各特征通道的权重输入到Scale层;
Scale层用于接收所述合并上下文信息后的特征图和所述各特征通道权重,然后将所述合并上下文信息后的特征图与所述各通道权重进行逐通道相乘,得到重新标定后的特征图;
所述重新标定后的特征图与所述第一感知器生成的特征图进行相加后得到的结果即为当前SE-CNe模块的输出;
其中,第1个SE-CNe模块的输入为一个H×D的张量P,第m个SE-CNe模块的输入为:第m-1个SE-CNe模块的输出,m∈[2,M];第M个SE-CNe模块的输出结果,即为用于图像匹配的网络模型的输出结果。
用于图像匹配的网络模型的优化目标是最小化混合损失函数,该混合损失函数loss定义如下:
Figure BDA0002733600030000091
其中,less的计算公式如(4):
Figure BDA0002733600030000092
Figure BDA0002733600030000093
的计算公式如(5):
Figure BDA0002733600030000094
其中,L是匹配的地真标签,E是地真本质矩阵,
Figure BDA0002733600030000095
是用于图像匹配的网络模型所预测的本质矩阵,lcls是分类项的二元交叉熵损失函数,less是对于本质矩阵的回归损失函数,β是用来平衡两种损失的权重,g(w,x)是一个将初始匹配集合x与权重矩阵w作为输入并得到本质矩阵
Figure BDA0002733600030000096
的函数,||.||2表示范数的平方。
请参考图3,图3是本发明实施例中压缩激励模块的结构示意图;所述压缩激励模块包括:全局平均池化层(Global pooling),第一全连接层(FC)与ReLU激活函数、第二全连接层(FC)与Sigmoid激活函数和Scale层;
其中,全局平均池化层用来生成各通道的统计信息,得到描述全局空间信息的通道描述子,并将所述通道描述子输入到第一全连接层与ReLU激活函数;
第一全连接层与ReLU激活函数用来对所述通道描述子进行降维,得到降维后的通道描述子,并将所述降维后的通道描述子输入到第二全连接层与Sigmoid激活函数;
第二全连接层与Sigmoid激活函数用来对所述降维后的通道描述子进行升维,得到各特征通道的权重;
利用所述压缩激励模块来对各特征通道之间的依赖关系进行建模,并获得各特征通道的权重,具体包括:
1)将全局空间信息压缩到通道描述子中,采用全局平均池化来生成各特征通道的统计信息,具体如公式(6):
Figure BDA0002733600030000101
其中,sn表示第n个特征通道的统计信息,un表示第n个合并上下文信息后的特征图,G×R表示空间维度,Fsq()表示挤压操作,n∈[1,N],N表示通道的总数,i表示合并上下文信息后的特征图的第i行,j表示合并上下文信息后的特征图的第j列,un(i,j)表示第n个合并上下文信息后的特征图中第i行第j列的元素;
2)采用一个门控机制来捕获各特征通道的权重信息,如公式(7):
e=Fex(s,W)=σ(W2δ(W1s)) (7)
其中,e={e1,...,en,...,eN},en表示第n个特征通道的权重,Fex()表示激励操作,σ()表示Sigmoid激活函数,s={s1,...,sn,...,sN},sn表示第n个特征通道的统计信息,W表示全连接层的参数,W1和W2分别表示第一全连接层和第二全连接层的参数;
该门控机制中包括两个全连接层和一个ReLU激活函数,其中,所述两个全连接层中,一个具有参数W1的降维层和一个具有参数W2的升维层;
3)利用各特征通道的权重对第二感知器的输出进行缩放,来获得压缩激励模块的最终输出,该过程如公式(8):
zn=Fscale(un,en)=en·un (8)
其中,zn表示第n个合并上下文信息后的特征图与第n个特征通道权重相乘后的特征图,Fscale()代表第n个合并上下文信息后的特征图un和第n个特征通道的权重en之间的逐通道乘法,所述第二感知器的输出即为所述合并上下文信息后的特征图。
本实施例中,为验证所提方法的优越性,从以下几个方面对所提方法进行评价:
(1)相机的相对姿态
将初始匹配标记为内点或离群点,从内点中恢复出本质矩阵
Figure BDA0002733600030000112
采用八点法估计出相机的相对姿态,相机的相对姿态由旋转和平移矢量表示以进行评估。
首先计算估计的向量和地真向量之间的误差,然后根据这些误差的直方图生成平均精确度的均值(mAP)。
相机姿态估计实验结果如表1所示,其中输入的初始匹配是用SIFT描述子进行最近邻匹配的结果,St.Peters/Reichstag则表示采用St.Peters数据集作为训练集并采用Reichstag数据集作为测试集。从表1中我们可以看到,我们的方法在St.Peters,Brown和Reichstag这三个数据集上都取得了最好的效果。
表1在图像数据集上的相机姿态估计实验比较结果
Figure BDA0002733600030000111
(2)在三个基本数据集上的效果
将所提方法在三个基本数据集上的效果与其他方法进行比较,并采用不同的前处理和后处理方法。在实验过程中加入了RANSAC后处理,以进一步提高性能。
将每个数据集中的图像拆分为三组,即60%的训练集,20%的验证集,以及20%的测试集。
为了研究传统手动提取的特征与最近提出的基于深度学习的特征之间的差异,使用SIFT和LIFT来提取特征,然后分别用这两种特征点在三个基本数据集上建立初始匹配。
图4-图6给出了三种数据集中在不同阈值下的mAP比较结果,从实验结果中可以看到:
1)基于学习的LIFT始终要比手动特征SIFT效果更好;
2)与LFGC相比,所提方法在室外数据集St.Peters上获得的实验结果有较大的提升,而在室外数据集Reichstag和室内数据集Brown上,利用所提方法获得的实验结果提高了大约五个百分点。
(3)精确率、召回率和F分数
本实施例中还计算了LFGC和所提方法的精确率(Precision)、召回率(Recall)和F分数(F-score),其中,精确率定义为保留的内点数量与初始特征点总数的比值,召回率定义为保留的内点数量与初始内点数量的比值,F分数的定义如下所示:
Figure BDA0002733600030000121
如图7-图9所示,在三个基本数据集上,所提方法的精确率相比于LFGC提高了约有5到7个百分点,召回率有所下降,F-score则提升了4到6个百分点,总体而言,所提方法性能指标相比于LFGC有了一定的提升。
本发明的有益效果是:可以使用全局信息来有选择地强调信息丰富的特征,并抑制无用特征,并提高了网络的表征能力。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.基于LFGC网络和压缩激励模块的图像匹配方法,其特征在于:包括以下步骤:
S1、获取图像,所述图像中,一部分作为训练集,一部分作为验证集,剩下的一部分作为测试集;
S2、将压缩激励模块融入LFGC网络中,构建用于图像匹配的网络模型;
S3、利用步骤S1中作为训练集的图像对所述用于图像匹配的网络模型进行训练,获得训练好的用于图像匹配的网络模型;
S4、利用所述训练好的用于图像匹配的网络模型对待匹配图像进行匹配,获得待匹配图像的匹配结果。
2.如权利要求1所述的基于LFGC网络和压缩激励模块的图像匹配方法,其特征在于:在步骤S2中,所述用于图像匹配的网络模型的输入为一个H×D的张量P,输出为一个H×C的张量O;
所述用于图像匹配的网络模型包含M个SE-CNe模块,且M个SE-CNe模块从上到下依次连接;
每个SE-CNe模块中均包括:第一感知器、上下文标准化层、批量标准化层与ReLU激活函数、第二感知器和压缩激励模块;
其中,第一感知器用于生成特征图,并将张量P的维度从输入维度H×D转换为特征维度H×C,并将所述特征图输入到上下文标准化层;
上下文标准化层用于根据输入的特征图来获取全局上下文关系,并对所述全局上下文关系进行建模,得到上下标准化后的特征图,并将所述上下标准化后的特征图输入到批量标准化层与ReLU激活函数;
批量标准化层与ReLU激活函数用于对每个神经元的输入进行标准化,得到批量标准化并激活后的特征图,并将所述批量标准化并激活后的特征图输入到第二感知器;
第二感知器用于接收所述批量标准化并激活后的特征图,处理后得到合并上下文信息后的特征图,并将所述合并上下文信息后的特征图分别输入到压缩激励模块中的全局平均池化层和Scale层;其中,所述合并上下文信息后的特征图中包括多个特征通道;
所述合并上下文信息后的特征图输入到压缩激励模块中的全局平均池化层后,对所述合并上下文信息后的特征图进行挤压与激励操作,得到所述合并上下文信息后的特征图中各特征通道的权重,并将所述各特征通道的权重输入到Scale层;
Scale层用于接收所述合并上下文信息后的特征图和所述各特征通道权重,然后将所述合并上下文信息后的特征图与所述各通道权重进行逐通道相乘,得到重新标定后的特征图;
所述重新标定后的特征图与所述第一感知器生成的特征图进行相加后得到的结果即为当前SE-CNe模块的输出;
其中,第1个SE-CNe模块的输入为一个H×D的张量P,第m个SE-CNe模块的输入为:第m-1个SE-CNe模块的输出,m∈[2,M];第M个SE-CNe模块的输出结果,即为用于图像匹配的网络模型的输出结果。
3.如权利要求1所述的基于LFGC网络和压缩激励模块的图像匹配方法,其特征在于:步骤S3中,利用步骤S1中作为训练集的图像对所述用于图像匹配的网络模型进行训练,包括以下步骤:
S3-1、采用SIFT算法对步骤S1中作为训练集的图像进行特征点提取,并建立初始匹配集;
S3-2、将步骤S3-1中所述初始匹配集输入到所述用于图像匹配的网络模型,对所述用于图像匹配的网络模型进行训练。
4.如权利要求2所述的基于LFGC网络和压缩激励模块的图像匹配方法,其特征在于:所述压缩激励模块包括全局平均池化层、第一全连接层与ReLU激活函数、第二全连接层与Sigmoid激活函数和Scale层;
其中,全局平均池化层用来生成各特征通道的统计信息,得到描述全局空间信息的通道描述子,并将所述通道描述子输入到第一全连接层与ReLU激活函数;
第一全连接层与ReLU激活函数用来对所述通道描述子进行降维,得到降维后的通道描述子,并将所述降维后的通道描述子输入到第二全连接层与Sigmoid激活函数;
第二全连接层与Sigmoid激活函数用来对所述降维后的通道描述子进行升维,得到各特征通道的权重;
利用所述压缩激励模块来对各特征通道之间的依赖关系进行建模,并获得各特征通道的权重,具体包括:
1)将全局空间信息压缩到通道描述子中,采用全局平均池化来生成各特征通道的统计信息,具体如公式(1):
Figure FDA0002733600020000031
其中,sn表示第n个特征通道的统计信息,un表示第n个合并上下文信息后的特征图,G×R表示空间维度,Fsq()表示挤压操作,n∈[1,N],N表示特征通道的总数,i表示合并上下文信息后的特征图的第i行,j表示合并上下文信息后的特征图的第j列,un(i,j)表示第n个合并上下文信息后的特征图中第i行第j列的元素;
2)采用一个门控机制来捕获各特征通道的权重信息,如公式(2):
e=Fex(s,W)=σ(W2δ(W1s)) (2)
其中,e={e1,...,en,...,eN},en表示第n个特征通道的权重,Fex()表示激励操作,σ()表示Sigmoid激活函数,s={s1,...,sn,...,sN},sn表示第n个特征通道的统计信息,W表示全连接层的参数,W1和W2分别表示第一全连接层和第二全连接层的参数;
该门控机制中包括两个全连接层和一个ReLU激活函数,其中,所述两个全连接层中,一个具有参数W1的降维层和一个具有参数W2的升维层;
3)利用各特征通道的权重对第二感知器的输出进行缩放,来获得压缩激励模块的最终输出,该过程如公式(3):
zn=Fscale(un,en)=en·un (3)
其中,zn表示第n个合并上下文信息后的特征图与第n个特征通道权重相乘后的特征图,Fscale()代表第n个合并上下文信息后的特征图un和第n个特征通道的权重en之间的逐通道乘法,所述第二感知器的输出即为所述合并上下文信息后的特征图。
5.如权利要求1所述的基于LFGC网络和压缩激励模块的图像匹配方法,其特征在于:在步骤S4中,任意两张待匹配图像之间的匹配方法如下:
S41、采用SIFT算法提取两张待匹配图像中的特征点,并获取两张待匹配图像的初始匹配集合x=[c1,...,ch,...,cH],其中,ch=[ah,bh,a'h,b'h],ch表示第h组初始匹配对,H表示初始匹配集中匹配对总数,(ah,bh)和(a'h,b'h)分别表示两张图像中对应特征点的坐标;
S42、将步骤S41中的初始匹配集合输入到所述用于图像匹配的网络模型中,剔除步骤S41中所述初始匹配集合中的离群点,得到两张待匹配图像的最终匹配集合,即为两张待匹配图像的匹配结果,如公式(4)和(5):
f=fφ(x) (4)
w=tanh(ReLU(z)) (5)
其中,f是用于分类的逻辑值,fφ(·)表示用于图像匹配的网络模型,φ表示用于图像匹配的网络模型中的参数,tanh()和ReLU()为激活函数,w是赋予的初始匹配的权重,w=[w1...wh...wH],wh的值为0或1,wh=0表示ch是一个离群点,即表示初始匹配对ch是一个错误匹配,wh=1表示ch是一个内点,即表示初始匹配对ch是一个正确匹配,最终的匹配集合即为保留wh=1的所有初始匹配对构成的集合。
6.如权利要求5所述的基于LFGC网络和压缩激励模块的图像匹配方法,其特征在于:用于图像匹配的网络模型的优化目标是最小化混合损失函数,该混合损失函数loss的计算公式如公式(6)所示:
Figure FDA0002733600020000041
其中,less的计算公式如(7)所示:
Figure FDA0002733600020000042
Figure FDA0002733600020000043
的计算公式如(8)所示:
Figure FDA0002733600020000044
其中,L是匹配的地真标签,E是地真本质矩阵,
Figure FDA0002733600020000045
是用于图像匹配的网络模型所预测的本质矩阵,lcls是分类项的二元交叉熵损失函数,less是对于本质矩阵的回归损失函数,β是用来平衡两种损失的权重,g(w,x)是一个将初始匹配集合x与权重矩阵w作为输入并得到本质矩阵
Figure FDA0002733600020000051
的函数,||.||2表示范数的平方。
7.如权利要求2所述的基于LFGC网络和压缩激励模块的图像匹配方法,其特征在于:M=24。
CN202011125890.0A 2020-10-20 2020-10-20 基于lfgc网络和压缩激励模块的图像匹配方法 Active CN112396089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011125890.0A CN112396089B (zh) 2020-10-20 2020-10-20 基于lfgc网络和压缩激励模块的图像匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011125890.0A CN112396089B (zh) 2020-10-20 2020-10-20 基于lfgc网络和压缩激励模块的图像匹配方法

Publications (2)

Publication Number Publication Date
CN112396089A true CN112396089A (zh) 2021-02-23
CN112396089B CN112396089B (zh) 2023-04-07

Family

ID=74596922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011125890.0A Active CN112396089B (zh) 2020-10-20 2020-10-20 基于lfgc网络和压缩激励模块的图像匹配方法

Country Status (1)

Country Link
CN (1) CN112396089B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313180A (zh) * 2021-06-04 2021-08-27 太原理工大学 一种基于深度对抗学习的遥感图像语义分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522855A (zh) * 2018-11-23 2019-03-26 广州广电银通金融电子科技有限公司 结合ResNet和SENet的低分辨率行人检测方法、系统及存储介质
US20200104687A1 (en) * 2018-09-27 2020-04-02 Google Llc Hybrid neural architecture search
CN111582363A (zh) * 2020-05-06 2020-08-25 西安电子科技大学 一种基于多视点深度特征融合SENet网络的分类方法
US10755413B1 (en) * 2020-02-24 2020-08-25 Qure.Ai Technologies Private Limited Method and system for medical imaging evaluation
CN111652038A (zh) * 2020-04-13 2020-09-11 上海海洋大学 基于卷积神经网络的遥感的海冰图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200104687A1 (en) * 2018-09-27 2020-04-02 Google Llc Hybrid neural architecture search
CN109522855A (zh) * 2018-11-23 2019-03-26 广州广电银通金融电子科技有限公司 结合ResNet和SENet的低分辨率行人检测方法、系统及存储介质
US10755413B1 (en) * 2020-02-24 2020-08-25 Qure.Ai Technologies Private Limited Method and system for medical imaging evaluation
CN111652038A (zh) * 2020-04-13 2020-09-11 上海海洋大学 基于卷积神经网络的遥感的海冰图像分类方法
CN111582363A (zh) * 2020-05-06 2020-08-25 西安电子科技大学 一种基于多视点深度特征融合SENet网络的分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHEN Z等: "《Gla-net: An attention network with guided loss for mismatch removal》", 《COMPUTER SCIENCE》 *
HU J等: "《 Squeeze-and-excitation networks》", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
YI K M等: "《Learning to Find Good Correspondences》", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
宋建锋等: "《压缩激励机制驱动的尿液细胞图像分类算法》", 《西安电子科技大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313180A (zh) * 2021-06-04 2021-08-27 太原理工大学 一种基于深度对抗学习的遥感图像语义分割方法

Also Published As

Publication number Publication date
CN112396089B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Zhou et al. Robust matching for SAR and optical images using multiscale convolutional gradient features
CN108510532B (zh) 基于深度卷积gan的光学和sar图像配准方法
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
CN107122809B (zh) 基于图像自编码的神经网络特征学习方法
CN109977757B (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及系统
CN113516693B (zh) 一种快速通用的图像配准方法
CN105426872B (zh) 一种基于相关高斯过程回归的面部年龄估计方法
CN104077742B (zh) 基于Gabor特征的人脸素描合成方法及系统
CN111967537B (zh) 一种基于双路胶囊网络的sar目标分类方法
CN112836671A (zh) 一种基于最大化比率和线性判别分析的数据降维方法
CN114283495A (zh) 一种基于二值化神经网络的人体姿态估计方法
CN112949740A (zh) 一种基于多级度量的小样本图像分类方法
CN111598995B (zh) 一种基于原型分析的自监督多目三维人体姿态估计方法
CN114398972A (zh) 一种基于联合表示注意力机制的深度学习图像匹配方法
CN112801945A (zh) 基于双重注意力机制特征提取的深度高斯混合模型颅骨配准方法
CN115063717A (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
CN107808391A (zh) 一种基于特征选择与光滑表示聚类的视频动态目标提取方法
CN112396089B (zh) 基于lfgc网络和压缩激励模块的图像匹配方法
CN106971176A (zh) 基于稀疏表示的红外人体目标跟踪方法
CN111597367A (zh) 基于视图和哈希算法的三维模型检索方法
CN111126123A (zh) 一种基于压缩的增量核零空间变换行人再识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant