CN112288011B - 一种基于自注意力深度神经网络的图像匹配方法 - Google Patents

一种基于自注意力深度神经网络的图像匹配方法 Download PDF

Info

Publication number
CN112288011B
CN112288011B CN202011187322.3A CN202011187322A CN112288011B CN 112288011 B CN112288011 B CN 112288011B CN 202011187322 A CN202011187322 A CN 202011187322A CN 112288011 B CN112288011 B CN 112288011B
Authority
CN
China
Prior art keywords
feature
attention
information
matrix
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011187322.3A
Other languages
English (en)
Other versions
CN112288011A (zh
Inventor
肖国宝
陈顺兴
钟振
陈煜楷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Dingxiang Software Co ltd
Original Assignee
Minjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minjiang University filed Critical Minjiang University
Priority to CN202011187322.3A priority Critical patent/CN112288011B/zh
Publication of CN112288011A publication Critical patent/CN112288011A/zh
Application granted granted Critical
Publication of CN112288011B publication Critical patent/CN112288011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于自注意力深度神经网络的图像匹配方法,步骤包括:首先构建数据集并对数据集中的数据进行特征增强;对于输入的特征,首先利用PointCN模块提取初始全局特征,再经过可微分池化层进行下采样,再传入顺序意识网络更好地学习全局信息,之后传入可微分不池化层进行上采样得到更好的全局信息;将经过PointCN模块提取的初始全局特征传入我们的自注意力层进行操作,可以得到加强后的特征信息。然后得到的更好的全局信息进行拼接处理,再经过PointCN模块得到初步预测结果;对初步预测结果通过加权8点算法进行计算,得到本质矩阵。本网络可以代替RANSAC去对SIFT一类算法提取的匹配点做后处理,来提高匹配精度。

Description

一种基于自注意力深度神经网络的图像匹配方法
技术领域
本发明涉及计算机视觉技术领域,特别是一种基于自注意力深度神经网络的图像匹配方法。
背景技术
图像匹配是计算机视觉一项重要的研究领域。它被广泛应用在很多领域的预处理中,比如,目标识别、目标跟踪、超分辨率影像重建、视觉导航、图像拼接、三维重建、视觉定位、场景深度计算等等。它主要由两部分构成,分别是构建初始匹配对和移除错误匹配。
目前在现有的图像匹配的方法中,我们可以将它们分为参数方法、非参数方法和基于学习方法。基于参数方法是解决匹配问题的流行策略,比如RANSAC及其变体:PROSAC和USAC。具体来说,它首先对数据集进行随机最小子集采样,生成单应性矩阵或基本矩阵,然后验证矩阵(它是否是最小的可能的离群值子集)并持续迭代第一步和第二步。但是,这些方法有两个基本的缺点:1)当外点率占总匹配的比率较低时,它们(基于参数的方法)不能有效地工作;2)它们无法表达复杂模型非参数方法去挖掘本地信息以进行特征对的对应选择。假设在视角变化或非刚性变形下,同一场景或物体的图像对的特征点之间的空间邻域关系的相似性。基于这一事实,研究人员使用空间邻居关系来剔除错误匹配。研究人员使用超像素来获取特征匹配问题的特征外观并基于图论建立图的邻接矩阵。节点表示潜在的对应关系,邻接边上的权重表示潜在匹配之间的成对的关系的相关性。这些方法涉及匹配之间的兼容性信息,但是他们没有从兼容的通信中挖掘本地信息,以至于在无法更好地提升网络的精确度。
基于深度学习的方法在各种计算机视觉任务中都取得了巨大的成功,这也是大部分研究者主流的方向。因此许多研究人员试图采用基于学习的方法来解决图像匹配任务,它们可以大致分为两类:使用深度学习架构,例如类似Point-Net的架构,从相同或相似场景的图像对构造稀疏点对应关系。尽管已证明基于学习的方法优于参数方法和非参数方法,但在生成的假定匹配对中Choy等人的网络模型仍然存在大量错误匹配对,这也说明深度学习在未来处理图像匹配有很大的提升空间。MooYi等人的网络模型使用上下文标准化去捕获全局上下文信息,并将上下文信息嵌入到节点中,但是由于上下文标准化很容易受到其他匹配对的影响,鲁棒性不高。基于深度学习的方法虽然已经能够在各种数据集上取得不错的效果,但网络层中的局部特征点对应的空间信息时常被忽略,运用好局部关系和全局关系会有效提升模型匹配精度,因此如何利用好全局上下文和局部上下文的关系是一项重要且富有挑战的工作。
为有效应对匹配过程中存在的这些难点,提出了一种基于自注意力的图像匹配网络。对给定两张图像之间的特征点的对应关系,现有的基于深度学习的方法将特征匹配问题表述为二分类问题。在这些方法中,运用注意力机制在网络性能中起着重要作用。注意力机制最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力机制的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。
发明内容
有鉴于此,本发明的目的是提供一种基于自注意力深度神经网络的图像匹配方法,通过引入自注意力机制对特征点对的全局信息进行权重分配,重要的信息权重得到加强,而错误的信息权重变小,使得特征点对的匹配过程更有效,因此能够提高匹配精度。
本发明采用以下方案实现:一种基于自注意力深度神经网络的图像匹配方法,包括以下步骤:
步骤S1:提供一组图像对(L,L')进行数据集处理,分别提取图像L,L'的特征点集并生成4维数据;
步骤S2:特征增强:使用一个卷积核大小为1×1的卷积层,将步骤S1处理后的4维数据映射为一个128维的特征向量,即C(1×N×4)→C(1×N×128),用以减少网络特征学习带来的信息损失;其中,N代表一张图片提取的特征点个数;对于网络学习,首先使用PointCN模块对增强后的特征向量C(1×N×128)进行特征提取,得到初始全局特征;然后运用可微分池化层进行下采样将N个点聚类成M个类以获取局部特征;引入顺序意识过滤模块在特征的空间域进行处理经过顺序意识过滤模块,特征对的空间对应关系会变成无序,需要再经过可微分不池化层进行上采样得到有序的全局特征信息;
步骤S3:将步骤S2中经过PointCN模块提取的初始全局特征传入自注意力层进行操作,得到加强后特征信息;然后与步骤S2得到的有序的全局特征信息进行拼接处理,再经过一次PointCN模块得到初步预测结果;通过学习一个矩阵E即回归本质矩阵,去获得一个概率;这个概率作为特征点对的权重,去做后续的运算即进行本质矩阵估计;对于自注意力层操作,使用Attention机制得到β矩阵,β矩阵再与经过权重分配处理后的h(xi),使用点积操作得到oi,再进行yi=γoi+xi操作得到加强后特征信息yi,再与经过步骤S2得到的有序的全局特征信息进行拼接处理,公式如下:
out=cat[yi,x′i],
其中xi表示第i个特征向量θh(xi)表示权重分配后新的特征向量,其中,yi表示加强后特征信息yi∈RC×C,把它拼接到经过特征全局和局部信息处理后的特征向量;oi表示第i个注意力层输出的结果,γ初始化为0,γ是一个可学习的标量;其中out为拼接后的特征向量,xi'表示经过步骤S2得到的有序的全局特征信息,yi表示加强后特征信息,cat表示将它们在通道维度进行拼接;最后将out经过PointCN模块得到特征点对的概率表示,设定一个阈值对所得到的每一个匹配点对进行判断,如果大于这个阈值则判定为正确匹配对,否则为错误匹配对,以此去得到正确的匹配对;
步骤S4:在测试阶段,利用SAGN网络即自注意力网络,将步骤S2中传入的初始全局信息进行处理,得到加强后的特征点对信息,并且使用二分类损失函数和E矩阵损失函数进行求和操作,作为网络总体的损失函数去指导网络训练;即
Figure GDA0003557549880000041
z是用于分类的logit值;其中lcls(·,·)是二分类loss损失函数,用于分类任务,less(·,·)表示E矩阵loss是几何loss损失函数,α是一个权重用来平衡二分类损失函数lcls和E矩阵损失函数less;E是ground truth本质矩阵;在整个网络的训练中,总体的损失函数指导网络的学习,不断更新对匹配对的预测概率,通过与特定阈值比较大小,最终输出网络预测特征点对是否为正确匹配的结果。
进一步地,所述步骤S1的具体内容为:
提供一组图像对(L,L'),使用SIFT检测子分别从每个图像中提取特征点kpi,kp′i,则图像L的信息提取的特征点集为KP={kpi}i∈N;从图像L'获得特征点集KP'={kp'i}i∈N;基于特征点的描述子生成两个图片之间的初始的匹配,每个对应关系(kpi,kp′i)能生成4维数据:
C=[c1;c2;...;cn]∈RN*4,ci=(xi 1,yi 1,xi 2,yi 2)
C表示图像对的匹配对组即输入数据,ci表示匹配对,(xi 1,y1 i),(xi 2,y2 i)分别表示匹配对中两个特征点的坐标。
进一步地,步骤S3中所述回归本质矩阵计算公式如下:
Figure GDA0003557549880000051
w=tanh(ReLU(z))
Figure GDA0003557549880000052
其中,z是用于分类的logit值,
Figure GDA0003557549880000053
代表一个permutation-equivariant神经网络,
Figure GDA0003557549880000054
表示网络的参数,g(,)表示八点算法,w是特征点对的权重,C表示特征点对。
进一步地,步骤S3中所述,将经过PointCN模块提取的初始的全局特征传入自注意力层进行操作;首先将传入的初始全局特征进行卷积,由于特征向量经过卷积维度不同,将它们进行矩阵相乘,再经过softmax归一化得到一个Attention Map即β矩阵(注意力映射,);上述过程中β矩阵计算公式如下:
Figure GDA0003557549880000055
sij=f(xi)Tg(xj),f(x)=Wfx,g(x)=Wgx
其中f(x),g(x)分别表示经过卷积不同维度的特征向量,βj,i表示在合成第j个区域时模型到达第i个位置的程度,f(xi)表示经过卷积不同维度的第i个特征向量,g(xj)表示经过卷积的不同维度的第j个特征向量,将f(x)的输出转置,并和g(x)的输出相乘,在经过softmax归一化得到一个Attention Map,公式中Wg∈RC×C,Wf∈RC×C,是两个可学习的权重矩阵;
对于β矩阵,每一行长度为N的向量代表了一种Attention的方式,分别对应各自的特征点对,输出的attention layer是O=(o1,o2,o3,...,oj,...,oN)∈RC×N计算公式如下所示:
Figure GDA0003557549880000061
h(xi)=Whxi
其中O代表每个特征的attention表示;在上述公式中,Wh∈RC×C是可学习的权重矩阵;
将这N种Attention的的方式应用到h(xi)上,即每一个特征点对都与整个FeatureMap相关,相关性来自于β矩阵,得到N个新的特征点对的Attention值作为输出计作O,则最终输出为:
yi=γoi+xi
其中,yi表示加强后特征信息yi∈RC×C,把它拼接到经过特征全局和局部信息处理后的特征向量,oi表示第i个注意力层输出的结果,γ初始化为0,γ是一个可学习的标量,然后逐渐的给non-local分配更多的权重;这样做的原因是因为:一开始学习一些简单的任务,然后再不断地增加复杂的任务;通过以上计算能够得到特征加强后的全局上下文信息。
进一步地,步骤S4实现过程中二分类损失函数lcls如以下公式所示:
Figure GDA0003557549880000062
其中,yi表示label,y'i表示预测值,i表示特征点对序号,n表示特征点的数量;
E矩阵损失函数less,如公式所示:
Figure GDA0003557549880000071
其中p1和p2是一组特征点对,T[i]表示表示第i个元素的向量。
与现有技术相比,本发明具有以下增益效果:
本发明提出了自注意力块,该块结合了全局上下文信息和局部上下文信息,通过终于输出的Feature Maps对每个特征向量进行相似度权重计算即通过β矩阵计算得到权重分配,巧妙利用了全局和局部信息的优点。因此,本发明最终能提高匹配精度。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例的神经网络构架图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于自注意力深度神经网络的图像匹配方法,
首先对原始数据进行数据集处理,其次对处理后的数据进行特征增强,然后对增强后的特征进行提取特征,最后在测试阶段输出特征点对是否为正确匹配的结果。
包括以下步骤:
步骤S1:准备数据:首先构建数据集并对数据集中的数据进行特征增强。提供一组图像对(L,L')进行数据集处理,分别提取图像L,L'的特征点集并生成4维数据;
步骤S2:特征增强:使用一个卷积核大小为1×1的卷积层,将步骤S1处理后的4维数据映射为一个128维的特征向量,即C(1×N×4)→C(1×N×128),这样可以减少网络特征学习带来的信息损失。其中,N代表一张图片提取的特征点个数。
对于网络学习,首先使用PointCN模块对增强后的特征向量C(1×N×128)进行特征提取,得到初始全局特征。然后我们运用可微分池化层进行下采样将N个点聚类成M个类以获取局部特征。由于经过可微分池化层后,匹配点特征被聚类且空间有序,直接用PointCN模块来处理,并不能很好利用空间顺序信息,因为它忽略了点之间的关系,并不能很好去完成全局上下文的提取。我们引入顺序意识过滤模块,在特征的空间域进行处理。同时PointCN模块是在通道进行处理,二者刚好形成互补,从而更好地抓取全局上下文的信息;因此我们引入顺序意识过滤模块在特征的空间域进行处理去更好学习全局信息。由于经过顺序意识过滤模块,特征对的空间对应关系会变成无序,需要再经过可微分不池化层进行上采样得到有序的全局特征信息。
步骤S3:将步骤S2中经过PointCN模块提取的初始全局特征传入我们的自注意力层进行操作,可以得到加强后特征信息。然后与步骤S2得到的有序的全局特征信息进行拼接处理,再经过一次PointCN模块得到初步预测结果。值得注意的是,PointCN模块是在特征对的通道进行处理,可以更好地抓取全局上下文的信息;我们之后通过学习一个矩阵E即回归本质矩阵,去获得一个概率。这个概率作为特征点对的权重,去做后续的运算(即进行本质矩阵估计);对于自注意力层操作,使用Attention机制得到β矩阵,β矩阵再与经过权重分配处理后的h(xi),(其中xi表示第i个特征向量,h(xi)表示权重分配后新的特征向量)使用点积操作得到oi,再进行yi=γoi+xi操作(其中,yi表示最终的学习的权重矩阵yi∈RC×C,把它拼接到经过特征全局和局部信息处理后的特征向量,oi表示第i个注意力层输出的结果,γ初始化为0,γ是一个可学习的标量,具体见下文)得到加强后特征信息yi,再与经过步骤S2得到的有序的全局特征信息进行拼接处理,公式如下:
out=cat[yi,x′i],
其中out为拼接后的特征向量,x′i表示经过步骤S2得到的有序的全局特征向量,yi表示加强后特征信息,cat表示将它们在通道维度进行拼接。最后将out经过PointCN模块得到特征点对的概率表示,设定一个阈值对所得到的每一个匹配点对进行判断,如果大于这个阈值则判定为正确匹配对,否则为错误匹配对,以此去得到正确的匹配对;
步骤S4:在测试阶段,利用SAGN网络即自注意力网络,将步骤2中传入的初始全局信息进行处理,得到加强后的特征点对信息,并且使用二分类损失函数和E矩阵损失函数进行求和操作,作为网络总体的损失函数去指导网络训练。即
Figure GDA0003557549880000091
z是用于分类的logit值;其中lcls(·,·)是二分类loss损失函数,用于分类任务,less(·,·)表示E矩阵loss是几何loss损失函数,α是一个权重用来平衡二分类损失函数lcls和E矩阵损失函数less;E是ground truth本质矩阵;在整个网络的训练中,总体的损失函数指导网络的学习,不断更新对匹配对的预测概率,通过与特定阈值比较大小,最终输出网络预测特征点对是否为正确匹配的结果。
在本实施例中,所述步骤S1的具体内容为:
提供一组图像对(L,L'),使用SIFT检测子分别从每个图像中提取特征点kpi,kp′i,则图像L的信息提取的特征点集为KP={kpi}i∈N;从图像L'获得特征点集KP'={kp'i}i∈N;基于特征点的描述子生成两个图片之间的初始的匹配,每个对应关系(kpi,kp′i)能生成4维数据:
C=[c1;c2;...;cn]∈RN*4,ci=(xi 1,yi 1,xi 2,yi 2)
C表示图像对的匹配对组即输入数据,ci表示匹配对,(xi 1,y1 i),(xi 2,y2 i)分别表示匹配对中两个特征点的坐标。
在本实施例中,步骤S3中所述回归本质矩阵计算公式如下:
Figure GDA0003557549880000101
w=tanh(ReLU(z))
Figure GDA0003557549880000102
其中,z是用于分类的logit值,
Figure GDA0003557549880000103
代表一个permutation-equivariant神经网络,
Figure GDA0003557549880000104
表示网络的参数,g(,)表示八点算法,w是特征点对的权重,C表示特征点对。
在本实施例中,根据步骤S3中所述,对于给定的匹配特征对经过了PointCN模块提取了初始的全局特征,然后传入自注意力层进行操作。首先将传入的初始全局特征进行卷积,由于特征向量经过卷积维度不同,将它们进行矩阵相乘,再经过softmax归一化得到一个Attention Map(注意力映射,即β矩阵);上述过程中β矩阵计算公式如下:
Figure GDA0003557549880000111
sij=f(xi)Tg(xj),f(x)=Wfx,g(x)=Wgx
其中f(x),g(x)分别表示经过卷积不同维度的特征向量,βj,i表示在合成第j个区域时模型到达第i个位置的程度,f(xi)表示经过卷积不同维度的第i个特征向量,g(xj)表示经过卷积的不同维度的第j个特征向量,将f(x)的输出转置,并和g(x)的输出相乘,在经过softmax归一化得到一个Attention Map,公式中Wg∈RC×C,Wf∈RC×C,是两个可学习的权重矩阵;
对于β矩阵,每一行长度为N的向量代表了一种Attention的方式,分别对应各自的特征点对,输出的attentionlayer是O=(o1,o2,o3,...,oj,...,oN)∈RC×N计算公式如下所示:
Figure GDA0003557549880000112
h(xi)=Whxi
其中O代表每个特征的attention表示;在上述公式中,Wh∈RC×C是可学习的权重矩阵;
将这N种Attention的的方式应用到h(xi)上,即每一个特征点对都与整个FeatureMap相关,相关性来自于β矩阵,得到N个新的特征点对的Attention值作为输出计作O,则最终输出为:
yi=γoi+xi
其中,yi表示加强后特征信息yi∈RC×C,把它拼接到经过特征全局和局部信息处理后的特征向量,oi表示第i个注意力层输出的结果,γ初始化为0,γ是一个可学习的标量,然后逐渐的给non-local分配更多的权重;这样做的原因是因为:一开始学习一些简单的任务,然后再不断地增加复杂的任务;通过以上计算能够得到特征加强后的全局上下文信息。
在本实施例中,步骤S4实现过程中二分类损失函数lcls如以下公式所示:
Figure GDA0003557549880000121
其中,yi表示label,y'i表示预测值,i表示特征点对序号,n表示特征点的数量;
E矩阵损失函数less,如公式所示:
Figure GDA0003557549880000122
其中p1和p2是一组特征点对,T[i]表示表示第i个元素的向量。
由于自注意力模块巧妙运用局部和全局上下文信息,在增加少量运算时间的基础上使网络的匹配精度得到提升。
较佳的,在本实施例中为了优化去除误匹配的问题,提出了将自注意力应用到误匹配去除当中,该模块具有结合了全局上下文信息和局部上下文信息的优点。因此,本发明在一定程度上能够避免受到背景技术中提到的几个难点问题的影响,最终提高匹配精度。实验结果表明,本实施例在基准数据集上达到了最较优的性能。
较佳的,在本实施例中,可以对SIFT一类算法提取的特征点进行匹配。通过分析初步建立初始匹配,我们的新型深度神经网络(即本文提出基于自注意力的图像匹配网络)训练会给出一个概率预测匹配是内点还是噪声点。具体地说,首先使用SIFT提取特征点,得到一组假定对应关系的匹配对,然后经过相机归一化预处理。我们的网络对输入的特征对首先利用PointCN提取全局特征,由于PointCN在局部特征的抓取上有短板,所以需要再经过differentiable-pooling layers(后面简称为diff-pool)去得到局部特征,经过了diff-pool之后,匹配点被聚类且空间有序,如果直接用PointCN处理并不能很好去完成全局上下文的提取,由于PointCN忽略点与点之间的关系。因此引入了顺序意识网络来更好的提取全局上下文。最后再将经过第一步PointCN提取的全局特征传入我们的Attention操作,与经过完成全局上下文提取的特征进行拼接处理。Attention操作提高网络对于局部上下文与全局上下文的抓取能力,从而提高神经网络的匹配精度。所述的基于深度神经网络的图像匹配方法主要包括:准备数据集、数据集的预处理、特征增强与学习、测试。本发明能够提高匹配精度。
较佳的,在本实施例中,引入自注意力(SAGN),以利用局部上下文和全局上下文信息有效提取信息以进行特征匹配,以解决特征匹配中如何利用好全局和局部上下文关系的问题。同时,建立了自注意力块(SAGN块),该块结合了针对经过PointCN处理后再经过不同卷积处理,维度不同的特征向量进行Self Attention操作,有着鲁棒全局上下文和局部上下文信息的优点。
本实施例通过分析输入需要匹配的特征,然后经过新型深度神经网络训练自适应地输出匹配好的匹配对。通过分析初步推测的匹配的特征点,然后经过新型深度神经网络训练会给出一个概率去表示这对特征点的匹配精度。具体地说,首先使用SIFT提取特征点,得到一组假定对应关系的特征点对,然后经过相机归一化预处理,通过全局信息和局部信息建立图片之间的匹配点,期间通过自注意力机制加强对局部特征的提取,并得到特征映射即特征之间的相关性矩阵,将得到的特征映射矩阵经过softmax归一化,得到β矩阵,β矩阵每一行代表一种Attention形式,再将Attention形式应用到原始特征上,即每一个特征都和特征映射相关,Attention操作提高网络对于局部上下文与全局上下文的抓取能力,从而提高神经网络的匹配精度。所述的基于深度神经网络的图像匹配方法主要包括:准备数据集、数据集的预处理、特征增强与学习、测试。
本发明能够提高匹配精度。本实施例的方法和当前最先进的匹配方法的定量和定性在公共数据集(YFCC100M)上进行,结果表明本实施例的方法优于其他算法。
较佳的,表1为本实施例与其他几种匹配算法YFCC100M数据集的在将使用5°下的mAP作为默认度量,因为它在3D重建环境中更有用,对比效果如下。对比方法有RANSAC,PointCN,Point-Net++,PointNet++,OA-NET,0A-NET++。从表中,可以看到本实施例显著提升了检测准确率,在七种方法中取得最好的效果。
表1
Figure GDA0003557549880000141
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (5)

1.一种基于自注意力深度神经网络的图像匹配方法,其特征在于:包括以下步骤:
步骤S1:提供一组图像对(L,L')进行数据集处理,分别提取图像L,L'的特征点集并生成4维数据;
步骤S2:特征增强:使用一个卷积核大小为1×1的卷积层,将步骤S1处理后的4维数据映射为一个128维的特征向量,即C(1×N×4)→C(1×N×128),用以减少网络特征学习带来的信息损失;其中,N代表一张图片提取的特征点个数;对于网络学习,首先使用PointCN模块对增强后的特征向量C(1×N×128)进行特征提取,得到初始全局特征;然后运用可微分池化层进行下采样将N个点聚类成M个类以获取局部特征;引入顺序意识过滤模块在特征的空间域进行处理经过顺序意识过滤模块,特征对的空间对应关系会变成无序,需要再经过可微分不池化层进行上采样得到有序的全局特征信息;
步骤S3:将步骤S2中经过PointCN模块提取的初始全局特征传入自注意力层进行操作,得到加强后特征信息;然后与步骤S2得到的有序的全局特征信息进行拼接处理,再经过一次PointCN模块得到初步预测结果;通过学习一个矩阵E即回归本质矩阵,去获得一个概率;这个概率作为特征点对的权重,去做后续的运算即进行本质矩阵估计;对于自注意力层操作,使用Attention机制得到β矩阵,β矩阵再与经过权重分配处理后的h(xi),使用点积操作得到oi,再进行yi=γoi+xi操作得到加强后特征信息yi,再与经过步骤S2得到的有序的全局特征信息进行拼接处理,公式如下:
out=cat[yi,x′i],
其中xi表示第i个特征向量,h(xi)表示权重分配后新的特征向量,其中,yi表示加强后特征信息yi∈RC×C,把它拼接到经过特征全局和局部信息处理后的特征向量;oi表示第i个注意力层输出的结果,γ初始化为0,γ是一个可学习的标量;其中out为拼接后的特征向量,xi'表示经过步骤S2得到的有序的全局特征信息,yi表示加强后特征信息,cat表示将它们在通道维度进行拼接;最后将out经过PointCN模块得到特征点对的概率表示,设定一个阈值对所得到的每一个匹配点对进行判断,如果大于这个阈值则判定为正确匹配对,否则为错误匹配对,以此去得到正确的匹配对;
步骤S4:在测试阶段,利用SAGN网络即自注意力网络,将步骤S2中传入的初始全局信息进行处理,得到加强后的特征点对信息,并且使用二分类损失函数和E矩阵损失函数进行求和操作,作为网络总体的损失函数去指导网络训练;即
Figure FDA0003557549870000021
z是用于分类的logit值;其中lcls(·,·)是二分类loss损失函数,用于分类任务,less(·,·)表示E矩阵loss是几何loss损失函数,α是一个权重用来平衡二分类损失函数lcls和E矩阵损失函数less
Figure FDA0003557549870000022
是网络预测的本质矩阵;E是ground truth本质矩阵;在整个网络的训练中,总体的损失函数指导网络的学习,不断更新对匹配对的预测概率,通过与特定阈值比较大小,最终输出网络预测特征点对是否为正确匹配的结果。
2.根据权利要求1所述的一种基于自注意力深度神经网络的图像匹配方法,其特征在于:所述步骤S1的具体内容为:
提供一组图像对(L,L'),使用SIFT检测子分别从每个图像中提取特征点kpi,kp′i,则图像L的信息提取的特征点集为KP={kpi}i∈N;从图像L'获得特征点集KP'={kp'i}i∈N;基于特征点的描述子生成两个图片之间的初始的匹配,每个对应关系(kpi,kp′i)能生成4维数据:
C=[c1;c2;...;cn]∈RN*4,ci=(xi 1,yi 1,xi 2,yi 2)
C表示图像对的匹配对组即输入数据,ci表示匹配对,(xi 1,y1 i),(xi 2,y2 i)分别表示匹配对中两个特征点的坐标。
3.根据权利要求1所述的一种基于自注意力深度神经网络的图像匹配方法,其特征在于:步骤S3中所述回归本质矩阵计算公式如下:
Figure FDA0003557549870000031
w=tanh(Re LU(z))
Figure FDA0003557549870000032
其中,z是用于分类的logit值,
Figure FDA0003557549870000033
代表一个permutation-equivariant神经网络,
Figure FDA0003557549870000034
表示网络的参数,g(,)表示八点算法,w是特征点对的权重,C表示特征点对。
4.根据权利要求1所述的一种基于自注意力深度神经网络的图像匹配方法,其特征在于:步骤S3中所述,将经过PointCN模块提取的初始的全局特征传入自注意力层进行操作;首先将传入的初始全局特征进行卷积,由于特征向量经过卷积维度不同,将它们进行矩阵相乘,再经过softmax归一化得到一个Attention Map即β矩阵;上述过程中β矩阵计算公式如下:
Figure FDA0003557549870000041
sij=f(xi)Tg(xj),f(x)=Wfx,g(x)=Wgx
其中f(x),g(x)分别表示经过卷积不同维度的特征向量,βj,i表示在合成第j个区域时模型到达第i个位置的程度,f(xi)表示经过卷积不同维度的第i个特征向量,g(xj)表示经过卷积的不同维度的第j个特征向量,将f(x)的输出转置,并和g(x)的输出相乘,在经过softmax归一化得到一个Attention Map,公式中Wg∈RC×C,Wf∈RC×C,是两个可学习的权重矩阵;
对于β矩阵,每一行长度为N的向量代表了一种Attention的方式,分别对应各自的特征点对,输出的attention layer是O=(o1,o2,o3,...,oj,...,oN)∈RC×N计算公式如下所示:
Figure FDA0003557549870000042
h(xi)=Whxi
其中O代表每个特征的attention表示;在上述公式中,Wh∈RC×C是可学习的权重矩阵;
将这N种Attention的方式应用到h(xi)上,即每一个特征点对都与整个Feature Map相关,相关性来自于β矩阵,得到N个新的特征点对的Attention值作为输出计作O,则最终输出为:
yi=γoi+xi
其中,yi表示加强后特征信息yi∈RC×C,把它拼接到经过特征全局和局部信息处理后的特征向量,oi表示第i个注意力层输出的结果,γ初始化为0,γ是一个可学习的标量,然后逐渐的给non-local分配更多的权重;这样做的原因是因为:一开始学习一些简单的任务,然后再不断地增加复杂的任务;通过以上计算能够得到特征加强后的全局上下文信息。
5.根据权利要求1所述的一种基于自注意力深度神经网络的图像匹配方法,其特征在于:步骤S4实现过程中二分类损失函数lcls如以下公式所示:
Figure FDA0003557549870000051
其中,yi表示label,y'i表示预测值,i表示特征点对序号,n表示特征点的数量;
E矩阵损失函数less,如公式所示:
Figure FDA0003557549870000052
其中p1和p2是一组特征点对,T[i]表示表示第i个元素的向量。
CN202011187322.3A 2020-10-30 2020-10-30 一种基于自注意力深度神经网络的图像匹配方法 Active CN112288011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011187322.3A CN112288011B (zh) 2020-10-30 2020-10-30 一种基于自注意力深度神经网络的图像匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011187322.3A CN112288011B (zh) 2020-10-30 2020-10-30 一种基于自注意力深度神经网络的图像匹配方法

Publications (2)

Publication Number Publication Date
CN112288011A CN112288011A (zh) 2021-01-29
CN112288011B true CN112288011B (zh) 2022-05-13

Family

ID=74352611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011187322.3A Active CN112288011B (zh) 2020-10-30 2020-10-30 一种基于自注意力深度神经网络的图像匹配方法

Country Status (1)

Country Link
CN (1) CN112288011B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112965968B (zh) * 2021-03-04 2023-10-24 湖南大学 一种基于注意力机制的异构数据模式匹配方法
CN112861988B (zh) * 2021-03-04 2022-03-11 西南科技大学 一种基于注意力图神经网络的特征匹配方法
CN112949765A (zh) * 2021-04-07 2021-06-11 闽江学院 融合局部和全局信息的图像匹配方法
CN113139490B (zh) * 2021-04-30 2024-02-23 中德(珠海)人工智能研究院有限公司 一种图像特征匹配方法、装置、计算机设备及存储介质
CN113343944B (zh) * 2021-07-28 2022-09-20 浙江华睿科技股份有限公司 机器人图像采集方法及装置、电子设备、存储介质
CN115731365A (zh) * 2022-11-22 2023-03-03 广州极点三维信息科技有限公司 基于二维图像的网格模型重建方法、系统、装置及介质
CN116503628A (zh) * 2023-06-29 2023-07-28 华侨大学 自动化农业机械的图像匹配算法、装置、设备及存储介质
CN116821776B (zh) * 2023-08-30 2023-11-28 福建理工大学 一种基于图自注意力机制的异质图网络节点分类方法
CN117351246B (zh) * 2023-10-18 2024-04-09 暨南大学 一种误匹配对去除方法、系统及可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法
CN111156984A (zh) * 2019-12-18 2020-05-15 东南大学 一种面向动态场景的单目视觉惯性slam方法
CN111488938A (zh) * 2020-04-15 2020-08-04 闽江学院 一种基于两步可切换归一化深度神经网络的图像匹配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法
CN111156984A (zh) * 2019-12-18 2020-05-15 东南大学 一种面向动态场景的单目视觉惯性slam方法
CN111488938A (zh) * 2020-04-15 2020-08-04 闽江学院 一种基于两步可切换归一化深度神经网络的图像匹配方法

Also Published As

Publication number Publication date
CN112288011A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
US11645835B2 (en) Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
US11443536B2 (en) System and methods for efficiently implementing a convolutional neural network incorporating binarized filter and convolution operation for performing image classification
CN108710830B (zh) 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法
CN110135366B (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
CN106529447B (zh) 一种小样本人脸识别方法
CN111950649B (zh) 基于注意力机制与胶囊网络的低照度图像分类方法
CN111291809B (zh) 一种处理装置、方法及存储介质
CN109902548B (zh) 一种对象属性识别方法、装置、计算设备及系统
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN112906720B (zh) 基于图注意力网络的多标签图像识别方法
CN110222718B (zh) 图像处理的方法及装置
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN110674685B (zh) 一种基于边缘信息增强的人体解析分割模型及方法
CN111582044A (zh) 基于卷积神经网络和注意力模型的人脸识别方法
CN113989890A (zh) 基于多通道融合和轻量级神经网络的人脸表情识别方法
Grigorev et al. Depth estimation from single monocular images using deep hybrid network
CN111899203A (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN114612681A (zh) 基于gcn的多标签图像分类方法、模型构建方法及装置
Song et al. HDTFF-Net: Hierarchical deep texture features fusion network for high-resolution remote sensing scene classification
CN115222998B (zh) 一种图像分类方法
CN116246110A (zh) 基于改进胶囊网络的图像分类方法
Dalara et al. Entity Recognition in Indian Sculpture using CLAHE and machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240122

Address after: 230000 Room 203, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Hefei Jiuzhou Longteng scientific and technological achievement transformation Co.,Ltd.

Country or region after: China

Address before: 200 xiyuangong Road, Shangjie Town, Minhou County, Fuzhou City, Fujian Province

Patentee before: MINJIANG University

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240308

Address after: Room 204, No.16-5 Ligang Road, Haizhu District, Guangzhou City, Guangdong Province, 510000 (office only)

Patentee after: Guangzhou Dingxiang Software Co.,Ltd.

Country or region after: China

Address before: 230000 Room 203, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Hefei Jiuzhou Longteng scientific and technological achievement transformation Co.,Ltd.

Country or region before: China