CN109857895B - 基于多环路视图卷积神经网络的立体视觉检索方法与系统 - Google Patents

基于多环路视图卷积神经网络的立体视觉检索方法与系统 Download PDF

Info

Publication number
CN109857895B
CN109857895B CN201910071879.1A CN201910071879A CN109857895B CN 109857895 B CN109857895 B CN 109857895B CN 201910071879 A CN201910071879 A CN 201910071879A CN 109857895 B CN109857895 B CN 109857895B
Authority
CN
China
Prior art keywords
loop
view
transformation matrix
neural network
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910071879.1A
Other languages
English (en)
Other versions
CN109857895A (zh
Inventor
高跃
蒋建文
赵曦滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910071879.1A priority Critical patent/CN109857895B/zh
Publication of CN109857895A publication Critical patent/CN109857895A/zh
Application granted granted Critical
Publication of CN109857895B publication Critical patent/CN109857895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了基于多环路视图卷积神经网络的立体视觉检索方法与系统,其中,该方法包括:步骤1,获取视觉对象在所处空间内至少两个相交平面上的环路视图,其中,环路视图包括至少三张对象视图;步骤2,根据视图卷积神经网络和长短时记忆网络模型,对环路视图进行特征提取,得到环路视图对应的环路描述子;步骤3,采用拼接算法,对环路描述子进行拼接处理,得到全局特征标识,记作检索特征;步骤4,根据样本空间中的样本与检索特征之间的欧氏距离的排序,依次输出样本。通过本申请中的技术方案,实现了从不同平面获取立体视觉对象的视图,提高了视图中立体视觉对象之间的可区分性,优化了对立体视图对象的检索性能和检索过程中的鲁棒性。

Description

基于多环路视图卷积神经网络的立体视觉检索方法与系统
技术领域
本申请涉及立体视觉检索的技术领域,具体而言,涉及基于多环路视图卷积神经网络的立体视觉检索方法以及基于多环路视图卷积神经网络的立体视觉检索系统。
背景技术
立体视觉对象检索在近年来已经能到了极大的关注,在计算机视觉领域中已经成为了热门话题,立体视觉对象检索的目的是为了可以在给定数据库中寻找到被查询立体视觉对象最类似的物体。立体视觉对象有很多种视觉表示模态,如视图投影、网格、点云等模态,其中,视图投影模态较为常用,基于多视图的表示学习即将三维视觉立体物体投影成二维图像,然后从多张二维图像中学习三维物体的特征表示。通常而言,立体视觉对象有着复杂多变的几何形状,因此,从不同的角度获取视觉对象的视图,有利于完整的表示一个立体视觉对象。
而现有技术中,通常是将相机固定于一个特定的水平面上,然后水平均匀呈环形摆放,或者将相机设置于二十面体的各个顶点上,使用预设置相机进行二维图像投影,使用特定的特征抽取器如卷积神经网络或者传统手工特征进行视图特征抽取,最后再对多视图的不同特征进行融合得到三维立体视觉特征表示。在融合时,并没有考虑到各个视图之间的特征关联信息,如视图前后出现的客观联系与视图间像素移动、变化本身包含的信息,同时,获取视觉对象的视图的空间角度相对单一,导致立体视觉检索系统的检索性能和鲁棒性偏低。
发明内容
本申请的目的在于:提高立体视觉对象的检索性能和鲁棒性,有利于避免相似立体视觉对象的混淆。
本申请第一方面的技术方案是:提供了基于多环路视图卷积神经网络的立体视觉检索方法,该方法包括:步骤1,获取视觉对象在所处空间内至少两个相交平面上的环路视图,其中,环路视图包括至少三张对象视图;步骤2,根据视图卷积神经网络和长短时记忆网络模型,对环路视图进行特征提取,得到环路视图对应的环路描述子;步骤3,采用拼接算法,对环路描述子进行拼接处理,得到全局特征标识,记作检索特征;步骤4,根据样本空间中的样本与检索特征之间的欧氏距离的排序,依次输出样本。
上述任一项技术方案中,进一步地,步骤21,根据视图卷积神经网络中的残差神经网络模型,对任一张对象视图进行特征向量处理,记作第一特征向量;步骤22,采用视图卷积神经网络中的环路正则化模型,根据第一特征向量和对象视图中的环路统计信息,抽取第二特征向量;步骤23,根据第二特征向量和长短时记忆网络模型,采用平均池化算法,生成环路描述子。
上述任一项技术方案中,进一步地,长短时记忆网络模型的计算公式为:
Figure BDA0001957544660000021
式中,xt为当前输入量,ht-1为上一个中间输出,ht为当前中间输出,Wf为第二变换矩阵,bf为第二偏移量,Wi为第三变换矩阵,bi为第三偏移量,WC为第四变换矩阵,bC为第四偏移量,Wo为第五变换矩阵,bo为第五偏移量,σ(·)函数是阈值激活函数,tanh(·)函数是特征激活函数,其中,第二变换矩阵Wf、第二偏移量bf、第三变换矩阵Wi、第三偏移量bi、第四变换矩阵WC、第四偏移量bC、第五变换矩阵Wo和第五偏移量bo的取值,由环路视图确定。
本申请第二方面的技术方案是:提供了基于多环路视图卷积神经网络的立体视觉检索系统,该系统包括:获取单元,提取单元,拼接单元以及输出单元;获取单元用于获取视觉对象在所处空间内至少两个相交平面上的环路视图,其中,环路视图包括至少三张对象视图;提取单元用于根据视图卷积神经网络和长短时记忆网络模型,对环路视图进行特征提取,得到环路视图对应的环路描述子;拼接单元用于采用拼接算法,对环路描述子进行拼接处理,得到全局特征标识,记作检索特征;输出单元用于根据样本空间中的样本与检索特征之间的欧氏距离的排序,依次输出样本。
上述任一项技术方案中,进一步地,提取单元具体包括:处理模块,正则化模块以及生成模块;处理模块用于根据视图卷积神经网络中的残差神经网络模型,对任一张对象视图进行特征向量处理,记作第一特征向量;正则化模块用于采用视图卷积神经网络中的环路正则化模型,根据第一特征向量和对象视图中的环路统计信息,抽取第二特征向量;生成模块用于根据第二特征向量和长短时记忆网络模型,采用平均池化算法,生成环路描述子。
上述任一项技术方案中,进一步地,长短时记忆网络模型的计算公式被配置为:
Figure BDA0001957544660000031
式中,xt为当前输入量,ht-1为上一个中间输出,ht为当前中间输出,Wf为第二变换矩阵,bf为第二偏移量,Wi为第三变换矩阵,bi为第三偏移量,WC为第四变换矩阵,bC为第四偏移量,Wo为第五变换矩阵,bo为第五偏移量,σ(·)函数是阈值激活函数,tanh(·)函数是特征激活函数,其中,第二变换矩阵Wf、第二偏移量bf、第三变换矩阵Wi、第三偏移量bi、第四变换矩阵WC、第四偏移量bC、第五变换矩阵Wo和第五偏移量bo的取值,由环路视图确定。
本申请的有益效果是:通过对一个立体视觉对象,在至少两个相交平面上获取对应的环路视图,并按照对应的环路视图进行特征提取,建立检索特征,实现了从不同平面、不同角度获取立体视觉对象的视图,并对获取到的视图进行特征提取,提高了视图中立体视觉对象之间的可区分性,优化了对立体视图对象的检索性能和检索过程中的鲁棒性。
本申请中通过视图卷积神经网络,对不同平面、不同角度获取到的对象视图进行特征处理,得到对应的特征向量,进而生成特征描述子,从不同平面、不同角度对立体视觉对象进行特征描述,提高了对立体视觉对象描述的准确性,有效避免了相似立体视觉对象之间发生混淆,提高了立体视觉对象检索的准确性。
附图说明
本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请的一个实施例的基于多环路视图卷积神经网络的立体视觉检索方法的示意流程图;
图2是根据本申请的一个实施例的环路视图的示意图;
图3是根据本申请的一个实施例的基于多环路视图卷积神经网络的立体视觉检索系统的示意框图;
图4是根据本申请的一个实施例的基于多环路视图卷积神经网络的立体视觉检索系统的示意框图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。
在下面的描述中,阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
实施例一:
以下结合图1和图3对本申请的实施例一进行说明。
如图1所示,本实施例提供了基于多环路视图卷积神经网络的立体视觉检索方法,包括:
步骤1,获取视觉对象在所处空间内至少两个相交平面上的环路视图,其中,环路视图包括至少三张对象视图;
具体地,如图2所示,以视觉对象A的中心为原点,建立空间直角坐标系,选取xy轴平面、yz轴平面和zx轴平面作为三个视图环路平面,在三个视图环路平面上设置数量相等的相机B,所有相机B朝向视觉对象A的中心(空间直角坐标系的原点),由相机B对视觉对象A进行视图获取,一个视图环路平面上的所有相机B获取的视图,构成一组环路视图。因此,在本实施例中,一组环路视图包括八张对象视图。
步骤2,根据视图卷积神经网络和长短时记忆网络模型,对环路视图进行特征提取,得到环路视图对应的环路描述子,其中,视图卷积神经网络包括残差神经网络模型和环路正则化模型;
该步骤2中,具体包括:
步骤21,根据视图卷积神经网络中的残差神经网络模型,对任一张对象视图进行特征向量处理,记作第一特征向量;
具体地,在本实施例中,根据仿射变换函数构造残差神经网络模型。获取到三组环路视图后,选取任一张对象视图,每个对象视图被独立对待,即不考虑对象视图之间的关联信息,利用构建的残差神经网络,对选取的对象视图进行特征向量处理,得到该对象视图对应的第一特征向量y1,其中,残差神经网络模型由多个残差单元堆叠而成,如采用向量拼接的方式,每个残差单元由仿射变换函数构成。首先,对对象视图进行特征抽取,得到待处理的特征向量x,其次,由堆叠的残差单元对抽取出的特征向量x进行特征处理运算,计算第一特征向量y1,第一特征向量y1的计算公式为:
y1=F(x,Wy,by)+Wsx,
式中,F(·)函数是仿射变换函数,x为对象视图中待处理的特征向量,Wy为第一变换矩阵,by为第一偏移向量,Ws残差变换矩阵。
步骤22,采用视图卷积神经网络中的环路正则化模型,根据第一特征向量和对象视图中的环路统计信息,抽取第二特征向量;
具体地,对于计算出的第一特征向量y1,通过环路正则化模型,根据对象视图所属的对象环路(环路视图)的环路统计信息,如对象环路中的正则化均值与环路对象的正则化方差,抽取第一特征向量y1的特征,以保持第一特征向量y1所属不同环路的区分性,得到第二特征向量y2,其中,环路正则化模型的计算公式为:
Figure BDA0001957544660000061
其中,
Figure BDA0001957544660000062
式中,μS为选定的对象环路进行正则化所需的正则化均值,σS为选定的对象环路进行正则化所需的正则化标准差,γS为选定的对象环路进行正则化所需的正则化缩放因子,βS为选定的对象环路进行正则化所需的正则化偏移因子,∈S为选定的对象环路进行正则化所需的稳定性参数,K为对象环路内像素单元的数量,S为所属环路视图标记,p为选定的对象环路视图内的像素单元,在本实施例中,像素单元p的取值范围为[1,2,…,N],其中,N为环路内视图数量v、视图特征图高度h、视图特征图宽度w以及视图特征图通道数c之间的乘积,在本实施例中,环路内视图数量v取值为8,视图特征图高度h、视图特征图宽度w以及视图特征图通道数c三者的取值与特征图(特征向量)所在网络层有关,视图特征图高度h和视图特征图宽度w的取值范围为[224,112,56,28,14],视图特征图通道数c的取值范围为[128,256,512,1024],环路视图标记S的取值范围为[1,2,3]。
在抽取第二特征向量y2之前,根据选定的对象视图所属的环路视图,计算该环路视图中所有对象视图对应的均值μp和标准差σp,再计算环路视图中均值μp和标准差σp对应的平均值,分别将对应的平均值记作正则化均值μS和正则化标准差σS。进而利用环路正则化模型,得到第一特征向量y1对应的第二特征向量y2。
环路正则化模型是由一系列卷积层、非线性激活函数和正则化模型堆叠而成,用于将原始输入(第一特征向量y1)通过一个卷积层和一个非线性激活函数,如线性整流函数(Rectified Linear Unit,ReLU),此时的中间计算量可以标记为Dab,其中,a代表其环路序号(S),b代表其视图序号(p)。再对所有环路序列ID(Dab)相同的中间计算量做正则化操作,得到趋于一致的统计分布。此时不考虑不同环路之间的影响,即保持了不同环路的统计差异,也归一了相同环路内的视图特征使,得后续的序列建模更加容易。
将由残差神经网络模型得到的、以第一特征向量表示的第一视图层级描述子,通过环路正则化模型得到环路统计相关的、以第二特征向量表示的第二视图层级描述子,其在环路正则化模型中使用了每个环路内部的统计信息,从而使同一环路的第二视图层级描述子在表示上更趋于数值平稳,而不同环路的第二视图层级描述子之间的差异变大,增加了第二特征向量的丰富性。
步骤23,根据第二特征向量和长短时记忆网络模型,采用平均池化算法,生成环路描述子。
具体地,如图3所示,将同一环路内的多个第二特征向量y2作为输入,按照邻接顺序进行排列,依次输入长短时记忆网络模型。在长短时记忆网络模型生成环路描述子时,采用迭代的方式,将上一个中间输出与当前的第二特征向量y2,作为当前的输入,共同输入至长短时记忆网络模型,得到当前的中间输出,再将得到的所有的中间输出,利用平均池化算法,计算出当前环路的环路描述子。
其中,长短时记忆网络模型的公式化描述如下:
Figure BDA0001957544660000081
式中,xt为当前输入量,ht-1为上一个中间输出,ht为当前中间输出,Wf为第二变换矩阵,bf为第二偏移量,Wi为第三变换矩阵,bi为第三偏移量,WC为第四变换矩阵,bC为第四偏移量,Wo为第五变换矩阵,bo为第五偏移量,σ(·)函数是阈值激活函数,tanh(·)函数是特征激活函数,其中,第二变换矩阵Wf、第二偏移量bf、第三变换矩阵Wi、第三偏移量bi、第四变换矩阵WC、第四偏移量bC、第五变换矩阵Wo和第五偏移量bo的取值,由所选择的环路视图确定。
在本实施例中,以xy轴平面对应的环路视图中的第四张对象视图为例,该对象视图的第二特征向量为y24(当前输入x4),上一个中间输出为h3,将第二特征向量y24和中间输出h3作为输入,输入至长短时记忆网络模型,对应的计算公式为:
Figure BDA0001957544660000082
对于当前的输入y24,其与上一个中间输出h3,经过遗忘门仿射变换(Wf,bf)和阈值激活函数σ(·)后,得到遗忘门阈值f4,同样的,经过输入门仿射变换(Wi,bi)和阈值激活函数σ(·)后,得到输入门阈值i4,经过特征仿射变换(WC,bc)和特征激活函数tanh(·)后,得到特征单元向量
Figure BDA0001957544660000083
经过输出门仿射变换(Wo,bo)和阈值激活函数σ(·)后,得到输出门阈值o4。根据遗忘门阈值f4、输入门阈值i4、特征单元向量
Figure BDA0001957544660000091
和上一个记忆单元向量C3,做加权求和,得到当前的记忆单元向量C4。将输出门阈值o4和经过特征激活函数tanh(·)的记忆单元向量C4相乘,得到当前的中间输出h4
将xy轴平面对应的环路视图中的八张对象视图对应的第二特征向量(y21、y22、…、y28)作为输入,输入至长短时记忆网络模型,得到对应的中间输出(h1、h2、…、h8),再采用平均池化算法,计算出xy轴平面对应环路视图的环路描述子。
步骤3,采用拼接算法,对环路描述子进行拼接,得到全局特征标识,记作检索特征;
具体地,将其依次拼接为一个n*d维向量,其中,向量维数n由环路视图的组数确定,维数d由环路描述子的个数确定,即X=[x1,x2,x3,…,xn]。式中,n为拼接的向量维数。
然后使用仿射变换作用于拼接的向量上,得到对应的检索特征,仿射变换的计算公式为:
Figure BDA0001957544660000092
式中,W为检索变换矩阵,b检索偏移向量。
在本实施例中,设定有3个视图环路平面xy、yz、zx,每个视图环路包括8张图像,通过上述步骤,可以计算出3个环路描述子,并得到1个全局特征标识。
步骤4,根据样本空间中的样本与检索特征之间的欧氏距离的排序,依次输出样本。
具体地,在检索时,计算样本空间中每个样本与检索特征之间的欧氏距离,将计算的出的欧氏距离按照数值由小到大的顺序进行排列,依次输出对应的样本,作为视觉对象的检索结果(输出样本)。
优选地,根据设定的检索阈值,将样本与检索特征之间的欧氏距离小于检索阈值的样本,记作检索结果,将检索结果标记为输出样本。
实施例二:
如图4所示,本实施例提供了基于多环路视图卷积神经网络的立体视觉检索系统100,包括:获取单元101,提取单元102,拼接单元103以及输出单元104;获取单元101用于获取视觉对象在所处空间内至少两个相交平面上的环路视图,其中,环路视图包括至少三张对象视图;
具体地,以视觉对象的中心为原点,建立空间直角坐标系,选取xy轴平面、yz轴平面和zx轴平面作为三个视图环路平面,在三个视图环路平面上设置数量相等的相机,所有相机朝向视觉对象的中心(空间直角坐标系的原点),由相机对视觉对象进行视图获取,一个视图环路平面上的所有相机获取的视图,构成一组环路视图。因此,在本实施例中,一组环路视图包括八张对象视图。
提取单元102用于根据视图卷积神经网络和长短时记忆网络模型,对环路视图进行特征提取,得到环路视图对应的环路描述子;
该提取单元102中,具体包括:处理模块,正则化模块以及生成模块;处理模块用于根据视图卷积神经网络中的残差神经网络模型,对任一张对象视图进行特征向量处理,记作第一特征向量;
具体地,在本实施例中,根据仿射变换函数构造残差神经网络模型。获取到三组环路视图后,选取任一张对象视图,每个对象视图被独立对待,即不考虑对象视图之间的关联信息,利用构建的残差神经网络,对选取的对象视图进行特征向量处理,得到该对象视图对应的第一特征向量y1,其中,残差神经网络模型由多个残差单元堆叠而成,如采用向量拼接的方式,每个残差单元由仿射变换函数构成。首先,对对象视图进行特征抽取,得到待处理的特征向量x,其次,由堆叠的残差单元对抽取出的特征向量x进行特征处理运算,计算第一特征向量y1,第一特征向量y1的计算公式为:
y1=F(x,Wy,by)+Wsx,
式中,F(·)函数是仿射变换函数,x为对象视图中待处理的特征向量,Wy为第一变换矩阵,by为第一偏移向量,Ws残差变换矩阵。
正则化模块用于采用视图卷积神经网络中的环路正则化模型,根据第一特征向量和对象视图中的环路统计信息,抽取第二特征向量;
具体地,对于计算出的第一特征向量y1,通过环路正则化模型,根据对象视图所属的对象环路(环路视图)的环路统计信息,如对象环路中的正则化均值与环路对象的正则化方差,抽取第一特征向量y1的特征,以保持第一特征向量y1所属不同环路的区分性,得到第二特征向量y2,其中,环路正则化模型的计算公式为:
Figure BDA0001957544660000111
其中,
Figure BDA0001957544660000112
式中,μS为选定的对象环路进行正则化所需的正则化均值,σS为选定的对象环路进行正则化所需的正则化标准差,γS为选定的对象环路进行正则化所需的正则化缩放因子,βS为选定的对象环路进行正则化所需的正则化偏移因子,∈S为选定的对象环路进行正则化所需的稳定性参数,K为对象环路内像素单元的数量,S为所属环路视图标记,p为选定的对象环路视图内的像素单元,在本实施例中,像素单元p的取值范围为[1,2,…,N],其中,N为环路内视图数量v、视图特征图高度h、视图特征图宽度w以及视图特征图通道数c之间的乘积,在本实施例中,环路内视图数量v取值为8,视图特征图高度h、视图特征图宽度w以及视图特征图通道数c三者的取值与特征图(特征向量)所在网络层有关,视图特征图高度h和视图特征图宽度w的取值范围为[224,112,56,28,14],视图特征图通道数c的取值范围为[128,256,512,1024],环路视图标记S的取值范围为[1,2,3]。
在抽取第二特征向量y2之前,根据选定的对象视图所属的环路视图,计算该环路视图中所有对象视图对应的均值μp和标准差σp,再计算环路视图中均值μp和标准差σp对应的平均值,分别将对应的平均值记作正则化均值μS和正则化标准差σS。进而利用环路正则化模型,得到第一特征向量y1对应的第二特征向量y2。
环路正则化模型是由一系列卷积层、非线性激活函数和正则化模型堆叠而成,用于将原始输入(第一特征向量y1)通过一个卷积层和一个非线性激活函数,如线性整流函数(Rectified Linear Unit,ReLU),此时的中间计算量可以标记为Dab,其中,a代表其环路序号(S),b代表其视图序号(p)。再对所有环路序列ID(Dab)相同的中间计算量做正则化操作,得到趋于一致的统计分布。此时不考虑不同环路之间的影响,即保持了不同环路的统计差异,也归一了相同环路内的视图特征使,得后续的序列建模更加容易。
将由残差神经网络模型得到的、以第一特征向量表示的第一视图层级描述子,通过环路正则化模型得到环路统计相关的、以第二特征向量表示的第二视图层级描述子,其在环路正则化模型中使用了每个环路内部的统计信息,从而使同一环路的第二视图层级描述子在表示上更趋于数值平稳,而不同环路的第二视图层级描述子之间的差异变大,增加了第二特征向量的丰富性。
生成模块用于根据第二特征向量和长短时记忆网络模型,采用平均池化算法,生成环路描述子。
具体地,将同一环路内的多个第二特征向量y2作为输入,按照邻接顺序进行排列,依次输入长短时记忆网络模型。在长短时记忆网络模型生成环路描述子时,采用迭代的方式,将上一个中间输出与当前的第二特征向量y2,作为当前的输入,共同输入至长短时记忆网络模型,得到当前的中间输出,再将得到的所有的中间输出,利用平均池化算法,计算出当前环路的环路描述子。
其中,长短时记忆网络模型的公式化描述如下:
Figure BDA0001957544660000121
式中,xt为当前输入量,ht-1为上一个中间输出,ht为当前中间输出,Wf为第二变换矩阵,bf为第二偏移量,Wi为第三变换矩阵,bi为第三偏移量,WC为第四变换矩阵,bC为第四偏移量,Wo为第五变换矩阵,bo为第五偏移量,σ(·)函数是阈值激活函数,tanh(·)函数是特征激活函数,其中,第二变换矩阵Wf、第二偏移量bf、第三变换矩阵Wi、第三偏移量bi、第四变换矩阵WC、第四偏移量bC、第五变换矩阵Wo和第五偏移量bo的取值,由所选择的环路视图确定。
在本实施例中,以xy轴平面对应的环路视图中的第四张对象视图为例,该对象视图的第二特征向量为y24(当前输入x4),上一个中间输出为h3,将第二特征向量y24和中间输出h3作为输入,输入至长短时记忆网络模型,对应的计算公式为:
Figure BDA0001957544660000131
对于当前的输入y24,其与上一个中间输出h3,经过遗忘门仿射变换(Wf,bf)和阈值激活函数σ(·)后,得到遗忘门阈值f4,同样的,经过输入门仿射变换(Wi,bi)和阈值激活函数σ(·)后,得到输入门阈值i4,经过特征仿射变换(WC,bc)和特征激活函数tanh(·)后,得到特征单元向量
Figure BDA0001957544660000132
经过输出门仿射变换(Wo,bo)和阈值激活函数σ(·)后,得到输出门阈值o4。根据遗忘门阈值f4、输入门阈值i4、特征单元向量
Figure BDA0001957544660000133
和上一个记忆单元向量C3,做加权求和,得到当前的记忆单元向量C4。将输出门阈值o4和经过特征激活函数tanh(·)的记忆单元向量C4相乘,得到当前的中间输出h4
将xy轴平面对应的环路视图中的八张对象视图对应的第二特征向量(y21、y22、…、y28)作为输入,输入至长短时记忆网络模型,得到对应的中间输出(h1、h2、…、h8),再采用平均池化算法,计算出xy轴平面对应环路视图的环路描述子。
拼接单元103用于采用拼接算法,对环路描述子进行拼接处理,得到全局特征标识,记作检索特征;
具体地,将其依次拼接为一个n*d维向量,其中,向量维数n由环路视图的组数确定,维数d由环路描述子的个数确定,即X=[x1,x2,x3,…,xn]。式中,n为拼接的向量维数。
然后使用仿射变换作用于拼接的向量上,得到对应的检索特征,仿射变换的计算公式为:
Figure BDA0001957544660000141
式中,W为检索变换矩阵,b检索偏移向量。
在本实施例中,设定有3个视图环路平面xy、yz、zx,每个视图环路包括8张图像,通过上述步骤,可以计算出3个环路描述子,并得到1个全局特征标识。
输出单元104用于根据样本空间中的样本与检索特征之间的欧氏距离的排序,依次输出样本。
具体地,在检索时,计算样本空间中每个样本与检索特征之间的欧氏距离,将计算的出的欧氏距离按照数值由小到大的顺序进行排列,依次输出对应的样本,作为视觉对象的检索结果(输出样本)。
优选地,在输出单元104中设置阈值模块,阈值模块用于根据设定的检索阈值,将样本与检索特征之间的欧氏距离小于检索阈值的样本,记作检索结果,将检索结果标记为输出样本。
将MVCNN检测方法、GIFT检测方法和DeepPano检测方法作为对比试验,通过对相同的视图模型进行检索,得到的对比结果如表1所示。
表1
检索方法 检索精度(mAP)
MVCNN 80.2%
GIFT 81.9%
DeepPano 76.8%
立体视觉检索方法 92.2%
通过表1中的数据可知,本申请中的立体视觉检索方法的检索精度明显高于现有的检测方法。
以上结合附图详细说明了本申请的技术方案,本申请提出了基于多环路视图卷积神经网络的立体视觉检索方法与系统,其中,该方法包括:步骤1,获取视觉对象在所处空间内至少两个相交平面上的环路视图,其中,环路视图包括至少三张对象视图;步骤2,根据视图卷积神经网络和长短时记忆网络模型,对环路视图进行特征提取,得到环路视图对应的环路描述子;步骤3,采用拼接算法,对环路描述子进行拼接处理,得到全局特征标识,记作检索特征;步骤4,根据样本空间中的样本与检索特征之间的欧氏距离的排序,依次输出样本。通过本申请中的技术方案,实现了从不同平面获取立体视觉对象的视图,提高了视图中立体视觉对象之间的可区分性,优化了对立体视图对象的检索性能和检索过程中的鲁棒性。
本申请中的步骤可根据实际需求进行顺序调整、合并和删减。
本申请装置中的单元可根据实际需求进行合并、划分和删减。
尽管参考附图详地公开了本申请,但应理解的是,这些描述仅仅是示例性的,并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定,并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims (4)

1.基于多环路视图卷积神经网络的立体视觉检索方法,其特征在于,所述方法包括:
步骤1,获取视觉对象在所处空间内至少两个相交平面上的环路视图,其中,所述环路视图包括至少三张对象视图;
步骤2,根据视图卷积神经网络和长短时记忆网络模型,对所述环路视图进行特征提取,得到所述环路视图对应的环路描述子,其中,具体包括:
步骤21,根据所述视图卷积神经网络中的残差神经网络模型,对任一张所述对象视图进行特征向量处理,记作第一特征向量;
步骤22,采用所述视图卷积神经网络中的环路正则化模型,根据所述第一特征向量和所述对象视图中的环路统计信息,抽取第二特征向量;
步骤23,根据所述第二特征向量和所述长短时记忆网络模型,采用平均池化算法,生成所述环路描述子;
步骤3,采用拼接算法,对所述环路描述子进行拼接处理,得到全局特征标识,记作检索特征;
步骤4,根据样本空间中的样本与所述检索特征之间的欧氏距离的排序,依次输出所述样本。
2.如权利要求1所述的基于多环路视图卷积神经网络的立体视觉检索方法,其特征在于,所述长短时记忆网络模型的计算公式为:
Figure 849407DEST_PATH_IMAGE001
式中,
Figure DEST_PATH_IMAGE002
为当前输入量,
Figure 297706DEST_PATH_IMAGE003
为上一个中间输出,
Figure DEST_PATH_IMAGE004
为当前中间输出,
Figure 280706DEST_PATH_IMAGE005
为第二变换矩阵,
Figure DEST_PATH_IMAGE006
为第二偏移量,
Figure 331707DEST_PATH_IMAGE007
为第三变换矩阵,
Figure DEST_PATH_IMAGE008
为第三偏移量,
Figure 411659DEST_PATH_IMAGE009
为第四变换矩阵,
Figure DEST_PATH_IMAGE010
为第四偏移量,
Figure 437384DEST_PATH_IMAGE011
为第五变换矩阵,
Figure DEST_PATH_IMAGE012
为第五偏移量,
Figure 360209DEST_PATH_IMAGE013
函数是阈值激活函数,
Figure DEST_PATH_IMAGE014
函数是特征激活函数,
其中,第二变换矩阵
Figure 355847DEST_PATH_IMAGE005
、第二偏移量
Figure 11344DEST_PATH_IMAGE006
、第三变换矩阵
Figure 145653DEST_PATH_IMAGE007
、第三偏移量
Figure 352512DEST_PATH_IMAGE008
、第四变换矩阵
Figure 620682DEST_PATH_IMAGE009
、第四偏移量
Figure 285013DEST_PATH_IMAGE010
、第五变换矩阵
Figure 246016DEST_PATH_IMAGE011
和第五偏移量
Figure 940171DEST_PATH_IMAGE012
的取值,由所述环路视图确定。
3.基于多环路视图卷积神经网络的立体视觉检索系统,其特征在于,所述系统包括:获取单元,提取单元,拼接单元以及输出单元;
所述获取单元用于获取视觉对象在所处空间内至少两个相交平面上的环路视图,其中,所述环路视图包括至少三张对象视图;
所述提取单元用于根据视图卷积神经网络和长短时记忆网络模型,对所述环路视图进行特征提取,得到所述环路视图对应的环路描述子,其中,具体包括:处理模块,正则化模块以及生成模块;
所述处理模块用于根据所述视图卷积神经网络中的残差神经网络模型,对任一张所述对象视图进行特征向量处理,记作第一特征向量;
所述正则化模块用于采用所述视图卷积神经网络中的环路正则化模型,根据所述第一特征向量和所述对象视图中的环路统计信息,抽取第二特征向量;
所述生成模块用于根据所述第二特征向量和所述长短时记忆网络模型,采用平均池化算法,生成所述环路描述子;
所述拼接单元用于采用拼接算法,对所述环路描述子进行拼接处理,得到全局特征标识,记作检索特征;
所述输出单元用于根据样本空间中的样本与所述检索特征之间的欧氏距离的排序,依次输出所述样本。
4.如权利要求3所述的基于多环路视图卷积神经网络的立体视觉检索系统,其特征在于,所述长短时记忆网络模型的计算公式被配置为:
Figure 356240DEST_PATH_IMAGE001
式中,
Figure 655503DEST_PATH_IMAGE002
为当前输入量,
Figure 440270DEST_PATH_IMAGE003
为上一个中间输出,
Figure 310137DEST_PATH_IMAGE004
为当前中间输出,
Figure 920110DEST_PATH_IMAGE005
为第二变换矩阵,
Figure 73880DEST_PATH_IMAGE006
为第二偏移量,
Figure 642264DEST_PATH_IMAGE007
为第三变换矩阵,
Figure 999427DEST_PATH_IMAGE008
为第三偏移量,
Figure 616354DEST_PATH_IMAGE009
为第四变换矩阵,
Figure 765575DEST_PATH_IMAGE010
为第四偏移量,
Figure 567178DEST_PATH_IMAGE011
为第五变换矩阵,
Figure 192063DEST_PATH_IMAGE012
为第五偏移量,
Figure 474664DEST_PATH_IMAGE013
函数是阈值激活函数,
Figure 212813DEST_PATH_IMAGE014
函数是特征激活函数,
其中,第二变换矩阵
Figure 529525DEST_PATH_IMAGE005
、第二偏移量
Figure 110548DEST_PATH_IMAGE006
、第三变换矩阵
Figure 397173DEST_PATH_IMAGE007
、第三偏移量
Figure 380041DEST_PATH_IMAGE008
、第四变换矩阵
Figure 867654DEST_PATH_IMAGE009
、第四偏移量
Figure 811340DEST_PATH_IMAGE010
、第五变换矩阵
Figure 23360DEST_PATH_IMAGE011
和第五偏移量
Figure 142625DEST_PATH_IMAGE012
的取值,由所述环路视图确定。
CN201910071879.1A 2019-01-25 2019-01-25 基于多环路视图卷积神经网络的立体视觉检索方法与系统 Active CN109857895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910071879.1A CN109857895B (zh) 2019-01-25 2019-01-25 基于多环路视图卷积神经网络的立体视觉检索方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910071879.1A CN109857895B (zh) 2019-01-25 2019-01-25 基于多环路视图卷积神经网络的立体视觉检索方法与系统

Publications (2)

Publication Number Publication Date
CN109857895A CN109857895A (zh) 2019-06-07
CN109857895B true CN109857895B (zh) 2020-10-13

Family

ID=66896115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910071879.1A Active CN109857895B (zh) 2019-01-25 2019-01-25 基于多环路视图卷积神经网络的立体视觉检索方法与系统

Country Status (1)

Country Link
CN (1) CN109857895B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334237B (zh) * 2019-07-15 2022-03-01 清华大学 一种基于多模态数据的立体对象检索方法与系统
CN110827302A (zh) * 2019-11-14 2020-02-21 中南大学 基于深度图卷积网络的点云目标提取方法及装置
CN110968429B (zh) * 2019-12-20 2022-11-11 北京百度网讯科技有限公司 一种有向图中的环路检测方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024036A (zh) * 2010-11-29 2011-04-20 清华大学 基于超图的三维对象检索方法和装置
CN104090972A (zh) * 2014-07-18 2014-10-08 北京师范大学 用于三维城市模型检索的图像特征提取和相似性度量方法
CN106528826A (zh) * 2016-11-18 2017-03-22 广东技术师范学院 一种基于深度学习的多视图外观专利图像检索方法
CN107274483A (zh) * 2017-06-14 2017-10-20 广东工业大学 一种物体三维模型构建方法
CN107491459A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 三维立体图像的检索方法和装置
WO2019007041A1 (zh) * 2017-07-06 2019-01-10 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024036A (zh) * 2010-11-29 2011-04-20 清华大学 基于超图的三维对象检索方法和装置
CN104090972A (zh) * 2014-07-18 2014-10-08 北京师范大学 用于三维城市模型检索的图像特征提取和相似性度量方法
CN107491459A (zh) * 2016-06-13 2017-12-19 阿里巴巴集团控股有限公司 三维立体图像的检索方法和装置
CN106528826A (zh) * 2016-11-18 2017-03-22 广东技术师范学院 一种基于深度学习的多视图外观专利图像检索方法
CN107274483A (zh) * 2017-06-14 2017-10-20 广东工业大学 一种物体三维模型构建方法
WO2019007041A1 (zh) * 2017-07-06 2019-01-10 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于卷积神经网络的光学遥感图像检索";李宇等;《光学精密工程》;20180131;第26卷(第1期);第201-206页 *
"多视图学习算法和应用研究";王岳青;《中国博士学位论文全文数据库 信息科技辑》;20190115;第19-34页 *

Also Published As

Publication number Publication date
CN109857895A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
Li et al. Pointnetlk revisited
Huang et al. A coarse-to-fine algorithm for matching and registration in 3D cross-source point clouds
Kadam et al. R-pointhop: A green, accurate, and unsupervised point cloud registration method
Gao et al. View-based 3D object retrieval: challenges and approaches
Xia et al. Loop closure detection for visual SLAM using PCANet features
Truong et al. Pdc-net+: Enhanced probabilistic dense correspondence network
CN109857895B (zh) 基于多环路视图卷积神经网络的立体视觉检索方法与系统
CN107481279A (zh) 一种单目视频深度图计算方法
CN104616247B (zh) 一种用于基于超像素sift航拍地图拼接的方法
CN111310821B (zh) 多视图特征融合方法、系统、计算机设备及存储介质
CN112085072B (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
WO2023201924A1 (zh) 对象缺陷检测方法、装置、计算机设备和存储介质
CN112562081B (zh) 一种用于视觉分层定位的视觉地图构建方法
CN110990608A (zh) 一种基于Siamese结构双向长短时记忆网络的三维模型检索方法
CN112328715A (zh) 视觉定位方法及相关模型的训练方法及相关装置、设备
CN115147599A (zh) 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法
CN112464775A (zh) 一种基于多分支网络的视频目标重识别方法
Qin et al. Depth estimation by parameter transfer with a lightweight model for single still images
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN112270748A (zh) 基于图像的三维重建方法及装置
CN113139540B (zh) 背板检测方法及设备
CN111414802B (zh) 蛋白质数据特征提取方法
Dubenova et al. D-InLoc++: Indoor Localization in Dynamic Environments
Okura et al. Descriptor-free multi-view region matching for instance-wise 3D reconstruction
Lu et al. TSN-GReID: Transformer-based Siamese network for group re-identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant