CN109857895B

CN109857895B - 基于多环路视图卷积神经网络的立体视觉检索方法与系统

Info

Publication number: CN109857895B
Application number: CN201910071879.1A
Authority: CN
Inventors: 高跃; 蒋建文; 赵曦滨
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2020-10-13
Anticipated expiration: 2039-01-25
Also published as: CN109857895A

Abstract

本申请公开了基于多环路视图卷积神经网络的立体视觉检索方法与系统，其中，该方法包括：步骤1，获取视觉对象在所处空间内至少两个相交平面上的环路视图，其中，环路视图包括至少三张对象视图；步骤2，根据视图卷积神经网络和长短时记忆网络模型，对环路视图进行特征提取，得到环路视图对应的环路描述子；步骤3，采用拼接算法，对环路描述子进行拼接处理，得到全局特征标识，记作检索特征；步骤4，根据样本空间中的样本与检索特征之间的欧氏距离的排序，依次输出样本。通过本申请中的技术方案，实现了从不同平面获取立体视觉对象的视图，提高了视图中立体视觉对象之间的可区分性，优化了对立体视图对象的检索性能和检索过程中的鲁棒性。

Description

基于多环路视图卷积神经网络的立体视觉检索方法与系统

技术领域

本申请涉及立体视觉检索的技术领域，具体而言，涉及基于多环路视图卷积神经网络的立体视觉检索方法以及基于多环路视图卷积神经网络的立体视觉检索系统。

背景技术

立体视觉对象检索在近年来已经能到了极大的关注，在计算机视觉领域中已经成为了热门话题，立体视觉对象检索的目的是为了可以在给定数据库中寻找到被查询立体视觉对象最类似的物体。立体视觉对象有很多种视觉表示模态，如视图投影、网格、点云等模态，其中，视图投影模态较为常用，基于多视图的表示学习即将三维视觉立体物体投影成二维图像，然后从多张二维图像中学习三维物体的特征表示。通常而言，立体视觉对象有着复杂多变的几何形状，因此，从不同的角度获取视觉对象的视图，有利于完整的表示一个立体视觉对象。

而现有技术中，通常是将相机固定于一个特定的水平面上，然后水平均匀呈环形摆放，或者将相机设置于二十面体的各个顶点上，使用预设置相机进行二维图像投影，使用特定的特征抽取器如卷积神经网络或者传统手工特征进行视图特征抽取，最后再对多视图的不同特征进行融合得到三维立体视觉特征表示。在融合时，并没有考虑到各个视图之间的特征关联信息，如视图前后出现的客观联系与视图间像素移动、变化本身包含的信息，同时，获取视觉对象的视图的空间角度相对单一，导致立体视觉检索系统的检索性能和鲁棒性偏低。

发明内容

本申请的目的在于：提高立体视觉对象的检索性能和鲁棒性，有利于避免相似立体视觉对象的混淆。

本申请第一方面的技术方案是：提供了基于多环路视图卷积神经网络的立体视觉检索方法，该方法包括：步骤1，获取视觉对象在所处空间内至少两个相交平面上的环路视图，其中，环路视图包括至少三张对象视图；步骤2，根据视图卷积神经网络和长短时记忆网络模型，对环路视图进行特征提取，得到环路视图对应的环路描述子；步骤3，采用拼接算法，对环路描述子进行拼接处理，得到全局特征标识，记作检索特征；步骤4，根据样本空间中的样本与检索特征之间的欧氏距离的排序，依次输出样本。

上述任一项技术方案中，进一步地，步骤21，根据视图卷积神经网络中的残差神经网络模型，对任一张对象视图进行特征向量处理，记作第一特征向量；步骤22，采用视图卷积神经网络中的环路正则化模型，根据第一特征向量和对象视图中的环路统计信息，抽取第二特征向量；步骤23，根据第二特征向量和长短时记忆网络模型，采用平均池化算法，生成环路描述子。

上述任一项技术方案中，进一步地，长短时记忆网络模型的计算公式为：

式中，x_t为当前输入量，h_t-1为上一个中间输出，h_t为当前中间输出，W_f为第二变换矩阵，b_f为第二偏移量，W_i为第三变换矩阵，b_i为第三偏移量，W_C为第四变换矩阵，b_C为第四偏移量，W_o为第五变换矩阵，b_o为第五偏移量，σ(·)函数是阈值激活函数，tanh(·)函数是特征激活函数，其中，第二变换矩阵W_f、第二偏移量b_f、第三变换矩阵W_i、第三偏移量b_i、第四变换矩阵W_C、第四偏移量b_C、第五变换矩阵W_o和第五偏移量b_o的取值，由环路视图确定。

本申请第二方面的技术方案是：提供了基于多环路视图卷积神经网络的立体视觉检索系统，该系统包括：获取单元，提取单元，拼接单元以及输出单元；获取单元用于获取视觉对象在所处空间内至少两个相交平面上的环路视图，其中，环路视图包括至少三张对象视图；提取单元用于根据视图卷积神经网络和长短时记忆网络模型，对环路视图进行特征提取，得到环路视图对应的环路描述子；拼接单元用于采用拼接算法，对环路描述子进行拼接处理，得到全局特征标识，记作检索特征；输出单元用于根据样本空间中的样本与检索特征之间的欧氏距离的排序，依次输出样本。

上述任一项技术方案中，进一步地，提取单元具体包括：处理模块，正则化模块以及生成模块；处理模块用于根据视图卷积神经网络中的残差神经网络模型，对任一张对象视图进行特征向量处理，记作第一特征向量；正则化模块用于采用视图卷积神经网络中的环路正则化模型，根据第一特征向量和对象视图中的环路统计信息，抽取第二特征向量；生成模块用于根据第二特征向量和长短时记忆网络模型，采用平均池化算法，生成环路描述子。

上述任一项技术方案中，进一步地，长短时记忆网络模型的计算公式被配置为：

本申请的有益效果是：通过对一个立体视觉对象，在至少两个相交平面上获取对应的环路视图，并按照对应的环路视图进行特征提取，建立检索特征，实现了从不同平面、不同角度获取立体视觉对象的视图，并对获取到的视图进行特征提取，提高了视图中立体视觉对象之间的可区分性，优化了对立体视图对象的检索性能和检索过程中的鲁棒性。

本申请中通过视图卷积神经网络，对不同平面、不同角度获取到的对象视图进行特征处理，得到对应的特征向量，进而生成特征描述子，从不同平面、不同角度对立体视觉对象进行特征描述，提高了对立体视觉对象描述的准确性，有效避免了相似立体视觉对象之间发生混淆，提高了立体视觉对象检索的准确性。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的基于多环路视图卷积神经网络的立体视觉检索方法的示意流程图；

图2是根据本申请的一个实施例的环路视图的示意图；

图3是根据本申请的一个实施例的基于多环路视图卷积神经网络的立体视觉检索系统的示意框图；

图4是根据本申请的一个实施例的基于多环路视图卷积神经网络的立体视觉检索系统的示意框图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

实施例一：

以下结合图1和图3对本申请的实施例一进行说明。

如图1所示，本实施例提供了基于多环路视图卷积神经网络的立体视觉检索方法，包括：

步骤1，获取视觉对象在所处空间内至少两个相交平面上的环路视图，其中，环路视图包括至少三张对象视图；

具体地，如图2所示，以视觉对象A的中心为原点，建立空间直角坐标系，选取xy轴平面、yz轴平面和zx轴平面作为三个视图环路平面，在三个视图环路平面上设置数量相等的相机B，所有相机B朝向视觉对象A的中心(空间直角坐标系的原点)，由相机B对视觉对象A进行视图获取，一个视图环路平面上的所有相机B获取的视图，构成一组环路视图。因此，在本实施例中，一组环路视图包括八张对象视图。

步骤2，根据视图卷积神经网络和长短时记忆网络模型，对环路视图进行特征提取，得到环路视图对应的环路描述子，其中，视图卷积神经网络包括残差神经网络模型和环路正则化模型；

该步骤2中，具体包括：

步骤21，根据视图卷积神经网络中的残差神经网络模型，对任一张对象视图进行特征向量处理，记作第一特征向量；

具体地，在本实施例中，根据仿射变换函数构造残差神经网络模型。获取到三组环路视图后，选取任一张对象视图，每个对象视图被独立对待，即不考虑对象视图之间的关联信息，利用构建的残差神经网络，对选取的对象视图进行特征向量处理，得到该对象视图对应的第一特征向量y1，其中，残差神经网络模型由多个残差单元堆叠而成，如采用向量拼接的方式，每个残差单元由仿射变换函数构成。首先，对对象视图进行特征抽取，得到待处理的特征向量x，其次，由堆叠的残差单元对抽取出的特征向量x进行特征处理运算，计算第一特征向量y1，第一特征向量y1的计算公式为：

y1＝F(x,W_y,b_y)+W_sx，

式中，F(·)函数是仿射变换函数，x为对象视图中待处理的特征向量，W_y为第一变换矩阵，b_y为第一偏移向量，W_s残差变换矩阵。

步骤22，采用视图卷积神经网络中的环路正则化模型，根据第一特征向量和对象视图中的环路统计信息，抽取第二特征向量；

具体地，对于计算出的第一特征向量y1，通过环路正则化模型，根据对象视图所属的对象环路(环路视图)的环路统计信息，如对象环路中的正则化均值与环路对象的正则化方差，抽取第一特征向量y1的特征，以保持第一特征向量y1所属不同环路的区分性，得到第二特征向量y2，其中，环路正则化模型的计算公式为：

其中，

式中，μ_S为选定的对象环路进行正则化所需的正则化均值，σ_S为选定的对象环路进行正则化所需的正则化标准差，γ_S为选定的对象环路进行正则化所需的正则化缩放因子，β_S为选定的对象环路进行正则化所需的正则化偏移因子，∈_S为选定的对象环路进行正则化所需的稳定性参数，K为对象环路内像素单元的数量，S为所属环路视图标记，p为选定的对象环路视图内的像素单元，在本实施例中，像素单元p的取值范围为[1,2,…,N]，其中，N为环路内视图数量v、视图特征图高度h、视图特征图宽度w以及视图特征图通道数c之间的乘积，在本实施例中，环路内视图数量v取值为8，视图特征图高度h、视图特征图宽度w以及视图特征图通道数c三者的取值与特征图(特征向量)所在网络层有关，视图特征图高度h和视图特征图宽度w的取值范围为[224,112,56,28,14],视图特征图通道数c的取值范围为[128,256,512,1024]，环路视图标记S的取值范围为[1,2,3]。

在抽取第二特征向量y2之前，根据选定的对象视图所属的环路视图，计算该环路视图中所有对象视图对应的均值μ_p和标准差σ_p，再计算环路视图中均值μ_p和标准差σ_p对应的平均值，分别将对应的平均值记作正则化均值μ_S和正则化标准差σ_S。进而利用环路正则化模型，得到第一特征向量y1对应的第二特征向量y2。

环路正则化模型是由一系列卷积层、非线性激活函数和正则化模型堆叠而成，用于将原始输入(第一特征向量y1)通过一个卷积层和一个非线性激活函数，如线性整流函数(Rectified Linear Unit，ReLU)，此时的中间计算量可以标记为D_ab，其中，a代表其环路序号(S)，b代表其视图序号(p)。再对所有环路序列ID(D_ab)相同的中间计算量做正则化操作，得到趋于一致的统计分布。此时不考虑不同环路之间的影响，即保持了不同环路的统计差异，也归一了相同环路内的视图特征使，得后续的序列建模更加容易。

将由残差神经网络模型得到的、以第一特征向量表示的第一视图层级描述子，通过环路正则化模型得到环路统计相关的、以第二特征向量表示的第二视图层级描述子，其在环路正则化模型中使用了每个环路内部的统计信息，从而使同一环路的第二视图层级描述子在表示上更趋于数值平稳，而不同环路的第二视图层级描述子之间的差异变大，增加了第二特征向量的丰富性。

步骤23，根据第二特征向量和长短时记忆网络模型，采用平均池化算法，生成环路描述子。

具体地，如图3所示，将同一环路内的多个第二特征向量y2作为输入，按照邻接顺序进行排列，依次输入长短时记忆网络模型。在长短时记忆网络模型生成环路描述子时，采用迭代的方式，将上一个中间输出与当前的第二特征向量y2，作为当前的输入，共同输入至长短时记忆网络模型，得到当前的中间输出，再将得到的所有的中间输出，利用平均池化算法，计算出当前环路的环路描述子。

其中，长短时记忆网络模型的公式化描述如下：

式中，x_t为当前输入量，h_t-1为上一个中间输出，h_t为当前中间输出，W_f为第二变换矩阵，b_f为第二偏移量，W_i为第三变换矩阵，b_i为第三偏移量，W_C为第四变换矩阵，b_C为第四偏移量，W_o为第五变换矩阵，b_o为第五偏移量，σ(·)函数是阈值激活函数，tanh(·)函数是特征激活函数，其中，第二变换矩阵W_f、第二偏移量b_f、第三变换矩阵W_i、第三偏移量b_i、第四变换矩阵W_C、第四偏移量b_C、第五变换矩阵W_o和第五偏移量b_o的取值，由所选择的环路视图确定。

在本实施例中，以xy轴平面对应的环路视图中的第四张对象视图为例，该对象视图的第二特征向量为y2⁴(当前输入x₄)，上一个中间输出为h₃，将第二特征向量y2⁴和中间输出h₃作为输入，输入至长短时记忆网络模型，对应的计算公式为：

对于当前的输入y2⁴，其与上一个中间输出h₃，经过遗忘门仿射变换(W_f，b_f)和阈值激活函数σ(·)后，得到遗忘门阈值f₄，同样的，经过输入门仿射变换(W_i，b_i)和阈值激活函数σ(·)后，得到输入门阈值i₄，经过特征仿射变换(W_C，b_c)和特征激活函数tanh(·)后，得到特征单元向量

经过输出门仿射变换(W_o，b_o)和阈值激活函数σ(·)后，得到输出门阈值o₄。根据遗忘门阈值f₄、输入门阈值i₄、特征单元向量

和上一个记忆单元向量C₃，做加权求和，得到当前的记忆单元向量C₄。将输出门阈值o₄和经过特征激活函数tanh(·)的记忆单元向量C₄相乘，得到当前的中间输出h₄。

将xy轴平面对应的环路视图中的八张对象视图对应的第二特征向量(y2¹、y2²、…、y2⁸)作为输入，输入至长短时记忆网络模型，得到对应的中间输出(h₁、h₂、…、h₈)，再采用平均池化算法，计算出xy轴平面对应环路视图的环路描述子。

步骤3，采用拼接算法，对环路描述子进行拼接，得到全局特征标识，记作检索特征；

具体地，将其依次拼接为一个n*d维向量，其中，向量维数n由环路视图的组数确定，维数d由环路描述子的个数确定，即X＝[x₁,x₂,x₃,…,x_n]。式中，n为拼接的向量维数。

然后使用仿射变换作用于拼接的向量上，得到对应的检索特征，仿射变换的计算公式为：

式中，W为检索变换矩阵，b检索偏移向量。

在本实施例中，设定有3个视图环路平面xy、yz、zx，每个视图环路包括8张图像，通过上述步骤，可以计算出3个环路描述子，并得到1个全局特征标识。

步骤4，根据样本空间中的样本与检索特征之间的欧氏距离的排序，依次输出样本。

具体地，在检索时，计算样本空间中每个样本与检索特征之间的欧氏距离，将计算的出的欧氏距离按照数值由小到大的顺序进行排列，依次输出对应的样本，作为视觉对象的检索结果(输出样本)。

优选地，根据设定的检索阈值，将样本与检索特征之间的欧氏距离小于检索阈值的样本，记作检索结果，将检索结果标记为输出样本。

实施例二：

如图4所示，本实施例提供了基于多环路视图卷积神经网络的立体视觉检索系统100，包括：获取单元101，提取单元102，拼接单元103以及输出单元104；获取单元101用于获取视觉对象在所处空间内至少两个相交平面上的环路视图，其中，环路视图包括至少三张对象视图；

具体地，以视觉对象的中心为原点，建立空间直角坐标系，选取xy轴平面、yz轴平面和zx轴平面作为三个视图环路平面，在三个视图环路平面上设置数量相等的相机，所有相机朝向视觉对象的中心(空间直角坐标系的原点)，由相机对视觉对象进行视图获取，一个视图环路平面上的所有相机获取的视图，构成一组环路视图。因此，在本实施例中，一组环路视图包括八张对象视图。

提取单元102用于根据视图卷积神经网络和长短时记忆网络模型，对环路视图进行特征提取，得到环路视图对应的环路描述子；

该提取单元102中，具体包括：处理模块，正则化模块以及生成模块；处理模块用于根据视图卷积神经网络中的残差神经网络模型，对任一张对象视图进行特征向量处理，记作第一特征向量；

y1＝F(x,W_y,b_y)+W_sx，

正则化模块用于采用视图卷积神经网络中的环路正则化模型，根据第一特征向量和对象视图中的环路统计信息，抽取第二特征向量；

其中，

生成模块用于根据第二特征向量和长短时记忆网络模型，采用平均池化算法，生成环路描述子。

具体地，将同一环路内的多个第二特征向量y2作为输入，按照邻接顺序进行排列，依次输入长短时记忆网络模型。在长短时记忆网络模型生成环路描述子时，采用迭代的方式，将上一个中间输出与当前的第二特征向量y2，作为当前的输入，共同输入至长短时记忆网络模型，得到当前的中间输出，再将得到的所有的中间输出，利用平均池化算法，计算出当前环路的环路描述子。

其中，长短时记忆网络模型的公式化描述如下：

拼接单元103用于采用拼接算法，对环路描述子进行拼接处理，得到全局特征标识，记作检索特征；

式中，W为检索变换矩阵，b检索偏移向量。

输出单元104用于根据样本空间中的样本与检索特征之间的欧氏距离的排序，依次输出样本。

优选地，在输出单元104中设置阈值模块，阈值模块用于根据设定的检索阈值，将样本与检索特征之间的欧氏距离小于检索阈值的样本，记作检索结果，将检索结果标记为输出样本。

将MVCNN检测方法、GIFT检测方法和DeepPano检测方法作为对比试验，通过对相同的视图模型进行检索，得到的对比结果如表1所示。

表1

检索方法	检索精度(mAP)
		MVCNN	80.2％
GIFT	81.9％
		DeepPano	76.8％
立体视觉检索方法	92.2％

通过表1中的数据可知，本申请中的立体视觉检索方法的检索精度明显高于现有的检测方法。

以上结合附图详细说明了本申请的技术方案，本申请提出了基于多环路视图卷积神经网络的立体视觉检索方法与系统，其中，该方法包括：步骤1，获取视觉对象在所处空间内至少两个相交平面上的环路视图，其中，环路视图包括至少三张对象视图；步骤2，根据视图卷积神经网络和长短时记忆网络模型，对环路视图进行特征提取，得到环路视图对应的环路描述子；步骤3，采用拼接算法，对环路描述子进行拼接处理，得到全局特征标识，记作检索特征；步骤4，根据样本空间中的样本与检索特征之间的欧氏距离的排序，依次输出样本。通过本申请中的技术方案，实现了从不同平面获取立体视觉对象的视图，提高了视图中立体视觉对象之间的可区分性，优化了对立体视图对象的检索性能和检索过程中的鲁棒性。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。