CN110334237A

CN110334237A - 一种基于多模态数据的立体对象检索方法与系统

Info

Publication number: CN110334237A
Application number: CN201910636624.5A
Authority: CN
Inventors: 高跃; 蒋建文; 赵曦滨; 万海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-10-15
Anticipated expiration: 2039-07-15
Also published as: CN110334237B

Abstract

本申请公开了一种基于多模态数据的立体对象检索方法与系统，其中，该方法包括：步骤1，获取待检索立体视觉对象的环路视图和点云数据；步骤2，利用特征提取模型分别提取环路视图和点云数据的特征，将提取到的特征分别记作第一特征向量和第二特征向量；步骤3，利用多模态特征融合算法，对第一特征向量和第二特征向量进行融合运算，生成待检索立体视觉对象的融合特征，将融合特征记作检索特征；步骤4，计算检索样本空间中每个样本与检索特征之间的欧式距离，并将样本按照欧氏距离由小到大的顺序进行排序，将排序后的样本记作待检索立体视觉对象的检索结果。通过本申请中的技术方案，优化了对立体对象的检索性能和检索过程中的鲁棒性。

Description

一种基于多模态数据的立体对象检索方法与系统

技术领域

本申请涉及立体视觉检索的技术领域，具体而言，涉及一种基于多模态数据的立体对象检索方法以及一种基于多模态数据的立体对象检索系统。

背景技术

立体视觉对象检索在近年来已经能到了极大的关注，在计算机视觉领域中已经成为了热门话题，立体视觉对象检索的目的是为了可以在给定数据库中寻找到被查询的、与立体视觉对象最类似的物体。立体视觉对象有很多种视觉表示模态，如视图投影模态、网格模态、点云模态等，其中，视图投影模态和点云模态较为常用，并且基于RGB-D相机可以直接同时得到这两种模态数据。通常而言，立体视觉对象有着复杂多变的几何形状，因此，融合不同模态，如将点云模态和视图投影模态融合，得到一个立体视觉对象的表示特征，有利于完整的表示一个立体视觉对象。

而现有技术中，通常是单纯地拼接不同模态之间的特征，得到多模态融合特征。这种拼接方法，在做特征融合的时候，没有考虑不同模态特征间的相互关系，缺乏多模态数据的局部对应关系，无法利用模态间关系，对立体视觉对象进行模态增强，导致对立体视觉检索的检索性能和鲁棒性偏低。

发明内容

本申请的目的在于：对多模态数据进行特征融合，提高立体视觉对象的检索性能和鲁棒性，避免检索过程中相似立体视觉对象之间的混淆。

本申请第一方面的技术方案是：提供了一种基于多模态数据的立体对象检索方法，该方法包括：步骤1，获取待检索立体视觉对象的环路视图和点云数据，其中，环路视图至少包含三张对象视图；步骤2，利用特征提取模型分别提取环路视图和点云数据的特征，将提取到的特征分别记作第一特征向量和第二特征向量；步骤3，利用多模态特征融合算法，对第一特征向量和第二特征向量进行融合运算，生成待检索立体视觉对象的融合特征，将融合特征记作检索特征；步骤4，计算检索样本空间中每个样本与检索特征之间的欧式距离，并将样本按照欧氏距离由小到大的顺序进行排序，将排序后的样本记作待检索立体视觉对象的检索结果。

上述任一项技术方案中，进一步地，特征提取模型包括残差神经网络模型和点云卷积神经网络模型，步骤2中，利用特征提取模型中的残差神经网络模型提取环路视图的第一特征向量的方法，具体包括：步骤21，根据预设步长，确定滑窗大小，其中，滑窗在环路视图中根据预设规则进行滑动；步骤22，按照像素点，提取滑窗中像素点数据，将提取出的像素点数据记作当前输入量，将当前输入量输入残差神经网络模型中的第一层卷积神经网络，计算当前输入量对应的第一次级特征向量，并将第一次级特征向量记作当前输入量，输入至下一层卷积神经网络，重新计算，直至得到最后一层卷积神经网络，并将最后一层卷积神经网络的输出记作部分特征向量，其中，每一层卷积神经网络的计算公式相同，计算公式为：

x_t+1＝σ(Conv[W_f1·[x_t]+b_f1])

式中，·[θ]为对参数θ进行卷积运算，x_t为第t层卷积神经网络的当前输入量，W_f1为第一变换矩阵，b_f1为第一偏移量，Conv[θ]为卷积运算，σ(θ)为阈值激活函数；

步骤23，滑动滑窗，重新执行步骤22，直到滑窗滑至对象视图的末端，拼接部分特征向量，得到对象视图的待定特征，对对象视图的待定特征进行平均化，得到第一特征向量。

上述任一项技术方案中，进一步地，步骤2中，利用特征提取模型中的点云卷积神经网络模型，提取点云数据的第二特征向量的方法，具体包括：将点云数据输入点云卷积神经网络模型的第一层全连接层，计算点云数据的第二次级特征向量，并将第二次级特征向量输入至下一层全连接层，重新计算第二次级特征向量，直到最后一层全连接层，并将最后一层全连接层的输出记作第二特征向量，其中，每一层全连接层的计算公式相同，计算公式为：

y_t+1＝σ(W_f2*[y_t]+b_f2)

式中，*[θ]为对参数θ进行矩阵乘法运算，y_t为第t层全连接层的输入，W_f2为第二变换矩阵，b_f2为第二偏移量，σ(θ)为阈值激活函数。

上述任一项技术方案中，进一步地，该步骤3中，具体包括：步骤31，根据第一特征向量和第二特征向量进行特征抽取，将特征抽取的结果进行矩阵乘法，并对乘法结果进行两个不同维度的归一化计算，得到第一相互权重矩阵和第二相互权重矩阵；

步骤32，根据第一相互权重矩阵和第二相互权重矩阵，利用相互注意力机制和残差机制，计算第一相互增强特征和第二相互增强特征，并将第一相互增强特征和第二相互增强特征进行拼接处理，生成融合特征，其中，融合特征的计算公式为：

f_t7＝[f_t5,f_t6]

f_t5＝f_t1+f_t2*f_t3

f_t6＝f_t2+f_t1*f_t4

式中，f_t1为第一特征向量，f_t2为第二特征向量，f_t3为第一相互权重矩阵，f_t4为第二相互权重矩阵，f_t5为第一相互增强特征，f_t6为第二相互增强特征，f_t7为融合特征。

上述任一项技术方案中，进一步地，点云数据中至少包含1024个数据点。

上述任一项技术方案中，进一步地，将样本按照欧氏距离排序后，根据预设检索阈值，选取欧氏距离小于或等于检索阈值的样本，记作检索结果，并将检索结果标记为输出样本。

本申请第二方面的技术方案是：提供了一种基于多模态数据的立体对象检索系统，该系统包括：数据获取模块，向量提取模块，特征生成模块，结果生成模块；数据获取模块用于获取待检索立体视觉对象的环路视图和点云数据，其中，环路视图至少包含三张对象视图；向量提取模块用于利用特征提取模型分别提取环路视图和点云数据的特征，将提取到的特征分别记作第一特征向量和第二特征向量；特征生成模块用于利用多模态特征融合算法，对第一特征向量和第二特征向量进行融合运算，生成待检索立体视觉对象的融合特征，将融合特征记作检索特征；结果生成模块用于计算检索样本空间中每个样本与检索特征之间的欧式距离，并将样本按照欧氏距离由小到大的顺序进行排序，将排序后的样本记作待检索立体视觉对象的检索结果。

上述任一项技术方案中，进一步地，特征提取模型包括残差神经网络模型和点云卷积神经网络模型，向量提取模块具体包括：滑窗确定单元，卷积计算单元，特征拼接单元；滑窗确定单元用于根据预设步长，确定滑窗大小，并滑动滑窗，其中，滑窗在环路视图中根据预设规则进行滑动；

卷积计算单元用于在每次滑动滑窗时，按照像素点，提取滑窗中像素点数据，将提取出的像素点数据记作当前输入量，将当前输入量输入残差神经网络模型中的第一层卷积神经网络，计算当前输入量对应的第一次级特征向量，并将第一次级特征向量记作当前输入量，输入至下一层卷积神经网络，重新计算，直至得到最后一层卷积神经网络，并将最后一层卷积神经网络的输出记作部分特征向量，其中，每一层卷积神经网络的计算公式相同，计算公式为：

x_t+1＝σ(Conv[W_f1·[x_t]+b_f1])

特征拼接单元用于拼接部分特征向量，得到对象视图的待定特征，对对象视图的待定特征进行平均化，得到第一特征向量。

上述任一项技术方案中，进一步地，向量提取模块还包括：特征计算单元；特征计算单元用于将点云数据输入点云卷积神经网络模型的第一层全连接层，计算点云数据的第二次级特征向量，并将第二次级特征向量输入至下一层全连接层，重新计算第二次级特征向量，直到最后一层全连接层，并将最后一层全连接层的输出记作第二特征向量，其中，每一层全连接层的计算公式相同，计算公式为：

y_t+1＝σ(W_f2*[y_t]+b_f2)

上述任一项技术方案中，进一步地，特征生成模块具体包括：特征抽取单元，特征融合单元；特征抽取单元用于根据第一特征向量和第二特征向量进行特征抽取，将特征抽取的结果进行矩阵乘法，并对乘法结果进行两个不同维度的归一化计算，得到第一相互权重矩阵和第二相互权重矩阵；特征融合单元用于根据第一相互权重矩阵和第二相互权重矩阵，利用相互注意力机制和残差机制，计算第一相互增强特征和第二相互增强特征，并将第一相互增强特征和第二相互增强特征进行拼接处理，生成融合特征，其中，融合特征的计算公式为：

f_t7＝[f_t5,f_t6]

f_t5＝f_t1+f_t2*f_t3

f_t6＝f_t2+f_t1*f_t4

本申请的有益效果是：

对一个待检索立体视觉对象，分别通过残差神经网络模型提取的视图投影特征向量、通过点云卷积神经网络模型提取的点云特征向量，然后依据多模态特征融合算法，将不同特征向量进行融合特征提取，建立检索特征，实现了从不同模态、不同层次获取立体视觉对象的特征，提高了立体视觉对象之间的可区分性，优化了对立体对象的检索性能和检索过程中的鲁棒性，有效避免了相似立体视觉对象之间发生混淆。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的基于多模态数据的立体对象检索方法的示意流程图；

图2是根据本申请的一个实施例的基于多模态数据的立体对象检索系统的示意框图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

实施例一：

如图1所示，本实施例提供了一种基于多模态数据的立体对象检索方法，包括：

步骤1，获取待检索立体视觉对象的环路视图和点云数据，其中，环路视图至少包含三张对象视图。

优选地，点云数据中至少包含1024个数据点。

具体地，以待检索立体视觉对象的中心为原点，建立空间直角坐标系，任意选取过原点的一个平面作为视图环路平面，在本实施例中，选取xy轴所在的平面作为视图环路平面。

在获取环路视图时，根据实际需求设置一定数量的相机，在本实施例中设置八台相机，所有相机朝向原点，同时对待检索立体视觉对象进行拍照，获取对象视图，这八张对象视图即构成待检索立体视觉对象的环路视图。

在获取点云数据时，使用激光点云扫描仪，对空间直角坐标系中的待检索立体视觉对象进行360度点云扫描，根据预设精度，对扫面得到的数据进行随机采样，选取数据点组成点云数据，在本实施例中，选取1024个数据点组成点云数据。

步骤2，利用特征提取模型分别提取环路视图和点云数据的特征，将提取到的特征分别记作第一特征向量和第二特征向量。

进一步地，特征提取模型包括残差神经网络模型和点云卷积神经网络模型，利用特征提取模型中的残差神经网络模型提取环路视图的第一特征向量的方法，具体包括：

步骤21，根据预设步长，确定滑窗，其中，滑窗在环路视图中根据预设规则进行滑动；

具体地，在本实施例中，设定预设步长为s个单位步长，每一个单位步长对应一个像素点，设定滑窗大小为k×k，其中，s≤k。因此，可以结合预设步长s和精度需求，确定滑窗大小，在本实施例中，设定预设步长s＝1，滑窗大小为3×3。

以每一张对象视图为单位，建立H/W坐标系，设定对象视图第一行第一列的像素点为滑窗的起始位置，滑窗根据预设步长s沿H轴滑动，待滑至对象视图第一行倒数第三列后，滑窗移动至第二行第一列像素点的位置，重新滑动。

步骤22，在每次滑动滑窗过程中，按照像素点，提取滑窗中像素点数据，将提取出的像素点数据记作当前输入量，将当前输入量输入残差神经网络模型中的第一层卷积神经网络，计算当前输入量对应的第一次级特征向量，并将第一次级特征向量记作当前输入量，输入至下一层卷积神经网络，重新计算第一次级特征向量，直至得到最后一层卷积神经网络，并将最后一层卷积神经网络的输出记作部分特征向量，其中，每一层卷积神经网络的计算公式相同，卷积神经网络的计算公式为：

x_t+1＝σ(Conv[W_f1·[x_t]+b_f1])

式中，·[θ]为对参数θ进行卷积运算，x_t为第t层卷积神经网络的当前输入量，W_f1为第一变换矩阵，b_f1为第一偏移量，Conv[θ]为卷积运算，σ(θ)为阈值激活函数，在本实施例中，可以选取特征激活函数ReLU(θ)作为阈值激活函数；

步骤23，滑动滑窗，重新执行步骤22，直到滑窗滑至对象视图的末端，拼接部分特征向量，得到对象视图的待定特征，对对象视图的待定特征进行平均化，得到第一特征向量f₁。

具体地，对于第一张对象视图而言，每一次滑动滑窗，得到一个3x3的矩阵，将这个矩阵输入卷积神经网络，经过多层卷积运算，得到这个滑窗对应的结果A1，再滑动滑窗至下一个位置，同样得到结果A2，直到最后，共有An个结果(n的取值由对象视图的大小、滑窗大小、预设步长共同决定)，将这n个结果进行拼接，得到第一张对象视图对应卷积神经网络的输出B1。八张对象视图对应8个卷积神经网络的输出Bm(m＝1,2,…,8)，再将这8个输出Bm进行平均化，得到环路视图对应的第一特征向量f₁。

进一步地，利用特征提取模型中的点云卷积神经网络模型，提取点云数据的第二特征向量的方法，具体包括：

步骤24，将点云数据输入点云卷积神经网络模型的第一层全连接层，计算点云数据的第二次级特征向量，并将第二次级特征向量输入至下一层全连接层，重新计算第二次级特征向量，直到最后一层全连接层，并将最后一层全连接层的输出记作第二特征向量，其中，每一层全连接层的计算公式相同，全连接层的计算公式为：

y_t+1＝σ(W_f2*[y_t]+b_f2)

式中，*[θ]为对参数θ进行矩阵乘法运算，y_t为第t层全连接层的输入，W_f2为第二变换矩阵，b_f2为第二偏移量，σ(θ)为阈值激活函数，在本实施例中，可以选取特征激活函数ReLU(θ)作为阈值激活函数，并将最后一层全连接层的输出记作第二特征向量f₂。

步骤3，利用多模态特征融合算法，对第一特征向量和第二特征向量进行融合运算，生成待检索立体视觉对象的融合特征，将融合特征记作检索特征，其中，融合运算包括特征抽取和拼接处理。

进一步地，该步骤3中，具体包括：

步骤31，根据第一特征向量f₁和第二特征向量f₂进行特征抽取，即对特征向量f₁和f₂重新进行特征变换，将特征抽取的结果进行矩阵乘法，并对乘法结果进行两个不同维度的归一化计算，得到第一相互权重矩阵f_t3和第二相互权重矩阵f_t4；

具体地，特征抽取的计算公式为：

f_t1＝σ(W_t1*[f₁]+b_t1)

f_t2＝σ(W_t2*[f₂]+b_t2)

式中，W_t1和W_t2为权重矩阵，*为矩阵乘法，b_t1和b_t2为偏移向量，σ(θ)为阈值激活函数，f_t1为特征抽取后的第一特征向量，f_t2为特征抽取后的第二特征向量。在本实施例中，设定第一特征向量f₁和第二特征向量f₂为512维特征向量，则W_t1和W_t2为512×512维度的权重矩阵，b_t1和b_t2为512维的偏移向量，可以选取特征激活函数ReLU(θ)作为阈值激活函数。

可以采用两个不同维度的SoftMax(·)函数进行归一化计算，对给定范围内的数据做数学函数softmax变换，所以直接标明作用范围(维度)，代表作用于不同维度。归一化的计算公式为：

f_t3＝SoftMax_1(f_t1*f_t2)

f_t4＝SoftMax_2(f_t1*f_t2)

SoftMax_1(f_t1*f_t2)表示函数SoftMax_1作用于f_t1数据的f_t2维度，即函数SoftMax_1作用于特征抽取后的第一特征向量f_t1的521维度，也就是说，用特征抽取后的第二特征向量f_t2的维度，限定函数SoftMax_1的作用范围，SoftMax_2(f_t1*f_t2)表示函数SoftMax_2作用于f_t2数据的f_t1维度。

步骤32，根据第一相互权重矩阵f_t3和第二相互权重矩阵f_t4，利用相互注意力机制和残差机制，计算第一相互增强特征f_t5和第二相互增强特征f_t6，将第一相互增强特征f_t5和第二相互增强特征f_t6进行拼接处理，生成融合特征f_t7，其中，融合特征f_t7的计算公式为：

f_t7＝[f_t5,f_t6]

f_t5＝f_t1+f_t2*f_t3

f_t6＝f_t2+f_t1*f_t4

具体地，考虑到数据在神经网络传导过程中，由于经过太多次运算会导致回传的梯度弥散，以及不能保证变换后的特征就一定好，所以引入残差机制，加上变换前的输入(特征)，可以保证梯度在回传后被保留更多，也可以加强多模态特征融合算法的鲁棒性。

相互注意力机制是一种加权索引方法，以第一相互增强特征f_t5为例，f_t3是一个索引器，其代表了当前特征，即特征抽取后的第一特征向量f_t1，对特征抽取后的第二特征向量f_t2中的获取要求，f_t3中的每一位代表了f_t1对f_t2中每一位特征的权重，通过“*”操作，对f_t3中的特征进行加权索引，获取想要的信息，生成第一相互增强特征f_t5。f_t1、f_t2是两个特征向量，f_t3是f_t1到f_t2的关系矩阵(相互权重矩阵)，f_t4是f_t2到f_t1的关系矩阵，通过关系矩阵相互索引，f_t5是f_t1通过f_t3从f_t2索引特征后新的增强的特征，f_t6是f_t2通过f_t4从f_t1索引特征后新的增强的特征。

步骤4，计算检索样本空间中每个样本与检索特征之间的欧式距离，并将样本按照欧氏距离由小到大的顺序进行排序，将排序后的样本记作待检索立体视觉对象的检索结果。

具体地，在检索时，计算样本空间中每个样本与检索特征之间的欧氏距离，将计算的出的欧氏距离按照数值由小到大的顺序进行排列，依次输出对应的样本，作为视觉对象的检索结果。

优选地，根据预设检索阈值，选取欧氏距离小于或等于检索阈值的样本，记作检索结果，并将检索结果标记为输出样本。

实施例二：

如图2所示，本实施例提供了一种基于多模态数据的立体对象检索系统100，包括：数据获取模块10，向量提取模块20，特征生成模块30，结果生成模块40；

数据获取模块10用于获取待检索立体视觉对象的环路视图和点云数据，其中，环路视图至少包含三张对象视图；

优选地，点云数据中至少包含1024个数据点。

向量提取模块20用于利用特征提取模型分别提取环路视图和点云数据的特征，将提取到的特征分别记作第一特征向量和第二特征向量；

进一步地，特征提取模型包括残差神经网络模型和点云卷积神经网络模型，向量提取模块20具体包括：滑窗确定单元21，卷积计算单元22，特征拼接单元23；

滑窗确定单元21用于根据预设步长，确定滑窗大小，并滑动滑窗，其中，滑窗在环路视图中根据预设规则进行滑动；

卷积计算单元22用于在每次滑动滑窗时，按照像素点，提取滑窗中像素点数据，将提取出的像素点数据记作当前输入量，将当前输入量输入残差神经网络模型中的第一层卷积神经网络，计算当前输入量对应的第一次级特征向量，并将第一次级特征向量记作当前输入量，输入至下一层卷积神经网络，重新计算，直至得到最后一层卷积神经网络，并将最后一层卷积神经网络的输出记作部分特征向量，其中，每一层卷积神经网络的计算公式相同，计算公式为：

x_t+1＝σ(Conv[W_f1·[x_t]+b_f1])

特征拼接单元23用于拼接部分特征向量，得到对象视图的待定特征，对对象视图的待定特征进行平均化，得到第一特征向量。

进一步地，向量提取模块20还包括：特征计算单元24；特征计算单元24用于将点云数据输入点云卷积神经网络模型的第一层全连接层，计算点云数据的第二次级特征向量，并将第二次级特征向量输入至下一层全连接层，重新计算第二次级特征向量，直到最后一层全连接层，并将最后一层全连接层的输出记作第二特征向量，其中，每一层全连接层的计算公式相同，计算公式为：

y_t+1＝σ(W_f2*[y_t]+b_f2)

特征生成模块30用于利用多模态特征融合算法，对第一特征向量和第二特征向量进行融合运算，生成待检索立体视觉对象的融合特征，将融合特征记作检索特征，其中，融合运算包括特征抽取和拼接处理；

进一步地，特征生成模块30具体包括：特征抽取单元31，特征融合单元32；

特征抽取单元31用于根据第一特征向量和第二特征向量进行特征抽取，将特征抽取的结果进行矩阵乘法，并对乘法结果进行两个不同维度的归一化计算，得到第一相互权重矩阵和第二相互权重矩阵；

具体地，特征抽取的计算公式为：

f_t1＝σ(W_t1*[f₁]+b_t1)

f_t2＝σ(W_t2*[f₂]+b_t2)

f_t3＝SoftMax_1(f_t1*f_t2)

f_t4＝SoftMax_2(f_t1*f_t2)

特征融合单元32用于根据第一相互权重矩阵和第二相互权重矩阵，利用相互注意力机制和残差机制，计算第一相互增强特征和第二相互增强特征，并将第一相互增强特征和第二相互增强特征进行拼接处理，生成融合特征，其中，融合特征的计算公式为：

f_t7＝[f_t5,f_t6]

f_t5＝f_t1+f_t2*f_t3

f_t6＝f_t2+f_t1*f_t4

结果生成模块40用于计算检索样本空间中每个样本与检索特征之间的欧式距离，并将样本按照欧氏距离由小到大的顺序进行排序，将排序后的样本记作待检索立体视觉对象的检索结果。

以上结合附图详细说明了本申请的技术方案，本申请提出了一种基于多模态数据的立体对象检索方法与系统，其中，该方法包括：步骤1，获取待检索立体视觉对象的环路视图和点云数据；步骤2，利用特征提取模型分别提取环路视图和点云数据的特征，将提取到的特征分别记作第一特征向量和第二特征向量；步骤3，利用多模态特征融合算法，对第一特征向量和第二特征向量进行融合运算，生成待检索立体视觉对象的融合特征，将融合特征记作检索特征；步骤4，计算检索样本空间中每个样本与检索特征之间的欧式距离，并将样本按照欧氏距离由小到大的顺序进行排序，将排序后的样本记作待检索立体视觉对象的检索结果。通过本申请中的技术方案，优化了对立体对象的检索性能和检索过程中的鲁棒性。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims

1.一种基于多模态数据的立体对象检索方法，其特征在于，该方法包括：

步骤1，获取待检索立体视觉对象的环路视图和点云数据，其中，所述环路视图至少包含三张对象视图；

步骤2，利用特征提取模型分别提取所述环路视图和所述点云数据的特征，将提取到的所述特征分别记作第一特征向量和第二特征向量；

步骤3，利用多模态特征融合算法，对所述第一特征向量和所述第二特征向量进行融合运算，生成所述待检索立体视觉对象的融合特征，将所述融合特征记作检索特征；

步骤4，计算检索样本空间中每个样本与所述检索特征之间的欧式距离，并将所述样本按照所述欧氏距离由小到大的顺序进行排序，将排序后的所述样本记作所述待检索立体视觉对象的检索结果。

2.如权利要求1所述的基于多模态数据的立体对象检索方法，所述特征提取模型包括残差神经网络模型和点云卷积神经网络模型，其特征在于，步骤2中，利用所述特征提取模型中的所述残差神经网络模型提取所述环路视图的所述第一特征向量的方法，具体包括：

步骤21，根据预设步长，确定滑窗大小，其中，所述滑窗在所述环路视图中根据预设规则进行滑动；

步骤22，按照像素点，提取所述滑窗中像素点数据，将提取出的所述像素点数据记作当前输入量，将所述当前输入量输入所述残差神经网络模型中的第一层卷积神经网络，计算所述当前输入量对应的第一次级特征向量，并将所述第一次级特征向量记作所述当前输入量，输入至下一层卷积神经网络，重新计算，直至得到最后一层卷积神经网络，并将所述最后一层卷积神经网络的输出记作部分特征向量，其中，每一层所述卷积神经网络的计算公式相同，所述计算公式为：

x_t+1＝σ(Conv[W_f1·[x_t]+b_f1])

式中，.[θ]为对参数θ进行卷积运算，x_t为第t层卷积神经网络的所述当前输入量，W_f1为第一变换矩阵，b_f1为第一偏移量，Conv[θ]为卷积运算，σ(θ)为阈值激活函数；

步骤23，滑动所述滑窗，重新执行步骤22，直到所述滑窗滑至所述对象视图的末端，拼接所述部分特征向量，得到所述对象视图的待定特征，对所述对象视图的所述待定特征进行平均化，得到所述第一特征向量。

3.如权利要求2所述的基于多模态数据的立体对象检索方法，其特征在于，步骤2中，利用所述特征提取模型中的所述点云卷积神经网络模型，提取所述点云数据的所述第二特征向量的方法，具体包括：

将所述点云数据输入所述点云卷积神经网络模型的第一层全连接层，计算所述点云数据的第二次级特征向量，并将所述第二次级特征向量输入至下一层全连接层，重新计算所述第二次级特征向量，直到最后一层全连接层，并将所述最后一层全连接层的输出记作所述第二特征向量，其中，每一层所述全连接层的计算公式相同，所述计算公式为：

y_t+1＝σ(W_f2*[y_t]+b_f2)

式中，*[θ]为对参数θ进行矩阵乘法运算，y_t为第t层所述全连接层的输入，W_f2为第二变换矩阵，b_f2为第二偏移量，σ(θ)为阈值激活函数。

4.如权利要求1所述的基于多模态数据的立体对象检索方法，其特征在于，该步骤3中，具体包括：

步骤31，根据所述第一特征向量和所述第二特征向量进行特征抽取，将所述特征抽取的结果进行矩阵乘法，并对乘法结果进行两个不同维度的归一化计算，得到第一相互权重矩阵和第二相互权重矩阵；

步骤32，根据所述第一相互权重矩阵和所述第二相互权重矩阵，利用相互注意力机制和残差机制，计算第一相互增强特征和第二相互增强特征，并将所述第一相互增强特征和所述第二相互增强特征进行拼接处理，生成所述融合特征，其中，所述融合特征的计算公式为：

f_t7＝[f_t5，f_t6]

f_t5＝f_t1+f_t2*f_t3

f_t6＝f_t2+f_t1*f_t4

式中，f_t1为所述第一特征向量，f_t2为所述第二特征向量，f_t3为所述第一相互权重矩阵，f_t4为所述第二相互权重矩阵，f_t5为所述第一相互增强特征，f_t6为所述第二相互增强特征，f_t7为所述融合特征。

5.如权利要求1所述的基于多模态数据的立体对象检索方法，其特征在于，所述点云数据中至少包含1024个数据点。

6.一种基于多模态数据的立体对象检索系统，其特征在于，该系统包括：数据获取模块，向量提取模块，特征生成模块，结果生成模块；

所述数据获取模块用于获取待检索立体视觉对象的环路视图和点云数据，其中，所述环路视图至少包含三张对象视图；

所述向量提取模块用于利用特征提取模型分别提取所述环路视图和所述点云数据的特征，将提取到的所述特征分别记作第一特征向量和第二特征向量；

所述特征生成模块用于利用多模态特征融合算法，对所述第一特征向量和所述第二特征向量进行融合运算，生成所述待检索立体视觉对象的融合特征，将所述融合特征记作检索特征；

所述结果生成模块用于计算检索样本空间中每个样本与所述检索特征之间的欧式距离，并将所述样本按照所述欧氏距离由小到大的顺序进行排序，将排序后的所述样本记作所述待检索立体视觉对象的检索结果。

7.如权利要求6所述的基于多模态数据的立体对象检索系统，所述特征提取模型包括残差神经网络模型和点云卷积神经网络模型，其特征在于，所述向量提取模块具体包括：滑窗确定单元，卷积计算单元，特征拼接单元；

所述滑窗确定单元用于根据预设步长，确定滑窗大小，并滑动所述滑窗，其中，所述滑窗在所述环路视图中根据预设规则进行滑动；

所述卷积计算单元用于在每次滑动所述滑窗时，按照像素点，提取所述滑窗中像素点数据，将提取出的所述像素点数据记作当前输入量，将所述当前输入量输入所述残差神经网络模型中的第一层卷积神经网络，计算所述当前输入量对应的第一次级特征向量，并将所述第一次级特征向量记作所述当前输入量，输入至下一层卷积神经网络，重新计算，直至得到最后一层卷积神经网络，并将所述最后一层卷积神经网络的输出记作部分特征向量，其中，每一层所述卷积神经网络的计算公式相同，所述计算公式为：

x_t+1＝σ(Conv[W_f1·[x_t]+b_f1])

式中，·[θ]为对参数θ进行卷积运算，x_t为第t层卷积神经网络的所述当前输入量，W_f1为第一变换矩阵，b_f1为第一偏移量，Conv[θ]为卷积运算，σ(θ)为阈值激活函数；

所述特征拼接单元用于拼接所述部分特征向量，得到所述对象视图的待定特征，对所述对象视图的所述待定特征进行平均化，得到所述第一特征向量。

8.如权利要求7所述的基于多模态数据的立体对象检索系统，其特征在于，所述向量提取模块还包括：特征计算单元；

所述特征计算单元用于将所述点云数据输入所述点云卷积神经网络模型的第一层全连接层，计算所述点云数据的第二次级特征向量，并将所述第二次级特征向量输入至下一层全连接层，重新计算所述第二次级特征向量，直到最后一层全连接层，并将所述最后一层全连接层的输出记作所述第二特征向量，其中，每一层所述全连接层的计算公式相同，所述计算公式为：

y_t+1＝σ(W_f2*[y_t]+b_f2)

9.如权利要求6所述的基于多模态数据的立体对象检索系统，其特征在于，所述特征生成模块具体包括：特征抽取单元，特征融合单元；

所述特征抽取单元用于根据所述第一特征向量和所述第二特征向量进行特征抽取，将所述特征抽取的结果进行矩阵乘法，并对乘法结果进行两个不同维度的归一化计算，得到第一相互权重矩阵和第二相互权重矩阵；

所述特征融合单元用于根据所述第一相互权重矩阵和所述第二相互权重矩阵，利用相互注意力机制和残差机制，计算第一相互增强特征和第二相互增强特征，并将所述第一相互增强特征和所述第二相互增强特征进行拼接处理，生成所述融合特征，其中，所述融合特征的计算公式为：

f_t7＝[f_t5，f_t6]

f_t5＝f_t1+f_t2*f_t3

f_t6＝f_t2+f_t1*f_t4

10.如权利要求6所述的基于多模态数据的立体对象检索系统，其特征在于，所述点云数据中至少包含1024个数据点。