CN110334237A - 一种基于多模态数据的立体对象检索方法与系统 - Google Patents
一种基于多模态数据的立体对象检索方法与系统 Download PDFInfo
- Publication number
- CN110334237A CN110334237A CN201910636624.5A CN201910636624A CN110334237A CN 110334237 A CN110334237 A CN 110334237A CN 201910636624 A CN201910636624 A CN 201910636624A CN 110334237 A CN110334237 A CN 110334237A
- Authority
- CN
- China
- Prior art keywords
- feature
- feature vector
- mutual
- fusion
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 128
- 230000004927 fusion Effects 0.000 claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 59
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 230000001174 ascending effect Effects 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 71
- 238000013527 convolutional neural network Methods 0.000 claims description 56
- 238000004364 calculation method Methods 0.000 claims description 53
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000003062 neural network model Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 7
- 239000007787 solid Substances 0.000 claims 10
- 210000005036 nerve Anatomy 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 7
- 230000000007 visual effect Effects 0.000 abstract description 4
- 230000004913 activation Effects 0.000 description 18
- 230000009471 action Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007620 mathematical function Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于多模态数据的立体对象检索方法与系统,其中,该方法包括:步骤1,获取待检索立体视觉对象的环路视图和点云数据;步骤2,利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量;步骤3,利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征;步骤4,计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。通过本申请中的技术方案,优化了对立体对象的检索性能和检索过程中的鲁棒性。
Description
技术领域
本申请涉及立体视觉检索的技术领域,具体而言,涉及一种基于多模态数据的立体对象检索方法以及一种基于多模态数据的立体对象检索系统。
背景技术
立体视觉对象检索在近年来已经能到了极大的关注,在计算机视觉领域中已经成为了热门话题,立体视觉对象检索的目的是为了可以在给定数据库中寻找到被查询的、与立体视觉对象最类似的物体。立体视觉对象有很多种视觉表示模态,如视图投影模态、网格模态、点云模态等,其中,视图投影模态和点云模态较为常用,并且基于RGB-D相机可以直接同时得到这两种模态数据。通常而言,立体视觉对象有着复杂多变的几何形状,因此,融合不同模态,如将点云模态和视图投影模态融合,得到一个立体视觉对象的表示特征,有利于完整的表示一个立体视觉对象。
而现有技术中,通常是单纯地拼接不同模态之间的特征,得到多模态融合特征。这种拼接方法,在做特征融合的时候,没有考虑不同模态特征间的相互关系,缺乏多模态数据的局部对应关系,无法利用模态间关系,对立体视觉对象进行模态增强,导致对立体视觉检索的检索性能和鲁棒性偏低。
发明内容
本申请的目的在于:对多模态数据进行特征融合,提高立体视觉对象的检索性能和鲁棒性,避免检索过程中相似立体视觉对象之间的混淆。
本申请第一方面的技术方案是:提供了一种基于多模态数据的立体对象检索方法,该方法包括:步骤1,获取待检索立体视觉对象的环路视图和点云数据,其中,环路视图至少包含三张对象视图;步骤2,利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量;步骤3,利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征;步骤4,计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。
上述任一项技术方案中,进一步地,特征提取模型包括残差神经网络模型和点云卷积神经网络模型,步骤2中,利用特征提取模型中的残差神经网络模型提取环路视图的第一特征向量的方法,具体包括:步骤21,根据预设步长,确定滑窗大小,其中,滑窗在环路视图中根据预设规则进行滑动;步骤22,按照像素点,提取滑窗中像素点数据,将提取出的像素点数据记作当前输入量,将当前输入量输入残差神经网络模型中的第一层卷积神经网络,计算当前输入量对应的第一次级特征向量,并将第一次级特征向量记作当前输入量,输入至下一层卷积神经网络,重新计算,直至得到最后一层卷积神经网络,并将最后一层卷积神经网络的输出记作部分特征向量,其中,每一层卷积神经网络的计算公式相同,计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,·[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数;
步骤23,滑动滑窗,重新执行步骤22,直到滑窗滑至对象视图的末端,拼接部分特征向量,得到对象视图的待定特征,对对象视图的待定特征进行平均化,得到第一特征向量。
上述任一项技术方案中,进一步地,步骤2中,利用特征提取模型中的点云卷积神经网络模型,提取点云数据的第二特征向量的方法,具体包括:将点云数据输入点云卷积神经网络模型的第一层全连接层,计算点云数据的第二次级特征向量,并将第二次级特征向量输入至下一层全连接层,重新计算第二次级特征向量,直到最后一层全连接层,并将最后一层全连接层的输出记作第二特征向量,其中,每一层全连接层的计算公式相同,计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数。
上述任一项技术方案中,进一步地,该步骤3中,具体包括:步骤31,根据第一特征向量和第二特征向量进行特征抽取,将特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵和第二相互权重矩阵;
步骤32,根据第一相互权重矩阵和第二相互权重矩阵,利用相互注意力机制和残差机制,计算第一相互增强特征和第二相互增强特征,并将第一相互增强特征和第二相互增强特征进行拼接处理,生成融合特征,其中,融合特征的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
式中,ft1为第一特征向量,ft2为第二特征向量,ft3为第一相互权重矩阵,ft4为第二相互权重矩阵,ft5为第一相互增强特征,ft6为第二相互增强特征,ft7为融合特征。
上述任一项技术方案中,进一步地,点云数据中至少包含1024个数据点。
上述任一项技术方案中,进一步地,将样本按照欧氏距离排序后,根据预设检索阈值,选取欧氏距离小于或等于检索阈值的样本,记作检索结果,并将检索结果标记为输出样本。
本申请第二方面的技术方案是:提供了一种基于多模态数据的立体对象检索系统,该系统包括:数据获取模块,向量提取模块,特征生成模块,结果生成模块;数据获取模块用于获取待检索立体视觉对象的环路视图和点云数据,其中,环路视图至少包含三张对象视图;向量提取模块用于利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量;特征生成模块用于利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征;结果生成模块用于计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。
上述任一项技术方案中,进一步地,特征提取模型包括残差神经网络模型和点云卷积神经网络模型,向量提取模块具体包括:滑窗确定单元,卷积计算单元,特征拼接单元;滑窗确定单元用于根据预设步长,确定滑窗大小,并滑动滑窗,其中,滑窗在环路视图中根据预设规则进行滑动;
卷积计算单元用于在每次滑动滑窗时,按照像素点,提取滑窗中像素点数据,将提取出的像素点数据记作当前输入量,将当前输入量输入残差神经网络模型中的第一层卷积神经网络,计算当前输入量对应的第一次级特征向量,并将第一次级特征向量记作当前输入量,输入至下一层卷积神经网络,重新计算,直至得到最后一层卷积神经网络,并将最后一层卷积神经网络的输出记作部分特征向量,其中,每一层卷积神经网络的计算公式相同,计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,·[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数;
特征拼接单元用于拼接部分特征向量,得到对象视图的待定特征,对对象视图的待定特征进行平均化,得到第一特征向量。
上述任一项技术方案中,进一步地,向量提取模块还包括:特征计算单元;特征计算单元用于将点云数据输入点云卷积神经网络模型的第一层全连接层,计算点云数据的第二次级特征向量,并将第二次级特征向量输入至下一层全连接层,重新计算第二次级特征向量,直到最后一层全连接层,并将最后一层全连接层的输出记作第二特征向量,其中,每一层全连接层的计算公式相同,计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数。
上述任一项技术方案中,进一步地,特征生成模块具体包括:特征抽取单元,特征融合单元;特征抽取单元用于根据第一特征向量和第二特征向量进行特征抽取,将特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵和第二相互权重矩阵;特征融合单元用于根据第一相互权重矩阵和第二相互权重矩阵,利用相互注意力机制和残差机制,计算第一相互增强特征和第二相互增强特征,并将第一相互增强特征和第二相互增强特征进行拼接处理,生成融合特征,其中,融合特征的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
式中,ft1为第一特征向量,ft2为第二特征向量,ft3为第一相互权重矩阵,ft4为第二相互权重矩阵,ft5为第一相互增强特征,ft6为第二相互增强特征,ft7为融合特征。
上述任一项技术方案中,进一步地,点云数据中至少包含1024个数据点。
本申请的有益效果是:
对一个待检索立体视觉对象,分别通过残差神经网络模型提取的视图投影特征向量、通过点云卷积神经网络模型提取的点云特征向量,然后依据多模态特征融合算法,将不同特征向量进行融合特征提取,建立检索特征,实现了从不同模态、不同层次获取立体视觉对象的特征,提高了立体视觉对象之间的可区分性,优化了对立体对象的检索性能和检索过程中的鲁棒性,有效避免了相似立体视觉对象之间发生混淆。
附图说明
本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请的一个实施例的基于多模态数据的立体对象检索方法的示意流程图;
图2是根据本申请的一个实施例的基于多模态数据的立体对象检索系统的示意框图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。
在下面的描述中,阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
实施例一:
如图1所示,本实施例提供了一种基于多模态数据的立体对象检索方法,包括:
步骤1,获取待检索立体视觉对象的环路视图和点云数据,其中,环路视图至少包含三张对象视图。
优选地,点云数据中至少包含1024个数据点。
具体地,以待检索立体视觉对象的中心为原点,建立空间直角坐标系,任意选取过原点的一个平面作为视图环路平面,在本实施例中,选取xy轴所在的平面作为视图环路平面。
在获取环路视图时,根据实际需求设置一定数量的相机,在本实施例中设置八台相机,所有相机朝向原点,同时对待检索立体视觉对象进行拍照,获取对象视图,这八张对象视图即构成待检索立体视觉对象的环路视图。
在获取点云数据时,使用激光点云扫描仪,对空间直角坐标系中的待检索立体视觉对象进行360度点云扫描,根据预设精度,对扫面得到的数据进行随机采样,选取数据点组成点云数据,在本实施例中,选取1024个数据点组成点云数据。
步骤2,利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量。
进一步地,特征提取模型包括残差神经网络模型和点云卷积神经网络模型,利用特征提取模型中的残差神经网络模型提取环路视图的第一特征向量的方法,具体包括:
步骤21,根据预设步长,确定滑窗,其中,滑窗在环路视图中根据预设规则进行滑动;
具体地,在本实施例中,设定预设步长为s个单位步长,每一个单位步长对应一个像素点,设定滑窗大小为k×k,其中,s≤k。因此,可以结合预设步长s和精度需求,确定滑窗大小,在本实施例中,设定预设步长s=1,滑窗大小为3×3。
以每一张对象视图为单位,建立H/W坐标系,设定对象视图第一行第一列的像素点为滑窗的起始位置,滑窗根据预设步长s沿H轴滑动,待滑至对象视图第一行倒数第三列后,滑窗移动至第二行第一列像素点的位置,重新滑动。
步骤22,在每次滑动滑窗过程中,按照像素点,提取滑窗中像素点数据,将提取出的像素点数据记作当前输入量,将当前输入量输入残差神经网络模型中的第一层卷积神经网络,计算当前输入量对应的第一次级特征向量,并将第一次级特征向量记作当前输入量,输入至下一层卷积神经网络,重新计算第一次级特征向量,直至得到最后一层卷积神经网络,并将最后一层卷积神经网络的输出记作部分特征向量,其中,每一层卷积神经网络的计算公式相同,卷积神经网络的计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,·[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数,在本实施例中,可以选取特征激活函数ReLU(θ)作为阈值激活函数;
步骤23,滑动滑窗,重新执行步骤22,直到滑窗滑至对象视图的末端,拼接部分特征向量,得到对象视图的待定特征,对对象视图的待定特征进行平均化,得到第一特征向量f1。
具体地,对于第一张对象视图而言,每一次滑动滑窗,得到一个3x3的矩阵,将这个矩阵输入卷积神经网络,经过多层卷积运算,得到这个滑窗对应的结果A1,再滑动滑窗至下一个位置,同样得到结果A2,直到最后,共有An个结果(n的取值由对象视图的大小、滑窗大小、预设步长共同决定),将这n个结果进行拼接,得到第一张对象视图对应卷积神经网络的输出B1。八张对象视图对应8个卷积神经网络的输出Bm(m=1,2,…,8),再将这8个输出Bm进行平均化,得到环路视图对应的第一特征向量f1。
进一步地,利用特征提取模型中的点云卷积神经网络模型,提取点云数据的第二特征向量的方法,具体包括:
步骤24,将点云数据输入点云卷积神经网络模型的第一层全连接层,计算点云数据的第二次级特征向量,并将第二次级特征向量输入至下一层全连接层,重新计算第二次级特征向量,直到最后一层全连接层,并将最后一层全连接层的输出记作第二特征向量,其中,每一层全连接层的计算公式相同,全连接层的计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数,在本实施例中,可以选取特征激活函数ReLU(θ)作为阈值激活函数,并将最后一层全连接层的输出记作第二特征向量f2。
步骤3,利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征,其中,融合运算包括特征抽取和拼接处理。
进一步地,该步骤3中,具体包括:
步骤31,根据第一特征向量f1和第二特征向量f2进行特征抽取,即对特征向量f1和f2重新进行特征变换,将特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵ft3和第二相互权重矩阵ft4;
具体地,特征抽取的计算公式为:
ft1=σ(Wt1*[f1]+bt1)
ft2=σ(Wt2*[f2]+bt2)
式中,Wt1和Wt2为权重矩阵,*为矩阵乘法,bt1和bt2为偏移向量,σ(θ)为阈值激活函数,ft1为特征抽取后的第一特征向量,ft2为特征抽取后的第二特征向量。在本实施例中,设定第一特征向量f1和第二特征向量f2为512维特征向量,则Wt1和Wt2为512×512维度的权重矩阵,bt1和bt2为512维的偏移向量,可以选取特征激活函数ReLU(θ)作为阈值激活函数。
可以采用两个不同维度的SoftMax(·)函数进行归一化计算,对给定范围内的数据做数学函数softmax变换,所以直接标明作用范围(维度),代表作用于不同维度。归一化的计算公式为:
ft3=SoftMax_1(ft1*ft2)
ft4=SoftMax_2(ft1*ft2)
SoftMax_1(ft1*ft2)表示函数SoftMax_1作用于ft1数据的ft2维度,即函数SoftMax_1作用于特征抽取后的第一特征向量ft1的521维度,也就是说,用特征抽取后的第二特征向量ft2的维度,限定函数SoftMax_1的作用范围,SoftMax_2(ft1*ft2)表示函数SoftMax_2作用于ft2数据的ft1维度。
步骤32,根据第一相互权重矩阵ft3和第二相互权重矩阵ft4,利用相互注意力机制和残差机制,计算第一相互增强特征ft5和第二相互增强特征ft6,将第一相互增强特征ft5和第二相互增强特征ft6进行拼接处理,生成融合特征ft7,其中,融合特征ft7的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
具体地,考虑到数据在神经网络传导过程中,由于经过太多次运算会导致回传的梯度弥散,以及不能保证变换后的特征就一定好,所以引入残差机制,加上变换前的输入(特征),可以保证梯度在回传后被保留更多,也可以加强多模态特征融合算法的鲁棒性。
相互注意力机制是一种加权索引方法,以第一相互增强特征ft5为例,ft3是一个索引器,其代表了当前特征,即特征抽取后的第一特征向量ft1,对特征抽取后的第二特征向量ft2中的获取要求,ft3中的每一位代表了ft1对ft2中每一位特征的权重,通过“*”操作,对ft3中的特征进行加权索引,获取想要的信息,生成第一相互增强特征ft5。ft1、ft2是两个特征向量,ft3是ft1到ft2的关系矩阵(相互权重矩阵),ft4是ft2到ft1的关系矩阵,通过关系矩阵相互索引,ft5是ft1通过ft3从ft2索引特征后新的增强的特征,ft6是ft2通过ft4从ft1索引特征后新的增强的特征。
步骤4,计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。
具体地,在检索时,计算样本空间中每个样本与检索特征之间的欧氏距离,将计算的出的欧氏距离按照数值由小到大的顺序进行排列,依次输出对应的样本,作为视觉对象的检索结果。
优选地,根据预设检索阈值,选取欧氏距离小于或等于检索阈值的样本,记作检索结果,并将检索结果标记为输出样本。
实施例二:
如图2所示,本实施例提供了一种基于多模态数据的立体对象检索系统100,包括:数据获取模块10,向量提取模块20,特征生成模块30,结果生成模块40;
数据获取模块10用于获取待检索立体视觉对象的环路视图和点云数据,其中,环路视图至少包含三张对象视图;
优选地,点云数据中至少包含1024个数据点。
具体地,以待检索立体视觉对象的中心为原点,建立空间直角坐标系,任意选取过原点的一个平面作为视图环路平面,在本实施例中,选取xy轴所在的平面作为视图环路平面。
在获取环路视图时,根据实际需求设置一定数量的相机,在本实施例中设置八台相机,所有相机朝向原点,同时对待检索立体视觉对象进行拍照,获取对象视图,这八张对象视图即构成待检索立体视觉对象的环路视图。
在获取点云数据时,使用激光点云扫描仪,对空间直角坐标系中的待检索立体视觉对象进行360度点云扫描,根据预设精度,对扫面得到的数据进行随机采样,选取数据点组成点云数据,在本实施例中,选取1024个数据点组成点云数据。
向量提取模块20用于利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量;
进一步地,特征提取模型包括残差神经网络模型和点云卷积神经网络模型,向量提取模块20具体包括:滑窗确定单元21,卷积计算单元22,特征拼接单元23;
滑窗确定单元21用于根据预设步长,确定滑窗大小,并滑动滑窗,其中,滑窗在环路视图中根据预设规则进行滑动;
具体地,在本实施例中,设定预设步长为s个单位步长,每一个单位步长对应一个像素点,设定滑窗大小为k×k,其中,s≤k。因此,可以结合预设步长s和精度需求,确定滑窗大小,在本实施例中,设定预设步长s=1,滑窗大小为3×3。
以每一张对象视图为单位,建立H/W坐标系,设定对象视图第一行第一列的像素点为滑窗的起始位置,滑窗根据预设步长s沿H轴滑动,待滑至对象视图第一行倒数第三列后,滑窗移动至第二行第一列像素点的位置,重新滑动。
卷积计算单元22用于在每次滑动滑窗时,按照像素点,提取滑窗中像素点数据,将提取出的像素点数据记作当前输入量,将当前输入量输入残差神经网络模型中的第一层卷积神经网络,计算当前输入量对应的第一次级特征向量,并将第一次级特征向量记作当前输入量,输入至下一层卷积神经网络,重新计算,直至得到最后一层卷积神经网络,并将最后一层卷积神经网络的输出记作部分特征向量,其中,每一层卷积神经网络的计算公式相同,计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,·[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数;
特征拼接单元23用于拼接部分特征向量,得到对象视图的待定特征,对对象视图的待定特征进行平均化,得到第一特征向量。
具体地,在本实施例中,设定预设步长为s个单位步长,每一个单位步长对应一个像素点,设定滑窗大小为k×k,其中,s≤k。因此,可以结合预设步长s和精度需求,确定滑窗大小,在本实施例中,设定预设步长s=1,滑窗大小为3×3。
以每一张对象视图为单位,建立H/W坐标系,设定对象视图第一行第一列的像素点为滑窗的起始位置,滑窗根据预设步长s沿H轴滑动,待滑至对象视图第一行倒数第三列后,滑窗移动至第二行第一列像素点的位置,重新滑动。
进一步地,向量提取模块20还包括:特征计算单元24;特征计算单元24用于将点云数据输入点云卷积神经网络模型的第一层全连接层,计算点云数据的第二次级特征向量,并将第二次级特征向量输入至下一层全连接层,重新计算第二次级特征向量,直到最后一层全连接层,并将最后一层全连接层的输出记作第二特征向量,其中,每一层全连接层的计算公式相同,计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数。
特征生成模块30用于利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征,其中,融合运算包括特征抽取和拼接处理;
进一步地,特征生成模块30具体包括:特征抽取单元31,特征融合单元32;
特征抽取单元31用于根据第一特征向量和第二特征向量进行特征抽取,将特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵和第二相互权重矩阵;
具体地,特征抽取的计算公式为:
ft1=σ(Wt1*[f1]+bt1)
ft2=σ(Wt2*[f2]+bt2)
式中,Wt1和Wt2为权重矩阵,*为矩阵乘法,bt1和bt2为偏移向量,σ(θ)为阈值激活函数,ft1为特征抽取后的第一特征向量,ft2为特征抽取后的第二特征向量。在本实施例中,设定第一特征向量f1和第二特征向量f2为512维特征向量,则Wt1和Wt2为512×512维度的权重矩阵,bt1和bt2为512维的偏移向量,可以选取特征激活函数ReLU(θ)作为阈值激活函数。
可以采用两个不同维度的SoftMax(·)函数进行归一化计算,对给定范围内的数据做数学函数softmax变换,所以直接标明作用范围(维度),代表作用于不同维度。归一化的计算公式为:
ft3=SoftMax_1(ft1*ft2)
ft4=SoftMax_2(ft1*ft2)
SoftMax_1(ft1*ft2)表示函数SoftMax_1作用于ft1数据的ft2维度,即函数SoftMax_1作用于特征抽取后的第一特征向量ft1的521维度,也就是说,用特征抽取后的第二特征向量ft2的维度,限定函数SoftMax_1的作用范围,SoftMax_2(ft1*ft2)表示函数SoftMax_2作用于ft2数据的ft1维度。
特征融合单元32用于根据第一相互权重矩阵和第二相互权重矩阵,利用相互注意力机制和残差机制,计算第一相互增强特征和第二相互增强特征,并将第一相互增强特征和第二相互增强特征进行拼接处理,生成融合特征,其中,融合特征的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
式中,ft1为第一特征向量,ft2为第二特征向量,ft3为第一相互权重矩阵,ft4为第二相互权重矩阵,ft5为第一相互增强特征,ft6为第二相互增强特征,ft7为融合特征。
具体地,考虑到数据在神经网络传导过程中,由于经过太多次运算会导致回传的梯度弥散,以及不能保证变换后的特征就一定好,所以引入残差机制,加上变换前的输入(特征),可以保证梯度在回传后被保留更多,也可以加强多模态特征融合算法的鲁棒性。
相互注意力机制是一种加权索引方法,以第一相互增强特征ft5为例,ft3是一个索引器,其代表了当前特征,即特征抽取后的第一特征向量ft1,对特征抽取后的第二特征向量ft2中的获取要求,ft3中的每一位代表了ft1对ft2中每一位特征的权重,通过“*”操作,对ft3中的特征进行加权索引,获取想要的信息,生成第一相互增强特征ft5。ft1、ft2是两个特征向量,ft3是ft1到ft2的关系矩阵(相互权重矩阵),ft4是ft2到ft1的关系矩阵,通过关系矩阵相互索引,ft5是ft1通过ft3从ft2索引特征后新的增强的特征,ft6是ft2通过ft4从ft1索引特征后新的增强的特征。
结果生成模块40用于计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。
具体地,在检索时,计算样本空间中每个样本与检索特征之间的欧氏距离,将计算的出的欧氏距离按照数值由小到大的顺序进行排列,依次输出对应的样本,作为视觉对象的检索结果。
以上结合附图详细说明了本申请的技术方案,本申请提出了一种基于多模态数据的立体对象检索方法与系统,其中,该方法包括:步骤1,获取待检索立体视觉对象的环路视图和点云数据;步骤2,利用特征提取模型分别提取环路视图和点云数据的特征,将提取到的特征分别记作第一特征向量和第二特征向量;步骤3,利用多模态特征融合算法,对第一特征向量和第二特征向量进行融合运算,生成待检索立体视觉对象的融合特征,将融合特征记作检索特征;步骤4,计算检索样本空间中每个样本与检索特征之间的欧式距离,并将样本按照欧氏距离由小到大的顺序进行排序,将排序后的样本记作待检索立体视觉对象的检索结果。通过本申请中的技术方案,优化了对立体对象的检索性能和检索过程中的鲁棒性。
本申请中的步骤可根据实际需求进行顺序调整、合并和删减。
本申请装置中的单元可根据实际需求进行合并、划分和删减。
尽管参考附图详地公开了本申请,但应理解的是,这些描述仅仅是示例性的,并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定,并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。
Claims (10)
1.一种基于多模态数据的立体对象检索方法,其特征在于,该方法包括:
步骤1,获取待检索立体视觉对象的环路视图和点云数据,其中,所述环路视图至少包含三张对象视图;
步骤2,利用特征提取模型分别提取所述环路视图和所述点云数据的特征,将提取到的所述特征分别记作第一特征向量和第二特征向量;
步骤3,利用多模态特征融合算法,对所述第一特征向量和所述第二特征向量进行融合运算,生成所述待检索立体视觉对象的融合特征,将所述融合特征记作检索特征;
步骤4,计算检索样本空间中每个样本与所述检索特征之间的欧式距离,并将所述样本按照所述欧氏距离由小到大的顺序进行排序,将排序后的所述样本记作所述待检索立体视觉对象的检索结果。
2.如权利要求1所述的基于多模态数据的立体对象检索方法,所述特征提取模型包括残差神经网络模型和点云卷积神经网络模型,其特征在于,步骤2中,利用所述特征提取模型中的所述残差神经网络模型提取所述环路视图的所述第一特征向量的方法,具体包括:
步骤21,根据预设步长,确定滑窗大小,其中,所述滑窗在所述环路视图中根据预设规则进行滑动;
步骤22,按照像素点,提取所述滑窗中像素点数据,将提取出的所述像素点数据记作当前输入量,将所述当前输入量输入所述残差神经网络模型中的第一层卷积神经网络,计算所述当前输入量对应的第一次级特征向量,并将所述第一次级特征向量记作所述当前输入量,输入至下一层卷积神经网络,重新计算,直至得到最后一层卷积神经网络,并将所述最后一层卷积神经网络的输出记作部分特征向量,其中,每一层所述卷积神经网络的计算公式相同,所述计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,.[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的所述当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数;
步骤23,滑动所述滑窗,重新执行步骤22,直到所述滑窗滑至所述对象视图的末端,拼接所述部分特征向量,得到所述对象视图的待定特征,对所述对象视图的所述待定特征进行平均化,得到所述第一特征向量。
3.如权利要求2所述的基于多模态数据的立体对象检索方法,其特征在于,步骤2中,利用所述特征提取模型中的所述点云卷积神经网络模型,提取所述点云数据的所述第二特征向量的方法,具体包括:
将所述点云数据输入所述点云卷积神经网络模型的第一层全连接层,计算所述点云数据的第二次级特征向量,并将所述第二次级特征向量输入至下一层全连接层,重新计算所述第二次级特征向量,直到最后一层全连接层,并将所述最后一层全连接层的输出记作所述第二特征向量,其中,每一层所述全连接层的计算公式相同,所述计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层所述全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数。
4.如权利要求1所述的基于多模态数据的立体对象检索方法,其特征在于,该步骤3中,具体包括:
步骤31,根据所述第一特征向量和所述第二特征向量进行特征抽取,将所述特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵和第二相互权重矩阵;
步骤32,根据所述第一相互权重矩阵和所述第二相互权重矩阵,利用相互注意力机制和残差机制,计算第一相互增强特征和第二相互增强特征,并将所述第一相互增强特征和所述第二相互增强特征进行拼接处理,生成所述融合特征,其中,所述融合特征的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
式中,ft1为所述第一特征向量,ft2为所述第二特征向量,ft3为所述第一相互权重矩阵,ft4为所述第二相互权重矩阵,ft5为所述第一相互增强特征,ft6为所述第二相互增强特征,ft7为所述融合特征。
5.如权利要求1所述的基于多模态数据的立体对象检索方法,其特征在于,所述点云数据中至少包含1024个数据点。
6.一种基于多模态数据的立体对象检索系统,其特征在于,该系统包括:数据获取模块,向量提取模块,特征生成模块,结果生成模块;
所述数据获取模块用于获取待检索立体视觉对象的环路视图和点云数据,其中,所述环路视图至少包含三张对象视图;
所述向量提取模块用于利用特征提取模型分别提取所述环路视图和所述点云数据的特征,将提取到的所述特征分别记作第一特征向量和第二特征向量;
所述特征生成模块用于利用多模态特征融合算法,对所述第一特征向量和所述第二特征向量进行融合运算,生成所述待检索立体视觉对象的融合特征,将所述融合特征记作检索特征;
所述结果生成模块用于计算检索样本空间中每个样本与所述检索特征之间的欧式距离,并将所述样本按照所述欧氏距离由小到大的顺序进行排序,将排序后的所述样本记作所述待检索立体视觉对象的检索结果。
7.如权利要求6所述的基于多模态数据的立体对象检索系统,所述特征提取模型包括残差神经网络模型和点云卷积神经网络模型,其特征在于,所述向量提取模块具体包括:滑窗确定单元,卷积计算单元,特征拼接单元;
所述滑窗确定单元用于根据预设步长,确定滑窗大小,并滑动所述滑窗,其中,所述滑窗在所述环路视图中根据预设规则进行滑动;
所述卷积计算单元用于在每次滑动所述滑窗时,按照像素点,提取所述滑窗中像素点数据,将提取出的所述像素点数据记作当前输入量,将所述当前输入量输入所述残差神经网络模型中的第一层卷积神经网络,计算所述当前输入量对应的第一次级特征向量,并将所述第一次级特征向量记作所述当前输入量,输入至下一层卷积神经网络,重新计算,直至得到最后一层卷积神经网络,并将所述最后一层卷积神经网络的输出记作部分特征向量,其中,每一层所述卷积神经网络的计算公式相同,所述计算公式为:
xt+1=σ(Conv[Wf1·[xt]+bf1])
式中,·[θ]为对参数θ进行卷积运算,xt为第t层卷积神经网络的所述当前输入量,Wf1为第一变换矩阵,bf1为第一偏移量,Conv[θ]为卷积运算,σ(θ)为阈值激活函数;
所述特征拼接单元用于拼接所述部分特征向量,得到所述对象视图的待定特征,对所述对象视图的所述待定特征进行平均化,得到所述第一特征向量。
8.如权利要求7所述的基于多模态数据的立体对象检索系统,其特征在于,所述向量提取模块还包括:特征计算单元;
所述特征计算单元用于将所述点云数据输入所述点云卷积神经网络模型的第一层全连接层,计算所述点云数据的第二次级特征向量,并将所述第二次级特征向量输入至下一层全连接层,重新计算所述第二次级特征向量,直到最后一层全连接层,并将所述最后一层全连接层的输出记作所述第二特征向量,其中,每一层所述全连接层的计算公式相同,所述计算公式为:
yt+1=σ(Wf2*[yt]+bf2)
式中,*[θ]为对参数θ进行矩阵乘法运算,yt为第t层所述全连接层的输入,Wf2为第二变换矩阵,bf2为第二偏移量,σ(θ)为阈值激活函数。
9.如权利要求6所述的基于多模态数据的立体对象检索系统,其特征在于,所述特征生成模块具体包括:特征抽取单元,特征融合单元;
所述特征抽取单元用于根据所述第一特征向量和所述第二特征向量进行特征抽取,将所述特征抽取的结果进行矩阵乘法,并对乘法结果进行两个不同维度的归一化计算,得到第一相互权重矩阵和第二相互权重矩阵;
所述特征融合单元用于根据所述第一相互权重矩阵和所述第二相互权重矩阵,利用相互注意力机制和残差机制,计算第一相互增强特征和第二相互增强特征,并将所述第一相互增强特征和所述第二相互增强特征进行拼接处理,生成所述融合特征,其中,所述融合特征的计算公式为:
ft7=[ft5,ft6]
ft5=ft1+ft2*ft3
ft6=ft2+ft1*ft4
式中,ft1为所述第一特征向量,ft2为所述第二特征向量,ft3为所述第一相互权重矩阵,ft4为所述第二相互权重矩阵,ft5为所述第一相互增强特征,ft6为所述第二相互增强特征,ft7为所述融合特征。
10.如权利要求6所述的基于多模态数据的立体对象检索系统,其特征在于,所述点云数据中至少包含1024个数据点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636624.5A CN110334237B (zh) | 2019-07-15 | 2019-07-15 | 一种基于多模态数据的立体对象检索方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636624.5A CN110334237B (zh) | 2019-07-15 | 2019-07-15 | 一种基于多模态数据的立体对象检索方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110334237A true CN110334237A (zh) | 2019-10-15 |
CN110334237B CN110334237B (zh) | 2022-03-01 |
Family
ID=68145001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910636624.5A Active CN110334237B (zh) | 2019-07-15 | 2019-07-15 | 一种基于多模态数据的立体对象检索方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334237B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539347A (zh) * | 2020-04-27 | 2020-08-14 | 北京百度网讯科技有限公司 | 用于检测目标的方法和装置 |
CN113838113A (zh) * | 2021-09-22 | 2021-12-24 | 京东鲲鹏(江苏)科技有限公司 | 三维物体识别方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254499A1 (en) * | 2014-03-07 | 2015-09-10 | Chevron U.S.A. Inc. | Multi-view 3d object recognition from a point cloud and change detection |
CN109389671A (zh) * | 2018-09-25 | 2019-02-26 | 南京大学 | 一种基于多阶段神经网络的单图像三维重建方法 |
CN109684499A (zh) * | 2018-12-26 | 2019-04-26 | 清华大学 | 一种自由视角的立体对象检索方法与系统 |
CN109754006A (zh) * | 2018-12-26 | 2019-05-14 | 清华大学 | 一种视图及点云融合的立体视觉内容分类方法与系统 |
US20190147335A1 (en) * | 2017-11-15 | 2019-05-16 | Uber Technologies, Inc. | Continuous Convolution and Fusion in Neural Networks |
CN109857895A (zh) * | 2019-01-25 | 2019-06-07 | 清华大学 | 基于多环路视图卷积神经网络的立体视觉检索方法与系统 |
CN109886272A (zh) * | 2019-02-25 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 点云分割方法、装置、计算机可读存储介质和计算机设备 |
-
2019
- 2019-07-15 CN CN201910636624.5A patent/CN110334237B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150254499A1 (en) * | 2014-03-07 | 2015-09-10 | Chevron U.S.A. Inc. | Multi-view 3d object recognition from a point cloud and change detection |
US20190147335A1 (en) * | 2017-11-15 | 2019-05-16 | Uber Technologies, Inc. | Continuous Convolution and Fusion in Neural Networks |
CN109389671A (zh) * | 2018-09-25 | 2019-02-26 | 南京大学 | 一种基于多阶段神经网络的单图像三维重建方法 |
CN109684499A (zh) * | 2018-12-26 | 2019-04-26 | 清华大学 | 一种自由视角的立体对象检索方法与系统 |
CN109754006A (zh) * | 2018-12-26 | 2019-05-14 | 清华大学 | 一种视图及点云融合的立体视觉内容分类方法与系统 |
CN109857895A (zh) * | 2019-01-25 | 2019-06-07 | 清华大学 | 基于多环路视图卷积神经网络的立体视觉检索方法与系统 |
CN109886272A (zh) * | 2019-02-25 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 点云分割方法、装置、计算机可读存储介质和计算机设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539347A (zh) * | 2020-04-27 | 2020-08-14 | 北京百度网讯科技有限公司 | 用于检测目标的方法和装置 |
CN111539347B (zh) * | 2020-04-27 | 2023-08-08 | 北京百度网讯科技有限公司 | 用于检测目标的方法和装置 |
CN113838113A (zh) * | 2021-09-22 | 2021-12-24 | 京东鲲鹏(江苏)科技有限公司 | 三维物体识别方法和装置 |
CN113838113B (zh) * | 2021-09-22 | 2024-02-13 | 京东鲲鹏(江苏)科技有限公司 | 三维物体识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110334237B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291945B (zh) | 基于视觉注意力模型的高精度服装图像检索方法及系统 | |
Snavely et al. | Skeletal graphs for efficient structure from motion | |
CN100430935C (zh) | 利用形状进行目标表示与检索的方法和装置 | |
JP5282658B2 (ja) | 画像学習、自動注釈、検索方法及び装置 | |
EP3945456B1 (en) | Video event recognition method and apparatus, electronic device and storage medium | |
CN115731355B (zh) | 一种基于SuperPoint-NeRF的三维建筑物重建方法 | |
CN110322549A (zh) | 一种基于图像的三维重建的方法及系统 | |
CN112862730B (zh) | 点云特征增强方法、装置、计算机设备和存储介质 | |
CN112734772B (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN110334237A (zh) | 一种基于多模态数据的立体对象检索方法与系统 | |
CN109997123A (zh) | 用于改进空间-时间数据管理的方法、系统和装置 | |
CN114266850A (zh) | 一种基于连续标准化流及对抗精细化网络的点云补全方法 | |
CN111382301B (zh) | 一种基于生成对抗网络的三维模型生成方法及系统 | |
CN116824609B (zh) | 文档版式检测方法、装置和电子设备 | |
CN114674328B (zh) | 地图生成方法、装置、电子设备、存储介质、及车辆 | |
CN116883463A (zh) | 一种基于多域多维特征图的三维配准重建方法 | |
CN117496206A (zh) | 基于高阶空间交互的半稠密特征图像匹配方法及装置 | |
CN116229577A (zh) | 基于rgbd多模态信息的三维人体位姿估计方法及装置 | |
JP2010250569A (ja) | 画像検索装置 | |
CN114461827A (zh) | 一种以图搜图的方法及装置 | |
WO2021115154A1 (zh) | 可移动设备定位数据处理方法、装置、设备及存储介质 | |
WO2021144897A1 (ja) | 3次元点群識別装置、学習装置、3次元点群識別方法、学習方法、及びプログラム | |
CN112348038A (zh) | 一种基于胶囊网络的视觉定位方法 | |
CN104615614B (zh) | 获取可伸缩全局特征描述子的方法 | |
CN115641499B (zh) | 基于街景图特征库的拍照实时定位方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |