CN115240115B - 一种语义特征和词袋模型相结合的视觉slam回环检测方法 - Google Patents

一种语义特征和词袋模型相结合的视觉slam回环检测方法 Download PDF

Info

Publication number
CN115240115B
CN115240115B CN202210896120.9A CN202210896120A CN115240115B CN 115240115 B CN115240115 B CN 115240115B CN 202210896120 A CN202210896120 A CN 202210896120A CN 115240115 B CN115240115 B CN 115240115B
Authority
CN
China
Prior art keywords
frame
picture
frames
pictures
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210896120.9A
Other languages
English (en)
Other versions
CN115240115A (zh
Inventor
张博强
张小彩
李东鼎
高天智
张涛
冯天培
孙朋
陈晨
刘竟飞
张勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN202210896120.9A priority Critical patent/CN115240115B/zh
Publication of CN115240115A publication Critical patent/CN115240115A/zh
Application granted granted Critical
Publication of CN115240115B publication Critical patent/CN115240115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于视觉SLAM技术领域,公开了一种语义特征和词袋模型相结合的视觉SLAM回环检测方法方法:采集工厂的运动视频数据,从运动视频数据中获取每帧图片,判断任意两帧图片之间的相似值,基于相似值删除冗余图片得到训练数据,基于训练数据对U‑net网络进行训练,得到训练U‑net网络;采集工厂的图片,获取该图片的RGB图,并将该RGB图用训练U‑net网络进行语义分割,得到语义标签;对语义标签进行聚类;对聚类后的语义标签进行相似性比较,获取候选关键帧;在检测到有关键帧插入后,进入回环检测。本发明解决了传统的SLAM词袋模型对像光照之类的变化不敏感,在工厂环境有变化的情况下容易造成较大的波动,提取特征存在准确精度低的问题。

Description

一种语义特征和词袋模型相结合的视觉SLAM回环检测方法
技术领域
本发明属于视觉SLAM技术领域,具体涉及一种语义特征和词袋模型相结合的视觉SLAM回环检测方法。
背景技术
随着工业化进程的加快,消费市场不断扩大,传统生产制造业订单类型已由“单一品种大批大量”开始向“多品种、小批量、多批次、高时效”转变。制造企业原有的依靠人工完成订单处理、物料入库、搬运、拣货、出库等作业模式,难以及时准确地完成大量信息处理工作,且错误率也会随任务复杂度而升高,如此不仅会增加企业经营成本,还会影响物流运作效率和商品流转交易等其他环节。因此,制造企业需要通过运用信息技术和智能机器设备代替人力劳动,完成智能化转型升级,以满足现代仓储系统柔性、高效、快速反应的要求,工厂物流用无人车应运而生。
在这种背景下以工厂物流用无人车为载体进行工厂、物品等的定位与建图(SLAM)的准确度尤为重要,在这一过程中,前端提供特征点的提取和轨迹、地图的初值,后端负责对所有这些数据进行优化。然而,如果像视觉里程计那样仅考虑相邻时间上的关键帧,那么之前产生的误差将不可避免地累积到下一个时刻,使得整个SLAM出现累积误差,长期估计的结果将不可靠,或者说,我们无法构建全局一致的轨迹和地图。所以需要回环检测来提升SLAM系统的精度与稳定性。
回环检测需要通过对过程中的两幅图像进行特征匹配,判断其相似性来确定回环关系。传统的SLAM回环检测中用到词袋模型(BoW,Bag-of-words),通过确定一幅图像中出现了哪些在字典中定义的概念,用单词出现的情况(或直方图)来描述整幅图像,把一幅图像转换成了一个向量的描述,然后通过定义一对对描述向量的相似性来定义图像之间的相似程度,从而进行相似度的计算判断是否存在回环关系。例如,我们说某张照片中有一个人、一辆车;而另一张中有两个人、一个机器设备。其中“人”“车”“设备”等概念——对应词袋模型中的“单词”,许多单词放在一起组成了“字典”。
目前视觉SLAM回环检测主要方式有传统的词袋模型以及基于概率和词袋模型的一些改进算法,但是传统方式依然存在一些问题:在工厂物流场景下,工厂环境多为白色,缺乏纹理性、难以提取特征、环境、物品复杂多变,使用传统的SLAM词袋模型对像光照之类的变化不敏感,在工厂环境有变化的情况下容易造成较大的波动,因此提取特征会存在准确精度低的现象。
发明内容
为了解决以上问题,本发明克服现有技术不足,结合基于深度学习的语义特征技术,提出一种语义特征和词袋模型相结合的视觉SLAM回环检测方法,解决了工厂物流场景下,传统的SLAM词袋模型对像光照之类的变化不敏感,在工厂环境有变化的情况下容易造成较大的波动,提取特征会存在准确精度低的问题。
为了达到上述的发明目的,本发明提供了一种语义特征和词袋模型相结合的视觉SLAM回环检测方法,包括如下步骤:
步骤1,利用工厂物流用无人车采集工厂的运动视频数据,从该运动视频数据中获取每帧图片,获取每帧图片的特征向量,通过计算任意两帧图片的特征向量之间的差值来确定任意两帧图片之间的相似值;
若任意两帧图片的相似值小于门限值时,则确定任意两帧图片为相似的图片,删除冗余图片,其中,冗余图片为任意两帧图片中的任一帧;
若任意两帧图片的相似值大于或等于门限值,则确定任意两帧图片是不相似的图片,保留任意两帧图片;
从获取的每帧图片中删除所有的冗余图片得到训练数据,将训练数据输入U-net网络对U-net网络进行训练,得到训练U-net网络。
具体地,从U-net网络的降采样部分的第一个有效卷积的中间层获取每帧图片的特征向量。
具体地,通过计算任意两帧图片的特征向量的欧几里得距离来确定任意两帧图片的特征矢向量之间的差值。
步骤2,利用工厂物流用无人车在移动过程中采集工厂的图片,获取该图片的RGB图,并将该RGB图用训练U-net网络进行图像语义分割,得到语义标签。
步骤3,对上述图片中的语义标签进行聚类。
具体地,通过K-means算法对语义标签进行聚类。
步骤4,对聚类后的语义标签进行相似性比较,获取候选关键帧。
具体地,把整张图片的语义标签都列出来,直接比较任意两帧图片的重复的语义标签,获取重复的语义标签在任意两帧图片的语义标签中的比例,若上述比例超过预设的阈值,则将该帧图片列入候选关键帧列表。
步骤5,在检测到有关键帧插入后,进入回环检测。
具体地,进行闭环检测具体包括如下步骤:
步骤5.1,若距离上次闭环小于10帧,则直接退出;
步骤5.2,遍历关键帧的所有共视关键帧,基于词袋模型计算关键帧与每个共视关键帧的相似度,找出相似度中的最低分,删除最低分对应的共视关键帧;
步骤5.3,找出与关键帧相连的帧,遍历该帧的所有单词,提取出拥有上述所有单词的所有帧,存放在候选帧列表中;
步骤5.4,遍历候选帧列表,将候选帧列表中共有单词数较多且相似度高于上述最低分的帧存放在匹配列表中;
步骤5.5,将匹配列表中每一帧与该帧共视程度较高的帧每10帧组成一组,选出累计得分最高的一组,记录下累计最高分,将累计得分大于0.75倍该累计最高分的组里的得分最高的帧都存放在闭环候选列表中,成为候选帧。
步骤5.6,进行连续性检测。
本发明公开的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法,采用高质量数据对U-net网络进行训练,以提高图像识别的准确性,然后通过训练后的U-net网络对每一帧图片进行语义分割,并对聚类后的语义标签进行相似性比较,排除一些不符合检测标准的帧,便于后期确定出真正的闭环关键帧,克服了由于工厂的仓库和墙白色、工厂环境复杂多变导致在传统特征提取下提取不到的情况,提高了在工厂物流场景下以无人车自动驾驶为载体进行粮库等的定位与建图(SLAM)回环检测的精度。
附图说明
图1为本发明的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法的流程图;
图2为本发明的获取训练数据的第一实施例的方法流程图;
图3为本发明的获取训练数据的第二实施例的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明经行进一步的详细说明。显然,此处所描述的具体实施例仅仅用于解释本发明,是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术普通人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1所示是本发明提供的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法的流程图,该流程图具体包括:
步骤1,利用工厂物流用无人车采集工厂的运动视频数据,从该运动视频数据中获取每帧图片,获取每帧图片的特征向量,通过计算任意两帧图片的特征向量之间的差值来确定任意两帧图片之间的相似值;
若任意两帧图片的相似值小于门限值时,则确定任意两帧图片为相似的图片,删除冗余图片,其中,冗余图片为任意两帧图片中的任一帧;
若任意两帧图片的相似值大于或等于门限值,则确定任意两帧图片是不相似的图片,保留任意两帧图片;
从获取的每帧图片中删除所有的冗余图片得到训练数据,将训练数据输入U-net网络对U-net网络进行训练,得到训练U-net网络。
示例性地,获取训练数据的第一实施例的方法流程图可以如图2所示,以图2为例说明本申请获取训练数据的第一实施例的技术方案。将从运动视频数据中获取的每帧图片输入到该流程模块中,随后遍历输入的所有图片,假设总共有K帧图片,设置自变量n和因变量m,其中m=n+1,计算第n帧图片和第m帧图片之间的相似值,如果第n帧图片和第m帧图片之间的相似值小于门限值,说明第n帧图片和第m帧图片是相似的图片,则删除第n帧图片,随后使n=n+1,判断n是否大于或等于最大帧数K,若n大于或等于最大帧数K,说明已经比较过最后两帧图片的相似值,已经删除了相似帧中的倒数第二帧,则结束循环,输出最后一帧图片,否则继续循环;如果第n帧图片和第m帧图片之间的相似值大于或等于门限值,则说明第n帧图片和第m帧图片是不相似的图片,则输出第n帧图片,继续比较第m帧图片和下一帧图片的相似值,具体的,使n=n+1,判断n是否大于或等于最大帧数K,若n大于或等于最大帧数K,说明已经比较过最后两帧图片的相似值,最后两帧图片不相似,结束循环,输出最后一帧图片,否则继续循环。
示例性地,获取训练数据的第二实施例的方法流程图可以如图3所示,以图3为例说明本申请获取训练数据的第二实施例的技术方案。将从运动视频数据中获取的每帧图片输入到该流程模块中,将所有的图片都与其他的图片两两组合(比如(,A,B)、(A,C)、(B,C)),计算任意两帧图片之间的相似值,然后遍历所有组合的相似值,判断是否存在相似值小于门限值的组合,若不存在,则结束循环,输出训练数据;若存在相似值小于门限值的组合,则获取相似值最小的一组组合(比如(A,B))。然后获取该最小相似值(比如a1)的组合中的第一帧图片A,获取该第一帧图片A与其他图片的组合中相似值最小的组合,判断这个最小相似值(比如a2)是否小于门限值,若该最小相似值a2小于门限值,则删除该第一帧图片A,继续循环;若该最小相似值a2不小于门限值,则获取第二帧图片B与其他图片的组合中相似值最小的组合。随后判断这个最小相似值(比如a3)是否小于门限值,若该最小相似值a3小于门限值,则删除第二帧图片B,继续循环;若该最小相似值a3不小于门限值,则删除第一帧图片A,继续循环。
在进行回环检测前,使工厂物流用无人车环绕工厂运动一周,采集工厂的运动视频数据,然后以一定的帧速率从运动视频数据中提取每帧的静止图片,基于图片间的相似值删除上述静止图片中的冗余图片,生成高质量的训练数据,再使用该训练数据对U-net网路进行训练,调整U-net网路的网络参数,以提高U-net网路对图像进行语义分割的准确性。
具体地,从U-net网络的降采样部分的第一个有效卷积的中间层获取图片的特征向量,如此可以更加清楚准确地获取适用于U-net网络的该帧图片的特征向量。
具体地,通过计算任意两帧图片的特征向量的欧几里得距离来确定任意两帧图片的特征向量之间的差值。
具体地,可以基于每帧图片的特征向量来确定门限值,例如,可以获取每两帧图片的特征向量的欧几里得距离的平均值做为门限值。也可以根据实际需要适当调整门限值的大小,当门限值减小时,判定为相似的图片数量减少,冗余图片数减少,获得的训练数据会增加;当门限值增大时,判定为相似的图片数量增加,冗余图片数增加,获得的训练数据会减少。
步骤2,利用工厂物流用无人车在移动过程中采集工厂的图片,获取该图片的RGB图,并将该RGB图用训练U-net网络进行图像语义分割,得到语义标签。
传统的图像分割方法大部分是基于图像本身的特征提取,需要在图像上生成不同的区域,再在区域上提取特征,对区域进行分类合并才能得到最终图像分割的结果,过程比较复杂,并且效果也有很大的提升空间。本文采用经过该工厂的运动视频数据中的静止图片训练的U-net网络来进行图像语义分割,可以提高语义分割的准确性。
步骤3,对上述图片中的语义标签进行聚类。
具体地,通过K-means算法对语义标签进行聚类。
简单的说,当有N个数据,想要归成k个类,那么K-means来做主要包括如下步骤:
1.随机选取k个中心点:c1,...,ck
2.对每一个样本,计算它与每个中心点之间的距离,取最小的作为它的归类;
3.重新计算每个类的中心点;
4.如果每个中心点变化很小,则算法收敛,退出;否则返回第二步。
步骤4,对聚类后的语义标签进行相似性比较,获取候选关键帧。
具体地,把整张图片的语义标签都列出来,直接比较任意两帧图片的重复的语义标签,获取重复的语义标签在任意两帧图片的语义标签中的比例,若上述比例超过预设的阈值,则将该帧图片列入候选关键帧列表。例如,设置阈值为百分之八十,当重复的语义标签在该帧图片的所有语义标签中的比例超过百分之八十时,将该帧图片做为候选帧。作为一种示例,假设A帧图片中有6类标签,B帧图片中有7类标签,重复了5类标签,则A帧图片的重复的语义标签的比例是5/6,超过了百分之八十,则将A帧图片列入候选关键帧列表;B帧图片的重复的语义标签的比例是5/7,低于百分之八十,则不将B帧图片列入候选关键帧列表。对词袋模型的候选关键帧组进行内部的比较,排除一些不符合检测标准的关键帧,便于后期确定出真正的闭环关键帧,可以提高回环检测的精度。
步骤5,在检测到有关键帧插入后,进入回环检测。
具体地,进行闭环检测具体包括如下步骤:
步骤5.1,若距离上次闭环小于10帧,则直接退出。
如果当前关键帧距离上一帧关键帧之间小于10个帧,说明运动的太短了,则不需要做回环检测。
步骤5.2,遍历关键帧的所有共视关键帧,基于词袋模型计算关键帧与每个共视关键帧的相似度,找出相似度中的最低分,删除最低分对应的共视关键帧。
确保闭环检测到的帧的匹配程度和共视帧的匹配程度相当,删除不合格的帧。
步骤5.3,找出与关键帧相连的帧,遍历该帧的所有单词,提取出拥有上述所有单词的所有帧,存放在候选帧列表中。
步骤5.4,遍历候选帧列表,将候选帧列表中共有单词数较多且相似度高于上述最低分的帧存放在匹配列表中。
步骤5.5,将匹配列表中每一帧与该帧共视程度较高的帧每10帧组成一组,选出累计得分最高的一组,记录下累计最高分,将累计得分大于0.75倍该累计最高分的组里的得分最高的帧都存放在闭环候选列表中,成为候选帧。
步骤5.6,进行连续性检测。
以上上述的实施例仅表达了本发明的实施优选方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种语义特征和词袋模型相结合的视觉SLAM回环检测方法,其特征在于,包括如下步骤:
步骤1,利用工厂物流用无人车采集工厂的运动视频数据,从所述运动视频数据中获取每帧图片,将每一帧图片都与其他图片两两组合,计算任意两帧图片的组合的特征向量之间的差值来确定所述任意两帧图片之间的相似值;
遍历所有组合的相似值,判断是否存在相似值小于门限值的组合,若不存在,则确定所述任意两帧图片是不相似的图片,保留所述任意两帧图片;
若存在,则获取相似值最小的第一组合,获取所述第一组合中的第一帧图片和第二帧图片,并获取所述第一帧图片与除了所述第二帧图片之外的其他图片的组合中相似值最小的第二组合,若所述第二组合的相似值小于门限值,则删除所述第一帧图片,然后继续遍历所述第一组合之后的其他组合,判断是否存在相似值小于门限值的组合;若所述第二组合的相似值不小于门限值,则获取所述第二帧图片与除了所述第一帧图片之外的其他图片的组合中相似值最小的第三组合,若所述第三组合的相似值小于门限值,则删除所述第二帧图片,然后继续遍历所述第一组合之后的其他组合,判断是否存在相似值小于门限值的组合;若所述第三组合的相似值不小于门限值,则删除所述第一帧图片,然后继续遍历所述第一组合之后的其他组合,判断是否存在相似值小于门限值的组合,其中,被删除的图片为冗余图片;
从获取的所述每帧图片中删除所有的冗余图片得到训练数据,将所述训练数据输入U-net网络对U-net网络进行训练,得到训练U-net网络;
步骤2,利用所述工厂物流用无人车在移动过程中采集工厂的图片,获取所述图片的RGB图,并将所述RGB图用所述训练U-net网络进行图像语义分割,得到语义标签;
步骤3,对所述图片中的所述语义标签进行聚类;
步骤4,对聚类后的所述语义标签进行相似性比较,获取候选关键帧;
在步骤4中,把整张图片的所述语义标签都列出来,直接比较任意两帧图片的重复的语义标签,获取所述重复的语义标签在所述任意两帧图片的语义标签中的比例,若所述比例超过预设的阈值,则将该帧图片列入候选关键帧列表;
步骤5,在检测到有关键帧插入后,进入回环检测。
2.根据权利要求1所述的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法,其特征在于,从所述U-net网络的降采样部分的第一个有效卷积的中间层获取所述每帧图片的特征向量。
3.根据权利要求1所述的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法,其特征在于,通过计算所述任意两帧图片的特征向量的欧几里得距离来确定所述任意两帧图片的特征向量之间的差值。
4.根据权利要求1所述的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法,其特征在于,步骤3中,对所述语义标签通过K-means算法进行聚类。
5.根据权利要求1所述的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法,其特征在于,步骤5中,进行闭环检测具体包括如下步骤:
步骤5.1,若距离上次闭环小于10帧,则直接退出;
步骤5.2,遍历所述关键帧的所有共视关键帧,基于词袋模型计算所述关键帧与每个共视关键帧的相似度,找出所述相似度中的最低分,删除所述最低分对应的共视关键帧;
步骤5.3,找出与所述关键帧相连的帧,遍历所述帧的所有单词,提取出拥有所述所有单词的所有帧,存放在候选帧列表中;
步骤5.4,遍历所述候选帧列表,将所述候选帧列表中共有单词数较多且相似度高于所述最低分的帧存放在匹配列表中;
步骤5.5,将所述匹配列表中每一帧与该帧共视程度较高的帧每10帧组成一组,选出累计得分最高的一组,记录下累计最高分,将累计得分大于0.75倍所述累计最高分的组里的得分最高的帧都存放在闭环候选列表中,成为候选帧;
步骤5.6,进行连续性检测。
CN202210896120.9A 2022-07-27 2022-07-27 一种语义特征和词袋模型相结合的视觉slam回环检测方法 Active CN115240115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210896120.9A CN115240115B (zh) 2022-07-27 2022-07-27 一种语义特征和词袋模型相结合的视觉slam回环检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210896120.9A CN115240115B (zh) 2022-07-27 2022-07-27 一种语义特征和词袋模型相结合的视觉slam回环检测方法

Publications (2)

Publication Number Publication Date
CN115240115A CN115240115A (zh) 2022-10-25
CN115240115B true CN115240115B (zh) 2023-04-07

Family

ID=83678114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210896120.9A Active CN115240115B (zh) 2022-07-27 2022-07-27 一种语义特征和词袋模型相结合的视觉slam回环检测方法

Country Status (1)

Country Link
CN (1) CN115240115B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696118A (zh) * 2020-05-25 2020-09-22 东南大学 动态场景下基于语义分割与图像修复的视觉回环检测方法
CN112699954A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种基于深度学习和词袋模型的闭环检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559320B (zh) * 2018-09-18 2022-11-18 华东理工大学 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
CN112507778B (zh) * 2020-10-16 2022-10-04 天津大学 一种基于线特征的改进词袋模型的回环检测方法
CN112508985B (zh) * 2020-12-21 2022-12-16 华南理工大学 一种基于语义分割的slam回环检测改进方法
CN113537208A (zh) * 2021-05-18 2021-10-22 杭州电子科技大学 一种基于语义orb-slam技术的视觉定位方法及系统
CN114332221A (zh) * 2021-12-28 2022-04-12 北京易航远智科技有限公司 基于语义的回环检测方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696118A (zh) * 2020-05-25 2020-09-22 东南大学 动态场景下基于语义分割与图像修复的视觉回环检测方法
CN112699954A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种基于深度学习和词袋模型的闭环检测方法

Also Published As

Publication number Publication date
CN115240115A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
US20200285896A1 (en) Method for person re-identification based on deep model with multi-loss fusion training strategy
CN107341517B (zh) 基于深度学习层级间特征融合的多尺度小物体检测方法
CN107194318B (zh) 目标检测辅助的场景识别方法
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
CN102609686B (zh) 一种行人检测方法
CN109784197B (zh) 基于孔洞卷积与注意力学习机制的行人再识别方法
Tsintotas et al. Probabilistic appearance-based place recognition through bag of tracked words
CN110414559B (zh) 智能零售柜商品目标检测统一框架的构建方法及商品识别方法
US11640714B2 (en) Video panoptic segmentation
CN111680655A (zh) 一种面向无人机航拍影像的视频目标检测方法
CN105574550A (zh) 一种车辆识别方法及装置
CN108921850B (zh) 一种基于图像分割技术的图像局部特征的提取方法
CN110210433B (zh) 一种基于深度学习的集装箱箱号检测与识别方法
CN111339975A (zh) 基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法
CN114708437B (zh) 目标检测模型的训练方法、目标检测方法、装置和介质
CN115115825B (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
CN109543498B (zh) 一种基于多任务网络的车道线检测方法
CN110413825B (zh) 面向时尚电商的街拍推荐系统
CN111582154A (zh) 基于多任务骨架姿态划分部件的行人重识别方法
CN114494823A (zh) 零售场景下的商品识别检测计数方法及系统
CN115240115B (zh) 一种语义特征和词袋模型相结合的视觉slam回环检测方法
CN113313149A (zh) 一种基于注意力机制和度量学习的菜品识别方法
Fritz et al. Urban object recognition from informative local features
CN116630947A (zh) 异物检测方法及装置、非瞬态计算机可读存储介质
Zhu et al. (Retracted) Transfer learning-based YOLOv3 model for road dense object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant