CN108830220A

CN108830220A - 基于深度学习的视觉语义库构建及全局定位方法

Info

Publication number: CN108830220A
Application number: CN201810623212.3A
Authority: CN
Inventors: 刘国良; 张威; 田国会
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2018-11-16
Anticipated expiration: 2038-06-15
Also published as: CN108830220B

Abstract

本发明公开了基于深度学习的视觉语义库构建及全局定位方法及系统，包括：视觉语义库构建步骤：获取相机的关键帧及对应的位姿，输入关键帧图像获取关键帧物体语义信息，根据物体语义信息进行物体局部特征的提取，将关键帧对应的位姿、物体语义信息、物体局部特征存入数据库；相机定位步骤：利用物品种类粗筛选和图像特征细筛选两层候选帧检索机制筛选出与当前图像相似的候选图像。本发明通过将深度学习与传统SLAM算法相结合，有效实现对场景中物品的识别与图像分割，并建立相应的视觉语义库。同时，该语义库利用物体的语义信息和物体局部特征两层筛选机制进行全局定位，可提高匹配效率，减少误匹配，提高定位精度。

Description

基于深度学习的视觉语义库构建及全局定位方法

技术领域

本发明涉及图像识别技术领域，特别是涉及基于深度学习的视觉语义库构建及全局定位方法。

背景技术

传统的物体识别与分割方法通常基于特征点匹配进行不同物体的识别，并结合聚类算法完成物体间的分割。然而基于人工特征点匹配的方法在面临光照、特征点稀疏等特殊环境时并不能很好的对物品进行识别；当物体间距离过近时传统的聚类算法也无法对物体进行精准的分割。

相对于传统的识别分割方法，基于深度学习的物品识别与分割方法更具鲁棒性，在面临光照、遮挡等复杂环境时也能对物体进行较为精确的识别与分割：如Faster R-CNN网络可以直接获取图像中的物体信息及物体的矩形框相对位置；Mask R-CNN网络在获取物体信息与矩形框相对位置的基础上，可以直接获取物体的掩码，实现了像素级的物体分割。全局定位指的是在未知的环境中如何获取机器人在世界坐标系下的位姿。视觉SLAM系统中经常出现相机跟踪丢失的情况，如何在相机跟踪丢失的情况下精确的进行全局定位对保证SLAM系统的鲁棒性和稳定性尤为重要。

传统的全局定位方法通常基于BoW词袋模型进行图像间相似度的匹配并获取相似图像，然后结合相关优化方法实现当前图像与相似图像的位姿变换。然而BoW词袋模型通常采用人工构造的特征并结合聚类算法构造词典表示图像，并利用词典直方图进行图像匹配，在面临光照、遮挡等复杂环境下仍容易出现误匹配的情况。

针对室内环境下视觉语义库构建过程中的家庭常用物品(瓶子、椅子、盆栽、显示屏、笔记本、鼠标、键盘、手机、书、杯子)的识别与分割问题，本申请提出了一种基于深度学习的物品识别及分割方法，并构建了包含物品语义信息的视觉语义库。

发明内容

为了解决现有技术的不足，本发明提供了基于深度学习的视觉语义库构建及全局定位方法，本发明提高匹配效率，减少误匹配，提高定位精度。

基于深度学习的视觉语义库构建及全局定位方法，包括：

视觉语义库构建步骤：获取相机运动过程中关键帧图像的空间位姿，输入关键帧图像获取图像中不同物体的二维空间位置，并结合物体名称获取物体的局部特征，将关键帧图像的空间位姿、物体名称、物体局部特征存入数据库；

相机定位步骤：利用物品种类粗筛选和图像特征细筛选两层候选帧检索机制筛选出与当前图像相似的候选图像，其中，粗筛选阶段，获取当前图像的物品信息并与数据库中的物品信息对比，找出包含当前物品信息的关键帧，细筛选阶段，对于找到的关键帧，通过物品局部特征匹配找出最相似关键帧。

进一步优选的技术方案，利用视觉SLAM算法获取的相机位姿作为位姿基准构建视觉语义库。

进一步优选的技术方案，利用ORB特征匹配并结合非线性优化获取关键帧的位姿。

进一步优选的技术方案，Mask R-CNN网络输入关键帧图像，直接获取关键帧图像的物体属性和相对区域。

进一步优选的技术方案，采用SURF特征作为相对区域内物体的局部特征。

进一步优选的技术方案，在数据库中定义了两个表格：物体表和图像表，其中物体表中保存的是物体的ID，物体的名称，对应的物体图像特征和物体所属关键帧ID；

图像表中存储的是关键帧ID，该关键帧所对应的位姿，彩色图像名称，深度图像名称；两表之间通过物体表中物体所属关键帧ID和图像表中的关键帧ID进行关联，获取每个关键帧对应的物体信息和每个物体所属的关键帧。

进一步优选的技术方案，物体ID、图像位姿、物体名称、彩色图像名称、深度图像名称通过文本格式存储，物体图像特征通过二进制格式存储。

进一步优选的技术方案，粗筛选阶段，通过Mask R-CNN网络获取当前图像的物品信息并与数据库中的物品信息对比，找出包含当前物品信息的关键帧。

进一步优选的技术方案，细筛选阶段，对于找到的关键帧，通过物品局部特征匹配找出最相似关键帧，对于获取的候选图像，基于ICP迭代最近邻算法估算出当前图像与候选图像的位姿变换，并与ORB-SLAM2获取的候选图像的世界坐标系下的位姿相结合从而获取当前图像的全局位姿变换。

基于深度学习的视觉语义库构建及全局定位系统，包括：

视觉语义库构建模块：获取相机的关键帧及对应的位姿，输入关键帧图像获取关键帧物体语义信息，根据物体语义信息进行物体局部特征的提取，将关键帧对应的位姿、物体语义信息、物体局部特征存入数据库；

相机定位模块：利用物品种类粗筛选和图像特征细筛选两层候选帧检索机制筛选出与当前图像相似的候选图像，其中，粗筛选阶段，获取当前图像的物品信息并与数据库中的物品信息对比，找出包含当前物品信息的关键帧，细筛选阶段，对于找到的关键帧，通过物品局部特征匹配找出最相似关键帧。

与现有技术相比，本发明的有益效果是：

本发明通过将深度学习与传统SLAM算法相结合，有效实现对场景中物品的识别与图像分割，并建立相应的视觉语义库。同时，该语义库利用物体的语义信息和物体局部特征两层筛选机制进行全局定位，可提高匹配效率，减少误匹配，提高定位精度。

本发明的基于视觉语义库的相机全局定位通过物品种类粗筛选和图像特征细筛选两层候选帧检索机制，可有效提高候选帧匹配效率，提高匹配精度，从而较高精度的实现相机的全局定位。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为基于深度学习的视觉语义库构建流程图；

图2为基于视觉语义库的相机全局定位流程图；

图3为基于MySQL数据库的视觉语义库结构图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本申请的一种典型的实施方式中，如图1所示，本专利提出了一种Mask R-CNN网络结合ORB-SLAM2的视觉语义库构建方法。ORB-SLAM2是一种较为成熟的视觉SLAM算法，可以较高精度的获取相机的空间位姿变换。本申请以ORB-SLAM2获取的相机位姿作为位姿基准构建视觉语义库。首先，ORB-SLAM2利用ORB特征匹配并结合非线性优化获取相机运动过程中关键帧图像的空间位姿。然后Mask R-CNN网络输入关键帧图像，直接获取图像中不同物体的二维空间位置，并结合传统物体描述方法获取物体的局部特征。考虑到SURF特征在物体识别中相对于ORB特征拥有更好的旋转尺度不变性，且比SIFT特征拥有更好的响应速度，我们采用SURF特征作为相对区域内物体的局部特征。最后将关键帧图像对应的位姿、物体名称、物体SURF特征存入MySQL数据库。

MySQL数据库结构如图3所示，首先，在MySQL数据库中定义了两个表格：物体表和图像表。其中物体表中保存的是物体的名称，对应着物体的ID，物体图像特征和物体所属关键帧ID。图像表中存储的是关键帧的ID，彩色图像名称，深度图像名称和该关键帧所对应的位姿(图像位姿)。两表之间通过物体表所属的关键帧ID和图像表中的关键帧ID进行关联。这样可以清楚的获取每个关键帧对应的所有物体信息和每个物体所属的唯一关键帧图像。其中，物体ID、关键帧ID、物体所属关键帧ID、关键帧位姿、物体名称、彩色图像名称和深度图像名称通过文本格式存储，物体图像特征(SURF特征)通过二进制格式存储以减少存储开销。

如图2所示，在全局定位阶段，首先利用物品种类粗筛选和图像特征细筛选两层候选帧检索机制筛选出与当前图像相似的候选图像。粗筛选阶段，通过Mask R-CNN网络获取当前图像的物品名称并与数据库中关键帧所包含的物体名称对比，找出包含当前物品的关键帧序列。细筛选阶段，对于找到的关键帧序列，通过物品局部特征匹配找出最相似关键帧。Mask R-CNN网络对光照、遮挡等复杂情况下有很好的鲁棒性，基于Mask R-CNN网络获取图像中的物体名称排除那些不包含这些物体的候选图像，并结合拥有旋转尺度不变性的SURF特征可以获取相似度较高的候选图像。对于获取的候选图像，基于ICP迭代最近邻算法估算出当前图像与候选图像的位姿变换，并与ORB-SLAM2获取的候选图像的世界坐标系下的位姿相乘获取当前图像在世界坐标系下的位姿，从而实现当前相机的全局定位。本实验验证了视觉语义库在相机全局定位中的精确性和时效性，同时该语义库在物体导航、人机交互等方面有潜在的应用价值。

本专利提出的基于深度学习Mask R-CNN网络的视觉语义库构建及利用该语义库实现相机全局定位的技术包含两个模块：视觉语义库构建模块和相机定位模块，分别如图1和图2所示。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于深度学习的视觉语义库构建及全局定位方法，其特征是，包括：

2.如权利要求1所述的基于深度学习的视觉语义库构建及全局定位方法，其特征是，利用视觉SLAM算法获取的相机位姿作为位姿基准构建视觉语义库。

3.如权利要求1所述的基于深度学习的视觉语义库构建及全局定位方法，其特征是，利用ORB特征匹配并结合非线性优化获取关键帧的位姿。

4.如权利要求1所述的基于深度学习的视觉语义库构建及全局定位方法，其特征是，Mask R-CNN网络输入关键帧图像，直接获取关键帧图像的物体属性和相对区域。

5.如权利要求1所述的基于深度学习的视觉语义库构建及全局定位方法，其特征是，采用SURF特征作为相对区域内物体的局部特征。

6.如权利要求1所述的基于深度学习的视觉语义库构建及全局定位方法，其特征是，在数据库中定义了两个表格：物体表和图像表，其中物体表中保存的是物体的ID，物体的名称，对应的物体图像特征和物体所属关键帧ID；

7.如权利要求1所述的基于深度学习的视觉语义库构建及全局定位方法，其特征是，物体ID、图像位姿、物体名称、彩色图像名称、深度图像名称通过文本格式存储，物体图像特征通过二进制格式存储。

8.如权利要求1所述的基于深度学习的视觉语义库构建及全局定位方法，其特征是，粗筛选阶段，通过Mask R-CNN网络获取当前图像的物品信息并与数据库中的物品信息对比，找出包含当前物品信息的关键帧。

9.如权利要求1所述的基于深度学习的视觉语义库构建及全局定位方法，其特征是，细筛选阶段，对于找到的关键帧，通过物品局部特征匹配找出最相似关键帧，对于获取的候选图像，基于ICP迭代最近邻算法估算出当前图像与候选图像的位姿变换，并与ORB-SLAM2获取的候选图像的世界坐标系下的位姿相结合从而获取当前图像的全局位姿变换。

10.基于深度学习的视觉语义库构建及全局定位系统，其特征是，包括：