CN107833250B

CN107833250B - 语义空间地图构建方法及装置

Info

Publication number: CN107833250B
Application number: CN201711001164.6A
Authority: CN
Inventors: 刘洋; 华仁红; 陈德; 饶杰
Original assignee: Beijing Yida Tuling Technology Co ltd
Current assignee: Beijing Yida Tuling Technology Co ltd
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2020-05-05
Anticipated expiration: 2037-10-24
Also published as: CN107833250A

Abstract

本发明提供一种语义空间地图构建方法及装置，方法包括获取多幅图像的图像数据；若判断获知多幅图像的图像数据中存在特征点和语义特征点，则根据多幅图像的图像数据获取每个特征点的位置、每个特征点的描述信息、每个语义特征的位置和语义信息；根据每个特征点的描述信息对多幅图像间特征点的位置进行匹配，获取图像间的特征点匹配集，根据每幅图像中语义特征点的语义信息对多幅图像间语义特征的位置进行匹配，获取图像间的语义特征匹配点集；根据两个匹配集获取每个特征点和每个语义特征点对应的三维空间位置，并据此和每个语义特征的语义信息构建待建立地图的场景的语义空间地图。本发明构建出了空间地图和语义地图的语义空间地图。

Description

语义空间地图构建方法及装置

技术领域

本发明涉及计算机处理技术领域，特别涉及一种语义空间地图构建方法及装置。

背景技术

现有技术采用运动恢复结构的方法，通过对多幅场景图像进行处理进行三维重建，从而构建出环境的三维空间地图。以上几个步骤仅仅获得了关于相机位姿以及场景中特征点空间位置的一个初始的估计，想要得到最终的关于相机位姿和特征点位置的精确解还需要一个优化的过程，现有技术大多采用光束法平差来进行全局优化。光束法平差过程中将相机位姿和特征点空间位置作为状态向量，将观测值作为约束，构造关于状态向量的目标函数，得到一个最小二乘问题，对该最小二乘问题进行求解，最终得到状态向量的最优解，也即最终输出的空间地图。

现有技术所构建的空间地图，只包含特征点的空间信息，不包含任何的语义信息，使得用户或上层任务无法在语义层面与地图进行交互，因此其价值并不大。

发明内容

本发明提供一种全部或至少部分解决上述技术问题的一种语义空间地图构建方法及装置。

第一方面，本发明提供一种语义空间地图构建方法，包括：

获取多幅图像的图像数据；所述多幅图像是由摄像设备对待建立地图的场景拍摄得到的；

若判断获知所述多幅图像的图像数据中存在特征点和语义特征点，则根据所述多幅图像的图像数据，采用预设检测方法获取每个特征点的位置、每个特征点的描述信息、每个语义特征的位置和每个语义特征的语义信息；

根据所述每个特征点的描述信息对多幅图像间特征点的位置进行匹配，获取图像间的特征点匹配集，并根据每幅图像中语义特征点的语义信息对多幅图像间语义特征的位置进行匹配，获取图像间的语义特征匹配点集；

根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每个特征点和每个语义特征点对应的三维空间位置；

根据所述每个特征点、每个语义特征点对应的三维空间位置和每个语义特征的语义信息，构建待建立地图的场景的语义空间地图。

优选的，根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每个特征点和每个语义特征点对应的三维空间位置，包括：

根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每幅图像对应的摄像设备的位姿信息；所述位姿信息包括位置信息和姿态信息；

根据所述每幅图像对应的摄像设备的位姿信息、图像间的特征点匹配集和图像间的语义特征匹配点集，获取每个特征点和每个语义特征点对应的三维空间位置。

优选的，根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每幅图像对应的摄像设备的位姿信息，包括：

根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每幅图像对应的本质矩阵或基础矩阵；

根据每幅图像对应的本质矩阵或基础矩阵，获取每幅图像对应的摄像设备的旋转矩阵和平移矩阵；

根据每幅图像对应的摄像设备的旋转矩阵和平移矩阵，获取每幅图像对应的摄像设备的位姿信息。

优选的，根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每幅图像对应的本质矩阵或基础矩阵，包括：

根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，利用对极几何约束法获取每幅图像对应的本质矩阵或基础矩阵。

优选的，根据所述每幅图像对应的摄像设备的位姿信息、图像间的特征点匹配集和图像间的语义特征匹配点集，获取每个特征点和每个语义特征点对应的三维空间位置，包括：

根据所述每幅图像对应的摄像设备的位姿信息、图像间的特征点匹配集和图像间的语义特征匹配点集，采用三角测量法获取每个特征点和每个语义特征点对应的三维空间位置。

优选的，根据所述多幅图像的图像数据，采用预设检测方法获取每个特征点的位置、每个特征点的描述信息、每个语义特征的位置和每个语义特征的语义信息，包括：

根据所述多幅图像的图像数据，采用SIFT方法获取每个特征点的位置和每个特征点的特征描述子。

根据所述多幅图像的图像数据，采用Faster-RCNN检测方法获取每个语义特征的位置，采用深度学习的文字识别方法获取每个语义特征的语义信息。

第二方面，本发明还提供一种语义空间地图构建装置，包括：

第一获取单元，用于获取多幅图像的图像数据；所述多幅图像是由摄像设备对待建立地图的场景拍摄得到的；

第二获取单元，用于若判断获知所述多幅图像的图像数据中存在特征点和语义特征点，则根据所述多幅图像的图像数据，采用预设检测方法获取每个特征点的位置、每个特征点的描述信息、每个语义特征的位置和每个语义特征的语义信息；

第三获取单元，用于根据所述每个特征点的描述信息对多幅图像间特征点的位置进行匹配，获取图像间的特征点匹配集，并根据每幅图像中语义特征点的语义信息对多幅图像间语义特征的位置进行匹配，获取图像间的语义特征匹配点集；

第四获取单元，用于根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每个特征点和每个语义特征点对应的三维空间位置；

构建单元，用于根据所述每个特征点、每个语义特征点对应的三维空间位置和每个语义特征的语义信息，构建待建立地图的场景的语义空间地图。

优选的，所述第四获取单元，还用于：

由上述技术方案可知，本发明构建出了分层次的语义空间地图，地图的底层为空间地图，上层为语义地图，用户既可以直接与底层的空间地图进行交互，又可以直接与语义地图进行交互，并自动完成语义地图到空间地图的解析映射，而且语义地图由于形象直观，因此更容易为用户或上层任务所理解。

附图说明

图1为本发明一实施例提供的一种语义空间地图构建方法的流程图；

图2为本发明一实施例提供的一种语义空间地图构建装置的原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清除、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例提供的一种语义空间地图构建方法的流程图。

如图1所示的一种语义空间地图构建方法，包括：

S101、获取多幅图像的图像数据；所述多幅图像是由摄像设备对待建立地图的场景拍摄得到的；

所述多幅图像可以是用摄像设备拍摄视频，然后抽取出视频数据中的序列图像数据。当然，也可以为其他方式采集的图像数据，本发明对此不做限制。所述摄像设备可以为照相机、摄像机以及其他任何可以摄像的设备。

S102、若判断获知所述多幅图像的图像数据中存在特征点和语义特征点，则根据所述多幅图像的图像数据，采用预设检测方法获取每个特征点的位置、每个特征点的描述信息、每个语义特征的位置和每个语义特征的语义信息；

SIFT方法比KAZE方法的实时性强，比ORB的性能稳定，比SURF方法在尺度和旋转不变性等方面强，因此，在一种具体实施例中，根据所述多幅图像的图像数据，采用SIFT方法获取每个特征点的位置和每个特征点的特征描述子(即所述的描述信息)。所述特征点的位置为特征点的像素坐标，采用SIFT方法作为图像特征提取的算法，提高了特征提取的速度，优选采用SIFT-GPU方法。

在一种具体实施例中，根据所述多幅图像的图像数据，采用深度学习方法的物体检测方法，具体为Faster-RCNN检测方法获取每个语义特征的位置，采用深度学习的文字识别方法获取每个语义特征的语义信息。可以理解的是，所述语义特征的位置为语义特征的像素坐标。Faster-RCNN检测方法可以快速提取到图像中语义特征的像素坐标。

SIFT特征(即上述特征点)是通过对环境(待建立地图的场景)的纹理信息进行抽象表达所得到的一种特征，其只包含纹理信息不包含任何语义信息。事实上环境中存在大量的形象直观且包含语义信息的特征，例如环境中固定的树、建筑、标牌等等，将这些包含语义信息的语义特征引入到地图构建的过程中去，可以在传统的空间地图的基础上同时获得环境的语义地图。本步骤中获取每个语义特征的位置和每个语义特征的语义信息，用特征点和语义特征点两者共同结合构建语义空间地图。

S103、根据所述每个特征点的描述信息对多幅图像间特征点的位置进行匹配，获取图像间的特征点匹配集，并根据每幅图像中语义特征点的语义信息对多幅图像间语义特征的位置进行匹配，获取图像间的语义特征匹配点集；

可以理解的是，图像间的特征点匹配集包括不同图像中具有匹配关系的特征点的位置对，图像间的语义特征匹配点集包括不同图像中具有匹配关系的语义特征点的位置对。

根据所述每个特征点的描述信息对多幅图像间特征点的位置进行匹配，获取图像间的特征点匹配集的本质是特征点匹配，就是多维度矢量之间的检索配对，在两幅图像中，特征点匹配就是两幅图像的点集之间多维度矢量点的相似性检索。两点集之间的检索，一般有两种方法，一种是线性扫描，即穷举搜索，将点集1中的某一点与点集2中的所有点逐个作比较，找出距离最近点；另一种是在分别为两组点集建立一定的索引结构，在合理的索引结构中进行搜索，这样可以大大提高检索效率，降低时间损耗。其中，相比于B树、R树，K-D树更适合于在空间中进行点的查询，所以SIFT算法以基于K-D树的结构进行特征点匹配。

与上述SITF特征点匹配类似，本步骤中同样将对语义特征进行匹配。由于环境中存在着许多带有唯一标识牌的物体，本发明将利用这些标识牌上的文字对物体进行匹配。首先，本发明利用深度学习技术对每个物体所对应标识牌上的文字进行识别，物体作为语义特征，文字信息即为该语义特征的语义信息。通过对两两图像中物体的语义特征进行匹配，即可获得图像间的特征匹配点集。

S104、根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每个特征点和每个语义特征点对应的三维空间位置；

值得说明的是，所述每个特征点和每个语义特征点对应的三维空间位置包括每个特征点的三维空间位置和每个语义特征点对应的三维空间位置。

S105、根据所述每个特征点、每个语义特征点对应的三维空间位置和每个语义特征的语义信息，构建待建立地图的场景的语义空间地图。

本发明构建出了分层次的语义空间地图，地图的底层为空间地图，上层为语义地图，用户既可以直接与底层的空间地图进行交互，又可以直接与语义地图进行交互，并自动完成语义地图到空间地图的解析映射，而且语义地图由于形象直观，因此更容易为用户或上层任务所理解。

作为一种优选实施例，所述步骤S104，包括：

具体地，根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，多视角几何的基本原理获取每幅图像对应的摄像设备的位姿信息。

根据所述每幅图像对应的摄像设备的位姿信息、图像间的特征点匹配集和图像间的语义特征匹配点集，获取每个特征点和每个语义特征点对应的三维空间位置。在一种具体实施例中，根据所述每幅图像对应的摄像设备的位姿信息、图像间的特征点匹配集和图像间的语义特征匹配点集，采用三角测量法获取每个特征点和每个语义特征点对应的三维空间位置。

可以理解的是，获取了摄像设备的位姿信息即为估计到了相机(摄像设备为相机)运动，在得到运动之后，用相机的运动估计特征点的空间位置。通过单张图像无法获得像素的深度信息，因此本实施例采用三角测量的方法来估计地图点的深度。三角测量是指，通过在两处观察同一个点的夹角，从而确定该点的距离。三角测量最早是由高斯提出并应用于测量学中，它在天文学、地理学的测量中都有应用。在本具体实施例中，利用估计得到的相机的位姿信息，分别对特征点匹配集和语义特征匹配点集进行三角化，则可以分别得到特征点和语义特征点所对应的三维空间位置。

本实施例采用所述图像间的特征点匹配集和图像间的语义特征匹配点集共同获取摄像设备的位姿信息，因此最终获得的每个特征点和每个语义特征点对应的三维空间位置更精确。

作为一种优选实施例，根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每幅图像对应的摄像设备的位姿信息，包括：

作为一种优选实施例，根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每幅图像对应的本质矩阵或基础矩阵，包括：

根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，利用视觉几何中的对极几何约束法获取每幅图像对应的本质矩阵或基础矩阵。

作为一种优选实施例，还包括：利用光束法平差进行重构提纯；

所谓的BA(Bundle Adjustment，光束法平差)，是指从视觉重建中提炼出最优的3D模型和相机参数(内参数和外参数)。从每一个特征点反射出来的几束光线，在把相机姿态和特征点空间位置做出最优的调整之后，最后收束到相机光心的这个过程，简称为BA。本发明利用BA技术，对得到的语义空间地图进行优化，从而得到了最终所需要的高精度的语义空间地图。

下面提供几个具体实施例说明本发明。

(1)2016年11月，在陕西省西安市电力专科学校进行了本发明所述的构建语义空间地图的实验，该场景为800m*800m大小。实验过程中，首先进行数据采集工作，利用海康相机对全站场景拍摄视频。取得视频数据后，抽取出视频中序列图像数据。然后利用标定板标定出相机的内参数。利用本发明所述方法，对这些图像数据进行离线处理，最终获得了分层次的语义空间地图。对实验结果进行测量评估，所建立的空间地图无论是路径点还是特征点，其位置精度在2cm以内；所建立的语义地图包含了场景内所有的语义设备，并准确的映射到了空间地图层上。

(2)2016年12月，在北京市密云县的中国遥感卫星地面接收站进行了本发明所述的构建语义空间地图的实验，该场景为1000m*1000m大小。实验过程中，首先进行数据采集工作，利用海康相机对全站场景拍摄视频。取得视频数据后，抽取出视频中序列图像数据。然后利用标定板标定出相机的内参数。利用本发明所述方法，对这些图像数据进行离线处理，最终获得了分层次的语义空间地图。对实验结果进行测量评估，所建立的空间地图无论是路径点还是特征点，其位置精度在3cm以内；所建立的语义地图包含了场景内所有的语义设备，并准确的映射到了空间地图层上。

(3)2017年4月，在陕西省富平县330kV变电站进行了本发明所述的构建语义空间地图的实验，该场景为800m*600m左右大小。实验过程中，首先进行数据采集工作，利用海康相机对全站场景拍摄视频。取得视频数据后，抽取出视频中序列图像数据。然后利用标定板标定出相机的内参数。利用本发明所述方法，对这些图像数据进行离线处理，最终获得了分层次的语义空间地图。对实验结果进行测量评估，所建立的空间地图无论是路径点还是特征点，其位置精度在2cm以内；所建立的语义地图包含了场景内所有的语义设备，并准确的映射到了空间地图层上。

如图2所示的一种语义空间地图构建装置，包括：

第一获取单元201，用于获取多幅图像的图像数据；所述多幅图像是由摄像设备对待建立地图的场景拍摄得到的；

第二获取单元202，用于若判断获知所述多幅图像的图像数据中存在特征点和语义特征点，则根据所述多幅图像的图像数据，采用预设检测方法获取每个特征点的位置、每个特征点的描述信息、每个语义特征的位置和每个语义特征的语义信息；

第三获取单元203，用于根据所述每个特征点的描述信息对多幅图像间特征点的位置进行匹配，获取图像间的特征点匹配集，并根据每幅图像中语义特征点的语义信息对多幅图像间语义特征的位置进行匹配，获取图像间的语义特征匹配点集；

第四获取单元204，用于根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每个特征点和每个语义特征点对应的三维空间位置；

构建单元205，用于根据所述每个特征点、每个语义特征点对应的三维空间位置和每个语义特征的语义信息，构建待建立地图的场景的语义空间地图。

作为一种优选实施例，所述第四获取单元204，还用于：

由于本发明的一种语义空间地图构建装置和一种语义空间地图构建方法是一一对应的，因此，对语义空间地图构建装置不再详述。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上实施方式仅适于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种语义空间地图构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每个特征点和每个语义特征点对应的三维空间位置，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每幅图像对应的摄像设备的位姿信息，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述图像间的特征点匹配集和图像间的语义特征匹配点集，获取每幅图像对应的本质矩阵或基础矩阵，包括：

5.根据权利要求2所述的方法，其特征在于，根据所述每幅图像对应的摄像设备的位姿信息、图像间的特征点匹配集和图像间的语义特征匹配点集，获取每个特征点和每个语义特征点对应的三维空间位置，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述多幅图像的图像数据，采用预设检测方法获取每个特征点的位置、每个特征点的描述信息、每个语义特征的位置和每个语义特征的语义信息，包括：

7.根据权利要求1所述的方法，其特征在于，根据所述多幅图像的图像数据，采用预设检测方法获取每个特征点的位置、每个特征点的描述信息、每个语义特征的位置和每个语义特征的语义信息，包括：

8.一种语义空间地图构建装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述第四获取单元，还用于：

10.根据权利要求9所述的装置，其特征在于，所述第四获取单元，还用于：