CN113326716B

CN113326716B - 面向装配现场环境装配指导ar应用定位的回环检测方法

Info

Publication number: CN113326716B
Application number: CN202010129592.2A
Authority: CN
Inventors: 杨超品; 陈铮; 刘凌宇; 肖路昊
Original assignee: Beijing Chuangqi Vision Technology Co ltd
Current assignee: Beijing Chuangqi Vision Technology Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2024-03-01
Anticipated expiration: 2040-02-28
Also published as: CN113326716A

Abstract

本发明涉及增强现实(Augmented Reality，简称AR)、计算机视觉、机器学习领域，用于改善即时定位与地图构建技术(Simultaneous Localization And Mapping，简称SLAM)。本发明提出了面向装配现场环境装配指导AR应用定位的回环检测方法，主要包括以下步骤：1)图像特征提取；2)运动模型计算；3)图像特征分类；4)位姿估计；5)动静态特征分类；6)语义分割；7)语义词向量计算；8)动静态特征向量计算；9)相似度检测。本发明算法相较于传统的回环检测算法，消除了动态物体对回环检测的影响，结合动静态语义词向量和动静态特征词向量信息，解决由于动态物体造成假阴性、假阳性的问题，得到高准确率的回环检测结果，提高全局定位精度，从而满足增强现实在装配现场环境的定位需求。

Description

面向装配现场环境装配指导AR应用定位的回环检测方法

技术领域

本发明涉及增强现实(Augmented Reality，简称AR)、计算机视觉、机器学习领域，用于改善即时定位与地图构建技术(Simultaneous Localization AndMapping，简称SLAM)，能够大幅提升SLAM技术中的回环检测准确率，提高全局定位鲁棒性及精度，服务于装配现场环境下的装配指导AR应用的鲁棒定位。

背景技术

在计算机技术不断发展的今天，增强现实慢慢走近了生活，它能将计算机生成的虚拟信息和真实场景进行叠加，从而实现对现实的“增强”，被广泛的运用在装配培训现场。在增强现实技术中，定位技术是关键。只有能够对增强现实头盔显示器进行快速且准确的跟踪，才能在正确的地方叠加虚拟物体，实现虚实结合的效果。视觉SLAM技术能够利用图像信息，实现对环境的实时跟踪与建图，但是，纯图像信息的视觉SLAM不能适应装配现场环境下的跟踪定位问题。

视觉SLAM技术需要图像信息进行位姿跟踪，但是，当装配现场环境中存在动态物体，如人或是其他干扰的时候，图像信息不能正确的检测到动态物体，从而造成跟踪丢失，跟踪错误等问题，因此需要进行动态物体特征的消除。

视觉SLAM在跟踪定位过程中，由于长时间定位会造成累积误差，可以通过回环检测的方式进行累积误差的消除。但是，在装配现场环境下的回环检测过程，会存在假阴性、假阳性等错误判断操作检测错误而导致全局定位精度降低，因此需要提高回环检测的准确率。

发明内容

为了解决上述问题，本发明提供了一种面向装配现场环境装配指导AR应用定位的回环检测方法，可以消除装配现场环境下动态物体的影响，实现鲁棒定位；能够提高回环检测的检测准确率，从而提高AR定位的全局精度。

本发明解决技术问题所采用的技术方案是：本发明提供了一种面向装配现场环境装配指导AR应用定位的回环检测方法，以相机采集图像数据和惯性传感器数据作为输入，计算得到鲁棒准确的回环检测结果。该方法具体步骤如下：

步骤一、图像特征提取，根据相机输入的原始图像数据，进行图像特征提取，得到图像特征数据集；

步骤二、运动模型计算，根据图像特征集，结合图像中物体之间的运动关系，进行运动模型估计；

步骤三、图像特征分类，根据估计的运动模型，重新计算符合该模型的特征，将图像特征按照运动模型分类；

步骤四、位姿估计，根据惯性传感器输入的惯导数据，进行预积分计算，得到相机的位姿估计；

步骤五、动静态特征分类，根据位姿估计的结果，找到最接近的运动模型，即为静态模型，对应静态特征集，其他模型为动态模型，对应动态特征集；

步骤六、语义分割，根据应用场景，采集场景数据，利用神经网络进行训练，得到场景的语义分割模型；

步骤七、语义词向量计算，根据相机输入的原始图像信息，结合语义分割模型，得到语义分割结果，利用动静态特征集计算动静态语义信息，剔除动态语义信息，计算语义词向量；

步骤八、动静态特征向量计算，根据动静态特征集和词典信息，将动静态信息作为新的维度计算动静态特征词向量；

步骤九、相似度检测，分别计算语义词向量相似度检测结果和动静态特征词向量相似度检测结果，并根据一定权重计算最终检测结果作为相似度判断标准，确定回环。

本发明的有益效果是：

(1)提出了一种基于惯性传感器的动静态特征分类方法，相较于常规的基于惯性传感器的SLAM定位方法，本发明方法的优势在于从特征层面把场景中的动态信息和静态信息区分开，而该动态信息和静态信息来源于实时图像，能够实时的反馈当前场景的情况，实现动态特征的消除。

(2)提出了一种面向动态特征消除的语义分割方法，相较于其他语义分割方法，本发明方法优势在于能够从当前图像信息中，提取出动态物体的信息，并进行消除，而不是依靠先验信息(如人会动)来进行动态物体的消除。对于装配现场环境中人的干扰，如果人保持不动，本发明方法将人作为关键帧信息，而其他方法则会直接剔除人的信息，从而丢失大量有用信息。

(3)提出了一种面向动态特征消除的回环检测方法，相较于常规的回环检测方法，本发明方法的优势在于不仅剔除了环境中动态物体的影响，而且从特征层面和语义层面分别进行了回环检测的判断，并利用松耦合得到更加准确的检测结果，很好地避免假阴性、假阳性带来的错误检测。

(4)提出了一种面向装配现场环境装配指导AR应用定位的回环检测方法，该方法集成了动静态特征分类方法、语义分割算法及回环检测算法，在装配现场环境下能够得到高准确率的回环检测结果，实现鲁棒高精度的AR定位。动静态特征方法从特征层面把静态物体和动态物体的特征区分开，为语义分割提供了动静态物体的判断依据；利用区分后的静态特征进行语义分割，从而得到带动静态信息的语义信息；语义信息生成语义词向量，利用语义词向量相似度检测能够大幅提高回环检测的准确率。

附图说明

图1是根据本发明的面向装配现场环境装配指导AR应用定位的回环检测方法的方法流程图。

图2是根据本发明的面向装配现场环境装配指导AR应用定位的回环检测方法的运行流程图。

图3是根据本发明的基于惯性传感器的动静态特征分类方法的方法流程图。

具体实施方式

下面将结合附图对本发明做进一步的详细说明。一种面向装配现场环境装配指导AR应用定位的回环检测方法，以相机图像数据及惯性传感器数据作为输入，得到鲁棒准确的回环检测结果，服务于装配现场环境下装配指导AR应用的鲁棒定位。

相机和惯性传感器是视觉SLAM技术的主要输入手段，视觉SLAM全称即时定位与地图构建技术，能够根据图像信息进行环境的定位和建图。图像信息一般为特征信息，特征指的是图像信息中灰度值发生剧烈变化的点或者在图像边缘上曲率较大的点。动静态特征由当前特征所在的物体的运动状态决定，静态物体的特征为静态特征，也是视觉SLAM技术定位与建图的基础；动态物体的特征为动态特征，一般情况下干扰定位。语义分割赋予图像中的特征更多的语义，如人、设备，并从图像层面分割开。回环检测是指检测两次输入图像的相似程度，以此来判断当前位置是否已经经过，从而优化全局定位。词向量是回环检测的主要手段，词向量是特征按照一定规律组成的集合，将特征转换为有限维度的向量，能够计算向量差异来判断是否相似。

本发明的面向装配现场环境装配指导AR应用定位的回环检测方法的具体步骤如图1所示，包括以下步骤：

本发明的面向装配现场环境装配指导AR应用定位的回环检测方法的主要运行流程如图2所示。在初始化阶段，分别加载语义分割模型和字典信息。在运行阶段，分别由相机和惯性传感器获取到当前帧的图像输入和惯性输入。对图像信息进行特征提取处理，如果当前帧为关键帧，对特征进行运动模型计算来获得具有统一运动状态的特征集；对惯性信息进行预积分处理来获取到当前的位姿估计；结合分类特征集信息和位姿信息能够获得动静态特征集。图像信息还作为语义模型的输入，得到当前图像的语义分割信息；语义分割信息和动静态特征信息结合，得到带有动静态信息的语义信息。动静态语义信息通过遍历的方法来消除动态语义的影响，并生成对应的语义词向量，进行相似度检测；动静态特征结合词典信息生成动静态特征词向量，进行相似度检测；当语义词向量相似度检测和动静态特征词向量相似度检测均大于阈值，则当前图像为回环，找到正确的回环信息。

基于惯性传感器的动静态特征分类方法主要利用同一物体上的特征具有同样的运动状态的特性。通过按照运动状态来把特征进行分类，再结合惯性传感器的位姿估计，来确定出场景中动态物体的特征和静态物体的特征。主要流程如图3所示。特征的分类主要基于两种运动模型，本质矩阵E和单应矩阵H。本质矩阵E主要适用于两帧图形有一定的视差，能够形成对极约束的情形，而单应矩阵H主要适用于图像中特征在一个平面，利用平面关系求解位姿，不需要图像视差。特征分类的核心在于如何确定两个特征点具有同样的运动状态，流程如下：

步骤1、从当前数据集D中随机抽取不共线的4组特征样本分别计算单应矩阵H和本质矩阵E，得到模型M_ij和M_ik，对应内点集I_ij和I_ik；

步骤2、计算当前数据集中特征样本与模型M的投影误差e，设定阈值δ，若小于δ，则将该特征样本加入内点集I；

步骤3、重复上述过程k次，取内点最多的内点集I_{ij_b}和I_{ik_b}计算的模型(仅内点数大于阈值d_min，模型成立)作为当前数据集最优运动估计模型M_{ij_b}和M_{ik_b}；

步骤4、从当前数据集D中分别删除内点集I_{ij_b}和I_{ik_b}的特征样本得到新的数据集D_ij和D_ik；

步骤5、在新的数据集上继续计算最优运动估计模型M_b，直到数据集内点数小于阈值d_max或是估计模型不成立，循环结束，得到全部运动模型M_b及对应的内点集I_b。

步骤6、惯性信息预积分得到的旋转矩阵为R_imu，转换为四元数q_imu，位移向量为t_imu，特征估计的运动模型按编号分别得到旋转矩阵R_i，转换为四元数q_i，位移向量t_i，求解误差m。

步骤7、迭代所有运动模型，得到误差最小的m_min以及对应模型编号i，通过该特征模型还原静态特征，而其他的模型则还原出动态特征。

该方法能够从当前图像信息中，把动静态物体从特征层面区分开来，从而进行消除动态物体的影响；而特征信息能够更好地和语义信息进行结合，实现从语义层面消除动态物体的影响。

所述的面向动态特征消除的回环检测方法分别计算动静态特征词向量和语义词向量的相似度，通过松耦合的方式计算总相似度，从而确定当前是否为回环。

所述的动静态特征词向量计算和动静态特征词向量相似度检测相较于传统的词向量相似度检测，加入了动静态信息作为向量参数，其中，动静态特征词向量计算具体为：

计算动静态特征词向量v_A；

其中A表示当前图像，v_A表示A的词向量，w_n为词典解算的第n纬单词的数量，η_n为第n纬单词的权重，m_n为该单词对应的特征是否静态。

动静态特征词向量相似度检测具体为：

相似度检测采用L₁范数形式：

当两帧图像的动静态特性保持一致，当前权重不变否则权重为0。相似度检测的结果越小，表示两帧图像的相似度越高。

该方法的优势在于将动静态信息加入了词向量的构建，能够剔除动态物体对相似度检测的影响，提高检测准确性。

所述的语义词向量计算和语义词相似度检测优势在于不仅集成了语义信息，而且消除了语义中的动态信息，能够提高检测准确率。其中，语义词向量计算具体为：

用S表示语义信息，则S是一个原图分辨率大小的矩阵，且矩阵中任意元素不大于语义信息中类别总数k。用一个2*2的滑动窗口遍历整个S，用f_ij表示S中的任一特征，则

f_ij＝[s_ij,s_i,j+1,s_i+1,j,s_i+1,j+1] (4)

理论上f_ij有k⁴种情况，但对于单个S而言，其所包含的语义特征往往要低两个数量级，故而将每个语义特征都用一个对应的编号m表示，即

m＝s_ij*k³+s_i,j+1*k²+s_i+1,j*k+s_i+1,j+1,m∈[0,k⁴-1] (5)

对于一个S，其语义词向量用v_S表示，则如公式所示

其中，N表示在v_S中共有N类不同的语义特征，其中m_i表示特征编号，n_i表示特征数量。

在S中，并不是所有的特征都具有相同的意义，当f_ij中的四个语义信息相等时，即s_ij＝s_i,j+1＝s_i+1,j＝s_i+1,j+1＝a时，该特征表征的是a代表的语义类别在整个S中的面积占比，其余特征则表征的是S中的轮廓占比。在这些特征中，包含语义类别越多的特征在回环检测中更重要，用q表示特征的权重，包含4类语义信息的特征的权重为0.05；3类为0.02；2类为0.01；1类为0.001；此外，对于包含动态信息的特征，将其权重设为0，从而达到剔除动态特征的效果。

语义词相似度检测具体为：

语义词向量的相似度检验通过统计量Q和P来实现：

其中，N为ν_AB中不同特征的数量，q_i为m_i对应的权重，Q越小则表示相似度越高，当Q小于一定阈值时认为检测到了回环。

其中，m_j为只包含一类语义信息且为动态信息的语义特征对应的编号，l表示语义信息中动态特征对应语义类别总数，P越大代表语义信息中动态信息越多，当P大于一定阈值时认为该关键帧信息不足舍弃该帧。

该方法将语义信息作为回环检测的依据，构建了语义词向量。优势在于在语义的基础上，通过图像信息实时反馈的动静态特征，构建动静态语义，解决了动静态信息的来源问题。结合语义词向量进行回环检测判断，能够消除动态物体对于回环检测的影响，得到更高的检测准确率。

所述的面向动态特征消除的回环检测方法将动静态特征词向量相似度检测结果和语义词向量相似度检测结果按照一定的权重相加得到最终的相似度检测结果，只有当动静态特征词向量相似度检测结果、语义词向量相似度检测结果及最终的相似度检测结果均大于阈值，才能确定当前为回环。相较于DBoW2，在动态复杂环境中，保证最高准确率的情况，能够得到更高的召回率。且在保证召回率的情况下，能够得到更高的准确率。

Claims

1.一种面向装配现场环境装配指导AR应用定位的回环检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的面向装配现场环境装配指导AR应用定位的回环检测方法，其特征在于，所述步骤五的动静态特征分类包括以下流程：

步骤3、重复上述过程k次，仅内点数大于阈值d_min，模型成立，取内点最多的内点集I_{ij_b}和I_{ik_b}计算的模型作为当前数据集最优运动估计模型M_{ij_b}和M_{ik_b}；

步骤5、在新的数据集上继续计算最优运动估计模型M_b，直到数据集内点数小于阈值d_max或是估计模型不成立，循环结束，得到全部运动模型M_b及对应的内点集I_b；

步骤6、惯性信息预积分得到的旋转矩阵为R_imu，转换为四元数q_imu，位移向量为t_imu，特征估计的运动模型按编号分别得到旋转矩阵R_i，转换为四元数q_i，位移向量t_i，求解误差m；

步骤7、迭代所有运动模型，得到误差最小的m_min以及对应模型编号i，通过该运动模型还原静态特征，而其他的模型则还原出动态特征。

3.如权利要求1所述的面向装配现场环境装配指导AR应用定位的回环检测方法，其特征在于，所述步骤八中计算动静态特征词向量具体为：

动静态特征词向量v_A；

其中A表示当前图像，v_A表示A的词向量，w_n为词典解算的第n维单词的数量，η_n为第n维单词的权重，m_n为该单词对应的特征是否静态；

所述步骤九中动静态特征向量相似度检测具体为：

相似度检测采用L₁范数形式：

当两帧图像的动静态特性保持一致，当前权重不变否则权重为0；相似度检测的结果越小，表示两帧图像的相似度越高。

4.如权利要求1所述的面向装配现场环境装配指导AR应用定位的回环检测方法，其特征在于，所述步骤七中计算语义词向量具体为：

用S表示语义信息，则S是一个原图分辨率大小的矩阵，且矩阵中任意元素不大于语义信息中类别总数k，k小于或等于25；用一个2*2的滑动窗口遍历整个S，用f_ij表示S中的任一特征，则

f_ij＝[s_ij，s_i，j+1，s_i+1，j，s_i+1，j+1]

m＝s_ij*k³+s_i，j+1*k²+s_i+1，j*k+s_i+1，j+1，m∈[0，k⁴-1]

对于一个S，其语义词向量用v_s表示，则如公式所示

其中，N表示在vs中共有N类不同的语义特征，其中m_i表示特征编号，n_i表示特征数量；

在S中，并不是所有的特征都具有相同的意义，当f_ij中的四个语义信息相等时，即s_ij＝s_i，j+1＝s_i+1，t＝s_i+1，t+1＝a时，该特征表征的是a代表的语义类别在整个S中的面积占比，其余特征则表征的是S中的轮廓占比；在这些特征中，包含语义类别越多的特征在回环检测中更重要，用q表示特征的权重，包含4类语义信息的特征的权重为0.05；3类为0.02；2类为0.01；1类为0.001；含动态信息的特征其权重设为0；其中动态信息来源于权利要求2中的动静态特征；

所述步骤九中语义词向量相似度检测具体为：

语义词向量的相似度检验通过统计量Q和P来实现：

其中，N为V_AB中不同特征的数量，q_i为m_i对应的权重，Q越小则表示相似度越高，当Q小于一定阈值时认为检测到了回环；

5.如权利要求1所述的面向装配现场环境装配指导AR应用定位的回环检测方法，其特征在于，所述步骤九中，将动静态特征词向量相似度检测结果和语义词向量相似度检测结果按照一定的权重相加得到最终的相似度检测结果，只有当动静态特征词向量相似度检测结果、语义词向量相似度检测结果及最终的相似度检测结果均大于阈值，才能确定当前为回环。