CN112070175A

CN112070175A - 视觉里程计方法、装置、电子设备及存储介质

Info

Publication number: CN112070175A
Application number: CN202010976437.4A
Authority: CN
Inventors: 徐朋飞; 唐剑; 袁涛
Original assignee: Hunan Goke Microelectronics Co Ltd
Current assignee: Hunan Goke Microelectronics Co Ltd
Priority date: 2020-09-04
Filing date: 2020-09-16
Publication date: 2020-12-11

Abstract

本申请提供一种视觉里程计方法、装置、电子设备及存储介质，视觉里程计方法包括：获取第一图像和第二图像，其中第二图像为第一图像的下一帧图像；训练目标检测网络，并利用目标检测网络在第二图像上获取多个特征样本区域；根据获取的多个特征样本区域进行特征提取，获取最优特征样本；获取在第一图像中与最优特征样本匹配的对应特征样本；根据最优特征样本和对应特征样本，计算位姿数据。解决现有技术中的视觉里程计所需计算量过大、消耗资源的问题。

Description

视觉里程计方法、装置、电子设备及存储介质

技术领域

本申请涉及视觉计算领域，具体而言，涉及一种视觉里程计方法、装置、电子设备及存储介质。

背景技术

SLAM(Simultaneous Localization and Mapping,同时定位与建图)是自主导航领域中最关键的技术之一，它使自主导航系统能够在一个未知环境中，依据传感器捕获的信息对周围环境进行增量式的地图构建，与此同时确定自身在环境中的位置。SLAM广泛应用于自动驾驶汽车、自主导航机器人、虚拟现实以及增强现实等领域，是一项至关重要的技术。

视觉里程计(visual odometry，VO)是SLAM的前端，主要作用是根据拍摄的图像估计相机的运动，进行实时定位。在进行特征点匹配求取位姿的过程中，对于整张图进行特征点提取和匹配，然后进行BA(Bundle Adjustment，光束平差)优化，所需计算量过大，消耗资源。

发明内容

本申请实施例的目的在于提供一种视觉里程计方法、装置、电子设备及存储介质，用以解决现有技术中存在的技术问题。

第一方面，本申请实施例提供了一种视觉里程计方法，包括：获取第一图像和第二图像，其中第二图像为第一图像的下一帧图像；训练目标检测网络，并利用目标检测网络在第二图像上获取多个特征样本区域；根据获取的多个特征样本区域进行特征提取，获取最优特征样本；获取在第一图像中与最优特征样本匹配的对应特征样本；根据最优特征样本和对应特征样本，计算位姿数据。

于一实施例中，训练目标检测网络包括：建立场景图像数据集；并且，利用卷积神经网络生成目标检测网络；以及，根据场景图像数据集，训练目标检测网络。

于一实施例中，利用目标检测网络在第二图像上获取多个特征样本区域，包括：根据目标检测网络对第一图像和第二图像进行目标检测和非极大值抑制处理，删除移动特征样本。

于一实施例中，根据获取的多个特征样本区域进行特征提取，获取最优特征样本，包括：根据多个特征样本区域，于第二图像中选定对应特征样本区域的目标框；对目标框进行冲何框匹配，从多个目标框中筛选出置信值最高的目标框；根据置信值最高的目标框，确定最优特征样本。

于一实施例中，根据最优特征样本和对应特征样本，计算位姿数据，包括：根据特征点，进行线性变换生成基础矩阵；根据基础矩阵和本质矩阵生成旋转向量和平移向量；或者包括：获取特征点在场景图像数据集中的三维数据；根据三维数据利用N点透视生成位姿数据；或者包括：

根据特征样本，通过LSD算法进行线段提取，对提取的线段通过LBD算法进行线段匹配，根据匹配的点及线段通过EPNPL算法生成所述位姿数据。

于一实施例中，方法还包括：将位姿数据作为初始迭代点数据，进行光束平差迭代；根据列文伯格-马夸尔特法生成最优位姿数据。

第二方面，本申请实施例还提供了一种视觉里程计装置，包括：图像获取模块，用于获取第一图像和第二图像，其中第二图像为第一图像的下一帧图像；目标检测模块，用于训练目标检测网络，并利用目标检测网络在第二图像上获取多个特征样本区域；特征获取模块，用于根据获取的多个特征样本区域进行特征提取，获取最优特征样本；特征匹配模块，用于获取在第一图像中与最优特征样本匹配的对应特征样本；位姿计算模块，用于根据最优特征样本和对应特征样本，计算位姿数据。

于一实施例中，目标检测模块用于：建立场景图像数据集；并且，利用卷积神经网络生成目标检测网络；以及，根据场景图像数据集，训练目标检测网络。

于一实施例中，目标检测模块还用于：根据目标检测网络对第一图像和第二图像进行目标检测和非极大值抑制处理，删除移动特征样本。

于一实施例中，特征获取模块还用于：根据多个特征样本区域，于第二图像中选定对应特征样本区域的目标框；对目标框进行冲何框匹配，从多个目标框中筛选出置信值最高的目标框；根据置信值最高的目标框，确定最优特征样本。

于一实施例中，位姿计算模块还用于：根据特征点，进行线性变换生成基础矩阵；根据基础矩阵和本质矩阵生成旋转向量和平移向量。

于一实施例中，位姿计算模块还用于：获取特征点在场景图像数据集中的三维数据；根据三维数据利用N点透视生成位姿数据。

于一实施例中，位姿计算模块还用于：根据所述特征样本，通过LSD算法进行线段提取，对提取的线段通过LBD算法进行线段匹配，根据匹配的点及线段通过EPNPL算法生成所述位姿数据。

于一实施例中，视觉里程计装置还包括：数据迭代模块，用于将位姿数据作为初始迭代点数据，进行光束平差迭代；位姿优化模块，用于根据列文伯格-马夸尔特法生成最优位姿数据。

第三方面，本申请实施例还提供了一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行如前述任一实施例中的方法。

第四方面，本申请实施例还提供了一种非暂态电子设备可读存储介质，包括：程序，当其藉由电子设备运行时，使得电子设备执行前述任一实施例中的方法。

本申请提供的视觉里程计方法、装置、电子设备及存储介质可以充分利用计算资源，并可以通过CNN预跟踪的方法，降低特征点的数量，加速视觉里程计的计算效率，并可以替代vslam系统的前端，加速vslam系统的计算效率，另外对室内中移动的物体和室内光照的变化具有更强的鲁棒性。而且，目前市面上很多厂商的嵌入式芯片都拥有CNN(Convolutional Neural Networks,卷积神经网络)加速器，对于拥有CNN加速器的嵌入式平台(比如jetson，rk3399等)，可以用CNN预选择目标和跟踪可以加速视觉里程计的计算效率，基于CNN的检测和跟踪可以和VSLAM(Visual SLAM，视觉SLAM)中的点云构造语义地图。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种电子设备的结构示意图；

图2为本申请实施例提供的一种视觉里程计应用场景示意图；

图3为本申请实施例提供的一种视觉里程计方法的流程图；

图4为本申请实施例提供的另一种视觉里程计方法的流程图；

图5为本申请实施例提供的一种视觉里程计装置的结构示意图。

图标：电子设备1，总线10，处理器11，存储器12，用户终端100，服务端200，视觉里程计装置500，图像获取模块501，目标检测模块502，特征获取模块503，特征匹配模块504，位姿计算模块505，数据迭代模块506，位姿优化模块507。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

如图1所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图1中以一个处理器为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行。

于一实施例中，电子设备1可以按照图像帧获取第一图像和第一图像下一帧的第二图像，根据目标检测网络对室内场景进行目标检测和跟踪，并过滤掉移动物体，再根据在特征样本区域中的被跟踪的目标，提取目标特征计算相机的位姿数据。

图2为本实施例提供的一种视觉里程计方法的应用场景示意图。如图2所示，该应用场景可以包括用户终端100，用户终端100可以是具有拍照功能的智能手机、平板电脑或无人机。用户终端100可以执行本申请提供的视觉里程计方法，加速视觉里程计的计算效率。

根据需要，该应用场景还可以包括服务端200，服务端200可以是服务器、服务器集群或者云计算中心。服务端200可以接收用户终端100上传的图像，执行本申请提供的图像处理方法，根据所拍摄图像的进行场景分类。

请参阅图3，其为本申请实施例提供的一种视觉里程计方法，该方法可由图1所示的电子设备1来执行，并用于图2所示的交互场景中。该方法包括如下步骤：

步骤301：获取第一图像和第二图像。

在本步骤中，第二图像为第一图像的下一帧图像。由于视觉里程计，是根据连续帧的图像匹配上的特征点做位姿求解的，所以需要根据前后连续两帧的图像进行处理。

步骤302：训练目标检测网络，并利用目标检测网络在第二图像上获取多个特征样本区域。

在本步骤中，由于视觉里程计是根据连续帧的图像匹配上的特征点做位姿求解的，在视觉里程计的计算过程中，对于移动目标在前后两帧的图像上的特征点会是移动的，如果匹配上的特征点是移动的，会对结果造成干扰，需要去掉移动的特征点。

步骤303：根据获取的多个特征样本区域进行特征提取，获取最优特征样本。

在本步骤中，充分利用计算资源，并可以通过目标检测网络中的预跟踪方法，降低特征点的数量，加速视觉里程计的计算效率。

于一实施例中，一帧图像中可能有多个目标，例如盆栽、电视、沙发、相册等，选择两个目标检测网络中置信值较高的top N个目标，比如N＝2，两个目标分别是a和b。

步骤304：获取在第一图像中与最优特征样本匹配的对应特征样本。

在本步骤中，对两个目标a,b分别进行特征提取并记录，和上一帧中的a,b目标的特征点进行匹配，于一实施例中，利用汉明距离进行匹配。

步骤305：根据最优特征样本和对应特征样本，计算位姿数据。

在本步骤中，对于匹配上的特征点求解位姿。

请参阅图4，其为本申请实施例提供的另一种视觉里程计方法，该方法可由图1所示的电子设备1来执行，并用于图2所示的交互场景中。该方法包括如下步骤：

步骤401：获取第一图像和第二图像。详情请参阅上述实施例中对步骤301的描述。

步骤402：建立场景图像数据集。

在本步骤中，场景图像数据集可以是COCO(Common Objects in Context，环境公共对象)数据集和本地采集的室内数据集。

步骤403：利用卷积神经网络生成目标检测网络。

在本步骤中，目标检测网络可以是设计轻量级CNN目标检测网络，其中神经网络模型可以使用的MobileNet V2模型，目标检测网络的检测头可以使用YOLO。

步骤404：根据场景图像数据集，训练目标检测网络。

在本步骤中，利用COCO数据集预训练目标检测网络，利用本地采集的室内数据集微调预训练后的目标检测网络。

步骤405：根据目标检测网络对第一图像和第二图像进行目标检测和非极大值抑制处理，删除移动特征样本。

在本步骤中，对于移动目标，由于视觉里程计是根据连续帧的图像匹配上的特征点做位姿求解的，如果匹配上的特征点是移动的，会对结果造成干扰，需要去掉该特征点。

于一实施例中，利用目标检测网络采集到的图像进行目标进行检测和非极大值抑制，并排除可移动目标，比如室内的猫、狗、人等。

步骤406：根据多个特征样本区域，于第二图像中选定对应特征样本区域的目标框。

在本步骤中，目标框可以是以每个像素为中心生成多个大小和宽高比(aspectratio)不同的边界框。

步骤407：对目标框进行冲何框匹配，从多个目标框中筛选出置信值最高的目标框。

在本步骤中，根据极大匹配策略匈牙利算法对目标框进行冲何框匹配之后，可以对同一目标进行跟踪，对于跟踪上的目标可以用于特征提取和匹配。一帧图像中可能有多个目标：盆栽，电视，沙发，相册等，选择两个目标检测网络中置信值较高的N个目标，比如N＝2，则两个目标是a和b。

步骤408：根据置信值最高的目标框，确定最优特征样本。

在本步骤中，对匹配上的目标进行删选，得到两个比较好的目标。

步骤409：获取在第一图像中与最优特征样本匹配的对应特征样本。

在本步骤中，对两个目标a,b分别进行orb(Oriented Fast and Rotated Brief)特征提取并记录，和上一帧a和b目标的特征点进行匹配，具体地利用汉明距离进行匹配。

步骤410：根据最优特征样本和对应特征样本，计算位姿数据。

于一实施例中，对于单目摄像机用对极几何方法求解基础矩阵，然后根据基础矩阵求解出位姿，根据特征点，进行线性变换生成基础矩阵，可以是直接线性变换法，例如8点法和最小二乘法，然后再用RANSAC(Random Sample Consensus，随机抽样一致性)算法估计基础矩阵，然后根据基础矩阵和本质矩阵生成旋转向量和平移向量。

于一实施例中，对于RGBD或者双目摄像机使用P3P(Perspective-n-Points，n点透视法)方法，获取特征点在场景图像数据集中的三维数据；根据三维数据利用N点透视生成位姿数据。

于一实施例中，将位姿数据作为初始迭代点数据，进行光束平差迭代；根据列文伯格-马夸尔特法生成最优位姿数据。

于一实施例中，对于目标a,b利用LSD(a Line Segment Detector，直线段检测)算法提取线段，再用LBD(Line Band Discriptor，线段描述符)算法进行线段匹配。对于匹配上的点和线段通过EPNPL(Pose from N Points and Lines)方法求解位姿，首先，构建线段和点的错误函数error function:

E＝Arg min{Error(P)+Error(L)}

其中Error(P)为点的L2距离函数。Error(L)为线段的投影距离函数。Error(L),需要根据图像坐标系中的线段两个端点p,q的齐次坐标系的外积求得改线段I，再对世界坐标系中的匹配上的相应的两个3D点P,Q投影到图像坐标系中得到投影点坐标Pt,Qt。对于Pt、Qt和I进行内积，得到Pt，Qt的投影误差。其次，利用4对点的EPNPL error function求得最优解。

请参阅图5，其为本申请实施例还提供了一种视觉里程计装置500，可由图1所示的电子设备1来执行，并用于图2所示的交互场景中，以实现按照图像帧获取第一图像和第一图像下一帧的第二图像，根据目标检测网络对室内场景进行目标检测和跟踪，并过滤掉移动物体，再根据在特征样本区域中的被跟踪的目标，提取目标特征计算位姿数据。视觉里程计装置500包括：图像获取模块501、目标检测模块502、特征获取模块503、特征匹配模块504、位姿计算模块505、数据迭代模块506和位姿优化模块507。具体原理关系如下：

图像获取模块501，用于获取第一图像和第二图像，其中第二图像为第一图像的下一帧图像。详细请参阅上述实施例对步骤301的描述。

目标检测模块502，用于训练目标检测网络，并利用目标检测网络在第二图像上获取多个特征样本区域。详细请参阅上述实施例中对步骤302的描述。

于一实施例中，目标检测模块502用于：建立场景图像数据集；利用卷积神经网络生成目标检测网络；根据场景图像数据集，训练目标检测网络。详细请参阅上述实施例中对步骤402-404的描述。

于一实施例中，目标检测模块502还用于：根据目标检测网络对第一图像和第二图像进行目标检测和非极大值抑制处理，删除移动特征样本。详细请参阅上述实施例中对步骤405的描述。

特征获取模块503，用于根据获取的多个特征样本区域进行特征提取，获取最优特征样本。详细请参阅上述实施例中对步骤303的描述。

于一实施例中，特征获取模块503还用于：根据多个特征样本区域，于第二图像中选定对应特征样本区域的目标框；对目标框进行冲何框匹配，从多个目标框中筛选出置信值最高的目标框；根据置信值最高的目标框，确定最优特征样本。详细请参阅上述实施例中对步骤406-408的描述。

特征匹配模块504，用于获取在第一图像中与最优特征样本匹配的对应特征样本。详细请参阅上述实施例中对步骤304的描述。

位姿计算模块505，用于根据最优特征样本和对应特征样本，计算位姿数据。

于一实施例中，位姿计算模块505还用于：根据特征点，进行线性变换生成基础矩阵；根据基础矩阵和本质矩阵生成旋转向量和平移向量。

于一实施例中，位姿计算模块505还用于：获取特征点在场景图像数据集中的三维数据；根据三维数据利用N点透视生成位姿数据。详细请参阅上述实施例中对步骤305的描述。

于一实施例中，位姿计算模块505还用于：根据所述特征样本，通过LSD算法进行线段提取，对提取的线段通过LBD算法进行线段匹配，根据匹配的点及线段通过EPNPL算法生成所述位姿数据。

于一实施例中，视觉里程计装置500还包括：数据迭代模块506，用于将位姿数据作为初始迭代点数据，进行光束平差迭代。

位姿优化模块507，用于根据列文伯格-马夸尔特法生成最优位姿数据。

本申请提供的视觉里程计方法、装置、电子设备及存储介质可以充分利用计算资源，并可以通过CNN预跟踪的方法，降低特征点的数量，加速视觉里程计的计算效率，并可以替代vslam系统的前端，加速vslam系统的计算效率，另外对室内中移动的物体和室内光照的变化具有更强的鲁棒性。而且，基于CNN的检测和跟踪可以和vslam中的点云构造语义地图。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视觉里程计方法，其特征在于，包括：

获取第一图像和第二图像，其中所述第二图像为第一图像的下一帧图像；

训练目标检测网络，并利用所述目标检测网络在所述第二图像上获取多个特征样本区域；

根据获取的多个特征样本区域进行特征提取，获取最优特征样本；

获取在所述第一图像中与所述最优特征样本匹配的对应特征样本；

根据所述最优特征样本和所述对应特征样本，计算位姿数据。

2.根据权利要求1所述的方法，其特征在于，所述训练目标检测网络包括：

建立场景图像数据集；并且，利用卷积神经网络生成目标检测网络；以及，

根据所述场景图像数据集，训练所述目标检测网络。

3.根据权利要求1所述的方法，其特征在于，所述利用所述目标检测网络在所述第二图像上获取多个特征样本区域，包括：

根据所述目标检测网络对所述第一图像和所述第二图像进行目标检测和非极大值抑制处理，删除移动特征样本。

4.根据权利要求1所述的方法，其特征在于，所述根据获取的多个特征样本区域进行特征提取，获取最优特征样本，包括：

根据多个所述特征样本区域，于第二图像中选定对应所述特征样本区域的目标框；

对所述目标框进行冲何框匹配，从多个所述目标框中筛选出置信值最高的所述目标框；

根据置信值最高的所述目标框，确定所述最优特征样本。

5.根据权利要求4所述的方法，其特征在于，所述根据所述最优特征样本和所述对应特征样本，计算位姿数据，包括：

根据所述特征样本，进行线性变换生成基础矩阵；根据所述基础矩阵和本质矩阵生成旋转向量和平移向量；或者包括：

获取所述特征样本在所述场景图像数据集中的三维数据；根据所述三维数据利用N点透视生成所述位姿数据；或者包括：

根据所述特征样本，通过LSD算法进行线段提取，对提取的线段通过LBD算法进行线段匹配，根据匹配的点及线段通过EPNPL算法生成所述位姿数据。

6.根据权利要求4所述的方法，其特征在于，还包括：

将所述位姿数据作为初始迭代点数据，进行光束平差迭代；

根据列文伯格-马夸尔特法生成最优位姿数据。

7.一种视觉里程计装置，其特征在于，包括：

图像获取模块，用于获取第一图像和第二图像，其中所述第二图像为第一图像的下一帧图像；

目标检测模块，用于训练目标检测网络，并利用所述目标检测网络在所述第二图像上获取多个特征样本区域；

特征获取模块，用于根据获取的多个特征样本区域进行特征提取，获取最优特征样本；

特征匹配模块，用于获取在所述第一图像中与所述最优特征样本匹配的对应特征样本；

位姿计算模块，用于根据所述最优特征样本和所述对应特征样本，计算位姿数据。

8.根据权利要求7所述的视觉里程计装置，其特征在于，所述目标检测模块还用于：

根据所述场景图像数据集，训练所述目标检测网络。

9.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行如权利要求1至6中任一项所述的方法。

10.一种非暂态电子设备可读存储介质，其特征在于，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行权利要求1至6中任一项所述的方法。