CN112634360A

CN112634360A - 一种视觉信息确定方法、装置、设备和存储介质

Info

Publication number: CN112634360A
Application number: CN201910951399.4A
Authority: CN
Inventors: 张鹏; 许腾; 康轶非; 李雨倩
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2021-04-09
Anticipated expiration: 2039-10-08
Also published as: CN112634360B

Abstract

本发明实施例公开了一种视觉信息确定方法、装置、设备和存储介质，该方法包括：获取相机拍摄的图像帧序列，并对图像帧序列中的每个图像帧进行特征点提取，确定每个图像帧中的特征点集合；对每个特征点集合中的各个特征点进行共线检测，确定由处于同一条直线的特征点所组成的各个特征点共线集合，其中，每个特征点共线集合包括至少三个特征点；根据各特征点共线集合、相机内参信息和特征点集合中的每个特征点的像素坐标，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。通过本公开实施例的技术方案，可以提高视觉信息确定的精度和鲁棒性。

Description

一种视觉信息确定方法、装置、设备和存储介质

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种视觉信息确定方法、装置、设备和存储介质。

背景技术

在计算机视觉研究领域中，通常利用图像帧序列对相机位姿进行估计。SLAM(Simultaneous localization and mapping，即时定位与建图)是一种常用技术，它通过追踪相机的位姿，构建相机的3D轨迹，并对相机所处环境进行建图。SLAM的应用场景广泛，比如机器人导航、自动驾驶、增强现实等。

目前，往往利用基于特征点法的SLAM系统来估计相机位姿并重建相机所处的环境地图。比如，先从图像帧中提取特征点，然后通过特征点匹配的方式构建图像帧间的约束关系，进而进行位姿估计与地图重建。

然而，在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

基于特征点法的SLAM系统仅是利用特征点来构建图像帧间的约束关系，并且由于每个特征点都是孤立存在的，从而忽略了特征点在空间上的位置关系，易受到外界环境的干扰。例如，在纹理单一的白墙环境中，由于特征点提取难度较大，提取的特征点数量和质量均会明显降低，使得特征点之间的约束关系也会减少，从而大大降低了优化结果的精度和准确性，严重还会导致错位等现象。

发明内容

本发明实施例提供了一种视觉信息确定方法、装置、设备和存储介质，以提高视觉信息确定的精度和鲁棒性。

第一方面，本发明实施例提供了一种视觉信息确定方法，包括：

获取相机拍摄的图像帧序列，并对所述图像帧序列中的每个图像帧进行特征点提取，确定每个图像帧中的特征点集合；

对每个所述特征点集合中的各个特征点进行共线检测，确定由处于同一条直线的特征点所组成的各个特征点共线集合，其中，每个所述特征点共线集合包括至少三个特征点；

根据各所述特征点共线集合、相机内参信息和所述特征点集合中的每个特征点的像素坐标，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

第二方面，本发明实施例还提供了一种视觉信息确定装置，包括：

特征点提取模块，用于获取相机拍摄的图像帧序列，并对所述图像帧序列中的每个图像帧进行特征点提取，确定每个图像帧中的特征点集合；

特征点共线集合确定模块，用于对每个所述特征点集合中的各个特征点进行共线检测，确定由处于同一条直线的特征点所组成的各个特征点共线集合，其中，每个所述特征点共线集合包括至少三个特征点；

视觉信息确定模块，用于根据各所述特征点共线集合、相机内参信息和所述特征点集合中的每个特征点的像素坐标，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的视觉信息确定方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明任意实施例所提供的视觉信息确定方法。

上述发明中的实施例具有如下优点或有益效果：

通过对相机拍摄的每个图像帧中的所有特征点进行共线检测，确定出由处于同一条直线上的各个特征点所组成的特征点共线集合，每个特征点共线集合包括至少三个特征点，从而构建出特征点在空间上的位置关系，并基于各个特征点共线集合、相机内参信息和每个特征点的像素坐标进行位姿估计和地图重建，从而可以同时利用特征点间的空间位置关系和图像帧间的约束关系确定出最终的目标相机位姿和每个特征点的目标三维世界坐标，提高了视觉信息确定的精度，并且不易受到外界干扰，提高了鲁棒性。

附图说明

图1是本发明实施例一提供的一种视觉信息确定方法的流程图；

图2是本发明实施例一所涉及的在不同相机位姿下观测到的特征点的示例；

图3是本发明实施例二提供的一种视觉信息确定方法的流程图；

图4是本发明实施例三提供的一种视觉信息确定装置的结构示意图；

图5是本发明实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种视觉信息确定方法的流程图，本实施例可适用于基于图像帧序列进行相机位姿优化和地图重建的情况，尤其可以用于无人机、机器人、自动驾驶技术或增强现实技术中确定视觉信息的场景。该方法可以由视觉信息确定装置来执行，该装置可以由软件和/或硬件的方式来实现，集成于需要进行地图重建的设备中，比如无人机、机器人、眼镜等。该方法具体包括以下步骤：

S110、获取相机拍摄的图像帧序列，并对图像帧序列中的每个图像帧进行特征点提取，确定每个图像帧中的特征点集合。

其中，图像帧序列可以是由相机实时拍摄的或者预先拍摄的各个图像帧，基于拍摄顺序所组成的序列。特征点可以是指图像灰度值发生剧烈变化的点或者在图像边缘上曲率较大的点，即两个边缘的交点。例如，特征点可以为角点、边界点、亮处的暗点、暗处的亮点等。图像帧中的特征点可以反映出图像本质特征，以便标识图像中的物体。特征点集合可以是指一个图像帧中的所有特征点组成的集合。每个图像帧均对应一个特征点集合。

具体地，可以基于预先设置的特征点提取算法，对相机拍摄的每个图像帧进行特征点提取，从而获得每个图像帧对应的特征点集合。特征点提取算法可以是但不限于基于角点的特征描述子Harris算法、SIFT(Scale Invariant Feature Transform，尺度不变特征变换)算法、SURF(Speed Up Robust Feature，加速稳健特征)算法和ORB(Oriented FASTand Rotated BRIEF)算法。其中，ORB算法是利用FAST(Features From AcceleratedSegment Test)算法检测特征点，利用BRIEF(Binary Robust Independent ElementFeature)算法计算特征点描述子。

S120、对每个特征点集合中的各个特征点进行共线检测，确定由处于同一条直线的特征点所组成的各个特征点共线集合，其中，每个特征点共线集合包括至少三个特征点。

其中，特征点共线集合可以是指位于同一条直线上的所有特征点组成的集合。每条直线对应一个特征点共线集合。每个图像帧对应一个或多个特征点共线集合。

具体地，对于每个图像帧中的特征点集合而言，可以基于霍夫变换原理对图像帧中的各个特征点进行共线检测，基于每个特征点在图像中的位置，确定是否存在至少三个特征点处于同一条直线上，若是，则将位于该直线上的所有特征点组合为一个特征点共线集合，从而可以确定出该图像帧对应的所有特征点共线集合，进而基于特征点共线集合可以构建出特征点在空间上的位置关系，使得特征点之间并不是孤立存在的。示例性地，图2给出了一种在不同相机位姿下观测到的特征点的示例。图2中的P₁、P₂、P₃和P₄是观测到的四个特征点，T_a和T_b分别为相邻两个时刻a和b时的相机位姿，

是指从a时刻到b时刻相机位姿的变化量。图2中相机与特征点之间的实线表示该相机可以观测到该特征点，特征点之间的虚线表示特征点是共线的，即处于同一条直线上。从图2中可以看出：在a时刻的相机位姿T_a以及b时刻的相机位姿T_b下，该相机均可以观测到四个特征点P₁、P₂、P₃和P₄，并且P₁、P₂和P₃这三个特征点处于同一条直线上，从而获得了P₁、P₂和P₃这三个特征点在空间上的位置关系。

需要说明的是，由于相机是运动的，从而在每个相机位姿下拍摄的图像帧内容是不同的，使得相机观测到的特征点也可能是不同的，从而需要确定出每个图像帧对应的所有特征点共线集合。

S130、根据各特征点共线集合、相机内参信息和特征点集合中的每个特征点的像素坐标，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

其中，相机内参信息可以包括但不限于相机内参数矩阵。相机内参数矩阵可以根据相机的型号和类型预先确定。相机内参数矩阵可以用于基于像素坐标，计算出在相机坐标系下的三维空间坐标。特征点的像素坐标可以是指在像素坐标系下，特征点处于图像帧上的二维像素坐标。在图像平面上，可以将图像平面的左上角顶点确定为像素坐标系的原点，以水平线和铅直线分别确定为u轴和v轴，从而建立像素坐标系O₀-uv。像素坐标系可以是指以像素为单位的图像坐标系。相机位姿可以利用相机的旋转矩阵和平移向量进行表征。目标相机位姿可以是指优化后获得的最终相机位姿。三维世界坐标可以是指在世界坐标系下每个特征点的三维空间坐标。世界坐标系O_w-X_wY_wZ_w可以用于描述真实场景中相机与物体的空间位置。目标三维世界坐标可以是指优化后获得的最终三维世界坐标。SLAM中的定位可以是指估计每个拍摄时刻下的相机位姿，其可以利用欧式变换矩阵T表示。SLAM中的建图可以是指估计每个特征点在世界坐标系下的三维空间坐标，其可以利用P表示。也就是说，本实施例中的视觉信息可以包括每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

具体地，对于相机每个拍摄时刻所拍摄的图像帧而言，基于该图像帧对应的所有特征点共线集合可以构建出所需要满足的空间位置关系，以及基于相机内参信息和特征点集合中的每个特征点的像素坐标可以构建出观测到的图像帧间的约束关系。相比于仅利用图像帧间的约束关系进行优化而言，本实施例可以同时利用空间位置关系和图像帧间的约束关系进行位姿估计和地图重建，从而可以获得更加准确，精度更高的目标相机位姿和每个特征点的目标三维世界坐标。而且考虑了特征点在空间上的位置关系，从而不易受到外界干扰，提高了鲁棒性。

本实施例的技术方案，通过对相机拍摄的每个图像帧中的所有特征点进行共线检测，确定出由处于同一条直线上的各个特征点所组成的特征点共线集合，每个特征点共线集合包括至少三个特征点，从而构建出特征点在空间上的位置关系，并基于各个特征点共线集合、相机内参信息和每个特征点的像素坐标进行位姿估计和地图重建，从而可以同时利用特征点间的空间位置关系和图像帧间的约束关系确定出最终的目标相机位姿和每个特征点的目标三维世界坐标，提高了视觉信息确定的精度，并且不易受到外界干扰，提高了鲁棒性。

在上述技术方案的基础上，S120可以包括：根据每个特征点集合中的每个特征点对应的图像坐标，确定在极坐标系下每个特征点对应的曲线方程；对各曲线方程进行绘制，将相交同一点的至少三条曲线方程所对应的特征点组成一个特定点共线集合。

其中，图像坐标可以是指在图像坐标系下特征点所在的二维图像坐标。图像坐标系O₁-xy中可以以像素坐标系的中点为原点O₁。特征点对应的图像坐标可以基于图像坐标系与像素坐标系之间的转换关系以及特征点的像素坐标进行确定。

具体地，本实施例可以使用极坐标系来表示直线，以使图像坐标系上的每个点可以映射到极坐标系中的一条曲线上，以避免直线斜率为无穷大的情况，提高适用性。示例性地，在图像坐标系下的直线方程可以表示为：r＝x×cosθ+y×sinθ，若某个特征点在图像坐标系下的图像坐标为(x₀，y₀)，则通过该点的所有直线可以表示为：r＝x₀×cosθ+y₀×sinθ，即该方程中的x₀和y₀是已知参数，θ和r是未知参数，从而在极坐标系下每个特征点对应的曲线方程可以表示为：

r＝x₀×cosθ+y₀×sinθ

其中，(x₀，y₀)是在图像坐标系下特征点对应的图像坐标；θ是极角；r是极径。

对于每个图像帧而言，在确定出该图像帧中的每个特征点所对应的曲线方程时，可以在r-θ坐标系下绘制出每个特征点所对应的曲线，当曲线相交时表明相交的曲线方程中存在相同的r和θ值，也就是说，相应的特征点对应相同的直线方程，即相应的特征点共线，从而可以将相交同一点的至少三条曲线方程所对应的特征点组成一个特定点共线集合。本实施例也可以对任意两个曲线方程进行联立求解方程组，若相交，则获得相交的位置点，如r₀和θ₀，此时直线方程可以表示为r₀＝x×cosθ₀+y×sinθ₀，通过将其他每个特征点的图像坐标代入该方程中，若等式成立，则表明该特征点也在这条直线上，从而可以确定出处于同一条直线上的所有特征点所组成的特征点共线集合。

示例性地，S130可以包括：根据各特征点共线集合建立共线约束条件；根据相机内参信息和特征点集合中的每个特征点的像素坐标建立观测约束条件；根据共线约束条件和观测约束条件，对每个拍摄时刻下的相机位姿和每个特征点的三维世界坐标进行优化，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

其中，共线约束条件可以是指处于同一条直线上的所有特征点所需要满足的条件。观测约束条件可以是指基于相机的观测方程所确定的，特征点的像素坐标与特征点的三维世界坐标所需要满足的条件。

具体地，通过同时利用共线约束条件和观测约束条件对相机位姿和三维世界坐标进行优化，使得优化后获得的目标相机位姿和目标三维世界坐标更为准确，避免出现错位等现象。

实施例二

图3为本发明实施例二提供的一种视觉信息确定方法的流程图，本实施例在上述实施例的基础上，对“根据共线约束条件和观测约束条件，对每个拍摄时刻下的相机位姿和每个特征点的三维世界坐标进行优化，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标”进行了优化。其中与上述实施例相同或相应的术语的解释在此不再赘述。

参见图3，本实施例提供的视觉信息确定方法具体包括以下步骤：

S210、获取相机拍摄的图像帧序列，并对图像帧序列中的每个图像帧进行特征点提取，确定每个图像帧中的特征点集合。

S220、对每个特征点集合中的各个特征点进行共线检测，确定由处于同一条直线的特征点所组成的各个特征点共线集合，其中，每个特征点共线集合包括至少三个特征点。

S230、根据各特征点共线集合建立共线约束条件。

具体地，共线约束条件可以利用特征点之间的共线关系构建出相应的约束方程。示例性地，若三个特征点共线，这三个特征点对应的三维世界坐标分别为P₁、P₂和P₃，则共线约束条件可以利用但不限于如下约束方程进行表示：

(P₁-P₂)×(P₁-P₃)＝0

其中，每个

为特征点在世界坐标系下的三维世界坐标，且存在P＝[x y z]^T。也就是说，当三个特征点共线时，其所构成的两个同行向量的向量积为零。

S240、根据相机内参信息和特征点集合中的每个特征点的像素坐标建立观测约束条件。

具体地，观测约束条件可以利用如下观测方程进行表示：

p＝KTP

其中，

为特征点的像素坐标，

为相机内参数矩阵，

为相机位姿，

为特征点的三维世界坐标。

需要说明的是，在实际运算过程中，需要对观测方程中的每个参数的维数进行齐次转换，以便可以进行矩阵相乘。例如，相机位姿T的齐次坐标为

三维世界坐标P的齐次坐标为

S250、根据共线约束条件和观测约束条件，建立包含每个拍摄时刻下的相机位姿和每个特征点的三维世界坐标的目标函数。

其中，目标函数可以是指待优化的损失函数，通过对目标函数进行最小化，获得优化后的目标相机位姿和目标三维世界坐标。

具体地，可以基于共线约束方程和观测方程共同构建出待优化的目标函数。

示例性地，目标函数可以为：

其中，p_ji是第j个拍摄时刻下的相机观测到的第i个特征点的像素坐标；P_ji是第j个拍摄时刻下的相机观测到的第i个特征点的三维世界坐标，T_j是第j个拍摄时刻下的相机位姿；K是相机内参数矩阵；S是各个特征点共线集合；P₁和P₂是指每个特征点共线集合中的前两个特征点；P_k是指每个特征点共线集合中除前两个特征点P₁和P₂之外的任意一个特征点。

具体地，对于每个拍摄时刻所拍摄的图像帧而言，基于该图像帧的特征点集合所需要优化的函数为：

基于该图像帧对应的各个特征点共线集合需要优化的函数为：

从而可以构建出各个拍摄时刻下所对应的目标函数。该目标函数中的相机位姿和三维世界坐标为待优化的参数。

S260、基于最小二乘优化算法，对目标函数进行最小化，获得每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

其中，最小二乘优化算法可以是但不限于高斯-牛顿法、列文伯格-马夸尔特法。具体地，通过利用最小二乘优化算法，可以对目标函数进行最小二乘优化，获得各个拍摄时刻下的相机位姿和地图点的最优估计。

需要说明的是，在利用最小二乘优化算法进行优化的过程中，可以去除实际三维空间中并不是处于共线的噪点，从而使得优化结果更为准确。

示例性地，S260可以包括：基于卡尔曼滤波或者位姿优化方式进行多传感器融合，确定每个拍摄时刻下的相机位姿的初始值；基于最小二乘优化算法和相机位姿的初始值，对目标函数进行最小化，获得每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

其中，卡尔曼滤波是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响，所以最优估计也可看作是滤波过程。位姿优化方式可以是指利用带有尺度特性的IMU(inertialmeasurement unit惯性测量单元)数据预积分后进行的位姿优化。多传感器融合可以是指用于确定出在定位和建图过程中的相机位姿的初始值。

具体地，在基于卡尔曼滤波进行多传感器融合时，可以先利用高频定位源进行位姿预测，再利用低频定位源进行校正更新，不断重复这个过程，获得每个拍摄时刻下的相机位姿的初始值。相比于利用预先设置的固定的相机位姿初始值而言，利用多传感器融合方式动态确定出的相机位姿初始值进行定位和建图，可以进一步提高优化结果的精度和鲁棒性。

本实施例的技术方案，通过基于共线约束条件和观测约束条件，建立包含每个拍摄时刻下的相机位姿和每个特征点的三维世界坐标的目标函数，并利用最小二乘优化算法，对目标函数进行最小化的方式，可以更加便捷地优化出目标相机位姿和目标三维世界坐标，进一步提高了优化速度和精度。

以下是本发明实施例提供的视觉信息确定装置的实施例，该装置与上述各实施例的视觉信息确定方法属于同一个发明构思，在视觉信息确定装置的实施例中未详尽描述的细节内容，可以参考上述视觉信息确定方法的实施例。

实施例三

图4为本发明实施例三提供的一种视觉信息确定装置的结构示意图，本实施例可适用于基于图像帧序列进行相机位姿优化和地图重建的情况，该装置包括：特征点提取模块310、特征点共线集合确定模块320和视觉信息确定模块330。

其中，特征点提取模块310，用于获取相机拍摄的图像帧序列，并对图像帧序列中的每个图像帧进行特征点提取，确定每个图像帧中的特征点集合；特征点共线集合确定模块320，用于对每个特征点集合中的各个特征点进行共线检测，确定由处于同一条直线的特征点所组成的各个特征点共线集合，其中，每个特征点共线集合包括至少三个特征点；视觉信息确定模块330，用于根据各特征点共线集合、相机内参信息和特征点集合中的每个特征点的像素坐标，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

可选地，特征点共线集合确定模块320，包括：

曲线方程确定单元，用于根据每个特征点集合中的每个特征点对应的图像坐标，确定在极坐标系下每个特征点对应的曲线方程；

特定点共线集合确定单元，用于对各曲线方程进行绘制，将相交同一点的至少三条曲线方程所对应的特征点组成一个特定点共线集合。

可选地，曲线方程确定单元具体用于：在极坐标系下每个特征点对应的曲线方程为：

r＝x₀×cosθ+y₀×sinθ

可选地，视觉信息确定模块330，包括：

共线约束条件建立单元，用于根据各特征点共线集合建立共线约束条件；

观测约束条件建立单元，用于根据相机内参信息和特征点集合中的每个特征点的像素坐标建立观测约束条件；

视觉信息确定单元，用于根据共线约束条件和观测约束条件，对每个拍摄时刻下的相机位姿和每个特征点的三维世界坐标进行优化，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

可选地，视觉信息确定单元，包括：

目标函数建立子单元，用于根据共线约束条件和观测约束条件，建立包含每个拍摄时刻下的相机位姿和每个特征点的三维世界坐标的目标函数；

视觉信息确定子单元，用于基于最小二乘优化算法，对目标函数进行最小化，获得每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

可选地，目标函数为：

可选地，视觉信息确定子单元，具体用于：

基于卡尔曼滤波或者位姿优化方式进行多传感器融合，确定每个拍摄时刻下的相机位姿的初始值；基于最小二乘优化算法和相机位姿的初始值，对目标函数进行最小化，获得每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

本发明实施例所提供的视觉信息确定装置可执行本发明任意实施例所提供的视觉信息确定方法，具备执行视觉信息确定方法相应的功能模块和有益效果。

实施例四

图5为本发明实施例四提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备12的框图。图5显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发实施例所提供的一种视觉信息确定方法步骤，该方法包括：

获取相机拍摄的图像帧序列，并对图像帧序列中的每个图像帧进行特征点提取，确定每个图像帧中的特征点集合；

对每个特征点集合中的各个特征点进行共线检测，确定由处于同一条直线的特征点所组成的各个特征点共线集合，其中，每个特征点共线集合包括至少三个特征点；

根据各特征点共线集合、相机内参信息和特征点集合中的每个特征点的像素坐标，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

当然，本领域技术人员可以理解，处理器还可以实现本发明任意实施例所提供的保留库存量的确定方法的技术方案。

实施例五

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的视觉信息确定方法步骤，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视觉信息确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对每个所述特征点集合中的各个特征点进行共线检测，确定由处于同一条直线的特征点所组成的各个特征点共线集合，包括：

根据每个所述特征点集合中的每个特征点对应的图像坐标，确定在极坐标系下每个特征点对应的曲线方程；

对各所述曲线方程进行绘制，将相交同一点的至少三条曲线方程所对应的特征点组成一个特定点共线集合。

3.根据权利要求2所述的方法，其特征在于，在极坐标系下每个特征点对应的曲线方程为：

r＝x₀×cosθ+y₀×sinθ

4.根据权利要求1所述的方法，其特征在于，根据各所述特征点共线集合、相机内参信息和所述特征点集合中的每个特征点的像素坐标，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标，包括：

根据各所述特征点共线集合建立共线约束条件；

根据相机内参信息和所述特征点集合中的每个特征点的像素坐标建立观测约束条件；

根据所述共线约束条件和所述观测约束条件，对每个拍摄时刻下的相机位姿和每个特征点的三维世界坐标进行优化，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

5.根据权利要求4所述的方法，其特征在于，根据所述共线约束条件和所述观测约束条件，对每个拍摄时刻下的相机位姿和每个特征点的三维世界坐标进行优化，确定每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标，包括：

根据所述共线约束条件和所述观测约束条件，建立包含每个拍摄时刻下的相机位姿和每个特征点的三维世界坐标的目标函数；

基于最小二乘优化算法，对所述目标函数进行最小化，获得每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

6.根据权利要求5所述的方法，其特征在于，所述目标函数为：

其中，p_ji是第j个拍摄时刻下的相机观测到的第i个特征点的像素坐标；P_ji是第j个拍摄时刻下的相机观测到的第i个特征点的三维世界坐标，T_j是第j个拍摄时刻下的相机位姿；K是相机内参数矩阵；S是各个所述特征点共线集合；P₁和P₂是指每个所述特征点共线集合中的前两个特征点；P_k是指每个所述特征点共线集合中除前两个特征点P₁和P₂之外的任意一个特征点。

7.根据权利要求5所述的方法，其特征在于，基于最小二乘优化算法，对所述目标函数进行最小化，获得每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标，包括：

基于卡尔曼滤波或者位姿优化方式进行多传感器融合，确定每个拍摄时刻下的相机位姿的初始值；

基于最小二乘优化算法和所述相机位姿的初始值，对所述目标函数进行最小化，获得每个拍摄时刻下的目标相机位姿和每个特征点的目标三维世界坐标。

8.一种视觉信息确定装置，其特征在于，包括：

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的视觉信息确定方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的视觉信息确定方法。