CN108780577A

CN108780577A - 图像处理方法和设备

Info

Publication number: CN108780577A
Application number: CN201780014507.4A
Authority: CN
Inventors: 周游; 杨振飞; 刘洁
Original assignee: Shenzhen Dajiang Innovations Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd; Shenzhen Dajiang Innovations Technology Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-11-09
Also published as: WO2019104571A1

Abstract

本申请实施例提供一种图像处理方法和设备，可以在提高定位和环境感知精度的同时，可以降低资源耗费，以及节约成本等。该方法包括：获取单目摄像头拍摄的多帧图像；根据相机拍摄该多帧图像时的位姿关系，从该多帧图像中，提取多个关键帧图像；利用相机拍摄该多个关键帧图像时的位姿，计算该多个关键帧图像中的特征点的深度信息。

Description

图像处理方法和设备

版权申明

技术领域

本申请涉及图像处理领域，并且更具体地，涉及一种图像处理方法和设备。

背景技术

随着现代科技的发展，无人机被应用在越来越多的场景中。要达到自动化操作，无人机需要具备一定的定位能力和环境感知能力。

目前，无人机可以使用结构光摄像头进行定位和环境感知，这种摄像头能够直接获取到深度信息，但是这种摄像头在强光环境下表现很差，容易受到干扰，价格也较为昂贵。

另一种常用的就是双/多目视觉模块进行定位和环境感知，由间隔一定距离的两个以上摄像头组成，靠着两个摄像头同一时刻拍摄的照片的差异，来计算三维深度信息，但是双/多目摄像头之间的旋转和位置，直接影响了其测量有效的范围和精度，故双/多目视觉模块对于结构要求比较高。

综上所述，在无人机越来越小型化和便携化的今天，结构光摄像头户外强光环境易受到干扰，而双/多目视觉模块对结构要求较高，且需要一定的间隔，还需要无遮挡，并不是所有无人机都能够适用。

发明内容

本申请实施例提供一种图像处理方法和设备，可以在提高定位和环境感知精度的同时，可以降低资源耗费，以及节约成本等。

第一方面，提供了一种图像处理方法，包括：获取单目摄像头拍摄的多帧图像；根据相机拍摄该多帧图像时的位姿关系，从该多帧图像中，提取多个关键帧图像；利用相机拍摄该多个关键帧图像时的位姿，计算该多个关键帧图像中的特征点的深度信息。

第二方面，提供了一种图像处理方法，包括：

获取单目摄像头拍摄的多帧图像；

利用相机拍摄该多帧图像时的位姿，计算该多帧图像中的特征点的深度信息；

根据该多帧图像中的特征点的深度信息，确定该多帧图像中每帧图像的每个像素的深度信息。

第三方面，提供了一种图像处理方法，包括：

获取单目摄像头拍摄的多帧图像；

利用相机拍摄该多帧图像时的位姿，确定该多帧图像中每帧图像的每个像素的深度信息；

利用相机拍摄该多帧图像中至少一帧图像与其他帧图像时的位姿关系，对至少一帧图像中的至少部分像素位置的深度信息进行验证。

第四方面，提供了一种图像处理设备，包括获取单元、提取单元和确定单元；其中，该获取单元用于：获取单目摄像头拍摄的多帧图像；该提取单元用于：根据相机拍摄该多帧图像时的位姿关系，从该多帧图像中，提取多个关键帧图像；该确定单元用于：利用相机拍摄该多个关键帧图像时的位姿，计算该多个关键帧图像中的特征点的深度信息。

第五方面，提供了一种图像处理设备，包括获取单元和计算单元；其中，该获取单元用于：获取单目摄像头拍摄的多帧图像；该确定单元用于：利用相机拍摄该多帧图像时的位姿，计算该多帧图像中的特征点的深度信息；根据该多帧图像中的特征点的深度信息，确定该多帧图像中每帧图像的每个像素的深度信息。

第六方面，提供了一种图像处理设备，包括获取单元，确定单元和验证单元；其中，该获取单元用于：获取单目摄像头拍摄的多帧图像；该确定单元用于：利用相机拍摄该多帧图像时的位姿，确定该多帧图像中每帧图像的每个像素的深度信息；该验证单元用于：利用相机拍摄该多帧图像中至少一帧图像与其他帧图像时的位姿关系，对至少一帧图像中的至少部分像素位置的深度信息进行验证。

第七方面，提供了一种图像处理设备，包括处理器和存储器。处理器和存储器之间通过内部连接通路互相通信，存储器存储有指令，处理器用于调用存储器中存储的指令，执行上述任意一种方法。

第八方面，提供了一种计算机可读介质，用于存储计算机程序，计算机程序包括用于执行上述任意一种方法中的指令。

第九方面，提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任意一种方法。

本申请实施例提出了一种图像处理方法和设备，可以利用图像的相机位姿或图像之间的相机位姿关系来来确定单目相机拍摄图像中的像素点的深度信息，可以避免进行即时定位与地图构建(simultaneous localization and mapping，SLAM)进行定位和环境感知所带来的资源耗费较大的问题，并且可以避免采用价格较为昂贵的结构光摄像头或者对结构要求较高的双/多目摄像头，因此本申请实施例的方法可以在提高定位和环境感知精度的同时，可以降低资源耗费，以及节约成本等。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的图像处理方法的示意性流程图。

图2是根据本申请实施例的关键帧提取的示意性图。

图3是根据本申请实施例的计算像素点的深度信息的示意性图。

图4是根据本申请实施例的深度信息的验证方法的示意性图。

图5是根据本申请实施例的颜色亮度信息的计算方法的示意性图。

图6是根据本申请实施例的图像处理方法的示意性图。

图7是根据本申请实施例的图像处理方法的示意性图。

图8是根据本申请实施例的图像处理设备的示意性框图。

图9是根据本申请实施例的图像处理设备的示意性框图。

图10是根据本申请实施例的图像处理设备的示意性框图。

图11是根据本申请实施例的图像处理设备的示意性框图。

图12是根据本申请实施例的图像处理设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中当一组件与另一组件“固定连接”或“连接”，或者，一组件“固定于”另一组件时，它可以直接在另一组件上，或者也可以存在居中的组件。

应理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本公开实施例，而非限制本公开实施例的范围。

本发明实施例可以应用于各种类型的可移动设备。本发明实施例中的可移动设备可以在任何合适的环境下移动，例如，空气中(例如，定翼飞机、旋翼飞机，或既没有定翼也没有旋翼的飞机)、水中(例如，轮船或潜水艇)、陆地上(例如，汽车或火车)、太空(例如，太空飞机、卫星或探测器)，以及以上各种环境的任何组合。可移动设备可以是飞机，例如无人机(Unmanned Aerial Vehicle，简称为“UAV”)。在一些实施例中，可移动设备可以承载生命体，例如，人或动物。

除了上述提到的可移动设备，本发明实施例可以应用于其它具有单目摄像头的载具，例如虚拟现实(Virtual Reality，VR)/增强现实(Augmented Reality，AR)眼镜等设备。

非结构光的单目(单个摄像头)相机同时兼有重量轻、体积小、价格低廉和功耗低的特点，但是利用单目相机得到的图像需要较为复杂的计算过程，才能得到较好的定位和环境感知结果。具体地，可以使用单目相机拍摄的图像做即时定位与地图构建(simultaneous localization and mapping，SLAM)，但是SLAM计算资源耗费比较大，在无人机上难以实现。

可选地，对于相机而言，相机模型可以表征为以下式1：

其中，[u,v,1]^T表示像素坐标中的2D点；[x_w,y_w,z_w]^T表示世界坐标系中的3D点；矩阵K表示相机校正矩阵(Camera calibration matrix)，即标识每个相机的内参(IntrinsicParameters)。

可选地，对于有限投影相机(Finite projective camera)而言，矩阵K可以表示5个内参，即K可以如下式2所示：

其中，α_x＝fm_x，α_y＝fm_y，f为焦距(focal length)，m_x和m_y分别为x，y方向上，单位距离的像素数(scale factors)，γ为x，y轴之间的畸变参数(skew parameters)，μ₀，v₀为光心位置(principal point)。

本申请实施例提出了一种图像处理方法和设备，可以利用相机拍摄图像时的位姿或相机拍摄多帧图像时的位姿关系来来确定单目相机拍摄图像中的像素点的深度信息，可以避免利用SLAM进行定位和环境感知所带来的资源耗费较大的问题，并且可以避免采用价格较为昂贵的结构光摄像头或者对结构要求较高的双/多目摄像头，因此本申请实施例的方法可以在提高定位和环境感知精度的同时，可以降低资源耗费，以及节约成本等。

图1是根据本申请实施例的图像处理方法100的示意性流程图。该方法100包括以下内容中的至少部分内容。

在110中，图像处理设备获取单目摄像头拍摄的多帧图像。

可选地，该多帧图像可以是单目摄像头拍摄的多帧连续的图像。

可选地，图像处理设备可以随机选择多帧连续的图像，也可以选择满足特定条件的多帧连续的图像。

可选地，该多帧图像是连续的多帧运动姿态变化量小于或等于第三阈值的图像。

具体而言，在单目摄像头的运动姿态变化量(具体地，单目摄像头可以与可移动物体刚性连接，此处提到的可以是可移动物体的运动姿态变化量)较大时，则会使得单目摄像头拍摄的图像之间的特征点的匹配的结果较差，而特征点匹配结果将直接影响到运动估计的好坏。若发现当前运动姿态变化量比较大，则不使用这些连续的多帧图像进行后续处理，在连续的多帧图像的姿态变化量比较小的时候，这意味着帧间运动比较小且平稳，在该种情况下，则选择这些连续的多帧图像进行后续处理。

可选地，运动姿态变化量可以通过||ω-b_ω||₂表征，其中，ω是当前陀螺仪的读数，b_ω可以是陀螺仪零轴偏差。当连续的多帧图像的||ω-b_ω||₂小于特定值时，则可以选择这些连续的多帧图像进行后续处理。

应理解，本申请实施例提到的变化量小于或等于特定值，或某值的绝对值小于或等于特定值，可以是指该变化量或某值的2的范数小于或等于特定值。

可选地，在本申请实施例中，在120中，需要获取的连续图像的数量可以是特定的数量N，假设存在连续的N帧图像的运动姿态变化量小于或等于特定值，则可以选择这些连续的多帧图像进行后续处理。

应理解，以上介绍了可以根据图像的运动姿态变化量获取用于后续进行计算深度信息的多帧图像，但应理解，本申请实施例并不限于此，本申请实施例还可以进一步结合位置变化量，或仅用位置变化量获取用于后续进行计算深度信息的多帧图像。

为了更加清楚地理解本申请，以下将对如何获取位置或姿态变化量进行说明。其中，以下介绍的方式仅是一种可选的方式，并且以下介绍的方式也可以适用于除了选择连续的多帧图像之外的其他操作中。

具体地，当在可移动设备(例如，无人机上)可以设置有惯性测量单元(InertialMeasurement Unit，IMU)，可以使用IMU预积分来作为图像阵间的运动估计，这里给出其离散形式的数学描述，具体地，可以如下式3-8所示：

v_k+1＝v_k+(R_wi(a_m-b_a)+g)Δt 式4

Δq＝q{(ω-b_w)}Δt 式6

(b_a)_k+1＝(b_a)_k 式7

(b_ω)_k+1＝(b_ω)_k 式8

其中，p_k+1表示当前图像时刻的位置，v_k+1表示当前图像时刻的速度，(b_a)_k+1表示当前图像时刻的加速度计零轴偏差，(b_ω)_k+1表示当前图像时刻的陀螺仪零轴偏差。

p_k表示上一帧图像时刻的位置，v_k表示上一帧图像时刻的速度，(b_a)_k表示上一帧图像时刻的加速度计零轴偏差，(b_ω)_k表示上一帧图像时刻的陀螺仪零轴偏差。

Δt表示前后两个图像的帧间时差，举例说明，如果拍摄的频率是20Hz，那粗略计算就是50ms，当然精确计算的话还要算上两帧的曝光时间差，R_wi表示飞行器坐标系与世界坐标系的旋转关系，由姿态四元数q转换得到，a_m表示当前加速度计的读数，g为重力加速度，ω表示当前陀螺仪的读数，Δq表示前后两帧之间的旋转估计。

其中，视觉里程计算法就是根据图像信息得出当前时刻的位置速度信息，以及有姿态以及加速度计和陀螺仪的零轴偏差，但当前图像是否能和前一张图像顺利匹配上并解出正确的结果，在计算前是未知的，可以先使用上一次视觉里程计VO的(即前一张图像与前前一张图像解算结果)解算结果，结合IMU数据，粗略预估当前图像时刻的这些信息，即用旧图+新的传感器数据，预测新图对应的位置姿态信息。

在120中，图像处理设备根据相机拍摄该多帧图像时的位姿关系，从该多帧图像中，提取多个关键帧图像。

具体地，如果在110中获取的所有图像都用来计算深度信息，则计算量较大，并且错误的可能性很高，反而会把正确的结果带偏。因为，对于单目深度计算来说，需要两帧图像之间的运动关系满足一定条件，才能计算出比较好的结果，因此，图像处理设备需要对图像进行筛选，提取出关键帧图像，作为单目计算的图像序列。

可选地，在本申请实施例中，根据相机拍摄该多帧图像时的位姿关系，可以理解为根据相机拍摄该多帧图像(也可以称为图像序列)时的位姿变换。

可选地，本申请实施例提到的位姿(Camera Pose)可以包括旋转(Rotation)和/或位移(Translation)。

可选地，本申请实施例提到的姿态可以通过旋转关系体现。

可选地，本申请实施例提到的位姿可以是在大地坐标系下的位姿。

可选地，图像处理设备可以从110中获取的多帧图像中，提取第一个关键帧图像；获取相机拍摄该多帧图像中的下一帧图像与上一个关键帧图像时的位姿关系；在相机拍摄该下一帧图像与该上一个关键帧图像时的位姿关系满足预设关系时，将该下一帧图像确定为该关键帧图像。可选地，该预设关系可以是旋转角度小于或等于第一阈值；和/或，位置变化小于或等于第二阈值。

具体地，图像处理设备在多帧图像中提取出第一个关键帧图像(例如，可以将多帧图像中的第一帧图像作为关键帧图像)之后，可以确定第一个关键帧图像之后的第一帧图像与该第一个关键帧图像之间的相机位姿关系包括的旋转角度是否小于或等于第一阈值，以及位置变化是否小于或等于第二阈值；如果是，将该图像确定为关键帧图像，并依此关键帧为基准，确定该关键帧的下一帧图像是否是关键帧图像，并以此类推；如果第一个关键帧图像的下一帧图像与该第一个关键帧图像之间的旋转角度大于第一阈值，和/或位置变化大于第二阈值，则确定第一个关键帧帧的下下帧图像是否与第一个关键帧图像之间满足旋转角度小于或等于第一阈值，以及位置变化小于或等于第二阈值，以此判断该图像是否是关键帧图像，并以此类推。

可选地，通过位姿关系累计的方式得到该下一帧图像与该上一个关键帧图像之间的相机位姿关系。

例如，如图2所示，假设传感器设定的是按照频率20Hz固定曝光，时间上是固定的，所以每50ms拍摄出一张图像，可以称为原始图像序列，其中，可以利用视觉里程计(VisualOdometry，VO)算法，计算两帧之间的位姿关系。从在110中获取的多帧图像中，提取第一个关键帧图像，然后根据视觉VO计算出来的图片位姿关系，计算新图像与前一张关键帧图像之间的关系，其中，利用VO计算出来的是两两之间的位姿关系，累计即可得到相差几帧的两张图片的位姿关系。

其中，相机拍摄图像时的位姿(Camera Pose)可以包括旋转R(Rotation)和位置t(Translation)，这里R和t通过以下式9和式10可以用欧拉角表示：

如果需要被选择为关键帧，则位姿关系需要满足以下式11和式12的关系：

其中，α_th是角度阈值，d_th是距离阈值。

从式11和式12可以看出，在新的图像和前一个关键帧图像之间位移较大，而旋转较小的情况下，就能作为新的关键帧图像，加入队列。

可选地，在本申请实施例中，根据所述下一帧图像和所述上一个关键帧图像的位置和/或姿态，得到相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系。

具体地，在拍摄可以实时记录每帧图像的位置和/或姿态，则根据实时记录的位置和/或姿态，得到相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系。

在130中，利用相机拍摄该多个关键帧图像时的位姿，计算该多个关键帧图像中的特征点的深度信息。

可选地，从该多个关键帧图像中选择多个待处理的特征点；计算该多个待处理的特征点中每个待处理的特征点在该多个关键帧图像之间的相对位置，以及计算相机拍摄该多个关键帧图像中每个关键帧图像时的位姿；根据该每个待处理的特征点在该多个关键帧图像之间的相对位置，以及相机拍摄该每个关键帧图像时的位姿(或者，也可以是相机拍摄该多个关键帧图像时的位姿关系)，确定该每个待处理的特征点的深度信息。

可选地，从该多个关键帧图像中选择多个初始特征点；计算该多个初始特征点中每个初始特征点从第一关键帧图像到第二关键帧图像的第一光流；计算该每个初始特征点从该第二关键帧图像到该第一关键帧图像的第二光流；将该第一光流与该第二光流之和的绝对值小于等于第四阈值对应的初始特征点，确定为该待处理的特征点。

具体地，这里为了减少计算量，可以采用稀疏(sparse)的方法，先提取图像的特征点，具体地可以选用角点(Corner detection)作为特征点。

可选的角点检测算法(Corner Detection Algorithm)包括：加速分段测试提取特征(features from accelerated segment test，FAST)算法、最小同值分段吸收核(Smallunivalue segment assimilating nucleus，SUSAN)、以及Harris operator算子(Harrisoperator)，Harris角点检测算法(Harris Corner Detection Algorithms)。以下以Harris角点检测算法为例说明如何获取特征点。

首先，按照式13，定义矩阵A为构造张量(structure tensor)，其中，

其中I_x和I_y分别为图像上某一点，在x和y方向上的梯度信息可以按照式14定义函数M_c：

M_c＝λ₁λ₂-κ(λ₁+λ₂)²＝det(A)-κtrace²(A) 式14

其中det(A)为矩阵A的行列式，trace(A)为矩阵A的迹，κ为调节灵敏度的参数(tunable sensitivity parameter)，设定阈值M_th,当M_c>M_th时我们认为此点为初始特征点。

其次可以使用卡纳迪-卢卡斯-托马斯(Kanade–Lucas–Tomasi，KLT)特征点跟踪算法从初始特征点选择待处理的特征点。

具体地，可以选取h作为前后两帧图像的偏移量(displacement between twoimages)其中，G(x)＝F(x+h)。

进一步地，针对每个特征点，通过公式15迭代可以得到特征点在前后图像的位移h：

其中，可以进行双向验证，先令后一张图像为F(x)，前一张图像为G(x)，计算针对某一特征点，在后一张图像相对于前一张的偏移h，再反过来，针对该特征点，在前一张图像相对于后一张的偏移h’，如过h＝-h’，或者两者绝对值之差小于一定的值，则认为该特征点是后续可用的特征，否则丢弃该特征点。

可选地，可以利用集束调整算法(Bundle Adjustment，BA)，计算待处理的特征点在多个关键帧图像之间的相对位置，以及相机拍摄每个关键帧图像时的位姿。

具体地，对于BA算法而言，

其中，假设n个3D点在m个view(可选地，m张连拍或间隔时间较短图片上，能够连续track的n个三维点)；对于v_ij而言，如果i在j图像上有映射，则v_ij＝1，否则v_ij＝0；a_j为每个图像的j的参数，包括旋转关系R(Rotation)、位置关系t(Translation)以及相机内参K(可选地，这里是同一个相机连拍的多张图像或间隔时间较短的多种图像，K可以不变)；每个3D点用b_i表示，第i个点b_i在第j张图片上的投影即为x_ij；Q(a_j,b_i)表示点i在图像j上，通过a_j计算的预投影(predicted projection)；向量x_ij表示图像j上的第i个点的真实投影(projection)；d(x,y)表示向量x，y的欧式距离。

这里可以针对待处理的特征点使用BA算法，计算出每个特点的3D相对位置，即b_i，以及相机拍摄每帧图像时的位姿，即a_j。

可选地，将初始计算的位姿关系或位姿作为初始值，利用该集束调整算法，计算该每个待处理的特征点在该多个关键帧图像之间的相对位置，以及相机拍摄该每个关键帧图像时的位姿；其中，所述初始计算的位姿关系是相机拍摄所述多个关键帧图像时的位姿关系，且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的，或者，所述初始计算的位姿是相机拍摄所述关键帧图像时的位姿，且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。

具体地，可以通过VO算法、IMU和GPS中的至少一种，给出两个关键帧图像之间的粗略位姿关系，可以把这个粗略结果作为BA算法的初始值，带入计算，减少迭代次数，加快算法收敛时间，同时减少出错的概率。这是因为是一个最优化的过程，很可能变成局部最优，所以随便给初始值可能会出现错误的结果。

可选地，利用初始计算的位姿关系或位姿关系，对利用该集束调整算法计算的该多个关键帧图像中每个关键帧图像的相机位姿中的位移进行缩放；其中，所述初始计算的位姿关系是相机拍摄所述多个关键帧图像时的位姿关系，且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的，或者，所述初始计算的位姿是相机拍摄所述关键帧图像时的位姿，且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。

具体地，BA算法解算出来的位姿，其中姿态比较准确，但是位移信息会有缩放，这里我们再利用两个关键帧图像之间通过VO算法、IMU和GPS中的至少一种得出的粗略位姿观测，按照式17恢复这个缩放比例：

这样，可以得到比例尺度s，按照式18再把s乘回去，得到尺度对准后的位移，如下：

t'_BA＝st_BA＝[st_BAx,st_BAy,st_BAz]^T 式18

可选地，根据所述每个待处理的特征点在所述多个关键帧图像之间的相对位置，以及相机拍摄所述每个关键帧图像时的位姿，确定所述每个待处理的特征点的深度信息。

可选地，根据该多个关键帧图像中的特征点的深度信息，确定该多个关键帧图像中每个关键帧图像的每个像素位置的深度信息。

具体地，根据该多个关键帧图像中的特征点的深度信息，使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者绝对变换误差和算法，确定该关键帧图像中每个像素位置的深度信息。

具体地，如图3所示，通过BA算法计算出各个特征点的三维相对位置b_i，这里取距离最大d_max与最小d_min，并以此为区间，做n等分，得到平面z₀到z_n。每个平面z_i对应着一个H_i，其中，H_i可以通过式19表示：

H_i＝A[r₁ r₂ z_ir₃+t] 式19

每幅图像通过不同H_i反向投影回关键帧(z₀)，计算像素点对应不同H_i在反投影的图像上和关键帧上的差别，其中，可以使用平均绝对差算法(Mean Absolute Differences，MAD)、误差平方和算法(Sum of Squared Differences，SSD)、绝对误差和算法(Sum ofAbsolute Difference，SAD)、归一化积相关算法(Normalized Cross Correlation，NCC)、序贯相似性检测算法(Sequential Similiarity Detection Algorithm，SSDA)或者绝对变换误差和算法(Sum of Absolute Transformed Difference，SATD)，选取一种来计算对应的匹配分值(Match Score Values)，找出每个点最匹配所对应的H_i，则相应的z_i即为其深度信息。

例如，对于采用SSD算法而言，可以通过式20实现：

进一步地，可以结合上述平面扫描(Plane Sweeping)的中间结果，利用半全局匹配(semi-global block matching，SGBM)算法构造代价函数(Cost Function)，例如，如下式21和式22所示：

应理解，在本申请实施例中，虽然以上介绍了如何根据关键帧的特征点的深度信息，获取关键帧的每个像素点的深度信息，但是本申请实施例可以根据关键帧的特帧点的深度信息，获取关键帧的部分像素点的深度信息。

以上已经介绍了如何获取关键帧中的像素点的深度信息，以下将介绍如何对获取的深度信息进行验证。

可选地，对该多个关键帧图像中的至少一个关键帧图像中的至少部分像素位置的深度信息进行验证。

具体地，本申请实施例中可以对至少部分关键帧图像中的至少像素位置的深度信息进行验证，其中，验证的图像的数量和像素位置的数量可以根据具体情况而定，例如，可以根据系统的处理能力或者对环境感知或定位的精度要求等。

可选地，利用相机拍摄该至少一个关键帧图像与其他关键帧图像时的位姿关系，对该至少一个关键帧图像中的至少部分像素位置的深度信息进行验证。

具体地，利用第三关键帧图像的第一像素位置的深度信息，得到该第一像素位置的3D位置；根据该第一像素位置的3D位置，以及相机拍摄该第三关键帧图像与第四关键帧图像时的位姿关系，得到该第一像素位置在该第四关键帧图像对应的第二像素位置；比较该第一像素位置的颜色亮度值，以及该第二像素位置的颜色亮度值之间的关系；根据比较结果，确定该第一像素位置的深度信息的准确性。

可选地，通过双线性插值运算的方式，得到该第二像素位置的颜色亮度值。

可选地，在该第一像素位置的颜色亮度值与该第二像素位置的颜色亮度值的差值的绝对值大于或等于第五阈值时，确定该第一像素位置的深度信息不准确。

可选地，在该第三关键帧图像中的像素位置深度信息不准确的比例大于或等于第六阈值时，放弃计算得到的该第三关键帧图像的深度信息。进一步地，可以放弃计算得到的第四关键帧图像的深度信息，或者，放弃本次得到的所有关键帧图像的深度信息。

具体地，在利用单目摄像头拍摄的图像计算深度信息之后，不一定是准确的，可以进行交叉验算一下。可选地，可以通过关键帧之间的投影变换关系来进行验证。

以下将利用式23示出投影变换的数学关系：

其中，K为相机内部参数矩阵(Intrinsic Matrix)，可以在出厂的时候进行标定，K可以表征为以下式24

p是原图上的点，这里表示第一帧图像的相机像素坐标系上的一个点，p'是投影变换后的点，这里表示，第二帧图像的相机像素坐标系上，与p对应的点。d为p点对应的深度信息，R为第二个图像相对于第一个图像的旋转关系矩阵，t为第二个图像相对于第一个图像的位移关系矩阵。[x,y,z]^T为相机平面物理坐标系上的三维点，投影后得到相机平面像素坐标系的点p'。

式23表征的为，在理想情况下，即深度信息和相机拍摄两帧图像时的位姿关系均正确的情况下，式23成立，即第一帧图像上每个像素点，可以通过这个公式，对应在第二帧图像的位置。

换句话说，可以通过反证法，假设深度信息和位姿关系均正确，根据该数学关系，可以通过第二帧图像来反求第一帧图像。

因此，可以根据上述的数学关系，针对第一帧图像回溯到原图中，反向寻找小图范围内的点所对应在大图上的位置，计算出其值。

以下将结合图4所示的方法描述其具体的流程。

步骤1，取图1(可选地为本申请实施例中的任一关键帧)像素坐标系上任意一点p，在深度图上获取p对应的深度d。

步骤2，根据相机内参K以及对应的深度d，得到p在图1所在的相机坐标系下，对应的3D点在d·K^-1p。

步骤3，通过图1与图2之间的位姿关系，将p对应的3D点转到图2所在的相机坐标系下，得到R(d·K^-1p)+t。

步骤4，通过相机内参，计算得到3D点对应到图2相机平面物理坐标系的点[x y z]^T＝K(R(d·K^-1p)+t)。

步骤5，计算出p点投影变换到图2相机平面像素坐标系的点p'。

步骤6，p'＝[u,v]^T坐标很可能是小数，但是对应的像素坐标系上并无小数，只有整数，因此在获取点的色彩信息的时候，可以采用双线性差值(Bilinear Interpolation)。

例如，如图5所示，对于像素点(x，y)的色彩信息可以通过对像素点(x1，y1)，(x1，y2)，(x2，y1)和(x2，y2)得到。

通过双线性双线性插值，计算出p点的亮度颜色信息I'_p，与原图p点的亮度颜色信息I_p相比较，如果差异过大例如，||I_p-I'_p||₂>I_th，则认为此点不相符。

步骤7，针对图1中每个像素点都通过上述方法20进行检测，如果差异过大的点数比较多(比如总像素的1％)，就认为此次深度图计算结果不好，废弃不用。

因此，在本申请实施例中，对获取的深度信息进行验证，可以避免由于深度信息不准确，所造成的定位和环境感知不精确地的问题。

图6是根据本申请实施例的图像处理方法200的示意性流程图。如图6所示，该方法200包括以下内容中的至少部分内容。

在210中，获取单目摄像头拍摄的多帧图像。

可选地，该多帧图像可以是连续拍摄的多帧图像。

可选地，该多帧图像可以是经过关键帧提取的多帧图像。

在220中，利用相机拍摄该多帧图像时的位姿，计算该多帧图像中的特征点的深度信息。

可选地，从该多帧图像中选择多个待处理的特征点；计算该多个待处理的特征点中每个待处理的特征点在该多帧图像之间的相对位置，以及计算相机拍摄该多帧图像中每帧图像时的位姿；根据该每个待处理的特征点在该多帧图像之间的相对位置，以及相机拍摄该每帧图像时的位姿(或者，也可以是相机拍摄该多个关键帧图像时的位姿关系)，确定该每个待处理的特征点的深度信息。

可选地，从该多帧图像中选择多个初始特征点；计算该多个初始特征点中每个初始特征点从第一图像到第二图像的第一光流；计算该每个初始特征点从该第二图像到该第一图像的第二光流；将该第一光流与该第二光流之和的绝对值小于等于第一阈值对应的初始特征点，确定为该待处理的特征点。

可选地，利用集束调整算法，计算该每个待处理的特征点在该多帧图像之间的相对位置，以及相机拍摄该每帧图像时的位姿。

可选地，将初始计算的相机拍摄该多帧图像时的位姿作为初始值，利用该集束调整算法，计算该每个待处理的特征点在该多帧图像之间的相对位置，以及相机拍摄该每帧图像时的位姿；其中，该初始计算的位姿关系是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。

可选地，利用初始计算的相机拍摄该多帧图像时的位姿关系，对利用集束调整算法计算的每帧图像对应的位姿中的位移进行缩放；其中，该初始计算的相机位姿关系是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。

在230中，根据该多帧图像中的特征点的深度信息，确定该多帧图像中每帧图像的每个像素的深度信息。

可选地，根据该多帧图像中的特征点的深度信息，使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者绝对变换误差和算法，确定该每帧图像中每个像素位置的深度信息。

可选地，对该多帧图像中的至少一帧图像中的至少部分像素位置的深度信息进行验证。

可选地，利用相机拍摄该至少一帧图像与其他帧图像时的位姿关系，对至少一帧图像中的至少部分像素位置的深度信息进行验证。

具体地，利用第一图像的第一像素位置的深度信息，得到该第一像素位置的3D位置；根据该第一像素位置的3D位置，以及相机拍摄该第一图像与第二图像时的位姿关系，得到该第一像素位置在该第二图像对应的第二像素位置；比较该第一像素位置的颜色亮度值，以及该第二像素位置的颜色亮度值之间的关系；根据比较结果，确定该第一像素位置的深度信息的准确性。

可选地，在比较该第一像素位置的颜色亮度值，以及该第二像素位置的颜色亮度值之间的关系之前，通过双线性插值运算的方式，得到该第二像素位置的颜色亮度值。

可选地，在该第一像素位置的颜色亮度值与该第二像素位置的颜色亮度值的差值的绝对值大于或等于第二阈值时，确定该第一像素位置的深度信息不准确。

可选地，在该第一图像中的像素位置深度信息不准确的比例大于或等于第三阈值，放弃计算得到的该第一图像的深度信息。进一步地，可以放弃计算得到的第二图像的深度信息，或者，放弃本次得到的所有图像的深度信息。

应理解，方法200中各个操作的具体实现可以参考方法100的描述，为了简洁，在此不再赘述。

因此，在本申请实施例中，利用单目摄像头拍摄的多帧图像时的位姿，计算该多帧图像中的特征点的深度信息，根据该多帧图像中的特征点的深度信息，确定该多帧图像中每帧图像的每个像素的深度信息，可以避免进行SLAM进行定位和环境感知所带来的资源耗费较大的问题，并且可以避免采用价格较为昂贵的结构光摄像头或者对结构要求较高的双/多目摄像头，因此本申请实施例的方法可以在提高定位和环境感知精度的同时，可以降低资源耗费，以及节约成本等。

图7是根据本申请实施例的图像处理方法300的示意性框图。如图7所示，该方法300包括以下内容中的至少部分内容。

在310中，获取单目摄像头拍摄的多帧图像。

在320中，利用相机拍摄该多帧图像时的位姿，确定该多帧图像中每帧图像的每个像素的深度信息。

在330中，利用相机拍摄多帧图像中至少一帧图像与其他帧图像的位姿关系，对至少一帧图像中的至少部分像素位置的深度信息进行验证。

可选地，利用第一图像的第一像素位置的深度信息，得到该第一像素位置的3D位置；根据该第一像素位置的3D位置，以及相机拍摄该第一图像与第二图像时的位姿关系，得到该第一像素位置在该第二图像对应的第二像素位置；比较该第一像素位置的颜色亮度值，以及该第二像素位置的颜色亮度值之间的关系；根据比较结果，确定该第一像素位置的深度信息的准确性。

可选地，在该比较该第一像素位置的颜色亮度值，以及该第二像素位置的颜色亮度值之间的关系之前，通过双线性插值运算的方式，得到该第二像素位置的颜色亮度值。

可选地，在该第一帧图像中的像素位置深度信息不准确的比例大于或等于第三阈值，放弃计算得到的该第一图像的深度信息。

应理解，方法300中各个操作的具体实现可以参考方法100的描述，为了简洁，在此不再赘述。

因此，在本申请实施例中，利用单目摄像头拍摄多帧图像时的位姿，计算该多帧图像中每帧图像的每个像素的深度信息，可以避免进行SLAM进行定位和环境感知所带来的资源耗费较大的问题，并且可以避免采用价格较为昂贵的结构光摄像头或者对结构要求较高的双/多目摄像头，因此本申请实施例的方法可以在提高定位和环境感知精度的同时，可以降低资源耗费，以及节约成本等。并且进一步地，利用相机拍摄多帧图像中至少一帧图像与其他帧图像时的位姿关系，对至少一帧图像中的至少部分像素位置的深度信息进行验证，可以避免由于计算的深度信息不准确，所造成的环境感知或定位不精确的问题。

图8是根据本申请实施例的图像处理设备400的示意性框图。如图8所示，该设备400包括获取单元410、确定单元420和计算单元430；其中，

该获取单元410用于：获取单目摄像头拍摄的多帧图像；

该提取单元420用于：根据相机拍摄该多帧图像时的位姿关系，从该多帧图像中，提取多个关键帧图像；

该确定单元430用于：利用相机拍摄该多个关键帧图像时的位姿，计算该多个关键帧图像中的特征点的深度信息。

可选地，该提取单元420进一步用于：

从该多帧图像中，提取第一个关键帧图像；

获取相机拍摄该多帧图像中的下一帧图像与上一个关键帧图像时的位姿关系；

在相机拍摄该下一帧图像与该上一个关键帧图像时的位姿关系满足预设关系时，将该下一帧图像确定为该关键帧图像。

可选地，该预设关系为：

旋转角度小于或等于第一阈值；和/或，

位置变化小于或等于第二阈值。

可选地，该提取单元420进一步用于：

通过位姿关系累计的方式，得到相机拍摄该下一帧图像与该上一个关键帧图像时的位姿关系。

可选地，该提取单元420进一步用于：

根据该下一帧图像和该上一个关键帧图像的位置和/或姿态，得到相机拍摄该下一帧图像与该上一个关键帧图像时的位姿关系。

可选地，该确定单元430进一步用于：

从该多个关键帧图像中选择多个待处理的特征点；

计算该多个待处理的特征点中每个待处理的特征点在该多个关键帧图像之间的相对位置，以及计算相机拍摄每个关键帧图像时的位姿；

根据该每个待处理的特征点在该多个关键帧图像之间的相对位置，以及相机拍摄该每个关键帧图像时的位姿，确定该每个待处理的特征点的深度信息。

可选地，该确定单元430进一步用于：

从该多个关键帧图像中选择多个初始特征点；

计算该多个初始特征点中每个初始特征点从第一关键帧图像到第二关键帧图像的第一光流；

计算该每个初始特征点从该第二关键帧图像到该第一关键帧图像的第二光流；

将该第一光流与该第二光流之和的绝对值小于等于第四阈值对应的初始特征点，确定为该待处理的特征点。

可选地，该确定单元430进一步用于：

利用集束调整算法，计算该每个待处理的特征点在该多个关键帧图像之间的相对位置，以及相机拍摄该每个关键帧图像时的位姿。

可选地，该确定单元430进一步用于：

将初始计算的位姿关系作为初始值，利用该集束调整算法，计算该每个待处理的特征点在该多个关键帧图像之间的相对位置，以及相机拍摄该每个关键帧图像时的位姿；

其中，该初始计算的位姿关系是相机拍摄该多个关键帧图像时的位姿关系，且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。

可选地，该确定单元430进一步用于：

利用初始计算的位姿关系，对利用该集束调整算法计算的位姿中的位移进行缩放；

可选地，该确定单元430进一步用于：

根据该多个关键帧图像中的特征点的深度信息，确定该多个关键帧图像中每个关键帧图像的每个像素位置的深度信息。

可选地，该确定单元430进一步用于：

根据该多个关键帧图像中的特征点的深度信息，使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者绝对变换误差和算法，确定该每个关键帧图像中每个像素位置的深度信息。

可选地，如图8所示，该设备400还包括验证单元440，用于：

利用相机拍摄至少一个关键帧图像与其他关键帧图像时的位姿关系，对该至少一个关键帧图像中的至少部分像素位置的深度信息进行验证。

可选地，该验证单元440进一步用于：

利用第三关键帧图像的第一像素位置的深度信息，得到该第一像素位置的3D位置；

根据该第一像素位置的3D位置，以及相机拍摄该第三关键帧图像与第四关键帧图像时的位姿关系，得到该第一像素位置在该第四关键帧图像对应的第二像素位置；

比较该第一像素位置的颜色亮度值，以及该第二像素位置的颜色亮度值之间的关系；

根据比较结果，确定该第一像素位置的深度信息的准确性。

可选地，该验证单元440进一步用于：

通过双线性插值运算的方式，得到该第二像素位置的颜色亮度值。

可选地，该验证单元440进一步用于：

在该第一像素位置的颜色亮度值与该第二像素位置的颜色亮度值的差值的绝对值大于或等于第五阈值时，确定该第一像素位置的深度信息不准确。

可选地，该验证单元440进一步用于：

在该第三关键帧图像中的像素位置深度信息不准确的比例大于或等于第六阈值时，放弃计算得到的该第三关键帧图像的深度信息。

应理解，该设备400可以实现方法100、200或300中的相应操作，为了简洁，在此不再赘述。

图9是根据本申请实施例的图像处理设备500的示意性框图。如图9所示，该设备500包括获取单元510和确定单元520；其中，

该获取单元510用于：获取单目摄像头拍摄的多帧图像；

该确定单元520用于：利用相机拍摄该多帧图像时的位姿，计算该多帧图像中的特征点的深度信息；根据该多帧图像中的特征点的深度信息，确定该多帧图像中每帧图像的每个像素的深度信息。

可选地，该确定单元520进一步用于：

从该多帧图像中选择多个待处理的特征点；

计算该多个待处理的特征点中每个待处理的特征点在该多帧图像之间的相对位置，以及计算相机在拍摄该每帧图像时的位姿；

根据该每个待处理的特征点在该多帧图像之间的相对位置，以及相机在拍摄该每帧图像时的位姿，确定该每个待处理的特征点的深度信息。

可选地，该确定单元520进一步用于：

从该多帧图像中选择多个初始特征点；

计算该多个初始特征点中每个初始特征点从第一图像到第二图像的第一光流；

计算该每个初始特征点从该第二图像到该第一图像的第二光流；

将该第一光流与该第二光流之和的绝对值小于等于第一阈值对应的初始特征点，确定为该待处理的特征点。

可选地，该确定单元520进一步用于：

利用集束调整算法，计算该每个待处理的特征点在该多帧图像之间的相对位置，以及相机拍摄该每帧图像时的位姿。

可选地，该确定单元520进一步用于：

将初始计算的位姿关系作为初始值，利用该集束调整算法，计算该每个待处理的特征点在该多个关键帧图像之间的相对位置，以及相机拍摄该每帧图像时的位姿；

可选地，该确定单元520进一步用于：

其中，该初始计算的位姿关系是相机拍摄该多帧图像时的位姿关系，且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。

可选地，该确定单元520进一步用于：

根据该多帧图像中的特征点的深度信息，使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者绝对变换误差和算法，确定该每帧图像中每个像素位置的深度信息。

可选地，如图9所示，该设备500还包括验证单元530，用于：

利用相机拍摄该多帧图像中至少一帧图像与其他帧图像时的位姿关系，对该至少一帧图像中的至少部分像素位置的深度信息进行验证。

可选地，该验证单元530进一步用于：

利用第一图像的第一像素位置的深度信息，得到该第一像素位置的3D位置；

根据该第一像素位置的3D位置，以及相机拍摄该第一图像与第二图像时的位姿关系，得到该第一像素位置在该第二图像对应的第二像素位置；

根据比较结果，确定该第一像素位置的深度信息的准确性。

可选地，该验证单元530进一步用于：

在该第一像素位置的颜色亮度值与该第二像素位置的颜色亮度值的差值的绝对值大于或等于第二阈值时，确定该第一像素位置的深度信息不准确。

可选地，该验证单元530进一步用于：

在该第一图像中的像素位置深度信息不准确的比例大于或等于第三阈值，放弃计算得到的该第一图像的深度信息。

应理解，该设备500可以实现方法100、200或300中的相应操作，为了简洁，在此不再赘述。

图10是根据本申请实施例的图像处理设备600的示意性框图。如图10所示，该图像处理设备600包括获取单元610，确定单元620和验证单元630；

其中，该获取单元610用于：获取单目摄像头拍摄的多帧图像；

该确定单元620用于：利用相机拍摄该多帧图像时的位姿，确定该多帧图像中每帧图像的每个像素的深度信息；

该验证单元630用于：利用相机拍摄该多帧图像中至少一帧图像与其他帧图像时的位姿关系，对至少一帧图像中的至少部分像素位置的深度信息进行验证。

可选地，该验证单元630进一步用于：

根据比较结果，确定该第一像素位置的深度信息的准确性。

可选地，该验证单元630进一步用于：

应理解，该设备600可以实现方法100、200或300中的相应操作，为了简洁，在此不再赘述。

图11是根据本申请实施例的图像处理设备700的示意性框图

可选地，该图像处理设备700可以包括多个不同的部件，这些部件可以作为集成电路(integrated circuits，ICs)，或集成电路的部分，离散的电子设备，或其它适用于电路板(诸如主板，或附加板)的模块，也可以作为并入计算机系统的部件。

可选地，该图像处理设备可以包括处理器710和与处理器710耦合的存储介质720。

处理器710可以包括一个或多个通用处理器，诸如中央处理单元(centralprocessing unit，CPU)，或处理设备等。具体地，该处理器710可以是复杂指令集处理(complex instruction set computing，CISC)微处理器，超长指令字(very longinstruction word，VLIW)微处理器，实现多个指令集组合的微处理器。该处理器也可以是一个或多个专用处理器，诸如应用专用集成电路(application specific integratedcircuit，ASIC),现场可编程门阵列(field programmable gate array，FPGA),数字信号处理器(digital signal processor，DSP)。

处理器710可以与存储介质720通信。该存储介质720可以为磁盘、光盘、只读存储器(read only memory,ROM)，闪存，相变存储器。该存储介质620可以存储有处理器存储的指令，和/或，可以缓存一些从外部存储设备存储的信息，例如，从外部存储设备读取的金字塔的图像分层的像素信息。

可选地，除了处理器720和存储介质720，图像处理设备可以包括显示控制器和/或显示设备单元730，收发器740，视频输入输出单元750，音频输入输出单元760，其他输入输出单元770。图像处理设备700包括的这些部件可以通过总线或内部连接互联。

可选地，该收发器740可以是有线收发器或无线收发器，诸如，WIFI收发器，卫星收发器，蓝牙收发器，无线蜂窝电话收发器或其组合等。

可选地，视频输入输出单元750可以包括诸如摄像机的图像处理子系统，其包括光传感器，电荷耦合器件(charged coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide semiconductor，CMOS)光传感器，以用于实现拍摄功能。

可选地，该音频输入输出单元760可以包括扬声器，话筒，听筒等。

可选地，其他输入输出设备770可以包括存储设备，universal serial bus(USB)端口，串行端口，并行端口，打印机，网络接口等。

可选地，该图像处理设备700可以执行方法100至300所示的操作，为了简洁，在此不再赘述。

可选地，图像处理设备400-700可以位于可移动设备中。可移动设备可以在任何合适的环境下移动，例如，空气中(例如，定翼飞机、旋翼飞机，或既没有定翼也没有旋翼的飞机)、水中(例如，轮船或潜水艇)、陆地上(例如，汽车或火车)、太空(例如，太空飞机、卫星或探测器)，以及以上各种环境的任何组合。可移动设备可以是飞机，例如无人机(UnmannedAerial Vehicle，简称为“UAV”)。在一些实施例中，可移动设备可以承载生命体，例如，人或动物。

图12是根据本申请实施例的可移动设备800的示意性框图。如图12所示，可移动设备800包括载体810和负载820。图12中将可移动设备描述为无人机仅仅是为了描述方面。负载820可以不通过载体810连接到可移动设备上。可移动设备800还可以包括动力系统830、传感系统840和通信系统850和图像处理设备860。

动力系统830可以包括电子调速器(简称为电调)、一个或多个螺旋桨以及与一个或多个螺旋桨相对应的一个或多个电机。电机和螺旋桨设置在对应的机臂上；电子调速器用于接收飞行控制器产生的驱动信号，并根据驱动信号提供驱动电流给电机，以控制电机的转速和/或转向。电机用于驱动螺旋桨旋转，从而为UAV的飞行提供动力，该动力使得UAV能够实现一个或多个自由度的运动。在某些实施例中，UAV可以围绕一个或多个旋转轴旋转。例如，上述旋转轴可以包括横滚轴、平移轴和俯仰轴。应理解，电机可以是直流电机，也可以交流电机。另外，电机可以是无刷电机，也可以有刷电机。

传感系统840用于测量UAV的姿态信息，即UAV在空间的位置信息和状态信息，例如，三维位置、三维角度、三维速度、三维加速度和三维角速度等。传感系统例如可以包括陀螺仪、电子罗盘、惯性测量单元(Inertial Measurement Unit，简称为“IMU”)、视觉传感器、全球定位系统(Global Positioning System，简称为“GPS”)和气压计等传感器中的至少一种。飞行控制器用于控制UAV的飞行，例如，可以根据传感系统测量的姿态信息控制UAV的飞行。应理解，飞行控制器可以按照预先编好的程序指令对UAV进行控制，也可以通过响应来自操纵设备的一个或多个控制指令对UAV进行控制。

通信系统850能够与一个具有通信系统870的终端设备880通过无线信号890进行通信。通信系统850和通信系统870可以包括多个用于无线通信的发射机、接收机和/或收发机。这里的无线通信可以是单向通信，例如，只能是可移动设备800向终端设备880发送数据。或者无线通信可以是双向通信，数据即可以从可移动设备800发送给终端设备880，也可以由终端设备880发送给可移动设备800。

可选地，终端设备780能够提供针对于一个或多个可移动设备800、载体810和负载820的控制数据，并能接收可移动设备800、载体810和负载820发送的信息。终端设备880提供的控制数据能够用于控制一个或多个可移动设备800、载体810和负载820的状态。可选地，载体810和负载820中包括用于与终端设备880进行通信的通信模块。

可以理解的是，图12所示出的可移动设备包括的图像处理设备860能够执行方法100至300，为了简洁，在此不再赘述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

获取单目摄像头拍摄的多帧图像；

根据相机拍摄所述多帧图像时的位姿关系，从所述多帧图像中，提取多个关键帧图像；

利用相机拍摄所述多个关键帧图像时的位姿，计算所述多个关键帧图像中的特征点的深度信息。

2.根据权利要求1所述的方法，其特征在于，所述根据相机拍摄所述多帧图像时的位姿关系，从所述多帧图像中，提取多个关键帧图像，包括：

从所述多帧图像中，提取第一个关键帧图像；

获取相机拍摄所述多帧图像中的下一帧图像与上一个关键帧图像时的位姿关系；

在相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系满足预设关系时，将所述下一帧图像确定为所述关键帧图像。

3.根据权利要求2所述的方法，其特征在于，所述预设关系为：

旋转角度小于或等于第一阈值；和/或，

位置变化小于或等于第二阈值。

4.根据权利要求2或3所述的方法，其特征在于，所述获取相机拍摄所述多帧图像中的下一帧图像与上一个关键帧图像时的位姿关系，包括：

通过位姿关系累计的方式，得到相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系。

5.根据权利要求2或3所述的方法，其特征在于，所述获取相机拍摄所述多帧图像中的下一帧图像与上一个关键帧图像时的位姿关系，包括：

根据所述下一帧图像和所述上一个关键帧图像的位置和/或姿态，得到相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述多帧图像是连续的多帧运动姿态变化量小于或等于第三阈值的图像。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述利用相机拍摄所述多个关键帧图像时的位姿，计算所述多个关键帧图像中的特征点的深度信息，包括：

从所述多个关键帧图像中选择多个待处理的特征点；

计算所述多个待处理的特征点中每个待处理的特征点在所述多个关键帧图像之间的相对位置，以及计算相机拍摄每个关键帧图像时的位姿；

根据所述每个待处理的特征点在所述多个关键帧图像之间的相对位置，以及相机拍摄所述每个关键帧图像时的位姿，确定所述每个待处理的特征点的深度信息。

8.根据权利要求7所述的方法，其特征在于，所述从所述多个关键帧图像中选择多个待处理的特征点，包括：

从所述多个关键帧图像中选择多个初始特征点；

计算所述多个初始特征点中每个初始特征点从第一关键帧图像到第二关键帧图像的第一光流；

计算所述每个初始特征点从所述第二关键帧图像到所述第一关键帧图像的第二光流；

将所述第一光流与所述第二光流之和的绝对值小于等于第四阈值对应的初始特征点，确定为所述待处理的特征点。

9.根据权利要求7或8所述的方法，其特征在于，所述计算所述多个待处理的特征点中每个待处理的特征点在所述多个关键帧图像之间的相对位置，以及计算相机拍摄每个关键帧图像时的位姿，包括：

利用集束调整算法，计算所述每个待处理的特征点在所述多个关键帧图像之间的相对位置，以及相机拍摄所述每个关键帧图像时的位姿。

10.根据权利要求9所述的方法，其特征在于，所述利用集束调整算法，计算所述每个待处理的特征点在所述多个关键帧图像之间的相对位置，以及相机拍摄所述每个关键帧图像时的位姿，包括：

将初始计算的位姿关系作为初始值，利用所述集束调整算法，计算所述每个待处理的特征点在所述多个关键帧图像之间的相对位置，以及相机拍摄所述每个关键帧图像时的位姿；

其中，所述初始计算的位姿关系是相机拍摄所述多个关键帧图像时的位姿关系，且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。

11.根据权利要求9或10所述的方法，其特征在于，所述计算所述多个待处理的特征点中每个待处理的特征点在所述多个关键帧图像之间的相对位置，以及计算相机拍摄每个关键帧图像时的位姿，还包括：

利用初始计算的位姿关系，对利用所述集束调整算法计算的位姿中的位移进行缩放；

12.根据权利要求1至11中任一项所述的方法，其特征在于，所述方法还包括：

根据所述多个关键帧图像中的特征点的深度信息，确定所述多个关键帧图像中每个关键帧图像的每个像素位置的深度信息。

13.根据权利要求12所述的方法，其特征在于，所述根据所述多个关键帧图像中的特征点的深度信息，确定所述多个关键帧图像中每个关键帧图像的每个像素位置的深度信息，包括：

根据所述多个关键帧图像中的特征点的深度信息，使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者绝对变换误差和算法，确定所述每个关键帧图像中每个像素位置的深度信息。

14.根据权利要求12或13所述的方法，其特征在于，所述方法还包括：

利用相机拍摄至少一个关键帧图像与其他关键帧图像时的位姿关系，对所述至少一个关键帧图像中的至少部分像素位置的深度信息进行验证。

15.根据权利要求14所述的方法，其特征在于，所述对所述至少一个关键帧图像中的至少部分像素位置的深度信息进行验证，包括：

利用第三关键帧图像的第一像素位置的深度信息，得到所述第一像素位置的3D位置；

根据所述第一像素位置的3D位置，以及相机拍摄所述第三关键帧图像与第四关键帧图像时的位姿关系，得到所述第一像素位置在所述第四关键帧图像对应的第二像素位置；

比较所述第一像素位置的颜色亮度值，以及所述第二像素位置的颜色亮度值之间的关系；

根据比较结果，确定所述第一像素位置的深度信息的准确性。

16.根据权利要求15所述的方法，其特征在于，在所述比较所述第一像素位置的颜色亮度值，以及所述第二像素位置的颜色亮度值之间的关系之前，所述对所述关键帧图像中的至少部分像素的深度信息进行验证，还包括：

通过双线性插值运算的方式，得到所述第二像素位置的颜色亮度值。

17.根据权利要求15或16的方法，其特征在于，所述根据比较结果，确定所述第一像素位置的深度信息的准确性，包括：

在所述第一像素位置的颜色亮度值与所述第二像素位置的颜色亮度值的差值的绝对值大于或等于第五阈值时，确定所述第一像素位置的深度信息不准确。

18.根据15至17中任一项所述的方法，其特征在于，所述方法还包括：

在所述第三关键帧图像中的像素位置深度信息不准确的比例大于或等于第六阈值时，放弃计算得到的所述第三关键帧图像的深度信息。

19.一种图像处理方法，其特征在于，包括：

获取单目摄像头拍摄的多帧图像；

利用相机拍摄所述多帧图像时的位姿，计算所述多帧图像中的特征点的深度信息；

根据所述多帧图像中的特征点的深度信息，确定所述多帧图像中每帧图像的每个像素的深度信息。

20.根据权利要求19所述的方法，其特征在于，所述利用相机拍摄所述多帧图像时的位姿，计算所述多帧图像中的特征点的深度信息，包括：

从所述多帧图像中选择多个待处理的特征点；

计算所述多个待处理的特征点中每个待处理的特征点在所述多帧图像之间的相对位置，以及计算相机在拍摄所述每帧图像时的位姿；

根据所述每个待处理的特征点在所述多帧图像之间的相对位置，以及相机在拍摄所述每帧图像时的位姿，确定所述每个待处理的特征点的深度信息。

21.根据权利要求20所述的方法，其特征在于，所述从所述多帧图像中选择多个待处理的特征点，包括：

从所述多帧图像中选择多个初始特征点；

计算所述多个初始特征点中每个初始特征点从第一图像到第二图像的第一光流；

计算所述每个初始特征点从所述第二图像到所述第一图像的第二光流；

将所述第一光流与所述第二光流之和的绝对值小于等于第一阈值对应的初始特征点，确定为所述待处理的特征点。

22.根据权利要求19至21中任一项所述的方法，其特征在于，所述计算所述多个待处理的特征点中每个待处理的特征点在所述多帧图像之间的相对位置，以及计算相机拍摄所述每帧图像时的位姿，包括：

利用集束调整算法，计算所述每个待处理的特征点在所述多帧图像之间的相对位置，以及相机拍摄所述每帧图像时的位姿。

23.根据权利要求22所述的方法，其特征在于，所述利用集束调整算法，计算所述每个待处理的特征点在所述多帧图像之间的相对位置，以及相机拍摄所述每帧图像时的位姿，包括：

将初始计算的位姿关系作为初始值，利用所述集束调整算法，计算所述每个待处理的特征点在所述多个关键帧图像之间的相对位置，以及相机拍摄所述每帧图像时的位姿；

24.根据权利要求22或23所述的方法，其特征在于，所述利用集束调整算法，计算所述每个待处理的特征点在所述多帧图像之间的相对位置，以及相机拍摄所述每帧图像时的位姿，还包括：

其中，所述初始计算的位姿关系是相机拍摄所述多帧图像时的位姿关系，且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。

25.根据权利要求19至24中任一项所述的方法，其特征在于，所述根据所述多帧图像中的特征点的深度信息，确定所述多帧图像中每帧图像的每个像素的深度信息，包括：

根据所述多帧图像中的特征点的深度信息，使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者绝对变换误差和算法，确定所述每帧图像中每个像素位置的深度信息。

26.根据权利要求19至25中任一项所述的方法，其特征在于，所述方法还包括：

利用相机拍摄所述多帧图像中至少一帧图像与其他帧图像时的位姿关系，对所述至少一帧图像中的至少部分像素位置的深度信息进行验证。

27.根据权利要求26所述的方法，其特征在于，所述对所述多帧图像中的至少一帧图像中的至少部分像素位置的深度信息进行验证，包括：

利用第一图像的第一像素位置的深度信息，得到所述第一像素位置的3D位置；

根据所述第一像素位置的3D位置，以及相机拍摄所述第一图像与第二图像时的位姿关系，得到所述第一像素位置在所述第二图像对应的第二像素位置；

28.根据权利要求27所述的方法，其特征在于，在所述比较所述第一像素位置的颜色亮度值，以及所述第二像素位置的颜色亮度值之间的关系之前，所述对所述关键帧图像中的至少部分像素的深度信息进行验证，还包括：

29.根据权利要求27或28的方法，其特征在于，所述根据比较结果，确定所述第一像素位置的深度信息的准确性，包括：

在所述第一像素位置的颜色亮度值与所述第二像素位置的颜色亮度值的差值的绝对值大于或等于第二阈值时，确定所述第一像素位置的深度信息不准确。

30.根据27至29中任一项所述的方法，其特征在于，所述方法还包括：

在所述第一图像中的像素位置深度信息不准确的比例大于或等于第三阈值，放弃计算得到的所述第一图像的深度信息。

31.一种图像处理方法，其特征在于，包括：

获取单目摄像头拍摄的多帧图像；

利用相机拍摄所述多帧图像时的位姿，确定所述多帧图像中每帧图像的每个像素的深度信息；

利用相机拍摄所述多帧图像中至少一帧图像与其他帧图像时的位姿关系，对至少一帧图像中的至少部分像素位置的深度信息进行验证。

32.根据权利要求31所述的方法，其特征在于，所述对所述多帧图像中的至少一帧图像中的至少部分像素位置的深度信息进行验证，包括：

33.根据权利要求32所述的方法，其特征在于，在所述比较所述第一像素位置的颜色亮度值，以及所述第二像素位置的颜色亮度值之间的关系之前，所述对所述关键帧图像中的至少部分像素的深度信息进行验证，还包括：

34.根据权利要求32或33的方法，其特征在于，所述根据比较结果，确定所述第一像素位置的深度信息的准确性，包括：

35.根据权利要求32至34中任一项所述的方法，其特征在于，所述方法还包括：

36.一种图像处理设备，其特征在于，包括获取单元、提取单元和确定单元；其中，

所述获取单元用于：获取单目摄像头拍摄的多帧图像；

所述提取单元用于：根据相机拍摄所述多帧图像时的位姿关系，从所述多帧图像中，提取多个关键帧图像；

所述确定单元用于：利用相机拍摄所述多个关键帧图像时的位姿，计算所述多个关键帧图像中的特征点的深度信息。

37.根据权利要求36所述的设备，其特征在于，所述提取单元进一步用于：

从所述多帧图像中，提取第一个关键帧图像；

38.根据权利要求37所述的设备，其特征在于，所述预设关系为：

旋转角度小于或等于第一阈值；和/或，

位置变化小于或等于第二阈值。

39.根据权利要求37或38所述的设备，其特征在于，所述提取单元进一步用于：

40.根据权利要求37或38所述的设备，其特征在于，所述提取单元进一步用于：

41.根据权利要求36至40中任一项所述的设备，其特征在于，所述多帧图像是连续的多帧运动姿态变化量小于或等于第三阈值的图像。

42.根据权利要求36至41中任一项所述的设备，其特征在于，所述确定单元进一步用于：

从所述多个关键帧图像中选择多个待处理的特征点；

43.根据权利要求42所述的设备，其特征在于，所述确定单元进一步用于：

从所述多个关键帧图像中选择多个初始特征点；

44.根据权利要求42或43所述的设备，其特征在于，所述确定单元进一步用于：

45.根据权利要求44所述的设备，其特征在于，所述确定单元进一步用于：

46.根据权利要求44或45所述的设备，其特征在于，所述确定单元进一步用于：

47.根据权利要求36至46中任一项所述的设备，其特征在于，所述确定单元进一步用于：

48.根据权利要求47所述的设备，其特征在于，所述确定单元进一步用于：

49.根据权利要求47或48所述的设备，其特征在于，所述设备还包括验证单元，用于：

50.根据权利要求49所述的设备，其特征在于，所述验证单元进一步用于：

51.根据权利要求50所述的设备，其特征在于，所述验证单元进一步用于：

52.根据权利要求50或51的设备，其特征在于，所述验证单元进一步用于：

53.根据50至52中任一项所述的设备，其特征在于，所述验证单元进一步用于：

54.一种图像处理设备，其特征在于，包括获取单元和确定单元；其中，

所述获取单元用于：获取单目摄像头拍摄的多帧图像；

所述确定单元用于：利用相机拍摄所述多帧图像时的位姿，计算所述多帧图像中的特征点的深度信息；根据所述多帧图像中的特征点的深度信息，确定所述多帧图像中每帧图像的每个像素的深度信息。

55.根据权利要求54所述的设备，其特征在于，所述确定单元进一步用于：

从所述多帧图像中选择多个待处理的特征点；

56.根据权利要求55所述的设备，其特征在于，所述确定单元进一步用于：

从所述多帧图像中选择多个初始特征点；

57.根据权利要求54至56中任一项所述的设备，其特征在于，所述确定单元进一步用于：

58.根据权利要求57所述的设备，其特征在于，所述确定单元进一步用于：

59.根据权利要求57或58所述的设备，其特征在于，所述确定单元进一步用于：

60.根据权利要求54至59中任一项所述的设备，其特征在于，所述确定单元进一步用于：

61.根据权利要求54至60中任一项所述的设备，其特征在于，所述设备还包括验证单元，用于：

62.根据权利要求61所述的设备，其特征在于，所述验证单元进一步用于：

63.根据权利要求62所述的设备，其特征在于，所述验证单元进一步用于：

64.根据权利要求62或63的设备，其特征在于，所述验证单元进一步用于：

65.根据62至64中任一项所述的设备，其特征在于，所述验证单元进一步用于：

66.一种图像处理设备，其特征在于，包括获取单元，确定单元和验证单元；其中，

所述获取单元用于：获取单目摄像头拍摄的多帧图像；

所述确定单元用于：利用相机拍摄所述多帧图像时的位姿，确定所述多帧图像中每帧图像的每个像素的深度信息；

所述验证单元用于：利用相机拍摄所述多帧图像中至少一帧图像与其他帧图像时的位姿关系，对至少一帧图像中的至少部分像素位置的深度信息进行验证。

67.根据权利要求66所述的设备，其特征在于，所述验证单元进一步用于：

68.根据权利要求67所述的设备，其特征在于，所述验证单元进一步用于：

69.根据权利要求67或68的设备，其特征在于，所述验证单元进一步用于：

70.根据权利要求67至69中任一项所述的设备，其特征在于，所述验证单元进一步用于：