CN114387312A

CN114387312A - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN114387312A
Application number: CN202111617785.3A
Authority: CN
Inventors: 李沛东; 徐双捷; 崔迪潇
Original assignee: Suzhou Zhijia Technology Co Ltd
Current assignee: Suzhou Zhijia Technology Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-22

Abstract

本申请公开了一种图像处理方法、装置、电子设备及存储介质，属于计算机技术领域。该方法包括：获取目标摄像头采集的多个图像帧；对该多个图像帧分别进行下采样，得到对应的多个图像集；对任一图像帧，基于该图像帧对应的图像集和该图像帧的上一帧对应的图像集，获取该图像帧的光流检测信息和深度检测信息。本申请通过使用图像集中层级式的图像金字塔特征，使得光流检测信息和深度检测信息所包含的细节更加丰富，从而提高了光流检测信息和深度检测信息的准确度，也即提高了场景流分析的准确度。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

随着计算机技术和移动通信技术的发展，自动驾驶车辆作为一项新兴逐渐引起广泛关注。自动驾驶车辆又称无人驾驶车辆、轮式移动机器人，是一种由自动驾驶系统控制以进行无人驾驶的智能车辆。

在自动驾驶系统中摄像头(即相机)是一种重要的传感器，摄像头能够采集车辆周围环境的视频流，通过对视频流进行场景流分析(包括光流分析和深度预测)，能够用于感知车辆外界物体的运动情况，因此，亟需一种能够提升场景流分析准确度的方法。

发明内容

本申请实施例提供了一种图像处理方法、装置、电子设备及存储介质，能够提升场景流分析的准确度。该技术方案如下：

一方面，提供了一种图像处理方法，该方法包括：

获取目标摄像头采集的多个图像帧，所述多个图像帧具有时序上的关联关系；

对所述多个图像帧分别进行下采样，得到对应的多个图像集，每个图像集中包括对应的图像帧和基于所述图像帧下采样得到的图像；

对所述多个图像帧中的任一图像帧，基于所述图像帧对应的图像集和所述图像帧的上一帧对应的图像集，获取所述图像帧的光流检测信息和深度检测信息，所述光流检测信息用于表征所述图像帧和上一帧之间同一对象的运动情况，所述深度检测信息用于表征所述图像帧中的对象与所述目标摄像头的距离。

在一种可能实施方式中，所述多个图像集中的每个图像集包括对应的图像帧和基于所述图像帧以不同采样倍数下采样得到的多个下采样图像，其中，所述下采样图像的尺寸与采样倍数呈负相关，且所述下采样图像的尺寸小于所述图像帧的尺寸。

在一种可能实施方式中，所述基于所述图像帧对应的图像集和所述图像帧的上一帧对应的图像集，获取所述图像帧的光流检测信息和深度检测信息包括：

从所述图像帧对应的图像集和所述图像帧的上一帧对应的图像集中，确定多个采样倍率各自对应的下采样图像对；

基于每个所述下采样图像对，获取中间光流检测信息和中间深度检测信息；

基于所述中间光流检测信息和中间深度检测信息，获取所述图像帧的光流检测信息和深度检测信息。

在一种可能实施方式中，所述基于每个所述下采样图像对，获取中间光流检测信息和中间深度检测信息包括：

对任一采样倍率，从所述图像帧对应的图像集中，获取所述采样倍率对应的第一下采样图像；

从所述图像帧的上一帧对应的图像集中，获取所述采样倍率对应的第二下采样图像；

基于所述第一下采样图像和所述第二下采样图像，获取相关性矩阵，所述相关性矩阵用于表征所述图像帧和所述图像帧的上一帧在所述采样倍率下的像素关联程度；

基于所述相关性矩阵，获取所述中间光流检测信息和中间深度检测信息。

在一种可能实施方式中，所述目标摄像头为双目摄像头，所述图像帧包括左目图像和右目图像，所述第一下采样图像包括第一左目下采样图像和第一右目下采样图像，所述第二下采样图像包括第二左目下采样图像和第二右目下采样图像；

所述基于所述第一下采样图像和所述第二下采样图像，获取相关性矩阵包括：

基于所述第一左目下采样图像和所述第二左目下采样图像，获取第一相关性矩阵，所述第一相关性矩阵用于表征所述图像帧和所述图像帧的上一帧在所述采样倍率下的左目图像的像素关联程度；

基于所述第一左目下采样图像和所述第一右目下采样图像，获取第二相关性矩阵，所述第二相关性矩阵用于表征所述图像帧的左目图像和右目图像在所述采样倍率下的视差；

基于所述第二左目下采样图像和所述第二右目下采样图像，获取第三相关性矩阵，所述第三相关性矩阵用于表征所述图像帧的上一帧的左目图像和右目图像在所述采样倍率下的视差；

基于所述第二相关性矩阵和所述第三相关性矩阵，获取第四相关性矩阵，所述第四相关性矩阵用于表征所述图像帧和所述图像帧的上一帧在所述采样倍率下的视差关联程度。

在一种可能实施方式中，所述基于所述第一下采样图像和所述第二下采样图像，获取相关性矩阵包括：

对所述第一下采样图像中的每个像素，确定包含所述像素和所述像素的多个邻域像素的滑动窗口；

基于目标步长，在所述第二下采样图像上按照所述滑动窗口进行滑动采样，得到所述像素与所述第二下采样图像中的每个像素之间的相关性系数。

在一种可能实施方式中，所述在所述第二下采样图像上按照所述滑动窗口进行滑动采样，得到所述像素与所述第二下采样图像中的每个像素之间的相关性系数包括：

从所述第一下采样图像中，确定包含所述像素和所述像素的多个邻域像素所构成的第一向量；

对任一次滑动采样，从所述第二下采样图像中，确定所述滑动窗口内包含的目标像素和所述目标像素的多个邻域像素所构成的第二向量；

将所述第一向量和所述第二向量之间的点积确定为所述像素和所述目标像素之间的相关性系数。

在一种可能实施方式中，所述基于所述中间光流检测信息和中间深度检测信息，获取所述图像帧的光流检测信息和深度检测信息包括：

基于所述中间光流检测信息、所述中间深度检测信息和所述第二下采样图像，获取第三下采样图像，所述第三下采样图像为基于所述图像帧的上一帧预测得到与所述采样倍率对应的下采样图像；

对所述第三下采样图像进行上采样，得到目标采样倍率对应的上采样图像，所述目标采样倍率在所述多个采样倍率中小于且最接近所述采样倍率；

对所述上采样图像和所述图像帧对应的图像集中与所述目标采样倍率对应的下采样图像，迭代执行所述获取中间光流检测信息和中间深度检测信息的步骤；

在任一次迭代过程中，在得到的上采样图像的尺寸与所述图像帧的尺寸相同时，输出基于所述上采样图像和所述图像帧获取得到的所述光流检测信息和深度检测信息。

在一种可能实施方式中，所述对所述多个图像帧分别进行下采样，得到对应的多个图像集包括：

对所述多个图像帧中的每个图像帧，将所述图像帧输入到串联的多个卷积层中，通过所述多个卷积层对所述图像帧进行卷积处理，得到多个下采样图像，其中，每个下采样图像均为一个卷积层输出的特征图；

将所述图像帧和所述多个下采样图像确定为所述图像帧对应的图像集。

在一种可能实施方式中，所述目标摄像头为车载摄像头，所述多个图像帧为所述车载摄像头录制的视频流中连续的多个视频帧。

一方面，提供了一种图像处理装置，该装置包括：

第一获取模块，用于获取目标摄像头采集的多个图像帧，所述多个图像帧具有时序上的关联关系；

下采样模块，用于对所述多个图像帧分别进行下采样，得到对应的多个图像集，每个图像集中包括对应的图像帧和基于所述图像帧下采样得到的图像；

第二获取模块，用于对所述多个图像帧中的任一图像帧，基于所述图像帧对应的图像集和所述图像帧的上一帧对应的图像集，获取所述图像帧的光流检测信息和深度检测信息，所述光流检测信息用于表征所述图像帧和上一帧之间同一对象的运动情况，所述深度检测信息用于表征所述图像帧中的对象与所述目标摄像头的距离。

在一种可能实施方式中，所述第二获取模块包括：

确定子模块，用于从所述图像帧对应的图像集和所述图像帧的上一帧对应的图像集中，确定多个采样倍率各自对应的下采样图像对；

第一获取子模块，用于基于每个所述下采样图像对，获取中间光流检测信息和中间深度检测信息；

第二获取子模块，用于基于所述中间光流检测信息和中间深度检测信息，获取所述图像帧的光流检测信息和深度检测信息。

在一种可能实施方式中，所述第一获取子模块包括：

第一获取单元，用于对任一采样倍率，从所述图像帧对应的图像集中，获取所述采样倍率对应的第一下采样图像；

所述第一获取单元，还用于从所述图像帧的上一帧对应的图像集中，获取所述采样倍率对应的第二下采样图像；

第二获取单元，用于基于所述第一下采样图像和所述第二下采样图像，获取相关性矩阵，所述相关性矩阵用于表征所述图像帧和所述图像帧的上一帧在所述采样倍率下的像素关联程度；

第三获取单元，用于基于所述相关性矩阵，获取所述中间光流检测信息和中间深度检测信息。

所述第二获取单元用于：

在一种可能实施方式中，所述第二获取单元包括：

确定子单元，用于对所述第一下采样图像中的每个像素，确定包含所述像素和所述像素的多个邻域像素的滑动窗口；

采样子单元，用于基于目标步长，在所述第二下采样图像上按照所述滑动窗口进行滑动采样，得到所述像素与所述第二下采样图像中的每个像素之间的相关性系数。

在一种可能实施方式中，所述采样子单元用于：

在一种可能实施方式中，所述第二获取子模块用于：

在一种可能实施方式中，所述下采样模块用于：

一方面，提供了一种电子设备，该电子设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的图像处理方法。

一方面，提供了一种存储介质，该存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现如上述任一种可能实现方式的图像处理方法。

一方面，提供一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得电子设备能够执行上述任一种可能实施方式的图像处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过对目标摄像头采集的图像帧进行下采样，得到了一系列尺度空间下的图像所构成的图像集，利用图像集中不同尺度空间下的图像来综合预测当前的图像帧的光流检测信息和深度检测信息，能够使用图像集中层级式的金字塔特征，使得光流检测信息和深度检测信息所包含的细节更加丰富，从而提高了光流检测信息和深度检测信息的准确度，也即提高了场景流分析的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的实施环境示意图；

图2是本申请实施例提供的一种图像处理方法的流程图；

图3是本申请实施例提供的一种图像处理方法的流程图；

图4是本申请实施例提供的一种卷积操作的原理性示意图；

图5是本申请实施例提供的一种补零方式的原理性示意图；

图6是本申请实施例提供的一种补零方式的原理性示意图；

图7是本申请实施例提供的一种标准光流参数图；

图8是本申请实施例提供的一种场景流分析模型的架构示意图；

图9是本申请实施例提供的一种图像处理方法的原理性流程图；

图10是本申请实施例提供的一种图像处理装置的结构示意图；

图11是本申请实施例提供的一种终端的结构示意图；

图12是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个第一位置是指两个或两个以上的第一位置。

以下，对本申请实施例涉及的术语进行解释说明：

无人车：全称为无人驾驶汽车，也称为自动驾驶汽车、轮式移动机器人，主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶的目的。无人车是通过车载传感系统感知道路环境，自动规划行车路线并控制车辆到达预定目标的智能汽车。无人车利用车载传感器来感知车辆周围环境，并根据感知所获得的道路、车辆位置和障碍物信息，控制车辆的转向和速度，从而使车辆能够安全、可靠地在道路上行驶。无人车集自动控制、体系结构、人工智能、视觉计算等众多前沿技术于一体，是计算机科学、模式识别和智能控制技术高度发展的产物。

自动驾驶系统：自动驾驶系统采用先进的通信、计算机、网络和控制技术，对车辆实现实时、连续控制。采用现代通信手段，直接面对车辆，可实现车地间的双向数据通信，传输速率快，信息量大，后续追踪车辆和控制中心可以及时获知前行车辆的确切位置，使得运行管理更加灵活，控制更为有效，更加适应车辆自动驾驶的需求。

自动驾驶系统是一个汇集众多高新技术的综合系统，作为关键环节的环境信息获取和智能决策控制依赖于传感器技术、图像识别技术、电子与计算机技术与控制技术等一系列高新技术的创新和突破。无人驾驶汽车要想取得长足的发展，有赖于多方面技术的突破和创新。

自动驾驶系统相关的关键技术，包括环境感知、逻辑推理和决策、运动控制、处理器性能等。随着机器视觉(如3D摄像头技术)、模式识别软件(如光学字符识别程序)和光达系统(已结合全球定位技术和空间数据)的进步，车载计算机可以通过将机器视觉、感应器数据和空间数据相结合来控制汽车的行驶。

尺度：信号的尺度空间是指通过一系列单参数、宽度递增的高斯滤波器将原始信号滤波得到一组低频信号，而图像的尺度空间则是指以图像数据作为上述原始信号。当用一个机器视觉系统分析未知场景时，计算机没有办法预先知识图像中物体尺度，需要同时考虑图像在多尺度下的描述，获知感兴趣物体的最佳尺度。通常，会将图像构建为一系列不同尺度的图像集，在不同的尺度中去检测感兴趣的特征。比如：在Harr(哈尔)特征检测脸部的时候，因为计算机并不知道图像中脸部的尺寸，所以需要生成一系列不同大小的图像组成的图像金字塔，扫描其中每一幅图像来寻找可能的脸部。图像的金字塔化能高效地对图像进行多尺度的表达，图像金字塔化的一般步骤包括：首先，图像经过一个低通滤波器进行平滑，然后，对平滑后的图像进行抽样(一般抽样比例在水平和竖直方向上都为1/2)，从而得到一系列的缩小的图像。本公开实施例所涉及的“尺度”一词是指图像帧在尺度空间下的尺度，换言之，也特指图像帧的分辨率(或尺寸)，其中，图像帧的分辨率通常与尺寸呈正相关，分辨率越高的图像帧尺寸越大，分辨率越低的图像帧尺寸越小。

分辨率：本公开实施例所涉及的“分辨率”均是指图像分辨率，也即指图像中存储的信息量，是每英寸图像内有多少个像素点，分辨率的单位为PPI (Pixels Per Inch，像素每英寸)。图像分辨率用于指示图像的清晰度，分辨率越大代表图像清晰度越高，分辨率越小代表图像清晰度越低。其中，该图像分辨率由采集图像的感知设备(如摄像头等)的参数决定。

场景流分析：场景流分析又称为场景流估计。在三维空间中的目标(如人物、动物、障碍物、车辆等实体对象)和场景(如建筑物、路面、红绿灯等实体环境)的运动称为场景流。由于场景流本身是三维空间中的运动，但在经过摄像头采集之后，场景流在二维图像平面的投影也形成了运动，这种运动以图像平面亮度模式表现出来的流动就称为光流。场景流分析的主要目的是：针对 3D(三维)场景中的运动做精确估计；光流分析的主要目的是：针对2D(二维) 图像中的运动做可靠、快速、精确以及鲁棒性的估计。场景流分析是运动目标检测和分析的重要方法，可以适用于智能驾驶、机器人导航、医疗图像处理、交通监管、智能视频监控等众多技术领域。

目前，随着计算机技术和移动通信技术的发展，自动驾驶车辆作为一项新兴逐渐引起广泛关注。自动驾驶车辆又称无人驾驶车辆、轮式移动机器人，是一种由自动驾驶系统控制以进行无人驾驶的智能车辆。

在自动驾驶系统中，(车载)摄像头是一种重要的传感器，摄像头能够采集车辆周围环境的视频流(相当于将场景流投影到了二维的图像帧平面)，通过对视频流进行场景流分析(包括光流分析和深度预测)，能够用于感知车辆外界物体尤其是障碍物的运动情况，以此来建立自动驾驶策略，避免无人车可能发生的驾驶危险。

在本申请实施例中，提供一种图像处理方法，能够结合光流分析和深度检测来实现场景流分析，并且，还将场景流分析与深度学习相结合，即利用深度学习模型来进行光流分析和深度检测，在计算机视觉领域属于一种新的突破。由于深度学习具有较强的特征处理能力，因此可通过计算相邻图像帧之间的特征相似性，能够寻找到相邻图像帧中最相似的两个相关像素点，从而代表了同一个像素点在相邻图像帧之间的运动。而深度检测是指通过深度学习的方法，预测相邻图像帧相对于观测点(即摄像头)的深度即距离，以此来获取在深度维度上的差值。通过上述深度学习的手段，能够提供一种新的预测连续的图像帧内对象(包括物体和人体等实体)的运动情况，即每个图像帧能够输出光流检测信息和深度检测信息，基于该光流检测信息和深度检测信息能够计算出对象在三维空间上的运动速度。此外，提供一种简单易用、移植性强的相关性矩阵的计算方式，能够提高相关性矩阵的计算效率，且提升上述方法的泛用性。

图1是本申请实施例提供的一种图像处理方法的实施环境示意图。参见图1，在该实施环境中包括车载终端101和服务器102。

车载终端101用于控制车辆的行驶路线及行驶参数，车载终端101与车辆绑定，该车辆包括传统汽车、智能汽车、无人车、电动车、自行车、摩托车等交通工具，该车辆可由驾驶员手动驾驶，也可由自动驾驶系统驱动以实现无人驾驶。可选地，该车辆上安装有车载传感器、定位组件、(车载)摄像头、控制器、数据处理器等功能模块，上述功能模块能够借助车联网、5G(5th Generation Mobile Networks，第五代移动通信技术)和V2X(Vehicle To X，车用无线通信技术)等现代移动通信与网络技术，实现交通参与物彼此间的互换与共享，从而具备在复杂环境下的传感感知、决策规划、控制执行等功能。

在一个示例性场景中，以无人车为例，无人车的车载终端上配置有自动驾驶系统，并通过自动驾驶系统与服务器102建立连接，以通过服务器102访问车联网所提供的所有车辆动态信息。

其中，车联网即车辆物联网，是以行驶中的车辆为信息感知对象，借助新一代信息通信技术，实现车与车、人、路、服务平台等对象之间的网络连接，能够提升车辆整体的智能驾驶水平，为用户提供安全、舒适、智能、高效的驾驶感受与交通服务，同时提高交通运行效率，提高社会交通服务的智能化水平。可选地，车载终端101通过无线通信技术，对服务器102提供的信息网络平台中的所有车辆动态信息进行有效利用，在车辆运行中提供不同的功能服务。车联网通常表现出以下几点特征：车联网能够为车与车之间的间距提供保障，降低车辆发生碰撞事故的几率；车联网可以帮助车主实时导航，并通过与其它车辆和网络系统的通信，提高交通运行的效率。

车载终端101与服务器102能够通过有线或无线通信方式进行直接或间接地连接，例如，车载终端101与服务器102通过车辆网进行无线连接，本申请实施例对此不作具体限定。

服务器102用于向接入信息网络(即车联网)平台的车载终端提供车辆动态信息。服务器102可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地，服务器102承担主要计算工作，车载终端101 承担次要计算工作；服务器102承担次要计算工作，车载终端101承担主要计算工作；或者，车载终端101和服务器102两者之间采用分布式计算架构进行协同计算。

可选地，车载终端101泛指多个车载终端中的一个，车载终端101上配置有自动驾驶系统，该自动驾驶系统能够基于服务器102提供的车辆动态信息，来规划车辆的行驶路线及行驶参数。

在一个示例性场景中，车载终端的101通过摄像头采集到视频流，对视频流中连续的各个图像帧，使用本申请实施例提供的图像处理方法，获取每一个图像帧的光流检测信息和深度检测信息，实现对外界对象的场景流分析，进一步的，基于光流检测信息和深度检测信息还能够预测外界对象的运动速度，从而能够指导自动驾驶系统对行驶路线和行驶参数的配置，降低车辆发生危险的概率。

车载终端101的类型包括但不限于：车载控制台、智能手机、平板电脑、智能手表、智能音箱、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机中的至少一种。

本领域技术人员可以知晓，车载终端101的数量可以更多或更少。比如，车载终端101可以仅为一个，或者车载终端101为几十个或几百个，或者更多数量，本申请实施例对车载终端101的数量和设备类型不进行具体限定。

图2是本申请实施例提供的一种图像处理方法的流程图。参见图2，该实施例由电子设备执行，该实施例包括下述步骤：

201、电子设备获取目标摄像头采集的多个图像帧，该多个图像帧具有时序上的关联关系。

202、电子设备对该多个图像帧分别进行下采样，得到对应的多个图像集，每个图像集中包括对应的图像帧和基于该图像帧下采样得到的图像。

203、电子设备对该多个图像帧中的任一图像帧，基于该图像帧对应的图像集和该图像帧的上一帧对应的图像集，获取该图像帧的光流检测信息和深度检测信息，该光流检测信息用于表征该图像帧和上一帧之间同一对象的运动情况，该深度检测信息用于表征该图像帧中的对象与该目标摄像头的距离。

本申请实施例提供的方法，通过对目标摄像头采集的图像帧进行下采样，得到了一系列尺度空间下的图像所构成的图像集，利用图像集中不同尺度空间下的图像来综合预测当前的图像帧的光流检测信息和深度检测信息，能够使用图像集中层级式的金字塔特征，使得光流检测信息和深度检测信息所包含的细节更加丰富，从而提高了光流检测信息和深度检测信息的准确度，也即提高了场景流分析的准确度。

在一种可能实施方式中，该多个图像集中的每个图像集包括对应的图像帧和基于该图像帧以不同采样倍数下采样得到的多个下采样图像，其中，该下采样图像的尺寸与采样倍数呈负相关，且该下采样图像的尺寸小于该图像帧的尺寸。

在一种可能实施方式中，基于该图像帧对应的图像集和该图像帧的上一帧对应的图像集，获取该图像帧的光流检测信息和深度检测信息包括：

从该图像帧对应的图像集和该图像帧的上一帧对应的图像集中，确定多个采样倍率各自对应的下采样图像对；

基于每个该下采样图像对，获取中间光流检测信息和中间深度检测信息；

基于该中间光流检测信息和中间深度检测信息，获取该图像帧的光流检测信息和深度检测信息。

在一种可能实施方式中，基于每个该下采样图像对，获取中间光流检测信息和中间深度检测信息包括：

对任一采样倍率，从该图像帧对应的图像集中，获取该采样倍率对应的第一下采样图像；

从该图像帧的上一帧对应的图像集中，获取该采样倍率对应的第二下采样图像；

基于该第一下采样图像和该第二下采样图像，获取相关性矩阵，该相关性矩阵用于表征该图像帧和该图像帧的上一帧在该采样倍率下的像素关联程度；

基于该相关性矩阵，获取该中间光流检测信息和中间深度检测信息。

在一种可能实施方式中，该目标摄像头为双目摄像头，该图像帧包括左目图像和右目图像，该第一下采样图像包括第一左目下采样图像和第一右目下采样图像，该第二下采样图像包括第二左目下采样图像和第二右目下采样图像；

基于该第一下采样图像和该第二下采样图像，获取相关性矩阵包括：

基于该第一左目下采样图像和该第二左目下采样图像，获取第一相关性矩阵，该第一相关性矩阵用于表征该图像帧和该图像帧的上一帧在该采样倍率下的左目图像的像素关联程度；

基于该第一左目下采样图像和该第一右目下采样图像，获取第二相关性矩阵，该第二相关性矩阵用于表征该图像帧的左目图像和右目图像在该采样倍率下的视差；

基于该第二左目下采样图像和该第二右目下采样图像，获取第三相关性矩阵，该第三相关性矩阵用于表征该图像帧的上一帧的左目图像和右目图像在该采样倍率下的视差；

基于该第二相关性矩阵和该第三相关性矩阵，获取第四相关性矩阵，该第四相关性矩阵用于表征该图像帧和该图像帧的上一帧在该采样倍率下的视差关联程度。

在一种可能实施方式中，基于该第一下采样图像和该第二下采样图像，获取相关性矩阵包括：

对该第一下采样图像中的每个像素，确定包含该像素和该像素的多个邻域像素的滑动窗口；

基于目标步长，在该第二下采样图像上按照该滑动窗口进行滑动采样，得到该像素与该第二下采样图像中的每个像素之间的相关性系数。

在一种可能实施方式中，在该第二下采样图像上按照该滑动窗口进行滑动采样，得到该像素与该第二下采样图像中的每个像素之间的相关性系数包括：

从该第一下采样图像中，确定包含该像素和该像素的多个邻域像素所构成的第一向量；

对任一次滑动采样，从该第二下采样图像中，确定该滑动窗口内包含的目标像素和该目标像素的多个邻域像素所构成的第二向量；

将该第一向量和该第二向量之间的点积确定为该像素和该目标像素之间的相关性系数。

在一种可能实施方式中，基于该中间光流检测信息和中间深度检测信息，获取该图像帧的光流检测信息和深度检测信息包括：

基于该中间光流检测信息、该中间深度检测信息和该第二下采样图像，获取第三下采样图像，该第三下采样图像为基于该图像帧的上一帧预测得到与该采样倍率对应的下采样图像；

对该第三下采样图像进行上采样，得到目标采样倍率对应的上采样图像，该目标采样倍率在该多个采样倍率中小于且最接近该采样倍率；

对该上采样图像和该图像帧对应的图像集中与该目标采样倍率对应的下采样图像，迭代执行该获取中间光流检测信息和中间深度检测信息的步骤；

在任一次迭代过程中，在得到的上采样图像的尺寸与该图像帧的尺寸相同时，输出基于该上采样图像和该图像帧获取得到的该光流检测信息和深度检测信息。

在一种可能实施方式中，对该多个图像帧分别进行下采样，得到对应的多个图像集包括：

对该多个图像帧中的每个图像帧，将该图像帧输入到串联的多个卷积层中，通过该多个卷积层对该图像帧进行卷积处理，得到多个下采样图像，其中，每个下采样图像均为一个卷积层输出的特征图；

将该图像帧和该多个下采样图像确定为该图像帧对应的图像集。

在一种可能实施方式中，该目标摄像头为车载摄像头，该多个图像帧为该车载摄像头录制的视频流中连续的多个视频帧。

上述所有可选技术方案，能够采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图3是本申请实施例提供的一种图像处理方法的流程图。参见图3，该实施例由电子设备执行，该电子设备为上述实施环境中的终端或服务器，可选地，由终端侧采集到各个图像帧之后进行场景流分析，可选地，终端侧采集到各个图像帧之后将各个图像帧发送给服务器，服务器对各个图像帧进行场景流分析后，向终端返回光流检测信息和深度检测信息。在本申请实施例中，以电子设备为终端为例进行说明，该实施例包括下述步骤：

301、终端获取目标摄像头采集的多个图像帧，该多个图像帧具有时序上的关联关系。

终端是指支持对具有时序相关性的图像帧进行场景流分析的任一电子设备，终端的设备类型包括：车载终端、智能手机、平板电脑、智能手表、智能音箱、膝上型便携计算机、台式计算机等，本申请实施例不对终端的设备类型进行具体限定。

可选地，该目标摄像头是指终端上安装的任一摄像头，该目标摄像头包括单目摄像头或者双目摄像头，本申请实施例既支持对单目图像进行场景流分析，也支持对双目图像进行场景流分析。

可选地，该目标摄像头并非本终端安装的，而是采集设备上安装的摄像头，采集设备通过摄像头采集到该多个图像帧之后，将该多个图像帧发给终端进行场景流分析，即，本申请实施例不对该目标摄像头是否安装在处理图像的终端上进行具体限定。

在一些实施例中，终端响应于拍摄指令，通过API(Application ProgrammingInterface，应用程序接口)调用该目标摄像头采集得到视频流，基于该视频流中具有采集时间先后顺序的视频帧序列，获取该多个图像帧，例如，将该视频帧序列中的所有视频帧确定为该多个图像帧，又例如，在该视频帧序列中每间隔预设数量采样一个视频帧作为图像帧，连续多次采样后最终得到该多个图像帧，又例如，将该视频帧序列中的各个关键帧确定为该多个图像帧，又例如，对该视频帧序列中的各个视频帧进行对象识别(即目标检测，检测视频帧中是否包含目标对象，例如目标对象是障碍物)，将包含目标对象的各个视频帧确定为该多个图像帧，本申请实施例不对该多个图像帧的获取方式进行具体限定。

在上述过程中，该多个图像帧一定具有时序上的关联关系(具有时序关联性)，可视为一个时间序列，只有在保证该多个图像帧具有时序关联性的情况下，才能够进行场景流分析，即通过对任意两个相邻的图像帧进行场景流分析，并以此类推，能够得到一个时间段内图像帧中所包含对象的运动情况(如运动方向、运动速率等)。

在一个示例性场景中，该终端为车载终端，该目标摄像头为车载摄像头，那么该多个图像帧为该车载摄像头录制的视频流中连续的多个视频帧，例如，从T＝0时刻开始录制，当前时刻为T＝t时刻，那么该车载摄像头所录制的视频流中的该多个图像帧表示为：[I₀，I₁，…，I_t-1，I_t]。

302、终端对该多个图像帧分别进行下采样，得到对应的多个图像集，每个图像集中包括对应的图像帧和基于该图像帧以多个采样倍率下采样得到的多个下采样图像。

其中，该多个图像集中的每个图像集包括对应的图像帧和基于该图像帧以不同采样倍数下采样得到的多个下采样图像，其中，该下采样图像的尺寸与采样倍数呈负相关，也即，采样倍率越大则下采样图像的尺寸越小，采样倍率越小则下采样图像的尺寸越大，并且，由于下采样过程中会缩小分辨率，因此该下采样图像的尺寸小于该图像帧的尺寸。

在一些实施例中，该多个采样倍率是指一系列从小到大排列的倍率，例如，每个采样倍率都是上一个采样倍率的2倍，比如该多个采样倍率依次为：2，4， 8，16…，此时采样倍率为2的下采样图像是对原始的图像帧进行2倍下采样所得的图像，采样倍率为4的下采样图像是对采样倍率为2的下采样图像进行2 倍下采样所得的图像，以此类推，可层级递进式地得到一系列尺寸逐渐缩小的下采样图像，将原始的图像帧和下采样得到的各个图像确定为该图像帧对应的图像集，这一图像集也即构成了该图像帧在尺度空间中的一系列不同尺度的特征，由于在下采样过程中图像的尺寸是呈逐级缩小的变化趋势，类似于一种金字塔结构，因此该图像集也称为对应图像帧的金字塔特征。

可选地，在对每个图像帧获取对应的图像集时，采取高斯金字塔、拉普拉斯金字塔、DOG金字塔(Difference of Gaussian，差分金字塔)等金字塔特征提取算法，或者，也可采取卷积(Convolution)、池化(Pooling)等方式进行逐级下采样，本申请实施例对此不进行具体限定。

在一些实施例中，以卷积方式进行下采样为例进行说明，对该多个图像帧中的每个图像帧，将该图像帧输入到串联的多个卷积层中，通过该多个卷积层对该图像帧进行卷积处理，得到多个下采样图像，其中，每个下采样图像均为一个卷积层输出的特征图；将该图像帧和该多个下采样图像确定为该图像帧对应的图像集。其中，该多个卷积层的数量可以为大于或等于1的数值，例如，该多个卷积层的数量为6。

在上述过程中，通过以卷积方式进行下采样，既能够改变图像尺寸，还能够加深所得特征图(即下采样图像)的通道数，即在下采样过程中还提取到深层次的金字塔特征，由于使得基于该图像帧下采样得到的图像都是每个卷积层所输出的特征图，从而提升了每个图像集中所包括对应的图像帧和基于该图像帧下采样得到的图像的表达能力。

图4是本申请实施例提供的一种卷积操作的原理性示意图，如图4所示，左侧部分的是原始的图像帧401，右侧部分的是卷积得到的特征图即下采样图像 402，下采样图像402中的第一个像素“4”是由原始的图像帧401中左上角一个3×3的像素矩阵与一个3×3的卷积核进行按元素相乘后再求和所得的数值，即，图像帧401中阴影部分方格中间的数字代表了像素值，阴影部分方格角标的数字代表了对应的卷积核系数，将每个阴影部分方格中间的数字与角标的数字相乘，将各个阴影部分方格相乘得到的数值再求和，即可得到下采样图像402 中的第一个像素“4”，换言之：4＝(1×1)+(1×0)+(1×1)+(0×0)+(1 ×1)+(1×0)+(0×1)+(0×0)+(1×1)。

303、终端对该多个图像帧中的任一图像帧，从该图像帧对应的图像集中，从最大的采样倍率开始，获取该采样倍率对应的第一下采样图像。

在一些实施例中，由于对每个图像帧，都能够基于本图像帧对应的图像集和本图像帧的上一帧对应的图像集，最终获取到该图像帧的光流检测信息和深度检测信息，其中，该光流检测信息用于表征该图像帧和上一帧之间同一对象的运动情况，该深度检测信息用于表征该图像帧中的对象与该目标摄像头的距离，因此，在本申请实施例中，以任一图像帧为例，介绍本图像帧的光流检测信息和深度检测信息的获取方式。

例如，对多个图像帧[I₀，I₁，…，I_t-1，I_t]中的每个图像帧，都逐级进行了6 次下采样，得到6个下采样图像(比如输入到6个卷积层中，每个卷积层输出一张特征图即下采样图像)，那么每个图像帧和对应的6个下采样图像可构成本图像帧的图像集。以对T＝t即当前时刻的图像帧I_t进行场景流分析为例，当前时刻的图像帧I_t的图像集中包括：{I_t，I_t ¹，I_t ²，I_t ³，I_t ⁴，I_t ⁵，I_t ⁶}，其中I_t的上标表示对应下采样图像在该图像集中所处的尺度层数，尺度层数越大对应下采样图像的采样倍率越大、尺寸越小。

在本申请实施例中的步骤303-308是一个迭代执行的循环过程，这一迭代过程的第一次迭代是从最大的采样倍率对应的下采样图像开始的，即第一次迭代是从尺寸最小的下采样图像开始的，由于在场景流分析时需要参考当前时刻的图像帧I_t和上一时刻的图像帧(即上一帧)I_t-1各自的像素，并且还需要保证两者处于同一尺度空间内(即尺度相同，代表了尺寸、采样倍率均相同)，因此为了便于区分，将当前时刻的图像帧I_t的图像集中的下采样图像称为第一下采样图像，将上一帧I_t-1的图像集中的下采样图像称为第二下采样图像。

304、终端从该图像帧的上一帧对应的图像集中，获取该采样倍率对应的第二下采样图像。

上述步骤304也即：终端从上一帧的图像集中，选取与上述步骤303中相同采样倍率对应的第二下采样图像，选取方式与上述步骤303类似，这里不做赘述。

在一个示例性场景中，当进行6次下采样时，当前时刻的图像帧I_t(第t帧) 的图像集中的下采样图像{I_t ¹，I_t ²，I_t ³，I_t ⁴，I_t ⁵，I_t ⁶}称为第一下采样图像，上一帧I_t-1(第t-1帧)的图像集中的下采样图像{I_t-1 ¹，I_t-1 ²，I_t-1 ³，I_t-1 ⁴，I_t-1 ⁵，I_t-1 ⁶}称为第二下采样图像。在第一次迭代过程中，通过上述步骤303从当前时刻的图像帧I_t(第t帧)的图像集中，选取最大的采样倍率对应的第一下采样图像I_t ⁶，通过上述述步骤304从上一帧I_t-1的图像集中，选取最大的采样倍率对应的第二下采样图像I_t-1 ⁶。

在上述步骤303-304中，由于每一次迭代时，都会获取到一个当前帧的第一下采样图像和一个上一帧的第二下采样图像，两者可构成一个具有相同采样倍率(尺寸也相同)的下采样图像对，那么最终在多次迭代时，相当于从该图像帧对应的图像集和该图像帧的上一帧对应的图像集中，确定多个采样倍率各自对应的下采样图像对。

305、终端基于该第一下采样图像和该第二下采样图像，获取相关性矩阵，该相关性矩阵用于表征该图像帧和该图像帧的上一帧在该采样倍率下的像素关联程度。

在获取相关性矩阵时，由于目标摄像头可以是单目摄像头或者双目摄像头，因此在本申请实施例中将分别针对单目情况和双目情况进行讨论。接下来，先介绍单目情况下相关性矩阵的获取方式，单目情况下，目标摄像头每一时刻都采集到的是一个单目的图像帧(相当于只考虑左目图像)，因此只需要基于该第一下采样图像和该第二下采样图像计算出一个相关性矩阵即可。

在一些实施例中，终端通过下述方式获取相关性矩阵：对该第一下采样图像中的每个像素，确定包含该像素和该像素的多个邻域像素的滑动窗口；基于目标步长，在该第二下采样图像上按照该滑动窗口进行滑动采样，得到该像素与该第二下采样图像中的每个像素之间的相关性系数。

在上述过程中，由于传统场景流分析时，都使用的是动态链接库中封装好的相关性矩阵的计算策略，但是都依赖于动态链接库，计算速度慢、计算效率低，并且在使用时常常由于环境或安装不当，导致计算策略无法运行。而通过上述滑动采样方式，对该第一下采样图像中的每个像素，都通过计算与该第二下采样图像中的每个像素之间的相关性系数，使得相关性系数最大的两个像素代表着最有可能是从上一帧运动到当前帧的像素，从而能够反映出当前帧和上一帧之间的像素关联程度。

可选地，对该第一下采样图像中的每个像素，终端根据预设的滑动窗口尺寸，以该像素作为滑动窗口的中心点，确定符合该滑动窗口尺寸的多个邻域像素，从而获取到了包含该像素和该像素的多个邻域像素的滑动窗口。

可选地，在进行滑动采样时，首先固定第一下采样图像中的滑动窗口不变，从从该第一下采样图像中，能够确定出包含该像素和该像素的多个邻域像素所构成的第一向量(第一向量在滑动采样时不发生改变)，接着，使用相同尺寸的滑动窗口，在第二下采样图像中按照该目标步长进行移动，例如从左上角开始，或者从右下角开始，本申请实施例不对滑动采样的起点进行具体限定，只要保证滑动窗口对该第二下采样图像中的每个像素都遍历过一次即可。

可选地，对任一次滑动采样，终端从该第二下采样图像中，确定该滑动窗口内包含的目标像素和该目标像素的多个邻域像素所构成的第二向量，其中，目标像素是指第二下采样图像中本次滑动窗口所处位置的中心点的像素，目标像素的邻域像素的确定方式与该像素的领域像素的确定方式类似，第二向量的确定方式与第一向量的确定方式也类似，本申请实施例不对不进行具体限定。

可选地，在获取到第一向量和第二向量之后，将该第一向量和该第二向量之间的点积确定为该像素和该目标像素之间的相关性系数，由于当两个向量越相似的时候，两个向量的点积就越接近于1，当两个向量越不相似的时候，两个向量的点积就越接近于0，因此，通过计算该像素及其邻域像素所确定的第一向量和目标像素及其邻域像素所确定的第二向量之间的点积，能够反映出第一向量和第二向量是否相似，当第一向量和第二向量越相似的时候，代表越有可能是当前帧与上一帧中同一对象由于运动所产生的关联像素(即反映了任意两个像素间的关联程度)，因此可使用第一向量和第二向量的点积作为相关性系数。

对第一下采样图像中的每个像素，都能够获取到一系列的相关性系数，最终第一下采样图像中的所有像素的所有相关性系数即可构成一个相关性矩阵。

在一些实施例中，在上述进行滑动采样时，为了对第二下采样图像的边缘像素信息进行充分利用，对第二下采样图像进行补零(Padding)的方式进行扩展，即，在第二下采样图像的边缘像素的外围填充一圈取值为0的像素，接着对补零后的第二下采样图像进行上述滑动采样，从而对每个边缘像素都能够以外圈填充的取值为0的像素作为邻域像素参与到滑动采样中，这是由于如果不进行补零，那么边缘像素是无法作为滑动窗口的中心点进行滑动采样的，因此会丢失一部分的边缘像素的细节信息，通过补零方式使得边缘像素能够作为滑动窗口的中心点进行滑动采样，从而提高了最终获取的相关性矩阵的准确度。

图5是本申请实施例提供的一种补零方式的原理性示意图，如图5所示，示出了二维方向上的相关性系数计算方式，此时假设第二下采样图像的通道数为1(即第二下采样图像是一张单通道图像，例如黑白图像)，左侧部分代表了原本的第二下采样图像501，右侧部分则代表了对第二下采样图像501的边缘像素填充了一圈取值为0的像素，所得到的补零后的第二下采样图像502，示意性地，采用尺寸为2×2的滑动窗口，以目标步长为1在补零后的第二下采样图像 502上进行滑动采样，最终能够计算出一系列的相关性系数，并构建出相关性矩阵。

图6是本申请实施例提供的一种补零方式的原理性示意图，如图6所示，示出了三维方向上的相关性系数计算方式，此时假设第二下采样图像的通道数为n，n＞1，此时由于原始的图像帧通常是红绿蓝RGB三通道，或者RGB+α (透明度)四通道，经过卷积方式进行下采样之后，虽然图像尺寸会变小，但是图像通道数会变大，即卷积方式提取到的是高层次的深度特效，在这种情况下，多通道的第二下采样图像中的每个通道都能够视为是一张单通道图像，可对每个通道都使用图5所示的二维相关性计算方式，需要说明的是，在对原本的第二下采样图像601进行补零时，每个通道的边缘像素都需要填充一圈取值为0的像素，最终得到了补零后的第二下采样图像602，并且，在进行滑动采样时，需要遍历补零后的第二下采样图像602中所有通道中的所有像素，最终能够计算出一系列更丰富的相关性系数，并构建出相关性矩阵。

在上述过程中，介绍单目情况下的相关性矩阵的获取方式，在双目情况下，该目标摄像头为双目摄像头，那么实际上双目摄像头采集到的每个图像帧都包括一个左目图像和一个右目图像，在对每个图像帧进行下采样时，需要分布对左目图像和右目图像均进行下采样，即，对每个图像帧下采样得到的下采样图像包括一个左目下采样图像和一个右目下采样图像。在此基础上，显然上述步骤303中获取的该第一下采样图像包括第一左目下采样图像和第一右目下采样图像，上述步骤304中获取的该第二下采样图像包括第二左目下采样图像和第二右目下采样图像。

因此，在计算相关性矩阵时，需要利用第一左目下采样图像、第一右目下采样图像、第二左目下采样图像和第二右目下采样图像共4张图像，计算出多个相关性矩阵。

可选地，终端基于该第一左目下采样图像和该第二左目下采样图像，获取第一相关性矩阵，该第一相关性矩阵用于表征该图像帧和该图像帧的上一帧在该采样倍率下的左目图像的像素关联程度；基于该第一左目下采样图像和该第一右目下采样图像，获取第二相关性矩阵，该第二相关性矩阵用于表征该图像帧的左目图像和右目图像在该采样倍率下的视差；基于该第二左目下采样图像和该第二右目下采样图像，获取第三相关性矩阵，该第三相关性矩阵用于表征该图像帧的上一帧的左目图像和右目图像在该采样倍率下的视差；基于该第二相关性矩阵和该第三相关性矩阵，获取第四相关性矩阵，该第四相关性矩阵用于表征该图像帧和该图像帧的上一帧在该采样倍率下的视差关联程度。

上述第一相关性矩阵、第二相关性矩阵、第三相关性矩阵和第四相关性矩阵的计算方式，均与单目情况下单个相关性矩阵的计算方式类似，这里不做赘述。

在上述过程中，通过对单目情况和双目情况分别介绍，使得本申请实施例提供的图像处理方法，能够适用于单目摄像头、双目摄像头等不同情况，具有很高的可移植性和普适性。并且，由于在计算相关性矩阵时，并不需要依赖于动态链接库或静态链接库中封装的固定策略，而是能够以函数形式来实现，函数能够直接使用，而无需依赖某种特定环境，不存在版本不匹配、不适用的问题，能够提高相关性矩阵的计算效率，提高最终预测的光流检测信息和深度检测信息的准确度，而且泛用性、可移植性很高。

306、终端基于该相关性矩阵，获取中间光流检测信息和中间深度检测信息。

其中，该中间光流检测信息用于表征该图像帧和上一帧之间同一对象在该采样倍率下的运动情况，该深度检测信息用于表征该图像帧中的对象与该目标摄像头在该采样倍率下的距离。

在一些实施例中，终端将该相关性矩阵输入到一个估算器(Estimator)中，通过该估算器对该相关性矩阵进行映射变换，获取到该中间光流检测信息和中间深度检测信息，例如，对该第一下采样图像中的每个像素，基于该相关性矩阵，确定出与该像素之间的相关性系数最大的第一像素，从而将该像素和该第一像素视为一对具有运动关系的关联像素，例如，对目标摄像头所感知到的三维空间中的目标对象(包括人体、物体等实体，如障碍物、车辆、行人等)，在 T＝t-1时刻该目标对象上的三维空间点投影到了第t-1帧(上一帧)中的第一像素，由于目标对象在三维空间中发生了运动，导致T＝t时刻该目标对象上的同一三维空间点的投影到了第t帧(当前帧)中的该像素。基于该第一下采样图像中的每个像素和对应的第一像素，能够确定出一个中间光流检测信息，中间光流检测信息反映的是在本次迭代的采样倍率下的光流检测信息，但需要经过多次迭代逐渐缩小采样倍率、放大图像尺寸，直到在与原始的图像帧尺寸相同的尺度空间中，输出在该尺度空间中的最终光流检测信息。

示意性地，该中间光流检测信息是一张光流检测图，光流检测图中的每个像素代表了该第一下采样图像中对应位置的像素在哪个方向的移动以及对应的移动量，也即，从第一像素到该像素是往哪个方向移动的以及在该方向上具体移动了多少移动量，图7是本申请实施例提供的一种标准光流参数图，如图7 所示，图7中的不同方向的像素使用色谱图中不同颜色的上色，从而，对该第一下采样图像中的每个像素，在确定了在第二下采样图像中相关性系数最大的第一像素之后，基于从该第一像素到该像素所确定的位移矢量的位移方向和位移距离，在图7的标准光流参数图中进行采样，将对应的采样点在该标准光流参数图中颜色值，赋值给光流检测图中对应位置的像素，例如，如果从该第一像素到该像素的位移方向是左上方，那么将采样该标准光流参数图中左上方对应的采样点的颜色值(例如是浅蓝色)，并将该采样点的颜色值赋值给光流检测图中对应位置的像素，即最终光流检测图中对应位置的像素呈浅蓝色。需要说明的是，图4仅是一种标准光流参数图的示例性说明，可对标准光流参数图配置不同的可视化方式，在不同的可视化方式下，即使是同一方向的运动，其采样到的颜色值也会有所不同，本申请实施例对此不进行具体限定。

在一些实施例中，基于该第一下采样图像中的每个像素和对应的第一像素，除了获取中间光流检测信息之外，还能够获取中间深度检测信息，例如，该中间深度检测信息是一张深度检测图，可选地，该像素和该第一像素之间的亮度变化值能够反映出目标对象相对于观测点(即目标摄像头)之间的深度变化即距离变化，因此将各个像素和对应的第一像素之间的亮度变化值赋值到给深度检测图中与各个像素对应位置的像素，从而最终得到一张在当前的采样倍率下的深度检测图。

由于步骤305-308是一个迭代过程，因此终端基于每个尺度空间下的下采样图像对，都能够获取到中间光流检测信息和中间深度检测信息。

307、终端基于该中间光流检测信息、该中间深度检测信息和该第二下采样图像，获取第三下采样图像，该第三下采样图像为基于该图像帧的上一帧预测得到与该采样倍率对应的下采样图像。

在一些实施例中，终端基于该中间光流检测信息和该中间深度检测信息，对该第二下采样图像进行非线性映射，得到一张第三下采样图像，由于该中间光流检测信息反映的是从上一帧到当前帧之间的光流运动信息，而中间深度检测信息反映的是从上一帧到当前帧之间的深度变化信息，因此，基于该光流运动信息和该深度变化信息，可在第二下采样图像的基础上，预测同一采样倍率下的当前帧的第三下采样图像，即在同一采样倍率下，第一下采样图像是当前帧实际的下采样图像，而第三下采样图像是基于上一帧对当前帧预测得到的下采样图像。比如，对第二下采样图像中的每个像素，按照中间光流检测信息所指示的位移矢量进行移动，并对亮度值按照中间深度检测信息所指示的亮度变化值进行改变，重复执行上述操作能够预测得到对当前帧(第t帧)预估的第三下采样图像，需要说明的是，第三下采样图像是迭代过程中预测的，但并非是目标摄像头实际采集的。上述非线性映射过程可视为对第二下采样图像进行仿射变换，得到对应的第三下采样图像。

在一些实施例中，终端将该第二下采样图像、该中间光流检测信息和该中间深度检测信息输入到一个仿射变换(warp)层中，通过该warp层来预测该第三下采样图像，并且，可将上述步骤302中的多个卷积层(下采样部分)、上述步骤305中计算相关性矩阵的模块(视为一个相关层)、上述步骤306中的光流分析和深度检测模块(即估算器)、以及本步骤307中的warp层构建一个整体的深度学习模型，从而对该深度学习模型的各个部分一起进行训练，能够简化训练流程。当然，也可对上述各个部分单独进行训练，本申请实施例对此不进行具体限定。

308、终端对该第三下采样图像进行上采样，得到目标采样倍率对应的上采样图像，该目标采样倍率在该多个采样倍率中小于且最接近该采样倍率。

在一些实施例中，终端对第三下采样图像进行上采样，上采样的方式包括但不限于：反卷积(Transposed Convolution，又称为转置卷积)、上池化(Unp ooling)、最近邻插值法、双线性插值法(Bilinear interpolation)、双三次插值法 (Bicubicinterpolation)等，本申请实施例不对上采样方式进行具体限定。

在一些实施例中，由于上述步骤302中示出了以卷积方式进行多次下采样，因此在上采样时，可基于与本次迭代中选取的采样倍率对应的卷积层，使用该卷积层所对应的反卷积层来进行上采样，使得在将该第三下采样图像输入到反卷积层中之后，输出的上采样图像恰好与该目标采样倍率对应的卷积层所输出的下采样图像的尺寸相同，相当于每次迭代时进行上采样是对应目标采样倍率的下采样的逆过程。

在一些实施例中，可使用神经网络来进行上采样，比如，利用Refine Net 来实现对第三下采样图像的上采样过程，获取其他能够进行上采样的神经网络，本申请实施例不对此进行具体限定。

例如，在第一次迭代过程中，通过上述步骤303从当前时刻的图像帧I_t(第 t帧)的图像集中，选取最大的采样倍率对应的第一下采样图像I_t ⁶，通过上述步骤304从上一帧I_t-1的图像集中，选取最大的采样倍率对应的第二下采样图像I_t-1 ⁶。对第二下采样图像I_t-1 ⁶，利用中间光流检测信息和中间深度检测信息，生成了一张对当前帧I’_t ⁶(第t帧)预测得到的第三下采样图像，接着，对该第三下采样图像I’_t ⁶进行反卷积，得到一个上采样图像I’_t ⁵，这样就从尺度层数6切换到了尺度层数5，接着在下述步骤309中，会在该尺度层数5的尺度空间下，利用该上采样图像I’_t ⁵和对应的当前帧的下采样图像I_t ⁵，分别作为下一轮迭代中的第一下采样图像和第二下采样图像，迭代执行上述步骤305-308。即，在第一轮迭代中，使用上一帧在最大采样倍率下的下采样图像作为第二下采样图像，在后续除了第一次以外的每一次迭代(即第二次和第二次以上的各次迭代)中，则使用当前帧在对应采样倍率下的下采样图像作为第二下采样图像。

上述过程中，在当前尺度空间下预测得到的第三下采样图像，在经过上采样之后所得的上采样图像切换到了上一层的尺度空间，针对上一层的尺度空间，针对生成的当前帧上采样图像和实际采集的当前帧第一下采样图像，两者比较能够对模型提供一个自监督信号，以提升模型的预测准确度。

图8是本申请实施例提供的一种场景流分析模型的架构示意图，如图8所示，该场景流分析模型是一种深度学习模型的示例性说明，在场景流分析模型中，包括下采样模块801、相关性匹配模块802、光流分析和深度检测模块803、 warp仿射变换模块804以及上采样模块805，在目标摄像头为双目摄像头的情况下，假设当前时刻的图像帧为第2帧，上一帧则是第1帧，输入图像包括：第1帧的左目图像L₁和右目图像R₁，第2帧的左目图像L₂和右目图像R₂，将 L₁、R₁、L₂和R₂共4张图像输入到下采样模块801中进行一系列的下采样，得到4张图像各自对应的4个图像集。在任一次迭代过程中，在同一尺度空间下，对L₁和L₂对应的下采样图像对提取第一相关性矩阵，对L₂和R₂对应的下采样图像对提取第二相关性矩阵，对L₁和R₁对应的下采样图像对提取第三相关性矩阵，利用第二相关性矩阵和第三相关性矩阵，提取第四相关性矩阵，即，在相关性匹配模块802中，计算出4个相关性矩阵，将这4个相关性矩阵输入到光流分析和深度检测模块803中，提取出中间光流检测信息F₂ ^K和中间深度检测信息D₂ ^K，其中，K代表当前的尺度空间的尺度层数。接着，将中间光流检测信息 F₂ ^K和中间深度检测信息D₂ ^K以及原本的第1帧的左目图像L₁和右目图像R₁对应的下采样图像输入到warp仿射变换模块804中，预测第2帧的左目下采样图像和右目下采样图像，接着将warp仿射变换模块804预测得到的左目下采样图像和右目下采样图像输入到上采样模块805中，预测到一张左目上采样图像和右目上采样图像，可投入到新一轮尺度空间对应的迭代过程中。

309、终端对该上采样图像和该图像帧对应的图像集中与该目标采样倍率对应的下采样图像，迭代执行上述步骤305-308，直到得到的上采样图像的尺寸与该图像帧的尺寸相同，输出基于该上采样图像和该图像帧获取得到的光流检测信息和深度检测信息。

在上述步骤309中，该上采样图像相当于下一轮迭代过程中的第一下采样图像，该图像帧对应的图像集中与该目标采样倍率对应的下采样图像相当于下一轮迭代过程中的第二下采样图像，因此迭代执行与上述步骤305-308类似的操作，能够不断进行上采样，由于在上采样过程中会放大图像尺寸，相当于从最小的尺度空间开始，逐级迭代更新中间光流检测信息和中间深度检测信息，同时放大图像尺寸以切换到更大的尺度空间，因此，在最高层即最大的尺寸空间 (就原始的图像帧的尺寸对应的尺度空间)下，所得获取的中间光流检测信息和中间深度检测信息，就是最终的该图像帧的光流检测信息和深度检测信息。

换言之，通过迭代执行该获取中间光流检测信息和中间深度检测信息的步骤，能够综合不同尺度空间下的光流运动信息和深度变化信息，最终在该图像帧所处的最高层尺度空间下输出最终的光流检测信息和深度检测信息。也即是说，基于每次迭代所获取到的该中间光流检测信息和中间深度检测信息，能够指导中间光流检测信息和中间深度检测信息不断进行调整和修正，从而使得获取到的该图像帧的光流检测信息和深度检测信息具有更高的准确度。

在上述步骤303-309中，指导基于该图像帧对应的图像集和该图像帧的上一帧对应的图像集，获取该图像帧的光流检测信息和深度检测信息，其中，该光流检测信息用于表征该图像帧和上一帧之间同一对象的运动情况，该深度检测信息用于表征该图像帧中的对象与该目标摄像头的距离，由于综合了基于图像帧下采样得到的图像中蕴含的光流运动信息和深度变化信息，使得光流检测信息和深度检测信息具有更高的准确性。

本申请实施例提供的方法，通过对目标摄像头采集的图像帧进行下采样，得到了一系列尺度空间下的图像所构成的图像集，利用图像集中不同尺度空间下的图像来综合预测当前的图像帧的光流检测信息和深度检测信息，能够使用图像集中层级式的金字塔特征，使得光流检测信息和深度检测信息所包含的细节更加丰富，从而提高了光流检测信息和深度检测信息的准确度，也即提高了场景流分析的准确度，并且，通过光流检测信息和深度检测信息能够预测更加复杂的三维场景流。

图9是本申请实施例提供的一种图像处理方法的原理性流程图，如图9所示，该实施例包括下述流程：

步骤一、输入连续的多个图像帧。

步骤二、对该多个图像帧进行下采样，得到对应的多个图像集，每个图像集用于表征对应图像帧的金字塔特征，即，分层提取图像金字塔特征。

步骤三、计算特征相关度，即在单次迭代时，对本次迭代对应层级尺度下的相邻图像帧的下采样图像对，计算相似性矩阵。

步骤四、匹配过程，即对当前帧中的每个像素，在上一帧中寻找相似性系数最大的第一像素。

步骤五、利用估算器，根据步骤四的匹配结果，获取中间光流检测信息和中间深度检测信息。

步骤六、基于步骤五输出的中间光流检测信息和中间深度检测信息，对步骤二中的分层图像金字塔特征中本次迭代对应层级尺度下的原始的下采样图像 (第二下采样图像)的仿射变换过程进行指导，生成新的下采样图像(第三下采样图像)。

其中，在第一次迭代中，第二下采样图像取上一帧(第t-1帧)对应尺度空间的下采样图像，在第二次及第二次以上的任一次迭代中，第二下采样图像取当前帧(第t帧)对应尺度空间的下采样图像。

步骤七、对步骤六生成的新的下采样图像进行上采样，得到上采样图像。

步骤八、将步骤七得到的上采样图像和步骤二中与上一层级尺度下的下采样图像计算特征相关度，即返回步骤三。

步骤九、在最高层即尺寸最大的尺度空间下，输出本尺度空间下步骤六中计算的光流检测信息和深度检测信息。

在本申请实施例总，结合了深度学习框架以及深度预测，能够预测更加复杂的三维场景流，丰富了像素的运动信息，并且由于使用了多尺度空间的图像金字塔特征来进行深度学习，使用了层结构增大了感受野，能够减少相似像素对光流检测信息和深度检测信息的干扰，提高了光流检测信息和深度检测信息的准确性。

图10是本申请实施例提供的一种图像处理装置的结构示意图，请参考图10，该装置包括：

第一获取模块1001，用于获取目标摄像头采集的多个图像帧，该多个图像帧具有时序上的关联关系；

下采样模块1002，用于对该多个图像帧分别进行下采样，得到对应的多个图像集，每个图像集中包括对应的图像帧和基于该图像帧下采样得到的图像；

第二获取模块1003，用于对该多个图像帧中的任一图像帧，基于该图像帧对应的图像集和该图像帧的上一帧对应的图像集，获取该图像帧的光流检测信息和深度检测信息，该光流检测信息用于表征该图像帧和上一帧之间同一对象的运动情况，该深度检测信息用于表征该图像帧中的对象与该目标摄像头的距离。

本申请实施例提供的装置，通过对目标摄像头采集的图像帧进行下采样，得到了一系列尺度空间下的图像所构成的图像集，利用图像集中不同尺度空间下的图像来综合预测当前的图像帧的光流检测信息和深度检测信息，能够使用图像集中层级式的金字塔特征，使得光流检测信息和深度检测信息所包含的细节更加丰富，从而提高了光流检测信息和深度检测信息的准确度，也即提高了场景流分析的准确度。

在一种可能实施方式中，基于图10的装置组成，该第二获取模块1003包括：

确定子模块，用于从该图像帧对应的图像集和该图像帧的上一帧对应的图像集中，确定多个采样倍率各自对应的下采样图像对；

第一获取子模块，用于基于每个该下采样图像对，获取中间光流检测信息和中间深度检测信息；

第二获取子模块，用于基于该中间光流检测信息和中间深度检测信息，获取该图像帧的光流检测信息和深度检测信息。

在一种可能实施方式中，基于图10的装置组成，该第一获取子模块包括：

第一获取单元，用于对任一采样倍率，从该图像帧对应的图像集中，获取该采样倍率对应的第一下采样图像；

该第一获取单元，还用于从该图像帧的上一帧对应的图像集中，获取该采样倍率对应的第二下采样图像；

第二获取单元，用于基于该第一下采样图像和该第二下采样图像，获取相关性矩阵，该相关性矩阵用于表征该图像帧和该图像帧的上一帧在该采样倍率下的像素关联程度；

第三获取单元，用于基于该相关性矩阵，获取该中间光流检测信息和中间深度检测信息。

该第二获取单元用于：

在一种可能实施方式中，基于图10的装置组成，该第二获取单元包括：

确定子单元，用于对该第一下采样图像中的每个像素，确定包含该像素和该像素的多个邻域像素的滑动窗口；

采样子单元，用于基于目标步长，在该第二下采样图像上按照该滑动窗口进行滑动采样，得到该像素与该第二下采样图像中的每个像素之间的相关性系数。

在一种可能实施方式中，该采样子单元用于：

在一种可能实施方式中，该第二获取子模块用于：

在一种可能实施方式中，该下采样模块1002用于：

需要说明的是：上述实施例提供的图像处理装置在处理图像帧时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见图像处理方法实施例，这里不再赘述。

图11是本申请实施例提供的一种终端的结构示意图，如图11所示，该终端1100是电子设备的一种示例性说明。可选地，该终端1100的设备类型包括：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1100包括有：处理器1101和存储器1102。

可选地，处理器1101包括一个或多个处理核心，比如4核心处理器、8核心处理器等。可选地，处理器1101采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA (Programmable LogicArray，可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中，处理器1101包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

在一些实施例中，存储器1102包括一个或多个计算机可读存储介质，可选地，该计算机可读存储介质是非暂态的。可选地，存储器1102还包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1101所执行以实现本申请中各个实施例提供的图像处理方法。

在一些实施例中，终端1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间能够通过总线或信号线相连。各个外围设备能够通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。可选地，射频电路1104通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、 4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。可选地，该UI包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号能够作为控制信号输入至处理器1101进行处理。可选地，显示屏1105 还用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105为一个，设置终端1100的前面板；在另一些实施例中，显示屏1105 为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在再一些实施例中，显示屏1105是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，可选地，显示屏1105设置成非矩形的不规则图形，也即异形屏。可选地，显示屏1105采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还包括闪光灯。可选地，闪光灯是单色温闪光灯，或者是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，用于不同色温下的光线补偿。

在一些实施例中，音频电路1107包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风为多个，分别设置在终端1100的不同部位。可选地，麦克风是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。可选地，扬声器是传统的薄膜扬声器，或者是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅能够将电信号转换为人类可听见的声波，也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还包括耳机插孔。

定位组件1108用于定位终端1100的当前地理位置，以实现导航或LBS (LocationBased Service，基于位置的服务)。可选地，定位组件1108是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1109用于为终端1100中的各个组件进行供电。可选地，电源1109是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池支持有线充电或无线充电。该可充电电池还用于支持快充技术。

在一些实施例中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、光学传感器1114以及接近传感器1115。

在一些实施例中，加速度传感器1111检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111用于检测重力加速度在三个坐标轴上的分量。可选地，处理器1101根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还用于游戏或者用户的运动数据的采集。

在一些实施例中，陀螺仪传感器1112检测终端1100的机体方向及转动角度，陀螺仪传感器1112与加速度传感器1111协同采集用户对终端1100的3D 动作。处理器1101根据陀螺仪传感器1112采集的数据，实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

可选地，压力传感器1113设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，能够检测用户对终端1100 的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器 1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1114用于采集环境光强度。在一个实施例中，处理器1101根据光学传感器1114采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还根据光学传感器1114采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1115，也称距离传感器，通常设置在终端1100的前面板。接近传感器1115用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1115检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1115 检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员能够理解，图11中示出的结构并不构成对终端1100的限定，能够包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图12是本申请实施例提供的一种电子设备的结构示意图，该电子设备1200 可因配置或性能不同而产生比较大的差异，该电子设备1200包括一个或一个以上处理器(Central Processing Units，CPU)1201和一个或一个以上的存储器1202，其中，该存储器1202中存储有至少一条计算机程序，该至少一条计算机程序由该一个或一个以上处理器1201加载并执行以实现上述各个实施例提供的图像处理方法。可选地，该电子设备1200还具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备1200还包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条计算机程序的存储器，上述至少一条计算机程序可由终端中的处理器执行以完成上述各个实施例中的图像处理方法。例如，该计算机可读存储介质包括ROM (Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，包括一条或多条程序代码，该一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码，该一个或多个处理器执行该一条或多条程序代码，使得电子设备能够执行以完成上述实施例中的图像处理方法。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来指令相关的硬件完成，可选地，该程序存储于一种计算机可读存储介质中，可选地，上述提到的存储介质是只读存储器、磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述多个图像集中的每个图像集包括对应的图像帧和基于所述图像帧以不同采样倍数下采样得到的多个下采样图像，其中，所述下采样图像的尺寸与采样倍数呈负相关，且所述下采样图像的尺寸小于所述图像帧的尺寸。

3.根据权利要求2所述的方法，其特征在于，所述基于所述图像帧对应的图像集和所述图像帧的上一帧对应的图像集，获取所述图像帧的光流检测信息和深度检测信息包括：

4.根据权利要求3所述的方法，其特征在于，所述基于每个所述下采样图像对，获取中间光流检测信息和中间深度检测信息包括：

5.根据权利要求4所述的方法，其特征在于，所述目标摄像头为双目摄像头，所述图像帧包括左目图像和右目图像，所述第一下采样图像包括第一左目下采样图像和第一右目下采样图像，所述第二下采样图像包括第二左目下采样图像和第二右目下采样图像；

6.根据权利要求4所述的方法，其特征在于，所述基于所述第一下采样图像和所述第二下采样图像，获取相关性矩阵包括：

7.根据权利要求6所述的方法，其特征在于，所述在所述第二下采样图像上按照所述滑动窗口进行滑动采样，得到所述像素与所述第二下采样图像中的每个像素之间的相关性系数包括：

8.根据权利要求3所述的方法，其特征在于，所述基于所述中间光流检测信息和中间深度检测信息，获取所述图像帧的光流检测信息和深度检测信息包括：

9.根据权利要求1所述的方法，其特征在于，所述对所述多个图像帧分别进行下采样，得到对应的多个图像集包括：

10.根据权利要求1所述的方法，其特征在于，所述目标摄像头为车载摄像头，所述多个图像帧为所述车载摄像头录制的视频流中连续的多个视频帧。

11.一种图像处理装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述多个图像集中的每个图像集包括对应的图像帧和基于所述图像帧以不同采样倍数下采样得到的多个下采样图像，其中，所述下采样图像的尺寸与采样倍数呈负相关，且所述下采样图像的尺寸小于所述图像帧的尺寸。

13.根据权利要求12所述的装置，其特征在于，所述第二获取模块包括：

14.根据权利要求13所述的装置，其特征在于，所述第一获取子模块包括：

15.根据权利要求14所述的装置，其特征在于，所述目标摄像头为双目摄像头，所述图像帧包括左目图像和右目图像，所述第一下采样图像包括第一左目下采样图像和第一右目下采样图像，所述第二下采样图像包括第二左目下采样图像和第二右目下采样图像；

所述第二获取单元用于：

16.根据权利要求14所述的装置，其特征在于，所述第二获取单元包括：

17.根据权利要求16所述的装置，其特征在于，所述采样子单元用于：

18.根据权利要求13所述的装置，其特征在于，所述第二获取子模块用于：

19.根据权利要求11所述的装置，其特征在于，所述下采样模块用于：

20.根据权利要求11所述的装置，其特征在于，所述目标摄像头为车载摄像头，所述多个图像帧为所述车载摄像头录制的视频流中连续的多个视频帧。

21.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的图像处理方法。

22.一种存储介质，其特征在于，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的图像处理方法。

23.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的图像处理方法。