CN113643342B

CN113643342B - 一种图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN113643342B
Application number: CN202010346467.7A
Authority: CN
Inventors: 陈天
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2023-11-14
Anticipated expiration: 2040-04-27
Also published as: JP2023512272A; CN113643342A; WO2021218201A1; US20220414908A1

Abstract

本公开关于一种图像处理方法、装置、电子设备及存储介质，用以获取采集到的视频中图像的深度图像。本公开实施例确定采集到的视频中当前帧图像对应的初始深度图像；以及根据当前帧图像对应的位姿偏移信息和上一帧图像，确定当前帧图像对应的预测深度图像；将相同位置的像素点的初始深度值、以及预测深度值进行融合处理，得到像素点对应的目标深度值；根据当前帧图像中像素点对应的目标深度值，生成当前帧图像对应的深度图像。本公开实施例提供的图像处理方法，可以结合上一帧图像修正卷积神经网络输出的当前帧图像的深度图像，得到帧间稳定性更高的深度图像。

Description

一种图像处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

混合现实技术(MR)是增强现实技术(AR)的进一步发展，该技术通过在虚拟环境中引入现实场景信息，在虚拟世界、现实世界和用户之间搭起一个交互反馈的信息回路，以增强用户体验的真实感。

在MR技术实现过程中，为更好的处理虚拟世界中的虚拟对象与现实世界的现实对象之间的位置关系，需要对智能终端采集到的视频中的每帧图像进行深度估计，获取具有稠密深度特征的深度图像。因此，如何获取采集到的视频中图像的深度图像成为一个亟待解决的问题。

发明内容

本公开提供一种图像处理方法、装置及电子设备，用以获取采集到的视频中图像的深度图像。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像处理方法，包括：

将采集到的视频中当前帧图像输入已训练的卷积神经网络中，得到所述当前帧图像对应的初始深度图像；以及

根据所述当前帧图像对应的位姿偏移信息和所述当前帧图像的上一帧图像，确定所述当前帧图像对应的预测深度图像；其中，所述当前帧图像对应的位姿偏移信息用于表示图像采集设备采集所述上一帧图像和采集所述当前帧图像之间发生的位姿偏移；

将相同位置的像素点在所述初始深度图像的初始深度值、以及在所述预测深度图像中的预测深度值进行融合处理，得到所述像素点对应的目标深度值；

根据所述当前帧图像中像素点对应的目标深度值，生成所述当前帧图像对应的深度图像。

在一种可能的实现方式中，所述根据所述当前帧图像对应的位姿偏移信息和所述当前帧图像的上一帧图像，确定所述当前帧图像对应的预测深度图像，包括：

针对所述上一帧图像中任意一个像素点，根据所述图像采集设备的内部参数，将所述像素点在所述上一帧图像中的像素坐标转换成第一空间坐标；根据所述位姿偏移信息，将所述第一空间坐标转换成第二空间坐标；

若根据所述第二空间坐标转换后的像素坐标在预设范围内，则将所述像素点作为所述当前帧图像中的传播像素点，并根据所述第二空间坐标确定所述传播像素点的预测深度值；

将预设深度值作为所述当前帧图像中除传播像素点之外的新增像素点的预测深度值；

根据所述传播像素点的预测深度值和所述新增像素点的预测深度值确定所述当前帧图像对应的预测深度图像。

在一种可能的实现方式中，所述根据所述传播像素点的预测深度值和所述新增像素点的预测深度值确定所述当前帧图像对应的预测深度图像，包括：

根据所述第二空间坐标转换后的像素坐标，确定所述传播像素点在所述当前帧图像中的位置，以及，将所述当前帧图像中除传播像素点所在位置之外的其他位置作为所述新增像素点在所述当前帧图像中的位置；

根据所述传播像素点在所述当前帧图像中的位置，所述传播像素点的预测深度值，以及所述新增像素点在所述当前图像中的位置，所述新增像素点的预测深度值，生成所述当前帧图像对应的预测深度图像。

在一种可能的实现方式中，所述将相同位置的像素点在所述初始深度图像的初始深度值、以及在所述预测深度图像中的预测深度值进行融合处理，得到所述像素点对应的目标深度值，包括：

根据相同位置的像素点的初始深度值、所述像素点的预测深度值、以及所述初始深度值对应的第一权重值、所述预测深度值对应的第二权重值，确定所述像素点对应的目标深度值。

在一种可能的实现方式中，根据下列方式确定所述初始深度值对应的第一权重值：

根据所述初始深度值与所述预测深度值的差值确定所述像素点对应的初始传播不确定性参数；以及根据所述初始深度值与所述预测深度值的差值确定用于对所述初始传播不确定性参数进行调整的调控因子；

根据所述调控因子、所述初始深度值与所述预测深度值的比值对所述初始传播不确定性参数进行调整，将调整后的初始传播不确定参数作为所述初始深度值对应的第一权重值。

在一种可能的实现方式中，根据下列方式确定所述传播像素点的预测深度值对应的第二权重值：

若所述像素点为传播像素点，将所述传播像素点对应的所述上一帧图像中的像素点的传播不确定性参数，作为所述传播像素点的预测深度值对应的第二权重值；其中，所述传播不确定参数用于表示所述传播像素点与对应的所述上一帧图像中的像素点之间深度值的变化程度；或

若所述像素点为新增像素点，将预设值作为所述新增像素点的预测深度值对应的第二权重值。

在一种可能的实现方式中，根据下列方式确定每帧图像中像素点的传播不确定性参数：

针对每帧图像中的传播像素点，根据所述传播像素点的初始深度值对应的第一权重，以及所述传播像素点的预测深度值对应的第二权重，确定所述传播像素点的传播不确定性参数；或

针对每帧图像中的新增像素点，将预设值作为所述新增像素点的传播不确定性参数。

在一种可能的实现方式中，所述根据所述传播像素点的初始深度值对应的第一权重，以及所述传播像素点的预测深度值对应的第二权重，确定所述传播像素点的传播不确定性参数，包括：

将所述传播像素点的初始深度值对应的第一权重与所述传播像素点的预测深度值对应的第二权重的乘积，与所述传播像素点的初始深度值对应的第一权重与所述传播像素点的预测深度值对应的第二权重之和的比值，作为所述传播像素点的传播不确定性参数。

在一种可能的实现方式中，所述位姿偏移信息包括旋转矩阵；

根据下列方式确定采集上一帧图像与采集当前帧图像时图像采集设备的位姿偏移信息：

根据采集所述上一帧图像时所述图像采集设备的第一惯性测量单元IMU参数值，以及采集所述当前帧图像时所述图像采集设备的第二IMU参数值，确定采集所述上一帧图像与采集所述当前帧图像时图像采集设备的旋转矩阵。

在一种可能的实现方式中，所述位姿偏移信息包括平移向量；

基于GFTT特征提取算法从所述上一帧图像中确定至少一个特征区域；其中，所述特征区域的边缘像素点与除所述特征区域之外的相邻像素点的灰度值的差值大于预设阈值；

针对每个特征区域，根据特征区域在所述上一帧图像中的第一位置信息以及光流追踪算法确定所述特征区域在所述当前帧图像中的第二位置信息；

基于PNP算法，将所述至少一个特征区域在所述上一帧图像中的第一位置信息以及在所述当前帧图像中的第二位置信息进行优化处理，得到采集所述上一帧图像与采集所述当前帧图像时图像采集设备的平移向量。

根据本公开实施例的第二方面，提供一种图像处理装置，包括：

确定模块，被配置为执行将采集到的视频中当前帧图像输入已训练的卷积神经网络中，得到所述当前帧图像对应的初始深度图像；以及

融合模块，被配置为执行将相同位置的像素点在所述初始深度图像的初始深度值、以及在所述预测深度图像中的预测深度值进行融合处理，得到所述像素点对应的目标深度值；

生成模块，被配置为执行根据所述当前帧图像中像素点对应的目标深度值，生成所述当前帧图像对应的深度图像。

在一种可能的实现方式中，所述确定模块具体被配置为执行：

在一种可能的实现方式中，所述融合模块具体被配置为执行：

在一种可能的实现方式中，所述融合模块具体被配置为执行根据下列方式确定所述初始深度值对应的第一权重值：

在一种可能的实现方式中，所述融合模块具体被配置为执行根据下列方式确定所述传播像素点的预测深度值对应的第二权重值：

在一种可能的实现方式中，所述融合模块具体被配置为执行根据下列方式确定每帧图像中像素点的传播不确定性参数：

所述确定模块具体被配置为执行根据下列方式确定采集上一帧图像与采集当前帧图像时图像采集设备的位姿偏移信息：

根据本公开实施例的第三方面，提供一种电子设备，包括：存储器，用于存储可执行指令；

处理器，用于读取并执行所述存储器中存储的可执行指令，以实现如本公开实施例第一方面中任一项所述的图像处理方法。

根据本公开实施例的第四方面，提供一种非易失性存储介质，当所述存储介质中的指令由图像处理装置的处理器执行时，使得图像处理装置能够执行本公开实施例第一方面中所述的图像处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的一种图像处理方法中，可以基于当前帧图像对应的预测深度图像对卷积神经网络输出的当前帧图像的初始深度图像进行修正，并且当前帧图像对应的预测深度图像为根据上一帧图像与位姿偏移信息确定的，因此，在根据初始深度值以及预测深度值确定的目标深度值时，考虑到了相邻两帧图像的关联性，根据目标深度值生成的深度图像中像素点的深度值更加稳定，从而减少相邻两帧图像的深度图像中对应点的深度值跳动，结合上一帧图像修正卷积神经网络输出的当前帧图像的深度图像，得到帧间稳定性更高的深度图像。

此外，本公开实施例中通过调控因子对初始传播不确定性参数进行调整，调控因子由像素点的初始深度值与预测深度值的差值确定。调控因子越大，调整后的初始传播不确定性参数越大，即第一权重越大。在对初始深度值以及预测深度值进行融合处理时，初始深度值对应的第一权重越大，确定出的目标深度值越接近于初始深度值。也就是说，当像素点的初始深度值与预测深度值的差值较大时，可以确定该像素点对应的实物点应该为图像采集设备所处环境中的动态物体上的点或边界点，针对动态物体上的点或边界点，应该放松融合条件，使目标深度值接近于初始深度值。若目标深度值接近于通过上一帧图像确定的预测深度值，可能造成动态物体的延迟现象。本公开实施例通过放松动态物体上的点以及边界点的融合条件，确定动态物体上的点的目标深度值效果更好。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像处理方法的流程图；

图2是根据一示例性实施例示出的一种应用场景示意图；

图3是根据一示例性实施例示出的一种特征区域示意图；

图4是根据一示例性实施例示出的一种当前帧图像像素坐标对应的预设范围的示意图；

图5是根据一示例性实施例示出的一种当前帧图像中传播像素点区域与新增像素点区域的示意图；

图6是根据一示例性实施例示出的一种图像处理装置框图；

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

以下，对本公开实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)本公开实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

(2)本公开实施例中术语“深度图像”也称为距离影像，是指将从图像采集设备到场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状。

(3)本公开实施例中术语“RGB图像”是指普通彩色图像，其中，RGB即是代表红、绿、蓝三个通道的颜色，通过红(R)、绿(G)、蓝(B)三个颜色通道的变化以及对三个颜色通道的叠加可得到各式各样的颜色。

(4)本公开实施例中术语“灰度图像”是指各个像素点的像素值为灰度值的图像。

(5)本公开实施例中术语“图像分辨率”是指图像中存储的信息量，指每英寸图像内有多少个像素点，分辨率的单位为PPI(Pixels Per Inch)，通常叫做像素每英寸。图像分辨率一般被用于ps中，用来改变图像的清晰度。图像分辨率通常用“水平方向的像素数×垂直方向的像素数”表示。

在MR技术实现过程中，为更好的处理虚拟世界中的虚拟对象与现实世界的现实对象之间的位置关系，需要对图像采集设备采集到的图像进行深度估计，获取具有稠密深度特征的深度图像。深度图像也称为距离影像，是指将从图像采集设备到场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状，进一步确定图像采集设备本身在环境中的位置以及建立周围环境的模型。在传统深度图像采集过程中，可以通过深度图像采集设备或者双目图像采集设备直接采集深度图像。

随着智能终端的普及，用户对智能终端的要求越来越高，智能终端实现AR技术、MR技术等的前提是实现对深度图像的确定，若通过深度图像采集设备或者双目图像采集设备的原理实现深度图像的确定，需要在智能终端上增加RGB-D传感器或者摄像头等硬件，增加成本以及功耗。而机器学习的发展可以实现在不增加硬件的基础上通过训练学习到确定深度图像的能力，卷积神经网络在图像处理领域的应用较为广泛。

目前，可以通过卷积神经网络获取智能终端采集到的图像的深度图像。实现MR技术时智能终端采集到的是往往是视频图像，将视频图像中的每帧图像输入卷积神经网络可以得到每帧图像对应的深度图像。但是，由于将每帧图像单独输入卷积神经网络得到的深度图像，没有考虑相邻两帧图像之间的关联性，会导致相邻两帧图像的深度图像中对应点的深度值跳动。

本公开实施例提供一种图像处理方法，用于解决现有技术中卷积神经网络得到的相邻两帧图像的深度图像中对应点的深度值跳动的问题，提高卷积神经网络输出的相邻两帧图像对应的深度图像的稳定性。

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

下面对本公开实施例作进一步详细描述。

图1是根据一示例性实施例示出的一种图像处理方法的流程图，如图1所示，包括以下步骤：

在步骤S11中、将采集到的视频中当前帧图像输入已训练的卷积神经网络中，得到当前帧图像对应的初始深度图像；

在步骤S12中、根据当前帧图像对应的位姿偏移信息和当前帧图像的上一帧图像，确定当前帧图像对应的预测深度图像；

其中，当前帧图像对应的位姿偏移信息用于表示图像采集设备采集上一帧图像和采集当前帧图像之间发生的位姿偏移；

在步骤S13中、将相同位置的像素点在初始深度图像的初始深度值、以及在预测深度图像中的预测深度值进行融合处理，得到像素点对应的目标深度值；

在步骤S14中、根据当前帧图像中像素点对应的目标深度值，生成当前帧图像对应的深度图像。

由上可见，本公开实施例公开的一种图像处理方法，根据当前帧图像的初始深度图像，以及通过上一帧图像和图像采集设备在采集上一帧图像和当前帧图像时的位姿偏移确定的当前帧图像对应的预测深度图像，将初始深度图像与预测深度图像中相同位置的像素点的初始深度值与预测深度值进行融合处理，得到像素点对应的目标深度值，根据当前帧图像中每个像素点对应的目标深度值生成当前帧图像对应的深度图像。本公开实施例提供的图像处理方法，可以基于当前帧图像对应的预测深度图像对卷积神经网络输出的当前帧图像的初始深度图像进行修正，由于本公开实施例中当前帧图像对应的预测深度图像为根据上一帧图像与位置偏移信息确定的，因此，在根据初始深度值以及预测深度值确定的目标深度值时，考虑到了相邻两帧图像的关联性，根据目标深度值生成的深度图像中像素点的深度值更加稳定，从而减少相邻两帧图像的深度图像中对应点的深度值跳动，结合上一帧图像修正卷积神经网络输出的当前帧图像的深度图像，得到帧间稳定性更高的深度图像。

一种可选的应用场景可以为如图2所示的示意图，终端设备21中安装图像采集设备，当用户20基于终端设备21的图像采集设备采集到视频时，一种可选的实施方式为，图像采集设备将采集到的视频中的当前帧图像、以及当前帧图像对应的位姿偏移信息发送给服务器22。服务器22将当前帧图像输入已训练的卷积神经网络得到当前帧图像对应的初始深度图像，以及根据当前帧图像对应的位姿信息和当前帧图像的上一帧图像，确定当前帧图像对应的预测深度图像，并将相同位置的像素点在初始深度图像中的初始深度值、以及在预测深度图像中的预测深度值进行融合处理，得到像素点对应的目标深度值，并根据每个像素点对应的目标深度值，生成当前帧图像对应的深度图像，服务器22将当前帧图像对应的深度图像发送给终端设备21中的图像采集设备，图像采集设备根据当前帧图像对应的深度图像对当前帧图像对应的原始RGB图像进行渲染等处理后展示给用户20。

需要说明的是，上述应用场景中，当前帧图像的上一帧图像可以已经存储在服务器22中，或者在图像采集设备将当前帧图像对应的位姿偏移信息发送给服务器22的同时将上一帧图像一起发送给服务器22。上述应用场景仅是示例的，并不构成对本公开实施例保护范围的限定。

本公开实施例公开的一种图像处理方法中，首先需要确定当前帧图像对应的初始深度图像。由于AR技术、MR技术通常是对实时采集到的视频进行处理，因此待处理的图像为采集到的视频的当前帧图像。

具体的，将当前帧图像输入已训练的卷积神经网络中，得到已训练的卷积神经网络输出的当前帧图像对应的初始深度图像。

需要说明的是，在调用卷积神经网络之前，需要基于大量的RGB图像以及RGB图像中每个像素点对应的深度值对卷积神经网络进行训练，将RGB图像以及RGB图像中每个像素点对应的深度值构成的矩阵作为卷积神经网络的输入，将RGB图像对应的深度图像作为卷积神经网络的输出，对卷积神经网络进行训练，在卷积神经网络模型收敛后，确定卷积神经网络训练完成，训练完成的卷积神经网络具备根据RGB图像确定深度图像的能力。

实施中，将当前帧图像输入已训练的卷积神经网络，已训练的卷积神经网络会根据当前帧图像的像素特征计算出当前帧图像上每个像素点的初始深度值，将每个像素点的深度值作为初始深度图像的像素值，生成当前帧图像对应的初始深度图像。

本公开实施例中，考虑到上一帧图像与当前帧图像的关联性，根据上一帧图像以及图像采集设备采集上一帧图像和采集当前帧图像之间发生的位姿偏移信息，通过上一帧图像的对应的深度图像对当前帧图像进行深度估计，生成当前帧图像对应的预测深度图像。再通过当前帧图像对应的初始深度图像与预测深度图像的融合，减少当前帧图像相对于上一帧图像的对应点的深度值的跳动。

本公开实施例中，位姿偏移信息包括旋转矩阵和平移向量；本公开实施例根据下列方式确定采集上一帧图像与采集当前帧图像时图像采集设备的旋转矩阵：

根据采集上一帧图像时图像采集设备的第一惯性测量单元IMU参数值，以及采集当前帧图像时图像采集设备的第二IMU参数值，确定采集上一帧图像与采集当前帧图像时图像采集设备的旋转矩阵。

具体的，惯性测量单元IMU是测量图像采集设备三轴姿态角以及加速度的装置，可以测量物体在三维空间中的角速度和加速度，并以此确定出图像采集设备的姿态。图像采集设备在采集每帧图像时，均会有一个IMU读数，表示图像采集设备在采集每帧图像时与世界坐标系中三个坐标轴的夹角，通过读取图像采集设备在采集上一帧图像时的IMU读数，确定第一IMU参数值，和读取图像采集设备在采集当前帧图像时的IMU读数，确定第二IMU参数值；根据第一IMU参数值和第二IMU参数值，可以确定图像采集设备在世界坐标系中相对于三个坐标轴的夹角变化，即图像采集设备在三个自由度上的旋转情况，并通过矩阵表示，确定图像采集设备的旋转矩阵。实施中，旋转矩阵为一个三阶方阵，用R表示。

本公开实施例根据下列方式确定采集上一帧图像与采集当前帧图像时图像采集设备的平移向量：

基于GFTT特征提取算法从上一帧图像中确定至少一个特征区域；针对每个特征区域，根据特征区域在上一帧图像中的第一位置信息以及光流追踪算法确定特征区域在当前帧图像中的第二位置信息；基于PNP算法，将至少一个特征区域在上一帧图像中的第一位置信息以及在当前帧图像中的第二位置信息进行优化处理，得到采集上一帧图像与采集当前帧图像时图像采集设备的平移向量。

其中，特征区域的边缘像素点与除特征区域之外的相邻像素点的灰度值的差值大于预设阈值。

具体的，特征区域的边缘像素点与相邻像素点的灰度值差值较大，通过GFTT特征点提取技术在上一帧图像中确定至少一个特征区域的第一位置信息，以及针对每个特征区域，确定该特征区域在上一帧图像中的第一位置信息，通过光流追踪算法确定该特征区域在当前帧图像中的第二位置信息，并基于PNP算法对所有特征区域的第一位置信息与第二位置信息进行优化处理，得到图像采集设备的平移向量。

实施中，可以通过GFTT特征点提取技术在上一帧图像中提取至少一个特征点，如图3所示，A、B、C为确定出的三个特征区域；确定至少一个特征区域在上一帧图像中的第一位置信息，并对特征区域进行光流追踪，确定至少一个特征区域在当前帧图像中的第二位置信息；其中，综合上一帧图像对应的深度图像以及当前帧图像对应的初始深度图像中特征区域的深度值、第一位置信息和第二位置信息可以确定图像采集设备在采集图像时在世界坐标中的左右位置信息、上下位置信息以及前后位置信息。并使用PNP算法将特征区域的第一位置信息、第二位置信息进行优化处理，确定采集上一帧图像与当前帧图像时图像采集设备的平移信息，并通过矩阵表示，确定图像采集设备对应的平移向量，实施中，平移向量为一个三行一列的向量，用T表示。

在确定当前帧图像的位姿偏移信息后，根据上一帧图像以及当前帧图像的位姿偏移信息确定当前帧图像对应的预测深度图像。

一种可选的实施方式为，针对上一帧图像中任意一个像素点，根据图像采集设备的内部参数，将像素点在上一帧图像中的像素坐标转换成第一空间坐标；根据位姿偏移信息，将第一空间坐标转换成第二空间坐标；若根据第二空间坐标转换后的像素坐标在预设范围内，则将像素点作为当前帧图像中的传播像素点，并根据第二空间坐标确定传播像素点的预测深度值；将预设深度值作为当前帧图像中除传播像素点之外的新增像素点的预测深度值；根据传播像素点的预测深度值和新增像素点的预测深度值确定当前帧图像对应的预测深度图像。

具体的，将上一帧图像中任意一个像素点在上一帧图像中的像素坐标根据图像采集设备的内部参数以及位姿偏移信息，将像素点在上一帧图像中的像素坐标转换为该像素点在经过图像采集设备位姿偏移后的像素坐标，若该像素坐标在预设范围内，此像素点为当前帧图像的传播像素点，表示该像素点对应的实物点在图像采集设备采集上一帧图像时的成像范围内，也在图像采集设备采集当前帧图像时的成像范围内；若该像素坐标不在预设范围内，表示此像素点对应的实物点在图像采集设备的位姿偏移过程中移出图像采集设备的成像范围。当前帧图像中，除传播像素点之外的像素点均为新增像素点。并根据第二空间坐标确定传播像素点的预测深度值，将预设深度值作为新增像素点的预测深度值，生成当前帧图像对应的预测深度图像。

其中，预设范围为当前帧图像像素坐标的范围，由图像的分辨率决定；图像的分辨率可以由图像横纵两个方向上像素点的个数表示，例如，图像的分辨率为640*480，则预设范围如图4所示，由坐标(0，0)(640，0)(0，480)(640，480)围成的矩形。

在确定传播像素点与新增像素点时，针对上一帧图像中任意一个像素点，确定该像素点在上一帧图像中的像素坐标对应的第一空间坐标，并根据第一空间坐标与位姿偏移信息确定第一空间坐标转换后的第二空间坐标，并确定第二空间坐标转换后的像素坐标，上一帧图像中每一个像素点像素坐标经过上述转换后的像素坐标构成的区域，与预设范围构成的区域重叠的区域，即当前帧图像中传播像素点构成的区域；当前帧图像中，除传播像素点之外的像素点构成的区域均，为当前帧图像中新增像素点构成的区域。如图5所示，为本公开实施例提供的一种当前帧图像中传播像素点区域与新增像素点区域的示意图，上一帧图像中每一个像素点像素坐标经过转换后的像素坐标构成的区域，与预设范围如图5所示，其中，区域A为当前帧图像中传播像素点区域，区域B为当前帧图像中新增像素点区域。

实施中，针对上一帧图像中任意一个像素点，根据图像采集设备的内部参数，将像素点在上一帧图像中的像素坐标转换成第一空间坐标；根据位姿偏移信息，将第一空间坐标转换成第二空间坐标。

具体的，图像采集设备的内部参数包括焦距、主点、倾斜系数、畸变系数等，由内部参数确定图像采集设备的内参矩阵K，内参矩阵K为一个三阶方阵，例如，内参矩阵K如公式(1)所示：

其中，f_x，f_y为焦距，一般情况下，二者相等，c_x、c_y为主点坐标(相对于成像平面)，s为坐标轴倾斜参数，理想情况下为0。

将像素点在上一帧图像中的像素坐标转换成第一空间坐标的转换公式如公式(2)所示：

其中，(u，v)表示像素点在上一帧图像中的位置，(X，Y，Z)表示像素点对应的第一空间坐标，表示该像素点对应的实物点在空间坐标系中的位置，Z的值与该像素点在上一帧图像对应的深度图像中的深度值相等。

得到像素点的第一空间坐标后，再根据位姿偏移信息，将第一空间坐标转换成第二空间坐标，转换公式如公式(3)所示：

其中，R为旋转矩阵，T为平移矩阵，(X’Y’Z’)为像素点的第二空间坐标。表示图像采集设备在位姿转换后，该像素点对应的实物点在空间坐标系中的位置。

根据第二空间坐标确定传播像素点的预测深度值时，Z’的值为传播像素点的预测深度值。

再根据图像采集设备的内部参数将像素点的第二空间坐标转换为像素坐标，转换公式如公式(4)所示：

其中，(u’，v’)表示像素点的第二空间坐标转换后的像素坐标，(u’，v’)也表示传播像素点在当前帧中的位置。

在生成预测深度图像时，一种可选的实施方式为：

根据第二空间坐标转换后的像素坐标，确定传播像素点在当前帧图像中的位置，以及，将当前帧图像中除传播像素点所在位置之外的其他位置作为新增像素点在当前帧图像中的位置；根据传播像素点在当前帧图像中的位置，传播像素点的预测深度值，以及新增像素点在当前图像中的位置，新增像素点的预测深度值，生成当前帧图像对应的预测深度图像。

具体的，根据公式(4)可以确定每个传播像素点在当前帧图像中的位置(u’，v’)；当前帧图像中除传播像素点所在位置之外的其他位置均为新增像素点所在的位置。即如图5所示，区域A的位置为传播像素点区域在当前帧图像中的位置，区域B的位置为新增像素点区域在当前帧图像中的位置。

根据公式(3)可以确定传播像素点的预测深度值Z’；将预设深度值作为当前帧图像中新增像素点的预测深度值，实施中，预设深度值可以为0。将新增像素点的预测深度值设置为预设深度值的原因在后面实施例中具体介绍。

确定传播像素点在当前帧图像中的位置、将传播像素点的预测深度值作为传播像素点位置上的像素值；以及确定新增像素点在当前帧图像中的位置、将新增像素点的预测深度值作为新增像素点位置上的像素值，生成当前帧图像对应的预测深度图像。

由于当前帧图像对应的预测深度图像时根据上一帧图像经过与图像采集设备相同的位姿偏移后确定的，理论上相同位置的像素点对应的预测深度值与初始深度值应该相等，但是由于卷积神经网络输出的初始深度图像中像素点的初始深度值没有考虑相邻两帧图像的关联性，可能造成预测深度值与初始深度还不相等。本公开实施例通过对相同位置的像素点在初始深度图像中的初始深度值以及该像素点在预测深度图像中的预测深度值进行融合处理，得到考虑相邻两帧图像关联性的目标深度值，由目标深度值生成的深度图像相比于卷积神经网络输出的初始深度图像像素点的深度值更加稳定。

一种可选的实施方式为，根据相同位置的像素点的初始深度值、像素点的预测深度值、所述初始深度值对应的第一权重值、预测深度值对应的第二权重值，确定像素点对应的目标深度值。

具体的，为初始深度值赋第一权重、对预测深度值赋第二权重，通过权重对初始深度值和预测深度值进行融合处理，得到目标深度值。

实施中，对初始深度值和预测深度值进行融合处理可以是根据初始深度值对应的第一权重与预测深度值对应的第二权重，对初始深度值和预测深度值进行加权平均运算，得到目标深度值。例如，根据如公式(5)所示的公式对初始深度值和预测深度值进行融合处理：

其中，D₁为像素点在当前帧图像对应的初始深度图像中的初始深度值；D₂为像素点在当前帧图像对应的预测深度图像中的预测深度值；U₁为像素点的初始深度值对应的第一权重；U₂为像素点的预测深度值对应的第二权重。

需要说明的是，本公开实施例中“融合处理”不只包括“加权平均运算”，本领域技术人员公知的对初始深度值和预测深度值进行融合处理的运算方法均包含在本公开实施例的保护范围内。

在确定目标深度值之前，需要先确定像素点的初始深度值对应的第一权重，以及像素点的预测深度值对应的第二权重。

一种可选的实施方式为，本公开实施例根据下列方式确定初始深度值对应的第一权重：

根据初始深度值与预测深度值的差值确定像素点对应的初始传播不确定性参数；以及根据初始深度值与预测深度值的差值确定用于对初始传播不确定性参数进行调整的调控因子；根据调控因子、初始深度值与预测深度值的比值对初始传播不确定性参数进行调整，将调整后的初始不确定参数作为初始深度值对应的第一权重值。

实施中，首先根据初始深度值与预测深度值的差值确定像素点对应的初始传播不确定性参数，确定像素点对应的初始传播不确定性参数的确定公式如公式(6)所示：

d′＝|D₁-D₂|

u＝d′² ————公式(6)

其中，d’为初始深度值与预测深度值的差值；D₁为初始深度值；D₂为预测深度值；u为初始传播不确定性参数。

再根据初始深度值与预测深度值的差值用于对初始传播不确定性参数进行调整的调控因子，确定调控因子的确定公式如公式(7)所示：

其中，σ为调控因子；d’为初始深度值与预测深度值的差值；公式中的其他参数为选定二次曲线同时之后通过大量的样本在试验中拟合得到，可以根据实际需求进行调整，本公开实施例对其他参数的具体数值不做限定。二次曲线的通式如公式(8)所示：

可以看出，当初始深度值与预测深度值的差值越大时，初始传播不确定性参数越大，调控因子越大。

再根据调控因子、初始深度值与预测深度值的比值对初始传播不确定性参数进行调整，将调整后的初始不确定参数作为初始深度值对应的第一权重值，对初始传播不确定性参数进行调整确定第一权重值的公式如公式(9)所示：

其中，u为初始传播不确定性参数；D₁为初始深度值；D₂为预测深度值；σ为调控因子；为噪声参数，为预设值。

可以看出，将调整后的初始传播不确定性参数作为初始深度值对应的第一权重时，当初始传播不确定性参数越大时，调控因子越大，则调整后的初始传播不确定性参数越大，即第一权重越大。在对初始深度值以及预测深度值进行融合处理时，初始深度值对应的第一权重越大，确定出的目标深度值越接近于初始深度值。也就是说，当像素点的初始深度值与预测深度值的差值较大时，可以确定该像素点对应的实物点应该为图像采集设备所处环境中的动态物体上的点或边界点，针对动态物体上的点或边界点，应该放松融合条件，使目标深度值接近于初始深度值。若目标深度值接近于通过上一帧图像确定的预测深度值，可能造成动态物体的延迟现象。本公开实施例通过放松动态物体上的点以及边界点的融合条件，确定动态物体上的点的目标深度值效果更好。

一种可选的实施方式为，本公开实施例根据下列方式确定初始深度值对应的第二权重值：

若像素点为传播像素点，将传播像素点对应的上一帧图像中的像素点的传播不确定性参数，作为传播像素点的预测深度值对应的第二权重值；或若像素点为新增像素点，将预设值作为新增像素点的预测深度值对应的第二权重值。

其中，传播不确定参数用于表示传播像素点与对应的上一帧图像中的像素点之间深度值的变化程度；

具体的，本公开实施例中针对传播像素点和新增像素点，确定预测深度值对应的第二权重的方法不同，下面对两种确定第二权重的方式分别进行说明：

一、针对传播像素点，将上一帧图像中像素点的传播不确定性参数作为传播像素点的预测深度值。

传播不确定性参数用于表示在图像采集设备的位姿发生变化的过程中，传播像素点与对应的上一帧图像中的像素点之间深度值的变化程度。具体的，在确定每帧图像对应的深度图像之后，还要确定每帧图像中像素点的传播不确定性参数。

针对当前帧图像中的传播像素点，第二权重由该像素点在上一帧图像中的传播不确定性参数确定。

若该像素点在上一帧图像中对应的像素点为传播像素点，则根据上一帧图像中该像素点的初始深度值对应的第一权重以及预测深度值对应的第二权重确定该像素点在上一帧图像中的传播不确定性参数，并将传播不确定性参数作为该像素点在当前帧图像中预测深度值的对应的第二权重；

若该像素点在上一帧图像中对应的像素点为新增像素点，则将预设值作为该像素点在上一帧图像中的传播不确定性参数，例如，预设值为-1。当判断当前帧图像中的传播像素点在上一帧图像中对应的像素点的传播不确定性参数为-1时，则将当前帧图像中的传播像素点的第一权重作为该像素点对应的第二权重，根据公式(5)可知，第二权重设置为与第一权重相等，相当于对该传播像素点的预测深度值与初始深度值作平均运算，将预测深度值与初始深度值平均值作为目标深度值。

二、针对新增像素点，将预设值作为所述新增像素点的预测深度值对应的第二权重值。

实施中，新增像素点的预测深度值对应的第二权重可以是预设值，例如，预设值可以为任意值。

在此，对将新增像素点的预测深度值设置为0的原因进行具体解释，由于新增像素点为相对于上一帧图像中的像素点在图像采集设备位姿发生变化的过程中新增的，不能根据上一帧图像与当前帧图像的关联性进行预测，因此，新增像素点的目标深度值应该与初始深度值相等。因此，当新增像素点的预测深度值设置为0时，新增像素点的预测深度值对应的第二权重为任意值，根据公式(5)可知，目标深度值与初始深度值相等。

在确定当前帧像素点的初始深度值、初始深度值对应的第一权重，预测深度值、预测深度值对应的第二权重后，对预测深度值以及初始深度值进行融合处理，得到目标深度值，再根据目标深度值生成当前帧图像对应的深度图像。

此外，本公开实施例在生成当前帧图像对应的深度图像后，还会生成当前帧图像对应的传播不确定性图像，传播不确定性图像的像素值为当前帧图像中像素点的传播不确定性参数。

一种可选的实施方式为，将传播像素点的初始深度值对应的第一权重与传播像素点的预测深度值对应的第二权重的乘积，与传播像素点的初始深度值对应的第一权重与传播像素点的预测深度值对应的第二权重之和的比值，作为传播像素点的传播不确定性参数。

具体的，对于当前帧图像中的传播像素点，根据传播像素点的初始深度值对应的第一权重与预测深度值对应的第二权重确定，实施中，根据公式(10)确定传播像素点对应的传播不确定性参数：

其中，C表示传播像素点的传播不确定性参数；U₁为像素点的初始深度值对应的第一权重；U₂为像素点的预测深度值对应的第二权重。

需要说明的是，针对当前帧图像中新增像素点，将预设值作为新增像素点的传播不确定性参数，例如，预设值为-1。

实施中，若当前帧图像中传播像素点在上一帧图像中对应像素点的传播不确定性参数为-1，则证明当前帧图像中传播像素点在上一帧图像中对应的像素点为上一帧图像的新增像素点，则在确定当前帧图像中该点的传播不确定性参数时，将预测深度值对应的第二权重U₂设置为与初始深度值对应的第一权重U₁相等的值，根据公式(10)可知，该点的传播不确定性参数C为U1的一半。

其中，静态物体对应的在图像中的像素点在图像采集设备位姿转换过程中，传播不确定性参数趋近于0。

此外，若当前帧图像为图像采集设备采集到的视频的首帧，由于没有上一帧图像，则无法根据当前帧图像对应的位姿偏移信息和上一帧图像，确定当前帧图像对应的预测深度图像。

本公开实施例提供一种生成视频首帧图像对应的深度图像的方法，若当前帧图像为图像采集设备采集到的视频的首帧，根据下列方式生成当前帧图像对应的深度图像：

将当前帧图像输入已训练的卷积神经网络中，获取已训练的卷积神经网络输出的当前帧图像对应的深度图像。

实施中，将视频的首帧图像输入已训练的卷积神经网络，已训练的卷积神经网络会根据首帧图像的像素特征计算出首帧图像上每个像素点的深度值，将每个像素点的深度值作为首帧图像对应的深度图像的像素值，生成首帧图像对应的深度图像。

本公开实施例中还提供了一种图像处理装置，由于该装置对应的是本公开实施例图像处理方法对应的装置，并且该装置解决问题的原理与该方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

图6是根据一示例性实施例示出的一种图像处理装置框图。参照图6，该装置包括确定模块600，融合模块601，生成模块602。

确定模块600，被配置为执行将采集到的视频中当前帧图像输入已训练的卷积神经网络中，得到所述当前帧图像对应的初始深度图像；以及

融合模块601，被配置为执行将相同位置的像素点在所述初始深度图像的初始深度值、以及在所述预测深度图像中的预测深度值进行融合处理，得到所述像素点对应的目标深度值；

生成模块602，被配置为执行根据所述当前帧图像中像素点对应的目标深度值，生成所述当前帧图像对应的深度图像。

在一种可能的实现方式中，所述确定模块600具体被配置为执行：

在一种可能的实现方式中，所述融合模块601具体被配置为执行：

在一种可能的实现方式中，所述融合模块601具体被配置为执行根据下列方式确定所述初始深度值对应的第一权重值：

在一种可能的实现方式中，所述融合模块601具体被配置为执行根据下列方式确定所述传播像素点的预测深度值对应的第二权重值：

在一种可能的实现方式中，所述融合模块601具体被配置为执行根据下列方式确定每帧图像中像素点的传播不确定性参数：

所述确定模块600具体被配置为执行根据下列方式确定采集上一帧图像与采集当前帧图像时图像采集设备的位姿偏移信息：

关于上述实施例中的装置，其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种电子设备700的框图，该电子设备包括：

处理器710；

用于存储所述处理器710可执行指令的存储器720；

其中，所述处理器710被配置为执行所述指令，以实现本公开实施例中的图像处理方法。

在示例性实施例中，还提供了一种包括指令的非易失性存储介质，例如包括指令的存储器720，上述指令可由电子设备700的处理器710执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例还提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本公开实施例上述任意一项图像处理方法或任意一项图像处理方法任一可能涉及的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像处理方法，其特征在于，该方法包括：

针对所述当前帧图像的上一帧图像中任意一个像素点，根据图像采集设备的内部参数，将所述像素点在所述上一帧图像中的像素坐标转换成第一空间坐标；根据当前帧图像对应的位姿偏移信息，将所述第一空间坐标转换成第二空间坐标；其中，所述当前帧图像对应的位姿偏移信息用于表示图像采集设备采集所述上一帧图像和采集所述当前帧图像之间发生的位姿偏移；

根据所述传播像素点的预测深度值和所述新增像素点的预测深度值确定所述当前帧图像对应的预测深度图像；

2.如权利要求1所述的方法，其特征在于，所述将相同位置的像素点在所述初始深度图像的初始深度值、以及在所述预测深度图像中的预测深度值进行融合处理，得到所述像素点对应的目标深度值，包括：

3.如权利要求2所述的方法，其特征在于，根据下列方式确定所述初始深度值对应的第一权重值：

4.如权利要求2所述的方法，其特征在于，根据下列方式确定所述传播像素点的预测深度值对应的第二权重值：

5.如权利要求4所述的方法，其特征在于，根据下列方式确定每帧图像中像素点的传播不确定性参数：

6.如权利要求5所述的方法，其特征在于，所述根据所述传播像素点的初始深度值对应的第一权重，以及所述传播像素点的预测深度值对应的第二权重，确定所述传播像素点的传播不确定性参数，包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述传播像素点的初始深度值对应的第一权重，以及所述传播像素点的预测深度值对应的第二权重，确定所述传播像素点的传播不确定性参数，包括：

8.如权利要求1～7任一项所述的方法，其特征在于，所述位姿偏移信息包括旋转矩阵；

9.如权利要求1～7任一项所述的方法，其特征在于，所述位姿偏移信息包括平移向量；

10.一种图像处理装置，其特征在于，包括：

11.如权利要求10所述的装置，其特征在于，所述确定模块具体被配置为执行：

12.如权利要求10所述的装置，其特征在于，所述融合模块具体被配置为执行：

13.如权利要求12所述的装置，其特征在于，所述融合模块具体被配置为执行根据下列方式确定所述初始深度值对应的第一权重值：

14.如权利要求12所述的装置，其特征在于，所述融合模块具体被配置为执行根据下列方式确定所述传播像素点的预测深度值对应的第二权重值：

15.如权利要求14所述的装置，其特征在于，所述融合模块具体被配置为执行根据下列方式确定每帧图像中像素点的传播不确定性参数：

16.如权利要求15所述的装置，其特征在于，所述融合模块具体被配置为执行：

17.如权利要求10～16任一项所述的装置，其特征在于，所述位姿偏移信息包括旋转矩阵；

18.如权利要求10～16任一项所述的装置，其特征在于，所述位姿偏移信息包括平移向量；

19.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现根据权利要求1至权利要求9中任一项所述的图像处理方法。

20.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行根据权利要求1至权利要求9中任一项所述的图像处理方法。