CN111539899A

CN111539899A - 图像修复方法及相关产品

Info

Publication number: CN111539899A
Application number: CN202010479966.3A
Authority: CN
Inventors: 陈岩; 任思捷; 程璇晔; 王鲁阳
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-08-14

Abstract

本申请提供了一种图像修复方法、装置及计算机存储介质，方法包括：获取第一深度图像和第二深度图像；将第一深度图像和第二深度图像进行对齐处理，得到对齐后的第一深度图像和对齐后的第二深度图像；将对齐后的第一深度图像和对齐后的第二深度图像进行融合处理，得到融合后的第三深度图像，其中，第三深度图像的信噪比大于第一深度图像的信噪比，第三深度图像的信噪比大于第二深度图像的信噪比。

Description

图像修复方法及相关产品

技术领域

本申请涉及机器视觉领域，尤其涉及一种图像修复方法及相关产品。

背景技术

随着机器视觉技术的快速发展，深度图像被广泛地应用于多个领域，例如安防监控、资源勘探、自动驾驶、三维重建等等。深度图像可以由深度相机对物体进行拍摄得到。当深度相机在拍摄远距离或者高吸光率物体时，拍摄得到的深度图像中可能包含了大量的噪点，从而严重影响了深度图像的质量。

现有技术中主要通过高斯滤波器、深度学习算法进行单帧深度图像的修复，但是本领域的技术人员在长期研究下发现，通过这些普通方式修复得到的深度图像的效果并不理想。

发明内容

本申请实施例公开了一种图像修复方法及相关产品，能够有效地提高深度图像的质量。

第一方面，本申请提供了一种图像修复方法，所述方法包括：

获取第一深度图像和第二深度图像；

将所述第一深度图像和所述第二深度图像进行对齐处理，得到对齐后的第一深度图像和对齐后的第二深度图像；

将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理，得到融合后的第三深度图像，其中，所述第三深度图像的信噪比大于所述第一深度图像的信噪比，所述第三深度图像的信噪比大于所述第二深度图像的信噪比。

实施第一方面所描述的方法，通过对低信噪比的第一深度图像和低信噪比的第二深度图像进行对齐处理，可以得到对齐后的第一深度图像和对齐后的第二深度图像；然后将对齐后的第一深度图像和对齐后的第二深度图像进行融合处理，从而得到高信噪比的第三深度图像。可以看出，利用上述方法可以提高深度图像的信噪比，从而大大提高深度图像的质量。进一步地，利用上述方法获得的第三深度图像进行检测或者识别时，可以提高了检测或识别的准确率。

在一些可能的设计中，在将所述第一深度图像和第二深度图像进行对齐处理之前，所述方法还包括：

获取所述第一深度图像对应的第一置信图像、所述第二深度图像对应的第一置信图像，其中，所述第一置信图像指示所述第一深度图像的置信度，所述第二置信图像指示所述第二深度图像的置信度；

所述将所述第一深度图像和第二深度图像进行对齐处理，得到对齐后的第一深度图像和对齐后的第二深度图像，包括：

根据所述第一置信图像和所述第二置信图像，将所述第一深度图像和所述第二深度图像进行对齐处理，从而得到所述对齐后的第一深度图像和所述对齐后的第二深度图像。

在一些可能的设计中，所述根据所述第一置信图像和所述第二置信图像，将所述第一深度图像和所述第二深度图像进行对齐处理，从而得到所述对齐后的第一深度图像和所述对齐后的第二深度图像，包括：根据所述第一置信图像和所述第二置信图像，确定对齐卷积核的位移参数；利用所述对齐卷积核对所述第一深度图像和所述第二深度图像分别进行卷积处理，得到所述对齐后的第一深度图像、所述对齐后的第二深度图像。

可以看出，利用第一置信图像和第二置信图像可以辅助第一深度图像和第二深度图像进行更加精确的对齐。

在一些可能的设计中，在将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理之前，所述方法还包括：利用所述对齐卷积核对所述第一置信图像和所述第二置信图像分别进行卷积处理，得到对齐后的第一置信图像和对齐后的第二置信图像；所述将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理，得到融合后的第三深度图像，包括：根据所述对齐后的第一置信图像和所述对齐后的第二置信图像，将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理，得到所述第三深度图像。

在一些可能的设计中，所述根据所述对齐后的第一置信图像和所述对齐后的第二置信图像，将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理，得到所述第三深度图像，包括：根据所述对齐后的第一深度图像、所述对齐后的第二深度图像、所述对齐后的第一置信图像以及所述对齐后的第二置信图像进行卷积处理，得到注意力矩阵；将所述对齐后的第一深度图像、所述对齐后的第二深度图像、所述对齐后的第一置信图像以及所述对齐后的第二置信图像分别与所述注意力矩阵相乘，得到第一注意力图像、第二注意力图像、第三注意力图像以及第四注意力图像；利用反卷积核对所述第一注意力图像、所述第二注意力图像、所述第三注意力图像以及所述第四注意力图像进行反卷积处理，得到所述第三深度图像。

可以看出，利用对齐后的第一置信图像和对齐后的第二置信图像可以辅助对齐后的第一深度图像和对齐后的第二深度图像更加精确的融合，从而提高第三深度图像的信噪比。

在一些可能的设计中，基于卷积神经网络将所述第一深度图像和所述第二深度图像进行对齐处理，以及将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理。

在一些可能的设计中，所述方法还包括：获取训练样本，其中，所述训练样本包括第一深度图像样本和所述第一深度图像样本对应的置信图像样本；将所述训练样本输入所述卷积神经网络，得到修复后的深度图像；获取所述训练样本对应的第二深度图像样本，其中，所述第二深度图像样本的信噪比大于所述第一深度图像样本的信噪比；根据所述修复后的深度图像和所述第二深度图像样本，确定所述卷积神经网络对所述训练样本进行图像修复时的修复误差；根据所述修复误差，调整所述卷积神经网络的网络参数。

在一些可能的设计中，所述训练样本为所述摄像头在曝光时间小于第一阈值的情况下，在至少两个不同的位置处拍摄得到的；所述第二深度图像样本为所述摄像头在曝光时间大于第二阈值的情况下拍摄得到的深度图像。

在一些可能的设计中，在所述获取训练样本之前，所述方法还包括：获取原始训练样本，其中，所述原始训练样本包括原始深度图像样本和所述原始深度图像样本对应的置信图像样本，所述原始训练样本为所述摄像头在曝光时间小于第一阈值的情况下，在同一位置处拍摄得到的；在所述原始训练样本包括的样本中添加三维扰动，生成所述训练样本；所述第二深度图像样本为所述摄像头在曝光时间大于第二阈值的情况下拍摄得到的，或所述第二深度图像样本为将所述原始深度图像样本进行加权平均计算得到的。

第二方面，本申请提供了一种图像修复装置，所述装置包括获取单元、对齐单元以及融合单元，

所述获取单元用于获取第一深度图像和第二深度图像；

所述对齐单元用于将所述第一深度图像和所述第二深度图像进行对齐处理，得到对齐后的第一深度图像和对齐后的第二深度图像；

所述融合单元用于将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理，得到融合后的第三深度图像，其中，所述第三深度图像的信噪比大于所述第一深度图像的信噪比，所述第三深度图像的信噪比大于所述第二深度图像的信噪比。

实施第二方面所述描述的装置，可以将获得的低信噪比的第一深度图像和低信噪比的第二深度图像修复为高信噪比的第三深度图像，从而大大提高深度图像的质量。进一步地，可以将第三深度图像应用于自动驾驶、三维重建等对深度图像的精度要求较高的场景中。

第三方面，本申请提供了一种电子设备，包括处理器和存储器，所述处理器执行所述存储器中的代码执行如第一方面描述的方法。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被硬件执行以实现如第一方面描述的方法。

第五方面，本申请提供了一种计算机程序产品，其特征在于，包括计算机程序，当所述计算机程序被计算设备读取并执行时，使得所述计算设备执行如第一方面描述的方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图作简单地介绍。

图1是本申请提供的一种飞行时间(Time of flight,TOF)技术的原理示意图；

图2是本申请提供的一种图像修复方法的流程示意图；

图3是本申请提供的一种卷积神经网络的结构示意图；

图4是本申请提供的一种图像修复装置的结构示意图；

图5是本申请提供的另一种图像修复装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解本申请提供的技术方案，首先，对本申请涉及的应用场景进行简要说明。

近年来，随着机器视觉的快速发展，深度图像在多个领域中都体现了重要的应用价值，比如说，安防监控、资源勘探、自动驾驶、三维重建等等。主流技术中，深度图像的获取方式包括双目视觉、结构光技术、基于激光雷达的三维点云技术以及TOF技术。

以TOF的技术实现为例，请参见图1，图1示出了TOF技术的原理示意图。其中，图像采集设备110是利用TOF技术进行成像的设备(例如TOF相机、TOF摄像头)。当图像采集设备110向目标物体120发射高频光信号(例如近红外光)时，高频光信号遇到目标物体之后，将会反射给图像采集设备110，由此可以计算出发射的光信号与接收到的反射光信号之间的相位差，然后将其换算为目标物体120与图像采集设备110之间的距离，便可得到目标物体的深度数据以及深度图像。其中，深度图像是指将目标物体与图像采集设备之间的距离作为像素值的图像，能够直接反映目标物体的几何形状。

但是，TOF技术在测量远距离物体或者高吸光率物体时，可能会得到低信噪比的深度图像。例如，当图像采集设备110与目标物体120之间的距离较远时，图像采集设备110接收到的反射光信号强度减小，且反射光信号中存在的噪声信号明显增多，此时通过计算得到的深度数据的精度将大大降低。当目标物体120的吸光率较高(例如，深色物体)时，由图像采集设备110发射给目标物体120的大部分光信号将被吸收，因此图像采集设备110接收到的反射光信号强度较微弱，从而降低深度数据的准确性。

针对上述问题，本申请提供了一种图像修复方法，该方法能够将多个低信噪比深度图像修复为一个高信噪比深度图像，从而清晰地显示图像中的物体。

请参见2，图2是本申请提供的一种图像修复方法，具体包括以下步骤：

S101、获取第一深度图像和第二深度图像。

在本申请具体的实施例中，第一深度图像和第二深度图像可以是摄像头在不同位置对目标物体拍摄得到的深度图像，第一深度图像和第二深度图像也可以是摄像头在同一位置对目标物体拍摄得到的深度图像，此处不作具体限定。

在本申请具体的实施例中，第一深度图像和第二深度图像均为低信噪比的深度图像。其中，低信噪比的深度图像是指深度图像中包含较多的噪声，具体可以表现为图像模糊、图像部分缺失等等。例如，深度相机在短曝光时间(小于或者等于400微秒)下对目标物体进行拍摄而得到的深度图像为低信噪比的深度图像；或者深度相机的功率较小且深度相机距离目标物体较远时，也可能拍摄出低信噪比的深度图像；又或者目标物体为深色物体时，也可能拍摄出低信噪比的深度图像。

S102、将第一深度图像和第二深度图像进行对齐处理，得到对齐后的第一深度图像和对齐后的第二深度图像。

在本申请具体的实施例中，在将第一深度图像和第二深度图像进行对齐处理之前，上述方法还包括：获取第一深度图像对应的第一置信图像、第二深度图像对应的第一置信图像。其中，第一置信图像指示第一深度图像的置信度，第二置信图像指示第二深度图像的置信度。

在一个示例中，置信图像可以是振幅图像。振幅图像中的像素点表征了对应的深度图像的像素点的光强信息，振幅图像中像素点的像素值越大，表示该像素点对应的深度信息越精确。例如，第一振幅图像(第一置信图像)中的像素点表征了第一深度图像的像素点的光强信息，假设第一振幅图像包括第一像素点和第二像素点，第一深度图像包括第三像素点和第四像素点，第一像素点与第三像素点对应，第二像素点与第四像素点对应。若第一像素点的像素值大于第二像素点的像素值，则说明第三像素点反映的深度信息比第四像素点反映的深度信息精确。以TOF相机为例，第一深度图像、第二深度图像、第一置信图像以及第二置信图像可以是这样得到的：TOF相机向目标物体发射第一激光信号之后，会接收到由目标物体反射的第二激光信号，从而得到一帧测量数据。其中，该帧测量数据包括TOF相机向目标物体发射第一激光信号的时刻、TOF相机接收到由第二激光信号的时刻。TOF相机根据该帧测量数据，可以得到一个相位图。反复经过四次采样之后，TOF相机可以得到四帧测量数据，进而得到四个相位图。然后，TOF相机根据这四个相位图，计算得到第一激光信号与第二激光信号之间的相位差，从而确定目标物体与TOF相机之间的距离，并生成第一深度图像。TOF相机还对这四个相位图中对应像素点的像素进行平均值计算，从而得到第一置信图像。当第一置信图像中低置信度像素点的数量高于预设数量时，第一深度图像为低信噪比图像。其中，低置信度像素点是指像素点的像素值低于预设阈值，也就是说，该像素点表征的光强小于预设光强。应理解，第二深度图像和第二置信图像的获取过程与第一深度图像和第一置信图像的获取过程类似，此处不再展开赘述。

在本申请具体的实施例中，根据第一置信图像和第二置信图像，将第一深度图像和第二深度图像进行对齐处理，从而得到对齐后的第一深度图像和对齐后的第二深度图像。

在一更具体的实施例中，根据第一置信图像和第二置信图像，确定对齐卷积核的位移参数；利用对齐卷积核对第一深度图像和第二深度图像分别进行卷积处理，得到对齐后的第一深度图像和对齐后的第二深度图像。S103、将对齐后的第一深度图像和对齐后的第二深度图像进行融合处理，得到融合后的第三深度图像。

其中，第三深度图像的信噪比大于第一深度图像的信噪比，且第三深度图像的信噪比大于第二深度图像的信噪比。相较于第一深度图像和第二深度图像，第三深度图像为高信噪比的深度图像。其中，高信噪比的深度图像是指深度图像中包含较少的噪声，具体可表现为图像清晰、图像完整等等。例如，深度相机在长曝光时间(大于或者等于3000微秒)下对目标物体进行拍摄而得到的深度图像为高信噪比的深度图像。

在本申请具体的实施例中，在将对齐后的第一深度图像和对齐后的第二深度图像进行融合处理之前，上述方法还包括：利用对齐卷积核对第一置信图像和所述第二置信图像分别进行卷积处理，得到对齐后的第一置信图像和对齐后的第二置信图像。

在本申请具体的实施例中，根据对齐后的第一置信图像和对齐后的第二置信图像，将对齐后的第一深度图像和对齐后的第二深度图像进行融合处理，得到所述第三深度图像。

在一更具体的实施例中，根据对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像以及对齐后的第二置信图像进行卷积处理，得到注意力矩阵；然后，将对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像以及对齐后的第二置信图像分别与注意力矩阵相乘，得到第一注意力图像、第二注意力图像、第三注意力图像以及第四注意力图像；之后，利用反卷积核对第一注意力图像、第二注意力图像、第三注意力图像以及第四注意力图像进行反卷积处理，得到第三深度图像。

在本申请具体的实施例中，基于卷积神经网络(Convolutional Neural Network,CNN)将第一深度图像与第二深度图像进行对齐处理(S102)，以及将对齐后的第一深度图像和第二深度图像进行融合处理(S103)。下面结合图3示出的CNN详细说明S102-S103的具体过程。以图3为例，CNN具体可以包括对齐模块210和融合模块220。其中，

对齐模块210：

将第一深度图像、第二深度图像、第一置信图像以及第二置信图像输入对齐模块210，经过对齐模块210的对齐处理，得到对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像及对齐后的第二置信图像。

在本申请具体的实施例中，对齐模块210包括卷积层和激活函数。卷积层与激活函数可以通过级联的方式进行连接，也可以是多个对齐卷积核之后连接一个激活函数等等，此处不作具体限定。其中，卷积层用于提取第一深度图像、第二深度图像、第一置信图像以及第二置信图像的特征，并将提取到的特征进行对齐。激活函数可以是带泄露线性整流函数(Leaky Rectified Linear Unit,Leaky ReLU)，从而有效缓解特征提取过程中出现的特征过拟合现象，并得到更深层次的图像特征信息。

在一个示例中，卷积层的数量可以是一个或者多个，卷积层可以为普通卷积层，也可以为可变卷积层。下面以卷积层为可变卷积层为例，介绍第一深度图像和第二深度图像的对齐过程：

可变卷积层包括对齐卷积核，该对齐卷积核为可变形卷积核。可变形卷积核是指：在卷积核的每个采样点的当前位置P处都增加一个位移变量ΔP，使得卷积核的每个采样点的采样范围由P扩大为P+ΔP，也就是说，可变形卷积核可以在当前位置附近随意的采样，而不再局限于当前位置，从而扩大了感受野。

在本申请具体的实施例中，根据第一置信图像和第二置信图像，确定上述对齐卷积核中每个采样点的位移变量。这是因为：置信图像中每个像素点的像素值能够反映出目标物体反射给摄像头的光强信息，因此相较于深度图像，深度图像对应的置信图像能够表征出更加明显的轮廓信息，那么对齐卷积核便可以根据轮廓的位移变化学习到深度图像之间的位移变化，从而监督深度图像之间的对齐。

举例说明，第一深度图像是TOF相机在位置P1对目标物体进行拍摄得到的，第二深度图像是TOF相机在位置P2对目标物体进行拍摄得到的。根据第一置信图像和第二置信图像确定的目标物体的轮廓，可以得到目标物体从位置P1→位置P2，那么第一深度图像与第二深度图像之间的位移变化为位置P1→位置P2，从而确定ΔP。利用对齐卷积核将第一深度图像和第一置信图像和第二深度图像进行卷积处理时，可以将第一深度图像的位置进行调整，使得第一深度图像从位置P1移动到位置P2，从而使得第一深度图像与第二深度图像对齐。同样的，利用对齐卷积核还可以将第一置信图像的位置进行调整，使得第一置信图像从位置P1移动到位置P2，从而使得第一置信图像与第二置信图像对齐。需要说明的，第一深度图像与第一置信图像对应，第二深度图像与第二置信图像对应，因此第一深度图像与第一置信图像对齐，第二深度图像与第二置信图像对齐。

需要说明的，当卷积层为普通卷积层时，普通卷积层中包括对齐卷积核，该对齐卷积核为标准的卷积核。标准的卷积核是指：卷积核具有固定的形状(例如，正方形)，标椎的卷积核将感受野局限于当前采样点。利用普通卷积层也可以实现第一深度图像与第二深度图像的对齐处理，此处不再展开赘述。

融合模块220：

将对齐模块210输出的对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像以及对齐后的第二置信图像输入到融合模块220中，经过融合模块220的融合处理之后，得到第三深度图像。

在本申请具体的实施例中，融合模块220包括注意力层和反卷积层。注意力层中引入了注意力机制，用于增强感兴趣区域的特征，从而得到注意力特征。反卷积层用于对注意力层提取到的注意力特征进行反卷积处理，从而得到第三深度图像。

在一个示例中，注意力层中分别引入了时间维度上的注意力机制、通道维度上的注意力机制、空间维度上的注意力机制以及置信度维度上的注意力机制。下面以置信度维度上的注意力机制为例，介绍置信度维度上的注意力特征的提取过程：将对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像及对齐后的第二置信图像执行卷积处理以及激活函数(例如，Leaky ReLU)处理，得到置信度注意力矩阵，然后将对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像及对齐后的第二置信图像分别与置信度注意力矩阵相乘，得到第一注意力特征、第二注意力特征、第三注意力特征以及第四注意力特征。类似的，可以分别得到对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像及对齐后的第二置信图像在时间维度上的注意力特征，对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像及对齐后的第二置信图像在通道维度上的注意力特征，对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像及对齐后的第二置信图像在空间维度上的注意力特征。

在一个示例中，将上述时间维度上的注意力特征、通道维度上的注意力特征、空间维度上的注意力特征以及置信度维度上的注意力特征输入反卷积层，经过反卷积层的反卷积处理之后，得到第三深度图像。其中，反卷积层包括反卷积核，反卷积层中反卷积核的数量、大小可以与卷积层中对齐卷积核的数量、大小相同，从而更好地融合出第三深度图像。

应理解，上述CNN仅仅作为一种举例，在实际应用中，CNN还可以是其他的形式，例如，除了上述的对齐模块210和融合模块220，CNN还可以包括预处理模块，预处理模块用于将预处理后的第一深度图像、预处理后第二深度图像、预处理后第一置信图像以及预处理后第二置信图像输入到对齐模块210。预处理可以包括图像平滑、归一化等等，此处不作具体限定。又例如，对齐模块210中卷积层和激活函数的数量可以是一个或者多个，每个卷积层中卷积核的数量、大小、形状等也不作具体限定，对齐模块210中还可以包括池化层、全连接层等等。又例如，融合模块220中注意力层、反卷积层的数量可以是一个或者多个，注意力层中可以包括更多的卷积核和激活函数等等，此处不作具体限定。

需要说明的，本申请将深度图像和置信图像输入CNN中进行图像修复，从而得到信噪比更高的深度图像。在实际应用中，也可以将深度图像对应的点云图像和置信图像输入CNN中进行图像修复，还可以是直接将深度数据输入CNN中，并在CNN中根据深度数据得到深度图像及深度图像对应的置信图像，从而完成图像修复工作，等等，此处不作具体限定。

前述内容详细介绍了利用训练好的卷积神经网络将第一深度图像和第二深度图像修复为第三深度图像的过程。但是，在图像修复之前，还需要对卷积神经网络进行训练，具体过程如下：

步骤一，获取训练样本。其中，训练样本包括第一深度图像样本和第一深度图像样本对应的置信图像样本。

步骤二，获取训练样本对应的第二深度图像样本。其中，第二深度图像样本的信噪比大于第一深度图像样本的信噪比。

在一个示例中，训练样本为摄像头在曝光时间小于第一阈值(即前述内容中的短曝光时间)的情况下，在至少两个不同的位置处进行拍摄得到的。第二深度图像样本为摄像头在曝光时间大于第二阈值(即前述内容中的长曝光时间)的情况下进行拍摄得到的深度图像

在另一个示例中，在获取训练样本之前，还获取了原始训练样本。其中，原始训练样本包括原始深度图像样本和原始深度图像样本对应的置信图像样本，原始训练样本为摄像头在曝光时间小于第一阈值的情况下，在同一位置处拍摄得到的。然后，在原始训练样本包括的样本中添加三维扰动，从而生成训练样本；第二深度图像样本为摄像头在曝光时间大于第二阈值的情况下拍摄得到的，或第二深度图像样本为将原始深度图像样本进行加权平均计算得到的。

应理解，当摄像头在同一位置处对目标物体进行拍摄时，需要对拍摄得到的原始训练样本包括的样本添加三维扰动，目的是为了模拟实际拍摄过程中可能出现的抖动现象，例如，手持相机时出现的抖动，从而可以提高利用CNN修复图像的准确性。

还应理解，训练样本也可以是摄像头在不同位置处拍摄远距离(例如，物体与摄像头的距离大于第三阈值)的物体时得到的，相应地，第二深度图像样本可以是摄像头拍摄近距离(例如，物体与摄像头的距离小于第四阈值)的物体时得到的。训练样本还可以是根据摄像头在同一位置处拍摄深色物体得到的原始训练样本得到的，相应地，第二深度图像还可以是将原始训练样本中的原始深度图像样本进行加权平均得到的，等等，此处不作限定。

步骤三，将训练样本输入CNN，得到修复后的深度图像。

步骤四，根据修复后的深度图像和第二深度图像样本，确定CNN对训练样本进行图像修复时的修复误差。

步骤五，根据修复误差，调整CNN的网络参数。

在本申请具体的实施例中，当训练样本样本输入到CNN时，输出的修复后的深度图像应尽可能地接近第二深度图像样本。因此在训练之前需要预先定义损失函数(lossfunction)，然后将CNN根据训练样本输出的修复后的深度图像与第二深度图像样本进行比较，通过不断调整CNN中的网络参数(例如，卷积核的权重)，使得CNN能够更好地根据训练样本还原出第二深度图像样本，直至二者的差异值满足损失函数，此时记录并更新CNN中的网络参数，从而得到训练好的CNN。

上述图像修复方法，通过对低信噪比的第一深度图像和低信噪比的第二深度图像进行对齐处理，可以得到对齐后的第一深度图像和对齐后的第二深度图像；然后将对齐后的第一深度图像和对齐后的第二深度图像进行融合处理，从而得到高信噪比的第三深度图像。因此，利用上述方法可以提高深度图像的信噪比，从而大大提高深度图像的质量。进一步地，可以将上述方法获得的第三深度图像应用于自动驾驶、三维重建等对深度图像的精度要求较高的场景中，从而提高自动驾驶的安全性、三维重建的准确率等等。

结合上述方法实施例，下面介绍本申请实施例涉及的相关装置。本申请提供的图像修复装置的部署灵活，可部署在边缘环境，具体可以是边缘环境中的一个边缘计算设备或运行在一个或者多个边缘计算设备上的软件系统。边缘环境指在地理位置上距离目标物体较近的，用于提供计算、存储、通信资源的边缘计算设备集群。举例来说，在自动驾驶的场景中，图像修复装置可以是车载电脑或者车载系统。在车辆内外安装多个监控摄像头，监控摄像头可以将道路的实时图像以及车内人员的实时图像通过网络发送至图像修复装置，图像修复装置可以执行本申请提供的图像修复方法，从而得到高信噪比深度图像，以方便车辆根据路况信息及时做出相应的调整。

本申请提供的图像修复装置还可以部署在云环境，云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台，所述云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)，云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。图像修复装置可以是云数据中心的服务器，也可以是创建在云数据中心中的虚拟机，还可以是部署在云数据中心中的服务器或者虚拟机上的软件系统，该软件系统可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。例如，在自动驾驶的场景中，图像修复装置可以是交通云平台中的一台服务器。在车辆内外安装多个监控摄像头，监控摄像头可以将道路的实时图像以及车内人员的实时图像通过网络发送至图像修复装置，图像修复装置可以执行本申请提供的图像修复方法，从而得到高信噪比深度图像，以方便车辆根据路况信息及时做出相应的调整。

本申请提供的图像修复装置内部的单元模块也可以有多种划分，各个模块可以是软件模块，也可以是硬件模块，也可以部分是软件模块部分是硬件模块，本申请不对其进行限制。图4为一种示例性的划分方式，如图4所示，本申请提供的图像修复装置包括获取单元310、对齐单元320、融合单元330以及训练单元340。下面分别介绍每个功能单元的功能。

获取单元310用于获取第一深度图像和第二深度图像。

对齐单元320用于将第一深度图像和第二深度图像进行对齐处理，得到对齐后的第一深度图像和对齐后的第二深度图像。

融合单元330用于将对齐后的第一深度图像和对齐后的第二深度图像进行融合处理，得到融合后的第三深度图像。其中，第三深度图像的信噪比大于第一深度图像的信噪比，第三深度图像的信噪比大于第二深度图像的信噪比。

在本申请具体的实施例中，在将第一深度图像和第二深度图像进行对齐处理之前，获取单元310还用于获取第一深度图像对应的第一置信图像、第二深度图像对应的第一置信图像。其中，第一置信图像指示第一深度图像的置信度，第二置信图像指示第二深度图像的置信度。对齐单元320具体用于根据第一置信图像和第二置信图像，将第一深度图像和第二深度图像进行对齐处理，从而得到对齐后的第一深度图像和对齐后的第二深度图像。

在本申请具体的实施例中，对齐单元320具体用于：根据第一置信图像和第二置信图像，确定对齐卷积核的位移参数；利用对齐卷积核对第一深度图像和第二深度图像分别进行卷积处理，得到对齐后的第一深度图像和对齐后的第二深度图像。

在本申请具体的实施例中，在将对齐后的第一深度图像和对齐后的第二深度图像进行融合处理之前，对齐单元320还用于利用对齐卷积核对第一置信图像和第二置信图像分别进行卷积处理，得到对齐后的第一置信图像和对齐后的第二置信图像。融合单元330具体用于根据对齐后的第一置信图像和对齐后的第二置信图像，将对齐后的第一深度图像和对齐后的第二深度图像进行融合处理，得到第三深度图像。

在本申请具体的实施例中，融合单元330具体用于：根据对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像以及对齐后的第二置信图像进行卷积处理，得到注意力矩阵；将对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像以及对齐后的第二置信图像分别与注意力矩阵相乘，得到第一融合图像、第二融合图像、第三融合图像以及第四融合图像；利用反卷积核对第一融合图像、第二融合图像、第三融合图像以及融合图像进行反卷积处理，得到第三深度图像。

在本申请具体的实施例中，基于CNN将第一深度图像和第二深度图像进行对齐处理，以及将对齐后的第一深度图像和对齐后的第二深度图像进行融合处理。

在本申请具体的实施例中，图像修复装置还包括训练单元340。获取单元310用于获取训练样本，其中，训练样本包括第一深度图像样本和第一深度图像样本对应的置信图像样本；训练单元340用于将训练样本输入CNN，得到修复后的深度图像；获取单元310用于获取训练样本对应的第二深度图像样本，其中，第二深度图像样本的信噪比大于第一深度图像样本的信噪比；训练单元340用于根据修复后的深度图像和第二深度图像样本，确定CNN对训练样本进行图像修复时的修复误差；训练单元340用于根据修复误差，调整CNN的网络参数。

在本申请具体的实施例中，训练样本为摄像头在曝光时间小于第一阈值的情况下，在至少两个不同的位置处拍摄得到的；第二深度图像样本为摄像头在曝光时间大于第二阈值的情况下拍摄得到的深度图像。

在本申请具体的实施例中，在将训练样本输入卷积神经网络之前，获取单元310用于获取原始训练样本，其中，原始训练样本包括原始深度图像样本和原始深度图像样本对应的置信图像样本，原始训练样本为摄像头在曝光时间小于第一阈值的情况下，在同一位置处拍摄得到的。获取单元310还用于在原始训练样本包括的样本中添加三维扰动，生成训练样本。第二深度图像样本为摄像头在曝光时间大于第二阈值的情况下拍摄得到的，或第二深度图像样本为将原始深度图像样本进行加权平均计算得到的。

为了简便起见，本实施例并没有对CNN的结构、利用CNN将第一深度图像和第二深度图像进行对齐处理，以及将对齐后的第一深度图像和对齐后的第二深度图像进行融合处理的过程以及CNN的训练过程展开描述，具体请参见图2、图3及其相关描述，此处不再展开赘述。

上述技术方案中，图像修复装置中的对齐单元通过将第一深度图像、第二深度图像、第一置信图像以及第二置信图像进行对齐处理，得到对齐后的第一深度图像、对齐后的第二深度图像、对齐后的第一置信图像以及对齐后的第二置信图像，然后融合单元再将上述对齐后的图像进行融合，从而得到信噪比更高的第三深度图像。因此，利用上述图像修复装置提高深度图像的信噪比，从而大大提高深度图像的质量。进一步地，可以将上述方法获得的第三深度图像应用于自动驾驶、三维重建等对深度图像的精度要求较高的场景中，从而提高自动驾驶的安全性、三维重建的准确率等等。

请参见图5，图5是本申请提供的电子设备的结构示意图，电子设备包括处理器410、通信接口420和存储器430。其中，处理器410、通信接口420以及存储器430通过总线440进行耦合。

处理器410可以是中央处理器(Central Processing Unit,CPU)，通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件(Programmable Logic Device,PLD)、晶体管逻辑器件、硬件部件或者其任意组合。处理器410可以实现或执行结合本申请公开内容所描述的各种示例性的方法。具体的，处理器410读取存储器430中存储的程序代码，并与通信接口420配合执行S101-S103的部分或者全部步骤以及CNN的训练步骤。

通信接口420可以为有线接口或无线接口，用于与其他模块或设备进行通信，有线接口可以是以太接口、控制器局域网络接口、局域互联网络(Local InterconnectNetwork,LIN)以及FlexRay接口，无线接口可以是蜂窝网络接口或使用无线局域网接口等。

存储器430可以包括易失性存储器，例如随机存取存储器(Random AccessMemory,RAM)；存储器430也可以包括非易失性存储器，例如只读存储器(Read OnlyMemory,ROM)、快闪存储器、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid State Drive,SSD)，存储器430还可以包括上述种类的存储器的组合。存储器230可以存储有程序代码以及程序数据。其中，程序代码由图4示出的图像修复装置中的部分或者全部单元的代码组成，例如，获取单元310的代码和对齐单元320的代码、融合单元330的代码以及训练单元340的代码。程序数据由图4示出的图像修复装置在运行程序的过程中产生的数据，例如，对齐后的第一深度图像、第一注意力图像等等。

总线440可以是控制器局域网络(Controller Area Network,CAN)或其他实现内部总线。总线440可以分为地址总线、数据总线、控制总线等。为了便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需要说明的，图5仅仅是本申请实施例的一种可能的实现方式，实际应用中，电子设备还可以包括更多或更少的部件，这里不作限制。关于本申请实施例中或未描述的内容，可参见前述图2、图3及其实施例中的相关阐述，这里不再赘述。图5所示的电子设备还可以是多个计算节点构成的计算机集群，本申请不作具体限定。

上述电子设备的存储器中存储有训练好的CNN，处理器通过将获得的第一深度图像、第二深度图像、第一置信图像、第二置信图像输入训练好的CNN，从而得到第三深度图像。因此，利用上述电子设备能够提高深度图像的信噪比，从而大大提高深度图像的质量。进一步地，可以将上述电子设备获得的第三深度图像应用于自动驾驶、三维重建等对深度图像的精度要求较高的场景中，从而提高自动驾驶的安全性、三维重建的准确率等等。

本申请还提供了一种计算机存储介质，上述计算机存储介质存储有计算机程序，上述计算机程序被硬件(例如处理器等)执行，以实现本申请提供的图像修复方法中的部分或者全部步骤。

本申请还提供一种计算机程序产品，当所述计算机程序产品在处理器上运行时，以实现本申请提供的图像修复方法中的部分或者全部步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(如，同轴电缆、光纤、数字用户线)或无线(如，红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(如，软盘、存储盘、磁带)、光介质(如，DVD)、或者半导体介质(如，SSD)等。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，也可以通过其它的方式实现。例如以上所描述的装置实施例仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可结合或者可以集成到另一个系统，或一些特征可以忽略或不执行。另一点，所显示或讨论的相互之间的间接耦合或者直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者，也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例的方案的目的。

另外，在本申请各实施例中的各功能单元可集成在一个处理单元中，也可以是各单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质例如可包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或光盘等各种可存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像修复方法，其特征在于，所述方法包括：

获取第一深度图像和第二深度图像；

2.根据权利要求1所述的方法，其特征在于，在将所述第一深度图像和第二深度图像进行对齐处理之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一置信图像和所述第二置信图像，将所述第一深度图像和所述第二深度图像进行对齐处理，从而得到所述对齐后的第一深度图像和所述对齐后的第二深度图像，包括：

根据所述第一置信图像和所述第二置信图像，确定对齐卷积核的位移参数；

利用所述对齐卷积核对所述第一深度图像和所述第二深度图像分别进行卷积处理，得到所述对齐后的第一深度图像、所述对齐后的第二深度图像。

4.根据权利要求3所述的方法，其特征在于，在将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理之前，所述方法还包括：

利用所述对齐卷积核对所述第一置信图像和所述第二置信图像分别进行卷积处理，得到对齐后的第一置信图像和对齐后的第二置信图像；

所述将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理，得到融合后的第三深度图像，包括：

根据所述对齐后的第一置信图像和所述对齐后的第二置信图像，将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理，得到所述第三深度图像。

5.根据权利要求4所述的方法，其特征在于，所述根据所述对齐后的第一置信图像和所述对齐后的第二置信图像，将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理，得到所述第三深度图像，包括：

根据所述对齐后的第一深度图像、所述对齐后的第二深度图像、所述对齐后的第一置信图像以及所述对齐后的第二置信图像进行卷积处理，得到注意力矩阵；

将所述对齐后的第一深度图像、所述对齐后的第二深度图像、所述对齐后的第一置信图像以及所述对齐后的第二置信图像分别与所述注意力矩阵相乘，得到第一注意力图像、第二注意力图像、第三注意力图像以及第四注意力图像；

利用反卷积核对所述第一注意力图像、所述第二注意力图像、所述第三注意力图像以及所述第四注意力图像进行反卷积处理，得到所述第三深度图像。

6.根据权利要求1-5任一项所述的方法，其特征在于，基于卷积神经网络将所述第一深度图像和所述第二深度图像进行对齐处理，以及将所述对齐后的第一深度图像和所述对齐后的第二深度图像进行融合处理。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取训练样本，其中，所述训练样本包括第一深度图像样本和所述第一深度图像样本对应的置信图像样本；

将所述训练样本输入所述卷积神经网络，得到修复后的深度图像；

获取所述训练样本对应的第二深度图像样本，其中，所述第二深度图像样本的信噪比大于所述第一深度图像样本的信噪比；

根据所述修复后的深度图像和所述第二深度图像样本，确定所述卷积神经网络对所述训练样本进行图像修复时的修复误差；

根据所述修复误差，调整所述卷积神经网络的网络参数。

8.根据权利要求7所述的方法，其特征在于，所述训练样本为所述摄像头在曝光时间小于第一阈值的情况下，在至少两个不同的位置处拍摄得到的；所述第二深度图像样本为所述摄像头在曝光时间大于第二阈值的情况下拍摄得到的深度图像。

9.根据权利要求7所述的方法，其特征在于，在所述获取训练样本之前，所述方法还包括：

获取原始训练样本，其中，所述原始训练样本包括原始深度图像样本和所述原始深度图像样本对应的置信图像样本，所述原始训练样本为所述摄像头在曝光时间小于第一阈值的情况下，在同一位置处拍摄得到的；

在所述原始训练样本包括的样本中添加三维扰动，生成所述训练样本；

所述第二深度图像样本为所述摄像头在曝光时间大于第二阈值的情况下拍摄得到的，或所述第二深度图像样本为将所述原始深度图像样本进行加权平均计算得到的。

10.一种图像修复装置，其特征在于，所述装置包括获取单元、对齐单元以及融合单元，

所述获取单元用于获取第一深度图像和第二深度图像；

11.一种电子设备，其特征在于，包括处理器和存储器，所述处理器执行所述存储器中的代码执行如权利要求1至9任一所述的方法。

12.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被硬件执行以实现权利要求1至9任一项所述的方法。

13.一种计算机程序产品，其特征在于，包括计算机程序，当所述计算机程序被计算设备读取并执行时，使得所述计算设备执行权利要求1至9任一所述的方法。