CN113066115A

CN113066115A - 深度预测网络训练方法、装置、服务器和可读存储介质

Info

Publication number: CN113066115A
Application number: CN202110467332.0A
Authority: CN
Inventors: 保长存; 朱海涛; 陈智超; 江坤; 户磊
Original assignee: Beijing Dilusense Technology Co Ltd; Hefei Dilusense Technology Co Ltd
Current assignee: Hefei Dilusense Technology Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-02
Anticipated expiration: 2041-04-28
Also published as: CN113066115B

Abstract

本发明实施例涉及神经网络领域，公开了一种深度预测网络训练方法、装置、服务器和可读存储介质。本发明中，获取样本图像和所述样本图像对应的标签深度图像，所述标签深度图像标注前景区域；将所述样本图像输入预设的深度预测网络，对所述样本图像的前景区域进行深度图预测，生成预测深度图；根据预设的损失函数，结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛，以获得训练完成的深度预测网络。使得提高预测深度图的精确性。

Description

深度预测网络训练方法、装置、服务器和可读存储介质

技术领域

本发明实施例涉及神经网络领域，特别涉及深度预测网络训练方法、装置、服务器和可读存储介质。

背景技术

随着机器学习的迅速发展，机器模仿人类从图像中一定程度上估计物体距离远近已成为可能，即机器能在一定程度上对单张图像进行深度预测并获得深度图。深度图在三维重建、机器人导航等领域应用较广；同时，深度图由于提供了物体远近的信息，有助于检测、分割等计算机视觉领域。

传统的深度图预测网络的预测方法，会对待预测图像中的全部内容进行深度预测，但在许多种类的待预测图像中会存在有非重点区域，如在人脸图像中的背景区域为非重点区域。如果对待预测图像中的全部内容进行预测，会存在过多噪声影响预测结果的精确性。

发明内容

本发明实施方式的目的在于提供一种深度预测网络训练方法、装置、服务器和可读存储介质，使得提高预测深度图的精确性。

为解决上述技术问题，本发明的实施方式提供了一种深度预测网络的训练方法，包括以下步骤：

获取样本图像和所述样本图像对应的标签深度图像，所述标签深度图像标注前景区域；

将所述样本图像输入预设的深度预测网络，对所述样本图像的前景区域进行深度图预测，生成预测深度图；

根据预设的损失函数，结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛，以获得训练完成的深度预测网络。

本发明的实施方式还提供了一种深度预测网络的训练装置，包括：

样本获取模块，用于获取样本图像和所述样本图像对应的标签深度图像，所述标签深度图像标注前景区域；

网络预测模块，用于将所述样本图像输入预设的深度预测网络，对所述样本图像的前景区域进行深度图预测，生成预测深度图；

网络训练模块，用于根据预设的损失函数，结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛，以获得训练完成的深度预测网络。

本发明的实施方式还提供了一种服务器，包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行任一所述的深度预测网络的训练方法。

本发明的实施方式还提供了一种计算机可读存储介质，所述计算机程序被处理器执行时实现任一项所述的深度预测网络的训练方法。

本发明实施方式提供的深度预测网络训练方法、装置、服务器和可读存储介质，在对图像进行深度预测时，只对图像的前景区域进行深度预测，训练深度预测网络时也只对前景区域进行训练，即有针对性地训练网络，忽略在深度图中较为无效的背景区域，使得深度预测网络生成的深度预测图仅对前景区域进行预测，使预测更具有针对性；同时，由于忽略了背景区域，避免了背景区域中无效的像素影响前景区域深度的预测，使得预测深度图中前景区域的预测效果更具有准确性；并且，由于深度预测网络只对前景区域的预测进行学习，无需对图像的全部内容进行学习，降低了网络学习的难度。

另外，本发明实施方式提供的深度预测网络训练方法，所述将所述样本图像输入预设深度预测网络，对所述样本图像的前景区域进行深度图预测，生成预测深度图，包括：通过所述预设深度预测网络第一网络分支生成所述样本图像的全景预测深度图，所述全景预测深度图为对前景和背景的深度预测；通过所述预设深度预测网络第二网络分支生成所述样本图像的分类前景掩模，所述分类前景掩模中前景的类别为1，背景的类别为0；根据所述全景预测深度图和所述分类前景掩模生成所述预测深度图，所述预测深度图忽略背景区域。由于在生成的预测深度图中忽略背景，使得在后续训练时只针对前景区域进行学习，学习更具有针对性。

另外，本发明实施方式提供的深度预测网络训练方法，所述将所述样本图像输入预设的深度预测网络，对所述样本图像的前景区域进行深度图预测，生成预测深度图后，还包括：根据所述标签深度图像和所述预测深度图获得最小噪声距离阈值，当像素的距离超过所述最小噪声距离阈值时，将所述像素视为噪声；将所述标签深度图像和所述预测深度图中距离大于所述最小噪声距离阈值的像素权重置为0。忽略距离较远的像素对，使得生成的预测深度图更加准确。

另外，本发明实施方式提供的深度预测网络训练方法，所述获取样本图像和所述样本图像对应的标签深度图像后，还包括：通过分割网络检测所述样本图像的前景区域；根据所述样本图像的前景区域标注所述标签深度图像。对样本图像和标签深度图像的前景区域也进行区分和标记，使得训练时更具有针对性。

另外，本发明实施方式提供的深度预测网络训练方法，所述深度预测网络还集成分类器，所述分类器用于对图像身份进行区分。是深度预测网络生成的深度图更具有区分性。

另外，本发明实施方式提供的深度预测网络训练方法，所述基于所述标签深度图像对所述预测深度图进行训练直至收敛，包括：对所述预测深度图计算回归损失、光滑损失、细节损失、身份损失和前景分类损失直至收敛。通过计算光滑损失，使得生成预测深度图分布更加连续，提高了预测深度图的质量。

另外，本发明实施方式提供的深度预测网络训练方法，所述通过所述预设深度预测网络生成所述样本图像的全景预测深度图，包括：通过所述预设深度预测网络中预设节点生成多个节点预测深度图；将所述多个节点预测深度图相加作为所述全景预测深度图。由于融合了多节点的预测深度图，提高了深度预测网络的预测效果。

另外，本发明实施方式提供的深度预测网络训练方法，所述根据预设的损失函数，结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛后，还包括：将测试样本输入收敛后的所述深度预测网络进行测试；当所述深度预测网络生成的测试预测深度图为针对所述测试样本前景区域进行的深度预测时，将收敛后的所述预测深度网络作为所述训练完成的深度预测网络。对收敛后的深度预测网络进行测试，使得深度预测网络最终可以实现对图像前景区域的预测，提高预测的准确性。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明的实施方式提供的深度预测网络的训练方法的流程图；

图2是本发明的实施方式提供的深度预测网络的训练方法的测试阶段示意图；

图3是本发明的实施方式提供的深度预测网络的训练装置的结构示意图；

图4是本发明的实施方式提供的服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的实施方式涉及一种深度预测网络训练方法。具体流程如图1所示。

步骤101，获取样本图像和所述样本图像对应的标签深度图像，所述标签深度图像标注前景区域；

在本实施方式中，样本图像为人脸彩色图，标签深度图像为人脸真值深度图，样本图像与标签深度图相对应。

将样本图像和标签深度图对齐，检测出样本图像的关键点。检测关键点的方法可以为基于模型的ASM(Active Shape Model)算法或基于级联形状回归CPR(Cascaded poseregression)等，此处对检测关键点的方法不做限制。将检测出来的关键点与预先设置的模板关键点进行仿射变换，并将样本图像和标签深度图剪裁至预设尺寸。对关键点进行仿射变换以避免样本图像中人像姿态过分扭曲，影响深度图预测的准确性。检测的关键点与预先设置的关键点数量相同，例如设置模板关键点为五个关键点，分别为左眼、右眼、鼻子、左嘴角和右嘴角，则对样本图像检测的关键点为上述五个位置的关键点。

可选地，通过分割网络检测所述样本图像的前景区域；根据所述样本图像的前景区域标注所述标签深度图像。具体地，通过分割网络，检测出样本图像的前景掩模(Mask_seg)，若样本图像为人脸图像，则前景区域为图像中的人头区域，包括人脸、脖子和头发。根据检测出的前景掩模在标签深度图像中标注处前景区域，使得后续在回归训练时，针对前景区域进行学习。

在对深度预测网络进行训练前，需要对样本图像和标签深度图做预处理：将样本图像转化为灰度图，并归一化至[-1,1]；对标签深度图做中心化处理，具体为计算出标签深度图的平均深度，将标签深度图的整体减去平均深度实现中心化，同时根据前景区域的深度，统一截断背景区域的深度，以使标签深度图只保留前景区域的细节。例如，前景区域的深度为[-200,200]，则将背景区域统一截断为200。

步骤102，将所述样本图像输入预设的深度预测网络，对所述样本图像的前景区域进行深度图预测，生成预测深度图；

预设的深度预测网络采用图像分隔(unet)结构的编码-解码网络模型(Encoder-Decoder)，将样本图像转化的灰度图输入深度预测网络中。其中，Encoder网络为常见的深度学习网络，如卷积神经网络(Convolutional Neural Networks,CNN)。

可选地，通过所述预设深度预测网络第一网络分支生成所述样本图像的全景预测深度图，所述全景预测深度图为对前景和背景的深度预测；通过所述预设深度预测网络第二网络分支生成所述样本图像的分类前景掩模，所述分类前景掩模中前景的类别为1，背景的类别为0；根据所述全景预测深度图和所述分类前景掩模生成所述预测深度图，所述预测深度图忽略背景区域。

具体地，Decoder网络分为两个分支，第一网络分支用于生成样本图像的全景预测深度图(Depth_regression)，全景预测深度图对输入的样本图像做整体预测；第二网络分支用于生成分类前景掩模(Mask_pred)，分类前景掩模为通过二分类算法计算获得，其中，前景区域的类别为1，背景区域的类别为0；将全景预测深度图和分类前景掩模相乘作为预测深度图(Depth_pred)，如公式1所示。由于二分类的前景掩模中背景区域置为0，输出的预测深度图忽略背景细节。

Depth_pred＝Mask_pred*Depth_regression (1)

可选地，对于第一网络分支，通过所述预设深度预测网络中预设节点生成多个节点预测深度图；将所述多个节点预测深度图相加作为所述全景预测深度图。具体地，在深度预测网络对样本图像进行预测时，不同节点会处理不同分辨率的特征图，将不同分辨率的特征图卷积生成节点预测深度图并剪裁至预设尺寸；将多个节点预测深度图相加作为全景预测深度图。由于在网络中融合了多分辨率多尺度的特征，充分发掘网络对深度的预测效果，使得预测结果更为准确。

步骤103，根据预设的损失函数，结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛，以获得训练完成的深度预测网络。

对预测深度图计算损失值，根据损失值调整深度预测网络直至收敛。

可选地，对所述预测深度图计算回归损失、光滑损失、细节损失、身份损失和前景分类损失直至收敛。

可选地，根据所述标签深度图像和所述预测深度图获得最小噪声距离阈值，当像素的距离超过所述最小噪声距离阈值时，将所述像素视为噪声；将所述标签深度图像和所述预测深度图中距离大于所述最小噪声距离阈值的像素权重置为0。具体为：为了保证训练的优化方向放在前景区域，忽略预测深度图与标签深度图中像素距离过大的像素点，计算获得最小噪声距离阈值(thres)，如公式2所示。

其中，thres为最小噪声距离阈值，

为预测深度图，

为标签深度图像，W1_i为二分类权重。

需要说明的是，在计算thres时，禁止梯度传播，保证thres数值不发生梯度变化。

具体地，标签深度图像中深度是200或前景掩模中是0的为背景区域，将背景区域的权重置为0。

在计算回归损失时，考虑像素距离带来的误差，因此将标签深度图像和预测深度图中距离大于最小噪声距离阈值的像素权重(W2_i)置为0，如公式4所示。

综上，回归损失(Loss_rec)计算如公式5所示。

除对预测深度图计算回归损失外，还利用二分类权重(W1_i)和像素权重(W2_i)进行细节损失计算，细节损失(Loss_gradient)如公式6所示。

其中，Gradient为梯度计算。

为了让生成的预测深度图中深度过渡更为平滑，分布更为连续，对预测深度图计算光滑损失，光滑损失函数(Loss_smooth)如公式7所示。

Loss_smooth＝∑_i|Gradient(Depth_pred)_i (7)

由于第二网络分支通过二分类算法计算前景区域获得分类前景掩模，在深度预测网络中前景掩模的通道为2，预测深度图中每个像素由于前景二分类导致的前景分类损失(Loss_cl)如公式8所示。

其中，Loss_cl为前景分类损失，N为总像素数量，softmax_cross_entropy为交叉熵计算，

为分类前景掩模，

为前景掩模。

可选地，深度预测网络还集成分类器，所述分类器用于对图像身份进行区分。

具体地，根据标签深度图像和所述标签深度图像对应的ID，在深度预测网络中集成识别网络(M)和分类器(Classfier)，用于根据ID对预测深度图(Depth_pred)做出区分，避免多张预测深度图之间一定程度的同质化。

身份损失函数(Loss_id)如公式9所示。

Loss_id＝softmax_cross_entropy(Claaafier(M(Depth_pred)),ID) (9)

通过计算回归损失、光滑损失、细节损失、身份损失和前景分类损失获得损失值，根据损失值修正深度预测网络，直至损失计算达到收敛，将收敛的深度预测网络作为训练完成的深度预测网络。

本发明实施方式相对于相关技术而言，在对图像进行深度预测时，只对图像的前景区域进行深度预测，训练深度预测网络时也只对前景区域进行训练，即有针对性地训练网络，忽略在深度图中较为无效的背景区域，使得深度预测网络生成的深度预测图仅对前景区域进行预测，使预测更具有针对性；同时，由于忽略了背景区域，避免了背景区域中无效的像素影响前景区域深度的预测，使得预测深度图中前景区域的预测效果更具有准确性；并且，由于深度预测网络只对前景区域的预测进行学习，无需对图像的全部内容进行学习，降低了网络学习的难度。另外，深度预测网络中融合了多分辨率多尺度的特征，充分发掘了深度预测网络对深度图的预测能力，并且忽略了距离过大的像素点，使得网络学习更加稳定，预测效果更加准确；另外，由于集成分类器使得预测深度图更具有区分性；另外，计算光滑损失使得预测深度图分布连续，较标签深度图像没有空洞，提高了预测深度图的生成质量。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明实施方式涉及一种深度预测网络训练方法，应用上述训练得到的深度预测网络进行测试。

将测试样本输入收敛后的所述深度预测网络进行测试；当所述深度预测网络生成的测试预测深度图为针对所述测试样本前景区域进行的深度预测时，将收敛后的所述预测深度网络作为所述训练完成的深度预测网络。测试方法如图2所示。

具体地，获取测试样本，其中，测试样本为彩色图；将测试样本输入收敛后的深度预测网络；通过收敛后的深度预测网络输出测试样本对应的测试预测深度图。

需要说明是，当收敛后的深度预测网络生成的测试预测深度图为针对测试样本前景区域进行的深度预测时，深度预测网络训练完成。也就是说，深度预测网络生成的预测深度图是仅对待处理彩色图的前景区域进行了预测，背景区域为统一的值，以便与前景区域的深度预测进行区分。可选地，深度预测网络集成了分类器，因此生成的预测深度图根据待处理彩色图的ID做出了有区分性的处理。

由于本实施方式应用了上述训练得到的深度预测网络，因此其他实施方式提到的相关细节可以应用于本实施方式，本实施方式提到的相关细节也可应用于其他实施方式，此处不再一一赘述。

本发明实施方式涉及一种深度预测网络的训练装置，如图3所示，包括：

样本获取模块301，用于获取样本图像和所述样本图像对应的标签深度图像，所述标签深度图像标注前景区域；

网络预测模块302，用于将所述样本图像输入预设的深度预测网络，对所述样本图像的前景区域进行深度图预测，生成预测深度图；

网络训练模块303，用于根据预设的损失函数，结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛，以获得训练完成的深度预测网络。

不难发现，本实施方式为与其他实施方式相对应的系统装置实施例，本实施方式可与其他实施方式互相配合实施。其他实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在其他实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明实施方式涉及一种服务器，如图4所示，包括：

至少一个处理器401；以及，与所述至少一个处理器401通信连接的存储器402；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施方式。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种深度预测网络的训练方法，其特征在于，包括：

2.根据权利要求1所述的深度预测网络的训练方法，其特征在于，所述将所述样本图像输入预设深度预测网络，对所述样本图像的前景区域进行深度图预测，生成预测深度图，包括：

通过所述预设深度预测网络第一网络分支生成所述样本图像的全景预测深度图，所述全景预测深度图为对前景和背景的深度预测；

通过所述预设深度预测网络第二网络分支生成所述样本图像的分类前景掩模，所述分类前景掩模中前景的类别为1，背景的类别为0；

根据所述全景预测深度图和所述分类前景掩模生成所述预测深度图，所述预测深度图忽略背景区域。

3.根据权利要求2所述的深度预测网络的训练方法，其特征在于，所述通过所述预设深度预测网络生成所述样本图像的全景预测深度图，包括：

通过所述预设深度预测网络中预设节点生成多个节点预测深度图；

将所述多个节点预测深度图相加作为所述全景预测深度图。

4.根据权利要求1所述的深度预测网络的训练方法，其特征在于，所述根据预设的损失函数，结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛，包括：

对所述预测深度图计算回归损失、光滑损失、细节损失、身份损失和前景分类损失直至收敛。

5.根据权利要求1-4任一所述的深度预测网络的训练方法，其特征在于，所述将所述样本图像输入预设的深度预测网络，对所述样本图像的前景区域进行深度图预测，生成预测深度图后，还包括：

根据所述标签深度图像和所述预测深度图获得最小噪声距离阈值，当像素的距离超过所述最小噪声距离阈值时，将所述像素视为噪声；

将所述标签深度图像和所述预测深度图中距离大于所述最小噪声距离阈值的像素权重置为0。

6.根据权利要求1-4任一所述的深度预测网络的训练方法，其特征在于，所述获取样本图像和所述样本图像对应的标签深度图像后，还包括：

通过分割网络检测所述样本图像的前景区域；

根据所述样本图像的前景区域标注所述标签深度图像。

7.根据权利要求1-4任一所述的深度预测网络的训练方法，其特征在于，所述根据预设的损失函数，结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛后，还包括：

将测试样本输入收敛后的所述深度预测网络进行测试；

当所述深度预测网络生成的测试预测深度图为针对所述测试样本前景区域进行的深度预测时，将收敛后的所述预测深度网络作为所述训练完成的深度预测网络。

8.根据权利要求1-4任一所述的深度预测网络的训练方法，其特征在于，所述深度预测网络还集成分类器，所述分类器用于对图像身份进行区分。

9.一种服务器，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8任一所述的深度预测网络的训练方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的深度预测网络的训练方法。