CN114170438A

CN114170438A - 神经网络训练的方法、电子设备及计算机存储介质

Info

Publication number: CN114170438A
Application number: CN202111307529.4A
Authority: CN
Inventors: 常青玲; 崔岩; 杨鑫; 廖洹浩; 王煜涵
Original assignee: China Germany Zhuhai Artificial Intelligence Institute Co ltd; Wuyi University
Current assignee: China Germany Zhuhai Artificial Intelligence Institute Co ltd; Wuyi University
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-03-11
Also published as: WO2023077809A1

Abstract

本发明公开了一种神经网络训练的方法、电子设备及计算机存储介质，包括如下步骤：获取预设的训练样本图；获取预测特征图；基于预设的边界感知深度损失函数，以预设的训练样本图为输入，预测特征图为输出，训练神经网络模型，得到训练后的神经网络模型。本发明通过设置边界感知深度损失函数，能够有效提高神经网络模型在训练过程中对边界区域的关注度，保证边界区域的深度和深度梯度具备良好的正确性，从而有效抑制平滑现象，避免出现边界区域模糊的问题，最终能够有效提高边界预测精度。

Description

神经网络训练的方法、电子设备及计算机存储介质

技术领域

本发明涉及人工智能领域，特别涉及一种神经网络训练的方法、电子设备及计算机存储介质。

背景技术

随着深度学习的发展，各类视觉估算任务的准确度以及效率都得到长足的进步。单目深度估计是指从单张图片中预测每个像素点对应的深度，但是单张图片中的几何信息有限，因此限制了其深度估计的准确度。单目深度估计被广泛应用于多个领域，如室内场景建模、SLAM和机器人自动导航等领域。

相关技术中，单目深度估计主要采用深度神经网络来对目标图像进行预测，深度神经网络在深度信息的提取方面表现出较好的性能，但是在信息提取的过程中存在明显的场景结构信息丢失，场景中的结构信息即特征的损失会导致深度图模糊，最终会降低预测精度，还会导致投影点云时出现像素漂移等一系列问题，影响预测结果的准确性。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提供了一种神经网络训练的方法、电子设备及计算机存储介质，能够避免出现边界模糊的问题，提高预测结果的准确性。

本发明第一方面实施例提供一种神经网络训练的方法，包括如下步骤：

获取预设的训练样本图；

获取预测特征图；

基于预设的边界感知深度损失函数，以预设的训练样本图为输入，预测特征图为输出，训练神经网络模型，得到训练后的神经网络模型。

根据本发明的上述实施例，至少具有如下有益效果：通过设置边界感知深度损失函数，能够有效提高神经网络模型在训练过程中对边界区域的关注度，保证边界区域的深度和深度梯度具备良好的正确性，从而有效抑制平滑现象，避免出现边界区域模糊的问题，最终能够有效提高边界预测精度，应用于单目深度估计时，可有效提高预测结果的准确性。

根据本发明第一方面的一些实施例，基于预设的边界感知深度损失函数，以预设的训练样本图为输入，预测特征图为输出，训练神经网络模型，得到训练后的神经网络模型，包括：

将预设的训练样本图输入到神经网络模型进行特征提取，得到多个尺度特征图；

将尺度特征图进行卷积压缩，得到多个第一中间特征图；

将每一第一中间特征图进行连接并融合，得到全局特征图；

将全局特征图上采样到预设尺度并进行卷积压缩，得到第二中间特征图；

将第二中间特征图进行池化缩小，得到第三中间特征图；

将第三中间特征图进行卷积压缩并激活，得到第四中间特征图；

将第四中间特征图进行反卷积恢复并激活，得到映射特征图；

将映射特征图与第二中间特征图进行乘积并进行反卷积恢复，以输出得到预测特征图；

根据预测特征图对应的输出值和预设的边界感知深度损失函数，计算得到损失函数值；

根据损失函数值与预设目标值调整神经网络模型的权重，对神经网络模型进行训练，直至损失函数值满足停止训练条件。

根据本发明第一方面的一些实施例，边界感知深度损失函数的计算公式为：

其中，ω是边界感知权重，d是真实深度，

是预测深度，α是感知因子。

根据本发明第一方面的一些实施例，边界感知权重的计算公式为：

其中，g_x是在真实深度图上的x尺度的梯度，g_y是真实深度图上的y尺度的梯度，

是预测深度图上的x尺度的梯度，

是预测深度图上y尺度的梯度，N是像素的总数；

是真实项，

是误差项。

根据本发明第一方面的一些实施例，将尺度特征图进行卷积压缩，得到多个第一中间特征图，包括：

采用具有至少一个卷积核的第一卷积层对每一尺度特征图均进行卷积压缩，得到多个低尺寸特征图；

将每一低尺寸特征图采样到相同的分辨率，得到多个第一中间特征图。

根据本发明第一方面的一些实施例，将每一第一中间特征图进行连接并融合，得到全局特征图，包括：

采用融合层将每一第一中间特征图进行连接并融合，得到全局特征图；其中融合层包括两个大小不同的卷积核。

根据本发明第一方面的一些实施例，将第二中间特征图进行池化缩小，得到第三中间特征图，包括：

通过平均池化层将第二中间特征图进行池化缩小，得到第三中间特征图。

根据本发明第一方面的一些实施例，将第三中间特征图进行卷积压缩并激活，得到第四中间特征图，包括：

采用第二卷积层对第三中间特征图进行卷积压缩并采用re l u函数进行非线性激活，得到第四中间特征图；其中，第二卷积层对应的卷积核大小为1。

本发明第二方面实施例提供一种电子设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现第一方面任意一项的神经网络训练的方法。

由于第二方面实施例的电子设备应用第一方面任意一项的神经网络训练的方法，因此具有本发明第一方面的所有有益效果。

根据本发明第三方面实施例提供的一种计算机存储介质，存储有计算机可执行指令，计算机可执行指令用于执行第一方面任意一项的神经网络训练的方法。

由于第三方面实施例的计算机存储介质可执行第一方面任意一项的神经网络训练的方法，因此具有本发明第一方面的所有有益效果。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施例的神经网络训练的方法的主要步骤图；

图2是本发明实施例的神经网络训练的方法中得到神经网络模型的步骤图；

图3是本发明实施例的神经网络模型的工作原理图；

图4是图3中场景理解模块的工作原理图；

图5是图3中尺度变换模块的工作原理图。

附图标记：

场景理解模块100、尺度变换模块200。

具体实施方式

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。此外，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

单目深度估算大多都致力于提升深度预测的精度，而忽略了场景结构信息的完整性，在投影点云时会导致像素偏移，影响预测结果的准确性。

下面参照图1至图5描述本发明的神经网络训练的方法、设备及计算机存储介质。

如图1所示，根据本发明第一方面实施例的一种神经网络训练的方法，包括如下步骤：

步骤S100、获取预设的训练样本图；

步骤S200、获取预测特征图；

步骤S300、基于预设的边界感知深度损失函数，以预设的训练样本图为输入，预测特征图为输出，训练神经网络模型，得到训练后的神经网络模型。

通过设置边界感知深度损失函数，能够有效提高神经网络模型在训练过程中对边界区域的关注度，保证边界区域的深度和深度梯度具备良好的正确性，从而有效抑制平滑现象，避免出现边界区域模糊的问题，最终能够有效提高边界预测精度，应用于单目深度估计时，可有效提高预测结果的准确性。

具体的，步骤S300，包括以下步骤：

步骤S310、预设的训练样本图输入到神经网络模型进行特征提取，得到多个尺度特征图。具体的，利用编码器对待处理图像进行编码，然后输入到神经网络模型中，从而提取获得多个的尺度特征图。

步骤S320、将所有的尺度特征图均进行卷积压缩，获得多个第一中间特征图。即采用卷积的方式对每个尺度特征图进行压缩。

步骤S330、将每一第一中间特征图进行连接并融合，获得全局特征图。具体的，连接各个第一中间特征图后，通过融合层进行融合，从而获得具备全局场景结构信息的全局特征图，能够有效避免低级特征丢失。

步骤S340、将全局特征图上采样到预设尺度并进行卷积压缩，得到第二中间特征图，能够满足不同尺度的转换需求。

步骤S350、将第二中间特征图进行池化缩小，得到第三中间特征图，池化缩小的过程中，第二中间特征图被处理为单个像素。

步骤S360、将第三中间特征图进行卷积压缩并激活，得到第四中间特征图。

步骤S370、将第四中间特征图进行反卷积恢复并激活，得到映射特征图。

步骤S380、将映射特征图与第二中间特征图进行乘积并进行反卷积恢复，以输出得到预测特征图。具体的，预测特征图被发送到各个相应的解码步骤，并进行联合解码。

步骤S390、根据预测特征图对应的输出值和预设的边界感知深度损失函数(Boundary Aware Depth loss，BAD)，计算得到损失函数值。

判断损失函数值与预设目标值的比较结果是否满足停止训练条件，若不满足则调整神经网络模型的权重，并重复执行步骤S310至步骤S390对神经网络模型进行训练；若满足则直接得到训练好的神经网络模型。

通过聚合待处理图像的所有尺度特征，并将这些尺度特征融合得到具备全局场景信息的全局特征图，可有效避免场景结构信息丢失，且通过对全局特征图进行尺度转换，从而输出多个尺度下的特征图，能够满足神经网络训练的预测需求；在进行尺度转换时，不仅仅改变特征图像的分辨率，还会对全局特征图的信息进行尺度变换，从而避免引入太多冗余信息，减少模型参数，从而能有效提高预测性能；此外，引入边界感知深度损失函数，用于提高神经网络模型在训练过程中对边界区域的关注度，从而有效抑制平滑现象，最终能够有效提高边界预测精度。

采用本发明实施例训练好的神经网络模型对图像进行处理能够提取深度信息，从而实现单目深度估算。

可以理解的是，由于深度图中非边界区域的深度梯度变化较小，边界区域的深度梯度变化较大，而边界区域在整体场景中的占比较小，神经网络模型在进行训练的过程中容易错过这些占比较小的区域，导致模型在进行预测时得到梯度较小的边界区域，会形成深度图边界模糊的问题；边界模糊不仅会降低预测精度，而且还会在投影点云时出现像素漂移的现象，还能够会导致将物体误判为背景，最后赋予物品与背景相近的深度值。因此，在神经网络的训练过程中设置边界感知深度损失函数，能够有效提高神经网络模型对边界区域的关注度，从而使神经网络模型在训练的过程中更加注意到边界区域所带来的误差，从而有效提高深度预测的精度，避免产生深度图边界模糊的问题。

可以理解的是，在神经网络模型的训练过程中，设置边界感知深度损失函数进行训练迭代，满足以下方程：

其中，ω是边界感知权重，d是真实深度，

是预测深度，α是感知因子。如果边界感知权重很大，那么对应的像素就会为模型带来较大的损失迫使神经网络模型去关注这些区域。

具体的，在步骤S390中，将预测特征图中的预测深度值输入到边界感知深度损失函数中，获得损失函数值，通过将损失函数值和预设目标值进行比较，若不满足停止训练条件，则调整边界感知权重并重复执行步骤S310至步骤S390对神经网络模型进行训练，直至损失函数值满足停止训练的条件。预设目标值又称预设阈值，停止训练条件一般设置为损失函数值小于或等于预设阈值。可选地，设置α＝0.3，其中，边界感知权重的调整梯度可以通过Sobe l算子来获得。

可以理解的是，边界感知权重定义为：

是预测深度图上的x尺度的梯度，

是预测深度图上y尺度的梯度，N表示像素的总数；

是真实项，

是误差项。

当对应像素在真实深度图上有很大的梯度时，真实项则会变大；如果存在较大的梯度预测误差，则误差项会变大，并引导神经网络模型聚焦这些梯度误差较大的领域。当图像中的背景和物体深度同时过大或过小，即梯度误差较小深度误差较大时，通过产生较大的真实项，在即使梯度误差很小的情况下，也能够引导模型去关注这些领域。通过增大图像中物体边界区域在总体训练损失中的占比，从而有效抑制平滑现象，最终能够有效提高边界预测精度。

可以理解的是，步骤S320将所有尺度特征图进行卷积压缩，得到多个第一中间特征图，包括但不限于以下步骤：

步骤S321、使用具有至少一个卷积核的第一卷积层将各个尺度特征图均进行卷积压缩，得到多个低尺寸特征图；

步骤S322、将每一低尺寸特征图采样到相同的分辨率，得到多个第一中间特征图。

具体的，采用两个卷积核相同的第一卷积层来将各个尺度特征图压缩为通道减少的低尺寸特征图，再采用如二次缩放等方式将每个低尺度特征图采样到相同的分辨率，从而获得多个第一中间特征图，各个第一中间特征图的分辨率相同。

可以理解的是，步骤S330、将每一第一中间特征图进行连接并融合，得到全局特征图，包括但不限于以下步骤：

使用由两个大小不同的卷积核组成的融合层，将每一第一中间特征图进行连接并融合，得到全局特征图。在神经网络模型训练的过程中，融合层能够自适应地调整，训练后得到的神经网络模型能够自适应地融合第一中间特征图，获得具备全局场景信息的全局特征图。

可以理解的是，步骤S350中，第二中间特征图通过平均池化层进行池化缩小，将第二中间特征图处理为单个像素，从而获得第三中间特征图。

可以理解的是，步骤S360，将第三中间特征图进行卷积压缩并激活，得到第四中间特征图，包括但不限于以下步骤：

采用第二卷积层对第三中间特征图进行卷积压缩，并采用re l u函数进行非线性激活，得到第四中间特征图；其中，第二卷积层对应的卷积核大小为1*1。

可以理解的是，步骤S370，将第四中间特征图进行反卷积恢复并激活，得到映射特征图，包括但不限于以下步骤：

第四中间特征图通过卷积核为1*1的第三卷积层恢复来增加通道数，然后使用sigmoid函数进行激活，获得映射特征图。

具体的，映射特征图和第二中间特征图进行乘积以后，通过卷积恢复的方式来增加通道数。

在步骤S340至步骤S380中，对特征进行多次的压缩和恢复，并施加注意通道注意力机制，从而适应性调节对应的权重，最终所获的目标神经网络模块在获取全局特征图之后，可以对特征的尺度实现自适应的转换。

如图3至5所示，本发明实施例中的神经网络模型包括场景理解模块100和尺度变换模块200，场景理解模块100用于执行步骤S310至S330，尺度变换模块200用于执行步骤S340至S380。编码器对待处理图像进行编码之后输入到场景理解模块100，提取获得所有的尺度特征图，将尺度特征图进行卷积压缩获得第一中间特征图，连接各个第一中间特征图并通过融合层进行融合，场景理解模块100最终输出全局特征图；尺度变换模块200，用于对全局特征图采样到相同的尺度并进行卷积压缩获得第二中间特征图，再将第二中间特征图池化缩小为单个像素获得第三中间特征图，再将第三中间特征图进行卷积压缩并激活获得第四中间特征图，然后将第四中间特征图进行反卷积恢复并激活激活获得映射特征图，最后将第二中间特征图和映射特征图进行乘积并通过反卷积恢复获得预测特征图。

上述的场景理解模块100和尺度变换模块200均为神经网络模型的一部分，场景理解模块100和尺度变换模块200建立特征金字塔，配合边界感知深度损失函数的设置，能够解决深度图的边界模糊问题。

通过场景理解模块100获得待处理图像的所有尺度特征，并获得全局特征图，通过尺度变换模块200将全局特征图进行尺度转换，从而获得多尺度下的预测特征图。全局特征图的形成可避免场景结构信息发生丢失，能够确保预测所获深度图的准确度，通过尺度转换获得多尺度下的预测特征图，能够满足解码阶段的需求，同时避免向解码器引入太多的冗余信息而影响预测性能。

下面参考图1至图5，以一个具体的实施例结合神经网络模型的结构来详细描述本发明第一方面的神经网络训练的方法中的步骤S300。值得理解的是，下述描述仅是示例性说明，而不是对发明的具体限制。

如图4所示，步骤S310，预设的训练样本图输入到场景理解模块100，场景理解模块100提取获得所有的尺度特征图；步骤S321，如图3所示，场景理解模块100设置采样模块，采样模块使用两个卷积核大小为3*3的第一卷积层将每一尺度特征图卷积压缩至64个通道，获得低尺寸特征图；步骤S322，场景理解模块100中的采样模块通过二次缩放等方式将每个低尺度特征图采样到相同的分辨率来获得第一中间特征图，各个第一中间特征图的分辨率相同；步骤S330，采用融合层将每一第一中间特征图极性连接并融合，场景理解模块100最终输出128个通道的全局特征图，融合层即为图3中的融合模块，具体的，融合层包括两个卷积层，第一层的卷积核大小为5*5，第二层的卷积核大小为3*3。

如图5所示，步骤S340，尺度变换模块200使用卷积核大小为3*3的第一卷积层将全局特征图卷积压缩到64个通道，从而获得第二中间特征图；步骤S350，尺度变换模块200使用平均池化层将第二中间特征图处理为单个像素，从而获得第三中间特征图；步骤S360，尺度变换模块200使用卷积核大小为1*1的第二卷积层将第三中间特征图卷积压缩至32个通道，接着采用re l u函数进行非线性激活，从而获得第四中间特征图；步骤S370，尺度变换模块200采用卷积核大小为1*1的第三卷积层将第四中间特征图反卷积恢复至64个通道，接着采用s igmoid函数进行激活，从而获得映射特征图；步骤S380，尺度变换模块200将第二中间特征图和映射特征图进行乘积，接着采用卷积核大小为3*3的第一卷积层反卷积恢复至128个通道，最后获得预测特征图。

重复步骤S340至步骤S380能够变换获得不同尺度下的预测特征图。

在场景理解模块100和尺度变换模块200所组成的神经网络模型中，通过施加通道注意力来进行训练，训练过程中，具体使用边界感知深度损失作为损失函数来进行迭代训练。定义边界感知深度损失为：

其中，ω是边界感知权重，d是真实深度，

是预测深度，α是感知因子。可选地，设置α＝3，并使用Sobe l算子来提取梯度。如果边界感知权重很大，那么对应的像素就会为模型带来较大的损失，从而迫使神经网络模型去关注这些区域，最终达到增大边界区域在总体训练损失中占比的效果。

边界感知权重定义为：

是预测深度图上的x尺度的梯度，

是预测深度图上y尺度的梯度，N表示像素的总数；其中边界感知权重包括两项，这两项分别为：

是真实项，

是误差项。

当对应像素在真实深度图上有很大的梯度时，真实项则会变大；如果存在较大的梯度预测误差，则误差项会变大，并引导神经网络模型聚焦这些梯度误差较大的领域。当图像中的背景和物体深度同时过大或过小，即梯度误差较小深度误差较大时，通过产生较大的真实项，即使在梯度误差很小的情况下，也能够引导模型去关注这些领域。

另外，本发明第二方面实施例还提供了一种电子设备，该电子设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

处理器和存储器可以通过总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述第一方面实施例的神经网络训练方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的神经网络训练的方法，例如，执行以上描述的图2中的方法步骤S100至S300、方法步骤S310至S390。

以上所描述的设备实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的神经网络训练的方法，例如，执行以上描述的图1中的方法步骤S100至S300、方法步骤S310至S390。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。