CN112488104B

CN112488104B - 深度及置信度估计系统

Info

Publication number: CN112488104B
Application number: CN202011377446.8A
Authority: CN
Inventors: 张镇嵩; 周一韧; 李志豪; 许松岑
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2024-04-09
Anticipated expiration: 2040-11-30
Also published as: CN112488104A

Abstract

本申请涉及一种人工智能领域中用于深度估计和置信度预测的机器学习模型的训练方法。所述方法包括：获取带有真实深度标签的训练图像；将所述训练图像输入到待训练的机器学习模型得到深度估计多类别概率；根据所述深度估计多类别概率，分别生成所述训练图像的各个像素点的深度估计值和置信度；根据损失函数调整所述待训练的机器学习模型的模型参数，直到所述损失函数的输出满足预设优化条件，得到训练好的机器学习模型。

Description

深度及置信度估计系统

技术领域

本申请涉及人工智能领域，具体涉及用于深度估计和置信度预测的机器学习模型的训练方法，以及深度及置信度估计系统。

背景技术

深度神经网络(Deep Neural Network，DNN)能用于多种机器学习任务，包括图像分类、语音识别和医疗诊断等。但是，DNN在处理这些机器学习任务时面临预测结果不可靠的问题，也就是DNN提供的高概率的预测结果最后被证明是不准确的。为此，实际应用中需要解决机器学习模型可解释性方面的问题，也就是对DNN等机器学习模型的预测结果做出置信度估计或者相对的做出不确定性估计从而指示预测结果是否可能是错误的。换句话说，实际应用中除了通过训练好的机器学习模型得到针对特定任务的预测结果，还需要知道该机器学习模型的边界，也即在何种情况下预测结果是可靠的或者不可靠的从而有利于做出更好的决策。对预测结果的可靠性的估计称之为置信度估计，而相对地，对预测结果的不可靠性的估计称之为不确定性估计。置信度和不确定性是对系统可靠性进行评估的两个相对概念。置信度越高则不确定性越低。DNN的预测结果的不确定性一般来源于两个方面，一方面是训练数据的不准确性和模型自身限制从而导致训练好的DNN收敛于损失函数的局部最小值而不是全局最小值，另一方面是训练数据不能很好代表实际应用需求而用于训练的损失函数仅能使用现成的训练数据。

DNN的置信度估计或者不确定性估计在单目深度估计的应用中有重要意义。单目深度估计指的是通过单张图片(或者单目摄像机记录的视频里的帧图片)来估计图片中场景内各个物体到相机的距离，也即从给定的自然场景的拍摄图像中恢复出该拍摄图像对应的深度图。单目深度估计是理解场景内各物体间的几何关系和场景三维重建的关键步骤。单目深度估计的其中一个应用场景是相机自动对焦领域：使用相机进行拍照的时候，传统的对焦方法(例如，逆光，暗光，聚焦点远近切换范围大等)对焦过程缓慢但是精度较好，而基于马达调整的快速自动对焦方法对焦过程较快但是依赖于可靠的预测结果，因此需要对深度估计结果进行可靠性估计。单目深度估计的另一个应用场景是自动驾驶领域：自动驾驶系统具有自动避开障碍物的功能，而自动避障决策结果依赖于可靠的预测结果，且错误的自动避障决策可能引发重大事故，因此需要对预测结果进行可靠性估计。

现有技术中，用于单目深度估计的置信度预测方法有多种。其中，第一种置信度预测方法主要基于认知不确定性(Epistemic Uncertainty)，通过对相同模型的不同实例进行多次推理得到多次预测结果，再根据这些结果计算出均值和方差，以测量模型的不确定性，例如按一定概率丢弃神经网络模型中任意隐藏节点和连接的dropout算法，或者对相同模型进行不同初始化并训练不同实例的模型组合算法。但是，第一种置信度预测方法需要保存多份模型参数和进行多次推理和预测，具有以下缺点：过高的空间存储需求、过长的训练时间以及没有归一化的置信度。第二种置信度预测方法主要基于偶然不确定性(Aleatoric Uncertainty)，通过假设收集的数据具有符合拉普拉斯分布或者高斯分布的噪声，并相应设计对数形式的损失函数，通过最小化该损失函数来学习深度图和置信度图，以及该损失函数最小化时使得噪声越大的数据输入点被分配越低的权重。但是，第二种置信度预测方法要求在网络模型中设置两个单独的分支，一个输出预测的深度图，另一个输出相应的置信度图，具有以下缺点：额外的分支参数、未能充分考虑偶然不确定性以外的因素以及没有归一化的置信度。第三种置信度预测方法通过在推理阶段的图像增强变换(如颜色增强和图像左右翻转等)，然后进行多次推理并计算均值和方差，具有以下缺点：过长的推理时间以及没有归一化的置信度。第四种置信度预测方法使用概率体模型，给图像上每个像素点的每个可能的深度都给出一个概率估计，具有以下缺点：仅考虑单个深度的概率而无法整体上反映深度分布的混乱程度。

因此，现有技术中存在这样的技术难题，如何用单个网络模型从给定的单张图片估计出对应的深度图并给出相应的置信度图，并且克服现有技术中的缺点如保存多个模型参数、额外的分支参数、过长的训练时间、过长的推理时间以及没有归一化的置信度。

发明内容

本申请的目的在于，为了解决现有技术中存在的技术难题也即如何用单个网络模型从给定的单张图片估计出对应的深度图并给出相应的置信度图，通过说明书和权利要求书中提及的具体技术手段，从而实现了以下技术效果：通过共享的网络模型同步输出深度估计图和置信度图、仅需单次训练、无需额外分支参数、缩短的训练时间和推理时间以及具有归一化的置信度。

第一方面，本申请实施例提供了一种用于深度估计和置信度预测的机器学习模型的训练方法。所述方法包括：获取带有真实深度标签的训练图像；将所述训练图像输入到待训练的机器学习模型得到深度估计多类别概率，其中，所述深度估计多类别概率包括所述训练图像的像素点被归为预设多个深度类别的每一个深度类别的概率；根据所述深度估计多类别概率，分别生成所述训练图像的各个像素点的深度估计值和置信度；根据损失函数调整所述待训练的机器学习模型的模型参数，直到所述损失函数的输出满足预设优化条件，得到训练好的机器学习模型。其中，所述损失函数包括第一损失函数和第二损失函数。其中，所述第一损失函数用于整体上度量所述训练图像的各个像素点的误差，所述训练图像的各个像素点的每一个像素点的误差为该像素点的深度估计值与所述真实深度标签中该像素点的真实深度值的差值。其中，当所述第二损失函数的输出最小化时，所述训练图像的各个像素点的每一个像素点的置信度和该像素点的误差负相关。

第一方面所描述的技术方案，机器学习模型的输出结果有以下有益技术效果：深度估计的类别集中在真实类别附近分布，置信度与分类熵成负相关，深度估计值与对应的真实深度标签一致，一个数据集内统一的与误差呈负相关的置信度。

根据第一方面，在一种可能的实现方式中，所述第一损失函数是基于加权交叉熵的损失函数，所述基于加权交叉熵的损失函数采用对称的信息增益矩阵作为权重从而增强具有较小的误差的像素点在调整所述模型参数时的影响，所述信息增益矩阵的维度为所述预设多个深度类别的总数。如此，通过将信息增益矩阵作为权重从而增强具有较小的误差的像素点在调整所述模型参数时的影响，有利于改善置信度估计结果。

根据第一方面，在一种可能的实现方式中，所述第二损失函数是置信度排序损失函数，所述置信度排序损失函数比较所述训练图像的任意两个像素点各自的误差或者置信度。如此，有利于改善置信度估计结果。

根据第一方面，在一种可能的实现方式中，所述损失函数还包括第三损失函数，其中，所述第三损失函数是兴趣区域置信度损失函数，所述训练图像的一部分被选择为所述训练图像的兴趣区域，其中，与所述损失函数不包括所述第三损失函数的情况相比较，当包括所述第三损失函数的所述损失函数的输出满足所述预设优化条件时，所述兴趣区域内的像素点的置信度的平均值要较高。如此，针对图像中特定区域的置信度做出调整，从而突出兴趣区域内的置信度。

根据第一方面，在一种可能的实现方式中，所述兴趣区域置信度损失函数根据位于所述兴趣区域内的像素点的总数和位于所述兴趣区域内的像素点的置信度而确定。如此，针对图像中特定区域的置信度做出调整，从而突出兴趣区域内的置信度。

根据第一方面，在一种可能的实现方式中，所述方法还包括，选择所述训练图像的一部分为兴趣区域，提高所述兴趣区域内的像素点的交叉熵损失或者回归损失，并更新所述兴趣区域内的像素点的置信度。如此，针对图像中特定区域的置信度做出调整，从而突出兴趣区域内的置信度。

根据第一方面，在一种可能的实现方式中，所述置信度排序损失函数比较所述训练图像的任意两个像素点各自的误差，其中，当所述任意两个像素点各自的误差的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的误差一致。如此，针对图像中特定区域的置信度做出调整，从而突出兴趣区域内的置信度。

根据第一方面，在一种可能的实现方式中，所述置信度排序损失函数比较所述训练图像的任意两个像素点各自的置信度，其中，当所述任意两个像素点各自的置信度的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的置信度一致。如此，针对图像中特定区域的置信度做出调整，从而突出兴趣区域内的置信度。

根据第一方面，在一种可能的实现方式中，所述预设多个深度类别与多个离散化深度值一一对应，所述多个离散化深度值在预设区间内均匀分布或者非均匀分布，所述训练图像的各个像素点的每一个像素点的深度估计值根据该像素点在所述深度估计多类别概率中被归为所述预设多个深度类别的每一个深度类别的概率和各自对应的离散化深度值而确定。如此，通过离散化深度值，有利于分类操作和提高处理效率。

根据第一方面，在一种可能的实现方式中，所述训练图像的各个像素点的每一个像素点的置信度与该像素点的分类熵负相关，所述像素点的分类熵被定义为所述像素点在所述预设多个深度类别的每一个深度类别的概率与该概率的自然对数乘积之和的相反数。如此，通过离散化深度值，有利于分类操作和提高处理效率。

根据第一方面，在一种可能的实现方式中，所述置信度排序损失函数通过小批量采样策略从同一训练批次的所有训练图像的任意两个像素点采样后进行比较。如此，通过添加小批量采样的置信度排序损失函数，可以得到一个数据集内统一的与误差呈负相关的置信度。

根据第一方面，在一种可能的实现方式中，所述机器学习模型包括编解码网络模块，所述编解码网络模块对所述训练图像进行卷积操作得到特征图并对所述特征图进行解码操作得到所述深度估计多类别概率。如此，通过编解码操作得到了离散化的类别概率。

第二方面，本申请实施例提供了一种相机自动对焦设备。所述相机自动对焦设备将相机的拍摄图像输入深度估计机器学习模型，得到所述拍摄图像的对焦区域的深度估计结果和对应的置信度预测结果，并根据所述置信度预测结果判断是否对所述对焦区域进行基于马达调整的快速自动对焦。其中，所述深度估计机器学习模型按照前述方法训练得到。

第二方面所描述的技术方案，深度估计机器学习模型输出结果有以下有益技术效果：深度估计的类别集中在真实类别附近分布，置信度与分类熵成负相关，深度估计值与对应的真实深度标签一致，一个数据集内统一的与误差呈负相关的置信度。

第三方面，本申请实施例提供了一种自动导航设备。所述自动导航设备将行进方向上的拍摄图像输入深度估计机器学习模型，得到所述拍摄图像的深度估计结果和对应的置信度预测结果，并根据所述深度估计结果和所述置信度预测结果判断是否进行避障行为。其中，所述深度估计机器学习模型按照前述方法训练得到。

第三方面所描述的技术方案，深度估计机器学习模型输出结果有以下有益技术效果：深度估计的类别集中在真实类别附近分布，置信度与分类熵成负相关，深度估计值与对应的真实深度标签一致，一个数据集内统一的与误差呈负相关的置信度。

第四方面，本申请实施例提供了一种传感器评测设备。所述传感器评测设备将传感器提供的拍摄图像输入深度估计机器学习模型，得到所述拍摄图像的深度估计结果和对应的置信度预测结果，并根据所述置信度预测结果判断所述传感器的可信度。其中，所述深度估计机器学习模型按照前述方法训练得到。

第四方面所描述的技术方案，深度估计机器学习模型输出结果有以下有益技术效果：深度估计的类别集中在真实类别附近分布，置信度与分类熵成负相关，深度估计值与对应的真实深度标签一致，一个数据集内统一的与误差呈负相关的置信度。

第五方面，本申请实施例提供了一种芯片系统，其特征在于，所述芯片系统应用于电子设备；所述芯片系统包括一个或多个接口电路，以及一个或多个处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行前述方法。

第五方面所描述的技术方案，通过执行所述方法训练得到的机器学习模型输出结果有以下有益技术效果：深度估计的类别集中在真实类别附近分布，置信度与分类熵成负相关，深度估计值与对应的真实深度标签一致，一个数据集内统一的与误差呈负相关的置信度。

第六方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行前述的方法。

第六方面所描述的技术方案，通过执行所述方法训练得到的机器学习模型输出结果有以下有益技术效果：深度估计的类别集中在真实类别附近分布，置信度与分类熵成负相关，深度估计值与对应的真实深度标签一致，一个数据集内统一的与误差呈负相关的置信度。

第七方面，本申请实施例提供了一种深度及置信度估计系统。所述系统包括：编解码网络模块，其中，所述编解码网络模块对输入图像进行卷积操作得到特征图并对所述特征图进行解码操作得到深度估计多类别概率，所述深度估计多类别概率包括所述输入图像的像素点被归为预设多个深度类别的每一个深度类别的概率；深度估计模块，其中，所述深度估计模块根据所述深度估计多类别概率生成所述输入图像的深度图，所述深度图包括所述输入图像的各个像素点的深度估计值；以及置信度估计模块，其中，所述置信度估计模块根据所述深度估计多类别概率生成所述输入图像的置信度图，所述置信度图包括所述输入图像的各个像素点的置信度。其中，所述编解码网络模块通过以下方法训练得到：根据损失函数调整所述编解码网络模块的模型参数，直到所述损失函数的输出满足预设优化条件，其中，所述损失函数包括第一损失函数和第二损失函数，其中，所述第一损失函数是基于加权交叉熵的损失函数并用于整体上度量训练图像的各个像素点的误差，所述训练图像的各个像素点的每一个像素点的误差为该像素点的深度估计值与所述训练图像的真实深度标签中该像素点的真实深度值的差值；其中，所述第二损失函数是置信度排序损失函数，当所述置信度排序损失函数的输出最小化时，所述训练图像的各个像素点的每一个像素点的置信度和该像素点的误差负相关。

第七方面所描述的技术方案，编解码网络模块输出结果有以下有益技术效果：深度估计的类别集中在真实类别附近分布，置信度与分类熵成负相关，深度估计值与对应的真实深度标签一致，一个数据集内统一的与误差呈负相关的置信度。

附图说明

为了说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1示出了本申请实施例提供的用于深度估计和置信度预测的机器学习模型的训练方法的流程示意图。

图2示出了本申请实施例提供的深度及置信度估计系统的原理框图。

图3示出了本申请实施例提供的具有深度估计机器学习模型的相机自动对焦设备的原理框图。

图4示出了本申请实施例提供的具有深度估计机器学习模型的自动导航设备的原理框图。

图5示出了本申请实施例提供的具有深度估计机器学习模型的传感器评测设备的原理框图。

具体实施方式

本申请实施例为了解决现有技术中存在的技术难题也即如何用单个网络模型从给定的单张图片估计出对应的深度图并给出相应的置信度图，通过说明书和权利要求书中提及的具体技术手段，从而实现了以下技术效果：通过共享的网络模型同步输出深度估计图和置信度图、仅需单次训练、无需额外分支参数、缩短的训练时间和推理时间以及具有归一化的置信度。

本申请实施例可用于以下应用场景，包括但不限于：单目深度估计、相机自动对焦、自动驾驶、避障行为决策、传感器可靠性评测、多传感器融合系统等需要进行环境几何理解和深度估计的领域。

本申请实施例可以依据具体应用环境进行调整和改进，此处不做具体限定。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请的实施例进行描述。

请参阅图1，图1示出了本申请实施例提供的用于深度估计和置信度预测的机器学习模型的训练方法的流程示意图。具体地，该训练方法包括以下步骤。

步骤S102：获取带有真实深度标签的训练图像。

其中，训练数据可以是在实际中采集的数据而真实深度标签则是实地测量的基本事实(Ground Truth，GT)深度标签，或者可以是通用的带标签的训练数据集。训练图像可以是单张RGB图像，或者可以是多张RGB图像的集合，或者可以是单目摄像机所记录的视频中采样得到的单帧或者多帧图像，或者可以是通用训练图像集中的图像。这里可以依据具体应用环境进行调整和改进，此处不做具体限定。

步骤S104：将所述训练图像输入到待训练的机器学习模型得到深度估计多类别概率。

其中，所述深度估计多类别概率包括所述训练图像的像素点被归为预设多个深度类别的每一个深度类别的概率。所述预设多个深度类别与多个离散化深度值一一对应。所述多个离散化深度值在预设区间内均匀分布或者非均匀分布。所述训练图像的各个像素点的每一个像素点的深度估计值根据该像素点在所述深度估计多类别概率中被归为所述预设多个深度类别的每一个深度类别的概率和各自对应的离散化深度值而确定。

具体地，单张图像上共有N个像素点，分别标记为x₁、x₂至x_N。预设多个深度类别的总数为K个，与K个预设深度类别一一对应的多个离散化深度值分别标记为d₁、d₂至d_K。给定任意的像素x_i，该像素x_i的深度为d_j的概率表示为公式(1)。

p(d_j|x_i)(i＝1 to N，j＝1 to K) (1)

在公式(1)中，x_i表示给定像素点；d_j表示给定像素点的深度；p(d_j|x_i)表示给定像素点x_i的深度为d_j的概率也即该像素点x_i被归为与深度d_j对应的深度类别的概率；K表示预设多个深度类别的总数；N表示像素点总数。所述多个离散化深度值在预设区间内均匀分布或者非均匀分布。也就是说，原始的连续深度值可以被非均匀的离散化或者均匀的离散化后，从而分别转化成多个非均匀分布或者均匀分布的离散化深度值。

请继续参阅图1，假设原始的连续深度值被非均匀的离散化，也即所述多个离散化深度值在预设区间内非均匀分布，深度分成K个类别。假设预设区间的最小深度为α，最大深度为β，则可以对超过该预设区间的深度进行截断处理，也就是设定所有小于α的深度为α，而所有大于β的深度为β。在一种实施方式中，可以将深度值在以10为底的对数空间内进行分类，从而将原始的连续深度值进行非均匀的对数离散化，参考公式(2)和(3)。

l＝round((log₁₀(d)-log₁₀(α))/q) (2)

q＝(log₁₀(β)-log₁₀(α))/K (3)

在公式(2)和(3)中，α表示最小深度；β表示最大深度；K表示预设多个深度类别的总数也是多个离散化深度值的总数；l表示离散标签；d表示原始的连续深度值；q表示离散桶的宽度。通过公式(2)和(3)，原始的连续深度值通过截断处理和离散策略而转化成非均匀地分布在预设区间的K个离散化深度值。对应的，像素点的深度估计值参考公式(4)和(5)。

d_j＝log₁₀(α)+q*j (5)

在公式(4)和(5)中，q表示离散桶的宽度；d_j表示该给定像素点x_i的离散化深度值；D(x_i)表示像素点x_i的深度估计值；p(d_j|x_i)表示该像素点x_i的深度为d_j的概率也即该像素点x_i被归为与深度d_j对应的深度类别的概率；K表示预设多个深度类别的总数。结合公式(1)至(5)，所述训练图像的各个像素点的每一个像素点的深度估计值根据该像素点在所述深度估计多类别概率中被归为所述预设多个深度类别的每一个深度类别的概率和各自对应的离散化深度值而确定。具体地，根据公式(4)，需要对K个深度类别进行遍历，获得该像素点x_i在每一个深度类别下的离散化深度值d_j以及与该离散化深度值d_j对应的深度类别的概率，最后得出该像素点x_i的深度估计值D(x_i)。

应当理解的是，公式(2)和(3)是在以10为底的对数空间进行深度离散化和分类操作，则公式(4)和(5)也对应地采用以10为底的对数表达形式。深度离散化的对数空间和深度估计值的对数表达应该是一致的，也就是以同样的底数。在一种实施方式中，公式(2)和(3)可以采用2、6、8或者其他数字作为底数，则相应地公式(4)和(5)的表达形式也要调整并采用对应的数字作为底数。如此，通过非均匀的对数离散化，将深度值在对数空间进行分类，可以通过调整分类策略将更多的标签分配给更近的距离也即更浅的深度值，从而有利于提高近距离采集的像素相关的敏感度，也提高近距离下图像采集器采集图像的精度。另外，非均匀的对数离散化也能更好地体现人类感知中对近距离的深度感知更准确而对远距离的深度感知不那么准确的特性，有利于改善用户体验。

请继续参阅图1，假设原始的连续深度值被均匀的离散化，也即所述多个离散化深度值在预设区间内均匀分布，深度分成K个类别。假设预设区间的最小深度为α，最大深度为β，则可以对超过该预设区间的深度进行截断处理，也就是设定所有小于α的深度为α，而所有大于β的深度为β。在该预设区间内将原始的连续深度值均匀分成K类，参考公式(6)和(7)。

D(x_i)＝∑_jp(d_j|x_i)*d_j (7)

在公式(6)和(7)中，α表示最小深度；β表示最大深度；K表示预设多个深度类别的总数也是多个离散化深度值的总数；D(x_i)表示像素点x_i的深度估计值；p(d_j|x_i)表示该像素点x_i的深度为d_j的概率也即该像素点x_i被归为与深度d_j对应的深度类别的概率。结合公式(6)和(7)，所述训练图像的各个像素点的每一个像素点的深度估计值根据该像素点在所述深度估计多类别概率中被归为所述预设多个深度类别的每一个深度类别的概率和各自对应的离散化深度值而确定。具体地，根据公式(7)，需要对K个深度类别进行遍历，获得该像素点x_i在每一个深度类别下的深度值。如此，通过均匀的离散化，将深度值进行均匀分类，并通过截断处理将连续的深度值转化成离散的类别。

在一些示例性实施例中，还可以通过其他方式进行深度值离散化，包括但不限于，当原始深度值小于某个阈值时使用基于对数空间的非均匀分类，而超过该阈值时进行均匀分类。

步骤S106：根据所述深度估计多类别概率，分别生成所述训练图像的各个像素点的深度估计值和置信度。

其中，所述训练图像的各个像素点的每一个像素点的置信度与该像素点的分类熵负相关，所述像素点的分类熵被定义为所述像素点在所述预设多个深度类别的每一个深度类别的概率与该概率的自然对数乘积之和的相反数。分类熵的定义参考公式(8)。

E(x_i)＝-∑_jp(d_j|x_i)log(p(d_j|x_i)) (8)

在公式(8)中，p(d_j|x_i)表示给定像素点x_i的深度为d_j的概率也即给定像素点x_i被归为与深度d_j对应的深度类别的概率；公式左边是给定像素点x_i的分类熵。公式(8)中假设有K个分类类别，也即输出类别数为K，需要对K个类别进行遍历，在每一个类别上获得所述像素点在该类别的概率与该概率的自然对数。例如，给定像素点x_i在与深度d_j对应的深度类别的概率是p(d_j|x_i)，而该概率的自然对数则是log(p(d_j|x_i))，得到两者的乘积，最后再求和取相反数，就得到公式(8)的结果。也就是说，公式(8)所计算的给定像素点x_i的分类熵E(x_i)为所述像素点x_i在所述预设多个深度类别的每一个深度类别的概率与该概率的自然对数乘积之和的相反数。而当K个类别的概率都一样时，分类熵有最大概率，参考公式(9)。

在公式(9)中，左边输出结果就是给定像素点的最大可能分类熵。从公式(9)可知，通过对总数为K的所有类别进行遍历，最后结果是基于分类类别总数K而确定。结合公式(8)和(9)，指定像素点的分类熵以及最大可能分类熵，可以用来提供置信度相关的信息。下面举例说明，假设对特定像素点有四组输出结果，每组输出结果都是10个类别，每组输出结果的10个类别各自的类别概率之和满足总和为1的约束条件。这四组输出结果为：第一组的10个类别每个类别概率均为1/10；第二组有2个类别的类别概率为1/5，8个类别的类别概率为3/40；第三组有2个类别的类别概率为1/5，2个类别的类别概率为1/10，2个类别的类别概率为1/20；第四组有2个类别的类别概率为3/10，8个类别的类别概率为1/20。结合公式(8)可知，该特定像素点在这四组输出结果的分类熵分别为：第一组的分类熵为第二组的分类熵为/>第三组的分类熵为第四组的分类熵为

从上面四组输出结果各自对应的分类熵可以看出，第一组的分类熵是最大的，也意味着混乱程度最高，或者说信息量最小。相对的，第四组的分类熵最小，也意味着混乱程度最低。如此，通过公式(8)所示的分类熵的定义，可以体现不同的输出结果中的混乱程度。并且，相比于只考虑最大概率的做法，公式(8)可以体现具有相同最大概率类别而其它类别不同的输出结果的差异。比如第二组和第三组均有2个类别的类别概率为1/5，但是其它类别分布不一致，这一点也体现在第二组和第三组的分类熵不一样。

结合公式(8)和(9)，置信度的定义参考公式(10)。

C(x_i)＝(E_max(x_i)-E(x_i))/E_max(x_i) (10)

在公式(10)中，通过公式(8)得到的像素x_i分类熵和公式(9)得到的像素点x_i最大可能分类熵，可以得出左边的像素点x_i置信度C(x_i)。

步骤S108：根据损失函数调整所述待训练的机器学习模型的模型参数，直到所述损失函数的输出满足预设优化条件，得到训练好的机器学习模型。

其中，所述损失函数的输出满足预设优化条件可以是最小化的优化条件，例如要求损失函数的输出小于某个阈值，或者可以是迭代次数达到一定次数，或者其他判断标准。

其中，所述损失函数包括第一损失函数和第二损失函数。其中，所述第一损失函数是基于加权交叉熵(weighted-cross-entropy)的损失函数并用于整体上度量所述训练图像的各个像素点的误差，所述训练图像的各个像素点的每一个像素点的误差为该像素点的深度估计值与所述真实深度标签中该像素点的真实深度值的差值。所述基于加权交叉熵的损失函数采用对称的信息增益矩阵作为权重从而增强具有较小的误差的像素点在调整所述模型参数时的影响，所述信息增益矩阵的维度为所述预设多个深度类别的总数。应当理解的是，基于加权交叉熵的损失函数用于在训练过程中，实现深度估计值与真实深度标签中的真实深度值保持一致，也因此需要度量深度估计值和真实深度值的差距。结合前面非均匀离散化或者均匀离散化的深度值，可以用距离的概念来表示这种差距。具体地，可以参考下面的公式(11)、(12)和(13)。

H(p，q)＝exp(-α(p-q)²) (13)

在公式(11)中，D_i表示像素点x_i的深度估计值；而表示像素点x_i的在真实深度标签中的真实深度值；P(D_j|x_i)表示给定像素点x_i被标注为类别D的概率；K表示预设多个深度类别的总数也是多个离散化深度值的总数；N表示像素点的总数。根据公式(11)，需要进行两轮遍历，里面一轮遍历要求对K个类别进行遍历，外面一轮遍历要求对N个像素点进行遍历。公式(11)适用于原始的连续深度值被非均匀的离散化或者均匀的离散化两种情形。对P(D_j|x_i)的计算参考公式(12)，其中z_i，s表示像素点x_i网络最后一个卷积层的输出。而公式(11)所示的基于加权交叉熵的损失函数采用对称的信息增益矩阵作为权重。该矩阵元素的定义参考公式(13)，其中α是常数，并且该矩阵是对称的，维度为所述预设多个深度类别的总数K。如此，通过引入该信息增益矩阵，可以让更接近真实深度标签的像素在更新网络参数的时候有更大的影响，也就是说，所述基于加权交叉熵的损失函数采用对称的信息增益矩阵作为权重从而增强具有较小的误差的像素点在调整所述模型参数时的影响。

结合公式(8)至(11)，因为基于加权交叉熵的损失函数L_WCE是基于交叉熵的定义，而置信度是基于分类熵的定义，因此使得深度估计的类别集中在真实类别附近分布，从而使得通过损失函数L_WCE训练或者优化后的网路模型做出的深度估计，其对应的置信度应该与分类熵负相关。也就是说，根据基于加权交叉熵的损失函数L_WCE调整所述待训练的机器学习模型的模型参数，得到的优化后的机器学习模型，其所输出的深度图和对应的置信度图中，给定像素点的置信度应该与该给定像素点的分类熵成负相关。针对特定像素点，置信度越高，则意味着分类熵越低，而该像素点的深度估计又是基于分类熵的定义，所以也就意味着该像素点的深度估计结果的不确定性较低。如此，结合公式(1)至(11)，基于分类熵定义的置信度与基于加权交叉熵的损失函数相结合，取得了多个有益技术效果：深度估计的类别集中在真实类别附近分布，置信度与分类熵成负相关，深度估计值与对应的真实深度标签一致。

其中，所述第二损失函数是置信度排序损失函数，当所述置信度排序损失函数的输出最小化时，所述训练图像的各个像素点的每一个像素点的置信度和该像素点的误差负相关。所述置信度排序损失函数比较所述训练图像的任意两个像素点各自的误差。置信度和误差之间关系应该为负相关，也就是说，误差越大则意味着该像素点的深度估计值与所述真实深度标签中该像素点的真实深度值的差值越大，则该像素点的置信度应该越低。因为深度值离散化处理后，误差可以从距离的概念来理解，也就是误差越大意味着距离真实深度值越远，相应地置信度估计结果应该表现为更不可信也即置信度更低。为此，可以参考公式(14)和(15)定义置信度排序损失函数。

在公式(14)和(15)中，给定像素点x_i和x_j的误差分别为e_i和e_j，对应的置信度分别为c_i和c_j；δ是预设值。根据公式(15)，当所述任意两个像素点x_i和x_j各自的误差e_i和e_j的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的误差一致。也就是说，只有当两个像素点的误差的差距足够大时，才会体现在所述置信度排序损失函数的输出上。例如，可以通过调整预设值δ，使得当两个像素点的误差的比率在0.85和1.2之间的情况下都为0，而只有超出这个比率的范围才会设置为正1或者负1。总之，所述置信度排序损失函数比较所述训练图像的任意两个像素点各自的误差，当所述任意两个像素点各自的误差的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的误差一致。

在另一种实施方式中，可以参考公式(16)和(17)定义置信度排序损失函数。

在公式(16)和(17)中，给定像素点x_i和x_j的误差分别为e_i和e_j，对应的置信度分别为c_i和c_j；δ是预设值。根据公式(17)，当所述任意两个像素点x_i和x_j各自的置信度c_i和c_j的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的置信度一致。也就是说，只有当两个像素点的置信度的差距足够大时，才会体现在所述置信度排序损失函数的输出上。例如，可以通过调整预设值δ，使得当两个像素点的置信度的比率在0.85和1.2之间的情况下都为0，而只有超出这个比率的范围才会设置为正1或者负1。总之，所述置信度排序损失函数比较所述训练图像的任意两个像素点各自的置信度，其中，当所述任意两个像素点各自的置信度的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的置信度一致。

在另一种实施方式中，可以参考公式(18)和(19)定义置信度排序损失函数。

L_rank(x_i，x_j)＝max(0，l_ij(c_j-c_i)+σ) (18)

在公式(18)和(19)中，给定像素点x_i和x_j的误差分别为e_i和e_j，对应的置信度分别为c_i和c_j；δ是预设值，σ是偏置值。当所述任意两个像素点x_i和x_j各自的误差e_i和e_j的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的误差一致。也就是说，只有当两个像素点的误差的差距足够大时，才会体现在所述置信度排序损失函数的输出上。而置信度损失函数的输出基于两个像素点的置信度的差值。

在另一种实施方式中，可以参考公式(20)和(21)定义置信度排序损失函数。

L_rank(x_i，x_j)＝max(0，l_ij(e_j-e_i)+σ) (20)

在公式(20)和(21)中，给定像素点x_i和x_j的误差分别为e_i和e_j，对应的置信度分别为c_i和c_j；δ是预设值，σ是偏置值。当所述任意两个像素点x_i和x_j各自的置信度c_i和c_j的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的置信度一致。也就是说，只有当两个像素点的置信度的差距足够大时，才会体现在所述置信度排序损失函数的输出上。而置信度损失函数的输出基于两个像素点的误差的差值。

其中，所述置信度排序损失函数通过小批量采样策略从同一训练批次的所有训练图像的任意两个像素点采样。采样的像素点可能来自同一张图像，也有可能是来自在同一训练批次内所有图像内任意两个点。如此，通过添加小批量采样的置信度排序损失函数，可以得到一个数据集内统一的与误差呈负相关的置信度。

在一种可能的实现方式中，所述损失函数包括第一损失函数和第二损失函数，其中，第一损失函数包括根据公式(11)确定的基于加权交叉熵的损失函数，第二损失函数包括根据公式(14)或者(16)或者(18)或者(20)确定的置信度排序损失函数，并且通过小批量采样策略从同一训练批次的所有训练图像的任意两个像素点采样，如此的损失函数使得根据该损失函数优化后的机器学习模型输出深度估计图和置信度图，具有如下有益技术效果：深度估计的类别集中在真实类别附近分布，置信度与分类熵成负相关，深度估计值与对应的真实深度标签一致，一个数据集内统一的与误差呈负相关的置信度。

在一些示例性实施例中，可以采用其它的方式定义像素点x_i的置信度C(x_i)，只要基于分类熵的定义。例如采用公式(22)。

C(x_i)＝-E(x_i) (22)

在公式(22)中，C(x_i)表示像素点x_i的置信度，E(x_i)表示像素点x_i的分类熵。根据公式(22)，置信度可以定义为像素x_i对应的分类熵的负数。

在一些示例性实施例中，可以采用其它的方式定义像素点x_i的置信度C(x_i)，只要基于分类熵的定义。例如采用公式(23)。

C(x_i)＝max_jp(d_j|x_i) (23)

在公式(23)中，C(x_i)表示像素点x_i的置信度，p(d_j|x_i)表示给定像素点x_i的深度为d_j的概率也即给定像素点x_i被归为与深度d_j对应的深度类别的概率。根据公式(23)，置信度可以定义为像素x_i对应的最大类别的概率。

在一些示例性实施例中，可以采用其它的方式定义像素点x_i的置信度C(x_i)，只要基于分类熵的定义。例如采用公式(24)。

C(x_i)＝maxp(d_k|x_i)-secondmax p(d_k|x_i) (24)

在公式(24)中，C(x_i)表示像素点x_i的置信度，p(d_j|x_i)表示给定像素点x_i的深度为d_j的概率也即给定像素点x_i被归为与深度d_j对应的深度类别的概率，secondmax p(d_k|x_i)表示第二大类别概率。根据公式(24)，置信度可以定义为像素x_i对应的最大类别概率减去第二大类别概率。

在一种可能的实现方式中，所述损失函数还包括第三损失函数，其中，所述第三损失函数是兴趣区域置信度损失函数，所述训练图像的一部分被选择为所述训练图像的兴趣区域(Region of Interest，ROI)，其中，与所述损失函数不包括所述第三损失函数的情况相比较，当包括所述第三损失函数的所述损失函数的输出满足所述预设优化条件时，所述兴趣区域内的像素点的置信度的平均值要较高。所述兴趣区域置信度损失函数根据位于所述兴趣区域内的像素点的总数和位于所述兴趣区域内的像素点的置信度而确定。具体地，在实际应用中，可能需要针对图像中的某一特定区域的像素做出特别关注。例如，假设一张图片中有一个人像位于一堆建筑物中，而该图片需要用于人脸识别或者身份验证，则包括了该人像的特定区域需要特别关注。相对的，与该特定区域的深度估计和置信度可以进行优化设计。为此，兴趣区域置信度损失函数的设计可以参考公式(25)。

在公式(25)中，像素点i的置信度为c_i，兴趣区域为T，兴趣区域内像素个数为M。如此，通过将兴趣区域置信度损失函数也包括在损失函数里，可以提高兴趣区域的像素点的置信度，从而使得与所述损失函数不包括所述第三损失函数的情况相比较，当包括所述第三损失函数的所述损失函数的输出满足所述预设优化条件时，所述兴趣区域内的像素点的置信度的平均值要较高。应当理解的是，兴趣区域内的像素点既要参与第二损失函数所包括的置信度排序损失函数的计算，也要参与第三损失函数所包括的兴趣区域置信度损失函数的计算。也就说，不仅针对图像整体的归一化置信度做出估计，也要针对图像中特定区域的置信度做出调整，从而突出兴趣区域内的置信度。

在一种可能的实现方式中，除了设计专门的针对兴趣区域的置信度损失函数，还可以通过提高兴趣区域内的交叉熵损失或者回归损失的方式来提高兴趣区域的置信度。具体地，可以选择所述训练图像的一部分为兴趣区域，以及提高所述兴趣区域内的像素点的交叉熵损失或者回归损失，并更新所述兴趣区域内的像素点的置信度。可以参考公式(26)。

在公式(26)中，N_f为前景(感兴趣区域)的像素个数，N_b为背景的像素个数，λ为平衡前景和背景的系数，D_i为估计深度值，为真实深度值。应当理解的是，交叉熵损失是针对分类结果而言的，不是对置信度而言的。而Berhu损失是针对回归结果而言的。因此，取决于机器学习模型要解决何种问题，而可以针对性地提高交叉熵损失或者回归损失如Berhu损失。例如，如果需要解决回归问题，则可以提高Berhu损失、L1损失、L2损失或者其他常用的回归损失。而如果是将回归问题转化成分类问题，则提高交叉熵损失或者加权交叉熵损失。如此，通过针对机器学习模型要解决的问题，而选择性地提高交叉熵损失或者回归损失，从而提高兴趣区域内的像素点的置信度。

结合公式(1)至公式(26)，在一种可能的实现方式中，总的损失函数可以是第一损失函数、第二损失函数和第三损失函数的加权之和。例如，采用公式(27)的形式。

L_ALL＝L_WCE+α*L_rank+β*L_roi (27)

在公式(27)中，α和β是超参数，L_WCE是根据公式(11)确定的基于加权交叉熵的损失函数，L_rank是根据公式(14)或者(16)或者(18)或者(20)确定的置信度排序损失函数，L_roi是根据公式(25)确定的兴趣区域置信度损失函数。如此，可以结合以上各种损失函数，通过调节超参数，实现有益的技术效果：深度估计的类别集中在真实类别附近分布，置信度与分类熵成负相关，深度估计值与对应的真实深度标签一致，一个数据集内统一的与误差呈负相关的置信度，以及针对图像中特定区域的置信度做出调整从而突出兴趣区域内的置信度。

请继续参阅图1，并结合公式(1)至公式(27)，本申请实施例通过共享的网络模型同步输出深度估计图和置信度图、仅需单次训练、无需额外分支参数、缩短的训练时间和推理时间以及具有归一化的置信度。在测试中，采用训练数据集取得了以下效果。

其中，第一个训练数据集包含8万组数据，第二个训练数据集包含19.7万组数据，而测试数据集包含1157张室内外图像。根据以下指标衡量深度值估计的准确性：均方误差(mean squared error，Mse)，均方根误差(root mean squared error，Rmse)，平均绝对误差(mean absolute error，Mae)，平均相对误差(mean relative error，Absrel)。另外参数δ1、δ2和δ3用于衡量预测深度值与真实深度值的接近程度。通常情况下，Mse、Rmse、Mae、Absrel的数值越小，δ1、δ2和δ3的数值越大，则网络预测深度的准确性越高。

表1比较了四种算法在两个数据集上的表现。其中，算法一是本专利实施例一的变种，只包含加权交叉熵损失；算法二是采用了非均匀对数离散化后的本申请实施例，其包含基于加权交叉熵的损失函数和置信度排序损失函数；算法三是基于偶然不确定性的常规算法；算法四是基于偶然不确定性和加权交叉熵的常规算法。

表1深度估计性能定量比较结果

如表1所示，本申请实施例(算法二)得到的目标深度估计网络在室内外场景中进行深度预测处理时，得到的深度预测结果的准确性更高。

请参阅图2，图2示出了本申请实施例提供的深度及置信度估计系统的原理框图。如图2所示，深度及置信度估计系统200包括编解码网络模块204，深度估计模块208以及置信度估计模块210。其中，编解码网络模块204对输入图像202进行卷积操作得到特征图并对所述特征图进行解码操作得到深度估计多类别概率206。所述深度估计多类别概率206包括所述输入图像202的像素点被归为预设多个深度类别的每一个深度类别的概率。深度估计模块208根据所述深度估计多类别概率206生成所述输入图像202的深度图212。所述深度图包括所述输入图像202的各个像素点的深度估计值。所述置信度估计模块210根据所述深度估计多类别概率206生成所述输入图像202的置信度图214。所述置信度图214包括所述输入图像202的各个像素点的置信度。其中，所述编解码网络模块204通过以下方法训练得到：根据损失函数调整所述编解码网络模块的模型参数，直到所述损失函数的输出满足预设优化条件；所述损失函数包括第一损失函数和第二损失函数；所述第一损失函数是基于加权交叉熵的损失函数并用于整体上度量训练图像的各个像素点的误差，所述训练图像的各个像素点的每一个像素点的误差为该像素点的深度估计值与所述训练图像的真实深度标签中该像素点的真实深度值的差值；所述第二损失函数是置信度排序损失函数，当所述置信度排序损失函数的输出最小化时，所述训练图像的各个像素点的每一个像素点的置信度和该像素点的误差负相关。

请继续参阅图1和图2，用于训练深度及置信度估计系统200的编解码网络模块204的损失函数，其所包括的基于加权交叉熵的损失函数可以是根据公式(11)确定的基于加权交叉熵的损失函数，其所包括的置信度排序损失函数可以是根据公式(14)或者(16)或者(18)或者(20)确定的置信度排序损失函数。另外，用于训练深度及置信度估计系统200的编解码网络模块204的损失函数还可以包括公式(25)所示的兴趣区域置信度损失函数，或者可以采用公式(27)的设计。图1和公式(1)至公式(27)所说明的用于深度估计和置信度预测的机器学习模型的训练方法可以适用于训练深度及置信度估计系统200的编解码网络模块204。

应当理解的是，深度及置信度估计系统200通过同一个编解码网络模块204来输出深度估计多类别概率206，而深度估计模块208和置信度估计模块210分别依据同一深度估计多类别概率206分别生成深度图212和置信度图214。这意味着，当编解码网络模块204的模型参数被调整从而影响其输出的深度估计多类别概率206，则会同步改变最后生成的深度图212和置信度图214。如此，生成深度图的分支和生成置信度图的分支共享完全相同的网络模型参数，可以通过调整网络模型参数同步改变深度图和置信度图，节省了推理时间，只需要一次训练的过程获得已训练的网络模型即可同时输出深度图和置信度图而无需额外的分支参数或者额外的训练次数，同时只需要保存一份共享的网络模型参数有利于节省存储空间。

应当理解的是，编解码网络模块204可以采用多种架构，比如ResNet，ResNeXt，MobileNet等网络模型，这些可以根据不同场景以及对不同准确度和速度的要求而定。

请继续参阅图1和图2，深度及置信度估计系统200输出的深度图和置信度图具有以下有益技术效果：深度估计的类别集中在真实类别附近分布，置信度与分类熵成负相关，深度估计值与对应的真实深度标签一致，一个数据集内统一的与误差呈负相关的置信度，以及针对图像中特定区域的置信度做出调整从而突出兴趣区域内的置信度。

请参阅图3，图3示出了本申请实施例提供的具有深度估计机器学习模型的相机自动对焦设备的原理框图。如图3所示，相机自动对焦设备300包括深度估计模块304、深度估计可靠性判断模块306以及自动对焦决策模块308。其中，相机是单目相机，拍摄图像302可以是单张RGB图像，或者可以是多张RGB图像的集合，或者可以是单目摄像机所记录的视频中采样得到的单帧或者多帧图像。深度估计模块304是用于生成深度估计结果和对应的置信度结果的机器学习模型。深度估计模块304通过以下方法训练得到：根据损失函数调整所述深度估计模块304的模型参数，直到所述损失函数的输出满足预设优化条件；所述损失函数包括第一损失函数和第二损失函数；所述第一损失函数是基于加权交叉熵的损失函数并用于整体上度量训练图像的各个像素点的误差，所述训练图像的各个像素点的每一个像素点的误差为该像素点的深度估计值与所述训练图像的真实深度标签中该像素点的真实深度值的差值；所述第二损失函数是置信度排序损失函数，当所述置信度排序损失函数的输出最小化时，所述训练图像的各个像素点的每一个像素点的置信度和该像素点的误差负相关。

请继续参阅图1和图3，用于训练深度估计模块304的损失函数，其所包括的基于加权交叉熵的损失函数可以是根据公式(11)确定的基于加权交叉熵的损失函数，其所包括的置信度排序损失函数可以是根据公式(14)或者(16)或者(18)或者(20)确定的置信度排序损失函数。另外，用于训练深度估计模块304的损失函数还可以包括公式(25)所示的兴趣区域置信度损失函数，或者可以采用公式(27)的设计。图1和公式(1)至公式(27)所说明的用于深度估计和置信度预测的机器学习模型的训练方法可以适用于训练深度估计模块304。

请继续参阅图3，深度估计模块304生成的置信图被传输给深度估计可靠性判断模块306。深度估计可靠性判断模块306可以根据当时情景判断深度图是否可靠，判断相关标准可以根据相机自动对焦设备300使用时的场景有所调整。例如在光线暗或者逆光等环境下，更容易引起深度估计的失误，因此可以设置更高的置信度标准。当深度估计可靠性判断模块306判断深度估计结果是可靠的，则将判断结果传输给自动对焦决策模块308。自动对焦决策模块308指示采用相应的对焦模式，例如当深度估计结果不可靠时采用传统对焦模式，而当深度估计结果可靠时采用相机快速对焦模式。

请参阅图4，图4示出了本申请实施例提供的具有深度估计机器学习模型的自动导航设备的原理框图。如图4所示，自动导航设备400包括深度估计模块404、深度估计可靠性判断模块406以及避障决策模块408。其中，感测图像402可以是通过单目摄像机等传感器拍摄到的单张RGB图像，或者可以是多张RGB图像的集合，或者可以是单目摄像机所记录的视频中采样得到的单帧或者多帧图像。深度估计模块404是用于生成深度估计结果和对应的置信度结果的机器学习模型。深度估计模块404通过以下方法训练得到：根据损失函数调整所述深度估计模块304的模型参数，直到所述损失函数的输出满足预设优化条件；所述损失函数包括第一损失函数和第二损失函数；所述第一损失函数是基于加权交叉熵的损失函数并用于整体上度量训练图像的各个像素点的误差，所述训练图像的各个像素点的每一个像素点的误差为该像素点的深度估计值与所述训练图像的真实深度标签中该像素点的真实深度值的差值；所述第二损失函数是置信度排序损失函数，当所述置信度排序损失函数的输出最小化时，所述训练图像的各个像素点的每一个像素点的置信度和该像素点的误差负相关。

请继续参阅图1和图4，用于训练深度估计模块404的损失函数，其所包括的基于加权交叉熵的损失函数可以是根据公式(11)确定的基于加权交叉熵的损失函数，其所包括的置信度排序损失函数可以是根据公式(14)或者(16)或者(18)或者(20)确定的置信度排序损失函数。另外，用于训练深度估计模块404的损失函数还可以包括公式(25)所示的兴趣区域置信度损失函数，或者可以采用公式(27)的设计。图1和公式(1)至公式(27)所说明的用于深度估计和置信度预测的机器学习模型的训练方法可以适用于训练深度估计模块404。

请继续参阅图4，深度估计模块404生成的置信图被传输给深度估计可靠性判断模块406。深度估计可靠性判断模块406可以根据当时情景判断深度图是否可靠，判断相关标准可以根据自动导航设备400使用时的场景有所调整。例如在驾驶安全要求较高的场合，例如在闹市区里驾驶，则对安全性有更高要求，因此可以设置更高的置信度标准，而在郊区等场合则可以设置较低的置信度标准。当深度估计可靠性判断模块406判断深度估计结果是可靠的，则将判断结果传输给避障决策模块408。避障决策模块408指示采用相应的避障措施，如当深度估计结果不可靠时不采用避障措施，而当深度估计结果可靠时采用自动避障行为。

请参阅图5，图5示出了本申请实施例提供的具有深度估计机器学习模型的传感器评测设备的原理框图。如图5所示，传感器评测设备500包括深度估计模块504、深度估计可靠性判断模块506以及传感器评测模块508。其中，评测数据502可以是通过传感器拍摄到的单张RGB图像，或者可以是多张RGB图像的集合，或者可以是记录的视频中采样得到的单帧或者多帧图像。深度估计模块504是用于生成深度估计结果和对应的置信度结果的机器学习模型。深度估计模块504通过以下方法训练得到：根据损失函数调整所述深度估计模块504的模型参数，直到所述损失函数的输出满足预设优化条件；所述损失函数包括第一损失函数和第二损失函数；所述第一损失函数是基于加权交叉熵的损失函数并用于整体上度量训练图像的各个像素点的误差，所述训练图像的各个像素点的每一个像素点的误差为该像素点的深度估计值与所述训练图像的真实深度标签中该像素点的真实深度值的差值；所述第二损失函数是置信度排序损失函数，当所述置信度排序损失函数的输出最小化时，所述训练图像的各个像素点的每一个像素点的置信度和该像素点的误差负相关。

请继续参阅图1和图5，用于训练深度估计模块504的损失函数，其所包括的基于加权交叉熵的损失函数可以是根据公式(11)确定的基于加权交叉熵的损失函数，其所包括的置信度排序损失函数可以是根据公式(14)或者(16)或者(18)或者(20)确定的置信度排序损失函数。另外，用于训练深度估计模块504的损失函数还可以包括公式(25)所示的兴趣区域置信度损失函数，或者可以采用公式(27)的设计。图1和公式(1)至公式(27)所说明的用于深度估计和置信度预测的机器学习模型的训练方法可以适用于训练深度估计模块504。

请继续参阅图5，深度估计模块504生成的置信图被传输给深度估计可靠性判断模块506。深度估计可靠性判断模块506可以根据当时情景判断深度图是否可靠，判断相关标准可以根据传感器评测设备500使用时的场景有所调整。例如在对评测要求较高的场景可以设置更高的置信度标准。当深度估计可靠性判断模块506判断深度估计结果是可靠的，则将判断结果传输给传感器评测模块508。传感器评测模块508判断被评测的传感器是否可靠。

本申请提供的具体实施例可以用硬件，软件，固件或固态逻辑电路中的任何一种或组合来实现，并且可以结合信号处理，控制和/或专用电路来实现。本申请具体实施例提供的设备或装置可以包括一个或多个处理器(例如，微处理器，控制器，数字信号处理器(DSP)，专用集成电路(ASIC)，现场可编程门阵列(FPGA)等)，这些处理器处理各种计算机可执行指令从而控制设备或装置的操作。本申请具体实施例提供的设备或装置可以包括将各个组件耦合在一起的系统总线或数据传输系统。系统总线可以包括不同总线结构中的任何一种或不同总线结构的组合，例如存储器总线或存储器控制器，外围总线，通用串行总线和/或利用多种总线体系结构中的任何一种的处理器或本地总线。本申请具体实施例提供的设备或装置可以是单独提供，也可以是系统的一部分，也可以是其它设备或装置的一部分。

本申请提供的具体实施例可以包括计算机可读存储介质或与计算机可读存储介质相结合，例如能够提供非暂时性数据存储的一个或多个存储设备。计算机可读存储介质/存储设备可以被配置为保存数据，程序器和/或指令，这些数据，程序器和/或指令在由本申请具体实施例提供的设备或装置的处理器执行时使这些设备或装置实现有关操作。计算机可读存储介质/存储设备可以包括以下一个或多个特征：易失性，非易失性，动态，静态，可读/写，只读，随机访问，顺序访问，位置可寻址性，文件可寻址性和内容可寻址性。在一个或多个示例性实施例中，计算机可读存储介质/存储设备可以被集成到本申请具体实施例提供的设备或装置中或属于公共系统。计算机可读存储介质/存储设备可以包括光存储设备，半导体存储设备和/或磁存储设备等等，也可以包括随机存取存储器(RAM)，闪存，只读存储器(ROM)，可擦可编程只读存储器(EPROM)，电可擦可编程只读存储器(EEPROM)，寄存器，硬盘，可移动磁盘，可记录和/或可重写光盘(CD)，数字多功能光盘(DVD)，大容量存储介质设备或任何其他形式的合适存储介质。

以上是本申请实施例的实施方式，应当指出，本申请具体实施例描述的方法中的步骤可以根据实际需要进行顺序调整、合并和删减。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。可以理解的是，本申请实施例以及附图所示的结构并不构成对有关装置或系统的具体限定。在本申请另一些实施例中，有关装置或系统可以包括比具体实施例和附图更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者具有不同的部件布置。本领域技术人员将理解，在不脱离本申请具体实施例的精神和范围的情况下，可以对具体实施例记载的方法和设备的布置，操作和细节进行各种修改或变化；在不脱离本申请实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

Claims

1.一种用于深度估计和置信度预测的机器学习模型的训练方法，其特征在于，所述方法包括：

获取带有真实深度标签的训练图像；

将所述训练图像输入到待训练的机器学习模型得到深度估计多类别概率，其中，所述深度估计多类别概率包括所述训练图像的像素点被归为预设多个深度类别的每一个深度类别的概率；

根据所述深度估计多类别概率，分别生成所述训练图像的各个像素点的深度估计值和置信度；

根据损失函数调整所述待训练的机器学习模型的模型参数，直到所述损失函数的输出满足预设优化条件，得到训练好的机器学习模型，

其中，所述损失函数包括第一损失函数和第二损失函数，

其中，所述第一损失函数用于整体上度量所述训练图像的各个像素点的误差，所述训练图像的各个像素点的每一个像素点的误差为该像素点的深度估计值与所述真实深度标签中该像素点的真实深度值的差值，

其中，当所述第二损失函数的输出最小化时，所述训练图像的各个像素点的每一个像素点的置信度和该像素点的误差负相关；

所述第二损失函数是置信度排序损失函数，所述置信度排序损失函数比较所述训练图像的任意两个像素点各自的误差或者置信度；

若所述置信度排序损失函数比较所述训练图像的任意两个像素点各自的误差，当所述任意两个像素点各自的误差的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的误差一致；若所述置信度排序损失函数比较所述训练图像的任意两个像素点各自的置信度，当所述任意两个像素点各自的置信度的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的置信度一致。

2.根据权利要求1所述的方法，其特征在于，所述第一损失函数是基于加权交叉熵的损失函数，所述基于加权交叉熵的损失函数采用对称的信息增益矩阵作为权重从而增强具有较小的误差的像素点在调整所述模型参数时的影响，所述信息增益矩阵的维度为所述预设多个深度类别的总数。

3.根据权利要求1所述的方法，其特征在于，所述损失函数还包括第三损失函数，

其中，所述第三损失函数是兴趣区域置信度损失函数，所述训练图像的一部分被选择为所述训练图像的兴趣区域，

其中，与所述损失函数不包括所述第三损失函数的情况相比较，当包括所述第三损失函数的所述损失函数的输出满足所述预设优化条件时，所述兴趣区域内的像素点的置信度的平均值要较高。

4.根据权利要求3所述的方法，其特征在于，所述兴趣区域置信度损失函数根据位于所述兴趣区域内的像素点的总数和位于所述兴趣区域内的像素点的置信度而确定。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括，

选择所述训练图像的一部分为兴趣区域，

提高所述兴趣区域内的像素点的交叉熵损失或者回归损失，并更新所述兴趣区域内的像素点的置信度。

6.根据权利要求1所述的方法，其特征在于，所述预设多个深度类别与多个离散化深度值一一对应，所述多个离散化深度值在预设区间内均匀分布或者非均匀分布，所述训练图像的各个像素点的每一个像素点的深度估计值根据该像素点在所述深度估计多类别概率中被归为所述预设多个深度类别的每一个深度类别的概率和各自对应的离散化深度值而确定。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述训练图像的各个像素点的每一个像素点的置信度与该像素点的分类熵负相关，所述像素点的分类熵被定义为所述像素点在所述预设多个深度类别的每一个深度类别的概率与该概率的自然对数乘积之和的相反数。

8.根据权利要求3所述的方法，其特征在于，所述置信度排序损失函数通过小批量采样策略从同一训练批次的所有训练图像的任意两个像素点采样后进行比较。

9.根据权利要求8所述的方法，其特征在于，所述机器学习模型包括编解码网络模块，所述编解码网络模块对所述训练图像进行卷积操作得到特征图并对所述特征图进行解码操作得到所述深度估计多类别概率。

10.一种相机自动对焦设备，其特征在于，

所述相机自动对焦设备将相机的拍摄图像输入深度估计机器学习模型，得到所述拍摄图像的对焦区域的深度估计结果和对应的置信度预测结果，并根据所述置信度预测结果判断是否对所述对焦区域进行基于马达调整的快速自动对焦，

其中，所述深度估计机器学习模型按照权利要求1-8任一项所述的方法训练得到。

11.一种自动导航设备，其特征在于，

所述自动导航设备将行进方向上的拍摄图像输入深度估计机器学习模型，得到所述拍摄图像的深度估计结果和对应的置信度预测结果，并根据所述深度估计结果和所述置信度预测结果判断是否进行避障行为，

12.一种传感器评测设备，其特征在于，

所述传感器评测设备将传感器提供的拍摄图像输入深度估计机器学习模型，得到所述拍摄图像的深度估计结果和对应的置信度预测结果，并根据所述置信度预测结果判断所述传感器的可信度，

13.一种芯片系统，其特征在于，所述芯片系统应用于电子设备；所述芯片系统包括一个或多个接口电路，以及一个或多个处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行如权利要求1-8中任意一项所述方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。

15.一种深度及置信度估计系统，其特征在于，所述系统包括：

编解码网络模块，其中，所述编解码网络模块对输入图像进行卷积操作得到特征图并对所述特征图进行解码操作得到深度估计多类别概率，所述深度估计多类别概率包括所述输入图像的像素点被归为预设多个深度类别的每一个深度类别的概率；

深度估计模块，其中，所述深度估计模块根据所述深度估计多类别概率生成所述输入图像的深度图，所述深度图包括所述输入图像的各个像素点的深度估计值；以及

置信度估计模块，其中，所述置信度估计模块根据所述深度估计多类别概率生成所述输入图像的置信度图，所述置信度图包括所述输入图像的各个像素点的置信度，

其中，所述编解码网络模块通过以下方法训练得到：

根据损失函数调整所述编解码网络模块的模型参数，直到所述损失函数的输出满足预设优化条件，

其中，所述损失函数包括第一损失函数和第二损失函数，

其中，所述第一损失函数是基于加权交叉熵的损失函数并用于整体上度量训练图像的各个像素点的误差，所述训练图像的各个像素点的每一个像素点的误差为该像素点的深度估计值与所述训练图像的真实深度标签中该像素点的真实深度值的差值；

其中，所述第二损失函数是置信度排序损失函数，当所述置信度排序损失函数的输出最小化时，所述训练图像的各个像素点的每一个像素点的置信度和该像素点的误差负相关；

所述置信度排序损失函数比较所述训练图像的任意两个像素点各自的误差，当所述任意两个像素点各自的误差的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的误差一致；

或者，

所述置信度排序损失函数比较所述训练图像的任意两个像素点各自的置信度，当所述任意两个像素点各自的置信度的差值小于预设阈值时，所述置信度排序损失函数判断所述任意两个像素点各自的置信度一致。

16.根据权利要求15所述的系统，其特征在于，所述损失函数还包括第三损失函数，

17.根据权利要求16所述的系统，其特征在于，所述兴趣区域置信度损失函数根据位于所述兴趣区域内的像素点的总数和位于所述兴趣区域内的像素点的置信度而确定。

18.根据权利要求15所述的系统，其特征在于，所述编解码网络模块的训练方法还包括，

选择所述训练图像的一部分为兴趣区域，

提高所述兴趣区域内的像素点的损失权重，并更新所述兴趣区域内的像素点的置信度。