CN110807798B

CN110807798B - 图像识别方法、系统、相关设备以及计算机可读存储介质

Info

Publication number: CN110807798B
Application number: CN201810880423.5A
Authority: CN
Inventors: 齐晓娟; 贾佳亚; 滕飞; 刘政哲
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2022-04-12
Anticipated expiration: 2038-08-03
Also published as: CN110807798A

Abstract

本发明提供了一种图像识别方法、系统、相关设备以及计算机可读存储介质，方法包括确定目标像素点以及至少一个深度参考像素点，确定所述目标像素点的初始几何深度值为所述目标像素点对应的预测深度值，确定所述至少一个深度参考像素点中每一像素点对应的预测深度值，确定每一所述预测深度值对应的预测权重，根据所有所述预测深度值以及与每一所述预测深度值对应的所述预测权重输出深度预测图像。可见，电子设备需要根据深度参考像素点的初始法向量以及初始几何深度值获取到目标像素点的输出深度值，提升了目标像素点的输出深度值的准确性。

Description

图像识别方法、系统、相关设备以及计算机可读存储介质

技术领域

本申请实施例涉及图像处理领域，尤其涉及的是一种图像识别方法、系统、相关设备以及计算机可读存储介质。

背景技术

几何深度和法向量估计是一个非常重要的问题，并且有极其广泛的应用价值。它可以直接应用于运动对象的结构估计并且可以间接的促进计算机视觉的识别任务，例如姿态估计，物体识别，场景理解。但是从单张RGB图像估计几何深度和法向量是一个非常具有挑战性的问题。

现有技术提供了基于条件随机场的几何深度和法向量估计方法。现有技术首先采用4支全卷积神经网络分别去回归法向量，几何深度，平面区域和平面区域边界。然后利用条件随机场模型把这四个方面的信息整合在一起进一步联合优化得到最终的几何深度和法向量。

但是，现有技术所示的方案，在估计几何深度和法向量的过程中，需要使用多次4支全卷积神经网络，且通过条件随机场模型获取最终的几何深度和法向量的过程中，计算量大，估计几何深度和法向量的效率低，而且准确性低。

发明内容

本发明实施例提供了一种提高图像识别效率以及准确性的图像识别方法、系统、相关设备以及计算机可读存储介质。

本发明实施例第一方面提供了一种图像识别方法，包括：

步骤A、电子设备获取图像。

所述图像可为所述电子设备的摄像头对待识别对象进行拍摄所形成的图像或为所述电子设备所接收到的图像。

步骤B、电子设备确定目标像素点以及至少一个深度参考像素点。

电子设备可首先选定所述图像所包括的任一像素点为所述目标像素点，在所述电子设备确定出所述目标像素点的情况下，所述电子设备即可确定与所述目标像素点对应的至少一个深度参考像素点，且所述目标像素点以及所述深度参考像素点为所述图像所包括的互不相同的像素点。

步骤C、电子设备确定所述目标像素点以及所述至少一个深度参考像素点中每一像素点对应的预测深度值。

具体的，所述电子设备可对图像进行两次卷积运算，一次卷积运算以获取到所述目标像素点的初始几何深度值以及所述深度参考像素点的初始几何深度值，另一次卷积运算以获取到所述目标像素点的初始法向量以及所述深度参考像素点的初始法向量。

更具体的，在所述电子设备确定出所述目标像素点以及至少一个深度参考像素点的情况下，所述电子设备即可根据所述目标像素点的初始几何深度值确定出所述目标像素点对应的预测深度值，其中，所述目标像素点的初始几何深度值为所述目标像素点对应的预测深度值。

所述电子设备还可根据所述目标像素点的初始法向量和每一所述深度参考像素点的初始几何深度值以及初始法向量，确定每一所述深度参考像素点对应的预测深度值。

步骤D、电子设备确定每一所述预测深度值对应的预测权重。

所述电子设备在确定出所述目标像素点对应的预测深度值的情况下，所述电子设备即可确定出与目标像素点对应的预测权重，在所述电子设备在确定出每一所述深度参考像素点对应的预测深度值的情况下，则所述电子设备即可根据所述目标像素点的初始法向量以及每一所述深度参考像素点的初始法向量确定出与每一所述预测深度值对应的预测权重。

步骤E、电子设备确定深度预测图像。

所述电子设备能够根据所有所述预测深度值以及与每一所述预测深度值对应的所述预测权重确定所述目标像素点的输出深度值，则所述电子设备即可确定出包括有所述目标像素点的输出深度值的深度预测图像。

采用本方面所示，电子设备采用两次卷积运算获取到目标像素点的初始几何深度值以及初始法向量以及获取到所述深度参考像素点的初始几何深度值以及初始法向量后，无需进行卷积运算的情况下，即可输出目标像素点更为准确的所述目标像素点的输出深度值，有效的降低了计算量，并降低了输出所述目标像素点的输出深度值的预测时间，且所述电子设备需要根据所述深度参考像素点的初始法向量以及初始几何深度值获取到所述目标像素点的输出深度值，可见，识别的所述目标像素点的输出深度值受到深度参考像素点的约束，则提升了输出目标像素点的输出深度值的准确性的情况下还降低了噪声。

基于本发明实施例第一方面所示，本发明实施例一种可选的实现方式中，所述步骤B具体包括：

步骤B11、电子设备确定满足深度参考条件的像素点为所述深度参考像素点。

在所述电子设备确定出目标像素点的情况下，所述电子设备可对所述图像所包括的所有像素点，逐一判断是否满足深度参考条件，在确定出像素点满足所述深度参考条件的情况下，则电子设备确定该像素点为与所述目标像素点对应的深度参考像素点。

具体的，所述深度参考条件为所述图像所包括的像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的积大于或等于预设值α，所述预设值α不小于0。

基于本发明实施例第一方面所示，本发明实施例一种可选的实现方式中，所述步骤B11还包括：电子设备确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点和所述目标像素点之间的距离大于或等于预设值β，所述预设值β大于0。

具体的，满足所述深度参考条件的像素点j是指，在uv坐标系下，所述像素点j的横坐标u_j与所述目标像素点i在uv坐标系下的横坐标u_i之间的差的绝对值大于或等于所述预设值β，且所述像素点j在uv坐标系下的纵坐标v_j与所述目标像素点i在uv坐标系下的纵坐标v_i之间的差的绝对值大于或等于预设值β，即|u_i-u_j|＜β，且|v_i-v_j|＜β。

基于本发明实施例第一方面所示，本发明实施例一种可选的实现方式中，所述步骤B11还包括：电子设备确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的积大于或等于预设值α，且所述图像所包括的像素点和所述目标像素点之间的距离大于或等于预设值β，所述预设值α不小于0，所述预设值β大于0。

通过本方面所示的深度参考条件，所述电子设备可确定出深度参考像素点，通过已确定出的所述深度参考像素点，能够提高计算所述目标像素点的输出深度值的准确性。

基于本发明实施例第一方面所示，本发明实施例一种可选的实现方式中，在执行所述步骤C之前，所述方法还包括步骤：

步骤C01、电子设备确定所述图像所包括的像素点i的三维坐标的高度坐标。

具体的，所述像素点i可为图像的目标像素点或为所述深度参考像素点；

所述电子设备可获取像素点i在UV坐标系中的二维坐标，其中，UV坐标系中的水平方向是U，垂直方向是V，所述像素点i的二维坐标为(u_i,v_i)，随后，电子设备确定像素点i的初始几何深度值z_i作为所述像素点i的三维坐标中的高度坐标。

步骤C02、电子设备确定所述图像所包括的像素点i的三维坐标的横坐标。

所述电子设备可根据所述像素点i在uv坐标系下的横坐标u_i以及所述像素点i的初始几何深度值z_i确定所述像素点i的三维坐标中的横坐标x_i；

具体的，所述电子设备可根据如下公式计算出像素点i的三维坐标中的横坐标x_i；

x_i＝(u_i-cx)×z_i/fx，其中，cx代表主点在像平面坐标系中的横坐标，所述主点为电子设备摄像头的中心点在成像图像中的投影点，其中，所述成像图像是距离电子设备摄像头一倍焦距的图像，所述像平面坐标系的原点位于所述成像图像的左上角，横轴X向右，纵轴Y向下。在二维坐标系中，fx代表所述电子设备的摄像头在x轴上的焦距，所述二维坐标系的横轴和所述像平面坐标系的横轴平行，所述二维坐标系的纵轴和所述像平面坐标系的纵轴平行。

步骤C03、电子设备确定所述图像所包括的像素点i的三维坐标的纵坐标。

所述电子设备还可根据所述像素点i在uv坐标系下的纵坐标v_i以及所述像素点i的初始几何深度值z_i确定所述像素点i的三维坐标的纵坐标y_i。

具体的，所述电子设备可根据如下公式计算出像素点i的三维坐标中的纵坐标y_i；

y_i＝(v_i-cy)×z_i/fy，cy代表所述主点在所述像平面坐标系中的纵坐标。在二维坐标系中，fy代表电子设备的摄像头在y轴上的焦距。

基于本方面所示可确定出的图像所包括的像素点的三维坐标，则电子设备即可基于目标像素点的三维坐标确定出目标像素点更为准确的输出深度值以及输出法向量。

基于本发明实施例第一方面所示，本发明实施例一种可选的实现方式中，所述步骤C具体用于，电子设备确定目标像素点的预测深度值。

本方面所示电子设备确定，所述目标像素点的初始几何深度值为所述目标像素点对应的所述预测深度值。

基于本发明实施例第一方面所示，本发明实施例一种可选的实现方式中，所述步骤C具体用于确定每一所述深度参考像素点对应的预测深度值，具体包括如下步骤：

步骤C11、电子设备根据每一所述深度参考像素点的三维坐标以及初始法向量，确定所述至少一个深度参考像素点中每一像素点对应的参考平面的方程；

具体的，电子设备确定任一深度参考像素点j对应的参考平面的方程的过程可参见如下所示的公式：

n_jx(x-x_j)+n_jy(y-y_j)+n_jz(z-z_j)＝0，其中，(x_j,y_j,z_j)为深度参考像素点j的三维坐标，n_jx表示n_j在x轴上的分量，n_jy表示n_j在y轴上的分量，n_jz表示n_j在z轴上的分量，n_j为所述深度参考像素点j的初始法向量。

步骤C12、电子设备确定所述目标像素点的射线的方程。

所述电子设备可根据如下公式确定出所述目标像素点i的射线的方程R_i；

公式中的z(x)表示变量，且所述z(x)∈R⁺表示z(x)的取值为大于0的数值。

步骤C13、电子设备确定每一所述深度参考像素点分别对应的预测深度值。

在所述电子设备确定出任一深度参考像素点j为例，所述电子设备可将所述目标像素点的射线的方程R_i代入至深度参考像素点j对应的参考平面的方程，以获取与深度参考像素点j对应的预测深度值。

具体的，电子设备将所述目标像素点i的射线的方程R_i代入至所述参考平面的方程n_jx(x-x_j)+n_jy(y-y_j)+n_jz(z-z_j)＝0中，则可获取到射线和参考平面的交点，该交点的深度值即为与所述深度参考像素点j对应的预测深度值，则所述电子设备即可根据所述深度参考像素点j对应的预测深度值预测出所述目标像素点的输出深度值。

更具体的，代入过程请参阅如下步骤所示：

步骤一、将射线的方程R_i中的参数

作为x代入至所述参考平面的方程，将射线的方程R_i中的参数

作为y代入至所述参考平面的方程以及将射线的方程R_i中的参数z(x)作为z代入至所述参考平面的方程，以得到如下所示的等式；

步骤二，根据

求取出深度参考像素点j对应的预测深度值z(x)；

可见，

采用本方面所示，所述电子设备可确定出与目标像素点对应的所有深度参考像素点的预测深度值，所述电子设备即可根据所有深度参考像素点的预测深度值计算出所述目标像素点的输出深度值，可提高所述电子设备所计算出的所述目标像素点的输出深度值的准确性。

基于本发明实施例第一方面所示，本发明实施例一种可选的实现方式中，所述步骤E具体包括：

步骤E11、电子设备确定第一参数。

具体的，所述电子设备确定所述目标像素点的第一参数以及每一深度参考像素点的第一参数；

其中，所述目标像素点的第一参数为所述目标像素点对应的所述预测深度值以及所述预测权重的积，本方面所示的所述目标像素点的所述预测深度值为所述目标像素点的初始几何深度值，所述目标像素点的预测权重为1，可见，所述目标像素点的第一参数等于所述目标像素点的初始几何深度值；

任一所述深度参考像素点j的预测深度值为z(x)，具体说明请详见上述所示，具体不做赘述，而所述电子设备可根据如下公式确定所述深度参考像素点j的预测权重；

其中，n_i为所述目标像素点的初始法向量，n_j为深度参考像素点j的初始法向量，而

为n_j的转置矩阵。

步骤E12、电子设备确定第二参数。

所述第二参数为所述目标像素点的第一参数以及所有深度参考像素点的所述第一参数的和。

具体的，所述电子设备可根据如下公式计算出所述第二参数：

其中，j∈M_i表示所述目标像素点以及所有所述深度参考像素点中的一个像素点。

步骤E13、电子设备确定第三参数。

所述第三参数为所述目标像素点以及所有所述深度参考像素点分别对应的所述预测权重的和；

所述第三参数可参见如下公式所示：

步骤E14、电子设备确定所述目标像素点的输出深度值。

在所述电子设备确定出所述第二参数和所述第三参数的情况下，所述电子设备即可确定所述目标像素点的输出深度值z_i为所述第二参数和所述第三参数的比值。

所述目标像素点的输出深度值z_i的公式可参见如下所示：

采用本方面所示，电子设备基于深度参考像素点计算目标像素点的输出深度值，能够有效的提高所计算出的所述目标像素点的输出深度值的准确性。

基于本发明实施例第一方面所示，本发明实施例一种可选的实现方式中，本方面所示的步骤还包括输出所述目标像素点的输出方向量的流程，具体如下；

步骤F1、电子设备确定所述目标像素点对应的至少两个法向量参考像素点。

首先，所述电子设备可在所述图像所包括的所有像素点中确定出与目标像素点对应的至少两个法向量参考像素点，为使得电子设备能够确定出目标像素点的输出法向量，则所述目标像素点以及多个所述法向量参考像素点需要能够确定出法向量拟合平面，只有在确定出所述法向量拟合平面的情况下，所述电子设备才能够确定出所述目标像素点的输出法向量，在三维坐标系中，只有在所述目标像素点以及至少两个所述法向量参考像素点中包括至少三个不共线的三个像素点的情况下，电子设备才能够确定出法向量拟合平面。

步骤F2、电子设备确定法向量预测图像。

其中，所述法向量预测图像包括所述目标像素点的输出法向量。

具体的，所述电子设备可根据所述目标像素点的三维坐标以及至少两个所述法向量参考像素点的三维坐标确定所述目标像素点的输出法向量。

基于本发明实施例第一方面所示，本发明实施例一种可选的实现方式中，所述步骤F2具体包括：

步骤F21、电子设备确定法向量参考矩阵。

在电子设备确定出所述目标像素点以及所有所述法向量参考像素点的情况下，所述电子设备即可确定出法向量参考矩阵A，所述法向量参考矩阵A包括所述目标像素点以及至少两个所述法向量参考像素点的三维坐标，其中，所述法向量参考矩阵A每一行为已确定出的一个所述法向量参考像素点的三维坐标或所述目标像素点的三维坐标，所述法向量参考矩阵A可参见如下所示：

其中，(x₁，y₁，z₁)为所述目标像素点的三维坐标、(x₂,y₂,z₂)……(x_k,y_k,z_k)分别为所述法向量参考像素点的三维坐标。

步骤F22、电子设备根据所述法向量参考矩阵确定所述目标像素点的输出法向量。

所述电子设备即可根据如下公式确定出所述目标像素点的所述输出法向量n，且所述目标像素点的输出法向量为方程An＝1的解：

其中，A^T为所述法向量参考矩阵A的转置矩阵，(A^TA)^-1为矩阵A^TA的逆矩阵，||(A^TA)^-1A^T1||₂为(A^TA)^-1A^T1的平方根。

采用本方面所示的方法，所述电子设备可根据法向量参考像素点输出目标像素点的输出法向量，从而提高了输出所述目标像素点的输出法向量的准确性，且在电子设备已获取到所述初始深度值的情况下，所述电子设备在无需进行卷积运算的情况下，即可输出所述目标像素点的输出法向量，从而降低了计算量。

基于本发明实施例第一方面所示，本发明实施例一种可选的实现方式中，所述深度预测图像或所述法向量预测图像，用于识别所述图像中的物体的三维几何形状、反射特性、以及平面特性，还用于识别所述图像中的物体和拍摄所述图像的相机的三维关系。

本发明实施例第二方面提供了一种图像识别系统，包括：

初始深度预测神经网络，用于获取图像所包括的一个像素点的初始几何深度值；

初始法向量预测神经网络，用于获取所述图像所包括一个像素点的初始法向量；

其中，所述初始深度预测神经网络以及所述初始法向量预测神经网络可为全卷积神经网络或具有重新产生空间分布的非全卷积神经网络。

输出深度预测神经网络，用于执行本发明实施例第一方面所示的方法，具体执行过程以及有益效果的说明，请详见本发明实施例第一方面所示的获取目标像素点的输出深度值的过程，具体不做赘述。

基于本发明实施例第二方面所示，本发明实施例第二方面的一种可选的实现方式中，所述图像识别系统还包括：

输出法向量预测神经网络，用于本发明实施例第一方面所示的获取目标像素点的输出法向量的过程，具体不做赘述。

基于本发明实施例第二方面所示，本发明实施例第二方面的一种可选的实现方式中，所述深度预测图像或所述法向量预测图像，用于识别所述图像中的物体的三维几何形状、反射特性、以及平面特性，还用于识别所述图像中的物体和拍摄所述图像的相机的三维关系。

本发明实施例第三方面提供了一种电子设备，包括：

图像获取单元，用于获取目标像素点以及至少一个深度参考像素点，所述目标像素点以及所述深度参考像素点为同一图像所包括的互不相同的像素点；

处理单元，用于确定所述目标像素点的初始几何深度值为所述目标像素点对应的预测深度值；

所述处理单元还用于，根据所述目标像素点的初始法向量和每一所述深度参考像素点的初始几何深度值以及初始法向量，确定所述至少一个深度参考像素点中每一像素点对应的预测深度值；

所述处理单元还用于，根据所述目标像素点的初始法向量以及每一所述深度参考像素点的初始法向量，确定每一所述预测深度值对应的预测权重；

所述处理单元还用于，根据所有所述预测深度值以及与每一所述预测深度值对应的所述预测权重确定深度预测图像，所述深度预测图像包括所述目标像素点的输出深度值。

基于本发明实施例第三方面，本发明实施例第三方面的一种可选的实现方式中，所述图像获取单元具体用于，确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的积大于或等于预设值α，所述预设值α不小于0。

基于本发明实施例第三方面，本发明实施例第三方面的一种可选的实现方式中，所述图像获取单元具体用于，确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点和所述目标像素点之间的距离大于或等于预设值β，所述预设值β大于0。

基于本发明实施例第三方面，本发明实施例第三方面的一种可选的实现方式中，所述图像获取单元具体用于，确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的积大于或等于预设值α，且所述图像所包括的像素点和所述目标像素点之间的距离大于或等于预设值β，所述预设值α不小于0，所述预设值β大于0。

基于本发明实施例第三方面，本发明实施例第三方面的一种可选的实现方式中，所述处理单元包括：

参考平面确定模块，用于根据每一所述深度参考像素点的三维坐标以及初始法向量，确定所述至少一个深度参考像素点中每一像素点对应的参考平面的方程；

射线确定模块，用于根据所述目标像素点的二维坐标确定所述目标像素点的射线的方程；

交点深度值确定模块，用于根据所述射线的方程和所述参考平面的方程，确定每一所述参考平面与所述射线的交点的深度值；

预测深度值确定模块，用于确定每一所述交点的深度值为所述至少一个深度参考像素点中一个像素点对应的所述预测深度值。

第一参数计算模块，用于确定所述目标像素点以及所述至少一个深度参考像素点中每一像素点对应的第一参数，所述第一参数为所述目标像素点以及所述至少一个深度参考像素点中每一像素点对应的所述预测深度值以及所述预测权重的积；

第二参数计算模块，用于确定第二参数，所述第二参数为所述目标像素点以及所述至少一个深度参考像素点中所有像素点分别对应的所述第一参数的和；

第三参数计算模块，用于确定第三参数，所述第三参数为所述目标像素点以及所述至少一个深度参考像素点中所有像素点分别对应的所述预测权重的和；

目标像素点计算模块，用于确定所述深度预测图像所包括的所述目标像素点的输出深度值为所述第二参数和所述第三参数的比值。

基于本发明实施例第三方面，本发明实施例第三方面的一种可选的实现方式中，所述第一参数计算模块具体用于，确定所述目标像素点对应的所述预测权重和所述目标像素点的初始几何深度值的积为所述目标像素点对应的第一参数，其中，所述目标像素点对应的所述预测权重为1。

基于本发明实施例第三方面，本发明实施例第三方面的一种可选的实现方式中，所述处理单元还用于，确定所述目标像素点对应的至少两个法向量参考像素点，所述法向量参考像素点为所述图像所包括的一个像素点，且在三维坐标系中，所述目标像素点以及至少两个所述法向量参考像素点中包括至少三个不共线的三个像素点；

所述处理单元还用于，所述处理单元还用于，根据所述目标像素点的三维坐标以及至少两个所述法向量参考像素点的三维坐标确定法向量预测图像，所述法向量预测图像包括所述目标像素点的输出法向量。

基于本发明实施例第三方面，本发明实施例第三方面的一种可选的实现方式中，所述处理单元还用于，确定法向量参考矩阵，所述法向量参考矩阵包括所述目标像素点的三维坐标以及至少两个所述法向量参考像素点的三维坐标，并根据所述法向量参考矩阵确定所述法向量预测图像。

基于本发明实施例第三方面，本发明实施例第三方面的一种可选的实现方式中，所述深度预测图像或所述法向量预测图像，用于识别所述图像中的物体的三维几何形状、反射特性、以及平面特性，还用于识别所述图像中的物体和拍摄所述图像的相机的三维关系。

本发明实施例第四方面提供了一种移动终端，包括：图像获取单元、处理器以及通信单元；

所述图像获取单元，用于获取图像；

所述处理器用于执行本发明实施例第一方面任一项所示用于输出所述目标像素点的输出深度值，以确定深度预测图像的方法；

所述通信单元，用于输出所述深度预测图像。

基于本发明实施例第四方面，本发明实施例第四方面的一种可选的实现方式中，所述处理器还用于执行本发明实施例第一方面任一项所示用于输出所述目标像素点的输出法向量，以输出法向量预测图像的方法，所述通信单元还用于，输出所述法向量预测图像。

基于本发明实施例第四方面，本发明实施例第四方面的一种可选的实现方式中，所述深度预测图像或所述法向量预测图像，用于识别所述图像中的物体的三维几何形状、反射特性、以及平面特性，还用于识别所述图像中的物体和拍摄所述图像的相机的三维关系。本发明实施例第五方面提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当被电子设备执行时使所述电子设备执行如本发明实施例第一方面任一项所述的方法。

附图说明

图1为本发明实施例所提供的电子设备的一种实施例结构示意图；

图2为本发明实施例所提供的图像识别方法的一种实施例步骤流程图；

图3为本发明实施例所提供的应用场景的一种示例图；

图4为本发明实施例所提供的应用场景的另一种示例图；

图5为本发明实施例所提供的应用场景的另一种示例图；

图6为本发明实施例所提供的应用场景的另一种示例图；

图7为本发明实施例所提供的图像识别方法的另一种实施例步骤流程图；

图8为本发明实施例所提供的应用场景的另一种示例图；

图9为本发明实施例所提供的应用场景的另一种示例图；

图10为本发明实施例所提供的应用场景的另一种示例图；

图11为本发明实施例所提供的图像识别系统的一种实施例结构示意图；

图12为本发明实施例所提供的电子设备的另一种实施例结构示意图。

具体实施方式

本发明实施例提供了一种图像识别方法，为更好的理解本发明实施例所示的图像识别方法，以下首先结合图1所示对本实施例所示的图像识别方法所应用的电子设备的硬件实体结构进行示例性说明：

所述电子设备包括输入单元105、处理器103、输出单元101、通信单元107、存储器104、射频电路108等组件。

这些组件通过一条或多条总线进行通信。本领域技术人员可以理解，图1中示出的电子设备的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本发明实施方式中，所述电子设备包括但不限于智能手机、移动电脑、平板电脑、个人数字助理(personal digital assistant,PDA)、媒体播放器、智能电视、无人机以及无人车等设备，具体在本实施例中不做限定。

所述电子设备包括：

输出单元101，用于输出图像，具体的，在本实施例所示的电子设备执行申请所示的图像识别方法后，电子设备可通过输出单元101输出已识别出的图像。

处理器103，用于运行相应的代码，具体的，所述处理器103为电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子设备的各种功能和/或处理数据。所述处理器103可以由集成电路(integrated circuit，IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。

举例来说，所述处理器103可以仅包括中央处理器(central processing unit，CPU)，也可以是图形处理器(graphics processing unit，GPU)，数字信号处理器(digitalsignal processor，DSP)、及通信单元中的控制芯片(例如基带芯片)的组合。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

存储器104，用于存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令供处理器103运行以执行本申请所示的图像识别方法。

具体的，在本申请中，存储器104可用于存储与图像识别相关的指令，处理器103通过运行存储在存储器104的与图像识别相关的指令，从而执行本申请所示的图像识别方法。

输入单元105，用于实现用户与电子设备的交互和/或信息输入到电子设备中。

例如，所述输入单元105可以接收用户输入的数字或字符信息，以产生与用户设置或功能控制有关的信号输入。在本发明具体实施方式中，输入单元105可以是摄像头，以实现对待识别对象的拍摄。

通信单元107，用于建立通信信道，使电子设备通过所述通信信道以连接至远程服务器，并从所述远程服务器下媒体数据。所述通信单元107可以包括无线局域网(wirelesslocal area network，wireless LAN)模块、蓝牙模块、基带模块等通信模块，以及所述通信模块对应的射频(radio frequency，RF)电路，用于进行无线局域网络通信、蓝牙通信、红外线通信及/或蜂窝式通信系统通信。

电源109，用于给电子设备的不同部件进行供电以维持其运行。作为一般性理解，所述电源109可以是内置的电池，例如常见的锂离子电池、镍氢电池等，也包括直接向电子设备供电的外接电源，例如AC适配器等。

基于图1所示的电子设备的具体结构，以下首先结合图2所示对本实施例所示的图像识别方法的执行过程，进行示例性说明：

步骤201、电子设备获取图像。

本实施例所示的图像为所述电子设备需要进行识别的图像，本实施例对所述图像的具体获取过程不做限定，例如，所述图像可为其他设备发送给所述电子设备，以使所述电子设备对所述图像进行识别，又如，所述图像可为所述电子设备对待识别对象进行拍摄所形成的图像，在不同的应用场景，本实施例所示的待识别对象可不同，例如，在无人驾驶领域，所述待识别对象可为汽车前方的路况。

本实施例以所述图像为所述电子设备对待识别对象进行拍摄后所形成的图像为例进行示例性说明。

所述电子设备所获取到的所述图像可以图3所示为例，若需要进行识别的待识别对象为厨房，则所述电子设备可对厨房进行拍摄以形成所述图像301。

步骤202、电子设备确定初始法向量预测神经网络。

本实施例以所述电子设备能够输出所述图像所包括的所有像素点准确的输出深度值为例，则所述电子设备的初始法向量预测神经网络能够预测出所述图像所包括的所有像素点的初始法向量，若在其他实施例中，所述电子设备需要输出所述图像所包括的部分像素点准确的输出深度值，则所述初始法向量预测神经网络可预测出所述图像所包括部分像素点的初始法向量。

本实施例所示的所述初始法向量预测神经网络用于预测出所述图像所包括的所有像素点的初始法向量，本实施例对所述初始法向量预测神经网络的具体网络结构不做限定，只要所述初始法向量预测神经网络能够输出所述图像所包括的每一像素点的初始法向量即可，例如，所述初始法向量预测神经网络可为全卷积神经网络(fully convolutionnetwork，FCN)或具有重新产生空间分布的非全卷积神经网络，本实施例以所述初始法向量预测神经网络为全卷积神经网络为例进行示例性说明：

具体的，本实施例所示的初始法向量预测神经网络包括有至少一层卷积层，其中，初始法向量预测神经网络所包括的卷积层的数量越多，则所述初始法向量预测神经网络所获取到的所述图像的每一像素点对应的初始法向量的准确性越高，本实施例以所述初始法向量预测神经网络包括有多层卷积层为例进行示例性说明：

本实施例对所述初始法向量预测神经网络所包括的卷积层的具体数量以及各层卷积层的具体结构不做限定，只要所述初始法向量预测神经网络能够预测出所述图像所包括的每一像素点的初始法向量即可。

可选的，本实施例以所述初始法向量预测神经网络包括有16层卷积层为例进行示例性说明；

具体的，所述初始法向量预测神经网络所包括的16层卷积层按由上至下的顺序依次对所述图像进行卷积运算，且16层卷积层中，任意相邻的两层卷积中，位于上层的卷积层将结果输出给下层卷积层，以由下层卷积层继续进行卷积运算。

以下对所述初始法向量预测神经网络所包括的卷积层的结构进行示例性说明：

具体的，所述卷积层包括有用于进行卷积运算的卷积核，卷积核可对接收到的数据做加权和操作，其中，若卷积层位于16层卷积层中的最上层，则接收到的数据为所述图像，若卷积层不是16层卷积层中的最上层卷积层，则接收到的数据为上层卷积层输出的数据。

本实施例对所述卷积核的尺寸不做限定，所述卷积核的尺寸可参阅表1所示，表1所示创建了不同的标识和不同的卷积核尺寸的对应关系，例如标识“Conv1_1”对应的卷积核的尺寸为“3x3-64”，其中“3x3-64”表示卷积核的大小为3x3个像素，且卷积核的数量为64；而标识“Conv2_2”对应的卷积核的尺寸为“3x3-128”，其中，“3x3-128”表示卷积核的大小为3x3个像素，且卷积核的数量为128。

表1

所述电子设备可预先存储有与各卷积层对应的标识，进而通过表1即可查询到标识所对应的卷积核的尺寸，例如，电子设备确定出16层卷积层中第1层的卷积层所对应的标识为“Conv1_1”，则电子设备通过表1所示可查询出与标识为“Conv1_1”对应的卷积核为“3x3-64”，电子设备即可通过64个尺寸为“3x3”的卷积核所述图像进行卷积运算，又如，电子设备确定出16层卷积层中第5层的卷积层所对应的标识为“Conv5-1”，则电子设备通过表1所示可查询出与标识为“Conv5-1”对应的卷积核为“3x3-512”，电子设备即可通过512个尺寸为“3x3”的卷积核对16层卷积层中第4层的输出的数据进行卷积运算。

所述卷积层还包括用于进行池化操作的核，其中池化操作是指在卷积核进行卷积运算后，用于进行池化操作的核可进行特征融合和降维，本实施例对用于进行池化操作的核的尺寸以及数量不做限定，本实施例所示的卷积层所包括的用于进行池化操作的核的数量为5个为例进行示例性说明，且用于进行池化操作的核的尺寸可参阅表1所示，表1所示创建了标识和用于进行池化操作的核的尺寸的对应关系，例如标识“maxpool”对应的用于进行池化操作的核的尺寸为“2x2/2”，其中“2x2/2”表示用于进行池化操作的核的大小为2x2个像素，且步长为2。

所述卷积层还包括用于激活操作的激活函数，具体的，卷积层中可通过线性整流函数(rectified linear unit,ReLU)作为激活函数，ReLU函数的作用就是增加了各卷积层之间的非线性关系，以有效的降低输出各个像素点对应的初始法向量的计算量。

本实施例所示的所述初始法向量预测神经网络为输出各个像素点对应的初始法向量，则所述初始法向量预测神经网络所包括的最后一层卷积层的所包括的卷积核的尺寸不做限定，只要卷积核的数量为3个即可，从而使得所述初始法向量预测神经网络可输出图像所包括的各个像素点对应的初始法向量在X轴上的分量、在y轴上的分量以及在z轴上的分量。

例如，所述初始法向量预测神经网络所包括的16层卷积层中的最后一层卷积层的结构可如表1所示的“1x1-3(normal)”所示，则所述电子设备即可确定出初始法向量预测神经网络的最后一层卷积层所包括的卷积核的尺寸为1x1个像素，且数量为3个，则使得所述初始法向量预测神经网络的最后一层卷积层可输出图像的各个像素点对应的初始法向量。

步骤203、电子设备通过初始法向量预测神经网络对图像进行预测以获取初始法向量预测图像。

具体的，电子设备在获取到所述初始法向量预测神经网络的情况下，所述电子设备即可通过所述初始法向量预测神经网络对所述图像进行预测以获取到所述初始法向量预测图像，其中，所述初始法向量预测图像包括所述图像所包括的所有像素点对应的初始法向量。

更具体的，采用所述初始法向量预测神经网络可获取到所述图像所包括的每一像素点的初始法向量，本实施例对初始法向量预测神经网络最后一层卷积层所包括的卷积核的尺寸的大小不做限定，只要最后一层卷积层所包括的卷积核的数量为3个即可，则所述初始法向量预测神经网络即可输出所述图像所包括的目标像素点i的初始法向量n_i，而像素点i的初始法向量n_i包括初始法向量n_i在X轴上的分量n_ix，在y轴上的分量n_iy以及在z轴上的分量n_iz，其中，所述目标像素点为所述图像所包括的任一像素点，可见，通过所述初始法向量预测神经网络可输出所述图像所包括的所有像素点分别对应的初始法向量。

步骤204、电子设备确定初始深度预测神经网络。

本实施例以所述电子设备能够输出所述图像所包括的每一像素点准确的输出深度值为例，则所述电子设备的初始深度预测神经网络能够预测出所述图像所包括的所有像素点的初始几何深度值，若在其他实施例中，所述电子设备能够输出所述图像所包括的部分像素点准确的输出深度值，则所述初始深度预测神经网络可预测出所述图像所包括部分像素点的初始几何深度值。

所述初始深度预测神经网络的具体结构，可参见所述初始法向量预测神经网络的具体结构的说明，具体不做赘述，本实施例所示的所述初始深度预测神经网络所包括的最后一层卷积层所包括的卷积核的尺寸的大小不做限定，只要所述初始深度预测神经网络的最后一层卷积层所包括的卷积核的数量为一个，则使得所述初始深度预测神经网络能够输出所述图像所包括的每一像素点的初始几何深度值。

例如，本实施例以所述初始深度预测神经网络也包括有16层卷积层为例进行示例性说明，而本实施例所示的16层卷积层中，所述电子设备可确定出第一层卷积层至第十二层卷积层所包括的卷积核的尺寸为3x3个像素，且数量为256，而第十三层卷积层至第十五层卷积层所包括的卷积核的尺寸为4x4个像素，且数量为1024，而为输出几何深度值，则所述16层卷积层中的最后一层卷积层如表1中的“1x1-1(depth)”所示，则所述电子设备即可确定出最后一层卷积层所包括的卷积核的尺寸为1x1个像素，且数量为1个，则使得所述初始深度预测神经网络即可对所述图像进行预测以输出所述图像所包括的每一像素点的初始几何深度值。

步骤205、电子设备通过初始深度预测神经网络对图像进行预测以获取初始深度预测图像。

具体的，电子设备在获取到所述初始深度预测神经网络的情况下，所述电子设备即可通过所述初始深度预测神经网络对所述图像进行预测以获取到所述初始深度预测图像，其中，所述初始深度预测图像包括所述图像所包括的所有像素点对应的初始几何深度值，其中图像所包括的各个像素点分别对应的初始几何深度值表示各像素点到电子设备的摄像头实际距离。

本实施例所示的步骤202至步骤203、与步骤204至步骤205之间并无执行时序前后的限定。

上述步骤202至步骤205所示的计算过程中，所述初始法向量预测神经网络和所述初始深度预测神经网络为相互独立的两个全卷积神经网络，即由所述初始法向量预测神经网络独立对所述图像进行计算以获取初始法向量预测图像，且由初始深度预测神经网络独立对所述图像进行计算以获取初始深度预测图像。

上述对初始法向量预测图像以及所述初始深度预测图像的计算过程的说明为可选的示例，不做限定，只要本实施例所示的电子设备能够获取到所述初始法向量预测图像以及所述初始深度预测图像即可；

例如，可参见图4所示，用于获取所述初始法向量预测图像以及所述初始几何深度值的网络结构可包括目标神经网络401、第一输出神经网络402以及第二输出神经网络403。

所述目标神经网络401可包括有至少一层卷积层，所述目标神经网络401所包括的每一层卷积层可进行卷积运算，对所述目标神经网络401的具体结构的说明可参见上述所示的步骤202中对所述初始法向量预测神经网络的结构的说明，具体不做赘述，本实施例通过所述目标神经网络401对所述图像的预测可输出有输出图像；

与所述目标神经网络401连接有第一输出神经网络402，与所述目标神经网络401还连接有第二输出神经网络403，所述第一输出神经网络402以及所述第二输出神经网络403可共用所述目标神经网络401所输出的所述输出图像，从而有效的降低了计算量。

所述第一输出神经网络402可包括有一层卷积层，且所述第一输出神经网络402的具体结构可参见表1所示的“1x1-3(normal)”所示，可见，所述第一输出神经网络402所包括的卷积核的尺寸为1x1个像素，且数量为3个，则使得所述第一输出神经网络402即可对所述输出图像进行预测以输出图像的各个像素点对应的初始法向量。

本实施例对所述第一输出神经网络402的具体层数的说明为示例性说明，只要所述第一输出神经网络402所包括的最后一层卷积层所包括的卷积核的数量为3个即可，且各卷积核的大小不做限定。

所述第二输出神经网络403可包括有一层卷积层，且所述第二输出神经网络403的具体结构可参见表1所示的“1x1-1(depth)”所示，可见，所述第二输出神经网络403所包括的卷积核的尺寸为1x1个像素，且数量为1个，则使得所述第二输出神经网络403即可对所述输出图像进行预测以输出图像的各个像素点对应的初始几何深度值。

本实施例对所述第二输出神经网络403的具体层数的说明为示例性说明，只要所述第二输出神经网络403所包括的最后一层卷积层所包括的卷积核的数量为1个即可，且各卷积核的大小不做限定。

步骤206、电子设备将像素点的初始几何深度值转换为所述像素点的三维坐标。

本实施例所示的电子设备为获取到图像所包括的每一像素点更为准确的输出深度值，则所述电子设备可获取图像所包括的每一像素点的三维坐标。

以下对电子设备获取图像所包括的任一像素点i的三维坐标的具体过程进行说明：

首先，所述电子设备在获取到所述图像的情况下，所述电子设备即可根据所述图像获取到所述像素点i在UV坐标系中的二维坐标，其中，UV坐标系中的水平方向是U，垂直方向是V，所述像素点i的二维坐标为(u_i,v_i)。

其次，所述电子设备基于上述所示的步骤205，通过初始深度预测神经网络已获取到每一像素点的初始几何深度值，则所述电子设备可确定出像素点i的初始几何深度值z_i作为所述像素点i的三维坐标中的高度坐标；

x_i＝(u_i-cx)×z_i/fx，其中，cx代表主点(principle point)在像平面坐标系中的横坐标，所述主点为电子设备摄像头的中心点在成像图像中的投影点，其中，所述成像图像是距离电子设备摄像头一倍焦距的图像，所述像平面坐标系的原点位于所述成像图像的左上角，横轴X向右，纵轴Y向下。在二维坐标系中，fx代表所述电子设备的摄像头在x轴上的焦距，所述二维坐标系的横轴和所述像平面坐标系的横轴平行，所述二维坐标系的纵轴和所述像平面坐标系的纵轴平行。

步骤207、电子设备确定与目标像素点对应的深度参考像素点。

本实施例中，在所述电子设备需要确定出所述目标像素点的情况下，则所述电子设备可首先确定出至少一个与所述目标像素点对应的深度参考像素点，所述深度参考像素点为所述图像中用于计算所述目标像素点的输出深度值的像素点，所述目标像素点为所述图像所包括的任一像素点。

本实施例对所述深度参考像素点的具体数量不做限定，只要所述深度参考像素点的数量至少一个，且在所述图像中，所述目标像素点和所述深度参考像素点为互不相同的像素点即可。

在所述电子设备确定出目标像素点i的情况下，所述电子设备可对所述图像所包括的所有像素点，逐一判断是否满足深度参考条件，在确定出像素点满足所述深度参考条件的情况下，则电子设备确定该像素点为与所述目标像素点对应的深度参考像素点，可见，本实施例所示的所述目标像素点和所述深度参考像素点通过所述深度参考条件对应，以使所述电子设备在确定出所述目标像素点的情况下，根据所述深度参考条件即可确定出对应的深度参考像素点。

为修正所述目标像素点的初始几何深度值，以下对本实施例所示的所述深度参考像素点需要满足的所述深度参考条件进行说明：

本实施例所示的所述深度参考条件为像素点j的初始法向量n_j的转置矩阵n_j ^T和所述目标像素点i的初始法向量n_i的积大于或等于预设值α，即n_j ^Tn_i＞α，本实施例对所述预设值α的具体取值不做限定，只要所述所述预设值α不小于0即可。

可选的，本实施例所示的n_j ^Tn_i的最小值可为第一夹角的余弦值，其中，所述第一夹角为像素点j的初始法向量n_j和所述目标像素点i的初始法向量n_i之间所呈夹角的最大值，本实施例以所述第一夹角为30°为例，则n_j ^Tn_i的最小值可为0.86；本实施例所示的n_j ^Tn_i的最大值可为第二夹角的余弦值，其中，所述第二夹角为像素点j的初始法向量n_j和所述目标像素点i的初始法向量n_i之间所呈夹角的最小值，因所述像素点和所述目标像素点为互不相同的像素点，则像素点j的初始法向量n_j和所述目标像素点i的初始法向量n_i之间所呈夹角大于0°，则n_j ^Tn_i的最大值小于1，本实施例所示的所述n_j ^Tn_i可为[0.86,1)区间内的任一数值。

其中，像素点j的初始法向量n_j＝[n_jx,n_jy,n_jz]，n_jx表示n_j在x轴上的分量，n_jy表示n_j在y轴上的分量，n_jz表示n_j在z轴上的分量，n_i为所述目标像素点的初始法向量，且n_i＝[n_ix,n_iy,n_iz]，n_ix表示n_i在x轴上的分量，n_iy表示n_i在y轴上的分量，n_iz表示n_i在z轴上的分量。

可选的，本实施例所示的所述深度参考条件还可为在uv坐标系下，所述像素点j和所述目标像素点i之间的距离大于或等于预设值β。

具体的，所述像素点j和所述目标像素点i之间的距离大于或等于预设值β是指：

所述像素点j下的横坐标u_j与所述目标像素点i在uv坐标系下的横坐标u_i之间的差的绝对值大于或等于所述预设值β，且所述像素点j在uv坐标系下的纵坐标v_j与所述目标像素点i在uv坐标系下的纵坐标v_i之间的差的绝对值大于或等于预设值β，即|u_i-u_j|＜β，且|v_i-v_j|＜β。

本实施例对所述预设值β的具体取值不做限定，只要所述所述预设值β大于0即可，可选的，本实施例以所述像素点j和所述目标像素点i之间的距离位于区间[10,30]内为例进行示例性说明。

可选的，本实施例所示的所述深度参考条件还可为所述图像所包括的像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的积大于或等于预设值α，且所述图像所包括的像素点和所述目标像素点之间的距离大于或等于预设值β，对α和β的具体说明，请详见上述所示，具体不做赘述。

本实施例所示的电子设备可创建目标像素点i的参考集合M_i，所述目标像素点i的参考集合M_i包括所有满足所述深度参考条件的深度参考像素点以及所述目标像素点，且本实施例以所述目标像素点i的参考集合M_i内包括有多个深度参考像素点为例进行示例性说明。

步骤208、电子设备确定所述深度参考像素点对应的参考平面的方程。

本实施例所示的电子设备可对与所述目标像素点对应的所有深度参考像素点分别确定出参考平面的方程，可选的，本实施例所示的所述电子设备可确定出所述目标像素点i的参考集合M_i内所有深度参考像素点分别对应的参考平面的方程，或者，所述电子设备可确定出所述目标像素点i的参考集合M_i内的部分深度参考像素点的参考平面的方程，例如，在步骤207中，所述电子设备确定出所述目标像素点i的参考集合M_i内包括有10个满足所述深度参考条件的深度参考像素点，则所述电子设备可分别确定出所述参考集合内的10个深度参考像素点对应的参考平面的方程，又如，所述电子设备可分别确定出所述参考集合内的6个深度参考像素点对应的参考平面的方程。

以下对所述电子设备确定任一深度参考像素点j对应的参考平面的方程的过程进行说明：

本实施例所示的所述电子设备可根据如下公式确定深度参考像素点j的参考平面的方程；

步骤209、电子设备确定所述目标像素点的射线的方程。

可见，本实施例所示的电子设备可根据所述目标像素点i的二维坐标(u_i,v_i)、cx、cy以及fx确定出所述目标像素点i的射线的方程R_i，其中，cx、cy以及fx的具体说明请详见上述步骤206所示，具体不做赘述。

步骤210、电子设备确定所述目标像素点以及每一所述深度参考像素点分别对应的预测深度值。

以下首先对所述电子设备如何确定与每一所述深度参考像素点对应的预设深度值的具体过程进行说明：

电子设备可根据所述射线的方程和所述参考平面的方程，确定每一所述深度参考像素点对应的所述预测深度值。

具体的，在所述电子设备确定出任一深度参考像素点j为例，所述电子设备可将所述目标像素点的射线的方程R_i代入至深度参考像素点j对应的参考平面的方程，以获取与深度参考像素点j对应的预测深度值。

获取与深度参考像素点j对应的预测深度值的具体过程，可参见如下所示：

本实施例所示的电子设备可将所述目标像素点i的射线的方程R_i代入至所述参考平面的方程n_jx(x-x_j)+n_jy(y-y_j)+n_jz(z-z_j)＝0，以获取所述深度参考像素点j对应的预测深度值z(x)。

其中，电子设备将所述目标像素点i的射线的方程R_i代入至所述参考平面的方程n_jx(x-x_j)+n_jy(y-y_j)+n_jz(z-z_j)＝0中，则可获取到射线和参考平面的交点，该交点的深度值即为与所述深度参考像素点j对应的预测深度值，则所述电子设备即可根据所述深度参考像素点j对应的预测深度值预测出所述目标像素点的输出深度值。

更具体的，代入过程请参阅如下步骤所示：

步骤一、将射线的方程R_i中的参数

作为x代入至所述参考平面的方程，将射线的方程R_i中的参数

步骤二，根据

求取出深度参考像素点j对应的预测深度值z(x)；

可见，

以上对获取深度参考像素点j的对应的预测深度值z(x)的具体过程进行说明，对所述电子设备所确定出的其他深度参考像素点对应的预测深度值的计算过程，请参见上述对获取深度参考像素点j对应的预测深度值z(x)的具体过程，不做限定，例如，所述电子设备确定出深度参考像素点包括深度参考像素点j、深度参考像素点a、深度参考像素点b等，则电子设备可通过上述所示的计算过程，计算出深度参考像素点a对应的预测深度值z_ai以及深度参考像素点b对应的预测深度值z_bi等。

以下对所述目标像素点对应的预测深度值进行说明：

本实施例中，在所述电子设备获取到所述目标像素点的初始几何深度值的情况下，所述电子设备即可确定出所述目标像素点的初始几何深度值为所述目标像素点对应的预测深度值。

步骤211、电子设备确定每一所述预测深度值对应的预测权重。

本实施例中，在所述电子设备确定出所述目标像素点的预测深度值的情况下，所述电子设备即可确定出与所述目标像素点的预测深度值对应的预测权重。

具体的，电子设备可确定与所述目标像素点的预测深度值对应的预测权重为1。

在所述电子设备确定出所述深度参考像素点j的预测深度值的情况下，所述电子设备即可根据如下公式确定出与所述深度参考像素点j的预测深度值对应的预测权重。

为n_j的转置矩阵。

步骤212、电子设备根据所有所述深度参考像素点分别对应的预测深度值确定所述目标像素点的输出深度值。

具体的，在所述电子设备获取到目标像素点以及所有所述深度参考像素点分别对应的预测深度值的情况下，所述电子设备即可根据如下公式计算出所述目标像素点i的输出深度值z_i；

为确定出所述目标像素点的输出深度值，则所述电子设备可首先确定出所述目标像素点以及每一所述深度参考像素点分别对应的第一参数；

具体的，所述目标像素点对应的第一参数为：所述目标像素点对应的所述预测深度值以及所述预测权重的积；所述深度参考像素点对应的第一参数为：所述深度参考像素点对应的所述预测深度值以及所述预测权重的积；

随后，所述电子设备即可确定第二参数，所述第二参数为所有所述第一参数的和；

所述第二参数可参见如下公式所示：

其中，j∈M_i表示属于所述目标像素点i的参考集合M_i内的一个像素点，对所述目标像素点i的参考集合M_i的说明请详见上述所示，具体不做赘述。具体的，

为n_j的转置矩阵。

所述电子设备即可确定出第三参数，所述第三参数为所述目标像素点以及所有所述深度参考像素点分别对应的所述预测权重的和；

所述第三参数可参见如下公式所示：

所述目标像素点的输出深度值z_i的公式可参见如下所示：

为更好的理解计算所述目标像素点的输出深度值z_i的过程，则以所述目标像素点i的参考集合M_i内包括有目标像素点i、深度参考像素点j1、j2、j3以及j4为例，则目标像素点对应的预测深度值z_ii、深度参考像素点j1对应的预测深度值z_j1i、深度参考像素点j2对应的预测深度值z_j2i、深度参考像素点j3对应的预测深度值z_j3i以及深度参考像素点j4对应的预测深度值z_j4i，具体计算过程请参阅上述所示，具体不做赘述；

在该示例中，所述目标像素点i的输出深度值z_i即可通过如下公式获取；

其中，所述目标像素点i的对应的预测权重为K(n_i,n_i)＝1。

可见，电子设备可将所述目标像素点的射线的方程带入至深度参考像素点的参考平面的方程中，这样，电子设备即可计算出参考集合内的每一深度参考像素点以及目标像素点对应的预测深度值，若深度参考像素点的初始法向量和所述目标像素点的初始法向量之间越接近，则该深度参考像素点对目标像素点的输出深度值的影响越大，即所述深度参考像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的乘积可在计算所述目标像素点的输出深度值的过程中，作为该深度参考像素点对应的预测权重，即该深度参考像素点j对应的预测权重为

电子设备即可基于所有深度参考像素点对应的预测权重输出所述目标像素点的输出深度值，从而有效的提升了所计算出的所述目标输出深度值的准确性。

步骤213、电子设备输出深度预测图像。

电子设备可通过上述步骤，获取到所述图像所包括的所有像素点的输出深度值，则电子设备即可输出深度预测图像，所述深度预测图像包括有所述图像所包括的所有像素点的输出深度值，所述深度预测图像用于识别所述图像中的物体的三维几何形状、反射特性、以及平面特性，还用于识别所述图像中的物体和拍摄所述图像的相机的三维关系。

在电子设备对如图3所示的图像301进行识别可输出如图5所示的深度预测图像501，电子设备即可根据图像301中所有像素点的输出深度值识别出图像301所包括的物体的几何外形，具体的，因图3中的冰箱和餐桌属于不同的物体，则电子设备输出的深度预测图像501中冰箱和餐桌具有不同的色值，所述电子设备即可在所述深度预测图像501中确定出具有不同色值的对象属于不同的物体，可见，电子设备通过所述深度预测图像501能够准确的识别出图像301所包括的不同的物体，从而提高了电子设备对图像301所包括的物体进行识别的效率和准确性。而且所述电子设备根据所述深度预测图像所包含的不同物体的色值，可确定出不同物体距离电子设备实际距离的远近，以图5所示为例，若电子设备所识别出的深度预测图像501中，冰箱在深度预测图像501中的色值所代表的颜色为红色，而餐桌在深度预测图像501中的色值所代表的颜色为蓝色，则电子设备即可确定出在实际环境中，冰箱距离电子设备的距离相对于餐桌更远，可见，采用本实施例所示的识别方法，能够识别出不同的物体距离所述电子设备实际距离的远近，因本实施例所示的所述深度预测图像501所包括的输出深度值的准确性更高，则提升了电子设备所识别的图像所包括的物体与电子设备之间的距离的准确性更高。

可见，采用本实施例所示的识别方法，提升了深度预测图像所包括的输出深度值的准确性，而且在获取到图像所包括的所有像素点的初始几何深度值以及初始法向量后，电子设备无需通过卷积运算即可获取到准确的所述目标像素点的输出深度值，有效的降低了计算量，降低了输出所述目标像素点的输出深度值的预测时间，且所述电子设备需要根据所述目标像素点的初始法向量获取到所述目标像素点的输出深度值，可见，识别的深度预测图像中所包括的深度值受到法向量的约束，则降低了深度预测图像中的噪声，所述电子设备可根据所述深度参考像素点的初始法向量以及初始几何深度值获取到所述目标像素点的输出深度值，则进一步提升了输出目标像素点的输出深度值的准确性。

本实施例所示的图像识别方法具体可应用至无人驾驶领域，设置在无人车上的电子设备能够对无人车前方的路况进行拍摄以获取到所述图像，则所述电子设备即可对所述图像进行识别以获取所述深度预测图像，所述电子设备基于所述深度预测图像可识别出无人车前方是否与物体，若有物体，则该物体距离无人车的距离，则无人车可决定是否进行避让等处理，从而提升了无人车驾驶的安全。

为更好的理解本发明实施例所示的输出所述深度预测图像的过程，以下结合具体应用场景对识别过程进行示例性说明：

所述电子设备通过对图3所示的图像301进行识别以获取如图6所示的初始深度预测图像601，其中，所述初始深度预测图像601包括所述图像所包括的所有像素点的初始几何深度值，电子设备获取所述初始深度预测图像601的具体过程请参见图2所示，具体在本应用场景中不做赘述；

所述电子设备根据图像602确定参考集合，所述参考集合包括目标像素点603、深度参考像素点j1、j2……jn，本实施例对所确定出的深度参考像素点的数量不做限定，且确定深度参考像素点的具体过程，请参见图2所示，具体不做赘述。

所述电子设备可对所述参考集合所包括的每一深度参考像素点确定出参考平面的方程，具体过程，请详见图2所示，具体不做赘述；

电子设备可确定所述目标像素点603的预设深度值为所述目标像素点603的初始深度值z_ii；电子设备还可将目标像素点603的射线的方程带入至深度参考像素点j1、j2……jn中的任一深度参考像素点的参考平面的方程中，以输出对应的预测深度值，即所述电子设备输出的预测深度值为z_ii、z_j1i、z_j2i……z_jni。

所述电子设备即可将已确定出的预测深度值z_ii、z_j1i、z_j2i……z_jni输入至如图6所示的聚集(aggregation)计算模块，以使聚集计算模块输出目标像素点的输出深度值，所述聚集计算模块的具体计算过程，请详见图2所示，具体在本实施例中不做赘述；

在所述电子设备确定出所述图像中所有像素点的输出深度值的情况下，所述电子设备即可输出更为准确的深度预测图像607。

本申请所示的图像识别方法还能够识别出准确的法向量，以下结合图7所示的实施例进行说明：

步骤701、电子设备获取图像。

本实施例所示的步骤701的具体执行过程，请详见图2所示的步骤201所示，具体执行过程在本实施例中不做赘述。

步骤702、电子设备确定初始深度预测神经网络。

步骤703、电子设备通过初始深度预测神经网络对图像进行预测以获取初始深度预测图像。

步骤704、电子设备将像素点的初始几何深度值转换为所述像素点的三维坐标。

本实施例所示的步骤702至步骤704的具体执行过程，请详见图2所示的步骤204至步骤206所示，具体执行过程在本实施例中不做赘述。

步骤705、电子设备根据法向量参考像素点的三维坐标确定所述目标像素点的输出法向量。

本实施例中，电子设备通过法向量参考像素点的三维坐标获取到所述目标像素点的输出法向量，且所述目标像素点的输出法向量相对于目标像素点的初始法向量更为准确。

首先，所述电子设备可在所述图像所包括的所有像素点中确定出与目标像素点对应的至少两个法向量参考像素点，具体的，本实施例以所述法向量参考像素点的数量为k个为例，所述k为大于或等于2的正整数，为使得电子设备能够确定出目标像素点的输出法向量，则所述目标像素点以及多个所述法向量参考像素点需要能够确定出法向量拟合平面，只有在确定出所述法向量拟合平面的情况下，所述电子设备才能够确定出所述目标像素点的输出法向量，进一步的，在三维坐标系中，只有在所述目标像素点以及至少两个所述法向量参考像素点中包括至少三个不共线的三个像素点的情况下，电子设备才能够确定出法向量拟合平面。

其中，本实施例以所述目标像素点的三维坐标为(X1、Y1、Z1)，且以已确定出的多个法向量参考像素点中三维坐标为(X2、Y2、Z2)的像素点以及三维坐标为(X3、Y3、Z3)的像素点为例，则三个不共线的深度参考像素点需满足如下所示的条件：

不存在实数r使得(X1-X2,Y1-Y2,Z1-Z2)＝r(X3-X1,Y3-Y1,Z3-Z1)。

本实施例所示的法向量参考像素点为与所述目标像素点之间的距离大于或等于法向量预设值的像素点，本实施例对所述法向量预设值的大小不做限定，只要所述法向量预设值为大于或等于0即可。

具体的，所述电子设备可在二维坐标系下确定所述法向量参考像素点，即在所述二维坐标系下，所述法向量参考像素点的二维坐标和所述目标像素点的二维坐标之间的距离大于或等于所述法向量预设值。

在确定出所述目标像素点以及所有所述法向量参考像素点的情况下，所述电子设备即可确定出法向量参考矩阵A，所述法向量参考矩阵A包括所述目标像素点以及至少两个所述法向量参考像素点的三维坐标，其中，所述法向量参考矩阵A每一行为已确定出的一个所述法向量参考像素点的三维坐标或所述目标像素点的三维坐标，所述法向量参考矩阵A可参见如下所示：

其中，(x₁,y₁,z₁)为所述目标像素点的三维坐标、(x₂,y₂,z₂)……(x_k,y_k,z_k)分别为所述法向量参考像素点的三维坐标。

在所述终端确定出所述法向量参考矩阵A的情况下，所述电子设备即可确定所述目标像素点的输出法向量n。

以下对电子设备确定所述目标像素点的输出法向量n的具体过程进行示例性说明：

步骤706、电子设备输出法向量预测图像。

所述电子设备在确定出所述图像所包括的目标像素点的输出法向量的情况下，所述电子设备即可确定出所述图像所包括的所有像素点的输出法向量，即本实施例所示的电子设备通过上述所示获取到更为准确的输出法向量，通过所述图像所包括的所有像素点的输出法向量，所述电子设备即可输出如图7所示的法向量预测图像，可见，本实施例电子设备输出的所述法向量预测图像包括有图像的所有像素点的输出法向量，本实施例所示的所述法向量预测图像用于识别所述图像中的物体的三维几何形状、反射特性、以及平面特性，还用于识别所述图像中的物体和拍摄所述图像的相机的三维关系。

例如，电子设备在对图3所示的图像进行识别以获取到如图8所示的法向量预测图像时，所述电子设备即可根据所述法向量预测图像所包括的所有像素点的输出法向量识别出所述图像中的物体的几何外形，具体的，因图3中的冰箱和桌面属于不同的物体，则电子设备输出的法向量预测图像中冰箱和桌面具有不同的色值，所述电子设备即可在所述法向量预测图像中确定出具有不同色值的对象属于不同的物体，可见，电子设备通过所述法向量预测图像能够准确的识别出图像所包括的不同的物体，从而提高了电子设备对图像所包括的物体进行识别的效率和准确性。而且所述电子设备根据所述法向量预测图像所包含的不同物体的色值，进而即可确定出不同物体的法向量的方向，以图8所示为例，电子设备可识别出法向量预测图像中呈紫色的冰箱的色值以及呈绿色的桌面的色值，根据不同物体的色值确定出物体的表面在三维世界的切面的法向，即电子设备即可根据冰箱的色值确定出在实际环境中，冰箱表面与水平面之间所呈的角度，以及根据桌面的色值即可确定出桌面与水平面之间所呈的角度。

本实施例所示的图像识别方法具体可应用至无人驾驶领域，设置在无人车上的电子设备能够对无人车前方的路况进行拍摄以获取到所述图像，则所述电子设备即可对所述图像进行处理以获取所述法向量预测图像，所述电子设备基于所述法向量预测图像可识别出无人车前方是否有可行驶的马路以及马路的坡度，则无人车可确定出无人车可行驶的路线，从而提升了无人车驾驶的安全以及导航的效率。

为更好的理解本发明实施例所示的输出所述法向量预测图像的过程，以下结合具体应用场景对识别过程进行示例性说明：

所述电子设备通过对图3所示的图像进行识别以获取如图9所示的初始深度预测图像901，其中，所述初始深度预测图像901包括所述图像所包括的所有像素点对应的初始几何深度值，电子设备获取所述初始深度预测图像901的具体过程请参见图7所示，具体在本应用场景中不做赘述；

所述电子设备即可获取到法向量预测图像902，获取所述法向量预测图像902的具体过程，请参见图7所示，具体在本应用场景中不做赘述；

获取到所述法向量预测图像902的情况下，所述电子设备可将所述法向量预测图像902输入至残差模块903，从而使得残差模块903可输出更为准确的法向量预测图像903。

具体的，所述残差模块903可对目标像素点的输出法向量进行训练即可获取到更为准确且噪声更低的输出法向量。本应用场景对所述残差模块的具体结构不做限定，例如残差模块可包括N层卷积层，所述N为大于或等于1的正整数。

采用本实施例所示的方法，电子设备可获取到所述目标像素点对应的输出法向量，在提高了所获取到的所述目标像素点对应的输出法向量的准确性的前提下，降低了计算量。

本申请所示的图像识别方法能够既识别出准确的几何深度值，还能够识别出准确的法向量，以使电子设备可输出深度预测图像以及法向量预测图像，具体执行过程以下结合图10所示的应用场景进行示例性说明：

电子设备获取图像1001，所述电子设备即可基于初始深度预测神经网络1002获取初始深度预测图像1003，所述电子设备获取所述初始深度预测图像1003的具体过程的说明，请详见图2所示，具体在本应用场景中不做赘述；

所述电子设备可获取到法向量预测图像1004，获取法向量预测图像1004的具体过程，请参见图7所示，具体在本应用场景中不做赘述；

所述电子设备可基于初始法向量预测神经网络1005获取初始法向量预测图像1006，获取初始法向量预测图像1006的具体过程，请参见图2所示，具体在本应用场景中不做赘述；

所述电子设备基于初始深度预测图像1003以及初始法向量预测图像1006获取到深度预测图像1007，具体过程请参见图2所示，具体在本应用场景中不做赘述。

可见，采用本应用场景所示，所述电子设备可输出更为准确的深度预测图像以及法向量预测图像，降低了计算量，提升了对图像进行识别的效率，而且识别的深度预测图像中任一像素点的深度值受到该像素点的法向量的约束，则降低了深度预测图像中的噪声。

本申请还提供一种图像识别系统，以下结合图11所示对本申请所提供的图像识别系统的具体结构进行示例性说明：

具体的，所述图像识别系统包括初始深度预测神经网络1101、像素点三维坐标确定网络1102、初始法向量预测神经网络1103、输出深度预测神经网络1104以及输出法向量预测神经网络1105；

更具体的，所述初始深度预测神经网络1101、所述像素点三维坐标确定网络1102以及所述输出深度预测神经网络1104依次连接，且所述输出深度预测神经网络1104还与所述初始法向量预测神经网络1103连接，所述初始深度预测神经网络1101、所述像素点三维坐标确定网络1102以及所述输出法向量预测神经网络1105依次连接。

其中，所述初始深度预测神经网络1101用于获取图像所包括的一个像素点的初始几何深度值，具体获取过程，请详见图2所示的实施例，具体在本实施例中不做赘述。

所述像素点三维坐标确定网络1102用于将像素点的初始几何深度值转换为所述像素点的三维坐标，具体获取过程，请详见图2所示的实施例，具体在本实施例中不做赘述。

所述初始法向量预测神经网络1103用于获取所述图像所包括一个像素点的初始法向量，具体获取过程，请详见图2所示的实施例，具体在本实施例中不做赘述。

所述输出深度预测神经网络1104用于根据初始法向量预测神经网络1103所输出的所述图像所包括一个像素点的初始法向量以及根据所述图像所包括的像素点的三维坐标，输出目标像素点的输出深度值，具体输出过程，请详见图2所示的实施例，具体在本实施例中不做赘述。

可见，采用所述输出深度预测神经网络1104可获取到所述图像所包括的所有像素点的输出深度值，则输出深度预测神经网络1104即可输出深度预测图像，所述深度预测图像包括有所述图像所包括的所有像素点的输出深度值，所述深度预测图像用于识别所述图像中的物体的三维几何形状、反射特性、以及平面特性，还用于识别所述图像中的物体和拍摄所述图像的相机的三维关系。

在输出深度预测神经网络1104对如图3所示的图像301进行识别可输出如图5所示的深度预测图像501，输出深度预测神经网络1104即可根据图像301中所有像素点的输出深度值识别出图像301所包括的物体的几何外形，具体的，因图3中的冰箱和餐桌属于不同的物体，则输出深度预测神经网络1104输出的深度预测图像501中冰箱和餐桌具有不同的色值，所述输出深度预测神经网络1104即可在所述深度预测图像501中确定出具有不同色值的对象属于不同的物体，可见，输出深度预测神经网络1104通过所述深度预测图像501能够准确的识别出图像301所包括的不同的物体，从而提高了输出深度预测神经网络1104对图像301所包括的物体进行识别的效率和准确性。而且所述输出深度预测神经网络1104根据所述深度预测图像所包含的不同物体的色值，可确定出不同物体距离输出深度预测神经网络1104实际距离的远近，以图5所示为例，若输出深度预测神经网络1104所识别出的深度预测图像501中，冰箱在深度预测图像501中的色值所代表的颜色为红色，而餐桌在深度预测图像501中的色值所代表的颜色为蓝色，则输出深度预测神经网络1104即可确定出在实际环境中，冰箱距离输出深度预测神经网络1104的距离相对于餐桌更远，可见，采用本实施例所示的识别方法，能够识别出不同的物体距离所述输出深度预测神经网络1104实际距离的远近，因本实施例所示的所述深度预测图像501所包括的输出深度值的准确性更高，则提升了输出深度预测神经网络1104所识别的图像所包括的物体与输出深度预测神经网络1104之间的距离的准确性更高。

可见，采用本实施例所示的识别方法，提升了深度预测图像所包括的输出深度值的准确性，而且在获取到图像所包括的所有像素点的初始几何深度值以及初始法向量后，输出深度预测神经网络1104无需通过卷积运算即可获取到准确的所述目标像素点的输出深度值，有效的降低了计算量，降低了输出所述目标像素点的输出深度值的预测时间，且所述输出深度预测神经网络1104需要根据所述目标像素点的初始法向量获取到所述目标像素点的输出深度值，可见，识别的深度预测图像中所包括的深度值受到法向量的约束，则降低了深度预测图像中的噪声，所述输出深度预测神经网络1104可根据所述深度参考像素点的初始法向量以及初始几何深度值获取到所述目标像素点的输出深度值，则进一步提升了输出目标像素点的输出深度值的准确性。

本实施例所示的图像识别方法具体可应用至无人驾驶领域，设置在无人车上的输出深度预测神经网络1104能够对无人车前方的路况进行拍摄以获取到所述图像，则所述输出深度预测神经网络1104即可对所述图像进行识别以获取所述深度预测图像，所述输出深度预测神经网络1104基于所述深度预测图像可识别出无人车前方是否与物体，若有物体，则该物体距离无人车的距离，则无人车可决定是否进行避让等处理，从而提升了无人车驾驶的安全。

所述输出法向量预测神经网络1105用于根据所述目标像素点的三维坐标以及至少两个法向量参考像素点的三维坐标确定所述目标像素点的输出法向量，具体输出过程，请详见图7所示的实施例，具体在本实施例中不做赘述。

可见，所述输出法向量预测神经网络1105可输出所述图像所包括的所有像素点的输出法向量，即本实施例所示的输出法向量预测神经网络1105可获取到更为准确的输出法向量，通过所述图像所包括的所有像素点的输出法向量，所述输出法向量预测神经网络1105即可输出如图7所示的法向量预测图像，可见，本实施例输出法向量预测神经网络1105输出的所述法向量预测图像包括有图像的所有像素点的输出法向量，本实施例所示的所述法向量预测图像用于识别所述图像中的物体的三维几何形状、反射特性、以及平面特性，还用于识别所述图像中的物体和拍摄所述图像的相机的三维关系。

例如，输出法向量预测神经网络1105在对图3所示的图像进行识别以获取到如图8所示的法向量预测图像时，所述输出法向量预测神经网络1105即可根据所述法向量预测图像所包括的所有像素点的输出法向量识别出所述图像中的物体的几何外形，具体的，因图3中的冰箱和桌面属于不同的物体，则输出法向量预测神经网络1105输出的法向量预测图像中冰箱和桌面具有不同的色值，所述输出法向量预测神经网络1105即可在所述法向量预测图像中确定出具有不同色值的对象属于不同的物体，可见，输出法向量预测神经网络1105通过所述法向量预测图像能够准确的识别出图像所包括的不同的物体，从而提高了输出法向量预测神经网络1105对图像所包括的物体进行识别的效率和准确性。而且所述输出法向量预测神经网络1105根据所述法向量预测图像所包含的不同物体的色值，进而即可确定出不同物体的法向量的方向，以图8所示为例，输出法向量预测神经网络1105可识别出法向量预测图像中呈紫色的冰箱的色值以及呈绿色的桌面的色值，根据不同物体的色值确定出物体的表面在三维世界的切面的法向，即输出法向量预测神经网络1105即可根据冰箱的色值确定出在实际环境中，冰箱表面与水平面之间所呈的角度，以及根据桌面的色值即可确定出桌面与水平面之间所呈的角度。

本实施例所示的图像识别方法具体可应用至无人驾驶领域，设置在无人车上的输出法向量预测神经网络1105能够对无人车前方的路况进行拍摄以获取到所述图像，则所述输出法向量预测神经网络1105即可对所述图像进行处理以获取所述法向量预测图像，所述输出法向量预测神经网络1105基于所述法向量预测图像可识别出无人车前方是否有可行驶的马路以及马路的坡度，则无人车可确定出无人车可行驶的路线，从而提升了无人车驾驶的安全以及导航的效率。

采用本实施例所示的图像识别系统，所述图像识别系统能够输出目标像素点更为准确的输出深度值的情况下，还能够输出目标像素点更为准确的输出法向量，且像素点三维坐标确定网络1102、输出深度预测神经网络1104以及输出法向量预测神经网络1105均无需进行卷积运算，有效的降低了计算量，进而降低了输出目标像素点输出法向量以及输出深度值的预测时间。

本申请还提供了一种电子设备，本申请所示的电子设备能够实现上述实施例所示的图像识别方法，以下结合图12所示从功能模块的角度对本申请所示的电子设备的结构进行示例性说明：

所述电子设备包括：

图像获取单元1201，用于获取目标像素点以及至少一个深度参考像素点，所述目标像素点以及所述深度参考像素点为同一图像所包括的互不相同的像素点；

处理单元1202，用于确定所述目标像素点的初始几何深度值为所述目标像素点对应的预测深度值；

所述处理单元1202还用于，根据所述目标像素点的初始法向量和每一所述深度参考像素点的初始几何深度值以及初始法向量，确定所述至少一个深度参考像素点中每一像素点对应的预测深度值；

可选的，本实施例所示的所述处理单元1202可包括有神经网络，以使所述处理单元1202能够获取到所述目标像素点的初始几何深度值以及初始法向量，以及深度参考像素点的初始几何深度值以及初始法向量，具体获取过程，请详见上述实施例所示，具体在本实施例中不做赘述。

所述处理单元1202还用于，根据所述目标像素点的初始法向量以及每一所述深度参考像素点的初始法向量，确定每一所述预测深度值对应的预测权重；

所述处理单元1202还用于，根据所有所述预测深度值以及与每一所述预测深度值对应的所述预测权重确定所述目标像素点的输出深度值。

可选的，所述图像获取单元1201具体用于，确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的积大于或等于预设值α，所述预设值α不小于0。

可选的，所述图像获取单元1201具体用于，确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点和所述目标像素点之间的距离大于或等于预设值β，所述预设值β为大于0。

可选的，所述图像获取单元1201具体用于，确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的积大于或等于预设值α，且所述图像所包括的像素点和所述目标像素点之间的距离大于或等于预设值β，所述预设值α不小于0，所述预设值β大于0。

可选的，所述处理单元1202包括：

参考平面确定模块12021，用于根据每一所述深度参考像素点的三维坐标以及初始法向量，确定所述至少一个深度参考像素点中每一像素点对应的参考平面的方程；

射线确定模块12022，用于根据所述目标像素点的二维坐标确定所述目标像素点的射线的方程；

交点深度值确定模块12023，用于根据所述射线的方程和所述参考平面的方程，确定每一所述参考平面与所述射线的交点的深度值；

预测深度值确定模块12024，用于确定每一所述交点的深度值为所述至少一个深度参考像素点中一个像素点对应的所述预测深度值。

可选的，所述处理单元1202包括：

第一参数计算模块12025，用于确定所述目标像素点以及所述至少一个深度参考像素点中每一像素点对应的第一参数，所述第一参数为所述目标像素点以及所述至少一个深度参考像素点中每一像素点对应的所述预测深度值以及所述预测权重的积；

具体的，所述第一参数计算模块12025具体用于，确定所述目标像素点对应的所述预测权重和所述目标像素点的初始几何深度值的积为所述目标像素点对应的第一参数，其中，所述目标像素点对应的所述预测权重为1。

第二参数计算模块12026，用于确定第二参数，所述第二参数为所述目标像素点以及所述至少一个深度参考像素点中所有像素点分别对应的所述第一参数的和；

第三参数计算模块12027，用于确定第三参数，所述第三参数为所述目标像素点以及所述至少一个深度参考像素点中所有像素点分别对应的所述预测权重的和；

目标像素点计算模块12028，用于确定所述目标像素点的输出深度值为所述第二参数和所述第三参数的比值。

可选的，所述处理单元1202还用于，确定所述目标像素点对应的至少两个法向量参考像素点，所述法向量参考像素点为所述图像所包括的一个像素点，且在三维坐标系中，所述目标像素点以及至少两个所述法向量参考像素点中包括至少三个不共线的三个像素点；

所述处理单元1202还用于，根据所述目标像素点的三维坐标以及至少两个所述法向量参考像素点的三维坐标确定所述目标像素点的输出法向量。

所述处理单元1202还用于，确定法向量参考矩阵，所述法向量参考矩阵包括所述目标像素点的三维坐标以及至少两个所述法向量参考像素点的三维坐标，并根据所述法向量参考矩阵确定所述目标像素点的输出法向量。

可选的，所述处理单元1202还用于，根据所述目标像素点的输出深度值识别所述图像中的物体的几何外形，和/或，所述处理单元还用于，根据所述目标像素点的输出法向量识别所述图像中的物体的几何外形。

采用本实施例所示的电子设备执行图像识别方法的具体过程以及有益效果的说明，请详见上述实施例所示，具体不做赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，包括：

确定目标像素点以及至少一个深度参考像素点，所述目标像素点以及所述深度参考像素点为同一图像所包括的互不相同的像素点；

确定所述目标像素点的初始几何深度值为所述目标像素点对应的预测深度值；

根据所述目标像素点的初始法向量和每一所述深度参考像素点的初始几何深度值以及初始法向量，确定所述至少一个深度参考像素点中每一像素点对应的预测深度值；

根据所述目标像素点的初始法向量以及每一所述深度参考像素点的初始法向量，确定每一所述预测深度值对应的预测权重；

根据所有所述预测深度值以及与每一所述预测深度值对应的所述预测权重确定所述目标像素点的输出深度值，根据所述目标像素点的输出深度值确定深度预测图像。

2.根据权利要求1所述的方法，其特征在于，所述确定至少一个深度参考像素点包括：

确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的积大于或等于预设值α，所述预设值α不小于0。

3.根据权利要求1所述的方法，其特征在于，所述确定至少一个深度参考像素点包括：

确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点和所述目标像素点之间的距离大于或等于预设值β，所述预设值β大于0。

4.根据权利要求1所述的方法，其特征在于，所述确定至少一个深度参考像素点包括：

确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的积大于或等于预设值α，且所述图像所包括的像素点和所述目标像素点之间的距离大于或等于预设值β，所述预设值α不小于0，所述预设值β大于0。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述目标像素点的初始法向量和每一所述深度参考像素点的初始几何深度值以及初始法向量，确定所述至少一个深度参考像素点中每一像素点对应的预测深度值包括：

根据每一所述深度参考像素点的三维坐标以及初始法向量，确定所述至少一个深度参考像素点中每一像素点对应的参考平面的方程；

根据所述目标像素点的二维坐标确定所述目标像素点的射线的方程；

根据所述射线的方程和所述参考平面的方程，确定每一所述参考平面与所述射线的交点的深度值；

确定每一所述交点的深度值为所述至少一个深度参考像素点中每一个像素点对应的所述预测深度值。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所有所述预测深度值以及与每一所述预测深度值对应的所述预测权重确定所述目标像素点的输出深度值包括：

确定所述目标像素点以及所述至少一个深度参考像素点中每一像素点对应的第一参数，所述第一参数为所述目标像素点以及所述至少一个深度参考像素点中每一像素点对应的所述预测深度值以及所述预测权重的积；

确定第二参数，所述第二参数为所述目标像素点以及所述至少一个深度参考像素点中所有像素点分别对应的所述第一参数的和；

确定第三参数，所述第三参数为所述目标像素点以及所述至少一个深度参考像素点中所有像素点分别对应的所述预测权重的和；

确定所述目标像素点的输出深度值为所述第二参数和所述第三参数的比值。

7.根据权利要求6所述的方法，其特征在于，所述确定所述目标像素点对应的第一参数包括：

确定所述目标像素点对应的所述预测权重和所述目标像素点的初始几何深度值的积为所述目标像素点对应的所述第一参数，其中，所述目标像素点对应的所述预测权重为1。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

确定所述目标像素点对应的至少两个法向量参考像素点，所述法向量参考像素点为所述图像所包括的一个像素点，且在三维坐标系中，所述目标像素点以及至少两个所述法向量参考像素点中包括至少三个不共线的三个像素点；

根据所述目标像素点的三维坐标以及至少两个所述法向量参考像素点的三维坐标确定所述目标像素点的输出法向量，根据所述输出法向量确定法向量预测图像。

9.根据权利要求8所述的方法，其特征在于，所述根据所述目标像素点的三维坐标以及至少两个所述法向量参考像素点的三维坐标确定所述目标像素点的输出法向量包括：

确定法向量参考矩阵，所述法向量参考矩阵包括所述目标像素点的三维坐标以及至少两个所述法向量参考像素点的三维坐标；

根据所述法向量参考矩阵确定所述目标像素点的输出法向量。

10.根据权利要求8或9所述的方法，其特征在于，所述深度预测图像或所述法向量预测图像，用于识别所述图像中的物体的三维几何形状、反射特性、以及平面特性，还用于识别所述图像中的物体和拍摄所述图像的相机的三维关系。

11.一种图像识别系统，其特征在于，包括：

输出深度预测神经网络，用于执行权利要求1至权利要求7任一项所示的方法。

12.根据权利要求11所述的图像识别系统，其特征在于，所述图像识别系统还包括：

输出法向量预测神经网络，用于执行权利要求8至权利要求10任一项所示的方法。

13.一种电子设备，其特征在于，包括：

所述处理单元还用于，根据所有所述预测深度值以及与每一所述预测深度值对应的所述预测权重确定所述目标像素点的输出深度值，根据所述输出深度值确定深度预测图像。

14.根据权利要求13所述的电子设备，其特征在于，所述图像获取单元具体用于，确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的积大于或等于预设值α，所述预设值α不小于0。

15.根据权利要求13所述的电子设备，其特征在于，所述图像获取单元具体用于，确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点和所述目标像素点之间的距离大于或等于预设值β，所述预设值β大于0。

16.根据权利要求13所述的电子设备，其特征在于，所述图像获取单元具体用于，确定满足深度参考条件的像素点为所述深度参考像素点，所述深度参考条件为所述图像所包括的像素点的初始法向量的转置矩阵和所述目标像素点的初始法向量的积大于或等于预设值α，且所述图像所包括的像素点和所述目标像素点之间的距离大于或等于预设值β，所述预设值α不小于0，所述预设值β大于0。

17.根据权利要求13至16任一项所述的电子设备，其特征在于，所述处理单元包括：

18.根据权利要求13至17任一项所述的电子设备，其特征在于，所述处理单元包括：

目标像素点计算模块，用于确定所述目标像素点的输出深度值为所述第二参数和所述第三参数的比值。

19.根据权利要求18所述的电子设备，其特征在于，所述第一参数计算模块具体用于，确定所述目标像素点对应的所述预测权重和所述目标像素点的初始几何深度值的积为所述目标像素点对应的第一参数，其中，所述目标像素点对应的所述预测权重为1。

20.根据权利要求13至19任一项所述的电子设备，其特征在于，所述处理单元还用于，确定所述目标像素点对应的至少两个法向量参考像素点，所述法向量参考像素点为所述图像所包括的一个像素点，且在三维坐标系中，所述目标像素点以及至少两个所述法向量参考像素点中包括至少三个不共线的三个像素点；

所述处理单元还用于，根据所述目标像素点的三维坐标以及至少两个所述法向量参考像素点的三维坐标确定所述目标像素点的输出法向量，根据所述输出法向量确定法向量预测图像。

21.根据权利要求20所述的电子设备，其特征在于，所述处理单元还用于，确定法向量参考矩阵，所述法向量参考矩阵包括所述目标像素点的三维坐标以及至少两个所述法向量参考像素点的三维坐标，并根据所述法向量参考矩阵确定所述目标像素点的输出法向量。

22.根据权利要求20或21所述的电子设备，其特征在于，所述深度预测图像或所述法向量预测图像，用于识别所述图像中的物体的三维几何形状、反射特性、以及平面特性，还用于识别所述图像中的物体和拍摄所述图像的相机的三维关系。

23.一种移动终端，其特征在于，包括：图像获取单元、处理器以及通信单元；

所述图像获取单元，用于获取图像；

所述处理器用于执行权利要求1至7任一项所述的图像识别方法；

所述通信单元，用于输出深度预测图像，所述深度预测图像包括所述目标像素点的输出深度值。

24.根据权利要求23所述的移动终端，其特征在于，所述处理器还用于执行权利要求8至10任一项所述的图像识别方法，所述通信单元还用于，输出法向量预测图像，所述法向量预测图像包括所述目标像素点的输出法向量。

25.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当被电子设备执行时使所述电子设备执行如权利要求1至10任一项所述的方法。