CN117409389A

CN117409389A - 深度识别模型训练方法、图像深度识别方法及相关设备

Info

Publication number: CN117409389A
Application number: CN202210785650.6A
Authority: CN
Inventors: 李洁; 郭锦斌
Original assignee: Hon Hai Precision Industry Co Ltd
Current assignee: Hon Hai Precision Industry Co Ltd
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2024-01-16
Also published as: US20240005535A1

Abstract

本申请涉及图像处理，提供一种深度识别模型训练方法、图像深度识别方法及相关设备。在本申请中，对第一图像及第二图像进行实例分割，得到第一静态对象、第一动态对象、第一动态位置、第二静态对象、第二动态对象，基于像素点数量及预设位置从第一动态对象和第二动态对象中分别选取目标动态对象及特征动态对象，根据存在对应关系的目标动态对象及特征动态对象对应的动态位姿矩阵、第一静态对象及第二静态对象对应的静态位姿矩阵、预设阈值矩阵、第一动态位置、预设的初始投影图像生成目标图像和目标投影图像，基于预设的初始深度图像、目标图像及目标投影图像及深度识别网络生成深度识别模型，将待识别图像输入到深度识别模型中，得到识别结果。

Description

深度识别模型训练方法、图像深度识别方法及相关设备

技术领域

本发明涉及图像处理领域，尤其涉及一种深度识别模型训练方法、图像深度识别方法及相关设备。

背景技术

在目前对车载图像进行深度识别的方案中，可利用训练图像对深度网络进行训练。然而，由于采用的训练图像中包括动态对象，动态对象会导致训练得到的深度识别模型无法准确识别出车载图像的深度信息，从而难以确定车辆与周围环境中各类物体或障碍物的真实距离，进而影响驾车安全。

发明内容

鉴于以上内容，有必要提供一种深度识别模型训练方法、图像深度识别方法及相关设备，解决了车载图像的深度信息识别不准确的技术问题。

本申请提供一种图像深度识别方法，所述图像深度识别方法包括：获取第一图像及第二图像，基于实例分割网络对所述第一图像进行实例分割，得到所述第一图像对应的第一静态对象、多个第一动态对象及每个第一动态对象的第一动态位置，并基于所述实例分割网络对所述第二图像进行实例分割，得到所述第二图像对应的第二静态对象与多个第二动态对象，基于每个第一动态对象的像素点数量及预设位置从所述多个第一动态对象中选取多个目标动态对象，并基于每个第二动态对象的像素点数量及所述预设位置从所述多个第二动态对象中选取多个特征动态对象，识别每个目标动态对象是否存在对应的特征动态对象，并将存在对应关系的目标动态对象及特征动态对象确定为识别对象，根据所述识别对象对应的动态位姿矩阵、所述第一静态对象及所述第二静态对象对应的静态位姿矩阵及预设阈值矩阵，识别所述识别对象中的目标动态对象的对象状态，根据所述对象状态、所述第一动态位置及所述第一图像生成目标图像，并根据所述对象状态、所述第一动态位置及所述第一图像对应的初始投影图像生成目标投影图像，基于所述第一图像对应的初始深度图像与所述目标图像之间的梯度误差及所述目标投影图像与所述目标图像之间的光度误差，调整获取的深度识别网络，得到深度识别模型。

根据本申请可选实施例，所述实例分割网络包括特征提取层、分类层及映射层，所述基于实例分割网络对所述第一图像进行实例分割，得到所述第一图像对应的第一静态对象、多个第一动态对象及每个第一动态对象的第一动态位置包括：对所述第一图像进行标准化处理，得到标准化图像；基于所述特征提取层对所述标准化图像进行特征提取，得到初始特征图；基于所述初始特征图的尺寸与所述标准化图像的尺寸之间的倍数关系及所述特征提取层中的卷积步长对所述标准化图像进行分割，得到与所述初始特征图中每个像素点对应的矩形区域；基于所述分类层对所述初始特征图进行分类处理，得到所述初始特征图中每个像素点属于第一预设类别的预测概率；将取值大于预设阈值的预测概率在所述初始特征图中所对应的像素点确定为目标像素点，并将多个所述目标像素点对应的多个矩形区域确定为多个特征区域；基于所述映射层将每个特征区域映射到所述初始特征图中，得到所述初始特征图中每个特征区域对应的映射区域；基于预设数量对多个所述映射区域进行划分，得到每个映射区域对应的多个划分区域；确定每个划分区域中的中心像素点，并计算出所述中心像素点的像素值；对多个所述中心像素点所对应的多个像素值进行池化处理，得到每个映射区域对应的映射概率值；对所述多个映射区域进行还原，并将还原后的多个映射区域进行拼接，得到目标特征图，根据所述目标特征图、所述映射概率值、所述还原后的多个映射区域及第二预设类别生成所述第一图像对应的第一静态对象、所述多个第一动态对象及每个第一动态对象的第一动态位置。

根据本申请可选实施例，所述根据所述目标特征图、所述映射概率值、所述还原后的多个映射区域及第二预设类别生成所述第一图像对应的第一静态对象、所述多个第一动态对象及每个第一动态对象的第一动态位置包括：根据所述映射概率值及所述第二预设类别对所述目标特征图的每个像素点进行分类，得到所述还原后的映射区域中每个像素点的像素类别，将所述还原后的映射区域中相同的像素类别所对应的多个像素点构成的区域确定为第一对象，获取所述第一对象中所有像素点的像素坐标，并将所述像素坐标确定为所述第一对象对应的第一位置，根据预设规则将多个所述第一对象划分为所述多个第一动态对象及所述第一静态对象，并将每个第一动态对象对应的第一位置确定为所述第一动态位置。

根据本申请可选实施例，所述基于每个第一动态对象的像素点数量及预设位置从所述多个第一动态对象中选取多个目标动态对象包括：统计每个第一动态对象包含的像素点的像素数量，根据所述像素数量对所述多个第一动态对象进行排序，选取排序后的像素数量处于所述预设位置的第一动态对象作为所述多个目标动态对象。

根据本申请可选实施例，所述识别每个目标动态对象是否存在对应的特征动态对象包括：获取每个目标动态对象的多个目标要素信息，并获取相同类别的特征动态对象中每个目标要素信息对应的特征要素信息，将每个目标要素信息与对应的特征要素信息进行匹配处理，得到所述目标动态对象与所述相同类别的特征动态对象的匹配值，若所述匹配值处于预设区间内，则确定所述目标动态对象中存在对应的特征动态对象。

根据本申请可选实施例，所述根据所述识别对象对应的动态位姿矩阵、所述第一静态对象及所述第二静态对象对应的静态位姿矩阵及预设阈值矩阵识别所述识别对象中的目标动态对象的对象状态包括：将所述静态位姿矩阵中的每个矩阵元素与所述识别对象对应的动态位姿矩阵中对应的矩阵元素进行相减运算，得到位姿差值，对所述位姿差值取绝对值，得到所述静态位姿矩阵中的位姿绝对值，根据所述静态位姿矩阵中每个位姿绝对值的元素位置，将所述位姿绝对值进行排列，得到位姿绝对值矩阵，将所述位姿绝对值矩阵中的每个位姿绝对值与所述预设阈值矩阵中对应的位姿阈值进比较，若所述位姿绝对值矩阵中存在至少一个大于所述对应位姿阈值的位姿绝对值，则确定该识别对象中的目标动态对象的对象状态为移动，或者，若所述位姿绝对值矩阵中所有的位姿绝对值均小于或者等于所述对应阈值，则确定所述识别对象中的目标动态对象的对象状态为静止。

根据本申请可选实施例，所述根据所述对象状态、所述第一动态位置及所述第一图像生成目标图像包括：若所述识别对象中任一目标动态对象的对象状态为移动，则基于所述任一目标动态对象的第一动态位置在所述第一图像中对所述任一目标动态对象进行掩膜处理，得到所述目标图像，或者，若所述识别对象中的所有目标动态对象的对象状态均为静止，则将所述第一图像确定为所述目标图像。

根据本申请可选实施例，所述基于所述第一图像对应的初始深度图像与所述目标图像之间的梯度误差及所述目标投影图像与所述目标图像之间的光度误差，调整所述深度识别网络，得到深度识别模型包括：基于所述梯度误差及所述光度误差，计算所述深度识别网络的深度损失值，基于所述深度损失值调整所述深度识别网络，直至所述深度损失值下降到最低，得到所述深度识别模型。

本申请提供一种图像深度识别方法，所述图像深度识别方法包括：获取待识别图像，将所述待识别图像输入到深度识别模型中，得到所述待识别图像的目标深度图像及所述待识别图像的深度信息，所述深度识别模型通过执行所述的深度识别模型训练方法而获得。

本申请提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述至少一个指令以实现所述的深度识别模型训练方法或所述的图像深度识别方法。

本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现所述的深度识别模型训练方法或所述的图像深度识别方法。

由上述技术方案可知，本申请对所述第一图像进行实例分割，得到所述第一图像对应的第一静态对象、多个第一动态对象及每个第一动态对象的第一动态位置，基于每个第一动态对象的像素点数量及预设位置从所述多个第一动态对象中选取多个目标动态对象，能够从所述多个第一动态对象中选取多个目标动态对象，由于减少所述多个第一动态对象的数量，因此能够提高深度识别网络的训练速度，识别每个目标动态对象是否存在对应的特征动态对象，能够选取所述第二图像中与每个目标动态对象相同的特征动态对象，通过计算每个目标动态对象与相同的特征动态对象的动态位姿矩阵，并将所述动态位姿矩阵与所述预设阈值矩阵进行比较，能够确定所述第一图像中的每个目标动态对象的状态是否为移动，根据所述识别对象中的目标动态对象的状态、所述第一动态位置及所述第一图像生成目标图像，能够基于所述第一动态位置对将所述第一图像中发生移动的目标动态对象进行滤除，生成所述目标图像，由于状态为移动的目标动态对象的位置变化会导致所述目标动态对象在所述初始深度图像中对应的像素点的深度值发生变化，通过在所述目标图像中滤除了状态为移动的目标动态对象，使得在计算损失值时不使用所述深度值进行计算，能够避免状态为移动的目标动态对象对计算损失值的影响，所述目标图像保留状态为静止的目标动态对象，能够保留了所述第一图像的更多图像信息，因此，利用所述目标图像训练得到的深度识别模型，能够避免发生移动的目标动态对象对所述深度识别模型的训练精度的影响，进而能够提高所述深度识别模型的识别准确性。

附图说明

图1是本申请的实施例提供的应用环境图。

图2是本申请的实施例提供的深度识别模型训练方法的流程图。

图3是本申请实施例提供的像素坐标系和相机坐标系的示意图。

图4是本申请实施例提供的图像深度识别方法的流程图。

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本申请进行详细描述。

如图1所示，是本申请的实施例提供的应用环境图。所述深度识别模型训练方法及所述图像深度识别方法可应用于一个或者多个电子设备1中，所述电子设备1与拍摄设备2相通信，所述拍摄设备2可以是单目相机，也可以是实现拍摄的其它设备。

所述电子设备1是一种能够按照事先设定或存储的指令，自动进行参数值计算和/或信息处理的设备，其硬件包括，但不限于：微处理器、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、可编程门阵列(Field－ProgrammableGateArray，FPGA)、数字信号处理器(DigitalSignalProcessor，DSP)、嵌入式设备等。

所述电子设备1可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(PersonalDigitalAssistant，PDA)、游戏机、交互式网络电视(InternetProtocolTelevision，IPTV)、智能式穿戴式设备等。

所述电子设备1还可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。

所述电子设备1所处的网络包括，但不限于：互联网、广域网、城域网、局域网、虚拟专用网络(VirtualPrivateNetwork，VPN)等。

如图2所示，是本申请的实施例提供的深度识别模型训练方法的流程图。根据不同的需求，所述流程图中各个步骤的顺序可以根据实际检测要求进行调整，某些步骤可以省略。所述方法的执行主体为电子设备，例如图1所示的电子设备1。

101，获取第一图像及第二图像。

在本申请的至少一个实施例中，所述第一图像及所述第二图像为相邻帧的三原色光(RedGreenBlue，RGB)图像，所述第二图像的生成时间大于所述第一图像的生成时间，所述第一图像及所述第二图像中可以包含车辆，地面、行人、天空、树木等初始对象，所述第一图像及所述第二图像包含相同的初始对象。

在本申请的至少一个实施例中，所述电子设备获取待识别图像包括：

所述电子设备控制拍摄设备拍摄目标场景，得到所述第一图像，并在相隔预设时间后再次拍摄所述目标场景，得到所述第二图像。

其中，所述拍摄设备可以为单目相机，所述目标场景中可以包括车辆，地面、行人等目标对象。可以理解的是，所述预设时间很小，例如，预设时间可以为10ms。

102，基于实例分割网络对所述第一图像进行实例分割，得到所述第一图像对应的第一静态对象、多个第一动态对象及每个第一动态对象的第一动态位置，并基于所述实例分割网络对所述第二图像进行实例分割，得到所述第二图像对应的第二静态对象与多个第二动态对象。

在本申请的至少一个实施例中，所述第一动态对象及所述第二动态对象是指能够移动的对象，例如所述第一动态对象及所述第二动态对象可以是行人、车辆，所述第一静态对象及所述第二静态对象是指不能够移动的对象，例如，所述第一静态对象及所述第二静态对象可以为树木、地面等等。

在本申请的至少一个实施例中，所述实例分割网络包括特征提取层、分类层及映射层，所述电子设备基于实例分割网络对所述第一图像进行实例分割，得到所述第一图像对应的第一静态对象、多个第一动态对象及每个第一动态对象的第一动态位置包括：

所述电子设备对所述第一图像进行标准化处理，得到标准化图像，进一步地，所述电子设备基于所述特征提取层对所述标准化图像进行特征提取，得到初始特征图，更进一步地，所述电子设备基于所述初始特征图的尺寸与所述标准化图像的尺寸之间的倍数关系及所述特征提取层中的卷积步长对所述标准化图像进行分割，得到与所述初始特征图中每个像素点对应的矩形区域，更进一步地，所述电子设备基于所述分类层对所述初始特征图进行分类处理，得到所述初始特征图中每个像素点属于第一预设类别的预测概率，更进一步地，所述电子设备将取值大于预设阈值的预测概率在所述初始特征图中所对应的像素点确定为目标像素点，并将多个所述目标像素点对应的多个矩形区域确定为多个特征区域，更进一步地，所述电子设备基于所述映射层将每个特征区域映射到所述初始特征图中，得到所述初始特征图中每个特征区域对应的映射区域，更进一步地，所述电子设备基于预设数量对多个所述映射区域进行划分，得到每个映射区域对应的多个划分区域，更进一步地，所述电子设备确定每个划分区域中的中心像素点，并计算出所述中心像素点的像素值，更进一步地，所述电子设备对多个所述中心像素点所对应的多个像素值进行池化处理，得到每个映射区域对应的映射概率值，更进一步地，所述电子设备对所述多个映射区域进行还原，并将还原后的多个映射区域进行拼接，得到目标特征图，更进一步地，所述电子设备根据所述目标特征图、所述映射概率值、所述还原后的多个映射区域及第二预设类别生成所述第一图像对应的第一静态对象、所述多个第一动态对象及每个第一动态对象的第一动态位置。

其中，所述标准化处理包括剪裁，所述标准化图像的形状通常为正方形，所述特征提取层包括卷积层、批标准化层及池化层等等。例如所述特征提取层可以为去除了全连接层之后的VGG网络。其中，通过双线性插值法计算出所述中心像素点的像素值，所述双线性插值法为现有技术，本申请对此不再赘述。所述映射层可以为ROI Align层。

所述第一预设类别可以自定义设置。例如，所述第一预设类别可以为前景或者背景。所述分类层可以为全连接层和softmax层。所述预设阈值可以自行设置，本申请对此不作限制。所述预设数量可以自行设置，本申请对此不作限制。所述第二预设类别可以根据所述目标场景中出现的目标对象自行设置，本申请对此不作限制。例如，所述第二预设类别可以包括，但不限于：小轿车、客车、道路、行人、路灯、天空及建筑物等等。

在本实施例中，所述实例分割网络还包括全卷积神经网络，基于所述全卷积神经网络对所述多个映射区域进行还原。

具体地，所述电子设备基于所述初始特征图的尺寸与所述标准化图像的尺寸之间的倍数关系及所述特征提取层中的卷积步长对所述标准化图像进行分割，得到与所述初始特征图中每个像素点对应的矩形区域包括：

所述电子设备将所述倍数关系与所述卷积步长的乘积作为宽和高对所述标准化图像进行分割，得到与所述初始特征图中每个像素点对应的矩形区域。

例如，所述标准化图像的尺寸为800*800，所述初始特征图的尺寸为32*32，卷积步长为4，所述初始特征图的尺寸32*32与所述标准化图像的尺寸800*800之间的倍数关系为25，所述倍数关系与所述卷积步长的乘积为100，所述电子设备将所述标准化图像分割为8个矩形区域，每个矩形区域的尺寸为100*100。

具体地，所述预设数量包括第一预设数量及第二预设数量，所述电子设备基于预设数量对多个所述映射区域进行划分，得到每个映射区域对应的多个划分区域包括：

所述电子设备基于所述第一预设数量对每个映射区域进行划分，得到每个映射区域对应的多个中间区域，进一步地，所述电子设备基于所述第二预设数量对每个中间区域进行划分，得到每个映射区域对应的多个划分区域。

其中，所述第一预设数量及所述第二预设数量可以自行设置，本申请对此不作限制。例如，所述第一预设数量可以为7*7，所述第二预设数量可以为2*2。例如，当映射区域的尺寸为14*14，将所述映射区域平均分为7*7个中间区域，每个中间区域的尺寸为2*2，将每个中间区域再平均分为2*2个划分区域，每个划分区域的尺寸约为0.5*0.5。

在本实施例中，所述实例分割网络还会输出所述第一静态对象的位置、所述第二静态对象的位置、每个目标动态对象的类别、所述第一静态对象的类别、所述第二静态对象的类别及每个特征动态对象的类别。

通过上述实施方式，基于实例分割网络对所述第一图像及所述第二图像进行分割，能够根据位置区分所述第一图像及所述第二图像中每个初始对象，从而能够基于所述位置对每个初始对象进行处理。

具体地，所述电子设备根据所述目标特征图、所述映射概率值、所述还原后的多个映射区域及第二预设类别生成所述第一图像对应的第一静态对象、所述多个第一动态对象及每个第一动态对象的第一动态位置包括：

所述电子设备根据所述映射概率值及所述第二预设类别对所述目标特征图的每个像素点进行分类，得到所述还原后的映射区域中每个像素点的像素类别，进一步地，所述电子设备将所述还原后的映射区域中相同的像素类别所对应的多个像素点构成的区域确定为第一对象，更进一步地，所述电子设备获取所述第一对象中所有像素点的像素坐标，并将所述像素坐标确定为所述第一对象对应的第一位置，更进一步地，所述电子设备根据预设规则将多个所述第一对象划分为所述多个第一动态对象及所述第一静态对象，并将每个第一动态对象对应的第一位置确定为所述第一动态位置。

其中，所述预设规则将属于代步工具、人或者动物等能够移动的初始对象确定为可以移动的所述多个第一动态对象，并将属于植物、固定物件等不能移动的初始对象确定为所述第一静态对象。例如，将可以移动的行人、小猫、小狗、自行车及小轿车等确定为所述多个第一动态对象，并将不能移动的树木、路灯及建筑物等初始对象确定为所述第一静态对象。

在本实施例中，所述多个第二动态对象的划分方式与所述多个第一动态对象的划分方式基本相同，所述第二静态对象的划分方式与所述第一静态对象的划分方式基本相同，故本申请在此不作赘述。

103，基于每个第一动态对象的像素点数量及预设位置从所述多个第一动态对象中选取多个目标动态对象，并基于每个第二动态对象的像素点数量及所述预设位置从所述多个第二动态对象中选取多个特征动态对象。

在本申请的至少一个实施例中，所述电子设备基于每个第一动态对象的像素点数量及预设位置从所述多个第一动态对象中选取多个目标动态对象包括：

所述电子设备统计每个第一动态对象包含的像素点的像素数量，并根据所述像素数量对所述多个第一动态对象进行排序，进一步地，所述电子设备选取排序后的像素数量处于所述预设位置的第一动态对象作为所述多个目标动态对象。

其中，所述预设位置可以自行设置。例如，所述预设位置可以为前五个。

在本实施例中，所述多个特征动态对象的选取方式与所述多个目标动态对象的选取方式基本相同，因此，本申请在此不作赘述。

在本申请的至少一个实施例中，所述第二静态图像的生成过程与所述第一静态图像基本一致，所述第二动态图像的生成过程与所述第一动态图像基本一致，故本申请在此不作赘述。

通过上述实施方式，基于像素点数量及预设位置选取所述多个目标动态对象及所述多个特征动态对象，由于减少所述多个第一动态对象的数量，因此能够提高深度识别网络的训练速度。

104，识别每个目标动态对象是否存在对应的特征动态对象，并将存在对应关系的目标动态对象及特征动态对象确定为识别对象。

在本申请的至少一个实施例中，所述电子设备识别每个目标动态对象是否存在对应的特征动态对象包括：

所述电子设备获取每个目标动态对象的多个目标要素信息，并获取相同类别的特征动态对象中每个目标要素信息对应的特征要素信息，进一步地，所述电子设备将每个目标要素信息与对应的特征要素信息进行匹配处理，得到所述目标动态对象与所述相同类别的特征动态对象的匹配值，若所述匹配值处于预设区间内，所述电子设备确定所述目标动态对象中存在对应的特征动态对象。

其中，可以基于目标追踪算法获取所述多个目标要素信息及每个目标要素信息对应的特征要素信息。所述目标追踪算法为现有技术，本申请在此不作赘述。所述预设区间可以自行设置，本申请对此不做限制。

在本实施例中，所述多个目标要素信息可以为所述目标动态对象的特征的参数，所述多个特征要素信息可以为所述相同类别的特征动态对象的特征的参数。例如，当所述目标动态对象为小轿车时，所述多个目标要素信息可以为小轿车的尺寸，小轿车的纹理，小轿车的位置以及小轿车的轮廓等等。由于每个目标要素信息及对应的特征要素信息的参数不同，匹配处理的方式也不同。所述匹配处理的方式包括相减、相加、加权等等操作。例如，所述第一图像中目标动态对象及所述第二图像中特征动态对象均小轿车，所述第一图像中的小轿车的长度为4.8米，宽度为1.65米，所述第二图像中的小轿车的长度为4.7米，宽度为1.6米，所述第一图像中的小轿车的长为4.8米与所述第二图像中的小轿车的长为4.7米相减，得到第一匹配值为0.1米，相应的得到第二匹配值0.05米，当第一匹配值对应的第一预设区间为[0,0.12]，第二匹配值对应的第二预设区间为[0,0.07]时，由于第一匹配值处于所述第一预设区间内及第二匹配值处于所述第二预设区间内，因此所述第二图像中的小轿车与所述第一图像中的小轿车是同一辆小轿车。

通过上述实施方式，获取每个目标动态对象的多个目标要素信息及相同类别的特征动态对象中每个目标要素信息对应的特征要素信息，选取相同类别的特征动态对象，能够更快识别出该特征动态对象与该目标动态对象是同一个，通过选取多个目标要素信息，并将每个目标要素信息与对应的特征要素信息进行匹配，能够更加全面地提取该目标动态对象及相同类别的特征动态对象的特征，能够消除合理误差并提高匹配准确性。

105，根据所述识别对象对应的动态位姿矩阵、所述第一静态对象及所述第二静态对象对应的静态位姿矩阵及预设阈值矩阵，识别所述识别对象中的目标动态对象的对象状态。

在本申请的至少一个实施例中，所述动态位姿矩阵是指所述识别对象对应的像素点的相机坐标到世界坐标的变换关系，所述识别对象对应的像素点的相机坐标的相机坐标是指每个像素点在相机坐标系中的坐标，所述静态位姿矩阵是指所述第一静态对象及所述第二静态对象对应的相机坐标到世界坐标的变换关系。

如图3所示，是本申请实施例提供的像素坐标系和相机坐标系的示意图。所述电子设备以所述第一图像的第一行第一列的像素点Ouv为原点，以第一行像素点所在的平行线为u轴，以第一列像素点所在的垂直线为v轴构建像素坐标系。此外，所述电子设备以所述单目相机的光点OXY为原点，以所述单目相机的光轴为Z轴，以所述像素坐标系u轴的平行线为X轴，以所述像素坐标系的v轴的平行线为Y轴构建所述相机坐标系。

在本申请的至少一个实施例中，所述电子设备根据所述识别对象对应的动态位姿矩阵、所述第一静态对象及所述第二静态对象对应的静态位姿矩阵及预设阈值矩阵识别所述识别对象中的目标动态对象的对象状态包括：

所述电子设备将所述静态位姿矩阵中的每个矩阵元素与所述识别对象对应的动态位姿矩阵中对应的矩阵元素进行相减运算，得到位姿差值，进一步地，所述电子设备对所述位姿差值取绝对值，得到所述静态位姿矩阵中的位姿绝对值，更进一步地，所述电子设备根据所述静态位姿矩阵中每个位姿绝对值的元素位置，将所述位姿绝对值进行排列，得到位姿绝对值矩阵，更进一步地，所述电子设备将所述位姿绝对值矩阵中的每个位姿绝对值与所述预设阈值矩阵中对应的位姿阈值进比较，若所述位姿绝对值矩阵中存在至少一个大于所述对应位姿阈值的位姿绝对值，所述电子设备确定所述识别对象中的目标动态对象的对象状态为移动，或者，若所述位姿绝对值矩阵中所有的位姿绝对值均小于或者等于所述对应阈值，所述电子设备确定该识别对象中的目标动态对象的对象状态为静止。

具体地，所述动态位姿矩阵的生成方式为：

所述电子设备将所述识别对象中的目标动态对象在所述第一图像中对应的像素点确定为第一像素点，并将所述识别对象中的特征动态对象在所述第二图像中对应的像素点确定为第二像素点，进一步地，所述电子设备获取所述第一像素点的第一齐次坐标矩阵，并获取所述第二像素点的第二齐次坐标矩阵，获取拍摄所述第一图像及所述第二图像的拍摄设备的内参矩阵的逆矩阵，进一步地，所述电子设备根据所述第一齐次坐标矩阵及所述内参矩阵的逆矩阵计算出所述第一像素点的第一相机坐标，并根据所述第二齐次坐标矩阵及所述内参矩阵的逆矩阵计算出所述第二像素点的第二相机坐标，更进一步地，所述电子设备基于预设对极约束关系式对所述第一相机坐标及所述第二相机坐标进行计算，得到旋转矩阵及平移矩阵，更进一步地，所述电子设备将所述旋转矩阵及所述平移矩阵进行拼接，得到所述目标位姿矩阵。

其中，所述第一像素点的第一齐次坐标矩阵是指维度比像素坐标矩阵的维度多出一维的矩阵，而且多出的一个维度的元素值为1，所述像素坐标矩阵是指根据所述第一像素点的第一像素坐标生成的矩阵，所述第一像素坐标是指所述第一像素点在像素坐标系中的坐标，例如，所述第一像素点在所述像素坐标系中的第一像素坐标为(u，v)，所述第一像素点的像素坐标矩阵为则该像素点的齐次坐标矩阵为/>将所述第一齐次坐标矩阵及所述内参矩阵的逆矩阵进行相乘，得到所述第一像素点的第一相机坐标，并将所述第二齐次坐标矩阵及所述内参矩阵的逆矩阵进行相乘，得到所述第二像素点的第二相机坐标。

其中，所述第二齐次坐标矩阵的生成方式与所述第一齐次坐标矩阵的生成方式基本一致，本申请在此不作赘述。

所述旋转矩阵可以表示为：

其中，pose为所述动态位姿矩阵，所述动态位姿矩阵为4x4的矩阵，R为所述旋转矩阵，所述旋转矩阵为3x3的矩阵，t为所述平移矩阵，所述平移矩阵为3x1的矩阵。

其中，所述平移矩阵及所述旋转矩阵的计算公式为：

K^-1p₁(txR)(K^-1p₂)^T＝0；

其中，K^-1p₁为所述第一相机坐标，K^-1p₂为所述第二相机坐标，p₁为所述第一齐次坐标矩阵，p₂为所述第二齐次坐标矩阵，K^-1为所述内参矩阵的逆矩阵。

在本实施例中，所述静态位姿矩阵的生成方式与所述动态位姿矩阵的生成方式基本相同，故本申请在此不作赘述。

通过上述实施方式，当存在多个识别对象时，所述动态位姿矩阵的数量也为多个，由于每个动态位姿矩阵与所述第一图像中的每个目标动态对象相对应，因此，通过每个动态位姿矩阵能够确定所述第一图像中对应的目标动态对象的对象状态，从而能够将多个目标动态对象的对象状态进行区分。

106，根据所述对象状态、所述第一动态位置及所述第一图像生成目标图像，并根据所述对象状态、所述第一动态位置及所述第一图像对应的初始投影图像生成目标投影图像。

在本申请的至少一个实施例中，所述目标图像是指基于所述第一动态位置及所述对象状态对所述第一图像中的目标动态对象进行处理后生成的图像。

在本申请的至少一个实施例中，所述初始投影图像表示变换过程的图像，所述变换过程是指所述第一图像中像素点的像素坐标与所述第二图像中对应的像素坐标之间的变换过程。

在本申请的至少一个实施例中，所述电子设备基于所述第一图像、所述初始深度图像及所述目标位姿矩阵生成所述第一图像的初始投影图像包括：

若所述识别对象中任一目标动态对象的对象状态为移动，所述电子设备基于所述任一目标动态对象的第一动态位置在所述第一图像中对所述任一目标动态对象进行掩膜处理，得到所述目标图像，或者，若所述识别对象中的所有目标动态对象的对象状态均为静止，所述电子设备将所述第一图像确定为所述目标图像。

具体地，所述初始投影图像的生成方式包括：

所述电子设备获取所述第一图像的初始深度图像，并获取所述第一图像中每个像素点的目标齐次坐标矩阵，并从所述初始深度图像中获取所述第一图像中每个像素点的深度值，进一步地，所述电子设备基于所述目标位姿矩阵、每个像素点的目标齐次坐标矩阵及每个像素点的深度值计算出所述第一图像中每个像素点的投影坐标，更进一步地，所述电子设备根据每个像素点的投影坐标对每个像素点进行排列处理，得到所述初始投影图像。

其中，所述电子设备将所述第一图像输入到所述深度识别网络中，得到所述初始深度图像，所述深度值是指所述初始深度图像中每个像素点的像素值。

具体地，所述初始投影图像中每个像素点的投影坐标的计算公式为：

P＝K*pose*Z*K^-1*H；

其中，P表示每个像素点的投影坐标，K表示所述拍摄设备的内参矩阵，pose表示所述目标位姿矩阵,K^-1表示K的逆矩阵，H表示所述第一图像中每个像素点的目标齐次坐标矩阵，Z表示所述初始深度图像中对应的像素点的深度值。

在本实施例中，所述目标投影图像中包括与所述多个目标动态对象对应的多个投影对象，根据所述多个投影对象生成所述目标投影图像的方式与所述目标图像的方式基本相同，故本申请对此不作赘述。

通过上述实施方式，当所述识别对象中目标动态对象的对象状态为移动时，根据该目标动态对象的第一动态位置在所述第一图像中对该目标动态对象能够准确地进行掩膜处理，能够避免发生移动的动态对象对计算损失值的影响，当所述识别对象中目标动态对象的对象状态为静止时，在所述第一图像中保留该目标动态对象，能够保留所述第一图像更多的图像信息。

107，基于所述初始深度图像与所述目标图像之间的梯度误差及所述目标投影图像与所述目标图像之间的光度误差，调整获取的深度识别网络，得到深度识别模型。

在本申请的至少一个实施例中，所述深度识别模型是指对所述深度识别网络进行调整后生成的模型。

在本申请的至少一个实施例中，所述电子设备基于所述初始深度图像与所述目标图像之间的梯度误差及所述目标投影图像与所述目标图像之间的光度误差，调整所述深度识别网络，得到深度识别模型包括：

所述电子设备基于所述梯度误差及所述光度误差，计算所述深度识别网络的深度损失值，进一步地，所述电子设备基于所述深度损失值调整所述深度识别网络，直至所述深度损失值下降到最低，得到所述深度识别模型。

其中，所述深度识别网络可以为深度神经网络，所述深度识别网络可以从互联网的数据库中获取。

具体地，所述深度损失值的计算公式为：

Lc＝Lt+Ls；

其中，Lc表示所述深度损失值，Lt表示所述光度误差，Ls表示所述梯度误差。

其中，所述光度误差的计算公式为：

其中，Lt表示所述光度误差，α为预设的平衡参数，一般取值为0.85，SSIM(x，y)表示所述目标投影图像与所述目标图像之间的结构相似指数，||x_i-y_i||表示所述目标投影图像与所述目标图像之间的灰度差值，x_i表示所述目标投影图像第i个像素点的像素值，y_i表示所述目标图像中与所述第i个像素点对应的像素点的像素值。所述结构相似指数的计算方式为现有技术，本申请在此不作赘述。

所述梯度误差的计算公式为：

其中，Ls表示所述梯度误差，x表示所述初始深度图像，y表示所述目标图像，D(u，v)表示所述初始深度图像中第i个像素点的像素坐标，I(u，v)表示所述目标图像中第i个像素点的像素坐标。

通过上述实施方式，由于避免了发生移动的动态对象对计算所述深度识别网络的损失值的影响，因此能够提高所述深度识别模型的精度。

如图4所示，是本申请实施例提供的图像深度识别方法的流程图。

108，获取待识别图像。

在本申请的至少一个实施例中，所述待识别图像是指需要识别深度信息的图像。

在本申请的至少一个实施例中，所述电子设备从预设的数据库中获取所述待识别图像，所述预设的数据库可以为KITTI数据库、Cityscapes数据库及vKITTI数据库等等。

109，将所述待识别图像输入到所述深度识别模型中，得到所述待识别图像的目标深度图像及所述待识别图像的深度信息，所述深度识别模型通过执行如所述的深度识别模型训练方法而获得。

在本申请的至少一个实施例中，所述目标深度图像是指包含所述待识别图像中每个像素点的深度信息的图像，所述待识别图像中每个像素点的深度信息是指所述待识别图像中每个像素点对应的待识别对象与拍摄所述待识别图像的拍摄设备之间的距离。

在本申请的至少一个实施例中，所述目标深度图像的生成方式与所述初始深度图像的生成方式基本一致，故本申请在此不做赘述。

在本申请的至少一个实施例中，所述电子设备获取所述目标深度图像中每个像素点的像素值作为所述待识别图像中对应的像素点的深度信息。

通过上述实施方式，由于提升了所述深度识别模型的精度，因此能够提高所述待识别图像的深度识别的精确度。

如图5所示，是本申请实施例提供的电子设备的结构示意图。

在本申请的一个实施例中，所述电子设备1包括，但不限于，存储器12、处理器13，以及存储在所述存储器12中并可在所述处理器13上运行的计算机程序，例如图像深度识别程序及深度识别模型训练程序。

本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。

所述处理器13可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器13是所述电子设备1的运算核心和控制中心，利用各种接口和线路连接整个电子设备1的各个部分，及获取所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。例如，所述处理器13可以通过接口获取所述拍摄设备2拍摄到的所述第一图像。

所述处理器13获取所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13获取所述应用程序以实现上述各个深度识别模型训练方法以及各个图像深度识别方法实施例中的步骤，例如图2及图5所示的步骤。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13获取，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备1中的获取过程。

所述存储器12可用于存储所述计算机程序和/或模块，所述处理器13通过运行或获取存储在所述存储器12内的计算机程序和/或模块，以及调用存储在存储器12内的数据，实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器12可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地，所述存储器12可以是具有实物形式的存储器，如内存条、TF卡(Trans-flash Card)等等。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器获取时，可实现上述各个方法实施例的步骤。

其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可获取文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

结合图2，所述电子设备1中的所述存储器12存储多个指令以实现一种深度识别模型训练方法，所述处理器13可获取所述多个指令从而实现：获取第一图像及第二图像；基于实例分割网络对所述第一图像进行实例分割，得到所述第一图像对应的第一静态对象、多个第一动态对象及每个第一动态对象的第一动态位置，并基于所述实例分割网络对所述第二图像进行实例分割，得到所述第二图像对应的第二静态对象与多个第二动态对象；基于每个第一动态对象的像素点数量及预设位置从所述多个第一动态对象中选取多个目标动态对象，并基于每个第二动态对象的像素点数量及所述预设位置从所述多个第二动态对象中选取多个特征动态对象；识别每个目标动态对象是否存在对应的特征动态对象，并将存在对应关系的目标动态对象及特征动态对象确定为识别对象；根据所述识别对象对应的动态位姿矩阵、所述第一静态对象及所述第二静态对象对应的静态位姿矩阵及预设阈值矩阵，识别所述识别对象中的目标动态对象的对象状态；根据所述对象状态、所述第一动态位置及所述第一图像生成目标图像，并根据所述对象状态、所述第一动态位置及所述第一图像对应的初始投影图像生成目标投影图像；基于所述第一图像对应的初始深度图像与所述目标图像之间的梯度误差及所述目标投影图像与所述目标图像之间的光度误差，调整获取的深度识别网络，得到深度识别模型。

结合图4，所述电子设备1中的所述存储器12存储多个指令以实现一种图像深度识别方法，所述处理器13可获取所述多个指令从而实现：获取待识别图像，将所述待识别图像输入到深度识别模型中，得到所述待识别图像的目标深度图像及所述待识别图像的深度信息。

具体地，所述处理器13对上述指令的具体实现方法可参考图2及图4对应实施例中相关步骤的描述，在此不赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以处于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。本申请中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种深度识别模型训练方法，应用于电子设备，其特征在于，所述深度识别模型训练方法包括：

获取第一图像及第二图像；

基于实例分割网络对所述第一图像进行实例分割，得到所述第一图像对应的第一静态对象、多个第一动态对象及每个第一动态对象的第一动态位置，并基于所述实例分割网络对所述第二图像进行实例分割，得到所述第二图像对应的第二静态对象与多个第二动态对象；

基于每个第一动态对象的像素点数量及预设位置从所述多个第一动态对象中选取多个目标动态对象，并基于每个第二动态对象的像素点数量及所述预设位置从所述多个第二动态对象中选取多个特征动态对象；

识别每个目标动态对象是否存在对应的特征动态对象，并将存在对应关系的目标动态对象及特征动态对象确定为识别对象；

根据所述识别对象对应的动态位姿矩阵、所述第一静态对象及所述第二静态对象对应的静态位姿矩阵及预设阈值矩阵，识别所述识别对象中的目标动态对象的对象状态；

根据所述对象状态、所述第一动态位置及所述第一图像生成目标图像，并根据所述对象状态、所述第一动态位置及所述第一图像对应的初始投影图像生成目标投影图像；

基于所述第一图像对应的初始深度图像与所述目标图像之间的梯度误差及所述目标投影图像与所述目标图像之间的光度误差，调整获取的深度识别网络，得到深度识别模型。

2.如权利要求1所述的深度识别模型训练方法，其特征在于，所述实例分割网络包括特征提取层、分类层及映射层，所述基于实例分割网络对所述第一图像进行实例分割，得到所述第一图像对应的第一静态对象、多个第一动态对象及每个第一动态对象的第一动态位置包括：

对所述第一图像进行标准化处理，得到标准化图像；

基于所述特征提取层对所述标准化图像进行特征提取，得到初始特征图；

基于所述初始特征图的尺寸与所述标准化图像的尺寸之间的倍数关系及所述特征提取层中的卷积步长对所述标准化图像进行分割，得到与所述初始特征图中每个像素点对应的矩形区域；

基于所述分类层对所述初始特征图进行分类处理，得到所述初始特征图中每个像素点属于第一预设类别的预测概率；

将取值大于预设阈值的预测概率在所述初始特征图中所对应的像素点确定为目标像素点，并将多个所述目标像素点对应的多个矩形区域确定为多个特征区域；

基于所述映射层将每个特征区域映射到所述初始特征图中，得到所述初始特征图中每个特征区域对应的映射区域；

基于预设数量对多个所述映射区域进行划分，得到每个映射区域对应的多个划分区域；

确定每个划分区域中的中心像素点，并计算出所述中心像素点的像素值；

对多个所述中心像素点所对应的多个像素值进行池化处理，得到每个映射区域对应的映射概率值；

对所述多个映射区域进行还原，并将还原后的多个映射区域进行拼接，得到目标特征图；

根据所述目标特征图、所述映射概率值、所述还原后的多个映射区域及第二预设类别生成所述第一图像对应的第一静态对象、所述多个第一动态对象及每个第一动态对象的第一动态位置。

3.如权利要求2所述的深度识别模型训练方法，其特征在于，所述根据所述目标特征图、所述映射概率值、所述还原后的多个映射区域及第二预设类别生成所述第一图像对应的第一静态对象、所述多个第一动态对象及每个第一动态对象的第一动态位置包括：

根据所述映射概率值及所述第二预设类别对所述目标特征图的每个像素点进行分类，得到所述还原后的映射区域中每个像素点的像素类别；

将所述还原后的映射区域中相同的像素类别所对应的多个像素点构成的区域确定为第一对象；

获取所述第一对象中所有像素点的像素坐标，并将所述像素坐标确定为所述第一对象对应的第一位置；

根据预设规则将多个所述第一对象划分为所述多个第一动态对象及所述第一静态对象，并将每个第一动态对象对应的第一位置确定为所述第一动态位置。

4.如权利要求1所述的深度识别模型训练方法，其特征在于，所述基于每个第一动态对象的像素点数量及预设位置从所述多个第一动态对象中选取多个目标动态对象包括：

统计每个第一动态对象包含的像素点的像素数量；

根据所述像素数量对所述多个第一动态对象进行排序；

选取排序后的像素数量处于所述预设位置的第一动态对象作为所述多个目标动态对象。

5.如权利要求1所述的深度识别模型训练方法，其特征在于，所述识别每个目标动态对象是否存在对应的特征动态对象包括：

获取每个目标动态对象的多个目标要素信息，并获取相同类别的特征动态对象中每个目标要素信息对应的特征要素信息；

将每个目标要素信息与对应的特征要素信息进行匹配处理，得到所述目标动态对象与所述相同类别的特征动态对象的匹配值；

若所述匹配值处于预设区间内，则确定所述目标动态对象中存在对应的特征动态对象。

6.如权利要求1所述的深度识别模型训练方法，其特征在于，所述根据所述识别对象对应的动态位姿矩阵、所述第一静态对象及所述第二静态对象对应的静态位姿矩阵及预设阈值矩阵识别所述识别对象中的目标动态对象的对象状态包括：

将所述静态位姿矩阵中的每个矩阵元素与所述识别对象对应的动态位姿矩阵中对应的矩阵元素进行相减运算，得到位姿差值；

对所述位姿差值取绝对值，得到所述静态位姿矩阵中的位姿绝对值；

根据所述静态位姿矩阵中每个位姿绝对值的元素位置，将所述位姿绝对值进行排列，得到位姿绝对值矩阵；

将所述位姿绝对值矩阵中的每个位姿绝对值与所述预设阈值矩阵中对应的位姿阈值进比较，若所述位姿绝对值矩阵中存在至少一个大于所述对应位姿阈值的位姿绝对值，则确定该识别对象中的目标动态对象的对象状态为移动；或者

若所述位姿绝对值矩阵中所有的位姿绝对值均小于或者等于所述对应阈值，则确定所述识别对象中的目标动态对象的对象状态为静止。

7.如权利要求1所述的深度识别模型训练方法，其特征在于，所述根据所述对象状态、所述第一动态位置及所述第一图像生成目标图像包括：

若所述识别对象中任一目标动态对象的对象状态为移动，则基于所述任一目标动态对象的第一动态位置在所述第一图像中对所述任一目标动态对象进行掩膜处理，得到所述目标图像；或者

若所述识别对象中的所有目标动态对象的对象状态均为静止，则将所述第一图像确定为所述目标图像。

8.如权利要求1所述的深度识别模型训练方法，其特征在于，所述基于所述第一图像对应的初始深度图像与所述目标图像之间的梯度误差及所述目标投影图像与所述目标图像之间的光度误差，调整所述深度识别网络，得到深度识别模型包括：

基于所述梯度误差及所述光度误差，计算所述深度识别网络的深度损失值；

基于所述深度损失值调整所述深度识别网络，直至所述深度损失值下降到最低，得到所述深度识别模型。

9.一种图像深度识别方法，其特征在于，所述图像深度识别方法包括：

获取待识别图像；

将所述待识别图像输入到深度识别模型中，得到所述待识别图像的目标深度图像及所述待识别图像的深度信息，所述深度识别模型通过执行如权利要求1至8中任一项所述的深度识别模型训练方法而获得。

10.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述至少一个指令以实现如权利要求1至8中任意一项所述的深度识别模型训练方法，或者如权利要求9所述的图像深度识别方法。