CN112634343A

CN112634343A - 图像深度估计模型的训练方法、图像深度信息的处理方法

Info

Publication number: CN112634343A
Application number: CN202011546584.4A
Authority: CN
Inventors: 蒋旻悦; 杨喜鹏; 谭啸; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-09
Also published as: US20210272306A1; EP4020385A1

Abstract

本申请公开了一种图像深度估计模型的训练方法、图像深度信息的处理方法、装置、自动驾驶车辆、电子设备、程序产品以及存储介质，涉及自动驾驶、计算机视觉、以及深度学习等人工智能领域。具体实现方案为：将样本环境图像、样本环境图像的样本边缘信息、以及样本环境点云数据输入至待训练模型，由待训练模型确定样本环境图像中每一像素点的初始深度信息、以及每一像素点与其所对应的邻域像素点之间的特征关系，并根据特征关系对每一像素点的初始深度信息进行优化处理，得到每一像素点的优化深度信息，且根据优化深度信息对待训练模型的参数进行调整，得到图像深度估计模型，通过特征关系对深度信息进行优化，提高了优化深度信息的准确性。

Description

图像深度估计模型的训练方法、图像深度信息的处理方法

技术领域

本申请涉及计算机、图像处理技术，尤其涉及一种图像深度估计模型的训练方法、图像深度信息的处理方法、装置、自动驾驶车辆、电子设备、程序产品以及存储介质，可应用于自动驾驶、计算机视觉、以及深度学习等人工智能领域。

背景技术

图像的深度信息可以理解为，由图像采集器到图像对应的场景中各点的距离。

在现有技术中，深度信息可以被广泛地应用于各个领域，如自动驾驶车辆领域，机器人领域等，在对环境图像的深度信息进行优化处理时，通常采用的方式为：基于坐标计算的方式对环境图像的深度信息进行补全。

然而，基于坐标计算等方式优化得到的深度信息的准确性可能偏低。

发明内容

本申请提供了一种用于提高优化后的图像深度信息的准确性的图像深度估计模型的训练方法、图像深度信息的处理方法、装置、自动驾驶车辆、电子设备、程序产品以及存储介质。

根据本申请的一个方面，提供了一种图像深度估计模型的训练方法，包括：

将获取到的样本环境图像、所述样本环境图像的样本边缘信息、以及样本环境点云数据输入至待训练模型；

由所述待训练模型根据样本环境图像、所述样本环境图像的样本边缘信息、以及样本环境点云数据，确定所述样本环境图像中每一像素点的初始深度信息、以及所述每一像素点与其所对应的邻域像素点之间的特征关系，并根据所述特征关系对所述每一像素点的初始深度信息进行优化处理，得到所述每一像素点的优化深度信息，且根据所述优化深度信息对所述待训练模型的参数进行调整，得到图像深度估计模型；

其中，所述图像深度估计模型用于得到环境图像中各像素点的优化深度信息。

根据本申请的另一方面，提供了一种图像深度信息处理方法，包括：

获取环境图像和环境点云数据，将所述环境图像和所述环境点云数据输入至上述实施例所述方法训练生成的图像深度估计模型，输出所述环境图像中各像素点的优化深度信息。

根据本申请的另一方面，提供了一种图像深度估计模型的训练装置，包括：

输入模块，用于将获取到的样本环境图像、所述样本环境图像的样本边缘信息、以及样本环境点云数据输入至待训练模型；

确定模块，用于由所述待训练模型根据样本环境图像、所述样本环境图像的样本边缘信息、以及样本环境点云数据，确定所述样本环境图像中每一像素点的初始深度信息、以及所述每一像素点与其所对应的邻域像素点之间的特征关系；

优化模块，用于根据所述特征关系对所述每一像素点的初始深度信息进行优化处理，得到所述每一像素点的优化深度信息；

调整模块，用于根据所述优化深度信息对所述待训练模型的参数进行调整，得到图像深度估计模型；

根据本申请的另一方面，提供了一种图像深度信息的处理装置，包括：

获取模块，用于获取环境图像和环境点云数据；

估计模块，用于将所述环境图像和所述环境点云数据输入至基于上述实施例所述方法训练生成的图像深度估计模型，输出所述环境图像中各像素点的优化深度信息。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例所述的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上实施例所述的方法。

根据本申请的另一方面，提供了一种自动驾驶车辆，包括：图像采集装置、雷达传感器、控制器、以及如上实施例所述的图像深度信息的处理装置；其中，

所述图像采集装置，用于采集自动驾驶车辆的环境图像；

所述雷达传感器，用于采集所述自动驾驶车辆的环境点云数据；

所述图像深度信息的处理装置用于，根据所述自动驾驶车辆的环境图像和所述环境点云数据，输出所述环境图像中各像素点的优化深度信息；

所述控制器，用于根据所述环境图像中各像素点的优化深度信息，对所述自动驾驶车辆进行自动驾驶控制处理。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请的8邻域的示意图；

图3是根据本申请第二实施例的示意图；

图4是根据本申请第三实施例的示意图；

图5是可以实现本申请实施例的应用场景的示意图

图6是根据本申请第四实施例的示意图；

图7是根据本申请第五实施例的示意图；

图8是根据本申请第六实施例的示意图；

图9是根据本申请第七实施例的示意图；

图10是根据本申请第八实施例的示意图；

图11是根据本申请第九实施例的示意图；

图12是根据本申请第十实施例的示意图；

图13是根据本申请第十一实施例的示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

值得说明地是，通过相关技术中基于坐标计算等方式对环境图像的深度信息进行优化可能造成优化得到的深度信息的准确性和可靠性偏低的问题，即可能存在对深度信息不全不到位，或者补全错误的问题。

本申请的发明人经过创造性地劳动，得到了本申请实施例的发明构思：结合环境图像和环境点云数据，确定环境图像中每一像素点的深度信息、以及每一像素点与其所对应的邻域像素点之间的特征关系，对每一像素点的深度信息进行优化处理，即进行补全，从而实现优化后的深度信息的准确性和可靠性。

基于上述发明构思，本申请提供一种图像深度估计模型训练方法、图像深度信息的处理方法、装置、自动驾驶车辆、电子设备、程序产品以及存储介质，应用于计算机和图像处理技术中的自动驾驶、计算机视觉、以及深度学习领域等人工智能领域，以达到深度信息优化的准确性和可靠性的技术效果。

图1是根据本申请第一实施例的示意图，如图1所示，本实施例的图像深度估计模型的训练方法，包括：

S101：将获取到的样本环境图像、样本环境图像的样本边缘信息、以及样本环境点云数据输入至待训练模型。

示例性地，本实施例的执行主体可以为图像深度估计模型的训练装置(下文简称训练装置)，训练装置可以为服务器(如云端服务器或者本地服务器等)、计算机、终端设备、处理器、以及芯片等。

其中，待训练模型可以为卷积神经网络模型，且本实施例对卷积神经网络模型的参数(如通道数量，卷积核系数)等不作限定。

其中，样本环境图像可以表征在深度信息优化的场景中的环境的图像，如针对自动驾驶的应用场景，环境图像可以表征包括自动驾驶车辆行驶过程的行驶环境中的各对象的图像。

同理，样本环境点云数据可以表征在深度信息优化的场景中的环境中的各对象的点云数据，如针对自动驾驶的应用场景，环境点云数据可以表征包括自动驾驶车辆行驶过程的行驶环境中的各对象的点云数据。

样本环境图像的样本边缘信息可以表征，对样本环境图像进行边缘特征提取得到的边缘信息。

S102：由待训练模型根据样本环境图像、样本环境图像的样本边缘信息、以及样本环境点云数据，确定样本环境图像中每一像素点的初始深度信息、以及每一像素点与其所对应的邻域像素点之间的特征关系。

值得说明地是，在该步骤中，可以基于样本环境图像、样本环境图像的边缘信息、以及环境点云数据，确定两个维度的内容，一个维度的内容为样本环境图像中的每一像素点的初始深度信息，另一个维度的内容为每一像素点与其所对应的邻域像素点之间的特征关系。

其中，邻域可以为8邻域，也可以为4邻域，也可以为16邻域，本实施例不做限定。以像素点为a，邻域为8邻域为例，且结合图2对每一像素点与其所对应的邻域像素点之间的特征关系进行示范性地描述如下：

如图2所示，像素点a为中心点，与像素点a像素距离最接近的8个点为邻域像素点，如图2中所示的邻域像素点1至邻域像素点8。

值得说明地是，图2只是用于示范性地说明本实施例中每一像素点与邻域像素点之间的位置关系，而不能理解为每一像素点与邻域像素点之间的位置关系的限定。

每一像素点均有对应的特征，如颜色特征(如RGB值等)、纹理特征、以及形状特征等，在本实施例中，可以确定中心点a的特征与8个邻域像素点中的每一邻域像素点的特征之间的关联关系，如颜色特征之间的关联关系、纹理特征之间的关联关系、以及形状特征之间的关联关系等。

S103：根据特征关系对每一像素点的初始深度信息进行优化处理，得到每一像素点的优化深度信息，且根据优化深度信息对所述待训练模型的参数进行调整，得到图像深度估计模型。

其中，图像深度估计模型用于得到环境图像中各像素点的优化深度信息。

值得说明地是，本实施例引入了特征关系的特征，并根据特征关系对每一像素点的初始深度信息进行优化处理，从而得到每一像素点的深度优化信息。

例如，结合上述示例和图2，特征关系可以为像素点a的特征与邻域像素点1至8中各像素点特征之间的关联关系，通过基于该关联关系对像素点a的深度信息进行优化处理，相当于基于邻域像素点对像素点a的深度信息进行调整(如纠正)和/或补全，使得像素点a的深度信息尽可能地与实际中的对象的相关信息相符合，因此，可以提高深度优化信息的准确性和可靠性的技术效果。

图3是根据本申请第二实施例的示意图，如图3所示，本实施例的图像深度估计模型的训练方法，包括：

S301：将获取到的样本环境图像、样本环境图像的样本边缘信息、以及样本环境点云数据输入至待训练模型。

示例性地，关于S301地描述可以参见S101，此次不再赘述。

S302：根据样本环境图像、样本边缘信息、以及样本环境点云数据，拼接生成每一像素点的图像特征。

示例性地，图像特征可以表征每一像素点的颜色特征、纹理特征、形状特征、以及空间关系特征等。

S303：根据每一像素点的图像特征，确定以每一像素点为样本环境图像的中心点时的初始深度信息、以及特征关系。

在本实施例中，针对任意像素点，均确定以该像素点为环境图像的中心点时，该像素点的初始深度信息和特征关系。

在本实施例中，通过对环境图像和环境点云数据进行拼接，得到每一像素点的图像特征，使得每一像素点的图像特征既包括环境图像对应的图像特征，也包括环境点云数据对应的图像特征，使得每一像素点的图像特征的丰富程度较高，从而可以提高确定出的深度信息和特征关系的全面性和可靠性的技术效果。

S304：根据特征关系确定调整信息，并根据调整信息对每一像素点的初始深度信息进行优化处理，得到每一像素点的优化深度信息。

结合上述示例可知，特征关系可以表征每一像素点的特征与邻域像素点的特征之间的关联关系，在本实施例中，通过根据特征关系确定调整信息，可以提高调整信息的准确性和可靠性，以便当基于调整信息对每一像素点的初始深度信息进行优化处理时，可以提高每一像素点的优化深度信息的准确性和可靠性的技术效果。

在一些实施例中，每一像素点与邻域像素点之间的相似程度、每一像素点与邻域像素点之间的归属对象关系、以及每一像素点的初始深度信息的置信度中的至少一种；根据特征关系确定调整信息，包括：根据相似程度、归属对象之间关系、以及置信度中的至少一种，确定调整信息。

例如，结合上述示例和图2：

像素程度可以为像素点a与邻域像素点1至8中每一像素点之间的像素程度，且具体可以为如像素点a的特征与像素点1的特征之间相似程度，更具体地，可以为两者之间的RGB值的相似程度。

归属对象关系可以为像素点a与邻域像素点1至8中每一像素点是否归属于同一对象，如像素点a与邻域像素点1均属于标示牌的像素点，则像素点a与邻域像素点1归属于同一对象。

置信度可以为像素点a的初始深度信息为准确的深度信息的可能性。

值得说明地是，在本实施例中，特征关系可以包括一个维度的内容，也可以包括多个维度的内容，从而可以实现基于特征关系确定调整信息的多样性和灵活性的技术效果。

在一些实施例中，若特征关系包括相似程度；则根据每一像素点的图像特征，确定特征关系，包括：根据每一像素点的图像特征、以及邻域像素点的图像特征，确定相似程度。

示例性地，根据每一像素点的图像特征和邻域像素点的图像特征进行相似度计算，如RGB值的相似度计算，得到相似程度。

值得说明地是，在本实施例中，通过基于图像特征确定相似程度，可以提高确定相似程度的方便快捷性，从而提高确定优化深度信息的效率。

在一些实施例中，若特征关系包括归属对象关系；则根据每一像素点的图像特征，确定特征关系，包括：根据每一像素点的图像特征，分别确定每一像素点和邻域像素点各自归属的对象，并基于各自归属的对象确定归属对象关系。

示例性地，结合上述示例和图2，根据像素点a的图像特征，确定像素点a归属的对象，并根据邻域像素点1至8中每一邻域像素点的图像特征，确定邻域像素点1至8中每一邻域像素点归属的对象，并确定像素点a归属的对象，与邻域像素点1至8中每一邻域像素点归属的对象归属的对象之间的关系(如归属同一对象或者归属不同对象)。

值得说明地是，在本实施例中，针对每一像素点、以及相应地邻域像素点的图像特征，分别确定各自归属的对象，并基于各自归属的对象确定归属对象关系，可以提高确定出的归属对象的准确性和可靠性的技术效果。

在一些实施例中，根据每一像素点的图像特征，分别确定每一像素点和邻域像素点各自归属的对象，基于各自归属的对象确定所述归属对象关系，包括如下步骤：

步骤1：根据邻域像素点的图像特征，确定邻域像素点的边缘信息，并基于邻域像素点的边缘信息确定邻域像素点的归属对象。

步骤2：根据每一像素点的图像特征，确定每一像素点的边缘信息，并根据每一像素点的边缘信息确定每一像素点的归属对象。

示例性地，边缘信息用于表征与图像边缘相关的信息，即一个图像与另一个图像相连接的区域的图像的信息。

步骤3：根据邻域像素点的归属对象、以及每一像素点的归属对象，确定邻域像素点和每一像素点归属于相同对象，或者归属于不同对象。

值得说明地是，在本实施例中，通过确定边缘信息确定归属对象，可以使得确定出的归属对象具有高准确性和可靠性的技术效果，从而可以实现确定出邻域像素点和每一像素点归属于相同对象，或者归属于不同对象的准确性和可靠性的技术效果。

在一些实施例中，若特征关系包括置信度，至少部分像素点的图像特征包括深度信息；则根据每一像素点的图像特征，确定特征关系，包括如下步骤：

步骤1：根据至少部分像素点的深度信息确定每一像素点的深度信息。

例如，结合上述示例和图2，邻域像素点1至8中至少部分邻域像素点的图像特征具有深度信息，如邻域像素点1至8的图像特征均具有深度信息，则可以根据邻域像素点1至8的深度信息确定像素点a的深度信息。

步骤2：根据基于至少部分像素点的深度信息确定出的每一像素点的深度信息、以及基于每一像素点的图像特征确定出的每一像素点的初始深度信息，确定置信度。

相应地，根据邻域像素点1至8的深度信息确定像素点a的深度信息、以及基于像素点a的图像特征确定出的像素点a的初始深度信息，得到像素点a的深度信息的置信度。

值得说明地是，在本实施例中，通过基于至少部分邻域像素点的深度信息确定每一像素点的深度信息，并结合该确定出的深度信息和初始深度信息确定置信度，可以使得置信度具有较强的表征深度信息的可靠性的特点，从而实现提高置信度的准确性和可靠性的技术效果。

S305：根据优化深度信息对所述待训练模型的参数进行调整，得到图像深度估计模型。

在一些实施例中，S305可以包括如下步骤：

步骤1：确定优化深度信息和预先设置的参考深度信息之间的损失信息。

示例性地，参考深度信息可以为参考深度信息的一阶差分信息。可以基于预设损失函数对优化深度信息和参考深度信息进行计算，得到相应的损失信息。

步骤2：基于损失信息对待训练模型的参数进行调整，得到图像深度估计模型。

示例性地，可以基于损失信息的大小确定对待训练模型的参数进行调整的幅度。

图4是根据本申请第三实施例的示意图，如图4所示，本实施例的图像深度信息的处理方法，包括：

S401：获取环境图像和环境点云数据。

示例性地，本实施例的执行主体可以为图像深度信息的处理装置(下文简称处理装置)，处理装置可以为服务器(如云端服务器或者本地服务器等)、计算机、终端设备、处理器、以及芯片等。

其中，本实施例的处理装置可以为与训练装置相同的装置，也可以为不同的装置，本实施例不做限定。

本实施例的方法可以应用于如图5所述的应用场景，在如图5所示的应用场景中，自动驾驶车辆501行驶于道路502，自动驾驶车辆501可以设置摄像头5011和雷达传感器5012。其中，

摄像头5011可以采集摄像头视场角内的对象，如摄像头可以采集包括如图5中所示的车道线503、红绿灯504和标示牌505的环境图像。

雷达传感器5012可以采集雷达传感器参数对应的环境点云数据，如与车道线503、红绿灯504和标示牌505对应的环境点云数据。

值得说明地是，上述示例只是用于示范性地说明本实施例可以应用的应用场景，而不能理解为对本实施例的应用场景的限定。

相应地，结合如图1所示的应用场景，环境图像可以为包括车道线、红绿灯和标示牌的图像。

同理，结合如图1所示的应用场景，环境图像可以为包括车道线、红绿灯和标示牌的点云数据。

且当本实施例的方法应用于如图5所示的应用场景时，处理置可以为自动驾驶车辆，且具体可以为设置于自动驾驶车辆的计算机、车载终端、处理器、以及芯片(如车辆联网芯片)等。

现结合图1所示的应用场景，对处理装置获取环境图像和环境点云数据地描述如下：

处理装置可以分别与摄像头和雷达传感器连接，摄像头可以将其采集到的环境图像发送给处理装置，相应地，处理装置可以获取由摄像头发送的环境图像；同理，雷达传感器可以将其采集到的环境点云数据发送给处理装置，相应地，处理装置可以获取由雷达传感器发送的环境点云数据。

S402：将环境图像和环境点云数据输入至上述任一项所述方法训练生成的图像深度估计模型，输出环境图像中各像素点的优化深度信息。

值得说明地是，基于图像深度估计模型确定环境图像中各像素点的优化深度信息的方法可以参见上述示例中图像深度估计模型训练中，确定环境图像中各像素点的优化深度信息的方法的原理，此次不再赘述。

图6是根据本申请第四实施例的示意图，如图6所示，本实施例的图像深度信息的处理方法，包括：

S601：获取环境图像和环境点云数据。

示例性地，关于S601地描述可以参见S401，此次不再赘述。

S602：提取环境图像的边缘信息。

在本实施例中，处理装置在获取到环境图像之后，可以对环境图像的边缘信息进行提取。

例如，可以基于canny算子提取环境图像的边缘信息。

S603：将环境图像、环境点云数据、以及边缘信息输入至上述任一项所述方法训练生成的图像深度估计模型，输出环境图像中各像素点的优化深度信息。

示例性地，关于S603地描述可以参见S602地原理，此处不再赘述。

图7是根据本申请第五实施例的示意图，如图7所示，本实施例的图像深度估计模型的训练装置700，包括：

输入模块701，用于将获取到的样本环境图像、样本环境图像的样本边缘信息、以及样本环境点云数据输入至待训练模型。

确定模块702，用于由待训练模型根据样本环境图像、样本环境图像的样本边缘信息、以及样本环境点云数据，确定样本环境图像中每一像素点的初始深度信息、以及每一像素点与其所对应的邻域像素点之间的特征关系。

优化模块703，用于根据特征关系对每一像素点的初始深度信息进行优化处理，得到每一像素点的优化深度信息。

调整模块704，用于根据优化深度信息对待训练模型的参数进行调整，得到图像深度估计模型。

结合图8可知，在一些实施例中，第二优化模块703包括：

第一确定子模块7031，用于根据特征关系确定调整信息。

优化子模块7032，用于根据调整信息对每一像素点的初始深度信息进行优化处理，得到每一像素点的优化深度信息。

在一些实施例中，特征关系包括：每一像素点与邻域像素点之间的相似程度、每一像素点与邻域像素点之间的归属对象关系、以及每一像素点的初始深度信息的置信度中的至少一种；第一确定子模块7031用于，根据相似程度、归属对象之间关系、以及置信度中的至少一种，确定调整信息。

结合图9可知，在一些实施例中，确定模块702包括：

生成子模块7021，用于根据样本环境图像、样本边缘信息、以及样本环境点云数据，拼接生成每一像素点的图像特征。

第二确定子模块7022，用于根据每一像素点的图像特征，确定以每一像素点为样本环境图像的中心点时的初始深度信息、以及特征关系。

在一些实施例中，第二确定子模块7022用于，根据每一像素点的图像特征、以及邻域像素点的图像特征，确定相似程度。

在一些实施例中，第二确定子模块7022用于，根据每一像素点的图像特征，分别确定每一像素点和邻域像素点各自归属的对象，并基于各自归属的对象确定归属对象关系。

在一些实施例中，第二确定子模块7022用于，根据邻域像素点的图像特征，确定邻域像素点的边缘信息，并基于邻域像素点的边缘信息确定邻域像素点的归属对象，并根据每一像素点的图像特征，确定每一像素点的边缘信息，并根据每一像素点的边缘信息确定每一像素点的归属对象，且根据邻域像素点的归属对象、以及每一像素点的归属对象，确定邻域像素点和每一像素点归属于相同对象，或者归属于不同对象。

在一些实施例中，若特征关系包括置信度，至少部分像素点的图像特征包括深度信息；第二确定子模块7022用于，根据至少部分像素点的深度信息确定每一像素点的深度信息，并根据基于至少部分像素点的深度信息确定出的每一像素点的深度信息、以及基于每一像素点的图像特征确定出的每一像素点的初始深度信息，确定置信度。

结合图10可知，在一些实施例中，调整模块704包括：

第三确定子模块7041，用于确定优化深度信息和预先设置的参考深度信息之间的损失信息。

调整子模块7042，用于基于损失信息对待训练模型的参数进行调整，得到图像深度估计模型。

图11是根据本申请第九实施例的示意图，如图11所示，本实施例的图像深度信息的处理装置1100，包括：

获取模块1101，用于获取环境图像和环境点云数据；

预估模块1102，用于将所述环境图像和所述环境点云数据输入至如上任一实施例所述方法训练生成的图像深度估计模型，输出所述环境图像中各像素点的优化深度信息。

结合图12可知，在一些实施例中，所述图像深度信息的处理装置1100还包括：

提取模块1103，用于提取环境图像的边缘信息；

以及，所述估计模块1102用于，将所述环境图像、所述环境点云数据、以及所述边缘信息输入至基于上述任一实施例所述方法训练生成的图像深度估计模型，输出所述环境图像中各像素点的优化深度信息。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

根据本申请的实施例，本申请还提供了一种计算机程序产品，程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图13示出了可以用来实施本申请的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，电子设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如图像深度估计模型的训练方法和/或图像深度信息的处理方法。例如，在一些实施例中，图像深度估计模型的训练方法和/或图像深度信息的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的图像深度估计模型的训练方法和/或图像深度信息的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像深度估计模型的训练方法和/或图像深度信息的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的另一个方面，本申请实施例还提供了一种自动驾驶车辆，包括：图像采集装置、雷达传感器、控制器、以及上述任一实施例所述的图像深度信息的处理装置；其中，

图像采集装置，用于采集自动驾驶车辆的环境图像。

示例性地，图像采集装置包括摄像头等可以用于采集图像的设备。

雷达传感器，用于采集自动驾驶车辆的环境点云数据。

图像深度信息的处理装置用于，根据自动驾驶车辆的环境图像和环境点云数据，输出环境图像中各像素点的优化深度信息。

控制器，用于根据环境图像中各像素点的优化深度信息，对自动驾驶车辆进行自动驾驶控制处理。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种图像深度估计模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，根据所述特征关系对所述每一像素点的初始深度信息进行优化处理，得到所述每一像素点的优化深度信息，包括：

根据所述特征关系确定调整信息，并根据所述调整信息对所述每一像素点的初始深度信息进行优化处理，得到所述每一像素点的优化深度信息。

3.根据权利要求2所述的方法，其中，所述特征关系包括：所述每一像素点与所述邻域像素点之间的相似程度、所述每一像素点与所述邻域像素点之间的归属对象关系、以及所述每一像素点的初始深度信息的置信度中的至少一种；根据所述特征关系确定调整信息，包括：

根据所述相似程度、所述归属对象之间关系、以及所述置信度中的至少一种，确定所述调整信息。

4.根据权利要求3所述的方法，其中，由样本环境图像、所述样本环境图像的样本边缘信息、以及样本环境点云数据，确定所述样本环境图像中每一像素点的初始深度信息、以及所述每一像素点与其所对应的邻域像素点之间的特征关系，包括：

根据所述样本环境图像、样本边缘信息、以及所述样本环境点云数据，拼接生成所述每一像素点的图像特征；

根据所述每一像素点的图像特征，确定以所述每一像素点为所述样本环境图像的中心点时的初始深度信息、以及所述特征关系。

5.根据权利要求4所述的方法，其中，若所述特征关系包括所述相似程度；则根据所述每一像素点的图像特征，确定所述特征关系，包括：

根据所述每一像素点的图像特征、以及所述邻域像素点的图像特征，确定所述相似程度。

6.根据权利要求4所述的方法，其中，若所述特征关系包括所述归属对象关系；则根据所述每一像素点的图像特征，确定所述特征关系，包括：

根据所述每一像素点的图像特征，分别确定所述每一像素点和所述邻域像素点各自归属的对象，并基于各自归属的对象确定所述归属对象关系。

7.根据权利要求6所述的方法，其中，根据所述每一像素点的图像特征，分别确定所述每一像素点和所述邻域像素点各自归属的对象，包括：

根据所述邻域像素点的图像特征，确定所述邻域像素点的边缘信息，并基于所述邻域像素点的边缘信息确定所述邻域像素点的归属对象；

根据所述每一像素点的图像特征，确定所述每一像素点的边缘信息，并根据所述每一像素点的边缘信息确定所述每一像素点的归属对象；

以及，基于各自归属的对象确定所述归属对象关系，包括：根据所述邻域像素点的归属对象、以及所述每一像素点的归属对象，确定所述邻域像素点和所述每一像素点归属于相同对象，或者归属于不同对象。

8.根据权利要求4至7中任一项所述的方法，其中，若所述特征关系包括所述置信度，至少部分像素点的图像特征包括深度信息；则根据所述每一像素点的图像特征，确定所述特征关系，包括：

根据至少部分像素点的深度信息确定所述每一像素点的深度信息；

根据基于至少部分像素点的深度信息确定出的所述每一像素点的深度信息、以及基于所述每一像素点的图像特征确定出的所述每一像素点的初始深度信息，确定所述置信度。

9.根据权利要求1至7中任一项所述的方法，其中，根据所述优化深度信息对所述待训练模型的参数进行调整，得到图像深度估计模型，包括：

确定所述优化深度信息和预先设置的参考深度信息之间的损失信息；

基于所述损失信息对所述待训练模型的参数进行调整，得到所述图像深度估计模型。

10.一种图像深度信息的处理方法，包括：

获取环境图像和环境点云数据；

将所述环境图像和所述环境点云数据输入至基于权利要求1至9中任一项所述方法训练生成的图像深度估计模型，输出所述环境图像中各像素点的优化深度信息。

11.根据权利要求10所述的方法，在获取环境图像和环境点云数据之后，所述方法还包括：

提取所述环境图像的边缘信息；

以及，将所述环境图像和环境点云数据输入至基于权利要求1至9中任一项所述方法训练生成的图像深度估计模型，输出所述环境图像中各像素点的优化深度信息，包括：将所述环境图像、所述环境点云数据、以及所述边缘信息输入至基于权利要求1至9中任一项所述方法训练生成的图像深度估计模型，输出所述环境图像中各像素点的优化深度信息。

12.一种图像深度估计模型的训练装置，包括：

13.根据权利要求12所述的装置，其中，所述优化模块包括：

第一确定子模块，用于根据所述特征关系确定调整信息；

优化子模块，用于根据所述调整信息对所述每一像素点的初始深度信息进行优化处理，得到所述每一像素点的优化深度信息。

14.根据权利要求13所述的装置，其中，所述特征关系包括：所述每一像素点与所述邻域像素点之间的相似程度、所述每一像素点与所述邻域像素点之间的归属对象关系、以及所述每一像素点的初始深度信息的置信度中的至少一种；所述第一确定子模块用于，根据所述相似程度、所述归属对象之间关系、以及所述置信度中的至少一种，确定所述调整信息。

15.根据权利要求14所述的装置，其中，所述确定模块包括：

生成子模块，用于根据所述样本环境图像、样本边缘信息、以及所述样本环境点云数据，拼接生成所述每一像素点的图像特征；

第二确定子模块，用于根据所述每一像素点的图像特征，确定以所述每一像素点为所述样本环境图像的中心点时的初始深度信息、以及所述特征关系。

16.根据权利要求15所述的装置，其中，所述第二确定子模块用于，根据所述每一像素点的图像特征、以及所述邻域像素点的图像特征，确定所述相似程度。

17.根据权利要求16所述的装置，其中，所述第二确定子模块用于，根据所述每一像素点的图像特征，分别确定所述每一像素点和所述邻域像素点各自归属的对象，并基于各自归属的对象确定所述归属对象关系。

18.根据权利要求17所述的装置，其中，所述第二确定子模块用于，根据所述邻域像素点的图像特征，确定所述邻域像素点的边缘信息，并基于所述邻域像素点的边缘信息确定所述邻域像素点的归属对象，并根据所述每一像素点的图像特征，确定所述每一像素点的边缘信息，并根据所述每一像素点的边缘信息确定所述每一像素点的归属对象，且根据所述邻域像素点的归属对象、以及所述每一像素点的归属对象，确定所述邻域像素点和所述每一像素点归属于相同对象，或者归属于不同对象。

19.根据权利要求15至18中任一项所述的装置，其中，若所述特征关系包括所述置信度，至少部分像素点的图像特征包括深度信息；所述第二确定子模块用于，根据至少部分像素点的深度信息确定所述每一像素点的深度信息，并根据基于至少部分像素点的深度信息确定出的所述每一像素点的深度信息、以及基于所述每一像素点的图像特征确定出的所述每一像素点的初始深度信息，确定所述置信度。

20.根据权利要求15至18中任一项所述的装置，其中，所述调整模块包括：

第三确定子模块，用于确定所述优化深度信息和预先设置的参考深度信息之间的损失信息；

调整子模块，用于基于所述损失信息对所述待训练模型的参数进行调整，得到所述图像深度估计模型。

21.一种图像深度信息的处理装置，包括：

获取模块，用于获取环境图像和环境点云数据；

估计模块，用于将所述环境图像和所述环境点云数据输入至基于权利要求1至9中任一项所述方法训练生成的图像深度估计模型，输出所述环境图像中各像素点的优化深度信息。

22.根据权利要求21所述的装置，所述装置还包括：

提取模块，用于提取所述环境图像的边缘信息；

以及，所述估计模块用于，将所述环境图像、所述环境点云数据、以及所述边缘信息输入至基于权利要求1至9中任一项所述方法训练生成的图像深度估计模型，输出所述环境图像中各像素点的优化深度信息。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法；或者，

以使所述至少一个处理器能够执行权利要求10-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法；或者，

所述计算机指令用于使所述计算机执行权利要求10-11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法；或者，

所述计算机程序在被处理器执行时实现根据权利要求10-11中任一项所述的方法。

26.一种自动驾驶车辆，包括：图像采集装置、雷达传感器、控制器、以及如权利要求21或者22所述的图像深度信息的处理装置；其中，

所述图像采集装置，用于采集自动驾驶车辆的环境图像；