CN117218171A

CN117218171A - 深度估计模型优化与物体距离检测方法及相关设备

Info

Publication number: CN117218171A
Application number: CN202210616086.5A
Authority: CN
Inventors: 刘宗玮; 郭锦斌
Original assignee: Hon Hai Precision Industry Co Ltd
Current assignee: Hon Hai Precision Industry Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-12-12
Also published as: US20230410338A1

Abstract

本申请提供一种深度估计模型优化和物体距离检测方法及相关设备，所述方法包括：利用初始深度估计模型获得第一图像的第一深度图像；获取第一图像中的每个像素点与第二图像中的每个像素点之间的对应关系；将第三图像中的像素值更新为第二图像中对应的像素点的像素值获得第四图像；基于初始深度估计模型获取第一图像与第四图像之间的初始损失函数；利用雷达装置获取所述第一图像与所述第四图像中每个像素点的深度值，基于深度值获得更新后的损失函数；利用更新后的损失函数优化初始深度估计模型，直至获得目标深度估计模型；将物体图像输入至目标深度估计模型，从目标深度估计模型获得输出的深度图像。本申请可以提高物体距离检测的准确性。

Description

深度估计模型优化与物体距离检测方法及相关设备

技术领域

本申请涉及图像检测技术领域，特别是指一种深度估计模型优化与物体距离检测方法及相关设备。

背景技术

在对物体进行距离检测时，可以通过获取物体图像对应的深度图像来确定物体与摄像装置之间的距离。目前的机器学习算法难以获得准确的深度信息，预测距离与实际距离之间的误差较大。

发明内容

鉴于以上内容，有必要提供一种深度估计模型优化与物体距离检测方法及相关设备，能够使用雷达装置获得的准确深度信息对初始深度估计模型进行优化迭代，可以提高物体距离检测的准确性。

所述深度估计模型优化方法包括：

获取物体影像，从所述影像中截取第一图像与第二图像；

对预先训练的初始深度估计模型执行优化流程，获得更新后的深度估计模型，所述优化流程包括：

利用所述初始深度估计模型获得所述第一图像的第一深度图像：

获取所述第一图像中的每个像素点与所述第二图像中的每个像素点之间的对应关系；

对所述第一深度图像进行反向投影，获得所述第一图像的第三图像；

根据所述对应关系，将所述第三图像中的每个像素点的像素值更新为所述第二图像中对应的像素点的像素值，获得第四图像；

基于所述初始深度估计模型获取所述第一图像与所述第四图像之间的初始损失函数；

利用雷达装置分别获取所述第一图像与所述第四图像中每个像素点的深度值，基于所述深度值优化所述初始损失函数，获得更新后的损失函数；

利用所述更新后的损失函数优化所述初始深度估计模型，获得更新后的深度估计模型；

对所述更新后的深度估计模型重复执行上述优化流程，直至获得符合要求的深度估计模型作为目标深度估计模型。

可选地，所述获取物体影像，从所述影像中截取第一图像与第二图像包括：

利用摄像装置获取所述物体影像，从所述物体影像中获取所述物体的不同视角的两帧图像作为所述第一图像与所述第二图像。

可选地，所述获取所述第一图像中的像素点与所述第二图像中的像素点之间的对应关系包括：

计算所述第一图像与所述第二图像之间的位姿转换关系，根据所述位姿转换关系计算所述对应关系。

可选地，计算所述第一图像与所述第二图像之间的位姿转换关系包括：

利用图像特征点提取算法和图像特征匹配算法，获取预设数量对的匹配点，每对匹配点包括所述第一图像的特征点与所述第二图像中对应的特征点；

基于三角测量方法，利用所述预设数量对的匹配点，获得每个所述第一图像的特征点与每个所述第二图像中的特征点的三维空间坐标；

基于Perspective-n-Point算法，利用所述三维空间坐标计算获取所述物体影像的摄像装置拍摄所述第一图像时的第一相机位姿，以及所述摄像装置拍摄所述第二图像时的第二相机位姿；

根据所述第一相机位姿和所述第二相机位姿计算所述位姿转换关系。

可选地，基于所述初始深度估计模型获取所述第一图像与所述第四图像之间的损失函数包括：

将所述第四图像输入所述初始深度模型，获得所述第四图像的第四深度图像；

计算所述第一深度图像与所述第四深度图像中对应像素点之间的初始深度差值，基于所述初始深度差值构建所述损失函数，所述损失函数包括所述第一深度图像与所述第四深度图像的结构相似性。

可选地，所述基于所述深度值优化所述损失函数包括：

计算所述第一图像的每个像素点的深度值与所述第四图像中对应像素点的深度值之间的校准后的深度差值；

利用所述校准后的深度差值作为所述损失函数的优化目标对所述损失函数进行优化。

可选地，所述方法还包括：

当所述更新后的损失函数收敛至预设的阈值范围时，确定所述更新后的深度估计模型符合要求。

所述物体距离检测方法包括：利用摄像装置获取物体图像，将所述物体图像输入至目标深度估计模型，所述目标深度估计模型为所述深度估计模型优化方法所获得；

从所述目标深度估计模型获得输出的深度图像，基于所述深度图像中每个像素点的像素值，确定所述物体与所述摄像装置的距离。

所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现所述深度估计模型优化方法或所述物体距离检测方法。

所述计算机装置包括存储器和至少一个处理器，所述存储器中存储有至少一个指令，所述至少一个指令被所述至少一个处理器执行时实现所述深度估计模型优化方法或所述物体距离检测方法。

相较于现有技术，所述深度估计模型优化和物体距离检测方法及相关设备，能使用雷达装置获得的准确深度信息对初始深度估计模型的损失函数进行优化迭代，获得的目标深度估计模型可以提高物体距离检测的准确性，尤其是应用在智能驾驶领域时，可通过对距离的准确判定，有效提高用户驾驶车辆时的行车安全。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的深度估计模型优化方法的流程图。

图2是本申请实施例提供的优化流程的流程图。

图3是本申请实施例提供的物体距离检测方法的流程图。

图4是本申请实施例提供的计算机装置的架构图。

主要元件符号说明

计算机装置	3
		处理器	32
存储器	31
		深度估计模型优化系统	30

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

参阅图1所示，为本申请较佳实施例的深度估计模型优化方法的流程图。

在本实施例中，所述深度估计模型优化方法可以应用于计算机装置中(例如图4所示的计算机装置)，对于需要进行物体距离检测的计算机装置，可以直接在计算机装置上集成本申请实施例的方法所提供的深度估计模型优化与物体距离检测的功能，或者以软件开发工具包(Software Development Kit，SDK)的形式运行在计算机装置上。

如图1所示，所述深度估计模型优化方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

步骤S1、计算机装置获取物体影像，从所述影像中截取第一图像与第二图像。

在一个实施例中，所述获取物体影像，从所述影像中截取第一图像与第二图像包括：利用摄像装置(例如单目摄像装置)获取所述物体影像(例如，视频片段)，计算机装置从所述摄像装置获取所述物体影像，并从所述物体影像中截取所述物体的不同视角的两帧图像作为所述第一图像与所述第二图像，其中，所述两帧图像可以是连续的两帧图像。

在本申请的实施例中，所述第一图像与所述第二图像的图片尺寸一致。

步骤S2、计算机装置对预先训练的初始深度估计模型执行优化流程，获得更新后的深度估计模型。

在一个实施例中，计算机装置训练所述初始深度估计模型的方法包括：获取预设数量(例如，3万张)的初始样本图像；对所述样本图像进行图像预处理(例如，尺寸调整、灰度调整等)，并获得目标样本图像；利用所述目标样本图像基于现有的训练深度估计模型的方法(例如，基于无监督的深度学习方法)训练深度估计(depth estimation)神经网络(例如，卷积神经网络ResNet50、VGG16)，获得所述初始深度估计模型。在其他实施例中，计算机装置还可以使用传统的机器学习方法等训练所述初始深度估计模型。

在一个实施例中，所述优化流程包括如下步骤S21至步骤S27，具体可参考如图2所示的优化流程。

步骤S21、计算机装置利用所述初始深度估计模型获得所述第一图像的第一深度图像。

在一个实施例中，将所述第一图像输入所述初始深度估计模型，利用所述初始深度估计模型输出所述第一深度图像。

在一个实施例中，深度图像(depth image)也被称为距离图像(range image)。举例而言，所述第一深度图像中任一像素点的像素值表示为深度，所述深度可表示由所述初始深度估计模型估计得到的所述任一像素点的物体至所述摄像装置的距离。

在一个实施例中，所述第一深度图像还可以包括三维点云图像。

步骤S22、计算机装置获取所述第一图像中的每个像素点与所述第二图像中的每个像素点之间的对应关系。

在一个实施例中，所述获取所述第一图像中的像素点与所述第二图像中的像素点之间的对应关系包括：计算所述第一图像与所述第二图像之间的位姿转换关系，根据所述位姿转换关系计算所述对应关系。

在一个实施例中，计算机装置基于同步定位与建图(SLAM，SimultaneousLocalization and Mapping)计算所述第一图像与所述第二图像之间的位姿转换关系，包括：

利用图像特征点检测算法(例如，Harris角点算法)和图像特征匹配算法(例如，尺度不变特征变换匹配算法)，获取预设数量对(例如，10对)的匹配点，每对匹配点包括所述第一图像的特征点与所述第二图像中对应的特征点；

基于三角测量(Triangulation)方法，利用所述预设数量对的匹配点，获得每个所述第一图像的特征点与每个所述第二图像中的特征点的三维空间坐标；

基于Perspective-n-Point算法，利用所述三维空间坐标计算获取所述物体图像的摄像装置拍摄所述第一图像时的第一相机位姿，以及所述摄像装置拍摄所述第二图像时的第二相机位姿；

在一个实施例中，相机位姿(pose)包括相机(例如，所述摄像装置)的位置和姿态，表示世界坐标系与相机坐标系之间的转换关系。所述位姿转换关系包括：所述第一相机位姿和所述第二相机位姿之间的变换矩阵(transformation matrix)。

在一个实施例中，所述根据所述位姿转换关系计算所述对应关系包括：利用所述第一图像中的任一像素点的三维空间坐标乘以所述变换矩阵，获得变换后的三维空间坐标；将变换后的三维空间坐标对应的所述第二图像中的像素点作为所述第一图像中的所述任一像素点的对应点。

在一个实施例中，还可以利用步骤S22的方法训练卷积神经网络，获得位姿估计模型。

步骤S23、计算机装置对所述第一深度图像进行反向投影，获得所述第一图像的第三图像。

在一个实施例中，计算机装置可以利用预先编写的OpenCV程序对所述第一深度图像进行反向投影(Back Projection)，获得所述第一图像的第三图像。

步骤S24、计算机装置根据所述对应关系，将所述第三图像中的每个像素点的像素值更新为所述第二图像中对应的像素点的像素值，获得第四图像。

步骤S25、计算机装置基于所述初始深度估计模型获取所述第一图像与所述第四图像之间的初始损失函数。

在一个实施例中，基于所述初始深度估计模型获取所述第一图像与所述第四图像之间的损失函数包括：

将所述第四图像输入所述初始深度模型，获得所述第四图像的第四深度图像；计算所述第一深度图像与所述第四深度图像中对应像素点之间的初始深度差值，基于所述初始深度差值构建所述损失函数，所述损失函数包括所述第一深度图像与所述第四深度图像的结构相似性(SSIM，Structural Similarity)。

在一个实施例中，所述损失函数还可以包括：所述第一深度图像与所述第四深度图像中对应像素点之间像素差值(即所述初始深度差值)的L1范数、交叉熵损失函数等。

步骤S26、计算机装置利用雷达装置分别获取所述第一图像与所述第四图像中每个像素点的深度值，基于所述深度值优化所述初始损失函数，获得更新后的损失函数。

在一个实施例中，所述基于所述深度值优化所述损失函数包括：计算所述第一图像的每个像素点与所述第四图像中对应像素点之间的所述深度值的校准后的深度差值；利用所述校准后的深度差值作为所述损失函数的优化目标对所述损失函数进行优化，包括：根据所述优化目标利用随机梯度下降法基于求导的链式法则对所述损失函数进行优化。

在一个实施例中，使用雷达装置获得的深度值可以校准所述第一图像与所述第四图像中低纹理(low texture)区域的深度值，提高对低纹理区域深度值检测的准确率。

步骤S27、计算机装置利用所述更新后的损失函数优化所述初始深度估计模型，获得更新后的深度估计模型。

步骤S3、对所述更新后的深度估计模型重复执行上述优化流程，直至获得符合要求的深度估计模型作为目标深度估计模型。

在一个实施例中，对所述损失函数进行优化更新的过程即对所述更新的深度估计模型的优化过程。当所述更新后的损失函数收敛至预设的阈值范围(例如，小于或等于0.2)时，确定所述更新后的深度估计模型符合要求。

本申请提供的深度估计模型优化方法，使用雷达装置获得的准确深度信息对初始深度估计模型的损失函数进行优化迭代，获得的目标深度估计模型可以提高物体距离检测的准确性。

参阅图3所示，为本申请较佳实施例的物体距离检测方法的流程图。

在本实施例中，通过利用所述深度估计模型优化方法获得的目标深度估计模型，可以实现对物体距离的检测。在实际应用中，对物体距离的检测可应用在各种不同的场景中，例如智能驾驶、智能家居(扫地机器人)等。

如图3所示，所述物体距离检测方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

步骤S4、利用摄像装置获取物体图像，将所述物体图像输入至目标深度估计模型。

在一个实施例中，所述摄像装置可以安装在车辆或其他需要进行物体距离检测的装置中。

步骤S5、从所述目标深度估计模型获得输出的深度图像，基于所述深度图像中每个像素点的像素值，确定所述物体与所述摄像装置的距离。

本申请提供的物体距离检测方法，使用所述目标深度估计模型，可以提高物体距离检测的准确性，例如，在智能驾驶领域，通过在行车过程中检测与路面物体的距离，可以提高用户驾驶车辆时的行车安全。

进一步地，在本申请的其他实施例中，在确定物体与所述摄像装置的距离之后，还可将所述距离与预设距离阈值进行比较。若所述距离小于或等于所述预设距离阈值，输出提示信息。例如，若应用在智能驾驶领域中，当所述距离小于或等于所述预设距离阈值，不仅可以通过语音或其他方式输出提示信息，还可对行驶中车辆进行减速控制，例如在预设时段内逐步减速直至在所述距离内停止下来。

上述图1详细介绍了本申请的深度估计模型优化方法，下面结合图4，对实现所述深度估计模型优化方法的软件系统的功能模块以及实现所述深度估计模型优化方法的硬件装置架构进行介绍。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

参阅图4所示，为本申请较佳实施例提供的计算机装置的结构示意图。

在本申请较佳实施例中，所述计算机装置3包括存储器31、至少一个处理器32。本领域技术人员应该了解，图4示出的计算机装置的结构并不构成本申请实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机装置3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机装置3包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的终端，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。

需要说明的是，所述计算机装置3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据。例如，所述存储器31可以用于存储安装在所述计算机装置3中的深度估计模型优化系统30，并在计算机装置3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者任何其他能够用于携带或存储数据的计算机可读的存储介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述计算机装置3的控制核心(Control Unit)，利用各种接口和线路连接整个计算机装置3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机装置3的各种功能和处理数据，例如执行图1所示的深度估计模型优化的功能。

在一些实施例中，所述深度估计模型优化系统30运行于计算机装置3中。所述深度估计模型优化系统30可以包括多个由程序代码段所组成的功能模块。所述深度估计模型优化系统30中的各个程序段的程序代码可以存储于计算机装置3的存储器31中，并由至少一个处理器32所执行，以实现图1所示的深度估计模型优化的功能。

本实施例中，所述深度估计模型优化系统30根据其所执行的功能，可以被划分为多个功能模块。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。

尽管未示出，所述计算机装置3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障测试电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机装置3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是服务器、个人电脑等)或处理器(processor)执行本申请各个实施例所述方法的部分。

所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。存储在所述存储器31中的程序代码可以由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到深度估计模型优化的目的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照以上较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种深度估计模型优化方法，应用于计算机装置，其特征在于，所述方法包括：

获取物体影像，从所述影像中截取第一图像与第二图像；

利用所述更新后的损失函数优化所述初始深度估计模型，获得所述更新后的深度估计模型；

2.根据权利要求1所述的深度估计模型优化方法，其特征在于，所述获取物体影像，从所述影像中截取第一图像与第二图像包括：

3.根据权利要求1所述的深度估计模型优化方法，其特征在于，所述获取所述第一图像中的像素点与所述第二图像中的像素点之间的对应关系包括：

4.根据权利要求3所述的深度估计模型优化方法，其特征在于，计算所述第一图像与所述第二图像之间的位姿转换关系包括：

5.根据权利要求1所述的深度估计模型优化方法，其特征在于，基于所述初始深度估计模型获取所述第一图像与所述第四图像之间的损失函数包括：

6.根据权利要求5所述的深度估计模型优化方法，其特征在于，所述基于所述深度值优化所述损失函数包括：

7.根据权利要求1所述的深度估计模型优化方法，其特征在于，所述方法还包括：

8.一种物体距离检测方法，其特征在于，所述方法包括：

利用摄像装置获取物体图像，将所述物体图像输入至目标深度估计模型，所述目标深度估计模型为利用如权利要求1至7中任意一项所述的深度估计模型优化方法所获得；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述的深度估计模型优化方法，或实现如权利要求8所述的物体距离检测方法。

10.一种计算机装置，其特征在于，该计算机装置包括存储器和至少一个处理器，所述存储器中存储有至少一个指令，所述至少一个指令被所述至少一个处理器执行时实现如权利要求1至7中任意一项所述的深度估计模型优化方法，或实现如权利要求8所述的物体距离检测方法。