CN116452638A

CN116452638A - 位姿估计模型的训练方法、装置、设备和存储介质

Info

Publication number: CN116452638A
Application number: CN202310701840.XA
Authority: CN
Inventors: 修海鑫; 程健; 李和平; 李�昊; 孙大智; 王广福; 闫鹏鹏
Original assignee: Beijing Technology Research Branch Of Tiandi Technology Co ltd; General Coal Research Institute Co Ltd
Current assignee: Beijing Technology Research Branch Of Tiandi Technology Co ltd; General Coal Research Institute Co Ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-07-18
Anticipated expiration: 2043-06-14
Also published as: CN116452638B

Abstract

本公开提出一种位姿估计模型的训练方法、装置、设备和存储介质，该方法包括：基于第一图像和第二图像的初始位姿估计结果得到第二图像的重构图像，其中，第一图像和第二图像所包含的像素数量均为预设数量值，确定第二图像的像素点与重构图像的像素点的像素重构误差，根据像素重构误差和第一图像确定第二图像的像素点的第一加权系数和第二加权系数，基于预设数量值、像素重构误差、第一加权系数和第二加权系数计算得到目标函数，根据目标函数迭代训练初始位姿估计模型得到目标位姿估计模型。由此，能够在计算目标函数的过程中基于第一加权系数和第二加权系数去除图像中动态物体所带入的干扰，有效提升模型训练过程对于图像中动态物体的鲁棒性。

Description

位姿估计模型的训练方法、装置、设备和存储介质

技术领域

本公开涉及计算机视觉技术领域，具体涉及一种位姿估计模型的训练方法、装置、设备和存储介质。

背景技术

位姿估计是用于估计机器人位置与姿态的方法，是实现机器人自主定位与导航的必要技术。由于视觉相机可靠性高、价格低廉的优势，基于视觉的位姿估计方法一直是计算机视觉与机器人领域的一个研究热点。

在视觉里程计估计位姿的过程中，通常会假设环境是静止的。但实际上难免会遇到许多动态物体。这些物体由于自身的运动，与环境存在相对运动，不满足静止假设，会影响训练得到的位姿估计网络的估计精度。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本公开的目的在于提出一种位姿估计模型的训练方法、装置、设备和存储介质，能够在计算目标函数的过程中基于第一加权系数和第二加权系数去除图像中动态物体所带入的干扰，从而有效提升模型训练过程对于图像中动态物体的鲁棒性。

为达到上述目的，本公开第一方面实施例提出的位姿估计模型的训练方法，包括：

将第一图像和第二图像输入至初始位姿估计模型中，以生成初始位姿估计结果，其中，所述第一图像和所述第二图像是训练集中相邻的两帧图像，所述第一图像的获取时间早于所述第二图像的获取时间，所述第一图像和所述第二图像所包含的像素数量均为预设数量值；

基于所述初始位姿估计结果对所述第一图像进行采样处理，以得到所述第二图像的重构图像；

确定所述第二图像的像素点与所述重构图像的像素点之间的像素重构误差；

根据所述像素重构误差，确定所述第二图像的像素点对应的第一加权系数，其中，所述第一加权系数用于描述所述第二图像的像素点属于所述第二图像中动态物体的情况；

根据所述第一图像，确定所述第二图像的像素点对应的第二加权系数，其中，所述第二加权系数用于描述所述第二图像的像素点属于所述第二图像中动态物体的情况；

基于所述预设数量值、所述像素重构误差、所述第一加权系数和所述第二加权系数，计算得到目标函数；

根据所述目标函数对所述初始位姿估计模型进行迭代训练，以得到目标位姿估计模型。

为达到上述目的，本公开第二方面实施例提出的位姿估计模型的训练装置，包括：

生成模块，用于将第一图像和第二图像输入至初始位姿估计模型中，以生成初始位姿估计结果，其中，所述第一图像和所述第二图像是训练集中相邻的两帧图像，所述第一图像的获取时间早于所述第二图像的获取时间，所述第一图像和所述第二图像所包含的像素数量均为预设数量值；

处理模块，用于基于所述初始位姿估计结果对所述第一图像进行采样处理，以得到所述第二图像的重构图像；

第一确定模块，用于确定所述第二图像的像素点与所述重构图像的像素点之间的像素重构误差；

第二确定模块，用于根据所述像素重构误差，确定所述第二图像的像素点对应的第一加权系数，其中，所述第一加权系数用于描述所述第二图像的像素点属于所述第二图像中动态物体的情况；

第三确定模块，用于根据所述第一图像，确定所述第二图像的像素点对应的第二加权系数，其中，所述第二加权系数用于描述所述第二图像的像素点属于所述第二图像中动态物体的情况；

计算模块，用于基于所述预设数量值、所述像素重构误差、所述第一加权系数和所述第二加权系数，计算得到目标函数；

模型训练模块，用于根据所述目标函数对所述初始位姿估计模型进行迭代训练，以得到目标位姿估计模型。

本公开第三方面实施例提出的计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本公开第一方面实施例提出的位姿估计模型的训练方法。

本公开第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开第一方面实施例提出的位姿估计模型的训练方法。

本公开第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本公开第一方面实施例提出的位姿估计模型的训练方法。

本公开提供的位姿估计模型的训练方法、装置、计算机设备和存储介质，通过将第一图像和第二图像输入至初始位姿估计模型中，以生成初始位姿估计结果，其中，第一图像和第二图像是训练集中相邻的两帧图像，第一图像的获取时间早于第二图像的获取时间，第一图像和第二图像所包含的像素数量均为预设数量值，基于初始位姿估计结果对第一图像进行采样处理，以得到第二图像的重构图像，确定第二图像的像素点与重构图像的像素点之间的像素重构误差，根据像素重构误差，确定第二图像的像素点对应的第一加权系数，其中，第一加权系数用于描述第二图像的像素点属于第二图像中动态物体的情况，根据第一图像，确定第二图像的像素点对应的第二加权系数，其中，第二加权系数用于描述第二图像的像素点属于第二图像中动态物体的情况，基于预设数量值、像素重构误差、第一加权系数和第二加权系数，计算得到目标函数，根据目标函数对初始位姿估计模型进行迭代训练，以得到目标位姿估计模型，由此，能够在计算目标函数的过程中基于第一加权系数和第二加权系数去除图像中动态物体所带入的干扰，从而有效提升模型训练过程对于图像中动态物体的鲁棒性。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本公开一实施例提出的位姿估计模型的训练方法的流程示意图；

图2是本公开另一实施例提出的位姿估计模型的训练方法的流程示意图；

图3是本公开另一实施例提出的位姿估计模型的训练方法的流程示意图；

图4是根据本公开提出的位姿估计模型的训练流程示意图；

图5是根据本公开提出的位姿估计模型训练过程的框架示意图；

图6是本公开一实施例提出的位姿估计模型的训练装置的结构示意图；

图7示出了适于用来实现本公开实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本公开，而不能理解为对本公开的限制。相反，本公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本公开一实施例提出的位姿估计模型的训练方法的流程示意图。

其中，需要说明的是，本实施例的位姿估计模型的训练方法的执行主体为位姿估计模型的训练装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在计算机设备中，计算机设备可以包括但不限于终端、服务器端等，如终端可为手机、掌上电脑等。

如图1所示，该位姿估计模型的训练方法，包括：

S101：将第一图像和第二图像输入至初始位姿估计模型中，以生成初始位姿估计结果，其中，第一图像和第二图像是训练集中相邻的两帧图像，第一图像的获取时间早于第二图像的获取时间，第一图像和第二图像所包含的像素数量均为预设数量值。

其中，第一图像和第二图像，可以是模型训练集中任意两帧相邻的图像，例如可以是机器人的视觉采集装置所采集到的两帧相邻图像。

其中，初始位姿估计模型，可以是预先基于模型训练集，采用自监督的方式训练得到的位姿估计模型。

其中，初始位姿估计结果，是指初始位姿估计模型处理第一图像和第二图像所得到的位姿估计结果。

可以理解的是，第一图像和/或第二图像中可能包含动态物体的图像信息，而初始位姿估计模型通常在视觉里程计估计位姿的过程中，会假设环境是静止的。第一图像和/或第二图像中的动态物体由于自身的运动，与环境存在相对运动，不满足静止假设，可能会影响训练得到的位姿估计网络的估计精度。

其中，预设数量值，是指第一图像和第二图像所包含的像素的数量。

可以理解的是，本公开实施例中，第一图像和第二图像可以基于同一个图像采集装置所获取的图像，且两者的属性信息相同。举例而言，第一图像和第二图像均包含个像素点，其中，/>为第一图像和第二图像的宽度所包含的像素数量，/>为第一图像和第二图像的高度所包含的像素数量。

本公开实施例中，当将第一图像和第二图像输入至初始位姿估计模型中，以生成初始位姿估计结果之后，可以为后续得到第二图像的重构图像提供可靠的参考信息。

S102：基于初始位姿估计结果对第一图像进行采样处理，以得到第二图像的重构图像。

其中，重构图像，是指基于图像重构技术对第二图像进行重建后所生成的图像。

举例而言，本公开实施例中，在基于初始位姿估计结果对第一图像进行采样处理，以得到第二图像的重构图像时，可以是将第二图像中每个像素点坐标投影到第一图像的坐标系中，并提取第一图像中对应位置的像素值，从而得到重构图像。

其中，在采样处理过程中，如果投影得到的在第一图像中的坐标不为整数，则通过双线性插值的方式进行插值；如果坐标超过第一图像的边界，则置零，或对第一图像外围进行填充处理（如重复边界像素值、镜像或将图像看作二维周期函数循环等）后再采样。

本公开实施例中，当基于初始位姿估计结果对第一图像进行采样处理，以得到第二图像的重构图像时，可以为后续确定第二图像的像素点对应的第一加权系数提供可靠的数据支持。

S103：确定第二图像的像素点与重构图像的像素点之间的像素重构误差。

其中，像素重构误差，可以被用于描述重构图像的像素点与第二图像的像素点之间的差异。

举例而言，本公开实施例中，在确定第二图像的像素点与重构图像的像素点之间的像素重构误差（error）时，可以是计算它们之间的差值或者相对误差。以下是两种方法：

差值法：将重构像素点的灰度值减去初始像素点的灰度值，得到它们之间的差值，并取所得差值的绝对值，即：

error =|R(x,y) - I(x,y)|

这里R(x,y)表示重构图像中像素点(x,y)的灰度值，I(x,y)表示第二图像中像素点(x,y)的灰度值。

相对误差法：将重构图像中像素点的灰度值减去第二图像中像素点的灰度值，然后除以初始像素点的灰度值，得到它们之间的相对误差，即：

error = |R(x,y) - I(x,y)| / I(x,y)

这里“| |”表示绝对值符号。

通过计算所有像素点的差值或相对误差，并进行求和或平均操作，就可以得到重构误差。较小的重构误差表示重构效果较好。需要注意的是，在实际应用中，为了平衡重构误差和处理速度，往往会采用一些基于人眼视觉系统的质量评价指标来评估重构效果，例如峰值信噪比（PSNR）和结构相似性指标（SSIM）。

本公开实施例中，当确定第二图像的像素点与重构图像的像素点之间的像素重构误差时，可以为后续确定第二图像的像素点对应的第一加权系数提供可靠的参考信息。

S104：根据像素重构误差，确定第二图像的像素点对应的第一加权系数，其中，第一加权系数用于描述第二图像的像素点属于第二图像中动态物体的情况。

即是说，本公开实施例中在确定第二图像的像素点与重构图像的像素点之间的像素重构误差之后，可以基于像素重构误差计算第二图像的像素点对应的第一加权系数，以实现从重构图像的维度确定第二图像的像素点是否属于动态图像的像素点。

S105：根据第一图像，确定第二图像的像素点对应的第二加权系数，其中，第二加权系数用于描述第二图像的像素点属于第二图像中动态物体的情况。

即是说，本公开实施例中在确定第二图像的像素点与重构图像的像素点之间的像素重构误差之后，还可以根据第一图像确定第二图像的像素点对应的第二加权系数，以实现从重构图像的维度确定第一图像的像素点是否属于动态图像的像素点。

S106：基于预设数量值、像素重构误差、第一加权系数和第二加权系数，计算得到目标函数。

举例而言，假设预设数量值为上述，第一加权系数为/>，第二加权系数为，像素重构误差为E，则目标函数L的计算公式可以如下所示：

；

其中，*表示像素间乘积。

当然，本公开实施例中，还可以基于其他任意可能的方法基于预设数量值、像素重构误差、第一加权系数和第二加权系数，计算得到目标函数，对此不做限制。

S107：根据目标函数对初始位姿估计模型进行迭代训练，以得到目标位姿估计模型。

举例而言，本公开实施例中，在根据目标函数对初始位姿估计模型进行迭代训练时，可以是基于自适应运动估计算法(Adam optimization algorithm，Adam) 微调已初步训练的初始位姿估计模型。

本实施例中，通过将第一图像和第二图像输入至初始位姿估计模型中，以生成初始位姿估计结果，其中，第一图像和第二图像是训练集中相邻的两帧图像，第一图像的获取时间早于第二图像的获取时间，第一图像和第二图像所包含的像素数量均为预设数量值，基于初始位姿估计结果对第一图像进行采样处理，以得到第二图像的重构图像，确定第二图像的像素点与重构图像的像素点之间的像素重构误差，根据像素重构误差，确定第二图像的像素点对应的第一加权系数，其中，第一加权系数用于描述第二图像的像素点属于第二图像中动态物体的情况，根据第一图像，确定第二图像的像素点对应的第二加权系数，其中，第二加权系数用于描述第二图像的像素点属于第二图像中动态物体的情况，基于预设数量值、像素重构误差、第一加权系数和第二加权系数，计算得到目标函数，根据目标函数对初始位姿估计模型进行迭代训练，以得到目标位姿估计模型，由此，能够在计算目标函数的过程中基于第一加权系数和第二加权系数去除图像中动态物体所带入的干扰，从而有效提升模型训练过程对于图像中动态物体的鲁棒性。

图2是本公开另一实施例提出的位姿估计模型的训练方法的流程示意图。

如图2所示，该位姿估计模型的训练方法，包括：

S201：将第一图像和第二图像输入至初始位姿估计模型中，以生成初始位姿估计结果，其中，第一图像和第二图像是训练集中相邻的两帧图像，第一图像的获取时间早于第二图像的获取时间，第一图像和第二图像所包含的像素数量均为预设数量值。

S202：基于初始位姿估计结果对第一图像进行采样处理，以得到第二图像的重构图像。

S203：确定第二图像的像素点与重构图像的像素点之间的像素重构误差。

S201-S203的描述说明可以具体参见上述实施例，在此不再赘述。

S204：确定重构误差阈值。

其中，重构误差阈值，可以是针对上述所得像素重构误差所配置的门限值，可以被用于作为第一加权系数具体取值的选取依据。

本公开实施例中，在确定重构误差阈值时，可以是是预先建立本公开实施例的执行主体与大数据服务器的通信链接，而后从大数据服务器处获取重构误差阈值，或者，还可以是确定应用场景中动态物体的相关属性信息，而后根据该相关属性信息确定重构误差阈值，对此不做限制。

可选的，一些实施例中，在确定重构误差阈值时，可以是确定多个像素重构误差的平均值，如果平均值大于或等于预设阈值，则将平均值作为重构误差阈值，如果平均值小于预设阈值，则将预设阈值作为重构误差阈值，由此，可以基于预设阈值有效避免多个像素重构误差的平均值较小时影响所得重构误差阈值的指示效果，能够有效提升所得重构误差阈值的实用性。

S205：如果像素重构误差小于或等于重构误差阈值，则将第一加权值作为第一加权系数。

其中，第一加权值，是指像素重构误差小于或等于重构误差阈值时，对应第二图像的像素点的加权系数值，例如可以是数字1。

可以理解的是，本公开实施例中，当第二图像的像素点对应的像素重构误差小于或等于重构误差阈值，则可以初步判定该像素点不属于动态物体的像素点，可以用数字1作为该像素点的第一加权系数，以保持它原本的像素属性。

S206：如果像素重构误差大于重构误差阈值，则将第二加权值作为第一加权系数。

其中，第二加权值，是指像素重构误差大于重构误差阈值时，对应第二图像的像素点的加权系数值，例如可以是数字0。

可以理解的是，本公开实施例中，当第二图像的像素点对应的像素重构误差大于重构误差阈值，则可以初步判定该像素点属于动态物体的像素点，可以用数字0作为该像素点的第一加权系数，以便于在目标函数计算过程中剔除动态物体所带入的干扰。

即是说，本公开实施例中在确定第二图像的像素点与重构图像的像素点之间的像素重构误差之后，可以确定重构误差阈值，如果像素重构误差小于或等于重构误差阈值，则将第一加权值作为第一加权系数，如果像素重构误差大于重构误差阈值，则将第二加权值作为第一加权系数，由此，可以基于重构误差阈值为确定第一加权系数的取值提供可靠的判断依据，能够有效提升所得第一加权系数的可靠性。

S207：确定第一图像的像素点的像素值。

可以理解的是，在初始位姿估计模型的迭代训练过程中，上述第一图像可能已经经过加权系数处理，当第一图像的像素点属于动态物体时，该像素点对应的像素值可能为0，由此，当确定第一图像的像素点的像素值时，可以为后续确定第二图像的像素点的第二加权系数提供可靠的参考信息。

S208：如果第一图像的像素点的像素值等于预设像素值，则将第三加权值作为第二图像的像素点的第二加权系数。

其中，预设像素值，可以是指图像中属于动态物体的像素点经由加权系数处理后的像素值。举例而言，当处理动态物体像素点的加权系数取0时，该预设像素值可以为0。

其中，第三加权值，是指第一图像的像素点的像素值等于预设像素值时，第二图像中相同位置像素点的加权系数值，例如可以是数字0。

可以理解的是，本公开实施例中，第一图像和第二图像具有较高的关联性，当第一图像的像素点的像素值等于预设像素值时，可以确定该像素点属于动态物体，从而将数字0作为第二图像的像素点的第二加权系数，以便于在目标函数计算过程中剔除动态物体所带入的干扰。

S209：如果第一图像的像素点的像素值不等于预设像素值，则将第四加权值作为第二图像的像素点的第二加权系数。

其中，第四加权值，是指第一图像的像素点的像素值不等于预设像素值时，第二图像中相同位置像素点的加权系数值，例如可以是数字1。

可以理解的是，当第一图像的像素点的像素值不等于预设像素值时，可以初步判定第二图像中相同位置像素点不属于动态物体，从而将第四加权值（例如数值1）作为第二图像的像素点的第二加权系数，以便于保持它原本的像素属性。

即是说，本公开实施例中，可以确定第一图像的像素点的像素值，如果第一图像的像素点的像素值等于预设像素值，则将第三加权值作为第二图像的像素点的第二加权系数，如果第一图像的像素点的像素值不等于预设像素值，则将第四加权值作为第二图像的像素点的第二加权系数，由此，可以基于第一图像的像素点的像素值准确、快速地确定第二图像的像素点的第二加权系数，能够有效提升所得第二加权系数对于第二图像的像素点是否属于动态物体的指示准确性。

S210：基于预设数量值、像素重构误差、第一加权系数和第二加权系数，计算得到目标函数。

S211：根据目标函数对初始位姿估计模型进行迭代训练，以得到目标位姿估计模型。

S210和S211的描述说明可以具体参见上述实施例，在此不再赘述。

本实施例中，通过确定重构误差阈值，如果像素重构误差小于或等于重构误差阈值，则将第一加权值作为第一加权系数，如果像素重构误差大于重构误差阈值，则将第二加权值作为第一加权系数，由此，可以基于重构误差阈值为确定第一加权系数的取值提供可靠的判断依据，能够有效提升所得第一加权系数的可靠性。通过确定多个像素重构误差的平均值，如果平均值大于或等于预设阈值，则将平均值作为重构误差阈值，如果平均值小于预设阈值，则将预设阈值作为重构误差阈值，由此，可以基于预设阈值有效避免多个像素重构误差的平均值较小时影响所得重构误差阈值的指示效果，能够有效提升所得重构误差阈值的实用性。通过确定第一图像的像素点的像素值，如果第一图像的像素点的像素值等于预设像素值，则将第三加权值作为第二图像的像素点的第二加权系数，如果第一图像的像素点的像素值不等于预设像素值，则将第四加权值作为第二图像的像素点的第二加权系数，由此，可以基于第一图像的像素点的像素值准确、快速地确定第二图像的像素点的第二加权系数，能够有效提升所得第二加权系数对于第二图像的像素点是否属于动态物体的指示准确性。

图3是本公开另一实施例提出的位姿估计模型的训练方法的流程示意图。

如图3所示，该位姿估计模型的训练方法，包括：

S301：将第一图像和第二图像输入至初始位姿估计模型中，以生成初始位姿估计结果，其中，第一图像和第二图像是训练集中相邻的两帧图像，第一图像的获取时间早于第二图像的获取时间，第一图像和第二图像所包含的像素数量均为预设数量值。

S302：基于初始位姿估计结果对第一图像进行采样处理，以得到第二图像的重构图像。

S303：确定第二图像的像素点与重构图像的像素点之间的像素重构误差。

S304：根据像素重构误差，确定第二图像的像素点对应的第一加权系数，其中，第一加权系数用于描述第二图像的像素点属于第二图像中动态物体的情况。

S305：根据第一图像，确定第二图像的像素点对应的第二加权系数，其中，第二加权系数用于描述第二图像的像素点属于第二图像中动态物体的情况。

S306：基于预设数量值、像素重构误差、第一加权系数和第二加权系数，计算得到目标函数。

S301-S306的描述说明可以具体参见上述实施例，在此不再赘述。

S307：基于目标函数对初始位姿估计模型进行调整。

即是说，本公开实施例中，在基于预设数量值、像素重构误差、第一加权系数和第二加权系数，计算得到目标函数之后，可以基于目标函数对初始位姿估计模型进行调整，以在本轮训练中实现对初始位姿估计模型的优化。

S308：对调整后的初始位姿估计模型进行模型评估，得到模型评估结果。

其中，模型评估结果，可以被用于指示调整后的初始位姿估计模型的输出准确率。

本公开实施例中，在对调整后的初始位姿估计模型进行模型评估，得到模型评估结果时，可以是基于第三方模型评估装置对调整后的初始位姿估计模型进行模型评估，得到模型评估结果，对此不做限制。

S309：如果模型评估结果满足预设条件，则将调整后的初始位姿估计模型作为目标位姿估计模型。

其中，预设条件，是指预先针对模型评估结果所配置的门限条件，可以被用于判定调整后的初始位姿估计模型是否收敛。

由此，本公开实施例中，可以在模型评估结果满足预设条件时，及时判定模型收敛，为结束模型训练过程提供可靠的触发依据，并保证所得目标位姿估计模型的可靠性。

S310：如果模型评估结果不满足预设条件，则更新第一图像和第二图像。

本公开实施例中，当模型评估结果不满足预设条件时，表明此时模型可能还会受到图像中动态物体的干扰，此时更新第一图像和第二图像，可以为后续进行模型训练提供可靠的训练样本。

即是说，本公开实施例中，在基于预设数量值、像素重构误差、第一加权系数和第二加权系数，计算得到目标函数之后，可以基于目标函数对初始位姿估计模型进行调整，对调整后的初始位姿估计模型进行模型评估，得到模型评估结果，如果模型评估结果满足预设条件，则将调整后的初始位姿估计模型作为目标位姿估计模型，如果模型评估结果不满足预设条件，则更新第一图像和第二图像，由此，可以基于模型评估结果为模型的迭代训练过程提供可靠的执行依据。

可选的，一些实施例中，在更新第一图像和第二图像时，可以是根据初始位姿估计结果，确定第一图像的像素点与第二图像的像素点之间的转换关系，基于第一加权系数和转换关系，计算与第一图像的像素点对应的第三加权系数，其中，第三加权系数用于描述第一图像的像素点属于第一图像中动态物体的情况，基于第三加权系数加权处理第一图像的像素点，基于第一加权系数加权处理第二图像的像素点，由此，可以基于第一加权系数和转换关系准确快速地计算与第一图像的像素点对应的第三加权系数，并基于第三加权系数和第一加权系数实现对第一图像和第二图像的更新处理，以去除第一图像和第二图像中动态物体在模型训练过程中所带入的影响。

其中，转换关系，例如可以是第一图像的像素点与第二图像的像素点之间齐次坐标的转换关系。

本实施例中，通过基于目标函数对初始位姿估计模型进行调整，对调整后的初始位姿估计模型进行模型评估，得到模型评估结果，如果模型评估结果满足预设条件，则将调整后的初始位姿估计模型作为目标位姿估计模型，如果模型评估结果不满足预设条件，则更新第一图像和第二图像，由此，可以基于模型评估结果为模型的迭代训练过程提供可靠的执行依据。通过根据初始位姿估计结果，确定第一图像的像素点与第二图像的像素点之间的转换关系，基于第一加权系数和转换关系，计算与第一图像的像素点对应的第三加权系数，其中，第三加权系数用于描述第一图像的像素点属于第一图像中动态物体的情况，基于第三加权系数加权处理第一图像的像素点，基于第一加权系数加权处理第二图像的像素点，由此，可以基于第一加权系数和转换关系准确快速地计算与第一图像的像素点对应的第三加权系数，并基于第三加权系数和第一加权系数实现对第一图像和第二图像的更新处理，以去除第一图像和第二图像中动态物体在模型训练过程中所带入的影响。

基于本公开所提出的位姿估计模型的训练方法，可以在已经初步训练得到的自监督单目位姿估计网络的基础之上，利用重构图像检测动态物体，将之从输入图像与目标函数中移除，并通过循环迭代的方式，估计位姿，提高自监督单目位姿估计方法对动态物体的鲁棒性。

举例而言，如图4所示，图4是根据本公开提出的位姿估计模型的训练流程示意图，步骤如下：

步骤1、预训练网络：

首先准备数据集，并利用准备的数据集采用自监督的方式，初步训练一个位姿估计网络（即上述实施例中的初始位姿估计模型）。

步骤2、循环迭代训练：

对获得的初步训练的位姿估计网络，进一步进行再训练：使用初步训练的位姿估计网络，估计两帧图像（即上述实施例中的第一图像和第二图像）之间的位姿变换（即上述实施例中的初始位姿估计结果）；然后计算重构误差（即上述实施例中的像素重构误差），并计算动态物体加权系数矩阵（即上述实施例中的第一加权系数和第二加权系数）；然后计算目标函数，微调位姿估计网络；然后利用计算出的动态物体加权系数矩阵加权输入图像（即上述更新第一图像和第二图像），并再次输入位姿估计网络进行循环迭代训练。

如图5所示，图5是根据本公开提出的位姿估计模型训练过程的框架示意图。具体步骤如下：

步骤2-1、输入图像，输出位姿估计：

对于训练集一个训练批次中的两帧图像、/>，将其输入初步训练好的位姿估计网络，得到一个位姿估计结果/>。

步骤2-2、重采样，计算差分，计算加权：

利用位姿估计结果从图像/>中采样，得到图像/>的重构图像/>；具体为：设图像宽度、高度分别为/>、/>，对于任意图像/>中的像素点/>，可以求得其在图像/>中对应的像素点/>：

其中，、/>以齐次坐标的形式表示，/>为相机的内参数，/>为图像/>中点/>处的深度。则重构图像为

进一步逐像素计算原图像与重构图像之间的差分的1范数：

然后计算加权系数：

其中，为阈值，通过如下公式获得：

其中，为超参数，目的是防止平均数/>过小；

然后计算另一项加权系数：

其中，与/>满足公式(1)之间的关系。

步骤2-3、反向传播：

利用计算出的加权系数计算目标函数：

其中，*表示像素间乘积；

然后利用Adam优化算法微调已初步训练的位姿估计网络。

步骤2-4、循环训练：

训练时进行多轮优化，每一轮中对一个训练批次多次进行上述加权系数、目标函数、反向传播的计算；

从第二次训练开始，利用上一次计算出的计算另一帧图像对应的加权系数：/>

其中，与/>满足公式(1)之间的关系，并可由如下公式计算：

然后利用与/>分别对/>与/>加权：

然后将与/>作为步骤2-1的输入进行步骤2-1至步骤2-3的计算。

步骤3、位姿估计

得到微调后的位姿估计网络后，可直接将相邻两帧图像输入其中，估计相邻两帧之间的位姿变换；亦可在估计出位姿变换之后，利用步骤2-4方法，对输入图像进行加权后，再次输入位姿估计网络，估计位姿变换。

图6是本公开一实施例提出的位姿估计模型的训练装置的结构示意图。

如图6所示，该位姿估计模型的训练装置60，包括：

生成模块601，用于将第一图像和第二图像输入至初始位姿估计模型中，以生成初始位姿估计结果，其中，第一图像和第二图像是训练集中相邻的两帧图像，第一图像的获取时间早于第二图像的获取时间，第一图像和第二图像所包含的像素数量均为预设数量值；

处理模块602，用于基于初始位姿估计结果对第一图像进行采样处理，以得到第二图像的重构图像；

第一确定模块603，用于确定第二图像的像素点与重构图像的像素点之间的像素重构误差；

第二确定模块604，用于根据像素重构误差，确定第二图像的像素点对应的第一加权系数，其中，第一加权系数用于描述第二图像的像素点属于第二图像中动态物体的情况；

第三确定模块605，用于根据第一图像，确定第二图像的像素点对应的第二加权系数，其中，第二加权系数用于描述第二图像的像素点属于第二图像中动态物体的情况；

计算模块606，用于基于预设数量值、像素重构误差、第一加权系数和第二加权系数，计算得到目标函数；

模型训练模块607，用于根据目标函数对初始位姿估计模型进行迭代训练，以得到目标位姿估计模型。

需要说明的是，前述对位姿估计模型的训练方法的解释说明也适用于本实施例的位姿估计模型的训练装置，此处不再赘述。

图7示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（Industry StandardArchitecture；以下简称：ISA）总线，微通道体系结构（Micro Channel Architecture；以下简称：MAC）总线，增强型ISA总线、视频电子标准协会（Video Electronics StandardsAssociation；以下简称：VESA）局域总线以及外围组件互连（Peripheral ComponentInterconnection；以下简称：PCI）总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（Random Access Memory；以下简称：RAM）30和/或高速缓存存储器32。计算机设备12可以进一步包括其他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图7未显示，通常称为“硬盘驱动器”）。

尽管图7中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如：光盘只读存储器（Compact Disc Read OnlyMemory；以下简称：CD-ROM）、数字多功能只读光盘（Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM）或者其他光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其他程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得人体能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络（例如局域网（Local Area Network；以下简称：LAN），广域网（Wide Area Network；以下简称：WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的位姿估计模型的训练方法。

为了实现上述实施例，本公开还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开前述实施例提出的位姿估计模型的训练方法。

为了实现上述实施例，本公开还提出一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行如本公开前述实施例提出的位姿估计模型的训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

需要说明的是，在本公开的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定是指相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种位姿估计模型的训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述像素重构误差，确定所述第二图像的像素点对应的第一加权系数，包括：

确定重构误差阈值；

如果所述像素重构误差小于或等于所述重构误差阈值，则将第一加权值作为所述第一加权系数；

如果所述像素重构误差大于所述重构误差阈值，则将第二加权值作为所述第一加权系数。

3.如权利要求2所述的方法，其特征在于，所述确定重构误差阈值，包括：

确定多个所述像素重构误差的平均值；

如果所述平均值大于或等于预设阈值，则将所述平均值作为所述重构误差阈值；

如果所述平均值小于所述预设阈值，则将所述预设阈值作为所述重构误差阈值。

4.如权利要求1所述的方法，其特征在于，所述根据所述第一图像，确定所述第二图像的像素点对应的第二加权系数，包括：

确定所述第一图像的像素点的像素值；

如果所述第一图像的像素点的像素值等于预设像素值，则将第三加权值作为所述第二图像的像素点的所述第二加权系数；

如果所述第一图像的像素点的像素值不等于所述预设像素值，则将第四加权值作为所述第二图像的像素点的所述第二加权系数。

5.如权利要求1所述的方法，其特征在于，所述根据所述目标函数对所述初始位姿估计模型进行迭代训练，以得到目标位姿估计模型，包括：

基于所述目标函数对所述初始位姿估计模型进行调整；

对调整后的所述初始位姿估计模型进行模型评估，得到模型评估结果；

如果所述模型评估结果满足预设条件，则将所述调整后的所述初始位姿估计模型作为所述目标位姿估计模型；

如果所述模型评估结果不满足所述预设条件，则更新所述第一图像和所述第二图像。

6.如权利要求5所述的方法，其特征在于，所述更新所述第一图像和所述第二图像，包括：

根据所述初始位姿估计结果，确定所述第一图像的像素点与所述第二图像的像素点之间的转换关系；

基于所述第一加权系数和所述转换关系，计算与所述第一图像的像素点对应的第三加权系数，其中，所述第三加权系数用于描述所述第一图像的像素点属于所述第一图像中动态物体的情况；

基于所述第三加权系数加权处理所述第一图像的像素点；

基于所述第一加权系数加权处理所述第二图像的像素点。

7.一种位姿估计模型的训练装置，其特征在于，包括：

8.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

9.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。

10.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述方法的步骤。