CN113592940A

CN113592940A - 基于图像确定目标物位置的方法及装置

Info

Publication number: CN113592940A
Application number: CN202110860209.5A
Authority: CN
Inventors: 陈腾; 隋伟; 谢佳锋; 张骞; 黄畅
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-11-02

Abstract

公开了一种基于图像确定目标物位置的方法和装置、存储介质和设备，其中该方法包括：基于单应性矩阵，确定参考图像的重建图像；根据所述重建图像和目标图像，确定所述目标图像中的目标物的像素高深比；根据所述像素高深比得到所述目标物的位置信息。本公开实施例有利于根据基于图像快速、准确地确定目标物的位置。

Description

基于图像确定目标物位置的方法及装置

技术领域

本公开涉及图像处理技术领域，尤其涉及一种基于图像确定目标物位置的方法和装置、存储介质以及电子设备。

背景技术

平面视差方法基于两个视角观测同一目标或场景的差异来建模3D场景，该方法依赖于某个特定平面，可以恢复场景中任意一点到平面的高度和到观测点的距离。

目前的平面视差方法依赖于光流估计得到两个视角下对应点的匹配结果。光流方法不能得到稠密的估计结果并且受噪声影响大。基于深度学习的光流方法可以得到稠密的匹配结果，但计算量大、没有针对视差任务的专用网络。深度学习中注意力机制可以使模型能更容易捕获关键信息。基于Transformer结构的自注意力机制(self-attention)、多头注意力机制(multi-head attention)飞速发展，在深度学习各个子领域都得到了优秀的结果，Transformer用在图像中需要构造一个像素或图像块的序列，计算量比较大。

目前缺少一个可以基于图像确定目标物位置的方式。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种基于图像确定目标物位置的方法和装置、存储介质以及电子设备。

根据本公开实施例的第一方面，提供一种基于图像确定目标物位置的方法，包括：

基于单应性矩阵，确定参考图像的重建图像；

根据所述重建图像和目标图像，确定所述目标图像中的目标物的像素高深比；

根据所述像素高深比得到所述目标物的位置信息；

其中，所述参考图像和所述目标图像均包括路面，所述重建图像中的路面像素与所述目标图像中的路面像素对齐，所述像素高深比为所述目标物在真实世界中相对于路面的高度与所述目标物在所述真实世界中相对于相机的距离之间的比值。

根据本公开实施例的第二方面，提供一种基于图像确定目标物位置的装置，包括：

图像重建模块，用于基于单应性矩阵，确定参考图像的重建图像；

图像处理模块，用于根据所述重建图像和目标图像确定所述目标图像中的目标物的像素高深比；

定位模块，用于根据所述像素高深比得到所述目标物的位置信息；

其中，所述参考图像和所述目标图像均包括路面，所述重建图像中的路面像素与所述目标图像中的路面像素对齐，所述像素高深比为所述目标物在真实世界中相对于路面之间的高度与所述目标物在所述真实世界中相对于相机的距离之间的比值。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面所述的基于图像确定目标物位置的方法。

根据本公开实施例的第四方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述第一方面所述的基于图像确定目标物位置的方法。

基于本公开上述实施例提供的基于图像确定目标物位置的方法和装置、存储介质以及电子设备，获取在车辆行驶过程中，通过位于车辆上的相机拍摄的、且间隔N帧的参考图像和目标图像。通过单应性矩阵将参考图像进行重建后，使重建图像的路面像素和目标图像的路面像素对齐，然后基于重建图像和目标图像得到目标图像中的目标物的像素高深比，进而可以根据像素高深比快速、准确地得到目标物的位置信息。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开的基于图像确定目标物位置的方法的流程图。

图2为本公开一个示例中基于图像确定目标物位置的方法的原理图。

图3为本公开一个示例中视差注意力处理的示意图。

图4为本公开的基于图像确定目标物位置的装置的结构框图。

图5是本公开一个实施例中图像处理模块420的结构框图。

图6是本公开一个示例中注意力处理单元的原理图。

图7是本公开一个示例中图像重建模块的结构框图。

图8是本公开实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或者两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本申请的发明人经过大量的创造性劳动发现，传统的平面视差估计方法，基于光流估计得到两个视角下对应点的匹配结果，稀疏受噪声影响大，同时二维搜索问题比预测比值更复杂，难以满足某些特定场景下(例如自动驾驶场景)的需求。

示例性基于图像确定目标物位置的方法

图1是本公开的基于图像确定目标物位置的方法的流程图。如图1所示，本公开实施例的基于图像确定目标物位置的方法，包括

S1：基于单应性矩阵，确定参考图像的重建图像。其中，参考图像和目标图像均包括路面，重建图像中的路面像素与目标图像中的路面像素对齐，但是重建图像和目标图像在路面以外的图像部分，仍存在一些图像差异。

在本公开的一个实施例中，参考图像和目标图像均是在车辆行驶过程中通过车辆上的相机拍摄得到的，且参考图像和目标图像间隔N帧，N为大于等于1的自然数。示例性地，当N为5时，参考图像与目标图像之间相差5帧。由于车辆处于行驶状态下拍摄的参考图像和目标图像，使得参考图像与目标图像在路面上具有一定视差，例如参考图像和目标图像在车道线上没有对齐，因此需要将参考图像的路面像素与目标图像的路面像素对齐。

在本实施例中，通过单应性矩阵对参考图像进行反向映射得到重建图像。其中，单应性矩阵是预先设置好的，用于表示目标物在世界坐标系和像素坐标系之间的位置映射关系，在本公开中用于实现重建图像的路面像素与目标图像的路面像素对齐。

S2：根据重建图像和目标图像，确定目标图像中的目标物的像素高深比。其中，像素高深比为目标物在真实世界中相对于路面的高度与目标物在真实世界中相对于相机的距离之间的比值。

具体地，预先训练好可以根据两张输入图像，输出两张输入图像中的其中一张图像的像素高深比的深度学习模型。在本公开的实施例中，深度学习模型的输入为重建图像和目标图像，深度学习模型的输出为目标图像的像素高深比。其中，目标物的像素高深比与目标图像的像素高深比相等。

S3：根据像素高深比得到目标物的位置信息。

具体地，获取目标物在目标图像中的对应像素。其中，目标物在目标图像中的对应像素可以是目标物在目标图像中的全部像素，也可以是目标物在目标图像中的等效位置的像素(例如某一个等效于目标物的特定像素)。在得到目标物在目标图像中的对应像素之后，根据像素高深比可以得到该像素在真实世界中相对于路面之间的距离，以及该像素在真实世界中相对于相机的距离。

本公开实施例的基于图像确定目标物位置的方法，通过单应性矩阵将参考图像进行重建后，使重建图像的路面像素和目标图像的路面像素对齐。基于重建图像和目标图像确定的目标图像中的目标物的像素高深比，可以快速、准确地确定目标图像中目标物的位置信息。

图2为本公开一个示例中基于图像确定目标物位置的方法的原理图。如图2所示，在本公开的一个实施例中，步骤S2包括：

S2-1：对重建图像进行特征提取得到第一特征，并对目标图像进行特征提取得到第二特征。其中，对重建图像和目标图像进行特征提取时，使用相同的特征提取权重。

具体地，可以利用深度学习网络对重建图像抽取第一特征，并利用深度学习网络对目标图像抽取第二特征，例如采用U-Net网络抽取该第一特征和第二特征。其中，利用U-Net网络抽取图像特征的方式为本领域技术人员所熟知，不作赘述。此外，还可以对重建图像提取方向梯度直方图(Histogram of Oriented Gradient,HOG)特征，作为第一特征。相应地，对目标图像提取HOG特征作为第二特征。

S2-2：对第一特征和第二特征进行视差注意力处理得到像素相似度关系特征。

具体地，视差注意力处理主要是通过注意力机制获取第一特征和第二特征的相似度关系。在本示例中，由于第一特征和第二特征均是通过对图像的像素提取得到特征，因此，视差注意力处理的结果是参考图像与目标图像在像素上的相似度关系特征，记为像素相似度关系特征。

本实施例通过对参考图像和目标图像进行特征提取后，通过视差注意力处理可以得到参考图像与目标图像之间的像素级的相似度关系，便于后续步骤基于像素级的相似度关系，可以准确地确定目标图像中目标物的位置信息。

图3为本公开一个示例中视差注意力处理的示意图。如图3所示，在本公开的一个实施例中，步骤S2-2包括：

S2-2-1：根据第一特征F_s得到重建图像的查询值Q。其中，查询值Q由第一特征F_s经过1x1卷积计算得到。

S2-2-2：根据第二特征F_t得到目标图像的键值K和值项V。其中，第二特征F_t与第一特征F_s的维度一致。键值K和值项V由第二特征F_t经过1x1卷积计算得到。

S2-2-3：根据重建图像的查询值Q、目标图像的键值K和值项V和位置编码参数序列E得到像素相似度关系特征。

具体地，第一特征F_s和第二特征F_t的维度一致：均是B*C*(H/s)*(W/s),其中B是Batch size，即一次处理的数据数目；C是通道数，采用2的次方数，例如可以是256、128、64或32；H和W是输入图像的高和宽，s是下采样比例，采用2的次方数，例如可以是2、4、8、16或32。通过对第一特征F_s和第二特征F_t分别进行1x1卷积后，Q、K和V也都是B*C*(H/s)*(W/s)维度的特征。

在本公开的实施例中，采用与图像的高度、宽度作为图像特征的参数，通过视差注意力处理后得到的像素相似度关系特征，有利于后续步骤计算目标图像的像素高宽比。

在本公开的一个实施例中，步骤S2-2-3包括：

根据重建图像的查询值Q和目标图像的键值K得到相似度矩阵S。其中，查询值Q和键值K经过一个部分矩阵乘法(partial matrix multiplication)得到相似度矩阵S。其中，像素相似度关系特征S的维度是B*g*c1*i，B是Batch size，g是group，c1是每个group的通道数目，i是H*W，和计算相似度的输入Q,K的H和W一致。

根据相似度矩阵S和位置编码参数序列E得到第一相似度关系特征M。其中，位置编码参数序列E为一个可学习的位置编码参数序列。相似度矩阵S和位置编码参数序列E通过部分矩阵乘法得到第一相似度关系特征M。M的维度是B*g*c1*i，与相似度矩阵S的维度一致。

根据目标图像的值项V和相似度矩阵S得到第二相似度关系特征N。其中，目标图像的值项V和相似度矩阵S经过部分矩阵乘法得到第二相似度关系特征N。其中N维度是B*g*c1*i，与相似度矩阵S的维度一致。

根据第一相似度关系特征M和第二相似度关系特征N得到像素相似度关系特征O。其中，第一相似度关系特征M和第二相似度关系特征N在通道维度经过叠加(concatenate)后，再经过1X1卷积得到像素相似度关系特征O。像素相似度关系特征O的维度是B*c*h*w，c＝g*c1。

需要说明的是，在本实施例中，键值K和值项V都由第二特征F_t得到，是因为查询值Q和键值K之间计算得到一个两图相似性矩阵S构建匹配关系，而最终需要输出的对应于目标图像的高度和深度，所以最后值项V由第二特征F_t计算。

S2-3：对第一特征、第二特征和相似度关系特征进行融合，得到融合特征。即将第一特征F_s、第二特征F_t和像素相似度关系特征O相叠加(concatenate),然后经过1X1卷积层，得到融合特征。

S2-4：根据融合特征得到像素高深比。其中，基于融合特征，经过多层卷积输出最终结果，即目标图像的像素高深比。像素高深比的维度是：B*1*(H/s)*(W/s)。若选择的s大于1，则需要将结果上采样s倍至目标图像大小。本公开的实施例采用注意力处理，可以有效的获取图像之间的匹配关系，将匹配信息融合到两张图像的特征中提升最终输出的高度和深度结果。

在本公开的一个实施例中，在步骤S1之前，还包括：

获取相机的帧间姿态信息、路面的法线信息和相机的内参；根据相机的帧间姿态信息、路面的法线信息和相机的内参得到单应性矩阵。其中，相机的帧间姿态信息可以通过运动传感器或者GPS获得，路面的法线信息可以通过提前标定获得，相机内参可以通过提前标定获得。

帧间姿态包含拍摄两张图的相机位置的平移向量t(1X3)和旋转矩阵R(3X3)，路面法线N是一条向量(1X3)，单应性矩阵是3X3的矩阵，单应性矩阵H通过公式得到：

其中，K表示相机内参，K^-1表示K的逆矩阵，d表示相机高度，即相机相对于路面的高度，d通过标定得到。

在本公开的实施例中，基于相机的帧间姿态信息、路面的法线信息和相机的内参可以确定单应性矩阵，进而基于单应性矩阵可以使重建图像的路面像素与目标图像的路面像素对齐，从而可以采用平面视差法，快速准确地计算目标图像的像素高深比。

此外，在本公开的实施例中，在得到目标图像中的目标物的像素高深比后，还可以包括：

根据该像素高深比得到该重建图像和该目标图像的残差流，根据该残差流作为损失更新用于得到像素高深比的深度学习模型。

其中，残差流为该重建图像和该目标图像的图像差异，即该重建图像和该目标图像的图像差异位移。

在本示例中，该深度学习模型的输入为两张图像(例如可以是该参考图像和该目标图像)，该深度模型的输出为其中一张输入图像(例如可以是目标图像)的像素高深比。通过深度学习模型输出的像素高深比与像素高深比的实际值进行比较，如果深度学习模型输出的像素高深比与像素高深比的实际值之间的差值不满足规定差值，则调整该深度学习模型的参数后，利用调整参数后的深度学习模型重新预测，得到新的像素高深比，再根据新的像素高深比与实际值之间的差值判断是否满足规定差值，如果不满足则更新深度学习模型的参数并重新预测，直至满足深度学习模型的标准为止。

在本公开的实施例中，基于相机拍摄的、相隔N帧，且具有相应参考平面的两张图像训练深度学习模型，通过深度学习模型可以准确得到预测图像的像素高深比，进而基于像素高深比可以计算得到预测图像中目标物的高度与深度，有助于自动驾驶场景进行三维建模。

示例性基于图像确定目标物位置的装置

图4为本公开的基于图像确定目标物位置的装置的结构框图。如图4所示，本公开的基于图像确定目标物位置的装置，包括：图像重建模块410、图像处理模块420和定位模块430。

其中，图像重建模块410用于基于单应性矩阵，确定参考图像的重建图像。图像处理模块420用于根据重建图像和目标图像确定目标图像中的目标物的像素高深比。定位模块430用于根据像素高深比得到目标物的位置信息。在本公开的实施例中，参考图像和目标图像均包括路面，重建图像中的路面像素与目标图像中的路面像素对齐，像素高深比为目标物在真实世界中相对于路面之间的高度与目标物在真实世界中相对于相机的距离之间的比值。

图5是本公开一个实施例中图像处理模块420的结构框图。如图5所示，在本公开的一个实施例中，图像处理模块420包括：特征提取单元4201，用于对重建图像进行特征提取得到第一特征，并对目标图像进行处理得到第二特征；注意力处理单元4202，用于对第一特征和第二特征进行视差注意力处理得到像素相似度关系特征；特征融合单元4203，用于对第一特征、第二特征和相似度关系特征进行融合，得到融合特征；图像高深比确定单元4204，用于根据融合特征得到目标图像的像素高深比。

图6是本公开一个示例中注意力处理单元的原理图。如图6所示，在本公开的一个实施例中，注意力处理单元4202用于根据第一特征F_s得到重建图像的查询值Q，并根据第二特征F_t得到目标图像的键值K和值项V，进而根据重建图像的查询值Q、目标图像的键值K和值项V，和位置编码参数序列E得到像素相似度关系特征O。

在本公开的一个实施例中，注意力处理单元4202用于根据重建图像的查询值Q和目标图像的键值K得到相似度矩阵S。注意力处理单元4202还用于根据相似度矩阵S和位置编码参数序列E得到第一相似度关系特征M，并根据目标图像的值项V和相似度矩阵S得到第二相似度关系特征N，进而根据第一相似度关系特征M和第二相似度关系特征N得到像素相似度关系特征O。

图7是本公开一个示例中图像重建模块的结构框图。在本公开的一个实施例中，图像重建模块410包括：获取单元4101，用于获取相机的帧间姿态信息、路面的法线信息和相机的内参；处理单元4102，用于根据相机的帧间姿态信息、路面的法线信息和相机的内参得到单应性矩阵。

在本公开的一个实施例中，相机设置在车辆上，参考图像和目标图像均是在车辆行驶过程中通过相机拍摄得到的，且参考图像和目标图像间隔N帧，N为大于等于1的自然数。

需要说明的是，本公开实施例的基于图像确定目标物位置的装置的具体实施方式与本公开实施例的基于图像确定目标物位置的方法的具体实施方式类似，具体参见基于图像确定目标物位置的方法的具体实施方式部分，为了减少冗余，不作赘述。

示例性电子设备

下面参考图8来描述根据本公开实施例的电子设备。图8示出了根据本公开实施例的电子设备的框图。如图8所示，电子设备包括一个或多个处理器810和存储器820。

处理器810可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器820可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器，例如，可以包括：只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现上文所述的本公开的各个实施例的语言模型的训练方法、基于语言模型预测词的出现概率的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备还可以包括：输入装置830以及输出装置540等，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入装置830还可以包括例如键盘、鼠标等等。该输出装置840可以向外部输出各种信息。该输出装置840可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于平面视差的图像高度和深度的确定方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于平面视差的图像高度和深度的确定方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于图像确定目标物位置的方法，包括：

基于单应性矩阵，确定参考图像的重建图像；

根据所述像素高深比得到所述目标物的位置信息；

2.根据权利要求1所述的基于图像确定目标物位置的方法，其中所述根据所述重建图像和目标图像，确定所述目标图像中的目标物的像素高深比，包括：

对所述重建图像进行特征提取得到第一特征，并对所述目标图像进行特征提取得到第二特征；

对所述第一特征和所述第二特征进行视差注意力处理得到像素相似度关系特征；

对所述第一特征、所述第二特征和所述相似度关系特征进行融合，得到融合特征；

根据所述融合特征得到所述像素高深比。

3.根据权利要求2所述的基于图像确定目标物位置的方法，其中所述对所述第一特征和所述第二特征进行视差注意力处理得到像素相似度关系特征，包括：

根据所述第一特征得到所述重建图像的查询值；

根据所述第二特征得到所述目标图像的键值和值项；

根据所述重建图像的查询值、所述目标图像的键值和值项，和位置编码参数序列得到所述像素相似度关系特征。

4.根据权利要求3所述的基于图像确定目标物位置的方法，其中所述根据所述重建图像的查询值、所述目标图像的键值和值项，和位置编码参数序列得到所述像素相似度关系特征，包括：

根据所述重建图像的查询值和所述目标图像的键值得到相似度矩阵；

根据所述相似度矩阵和所述位置编码参数序列得到第一相似度关系特征；

根据所述目标图像的值项和所述相似度矩阵得到第二相似度关系特征；

根据所述第一相似度关系特征和所述第二相似度关系特征得到所述像素相似度关系特征。

5.根据权利要求1所述的基于图像确定目标物位置的方法，其中在所述基于单应性矩阵，得到参考图像的重建图像之前，还包括：

获取所述相机的帧间姿态信息、路面的法线信息和所述相机的内参；

根据所述相机的帧间姿态信息、所述路面的法线信息和所述相机的内参得到所述单应性矩阵。

6.根据权利要求1-5任一项所述的基于图像确定目标物位置的方法，其中所述相机设置在车辆上，所述参考图像和所述目标图像均是在车辆行驶过程中通过所述相机拍摄得到的，且所述参考图像和所述目标图像间隔N帧，N为大于等于1的自然数。

7.一种基于图像确定目标物位置的装置，包括：

8.根据权利要求7所述的基于图像确定目标物位置的装置，其中所述图像处理模块包括：

特征提取单元，用于对所述重建图像进行特征提取得到第一特征，并对所述目标图像进行特征提取得到第二特征；

注意力处理单元，用于对所述第一特征和所述第二特征进行视差注意力处理得到像素相似度关系特征；

特征融合单元，用于对所述第一特征、所述第二特征和所述相似度关系特征进行融合，得到融合特征；

图像高深比确定单元，用于根据所述融合特征得到所述目标图像的像素高深比。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一项所述的基于图像确定目标物位置的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-6任一项所述的基于图像确定目标物位置的方法。