CN110119698B

CN110119698B - 用于确定对象状态的方法、装置、设备和存储介质

Info

Publication number: CN110119698B
Application number: CN201910355140.3A
Authority: CN
Inventors: 李政
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2021-08-10
Anticipated expiration: 2039-04-29
Also published as: CN113657224A; CN113657224B; CN110119698A

Abstract

根据本公开的示例实施例，提供了用于确定对象状态的方法、装置、设备和计算机可读存储介质。用于确定对象状态的方法包括获取目标区域的取向信息，取向信息指示目标区域的至少一个部分在参考坐标系中的取向。该方法还包括获取关于图像中的对象的检测信息，图像包括目标区域和对象，检测信息指示对象在图像中的像素位置、对象的检测尺寸和检测取向。该方法进一步包括基于检测信息和取向信息，确定对象在参考坐标系中的位置和姿态。以此方式，能够准确且快速地确定车辆等对象的状态而对道路的平整、起伏没有限制，从而可以提高智能交通和自动驾驶的性能。

Description

用于确定对象状态的方法、装置、设备和存储介质

技术领域

本公开的实施例主要涉及计算机领域，并且更具体地，涉及用于确定对象状态的方法、装置、设备和计算机可读存储介质。

背景技术

在诸如智能交通和自动驾驶的场景中，需要进行车路协同。利用路侧感测设备来准确检测出场景中的车辆等物体的状态(例如，位置坐标及三维姿态)是非常重要的。依靠全方位无死角的路侧感测设备能够在全局提升自动驾驶车辆以及其他车辆的感知能力，保证行车安全。因此，需要准确且快速地确定场景中的车辆等对象的状态。

发明内容

根据本公开的示例实施例，提供了一种用于确定对象状态的方案。

在本公开的第一方面中，提供了一种确定对象状态的方法。该方法包括获取目标区域的取向信息，取向信息指示目标区域的至少一个部分在参考坐标系中的取向。该方法还包括获取关于图像中的对象的检测信息，图像包括目标区域和对象，检测信息指示对象在图像中的像素位置、对象的检测尺寸和检测取向。该方法进一步包括基于检测信息和取向信息，确定对象在参考坐标系中的位置和姿态。

在本公开的第二方面中，提供了一种用于确定对象状态的装置。该装置包括取向信息获取模块，被配置为获取目标区域的取向信息，取向信息指示目标区域的至少一个部分在参考坐标系中的取向。该装置还包括检测信息获取模块，被配置为获取关于图像中的对象的检测信息，图像包括目标区域和对象，检测信息指示对象在图像中的像素位置、对象的检测尺寸和检测取向。该装置进一步包括位置和姿态确定模块，被配置为基于检测信息和取向信息，确定对象在参考坐标系中的位置和姿态。

在本公开的第三方面中，提供了一种设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的确定对象状态的过程的流程图；

图3示出了根据本公开的一些实施例的利用检测信息来确定特征点像素坐标的示意图；

图4示出了根据本公开的一些实施例的确定位置和姿态的过程的流程图；

图5示出了根据本公开的一些实施例的确定中心点坐标的示意图；

图6示出了根据本公开的实施例的用于确定对象状态的装置的示意性框图；以及

图7示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如前文所提及的，在智能交通和自动驾驶的场景中，需要检测车辆等对象的状态，例如确定对象当前所处的具体位置、姿态、相对于车道线的取向等。传统上，存在三种解决方案。在一种方案中，在路侧搭建多线激光雷达等设备来进行车辆等对象的状态检测，激光雷达点云的测距精度很高，可以通过聚类、栅格地图等方式较为准确地得到各个对象的位置，并在聚类后对对象进行三维(3D)BOX分析来估计车辆等对象的姿态。这种方案需要在路侧搭建多线激光雷达，成本高昂，并且目前的多线激光雷达防尘防水性能不强，极端天气会对路侧设备产生较大影响，缩短其使用寿命。另外，由于激光雷达成本太高，因此不易大面积铺设安装。

在另一种传统方案中，采用视觉相机设备来进行车辆等对象的状态检测，通过二维(2D)视觉深度学习训练网络，直接通过2D视觉输出识别得到的对象的3D BOX，并通过相机外参计算得到对象的位置和取向等信息。这种方案需要大量的数据来训练网络，通过2D图片直接输出3D的标注要更加复杂和困难，而且标注精度也难以保证，尤其是对象姿态的标注精度很难保证。最终检测得到的状态结果精度也不够高，较难满足需求。对于结果的优化只能通过多采集数据进行网络优化这种方式，结果上限难以估计。

在又一种传统方案中，采用视觉相机设备，2D图像经过深度学习网络后输出2D检测框及对象的朝向，将2D检测框的中心点近似为3D BOX中心的投影点，并通过2D检测框的像素坐标在深度图中查询得到2D检测框中心点的近似深度值。结合相机内参可以计算得到3D BOX在相机坐标系下的位置，通过相机外参计算得到物体的位置。在这种方案中，利用相对成熟的2D检测结果和先验标定得到的深度图。但该方案假设对象的3D几何中心投影也在图像中2D检测框的中心，但基本上大多数对象的中心投影都不在2D检测框中心。2D检测框中心的深度值近似过程也假设了图像中某像素附近的像素深度值变化不大。该方案在计算过程中，作了过多假设，因此对于对象位置的检测结果精度不高，而且无法得到车辆等对象的姿态。另外，在存在长坡、道路不平整时误差很大。

为了至少部分地解决上述问题和其他的潜在问题，本文提出一种确定对象状态的方案。在该方案中，仅使用视觉相机作为路侧感测设备，利用图像的2D检测结果并且结合场景内的地面取向信息，来确定诸如车辆等对象的状态，例如位置和姿态。以此方式，能够准确且快速地确定车辆等对象的状态而对道路的平整、起伏没有限制，从而可以提高智能交通和自动驾驶的性能。

以下将参照附图来具体描述本公开的实施例。

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。在该示例环境100中，感测设备120可以获取包括目标区域130和对象110、112、113、114中的一个或多个的图像，例如静态图像或视频。在图1中，将感测设备120示出为路侧相机，但是感测设备120的实现不限于此，并且可以是能够获取图像的任何设备，诸如智能电话、车载相机等。

在图1中，将目标区域130示出为一段道路，但目标区域的示例不限于此，并且可以是其上或其附近存在车辆等对象的任何区域，诸如地上或地下停车场。在示例环境100中，将对象110、112、113、114分别示出为中型车辆、小型车辆、树木、建筑物。

在一些实施例中，感测设备120可以与计算设备102连接或通信，并且向计算设备102提供所获取的图像。计算设备102可以确定图像中的个体对象的状态。在另一实施例中，计算设备102可以从感测设备120或其他计算设备直接获取对图像中的个体对象的检测结果，并且基于检测结果来确定图像中的个体对象的状态。

计算设备102可以被嵌入在感测设备120中，可以布置于感测设备120之外，也可以部分被嵌入在感测设备120中并且部分分布于感测设备120之外。计算设备102可以是分布式计算设备、大型机、服务器、个人计算机、平板计算机、智能电话等具有计算能力的任何设备。

计算设备102还可以获取与目标区域130和感测设备120有关的标定信息101。标定信息101可以包括目标区域130的高精度地图、稠密点云等。标定信息101还可以包括感测设备120的内参和外参，以用于确定感测设备坐标系与图像坐标系之间的转换关系(在本文中可互换地称为映射关系)以及感测设备坐标系与参考坐标系之间的转换关系。标定信息101可以部分地由感测设备120提供给计算设备102，或者计算设备102可以从诸如云端、服务器的远程设备来获取标定信息101。

尽管下文将结合被示出为中型车辆的对象110来描述本公开的实施例，但是应当理解本公开的实施例可以应用于任何合适的对象。例如，可以应用于被示出为树木的对象113，受天气等原因影响，树木可能出现倒塌从而对目标区域130中车辆的行驶造成影响，因此也有必要检测这样的对象113的状态。

为了更清楚地理解本公开的实施例所提供的确定对象状态的方案，将参照图2来进一步描述本公开的实施例。图2示出了根据本公开的实施例的确定对象状态的过程200的流程图。过程200可以由图1的计算设备102来实现。为便于讨论，将结合图1来描述过程200。

在框210，计算设备102获取目标区域130的取向信息，取向信息指示目标区域130的至少一个部分在参考坐标系中的取向。参考坐标系可以是世界坐标系，诸如与对象110使用的卫星定位系统相同的坐标系。参考坐标系还可以是预定义的用于确定对象110的状态的其他基准坐标系。

取向信息可以是用于指示目标区域130的各个部分在参考坐标系中的取向的方程，例如地面方程ax+by+cx+d＝0，其中a、b、c、d为参数。举例而言，当目标区域130由三段不同取向的道路(例如，两段平坦道路和一段具有坡度的道路)组成时，取向信息可以包括针对这三段道路的三个地面方程。

在一些实施例中，计算设备102可以获取目标区域130的地图和点云，并且基于所获取的地图和点云来标定取向信息。例如，计算设备102可以从标定信息101中获取地图和点云，并确定目标区域130的各个部分的地面方程。在另一些实施例中，计算设备102可以直接获取这样的取向信息而无需自身标定。例如，计算设备102可以从云端或服务器接收预先标定的针对目标区域130的取向信息。

在一些实施例中，在框210，计算设备102还可以获取目标区域130的深度信息，例如深度图。深度信息指示目标区域130中的点与感测设备120的相对距离。例如，计算设备102可以利用感测设备120与高精地图和稠密点云(例如，包括在标定信息101中)联合标定来得到目标区域130(例如，地面)的点在感测设备120获取的图像上的投影，生成与感测设备120的图像像素对齐的深度图。

在框220，计算设备102获取关于图像中的对象110的检测信息，图像包括目标区域130和对象110。检测信息指示对象110在图像中的像素位置、对象110的检测尺寸和检测取向。

在一些实施例中，计算设备102可以从感测设备102来获取这样的检测信息。例如，在标定结束之后，感测设备102可以拍摄包括目标区域130和一个或多个对象的图像，并利用图像识别技术来处理所拍摄的图像，从而可以得到所检测的对象列表，针对每个对象的检测信息可以包括但不限于对象类型(例如，车辆、建筑物、植物、人等)、用于指示对象在图像中的像素位置的检测框、对象的朝向角rot_y、对象尺寸长l*宽w*高h。

在一些实施例中，计算设备102可以自身来确定这样的检测信息。计算设备103可以从布置在目标区域130附近的感测设备120接收图像，并利用经训练的学习网络(例如，2D检测模型)来处理所接收的图像以确定关于其中的对象的检测信息。

参考图3，图3示出了根据本公开的一些实施例的利用检测信息来确定对象110的特征点P_near像素坐标的示意图300。在图3的示例中，由像素坐标(u_min,v_max)和(u_max,v_max)标识的检测框301可以指示对象110在图像中的像素位置。同时，检测信息还包括对象110的检测尺寸长l*宽w*高h(未示出)以及指示检测朝向的朝向角rot_y。朝向角rot_y指示对象110围绕感测设备120坐标系320(例如，相机坐标系)的y轴旋转的角度。

继续参考图2。在框230，计算设备102基于检测信息和取向信息，确定对象110在参考坐标系中的位置和姿态。例如，确定自动驾驶场景中的车辆在世界坐标系中的位置和姿态。位置可以用对象110的中心点或其他合适的点在参考坐标系中的坐标来表示，姿态可以用对象110在参考坐标系中的俯仰角、翻滚角和偏航角来表示。计算设备102可以结合标定信息101和深度信息等来确定对象110的位置和姿态。

在一些实施例中，计算设备102可以简单地将检测框301的中心点作为对象110的中心点来确定对象110的位置和姿态。在一些实施例中，计算设备102可以利用对象110的特征点来确定对象110的位置和姿态，下文将结合图3至图5来详细描述这样的实施例。

以上描述了根据本公开的实施例的确定对象状态的过程200。利用取向信息可以考虑地面的起伏或不平整对车辆等对象的状态的影响。以此方式，可以利用设置在路侧的诸如相机的感测设备来实现车辆等对象的检测，而对道路的平坦状况没有限制。因此，这样的方案成本较低，并且适合于大范围的推广使用。

如上文参考框230所提及的，计算设备102可以利用对象110的特征点来更加准确地确定对象110的位置和姿态。下面将参考图3至图5来描述这一过程。图4示出了根据本公开的一些实施例的确定位置和姿态的过程400的流程图。过程400可以视为图2中框230的一个实现。

在框410，计算设备102基于在框220获取的检测信息，确定与对象110相关联的特征点在参考坐标系中的特征坐标，特征点位于目标区域130中。参考图3，其中示出了对象110的特征点P_near。可以认为特征点P_near是表示对象110的3D BOX的某个棱在目标区域130中的投影点，例如在地面上的投影点。这样的特征点也可以被称为角接地点或接地点。

计算设备102可以首先基于检测信息中包含的像素位置(例如，检测框301)、检测尺寸和检测取向rot_y，确定特征点P_near在图像中的像素坐标P_near(u_p,v_p)。例如，计算设备102可以根据如下原理来计算特征点P_near的像素坐标：在2D检测框301中特征点P_near左侧部分与右侧部分的比例与在感测设备坐标系320下鸟瞰图的左侧部分与右侧部分比例近似相等。在图3中示出了对象110的3D BOX在感测设备坐标系俯视图中的表示310，以及对象110的检测尺寸和检测朝向。根据以上原理，可以得到特征点P_near在图像中的像素坐标P_near(u_p,v_p)，如式(1)所示：

计算设备102可以获取针对目标区域130的深度信息和图像坐标系与参考坐标系之间的映射关系。深度信息可以是以上参考框210所描述的那样确定的，其指示目标区域130中的点与拍摄图像的感测设备120的相对距离。深度信息例如可以是与图像像素对象的深度图，可以将地面点云投影到图像上，通过插值来得到深度图。本公开的实施例可以利用以任何适当的方式确定或表示的深度信息。

图像坐标系与参考坐标系之间的映射关系可以基于感测设备120的内参和外参来确定。例如，当感测设备120为路侧相机时，可以基于相机模型来确定该映射关系。可以基于相机的内参确定图像坐标系与相机坐标系之间的转换关系，利用相机的外参确定相机坐标系与参考坐标系(例如，世界坐标系)之间的转换关系，从而确定上述映射关系。

接下来，计算设备102可以基于深度信息和映射关系，将像素坐标P_near(u_p,v_p)转换成特征点P_near在参考坐标系中的特征坐标。例如，计算设备102可以通过像素坐标P_near(u_p,v_p)来查询深度图，从而得到与该像素坐标相对应的深度值，然后根据相机的内参以及相机标定的外参计算特征点P_near在世界坐标系下的坐标

在框420，计算设备102可以从取向信息中，确定目标区域130中与特征坐标相对应的部分的特征取向。例如，计算设备102可以查询取向信息，从而得到坐标

所处的部分的地面方程(或特征向量)，例如，ax+by+cx+d＝0。特征取向可以由地面方程来表示。

在框430，计算设备102基于特征坐标、检测信息和特征取向，确定对象110的位置。例如，计算设备102可以将特征点P_near的特征坐标转换成对象110的中心点在参考坐标系中的坐标，作为对象110的位置的表示。计算设备102可以基于

处的地面方程建立地面坐标系。

在一些实施例中，计算设备102可以获取感测设备120在参考坐标系中的设备取向，例如，相机在参考坐标系下的偏航角。然后，计算设备102可以基于设备取向、检测尺寸和检测取向，确定对象110的中心点与特征点的相对位置，例如可以确定中心点在特征点处的地面坐标系中的坐标。接下来，计算设备102可以基于特征取向(例如，地面方程)，将相对位置和特征坐标的组合转换为中心点在参考坐标系中的坐标。

下面参考图5来描述这样的一个示例。图5示出了根据本公开的一些实施例的确定中心点坐标的示意图500。图5中示出了对象110在地面坐标系520下的俯视图中的表示510。在地面坐标系520下，可以基于对象110的朝向角和相机外参计算出对象110的中心点在地面坐标系下的坐标p_center(x_center,y_center)，如下式(2)：

其中yaw_camera为感测设备120(例如，相机)在参考坐标系中的偏航角，即在参考坐标系中围绕z轴旋转的角度，这可以由外参得到；参数

接下来，可以利用

处的地面方程将式(2)中对象110的中心点坐标x_center和y_center转换成参考坐标系中的坐标

作为对象110在参考坐标系中的位置。例如，基于地面方程ax+by+cx+d＝0确定用于转换的矩阵，并且将该矩阵作用于

在此并未详细描述对象110的中心点在参考坐标系中的坐标

这是因为在一些场景中可能并不关心对象在垂直于水平面方向上的具体位置。因此可以将

赋予同一值(例如，零)，或者基于对象110的检测高度h来确定，例如确定为h的一半。

在框440，计算设备102可以基于检测信息和特征取向，确定对象110的姿态。例如，可以确定对象110的俯仰角、翻滚角和偏航角。

在一些实施例中，计算设备102可以获取感测设备120在参考坐标系中的设备取向，例如，相机在参考坐标系下的偏航角。然后，计算设备102可以基于设备取向和检测取向，确定对象110在参考坐标系中的偏航角。计算设备102接下来可以从特征取向确定目标区域130中与特征点相对应的部分在参考坐标系中的俯仰角和翻滚角作为对象110在参考坐标系中的俯仰角和翻滚角。

继续参考图5来给出确定对象110的姿态

的一个示例。对象110的偏航角

可以是式(2)中所示的

其由相机的偏航角和对象110的检测朝向确定；翻滚角

和俯仰角

可以由P_near处的地面方程来确定，例如将该处地面在世界坐标系中的翻滚角和俯仰角作为对象110的翻滚角

和俯仰角

在一些实施例中，还可以确定对象110在参考坐标系中的尺寸

例如，该尺寸可以通过将框220中获取的检测尺寸长l*宽w*高h投影在参考坐标系中确定。

在这样的实施例中，诸如角接地点的特征点的引入能够更加准确地确定车辆等对象的状态。应当理解，可以对感测设备120所获取的图像中的每个对象执行框230和/或过程400，从而可以确定目标区域130中各个对象的当前状态，例如，当前的位置和姿态。所确定的状态可以发送给在目标区域130或附近区域中行驶的自动驾驶或非自动驾驶车辆，从而辅助车辆进行线路规划或者避免碰撞。

以上描述的本公开的方案在路侧只需要用到相机便可以完成较高精度的检测，成本较低，适合大范围大面积采用推广。本公开的方案对于2D视觉深度学习检测识别比直接输出3D结果更为成熟和准确，对于可用于训练的标注数据也远多于3D识别的数据，并且标注过程更加简单，效率更高更准确。计算得到的3D对象的精度更高，结果更满足需求。另外，相对于传统的2D检测方案，在本公开的方案中，对象的位置计算精度更高，更准确，并且可以准确得到对象的姿态，在道路存在长坡、斜坡等道路不平整的场景下也适用，适用场景更广。

图6示出了根据本公开的实施例的用于确定对象状态的装置600的示意性框图。装置600可以被包括在图1的计算设备102中或者被实现为计算设备102。如图6所示，装置600包括取向信息获取模块610，被配置为获取目标区域的取向信息，取向信息指示目标区域的至少一个部分在参考坐标系中的取向。装置600还包括检测信息获取模块620，被配置为获取关于图像中的对象的检测信息，图像包括目标区域和对象，检测信息指示对象在图像中的像素位置、对象的检测尺寸和检测取向。装置600进一步包括位置和姿态确定模块630，被配置为基于检测信息和取向信息，确定对象在参考坐标系中的位置和姿态。

在一些实施例中，位置和姿态确定模块630包括：特征坐标确定模块，被配置为基于检测信息，确定与对象相关联的特征点在参考坐标系中的特征坐标，特征点位于目标区域中；特征取向确定模块，被配置为从取向信息中，确定目标区域中与特征坐标相对应的部分的特征取向；位置确定模块，被配置为基于特征坐标、检测信息和特征取向，确定对象的位置；以及姿态确定模块，被配置为基于检测信息和特征取向，确定对象的姿态。

在一些实施例中，位置确定模块包括：第一设备取向模块，被配置为获取感测设备在参考坐标系中的设备取向，图像由感测设备获取；相对位置确定模块，被配置为基于设备取向、检测尺寸和检测取向，确定对象的中心点与特征点的相对位置；以及第一坐标转换模块，被配置为基于特征取向，将相对位置和特征坐标的组合转换为中心点在参考坐标系中的坐标。

在一些实施例中，姿态确定模块包括：第二设备取向模块，被配置为获取感测设备在参考坐标系中的设备取向，图像由感测设备获取；偏航角确定模块，被配置为基于设备取向和检测取向，确定对象在参考坐标系中的偏航角；以及角度转换模块，被配置为从特征取向确定目标区域中与特征点相对应的部分在参考坐标系中的俯仰角和翻滚角作为对象在参考坐标系中的俯仰角和翻滚角。

在一些实施例中，特征坐标确定模块包括：像素坐标确定模块，被配置为基于像素位置、检测尺寸和检测取向，确定特征点在图像中的像素坐标；深度和映射获取模块，被配置为获取针对目标区域的深度信息和图像坐标系与参考坐标系之间的映射关系，深度信息指示目标区域中的点与感测设备的相对距离，图像由感测设备获取；以及第二坐标转换模块，被配置为基于深度信息和映射关系，将像素坐标转换成特征点在参考坐标系中的特征坐标。

在一些实施例中，取向信息获取模块610包括：地图和点云获取模块，被配置为获取目标区域的地图和点云；以及取向信息确定模块，被配置为基于地图和点云来标定取向信息。

在一些实施例中，检测信息获取模块620包括：图像接收模块，被配置为从布置在目标区域附近的感测设备接收图像；以及图像检测模块，被配置为利用经训练的学习网络来处理图像以确定检测信息。

图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。设备700可以用于实现图1的计算设备102。如图所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元701执行上文所描述的各个方法和处理，例如过程200和过程400中的一个或多个。例如，在一些实施例中，过程200和过程400中的一个或多个可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU 701执行时，可以执行上文描述的过程200和过程400中的一个或多个的一个或多个步骤。备选地，在其他实施例中，CPU 701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200和过程400中的一个或多个。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种确定对象状态的方法，包括：

获取目标区域的取向信息，所述取向信息指示所述目标区域的至少一个部分在参考坐标系中的取向；

获取关于图像中的所述对象的检测信息，所述图像包括所述目标区域和所述对象，所述检测信息指示所述对象在所述图像中的像素位置、所述对象的检测尺寸和检测取向；以及

基于所述检测信息和所述取向信息，确定所述对象在所述参考坐标系中的位置和姿态。

2.根据权利要求1所述的方法，其中确定所述对象的所述位置和所述姿态包括：

基于所述检测信息，确定与所述对象相关联的特征点在所述参考坐标系中的特征坐标，所述特征点位于所述目标区域中；

从所述取向信息中，确定所述目标区域中与所述特征坐标相对应的部分的特征取向；

基于所述特征坐标、所述检测信息和所述特征取向，确定所述对象的所述位置；以及

基于所述检测信息和所述特征取向，确定所述对象的所述姿态。

3.根据权利要求2所述的方法，其中确定所述对象的所述位置包括：

获取感测设备在所述参考坐标系中的设备取向，所述图像由所述感测设备获取；

基于所述设备取向、所述检测尺寸和所述检测取向，确定所述对象的中心点与所述特征点的相对位置；以及

基于所述特征取向，将所述相对位置和所述特征坐标的组合转换为所述中心点在所述参考坐标系中的坐标。

4.根据权利要求2所述的方法，其中确定所述对象的所述姿态包括：

基于所述设备取向和所述检测取向，确定所述对象在所述参考坐标系中的偏航角；以及

从所述特征取向确定所述目标区域中与所述特征点相对应的部分在所述参考坐标系中的俯仰角和翻滚角作为所述对象在所述参考坐标系中的俯仰角和翻滚角。

5.根据权利要求2所述的方法，其中确定所述特征坐标包括：

基于所述像素位置、所述检测尺寸和所述检测取向，确定所述特征点在所述图像中的像素坐标；

获取针对所述目标区域的深度信息和图像坐标系与所述参考坐标系之间的映射关系，所述深度信息指示所述目标区域中的点与感测设备的相对距离，所述图像由所述感测设备获取；以及

基于所述深度信息和所述映射关系，将所述像素坐标转换成所述特征点在所述参考坐标系中的所述特征坐标。

6.根据权利要求1所述的方法，其中获取所述取向信息包括：

获取所述目标区域的地图和点云；以及

基于所述地图和点云来标定所述取向信息。

7.根据权利要求1所述的方法，其中获取所述检测信息包括：

从布置在所述目标区域附近的感测设备接收所述图像；以及

利用经训练的学习网络来处理所述图像以确定所述检测信息。

8.一种用于确定对象状态的装置，包括：

取向信息获取模块，被配置为获取目标区域的取向信息，所述取向信息指示所述目标区域的至少一个部分在参考坐标系中的取向；

检测信息获取模块，被配置为获取关于图像中的所述对象的检测信息，所述图像包括所述目标区域和所述对象，所述检测信息指示所述对象在所述图像中的像素位置、所述对象的检测尺寸和检测取向；以及

位置和姿态确定模块，被配置为基于所述检测信息和所述取向信息，确定所述对象在所述参考坐标系中的位置和姿态。

9.根据权利要求8所述的装置，其中所述位置和姿态确定模块包括：

特征坐标确定模块，被配置为基于所述检测信息，确定与所述对象相关联的特征点在所述参考坐标系中的特征坐标，所述特征点位于所述目标区域中；

特征取向确定模块，被配置为从所述取向信息中，确定所述目标区域中与所述特征坐标相对应的部分的特征取向；

位置确定模块，被配置为基于所述特征坐标、所述检测信息和所述特征取向，确定所述对象的所述位置；以及

姿态确定模块，被配置为基于所述检测信息和所述特征取向，确定所述对象的所述姿态。

10.根据权利要求9所述的装置，其中所述位置确定模块包括：

第一设备取向模块，被配置为获取感测设备在所述参考坐标系中的设备取向，所述图像由所述感测设备获取；

相对位置确定模块，被配置为基于所述设备取向、所述检测尺寸和所述检测取向，确定所述对象的中心点与所述特征点的相对位置；以及

第一坐标转换模块，被配置为基于所述特征取向，将所述相对位置和所述特征坐标的组合转换为所述中心点在所述参考坐标系中的坐标。

11.根据权利要求9所述的装置，其中所述姿态确定模块包括：

第二设备取向模块，被配置为获取感测设备在所述参考坐标系中的设备取向，所述图像由所述感测设备获取；

偏航角确定模块，被配置为基于所述设备取向和所述检测取向，确定所述对象在所述参考坐标系中的偏航角；以及

角度转换模块，被配置为从所述特征取向确定所述目标区域中与所述特征点相对应的部分在所述参考坐标系中的俯仰角和翻滚角作为所述对象在所述参考坐标系中的俯仰角和翻滚角。

12.根据权利要求9所述的装置，其中所述特征坐标确定模块包括：

像素坐标确定模块，被配置为基于所述像素位置、所述检测尺寸和所述检测取向，确定所述特征点在所述图像中的像素坐标；

深度和映射获取模块，被配置为获取针对所述目标区域的深度信息和图像坐标系与所述参考坐标系之间的映射关系，所述深度信息指示所述目标区域中的点与感测设备的相对距离，所述图像由所述感测设备获取；以及

第二坐标转换模块，被配置为基于所述深度信息和所述映射关系，将所述像素坐标转换成所述特征点在所述参考坐标系中的所述特征坐标。

13.根据权利要求8所述的装置，其中所述取向信息获取模块包括：

地图和点云获取模块，被配置为获取所述目标区域的地图和点云；以及

取向信息确定模块，被配置为基于所述地图和点云来标定所述取向信息。

14.根据权利要求8所述的装置，其中所述检测信息获取模块包括：

图像接收模块，被配置为从布置在所述目标区域附近的感测设备接收所述图像；以及

图像检测模块，被配置为利用经训练的学习网络来处理所述图像以确定所述检测信息。

15.一种用于确定对象状态的设备，所述设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。