CN118140159A

CN118140159A - 自动确定目标环境中传感器布置的方法

Info

Publication number: CN118140159A
Application number: CN202480000523.8A
Authority: CN
Inventors: 杨沅熹; 朱星华; 陈卓均; 陈航; 苏栋哲; 范世君
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2024-01-30
Filing date: 2024-02-04
Publication date: 2024-06-04

Abstract

本发明公开了一种自动确定目标环境中传感器布置的方法。该方法包括接收以下输入：目标环境的三维(3D)地图；要布置在目标环境中的多个传感器的数量；多个传感器的布置配置参数集；目标环境中多个传感器的约束条件集。该方法包括：基于所接收到的输入，使用模拟平台，根据目标环境中的一个或多个定义条件，模拟多个传感器的运行，以生成包含多个传感器的模拟输出数据的数据集；以及使用强化学习(RL)算法，从包含多个传感器的模拟输出数据的数据集中，确定多个传感器的优化的或至少改进的布置配置参数。

Description

自动确定目标环境中传感器布置的方法

技术领域

本发明涉及一种自动确定目标环境中传感器布置的方法，特别(但不限于)涉及一种在包括道路交通环境的目标环境中自动确定激光雷达(light detection and ranging，LiDAR)传感器布置的方法。

背景技术

自动驾驶汽车(Autonomous Vehicles，AVs)是一种通过自动执行至少部分驾驶任务以辅助或取代人类驾驶员为目的而配置的车辆。自动驾驶汽车利用车联网(Vehicle-to-Everything，V2X)通信协议(一种车辆通信协议)，用于将信息从车辆传递到可能影响车辆的任何实体，反之亦然。V2X协议通过在车载单元(vehicle on-board units，OBUs)和路边基础设施之间进行通信信息和/或数据交换，为道路安全、管理和/或威胁判断提供帮助。V2X系统还包含其他更具体的通信类型，包括但不限于车辆到基础设施(Vehicle-to-Infrastructure，V2I)、车辆到车辆(Vehicle-to-Vehicle，V2V)、车辆到行人(Vehicle-to-Pedestrian，V2P)、车辆到设备(Vehicle-to-Device,V2D))和车辆到电网(Vehicle-to-Grid,V2G)。

路边基础设施通常包括用于生成点云数据的传感器；一个点云包括三维空间的各个数据点的集合，每个数据点都分配有一组X、Y和Z轴的坐标。点云数据在物体检测、路径规划和车辆控制等方面特别有用。路边传感器能够生成点云数据，然后通过蜂窝车联网(Cellular-Vehicle-to-Everything，C-V2X)通道将点云数据传输到边缘服务器或类似设备。

路边基础设施传感器通常包括LiDAR传感器，为联网的自动驾驶汽车提供扩展的视野(fields of view，FOV)，以提高道路交通的安全性和效率。

在路边环境中安装和调整激光雷达传感器需要经过认证的工程师进行施工，而且通常需要为此类施工申请道路许可。这还会引发设施管理问题。从预算和人力方面考虑，路边传感器的建造和安装成本都很高。传统上，路边传感器的安装取决于对传感器的位置、高度和角度布置配置参数的经验估计。这些参数会影响路边感知的质量。适当或更好的LiDAR传感器的布置配置参数值可提供更全面的覆盖范围，从而提高LiDAR点云扫描的质量。

确定路边传感器位置的一些已知方法侧重于构建数学公式，以提供传感器布置配置参数的数值。然而，此类方法通常需要使用数学公式进行大量的试错，以尝试获得传感器布置配置参数的改进数值。这种试错法和其他方法类似，都是根据在具体情况确定改进的传感器布置配置参数，而没有考虑到可以从常见场景中学到什么并将其应用到这些方法中。

一些已知的基于交通数据集的机器学习方法侧重于目标环境中车辆的视角，但没有考虑路边的视角。

为改进或优化路边LiDAR传感器的布置而开发一种务实、具有成本效益和系统性的方法，将有助于降低V2X系统的建设成本，提高路边感知准确性，以及提高联网自动驾驶汽车的路边辅助感知和决策准确性等。

需要开发一种方法来改进或优化目标环境(如路边基础设施环境)中传感器(如LiDAR传感器)的布置。

发明目的

本发明的一个目的是在一定程度上减轻或避免与已知的在目标环境(如路边基础设施环境或路边交通环境)中传感器(如LiDAR传感器)的布置有关的一个或多个问题。

本发明的另一个目的是提供一种改进的方法，用于模拟在路边基础设施环境中传感器(如LiDAR传感器)的布置。

本发明的另一个目的是提供一种改进的方法，用于建模在路边基础设施环境中传感器(如LiDAR传感器)的布置。

上述目的是通过主权利要求的特征组合来实现的；从属权利要求公开了本发明的进一步有利实施例。

本领域技术人员将从以下描述中得出本发明的其他目的。因此，上述目的陈述并非详尽无遗，只是为了说明本发明多个目的中的一些目的。

发明内容

该方法提供了一种针对一个或多个常见场景在目标环境中建模/模拟传感器布置的方法，也提供了一种在真实世界目标环境中建模/模拟传感器布置的应用方法。从针对一个或多个常见场景的目标环境中传感器的布置进行建模/模拟的方法中获取的布置数据可以被导入到用于在真实世界目标环境中传感器布置建模/模拟的应用方法中，以加快计算速度。

在第一主要方面，本发明提供了一种自动确定目标环境中路边传感器布置的方法。该方法包括接收以下输入：目标环境的三维(3D)地图；要布置在目标环境中的多个传感器的数量；多个传感器的布置配置参数集；以及目标环境中多个传感器的约束条件集。该方法包括：基于所接收到的输入，使用模拟平台(如基于游戏引擎的模拟器)，根据目标环境中的一个或多个定义条件，模拟多个传感器的运行，以生成包括多个传感器的模拟输出数据的数据集。在下一步骤中，该方法包括：使用强化学习(Reinforcement Learning，RL)算法或模型，从包括多个传感器的模拟输出数据的数据集中确定多个传感器的优化的或至少改进的布置配置参数集。

基于游戏引擎的模拟器等模拟平台使用计算机图形学来进行逼真的场景渲染。

RL算法或模型包含一种机器学习方法，其中代理学习在目标环境中做出顺序决策，以最大化奖励。RL模型可以包括神经网络作为其底层架构。

优选地，该方法包括：使用模拟平台为多个目标环境场景生成各自的数据集，并使用各自的数据集来训练RL算法，以确定针对多个目标环境场景的多个传感器的优化的或至少改进的布置配置参数集。

接收到的输入之一可以包括用于多个目标环境场景之一的优化的或至少改进的布置配置参数集。

优选地，该方法对多个传感器模型类型进行迭代应用，这些传感器模型类型对目标环境中的约束条件具有不同的值，从而确定多个传感器的优化的或至少改进的布置配置参数集，包括优选或最佳传感器模型类型。

优选地，RL算法的奖励参数包括多个传感器中每个传感器的模拟覆盖区域，但在其他实施例中，奖励参数可以基于目标环境的其他特征。多个传感器中每个传感器的模拟覆盖区域可以包括多个传感器中每个传感器的模拟3D点云数据。

可对多个传感器中每个传感器的模拟3D点云数据进行近似处理。可根据点距离、点云密度和点分布均匀性来近似多个传感器中每个传感器的点云数据。多个传感器中每个传感器的3D点云数据可以通过将3D点云数据表示为2D网格并对2D网格中的每个数据点应用L1范数(曼哈顿距离(Manhattan Distance))来近似。这可以包括将2D网格划分为矩形框、为矩形框中的每个数据点分配“x”和“y”坐标、并对矩形框中的每个数据点应用L1范数(曼哈顿距离)。

在一个实施例中，该方法包括：在一次或多次迭代中，减少要布置在目标环境中的多个传感器的数量，并为减少了数量的传感器确定优化的或至少改进的布置配置参数集。

在一个实施例中，该方法包括：输入多个传感器的布置配置参数集作为初始布置配置参数集，并迭代地实施该方法以分别调整一个或多个布置配置参数，以确定用于多个传感器的优化的或至少改进的布置配置参数集。

在一个实施例中，对目标环境中多个传感器的约束条件集中的一个或多个约束条件应用一个或多个加权值。

优选地，所述多个传感器包括LiDAR传感器，所述目标环境包括道路交通环境。

优选地，模拟平台包括用于自动驾驶研究的Car Learning to ACT(CARLA^TM)模拟器，但在其他实施例中，模拟平台可以包括Autoware^TM(Gazebo)模拟器、Airsim^TM(UE4&Unity)模拟器、TORCS^TM(Open GL)模拟器或任何合适的模拟器中的任意一种。

优选地，RL算法包括通用RL模型，例如AlphaGo^TM。

在第二主要方面，本发明提供了一种用于自动确定目标环境中路边传感器布置的装置。该装置包括用于存储机器可读指令的存储器和用于执行所述机器可读指令的处理器，从而配置该处理器以实施本发明第一方面的方法的步骤。

该装置可以是独立的计算机处理装置。

在一个实施例中，所述装置在路边单元(roadside unit，RSU)、或边缘服务器、或网络的节点设备中实施，所述网络包括例如车载自组织网络(Vehicular Ad Hoc Network，VANET)。

在第三主要方面，本发明提供了一种包含机器可读指令的非暂时性计算机可读介质，当所述机器可读指令被处理器执行时，使所述处理器实施本发明第一方面的方法的步骤。

本发明内容不一定公开了定义本发明所必需的所有特征；本发明可以存在于所公开特征的子组合中。

附图说明

本发明的上述和进一步的特征将从以下优选实施例的描述中显而易见，所述优选实施例仅以举例的方式结合附图来提供，其中：

图1是道路管理系统的一个实施例的示意图；

图2是本发明应用方法的一个实施例的示意性流程图；

图3是本发明应用方法的另一个实施例的示意性流程图；

图4是本发明训练方法的一个实施例的示意性流程图；

图5A是路边场景的分割图的鸟瞰图(bird’s eye view，BEV)平面图；

图5B是图5A的分割图的BEV平面图，显示了不同时间的传感器布置；

图6A是路边场景的二进制掩码平面图；

图6B是图5A的二进制掩码平面图，显示了不同时间的传感器布置；

图7A是第一示例的模型学习环境的路边场景的二进制掩码；

图7B是另一个示例的模型学习环境的图6A路边场景的二进制掩码；

图8A是路边场景的目标区域的平面图。

图8B是LiDAR传感器3D点云扫描数据投影到2D表征图上，其中包含用于确定代用指标的选定圆形区域；

图8C是LiDAR传感器3D点云扫描数据投影到2D表征图上，其中包含用于确定代用指标的网格区域；

图9A是用于分配交通指数的路边场景的点云扫描数据的平面图；

图9B是图9A的点云扫描数据的平面图，显示了具有较高的交通指数值的区域；

图10A是路边场景的平面图，显示了传感器之间的中心点；

图10B是图10A的路边场景的侧视图，显示了传感器之间的距离测量；

图10C显示了传感器的俯仰角关系。

具体实施方式

以下描述只是以举例的方式对优选实施例进行描述，并不限制将本发明付诸实施的必要特征的组合。

本说明书中提到的“一个实施例”或“一实施例”是指与该实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。说明书中各处出现的短语“在一个实施例中”不一定都是指同一实施例，也不是与其他实施例相互排斥的单独或替代实施例。此外，所描述的各种特征可能由一些实施例展示，而不是由其他实施例展示。同样，描述了各种要求，这些要求可能是一些实施例的要求，而不是其他实施例的要求。

应当理解，图中所示的元件可以以各种形式的硬件、软件或其组合来实施。这些元件可以在一个或多个适当编程的通用设备上以硬件和软件的组合来实施，这些设备可以包括处理器、存储器和输入/输出接口。

本说明书说明了本发明的原理。因此应当理解，本领域技术人员将能够设计出各种安排，尽管在本文中没有明确描述或示出，但是体现了本发明的原理并包括在其精神和范围内。

此外，本文叙述了本发明的原理、方面和实施例及其具体示例，旨在涵盖其结构和功能等效物。此外，这种等效物还包括当前已知的等效物以及将来开发的等效物，即任何开发的、执行相同功能的元件，无论其结构如何。

因此，例如，本领域技术人员将理解，这里呈现的框图代表了体现本发明原理的系统和设备的概念图。

图中所示各种元件的功能可以通过使用专用硬件以及能够与适当的软件一起执行软件的硬件来提供。当由处理器提供时，这些功能可以由单个专用处理器、单个共享处理器或多个单独的处理器提供，其中一些可以共享。此外，术语“处理器”或“控制器”的明确使用不应被解释为仅指能够执行软件的硬件，可以隐含地包括但不限于数字信号处理器(“DSP”)硬件、用于存储软件的只读存储器(“ROM”)、随机存取存储器(“RAM”)和非易失性存储器。

在权利要求中，任何表示为执行特定功能的装置的元件旨在涵盖执行该功能的任何方式，包括，例如，a)执行该功能的电路元件的组合或b)任何形式的软件，因此，包括固件、微代码等，与执行该软件的适当电路相结合以执行功能。由这些权利要求定义的本发明在于，由各种被提及的装置提供的功能，以权利要求所要求的方式被组合和汇集在一起。因此认为任何提供这些功能的装置均等同于本文所示的装置。

在以下描述中，术语“路边基础设施环境”和“路边交通环境”可以互换使用。

本发明提出了一种基于强化学习(RL)和目标环境模拟数据的路边LiDAR传感器自动布置的改进或优化方法。点云数据的良好质量对于训练稳健的深度学习模型至关重要，例如用于识别车辆和道路使用者的物体检测模型，以及用于区域划分和场景理解的分割模型。本发明提供了一种独特的方法，通过结合RL和模拟辅助LiDAR传感器扫描，在真实世界场景中实现高适应性、高精度和高效率，以优化路边传感器的布置。本发明通过使用基于背景的优化，消除了穷举搜索的需要，并且在优选实施例中，通过动态适应不同场景来生成最佳LiDAR布置配置参数，避免或减轻了现有方法遇到的问题。

在一个实施例中，本发明包括：根据用户输入的目标环境的3D地图，接收用户定义的要布置在目标环境中的多个传感器的数量。其他用户输入包括与在目标环境中布置传感器有关的约束条件。其中一个约束条件是预算数据，即布置过程的最大成本，最好考虑到传感器成本、人工和材料成本以及其他相关建筑/安装成本等因素。可以输入一组初始布置配置参数，例如位置变量。在布置LiDAR传感器的情况下，布置配置参数可以包括位置数据，如传感器的位置坐标(x、y、z坐标)、高度以及俯仰角和/或偏航角。进一步的输入可以是目标环境的定义条件或定义条件集合，例如交通流量水平。进一步的定义条件可以是目标环境中不能或不应布置传感器的定义区域。

在此方法中，模拟平台用于根据输入来模拟多个传感器的运行，以生成包含多个传感器模拟输出数据的数据集。然后将生成的数据集输入到RL算法或模型，以确定多个传感器的优化的或至少改进的布置配置参数集。

就LiDAR传感器而言，模拟生成的数据集优选地包括多个LiDAR传感器中每个传感器的FOV的模拟点云数据。为了评估RL算法的奖励指标(reward merit)，最好将多个LiDAR传感器中每个传感器的模拟点云数据投影到二维坐标系(如二维(2D)网格)中，以得出RL算法的奖励指标的值。RL算法的奖励指标的值包括优化质量值，值越高表示优化质量越高。RL算法的奖励指标的值优选地是基于多个LiDAR传感器对目标环境或目标环境的定义区域的覆盖程度进行测量或计算的。

本发明的前述实施例可以被认为包括对真实世界目标环境的应用方法。

在另一实施例中，本发明提供了一种针对一个或多个定义场景确定目标环境中传感器的布置的方法，该方法可以被认为是针对定义的目标环境场景的训练方法。在目标环境的定义场景包括道路交通环境的情况下，此类定义场景的示例包括“T”型路口、十字路口、道路交叉口或高速公路。本实施例的方法包括接收输入，例如所考虑的已定义场景的三维地图、要布置在目标环境中的多个传感器的数量、传感器布置配置参数以及与在目标环境中布置传感器有关的一个或多个约束条件。另一个输入可以是目标环境的一个定义条件或一组条件，如交通流量水平。

在此方法中，模拟平台用于根据输入来模拟多个传感器的运行，以生成一个数据集，其中包括多个传感器在所考虑的定义场景中的模拟输出数据。然后将生成的数据集输入到RL算法或模型，以确定所考虑的定义场景中多个传感器的优化的或至少改进的布置配置参数集。

通过本实施例的训练方法，可以为每个定义场景中的多个传感器确定优化的或改进的布置配置参数。当根据用户输入的三维地图确定用户定义的目标环境中多个传感器的优化的或改进的布置配置参数时，可将针对一个或多个已定义场景的优化的或改进的布置配置参数导入到针对真实世界目标环境的应用方法中，以减少应用方法的计算工作量。

参照附图，图1提供了可实施本发明方法的各方面的目标环境的一个示例，但是应当理解，这仅仅是以示例的方式提供的，并不限制可实施本发明方法的目标环境。

参照图1，提供了一种基于V2X的道路管理系统100的示意图。系统100优选是基于通信网络的系统100，布置为多个定义的局部地理区域110A、B，每个定义的局部地理区域110A、B由相应的边缘网关模块(edge gateway module，EGW)120管理和/或与之进行数据通信。每个EGW 120与相应的网络合作引擎(network cooperation engine，NCE)160通信，每个NCE 160与中央管理平台170通信。

每个EGW 120优选地管理多个路边单元(RSU)130并与之通信。每个RSU 130优选地布置在道路环境(如交叉路口、十字路口、人行横道、交通信号灯等)的任何一个或多个旁边、邻近或附近，以便每个RSU都能看到位于其附近或经过其附近的任何车辆。每个EGW 120至少包括一个用于存储机器可读指令的存储器122和一个用于执行所述指令的处理器124，以使EGW 120执行适当的方法步骤。以类似的方式，每个RSU 130至少包括一个用于存储机器可读指令的存储器132和一个用于执行所述指令的处理器134，以使RSU 130执行适当的方法步骤。

被配置为在网络系统100中运行的车辆140均配备有车载数据处理单元，以下称为车载网关模块(in-car gateway module，ICGW)150。ICGW 150可以是一个独立单元，其被配置为可安装到车辆140中，也可以包括车辆140的现有数据处理单元，该单元具有存储机器可读指令的存储器152和用于执行所述指令的处理器154，以使ICGW 150执行适当的方法步骤。ICGW 150可以包括V2X车载单元(V2X-OBU)。

其中，每个ICGW 150优选地被配置为提供V2X通信系统访问并与定义的局部地理区域110A、B中的其他ICGW 150和道路基础设施进行信息交换，以收集来自车载模块(例如速度计和卫星定位系统)的数据，直接或间接地与其他本地ICGW 150、RSU 130及其各自的EGW 120交换车辆收集的数据，使用车辆收集的数据和从其他本地ICGW 150、RSU 130和EGW120接收的数据来确定威胁并生成警报等，并接收和发出V2X警报(警告)和通知，以及接收交通状态信息和建议。

每个EGW 120优选地被配置为：至少协调其各自定义的局部地理区域110A、B内的多个RSU 130；实时监控交通，包括监控交通拥塞和交通事故(交通事件)；智能地实施本地交通管理；从本地基础设施(如交通灯、传感器、摄像机、本地ICGW 150和RSU 130及其各自的NCE 160)收集数据，从其各自的NCE 160收集策略；以及使用收集的数据来确定威胁并生成警报等。其中一些传感器包括LiDAR传感器180，优选地与相应的RSU 130一起安装在合适的路边基础设施(如灯柱190等)上。每个EGW 120可以被配置成根据在所述EGW 120处接收到的指示与特定的ICGW 150的车辆相关或关联的一个或多个参数的数据，从接收和处理的数据中确定要发送到特定的ICGW 150的特定数据。例如，EGW 120可利用街道位置等参数来确定其局部地理区域110A、B内的哪些车辆需要接收特定警报、警告、动作或威胁指示。

多个EGW 120优选地由相应的NCE 160管理和/或与之进行数据通信，反过来，多个NCE 160优选地由中央管理平台模块170管理和/或与之进行数据通信。系统100可以只包括一个中央管理平台模块170，以覆盖一个大的地理区域，例如一个城市、一个县或一个州。每个NCE 160至少包括一个用于存储机器可读指令的存储器162和一个用于执行所述指令以使NCE 160执行适当方法步骤的处理器164。类似地，中央管理平台模块170至少包括一个用于存储机器可读指令的存储器172和一个用于执行所述指令以使中央管理平台模块170执行适当方法步骤的处理器174。

每个NCE 160优选地被配置为：至少智能地实施区域交通管理；定义并向EGW 120提供新的和更新的交通策略；以及协调多个EGW 120。

中央管理平台模块170优选地被配置为：至少智能地实施全网交通管理、为NCE160确定交通策略、以及管理和分析全网交通数据。中央管理平台模块170可以包括基于云的系统，并可以通过IP网络(如互联网或虚拟专用网络(VPN))连接到NCE 160。

本发明的各个方面可以在RSU 130、EGW 120、NCE 160和中央管理平台模块170中的任何一个或全部中实施。

在下面对本发明具体实施例的描述中，布置的传感器包括激光雷达传感器，目标环境包括道路交通环境。然而，应当理解，这并不将本发明限制在具体实施例中。

图2是本发明一个方面的应用方法200的示意性流程图。应用方法200包括第一用户输入步骤205，即将要布置在目标环境110A、110B(包括真实世界道路交通环境)中的LiDAR传感器180的规格上传。例如，LiDAR规格可包括定义LiDAR检测范围的数据、范围精度和准确度、FOV尺寸、点云扫描模式、抗串扰能力和检测率。假设要布置的所有LiDAR传感器180都具有相同的规格。除了LiDAR规格外，第一用户输入步骤205优选地还包括：将与目标环境110A、110B中的LiDAR传感器180的布置有关的一个或多个约束条件上传。其中一个约束条件可以包括预算数据，即布置过程的最大成本，最好考虑到传感器成本、人工和材料成本以及其他相关的建筑/安装成本等因素。另一个约束条件可以是确定目标环境110A、110B中可以布置LiDAR传感器180的区域和/或确定对目标环境110A、110B中不得布置LiDAR传感器180的区域。第一用户输入步骤205还可以包括：输入定义目标环境110A、110B中的一个或多个条件的数据，例如交通流量水平。

应用方法200包括第二用户输入步骤210：上传LiDAR配置数据。LiDAR配置数据最好包括要布置在目标环境110A、110B中的多个LiDAR传感器180的数量指示。它最好还包括一组LiDAR布置配置参数。布置配置参数可以包括：定义LiDAR传感器180的高度、俯仰角和/或偏航角的数据。它还可以包括位置坐标(例如，x、y、z坐标)，作为LiDAR传感器180的初始布置位置。

应用方法200包括第三用户输入步骤215：上传目标环境110A、110B的3D模型。在一个实施例中，3D模型可以包括目标环境110A、110B的3D地图。在另一实施例中，除了目标环境110A、110B的3D地图之外，3D模型还可以包括对于确定场景定义LiDAR传感器180最佳位置的数据。定义LiDAR传感器180最佳位置的数据可以通过本发明的训练方法来获得，并且可以在目标环境110A、110B中发现的一种或多种场景中定义LiDAR传感器180的最佳位置。例如，此类场景可以包括“T”字路口、十字路口、道路交叉口或高速公路。

应用方法200包括第一处理步骤220，通过该第一处理步骤220，在第一、第二和第三用户输入步骤205、210、215中输入的接收数据由模拟平台处理，以模拟多个LiDAR传感器180的运行，从而生成包含多个LiDAR传感器180的模拟输出数据的数据集。模拟平台可以通过由RSU 130的处理器134和/或在任何合适的网络设备(如EGW 120、NCE 160和中央管理平台170)中执行存储在RSU 130的存储器132中的机器代码来实施。一种优选的模拟平台包括已知的CARLA^TM模拟器。CARLA是一个用于自动驾驶汽车研究的开源模拟器。它包含一个可扩展的客户端-服务器架构，其中服务器负责与模拟本身相关的所有工作：传感器渲染、物理计算、世界状态及其参与者的更新等等。客户端由多个客户端模块组成，控制场景中角色的逻辑并设置世界状态。这是通过利用CARLA应用程序接口(Python或C++语言)来实现的，它是服务器和客户端之间的中介层。客户端模块包括一个交通管理器，其包含一个系统，该系统除了用于学习的车辆之外，还能控制其他车辆。它在CARLA中是一种特殊的中控媒体，用于重建类似城市的环境，该环境具有类似现实环境的互动行为、传感器以及记录器，当中，传感器在CARLA中是一种特定类型的参与者，而记录器则为每个参与者逐步重演模拟，并允许参与者访问时间线上的任何时刻。其他客户端模块可能包括一个场景运行器，提供一系列描述不同情况的路线以供进行迭代，以及提供开放式数据库资产，当中，开放式数据库资产包含不同类型的模拟器参与者，为模拟不同城市环境地图和蓝图库的使用提供便利。然而，这些元素可以定制，也可以生成新的场景。其他已知的基于网络的模拟器包括Autoware^TM(Gazebo)模拟器、Airsim^TM(UE4&Unity)模拟器或TORCS^TM(Open GL)模拟器。

应用方法200包括第二处理步骤225，第二处理步骤225包括RL模型推理步骤，通过该步骤，RL算法或模型根据包括多个LiDAR传感器180的模拟输出数据的数据集，确定多个LiDAR传感器180的优化的或至少改进的布置配置参数集。RL模型推理步骤225可以被认为包括一个“查询”过程，用户可通过该“查询”过程从模型预测中获得建议答案。在部署期间，RL算法或模型参数优选地保持静态或冻结。RL算法或模型可通过RSU 130的处理器134和/或在任何合适的网络设备(如EGW 120、NCE 160和中央管理平台170)执行存储在RSU 130的存储器132中的机器代码中来实施。RL模型是机器学习和最优控制的一个跨学科领域，涉及智能代理如何在动态环境中采取动作，以便最大化累积奖励。一个典型的RL场景框架包括一个代理在目标环境中采取动作，这些动作被解释为奖励和状态表征，然后反馈给代理。RL可以建模为马尔可夫决策过程。RL的一个目的是让代理学习最佳的或接近最佳的策略，以最大化“奖励函数”或用户提供的其他强化信号，这些强化信号是从即时奖励中累积起来的。在应用方法200中，RL算法或模型的优选奖励参数包括多个LiDAR传感器180中每个传感器的模拟覆盖区域。多个LiDAR传感器180中每个传感器的模拟覆盖区域优选地包括使用多个LiDAR传感器180中每个传感器的模拟3D点云数据和近似模拟3D点云数据。可以基于点距离、点云密度和点分布均匀性来近似模拟3D点云数据。另外，近似模拟3D点云数据可以包括：将3D点云数据表示为2D网格上的数据，并对2D网格中的每个数据点应用L1范数(曼哈顿距离)。L1范数也称为曼哈顿距离或出租车范数(当λ＝1时)。L1范数是空间中向量的幅值之和。它是测量向量之间距离的最自然及直观的方法，即向量幅度的绝对差之和。这可以包括将2D网格划分为矩形框，将“x”和“y”坐标分配给矩形框中的每个数据点，将曼哈顿距离应用到矩形框中的每个数据点。

在一个实施例中，包括RL模型推理过程的第二处理步骤225能够根据环境背景和LiDAR传感器规格，使用从下文所述的训练方法中生成的数据，自动推断出LiDAR传感器布置配置参数。这使得第二处理步骤225的计算效率更高，因为它可以使用各种路边场景的模拟数据来推断最佳的或改进的LiDAR传感器布置配置参数，而无需重复奖励参数评估步骤。

应用方法200的第二处理步骤225在第一数据步骤230中输出LiDAR传感器布置配置数据。与用户输入的初始布置配置参数相比，这可能包括在目标环境110A、110B中的LiDAR传感器180的最佳的或至少改进的布置配置参数集。

在第一决策步骤235，评估第一数据步骤230中输出的LiDAR传感器布置配置数据是否包括目标环境110A、110B中LiDAR传感器180的最佳的或至少充分改进的布置配置参数集。如果判定为“是”，则在第三处理步骤240存储最佳的或至少充分改进的布置配置参数集。如果在第二决策步骤245判断不需要对应用方法200进行额外或进一步的迭代，则在第二数据步骤250输出最佳的或至少充分改进的布置配置参数集，并结束应用方法200。但是，如果在第一决策步骤235处判定第一数据步骤230中输出的LiDAR传感器布置配置数据不包括最佳的或至少充分改进的布置配置参数集，并且随后在第二决策步骤245判定需要进一步迭代应用方法200，则应用方法200返回到第二和第三用户输入步骤210、215，在此可对输入的数据进行调整。在第二和/或第三用户输入步骤210、215对输入数据的调整可以包括：更改LiDAR传感器180的规格，例如输入不同型号LiDAR传感器180的规格，也可以包括调整一个或多个已定义的条件，例如交通流量水平，或调整一个或多个布置配置参数。

图3是本发明另一方面的应用方法200’的示意性流程图。图3的应用方法200’与图2的应用方法的不同之处在于，第一用户输入步骤205’包括输入不同型号的LiDAR传感器180的多个规格或一系列规格，和/或多个或一系列不同约束，例如不同的预算，和/或多个或一系列不同的定义条件。图3的应用方法200’与图2的应用方法的不同之处还在于，第二决策步骤245’确定该方法是否已应用于所有输入的不同型号LiDAR传感器180的规格列表，和/或不同的约束条件，和/或不同的定义条件。在所有其他方面，图3的应用方法200’遵循与图2的应用方法200相同的步骤，因此相同的附图标记表示相同的步骤。图3的应用方法200’实际上允许在应用方法200’开始之前在第一用户输入步骤205’中输入所有“调整”，并允许应用方法200’迭代所有可能性，以确定多个LiDAR传感器180的优化的或至少改进的布置配置参数集。

图4是本发明一个方面的训练方法300的示意性流程图。方法300可以通过RSU 130的处理器134和/或任何合适的网络设备(如EGW 120、NCE 160和中央管理平台170)执行存储在RSU 130的存储器132中的机器代码来实施。另外，方法300也可以在独立的设备或系统中实施。

方法300包括在第一数据步骤305中接收数据集。数据集可以包括由模拟器提供的先前生成的数据集。模拟器最好与图2和图3中的应用方法200、200’所用的模拟平台相同。在第二数据步骤310中，接收目标环境110A、110B的3D模型。3D模型可以包括目标环境110A、110B的3D地图。在第三数据步骤315中，接收LiDAR配置数据。LiDAR配置数据优选地包括要布置在目标环境110A、110B中的多个LiDAR传感器180的数量指示。优选地，它还包括LiDAR布置配置参数集。布置配置参数集可包括定义LiDAR传感器180的高度、俯仰角和/或偏航角的数据。

在第一处理步骤320，模拟器根据目标环境110A、110B的3D模型和LiDAR配置数据生成通用训练数据集。模拟器的数据输出包括在第四数据步骤325中输出的模拟道路地图数据和在第五数据步骤330中优选地以点云LiDAR传感器扫描数据形式输出的模拟LiDAR传感器扫描数据。从3D模型导出的道路地图数据可以输入到第二处理步骤335，该步骤包括RL模型动作选择过程，通过该过程可选择道路场景进行RL模型优化。从3D模型导出的道路地图数据也可以直接输入到包含RL模型优化的第四处理步骤345。来自第五数据步骤330的点云LiDAR传感器扫描数据被传递到第三处理步骤340，以确定用于RL模型优化的奖励评估参数。确定用于RL模型优化的奖励估价参数的方法优选包括图2和图3的应用方法200、200’中使用的前述RL模型奖励值确定方法。在第四处理步骤345中，为了优化，使用关于奖励参数值反馈的RL模型更新来调整和/或训练RL模型，但是迭代地进行，直到在第一决策步骤350中确定已获得优化的布置配置参数集的收敛，或已达到预定的最大步骤数或迭代数。

以下是本发明的其他方面和更具体的实施示例。

如图2-4所示，本发明的各个方面针对的是目标环境110A、110B中路边传感器(如LiDAR传感器180)的自动布置优化方法。根据定义3D目标环境的数据作为处理器实施的模拟平台(如基于游戏引擎的模拟器)的输入，例如，可以模拟来自RSU 130的LiDAR传感器扫描，以创建用于强化学习(RL)的训练环境。关于传感器配置和预算限制，模型将为目标环境110A、110B中多LiDAR传感器布置和设置输出最佳的或至少改进的解决方案。最佳解决方案优选地包括每个LiDAR的位置(x、y、z坐标)和角度(俯仰、偏航)。坐标系(x，y，z)最好是全局坐标系，但也可以包括用于目标环境的任何合适的坐标系。根据预算限制等因素，本发明方法的各个方面可用于在迭代给定的LiDAR传感器候选列表之后返回一组最符合经济效益的解决方案，同时比较它们的集体扫描效率。

更具体地说，在基于游戏引擎的模拟器的帮助下，可从3D环境生成用于自动路边传感器布置的通用训练数据集，包括场景背景信息，例如道路地图数据和LiDAR传感器扫描数据。基于游戏引擎的模拟器是使用游戏引擎构建的。它利用引擎的功能来创建用于各种目的的虚拟环境，例如训练和测试智能代理、进行研究或开发虚拟现实体验。游戏引擎提供渲染逼真图形、处理基于物理的交互以及管理复杂场景等功能。

RL模型在生成的数据集上进行训练。在每一步中，根据背景信息，对调整LiDAR传感器配置的操作进行采样和相应地进行模拟，以获得用于集体覆盖率估计的LiDAR扫描数据，该数据用作RL模型优化过程中指示调整质量的代理分数或奖励参数值。

本发明方法的各个方面消除了对每种路边场景的最佳传感器布置配置设置或参数进行穷举搜索的需要。利用收敛的RL模型，可以根据环境背景和LiDAR传感器规格自动推断出最佳场景适应性配置。

出于模拟目的，输入的“LiDAR配置”优选地包含地理信息，在模拟器中记录绝对位置坐标，但也可以使用其他坐标系。对于每个LiDAR传感器，配置信息包括(x坐标、y坐标、z坐标、俯仰角和偏航角)。用户还应指明初始LiDAR传感器位置以进行初始化，以便通知RL模型允许的最大传感器数量。然后，RL模型将从该初始状态开始优化，以更有效地收敛到最佳LiDAR传感器位置的目标，同时考虑输入的数据，例如LiDAR传感器规格、布置约束条件以及目标环境的任何定义条件。

在已定义的条件(如交通流量和LiDAR传感器设置)下开始模拟后，LiDAR传感器180开始收集并保存以下任何一个或多个形式的数据：RGB图像、点云扫描、鸟瞰道路图、物体检测边界框等。在一个实施例中，LiDAR传感器点云扫描数据可用作点云扫描数据质量的替代指标。

在模型优化和输出最佳LiDAR传感器布置配置参数后，模拟器还可用于自动生成具有准确训练标签的传感器点云扫描和边界框数据集，用于传统3D物体检测模型训练。

可以将具有相应成本信息的LiDAR传感器模型类型列表输入模拟器中，通过迭代每个LiDAR传感器模型类型来获得具有改进的或最佳精度的和最低成本的最佳LiDAR传感器布置配置参数。在这种情况下，假设每次迭代仅考虑一种类型的LiDAR传感器模型，即输入的允许的LiDAR传感器的数量都包含相同的传感器模型类型。

模拟软件(如CARLA^TM)提供了丰富的数据模式，如语义分割、点云扫描、深度图和边界框，这些模式都配备自动生成的训练标签，以用于车辆的物体检测任务。利用这一功能，可生成通用数据集，用于预训练RL模型，该数据集采样于各种不同的路边场景，如交叉路口、T形路口、高速公路、十字路口等。通用训练数据集包含一系列“状态”、“动作”、“奖励”序列，其中“状态”包含LiDAR传感器配置，“动作”包含LiDAR传感器配置调整，“奖励”包括从点云扫描数据导出的LiDAR传感器点云度量。

本发明的各个方面涉及一个适合LiDAR传感器配置的RL学习框架，但是应当理解，本发明的各个方面并不局限于LiDAR传感器配置。

RL包括一种深度学习机制，允许代理在预定义或目标环境中进行探索，并通过试错过程总结出最佳策略或解决方案。在每次迭代，根据对环境状态的观察，代理执行操作并获得奖励，从而归纳出最佳策略或解决方案。环境可被认为是一个预先定义的世界，具有约束条件，代理驻留在其中并与之互动探索，以优化奖励值。在模拟世界中，模型会调整LiDAR传感器的布置配置参数，以获得一组最佳布置配置参数。状态是环境中的一种情况，它受代理在过程中每个时间戳的动作的影响。动作是指代理在环境中产生互动的行为。奖励或奖励参数值是有助于强化代理行为的互动的量化分数。

本发明的各个方面可包括一种效率更高的新型点云扫描覆盖指标。这涉及到改变从LiDAR传感器点云覆盖数据得出的指标分数以及部署的LiDAR传感器的数量，以优化高覆盖率和最低资源使用率。

这包含在下面的算法1中：

/>

其中，“回合(episode)”包括一系列状态、动作、奖励和后续状态；

“策略(policy)π(s)”包括一个神经网络参数化函数，它根据观察当前状态确定最佳动作；

“价值函数(value function)V(s)”包括一个神经网络参数化函数，它近似于代理选择进入的状态的量化分数；

“近端策略优化(proximal Policy Optimization)(‘PPO’)”包括一种正则化技术，通过将调整限制在定义的阈值ε内来稳定策略更新。

本发明的各个方面可能涉及模型学习建立过程。

参考图5A、B和图6A、B，考虑到传统的道路法规，智能交通传感器(如LiDAR传感器180)的布置必须遵守交通条件下的既定规则，例如高度限制和区域范围。约束条件将被用于“动作屏蔽”的步骤，以降低复杂性和避免无效优化，例如，将传感器布置在道路上或未指定为路边基础设施的区域(例如花园或公园绿地等)。

RL模型的代理在接收到相关或适当的约束数据输入后，能够适应各种条件。在该过程的每个时间戳，代理都会获得一个道路地图，以提取道路类型的表征，如图5A、B所示。图5A、B的例子显示了一个十字路口。道路类型的其他例子包括交叉路口、T字路口或高速公路等。以鸟瞰(BEV)角度绘制的道路地图可以是语义分割的形式，其中包含物体检测类别标签，以提供全面的信息，如图5A、B所示，也可以是二进制掩码的形式来表示道路的存在，作为最低限度要求，如图6A、B所示。

在图5A、B中，可以布置LiDAR传感器180的区域用数字400表示。对于道路地图的每次迭代更新，LiDAR传感器位置最好在道路地图上标出，以通知代理模型任何执行的调整。因此，代理模型可以由此意识到与区域范围限制有关的调整。对比图5A与图5B，在时间步t的LiDAR传感器位置用数字402表示，而在时间步t+1的LiDAR传感器位置由数字404表示。LiDAR传感器配置可表示为独热向量(one-hot vector)，例如，[L1，L2，L3，L4]。

以类似的方式并使用相同的附图标记，在图6A、B中可布置LiDAR传感器180的区域用数字400表示，对比图6A与图6B，时间步t的LiDAR传感器位置由数字402表示，而时间步t+1的LiDAR传感器位置由数字404表示。

现在参考图7A、B，可以举例说明一些使用案例。

在部署过程中，在第一个示例中，特定传感器发生意外故障，用户可以更新LiDAR传感器布置的允许区域，并输入调整后的场景，以获得新的最佳的或改进的LiDAR传感器布置配置参数的解决方案。对比图7A与图7B，可以看出图7A的路边场景已被更新或调整，在四个允许布置LiDAR传感器的区域中，删除了其中一个。在这种情况下，右上角的第二个LiDAR传感器无法工作。这可能是由于损坏或功能故障造成的。图7A包括更新后的道路地图，其中右上角先前允许的区域被屏蔽掉，现在的LiDAR矢量配置变成了[L1，None，L3，L4]，例如，其将在图3的方法中使用，例如，确定一组新的LiDAR传感器布置配置参数，用于调整后的传感器设置。

在图7B所示的第二示例情况中，需要动态调整传感器子集，同时其他传感器保持固定，例如，图3的方法可以通过对某些传感器定义动作限制来有效配置，例如，当希望固定第1和第3个传感器，而仅优化第2和第4个传感器时，可以使用[L1',L2,L3',L4]屏蔽LiDAR传感器配置，从而省略对第1和第3个LiDAR传感器的每次调整。

在第三示例中，传感器配备有先进的旋转功能(即灵活的俯仰角和偏航角)，由于传感器具有灵活的运动特性，因此可以动态且持续地应用图3的方法。这与传统传感器不同，传统传感器在安装后是固定的，需要手动重新调整。当遇到台风等突发事件或者卡车违停、道路施工等障碍物造成视线受阻时，在检测到意外故障等异常(可以通过比较当前帧与之前帧的数据质量/噪声差异而检测到)情况后，可按照第一个示例的方法获得新的备用LiDAR传感器布置方案。

本发明的各个方面可以包括改进的确定奖励参数值的方法。

为了加速奖励参数值的确定过程，建议使用代用指标直接近似每次LiDAR传感器移动时的LiDAR传感器点云数据质量，来指示扫描覆盖范围，进而作为理论代用指标，反映在收集的点云数据上训练的物体检测模型的预期评估精度。

如对于某种特定路边场景接收到的LiDAR传感器点云扫描数据包括零交通流量的目标道路交叉口区域，如图8A所示，代用指标分数可以根据制定计数/距离与假设所有点均匀分布的假定平均值之比计算得出。零交通流量：包括没有车辆而只有交通道路情况的静止场景。

考虑到由于传感器前方有大型车辆等原因而导致传感器视觉受阻时，会产生很多不确定性因素。如果这种遮挡只是暂时的，那么传感器监控功能会恢复，这不会造成太大的影响。但另一方面，如果发生台风等意外自然事件导致的传感器失灵或故障，则需要进行额外的检查，可利用本发明方法的各个方面，根据上述第三示例情况生成新的LiDAR传感器布置方案。

确定代用指标值的一种方法包括：对3D点云扫描数据的2D投影的选定圆盘区域应用采样，然后将2D投影的选定圆盘区域中的LiDAR点的数量进行计数，如图8B所示。

这包含在下面的算法2中：

另一种确定代用指标值的方法包括：测量选定区域中每个点与其最近邻居之间的距离，但这需要进行一些权衡。采样过程包含超参数，即需要手动调整的变量，包括圆盘的数量及其半径。较少的采样会导致群体稀疏，缺乏代表性，而较大的采样值会覆盖更广的区域，但代价是增加计算量。选择过程包括“欧几里德距离”中的距离计算，计算采样锚点到每个其他点的平方距离，以进行筛选。

鉴于上述方法的局限性，优选的方法是基于2D投影中的矩形网格区域，如图8C所示。优选方法利用二维矩形特性来应用二值化，通过将区域均匀划分为网格来考虑整个区域，而不是根据所选区域的预定义半径进行采样。优选方法不是使用圆盘，而是使用矩形框，这样就可以应用L1范数(曼哈顿距离)，从而提高计算效率。优选方法不是比较各点的欧几里德距离，而是仅比较和屏蔽相关x和y坐标的点。

更具体地说，将目标区域(图8C)分割成网格，并为每个点分配x和y坐标。这样，通过删除先前需要的参数，复杂度降低至O(|P|)(算法3)。整个区域都被考虑在内，而不是只考虑几个随机采样的区域。

这包含在下面的算法3中：

使用点列表M进行指标计算的详细信息如下，其中InfraDensity计算密度，InfraNUC计算均匀性：

/>

其中N＝点数；

S＝区域面积；

I＝网格(矩形框)索引；

ni＝第i个网格；

p＝网格与整个区域的面积比；

D＝网格数。

本发明的各个方面还可以包括交通指数关注。

交通指数(Traffic Index，TI)根据交通状况的重要性对路段指定关注度，例如车流密集区域、行人区域、事故多发区域、常见盲区、速度限制区域等。这最好包括用户指定的输入，否则TI掩码将不会启用，所有区域将被给予相同的考虑权重。更具体地，TI基于如图9A所示的点云扫描(P)与交通指数∈{0,1}的权重相乘，图9B直观地显示了权重，其中光亮区域或区域500已分配给它们一个TI权重，表明对这些区域的关注度增加。然后将其传递到覆盖指标(代用指标)的评估中。

本发明的各个方面还包括：减少最初指定的传感器的数量。除了实现良好的区域覆盖之外，出于预算原因限制传感器的数量也同样有用，因此可以引入额外的负奖励，来鼓励尽量减少传感器的部署。对于每个路边场景或情景，模型都会被告知初始化传感器的最大数量，例如典型的十字路口的传感器数量为4个。然后，代理的动作还包括：根据布尔标志(L)的独热向量改变传感器状态，例如[1,1,1,0]表示传感器1、2和3处于开启状态，第4个传感器处于关闭状态，这意味着模型仅利用三个传感器来寻找解决方案。该表述与上面讨论的第三个示例情况有关。

本发明的各个方面还可包括关于多个约束条件的多目标优化，例如包括高总体扫描覆盖率、特定目标区域的高扫描覆盖率、以及用于预算控制的低传感器数量。扫描覆盖率指标包括Metric(P,TI)＝Density(P’)+InfraNUC(P’)

其中P’＝P·TI是权重乘法的点积。总体而言，目标函数＝w·M(P,TI)+(1-w)·|L|，其中w＝0.7是用户定义的加权常数，表示对每个目标的重视程度。不同场景下w的取值可能不同。

再看奖励参数值(代用指标)，每次迭代中RL代理的奖励被定义为当前状态与初始状态之间的差。为了更快地收敛，希望代理从合理的初始化条件开始。据观察，在多传感器部署的情况下，每个传感器都可能补充其他传感器的盲区。如果能确保覆盖范围之间的无缝邻接时，就能形成更广泛的视野，从而建立良好的初始化参数。

在一个实施例中，建议在初始化时给定一组LiDAR传感器的高度的情况下，按以下方法计算最佳俯仰角：

1)通过对传感器的x坐标和y坐标进行平均，计算传感器之间的中心点的位置(图10A)；

2)计算每个传感器与中心点之间的距离(图10B)；

3)根据下俯仰角P_lower计算并设置LiDAR传感器(图10C)，其中P_lower＝tan^-1(高度/距离)。

请注意，俯仰角中心可以从下俯仰角和LiDAR传感器固有FOV参数而获得，即P_center＝P_lower+(FOV/2)。

这样的初始化为框架提供了半理想的俯仰角和偏航角，减少了训练方法300开始时的学习步骤。在整个优化过程中，(x，y，z)坐标的优化配置将自适应地调整，以获得更好的收敛效果。(俯仰角、偏航角)也将相应地进行进一步更新。

本发明提供了一种使用RL以端到端方式获得通用解决方案的新颖方法。生成的数据集包含标准数据序列(状态、动作、奖励)，例如(LiDAR传感器配置、配置调整、点云质量)，用于RL模型训练，并包含不同场景，使RL模型能够泛化。训练后，RL模型将能够在未见过的使用案例或场景下预测新的最佳布置策略。对于LiDAR传感器配置，不同情况下的道路条件可能会有很大差异，其中可能有道路交叉口、T形路段或双向高速公路，以及不同的道路连接。这些都对RL模型带来了复杂的挑战。新引入的场景地图为RL模型提供了一个动态学习模块，以适应不同的场景环境。该方法旨在以部署较少数量的传感器，来实现高LiDAR传感器扫描覆盖范围的目标。在RL模型训练过程中，通过将LiDAR传感器布置在发射脉冲激光信号的模拟世界或平台中，生成点云地图数据。但是要注意，点云地图最好是在假设零交通流量的条件下记录的，即，点云图数据仅针对道路结构生成。

本发明方法的一个优点是无需对每种场景的最佳传感器设置进行穷举搜索。通过收敛的RL模型，就可以根据环境背景和传感器规格自动推断出最佳场景自适应配置。

上述模块、单元和装置可以至少部分地用软件实现。本领域技术人员将理解，上述内容可以至少部分地使用通用计算机设备或使用定制设备来实现。

在此，本文所述的方法和装置的各个方面可以在包括通信系统的任何装置上执行。该技术的程序方面可以被认为是“产品”或“制品”，通常是以可执行代码和/或相关数据的形式，承载或体现在一种机器可读介质中。“存储”型介质包括移动站、计算机、处理器或类似设备的任何或所有存储器，或其相关模块，如各种半导体存储器、磁带驱动器、磁盘驱动器等，其可在任何时候为软件编程提供存储。软件的全部或部分有时可以通过互联网或各种其他电信网络进行通信。例如，这种通信可以使软件从一台计算机或处理器加载到另一台计算机或处理器。因此，另一种类型的可以承载软件元素的媒体包括光波、电波和电磁波，例如在本地设备之间的物理接口上、通过有线和光学陆线网络以及通过各种空中链路使用。承载这种波的物理元件，如有线或无线链路、光链路等，也可以被认为是承载软件的介质。如本文所用，除非限于有形的非暂时性“存储”介质，否则计算机或机器“可读介质”等术语是指参与向处理器提供指令以供执行的任何介质。

虽然已在附图和前面的描述中详细地说明和描述了本发明，但应将其视为说明性的而不是限制性的，应当理解的是，仅示出和描述了示例性实施例并且不以任何方式限制本发明的范围。可以理解，这里描述的任何特征可以用于任何实施例。说明性的实施例不排斥彼此或本文未述及的其他实施例。因此，本发明还提供了包括上述一个或多个说明性实施例的组合的实施例。在不脱离本发明的精神和范围的情况下，可以对本发明进行修改和变化，因此，仅应施加如所附权利要求书中所示的限制。

在所附权利要求书和本发明的前述描述中，除非上下文由于明确的语言或必要的暗示而另有要求，否则“包括”一词或诸如“包含”等变体是以包容的意义使用，即指定所述特征的存在，但不排除本发明的各种实施例中存在或添加进一步的特征。

应当理解，如果在本文中提到任何现有技术出版物，这种参考不构成承认该出版物构成本领域公知常识的一部分。

Claims

1.一种自动确定目标环境中传感器布置的方法，所述方法包括：

接收以下输入：目标环境的三维(3D)地图；要布置在所述目标环境中的多个传感器的数量；所述多个传感器的布置配置参数集；所述目标环境中的所述多个传感器的约束条件集；

基于所接收到的输入，使用模拟平台，根据所述目标环境中的一个或多个定义条件，模拟所述多个传感器的运行，以生成包含所述多个传感器的模拟输出数据的数据集；以及

使用强化学习(RL)算法，从包括所述多个传感器的模拟输出数据的数据集中，确定所述多个传感器的优化的或至少改进的布置配置参数集。

2.根据权利要求1所述的方法，其所述方法包括：

使用所述模拟平台为多个目标环境场景生成相应的数据集；以及

使用所述相应的数据集来训练所述RL算法，以确定针对所述多个目标环境场景的所述多个传感器的优化的或至少改进的布置配置参数集。

3.根据权利要求2所述的方法，其中所接收到的输入之一包括针对所述多个目标环境场景之一的优化的或至少改进的布置配置参数集。

4.根据权利要求2所述的方法，其中所述方法包括：使用针对所述多个目标环境场景的相应数据集生成的数据，以动态地适应新的或不同的目标环境场景或情景。

5.根据权利要求1所述的方法，其中迭代地应用所述方法，以对所述用户输入数据进行多次调整，从而确定所述多个传感器的优化的或至少改进的布置配置参数集。

6.根据权利要求1所述的方法，其中对多个传感器模型类型迭代地应用所述方法，所述传感器模型类型对于所述目标环境中的所述约束条件具有不同的值，从而为包括传感器模型类型的所述多个传感器确定优化的或至少改进的布置配置参数集。

7.根据权利要求1所述的方法，其中所述RL算法的奖励参数包括所述多个传感器中每个传感器的模拟覆盖区域。

8.根据权利要求7所述的方法，其中所述方法包括：最大化传感器扫描覆盖区域，以收敛到最佳传感器位置，但要考虑到混合目标，所述混合目标包括以下任何一个或多个：传感器布置的预算；传感器规格；传感器布置的限制；所述目标环境的任何定义条件。

9.根据权利要求7所述的方法，其中所述多个传感器中每个传感器的模拟覆盖区域包括所述多个传感器中每个传感器的模拟3D点云数据。

10.根据权利要求9所述的方法，其中所述多个传感器中每个传感器的模拟3D点云数据是基于点距离、点云密度和点分布均匀性来近似的。

11.根据权利要求10所述的方法，其中对所述多个传感器中每个传感器的3D点云数据进行近似处理：

将所述3D点云数据表示为2D网格；以及

对2D网格中的每个数据点应用L1范数(曼哈顿距离)。

12.根据权利要求11所述的方法，其中所述方法包括：

将所述2D网格划分为矩形框；

为所述矩形框中的每个数据点分配“x”和“y”坐标；以及

对所述矩形框中的每个数据点应用L1范数(曼哈顿距离)。

13.根据权利要求1所述的方法，其中所述方法包括：在一次或多次迭代中，减少要布置在所述目标环境中的多个传感器的数量，并为减少了数量的传感器确定优化的或至少改进的布置配置参数集。

14.根据权利要求1所述的方法，其中所述方法包括：输入所述多个传感器的所述布置配置参数集作为初始布置配置参数集，并迭代地实施所述方法以分别调整一个或多个布置配置参数，从而确定所述多个传感器的优化的或至少改进的布置配置参数集。

15.根据权利要求14所述的方法，其中所述初始布置配置参数集的选择是为了给所述RL模型提供一个半理想的方向，其中所述初始布置配置参数集是从定义所述目标环境或一个目标环境场景的数据，使用三角函数进行数学计算出来的。

16.根据权利要求1所述的方法，其中将一个或多个加权值应用于所述目标环境中所述多个传感器的所述约束条件集中的一个或多个约束条件。

17.根据权利要求1所述的方法，其中所述多个传感器包括激光雷达(LiDAR)传感器，所述目标环境包括道路交通环境。

18.根据权利要求1所述的方法，其中所述模拟平台包括以下任一种：用于自动驾驶研究的CARLA模拟器；Autoware(Gazebo)模拟器；Airsim(UE4&Unity)模拟器；或TORCS(OpenGL)模拟器。

19.根据权利要求1所述的方法，其中所述RL算法包括通用RL模型。

20.一种用于自动确定目标环境中路边传感器布置的装置，该装置包括：用于存储机器可读指令的存储器和用于执行所述机器可读指令的处理器，该处理器被配置以执行以下步骤：

接收以下输入：所述目标环境的三维(3D)地图；要布置在所述目标环境中的多个传感器的数量；所述多个传感器的布置配置参数集；所述目标环境中所述多个传感器的约束条件集；

使用强化学习(RL)算法，从包含所述多个传感器的模拟输出数据的数据集中，确定所述多个传感器的优化的或至少改进的布置配置参数集。

21.一种非暂时性计算机可读介质，包含机器可读指令，当所述指令由处理器执行时，会使所述处理器执行以下步骤：