CN117011685B

CN117011685B - 场景识别方法、装置和电子装置

Info

Publication number: CN117011685B
Application number: CN202311256742.6A
Authority: CN
Inventors: 高海明; 华炜; 邱奇波; 张顺; 史进; 刘鸿雁
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-01-09
Anticipated expiration: 2043-09-27
Also published as: CN117011685A

Abstract

本申请涉及一种场景识别方法、装置和电子装置，其中，该场景识别方法包括：获取连续的激光扫描帧；根据每帧该激光扫描帧，获取融合该连续的激光扫描帧的局部栅格地图，并基于该局部栅格地图得到各帧下的障碍物区域信息；将该各帧下的障碍物区域信息输入至训练完备的目标场景识别模型，得到每帧该激光扫描帧对应的全局描述信息；根据该全局描述信息生成该连续的激光扫描帧下的场景识别结果。通过本申请，解决了场景识别的准确性和效率无法兼顾的问题，实现了精确、高效的场景识别方法。

Description

场景识别方法、装置和电子装置

技术领域

本申请涉及场景识别技术领域，特别是涉及一种场景识别方法、装置和电子装置。

背景技术

随着人工智能技术的飞速发展，越来越多的地面无人车活跃在各行各业中，被广泛应用于医疗辅助、家庭服务、智慧交通以及火星探索等。长时间运行条件下保证鲁棒可靠的定位是上述各类无人车可以完成一切复杂任务的重要前提。相比于位姿跟踪，全局定位具有更大的挑战性，因为真实位姿可能出现于先验地图的任何一处，并且整个环境中可能存在多个相似的场景，以至于难以获得唯一可靠的位姿估计。而鲁棒可靠的场景识别能力，可以在全球定位系统（Global Positioning System，简称为GPS）拒止环境下保证地面无人车在复杂场景下完成鲁棒高效的全局定位。

相比基于视觉传感器的场景识别方法，基于激光传感器的场景识别方法，对明暗光线变化以及复杂天气条件具有更强的鲁棒性和稳定性。基于此，激光传感器被广泛应用于各行各业的地面无人车工程应用以及科学研究领域。具体而言，基于激光传感器的场景识别方法通过对当前激光扫描帧进行特征提取得到对应的描述信息，与离线地图信息进行比较，最终召回最为相似的场景信息。当前关于场景识别的相关研究还远未成熟，具体而言，基于单帧观测的场景识别方法，易受到环境的动态目标影响；另一方面，现有基于序列观测的场景识别方法，未能实现多帧观测信息的有效融合，增加了场景识别的计算代价，从而导致场景识别的准确性和效率无法兼顾。

目前针对相关技术中场景识别的准确性和效率无法兼顾的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种场景识别方法、装置和电子装置，以至少解决相关技术中中场景识别的准确性和效率无法兼顾的问题。

第一方面，本申请实施例提供了一种场景识别方法，所述方法包括：

获取连续的激光扫描帧；

根据每帧所述激光扫描帧，获取融合所述连续的激光扫描帧的局部栅格地图，并基于所述局部栅格地图得到各帧下的障碍物区域信息；

将所述各帧下的障碍物区域信息输入至训练完备的目标场景识别模型，得到每帧所述激光扫描帧对应的全局描述信息；

根据所述全局描述信息生成所述连续的激光扫描帧下的场景识别结果。

在其中一些实施例中，所述根据每帧所述激光扫描帧，获取融合所述连续的激光扫描帧的局部栅格地图，包括：

根据所述连续的激光扫描帧构建实时激光里程计，并得到连续帧位姿信息；

根据每帧所述激光扫描帧进行地面提取处理，得到各帧对应的地面信息，并根据所述各帧对应的地面信息提取得到激光点地面属性和离地高度，基于所述激光点地面属性和离地高度得到各帧下的二维障碍物点云；

根据所述连续帧位姿信息，以及所述各帧下的二维障碍物点云，得到与各帧所述激光扫描帧相对应的所述局部栅格地图。

在其中一些实施例中，所述基于所述局部栅格地图得到各帧下的障碍物区域信息，包括：

针对各帧下的所述局部栅格地图进行边界提取处理，得到至少一个障碍物对应的当前障碍物轮廓信息；

基于所有所述当前障碍物轮廓信息，获取每个所述障碍物的顶点数量以及所有障碍物数量；

在检测到所述顶点数量与预设的第一数量阈值不匹配的情况下，对所述障碍物的顶点进行增删处理，得到与所述第一数量阈值相匹配的目标顶点数量；

在检测到所述障碍物数量与预设的第二数量阈值不匹配的情况下，对所述障碍物进行增删处理，得到与所述第二数量阈值相匹配的目标障碍物数量；

基于所述目标顶点数量和所述目标障碍物数量，确定所述障碍物区域信息。

在其中一些实施例中，所述方法还包括：

在检测到所述顶点数量大于所述第一数量阈值的情况下，根据所述障碍物轮廓信息计算所述障碍物的顶点对所述障碍物的轮廓形态的影响系数；

基于所述影响系数对所述障碍物的顶点进行排序，基于排序结果确定所述障碍物的待删除顶点，并针对所述待删除顶点进行删除处理，直至得到与所述第一数量阈值相匹配的所述目标顶点数量。

在其中一些实施例中，所述目标场景识别模型包括凸多边形感知网络和特征聚合网络；所述将所述障碍物区域信息输入至训练完备的目标场景识别模型中，得到每帧所述激光扫描帧对应的全局描述信息，包括：

将所述障碍物区域信息输入至所述凸多边形感知网络进行特征提取，得到初始局部描述信息；

将所述初始局部描述信息输入至所述特征聚合网络进行特征聚合，并输出所述全局描述信息。

在其中一些实施例中，所述目标场景识别模型还包括注意力机制网络；所述将所述初始局部描述信息输入至所述特征聚合网络进行特征聚合，并输出所述全局描述信息，包括：

将所述初始局部描述信息输入至所述注意力机制网络进行权重处理，得到权重分数，并根据所述初始局部描述信息和所述权重分数融合处理得到目标局部描述信息；

将所述目标局部描述信息输入至所述特征聚合网络，并输出所述全局描述信息。

在其中一些实施例中，所述根据所述全局描述信息生成所述连续的激光扫描帧下的场景识别结果，包括：

获取当前位姿下的位姿估计结果；

计算每帧所述全局描述信息与所述位姿估计结果之间的距离，将距离最小的全局描述信息对应的激光扫描帧确定为关键帧；

根据所述关键帧的全局描述信息生成所述场景识别结果。

在其中一些实施例中，所述将所述各帧下的障碍物区域信息输入至训练完备的目标场景识别模型之前，所述方法还包括：

获取训练数据；所述训练数据携带有实际全局描述标签；

将所述训练数据输入至初始场景识别模型进行训练，并输出预测描述信息；

根据所述预测描述信息和所述实际全局描述标签计算得到损失函数结果，并基于所述损失函数结果对所述初始融合模型进行迭代训练，生成所述目标场景识别模型。

第二方面，本申请实施例提供了一种场景识别装置，所述装置包括：获取模块、局部模块、全局模块和生成模块；

所述获取模块，用于获取连续的激光扫描帧；

所述局部模块，用于根据每帧所述激光扫描帧，获取融合所述连续的激光扫描帧的局部栅格地图，并基于所述局部栅格地图得到各帧下的障碍物区域信息；

所述全局模块，用于将所述各帧下的障碍物区域信息输入至训练完备的目标场景识别模型，得到每帧所述激光扫描帧对应的全局描述信息；

所述生成模块，用于根据所述全局描述信息生成所述连续的激光扫描帧下的场景识别结果。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的场景识别方法。

相比于相关技术，本申请实施例提供的场景识别方法、装置和电子装置，通过获取连续的激光扫描帧；根据每帧该激光扫描帧，获取融合该连续的激光扫描帧的局部栅格地图，并基于该局部栅格地图得到各帧下的障碍物区域信息；将该各帧下的障碍物区域信息输入至训练完备的目标场景识别模型，得到每帧该激光扫描帧对应的全局描述信息；根据该全局描述信息生成该连续的激光扫描帧下的场景识别结果，解决了场景识别的准确性和效率无法兼顾的问题，实现了精确、高效的场景识别方法。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种场景识别方法的应用环境图；

图2是根据本申请实施例的一种场景识别方法的流程图；

图3是根据本申请实施例的一种障碍物区域信息的示意图；

图4是根据本申请实施例的另一种场景识别方法的流程图；

图5是根据本申请实施例的一种目标场景识别模型的架构示意图；

图6是根据本申请优选实施例的一种场景识别方法的流程图；

图7是根据本申请实施例的一种场景识别装置的结构框图；

图8是根据本申请实施例的一种计算机设备内部的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块（单元）的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请提供的场景识别方法，可以应用于如图1所示的应用环境中。该应用环境可以包括自行走装置102和服务器104。其中，自行走装置102可以通过网络与服务器104进行通信。数据存储系统可以存储自行走装置102需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104获取连续的激光扫描帧，根据每帧该激光扫描帧，获取融合该连续的激光扫描帧的局部栅格地图，并基于该局部栅格地图得到各帧下的障碍物区域信息；该服务器104将该各帧下的障碍物区域信息输入至训练完备的目标场景识别模型，得到每帧该激光扫描帧对应的全局描述信息，最终根据该全局描述信息生成该连续的激光扫描帧下的场景识别结果。其中，自行走装置102可以但不限于是各种地面无人车、自动驾驶车辆或扫地机器人等装置，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例提供了一种场景识别方法，图2是根据本申请实施例的一种场景识别方法的流程图，如图2所示，该流程包括如下步骤：

步骤S210，获取连续的激光扫描帧。

其中，本实施例中的场景识别方法可以应用于无人车、自动驾驶车辆或扫地机器人等待定位的自行走装置；则上述步骤中，通过待定位自行走装置上搭载的激光传感器，可以获取到连续的激光扫描帧，并分析得到连续激光观测信息，该连续激光观测信息可以表示为如下公式：

公式1；

上述公式中，Z_t表示连续t帧的总的激光观测信息集合，即上述连续激光观测信息，z₁，z₂，…，z_t，分别表示第1帧的激光观测信息、第2帧的激光观测信息、……、第t帧的激光观测信息；其中，t为大于1的正整数。进一步地，上述连续帧激光扫描帧的帧数可以基于工作人员预设的激光点云数量阈值确定，当检测到历史激光点云数量超过该激光点云数量阈值时，可以移除最早的激光点云帧。

步骤S220，根据每帧该激光扫描帧，获取融合该连续的激光扫描帧的局部栅格地图，并基于该局部栅格地图得到各帧下的障碍物区域信息。

具体地，针对上述连续的激光扫描帧确定连续位姿信息，以及根据每帧激光扫描帧获取对应的障碍物点云，并基于连续位姿信息和障碍物点云生成对应于每帧激光扫描帧的局部栅格地图；则生成的局部栅格地图融合了多帧连续激光观测信息，且每个局部栅格地图分别与每帧激光扫描帧相对应。可以理解的是，上述局部栅格地图是针对局部环境构建的栅格地图；示例性地，在实际应用过程中，可以以当前关键帧位置为中心，边长为100 m的正方形作为局部环境的感知范围。接下来，通过局部栅格地图获取局部静态环境信息，该局部静态环境信息即为对局部栅格地图进行障碍物轮廓识别和提取得到的障碍物区域信息。

步骤S230，将该各帧下的障碍物区域信息输入至训练完备的目标场景识别模型，得到每帧该激光扫描帧对应的全局描述信息。

其中，上述全局描述信息是指针对全局环境的能够描述环境特征的信息。需要补充说明的是，上述目标场景识别模型是指用于对每帧激光扫描帧对应的障碍物区域信息进行训练并得到全局描述信息的神经网络模型；该目标场景识别模型用于指示局部描述信息与全局描述信息之间的映射关系；其中局部描述信息基于该障碍物区域信息确定。

步骤S240，根据该全局描述信息生成该连续的激光扫描帧下的场景识别结果。

具体地，基于上述与各帧激光扫描帧对应的全局描述信息召回关键帧，并将关键帧的全局描述信息作为上述场景识别结果，即，在本实施例中，通过局部栅格地图融合了多帧激光观测信息，并利用神经网络模型生成对应的全局描述信息完成场景识别，有效提高了场景识别的准确性和效率。

通过上述步骤S210至步骤S240，通过各帧下的激光扫描帧，获取融合多帧激光观测的局部栅格地图，并基于局部栅格地图进行场景识别，从而实现了基于连续的激光扫描帧且能够有效融合多帧观测信息的场景识别方式，减少了场景识别的计算代价，同时也避免了仅依靠单帧观测信息进行场景识别产生的易受到环境的动态目标影响的现象，从而有效解决了场景识别的准确性和效率无法兼顾的问题，实现了精确、高效的场景识别方法。

在其中一些实施例中，上述根据每帧该激光扫描帧，获取融合该连续的激光扫描帧的局部栅格地图，还包括如下步骤：

步骤S221，根据该连续的激光扫描帧构建实时激光里程计，并得到连续帧位姿信息。具体地，可以利用一种通过平滑和建图实现的紧耦合激光雷达惯性测量（Tightly-coupled Lidar Inertial Odometry via Smoothing and Mapping，简称为LIO-SAM）算法等，基于上述连续的激光扫描帧进行点云匹配以构建实时激光里程计，获得对应的连续帧位姿信息。

步骤S222，根据每帧该激光扫描帧进行地面提取处理，得到各帧对应的地面信息，并根据该各帧对应的地面信息提取得到激光点地面属性和离地高度，基于该激光点地面属性和离地高度得到各帧下的二维障碍物点云。

其中，针对上述激光传感器检测到的每帧激光扫描帧中的激光点云信息，利用基于直线拟合的地面提取等算法进行处理，得到各帧激光扫描帧对应观测到的地面信息；进一步地，该地面信息可以包括通过直线拟合得到的对应帧所在区域的地面表达式。然后基于地面信息计算每帧激光扫描帧中所有激光点与所在区域地面表达式之间的高度差，赋予其是否为地面的属性，并得到对应激光点的高度距离；具体地，可以代入当前帧中各点激光点坐标信息至所在地面表达式，计算得到对应激光点的离地高度，同时将计算得到的离地高度与预设的高度阈值进行对比，若当前激光点离地高度小于或等于该高度阈值，则赋予该激光点地面属性，若当前激光点的离地高度大于该高度阈值，则赋予该激光点非地面属性，同时保留该激光点的离地高度信息；该高度阈值可以由工作人员结合实际情况预先进行设置，例如可以设置为2 m。

接下来，根据各帧下的每个激光点所对应的属性以及离地高度，进行障碍物点云提取；具体地，首先根据地面分割得到的激光点云及其离地高度，去除高空点得到有效的障碍物点云；然后按照激光传感器固有的角度分辨率生成障碍物点队列，进一步对障碍物点云进行降维得到最终的二维障碍物点云，从而将三维障碍物点云转换为了二维障碍物点云。

步骤S223，根据该连续帧位姿信息，以及该各帧下的二维障碍物点云，得到与各帧该激光扫描帧相对应的该局部栅格地图。

具体地，利用基于2D激光传感器的2D即时定位与地图构建（imultaneouslocalization and mapping，简称为SLAM）算法，根据通过上述步骤计算得到的二维障碍物点云信息，以及根据实时激光里程计模块得到的位姿信息，以此构造局部栅格地图，获得局部静态环境信息。

通过上述步骤S221至步骤S223，通过对各帧激光扫描帧进行地面提取等处理得到各帧下的二维障碍物点云，并根据连续帧位姿信息以及二维障碍物点云得到融合了多帧激光观测信息的局部栅格地图，从而达到鲁棒检测静态障碍物且紧凑描述环境的目的，能够结合概率栅格地图在多帧融合中的优势，达到鲁棒检测静态障碍物的目的，从而有效提高了场景识别的准确性。

在其中一些实施例中，上述基于该局部栅格地图得到各帧下的障碍物区域信息，还包括如下步骤：

步骤S224，针对各帧下的该局部栅格地图进行边界提取处理，得到至少一个障碍物对应的当前障碍物轮廓信息。

其中，在通过上述步骤确定每帧激光扫描帧对应的局部栅格地图之后，可以先根据栅格占据信息，将相应的局部栅格地图通过二值化操作转换为二值图，并利用闭运算等图像形态学操作方法对图像进行处理，闭合图像中存在间隙的区域，以消除原有栅格地图存在的噪声，进而得到优化后的局部栅格地图，能够有效提高后续算法处理的效率和准确性。然后针对上述优化后的局部栅格地图，通过边界提取方法获取地图中各障碍物的外轮廓边界信息；进一步地，还可以利用直线特征提取（iterative end point fit，简称为IEPF）等算法平滑该障碍物轮廓边界信息以提高算法效率，并得到各障碍物对应的当前障碍物轮廓信息。

接下来，基于上述当前障碍物轮廓信息，可以获取该障碍物的形态判定结果；即在经过上述边界提取和平滑等处理的基础上，对当前障碍物轮廓信息进行凹多边形判别。具体地，该凹多边形判别方式可以为：确定当前障碍物轮廓信息上的三个顺时针排列的轮廓点坐标，分别为P₁、P₂、P₃，则凹多边形判别式为dv=（x₁-x₃）×（y₂-y₃）-（y₁-y₃）×（x₂-x₃），若dv＞0则多边形判定为凹多边形，否则判定相应的障碍物为凸多边形，并得到对应的形态判定结果。若通过上述步骤检测到当前的障碍物为凸多边形，则无需再对其进一步分割，直接将相应的当前障碍物轮廓信息作为上述障碍物区域信息即可；若检测到当前的障碍物的凹多边形，则需要利用计算机图像学向量方法将当前凹多边形的障碍物进一步分割，直至基于新的障碍物轮廓信息检测到该障碍物已分割为多个凸多边形，并得到上述障碍物区域信息。通过对障碍物轮廓信息判定相应的障碍物形状是否为凸多边形，并对不是凸多边形的障碍物区域进一步分割，从而将凸多边形作为矢量化元素，以高效紧凑的方式描述局部静态环境，进一步克服传统占用栅格地图存在占用大量内存和增加计算成本的缺点，能够有效提高后续算法的效率。

步骤S225，基于所有该当前障碍物轮廓信息，获取每个该障碍物的顶点数量以及所有障碍物数量。

步骤S226，在检测到该顶点数量与预设的第一数量阈值不匹配的情况下，对该障碍物的顶点进行增删处理，得到与该第一数量阈值相匹配的目标顶点数量。

其中，上述第一数量阈值用于统一各障碍物的顶点数量，且可以由工作人员结合实际情况预先进行设置，例如可以将该第一数量阈值设置为6。具体地，遍历每个识别到的障碍物轮廓信息，当检测到当前遍历到的障碍物的顶点数量小于该第一数量阈值时，可以通过边界插值等算法将当前的顶点数量增加至第一数量阈值。当检测到遍历的障碍物的顶点数量大于该第一数量阈值时，可以通过边界简化等方式压缩顶点数量至第一数量阈值。当检测到遍历的障碍物的顶点数量恰好等于该第一数量阈值时，则无需对其进行顶点增加或者删除的处理，此时当前的顶点数量即为上述目标顶点数量。

进一步地，为了避免删减顶点数量导致障碍物轮廓形态发生改变，本实施例中在删减顶点数量的过程中，可以根据该障碍物的障碍物轮廓信息计算各顶点对障碍物轮廓形态的影响系数；需要补充说明的是，上述影响系数可以通过各顶点至对应障碍物区域的中心点之间的距离确定，例如，距离该障碍物区域中心点的越远则该顶点的影响系数越小；或者，该影响系数也可以通过各顶点周围的相邻顶点数量确定，例如，相邻顶点数量越多则该顶点的影响系数越小；或者，该影响系数还可以综合上述几个因素确定，在此不再赘述。然后基于影响系数对各顶点进行排序，从影响系数最小的顶点开始删除，直至顶点数量已压缩至上述第一数量阈值。

步骤S227，在检测到该障碍物数量与预设的第二数量阈值不匹配的情况下，对该障碍物进行增删处理，得到与该第二数量阈值相匹配的目标障碍物数量。

其中，上述第二数量阈值用于统一每帧中所有障碍物的总数，且可以由工作人员预先进行设置，例如可以将该第二数量阈值设置为20个。具体地，在检测到当前帧下所有障碍物数量之和小于该第二数量阈值时，可以针对当前帧的障碍物利用零多边形进行数量补齐，并补齐至与该第二数量阈值相同的目标障碍物数量；零多边形即为所有顶点均为0向量的多边形。在检测到当前帧下所有的障碍物数量之和大于该第二数量阈值时，可以针对当前帧的所有障碍物进行随机采样的方式，获取得到目标障碍物数量的障碍物区域，通过上述方式实现了对各帧下的障碍物区域的数量统一。此外，若检测到当前帧下所有的障碍物数量之和恰好满足第二数量阈值时，则无需对其进行障碍物区域的增加和删除处理，此时该当前帧下的所有障碍物数量即为上述目标障碍物数量。

步骤S228，基于该目标顶点数量和该目标障碍物数量，确定该障碍物区域信息。

可以理解的是，在通过上述步骤分别将各帧中每个障碍物区域的顶点数量统一至上述目标顶点数量，以及将各帧中所有障碍物数量之和统一至上述目标障碍物数量之和，可以根据统一后的顶点数量等障碍物信息确定上述障碍物区域信息。具体地，图3是根据本申请实施例的一种障碍物区域信息的示意图，如图3所示，横坐标和纵坐标分别表示局部环境下的二维地图的x、y坐标，各组点用于通过上述方法实施例实时检测生成的多个障碍物多边形的轮廓。

通过上述实施例，通过给定的第一数量阈值、第二数量阈值对各凸多边形障碍物的顶点数量，以及环境中的障碍物数量进行统一，以便后续能够基于神经网络模型进行处理，提高后续模型的计算效率，从而进一步提高了场景识别的效率。

在其中一些实施例中，上述目标场景识别模型包括凸多边形感知网络和特征聚合网络；图4是根据本申请实施例的另一种场景识别方法的流程图，如图4所示，该流程包括图2所示的步骤S210、步骤S220和步骤S240，此外还包括如下步骤：

步骤S410，将该障碍物区域信息输入至该凸多边形感知网络进行特征提取，得到初始局部描述信息。

其中，上述凸多边形感知网络用于针对输入的障碍物区域信息进行多边形感知处理；具体地，输入至该凸多边形感知网络中的障碍物区域信息至少包括多边形顶点坐标等信息，且每帧中的各障碍物区域信息的特征矩阵相互独立，一般地，此时输入至凸多边形感知网络的信息的特征维度为125×256。然后通过多层感知器、最大值池化以及信息集合等操作生成对应每个障碍物多边形区域的初始局部描述信息；此时得到的初始局部描述信息的特征维度为经过凸多边形感知网络进行特征升维后的维度，一般地，升维后的特征维度为125×512。

步骤S420，将该初始局部描述信息输入至该特征聚合网络进行特征聚合，并输出该全局描述信息。

通过上述步骤S410至步骤S420，通过目标场景识别模型中的凸多边形感知网络和特征聚合网络对输入信息进行处理得到各帧对应的全局描述信息，有效提高了全局描述信息生成的准确性，进而提高了场景识别的准确性。

在其中一些实施例中，上述目标场景识别模型还包括注意力机制网络；进一步地，上述目标场景识别模型的网络架构可以为：上述凸多边形感知网络的输出层连接至该注意力机制网络的输入层，且该注意力机制网络的输出层连接上述特征聚合网络的输入层。上述将该初始局部描述信息输入至该特征聚合网络进行特征聚合，并输出该全局描述信息，还包括如下步骤：

步骤S421，将该初始局部描述信息输入至该注意力机制网络进行权重处理，得到权重分数，并根据该初始局部描述信息和该权重分数融合处理得到目标局部描述信息。

其中，上述注意力机制网络可以采用Transformer等网络架构，并根据障碍物区域信息对应的初始局部描述信息，生成查询信息Q、键信息K以及值信息V；具体地，将输入至注意力机制网络的为每个障碍物多边形区域生成的特征维度为256维的初始局部描述信息乘以权重矩阵，以生成对应的Q、K、V值。然后根据生成的Q、K、V值，进一步建立各个凸多边形之间的联系，提取更为显著的特征信息Attention(Q,K,V)，如下述公式2所示：

公式2；

上述公式中，softmax()为归一化指数函数，d_k为特征维度数量。进一步地，通过注意力机制得到了当前多边形障碍物和其他多边形障碍物之间的权重，从而实现了在融合周围多边形障碍物描述信息的基础上，进一步更新各障碍物的局部描述信息。

步骤S422，将该目标局部描述信息输入至该特征聚合网络，并输出该全局描述信息。其中，将通过上述注意力机制网络更新处理后输出的目标局部描述信息输入至上述特征聚合网络，可以得到各帧对应的全局描述信息。

具体地，图5是根据本申请实施例的一种目标场景识别模型的架构示意图，如图5所示，该目标场景识别模型包括凸多边形感知网络、注意力机制网络和特征融合网络；该凸多边形感知网络采用点云Net局部聚类向量网络（PointNetVLAD网络），注意力机制网络采用Transformer网络，特征聚合网络采用Net局部聚类向量网络（NetVLAD网络）。其中，将基于上述图3确定的特征高度为h、宽度为w的障碍物区域信息输入至PointNetVLAD网络进行特征提取，该PointNetVLAD网络由点云Net层（PointNet层）、Net局部聚类向量层（NetVLAD层）、全连接层和L2归一化层构成，并得到特征高度为h₁、宽度为w的初始局部描述信息，且h₁＞h。然后将初始局部描述信息输入至Transformer网络，并依次经过多头注意力机制层、残差连接和归一化处理（Add&Norm）层、前馈网络、Add&Norm层进行注意力特征量提取、残差连接和归一化处理以及前馈网络等处理，输出最终的注意力特征量，并与之前的初始局部描述信息进行融合得到特征高度为2h₁的目标局部描述信息。接下来，将目标局部描述信息通过多层感知器处理后输入至NetVLAD网络进行特征聚合，将输出结果再次经过多层感知器处理并输出对应的全局描述信息。

通过上述实施例，将注意力机制引入至上述场景识别模型中以计算每帧激光扫描帧中各障碍物区域的权重关系，并基于权重关系对局部描述信息进行更新，从而基于多边形障碍物区域注意力机制实现了鲁棒可靠的场景识别方法，进一步提高了场景识别的准确性。

在其中一些实施例中，上述将该各帧下的障碍物区域信息输入至训练完备的目标场景识别模型之前，上述场景识别方法还包括如下步骤：

步骤S201，获取训练数据；该训练数据携带有实际全局描述标签。

其中，上述训练数据可以基于测试场景下采集到的KITTI数据集获取得到；KITTI数据集是目前国际上最为商用的自动驾驶场景下的计算机视觉算法测评数据集之一。具体地，针对该KITTI数据集，可以先通过上述方法实施例中的步骤对其进行计算得到融合多帧扫描帧的待训练栅格地图，基于待训练栅格地图得到各帧下的待训练障碍物区域及其顶点信息，进而得到经过上述处理后的数据集；接下来，对该数据集进行划分，例如可以在给定正、负样本距离阈值的基础上，将该数据集按照预设比例划分为对应的训练集、验证集和测试集，以分别用于模型的训练、验证和测试，并将上述训练集中的携带有实际全局描述标签的数据作为上述训练数据。

步骤S202，将该训练数据输入至初始场景识别模型进行训练，并输出预测描述信息。

其中，利用上述初始场景识别模型对训练数据进行训练得到针对全局环境的相应预测描述信息。具体地，以待训练的初始场景识别模型的架构为图5所示的架构为例，则将训练数据输入至初始场景识别模型中，并依次经过该模型中的PointNetVLAD网络、Transformer网络、NetVLAD网络等进行特征处理，得到相应的预测描述信息。

步骤S203，根据该预测描述信息和该实际全局描述标签计算得到损失函数结果，将该损失函数结果的梯度反向传输至该初始场景识别模型进行迭代训练，生成优化后的该目标场景识别模型。

具体地，可以利用三元组损失等算法，根据上述预测描述信息和上述实际全局描述标签构建损失函数，并计算得到损失函数结果，然后基于损失函数结果对上述初始场景识别模型进行迭代训练；不断重复上述训练过程，直至满足迭代次数或迭代时长，或者该场景识别模型收敛，进而得到训练完备的目标场景识别模型。

通过上述步骤S201至步骤S203，通过训练数据对初始的神经网络模型进行训练，根据模型输出的预测结果和训练数据所携带的已知标签计算得到损失函数结果，并基于损失函数结果对模型进行迭代训练以得到优化后的目标场景识别模型，从而有利于提高目标识别场景模型输出数据的准确性，进一步提高了场景识别的准确性。

在其中一些实施例中，上述根据该全局描述信息生成该连续的激光扫描帧下的场景识别结果，还包括如下步骤：

步骤S241，获取当前位姿下的位姿估计结果。

其中，上述位姿估计结果可以基于上述自行走装置所搭载的传感器的检测结果实时估计得到，该位姿估计结果是指当前时刻下估计得到的该自行走装置在所处环境中的位置以及姿态。

步骤S242，计算每帧该全局描述信息与该位姿估计结果之间的距离，将距离最小的全局描述信息对应的激光扫描帧确定为关键帧；根据该关键帧的全局描述信息生成该场景识别结果。

其中，基于上述目标场景识别模型生成的与各帧激光扫描帧对应的全局描述信息，构建自行走装置所处环境中位置与各全局描述信息之间的对应关系。具体地，可以将所处环境表述为M={(X₁,D₁),(X₂,D₂),…(X_m,D_m)}；D₁、D₂、……、D_m分别用于表示第1帧、第2帧、……、第m帧激光扫描帧对应的全局描述信息；X₁、X₂、……、X_m分别用于表示第1帧、第2帧、……、第m帧时刻下的位置坐标，m为大于1的正整数。

接下来，基于上述环境表述关系式，比较各全局描述信息与位姿估计结果之间的欧式距离，召回其中欧式距离最小的关键帧，完成场景识别。

下面结合实际应用场景对本申请的实施例进行详细说明，以针对地面无人车这一类自行走装置实现场景识别为例，图6是根据本申请优选实施例的一种场景识别方法的流程图，如图6所示，该流程包括如下步骤：

步骤S601，基于地面无人车上设置的机载激光传感器，获取连续观测信息，并结合连续帧的实时激光里程计，以及各帧的障碍物点云构造局部栅格地图。

步骤S602，利用局部栅格地图生成局部静态环境轮廓信息，以去除场景中的动态目标，并通过多边形分割将环境信息描述为多个静态凸多边形的集合，得到障碍物区域信息。进一步地，针对上述静态凸多边形还可以利用上述方法实施例，结合第一数量阈值以及第二数量阈值进行数量统一，进而得到统一后的障碍物区域信息。

步骤S603，将上述障碍物区域信息输入至目标场景识别模型中的凸多边形感知网络，以实现基于凸多边形感知的特征提取处理，输出初始局部描述信息。其中，该目标场景识别模型为基于训练数据训练好的神经网络模型。

步骤S604，将初始局部描述信息输入至注意力机制感知网络，构建环境中各凸多边形之间的联系，从而进一步更新得到对应的目标局部描述信息。然后将上述得到的多个目标局部描述信息，采用NetVLAD特征聚合网络，生成当前帧对应的全局描述信息，以用于后期的场景识别。

步骤S605，根据全局描述信息之间的欧氏距离，召回最相似的关键帧，实现场景识别任务。具体地，基于训练生成的模型信息，构建环境中位置与全局描述信息之间的对应关系；根据全局描述信息之间的欧氏距离，召回最相似的关键帧，实现场景识别任务。

通过上述实施例，结合局部栅格地图融合多帧激光观测的优势，并通过多边形注意力机制实现地面无人车鲁棒可靠的场景识别，提供了面向地面无人车的鲁棒可靠的场景识别和定位恢复的可靠且极易开展的解决方案，为地面无人车领域实现鲁棒可靠的自主导航提高了切实可行的方式。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种场景识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7是根据本申请实施例的一种场景识别装置的结构框图，如图7所示，该装置包括：获取模块72、局部模块74、全局模块76和生成模块78；该获取模块72，用于获取连续的激光扫描帧；该局部模块74，用于根据每帧该激光扫描帧，获取融合该连续的激光扫描帧的局部栅格地图，并基于该局部栅格地图得到各帧下的障碍物区域信息；该全局模块76，用于将该各帧下的障碍物区域信息输入至训练完备的目标场景识别模型，得到每帧该激光扫描帧对应的全局描述信息；该生成模块78，用于根据该全局描述信息生成该连续的激光扫描帧下的场景识别结果。

通过上述实施例，局部模块74通过各帧下的激光扫描帧，获取融合多帧激光观测的局部栅格地图，并由全局模块76基于局部栅格地图所确定的障碍物区域信息进行场景识别，从而实现了基于连续的激光扫描帧且能够有效融合多帧观测信息的场景识别方式，减少了场景识别的计算代价，同时也避免了仅依靠单帧观测信息进行场景识别产生的易受到环境的动态目标影响的现象，从而有效解决了场景识别的准确性和效率无法兼顾的问题，实现了精确、高效的场景识别装置。

在其中一些实施例中，上述局部模块74还用于根据该连续的激光扫描帧构建实时激光里程计，并得到连续帧位姿信息；该局部模块74根据每帧该激光扫描帧进行地面提取处理，得到各帧对应的地面信息，并根据该各帧对应的地面信息提取得到激光点地面属性和离地高度，基于该激光点地面属性和离地高度得到各帧下的二维障碍物点云；该局部模块74根据该连续帧位姿信息，以及该各帧下的二维障碍物点云，得到与各帧该激光扫描帧相对应的该局部栅格地图。

在其中一些实施例中，上述局部模块74还用于针对各帧下的该局部栅格地图进行边界提取处理，得到至少一个障碍物对应的当前障碍物轮廓信息；该局部模块74基于所有该当前障碍物轮廓信息，获取每个该障碍物的顶点数量以及所有障碍物数量；该局部模块74在检测到该顶点数量与预设的第一数量阈值不匹配的情况下，对该障碍物的顶点进行增删处理，得到与该第一数量阈值相匹配的目标顶点数量息；该局部模块74在检测到该障碍物数量与预设的第二数量阈值不匹配的情况下，对该障碍物进行增删处理，得到与该第二数量阈值相匹配的目标障碍物数量；该局部模块74基于该目标顶点数量和该目标障碍物数量，确定该障碍物区域信息。

在其中一些实施例中，上述局部模块74还用于在检测到该顶点数量大于该第一数量阈值的情况下，根据该障碍物轮廓信息计算该障碍物的顶点对该障碍物的轮廓形态的影响系数；该局部模块74基于该影响系数对该障碍物的顶点进行排序，基于排序结果确定该障碍物的待删除顶点，并针对该待删除顶点进行删除处理，直至得到与该第一数量阈值相匹配的该目标顶点数量。

在其中一些实施例中，该目标场景识别模型包括凸多边形感知网络和特征聚合网络；上述全局模块76还用于将该障碍物区域信息输入至该凸多边形感知网络进行特征提取，得到初始局部描述信息；该全局模块76将该初始局部描述信息输入至该特征聚合网络进行特征聚合，并输出该全局描述信息。

在其中一些实施例中，该目标场景识别模型还包括注意力机制网络；上述全局模块76还用于将该初始局部描述信息输入至该注意力机制网络进行权重处理，得到权重分数，并根据该初始局部描述信息和该权重分数融合处理得到目标局部描述信息；该全局模块76将该目标局部描述信息输入至该特征聚合网络，并输出该全局描述信息。

在其中一些实施例中，上述生成模块78还用于获取当前位姿下的位姿估计结果；该生成模块计算每帧该全局描述信息与该位姿估计结果之间的距离，将距离最小的全局描述信息对应的激光扫描帧确定为关键帧；该生成模块78根据该关键帧的全局描述信息生成该场景识别结果。

在其中一些实施例中，上述场景识别装置还包括训练模块；该训练模块，用于获取训练数据；该训练数据携带有实际全局描述标签；该训练模块将该训练数据输入至初始场景识别模型进行训练，并输出预测描述信息；该训练模块根据该预测描述信息和该实际全局描述标签计算得到损失函数结果，将该损失函数结果的梯度反向传输至该初始场景识别模型进行迭代训练，生成优化后的该目标场景识别模型。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在其中一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，图8是根据本申请实施例的一种计算机设备内部的结构图，如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标场景识别模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述场景识别方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取连续的激光扫描帧。

S2，根据每帧该激光扫描帧，获取融合该连续的激光扫描帧的局部栅格地图，并基于该局部栅格地图得到各帧下的障碍物区域信息。

S3，将该各帧下的障碍物区域信息输入至训练完备的目标场景识别模型，得到每帧该激光扫描帧对应的全局描述信息。

S4，根据该全局描述信息生成该连续的激光扫描帧下的场景识别结果。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的场景识别方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种场景识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种场景识别方法，其特征在于，所述方法包括：

获取连续的激光扫描帧；

将所述各帧下的障碍物区域信息输入至训练完备的目标场景识别模型，得到每帧所述激光扫描帧对应的全局描述信息，包括：

所述目标场景识别模型包括凸多边形感知网络、特征聚合网络和注意力机制网络；

将所述目标局部描述信息输入至所述特征聚合网络，并输出所述全局描述信息；

2.根据权利要求1所述的场景识别方法，其特征在于，所述根据每帧所述激光扫描帧，获取融合所述连续的激光扫描帧的局部栅格地图，包括：

3.根据权利要求1所述的场景识别方法，其特征在于，所述基于所述局部栅格地图得到各帧下的障碍物区域信息，包括：

4.根据权利要求3所述的场景识别方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的场景识别方法，其特征在于，所述根据所述全局描述信息生成所述连续的激光扫描帧下的场景识别结果，包括：

获取当前位姿下的位姿估计结果；

根据所述关键帧的全局描述信息生成所述场景识别结果。

6.根据权利要求1至权利要求5任一项所述的场景识别方法，其特征在于，所述将所述各帧下的障碍物区域信息输入至训练完备的目标场景识别模型之前，所述方法还包括：

获取训练数据；所述训练数据携带有实际全局描述标签；

根据所述预测描述信息和所述实际全局描述标签计算得到损失函数结果，将所述损失函数结果的梯度反向传输至所述初始场景识别模型进行迭代训练，生成所述目标场景识别模型。

7.一种场景识别装置，其特征在于，所述装置包括：获取模块、局部模块、全局模块和生成模块；

所述获取模块，用于获取连续的激光扫描帧；

所述全局模块还用于将所述障碍物区域信息输入至所述凸多边形感知网络进行特征提取，得到初始局部描述信息；

所述全局模块还用于将所述初始局部描述信息输入至所述注意力机制网络进行权重处理，得到权重分数，并根据所述初始局部描述信息和所述权重分数融合处理得到目标局部描述信息；

所述全局模块还用于将所述目标局部描述信息输入至所述特征聚合网络，并输出所述全局描述信息；

8.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至权利要求6中任一项所述的场景识别方法。