CN116596051A

CN116596051A - 场景表征模型训练方法、障碍物标记方法及自动驾驶车辆

Info

Publication number: CN116596051A
Application number: CN202310430715.XA
Authority: CN
Inventors: 郑欣悦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-08-15

Abstract

本公开提供了一种场景表征模型训练方法、障碍物标记方法及自动驾驶车辆，涉及人工智能领域，尤其涉及自动驾驶技术领域。具体实现方案为：获取第一行车场景的第一场景信息；获取第二行车场景的第二场景信息；其中，第二行车场景与第一行车场景存在关键障碍物的分布差异，关键障碍物用于改变主车的驾驶风险状态；基于第一场景信息和第二场景信息，对场景表征模型进行训练。采用本公开可以提高场景表征结果的准确性，以及提高障碍物标记结果的准确性。

Description

场景表征模型训练方法、障碍物标记方法及自动驾驶车辆

技术领域

本公开涉及人工智能领域，尤其涉及自动驾驶技术领域，具体涉及一种场景表征模型训练方法、障碍物标记方法及自动驾驶车辆。

背景技术

自动驾驶技术涉及环境感知、行为决策、轨迹规划和运动控制等多个方面。其中，行为决策又依赖于行车场景的场景表征结果，以及行车场景中的障碍物标记结果。目前，主要是利用人为设定的计算逻辑，获得行车场景的场景表征结果和障碍物标记结果。

由于人为设定的计算逻辑局限性较大、且无法灵活应用于各个实际行车场景，因此，会影响场景表征结果和障碍物标记结果的准确性。

发明内容

本公开提供了一种场景表征模型训练方法、障碍物标记方法及自动驾驶车辆。

根据本公开的一方面，提供了一种场景表征模型训练方法，包括：

获取第一行车场景的第一场景信息；

获取第二行车场景的第二场景信息；其中，第二行车场景与第一行车场景存在关键障碍物的分布差异，关键障碍物用于改变主车的驾驶风险状态；

基于第一场景信息和第二场景信息，对场景表征模型进行训练。

根据本公开的另一方面，提供了一种障碍物标记方法，包括：

获取当前行车场景的行车场景信息；

将行车场景信息输入经过训练的场景表征模型，以获得场景表征模型在基于行车场景信息输出当前场景表征的过程中，获得的中间参数；其中，场景表征模型是通过任一项场景表征模型训练方法训练获得的；

基于中间参数，对当前行车场景中的当前障碍物进行标记，获得障碍物标记结果。

根据本公开的另一方面，提供了一种场景表征模型训练装置，包括：

第一信息获取单元，用于获取第一行车场景的第一场景信息；

第二信息获取单元，用于获取第二行车场景的第二场景信息；其中，第二行车场景与第一行车场景存在关键障碍物的分布差异，关键障碍物用于改变主车的驾驶风险状态；

第一模型训练单元，用于基于第一场景信息和第二场景信息，对场景表征模型进行训练。

根据本公开的另一方面，提供了一种障碍物标记装置，包括：

当前信息获取单元，用于获取当前行车场景的行车场景信息；

中间参数获取单元，用于将行车场景信息输入经过训练的场景表征模型，以获得场景表征模型在基于行车场景信息输出当前场景表征的过程中，获得的中间参数；其中，场景表征模型是任一项场景表征模型训练方法训练获得的；

障碍物标记单元，用于基于中间参数，对当前行车场景中的当前障碍物进行标记，获得障碍物标记结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；

与该至少一个处理器通信连接的存储器；

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开实施例中的任一方法。

根据本公开的另一方面，提供了一种自动驾驶车辆，包括电子设备。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行本公开实施例中的任一方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现本公开实施例中的任一方法。

采用本公开可以提高场景表征结果的准确性，以及提高障碍物标记结果的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种场景表征模型训练方法的流程示意图；

图2A和2B为本公开实施例提供的一种第二行车场景的衍生方式说明图；

图3A和3B为本公开实施例提供的另一种第二行车场景的衍生方式说明图；

图4A为本公开实施例提供的一种场景表征模型的网络结构示意图。

图4B为本公开实施例提供的另一种场景表征模型的网络结构示意图；

图5A和5B为本公开实施例提供的一种第四行车场景的衍生方式说明图；

图6为本公开实施例提供的一种场景表征模型训练方法的场景示意图；

图7为本公开实施例提供的一种障碍物标记方法的流程示意图；

图8为本公开实施例提供的一种障碍物标记方法的场景示意图；

图9为本公开实施例提供的一种场景表征模型训练装置的示意性结构框图；

图10为本公开实施例提供的一种障碍物标记装置的示意性结构框图；

图11为本公开实施例提供的一种电子设备的示意性结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供了一种场景表征模型训练方法，其可以应用于电子设备。以下，将结合图1所示流程示意图，对本公开实施例提供的一种场景表征模型训练方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其他顺序执行所示出或描述的步骤。

步骤S101，获取第一行车场景的第一场景信息；

步骤S102，获取第二行车场景的第二场景信息；其中，第二行车场景与第一行车场景存在关键障碍物的分布差异，关键障碍物用于改变主车的驾驶风险状态；

步骤S103，基于第一场景信息和第二场景信息，对场景表征模型进行训练。

其中，第一行车场景可以是主车的历史行车场景，第二行车场景可以是通过对第一行车场景中的关键障碍物进行调整，获得的衍生行车场景。因此，第二行车场景与第一行车场景存在关键障碍物的分布差异，关键障碍物用于改变主车的驾驶风险状态。其中，驾驶风险状态可以是安全状态(无碰撞风险、且无急刹风险)、有碰撞风险和有急刹风险中的任意一者。此外，需要说明的是，本公开实施例中，主车在某行车场景中行驶时，若障碍物与主车的间隔距离全程均小于安全距离阈值，则认为主车无碰撞风险，否者，认为主车有碰撞风险；主车在某行车场景中行驶时，若主车全程均未产生急刹，则认为主车无急刹风险，否者，认为主车有急刹风险。其中，安全距离阈值可以根据实际应用需求设定，例如，可以设定为20厘米(cm)，本公开实施例对此不作限制。

本公开实施例中，第一场景信息可以包括第一主车信息和第一障碍信息。其中，第一主车信息可以包括主车在第一行车场景中的速度信息、加速度信息和位姿信息等，第一障碍信息可以包括第一行车场景中障碍物的障碍类型，具体可以是可移动障碍物(例如，障碍车)或固定障碍物(例如，桥墩)，在障碍类型为可移动障碍物的情况下，第一障碍信息还可以包括障碍物在第一行车场景中的速度信息、加速度信息和位姿信息等，在障碍类型为固定障碍物的情况下，第一障碍信息还可以包括障碍物在第一行车场景中所对应的区域位置等。

同样，本公开实施例中，第二场景信息可以包括第二主车信息和第二障碍信息。其中，第二主车信息可以包括主车在第二行车场景中的速度信息、加速度信息和位姿信息等，第二障碍信息可以包括第二行车场景中障碍物的障碍类型，具体可以是可移动障碍物或固定障碍物，在障碍类型为可移动障碍物的情况下，第二障碍信息还可以包括障碍物在第二行车场景中的速度信息、加速度信息和位姿信息等，在障碍类型为固定障碍物的情况下，第二障碍信息还可以包括障碍物在第二行车场景中所对应的区域位置等。

在获取到第一行车场景的第一场景信息，以及获取到第二行车场景的第二场景信息之后，可以基于第一场景信息和第二场景信息，对场景表征模型进行训练。

在一具体示例中，可以将第一场景信息输入场景表征模型，获得场景表征模型输出的第一表征结果；将第二场景信息输入场景表征模型，获得场景表征模型输出的第二表征结果；基于第一表征结果和第二表征结果，对场景表征模型进行训练。其中，“基于第一表征结果和第二表征结果，对场景表征模型进行训练”可以包括：获取第一表征结果与第二表征结果之间的第一损失；在第一损失满足第一损失要求的情况下，获得经过训练的场景表征模型；在第一损失不满足第一损失要求的情况下，对场景表征模型进行参数调整。其中，第一损失可以是第一余弦相似度，第一损失要求可以是第一余弦相似度小于第一相似度阈值，第一相似度阈值可以根据实际应用需求设定，例如，可以设定为0.3，本公开实施例对此不作限制。

其中，场景表征模型为可学习的神经网络模型，经过训练的场景表征模型可以用于：基于输入的行车场景信息，输出当前场景表征结果。其中，行车场景信息可以在当前主车的实际驾驶过程中，基于当前行车场景获取、且行车场景信息可以与上述第一场景信息和第二场景信息具有相同的数据结构，此处不作赘述。

采用本公开实施例提供的场景表征模型训练方法，可以获取第一行车场景的第一场景信息；获取第二行车场景的第二场景信息；其中，第二行车场景与第一行车场景存在关键障碍物的分布差异，关键障碍物用于改变主车的驾驶风险状态；基于第一场景信息和第二场景信息，对场景表征模型进行训练。获得经过训练的场景表征模型之后，其可以用于：基于输入的行车场景信息，输出当前场景表征结果。一方面，由于场景表征模型是可学习的神经网络模型，因此，相对于现有技术而言，基于经过训练的场景表征模型获得场景表征结果，可以提高场景表征结果的准确性。另一方面，由于第二行车场景与第一行车场景存在关键障碍物的分布差异，而关键障碍物用于改变主车的驾驶风险状态，因此，关键障碍物对主车的行为决策起着关键性作用，对于任一行车场景来说都属于重要信息，基于此，本公开实施例中，通过存在关键障碍物的分布差异的不相似场景对(第一行车场景和第二行车场景)训练场景表征模型，可以提高场景表征模型对于关键障碍物的感知处理能力，从而提高场景表征结果中关键障碍物的信息占比和准确性，以进一步提高场景表征结果的准确性。

如前所述的，本公开实施例中，第一行车场景可以是主车的历史行车场景，第二行车场景可以是通过对第一行车场景中的关键障碍物进行调整，获得的衍生行车场景。基于此，在一些可选的实施方式中，场景表征模型训练方法还可以包括以下步骤：

从第一行车场景中选取目标障碍物；

在第一行车场景中对目标障碍物进行调整，获得待定行车场景；

在待定行车场景中对主车进行自动驾驶仿真，获得主车在待定行车场景中行驶时所对应的仿真风险状态；

在仿真风险状态与历史风险状态不同的情况下，将目标障碍物确定为关键障碍物，以及将待定行车场景确定为第二行车场景；其中，历史风险状态为主车在第一行车场景中行驶时所对应的真实风险状态。

本公开实施例中，可以根据第一行车场景的场景类别，从第一行车场景中选取目标障碍物，也可以从第一行车场景中选取任意障碍物，作为目标障碍物。其中，场景类别可以包括安全场景、碰撞场景和急刹场景，安全场景可以是无碰撞风险、且无急刹风险的行车场景，主车在该行车场景中行驶时，驾驶风险状态为安全状态，碰撞场景可以是有碰撞风险的行车场景，主车在该行车场景中行驶时，驾驶风险状态为有碰撞风险，急刹场景可以是有急刹风险的行车场景，主车在该行车场景中行驶时，驾驶风险状态为有急刹风险。

其中，“在第一行车场景中对目标障碍物进行调整，获得待定行车场景”可以包括：在第一行车场景中对目标障碍物进行位姿调整和/或行驶时间调整，获得待定行车场景。

在获得待定行车场景之后，可以通过自动驾驶仿真软件，在待定行车场景中对主车进行自动驾驶仿真，获得主车在待定行车场景中行驶时所对应的仿真风险状态。在仿真风险状态与历史风险状态不同的情况下，将目标障碍物确定为关键障碍物，以及将待定行车场景确定为第二行车场景。例如，在仿真风险状态为安全状态，而历史风险状态为有碰撞风险的情况下，将目标障碍物确定为关键障碍物，以及将待定行车场景确定为第二行车场景。

通过以上步骤，本公开实施例中，可以在从第一行车场景中选取目标障碍物，并在第一行车场景中对目标障碍物进行调整，获得待定行车场景之后，在待定行车场景中对主车进行自动驾驶仿真，获得主车在待定行车场景中行驶时所对应的仿真风险状态，以便于在仿真风险状态与历史风险状态不同的情况下，将目标障碍物确定为关键障碍物，以及将待定行车场景确定为第二行车场景。由于本公开实施例中，是通过自动驾驶仿真，获得主车在待定行车场景中行驶时所对应的仿真风险状态，因此，可以提高仿真风险状态的获取效率，从而提高关键障碍物的确定效率，以提高场景表征模型的训练效率。

在一些可选的实施方式中，“从第一行车场景中选取目标障碍物”可以包括以下步骤：

确定第一行车场景的场景类别；

在场景类别为安全场景的情况下，从第一行车场景中选取对应的第一后验决策为避让的第一待定障碍物，作为目标障碍物；其中，第一后验决策为主车对第一待定障碍物做出的驾驶决策；

在场景类别为碰撞场景或急刹场景的情况下，从第一行车场景中选取与主车的间隔距离小于第一距离阈值的任意障碍物，作为目标障碍物。

也即，本公开实施例中，可以根据第一行车场景的场景类别，从第一行车场景中选取目标障碍物。

在场景类别为安全场景的情况下，从第一行车场景中选取对应的第一后验决策为避让的第一待定障碍物，作为目标障碍物。其中，避让可以是横向避让或纵向避让，横向避让又可以是左转避让或右转避让，纵向避让又可以是在前的加速避让或在后的减速避让，本公开实施例对此不作限制。

在场景类别为碰撞场景或急刹场景的情况下，从第一行车场景中选取与主车的间隔距离小于第一距离阈值的任意障碍物，作为目标障碍物。其中，第一距离阈值可以根据实际应用需求设定，例如，可以设定为30米(m)，本公开实施例对此不作限制。

通过以上步骤，本公开实施例中，针对每种场景类别的第一行车场景，都提供了对应的目标障碍物确定策略，而避免采用统一的目标障碍物确定策略，从而保证衍生出的第二行车场景与第一行车场景具有不同的场景类别，也即，保证主车在第一行车场景和第二行车场景中具有不同的驾驶风险状态，以提高场景表征模型的训练效果，从而进一步提高场景表征结果的准确性。

在一些可选的实施方式中，“在第一行车场景中对目标障碍物进行调整，获得待定行车场景”可以包括以下步骤：

在场景类别为安全场景的情况下，在第一行车场景中对目标障碍物进行位姿调整和/或行驶时间调整，获得待定行车场景；

和/或，在场景类别为碰撞场景或急刹场景的情况下，在第一行车场景中将目标障碍物移除，获得待定行车场景。

其中，对目标障碍物进行位姿调整可以是对目标障碍物的位置和/或姿态进行调整，以使目标障碍物更靠近主车，对目标障碍物进行行驶时间调整可以是在目标障碍物属于可移动障碍物的情况下，对目标障碍物进入第一行车场景的时间进行调整，以使目标障碍物更靠近主车。例如，在第一行车场景中，目标障碍物位于主车之前的情况下，可以控制目标障碍物提前进入第一行车场景，在第一行车场景中，目标障碍物位于主车之后的情况下，可以推后目标障碍物进入第一行车场景的时间。

请结合图2A和图2B，第一行车场景201中包括主车202，在第一行车场景201的场景类别为安全场景的情况下，可以从第一行车场景201中选取对应的第一后验决策为避让的第一待定障碍物，作为目标障碍物203。此后，可以在第一行车场景201中对目标障碍物203进行位姿调整和/或行驶时间调整，获得待定行车场景204。

请结合图3A和图3B，第一行车场景301中包括主车302，在第一行车场景301的场景类别为碰撞场景或急刹场景的情况下，可以从第一行车场景301中选取与主车的间隔距离小于第一距离阈值的任意障碍物，作为目标障碍物303。由于碰撞风险或急刹风险可能是目标障碍物303造成的，因此，可以在第一行车场景301中直接将目标障碍物303移除，获得待定行车场景304。

通过以上步骤，本公开实施例中，可以在场景类别为安全场景的情况下，在第一行车场景中对目标障碍物进行位姿调整和/或行驶时间调整，获得待定行车场景；在场景类别为碰撞场景或急刹场景的情况下，直接在第一行车场景中将目标障碍物移除，获得待定行车场景，从而简化待定行车场景的创建流程，以进一步提高场景表征模型的训练效率。

在一些可选的实施方式中，“基于第一场景信息和第二场景信息，对场景表征模型进行训练”可以包括以下步骤：

将目标场景信息输入场景表征模型，以通过场景表征模型从目标场景信息中提取主车的融合特征，以及从目标场景信息中提取障碍物特征；其中，目标场景信息为第一场景信息和第二场景信息中的任一场景信息；

获取场景表征模型基于主车的融合特征和障碍物特征之间的相关性输出的场景表征结果；其中，在目标场景信息为第一场景信息的情况下，场景表征结果为第一表征结果，在目标场景信息为第二场景信息的情况下，场景表征结果为第二表征结果；

基于第一表征结果和第二表征结果，对场景表征模型进行训练。

如前所述的，本公开实施例中，在目标场景信息为第一场景信息的情况下，第一场景信息可以包括第一主车信息和第一障碍信息。在一具体示例中，可以预先设定多个第一采样时间点，第一主车信息可以包括每个第一采样时间点上，从第一行车场景中采集到的主车的速度信息、加速度信息和位姿信息等，第一障碍信息可以包括第一行车场景中任一障碍物的障碍类型，具体可以是可移动障碍物或固定障碍物，对于第一行车场景中的每个障碍物，在该障碍物的障碍类型为可移动障碍物的情况下，第一障碍信息还可以包括每个第一采样时间点上，从第一行车场景中采集到的该障碍物的速度信息、加速度信息和位姿信息等，在该障碍物的障碍类型为固定障碍物的情况下，第一障碍信息还可以包括该障碍物在第一行车场景中所对应的区域位置等。其中，第一采样时间点的总数量可以根据实际应用需求设定，例如，可以设定为16个、且相邻的两个第一采样时间点可以间隔0.1秒(s)，本公开实施例对此不作限制。

同样，本公开实施例中，在目标场景信息为第二场景信息的情况下，第二场景信息可以包括第二主车信息和第二障碍信息。在一具体示例中，可以预先设定多个第二采样时间点，第二主车信息可以包括每个第二采样时间点上，从第二行车场景中采集到的主车的速度信息、加速度信息和位姿信息等，第二障碍信息可以包括第二行车场景中任一障碍物的障碍类型，具体可以是可移动障碍物或固定障碍物，对于第二行车场景中的每个障碍物，在该障碍物的障碍类型为可移动障碍物的情况下，第二障碍信息还可以包括每个第二采样时间点上，从第二行车场景中采集到的该障碍物的速度信息、加速度信息和位姿信息等，在该障碍物的障碍类型为固定障碍物的情况下，第二障碍信息还可以包括该障碍物在第二行车场景中所对应的区域位置等。其中，第二采样时间点的总数量可以根据实际应用需求设定，例如，可以设定为16个、且相邻的两个第二采样时间点可以间隔0.1秒(s)，本公开实施例对此不作限制。

请结合图4A，对于场景表征模型400，在一具体示例中，其可以包括编码器模块401和第一注意力模块402。

其中，编码器模块401用于对目标场景信息中的主车信息进行编码，从目标场景信息中提取主车的独立特征，并将其直接作为主车的融合特征，以及对目标场景信息中的障碍物信息进行编码，从目标场景信息中提取障碍物特征，具体可以包括对应行车场景中任一障碍物的特征信息。此后，通过第一注意力模块，基于主车的融合特征与障碍物特征之间的相关性，获得场景表征结果。

其中，编码器模块401可以是任意可用的特征编码器，第一注意力模块402可以是基于注意力机制实现的神经网络模块。

为进一步提高场景表征结果的准确性，本公开实施例中，第一场景信息除可以包括第一主车信息和第一障碍信息之外，还可以包括第一交通指示信息，例如，车道、停止线、人行横道、交通指示牌等交通指示标志的相关信息，具体可以包括车道的宽度信息、停止线的位置信息、人行横道的位置信息、交通指示牌的语义信息等。同样，第二场景信息除可以包括第二主车信息和第二障碍信息之外，还可以包括第二交通指示信息，例如，车道、停止线、人行横道、交通指示牌等交通指示标志的相关信息，具体可以包括车道的宽度信息、停止线的位置信息、人行横道的位置信息、交通指示牌的语义信息等。基于此，请结合图4B，对于场景表征模型400，在另一具体示例中，其除可以包括编码器模块401和第一注意力模块402之外，还可以包括交通指示处理模块403和第二注意力模块404。

其中，编码器模块401用于对目标场景信息中的主车信息进行编码，从目标场景信息中提取主车的独立特征，以及对目标场景信息中的障碍物信息进行编码，从目标场景信息中提取障碍物特征，具体可以包括对应行车场景中任一障碍物的特征信息。交通指示处理模块403用于对目标场景信息中的交通指示信息进行编码，从目标场景信息中提取交通指示特征，具体可以包括对应行车场景中的车道、停止线、人行横道、交通指示牌等交通指示标志的特征信息。此后，通过第二注意力模块404，基于主车的独立特征与交通指示特征之间的相关性，获得主车的融合特征。最后，通过第一注意力模块402，基于主车的融合特征与障碍物特征之间的相关性，获得场景表征结果。

其中，编码器模块401可以是任意可用的特征编码器，第一注意力模块402和第二注意力模块404可以是基于注意力机制实现的神经网络模块，具体地，第一注意力模块402和第二注意模块404可以是基于交叉注意力(Cross-Attention)机制实现的注意力网络中包括的两个注意力模块，交通指示处理模块403可以包括多个由卷积神经网络(Convolutional Neural Networks，CNN)4031和自注意力(Self-Attention)模块4032组成的特征提取网络，以及特征融合模块4033，每个特征提取网络对应一个交通指示标志，用于对该交通指示标志所对应的交通指示信息进行编码，获得该交通指示标志的独立特征，特征融合模块4033用于对所有交通指示标志的独立特征进行融合，获得交通指示特征。

此外，需要说明的是，本公开实施例中，由于第一注意力模块402可以是基于注意力机制实现的神经网络模块，因此，在获得主车的融合特征和障碍物特征之后，第一注意力模块402“基于主车的融合特征与障碍物特征之间的相关性，获得场景表征结果”可以包括：根据主车的融合特征，获得查询参数，以及根据障碍物特征，获得键参数；基于查询参数和键参数，计算主车的融合特征与障碍物特征之间的相关性；基于主车的融合特征与障碍物特征之间的相关性，获得场景表征结果。其中：

Query1＝X11*W1^Q

Key1＝X12*W1^K

其中，Query1为查询参数，X11为主车的融合特征，W^1Q为可学习的第一参数矩阵，Key1为键参数，X12为障碍物特征，W1 ^K为可学习的第二参数矩阵。

本公开实施例中，在目标场景信息为第一场景信息的情况下，场景表征结果为第一表征结果，在目标场景信息为第二场景信息的情况下，场景表征结果为第二表征结果。

在获得第一表征结果和第二表征结果之后，可以获取第一表征结果与第二表征结果之间的第一损失；在第一损失满足第一损失要求的情况下，获得经过训练的场景表征模型；在第一损失不满足第一损失要求的情况下，对场景表征模型进行参数调整，例如，包括对第一参数矩阵和第二参数矩阵进行调整。其中，第一损失可以是第一余弦相似度，第一损失要求可以是第一损失小于第一相似度阈值，第一相似度阈值可以根据实际应用需求设定，例如，可以设定为0.3，本公开实施例对此不作限制。

通过以上步骤，本公开实施例中，可以将目标场景信息输入场景表征模型，以通过场景表征模型从目标场景信息中提取主车的融合特征，以及从目标场景信息中提取障碍物特征，再获取场景表征模型基于主车的融合特征和障碍物特征之间的相关性输出的场景表征结果。其中，在目标场景信息为第一场景信息的情况下，场景表征结果为第一表征结果，在目标场景信息为第二场景信息的情况下，场景表征结果为第二表征结果。最后，基于第一表征结果和第二表征结果，对场景表征模型进行训练。该过程中，由于场景表征结果是场景表征模型基于主车的融合特征和障碍物特征之间的相关性输出的，因此，场景表征结果可以体现特征信息之间的互作影响，以进一步提高场景表征结果的准确性。

此外，如前所述的，在场景表征模型具有如图4B所示网络结构的情况下，“从目标场景信息中提取主车的融合特征”可以包括以下步骤：

从目标场景信息中提取主车的独立特征；

从目标场景信息中提取交通指示特征；

基于主车的独立特征和交通指示特征，获得主车的融合特征。

其中，交通指示特征可以包括对应行车场景中的车道、停止线、人行横道、交通指示牌等交通指示标志的特征信息。

通过以上步骤，本公开实施例中，可以从目标场景信息中提取主车的独立特征，再从目标场景信息中提取交通指示特征，并基于主车的独立特征和交通指示特征，获得主车的融合特征，以使主车的融合特征除了携带主车的独立特征之外，还携带交通指示特征，从而增强主车的融合特征的可表征性，以进一步提高场景表征模型的训练效果。

在一些可选的实施方式中，场景表征模型训练方法还包括以下步骤：

获取第三行车场景的第三场景信息；

获取第四行车场景的第四场景信息；其中，第三行车场景与第四行车场景存在非关键障碍物的分布差异；

基于第三场景信息和第四场景信息，对场景表征模型进行训练。

其中，第三行车场景可以是主车的历史行车场景，第四行车场景可以是通过对第三行车场景中的非关键障碍物进行调整，获得的衍生行车场景。因此，第四行车场景与第三行车场景存在非关键障碍物的分布差异，关键障碍物不改变主车的驾驶风险状态。

本公开实施例中，第三场景信息可以包括第三主车信息和第三障碍信息。其中，第三主车信息可以包括主车在第三行车场景中的速度信息、加速度信息和位姿信息等，第三障碍信息可以包括第三行车场景中障碍物的障碍类型，具体可以是可移动障碍物或固定障碍物，在障碍类型为可移动障碍物的情况下，第三障碍信息还可以包括障碍物在第三行车场景中的速度信息、加速度信息和位姿信息等，在障碍类型为固定障碍物的情况下，第三障碍信息还可以包括障碍物在第三行车场景中所对应的区域位置等。

同样，本公开实施例中，第四场景信息可以包括第四主车信息和第四障碍信息。其中，第四主车信息可以包括主车在第四行车场景中的速度信息、加速度信息和位姿信息等，第四障碍信息可以包括第四行车场景中障碍物的障碍类型，具体可以是可移动障碍物或固定障碍物，在障碍类型为可移动障碍物的情况下，第四障碍信息还可以包括障碍物在第四行车场景中的速度信息、加速度信息和位姿信息等，在障碍类型为固定障碍物的情况下，第四障碍信息还可以包括障碍物在第四行车场景中所对应的区域位置等。

为进一步提高场景表征结果的准确性，本公开实施例中，第三场景信息除可以包括第三主车信息和第三障碍信息之外，还可以包括第三交通指示信息，例如，车道、停止线、人行横道、交通指示牌等交通指示标志的相关信息，具体可以包括车道的宽度信息、停止线的位置信息、人行横道的位置信息、交通指示牌的语义信息等。同样，第四场景信息除可以包括第四主车信息和第四障碍信息之外，还可以包括第四交通指示信息，例如，车道、停止线、人行横道、交通指示牌等交通指示标志的相关信息，具体可以包括车道的宽度信息、停止线的位置信息、人行横道的位置信息、交通指示牌的语义信息等。

在获取到第三行车场景的第三场景信息，以及获取到第四行车场景的第四场景信息之后，可以基于第三场景信息和第四场景信息，对场景表征模型进行训练。

在一具体示例中，可以将第三场景信息输入场景表征模型，获得场景表征模型输出的第三表征结果；将第四场景信息输入场景表征模型，获得场景表征模型输出的第四表征结果；基于第三表征结果和第四表征结果，对场景表征模型进行训练。其中，“基于第三表征结果和第四表征结果，对场景表征模型进行训练”可以包括：获取第三表征结果与第四表征结果之间的第二损失；在第二损失满足第二损失要求的情况下，获得经过训练的场景表征模型；在第二损失不满足第二损失要求的情况下，对场景表征模型进行参数调整。其中，第二损失可以是第二余弦相似度，第二损失要求可以是第二余弦相似度大于第二相似度阈值，第二相似度阈值可以根据实际应用需求设定，例如，可以设定为0.95，本公开实施例对此不作限制。

此外，需要说明的是，本公开实施例中，场景表征模型可以先基于第一场景信息和第二场景信息进行训练，再基于第三场景信息和第四场景信息进行训练，也可以先基于第三场景信息和第四场景信息进行训练，再基于第一场景信息和第二场景信息进行训练，本公开实施例对此不作限制。

还需要说明的是，本公开实施例中，基于第三场景信息和第四场景信息，对场景表征模型进行训练的过程，可以参见前述“基于第一场景信息和第二场景信息，对场景表征模型进行训练”的相关描述，在此不作赘述。

通过以上步骤，本公开实施例中，可以获取第三行车场景的第三场景信息；获取第四行车场景的第四场景信息；基于第三场景信息和第四场景信息，对场景表征模型进行训练。其中，第四行车场景与第三行车场景存在非关键障碍物的分布差异，使得本公开实施例中还可以通过存在非关键障碍物的分布差异的相似场景对(第三行车场景和第四行车场景)训练场景表征模型，这可以进一步提高场景表征模型对于关键障碍物的感知处理能力，从而进一步提高场景表征结果中关键障碍物的信息占比和准确性，以进一步提高场景表征结果的准确性。

如前所述的，本公开实施例中，第三行车场景可以是主车的历史行车场景，第四行车场景可以是通过对第三行车场景中的关键障碍物进行调整，获得的衍生行车场景。基于此，在一些可选的实施方式中，场景表征模型训练方法还可以包括以下步骤：

从第三行车场景中选取与主车的间隔距离大于第二距离阈值的任意障碍物，作为第二待定障碍物；

在第二待定障碍物所对应的第二后验决策为忽略或更随、且第二待定障碍物在第三行车场景中的行驶路径与主车在第三行车场景中的行驶路径无交互的情况下，将第二待定障碍物确定为非关键障碍物；其中，第二后验决策为主车对第二待定障碍物做出的驾驶决策；

在第三行车场景中将非关键障碍物移除，获得第四行车场景。

其中，第二距离阈值可以根据实际应用需求设定，例如，可以设定为15m，本公开实施例对此不作限制。

其中，第二待定障碍物在第三行车场景中的行驶路径与主车在第三行车场景中的行驶路径无交互可以理解为：第二待定障碍物在第三行车场景中的行驶路径与主车在第三行车场景中的行驶路径无交叉点。

请结合图5A和图5B，第三行车场景501中包括主车502，从第三行车场景501中选取与主车502的间隔距离大于第二距离阈值的任意障碍物，作为第二待定障碍物503。第二待定障碍物503所对应的第二后验决策为忽略、且第二待定障碍物503在第三行车场景501中的行驶路径504与主车502在第三行车场景501中的行驶路径505无交互，因此，可以将第二待定障碍物503确定为非关键障碍物，再在第三行车场景中将非关键障碍物移除，获得第四行车场景506。

通过以上步骤，本公开实施例中，一方面，可以从第三行车场景中选取与主车的间隔距离大于第二距离阈值的任意障碍物，作为第二待定障碍物，再在第二待定障碍物所对应的第二后验决策为忽略或更随、且第二待定障碍物在第三行车场景中的行驶路径与主车在第三行车场景中的行驶路径无交互的情况下，将第二待定障碍物确定为非关键障碍物，从而保证非关键障碍物的可靠性，以进一步提高场景表征模型的训练效果。另一方面，在将第二待定障碍物确定为非关键障碍物之后，可以直接在第三行车场景中将非关键障碍物移除，获得第四行车场景，从而简化第四行车场景的创建流程，以进一步提高场景表征模型的训练效率。

以下，将对本公开实施例提供的一种场景表征模型训练方法的完整性流程进行说明。

获取第一行车场景。

从第一行车场景中选取目标障碍物；在第一行车场景中对目标障碍物进行调整，获得待定行车场景；在待定行车场景中对主车进行自动驾驶仿真，获得主车在待定行车场景中行驶时所对应的仿真风险状态；在仿真风险状态与历史风险状态不同的情况下，将目标障碍物确定为关键障碍物，以及将待定行车场景确定为第二行车场景；其中，历史风险状态为主车在第一行车场景中行驶时所对应的真实风险状态。

获取第一行车场景的第一场景信息。

获取第二行车场景的第二场景信息。

将第一场景信息输入场景表征模型，获得场景表征模型输出的第一表征结果；将第二场景信息输入场景表征模型，获得场景表征模型输出的第二表征结果。

获取第一表征结果与第二表征结果之间的第一损失；在第一损失满足第一损失要求的情况下，获得经过训练的场景表征模型；在第一损失不满足第一损失要求的情况下，对场景表征模型进行参数调整。其中，第一损失可以是第一余弦相似度，第一损失要求可以是第一余弦相似度小于第一相似度阈值，第一相似度阈值可以根据实际应用需求设定，例如，可以设定为0.3，本公开实施例对此不作限制。

获取第三行车场景。

从第三行车场景中选取与主车的间隔距离大于第二距离阈值的任意障碍物，作为第二待定障碍物；在第二待定障碍物所对应的第二后验决策为忽略或更随、且第二待定障碍物在第三行车场景中的行驶路径与主车在第三行车场景中的行驶路径无交互的情况下，将第二待定障碍物确定为非关键障碍物；其中，第二后验决策为主车对第二待定障碍物做出的驾驶决策；在第三行车场景中将非关键障碍物移除，获得第四行车场景。

获取第三行车场景的第三场景信息。

获取第四行车场景的第四场景信息。

将第三场景信息输入场景表征模型，获得场景表征模型输出的第三表征结果；将第四场景信息输入场景表征模型，获得场景表征模型输出的第四表征结果。

获取第三表征结果与第四表征结果之间的第二损失；在第二损失满足第二损失要求的情况下，获得经过训练的场景表征模型；在第二损失不满足第二损失要求的情况下，对场景表征模型进行参数调整。其中，第二损失可以是第二余弦相似度，第二损失要求可以是第二余弦相似度大于第二相似度阈值，第二相似度阈值可以根据实际应用需求设定，例如，可以设定为0.95，本公开实施例对此不作限制。

请参阅图6，为本公开实施例提供的一种场景表征模型训练方法的场景示意图。

如前所述的，本公开实施例提供的场景表征模型训练方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、车机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

电子设备可以用于：

获取第一行车场景的第一场景信息；

其中，第一行车场景可以是主车的历史行车场景，第二行车场景可以是通过对第一行车场景中的关键障碍物进行调整，获得的衍生行车场景。

需要说明的是，本公开实施例中，图6所示的场景示意图仅为示意性而非限制性的，本领域技术人员可以基于图6示例进行各种显而易见的变化和/或替换，获得的技术方案仍属于本公开实施例的公开范围。

本公开实施例提供了一种障碍物标记方法，其可以应用于电子设备。以下，将结合图7所示流程示意图，对本公开实施例提供的一种障碍物标记方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其他顺序执行所示出或描述的步骤

步骤S701，获取当前行车场景的行车场景信息；

步骤S702，将行车场景信息输入经过训练的场景表征模型，以获得场景表征模型在基于行车场景信息输出当前场景表征结果的过程中，获得的中间参数；其中，场景表征模型是通过场景表征模型训练方法训练获得的；

步骤S703，基于中间参数，对当前行车场景中的当前障碍物进行标记，获得障碍物标记结果。

其中，当前行车场景可以是当前主车的真实行车场景。

当前场景信息可以包括当前主车信息和当前障碍信息。其中，当前主车信息可以包括当前主车在当前行车场景中的速度信息、加速度信息和位姿信息等，当前障碍信息可以包括当前行车场景中障碍物的障碍类型，具体可以是可移动障碍物或固定障碍物，在障碍类型为可移动障碍物的情况下，当前障碍信息还可以包括障碍物在当前行车场景中的速度信息、加速度信息和位姿信息等，在障碍类型为固定障碍物的情况下，当前障碍信息还可以包括障碍物在当前行车场景中所对应的区域位置等。

此外，本公开实施例中，场景表征模型可以具有如图4A所示网络结构，场景表征模型也可以具有如图4B所示网络结构。在场景表征模型具有如图4B所示网络结构的情况下，当前场景信息除可以包括当前主车信息和当前障碍信息之外，还可以包括当前交通指示信息，例如，车道、停止线、人行横道、交通指示牌等交通指示标志的相关信息，具体可以包括车道的宽度信息、停止线的位置信息、人行横道的位置信息、交通指示牌的语义信息等。

本公开实施例中，“将行车场景信息输入经过训练的场景表征模型，以获得场景表征模型在基于行车场景信息输出当前场景表征结果”的过程，可以参见前述“将目标场景信息输入场景表征模型，以通过场景表征模型从目标场景信息中提取主车的融合特征，以及从目标场景信息中提取障碍物特征；获取场景表征模型基于主车的融合特征和障碍物特征之间的相关性输出的场景表征结果”的相关描述，在此不作赘述。

在获得障碍物标记结果之后，可以基于障碍物标记结果，获得针对每个被标记的当前障碍物的行为决策，在此不作赘述。

采用本公开实施例提供的障碍物标记方法，可以获取当前行车场景的行车场景信息；将行车场景信息输入经过训练的场景表征模型，以获得场景表征模型在基于行车场景信息输出当前场景表征结果的过程中，获得的中间参数；其中，场景表征模型是通过场景表征模型训练方法训练获得的；基于中间参数，对当前行车场景中的当前障碍物进行标记，获得障碍物标记结果。由于场景表征模型是可学习的神经网络模型，因此，相对于现有技术而言，基于由场景表征模型获得的中间参数，对当前行车场景中的当前障碍物进行标记，获得障碍物标记结果，可以提高障碍物标记结果的准确性。

本公开实施例中，中间参数可以包括从当前场景信息中提取的当前主车的融合特征，以及从当前场景信息中提取的当前障碍物特征。基于此，在一些可选的实施方式中，“基于中间参数，对当前行车场景中的障碍物进行标记”可以包括以下步骤：

基于当前主车的融合特征和当前障碍物特征，对当前行车场景中的多个当前障碍物进行关键度排序；

从多个当前障碍物中选取关键度排序靠前的目标数量个当前障碍物，作为待标记障碍物；

对待标记当前障碍物进行标记，获得障碍物标记结果。

如前所述的，本公开实施例中，场景表征模型可以包括第一注意力模块，而第一注意力模块可以是基于注意力机制实现的神经网络模块，因此，在其获得当前主车的融合特征和当前障碍物特征之后，将当前主车的融合特征和当前障碍物特征作为中间参数，并据此获得场景表征结果可以包括：根据当前主车的融合特征，获得当前查询参数，以及根据当前障碍物特征，获得当前键参数；基于当前查询参数和当前键参数，计算当前主车的融合特征与当前障碍物特征之间的相关性；基于当前主车的融合特征与当前障碍物特征之间的相关性，获得当前场景表征结果。其中：

Query2＝X21*W2^Q

Key2＝X22*W2^K

其中，Query2为当前查询参数，X21为当前主车的融合特征，W2^Q为第三参数矩阵，也即，经过调整的第一参数矩阵，Key2为当前键参数，也即，经过调整的第二参数矩阵，X22为当前障碍物特征，W2^K为第四参数矩阵。

在获得当前查询参数和当前键参数之后，可以通过第一功能函数，对当前查询参数和当前键参数进行处理，获得当前行车场景中，每个当前障碍物对主车的影响程度。其中，当前障碍物为当前行车场景中，被场景表征模型感知到的障碍物。该过程具体可以表征为：

attn_score＝matmul(Query2,Key2)

其中，attn_score为当前行车场景中的每个当前障碍物对主车的影响程度，matmul()为第一功能函数。

此后，可以通过第二功能函数，对当前行车场景中的每个当前障碍物进行由大致小的关键度排序。该过程具体可以表征为：

importance_rank＝Sort(attn_score)

其中，importance_rank为当前行车场景中的每个当前障碍物的注意力权重排序结果，Sort()为第二功能函数。

最后，可以从多个当前障碍物中选取关键度排序靠前的目标数量个当前障碍物，作为待标记障碍物，并对待标记当前障碍物进行标记，获得障碍物标记结果。其中，目标数量可以根据实际应用需求设定，例如，可以设定为4，本公开实施例对此不作限制。

通过以上步骤，本公开实施例中，可以基于当前主车的融合特征和当前障碍物特征，对当前行车场景中的多个当前障碍物进行关键度排序，再从多个当前障碍物中选取关键度排序靠前的目标数量个当前障碍物，作为待标记障碍物，并对待标记当前障碍物进行标记，获得障碍物标记结果。由于本公开实施例中，是基于当前主车的融合特征和当前障碍物特征，对当前行车场景中的多个当前障碍物进行关键度排序的，考虑到了每个当前障碍物与当前主车之间的相关性，因此，可以提高排序结果的可靠性，以进一步提高障碍物标记结果的准确性。

以下，将对本公开实施例提供的一种障碍物标记方法的完整性流程进行说明。

获取当前行车场景的行车场景信息。

将行车场景信息输入经过训练的场景表征模型，以获得场景表征模型在基于行车场景信息输出当前场景表征结果的过程中，获得的中间参数；其中，场景表征模型是通过场景表征模型训练方法训练获得的，中间参数可以包括从当前场景信息中提取的当前主车的融合特征，以及从当前场景信息中提取的当前障碍物特征。

基于当前主车的融合特征和当前障碍物特征，对当前行车场景中的多个当前障碍物进行关键度排序；从多个当前障碍物中选取关键度排序靠前的目标数量个当前障碍物，作为待标记障碍物；对待标记当前障碍物进行标记，获得障碍物标记结果。

请参阅图8，为本公开实施例提供的一种障碍物标记方法的场景示意图。

如前所述的，本公开实施例提供的障碍物标记方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，例如，车机。

电子设备可以用于：

获取当前行车场景的行车场景信息；

将行车场景信息输入经过训练的场景表征模型，以获得场景表征模型在基于行车场景信息输出当前场景表征结果的过程中，获得的中间参数；其中，场景表征模型是通过场景表征模型训练方法训练获得的；

其中，当前行车场景可以是当前主车的真实行车场景。

本公开实施例中，可以通过当前主车上安装的感知系统，对行车环境进行感知，获得环境感知数据，再由电子设备基于环境感知数据，构建当前行车场景，并获取当前行车场景的行车场景信息。其中，感知系统可以包括成像单元、激光雷达、毫米波雷达、超声波雷达等，本公开实施例对此不作限制。

需要说明的是，本公开实施例中，图8所示的场景示意图仅为示意性而非限制性的，本领域技术人员可以基于图8示例进行各种显而易见的变化和/或替换，获得的技术方案仍属于本公开实施例的公开范围。

为了更好地实施场景表征模型训练方法，本公开实施例还提供一种场景表征模型训练装置900，其具体可以集成在电子设备中。以下，将结合图9所示结构示意图，对公开实施例提供的一种场景表征模型训练装置900进行说明。

场景表征模型训练装置900可以包括：

第一信息获取单元901，用于获取第一行车场景的第一场景信息；

第二信息获取单元902，用于获取第二行车场景的第二场景信息；其中，第二行车场景与第一行车场景存在关键障碍物的分布差异，关键障碍物用于改变主车的驾驶风险状态；

第一模型训练单元903，用于基于第一场景信息和第二场景信息，对场景表征模型进行训练。

在一些可选的实施方式中，第一行车场景为主车的历史行车场景，装置还包括第一场景创建单元，用于：

从第一行车场景中选取目标障碍物；

在一些可选的实施方式中，第一场景创建单元用于：

确定第一行车场景的场景类别；

在一些可选的实施方式中，第一场景创建单元用于：

在一些可选的实施方式中，第一模型训练单元903用于：

从目标场景信息中提取主车的独立特征；

从目标场景信息中提取交通指示特征；

在一些可选的实施方式中，场景表征模型训练装置900还包括第二模型训练单元，用于：

获取第三行车场景的第三场景信息；

在一些可选的实施方式中，第三行车场景为主车的历史行车场景，装置还包括第二场景创建单元，用于：

本公开实施例中，场景表征模型训练装置900的各单元的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不作赘述。

为了更好地实施障碍物标记方法，本公开实施例还提供一种障碍物标记装置，其具体可以集成在电子设备中。以下，将结合图10所示结构示意图，对公开实施例提供的一种障碍物标记装置1000进行说明。

障碍物标记装置1000可以包括：

当前信息获取单元1001，用于获取当前行车场景的行车场景信息；

中间参数获取单元1002，用于将行车场景信息输入经过训练的场景表征模型，以获得场景表征模型在基于行车场景信息输出当前场景表征结果的过程中，获得的中间参数；其中，场景表征模型是通过权利要求1～8中任一项的方法训练获得的；

障碍物标记单元1003，用于基于中间参数，对当前行车场景中的当前障碍物进行标记，获得障碍物标记结果。

在一些可选的实施方式中，中间参数包括从当前场景信息中提取的当前主车的融合特征，以及从当前场景信息中提取的当前障碍物特征；障碍物标记单元1003用于：

目标数量个当前障碍物从多个当前障碍物中选取关键度排序靠前的目标数量个当前障碍物，作为待标记障碍物；

对待标记当前障碍物进行标记，获得障碍物标记结果。

本公开实施例中，障碍物标记装置1000的各单元的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不作赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种自动驾驶车辆、一种可读存储介质及一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备1100旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备1100还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1102中的计算机程序或从存储单元1108加载到随机访问存储器(RandomAccess Memory，RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Process，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如，场景表征模型训练方法和/或障碍物标记方法。例如，在一些实施例中，场景表征模型训练方法和/或障碍物标记方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的场景表征模型训练方法和/或障碍物标记方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行场景表征模型训练方法和/或障碍物标记方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(ApplicationSpecific Standard Product，ASSP)、芯片上系统的系统(System On Chip，SOC)、负载可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或多个计算机程序中，该一个或多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)或快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)显示器或液晶显示器(Liquid Crystal Display，LCD))；以及键盘和指向装置(例如，鼠标或轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或包括中间件部件的计算系统(例如，应用服务器)、或包括前端部件的计算系统(例如，具有图形用户界面或网络浏览器的用户计算机，用户可以通过该图形用户界面或该网络浏览器来与此处描述的系统和技术的实施方式交互)、或包括这种后台部件、中间件部件、或前端部件的任何组合的计算系统中。可以通过任何形式或介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local AreaNetwork，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或是结合了区块链的服务器。

本公开实施例还提供了一种自动驾驶车辆，包括电子设备1100。

本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行场景表征模型训练方法和/或障碍物标记方法。

本公开实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现场景表征模型训练方法和/或障碍物标记方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。此外，本公开中，诸如“第一”、“第二”、“第三”等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。此外，本公开中“多个”可以理解为至少两个，“任一”可以理解为任何一个。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种场景表征模型训练方法，包括：

获取第一行车场景的第一场景信息；

获取第二行车场景的第二场景信息；其中，所述第二行车场景与所述第一行车场景存在关键障碍物的分布差异，所述关键障碍物用于改变主车的驾驶风险状态；

基于所述第一场景信息和所述第二场景信息，对所述场景表征模型进行训练。

2.根据权利要求1所述的方法，其中，所述第一行车场景为所述主车的历史行车场景，所述方法还包括：

从所述第一行车场景中选取目标障碍物；

在所述第一行车场景中对所述目标障碍物进行调整，获得待定行车场景；

在所述待定行车场景中对所述主车进行自动驾驶仿真，获得所述主车在所述待定行车场景中行驶时所对应的仿真风险状态；

在所述仿真风险状态与历史风险状态不同的情况下，将所述目标障碍物确定为所述关键障碍物，以及将所述待定行车场景确定为所述第二行车场景；其中，所述历史风险状态为所述主车在所述第一行车场景中行驶时所对应的真实风险状态。

3.根据权利要求2所述的方法，其中，所述从所述第一行车场景中选取目标障碍物，包括：

确定所述第一行车场景的场景类别；

在所述场景类别为安全场景的情况下，从所述第一行车场景中选取对应的第一后验决策为避让的第一待定障碍物，作为所述目标障碍物；其中，所述第一后验决策为所述主车对所述第一待定障碍物做出的驾驶决策；

在所述场景类别为碰撞场景或急刹场景的情况下，从所述第一行车场景中选取与所述主车的间隔距离小于第一距离阈值的任意障碍物，作为所述目标障碍物。

4.根据权利要求3所述的方法，其中，所述在所述第一行车场景中对所述目标障碍物进行调整，获得待定行车场景，包括：

在所述场景类别为安全场景的情况下，在所述第一行车场景中对所述目标障碍物进行位姿调整和/或行驶时间调整，获得所述待定行车场景；

和/或，在所述场景类别为碰撞场景或急刹场景的情况下，在所述第一行车场景中将所述目标障碍物移除，获得所述待定行车场景。

5.根据权利要求1～4中任一项所述的方法，其中，所述基于所述第一场景信息和所述第二场景信息，对所述场景表征模型进行训练，包括：

将目标场景信息输入所述场景表征模型，以通过所述场景表征模型从所述目标场景信息中提取所述主车的融合特征，以及从所述目标场景信息中提取障碍物特征；其中，所述目标场景信息为所述第一场景信息和所述第二场景信息中的任一场景信息；

获取所述场景表征模型基于所述主车的融合特征和所述障碍物特征之间的相关性输出的场景表征结果；其中，在所述目标场景信息为所述第一场景信息的情况下，所述场景表征结果为第一表征结果，在所述目标场景信息为所述第二场景信息的情况下，所述场景表征结果为第二表征结果；

基于所述第一表征结果和所述第二表征结果，对所述场景表征模型进行训练。

6.根据权利要求5所述的方法，其中，所述从所述目标场景信息中提取所述主车的融合特征，包括：

从所述目标场景信息中提取所述主车的独立特征；

从所述目标场景信息中提取交通指示特征；

基于所述主车的独立特征和所述交通指示特征，获得所述主车的融合特征。

7.根据权利要求1所述的方法，还包括：

获取第三行车场景的第三场景信息；

获取第四行车场景的第四场景信息；其中，所述第三行车场景与所述第四行车场景存在非关键障碍物的分布差异；

基于所述第三场景信息和所述第四场景信息，对所述场景表征模型进行训练。

8.根据权利要求7所述的方法，其中，所述第三行车场景为所述主车的历史行车场景，所述方法还包括：

从所述第三行车场景中选取与所述主车的间隔距离大于第二距离阈值的任意障碍物，作为第二待定障碍物；

在所述第二待定障碍物所对应的第二后验决策为忽略或更随、且所述第二待定障碍物在所述第三行车场景中的行驶路径与所述主车在所述第三行车场景中的行驶路径无交互的情况下，将所述第二待定障碍物确定为非关键障碍物；其中，所述第二后验决策为所述主车对所述第二待定障碍物做出的驾驶决策；

在所述第三行车场景中将所述非关键障碍物移除，获得所述第四行车场景。

9.一种障碍物标记方法，包括：

获取当前行车场景的行车场景信息；

将所述行车场景信息输入经过训练的场景表征模型，以获得所述场景表征模型在基于所述行车场景信息输出当前场景表征结果的过程中，获得的中间参数；其中，所述场景表征模型是通过权利要求1～8中任一项所述的方法训练获得的；

基于所述中间参数，对所述当前行车场景中的当前障碍物进行标记，获得障碍物标记结果。

10.根据权利要求9所述的方法，其中，所述中间参数包括从所述当前场景信息中提取的当前主车的融合特征，以及从所述当前场景信息中提取的当前障碍物特征；所述基于所述中间参数，对所述当前行车场景中的障碍物进行标记，包括：

基于所述当前主车的融合特征和所述当前障碍物特征，对所述当前行车场景中的多个当前障碍物进行关键度排序；

从所述多个当前障碍物中选取关键度排序靠前的目标数量个当前障碍物，作为待标记障碍物；

对所述待标记障碍物进行标记，获得所述障碍物标记结果。

11.一种场景表征模型训练装置，包括：

第二信息获取单元，用于获取第二行车场景的第二场景信息；其中，所述第二行车场景与所述第一行车场景存在关键障碍物的分布差异，所述关键障碍物用于改变主车的驾驶风险状态；

第一模型训练单元，用于基于所述第一场景信息和所述第二场景信息，对所述场景表征模型进行训练。

12.根据权利要求11所述的装置，其中，所述第一行车场景为所述主车的历史行车场景，所述装置还包括第一场景创建单元，用于：

从所述第一行车场景中选取目标障碍物；

13.根据权利要求12所述的装置，其中，所述第一场景创建单元用于：

确定所述第一行车场景的场景类别；

14.根据权利要求13所述的装置，其中，所述第一场景创建单元用于：

15.根据权利要求11～14中任一项所述的装置，其中，所述第一模型训练单元用于：

16.根据权利要求15所述的装置，其中，所述第一模型训练单元用于：

从所述目标场景信息中提取所述主车的独立特征；

从所述目标场景信息中提取交通指示特征；

17.根据权利要求11所述的装置，还包括第二模型训练单元，用于：

获取第三行车场景的第三场景信息；

18.根据权利要求17所述的装置，其中，所述第三行车场景为所述主车的历史行车场景，所述装置还包括第二场景创建单元，用于：

在所述第二待定障碍物所对应的第二后验决策为忽略或更随、且所述第二待定障碍物在所述第三行车场景中的行驶路径与所述主车在所述第三行车场景中的行驶路径无交互的情况下，将所述第二待定障碍物确定为非关键目标障碍物；其中，所述第二后验决策为所述主车对所述第二待定障碍物做出的驾驶决策；

19.一种障碍物标记装置，包括：

中间参数获取单元，用于将所述行车场景信息输入经过训练的场景表征模型，以获得所述场景表征模型在基于所述行车场景信息输出当前场景表征结果的过程中，获得的中间参数；其中，所述场景表征模型是通过权利要求1～8中任一项所述的方法训练获得的；

障碍物标记单元，用于基于所述中间参数，对所述当前行车场景中的当前障碍物进行标记，获得障碍物标记结果。

20.根据权利要求19所述的装置，其中，所述中间参数包括从所述当前场景信息中提取的当前主车的融合特征，以及从所述当前场景信息中提取的当前障碍物特征；所述障碍物标记单元用于：

对所述待标记障碍物进行标记，获得所述障碍物标记结果。

21.一种电子设备，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～10中任一项所述的方法。

22.一种自动驾驶车辆，包括权利要求21所述的电子设备。

23.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～10中任一项所述的方法。

24.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～10中任一项所述的方法。