CN110126846B

CN110126846B - 驾驶场景的表示方法、装置、系统和存储介质

Info

Publication number: CN110126846B
Application number: CN201910443619.2A
Authority: CN
Inventors: 马晓波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2021-07-23
Anticipated expiration: 2039-05-24
Also published as: CN110126846A

Abstract

本发明实施例提出一种驾驶场景的表示方法、装置、系统和存储介质，其中的方法包括预处理原始场景序列，得到训练场景序列，其中，所述原始场景序列中的每帧原始数据均包括场景感知数据和驾驶行为数据，所述训练场景序列中的每帧训练数据均包括场景感知向量和驾驶行为向量；基于所述训练场景序列训练场景嵌入模型；将目标场景的感知数据输入训练好的场景嵌入模型，得到所述目标场景的表示向量。上述方法可以自动化训练场景嵌入模型，有效且低成本地实现将海量高维场景向量降维到可解释语义层面的效果。

Description

驾驶场景的表示方法、装置、系统和存储介质

技术领域

本发明涉及自动驾驶技术领域，尤其涉及一种驾驶场景的表示方法、装置、系统和存储介质。

背景技术

高速自动驾驶场景是一个复杂度相对城市道路场景更低的场景，但在高速行驶过程中，任何由于传感器误差或外界扰动产生的感知数据跳变都可能影响决策规划模块线上输出的一致性，而且这种情况下模块工作严重缺乏可解释性。此外，在自动驾驶车辆的决策规划模块的评测中，如何定义有效且典型的场景，如何避免冗余和提升效率，怎样保证构造的场景能全方位测试自动驾驶决策的完备性，也越来越成为决策模块产品化面临的一个重要问题。

当前，决策规划模块直接应用感知原始的物理数据，会将感知数据的原始误差无保护地直接透传，容易引起下游的异常和输出跳变，而且物理数据描述的场景本身就不具备可解释性；基于专家经验对原始的感知数据做“语义化”处理方案，会严重依赖领域知识，且对硬件方案或场景敏感，还会增加人工成本和开发周期。

发明内容

本发明实施例提供一种驾驶场景的表示方法、装置、系统和存储介质，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种驾驶场景的表示方法，包括：

预处理原始场景序列，得到训练场景序列，其中，所述原始场景序列中的每帧原始数据均包括场景感知数据和驾驶行为数据，所述训练场景序列中的每帧训练数据均包括场景感知向量和驾驶行为向量；

基于所述训练场景序列训练场景嵌入模型；

将目标场景的感知数据输入训练好的场景嵌入模型，得到所述目标场景的表示向量。

在一种实施方式中，预处理原始场景序列，得到训练场景序列，包括：

根据横向分辨率和纵向分辨率，将所述场景感知数据的物理感知范围划分为多个物理感知单元格；

根据所述场景感知数据中的障碍物信息，设置每个所述物理感知单元格中的参数信息；

用多个包含所述参数信息的物理感知单元格表示所述场景感知向量。

将所述驾驶行为数据映射到离散语义类别，得到所述驾驶行为向量。

在一种实施方式中，基于所述训练场景序列训练场景嵌入模型，包括：

从当前窗口的所述训练场景序列中，采样当前帧训练数据和正样本训练数据集，其中，所述正样本训练数据集包括所述当前帧训练数据的前N帧训练数据和后N帧训练数据，N为正整数；

从所述当前窗口之外的所述训练场景序列中，采样负样本训练数据集，其中，所述负样本训练数据集包括随机采样的2N帧训练数据；

基于所述当前帧训练数据、所述正样本训练数据集和所述负样本训练数据集训练所述场景嵌入模型。

在一种实施方式中，所述当前帧训练数据包括当前帧场景感知向量和当前帧驾驶行为向量，所述正样本训练数据集包括2N帧正样本场景感知向量和2N帧正样本驾驶行为向量，所述负样本训练数据集包括2N帧负样本场景感知向量和2N帧负样本驾驶行为向量，基于所述当前帧训练数据、所述正样本训练数据集和所述负样本训练数据集训练所述场景嵌入模型，包括：

将所述当前帧场景感知向量、2N帧所述正样本场景感知向量和2N帧所述负样本场景感知向量输入所述场景嵌入模型，分别得到当前帧嵌入向量、2N帧正样本嵌入向量和2N帧负样本嵌入向量；

根据每帧所述正样本嵌入向量与所述当前帧嵌入向量之间的相似度和第一行为权重，确定正样本相似度，所述第一行为权重根据所述正样本嵌入向量对应的驾驶行为向量与所述当前帧嵌入向量对应的驾驶行为向量之间的相似度确定；

根据每帧所述负样本嵌入向量与所述当前帧嵌入向量之间的相似度和第二行为权重，确定负样本相似度，所述第二行为权重根据所述负样本嵌入向量对应的驾驶行为向量与所述当前帧嵌入向量对应的驾驶行为向量之间的相似度确定；

根据所述正样本相似度和所述负样本相似度，调整所述场景嵌入模型的模型参数。

在一种实施方式中，根据所述正样本相似度和所述负样本相似度，调整所述场景嵌入模型的参数，包括：

以最大化所述正样本相似度和最小化所述负样本相似度为收敛目标，调整所述场景嵌入模型的模型参数。

在一种实施方式中，将目标场景的感知数据输入训练好的场景嵌入模型，得到所述目标场景的表示向量，包括：

将所述目标场景的两帧感知数据输入所述训练好的场景嵌入模型，分别得到第一表示向量和第二表示向量；

根据所述第一表示向量和所述第二表示向量之间的相似度，判断所述目标场景的变化度。

在一种实施方式中，所述目标场景包括第一目标场景和第二目标场景，将目标场景的感知数据输入训练好的场景嵌入模型，得到所述目标场景的表示向量，包括：

将所述第一目标场景的感知数据输入所述训练好的场景嵌入模型，得到第一场景嵌入向量；

将所述第二目标场景的感知数据输入所述训练好的场景嵌入模型，得到第二场景嵌入向量；

根据所述第一场景嵌入向量和所述第二场景嵌入向量之间的相似度，判断所述第一目标场景与所述第二目标场景是否属于同一类场景。

第二方面，本发明实施例提供一种模型训练装置，包括：

预处理模块，用于预处理原始场景序列，得到训练场景序列，其中，所述原始场景序列中的每帧原始数据均包括场景感知数据和驾驶行为数据，所述训练场景序列中的每帧训练数据均包括场景感知向量和驾驶行为向量；

训练模块，用于基于所述训练场景序列训练场景嵌入模型，所述场景嵌入模型用于对输入所述场景嵌入模型的目标场景的感知数据进行处理，得到所述目标场景的表示向量。

在一种实施方式中，所述预处理模块包括：

划分子模块，用于根据横向分辨率和纵向分辨率，将所述场景感知数据的物理感知范围划分为多个物理感知单元格；

设置子模块，用于根据所述场景感知数据中的障碍物信息，设置每个所述物理感知单元格中的参数信息；

表示子模块，用于用多个包含所述参数信息的物理感知单元格表示所述场景感知向量。

在一种实施方式中，所述预处理模块包括：

映射模块，用于将所述驾驶行为数据映射到离散语义类别，得到所述驾驶行为向量。

在一种实施方式中，所述训练模块包括：

第一采样子模块，用于从当前窗口的所述训练场景序列中，采样当前帧训练数据和正样本训练数据集，其中，所述正样本训练数据集包括所述当前帧训练数据的前N帧训练数据和后N帧训练数据，N为正整数；

第二采样子模块，用于从所述当前窗口之外的所述训练场景序列中，采样负样本训练数据集，其中，所述负样本训练数据集包括随机采样的2N帧训练数据；

训练子模块，用于基于所述当前帧训练数据、所述正样本训练数据集和所述负样本训练数据集训练所述场景嵌入模型。

在一种实施方式中，所述当前帧训练数据包括当前帧场景感知向量和当前帧驾驶行为向量，所述正样本训练数据集包括2N帧正样本场景感知向量和2N帧正样本驾驶行为向量，所述负样本训练数据集包括2N帧负样本场景感知向量和2N帧负样本驾驶行为向量，所述训练子模块包括：

输入单元，用于将所述当前帧场景感知向量、2N帧所述正样本场景感知向量和2N帧所述负样本场景感知向量输入所述场景嵌入模型，分别得到当前帧嵌入向量、2N帧正样本嵌入向量和2N帧负样本嵌入向量；

正样本相似度确定单元，用于根据每帧所述正样本嵌入向量与所述当前帧嵌入向量之间的相似度和第一行为权重，确定正样本相似度，所述第一行为权重根据所述正样本嵌入向量对应的驾驶行为向量与所述当前帧嵌入向量对应的驾驶行为向量之间的相似度确定；

负样本相似度确定单元，用于根据每帧所述负样本嵌入向量与所述当前帧嵌入向量之间的相似度和第二行为权重，确定负样本相似度，所述第二行为权重根据所述负样本嵌入向量对应的驾驶行为向量与所述当前帧嵌入向量对应的驾驶行为向量之间的相似度确定；

调整单元，用于根据所述正样本相似度和所述负样本相似度，调整所述场景嵌入模型的模型参数。

在一种实施方式中，所述调整单元还用于：

第三方面，本发明实施例提供一种驾驶场景的表示装置，包括：

应用模块，用于将目标场景的感知数据输入场景嵌入模型，得到所述目标场景的表示向量，所述场景嵌入模型为基于训练场景序列而训练得到，所述训练场景序列中的每帧训练数据均包括场景感知向量和驾驶行为向量。

在一种实施方式中，所述应用模块包括：

输入子模块，用于将所述目标场景的两帧感知数据输入所述训练好的场景嵌入模型，分别得到第一表示向量和第二表示向量；

判断子模块，用于根据所述第一表示向量和所述第二表示向量之间的相似度，判断所述目标场景的变化度。

在一种实施方式中，所述目标场景包括第一目标场景和第二目标场景，所述应用模块包括：

第一输入子模块，用于将所述第一目标场景的感知数据输入所述训练好的场景嵌入模型，得到第一场景嵌入向量；

第二输入子模块，用于将所述第二目标场景的感知数据输入所述训练好的场景嵌入模型，得到第二场景嵌入向量；

判断子模块，用于根据所述第一场景嵌入向量和所述第二场景嵌入向量之间的相似度，判断所述第一目标场景与所述第二目标场景是否属于同一类场景。

第四方面，本发明实施例提供了一种驾驶场景的表示系统，包括以上任一种模型训练装置以及以上任一种驾驶场景的表示装置。

第五方面，本发明实施例提供了一种驾驶场景的表示系统，包括模型训练设备和应用设备，所述模型训练设备包括：一个或多个第一处理器；第一存储器，用于存储一个或多个第一程序；当所述一个或多个第一程序被所述一个或多个第一处理器执行时，使得所述一个或多个第一处理器实现以下方法：预处理原始场景序列，得到训练场景序列，其中，所述原始场景序列中的每帧原始数据均包括场景感知数据和驾驶行为数据，所述训练场景序列中的每帧训练数据均包括场景感知向量和驾驶行为向量；基于所述训练场景序列训练场景嵌入模型；所述应用设备包括：一个或多个第二处理器；第二存储器，用于存储一个或多个第二程序；当所述一个或多个第二程序被所述一个或多个第二处理器执行时，使得所述一个或多个第二处理器实现以下方法：将目标场景的感知数据输入训练好的场景嵌入模型，得到所述目标场景的表示向量。

第六方面，本发明实施例提供了一种计算机可读存储介质，用于存储驾驶场景的表示设备所用的计算机软件指令，其包括用于执行上述驾驶场景的表示方法所涉及的程序。

本发明实施例的方法使用场景感知向量和驾驶行为向量作为输入，自动化训练场景嵌入模型，达到以无监督方式，有效且低成本地实现将海量高维场景向量降维到可解释语义层面的效果。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的驾驶场景的表示方法的流程图。

图2示出本发明实施例中的一个示例中的驾驶场景的表示方法的过程图。

图3示出本发明实施例中的物理感知单元格的示意图。

图4示出根据本实施例的一种实施方式中的驾驶场景的表示方法的流程图。

图5示出本发明实施例的另一种实施方式中的驾驶场景的表示方法的流程图。

图6示出根据本发明实施例的模型训练装置的结构框图。

图7示出根据本发明实施例的一种实施方式中的模型训练装置的结构框图。

图8示出根据本发明实施例的一种实施方式的驾驶场景的表示装置的结构框图。

图9示出根据本发明实施例的另一种实施方式中的驾驶场景的表示装置的结构框图。

图10示出用于本发明实施例的驾驶场景的表示系统的设备的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的驾驶场景的表示方法的流程图。如图1所示，该方法可以包括：

步骤S101、预处理原始场景序列，得到训练场景序列，其中，所述原始场景序列中的每帧原始数据均包括场景感知数据和驾驶行为数据，所述训练场景序列中的每帧训练数据均包括场景感知向量和驾驶行为向量。

原始场景序列可以包括多帧连续时序的原始数据，如{场景1，动作1}，…，{场景n，动作n}。其中，场景n可以表示场景感知数据，如传感器或雷达感知的原始点云或图像信号等原始数据，或这些原始数据与视觉融合的数据。场景感知数据可以包括车道线信息，如车道线方程、车道身份标识(Identity，ID)、限速等。场景感知数据还可以包括障碍物信息，如障碍物类型、位置、速度或加速度等。动作n可以表示驾驶行为数据，如油门、方向盘转角等底层物理数据。训练场景序列可以包括多帧连续时序的训练数据，如{场景感知向量1，驾驶行为向量1}，…，{场景感知向量n，驾驶行为向量n}。

如图2所示，原始数据可以表现为人类驾驶开环数据，可能存在频率不相同或异常数据的情况，因此可以对原始数据执行数据准备操作。数据准备操作可以包括数据对齐处理，使相同时间长度内的原始数据的数据量保持一致。数据准备操作还可以包括数据质量筛选，如存在某一段连续帧的车道线有跳变，感知时间戳异常等等问题，则将对齐后的这一段连续的原始数据从原始场景序列中移除。

继续参阅图2，预处理原始场景序列可以包括将非结构化的场景感知数据，进行结构化、标准化或规范化的向量化表示，得到场景感知向量(原始场景数据标准化过程)。预处理原始场景序列还可以包括将驾驶行为数据进行向量化表示，进而得到驾驶行为向量(驾驶行为序列标注过程)。

在一种实施方式中，在步骤S101中，预处理场景感知数据，得到场景感知向量，可以包括：根据横向分辨率和纵向分辨率，将所述场景感知数据的物理感知范围划分为多个物理感知单元格；根据所述场景感知数据中的障碍物信息，设置每个所述物理感知单元格中的多个参数信息；用多个包含所述参数信息的物理感知单元格表示所述场景感知向量。

在一个示例中，如图3所示，划分场景感知数据的物理感知范围，可以包括采用平行车道线的方向向量和垂直车道线的方向向量，通过纵向分辨率L_resolution和横向分辨率W_resolution，将物理感知范围内纵向L米，横向W米的局部范围，离散化为包括L_count*W_count个物理感知单元格的网格。

其中，L_count＝L/L_resolution，W_count＝W/W_resolution。

进一步地，可以利用场景感知数据中的障碍物信息，在L_count*W_count个物理感知单元格中用矩形框表示障碍物。例如：不同车型的障碍物，对应的矩形框大小不同。每个物理感知单元格所包含的参数信息可以如表1所示。

表1

编号	特征项	取值说明
			1	网格是否被占据	0-否.1-是
2	占据的障碍物纵向绝对速度	连续实数，未占据时统一为0
			3	占据的障碍物横向绝对速度	连续实数，未占据时统一为0
4	占据的障碍物纵向绝对加速度	连续实数，未占据时统一为0
			5	占据的障碍物横向绝对加速度	连续实数，未占据时统一为0
6	占据的障碍物与车道线夹角	连续实数，未占据时统一为0
			7	网格所在车道限速	连续实数
8	网格所在车道类型	离散实数

在本示例中，每帧场景感知数据均可以转化L_count*W_count*8的一维向量，即场景感知向量。

在一种实施方式中，在步骤S101中，预处理驾驶行为数据，得到驾驶行为向量，可以包括：将所述驾驶行为数据映射到离散语义类别，得到所述驾驶行为向量。例如：可以通过本领域技术人员所知悉的经验和统计学模型，如基于时间序列分析(Time-SeriesAnalysis)或隐马尔可夫模型(Hidden Markov Model)等方法，将油门或方向盘转角等底层物理数据的变化，转化为语义类别，如减速、左变道或加速等。

在一种实施方式中，在步骤S101中，预处理驾驶行为数据，得到驾驶行为向量，可以包括：将驾驶行为数据直接用向量表示或分解为横向和纵向的动作向量的拼接。

请继续参阅图1，本发明实施例的驾驶场景的表示方法还包括：

步骤S102、基于所述训练场景序列训练场景嵌入模型。

为了最大程度模拟人类驾驶时对于随时序变化的物理世界的认知，基于人类驾驶会对感知数据进行必要的语义化抽象，获取关键信息，剔除冗余信息的先验认识，可以通过场景嵌入(Scene Embedding)模型，在人类驾驶数据上自动化地实现场景语义向量的学习。

在一个示例中，如图2所示，在训练场景嵌入模型之前，还可以初始化场景嵌入模型(神经网络模型初始化过程)。例如：场景嵌入模型的搭建(输入层、隐藏层、输出层的设置)，以及模型参数θ的初始化。

在一个示例中，场景嵌入模型以L_count*W_count*8的一维向量(场景感知向量)为输入层，第二层可配置若干个(如O个，O为正整数)神经元，待训练参数总量为L_count*W_count*8*O。在一个示例中，O可以等于32。

接下来结合图2和图4介绍场景嵌入模型的训练过程。

在一种实施方式中，如图4所示，在步骤S120中可以包括：

步骤S401、从当前窗口的所述训练场景序列中，采样当前帧训练数据和正样本训练数据集，其中，所述正样本训练数据集包括所述当前帧训练数据的前N帧训练数据和后N帧训练数据，N为正整数；

步骤S402、从所述当前窗口之外的所述训练场景序列中，采样负样本训练数据集，其中，所述负样本训练数据集包括随机采样的2N帧训练数据；

步骤S403、基于所述当前帧训练数据、所述正样本训练数据集和所述负样本训练数据集训练所述场景嵌入模型。

其中，可以通过随机采样的方式采样当前帧训练数据。然后，通过固定前向窗口长度(fixed-forward window size)和后向窗口长度(fixed-forwardwindow size)的方式，读取与当前帧训练数据相关的上下文场景数据集，作为正样本训练数据集Data_positive，记作D_p。也就是说，可以将当前帧训练数据为中心的窗口作为当前窗口，D_p包括当前帧训练数据的前N帧训练数据和后N帧训练数据，共2N帧训练数据(图2所示的上下文正采样过程)。另外，从当前窗口之外的训练场景序列中随机采样相同数量的训练数据，作为负样本训练数据集Data_negtive，记作D_n。也就是说，D_n包括从当前窗口之外随机采样的2N帧训练数据(图2所示的随机负采样过程)。

这样，用于训练场景嵌入模型的数据中，当前帧训练数据包括当前帧场景感知向量Scene_i和当前帧驾驶行为向量a_i；正样本训练数据集D_p包括2N帧正样本场景感知向量Scene_i-N、……、Scene_i-1、Scene_i+1、……、Scene_i+N，以及2N帧正样本驾驶行为向量a_i-N、……、a_i-1、a_i+1、……、a_i+N；负样本训练数据集D_n包括2N帧负样本场景感知向量Scene_1、……、Scene_N，以及2N帧正样本驾驶行为向量a_1、……、a_N。

在一种实施方式中，如图5所示，在步骤S403中可以包括：

步骤S501、将所述当前帧场景感知向量、2N帧所述正样本场景感知向量和2N帧所述负样本场景感知向量输入所述场景嵌入模型，分别得到当前帧嵌入向量、2N帧正样本嵌入向量和2N帧负样本嵌入向量；

步骤S502、根据每帧所述正样本嵌入向量与所述当前帧嵌入向量之间的相似度和第一行为权重，确定正样本相似度，所述第一行为权重根据所述正样本嵌入向量对应的驾驶行为向量与所述当前帧嵌入向量对应的驾驶行为向量之间的相似度确定；

步骤S503、根据每帧所述负样本嵌入向量与所述当前帧嵌入向量之间的相似度和第二行为权重，确定负样本相似度，所述第二行为权重根据所述负样本嵌入向量对应的驾驶行为向量与所述当前帧嵌入向量对应的驾驶行为向量之间的相似度确定；

步骤S504、根据所述正样本相似度和所述负样本相似度，调整所述场景嵌入模型的模型参数。

其中，当前帧嵌入向量可以用v_c表示，正样本嵌入向量可以用v_l1表示，负样本嵌入向量可以用v_l2表示。在训练过程中，可以根据v_l1对应的驾驶行为向量与v_c对应的驾驶行为向量之间的相似度，设置第一行为增益函数，作为这v_l1与v_c之间的行为权重；根据v_l2对应的驾驶行为向量与v_c对应的驾驶行为向量之间的相似度，设置第二行为增益函数，作为这v_l2与v_c之间的行为权重。

在一种实施方式中，在步骤S503中可以包括：以最大化所述正样本相似度和最小化所述负样本相似度为收敛目标，调整所述场景嵌入模型的模型参数。

例如：可以通过对数似然设置目标函数，该目标函数可以为：

其中，θ为场景嵌入模型的模型参数，ActionGain(v_c，v_l1)为第一行为增益函数，ActionGain(v_c，v_l2)为第二行为增益函数。

基于上述目标函数，在训练过程中，通过调整模型参数θ，以最大化正样本相似度(相似场景的嵌入向量的相似度)的同时，最小化负样本相似度(不相似场景的嵌入向量的相似度)。调整方法可以为随机梯度下降法(SGD，stochastic gradient descent)，也可以为自适应矩估计(Adam)、牛顿动量法(Nesterov)、AdaGrad(一种算法)、均方根传递法(RootMean Square Prop，RMSProp)、牛顿法、共轭梯度法、拟牛顿法(BFGS)等。在一个示例中，可以通过随机梯度下降法，计算目标函数对于模型参数θ的梯度，并据此向负梯度方向更新模型参数θ。

本实施例的训练方法，以最大化相似场景的相似度同时规避不相似场景的相似度为目标函数，将时序相关和时序无关的训练数据平衡采样后加入行为增益权重，使用梯度下降法训练场景嵌入模型的参数直至指定迭代轮数，然后将训练好的网络模型权重存储备用。该场景嵌入模型可以从训练场景序列中学习驾驶场景的一种低维稠密向量的表示方法，并且只需要用32个(O等于32时)浮点数，就能自动化地实现驾驶场景理解和语义化表示。

请继续参阅图1，本发明实施例的驾驶场景的表示方法还可以包括：

步骤S103、将目标场景的感知数据输入训练好的场景嵌入模型，得到所述目标场景的表示向量。

在一种实施方式中，在步骤S103中，可以包括：将所述目标场景的两帧感知数据输入所述训练好的场景嵌入模型，分别得到第一表示向量和第二表示向量；根据所述第一表示向量和所述第二表示向量之间的相似度，判断所述目标场景的变化度。

在一个示例中，在线上应用场景嵌入模型时，将目标场景的感知数据输入场景嵌入模型，可以得到若干表示向量。通过两个表示向量之间的相似度衡量方式(如计算余弦相似度)，可以量化目标场景语义层面的变化度。从而，可以缓解和规避对物理感知数据敏感的问题，给下游决策模块提供更稳定、更置信的感知输入，保障决策的稳定性和一致性。

在一种实施方式中，在步骤S103中，可以包括：将所述第一目标场景的感知数据输入所述训练好的场景嵌入模型，得到第一场景嵌入向量；将所述第二目标场景的感知数据输入所述训练好的场景嵌入模型，得到第二场景嵌入向量；根据所述第一场景嵌入向量和所述第二场景嵌入向量之间的相似度，判断所述第一目标场景与所述第二目标场景是否属于同一类场景。

线下评测需要同时考虑评测的全面性和效率，传统的评测方法中，一种需要遍历高达10^k(k＞10)种物理参数组合的场景，通过大量搜索以保证评测场景的全面覆盖，但会造成冗余场景过多，时间效率低的问题。另一种是依赖人类经验定义一定数量的典型场景，这样方式无法给出有效的场景覆盖率证明。本实施例中，可以将高达10^k(k＞10)种物理参数组合的场景的感知数据，输入训练好的场景嵌入模型，得到多个场景嵌入向量计算。然后对多个场景嵌入向量进行简单的相似度计算或聚类操作，就可以获取每个场景的语义类别。还可以得到每个场景之间是否相似，以及相似率是多少。

在一个示例中，可以按照预设阈值或者由多种其他模型得到的阈值进行抽样评测。例如：当两个场景的场景嵌入向量之间的相似度高于该阈值，则认为这两个场景相似，可以属于同一类场景；反之则认为这两个场景不相似。这样就可以在确保场景覆盖率的前提下，大大缩减评测规模，大大提升离线评测效率。

本发明实施例的驾驶场景的表示方法，使用场景感知向量和驾驶行为向量作为输入，训练场景嵌入模型，达到以无监督方式，有效且低成本地将场景向量降维到可解释语义层面的效果。进一步地，通过随机采样和基于驾驶行为增益的正负采样结合的方式，进行上下文似然度建模，可以增强场景相似性特征的表达。通过本发明实施例的方法，可以为下游决策提供更加聚焦和稳定的场景表示，能够大大降低离线评测成本，提升整个自动驾驶决策系统整体的可解释性和稳定性。本发明实施例的方法避免了直接用原始物理感知数据造成的缺乏解释性，以及数据本身的误差带来的不可预知性问题，并且不需要人工介入，具备较强的泛化能力，具备极大的实践价值。

图6示出根据本发明实施例的模型训练装置的结构框图。如图6所示，该装置可以包括：

预处理模块601，用于预处理原始场景序列，得到训练场景序列，其中，所述原始场景序列中的每帧原始数据均包括场景感知数据和驾驶行为数据，所述训练场景序列中的每帧训练数据均包括场景感知向量和驾驶行为向量；

训练模块602，用于基于所述训练场景序列训练场景嵌入模型，所述场景嵌入模型用于对输入所述场景嵌入模型的目标场景的感知数据进行处理，得到所述目标场景的表示向量。

在一种实施方式中，预处理模块601可以包括：

在一种实施方式中，如图7所示，训练模块602可以包括：

第一采样子模块701，用于从当前窗口的所述训练场景序列中，采样当前帧训练数据和正样本训练数据集，其中，所述正样本训练数据集包括所述当前帧训练数据的前N帧训练数据和后N帧训练数据，N为正整数；

第二采样子模块702，用于从所述当前窗口之外的所述训练场景序列中，采样负样本训练数据集，其中，所述负样本训练数据集包括随机采样的2N帧训练数据；

训练子模块703，用于基于所述当前帧训练数据、所述正样本训练数据集和所述负样本训练数据集训练所述场景嵌入模型。

在一种实施方式中，如图7所示，所述当前帧训练数据包括当前帧场景感知向量和当前帧驾驶行为向量，所述正样本训练数据集包括2N帧正样本场景感知向量和2N帧正样本驾驶行为向量，所述负样本训练数据集包括2N帧负样本场景感知向量和2N帧负样本驾驶行为向量，训练子模块703可以包括：

输入单元704，用于将所述当前帧场景感知向量、2N帧所述正样本场景感知向量和2N帧所述负样本场景感知向量输入所述场景嵌入模型，分别得到当前帧嵌入向量、2N帧正样本嵌入向量和2N帧负样本嵌入向量；

正样本相似度确定单元705，用于根据每帧所述正样本嵌入向量与所述当前帧嵌入向量之间的相似度和第一行为权重，确定正样本相似度，所述第一行为权重根据所述正样本嵌入向量对应的驾驶行为向量与所述当前帧嵌入向量对应的驾驶行为向量之间的相似度确定；

负样本相似度确定单元706，用于根据每帧所述负样本嵌入向量与所述当前帧嵌入向量之间的相似度和第二行为权重，确定负样本相似度，所述第二行为权重根据所述负样本嵌入向量对应的驾驶行为向量与所述当前帧嵌入向量对应的驾驶行为向量之间的相似度确定；

调整单元707，用于根据所述正样本相似度和所述负样本相似度，调整所述场景嵌入模型的模型参数。

在一种实施方式中，调整单元707还可以用于：

图8示出根据本发明实施例的驾驶场景的表示装置的结构框图。如图8所示，该装置可以包括：

应用模块801，用于将目标场景的感知数据输入场景嵌入模型，得到所述目标场景的表示向量，所述场景嵌入模型为基于训练场景序列而训练得到，所述训练场景序列中的每帧训练数据均包括场景感知向量和驾驶行为向量。

在一种实施方式中，如图8所示，应用模块801可以包括：

输入子模块802，用于将所述目标场景的两帧感知数据输入所述训练好的场景嵌入模型，分别得到第一表示向量和第二表示向量；

判断子模块803，用于根据所述第一表示向量和所述第二表示向量之间的相似度，判断所述目标场景的变化度。

在一种实施方式中，所述目标场景包括第一目标场景和第二目标场景，如图9所示，应用模块801可以包括：

第一输入子模块901，用于将所述第一目标场景的感知数据输入所述训练好的场景嵌入模型，得到第一场景嵌入向量；

第二输入子模块902，用于将所述第二目标场景的感知数据输入所述训练好的场景嵌入模型，得到第二场景嵌入向量；

判断子模块903，用于根据所述第一场景嵌入向量和所述第二场景嵌入向量之间的相似度，判断所述第一目标场景与所述第二目标场景是否属于同一类场景。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

本发明实施例还提供一种驾驶场景的表示系统，可以包括以上所述的任一种模型训练装置以及以上所述的任一种驾驶场景的表示装置。

本发明实施例还提供一种驾驶场景的表示系统，包括模型训练设备和应用设备。

在一种实施方式中，所述模型训练设备和所述应用设备可以为同一个设备。

图10示出用于本发明实施例的驾驶场景的表示系统的设备结构框图。如图10所示，该设备可以包括：存储器1001和处理器1002，存储器1001内存储有可在处理器1002上运行的计算机程序。所述存储器1001和处理器1002的数量可以为一个或多个。

该设备还可以包括：通信接口1003，用于与外界设备进行通信，进行数据交互传输。存储器1001可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

如果存储器1001、处理器1002和通信接口1003独立实现，则存储器1001、处理器1002和通信接口1003可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral ComponentInterconnect)总线或扩展工业标准体系结构(EISA，ExtendedIndustry StandardArchitecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003集成在一块芯片上，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。

在一种实施方式中，所述模型训练设备和所述应用设备可以分别采用图10所示的设备的结构。也就是说，图10所示的设备可以为所述模型训练设备，也可以为所述应用设备。所述模型训练设备和所述应用设备之间可以通信连接。当该设备为所述模型训练设备时，所述处理器1002执行步骤S101和步骤S102的相关方法；当该设备为所述应用设备时，所述处理器1002执行步骤S103的相关方法。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种驾驶场景的表示方法，其特征在于，包括：

基于所述训练场景序列训练场景嵌入模型；

将目标场景的感知数据输入训练好的场景嵌入模型，得到所述目标场景的表示向量；

其中，所述基于所述训练场景序列训练场景嵌入模型，包括：

2.根据权利要求1所述的方法，其特征在于，预处理原始场景序列，得到训练场景序列，包括：

3.根据权利要求1所述的方法，其特征在于，预处理原始场景序列，得到训练场景序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述当前帧训练数据包括当前帧场景感知向量和当前帧驾驶行为向量，所述正样本训练数据集包括2N帧正样本场景感知向量和2N帧正样本驾驶行为向量，所述负样本训练数据集包括2N帧负样本场景感知向量和2N帧负样本驾驶行为向量，基于所述当前帧训练数据、所述正样本训练数据集和所述负样本训练数据集训练所述场景嵌入模型，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述正样本相似度和所述负样本相似度，调整所述场景嵌入模型的参数，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，将目标场景的感知数据输入训练好的场景嵌入模型，得到所述目标场景的表示向量，包括：

7.根据权利要求1至5任一项所述的方法，其特征在于，所述目标场景包括第一目标场景和第二目标场景，将目标场景的感知数据输入训练好的场景嵌入模型，得到所述目标场景的表示向量，包括：

8.一种模型训练装置，其特征在于，包括：

训练模块，用于基于所述训练场景序列训练场景嵌入模型，所述场景嵌入模型用于对输入所述场景嵌入模型的目标场景的感知数据进行处理，得到所述目标场景的表示向量；

其中，所述训练模块包括：

9.根据权利要求8所述的装置，其特征在于，所述当前帧训练数据包括当前帧场景感知向量和当前帧驾驶行为向量，所述正样本训练数据集包括2N帧正样本场景感知向量和2N帧正样本驾驶行为向量，所述负样本训练数据集包括2N帧负样本场景感知向量和2N帧负样本驾驶行为向量，所述训练子模块包括：

10.一种驾驶场景的表示装置，其特征在于，包括：

应用模块，用于将目标场景的感知数据输入场景嵌入模型，得到所述目标场景的表示向量，所述场景嵌入模型为基于训练场景序列而训练得到，所述训练场景序列中的每帧训练数据均包括场景感知向量和驾驶行为向量；

其中，所述场景嵌入模型为基于训练场景序列而训练得到，包括：

11.根据权利要求10所述的装置，其特征在于，所述应用模块包括：

输入子模块，用于将所述目标场景的两帧感知数据输入所述场景嵌入模型，分别得到第一表示向量和第二表示向量；

12.根据权利要求10所述的装置，其特征在于，所述目标场景包括第一目标场景和第二目标场景，所述应用模块包括：

第一输入子模块，用于将所述第一目标场景的感知数据输入所述场景嵌入模型，得到第一场景嵌入向量；

第二输入子模块，用于将所述第二目标场景的感知数据输入所述场景嵌入模型，得到第二场景嵌入向量；

13.一种驾驶场景的表示系统，其特征在于，包括权利要求8至9任一项所述的模型训练装置以及权利要求10至12任一项所述的驾驶场景的表示装置。

14.一种驾驶场景的表示系统，其特征在于，包括模型训练设备和应用设备，

所述模型训练设备包括：

一个或多个第一处理器；

第一存储器，用于存储一个或多个第一程序；

当所述一个或多个第一程序被所述一个或多个第一处理器执行时，使得所述一个或多个第一处理器实现以下方法：预处理原始场景序列，得到训练场景序列，其中，所述原始场景序列中的每帧原始数据均包括场景感知数据和驾驶行为数据，所述训练场景序列中的每帧训练数据均包括场景感知向量和驾驶行为向量；基于所述训练场景序列训练场景嵌入模型；

基于所述当前帧训练数据、所述正样本训练数据集和所述负样本训练数据集训练所述场景嵌入模型；

所述应用设备包括：

一个或多个第二处理器；

第二存储器，用于存储一个或多个第二程序；

当所述一个或多个第二程序被所述一个或多个第二处理器执行时，使得所述一个或多个第二处理器实现以下方法：将目标场景的感知数据输入训练好的场景嵌入模型，得到所述目标场景的表示向量。

15.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。