CN118144823A

CN118144823A - 自动驾驶车辆的换道方法、装置、设备及存储介质

Info

Publication number: CN118144823A
Application number: CN202410437388.5A
Authority: CN
Inventors: 吕杨; 邹汉鹏; 吕强; 苗乾坤
Original assignee: Neolix Technologies Co Ltd
Current assignee: Neolix Technologies Co Ltd
Filing date: 2024-04-11
Publication date: 2024-06-07

Abstract

本申请公开了一种自动驾驶车辆的换道方法、装置、设备及存储介质，属于涉及计算机技术领域。所述方法包括：获取自车的行驶数据、当前车道中自车前方的第一车辆的行驶数据与后方的第二车辆的行驶数据、目标车道中自车前方的第三车辆的行驶数据与后方的第四车辆的行驶数据；将自车的行驶数据、第一车辆的行驶数据、第三车辆的行驶数据、以及第四车辆的行驶数据输入换道决策模型，得到换道决策的结果；换道决策模型是基于样本训练数据和根据轨迹规划的结果所确定的奖励函数进行预先训练所获得的；基于换道决策的结果、自车的行驶数据和第二车辆的行驶数据，利用预设的轨迹规划算法，获得自车的行驶轨迹。本申请保障了车辆换道行驶过程的可靠性。

Description

自动驾驶车辆的换道方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及智能交通和自动驾驶等技术领域，特别涉及一种自动驾驶车辆的换道方法、装置、设备及存储介质。

背景技术

在日常运营时，自动驾驶车辆常常要根据具体道路情况，进行换道行驶，这需要车辆可以做出较合理的换道动作决策并规划行驶轨迹。

目前，由于换道场景的复杂性较高，相关技术中的车辆换道的方案无法有效地保证行驶过程的平稳性和安全性。

发明内容

本申请提供了一种自动驾驶车辆的换道方法、装置、设备及存储介质，保证了自动驾驶车辆换道行驶过程的安全性和平稳性，所述技术方案如下：

第一方面，提供了一种自动驾驶车辆的换道方法，所述方法包括：

获取自车的行驶数据、当前车道中所述自车前方的第一车辆的行驶数据与所述自车后方的第二车辆的行驶数据、以及目标车道中所述自车前方的第三车辆的行驶数据与所述自车后方的第四车辆的行驶数据；

将所述自车的行驶数据、第一车辆的行驶数据、第三车辆的行驶数据、以及第四车辆的行驶数据输入换道决策模型，得到换道决策的结果；其中，所述换道决策模型是基于样本训练数据和根据轨迹规划的结果所确定的奖励函数进行预先训练所获得的；

基于所述换道决策的结果、所述自车的行驶数据和所述第二车辆的行驶数据，利用预设的轨迹规划算法，获得所述自车的行驶轨迹。

在一种可能的实现方式中，所述预设的轨迹规划算法包括换道轨迹规划算法，所述基于所述换道决策的结果、所述自车的行驶数据和所述第二车辆的行驶数据，利用预设的轨迹规划算法，获得所述自车的行驶轨迹，包括：

响应于换道决策的结果为换道至所述目标车道的指定区域，将所述目标车道的指定区域确定为目标行驶区域；

基于所述目标行驶区域、所述自车的行驶数据和所述第二车辆的行驶数据，利用换道轨迹规划算法，获得所述自车的行驶轨迹。

在一种可能的实现方式中，所述基于所述目标行驶区域、所述自车的行驶数据和所述第二车辆的行驶数据，利用换道轨迹规划算法，获得所述自车的行驶轨迹，包括：

基于所述目标行驶区域，获取所述目标行驶区域对应的所述自车前方的第五车辆的行驶数据与所述自车后方的第六车辆的行驶数据；

基于自车的行驶数据、第一车辆的行驶数据、第二车辆的行驶数据、第五车辆的行驶数据、和所述第六车辆的行驶数据，利用所述换道轨迹规划算法的优化目标函数和安全距离约束条件，获得所述自车的行驶轨迹。

在一种可能的实现方式中，所述基于自车的行驶数据、第一车辆的行驶数据、第二车辆的行驶数据、第五车辆的行驶数据、和所述第六车辆的行驶数据，利用所述换道轨迹规划算法的优化目标函数和安全距离约束条件，获得所述自车的行驶轨迹，包括：

基于所述自车的行驶数据、第一车辆的行驶数据、第五车辆的行驶数据、与所述第六车辆的行驶数据，利用所述换道轨迹规划算法的优化目标函数，确定第一轨迹点和第二轨迹点；所述第一轨迹点用于表征所述自车启动换道的轨迹点，所述第二轨迹点用于表征所述自车完成换道的轨迹点；

基于所述自车的行驶数据、第一车辆的行驶数据、第二车辆的行驶数据、第五车辆的行驶数据、所述第六车辆的行驶数据、所述第一轨迹点、所述第二轨迹点与所述安全距离约束条件，对所述自车进行换道轨迹规划处理，以获得满足所述安全约束条件的换道行驶轨迹；

基于所述换道行驶轨迹，获得所述自车的行驶轨迹。

在一种可能的实现方式中，所述预设的轨迹规划算法包括跟车轨迹规划算法，所述基于所述换道决策的结果、所述自车的行驶数据和所述第二车辆的行驶数据，利用预设的轨迹规划算法，获得所述自车的行驶轨迹，包括：

响应于换道决策的结果为在所述当前车道跟驰，基于所述自车的行驶数据、第一车辆的行驶数据、和所述第二车辆的行驶数据，利用跟车轨迹规划算法，获得所述自车的行驶轨迹。

在一种可能的实现方式中，所述基于所述自车的行驶数据、第一车辆的行驶数据、和所述第二车辆的行驶数据，利用跟车轨迹规划算法，获得所述自车的行驶轨迹，包括：

基于所述自车的行驶数据、第一车辆的行驶数据、和所述第二车辆的行驶数据，利用跟车轨迹规划算法，确定所述自车的加速度；

基于所述自车的加速度，确定所述自车的速度和位置；

基于所述自车的速度和位置、获得所述自车的跟车行驶轨迹；

基于所述跟车行驶轨迹，获得所述自车的行驶轨迹。

第二方面，提供了一种模型训练的方法，所述方法包括：

获取样本训练数据；其中，所述样本训练数据包括样本自车的行驶数据、当前车道中自车前方的样本第一车辆的行驶数据与所述自车后方的样本第二车辆的行驶数据、以及目标车道中所述自车前方的样本第三车辆的行驶数据与所述自车后方的样本第四车辆的行驶数据；

将所述样本自车的行驶数据、所述样本第一车辆的行驶数据、所述第三车辆的行驶数据和所述样本第四车辆的行驶数据输入待训练的换道决策模型，得到换道决策的结果；

基于所述换道决策的结果、所述样本自车的行驶数据和所述样本第二车辆的行驶数据，利用预设的轨迹规划算法，获得规划轨迹的结果对应的奖励函数；

基于所述样本训练数据和规划轨迹的结果对应的奖励函数，对所述待训练的换道决策模型进行更新训练处理，以获得训练完成的换道决策模型。

第三方面，提供了一种自动驾驶车辆的换道装置，所述装置包括：

获取单元，用于获取自车的行驶数据、当前车道中所述自车前方的第一车辆的行驶数据与所述自车后方的第二车辆的行驶数据、以及目标车道中所述自车前方的第三车辆的行驶数据与所述自车后方的第四车辆的行驶数据；

决策单元，用于将所述自车的行驶数据、第一车辆的行驶数据、第三车辆的行驶数据、以及第四车辆的行驶数据输入换道决策模型，得到换道决策的结果；其中，所述换道决策模型是基于样本训练数据和根据轨迹规划的结果所确定的奖励函数进行预先训练所获得的；

规划单元，用于基于所述换道决策的结果、所述自车的行驶数据和所述第二车辆的行驶数据，利用预设的轨迹规划算法，获得所述自车的行驶轨迹。

第四方面，提供了一种模型训练的装置，所述装置包括

获取单元，用于获取样本训练数据；其中，所述样本训练数据包括样本自车的行驶数据、当前车道中自车前方的样本第一车辆的行驶数据与所述自车后方的样本第二车辆的行驶数据、以及目标车道中所述自车前方的样本第三车辆的行驶数据与所述自车后方的样本第四车辆的行驶数据；

决策单元，用于将所述样本自车的行驶数据、所述样本第一车辆的行驶数据、所述第三车辆的行驶数据和所述样本第四车辆的行驶数据输入待训练的换道决策模型，得到换道决策的结果；

规划单元，用于基于所述换道决策的结果、所述样本自车的行驶数据和所述样本第二车辆的行驶数据，利用预设的轨迹规划算法，获得规划轨迹的结果对应的奖励函数；

训练单元，用于基于所述样本训练数据和规划轨迹的结果对应的奖励函数，对所述待训练的换道决策模型进行更新训练处理，以获得训练完成的换道决策模型。

第五方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上如上所述的方面和任一可能的实现方式的方法。

第六方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。

第八方面，提供了一种自动驾驶车辆，包括如上所述的电子设备。

本申请提供的技术方案的有益效果至少包括：

由上述技术方案可知，一方面，本申请实施例可以通过获取自车的行驶数据、当前车道中所述自车前方的第一车辆的行驶数据与所述自车后方的第二车辆的行驶数据、以及目标车道中所述自车前方的第三车辆的行驶数据与所述自车后方的第四车辆的行驶数据，进而可以将所述自车的行驶数据、第一车辆的行驶数据、第二车辆的行驶数据、第三车辆的行驶数据、以及第四车辆的行驶数据输入换道决策模型，得到换道决策的结果，该换道决策模型是基于样本训练数据和根据轨迹规划的结果所确定的奖励函数进行预先训练所获得的，使得能够基于所述换道决策的结果和所述自车的行驶数据，利用预设的轨迹规划算法，获得所述自车的行驶轨迹，由于可以将上层换道决策模型和下层的轨迹规划算法耦合，对自车换道场景下行驶轨迹进行规划处理，可以保证了所输出的决策动作合理性，下层采用轨迹规划算法处理上层所输出的决策动作以获得自车的行驶轨迹，也可保证了所规划的自车的行驶轨迹的可靠性，上下层算法强耦合保证了决策规划过程的协调性，从而保证了自车换道场景下的行驶过程的可靠性和安全性。

由上述技术方案可知，另一方面，本申请实施例可以通过获取样本训练数据；其中，所述样本训练数据包括样本自车的行驶数据、当前车道中自车前方的样本第一车辆的行驶数据与所述自车后方的样本第二车辆的行驶数据、以及目标车道中所述自车前方的样本第三车辆的行驶数据与所述自车后方的样本第四车辆的行驶数据，进而可以将所述样本训练数据输入待训练的换道决策模型，得到换道决策的结果，基于所述换道决策的结果和所述样本自车的行驶数据，利用预设的轨迹规划算法，获得规划轨迹的结果对应的奖励函数，使得能够基于所述样本训练数据和规划轨迹的结果对应的奖励函数，对所述待训练的换道决策模型进行更新训练处理，以获得训练完成的换道决策模型，由于可以在对上层换道决策模型训练时高度耦合下层轨迹规划的相关规划信息，提高了自动驾驶车辆的决策规划过程的协调性，优化了训练完成的换道决策模型的性能，从而可以保证自动驾驶车辆在换道场景下的轨迹规划的可靠性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的自动驾驶车辆的换道方法的流程示意图；

图2是本申请另一个实施例提供的自动驾驶车辆的换道方法的流程示意图；

图3是本申请另一个实施例提供的自动驾驶车辆的换道方法的流程示意图；

图4本申请另一个实施例提供的自动驾驶车辆的换道方法的应用场景的示意图；

图5本申请另一个实施例提供的自动驾驶车辆的换道方法的换道场景的示意图；

图6本申请另一个实施例提供的自动驾驶车辆的换道方法的一个换道场景的示意图；

图7本申请另一个实施例提供的自动驾驶车辆的换道方法的另一个换道场景的示意图；

图8本申请另一个实施例提供的自动驾驶车辆的换道方法的再一个换道场景的示意图；

图9是本申请再一实施例提供的自动驾驶车辆的换道装置的结构框图；

图10是本申请再一实施例提供的模型训练的装置的结构框图；

图11是用来实现本申请实施例的自动驾驶车辆的换道方法和模型训练的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备；显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

目前，由于在低速行驶道路，如自行车道或车人共用道上，车辆、行人等交通参与者比较多，在行驶前方存在突然切入车辆或者其他交通参与者的情况下，自动驾驶车辆采取通常的紧急制动或者刹停的策略，车辆行驶的安全性和平稳性欠佳，而且还极易导致后车追尾。

因此，亟需提供一种自动驾驶车辆的换道方法，能够在行驶前方存在切入车辆情况下，保证自动驾驶车辆行驶过程的安全性。

请参考图1，其示出了本申请一个实施例提供的自动驾驶车辆的换道方法的流程示意图。该自动驾驶车辆的换道方法，具体可以包括：

步骤101、获取自车的行驶数据、当前车道中所述自车前方的第一车辆的行驶数据与所述自车后方的第二车辆的行驶数据、以及目标车道中所述自车前方的第三车辆的行驶数据与所述自车后方的第四车辆的行驶数据。

步骤102、将所述自车的行驶数据、第一车辆的行驶数据、第三车辆的行驶数据、以及第四车辆的行驶数据输入换道决策模型，得到换道决策的结果；其中，所述换道决策模型是基于样本训练数据和根据轨迹规划的结果所确定的奖励函数进行预先训练所获得的。

步骤103、基于所述换道决策的结果、所述自车的行驶数据和所述第二车辆的行驶数据，利用预设的轨迹规划算法，获得所述自车的行驶轨迹。

至此，获得自车的行驶轨迹之后，可以基于该行驶轨迹控制自车行驶。

需要说明的是，自车的行驶数据可以包括但不限于自车的位置、速度、和加速度。第一车辆的行驶数据可以包括但不限于第一车辆的位置、速度、和加速度。第二车辆的行驶数据可以包括但不限于第二车辆的位置、速度、和加速度。第三车辆的行驶数据可以包括但不限于第三车辆的位置、速度、和加速度。第四车辆的行驶数据可以包括但不限于第四车辆的位置、速度、和加速度。

需要说明的是，第三车辆可以包括目标车道中当前时刻在行驶方向上相对位置在自车前方的至少一辆车辆。第三车辆的数目可以为多个。第四车辆可以包括目标车道中当前时刻在行驶方向上相对位置在自车后方的至少一辆车辆。第四车辆的数目可以为多个。

需要说明的是，换道决策模型可以包括基于强化学习的行为决策模型。示例性的，该换道决策模型可以是D3QN(Dueling Double DQN)网络结构的强化学习的行为决策模型。

需要说明的是，步骤101～103的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，例如，网络侧的自动驾驶平台中的处理引擎或者分布式系统等，本实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在本地终端上的本地程序(nativeApp)，或者还可以是本地终端上的浏览器的一个网页程序(webApp)，本实施例对此不进行限定。

由上述技术方案可知，本申请实施例可以通过将上层的换道决策模型和下层的轨迹规划算法耦合，来对自车换道场景下行驶轨迹进行规划处理，可以保证了所输出的决策动作合理性，下层采用轨迹规划算法处理上层所输出的决策动作以获得自车的行驶轨迹，也可保证了所规划的自车的行驶轨迹的可靠性，上下层算法强耦合保证了决策规划过程的协调性，从而保证了自车换道场景下的行驶过程的可靠性和安全性。

可选地，在本实施例的一个可能的实现方式中，所述预设的轨迹规划算法可以包括换道轨迹规划算法，步骤103中，具体可以响应于换道决策的结果为换道至所述目标车道的指定区域，将所述目标车道的指定区域确定为目标行驶区域，进而可以基于所述目标行驶区域、所述自车的行驶数据和所述第二车辆的行驶数据，利用换道轨迹规划算法，获得所述自车的行驶轨迹。

在本实现方式中，换道决策的结果可以包括换道至所述目标车道的指定区域，以及在当前车道跟驰。这里，换道至所述目标车道的指定区域可以是换道决策模型输出的语义动作。在当前车道跟驰还可以表示为行驶至当前车道的指定区域的语义动作。

在该具体实现过程中，目标车道的指定区域可以为目标车道中可供自车切入的两辆车之间的间隙区域。

在该实现方式的一个具体实现过程中，具体地，当换道决策的结果为换道至所述目标车道的指定区域时，首先可以基于所述目标行驶区域，获取所述目标行驶区域对应的所述自车前方的第五车辆的行驶数据与所述自车后方的第六车辆的行驶数据。其次，可以基于自车的行驶数据、第一车辆的行驶数据、第二车辆的行驶数据、第五车辆的行驶数据、和第六车辆的行驶数据，利用所述换道轨迹规划算法的优化目标函数和安全距离约束条件，获得所述自车的行驶轨迹。

在本具体实现过程中，目标行驶区域可以是目标车道中两辆车辆的之间可供自车切入的间隙区域，即目标间隙。在目标行驶区域中，车辆行驶方向上在前方的车辆可以为自车前方的第五车辆、车辆行驶方向上在后方的车辆可以为自车后方的第六车辆。

该具体实现过程的一种情况是，可以基于自车的行驶数据、第一车辆的行驶数据、第五车辆的行驶数据、与第六车辆的行驶数据，利用所述换道轨迹规划算法的优化目标函数，确定第一轨迹点和第二轨迹点，进而可以基于所述自车的行驶数据、第一车辆的行驶数据、第二车辆的行驶数据、第五车辆的行驶数据、所述第六车辆的行驶数据、所述第一轨迹点、所述第二轨迹点与所述安全距离约束条件，对所述自车进行换道轨迹规划处理，以获得满足所述安全约束条件的换道行驶轨迹，基于所述换道行驶轨迹，获得所述自车的行驶轨迹。

这里，所述第一轨迹点用于表征所述自车启动换道的轨迹点，所述第二轨迹点用于表征所述自车完成换道的轨迹点。

在本具体实现过程中，安全距离约束条件可以包括自车与当前车道后车安全响应约束、第一轨迹点与当前车道前车安全约束、第一轨迹点与目标车道前车安全约束、第一轨迹与对目标车道后车安全响应约束、以及第二轨迹点与目标车道前车安全约束。

具体地，首先，基于所述自车的行驶数据、第一车辆的行驶数据、第二车辆的行驶数据、第五车辆的行驶数据、所述第六车辆的行驶数据、所述第一轨迹点、所述第二轨迹点与所述安全距离约束条件，对所述自车进行换道轨迹规划处理。其次，基于处理的结果，判断自车与当前车道后车的关联情况是否满足自车与当前车道后车安全响应约束、第一轨迹点与当前车道前车的关联情况是否满足第一轨迹点与当前车道前车安全约束、第一轨迹点与目标车道前车的关联情况是否满足第一轨迹点与目标车道前车安全约束、第一轨迹与对目标车道后车的关联情况是否满足第一轨迹与对目标车道后车安全响应约束、以及第二轨迹点与目标车道前车的关联情况是否满足第二轨迹点与目标车道前车安全约束，若均满足，则可以获得满足所述安全约束条件的换道行驶轨迹。再次，基于所述换道行驶轨迹，获得所述自车的行驶轨迹。

这样，在换道决策的结果为换道至目标车道的指定区域时，可以将目标车道的指定区域确定为目标行驶区域，可以通过基于目标行驶区域和自车的行驶数据，利用对应的换道轨迹规划算法，获得自车的行驶轨迹，可以进一步地提升自车的行驶轨迹的可靠性和安全性。

可选地，在本实施例的一个可能的实现方式中，所述预设的轨迹规划算法可以包括跟车轨迹规划算法，步骤103中，具体地可以响应于换道决策的结果为在所述当前车道跟驰，基于所述自车的行驶数据、第一车辆的行驶数据、和所述第二车辆的行驶数据，利用跟车轨迹规划算法，获得所述自车的行驶轨迹。

在本实现方式中，自车的行驶数据可以包括但不限于自车的位置、速度、和加速度。第一车辆的行驶数据可以包括但不限于第一车辆的位置、速度、和加速度。第二车辆的行驶数据可以包括但不限于第二车辆的位置、速度、和加速度。

在该实现方式的一个具体实现过程中，首先，基于所述自车的行驶数据、第一车辆的行驶数据、和所述第二车辆的行驶数据，利用跟车轨迹规划算法，确定所述自车的加速度。其次，可以基于所述自车的加速度，确定所述自车的速度和所述自车的位置。再次，基于所述自车的速度和所述自车的位置、获得所述自车的跟车行驶轨迹。再次，基于所述跟车行驶轨迹，获得所述自车的行驶轨迹。

在本具体实现过程中，跟车轨迹规划算法可以是基于风险水平反事实推断的智能驾驶模型的算法(Couterfactual Risk Level Inference based Intelligence DriverModel,CFRLI-IDM)。

本具体实现过程的一种情况是，首先，可以确定自动驾驶车辆和第一车辆之间的纵向安全距离。其次，可以基于预设的选取策略，确定自车的最大制动减速度。再次，利用预设的制动算法，对自车的最大制动减速度、自车的行驶数据、第一车辆的行驶数据和纵向安全距离进行计算处理，以获得自车的第一制动减速度。再次，利用预设的推断算法，对自车的行驶数据和第二车辆的行驶数据进行计算处理，以获得第二制动减速度。再次，基于预设的条件、第一制动减速度和所述第二制动减速度，获得所述目标制动减速度。再次，基于目标制动减速度，确定所述自车的加速度。

这里，可以理解的是，目标制动减速度可以直接作为自车的加速度。

具体地，响应于所述第一制动减速度和所述第二制动减速度满足预设的条件，将第一制动减速度作为目标制动减速度，或，响应于所述第一制动减速度和所述第二制动减速度未满足预设的条件，利用预设的制动优化算法，对所述第二制动减速度进行优化处理，以获得目标制动减速度。

在本具体实现过程中，该预设的条件可以包括第一制动减速度大于零、以及第二制动减速度小于第一制动减速度小于零其中的一项。

可以理解的是，这里，第一制动减速度大于第二制动减速度，即第一制动减速度的绝对值小于第二制动减速度的绝对值。

在本具体实现过程中，预设的选取策略可以包括按照预定的间隔，从预定的减速度范围中，选取第一车辆的最大制动减速度。

在本具体实现过程中，该预设的制动算法预设的制动算法可以包括基于责任敏感安全(Responsibility-Sensitive Safety,RSS)模型和智能驾驶员模型(IntelligentDriver Model,IDM)的制动算法，即Safe IDM制动算法、以及基于IDM模型的制动算法中的至少一项。

在本具体实现过程中，该预设的制动优化算法的目标函数可以表示为：预设的优化模型的约束条件可以表示为：s.t.c(s,a)≤C。

其中，acc可以为制动减速度，如，第二制动减速度，a可以为优化后的制动减速度，c可以为安全信号，C可以为安全信号约束阈值。

这样，在换道决策的结果为在当前车道跟驰时，可以基于自车的行驶数据、第一车辆的行驶数据、与第二车辆的行驶数据，利用跟车轨迹规划算法，获得自车的行驶轨迹，可以进一步地提升自车的行驶轨迹的可靠性和安全性。

可以理解的是，也可以基于自车的行驶数据，利用其他现有的轨迹规划算法，例如，基于智能驾驶员(Intelligence Driver Model,IDM)模型的轨迹规划算法，规划得到在当前车道的跟车轨迹，以获得自车的行驶轨迹。具体地实现方式，在此可以不做具体限定。

本具体实现过程的一种情况是，确定自车的加速度之后，首先，可以基于所述自车的加速度，计算得到所述自车的速度。其次，可以基于所述自车的速度，计算得到所述自车的位置。再次，基于所述自车的速度和位置、获得所述自车的跟车行驶轨迹。再次，基于所述跟车行驶轨迹，获得所述自车的行驶轨迹。

需要说明的是，本实现方式中所提供的具体实现过程，可以结合前述实现方式中所提供的多种具体实现过程，来实现本实施例的自动驾驶车辆的换道方法。详细的描述可以参见前述实现方式中的相关内容，此处不再赘述。

图2是本申请另一个实施例提供的模型训练的方法的流程示意图，如图2所示。

步骤201、获取样本训练数据；其中，所述样本训练数据包括样本自车的行驶数据、当前车道中自车前方的样本第一车辆的行驶数据与所述自车后方的样本第二车辆的行驶数据、以及目标车道中所述自车前方的样本第三车辆的行驶数据与所述自车后方的样本第四车辆的行驶数据。

步骤202、将所述样本自车的行驶数据、所述样本第一车辆的行驶数据、所述第三车辆的行驶数据和所述样本第四车辆的行驶数据输入待训练的换道决策模型，得到换道决策的结果。

步骤203、基于所述换道决策的结果、所述样本自车的行驶数据和所述样本第二车辆的行驶数据，利用预设的轨迹规划算法，获得规划轨迹的结果对应的奖励函数。

步骤204、基于所述样本训练数据和规划轨迹的结果对应的奖励函数，对所述待训练的换道决策模型进行更新训练处理，以获得训练完成的换道决策模型。

需要说明的是，步骤201～步骤204的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，例如，网络侧的模型训练平台中的处理引擎或者分布式系统等，本实施例对此不进行特别限定。

这里，基于本实施例中的方案，可以在对上层换道决策模型训练时高度耦合下层轨迹规划的相关规划信息，提高了自动驾驶车辆的决策规划过程的协调性，优化了训练完成的换道决策模型的性能，从而可以保证自动驾驶车辆在换道场景下的轨迹规划的可靠性。

可选地，在本实施例的一个可能的实现方式中，换道决策模型可以包括基于强化学习的行为决策模型。具体地，该换道决策模型可以是D3QN网络结构的强化学习模型。

可选地，在本实施例的一个可能的实现方式中，具体地，在步骤203中，首先可以基于所述换道决策的结果、所述样本自车的行驶数据和所述样本第二车辆的行驶数据，利用预设的轨迹规划算法，确定轨迹规划的结果对应的优化奖励函数、安全奖励函数、效率奖励函数和舒适奖励函数。其次，可以基于优化奖励函数、安全奖励函数、效率奖励函数和舒适奖励函数，计算得到规划轨迹的结果对应的奖励函数。

具体地，可以对优化奖励函数、安全奖励函数、效率奖励函数和舒适奖励函数进行求和处理，计算得到规划轨迹的结果对应的奖励函数。

在本实现方式中，具体地，首先，基于一个批次(episode)的样本数据对待训练换道决策模型进行训练处理之后，可以利用规划轨迹的结果对应的奖励函数调整该待训练换道决策模型的模型参数。其次，可以基于新批次的样本数据，对调整模型参数后的待训练换道决策模型进行更新训练，直至满足训练终止条件，以获得训练完成的换道决策模型。

可以理解的是，该换道决策模型可以是行驶行为决策模型。利用该换道决策模型，对自车的行驶行为进行分析处理，得到换道的行为决策，或者，保持当前车道跟驰的行为决策。

可选地，在本实施例的一个可能的实现方式中，在步骤201中，可以基于他车的行驶类型，获取样本训练数据，进而可以训练构建他车的行驶类型对应的换道决策模型。

在本实现方式中，他车可以包括自车行驶环境中的其他车辆。具体地，他车可以包括但不限于当前车道中自车前方的第一车辆的行驶数据与所述自车后方的第二车辆的行驶数据、以及目标车道中所述自车前方的第三车辆的行驶数据与所述自车后方的第四车辆的行驶数据等。

在本实现方式中，他车的行驶类型可以包括保守类型和激进类型。

示例性的，可以基于预先配置的目标车道中自车后方的他车的最小跟车距离，和/或，预先配置的目标车道中自车后方的他车响应自车变道行为的时机，确定他车的行驶类型。

例如，首先，预先配置的目标车道中自车后方的他车的最小跟车距离小于预设的距离阈值，可以确定他车的行驶类型为激进类型。其次，获取激进类型的样本训练数据，以训练得到激进类型的换道决策模型。

需要说明的是，本实现方式中所提供的具体实现过程，可以结合前述实现方式中所提供的多种具体实现过程，来实现本实施例的模型训练的方法。详细的描述可以参见前述实现方式中的相关内容，此处不再赘述。

为了更好地理解本申请实施例的方法，下面结合附图和具体应用场景对本申请实施例的方法进行说明。

图3是本申请另一个实施例提供的自动驾驶车辆的换道方法的流程示意图，如图3所示。

在本实施例中，图4本申请另一个实施例提供的自动驾驶车辆的换道方法的应用场景的示意图，如图4所示。该应用场景可以包括行为决策层和运动规划层，行为决策层可以包括行为决策模型，即换道决策模型。可以获取待处理的行驶数据，或用于训练模型的样本数据等可以作为行为决策层的输入。这里，该换道决策模型可以是基于输入的样本数据和运动规划层的输出数据进行预先训练所获得强化学习模型。运动规划层可以包括轨迹规划算法。轨迹规划算法可以执行行为决策层输出的行为决策动作，以规划出对应的自车的行驶轨迹。轨迹规划算法的输出可以包括自车的行驶轨迹。

步骤301、获取样本训练数据，样本训练数据包括样本自车的行驶数据、样本第一车辆的行驶数据、样本第二车辆的行驶数据、样本第三车辆的行驶数据和样本第四车辆的行驶数据。

在本实施例中，样本第一车辆的行驶数据可以是当前车道中自车前方的样本第一车辆的行驶数据。样本第二车辆的行驶数据可以是当前车道中自车后方的样本第二车辆的行驶数据。样本第三车辆的行驶数据可以是目标车道中自车前方的样本第三车辆的行驶数据。样本第四车辆的行驶数据可以是目标车道中自车后方的样本第四车辆的行驶数据。样本训练数据可以是样本状态数据，即样本状态特征。

具体地，样本自车的行驶数据可以包括自车的速度、加速度和位置数据。自车的位置数据可以是frenet坐标系下自车的SL坐标。其中，frenet坐标系下的S方向的零点可以位于自车后轴中心位置，则自车的位置数据中的S方向的相对位置可以为S1，S1可以恒为0。frenet坐标系下的L方向的零点可以位于自车当前车道与目标车道的车道分界线，自车的位置数据中的L方向的相对位置可以为L1。

第一车辆可以为自车的当前车道中的前车。样本第一车辆的行驶数据可以包括第一车辆的速度、加速度和位置数据。第一车辆的位置数据frenet坐标系下第一车辆的SL坐标，即(S2，L2)。

第二车辆可以为自车的当前车道中的后车。样本第二车辆的行驶数据可以包括第二车辆的速度、加速度和位置数据。第二车辆的位置数据frenet坐标系下第二车辆的SL坐标，即(S3，L3)。

第三车辆可以为自车的目标车道中的前车。样本第三车辆的行驶数据可以包括第三车辆的速度、加速度和位置数据。第三车辆的位置数据frenet坐标系下第三车辆的SL坐标，即(S4，L4)。

第四车辆可以为自车的目标车道中的后车。样本第四车辆的行驶数据可以包括第四车辆的速度、加速度和位置数据。第四车辆的位置数据frenet坐标系下第四车辆的SL坐标，即(S5，L5)。

步骤302、将样本自车的行驶数据、样本第一车辆的行驶数据、样本第三车辆的行驶数据和样本第四车辆的行驶数据输入待训练的换道决策模型，得到换道决策的结果。

在本实施例中，换道决策的结果可以包括换道至目标车道的指定区域、在当前车道跟驰。

优选地，目标车道的指定区域可以包括目标车道中两辆车之间的间隙区域。

步骤303、基于换道决策的结果、样本自车的行驶数据和样本第二车辆的行驶数据，利用预设的轨迹规划算法，获得规划轨迹的结果对应的奖励函数。

在本实施例中，轨迹规划的结果对应的奖励函数可以是对优化奖励函数、安全奖励函数、效率奖励函数和舒适奖励函数进行求和计算得到的。

这里，优化奖励函数R_result可以是由轨迹规划的计算结果表征，可以为公式(1)所示：

R_result＝-10 (1)

安全奖励函数R_Safe可以是碰撞检查表征，可以为公式(2)所示：

R_Safe＝-100 (2)

效率奖励函数R_Efficiency可以是由车辆速度表征，可以为公式(3)所示：

R_Efficiency＝-3.0*(v_target-v_ego) (3)

其中，v_target为规划轨迹对应的车道的限速，v_ego可以为自车的速度。

舒适奖励函数R_Comfort可以是由车辆规划加速度表征，可以为公式(4)所示：

R_Comfort＝-5.0*a_ego (4)

其中，a_ego可以为自车的规划加速度。

在本实施中，首先，基于一个批次(episode)的样本数据对待训练换道决策模型进行训练处理之后，可以利用规划轨迹的结果对应的奖励函数调整该待训练换道决策模型的模型参数。其次，可以基于新批次的样本数据，对调整模型参数后的待训练换道决策模型进行更新训练，直至满足训练终止条件，以获得训练完成的换道决策模型。

这里，训练终止条件可以包括但不限于训练次数达到预设的次数阈值、损失函数满足预设条件等。

步骤304、基于样本训练数据和规划轨迹的结果对应的奖励函数，对待训练的换道决策模型进行更新训练处理，以获得训练完成的换道决策模型。

在本实施例中，可以根据目标车道后车的状态情况，基于gym结构设置不同类型的训练环境。

可选地，训练环境可以包括他车保守类仿真训练环境和他车激进类仿真训练环境。

具体地，目标车道后车的状态情况可以包括目标车道中自车后方的他车的最小跟车距离、目标车道中自车后方的他车响应自车变道行为的时机。这里，首先，可以基于预先配置的目标车道中自车后方的他车的最小跟车距离，和/或，预先配置的目标车道中自车后方的他车响应自车变道行为的时机，获取他车保守类仿真训练环境的样本训练数量，或，他车激进类仿真训练环境的样本训练数量。其次，可以基于他车保守类仿真训练环境的样本训练数量构建该训练环境对应的换道决策模型，或，基于他车激进类仿真训练环境的样本训练数量构建该训练环境对应的换道决策模型。

步骤305、获取待处理的行驶数据，待处理的行驶数据包括自车的行驶数据、第一车辆的行驶数据、第二车辆的行驶数据、第三车辆的行驶数据、以及第四车辆的行驶数据。

在本实施例中，该待处里的行驶数据可以包括自车的行驶数据、当前车道中自车前方的第一车辆的行驶数据与自车后方的第二车辆的行驶数据、以及目标车道中自车前方的第三车辆的行驶数据与自车后方的第四车辆的行驶数据。

步骤306、将自车的行驶数据、第一车辆的行驶数据、第三车辆的行驶数据、以及第四车辆的行驶数据输入换道决策模型，以输出换道决策的结果。

优选地，换道决策模型输出的换道决策的结果可以表示为语义动作，例如，目标车道的指定区域1、目标车道的指定区域2、目标车道的指定区域3、当前车道的指定区域4。其中，当前车道的指定区域4可以表征在当前车道跟驰。

这里，图5本申请另一个实施例提供的自动驾驶车辆的换道方法的换道场景的示意图，如图5所示。在该换道场景中，自车由当前位置换入目标车道时，首先，换道决策模型输出的换道决策的结果可以表示为语义动作，基于换道决策的结果获得最合适自车的换入目标间隙，如，目标间隙1、目标间隙2、或目标间隙3，即目标车道的指定区域1、目标车道的指定区域2、目标车道的指定区域3。然后，再执行具体的换道动作切入目标间隙。换道决策的结果可以为换道至目标车道的指定区域。如果当前所有目标间隙均不适宜换入时，自车应正常跟驰前车行驶等待合适的换道时机。换道决策的结果可以为在当前车道跟驰，对应的目标间隙可以是自车和其前车之间的目标间隙4，即当前车道的指定区域4。

可以理解的是，在自车换道过程中，可以先利用换道决策模型，确定合理的换道动作，或者，跟驰动作，将换道动作语义抽象为目标间隙(1，2，3)、跟驰动作语义抽象为目标间隙4，再利用预设的轨迹规划算法，根据换道动作语义，或者，跟驰动作语义、执行具体的换道动作，或者，跟驰动作。

示例性的，图6本申请另一个实施例提供的自动驾驶车辆的换道方法的一个换道场景的示意图，如图6所示。该换道场景可以为加速换道。目标间隙，即目标车道的指定区域位于自车的侧前方。自车在换道准备阶段可以进行加速处理。指定区域于自车侧前方的情形，此时自车可以先沿当前车道加速准备，再切入图6中目标车道中的两辆车之间的指定区域完成换道。

示例性的，图7本申请另一个实施例提供的自动驾驶车辆的换道方法的另一个换道场景的示意图，如图7所示。该换道场景可以为减速换道。目标间隙，即目标车道的指定区域位于自车的侧后方。自车在换道准备阶段可以进行减速处理，以换道至图7中目标车道中的两辆车间隙中。该换道场景中，可能是前方拥堵，指定区域位于自车侧后方的情形，此时自车可以先沿当前车道缓缓减速准备再切入指定区域完成换道。

步骤307、在换道决策的结果为换道至目标车道的指定区域的情况下，将目标车道的指定区域确定为目标行驶区域。

步骤308、基于目标行驶区域和自车的行驶数据，利用换道轨迹规划算法，获得自车的行驶轨迹。

在本实施例中，在换道决策的结果为换道至目标车道的指定区域的情况下，将目标车道的指定区域确定为目标行驶区域，进而可以基于目标行驶区域和自车的行驶数据，利用换道轨迹规划算法，获得规划轨迹的结果对应的奖励函数。

可选地，该换道轨迹规划算法可以包括五次多项式轨迹规划算法。

具体地，该五次多项式轨迹规划算法可以表示为公式(5)：

其中，S(t)和L(t)分别为frenet坐标系下自车的SL坐标，a_i和b_i分别为自车的SL方向的位移参数，t可以为轨迹时间。

这样，通过五次多项式轨迹规划算法的生成轨迹，计算速度较快，曲率连续便于实时控制。

可以理解的是，也可以利用其他现有的车辆轨迹规划算法，例如贝塞尔曲线、样条曲线等。

可选地，基于自车的行驶数据、第一车辆的行驶数据、第五车辆的行驶数据、与第六车辆的行驶数据，利用换道轨迹规划算法的优化目标函数，确定第一轨迹点和第二轨迹点，进而可以基于自车的行驶数据、第一车辆的行驶数据、第二车辆的行驶数据、第五车辆的行驶数据、第六车辆的行驶数据、第一轨迹点、第二轨迹点与安全距离约束条件，对自车进行换道轨迹规划处理，以获得满足安全约束条件的换道行驶轨迹。如图6和7所示，目标车道的指定区域可以为目标行驶区域。指定区域的对应车辆行驶方向的前方的车辆可以是第五车辆，后方的车辆可以是第六车辆。

在本实施例中，具体地，图8本申请另一个实施例提供的自动驾驶车辆的换道方法的另一个换道场景的示意图，如图8所示。在该换道场景中，换道过程可以涉及两个特殊点，特殊点1，即第一轨迹点，可以为换道轨迹中自车到达车道分界线之前的一个点，此时自车还未驶出当前车道，但已明确表达换道意图。特殊点2，即第二轨迹点，可以为换道轨迹中自车即将完成换道之前的一个点，此时自车已到达目标车道，并即将完成换道。这里，特殊点1可以基于换道时间和预设的时长所确定，特殊点2也可以基于换道时间和预设的时长所确定。例如，预设的时长为0.3秒(s)，特殊点1可以取t/2-0.3s时刻对应的换道轨迹点，特殊点2可以取t-0.3s时刻对应的换道轨迹点。其中，t为换道时间。

在本实施例中，自车在换道的不同阶段，均需要考虑前后向碰撞风险。这里，可以基于RSS模型，定义车辆同向行驶时纵向安全距离，即最小安全距离，表示为公式(6)：

其中，d_min代表后车与前车所需的最小安全距离，ρ为后车反应时间，v_r和v_f为后车和前车当前速度，a_max，accel和a_min，brake为后车最大纵向加/减速度，a_max，brake为前车最大制动减速度。

可以理解的是，这里，利用RSS模型，确定自车和自车的前车之间的最小安全距离，自车可以为后车，自车的前车为前车。利用RSS模型，确定自车和自车的后车之间的最小安全距离，自车可以为前车，自车的后车为后车。

在本实施例中，自车在换道过程中，为避免自车换道对目标车道后车行驶造成明显影响，需考虑目标车道后车舒适响应减速度。自车汇入目标车道后，根据基于跟车轨迹规划算法，计算得到的目标车道后车纵向加速度，并选取大于等于预设的舒适响应减速度的目标车道后车纵向加速度。

优选地，可以基于SafeIDM模型计算得到预设的舒适响应减速度a_SafeIDM(s，v，Δv)，如公式(7)：

其中，s^*(v，Δv)＝n*d_min

其中，v为当前目标车道后车速度，v₀为目标车道后车期望速度，a为目标车道后车期望加速度，Δv为目标车道后车与自车的速度差，δ为加速度指数，d_min为基于RSS模型的同向行驶纵向安全距离，即纵向安全距离，n为安全系数，优选地，该安全系数可以为1.1。

本实施例中，在自车换道过程中，跟车过程中，当前车道的后车在跟随自车行驶时要考虑自车可能采取的最大制动量，以保持安全的车距，因此，当前车道后车采取的跟随自车的行为，可以是对自车可能的制动策略进行推断后所做出的。

优选地，可以基于风险水平反事实推断的智能驾驶模型的算法推断当前车道后车认为自车可能采取的最大制动量，即推断当前车道后车认为自车的最大制动减速度为：

其中，v_ego为自车当前速度，v_ego为当前车道后车当前速度，ρ_r为后车反应时间，和/>分别为后车的最大加速度和最大制动量。

具体地，换道轨迹规划算法的优化目标函数可以表示为公式(9)：

其中，a_prepare可以为自车换道的准备阶段的准备加速度，t_prepare可以为自车换道的准备阶段的准备时间。

优选地，安全约束条件可以包括自车与当前车道后车安全响应约束、第一轨迹点与当前车道前车安全约束、第一轨迹点与目标车道前车安全约束、第一轨迹与对目标车道后车安全响应约束、以及第二轨迹点与目标车道前车安全约束。

这里，自车与当前车道后车安全响应约束可以表示为公式(10)所示：

a_prepare＞a_CFI (10)

其中，a_prepare可以为自车换道的准备阶段的准备加速度，a_CFI以为基于风险水平反事实推断的智能驾驶模型的算法推断出当前车道后车认为自车当前会采取的最大制动减速度。

第一轨迹点与当前车道前车安全约束可以表示为公式(11)所示：

其中，可以表示当前车道前车的位置，/>可以表示第一轨迹点的位置，/>可以表示自车与当前车道前车的安全距离。

第一轨迹点与目标车道前车安全约束可以表示为公式(12)所示：

其中，可以表示目标车道前车的位置，/>可以表示第一轨迹点的位置，/>可以表示自车与目标车道前车的安全距离。

第一轨迹与对目标车道后车安全响应约束可以表示为公式(13)所示：

其中，可以表示目标车道后车的反应制动量，即制动减速度，a_{safe_idm}可以表示安全响应的最小制动减速度期望值，即不对目标车道后车造成大的安全影响，自车制动减速度不过大，即过猛刹车。

第二轨迹点与目标车道前车安全约束可以表示为公式(14)所示：

其中，可以表示目标车道前车的位置，/>可以表示第二轨迹点的位置，/>可以表示自车与目标车道前车的安全距离。

可以理解的是，在人类驾驶员进行换道轨迹规划时，首先，根据当前车道和目标车道的车辆情况，确定安全车距。其次会缓打方向、迅速换道，换道过程中保持匀速或稍稍加速。安全车距不满足要求时，人类驾驶员会采取沿当前车道先加速/先减速行驶，待时机成熟再开始换道的策略。

基于上述处理方式，自动驾驶车辆的换道轨迹规划算法可以为两阶段换道轨迹规划算法，第一阶段可以为准备阶段，准备阶段中自车可以沿当前车道加速/减速行驶；第二阶段可以为换道阶段，换道阶段中自车匀速换道。这里，准备阶段的加速度和准备时间通过换道轨迹规划算法求解，从而提高自动驾驶车辆换道轨迹规划的拟人性、安全性、舒适性和成功率。

步骤309、在换道决策的结果为在当前车道跟驰的情况下，基于自车的行驶数据、第一车辆的行驶数据、与第二车辆的行驶数据，利用基于风险水平反事实推断的智能驾驶模型的算法，规划得到自车的行驶轨迹。

本实施例中，在换道决策的结果为在当前车道跟驰的情况下，在自车跟车过程中，自车和前车之间，自车的制动减速度是基于两车之间最小纵向安全距离、自车速度、前车速度，自车最大加速度，自车反应时间所确定的。后车在跟随自车行驶时要考虑自车可能采取的最大制动量从而尽可能保持安全的车距，因此，当前车道后车采取的跟随自车的行为，是对自车可能的制动策略进行推断后所做出的。基于此，可以利用基于风险水平反事实推断的智能驾驶模型的算法，推断当前车道后车认为自车采取的最大制动减速度，以基于自车和前车之间自车自车的制动减速度和推断当前车道后车认为自车采取的最大制动减速度，规划得到自车的行驶轨迹。

具体地，可以利用公式(8)，推断出当前车道后车认为自车采取的最大制动减速度。

在本实施例中，采用本实施例中的技术方案，可以通过深度强化学习模型的获得换道或跟驰的行为决策，自车行驶动作选择自由度更高，可以更好地适应强制变道场景。

此外，采用本实施例中的技术方案，可以通过基于优化的换道轨迹规划算法，获得的自车的行驶轨迹可靠性更高，从而提升了自车行驶的安全性。而且，该基于优化的换道轨迹规划算法较易实施且避免了对不确定环境建模。

此外，采用本实施例中的技术方案，可以实现两层换道轨迹决策规划，可以将决策层算法和规划层算法强耦合，保证了决策规划过程的协调性，从而可以有效保证自动驾驶车辆换道行驶过程的安全性和平稳性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图9示出了本申请一个实施例提供的自动驾驶车辆的换道装置的结构框图，如图9所示。本实施例的自动驾驶车辆的换道装置900可以包括获取单元901，决策单元902、和规划单元903。其中，获取单元901，用于获取自车的行驶数据、当前车道中自车前方的第一车辆的行驶数据与自车后方的第二车辆的行驶数据、以及目标车道中自车前方的第三车辆的行驶数据与自车后方的第四车辆的行驶数据；决策单元902，用于将自车的行驶数据、第一车辆的行驶数据、第三车辆的行驶数据、以及第四车辆的行驶数据输入换道决策模型，得到换道决策的结果；其中，换道决策模型是基于样本训练数据和根据轨迹规划的结果所确定的奖励函数进行预先训练所获得的；规划单元903，用于基于换道决策的结果、自车的行驶数据和第二车辆的行驶数据，利用预设的轨迹规划算法，获得自车的行驶轨迹。

需要说明的是，本实施例的自动驾驶车辆的换道装置的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，例如，网络侧的自动驾驶平台中的处理引擎或者分布式系统等，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，所述预设的轨迹规划算法包括换道轨迹规划算法，规划单元903，具体用于响应于换道决策的结果为换道至所述目标车道的指定区域，将所述目标车道的指定区域确定为目标行驶区域；基于所述目标行驶区域、所述自车的行驶数据和所述第二车辆的行驶数据，利用换道轨迹规划算法，获得所述自车的行驶轨迹。

在一种可能的实现方式中，规划单元903，具体用于基于所述目标行驶区域，获取所述目标行驶区域对应的所述自车前方的第五车辆的行驶数据与所述自车后方的第六车辆的行驶数据；基于自车的行驶数据、第一车辆的行驶数据、第二车辆的行驶数据、第五车辆的行驶数据、和所述第六车辆的行驶数据，利用所述换道轨迹规划算法的优化目标函数和安全距离约束条件，获得所述自车的行驶轨迹。

在一种可能的实现方式中，规划单元903，具体用于基于所述自车的行驶数据、第一车辆的行驶数据、第五车辆的行驶数据、与所述第六车辆的行驶数据，利用所述换道轨迹规划算法的优化目标函数，确定第一轨迹点和第二轨迹点；所述第一轨迹点用于表征所述自车启动换道的轨迹点，所述第二轨迹点用于表征所述自车完成换道的轨迹点；基于所述自车的行驶数据、第一车辆的行驶数据、第二车辆的行驶数据、第五车辆的行驶数据、所述第六车辆的行驶数据、所述第一轨迹点、所述第二轨迹点与所述安全距离约束条件，对所述自车进行换道轨迹规划处理，以获得满足所述安全约束条件的换道行驶轨迹；基于所述换道行驶轨迹，获得所述自车的行驶轨迹。

在一种可能的实现方式中，所述预设的轨迹规划算法包括跟车轨迹规划算法，规划单元903，具体用于响应于换道决策的结果为在所述当前车道跟驰，基于所述自车的行驶数据、第一车辆的行驶数据、和所述第二车辆的行驶数据，利用跟车轨迹规划算法，获得所述自车的行驶轨迹。

在一种可能的实现方式中，规划单元903，具体用于基于所述自车的行驶数据、第一车辆的行驶数据、和所述第二车辆的行驶数据，利用跟车轨迹规划算法，确定所述自车的加速度；基于所述自车的加速度，确定所述自车的速度和位置；基于所述自车的速度和位置、获得所述自车的跟车行驶轨迹；基于所述跟车行驶轨迹，获得所述自车的行驶轨迹。

本实施例中，可以通过获取单元获取自车的行驶数据、当前车道中所述自车前方的第一车辆的行驶数据与所述自车后方的第二车辆的行驶数据、以及目标车道中所述自车前方的第三车辆的行驶数据与所述自车后方的第四车辆的行驶数据，进而可以由决策单元将所述自车的行驶数据、第一车辆的行驶数据、第三车辆的行驶数据、以及第四车辆的行驶数据输入换道决策模型，得到换道决策的结果；其中，所述换道决策模型是基于样本训练数据和根据轨迹规划的结果所确定的奖励函数进行预先训练所获得的，使得规划单元能够基于所述换道决策的结果、所述自车的行驶数据和所述第二车辆的行驶数据，利用预设的轨迹规划算法，获得所述自车的行驶轨迹，由于可以将上层换道决策模型和下层的轨迹规划算法耦合，对自车换道场景下行驶轨迹进行规划处理，可以保证了所输出的决策动作合理性，下层采用轨迹规划算法处理上层所输出的决策动作以获得自车的行驶轨迹，也可保证了所规划的自车的行驶轨迹的可靠性，上下层算法强耦合保证了决策规划过程的协调性，从而保证了自车换道场景下的行驶过程的可靠性和安全性。

图10示出了本申请一个实施例提供的模型训练的装置的结构框图，如图10所示。本实施例的模型训练的装置1000可以包括获取单元1001、决策单元1002、规划单元1003、和训练单元1004。其中，获取单元1001，用于获取样本训练数据；其中，所述样本训练数据包括样本自车的行驶数据、当前车道中自车前方的样本第一车辆的行驶数据与所述自车后方的样本第二车辆的行驶数据、以及目标车道中所述自车前方的样本第三车辆的行驶数据与所述自车后方的样本第四车辆的行驶数据；决策单元1002，用于将所述样本自车的行驶数据、所述样本第一车辆的行驶数据、所述第三车辆的行驶数据和所述样本第四车辆的行驶数据输入待训练的换道决策模型，得到换道决策的结果；规划单元1003，用于基于所述换道决策的结果、所述样本自车的行驶数据和所述样本第二车辆的行驶数据，利用预设的轨迹规划算法，获得规划轨迹的结果对应的奖励函数；训练单元1004，用于基于所述样本训练数据和规划轨迹的结果对应的奖励函数，对所述待训练的换道决策模型进行更新训练处理，以获得训练完成的换道决策模型。

需要说明的是，本实施例的自动驾驶车辆的换道装置的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式系统，例如，网络侧的模型训练平台中的处理引擎或者分布式系统等，本实施例对此不进行特别限定。

本实施例中，可以通过获取单元获取样本训练数据；其中，所述样本训练数据包括样本自车的行驶数据、当前车道中自车前方的样本第一车辆的行驶数据与所述自车后方的样本第二车辆的行驶数据、以及目标车道中所述自车前方的样本第三车辆的行驶数据与所述自车后方的样本第四车辆的行驶数据，进而可以由决策单元将所述样本自车的行驶数据、所述样本第一车辆的行驶数据、所述第三车辆的行驶数据和所述样本第四车辆的行驶数据输入待训练的换道决策模型，得到换道决策的结果，由规划单元基于所述换道决策的结果、所述样本自车的行驶数据和所述样本第二车辆的行驶数据，利用预设的轨迹规划算法，获得规划轨迹的结果对应的奖励函数，使得训练单元能够基于所述样本训练数据和规划轨迹的结果对应的奖励函数，对所述待训练的换道决策模型进行更新训练处理，以获得训练完成的换道决策模型，由于可以在对上层换道决策模型训练时高度耦合下层轨迹规划的相关规划信息，提高了自动驾驶车辆的决策规划过程的协调性，优化了训练完成的换道决策模型的性能，从而可以保证自动驾驶车辆在换道场景下的轨迹规划的可靠性。

本申请的技术方案中，所涉及的用户个人信息，例如，用户的图像和属性数据等的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本申请的实施例，进一步地，还提供了一种包括所提供的电子设备的自动驾驶车辆，该自动驾驶车辆可以包括L2及其以上级别的无人驾驶车辆。

图11示出了可以用来实施本申请的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储电子设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1106也连接至总线1104。

电子设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如自动驾驶车辆的换道方法和模型训练的方法。例如，在一些实施例中，自动驾驶车辆的换道方法和模型训练的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到电子设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时，可以执行上文描述的自动驾驶车辆的换道方法和模型训练的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行自动驾驶车辆的换道方法和模型训练的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种自动驾驶车辆的换道方法，其特征在于，所述方法包括：

将所述自车的行驶数据、所述第一车辆的行驶数据、所述第三车辆的行驶数据、以及所述第四车辆的行驶数据输入换道决策模型，得到换道决策的结果；其中，所述换道决策模型是基于样本训练数据和根据轨迹规划的结果所确定的奖励函数进行预先训练所获得的；

2.根据权利要求1所述的方法，其特征在于，所述预设的轨迹规划算法包括换道轨迹规划算法，所述基于所述换道决策的结果、所述自车的行驶数据和所述第二车辆的行驶数据，利用预设的轨迹规划算法，获得所述自车的行驶轨迹，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标行驶区域、所述自车的行驶数据和所述第二车辆的行驶数据，利用换道轨迹规划算法，获得所述自车的行驶轨迹，包括：

基于所述自车的行驶数据、所述第一车辆的行驶数据、所述第二车辆的行驶数据、所述第五车辆的行驶数据、和所述第六车辆的行驶数据，利用所述换道轨迹规划算法的优化目标函数和安全距离约束条件，获得所述自车的行驶轨迹。

4.根据权利要求3所述的方法，其特征在于，所述基于所述自车的行驶数据、所述第一车辆的行驶数据、所述第二车辆的行驶数据、所述第五车辆的行驶数据、和所述第六车辆的行驶数据，利用所述换道轨迹规划算法的优化目标函数和安全距离约束条件，获得所述自车的行驶轨迹，包括：

基于所述自车的行驶数据、所述第一车辆的行驶数据、所述第五车辆的行驶数据、与所述第六车辆的行驶数据，利用所述换道轨迹规划算法的优化目标函数，确定第一轨迹点和第二轨迹点；所述第一轨迹点用于表征所述自车启动换道的轨迹点，所述第二轨迹点用于表征所述自车完成换道的轨迹点；

基于所述自车的行驶数据、所述第一车辆的行驶数据、所述第二车辆的行驶数据、所述第五车辆的行驶数据、所述第六车辆的行驶数据、所述第一轨迹点、所述第二轨迹点与所述安全距离约束条件，对所述自车进行换道轨迹规划处理，以获得满足所述安全约束条件的换道行驶轨迹；

基于所述换道行驶轨迹，获得所述自车的行驶轨迹。

5.根据权利要求1所述的方法，其特征在于，所述预设的轨迹规划算法包括跟车轨迹规划算法，所述基于所述换道决策的结果、所述自车的行驶数据和所述第二车辆的行驶数据，利用预设的轨迹规划算法，获得所述自车的行驶轨迹，包括：

响应于换道决策的结果为在所述当前车道跟驰，基于所述自车的行驶数据、所述第一车辆的行驶数据、和所述第二车辆的行驶数据，利用所述跟车轨迹规划算法，获得所述自车的行驶轨迹。

6.根据权利要求5所述的方法，其特征在于，所述基于所述自车的行驶数据、所述第一车辆的行驶数据、和所述第二车辆的行驶数据，利用所述跟车轨迹规划算法，获得所述自车的行驶轨迹，包括：

基于所述自车的行驶数据、所述第一车辆的行驶数据、和所述第二车辆的行驶数据，利用所述跟车轨迹规划算法，确定所述自车的加速度；

基于所述自车的加速度，确定所述自车的速度和所述自车的位置；

基于所述自车的速度和所述自车的位置、获得所述自车的跟车行驶轨迹；

基于所述跟车行驶轨迹，获得所述自车的行驶轨迹。

7.一种模型训练的方法，其特征在于，所述方法包括：

基于所述样本训练数据和所述规划轨迹的结果对应的奖励函数，对所述待训练的换道决策模型进行更新训练处理，以获得训练完成的换道决策模型。

8.一种自动驾驶车辆的换道装置，其特征在于，所述装置包括：

决策单元，用于将所述自车的行驶数据、所述第一车辆的行驶数据、所述第三车辆的行驶数据、以及所述第四车辆的行驶数据输入换道决策模型，得到换道决策的结果；其中，所述换道决策模型是基于样本训练数据和根据轨迹规划的结果所确定的奖励函数进行预先训练所获得的；

9.一种模型训练的装置，其特征在于，所述装置包括：

训练单元，用于基于所述样本训练数据和所述规划轨迹的结果对应的奖励函数，对所述待训练的换道决策模型进行更新训练处理，以获得训练完成的换道决策模型。

10.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据权利要求1-7中任一项所述的方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

12.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。

13.一种自动驾驶车辆，包括如权利要求10所述的电子设备。