CN117755341A

CN117755341A - 车辆决策控制模型的训练和车辆决策控制方法、装置及设备

Info

Publication number: CN117755341A
Application number: CN202410101337.5A
Authority: CN
Inventors: 赵瑞彬
Original assignee: Jiuzhi Suzhou Intelligent Technology Co ltd
Current assignee: Jiuzhi Suzhou Intelligent Technology Co ltd
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-03-26

Abstract

本发明公开了一种车辆决策控制模型的训练和车辆决策控制方法、装置及设备，涉及自动驾驶技术领域。包括：采用特征提取网络，对样本车辆的样本车辆状态空间进行特征编码，得到样本状态编码特征；采用上层行为决策子模型，对样本状态编码特征进行行为决策，得到上层行为决策预测结果；采用下层行为控制子模型，对样本状态编码特征进行行为控制，得到样本车辆的样本车辆状态信息；根据样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失；根据上层行为决策预测结果、下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失；根据上层行为决策损失，对车辆决策控制模型进行训练。

Description

车辆决策控制模型的训练和车辆决策控制方法、装置及设备

技术领域

本发明涉及人工智能技术领域，尤其涉及自动驾驶技术领域，具体涉及一种车辆决策控制模型的训练和车辆决策控制方法、装置及设备。

背景技术

自动驾驶技术已成为未来交通领域的热点研究，其中行为决策是自动驾驶系统的核心技术之一。行为决策涉及车辆在不同交通场景下的行动计划，包括是否变道、何时减速、何时超车等。有效的行为决策对于确保车辆的安全性和乘客的舒适性至关重要。

目前，自动驾驶领域存在多种行为决策的技术方案。这些方案通常基于传统的规则制定，例如基于交通规则和车辆感知信息的决策制定。然而，这种方法在处理复杂的交通场景和不确定性时存在一定的局限性。因此，需要一种更灵活、适应性更强的方法来进行行为决策，以提高自动驾驶系统的性能。

发明内容

本发明提供了一种车辆决策控制模型的训练和车辆决策控制方法、装置及设备，以提高自动驾驶车辆的适应性和灵活性。

根据本发明的一方面，提供了一种车辆决策控制模型的训练方法，该方法包括：

采用特征提取网络，对样本车辆的样本车辆状态空间进行特征编码，得到样本状态编码特征；所述样本车辆状态空间包括样本车辆信息；

采用上层行为决策子模型，对所述样本状态编码特征进行行为决策，得到上层行为决策预测结果；

采用下层行为控制子模型，对所述样本状态编码特征进行行为控制，得到所述样本车辆的样本车辆状态信息；

根据所述样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失；

根据所述上层行为决策预测结果、所述下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失；

根据所述上层行为决策损失，对车辆决策控制模型进行训练。

根据本发明的另一方面，提供了一种车辆决策控制方法，该方法包括：

获取目标自动驾驶车辆的目标车辆状态空间；所述目标车辆状态空间采用栅格图表示；

将所述目标车辆状态空间输入车辆决策控制模型中，得到所述目标自动驾驶车辆的目标行为控制结果；其中，所述车辆决策控制模型由本发明任一实施例所述的车辆决策控制模型的训练方法训练得到；

采用所述目标行为控制结果对所述目标自动驾驶车辆进行控制。

根据本发明的另一方面，提供了一种车辆决策控制模型的训练装置，该装置包括：

样本状态特征确定模块，用于采用特征提取网络，对样本车辆的样本车辆状态空间进行特征编码，得到样本状态编码特征；所述样本车辆状态空间包括样本车辆信息；

上层决策预测模块，用于采用上层行为决策子模型，对所述样本状态编码特征进行行为决策，得到上层行为决策预测结果；

下行行为控制模块，用于采用下层行为控制子模型，对所述样本状态编码特征进行行为控制，得到所述样本车辆的样本车辆状态信息；

下层控制损失确定模块，用于根据所述样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失；

上层决策损失确定模块，用于根据所述上层行为决策预测结果、所述下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失；

模型训练模块，用于根据所述上层行为决策损失，对车辆决策控制模型进行训练。

根据本发明的另一方面，提供了一种辆决策控制装置，该装置包括：

目标状态空间确定模块，用于获取目标自动驾驶车辆的目标车辆状态空间；所述目标车辆状态空间采用栅格图表示；

目标控制结果确定模块，用于将所述目标车辆状态空间输入车辆决策控制模型中，得到所述目标自动驾驶车辆的目标行为控制结果；其中，所述车辆决策控制模型由本发明任一实施例所述的车辆决策控制模型的训练方法训练得到；

车辆控制模块，用于采用所述目标行为控制结果对所述目标自动驾驶车辆进行控制。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的车辆决策控制模型的训练方法，或车辆决策控制方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的车辆决策控制模型的训练方法，或车辆决策控制方法。

本发明实施例的技术方案，通过采用特征提取网络，对样本车辆的样本车辆状态空间进行特征编码，得到样本状态编码特征；样本车辆状态空间包括样本车辆信息，之后采用上层行为决策子模型，对样本状态编码特征进行行为决策，得到上层行为决策预测结果，并采用下层行为控制子模型，对样本状态编码特征进行行为控制，得到样本车辆的样本车辆状态信息，进而根据样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失，根据上层行为决策预测结果、下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失，最后根据上层行为决策损失，对车辆决策控制模型进行训练。上述技术方案，通过分层强化学习即采用上层行为决策子模型和下层行为控制子模型来实现车辆行为控制，提供了能够自主决策的框架，减少了对人工规则的依赖；同时提高了自动驾驶系统在复杂交通环境中的适应性和灵活性，从而提高车辆的安全性、平稳性和能源效率。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是根据本发明实施例一提供的一种车辆决策控制模型的训练方法的流程图；

图1B是根据本发明实施例一提供的一种样本车辆状态空间的栅格图表示示意图；

图1C是根据本发明实施例一提供的一种可行驶区域的矩阵表示示意图；

图2是根据本发明实施例二提供的一种车辆决策控制模型的训练方法的流程图；

图3是根据本发明实施例三提供的一种车辆决策控制方法的流程图；

图4是根据本发明实施例三提供的一种车辆决策控制模型的训练装置的结构示意图；

图5是根据本发明实施例三提供的一种车辆决策控制装置的结构示意图；

图6是实现本发明实施例的车辆决策控制模型的训练方法或车辆决策控制方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“样本”、“目标”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

此外，还需要说明的是，本发明的技术方案中，所涉及的样本车辆状态空间和目标车辆状态空间等相关数据的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

实施例一

图1A是根据本发明实施例一提供的一种车辆决策控制模型的训练方法的流程。本实施例可适用于在复杂交通环境中自动驾驶车辆如何进行车辆行为决策情况，该方法可以由车辆决策控制模型的训练装置来执行，该装置可以采用硬件和/或软件的形式实现，并可集成于承载车辆决策控制模型的训练功能的电子设备中，例如服务器中。如图1A所示，该方法包括：

S110、采用特征提取网络，对样本车辆的样本车辆状态空间进行特征编码，得到样本状态编码特征。

本实施例中，样本车辆是指用于进行车辆决策控制模型训练时采用的数据的来源车辆。所谓样本车辆状态空间是指样本车辆进行行为决策的空间数据；可选的，样本车辆状态空间包括样本车辆信息、样本障碍物信息和样本可行驶区域。其中，所谓样本车辆信息是指样本车辆的相关信息；可选的，样本车辆信息包括样本车辆位置信息、样本车辆速度、样本车辆加速度和样本车辆航向角。所谓样本障碍物信息是指样本车辆周围的障碍物信息；可选的，样本障碍物信息包括样本障碍物位置、样本障碍物速度、样本障碍物加速度和样本障碍物航向角。所谓样本可行驶区域是指样本车辆在道路上的可行驶区域。

示例性的，样本车辆状态空间可以采用栅格图表示，进而对栅格图采用矩阵表示。具体的，样本车辆状态空间可以采用栅格图表示，规定样本车辆向前50米、向后20米、左右各10米的区域作为行为决策范围，将该该范围的空间，通过0.1*0.1的栅格进行划分，如图1B所示。其中，样本可行驶区域由栅格等同大小矩阵Sa表示，该矩阵大小为700*200，矩阵中Sa_ij采用0/1填充，用来表示栅格图中第i行第j列的位置是否为可行区域，其中，0表示不可行，1表示可行，具体如图1C所示。

进一步的，样本车辆信息和样本障碍物信息，也可以采用四个栅格等同大小的矩阵表示，分别用于描述位置、速度、加速度和航向角等信息，矩阵总大小为4*700*200，记为Ss。具体可以是，采用占用栅格的思路，位置占用处的栅格对应矩阵中的位置用1/0进行填充；速度、加速度和航向角在占用处的栅格对应矩阵中的位置中采用对应数值进行填充。综上，样本车辆状态空间可用5*700*200的矩阵表示。

所谓特征提取网络是指用于进行车辆状态空间进行特征提取的网络；可选的，特征提取网络可以由可形变注意力机制和卷积神经网络组成。可以理解的是，采用可形变注意力机制可以允许模型根据具体的驾驶情境动态调整注意力，能够更好地适应不同的交通场景，如城市道路、高度公路或复杂交叉口。同时，采用卷积神经网络结构能够捕获丰富的空间和时间特征，可以帮助模型更好地理解车辆周围的环境，如道路条件、车辆位置和速度以及障碍物分布。

所谓样本状态编码特征是指对样本车辆状态空间进行编码后得到的特征，可采用矩阵或向量形式表示。

具体的，样本车辆的样本车辆状态空间的矩阵表示，输入特征提取网络，经过网络进行特征提取，得到样本状态编码特征。

S120、采用上层行为决策子模型，对样本状态编码特征进行行为决策，得到上层行为决策预测结果。

本实施例中，上层行为决策子模型用于进行车辆行为决策，即决策车辆是否需要进行变道等高级行为；可选的上层行为决策子模型由深度Q网络构成。所谓上层行为决策预测结果包括保持当前车道、变道等高级行为，其中，变道包括左侧变道或右侧变道；示例性的，可以采用one-hot类型作为输出来表示行为决策结果。

具体的，可以将样本状态编码特征输入上层行为决策子模型中，经过模型进行强化学习，得到上层行为决策预测结果。

S130、采用下层行为控制子模型，对样本状态编码特征进行行为控制，得到样本车辆的样本车辆状态信息。

本实施例中，下层行为控制子模型用于进行车辆动作状态输出，输出车辆的加速度和曲率；可选的，下层行为控制子模型由深度Q网络构成。需要说明的是，上层行为决策子模型和下层行为控制子模型结构相同，参数不同。

所谓样本车辆状态信息是指样本车辆在每一动作状态的位置、速度、加速度、航向角和曲率等相关信息；可选的，样本车辆状态信息包括样本车辆状态速度、样本车辆状态加速度、样本车辆状态曲率、样本车辆状态航向角和样本车辆状态位置；其中，样本车辆状态加速度是指样本车辆在未来每一动作状态(例如每一秒状态)的加速度；样本车辆状态速度是指样本车辆在未来每一动作状态(例如每一秒状态)的速度；样本车辆状态曲率是指样本车辆在未来每一动作状态(例如每一秒状态)曲率；样本车辆状态航向角是指样本车辆在未来每一动作状态(例如每一秒状态)的航向角；样本车辆状态位置是指样本车辆在未来每一动作状态(例如每一秒状态)的位置。

具体的，可以将样本状态编码特征输入下层行为控制子模型中，经过模型学习，得到样本车辆的样本车辆状态信息。

一种可选方式，可以采用下层行为控制子模型，对样本状态编码特征进行行为控制，得到样本车辆的样本车辆状态信息中样本车辆状态加速度和样本车辆状态曲率；根据样本车辆状态加速度和样本车辆状态曲率、以及样本车辆信息，确定样本车辆状态信息中样本车辆状态速度、样本车辆状态航向角和样本车辆状态位置。

具体的，可以将样本状态编码特征输入下层行为控制子模型，经模型学习处理，得到样本车辆的样本车辆状态信息中样本车辆状态加速度和样本车辆状态曲率，这样可以得到样本车辆在不同状态的样本车辆状态加速度和样本车辆状态曲率，之后可以基于轨迹反推公式，根据不同状态(例如相邻状态)的样本车辆状态加速度和样本车辆状态曲率、以及初始的样本车辆信息(样本车辆位置、样本车辆速度、样本车辆加速度、样本车辆航向角和样本车辆曲率)，确定样本车辆状态速度、样本车辆状态航向角和样本车辆状态位置。具体的，轨迹反推公式如下：

v_k＝v_k-1+0.5*(a_k+a_k-1)*Δt

ω_k＝0.5*(kappa_k+kappa_k-1)*0.5(v_k+v_k-1)

θ_k＝θ_k-1+ω_k

(x_k，y_k)＝(x_k-1，y_k-1)+0.5(v_k+v_k-1)(sin(0.5(θ_k+θ_k-1))，cos(0.5(θk

+θ_k-1)))

其中，k表示第k个状态(比如第k时刻)，k为大于1的自然数；v表示样本车辆状态速度；a表示样本车辆状态加速度；Δt表示相邻状态之间的时间差；ω表示航向角变化量；kappa表示样本车辆状态曲率；θ表示样本车辆状态航向角；(x，y)表示样本车辆状态位置。

进一步的，为了保障车辆轨迹的可行性，满足运动学约束，在得到模型输出的样本车辆状态加速度和样本车辆状态曲率之后，对样本车辆状态加速度和样本车辆状态曲率进行tanh运算，即在下层行为控制子模型的输出层后再加一层tanh函数(带系数和offset)，将样本车辆状态加速度和样本车辆状态曲率严格限制到最大加减速度和最大正反曲率之间。

更进一步的，为保证车辆速度在合理范围内，对于大于车辆最大限速的样本车辆状态速度，进行截断，即将车辆最大限速作为样本车辆状态速度。

S140、根据样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失。

本实施例中，样本车辆限速是指样本车辆的最大允许速度。所谓最大车辆加速度是指样本车辆的最大允许加速度。所谓下层行为控制单步损失是指下层行为控制子模型的训练损失；可选的，下层行为控制单步损失包括车道保持损失和换道损失；其中，车道保持损失是指保持车道行驶目的对应的损失；换道损失是指换道行驶目的对应的损失。

一种可选方式，可以基于预设损失函数，根据样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失。需要说明的是，本实施例对预设损失函数不作具体限定。

S150、根据上层行为决策预测结果、下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失。

本实施例中，上层行为决策单步周期是指当前行为决策的持续时间，单位为s；为防止上层行为决策子模型发散以及过远规划行为的无效性，上层行为决策单步周期最大值为6s。

所谓上层行为决策损失是指用于对上层行为决策子模型进行训练的损失，用于评估车辆的行动，目的是使车辆在不同情况下采取安全、高效的行动，例如，安全的行为会得到正奖励，而危险的行为会得到负奖励。

一种可选方式，可以根据上层行为决策预测结果，从下层行为控制单步损失中确定上层关联下层单步损失；根据上层关联下层单步损失和上层行为决策单步周期，确定上层行为决策损失。

其中，上层关联下层单步损失是指上层行为决策对应的下层行为控制损失。

具体的，若上层行为决策预测结果为保持当前车道，则上层关联下层单步损失为车道保持损失；若上层行为决策预测结果为变道，则层关联下层单步损失为换道损失；之后可以基于如下公式，根据上层关联下层单步损失和上层行为决策单步周期，确定上层行为决策损失：

其中，Ru表示上层行为决策损失；Δd表示上层行为决策单步周期；Rl表示上层关联下层单步损失。

可以理解的是，相比于普通的强化学习，分层强化学习的巧妙之处在于上层决策的奖励(损失)，由整个下层控制过程进行评估。

S160、根据上层行为决策损失，对车辆决策控制模型进行训练。

本实施例中，车辆决策控制模型用于对自动驾驶车辆行驶进行控制；可选的，车辆决策控制模型包括特征提取网络、上层行为决策子模型和下层行为控制子模型。

具体的，根据上层行为决策损失，对车辆决策控制模型进行训练，直到上层行为决策损失趋于稳定，停止训练。

实施例二

图2是根据本发明实施例二提供的一种车辆决策控制模型的训练方法的流程图。本实施例在上述实施例的基础上，对“根据样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失”进一步优化，提供一种可选实施方案。如图2所示，该方法包括：

S210、采用特征提取网络，对样本车辆的样本车辆状态空间进行特征编码，得到样本状态编码特征。

其中，样本车辆状态空间包括样本车辆信息。

S220、采用上层行为决策子模型，对样本状态编码特征进行行为决策，得到上层行为决策预测结果。

S230、采用下层行为控制子模型，对样本状态编码特征进行行为控制，得到样本车辆的样本车辆状态信息。

S240、根据样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失。

一种可选方式，可以根据样本车辆状态信息、样本障碍物位置、道路信息中道路边界和道路限速、样本车辆限速、以及最大车辆加速度，确定车道保持损失；根据样本车辆状态位置和道路信息中车道中心线位置，确定换道损失；根据车道保持损失和换道损失，确定下层行为控制单步损失。其中，车道中心线位置是指车道中心线的横向位置。

具体的，可以基于预设损失函数，根据样本车辆状态信息、样本障碍物位置、道路信息中道路边界和道路限速、样本车辆限速、以及最大车辆加速度，确定车道保持损失，需要说明的是，本实施例对预设损失函不作具体限定。之后，可以基于如下公式，确定根据样本车辆状态位置和道路信息中车道中心线位置，确定换道损失：其中，le表示当前车辆的横向位置；c表示道路信息中车道中心线位置；R_k表示换道损失。进而，将车道保持损失和换道损失，作为下层行为控制单步损失。

示例性的，根据样本车辆状态信息、样本障碍物位置、道路信息中道路边界和道路限速、样本车辆限速、以及最大车辆加速度，确定车道保持损失，包括：根据样本车辆状态位置和样本障碍物位置，确定障碍物损失；其中，障碍物损失包括静态障碍物损失和/或动态障碍物损失；根据样本车辆状态位置和道路边界，确定边界损失；根据样本车辆状态速度、道路限速和样本车辆限速，确定效率损失；根据样本车辆状态加速度和最大车辆加速度，确定平稳损失；基于能量消耗评估模型，根据样本车辆状态速度和样本车辆状态加速度，确定排放损失；根据障碍物损失、边界损失、效率损失、平稳损失和排放损失，确定车道保持损失。

具体的，第一、根据样本车辆状态位置和样本障碍物位置，确定障碍物损失；其中，障碍物损失包括静态障碍物损失和/或动态障碍物损失。对于静态障碍物损失，确定样本车辆状态位置与样本障碍物位置之间的距离，例如可以使用样本障碍物的多边形与样本车辆的边界框之间的最小距离作为样本车辆状态位置与样本障碍物位置之间的距离。之后可以基于如下公式，确定障碍物损失：

其中，R_s表示静态障碍物损失；k_s表静态损失系数，可以由人工进行微调；dist表示样本车辆状态位置与样本障碍物位置之间的距离。

第二、对于动态障碍物损失，确定过程与静态障碍物损失类似，首先推算得到未来每个时刻也即每个状态的样本车辆状态位置，对样本车辆状态位置外扩生成边界框(bounding box)，并对应确定每个时刻的样本障碍物多边形，计算每个时刻对应的样本车辆状态位置和样本障碍物之间的距离，进而基于该距离确定动态障碍物损失；例如可以取未来2m时对应的样本车辆状态位置和样本障碍物之间的距离确定动态障碍物损失。进一步的，由于未来时刻预测具有不确定性，需要设置折扣系数，例如0.9。即，其中，R_d表示动态障碍物损失。

第三、根据样本车辆状态位置和道路边界，确定边界损失；其中，边界损失是指车辆靠近道路边界的代价。由于车辆绕行时跨线会增加额外的风险，因此对靠近车道边界线施加额外的代价，当车辆不超越道路边界的时候，边界损失为0；当车辆超越道路边界时，先确定样本车辆状态位置与道路边界之间的距离，之后可以通过如下公式，根据样本车辆状态位置和道路边界，确定边界损失：

其中，R_b表示边界损失；k_b表示边界系数，可以由人工微调；boundary_dist表示样本车辆状态位置与道路边界之间的距离。

第四、根据样本车辆状态速度、道路限速和样本车辆限速，确定效率损失。其中，效率损失是指用于激励车辆行驶的效率，希望车辆在相同的时间能够行驶更远的距离。具体的，从道路限速和样本车辆限速中确定车辆能够行驶的最大速度，即车辆自身速度最大值，之后采用样本车辆状态速度和车辆自身速度最大值之间的比值作为效率损失。例如可以通过如下公式确定：

其中，R_e表示效率损失；k_e表示效率损失系数，可以由人工微调；v_ego表示样本车辆状态速度；v_{l_max}表示道路限速；v_{e_max}表示样本车辆限速。

第五、根据样本车辆状态加速度和最大车辆加速度，确定平稳损失。其中，平稳损失用于保证车辆行驶平稳性。具体的，确定样本车辆在相邻状态的样本车辆状态加速度的车辆加速度变化值的绝对值，并确定样本车辆在道路中的最大车辆加速度，之后采用车辆加速度变化值的绝对值与最大车辆加速度之间的比值作为平稳损失。例如可以通过如下公式确定：

其中，R_c表示平稳损失；k_c表示平稳损失系数，可以由人工微调；表示在t时刻(状态)的样本车辆状态加速度；/>表示在t-1时刻(状态)的样本车辆状态加速度；a_{max_acc}表示车辆允许最大加速度；a_{max_dcc}表示道路允许最大加速度。

第六、基于能量消耗评估模型，根据样本车辆状态速度和样本车辆状态加速度，确定排放损失。其中，能量消耗评估模型可以是VT-Micro 2。排放损失是指用于评估车辆能耗的损失。具体的，可以基于样本车辆状态速度和样本车辆状态加速度，从能量消耗评估模型中查能耗表得到车辆能源消耗，进而，基于车辆能源消耗，确定排放损失。例如可以通过如下公式确定：

其中，R_t表示排放损失，表示能量消耗评估模型中的能耗表；v表示样本车辆状态速度；a表示样本车辆状态加速度。

最后，根据障碍物损失、边界损失、效率损失、平稳损失和排放损失，确定车道保持损失。例如可以通过如下公式确定车道保持损失R_lk：

R_lk＝-R_s-R_d-R_b+R_e-R_c-R_t

S250、根据上层行为决策预测结果、下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失。

S260、根据上层行为决策损失，对车辆决策控制模型进行训练。

实施例三

图3是根据本发明实施例三提供的一种车辆决策控制方法的流程图。本实施例可适用于在复杂交通环境中自动驾驶车辆如何进行车辆行为决策情况，该方法可以由车辆决策控制装置来执行，该装置可以采用硬件和/或软件的形式实现，并可集成于承载车辆决策控制功能的电子设备中，例如自动驾驶车辆中。如图3所示，该方法包括：

S310、获取目标自动驾驶车辆的目标车辆状态空间。

本实施例中，目标自动驾驶车辆是指需要进行实时车辆控制的自动驾驶车辆。所谓目标车辆状态空间是指目标自动驾驶车辆进行行为控制的空间数据；可选的，目标车辆状态空间包括目标车辆信息、目标障碍物信息和目标可行驶区域。其中，所谓目标车辆信息是指目标自动驾驶车辆的相关信息；可选的，目标车辆信息包括目标车辆位置信息、目标车辆速度、目标车辆加速度和目标车辆航向角。所谓目标障碍物信息是指目标自动驾驶车辆周围的障碍物信息；可选的，目标障碍物信息包括目标障碍物位置、目标障碍物速度、目标障碍物加速度和目标障碍物航向角。目标车辆状态空间采用栅格图表示，可以对栅格图采用矩阵表示。

具体的，可以实时获取目标自动驾驶车辆的目标车辆状态空间。

S320、将目标车辆状态空间输入车辆决策控制模型中，得到目标自动驾驶车辆的目标行为控制结果。

其中，车辆决策控制模型由本发明任一实施例所提供的车辆决策控制模型的训练方法训练得到。所谓目标行为控制结果是指自动驾驶车辆的车辆控制指示，包括保持当前车道或变道。

具体的，可以将目标车辆状态空间输入车辆决策控制模型中，经过模型处理，得到目标自动驾驶车辆的目标行为控制结果。

S330、采用目标行为控制结果对目标自动驾驶车辆进行控制。

具体的，可以采用目标行为控制结果对目标自动驾驶车辆进行控制。

本发明实施例提供的技术方案，通过获取目标自动驾驶车辆的目标车辆状态空间；目标车辆状态空间采用栅格图表示，之后将目标车辆状态空间输入车辆决策控制模型中，得到目标自动驾驶车辆的目标行为控制结果，进而采用目标行为控制结果对目标自动驾驶车辆进行控制。上述技术方案，能够提高自动驾驶车辆控制的适应性和灵活性。

实施例四

图4是根据本发明实施例三提供的一种车辆决策控制模型的训练装置的结构示意图。本实施例可适用于在复杂交通环境中自动驾驶车辆如何进行车辆行为决策情况，该装置可以采用硬件和/或软件的形式实现，并可集成于承载车辆决策控制模型的训练功能的电子设备中，例如服务器中。如图4所示，该装置包括：

样本状态特征确定模块410，用于采用特征提取网络，对样本车辆的样本车辆状态空间进行特征编码，得到样本状态编码特征；样本车辆状态空间包括样本车辆信息；

上层决策预测模块420，用于采用上层行为决策子模型，对样本状态编码特征进行行为决策，得到上层行为决策预测结果；

下行行为控制模块430，用于采用下层行为控制子模型，对样本状态编码特征进行行为控制，得到样本车辆的样本车辆状态信息；

下层控制损失确定模块440，用于根据样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失；

上层决策损失确定模块450，用于根据上层行为决策预测结果、下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失；

模型训练模块460，用于根据上层行为决策损失，对车辆决策控制模型进行训练。

可选的，下行行为控制模块430具体用于：

采用下层行为控制子模型，对样本状态编码特征进行行为控制，得到样本车辆的样本车辆状态信息中样本车辆状态加速度和样本车辆状态曲率；

根据样本车辆状态加速度和样本车辆状态曲率、以及样本车辆信息，确定样本车辆状态信息中样本车辆状态速度、样本车辆状态航向角和样本车辆状态位置。

可选的，下层控制损失确定模块440包括：

车道保持损失确定单元，用于根据样本车辆状态信息、样本障碍物位置、道路信息中道路边界和道路限速、样本车辆限速、以及最大车辆加速度，确定车道保持损失；

换道损失确定单元，用于根据样本车辆状态位置和道路信息中车道中心线位置，确定换道损失；

下层控制损失确定单元，用于根据车道保持损失和换道损失，确定下层行为控制单步损失。

可选的，车道保持损失确定单元具体用于：

根据样本车辆状态位置和样本障碍物位置，确定障碍物损失；其中，障碍物损失包括静态障碍物损失和/或动态障碍物损失；

根据样本车辆状态位置和道路边界，确定边界损失；

根据样本车辆状态速度、道路限速和样本车辆限速，确定效率损失；

根据样本车辆状态加速度和最大车辆加速度，确定平稳损失；

基于能量消耗评估模型，根据样本车辆状态速度和样本车辆状态加速度，确定排放损失；

根据障碍物损失、边界损失、效率损失、平稳损失和排放损失，确定车道保持损失。

可选的，上层决策损失确定模块450具体用于：

根据上层行为决策预测结果，从下层行为控制单步损失中确定上层关联下层单步损失；

根据上层关联下层单步损失和上层行为决策单步周期，确定上层行为决策损失。

可选的，样本车辆状态空间还包括样本障碍物信息和样本可行驶区域；其中，样本车辆信息包括样本车辆位置信息、样本车辆速度、样本车辆加速度和样本车辆航向角；样本障碍物信息包括样本障碍物位置、样本障碍物速度、样本障碍物加速度和样本障碍物航向角；样本车辆状态空间采用栅格图表示。

可选的，上层行为决策子模型和下层行为控制子模型结构相同，参数不同；上层行为决策子模型由深度Q网络构成。

本发明实施例所提供的车辆决策控制模型的训练装置可执行本发明任意实施例所提供的车辆决策控制模型的训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是根据本发明实施例三提供的一种车辆决策控制装置的结构示意图。本实施例可适用于在复杂交通环境中自动驾驶车辆如何进行车辆行为决策情况，该装置可以采用硬件和/或软件的形式实现，并可集成于承载车辆决策控制功能的电子设备中，例如自动驾驶车辆中。如图5所示，该装置包括：

目标状态空间确定模块510，用于获取目标自动驾驶车辆的目标车辆状态空间；目标车辆状态空间采用栅格图表示；

目标控制结果确定模块520，用于将目标车辆状态空间输入车辆决策控制模型中，得到目标自动驾驶车辆的目标行为控制结果；其中，车辆决策控制模型由本发明任一实施例所提供的车辆决策控制模型的训练方法训练得到；

车辆控制模块530，用于采用目标行为控制结果对目标自动驾驶车辆进行控制。

可选的，目标车辆状态空间包括目标车辆信息、目标障碍物信息和目标可行驶区域；其中，目标车辆信息包括目标车辆位置信息、目标车辆速度、目标车辆加速度和目标车辆航向角；目标障碍物信息包括目标障碍物位置、目标障碍物速度、目标障碍物加速度和目标障碍物航向角。

本发明实施例所提供的车辆决策控制装置可执行本发明任意实施例所提供的车辆决策控制方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6是实现本发明实施例的车辆决策控制模型的训练方法或车辆决策控制方法的电子设备的结构示意图；图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如车辆决策控制模型的训练方法或车辆决策控制方法。

在一些实施例中，车辆决策控制模型的训练方法或车辆决策控制方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的车辆决策控制模型的训练方法或车辆决策控制方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行车辆决策控制模型的训练方法或车辆决策控制方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种车辆决策控制模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，采用下层行为控制子模型，对所述样本状态编码特征进行行为控制，得到所述样本车辆的样本车辆状态信息，包括：

采用下层行为控制子模型，对所述样本状态编码特征进行行为控制，得到所述样本车辆的样本车辆状态信息中样本车辆状态加速度和样本车辆状态曲率；

根据所述样本车辆状态加速度和所述样本车辆状态曲率、以及所述样本车辆信息，确定所述样本车辆状态信息中样本车辆状态速度、样本车辆状态航向角和样本车辆状态位置。

3.根据权利要求1所述的方法，其特征在于，根据所述样本车辆状态信息、样本障碍物位置、道路信息、样本车辆限速和最大车辆加速度，确定下层行为控制单步损失，包括：

根据所述样本车辆状态信息、样本障碍物位置、道路信息中道路边界和道路限速、样本车辆限速、以及最大车辆加速度，确定车道保持损失；

根据所述样本车辆状态位置和所述道路信息中车道中心线位置，确定换道损失；

根据所述车道保持损失和所述换道损失，确定下层行为控制单步损失。

4.根据权利要求3所述的方法，其特征在于，根据所述样本车辆状态信息、样本障碍物位置、道路信息中道路边界和道路限速、样本车辆限速、以及最大车辆加速度，确定车道保持损失，包括：

根据所述样本车辆状态位置和样本障碍物位置，确定障碍物损失；其中，所述障碍物损失包括静态障碍物损失和/或动态障碍物损失；

根据所述样本车辆状态位置和道路边界，确定边界损失；

根据所述样本车辆状态速度、道路限速和样本车辆限速，确定效率损失；

根据所述样本车辆状态加速度和最大车辆加速度，确定平稳损失；

基于能量消耗评估模型，根据所述样本车辆状态速度和所述样本车辆状态加速度，确定排放损失；

根据所述障碍物损失、所述边界损失、所述效率损失、所述平稳损失和所述排放损失，确定车道保持损失。

5.根据权利要求1所述的方法，其特征在于，根据所述上层行为决策预测结果、所述下层行为控制单步损失和上层行为决策单步周期，确定上层行为决策损失，包括：

根据所述上层行为决策预测结果，从所述下层行为控制单步损失中确定上层关联下层单步损失；

根据所述上层关联下层单步损失和上层行为决策单步周期，确定上层行为决策损失。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述样本车辆状态空间还包括样本障碍物信息和样本可行驶区域；其中，所述样本车辆信息包括样本车辆位置信息、样本车辆速度、样本车辆加速度和样本车辆航向角；所述样本障碍物信息包括样本障碍物位置、样本障碍物速度、样本障碍物加速度和样本障碍物航向角；所述样本车辆状态空间采用栅格图表示。

7.根据权利要求1-5中任一项所述的方法，其特征在于，所述上层行为决策子模型和所述下层行为控制子模型结构相同，参数不同；所述上层行为决策子模型由深度Q网络构成。

8.一种车辆决策控制方法，其特征在于，包括：

将所述目标车辆状态空间输入车辆决策控制模型中，得到所述目标自动驾驶车辆的目标行为控制结果；其中，所述车辆决策控制模型由权利要求1-7中任一项所述的车辆决策控制模型的训练方法训练得到；

9.根据权利要求8所述的方法，其特征在于，所述目标车辆状态空间包括目标车辆信息、目标障碍物信息和目标可行驶区域；其中，所述目标车辆信息包括目标车辆位置信息、目标车辆速度、目标车辆加速度和目标车辆航向角；所述目标障碍物信息包括目标障碍物位置、目标障碍物速度、目标障碍物加速度和目标障碍物航向角。

10.一种车辆决策控制模型的训练装置，其特征在于，包括：

11.一种辆决策控制装置，其特征在于，包括：

目标控制结果确定模块，用于将所述目标车辆状态空间输入车辆决策控制模型中，得到所述目标自动驾驶车辆的目标行为控制结果；其中，所述车辆决策控制模型由权利要求1-7中任一项所述的车辆决策控制模型的训练方法训练得到；

12.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的车辆决策控制模型的训练方法，或权利要求8-9任一项所述的车辆决策控制方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的车辆决策控制模型的训练方法，或权利要求8-9任一项所述的车辆决策控制方法。