CN110525421B

CN110525421B - 一种用于具有挂车的车辆的车道保持强化学习方法及系统

Info

Publication number: CN110525421B
Application number: CN201910899310.4A
Authority: CN
Inventors: 方啸
Original assignee: Suzhou Zhijia Technology Co Ltd
Current assignee: Suzhou Zhijia Technology Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-07-10
Anticipated expiration: 2039-09-23
Also published as: CN110525421A

Abstract

本发明公开了用于具有挂车的车辆的车道保持强化学习方法和系统，所述车辆包括牵引车和挂车，该方法包括根据当前车辆状态量获取增强信号；对当前车辆状态量和增强信号进行强化学习，更新决策动作；根据更新后的决策动作获得更新后的车辆状态量和更新后的增强信号，对更新后的车辆状态量和更新后的增强信号进行强化学习以调整决策动作。本发明通过不断地更新反馈增强信号，从而获得车辆的速度、重量、航向角、车道线距离与所需方向盘转角、角速度的对应关系，并将最优的对应关系作为自动驾驶经验储存，保证车道保持的稳定性及自适应性。

Description

一种用于具有挂车的车辆的车道保持强化学习方法及系统

技术领域

本发明涉及自动驾驶车辆技术领域，特别是涉及一种用于具有挂车的车辆的车道保持强化学习方法及系统。

背景技术

现有技术中的卡车的结构如图1所示，该卡车的结构包括牵引车1和挂车2这两部分；其中，3为牵引车1的质点(即卡车的后轮轴中心)，4为挂车2的质点(即挂车2的后轮轴中心)。通常，卡车满载的重量是普通轿车的20-25倍，卡车的长度是普通轿车的4-5倍，且卡车的结构为非统一的整体(即包含牵引车和挂车)；所以，卡车在道路行驶过程中，卡车对车辆自身的控制与普通轿车相比更为复杂且要求更高。

卡车在车道内行驶，除了需要将牵引车1保持在车道内外，还需要将挂车2保持在车道内。由于卡车在空载、半载、满载状态时的重量不同、行驶速度也不同，如果在行驶过程中由于驾驶操作不当，如：对方向盘转角、转向角速度控制不当，卡车将会出现如图2所示的直线车道行驶过程中的甩挂现象以及如图3所示的过弯行驶过程中的刮碰现象。

卡车自动驾驶车道保持方法，需要卡车拥有经验丰富的卡车驾驶员的“大脑”，以实现卡车在直线车道、弯道的平稳行驶。

传统的卡车自动驾驶车道保持方法多数是采用监督学习方式，即：人为定义卡车速度、重量、航向角、车道线距离与所需方向盘转角、角速度、纵向加/减速度(油门、刹车)的对应关系，根据该对应关系，自动驾驶系统选取相应的方向盘转角、角速度调整决策动作，以保证车辆在车道线内平稳行驶。

然而，上述的卡车自动驾驶车道保持方法存在以下几个技术问题：

1.由于人为设定上述对应关系，那么就需要大量的试验数据，而试验数据的分析、分类具有一定的主观性，因此得到的试验数据不够准确；

2.卡车的试验数据量非常庞大，因此将卡车的所有速度、重量、航向角、车道线距离与所需方向盘转角、角速度、纵向加/减速度(油门、刹车)的对应关系一一列出存在很大的难度；

3.现有技术中的监督学习方式仅考虑了牵引车1对车道保持的控制，而忽略了挂车2对车道保持的控制，因此很容易造成挂车2在行驶过程中出现左右摇摆现象。

综上，现有技术中的监督学习的自动驾驶车道保持方法，其稳定性和自适应性均不够强大。

发明内容

基于背景技术中的技术问题，本发明提出了一种用于具有挂车的车辆的车道保持强化学习方法及系统，以增强其稳定性和自适应性，从而解决现有技术中存在的至少一个技术问题。

第一方面，本发明提出的一种用于具有挂车的车辆的车道保持强化学习方法，所述车辆包括牵引车和挂车，该方法包括以下步骤：

根据当前车辆状态量获取增强信号，所述车辆状态量至少包括：牵引车航向角、牵引车质点到一侧车道线的距离、挂车航向角和挂车质点到所述一侧车道线的距离；

对当前车辆状态量和增强信号进行强化学习，更新决策动作；

根据更新后的决策动作获得更新后的车辆状态量和更新后的增强信号，对所述更新后的车辆状态量和更新后的增强信号进行强化学习以调整决策动作。

可选的，所述根据当前车辆状态量获取增强信号包括以下子步骤：

S110：初始化车辆状态量；

S120：判断训练的次数是否小于设定的最大训练次数，若是，计算车辆的下一状态量；当训练的次数达到设定的最大训练次数时，学习训练结束；

S130：判断训练的步长是否小于预先设定的最大步长，若是，计算增强信号；当训练的步长大于或等于预先设定的最大步长时，返回步骤S120。

可选的，所述计算增强信号包括以下子步骤：

根据当前车辆状态量确定牵引车相对于质点中心偏移量和挂车相对于质点中心偏移量；

根据当前车辆状态量、牵引车相对于质点中心偏移量和挂车相对于质点中心偏移量确定所述增强信号。

可选的，所述增强信号是通过以下公式来确定的；

当θ₁(t)≥0且d₂(t)≥d₁(t)时，确定所述增强信号r(t)＝r₀；

当θ₂(t)≥0且d₄(t)≥d₃(t)时，确定所述增强信号r(t)＝r₀；

当θ₁(t)＜0且d₁(t)+d₂(t)≥d时，则确定所述增强信号r(t)＝r₀；

当θ₂(t)＜0且d₃(t)+d₄(t)≥d时，确定所述增强信号r(t)＝r₀；

其他情况下，所述增强信号通过以下公式确定为：

其中，r₀为预设的最小增强信号数值；d₁(t)为牵引车质点到其中一侧车道线的距离，d₂(t)为牵引车相对于质点中心偏移量；θ₂(t)为t时刻挂车的航向角，d₃(t)为挂车质点到所述其中一侧车道线的距离，d₄(t)为挂车相对于质点中心偏移量；d为左侧车道线和右侧车道线之间的宽度；α为预设的牵引车的控制权重(0＜α＜1)，1-α为预设的挂车的控制权重。

可选的，所述对所述更新后的车辆状态量和更新后的增强信号进行强化学习以调整决策动作包括以下子步骤：

判断更新后的增强信号是否等于r₀，若是，则训练步长加1，返回步骤S120；

若更新后的增强信号不等于r₀，则根据更新后的增强信号的数值，获得决策动作的反馈结果，由所述决策动作的反馈结果来调整决策动作。

可选的，所述决策动作包括方向盘转角、方向盘角速度、纵向加/减速度。

第二方面，本发明提出的一种用于具有挂车的车辆的车道保持强化学习系统，所述车辆包括牵引车和挂车，该系统包括获取模块、更新模块和调整模块；

所述获取模块用于根据当前车辆状态量获取增强信号，所述车辆状态量至少包括：牵引车航向角、牵引车质点到一侧车道线的距离、挂车航向角和挂车质点到所述一侧车道线的距离；

所述更新模块用于对当前车辆状态量和增强信号进行强化学习，更新决策动作；

所述调整模块用于根据更新后的决策动作获得更新后的车辆状态量和更新后的增强信号，对所述更新后的车辆状态量和更新后的增强信号进行强化学习以调整决策动作。

可选的，所述获取模块包括初始化单元、第一计算单元和第二计算单元；其中，

所述初始化单元用于初始化车辆状态量；

所述第一计算单元用于判断训练的次数是否小于设定的最大训练次数，若是，计算车辆的下一状态量；当训练的次数达到设定的最大训练次数时，学习训练结束；

所述第二计算单元用于判断训练步长是否小于预先设定的最大步长，若是，计算增强信号；当训练的步长大于或等于预先设定的最大步长时，返回执行第一计算单元的操作。

可选的，所述第二计算单元执行以下操作：

可选的，所述调整模块执行以下操作：

判断更新后的增强信号是否等于r₀，若是，训练步长加1，则返回执行第一计算单元的操作；若更新后的增强信号不等于r₀，将则根据更新后的增强信号的数值，获得决策动作的反馈结果，由所述决策动作的反馈结果来调整决策动作；其中，所述r₀为预设的最小增强信号数值。

与现有技术相比，本发明的有益效果是：

本实施例的车道保持的自主强化学习方法，通过实时地与环境(即车辆状态量)交互，在成功和失败的经验教训中自主车道保持决策动作。具体来说，该方法根据当前车辆状态量获取增强信号，通过对当前车辆状态量和增强信号的强化学习，对原有的决策动作进行评估后获得更新后的决策动作，增强信号的数值直接反映出每次决策动作的“好”、“坏”。“好”的决策动作将被强化学习神经网络系统作为正样本进行储存，“坏”的决策动作将被强化学习神经网络系统作为负样本进行储存。强化学习系统通过不断地更新反馈，从而获得车辆的速度、重量、航向角、车道线距离与所需方向盘转角、角速度的对应关系，并将最优的对应关系作为自动驾驶经验储存，保证车辆的车道保持的稳定性及自适应性。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的、特点和优点将会变得更加清楚，其中：

图1是现有技术中的一种卡车的结构示意图；

图2是现有技术中的卡车在直线车道行驶过程中出现的甩挂现象示意图；

图3是现有技术中的卡车在过弯行驶过程中出现的刮碰现象示意图；

图4是本发明实施例提供的一种用于具有挂车的车辆的车道保持强化学习方法的流程示意图；

图5是本发明实施例提供的一种用于具有挂车的车辆的车道保持强化学习方法的工作原理示意图；

图6是本发明实施例提供的计算增强信号的示意图；

图7是本发明实施例提供的一种用于具有挂车的车辆的车道保持强化学习方法的另一流程示意图；

图8是本发明实施例提供的一种用于具有挂车的车辆的车道保持强化学习系统的结构示意图。

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一、用于具有挂车的车辆的车道保持强化学习方法

1、一种用于具有挂车的车辆的车道保持强化学习方法

图4是本发明实施例提供的一种用于具有挂车的车辆的车道保持强化学习方法的流程示意图，其中，所述车辆包括牵引车和挂车，参见图4，该方法包括以下步骤：

步骤100：根据当前车辆状态量获取增强信号，所述车辆状态量至少包括：牵引车航向角、牵引车质点到一侧车道线的距离、挂车航向角和挂车质点到所述一侧车道线的距离；

可选的，本实施例中的当前车辆状态量可以来自于预先建立的车辆物理模型；

步骤200：对当前车辆状态量和增强信号进行强化学习，更新决策动作；

步骤300：根据更新后的决策动作反馈至车辆物理模型，获得更新后的车辆状态量和更新后的增强信号，对所述更新后的车辆状态量和增强信号进行强化学习以调整决策动作。

其中，强化学习是指通过一个能感知环境的自治代理(agent)，自主学习选择能达到其目标的最优动作。具体自主学习的过程是代理在其环境中做出动作，环境会给予反馈，代理根据环境的反馈(成功给予奖励、失败给予惩罚)，对动作进行认识和学习，从而在后续的动作中优先考虑正确的行为和避免错误的行为发生，如此不断学习，最终可以确定出最优动作。

结合本实施例，先根据环境信息任意确定一个原有的决策动作(即车辆的方向盘原有的转角、方向盘角速度、纵向加/减速度(油门、刹车)，再利用当前车辆状态量和增强信号更新原有的决策动作；然后根据更新后的决策动作再次更新车辆状态量和增强信号，如此不断的进行反馈调整，最终获得最佳决策动作。

具体的，参见图5，图5是本发明实施例提供的一种用于具有挂车的车辆的车道保持强化学习方法的工作原理示意图；本实施例中的车辆以卡车来举例说明，可以理解的是，在其他实施例中，还可以是其他车辆，在t时刻，将卡车物理模型的当前车辆状态量X(t)及增强信号r(t)输入强化学习系统，强化学习系统根据增强信号r(t)的数值，对原有的决策动作进行评估，获得更新后的决策动作U(t)；将更新后的决策动作U(t)反馈至所述卡车物理模型，该卡车物理模型执行更新后的决策动作U(t)，获得更新后的车辆状态量X(t+1)及该更新后的车辆状态量所对应的增强信号r(t+1)，将更新后的车辆状态量X(t+1)和增强信号r(t+1)输入至强化学习系统进行训练以调整决策动作。

其中，所述卡车包括牵引车和挂车，所述车辆状态量X(t)包括：卡车的重量、当前速度、牵引车的车辆特征、挂车的车辆特征和当前方向盘转角；所述牵引车的车辆特征包括牵引车的尺寸、牵引车的航向角、牵引车的质点到其中一侧车道线的距离(例如：牵引车的质点到左侧车道线的距离)；所述挂车的车辆特征包括挂车的尺寸、挂车的航向角、挂车的质点到其中一侧车道线的距离(例如：挂车的质点到左侧车道线的距离)。

决策动作U(t)包括方向盘转角、方向盘角速度、纵向加/减速度(油门、刹车)；

增强信号r(t)可以预设为[r₀-r₁]之间的数值，一般是根据实际情况设定的，通常来讲，实际位置与设定的理想位置间的偏差幅度越小，增强信号越大，r(t)数值的大小反应了决策动作U(t)的好坏程度；优选的，可以将r₀设定为-1，将r₁设定为0，即r(t)∈[-1，0]，当r(t)＝0时，强化学习系统获得了最大的增强信号，表明该强化学习系统的当前状态为最优状态，即车辆在车道线间正常行驶；当r(t)＝-1，强化学习系统获得了最小增强信号，表明该强化学习系统的当前状态为最差状态，即车辆行驶到一侧车道线的边界或已越过一侧车道线；需要说明的是，在其他实施例中，r(t)还可以设定为其他范围内的数值，不限于本实例列出的[-1，0]的范围。

图7是本发明实施例提供的一种用于具有挂车的车辆的车道保持强化学习方法的另一流程示意图；参见图7；所述根据车辆物理模型的当前车辆状态量获取增强信号包括S110-S130；

S110：初始化车辆状态量；

具体的，设定强化学习的最大训练次数为N，每次训练的最大步长为M(即，每次训练执行多少次决策命令)，随机初始化车辆状态量。

S120：判断训练的次数是否小于设定的最大训练次数，若是，根据车辆物理模型，计算车辆的下一状态量；当训练的次数达到设定的最大训练次数时，学习训练结束；

具体的，若训练的次数小于设定的最大训练次数N,则根据车辆物理模型，计算车辆的下一状态量；若训练的次数大于等于设定的最大训练次数N,则停止训练，保存训练结果。

S130：判断训练的步长是否小于预先设定的最大步长，若是，计算增强信号；当训练的步长大于或等于预先设定的最大步长时，返回步骤S120；所述增强信号用于表示所述车辆偏离所述车辆所处车道的中线的程度；

具体的，若训练的步长小于预先设定的最大步长M,则计算增强信号；若训练的步长大于等于预先设定的最大步长M,则保存训练结果，并将训练次数加1，重复S110直至训练的步长小于预先设定的最大步长。

2、计算增强信号的方法

本实施例中首先可以定义逆时针方向为角度的正方向，顺时针方向为角度的负方向；然后，预先获取车辆状态量，所述车辆状态量包括：牵引车的航向角、牵引车的质点到其中一侧车道线的距离、挂车的航向角和挂车的质点到其中一侧车道线的距离；

图6是本发明实施例提供的计算增强信号的示意图，参见图6，牵引车的航向角θ₁(t)、牵引车的质点到左侧车道线的距离d₁(t)、挂车的航向角θ₂(t)和挂车的质点到左侧车道线的距离d₃(t)均可以通过车载传感器(例如：该车载传感器包括摄像头、激光雷达、毫米波雷达、超声波雷达等)测量所获得；其中，θ₁(t)＞0、θ₂(t)＜0、d₁(t)、d₃(t)、θ₁(t)、θ₂(t)由车载传感器测量获得。

下面将具体说明计算所述增强信号r_t的具体方法，则步骤130包括子S131-S133。

S131：根据当前车辆状态量确定牵引车相对于质点中心偏移量和挂车相对于质点中心偏移量；

具体的，根据牵引车的航向角、牵引车的质点到车头的距离和牵引车后轮轴距获得牵引车相对于质点中心的偏移量；根据挂车的航向角、挂车的质点到挂车最前部的距离和挂车的后轮轴距获得挂车相对于质点中心的偏移量；具体公式如下：

其中，图6中5为左侧车道线，6为右侧车道线，左侧车道线和右侧车道线之间的宽度为d；牵引车1质点3到车头的距离为l₁，牵引车1后轮轴距为l₂，挂车2质点4到挂车最前部的距离为l₃，挂车2的后轮轴距为l₄；t时刻牵引车1的航向角为θ₁(t)，牵引车1质点3到左侧车道线5的距离为d₁(t)，牵引车1相对于质点中心偏移量为d₂(t)；t时刻挂车2的航向角为θ₂(t)，挂车2质点4到左侧车道线5的距离为d₃(t)，挂车2相对于质点中心偏移量为d₄(t)。

S132：根据当前车辆状态量、牵引车相对于质点中心偏移量和挂车相对于质点中心偏移量确定所述增强信号。

具体的，根据牵引车的航向角以及牵引车质点到其中一侧车道线的距离、牵引车相对于质点中心偏移量和两侧车道线之间的宽度确定所述增强信号；

根据挂车2的航向角以及挂车2质点4到其中一侧车道线的距离、挂车2相对于质点中心偏移量和两侧车道线之间的宽度确定所述增强信号；

具体的，在本实施例中，所述增强信号是通过以下公式来确定的；

当θ₁(t)≥0且d₂(t)≥d₁(t)时，表明牵引车1已行驶到左侧车道线1的边界或已越过左侧车道线1，则确定所述增强信号r(t)＝r₀；

当θ₂(t)≥0且d₄(t)≥d₃(t)时，表明挂车2已行驶到左侧车道线5的边界或已越过左侧车道线5，则确定所述增强信号r(t)＝r₀；

当θ₁(t)＜0且d₁(t)+d₂(t)≥d时，表明牵引车行驶到右侧车道线6的边界或已越过右侧车道线6，则确定所述增强信号r(t)＝r₀；

当θ₂(t)＜0且d₃(t)+d₄(t)≥d时，表明挂车2已行驶到右侧车道线6的边界或已越过右侧车道线6，则确定所述增强信号r(t)＝r₀；

其他情况下，所述增强信号r(t)通过以下公式确定为：

其中，r₀为预设的最小增强信号数值；α为预设的牵引车1的控制权重(0＜α＜1)，1-α为预设的挂车2的控制权重；优选的本实例中的r₀＝-1。通过这种增强信号的确定方式使得在车道保持的学习过程中，强化学习系统可以综合考虑牵引车1与挂车2在车道线中的位置，避免发生甩挂现象。

3、更新决策动作的方法

下面将具体说明更新决策动作的具体方法，则所述步骤300包括以下子步骤310和320：

步骤310：判断更新后的增强信号是否等于r₀，若是，则训练步长加1，返回步骤S120；

步骤320：若更新后的增强信号不等于r₀，则强化学习系统根据更新后的增强信号的数值，获得决策动作的反馈结果，由所述上一训练步长的决策动作的反馈结果来调整决策动作；优选的r₀＝-1。

即强化学习系统根据增强信号的数值，获得上一步长决策动作的反馈结果，以此来判断上一训练步长的决策动作是“好”还是“坏”。另外根据增强信号的具体数值大小还可以进一步判断“好”的程度。

当增强信号r(t)＝r₁时，优选的r₁＝0时，强化学习系统获得最大反馈为0，表明该系统处于最优状态，该系统将根据增强信号的反馈，不断地调整决策动作。

针对训练步长的物理状态，强化学习系统将随机产生一个决策动作；其中，所述决策动作包括方向盘转角、方向盘角速度、纵向加/减速度(油门、刹车)。

本实施例中的强化学习系统可以是神经网络系统也可以利用其他强化算法进行学习的系统。

本实施例的车道保持的自主强化学习方法，通过实时地与环境(即车辆状态量)交互，在成功和失败的经验教训中自主车道保持决策动作。具体来说，该方法通过当前车辆状态量获取增强信号，通过强化学习系统对当前车辆状态量和增强信号的强化学习，对原有的决策动作进行评估后获得更新后的决策动作，增强信号的数值直接反映出每次决策动作的“好”(即增强信号为0)、“坏”(即增强信号为-1)。“好”的决策动作将被强化学习系统作为正样本进行储存，“坏”的决策动作将被强化学习系统作为负样本进行储存。强化学习系统通过不断地更新反馈，从而获得车辆的速度、重量、航向角、车道线距离与所需方向盘转角、角速度的对应关系，并将最优的对应关系作为自动驾驶经验储存，保证车辆的车道保持的稳定性及自适应性。

二、用于具有挂车的车辆的车道保持强化学习系统

图8是本发明实施例提供的一种用于具有挂车的车辆的车道保持强化学习系统的结构示意图，如图8所示，本实施例的车道保持的自主强化学习系统包括获取模块、更新模块和调整模块；

所述初始化单元用于初始化车辆状态量；

可选的，所述第二计算单元执行以下操作：

根据当前车辆状态量确定牵引车相对于质点中心偏移量和；挂车相对于质点中心偏移量；

根据当前车辆状态量、牵引车相对于质点中心偏移量和和挂车相对于质点中心偏移量确定所述增强信号。

可选的，所述调整模块执行以下操作：

判断更新后的增强信号是否等于r₀，若是，训练步长加1，则返回执行第一计算单元的操作；若更新后的增强信号不等于r₀，将则根据更新后的增强信号的数值，获得决策动作的反馈结果，由所述决策动作的反馈结果来调整决策动作；

其中，所述r₀为预设的最小增强信号数值。

本实施例中的自主强化学习系统的具体学习过程可分别参照上述实施例提供的自主强化学习方法的具体学习过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于具有挂车的车辆的车道保持强化学习方法，所述车辆包括牵引车和挂车，该方法包括以下步骤：

2.根据权利要求1所述的车道保持强化学习方法，其特征在于：所述根据当前车辆状态量获取增强信号包括以下子步骤：

S110：初始化车辆状态量；

3.根据权利要求2所述的车道保持强化学习方法，其特征在于：所述计算增强信号包括以下子步骤：

4.根据权利要求3所述的车道保持强化学习方法，其特征在于：所述增强信号是通过以下公式来确定的；

当θ₁(t)≥0且d₂(t)≥d₁(t)时，确定所述增强信号r(t)＝r₀；

当θ₂(t)≥0且d₄(t)≥d₃(t)时，确定所述增强信号r(t)＝r₀；

其他情况下，所述增强信号通过以下公式确定为：

其中，θ₁(t)为t时刻牵引车的航向角；r₀为预设的最小增强信号数值；d₁(t)为牵引车质点到其中一侧车道线的距离，d₂(t)为牵引车相对于质点中心偏移量；θ₂(t)为t时刻挂车的航向角，d₃(t)为挂车质点到所述其中一侧车道线的距离，d₄(t)为挂车相对于质点中心偏移量；d为左侧车道线和右侧车道线之间的宽度；α为预设的牵引车的控制权重(0＜α＜1)，1-α为预设的挂车的控制权重。

5.根据权利要求4所述的车道保持强化学习方法，其特征在于：

所述对所述更新后的车辆状态量和更新后的增强信号进行强化学习以调整决策动作包括以下子步骤：

6.根据权利要求1-5任一项所述的车道保持强化学习方法，其特征在于：所述决策动作包括方向盘转角、方向盘角速度、纵向加/减速度。

7.一种用于具有挂车的车辆的车道保持强化学习系统，所述车辆包括牵引车和挂车，该系统包括获取模块、更新模块和调整模块；

8.根据权利要求7所述的车道保持强化学习系统，其特征在于：所述获取模块包括初始化单元、第一计算单元和第二计算单元；其中，

所述初始化单元用于初始化车辆状态量；

9.根据权利要求8所述的车道保持强化学习系统，其特征在于：所述第二计算单元执行以下操作：

10.根据权利要求7-9任一项所述的车道保持强化学习系统，其特征在于：所述调整模块执行以下操作：

其中，所述r₀为预设的最小增强信号数值。