CN117302204A - 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 - Google Patents
依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 Download PDFInfo
- Publication number
- CN117302204A CN117302204A CN202311625357.4A CN202311625357A CN117302204A CN 117302204 A CN117302204 A CN 117302204A CN 202311625357 A CN202311625357 A CN 202311625357A CN 117302204 A CN117302204 A CN 117302204A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- representing
- collision avoidance
- information
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000002787 reinforcement Effects 0.000 title claims abstract description 53
- 230000009471 action Effects 0.000 claims abstract description 59
- 230000006870 function Effects 0.000 claims description 97
- 230000033001 locomotion Effects 0.000 claims description 35
- 238000009826 distribution Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 25
- 230000001133 acceleration Effects 0.000 claims description 16
- 238000005315 distribution function Methods 0.000 claims description 13
- 230000001186 cumulative effect Effects 0.000 claims description 9
- 230000002093 peripheral effect Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 6
- 230000005284 excitation Effects 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 13
- 230000015654 memory Effects 0.000 description 9
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000011217 control strategy Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 241000764238 Isis Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000013643 reference control Substances 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/08—Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
- B60W30/09—Taking automatic action to avoid collision, e.g. braking and steering
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/14—Adaptive cruise control
- B60W30/16—Control of distance between vehicles, e.g. keeping a distance to preceding vehicle
- B60W30/165—Automatically following the path of a preceding lead vehicle, e.g. "electronic tow-bar"
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0015—Planning or execution of driving tasks specially adapted for safety
- B60W60/0017—Planning or execution of driving tasks specially adapted for safety of other traffic participants
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0025—Planning or execution of driving tasks specially adapted for specific operations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置,涉及自动驾驶车辆控制及智能算法技术领域。包括:获取待控制车辆的信息;将信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型,输出多风格参数化策略网络;将信息中的自车状态、车辆观测信息以及风格指标系数输入到多风格参数化策略网络,输出动作量;根据动作量,实现多风格车辆轨迹跟踪避撞控制。本发明能够实现车辆轨迹跟踪避撞控制高精度、高实时性、高安全性且控制风格多样性的在线计算。
Description
技术领域
本发明涉及自动驾驶车辆控制及智能算法技术领域,尤其涉及一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置。
背景技术
智能化是当代汽车的核心变革技术,具有提升道路交通安全、减少燃油消耗、提高道路通畅性的巨大潜力,将彻底改变人类的出行方式与社会结构。轨迹跟踪避撞控制是汽车智能化的核心模块,近年来得到了国内外学者的广泛研究。主流控制方法可以分为两大类,一类是以PID(比例-积分-微分控制, Proportional-Integral-Derivative)、LQR (线性二次调节控制, Linear Quadratic Regulator)和MPC(Model Predictive Control, 模型预测控制)为代表的在线控制方法。MPC等方法因其结构简单、可直接处理约束和滚动时域优化等优势被广泛应用于轨迹跟踪避撞控制,但其需要在每个控制周期内在线优化求解控制策略,这导致了较高的计算成本和控制延迟,并且无法处理复杂的系统约束或者由于忽略了系统的非线性特性,因而在实际应用中往往难以达到理想的跟踪效果。
近年来,另一类离线求解、在线应用的控制模式得到了广泛的研究和应用,典型的方法为通过模仿人类学习模式实现控制策略自我进化的RL(Reinforcement learning, 强化学习)。深度强化学习是一种基于动态规划求解框架的无模型马尔可夫决策过程处理方法,通过与环境的交互来指导智能体在不同的状态下进行回报最大化的动作,从而得到最优决策。由于其具有智能、有效解决高维状态输入、数据可重用等特点,是解决现阶段自动驾驶决策面临的交通场景动态性、随机性以及复杂性难题的重要途径。目前已广泛应用于自动驾驶车辆的智能控制和策略分析等领域。
强化学习不依赖于带有驾驶操作标签的驾驶数据,所需数据源于策略自身的探索试错过程,这与人类的学习方式极为相似。强化学习方法在探索试错过程中完成驾驶策略的学习,该过程无法保证行驶安全性。因此,难以直接利用实车和实际交通场景进行探索试错学习,现有研究通常依托仿真平台离线学习得到驾驶策略网络,然后将其部署在测试任务中。
然而,现有的应用于车辆跟踪避撞场景的强化学习方法在面对同一场景时,只能实现单一风格的控制策略输出。但在实际应用中,从乘车人的驾乘舒适性而言:乘车人有着不同的驾驶风格喜好,引入多样化的驾驶风格策略可为乘车人提供更多的选择;另一方面,从人车系统的安全性出发:安全是驾乘的第一要点,多样化的避撞方式是保障人车系统安全性的重要途径。
发明内容
本发明针对现有车辆轨迹跟踪避撞控制方法风格单一的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法,该方法由电子设备实现,该方法包括:
S1、获取待控制车辆的信息。
S2、将信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型,输出多风格参数化策略网络。
S3、将信息中的自车状态、车辆观测信息以及风格指标系数输入到多风格参数化策略网络,输出动作量。
S4、根据动作量,实现多风格车辆轨迹跟踪避撞控制。
可选地,S2中的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的构建过程,包括:
S21、构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入。
S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件。
S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。
可选地,S21中的构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入,包括:
S211、获取给定的初始条件,进行参数初始化。
S212、根据给定的初始条件,计算得到期望误差信息;通过观测得到周车的相对信息;随机获取风格指标系数。
S213、根据期望误差信息,构建奖励函数。
S214、根据自车状态、期望误差信息、周车的相对信息、风格指标系数和奖励函数,构建车辆轨迹跟踪避撞最优控制模型输入。
可选地,S212中的根据给定的初始条件,计算得到期望误差信息,包括:
根据获取的当前时刻的自车状态、车辆离散时间运动学方程以及基于当前策略输出的动作/>,得到/>时刻自车状态量/>;
根据时刻自车状态量/>以及初始条件,计算得到期望误差信息。
可选地,S213中的奖励函数包括碰撞奖励函数和非碰撞奖励函数;
奖励函数,如下式(1)-(3)所示:
(1)
(2)
(3)
其中,表示奖励函数,/>表示自车与周车发生碰撞时的惩罚量,/>表示训练步数,/>表示常数激励项,/>表示轨迹跟踪奖励,/>表示权重系数,/>表示自车对参考轨迹的轨迹误差,/>表示自车对参考轨迹的航向角误差,/>表示自车对参考轨迹的期望速度误差,/>表示控制动作奖励,/>表示车辆的角速度,/>表示车辆的速度动作,/>表示车辆的角速度动作。
可选地,S22中的约束条件包括运动约束以及控制约束;
其中,以车辆的离散时间运动学方程作为运动约束,以控制分量幅值约束为控制约束,如下式(4)-(5)所示:
(4)
(5)
其中,表示/>时刻自车状态,/>表示/>时刻自车状态,/>表示/>时刻车辆的纵向加速度,/>表示/>时刻车辆的角加速度,/>表示纵向速度,/>表示航向角,/>表示角速度,/>表示控制频率,/>表示自车动作量最小值,/>表示动作/>时刻的自车动作量,/>表示自车动作量最大值。
可选地,S23中的目标函数包括多风格值分布目标函数,如下式(6)-(9)所示:
(6)
(7)
(8)
(9)
其中,表示车辆轨迹跟踪避撞最优控制模型的多风格值分布目标函数,/>表示无穷时域内任意时刻的自车状态,/>表示无穷时域内任意时刻的自车动作,/>表示风格指标系数,/>表示风格指标系数的取值范围,/>表示当前值分布网络的待优化参数,表示奖励函数,/>表示策略与环境交互产生的训练样本,/>表示经验池,/>表示由另一策略网络/>输出的动作,/>表示另一策略网络,/>表示目标值分布网络的待优化参数,/>表示柔性/>值的概率密度函数,/>表示Bellman自洽算子,/>表示大于/>的时刻,/>表示时刻,/>表示多风格参数化策略网络,/>表示参数化策略网络中待优化的参数,/>表示基于柔性策略/>产生的累计回报为状态动作回报,记为/>,/>表示折扣因子,/>表示 />时刻及/>时刻之后的累计奖励,/>表示值分布函数的标准差。
可选地,S23中的目标函数还包括多风格策略函数目标函数,如下式(10)所示:
(10)
其中,表示多风格策略函数目标函数,/>表示策略熵系数,/>表示值分布函数的标准差。
另一方面,本发明提供了一种依托强化学习的多风格车辆轨迹跟踪避撞控制装置,该装置应用于实现依托强化学习的多风格车辆轨迹跟踪避撞控制方法,该装置包括:
获取模块,用于获取待控制车辆的信息。
输入模块,用于将信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型,输出多风格参数化策略网络。
动作量输出模块,用于将信息中的自车状态、车辆观测信息以及风格指标系数输入到多风格参数化策略网络,输出动作量。
输出模块,用于根据动作量,实现多风格车辆轨迹跟踪避撞控制。
可选地,输入模块,进一步用于:
S21、构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入。
S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件。
S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。
可选地,输入模块,进一步用于:
S211、获取给定的初始条件,进行参数初始化。
S212、根据给定的初始条件,计算得到期望误差信息;通过观测得到周车的相对信息;随机获取风格指标系数。
S213、根据期望误差信息,构建奖励函数。
S214、根据自车状态、期望误差信息、周车的相对信息、风格指标系数和奖励函数,构建车辆轨迹跟踪避撞最优控制模型输入。
可选地,输入模块,进一步用于:
根据获取的当前时刻的自车状态、车辆离散时间运动学方程以及基于当前策略输出的动作/>,得到/>时刻自车状态量/>;
根据时刻自车状态量/>以及初始条件,计算得到期望误差信息。
可选地,奖励函数包括碰撞奖励函数和非碰撞奖励函数;
奖励函数,如下式(1)-(3)所示:
(1)
(2)
(3)
其中,表示奖励函数,/>表示自车与周车发生碰撞时的惩罚量,/>表示训练步数,/>表示常数激励项,/>表示轨迹跟踪奖励,/>表示权重系数,/>表示自车对参考轨迹的轨迹误差,/>表示自车对参考轨迹的航向角误差,/>表示自车对参考轨迹的期望速度误差,/>表示控制动作奖励,/>表示车辆的角速度,/>表示车辆的速度动作,表示车辆的角速度动作。
可选地,约束条件包括运动约束以及控制约束;
其中,以车辆的离散时间运动学方程作为运动约束,以控制分量幅值约束为控制约束,如下式(4)-(5)所示:
(4)
(5)
其中,表示 />时刻自车状态,/>表示/>时刻自车状态,/>表示/>时刻车辆的纵向加速度,/>表示/>时刻车辆的角加速度,/>表示纵向速度,/>表示航向角,/>表示角速度,/>表示控制频率,/>表示自车动作量最小值,/>表示动作/>时刻的自车动作量,/>表示自车动作量最大值。
可选地,目标函数包括多风格值分布目标函数,如下式(6)-(9)所示:
(6)
(7)
(8)
(9)
其中,表示车辆轨迹跟踪避撞最优控制模型的多风格值分布目标函数,/>表示无穷时域内任意时刻的自车状态,/>表示无穷时域内任意时刻的自车动作,/>表示风格指标系数,/>表示风格指标系数的取值范围,/>表示当前值分布网络的待优化参数,/>表示奖励函数,/>表示策略与环境交互产生的训练样本,/>表示经验池,/>表示由另一策略网络/>输出的动作,/>表示另一策略网络,/>表示目标值分布网络的待优化参数,/>表示柔性/>值的概率密度函数,/>表示Bellman自洽算子,/>表示大于/>的时刻,/>表示时刻,/>表示多风格参数化策略网络,/>表示参数化策略网络中待优化的参数,/>表示基于柔性策略/>产生的累计回报为状态动作回报,记为/>,/>表示折扣因子,/>表示 />时刻及/>时刻之后的累计奖励,/>表示值分布函数的标准差。
可选地,目标函数还包括多风格策略函数目标函数,如下式(10)所示:
(10)
其中,表示多风格策略函数目标函数,/>表示策略熵系数,/>表示值分布函数的标准差。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述依托强化学习的多风格车辆轨迹跟踪避撞控制方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述依托强化学习的多风格车辆轨迹跟踪避撞控制方法。
上述技术方案,与现有技术相比至少具有如下有益效果:
上述方案,利用期望速度、期望航向角、期望跟踪轨迹得到参考轨迹上的其他参考控制量,适用于复杂轨迹的跟踪,适用范围广;本发明利用策略函数根据车辆当前状态与观测耦合量以及风格指标系数直接输出近似最优控制量,求解效率高;本发明构建最优控制问题时保留了被控对象模型的非线性特性,控制精度高;本发明依托策略训练过程中进行范围性控制风格训练,在单一策略网络的基础上实现了面向同一场景可完成多风格的策略输出,满足多风格驾乘需求;本发明在轨迹跟踪任务中引入碰撞干扰,可在保证避撞需求的前提下完成轨迹跟踪任务,保证了人车系统的高安全性;本发明通过设计离线训练策略网络的奖励函数,将在线优化问题转化为策略网络参数的离线求解,不需要存储大量的状态到控制量映射关系,可节省内存资源。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法流程示意图;
图2是本发明实施例提供的一种依托强化学习的多风格车辆轨迹跟踪避撞方法的整体流程框示意图
图3是本发明实施例提供的依托强化学习的多风格车辆轨迹跟踪避撞方法的单步平均求解时间对比图;
图4是本发明实施例提供的保守风格车辆轨迹跟踪避撞方法的多风格控制效果示意图;
图5是本发明实施例提供的中性风格车辆轨迹跟踪避撞方法的多风格控制效果示意图;
图6是本发明实施例提供的激进风格车辆轨迹跟踪避撞方法的多风格控制效果示意图;
图7是本发明实施例提供的一种依托强化学习的多风格车辆轨迹跟踪避撞控制装置框图;
图8是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法,该方法可以由电子设备实现。如图1所示的依托强化学习的多风格车辆轨迹跟踪避撞控制方法流程图,该方法的处理流程可以包括如下的步骤:
为了便于理解,需对强化学习的相关术语进行解释说明。强化学习主要包括环境、智能体、状态、观测、动作等要素,即智能体基于当前的状态以及动作与环境进行交互,得到智能体下一刻状态,同时基于智能体的状态和动作计算回报,利用回报构造相关目标函数,利用得到的目标函数改进智能体的策略,最终实现回报总和的最大化。
在本发明中,环境可以是基于物理定律、运动学和几何约束等规律而对其中物体进行状态推演的系统,由智能体、障碍物、地图约束等组成。智能体是环境中可以自主行动的物体元素,接受观测,给出动作,例如自动驾驶车辆。状态是环境中的元素的基础属性,例如车辆位置、朝向、速度等。观测是智能体给定状态的视角下对环境中的其他元素的状态进行编码得到的特征。动作是智能体的输出,即由智能体的策略决定。推演是给定动作序列和物体初始状态,迭代地应用状态转移模型,不断得到每一步的状态,最终得到状态序列作为输出,其中状态转移模型是定义在物体上,给定当前时刻物体的状态和动作,输出物体下一时刻将转移到状态,往往由运动学约束等规律决定。回报用于表示当前时间步对环境中元素的状态和动作做出的评价,是标量,进一步地,累计回报是由当前状态出发,直到推演结束,所有时间步上的回报的总合。
在强化学习框架下构建自动驾驶车辆轨迹跟踪避撞最优控制模型,旨在让自动驾驶车辆与所在环境交互来学习到一个最优的控制策略,使得从初始时刻开始执行该控制策略得到的目标函数最大化。自动驾驶车辆轨迹跟踪避撞最优控制模型即训练所得策略网络和状态转移模型,策略网路根据输入的自车状态以及环境信息,输出当前状态下最优的车辆动作,动作包括车辆纵向加速度以及角加速度;状态转移模型是给定当前时刻车辆的状态和动作,输出车辆下一时刻的状态,往往由运动学约束等规律决定。
S1、获取待控制车辆的信息。
一种可行的实施方式中,待控制车辆的信息可以包括大地坐标系下连续的期望参考轨迹信息、期望速度曲线、期望航向角曲线、系统的控制频率、自车位置、周车的相对位置及周车的速度信息以及风格指标系数等。
S2、将信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型,输出多风格参数化策略网络。
可选地,S2中的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的构建过程,包括S21- S23:
S21、构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入,可以包括S211- S214:
S211、获取给定的初始条件,进行参数初始化。
一种可行的实施方式中,如图2所示,假设在时刻,车辆轨迹跟踪避撞最优控制模型已获得大地坐标系下连续的期望参考轨迹信息、期望速度曲线/>、期望航向角曲线、系统的控制频率/>、自车位置/>以及周车的相对位置/>和/>及周车的速度信息/>;其中,参考轨迹信息以及期望速度曲线一般由上层轨迹规划模块给出;期望速度可以是恒定的速度也可以是变化的速度;自车位置由导航定位模块给出;周车的相对位置及速度信息通过自动驾驶车辆感知模块获取。
进一步地,假设初始时刻,车辆跟踪的参考轨迹为大地坐标系下/>的直线,期望速度曲线/>, 期望航向角曲线/>, 系统的控制频率。
S212、根据给定的初始条件,计算得到期望误差信息;通过观测得到周车的相对信息;随机获取风格指标系数。
可选地,S212中的根据给定的初始条件,计算得到期望误差信息,包括:
根据获取的当前时刻的自车状态、车辆离散时间运动学方程以及基于当前策略输出的动作/>,得到/>时刻自车状态量/>,根据/>时刻自车状态量/>以及初始条件,计算得到期望误差信息。
一种可行的实施方式中,进行采样,具体地,在时刻基于自车状态/>、车辆离散时间运动学方程以及当前策略输出的动作/>获取/>时刻自车状态量/>,通过计算得到期望误差信息,通过观测得到障碍周车的相对信息;其中,/>时刻的自车状态/>包含/>时刻车辆在自车坐标系上横纵向位置/>,/>、航向角/>、纵向速度/>和角速度/>,即;时刻/>的自车动作/>包含/>时刻车辆的纵向加速度/>和车辆角加速度/>;/>时刻的期望误差信息包括自车对参考轨迹的横向误差/>、航向角误差/>和速度误差/>;/>时刻的周车的相对信息包括自车与障碍周车(obstacle)的相对横坐标/>、相对纵坐标/>、相对航向角/>和周车速度/>;以及如下随机获取的风格指标系数/>。获取方法如下:
(1)
(2)
(3)
(4)
(5)
(6)
(7)
上式中表示风格指标系数的取值范围,视具体轨迹跟踪任务复杂程度进行确定,比如在本发明的具体实施方法中/>取值为100,若是更复杂或者更简单的任务,/>的值根据任务进行调整。其用途是:在策略改进阶段/>选取/>范围内的随机数,选取的随机数会与值分布的标准差进行耦合,参与梯度计算,完成策略改进。
S213、根据期望误差信息,构建奖励函数。
可选地,利用得到的时刻自车状态量与期望信息的差值、构建奖励函数;其中,奖励函数/>分碰撞和非碰撞两种情况:
(8)
(9)
(10)
其中,表示奖励函数,/>表示自车与周车发生碰撞时的惩罚量,通常为一个绝对值较大的负值,/>表示该训练幕下的训练步数,后续量为单步奖励,/>表示常数激励项,推动智能体学会不倾向于提前终止的行为,通常为一个合适的正值,/>表示轨迹跟踪奖励,包含常数激励项、轨迹误差项/>、航向角误差项/>和期望速度误差项/>,/>表示/>项的权重系数,通常为一个合适的负值,/>表示控制动作奖励,包括角速度项/>、速度动作项/>和角速度动作项/>。
具体地,奖励函数可以是:
(8a)
式中,表示自车与周车发生碰撞时惩罚量,取-500;200表示该训练幕下的训练步数,后续量为单步奖励;/>为常数激励项,推动智能体学会不倾向于提前终止的行为,取5。
(9a)
(10a)
S214、根据自车状态、期望误差信息、周车的相对信息、风格指标系数和奖励函数,构建车辆轨迹跟踪避撞最优控制模型输入:
(11)
式中:依次分别为时刻的自车速度/>、角速度/>、自车对参考轨迹的横向误差、朝向角误差/>、速度误差/>、与障碍物相对横坐标/>和纵坐标/>、相对航向角/>、障碍物速度/>和风格指标系数/>。
S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件。
可选地,S22中的约束条件包括运动约束以及控制约束;
其中,以车辆的离散时间运动学方程作为运动约束,以控制分量幅值约束为控制约束,如下:
(12)
即:
(13)
(14)
其中,表示 />时刻自车状态,/>表示/>时刻自车状态,/>表示/>时刻车辆的纵向加速度,/>表示/>时刻车辆的角加速度,/>表示纵向速度,/>表示航向角,/>表示角速度,/>表示控制频率,/>表示自车动作量最小值,/>表示动作/>时刻的自车动作量,/>表示自车动作量最大值。
具体地,
(14a)
S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。
一种可行的实施方式中,车辆轨迹跟踪避撞最优控制模型采用一种值分布柔性执行评价强化学习算法,算法采用ActorCritic结构以学习独立的值分布函数以及策略函数,本发明引入风格指标至值分布函数以及策略函数中,不同风格指标对应了不同控制风格,从而实现了强化学习所得策略的输出多样化。
其中,目标函数包括多风格值分布目标函数,如下:
(15)
(16)
(17)
(18)
式(15)中,为车辆轨迹跟踪避撞最优控制模型的目标值函数,/>,/>, />分别为无穷时域内任意时刻的自车状态、自车动作和风格指标系数/>,/>为参数化目标值网络中待优化的参数,/>为经验池,用于存放策略与环境交互产生的训练样本/>,/>为奖励函数,/>为Bellman自洽算子。
式(16)中,为多风格参数化策略网络,即由任意时刻自车状态/>和风格指标系数/>可得到自车的动作/>,/>为参数化策略网络中待优化的参数,/>表示由另一策略网络/>输出的动作,/>表示在/>时刻之后,式(16)表示/>时刻之后的动作选取是依据策略/>,括号内的为策略/>的相关参数。
式(17)与式(18)中,为基于柔性策略/>产生的累计回报为状态动作回报,记为,/>为折扣因子;/>为柔性/>值的概率密度函数,/>为该值分布函数的标准差,表示强化学习中/>时刻及/>时刻之后的累计奖励回报,也就是上述的/>的一直累加的值,/>就表示/>时刻及/>时刻之后的累计奖励。
目标函数还包括多风格策略函数目标函数,如下式(19)所示:
(19)
其中,由值分布函数给出,/>从/>中随机选取,/>为状态/>,动作/>,风格指标/>输入下的值分布函数的标准差。
为策略熵系数,其更新规则如下:
(20)
其中,为策略熵学习率,/>为给定的策略熵目标值。
在一些实施例中,对车辆轨迹跟踪避撞最优控制模型进行迭代求解,具体包括以下步骤:
步骤6-1、给定相关初始条件及参数初始化
自车初始状态可直接给定,如,也可以在一定范围内随机生成;给定参考轨迹信息/>、参考期望速度/>,控制频率/>,参考轨迹/>;初始化时间/>,给定经验池/>大小为/>并随机初始化,用来存放策略与环境交互产生的训练样本/>;初始化值分布网络参数/>、策略网络参数/>和策略熵系数/>;初始化目标网络参数/>和/>;给定合适的学习率/>、、/>、目标网络学习率/>以及误差/>;初始化迭代步数/>。其中,值分布网络和策略网络均采用全连接的多层感知机(MLP),隐层大小为256×256。
步骤6-2、获取参考数据
获取参考期望轨迹、参考期望速度和参考期望航向角数据。
步骤6-3、采样
循环指示变量,随机选取/>,在当前状态/>下使用策略/>执行动作/>与环境交互采样,得到一个奖励函数以及观测下一时刻状态/>,将组成一个经验样本,将样本存入经验池/>;
步骤6-4、求解值分布目标函数值
从经验回放池中采样得到的多个经验样本作为前向求解过程的初值,利用式(15)所示值分布网络分别计算目标函数值,为后向求解值分布网络梯度以及更新参数提供初值。
步骤6-5、值分布网络参数更新
利用求解得到的目标函数值求梯度,对于批量计算的值网络梯度求平均后,对网
络参数实施梯度下降。第次迭代中值网络的更新规则为:
(21)
(22)
步骤6-6、策略网络参数更新
如果为正整数/>的整数倍,则利用式(19)批量计算多风格策略目标函数并求解策略梯度,利用求平均后的策略梯度对策略参数实施梯度下降。第/>次迭代中策略网络的更新规则为:
(23)
步骤6-7、策略熵系数更新
如果为正整数/>的整数倍,则利用式(20)进行更新。
步骤6-8、目标值网络以及目标策略网络更新
如果为正整数/>的整数倍,则根据以下规则进行更新:
(24)
(25)
步骤6-9、判断结果是否收敛
如果,则表明策略还未收敛,返回步骤6-3继续求解;反之则表明在误差范围内策略已收敛,输出即为最优参数化策略。
S3、将信息中的自车状态、车辆观测信息以及风格指标系数输入到多风格参数化策略网络,输出动作量。
一种可行的实施方式中,以多风格参数化策略网络作为车辆轨迹跟踪避撞最优控制模型的输出,多风格策略网络可以根据车辆观测信息以及风格指标系数直接输出近似的动作量,如车辆的纵向加速度/>和车辆角加速度/>;不同的风格指标系数输入将会对应不同的动作量输出,从而实现了单一策略网络实现多风格控制输出。
本发明的强化学习控制算法更新伪代码如下表1:
S4、根据动作量,实现多风格车辆轨迹跟踪避撞控制。
本发明假设给定期望速度、期望航向角和期望参考轨迹的情况下,通过当前自车状态量与观测信息耦合以获取决策所需信息;基于车辆离散运动学模型以及当前策略网络获取车辆下一时刻的状态量,并以此构造目标函数并设计离线训练策略网络的奖励函数;以车辆自车状态、期望信息差值、周车相对信息、风格指标作为模型的输入,以参数化网络作为模型输出,将在线优化问题转化为策略网络参数的离线求解;并在在线应用时,车载控制器根据每一时刻的车辆状态以及观测信息由策略网络直接输出近似控制策略,从而得到每个时间步的车辆状态,实现在线高实时计算的车辆轨迹追踪。
本发明考虑完整的随机回报值分布来更新策略,并进行完整的状态转移建模,便于量化系统的不确定性,能够从样本中获取更多信息,可有效地解决强化学习探索不充分和同一场景控制风格单一的难题。
本发明采用一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法,利用离线训练得到的多风格参数化策略网络根据车辆当前状态以及环境信息直接输出车辆的最优控制量,使得车辆实现空间状态的改变,不断根据自车状态与观测耦合量和风格指标系数输出控制量,实现车辆多风格、高实时、高精度和高安全性的轨迹跟踪避撞任务。
本发明利用车辆轨迹跟踪避撞最优控制模型迭代5万次后学习到的最优多风格参数化策略网络进行仿真,控制车辆以的期望速度跟踪给定的参考线,在参考轨迹、参考航向角与参考速度相同的情况下,本发明提出的依托强化学习的多风格车辆轨迹跟踪避撞控制方法与模型预测控制(MPC)相比,如图3所示,本发明的方法在整个跟踪过程的单步平均求解时间均小于1ms,远远低于模型预测控制输出单步控制量的平均求解时间,稳态轨迹跟踪误差小于2cm, (自车体型为长/>宽/>高为/>cm),实现了车辆轨迹跟踪避撞任务的高实时、高精度在线求解;另一方面,在不同的风格指标系数/>输入下,自车可实现多风格的车辆轨迹跟踪避撞控制,如图4(保守风格避撞)、图5(中性风格避撞)和图6(激进风格避撞),避撞成功率为100%,可保证多风格驾乘需求和高安全性。
本发明实施例中,利用期望速度、期望航向角、期望跟踪轨迹得到参考轨迹上的其他参考控制量,适用于复杂轨迹的跟踪,适用范围广;本发明利用策略函数根据车辆当前状态与观测耦合量以及风格指标系数直接输出近似最优控制量,求解效率高;本发明构建最优控制问题时保留了被控对象模型的非线性特性,控制精度高;本发明依托策略训练过程中进行范围性控制风格训练,在单一策略网络的基础上实现了面向同一场景可完成多风格的策略输出,满足多风格驾乘需求;本发明在轨迹跟踪任务中引入碰撞干扰,可在保证避撞需求的前提下完成轨迹跟踪任务,保证了人车系统的高安全性;本发明通过设计离线训练策略网络的奖励函数,将在线优化问题转化为策略网络参数的离线求解,不需要存储大量的状态到控制量映射关系,可节省内存资源。
如图7所示,本发明实施例提供了一种依托强化学习的多风格车辆轨迹跟踪避撞控制装置700,该装置700应用于实现依托强化学习的多风格车辆轨迹跟踪避撞控制方法,该装置700包括:
获取模块710,用于获取待控制车辆的信息。
输入模块720,用于将信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型,输出多风格参数化策略网络。
动作量输出模块730,用于将信息中的自车状态、车辆观测信息以及风格指标系数输入到多风格参数化策略网络,输出动作量。
输出模块740,用于根据动作量,实现多风格车辆轨迹跟踪避撞控制。
可选地,输入模块720,进一步用于:
S21、构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入。
S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件。
S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。
可选地,输入模块720,进一步用于:
S211、获取给定的初始条件,进行参数初始化。
S212、根据给定的初始条件,计算得到期望误差信息;通过观测得到周车的相对信息;随机获取风格指标系数。
S213、根据期望误差信息,构建奖励函数。
S214、根据自车状态、期望误差信息、周车的相对信息、风格指标系数和奖励函数,构建车辆轨迹跟踪避撞最优控制模型输入。
可选地,输入模块720,进一步用于:
根据获取的当前时刻的自车状态、车辆离散时间运动学方程以及基于当前策略输出的动作/>,得到/>时刻自车状态量/>;
根据时刻自车状态量/>以及初始条件,计算得到期望误差信息。
可选地,奖励函数包括碰撞奖励函数和非碰撞奖励函数;
奖励函数,如下式(1)-(3)所示:
(1)
(2)
(3)
其中,表示奖励函数,/>表示自车与周车发生碰撞时的惩罚量,/>表示训练步数,/>表示常数激励项,/>表示轨迹跟踪奖励,/>表示权重系数,/>表示自车对参考轨迹的轨迹误差,/>表示自车对参考轨迹的航向角误差,/>表示自车对参考轨迹的期望速度误差,/>表示控制动作奖励,/>表示车辆的角速度,/>表示车辆的速度动作,表示车辆的角速度动作。
可选地,约束条件包括运动约束以及控制约束;
其中,以车辆的离散时间运动学方程作为运动约束,以控制分量幅值约束为控制约束,如下式(4)-(5)所示:
(4)
(5)
其中,表示 />时刻自车状态,/>表示/>时刻自车状态,/>表示/>时刻车辆的纵向加速度,/>表示/>时刻车辆的角加速度,/>表示纵向速度,/>表示航向角,/>表示角速度,/>表示控制频率,/>表示自车动作量最小值,/>表示动作/>时刻的自车动作量,/>表示自车动作量最大值。
可选地,目标函数包括多风格值分布目标函数,如下式(6)-(9)所示:
(6)
(7)
(8)
(9)
其中,表示车辆轨迹跟踪避撞最优控制模型的多风格值分布目标函数,/>表示无穷时域内任意时刻的自车状态,/>表示无穷时域内任意时刻的自车动作,/>表示风格指标系数,/>表示风格指标系数的取值范围,/>表示当前值分布网络的待优化参数,/>表示奖励函数,/>表示策略与环境交互产生的训练样本,/>表示经验池,表示由另一策略网络/>输出的动作,/>表示另一策略网络,/>表示目标值分布网络的待优化参数,/>表示柔性/>值的概率密度函数,/>表示Bellman自洽算子,/>表示大于/>的时刻,/>表示时刻,/>表示多风格参数化策略网络,/>表示参数化策略网络中待优化的参数,/>表示基于柔性策略/>产生的累计回报为状态动作回报,记为,/>表示折扣因子,/>表示 />时刻及/>时刻之后的累计奖励,/>表示值分布函数的标准差。
可选地,目标函数还包括多风格策略函数目标函数,如下式(10)所示:
(10)
其中,表示多风格策略函数目标函数,/>表示策略熵系数,/>表示值分布函数的标准差。
本发明实施例中,利用期望速度、期望航向角、期望跟踪轨迹得到参考轨迹上的其他参考控制量,适用于复杂轨迹的跟踪,适用范围广;本发明利用策略函数根据车辆当前状态与观测耦合量以及风格指标系数直接输出近似最优控制量,求解效率高;本发明构建最优控制问题时保留了被控对象模型的非线性特性,控制精度高;本发明依托策略训练过程中进行范围性控制风格训练,在单一策略网络的基础上实现了面向同一场景可完成多风格的策略输出,满足多风格驾乘需求;本发明在轨迹跟踪任务中引入碰撞干扰,可在保证避撞需求的前提下完成轨迹跟踪任务,保证了人车系统的高安全性;本发明通过设计离线训练策略网络的奖励函数,将在线优化问题转化为策略网络参数的离线求解,不需要存储大量的状态到控制量映射关系,可节省内存资源。
图8是本发明实施例提供的一种电子设备800的结构示意图,该电子设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)801和一个或一个以上的存储器802,其中,存储器802中存储有至少一条指令,至少一条指令由处理器801加载并执行以实现下述依托强化学习的多风格车辆轨迹跟踪避撞控制方法:
S1、获取待控制车辆的信息。
S2、将信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型,输出多风格参数化策略网络。
S3、将信息中的自车状态、车辆观测信息以及风格指标系数输入到多风格参数化策略网络,输出动作量。
S4、根据动作量,实现多风格车辆轨迹跟踪避撞控制。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述依托强化学习的多风格车辆轨迹跟踪避撞控制方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种依托强化学习的多风格车辆轨迹跟踪避撞控制方法,其特征在于,所述方法包括:
S1、获取待控制车辆的信息;
S2、将所述信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型,输出多风格参数化策略网络;
S3、将信息中的自车状态、车辆观测信息以及风格指标系数输入到所述多风格参数化策略网络,输出动作量;
S4、根据所述动作量,实现多风格车辆轨迹跟踪避撞控制。
2.根据权利要求1所述的方法,其特征在于,所述S2中的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的构建过程,包括:
S21、构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入;
S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件;
S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。
3.根据权利要求2所述的方法,其特征在于,所述S21中的构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入,包括:
S211、获取给定的初始条件,进行参数初始化;
S212、根据所述给定的初始条件,计算得到期望误差信息;通过观测得到周车的相对信息;随机获取风格指标系数;
S213、根据所述期望误差信息,构建奖励函数;
S214、根据自车状态、期望误差信息、周车的相对信息、风格指标系数和奖励函数,构建车辆轨迹跟踪避撞最优控制模型输入。
4.根据权利要求3所述的方法,其特征在于,所述S212中的根据所述给定的初始条件,计算得到期望误差信息,包括:
根据获取的当前时刻的自车状态、车辆离散时间运动学方程以及基于当前策略输出的动作/>,得到/>时刻自车状态量/>;
根据所述时刻自车状态量/>以及所述初始条件,计算得到期望误差信息。
5.根据权利要求3所述的方法,其特征在于,所述S213中的奖励函数包括碰撞奖励函数和非碰撞奖励函数;
所述奖励函数,如下式(1)-(3)所示:
(1)
(2)
(3)
其中,表示奖励函数,/>表示自车与周车发生碰撞时的惩罚量,/>表示训练步数,/>表示常数激励项,/>表示轨迹跟踪奖励,/>表示权重系数,/>表示自车对参考轨迹的轨迹误差,/>表示自车对参考轨迹的航向角误差,/>表示自车对参考轨迹的期望速度误差,/>表示控制动作奖励,/>表示车辆的角速度,/>表示车辆的速度动作,表示车辆的角速度动作。
6.根据权利要求2所述的方法,其特征在于,所述S22中的约束条件包括运动约束以及控制约束;
其中,以车辆的离散时间运动学方程作为运动约束,以控制分量幅值约束为控制约束,如下式(4)-(5)所示:
(4)
(5)
其中,表示 />时刻自车状态,/>表示/>时刻自车状态,/>表示/>时刻车辆的纵向加速度,/>表示/>时刻车辆的角加速度,/>表示纵向速度,/>表示航向角,表示角速度,/>表示控制频率,/>表示自车动作量最小值,/>表示动作/>时刻的自车动作量,/>表示自车动作量最大值。
7.根据权利要求2所述的方法,其特征在于,所述S23中的目标函数包括多风格值分布目标函数,如下式(6)-(9)所示:
(6)
(7)
(8)
(9)
其中,表示车辆轨迹跟踪避撞最优控制模型的多风格值分布目标函数,/>表示无穷时域内任意时刻的自车状态,/>表示无穷时域内任意时刻的自车动作,/>表示风格指标系数,/>表示风格指标系数的取值范围,/>表示当前值分布网络的待优化参数,/>表示奖励函数,/>表示策略与环境交互产生的训练样本,/>表示经验池,/>表示由另一策略网络/>输出的动作,/>表示另一策略网络,/>表示目标值分布网络的待优化参数,/>表示柔性/>值的概率密度函数,/>表示Bellman自洽算子,/>表示大于的时刻,/>表示时刻,/>表示多风格参数化策略网络,/>表示参数化策略网络中待优化的参数,/>表示基于柔性策略/>产生的累计回报为状态动作回报,记为/>,表示折扣因子,/>表示 />时刻及/>时刻之后的累计奖励,/>表示值分布函数的标准差。
8.根据权利要求7所述的方法,其特征在于,所述S23中的目标函数还包括多风格策略函数目标函数,如下式(10)所示:
(10)
其中,表示多风格策略函数目标函数,/>表示策略熵系数,/>表示值分布函数的标准差。
9.一种依托强化学习的多风格车辆轨迹跟踪避撞控制装置,其特征在于,所述装置包括:
获取模块,用于获取待控制车辆的信息;
输入模块,用于将所述信息输入到构建好的基于强化学习框架的车辆轨迹跟踪避撞最优控制模型,输出多风格参数化策略网络;
动作量输出模块,用于将信息中的自车状态、车辆观测信息以及风格指标系数输入到所述多风格参数化策略网络,输出动作量;
输出模块,用于根据所述动作量,实现多风格车辆轨迹跟踪避撞控制。
10.根据权利要求9所述的装置,其特征在于,所述输入模块,用于:
S21、构建基于强化学习框架的车辆轨迹跟踪避撞最优控制模型的输入;
S22、建立车辆轨迹跟踪避撞最优控制模型的约束条件;
S23、构造车辆轨迹跟踪避撞最优控制模型的目标函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311625357.4A CN117302204B (zh) | 2023-11-30 | 2023-11-30 | 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311625357.4A CN117302204B (zh) | 2023-11-30 | 2023-11-30 | 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117302204A true CN117302204A (zh) | 2023-12-29 |
CN117302204B CN117302204B (zh) | 2024-02-20 |
Family
ID=89285291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311625357.4A Active CN117302204B (zh) | 2023-11-30 | 2023-11-30 | 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117302204B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200172093A1 (en) * | 2018-11-29 | 2020-06-04 | 291, Daehak-ro | Lane-based probabilistic motion prediction of surrounding vehicles and predictive longitudinal control method and apparatus |
WO2021238303A1 (zh) * | 2020-05-29 | 2021-12-02 | 华为技术有限公司 | 运动规划的方法与装置 |
CN114896869A (zh) * | 2022-04-22 | 2022-08-12 | 同济大学 | 基于个性化驾驶员模型的自动驾驶测试场景生成方法 |
CN114942642A (zh) * | 2022-06-13 | 2022-08-26 | 吉林大学 | 一种无人驾驶汽车轨迹规划方法 |
CN115285135A (zh) * | 2022-07-14 | 2022-11-04 | 湖北汽车工业学院 | 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法 |
US20230192118A1 (en) * | 2021-12-20 | 2023-06-22 | GM Global Technology Operations LLC | Automated driving system with desired level of driving aggressiveness |
CN116300977A (zh) * | 2023-05-22 | 2023-06-23 | 北京科技大学 | 一种依托强化学习的铰接车轨迹跟踪控制方法及装置 |
CN116923401A (zh) * | 2022-03-29 | 2023-10-24 | 中南大学 | 一种自动驾驶跟驰速度控制方法、计算机设备及存储介质 |
-
2023
- 2023-11-30 CN CN202311625357.4A patent/CN117302204B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200172093A1 (en) * | 2018-11-29 | 2020-06-04 | 291, Daehak-ro | Lane-based probabilistic motion prediction of surrounding vehicles and predictive longitudinal control method and apparatus |
WO2021238303A1 (zh) * | 2020-05-29 | 2021-12-02 | 华为技术有限公司 | 运动规划的方法与装置 |
US20230192118A1 (en) * | 2021-12-20 | 2023-06-22 | GM Global Technology Operations LLC | Automated driving system with desired level of driving aggressiveness |
CN116923401A (zh) * | 2022-03-29 | 2023-10-24 | 中南大学 | 一种自动驾驶跟驰速度控制方法、计算机设备及存储介质 |
CN114896869A (zh) * | 2022-04-22 | 2022-08-12 | 同济大学 | 基于个性化驾驶员模型的自动驾驶测试场景生成方法 |
CN114942642A (zh) * | 2022-06-13 | 2022-08-26 | 吉林大学 | 一种无人驾驶汽车轨迹规划方法 |
CN115285135A (zh) * | 2022-07-14 | 2022-11-04 | 湖北汽车工业学院 | 融合驾驶风格的深度强化学习车辆跟驰模型的构建方法 |
CN116300977A (zh) * | 2023-05-22 | 2023-06-23 | 北京科技大学 | 一种依托强化学习的铰接车轨迹跟踪控制方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117302204B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113805572B (zh) | 运动规划的方法与装置 | |
CN112356830B (zh) | 一种基于模型强化学习的智能泊车方法 | |
CN110750096B (zh) | 静态环境下基于深度强化学习的移动机器人避碰规划方法 | |
CN111098852A (zh) | 一种基于强化学习的泊车路径规划方法 | |
Kumar et al. | Navigational analysis of multiple humanoids using a hybrid regression-fuzzy logic control approach in complex terrains | |
CN113311828B (zh) | 一种无人车局部路径规划方法、装置、设备及存储介质 | |
Liang et al. | Human-in-the-loop reinforcement learning | |
Yan et al. | Real-world learning control for autonomous exploration of a biomimetic robotic shark | |
CN116147627A (zh) | 一种结合深度强化学习和内在动机的移动机器人自主导航方法 | |
CN116300977B (zh) | 一种依托强化学习的铰接车轨迹跟踪控制方法及装置 | |
CN114626505A (zh) | 一种移动机器人深度强化学习控制方法 | |
Liu et al. | DDM-Lag: A Diffusion-based Decision-making Model for Autonomous Vehicles with Lagrangian Safety Enhancement | |
CN117302204B (zh) | 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 | |
CN116430891A (zh) | 一种面向多智能体路径规划环境的深度强化学习方法 | |
CN116300850A (zh) | 基于数据机理融合的自动驾驶类人安全自进化方法和系统 | |
CN113778080B (zh) | 单轨双轮机器人的控制方法、装置、电子设备及存储介质 | |
Zhao et al. | Human-like decision making for autonomous driving with social skills | |
Gross et al. | Sensory-based Robot Navigation using Self-organizing Networks and Q-learning | |
Scheidel et al. | A novel approach of a deep reinforcement learning based motion cueing algorithm for vehicle driving simulation | |
Yang et al. | Reinforcement Learning with Reward Shaping and Hybrid Exploration in Sparse Reward Scenes | |
CN114905505B (zh) | 一种移动机器人的导航控制方法、系统及存储介质 | |
CN116027788A (zh) | 融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法及设备 | |
Liu et al. | Reinforcement learning for autonomous robotic fish | |
Martinez-Marin et al. | Navigation of autonomous vehicles in unknown environments using reinforcement learning | |
Yao et al. | Autonomous Navigation Control of Tracked Unmanned Vehicle Formation in Communication Restricted Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |