CN115626184A - 自动驾驶车辆的权重系数和控制策略自学习方法及装置 - Google Patents

自动驾驶车辆的权重系数和控制策略自学习方法及装置 Download PDF

Info

Publication number
CN115626184A
CN115626184A CN202211629437.2A CN202211629437A CN115626184A CN 115626184 A CN115626184 A CN 115626184A CN 202211629437 A CN202211629437 A CN 202211629437A CN 115626184 A CN115626184 A CN 115626184A
Authority
CN
China
Prior art keywords
control strategy
weight coefficient
control
optimized
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211629437.2A
Other languages
English (en)
Other versions
CN115626184B (zh
Inventor
段京良
张发旺
马飞
陈良发
焦春绚
闫昊琪
曹星宇
许皓渊
肖礼明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202211629437.2A priority Critical patent/CN115626184B/zh
Publication of CN115626184A publication Critical patent/CN115626184A/zh
Application granted granted Critical
Publication of CN115626184B publication Critical patent/CN115626184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种自动驾驶车辆的权重系数和控制策略自学习方法及装置,涉及车辆自动驾驶控制技术领域。包括:获取待优化的控制策略;将待优化的控制策略输入到构建好的控制策略双层优化模型;其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层;根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。本发明基于给定的专家驾驶策略,通过模仿该目标控制策略实现控制代价函数权重系数和控制策略的自学习。本发明能够解决在控制自动驾驶车辆时,为了实现良好的控制性能而面临的不断调整代价函数的权重系数,且该方法能够实现控制策略的自提升。

Description

自动驾驶车辆的权重系数和控制策略自学习方法及装置
技术领域
本发明涉及车辆自动驾驶控制技术领域,特别是指一种自动驾驶车辆的权重系数和控制策略自学习方法及装置。
背景技术
车辆的智能控制技术是智能化汽车的核心体现。模型预测控制因为其能够考虑未来时刻信息,目前是智能驾驶的控制主流方法。然而模型预测控制由于通过滚动时域优化求解控制量,存在求解效率低下的难题。业界和学术界通过在线优化和离线预求解的方法来提高模型预测控制的求解速度。在线优化方法包含暖启动和提前终止迭代等方法,能够加快求解速度,但面对复杂问题时,求解效率仍然难以满足车辆的控制需求。离线预求解方法主要是显式MPC(Model Predictive Control,模型预测控制),该方法对状态空间进行划分,离线建立从状态量到最优控制律之间的映射关系,映射关系等可以用表格和神经网络等存储,在线应用时通过查表或者神经网络直接映射得到控制量,该方法能够在很大程度上提高求解实时性。然而为了追求高品质的控制效果,需要不断调整权重系数再训练策略以满足控制要求。这导致在实现自动驾驶快速求解和高品质控制的时候,耗费大量的时间和精力,不利于控制技术的应用落地。
发明内容
本发明针对模型预测控制由于通过滚动时域优化求解控制量,存在求解效率低下的难题,以及在实现自动驾驶快速求解和高品质控制的时候,需要不断调整权重系数再训练策略以满足控制要求,耗费大量的时间和精力,不利于控制技术的应用落地的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种自动驾驶车辆的权重系数和控制策略自学习方法,该方法由电子设备实现,该方法包括:
S1、获取待优化的控制策略。
S2、将待优化的控制策略输入到构建好的控制策略双层优化模型;其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层。
S3、根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。
可选地,S3中的根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,包括:
S31、获取初始化的权重系数;设定k=1。
S32、判断k是否大于n,如果k大于n,则转去执行S36,如果k小于或等于n,则执行S33;其中,n表示预设迭代次数。
S33、基于控制策略优化层以及权重系数,对待优化的控制策略进行更新,得到更新后的控制策略。
S34、基于权重系数优化层以及更新后的控制策略,对权重系数进行更新,得到更新后的权重系数。
S35、根据更新后的权重系数,k=k+1,转去执行S32。
S36、停止循环,输出优化后的控制策略。
可选地,S33中的基于控制策略优化层以及权重系数,对待优化的控制策略进行更新,得到更新后的控制策略,包括:
S331、基于权重系数以及待优化的控制策略,构建最优控制问题。
S332、将最优控制问题的期望作为控制策略更新的目标函数。
S333、对目标函数进行最小化,得到更新后的控制策略。
可选地,S34中的基于权重系数优化层以及更新后的控制策略,对权重系数进行更新,得到更新后的权重系数,包括:
S341、基于专家驾驶策略生成专家驾驶数据。
S342、根据更新后的控制策略生成状态和控制轨迹。
S343、基于专家驾驶数据以及状态和控制轨迹,构建损失函数。
S344、对损失函数进行最小化,得到更新后的权重系数。
可选地,S341中的专家驾驶数据,包括驾驶员执行控制任务时的控制信息、车辆的状态信息以及车辆的定位信息。
可选地,S343中的损失函数,如下式(1)所示:
Figure 982717DEST_PATH_IMAGE001
其中,
Figure 984171DEST_PATH_IMAGE002
为专家驾驶数据,
Figure 901181DEST_PATH_IMAGE003
为状态和控制轨迹,
Figure 304480DEST_PATH_IMAGE004
为未知变量。
可选地,S344中的对损失函数进行最小化,得到更新后的权重系数,包括:
基于损失函数、辅助控制系统以及链式求导法则,对未知变量
Figure 32265DEST_PATH_IMAGE004
进行优化,得到更新后的权重系数。
另一方面,本发明提供了一种自动驾驶车辆的权重系数和控制策略自学习装置,该装置应用于实现自动驾驶车辆的权重系数和控制策略自学习方法,该装置包括:
获取模块,用于获取待优化的控制策略。
输入模块,用于将待优化的控制策略输入到构建好的控制策略双层优化模型;其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层。
输出模块,用于根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。
可选地,输出模块,进一步用于:
S31、获取初始化的权重系数;设定k=1。
S32、判断k是否大于n,如果k大于n,则转去执行S36,如果k小于或等于n,则执行S33;其中,n表示预设迭代次数。
S33、基于控制策略优化层以及权重系数,对待优化的控制策略进行更新,得到更新后的控制策略。
S34、基于权重系数优化层以及更新后的控制策略,对权重系数进行更新,得到更新后的权重系数。
S35、根据更新后的权重系数,k=k+1,转去执行S32。
S36、停止循环,输出优化后的控制策略。
可选地,输出模块,进一步用于:
S331、基于权重系数以及待优化的控制策略,构建最优控制问题。
S32、将最优控制问题的期望作为控制策略更新的目标函数。
S333、对目标函数进行最小化,得到更新后的控制策略。
可选地,输出模块,进一步用于:
S341、基于专家驾驶策略生成专家驾驶数据。
S342、根据更新后的控制策略生成状态和控制轨迹。
S343、基于专家驾驶数据以及状态和控制轨迹,构建损失函数。
S344、对损失函数进行最小化,得到更新后的权重系数。
可选地,专家驾驶数据,包括驾驶员执行控制任务时的控制信息、车辆的状态信息以及车辆的定位信息。
可选地,损失函数,如下式(1)所示:
Figure 521015DEST_PATH_IMAGE005
其中,
Figure 992448DEST_PATH_IMAGE002
为专家驾驶数据,
Figure 250254DEST_PATH_IMAGE003
为状态和控制轨迹,
Figure 414519DEST_PATH_IMAGE004
为未知变量。
可选地,输出模块,进一步用于:
基于损失函数、辅助控制系统以及链式求导法则,对未知变量
Figure 390565DEST_PATH_IMAGE004
进行优化,得到更新后的权重系数。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述自动驾驶车辆的权重系数和控制策略自学习方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述自动驾驶车辆的权重系数和控制策略自学习方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,公开了一种自动驾驶车辆控制代价函数权重系数和控制策略自学习方法,该方法包含双层优化结构,上层为权重系数优化层,下层为控制策略优化层,通过不断迭代上下层实现自动驾驶车辆控制代价函数权重系数和控制策略自学习。本方法保证学习控制目标代价函数权重系数的同时还能实现控制策略的不断优化。能够解决在控制自动驾驶车辆时,为了实现良好的控制性能而面临的不断调整代价函数的权重系数,且该方法能够实现控制策略的自提升。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的自动驾驶车辆的权重系数和控制策略自学习方法流程示意图;
图2是本发明实施例提供的自学习方法双层优化结构示意图;
图3是本发明实施例提供的自动驾驶车辆的权重系数和控制策略自学习装置框图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种自动驾驶车辆的权重系数和控制策略自学习方法,该方法可以由电子设备实现。如图1所示的自动驾驶车辆的权重系数和控制策略自学习方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待优化的控制策略。
S2、将待优化的控制策略输入到构建好的控制策略双层优化模型。
其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层。
一种可行的实施方式中,如图2所示,控制策略双层优化模型为双层优化结构,上层为权重系数优化层,下层为控制策略优化层,通过不断交互迭代上下层实现自动驾驶车辆控制代价函数权重系数和控制策略的自学习。
S3、根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。
可选地,上述步骤S3可以包括如下步骤S31-S34:
S31、获取初始化的权重系数。
S32、基于控制策略优化层以及权重系数,对待优化的控制策略进行更新,得到更新后的控制策略。
可选地,上述步骤S32可以包括如下步骤S321-S323:
S321、基于权重系数以及待优化的控制策略,构建最优控制问题。
一种可行的实施方式中,设待优化的代价函数权重系数为
Figure 150842DEST_PATH_IMAGE006
Figure 263154DEST_PATH_IMAGE007
,待优化的控制策略为
Figure 332741DEST_PATH_IMAGE008
,控制策略以神经网络为载体,
Figure 796084DEST_PATH_IMAGE009
为控制策略网络的待优化参数。构建的最优控制问题,如下式(1)所示:
Figure 609319DEST_PATH_IMAGE010
S322、将最优控制问题的期望作为控制策略更新的目标函数。
一种可行的实施方式中,以所构建的最优控制问题的期望为策略更新的目标函数,如下式(2)所示:
Figure 841717DEST_PATH_IMAGE011
S323、对目标函数进行最小化,得到更新后的控制策略。
一种可行的实施方式中,通过最小化该目标函数,实现对策略参数
Figure 347785DEST_PATH_IMAGE009
的更新,即:
Figure 282112DEST_PATH_IMAGE012
其中,
Figure 899038DEST_PATH_IMAGE013
为神经网络参数更新的步长。
S33、基于权重系数优化层以及更新后的控制策略,对权重系数进行更新,得到更新后的权重系数。
可选地,上述步骤S33可以包括如下步骤S331-S334:
S331、基于专家驾驶策略生成专家驾驶数据。
一种可行的实施方式中,专家驾驶策略和专家数据
Figure 985943DEST_PATH_IMAGE002
是根据具体控制任务,选择富有经验的驾驶员驾驶车辆,记录并存储专家驾驶数据
Figure 662912DEST_PATH_IMAGE002
,该数据包含驾驶员执行控制任务时的控制信息和车辆的状态以及定位等信息。
S332、根据更新后的控制策略生成状态和控制轨迹。
一种可行的实施方式中,设待优化权重系数为
Figure 835267DEST_PATH_IMAGE006
Figure 990305DEST_PATH_IMAGE007
Figure 197295DEST_PATH_IMAGE004
表示未知变量。在控制系统
Figure 45165DEST_PATH_IMAGE014
中,利用更新后的优化策略
Figure 455549DEST_PATH_IMAGE008
生成状态和控制轨迹
Figure 148699DEST_PATH_IMAGE015
S333、基于专家驾驶数据以及状态和控制轨迹,构建损失函数。
可选地,S333中的损失函数,如下式(4)所示:
Figure 944616DEST_PATH_IMAGE016
其中,
Figure 963388DEST_PATH_IMAGE002
为专家驾驶数据,
Figure 110336DEST_PATH_IMAGE015
为状态和控制轨迹,
Figure 872755DEST_PATH_IMAGE004
为未知变量。
S334、对损失函数进行最小化,得到更新后的权重系数。
一种可行的实施方式中,对
Figure 788759DEST_PATH_IMAGE017
分别对
Figure 962120DEST_PATH_IMAGE004
Figure 596364DEST_PATH_IMAGE003
求偏导得
Figure 896895DEST_PATH_IMAGE018
Figure 932984DEST_PATH_IMAGE019
,利用辅助控制系统
Figure 27979DEST_PATH_IMAGE020
求得偏导数
Figure 149519DEST_PATH_IMAGE021
,利用链式求导法则求得
Figure 988162DEST_PATH_IMAGE022
Figure 878757DEST_PATH_IMAGE023
。更新待优化变量,
Figure 895386DEST_PATH_IMAGE024
进一步地,辅助控制系统
Figure 238643DEST_PATH_IMAGE020
用于求解偏导数
Figure 146556DEST_PATH_IMAGE021
。为了求解
Figure 891658DEST_PATH_IMAGE021
,即,
Figure 594035DEST_PATH_IMAGE025
,对极大值原理相关方程左右分别对
Figure 424588DEST_PATH_IMAGE004
求偏导,得:
微分动力学方程,如下式(5)所示:
Figure 870612DEST_PATH_IMAGE026
微分协态方程,如下式(6)所示:
Figure DEST_PATH_IMAGE028A
微分输入方程,如下式(7)所示:
Figure DEST_PATH_IMAGE030AAA
微分边界条件,如下式(8)所示:
Figure DEST_PATH_IMAGE032AA
式中:
Figure 345587DEST_PATH_IMAGE033
Figure 953286DEST_PATH_IMAGE034
为效用函数,
Figure 271135DEST_PATH_IMAGE035
表示状态转移方程,
Figure 255271DEST_PATH_IMAGE036
Figure 974966DEST_PATH_IMAGE037
Figure 19145DEST_PATH_IMAGE038
Figure 824290DEST_PATH_IMAGE039
Figure 861385DEST_PATH_IMAGE040
Figure 435586DEST_PATH_IMAGE041
Figure 650667DEST_PATH_IMAGE042
Figure 677528DEST_PATH_IMAGE043
Figure 269047DEST_PATH_IMAGE044
Figure 432175DEST_PATH_IMAGE045
Figure 818157DEST_PATH_IMAGE046
Figure 348626DEST_PATH_IMAGE047
,则求解
Figure 478256DEST_PATH_IMAGE048
等价于求解,如下式(9)所示:
Figure DEST_PATH_IMAGE050A
满足动力学方程:
Figure 964733DEST_PATH_IMAGE051
Figure 787195DEST_PATH_IMAGE052
这是一个常规的带约束最优控制问题,可以利用现成求解器求解
Figure 788649DEST_PATH_IMAGE021
,以上求解
Figure 971238DEST_PATH_IMAGE021
的过程称为辅助控制系统
Figure 108958DEST_PATH_IMAGE020
S34、根据更新后的权重系数,转去执行S32,直至达到预设迭代次数,输出优化后的控制策略。
一种可行的实施方式中,在每一轮迭代中,权重系数优化层以专家驾驶策略生成的专家数据
Figure 102322DEST_PATH_IMAGE002
和待优化策略
Figure DEST_PATH_IMAGE054A
生成的状态和控制轨迹
Figure 59913DEST_PATH_IMAGE003
构建损失函数,最小化该损失函数实现对权重系数的更新;控制策略优化层基于上层所更新的权重系数
Figure 265767DEST_PATH_IMAGE006
Figure 274305DEST_PATH_IMAGE007
,最小化控制目标函数
Figure 438570DEST_PATH_IMAGE055
,实现对策略网络的更新。
进一步地,对训练完毕的控制策略进行在线应用,以控制自动驾驶车辆。
进一步地,对神经网络进行离线训练的伪代码,如下表1所示:
表1
Figure 149037DEST_PATH_IMAGE057
举例来说,以具备自动驾驶功能的乘用车为控制对象,控制任务为轨迹跟踪,车辆模型采用三自由度单轨模型,轮胎力采用线性轮胎模型,具体参数如下表2所示:
Figure 424161DEST_PATH_IMAGE058
Figure 802053DEST_PATH_IMAGE059
Figure 871640DEST_PATH_IMAGE060
Figure 69403DEST_PATH_IMAGE061
表2
Figure 131906DEST_PATH_IMAGE063
根据具体控制任务,收集并存储专家驾驶数据
Figure 364304DEST_PATH_IMAGE002
策略优化层:设待优化的代价函数权重系数为
Figure 604792DEST_PATH_IMAGE006
Figure 555431DEST_PATH_IMAGE006
,待优化的策略为
Figure 172357DEST_PATH_IMAGE008
Figure 259262DEST_PATH_IMAGE064
,策略用神经网络近似,
Figure 936231DEST_PATH_IMAGE009
为策略网络的待优化参数,具体神经网络超参数如下表3所示。构建的最优控制问题,如下式(10)所示:
Figure 108586DEST_PATH_IMAGE066
满足
Figure 838575DEST_PATH_IMAGE067
,该方程为三自由度单轨模型的离散化模型。
Figure 45566DEST_PATH_IMAGE068
为预测时域,
Figure 627857DEST_PATH_IMAGE069
为参考状态,包含参考轨迹和参考车速等。策略更新的目标函数为
Figure 21929DEST_PATH_IMAGE070
的期望,即:
Figure 980658DEST_PATH_IMAGE072
进一步地,通过最小化该目标函数,实现对策略参数
Figure 42154DEST_PATH_IMAGE009
的更新,即:
Figure 60926DEST_PATH_IMAGE073
Figure 457141DEST_PATH_IMAGE074
为神经网络参数更新的步长。
进一步地,权重系数优化层:待优化权重系数为
Figure 953982DEST_PATH_IMAGE006
Figure 869985DEST_PATH_IMAGE007
Figure 59658DEST_PATH_IMAGE004
为待优化变量,给定权重系数更新步长
Figure 693902DEST_PATH_IMAGE075
,具体参数如下表3所示。在控制系统
Figure 994433DEST_PATH_IMAGE076
中,利用更新后的优化策略
Figure 764943DEST_PATH_IMAGE008
生成状态和控制轨迹
Figure 125517DEST_PATH_IMAGE003
,以专家数据
Figure 732210DEST_PATH_IMAGE002
Figure 570853DEST_PATH_IMAGE003
构建损失函数
Figure 461449DEST_PATH_IMAGE077
。对
Figure 992924DEST_PATH_IMAGE078
分别对
Figure 336181DEST_PATH_IMAGE004
Figure 244094DEST_PATH_IMAGE003
求偏导得
Figure 989196DEST_PATH_IMAGE018
Figure 940840DEST_PATH_IMAGE079
,利用辅助控制系统
Figure 771393DEST_PATH_IMAGE020
求得偏导数
Figure 951839DEST_PATH_IMAGE021
,利用链式求导法则求得
Figure 817027DEST_PATH_IMAGE022
Figure 690305DEST_PATH_IMAGE023
。更新待优化变量,
Figure 8153DEST_PATH_IMAGE024
,实现待优化权重系数为
Figure 992290DEST_PATH_IMAGE006
Figure 711984DEST_PATH_IMAGE007
的更新。
通过不断迭代策略优化层和权重系数优化层,实现控制代价函数和控制策略的自学习。将所学到的策略进行在线应用,经过对比发现,本方法能够实现控制策略和控制代价函数权重系数的自学习。
表3
Figure 241317DEST_PATH_IMAGE081
本发明实施例中,公开了一种自动驾驶车辆控制代价函数权重系数和控制策略自学习方法,该方法包含双层优化结构,上层为权重系数优化层,下层为控制策略优化层,通过不断迭代上下层实现自动驾驶车辆控制代价函数权重系数和控制策略自学习。本方法保证学习控制目标代价函数权重系数的同时还能实现控制策略的不断优化。能够解决在控制自动驾驶车辆时,为了实现良好的控制性能而面临的不断调整代价函数的权重系数,且该方法能够实现控制策略的自提升。
如图3所示,本发明实施例提供了一种自动驾驶车辆的权重系数和控制策略自学习装置300,该装置300应用于实现自动驾驶车辆的权重系数和控制策略自学习方法,该装置300包括:
获取模块310,用于获取待优化的控制策略。
输入模块320,用于将待优化的控制策略输入到构建好的控制策略双层优化模型;其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层。
输出模块330,用于根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。
可选地,输出模块330,进一步用于:
S31、获取初始化的权重系数;设定k=1。
S32、判断k是否大于n,如果k大于n,则转去执行S36,如果k小于或等于n,则执行S33;其中,n表示预设迭代次数。
S33、基于控制策略优化层以及权重系数,对待优化的控制策略进行更新,得到更新后的控制策略。
S34、基于权重系数优化层以及更新后的控制策略,对权重系数进行更新,得到更新后的权重系数。
S35、根据更新后的权重系数,k=k+1,转去执行S32。
S36、停止循环,输出优化后的控制策略。
可选地,输出模块330,进一步用于:
S331、基于权重系数以及待优化的控制策略,构建最优控制问题。
S332、将最优控制问题的期望作为控制策略更新的目标函数。
S333、对目标函数进行最小化,得到更新后的控制策略。
可选地,输出模块330,进一步用于:
S341、基于专家驾驶策略生成专家驾驶数据。
S342、根据更新后的控制策略生成状态和控制轨迹。
S343、基于专家驾驶数据以及状态和控制轨迹,构建损失函数。
S344、对损失函数进行最小化,得到更新后的权重系数。
可选地,专家驾驶数据,包括驾驶员执行控制任务时的控制信息、车辆的状态信息以及车辆的定位信息。
可选地,损失函数,如下式(1)所示:
Figure 46462DEST_PATH_IMAGE005
其中,
Figure 834289DEST_PATH_IMAGE002
为专家驾驶数据,
Figure 408490DEST_PATH_IMAGE003
为状态和控制轨迹,
Figure 623571DEST_PATH_IMAGE004
为未知变量。
可选地,输出模块330,进一步用于:
基于损失函数、辅助控制系统以及链式求导法则,对未知变量
Figure 650433DEST_PATH_IMAGE004
进行优化,得到更新后的权重系数。
本发明实施例中,公开了一种自动驾驶车辆控制代价函数权重系数和控制策略自学习方法,该方法包含双层优化结构,上层为权重系数优化层,下层为控制策略优化层,通过不断迭代上下层实现自动驾驶车辆控制代价函数权重系数和控制策略自学习。本方法保证学习控制目标代价函数权重系数的同时还能实现控制策略的不断优化。能够解决在控制自动驾驶车辆时,为了实现良好的控制性能而面临的不断调整代价函数的权重系数,且该方法能够实现控制策略的自提升。
图4是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,存储器402中存储有至少一条指令,至少一条指令由处理器401加载并执行以实现下述自动驾驶车辆的权重系数和控制策略自学习方法:
S1、获取待优化的控制策略。
S2、将待优化的控制策略输入到构建好的控制策略双层优化模型;其中,控制策略双层优化模型包括权重系数优化层以及控制策略优化层。
S3、根据待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于优化后的控制策略对自动驾驶车辆进行控制。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述自动驾驶车辆的权重系数和控制策略自学习方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种自动驾驶车辆的权重系数和控制策略自学习方法,其特征在于,所述方法包括:
S1、获取待优化的控制策略;
S2、将所述待优化的控制策略输入到构建好的控制策略双层优化模型;其中,所述控制策略双层优化模型包括权重系数优化层以及控制策略优化层;
S3、根据所述待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于所述优化后的控制策略对自动驾驶车辆进行控制。
2.根据权利要求1所述的方法,其特征在于,所述S3中的根据所述待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,包括:
S31、获取初始化的权重系数;设定k=1;
S32、判断k是否大于n,如果k大于n,则转去执行S36,如果k小于或等于n,则执行S33;其中,n表示预设迭代次数;
S33、基于所述控制策略优化层以及权重系数,对所述待优化的控制策略进行更新,得到更新后的控制策略;
S34、基于所述权重系数优化层以及更新后的控制策略,对所述权重系数进行更新,得到更新后的权重系数;
S35、根据所述更新后的权重系数,k=k+1,转去执行S32;
S36、停止循环,输出优化后的控制策略。
3.根据权利要求2所述的方法,其特征在于,所述S33中的基于所述控制策略优化层以及权重系数,对所述待优化的控制策略进行更新,得到更新后的控制策略,包括:
S331、基于所述权重系数以及待优化的控制策略,构建最优控制问题;
S332、将所述最优控制问题的期望作为控制策略更新的目标函数;
S333、对所述目标函数进行最小化,得到更新后的控制策略。
4.根据权利要求2所述的方法,其特征在于,所述S34中的基于所述权重系数优化层以及更新后的控制策略,对所述权重系数进行更新,得到更新后的权重系数,包括:
S341、基于专家驾驶策略生成专家驾驶数据;
S342、根据所述更新后的控制策略生成状态和控制轨迹;
S343、基于所述专家驾驶数据以及所述状态和控制轨迹,构建损失函数;
S344、对所述损失函数进行最小化,得到更新后的权重系数。
5.根据权利要求4所述的方法,其特征在于,所述S341中的专家驾驶数据,包括驾驶员执行控制任务时的控制信息、车辆的状态信息以及车辆的定位信息。
6.根据权利要求4所述的方法,其特征在于,所述S343中的损失函数,如下式(1)所示:
Figure 648251DEST_PATH_IMAGE001
其中,
Figure 158867DEST_PATH_IMAGE002
为专家驾驶数据,
Figure 141866DEST_PATH_IMAGE003
为状态和控制轨迹,
Figure 802655DEST_PATH_IMAGE004
为未知变量。
7.根据权利要求6所述的方法,其特征在于,所述S344中的对所述损失函数进行最小化,得到更新后的权重系数,包括:
基于所述损失函数、辅助控制系统以及链式求导法则,对未知变量
Figure 446388DEST_PATH_IMAGE004
进行优化,得到更新后的权重系数。
8.一种自动驾驶车辆的权重系数和控制策略自学习装置,其特征在于,所述装置包括:
获取模块,用于获取待优化的控制策略;
输入模块,用于将所述待优化的控制策略输入到构建好的控制策略双层优化模型;其中,所述控制策略双层优化模型包括权重系数优化层以及控制策略优化层;
输出模块,用于根据所述待优化的控制策略、权重系数优化层以及控制策略优化层,得到优化后的控制策略,基于所述优化后的控制策略对自动驾驶车辆进行控制。
9.根据权利要求8所述的装置,其特征在于,输出模块,进一步用于:
S31、获取初始化的权重系数;设定k=1;
S32、判断k是否大于n,如果k大于n,则转去执行S36,如果k小于或等于n,则执行S33;其中,n表示预设迭代次数;
S33、基于所述控制策略优化层以及权重系数,对所述待优化的控制策略进行更新,得到更新后的控制策略;
S34、基于所述权重系数优化层以及更新后的控制策略,对所述权重系数进行更新,得到更新后的权重系数;
S35、根据所述更新后的权重系数,k=k+1,转去执行S32;
S36、停止循环,输出优化后的控制策略。
10.根据权利要求9所述的装置,其特征在于,输出模块,进一步用于:
S331、基于所述权重系数以及待优化的控制策略,构建最优控制问题;
S332、将所述最优控制问题的期望作为控制策略更新的目标函数;
S333、对所述目标函数进行最小化,得到更新后的控制策略。
CN202211629437.2A 2022-12-19 2022-12-19 自动驾驶车辆的权重系数和控制策略自学习方法及装置 Active CN115626184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211629437.2A CN115626184B (zh) 2022-12-19 2022-12-19 自动驾驶车辆的权重系数和控制策略自学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211629437.2A CN115626184B (zh) 2022-12-19 2022-12-19 自动驾驶车辆的权重系数和控制策略自学习方法及装置

Publications (2)

Publication Number Publication Date
CN115626184A true CN115626184A (zh) 2023-01-20
CN115626184B CN115626184B (zh) 2023-07-21

Family

ID=84909780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211629437.2A Active CN115626184B (zh) 2022-12-19 2022-12-19 自动驾驶车辆的权重系数和控制策略自学习方法及装置

Country Status (1)

Country Link
CN (1) CN115626184B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109839937A (zh) * 2019-03-12 2019-06-04 百度在线网络技术(北京)有限公司 确定车辆自动驾驶规划策略的方法、装置、计算机设备
CN111483468A (zh) * 2020-04-24 2020-08-04 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
US20210276598A1 (en) * 2020-03-05 2021-09-09 Elmira Amirloo Abolfathi Machine-learning based system for path and/or motion planning and method of training the same
CN114170488A (zh) * 2021-12-10 2022-03-11 安徽酷哇机器人有限公司 基于条件模仿学习和强化学习的自动驾驶方法
CN114444655A (zh) * 2021-12-28 2022-05-06 郑州英集动力科技有限公司 基于蓝牙通信和迁移学习的热用户室温测量及控制方法
CN114675742A (zh) * 2022-05-04 2022-06-28 吉林大学 一种面向高度自动驾驶的人机决策逻辑在线校验方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109839937A (zh) * 2019-03-12 2019-06-04 百度在线网络技术(北京)有限公司 确定车辆自动驾驶规划策略的方法、装置、计算机设备
US20210276598A1 (en) * 2020-03-05 2021-09-09 Elmira Amirloo Abolfathi Machine-learning based system for path and/or motion planning and method of training the same
CN111483468A (zh) * 2020-04-24 2020-08-04 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN114170488A (zh) * 2021-12-10 2022-03-11 安徽酷哇机器人有限公司 基于条件模仿学习和强化学习的自动驾驶方法
CN114444655A (zh) * 2021-12-28 2022-05-06 郑州英集动力科技有限公司 基于蓝牙通信和迁移学习的热用户室温测量及控制方法
CN114675742A (zh) * 2022-05-04 2022-06-28 吉林大学 一种面向高度自动驾驶的人机决策逻辑在线校验方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
印度)桑塔努·帕塔纳亚克(SANTANU PATTANAYAK), 机械工业出版社 *

Also Published As

Publication number Publication date
CN115626184B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112193280B (zh) 一种重载列车强化学习控制方法及系统
CN111267831B (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN110991757B (zh) 一种混合动力电动汽车综合预测能量管理方法
CN111284489B (zh) 智能网联汽车随机预测巡航控制系统
CN111241952A (zh) 一种离散制造场景中的强化学习奖励自学习方法
CN110615003B (zh) 基于策略梯度在线学习算法的巡航控制系统及设计方法
CN110936824A (zh) 一种基于自适应动态规划的电动汽车双电机控制方法
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
Ure et al. Enhancing situational awareness and performance of adaptive cruise control through model predictive control and deep reinforcement learning
Liessner et al. Safe deep reinforcement learning hybrid electric vehicle energy management
CN114355897B (zh) 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法
CN115496201A (zh) 一种基于深度强化学习的列车精确停车控制方法
CN115626184A (zh) 自动驾驶车辆的权重系数和控制策略自学习方法及装置
Precup et al. A survey on fuzzy control for mechatronics applications
CN116643499A (zh) 一种基于模型强化学习的智能体路径规划方法及系统
CN114278727B (zh) 极限工况下的车辆自动换挡控制方法、系统、介质及设备
CN116128028A (zh) 一种连续决策空间组合优化的高效深度强化学习算法
Zhu et al. Autonomous driving vehicle control auto-calibration system: An industry-level, data-driven and learning-based vehicle longitudinal dynamic calibrating algorithm
Malikopoulos et al. A real-time computational learning model for sequential decision-making problems under uncertainty
CN111598311B (zh) 一种新型列车运行速度曲线智能优化方法
CN113537620A (zh) 基于Markov模型优化和工况识别的车速预测方法
Natella et al. A Q-learning approach for SoftECU design in hybrid electric vehicles
Schroer et al. Adaptive operating strategies for the energy management of hybrid electric vehicles with deep reinforcement learning
CN114670856B (zh) 一种基于bp神经网络的参数自整定纵向控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant