CN113110359B - 约束型智能汽车自主决策系统在线训练方法及装置 - Google Patents

约束型智能汽车自主决策系统在线训练方法及装置 Download PDF

Info

Publication number
CN113110359B
CN113110359B CN202110536117.1A CN202110536117A CN113110359B CN 113110359 B CN113110359 B CN 113110359B CN 202110536117 A CN202110536117 A CN 202110536117A CN 113110359 B CN113110359 B CN 113110359B
Authority
CN
China
Prior art keywords
strategy
network
constraint
gradient
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110536117.1A
Other languages
English (en)
Other versions
CN113110359A (zh
Inventor
谷子青
马海铜
郑四发
李升波
王建强
许庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110536117.1A priority Critical patent/CN113110359B/zh
Publication of CN113110359A publication Critical patent/CN113110359A/zh
Application granted granted Critical
Publication of CN113110359B publication Critical patent/CN113110359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM]
    • G05B19/41885Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32339Object oriented modeling, design, analysis, implementation, simulation language
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种约束型智能汽车自主决策系统在线训练方法及装置,该方法在每轮优化中,以车辆驾驶性能作为优化的目标,通过计算约束函数的梯度投影矩阵,将更新梯度投影至可行且安全的区域中,并利用安全护盾检测执行策略的绝对安全行。可以保证智能汽车在线优化目标时的安全性,从而降低了对仿真器的要求,应用范围不受场景限制,能够达到安全在线训练的目标。

Description

约束型智能汽车自主决策系统在线训练方法及装置
技术领域
本发明涉及智能汽车应用技术领域,特别涉及一种约束型智能汽车自主决策系统在线训练方法及装置。
背景技术
汽车智能化技术具有提升道路车辆行驶经济性,舒适性和安全性的巨大潜力,是汽车行业未来发展的必经之路。规则型的决策与控制方法已被验证无法满足智能汽车高智能化发展的需求,必须发展学习型的智能汽车决策控制技术。然而,智能汽车的决策控制任务是一个复杂的序列决策问题,现有的使用传统模仿学习或者监督学习的方法,一方面需要大量有标签的人工驾驶数据,决策模型难以超越人类水平,另一方面单纯依靠离线数据集学习,难以覆盖实际问题中所有可能的真实状态的分布特性。基于强化学习的自进化型决策方法以性能为优化指标,具有超越人类驾驶员水平的潜力,是解决复杂决策问题的有效方法,成为实现智能汽车高度智能化的唯一路径。
但是,智能汽车高度关注安全,强化学习型决策的探索学习与应用安全存在矛盾,即如果要学习到安全的策略,就无法避免要经历危险的情况,因此需要构建约束来确保学习过程中的安全性。其中,约束型优化控制问题的处理难点不仅包括如何在动态规划体系结构中实现约束优化技术,而且还包括策略可行性的考量。一方面,策略的可行性要求安全区域内的所有状态都安全,另一方面,一个可行的策略更新方向需要满足所有约束的更新方向限制。
基于以上自进化性和安全性的要求,本实施例拟通过利用先验模型的信息,对学习过程中的试错探索过程进行安全性约束,克服现有的强化学习型决策控制方法训练时的危险性问题,以实现智能车辆安全在线训练的可能性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种,、约束型智能汽车自主决策系统在线训练方法,该方法通过利用先验模型的信息,对学习过程中的试错探索过程进行安全性约束,克服现有的强化学习型决策控制方法训练时的危险性问题,以实现智能车辆安全在线训练的可能性。
本发明的另一个目的在于提出一种约束型智能汽车自主决策系统在线训练装置。
为达到上述目的,本发明一方面实施例提出了一种约束型智能汽车自主决策系统在线训练方法,包括:
S1,对策略网络和策略评估网络的参数进行初始化,分别选择所述策略网络和所述策略评估网络的学习率,开始马尔科夫决策进程;
S2,通过所述策略网络输出动作分布,并执行满足所述动作分布的动作,获取智能汽车与环境交互产生的数据组,将所述数据组进行存储,判断存储量是否达到预设阈值,在所述数据组的存储量达到预设阈值时,执行S3;
S3,随机在所述数据组中选取多组数据组,通过所述策略评估网络对选取数据组的状态-动作值进行估计;
S4,根据估计值计算所述策略评估网络的梯度,以及计算当前所述策略网络的目标梯度;
S5,根据先验模型和约束计算选取数据组的未来有限步状态,根据约束函数计算所述策略网络的约束梯度和对应的约束投影矩阵;
S6,通过所述目标梯度、所述约束投影矩阵以及所述策略网络和所述策略评估网络的学习率,更新所述策略网络和所述策略评估网络的参数;
S7,根据所述马尔科夫决策进程的标志量判断该进程是否结束,若是,则转S1,若不是,智能汽车根据更新后的所述策略网络的输出动作分布及满足该动作分布的动作,与环境进行交互,将交互得到的数据组进行存储,转S3。
为达到上述目的,本发明另一方面实施例提出了一种约束型智能汽车自主决策系统在线训练装置,包括:
数据存储模块,用于存储从智能汽车传感器上收集的向量级状态信息并为策略评估模块随机提供数据组;
策略评估模块,用于利用获得的数据组来评估当前策略的价值,计算当前状态-动作的价值;
目标梯度模块,用于计算得到的状态-动作价值的策略梯度,确定初始策略优化方向;
模型预测模块,用于根据先验的车辆动力学模型以及周车行为模型进行有限时域预测,计算未来时刻的约束函数值和策略梯度,以保证未来策略优化方向的安全性;
安全约束投影模块,用于根据确定的投影规则,将策略梯度更新方向投影至可行且安全的梯度方向,并进行策略网络与值网络的参数更新;
安全护盾模块,用于对优化过的策略产生的动作信息进行检验。
本发明实施例的约束型智能汽车自主决策系统在线训练方法及装置,具有以下优势:
1)通过将先验模型预测步内的约束计算出合理的投影矩阵,并将目标函数的“目标梯度”投影到可行且安全的方向上,能够保证智能汽车在线训练过程的安全性。
2)能够根据不同场景(或者任务的需求)对目标函数做出修改,例如跟踪性、经济性等,多维度综合优化智能汽车的在线训练过程。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的约束型智能汽车自主决策系统在线训练方法流程图;
图2为根据本发明一个实施例的约束型智能汽车自主决策系统在线训练方法框图;
图3为根据本发明一个实施例的车间碰撞约束示意图;
图4为根据本发明一个实施例的约束函数梯度求导示意图;
图5为根据本发明一个实施例的安全约束投影逻辑示意图;
图6为根据本发明一个实施例的约束型智能汽车自主决策系统在线训练装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的约束型智能汽车自主决策系统在线训练方法及装置。
首先将参照附图描述根据本发明实施例提出的约束型智能汽车自主决策系统在线训练方法。
图1为根据本发明一个实施例的约束型智能汽车自主决策系统在线训练方法流程图。
如图1所示,该约束型智能汽车自主决策系统在线训练方法包括以下步骤:
步骤S1,对策略网络和策略评估网络的参数进行初始化,分别选择策略网络和策略评估网络的学习率,开始马尔科夫决策进程。
具体地,初始化策略网络和策略评估网络(又称Q网络)的参数θ和ω,选择合适的学习率βθ和βω,以及迭代步数k,开始一个马尔科夫决策进程(简记为MDP),根据任务的目标(例如经济性、安全性等),设计收益函数。
步骤S2,通过策略网络输出动作分布,并执行满足动作分布的动作,获取智能汽车与环境交互产生的数据组,将数据组进行存储,判断存储量是否达到预设阈值,在数据组的存储量达到预设阈值时,执行S3。
具体地,根据策略网络输出动作分布,π(·|s;θ),并执行满足该分布的动作,a~π(·|s;θ),令该动作通过安全护盾模块的检查,并通过智能汽车不断与环境交互获得数据组,(st,at,rt,st+1,dt),存入到数据存储模块
Figure BDA0003069910440000047
中,待存储到一定数据量以后,进入步骤S3。
步骤S3,随机在数据组中选取多组数据组,通过策略评估网络对选取数据组的状态-动作值进行估计。
从数据存储模块
Figure BDA0003069910440000041
中随机返回N组随机批数据组,策略评估模块(即Q网络)对此批数据的“状态-动作”的值估计。
在步骤S1中,采用下式(1)确定目标函数及约束:
Figure BDA0003069910440000042
服从于,
h(st+i)≤d,i∈{0,1,2,…,T} (2)
其中,收益函数r(s,a)代表任务的目标,包括智能汽车的跟踪性能、燃油经济性能以及驾驶舒适性能等,γ为折扣因子,πθ为当前的参数化策略的概率密度函数,a为智能车辆实际执行的安全的确定性动作,
Figure BDA0003069910440000043
代表策略πθ(或π(·|si;θ))下状态si的分布,
Figure BDA0003069910440000044
为期望。h(st+i)为状态st+i在t+i时刻的安全约束函数,d为安全约束阈值。
进一步地,为了计算式(1)中的无穷时域收益函数累积和函数,步骤S3中,策略评估网络计算批数据的值函数,作为收益函数的估计值,得到策略网络π(·|s;θ)的更新目标,即式(1)可以写作:
Figure BDA0003069910440000045
其中,Q(st,at;ω)为策略评估网络的输出近似值,ω为网络当前参数,并计算得到目标值函数yQ
yQ=rt(st,at)+γQ(st+1,at+1;ω) (4)
其中,rt(st,at)为t时刻的即时收益。
进一步地,获得更新Q网络参数ω的目标函数:
Figure BDA0003069910440000046
其中,
Figure BDA0003069910440000051
代表策略πθ下“状态-动作”对(st,at)的分布。
步骤S4,根据估计值计算策略评估网络的梯度,以及计算当前策略网络的目标梯度。
进一步地,步骤S4中计算的Q网络Qω的更新梯度(即对参数ω的梯度)为:
Figure BDA0003069910440000052
计算当前策略πθ的“目标梯度”:
Figure BDA0003069910440000053
其中,∝表明log的底数不唯一,可根据计算要求而定。
根据步骤S3得到的值估计结果,计算策略评估模块的梯度
Figure BDA0003069910440000054
接着,策略提升模块中的目标梯度模块计算当前策略πθ的“目标梯度”
Figure BDA0003069910440000055
步骤S5,根据先验模型和约束计算选取数据组的未来有限步状态,根据约束函数计算策略网络的约束梯度和对应的约束投影矩阵。
根据先验模型和约束,策略提升模块中的模型预测模块预测步骤S2中返回的批数据的未来有限步状态,安全约束模块根据约束函数计算策略的“约束梯度”
Figure BDA0003069910440000056
和对应的“约束投影矩阵”PT
进一步地,步骤S5中计算“约束梯度”
Figure BDA0003069910440000057
即:
Figure BDA0003069910440000058
其中,
Figure BDA0003069910440000059
表示第i辆周车的第j个约束的梯度。
进一步地,计算投影矩阵PT,即:
PT=I-MT(MMT)-1M (9)
其中,M为约束梯度矩阵,I为单位矩阵。
步骤S6,通过目标梯度、约束投影矩阵以及策略网络和策略评估网络的学习率,更新策略网络和策略评估网络的参数。
根据步骤S4和步骤S5中的策略评估模块的梯度和策略提模块的“目标梯度”、“约束投影矩阵”,以及对应网络的学习率,更新策略网络和Q网络的参数θ和ω。
进一步地,步骤S6中参数ω和θ的更新规则为:
Figure BDA00030699104400000510
Figure BDA00030699104400000511
其中,βQ是Q网络的学习率,βπ是策略网络的学习率,k为迭代计数。
步骤S7,根据马尔科夫决策进程的标志量判断该进程是否结束,若是,则转S1,若不是,智能汽车根据更新后的策略网络的输出动作分布及满足该动作分布的动作,与环境进行交互,将交互得到的数据组进行存储,转S3。
根据智能汽车MDP过程的标志量done判断该进程是否结束,如果是,进入步骤S1;如果否,根据更新后的策略网络输出动作分布,π(·|s;θ),及满足该分布的动作,a~π(·|s;θ),令该动作通过安全护盾模块的检查,智能车辆再执行相应的安全动作,与环境进行交互,并将交互得到的数据组,(st,at,rt,st+1,dt),存入到数据存储模块B中,进入步骤S3。
进一步地,还包括:
对策略网络的输出动作分布以及满足动作分布的动作进行安全检验。
进一步地,策略网络输出的动作值,通过步骤S7中的安全护盾模块,得到绝对安全动作,由智能汽车执行:
Figure BDA0003069910440000061
Figure BDA0003069910440000062
其中,at为智能汽车控制环节最终执行的安全动作,
Figure BDA0003069910440000063
为安全动作集。
下面对本发明实施例的约束型智能汽车自主决策系统在线训练方法进行详细说明。
如图2所示,步骤1,本实施例中的智能汽车自主决策系统在线学习过程至少包含四个功能性模块,即数据存储模块、策略评估模块、策略提升模块及安全护盾模块,每个模块在实际的在线训练过程中并行启动。其中,策略提升模块是本实施例的核心,包含三个功能子模块,分别为目标梯度模块、模型预测模块以及安全约束投影模块。其特征在于,计算约束函数的梯度投影矩阵,将目标梯度投影至可行且安全的目标函数更新方向内,保证智能汽车策略探索时的安全性,并利用安全护盾保证策略执行阶段的绝对安全,达到安全在线训练的目标。
在智能汽车行驶的过程中,在线学习算法依次经过每一个模块,迭代更新求解。首先,从智能汽车传感器上收集的向量级状态信息不断输入并存放在数据存储模块中,同时,数据存储模块为策略评估模块随机提供一批数据。策略评估模块使用获得的批数据来评估当前策略的价值,即计算当前“状态-动作”,(st,at),的价值。策略提升模块,首先根据目标梯度模块计算得到近似“状态-动作”价值函数的策略梯度,确定初始策略优化方向;其次通过模型预测模块,根据先验的车辆动力学模型以及周车行为模型为此批数据进行有限时域预测,计算未来时刻的约束函数值和策略梯度,以保证未来策略优化方向的安全性;最后安全约束投影模块根据确定的投影规则,将策略梯度更新方向投影至可行且安全的梯度方向,并进行策略网络与值网络的参数更新。另外,优化过的策略产生的动作信息需要智能汽车实际执行时,会通过安全护盾模块的检验,进一步保证智能汽车实际执行动作的绝对安全,确保在线训练顺利进行。
步骤2,假定智能汽车在与交通环境(或系统)的交互过程中系统是完全可观的,则智能汽车的最优决策通常只与当前观测信息有关,此时可以用马尔科夫决策(MarkovDecision Process,MDP)过程对智能汽车决策过程进行建模。对于每轮MDP过程,若当前时刻为t,智能汽车根据当前的环境状态
Figure BDA0003069910440000071
采取动作
Figure BDA0003069910440000072
执行相应的命令,以此与交通环境(或系统)f交互并得到下一时刻的状态st+1,同时接收到交通环境反馈的收益信号(或收益函数)rt(st,at)。其中
Figure BDA0003069910440000073
Figure BDA0003069910440000074
分别代表状态空间和动作空间。对于连续驾驶任务而言,该过程会一直重复下去直到
Figure BDA0003069910440000075
代表预先给定的吸收态(或称为终止状态)的集合,比如智能汽车发生以交通事故、严重超速为代表的严重违规行为,通常被视为本MDP进程的结束,由标志量done表征。此时,智能汽车和交通环境会被重新初始化并开启新一轮的MDP过程。
本实施例中,定义策略函数π(·|s)是以状态s为输入,Q函数Q(s,a)是关于“状态-动作”对(s,a)的函数。对于自动驾驶决策问题而言,状态空间
Figure BDA0003069910440000076
和动作空间
Figure BDA0003069910440000077
是连续的,为了防止维数灾难,需要利用近似函数对策略函数和Q函数进行拟合近似。由于神经网络自身强大的拟合逼近能力,本实施例中选用神经网络对策略函数和Q函数进行近似,即:
π(·|s)≈π(·|s;θ)
Q(s,a)≈Q(s,a;ω) (14)
式(14)中的θ和ω分别代表策略网络和Q网络的网络参数,具体而言,策略网络π(·|s;θ)以s为输入并输出动作a的概率密度函数,简记作πθ(·|s)或πθ,Q网络Q(s,a;ω)以(s,a)为输入并输出其对应的Q值,简记作Qω(s,a)或Qω
本实施例中,输入策略网络与Q网络的状态s主要包括三部分:自车状态、跟踪状态以及周车状态,如表1所示。
表1
Figure BDA0003069910440000078
其中,跟踪状态为自车状态相对于目标参考轨迹的偏差。
步骤3,根据强化学习相关定义,本实施例中的目标函数为无穷时域累积衰减收益信号的期望,任务的目标是找到一个最优策略最大化目标函数:
Figure BDA0003069910440000081
服从于,
h(st+i)≤d,i∈{0,1,2,…,T} (16)
式(15)和(16)中,
Figure BDA0003069910440000082
为期望,γ∈[0,1)为权衡近期收益和未来收益相对重要性的折扣因子,d为安全约束的阈值,h(st)表示t时刻状态st的安全约束函数,
Figure BDA0003069910440000083
代表si服从于分布
Figure BDA0003069910440000084
其中,收益信号r(st,at)包含跟踪性能、燃油经济性能以及驾驶舒适性能等,可以根据任务要求灵活设计。定义策略评估模块的Q函数表示策略πθ下以状态s为起点,以a为初始动作的累计收益信号的期望值,和收益函数的关系满足:
Figure BDA0003069910440000085
则式(15)中的目标函数可以写作
Figure BDA0003069910440000086
此时,最优策略可以表示为:
Figure BDA0003069910440000087
式(19)中的Jπ(θ)为策略优化目标,因此Jπ(θ)通常被用来衡量策略的性能,Jπ(θ)越大,策略性能越好,反之则越差。
智能汽车在线训练过程中的安全约束目标包括不与其他交通参与者(如周围车辆、行人、非机动车等道路参与者)以及静态障碍物(如道路边界、护栏等)发生碰撞。即约束函数h(·)的个数取决于约束目标的个数,每个约束目标有不同的阈值,如图3所示,以车间安全距离约束为例。
Figure BDA0003069910440000088
式(20)中,#,■∈{front,rear},分别表示智能汽车前部和后部的碰撞圆圆心点,这里采用双圆法描述车辆的形状。x,y∈s,分别表示自车的横纵向位置的状态坐标,xi,yi分别表示第i辆周车的横纵向位置的状态坐标。此时,安全约束的阈值d满足。
Figure BDA0003069910440000089
式(21)的dsafe代表车间距离安全约束的最小值。
步骤4,数据存储模块的功能主要包含两个:
其一是用于储存探索得到的状态信息,具体指智能汽车使用当前策略驾驶时采集到的所有车辆数据,以数据对的形式存入数据缓存中。其基本存储单位为五元组(st,at,rt,st+1,dt),意义分别为:当前状态st,当前使用动作at,获得的收益信号rt,转移到的下一个状态st+1,以及判断车辆是否进入危险范围,即是否需要结束当前MDP过程的标志量dt(又写作done)。
其二是随机返回一批数据供后续模块学习。在数据缓存模块收集到指定量的数据后,随机返回一批数据给策略提升模块进行学习。数据存储模块有预先设置的存储数量上限,当储存数据对的数量达到了数据存储模块的上限时,采用“先进先出”的方式丢弃旧数据,以保证数据存储模块保存的是较新的数据。
步骤5,基于函数近似的强化学习方法通过对策略网络参数θ和策略评估网络Q网络的网络参数ω交替更新,逐步逼近最优策略。
在策略评估模块中,为了对Q网络Qω的参数ω进行更新,在标志量done没有结束当前MDP进程时,根据“状态-动作”的价值函数Q(s,a;ω)评估从步骤4中获得的批数据(st,at,rt,st+1,dt),获得策略评估网络更新的目标值yQ
yQ=rt(st,at)+γQ(st+1,at+1;ω) (22)
进一步得到更新参数ω的目标函数:
Figure BDA0003069910440000091
进一步得到Q网络Qω的更新梯度(即对参数ω的梯度)为:
Figure BDA0003069910440000092
在策略提升模块中,目标梯度模块计算π(·|s;θ)的更新目标为:
Figure BDA0003069910440000093
其中,策略π(·|st;θ)输出的是动作at的概率密度函数.同时,计算策略网络π(·|s;θ)的更新梯度:
Figure BDA0003069910440000094
式(26)中的∝表明log的底数不唯一,可根据计算要求而定。同时得到相应的近似“状态-动作”价值函数的策略梯度,用于确定策略优化的方向,并称式(26)为策略的“目标梯度”。
此时,策略提升模块中的模型预测模块,根据先验的车辆动力学模型以及周车行为模型对此批数据进行有限时域预测,计算未来时刻对应的约束函数值h(s)及约束函数的策略梯度,称该梯度为“约束梯度”,
Figure BDA0003069910440000095
其中,先验模型即为车辆运动的状态空间方程:
Figure BDA0003069910440000096
其中g包括自车和周车的预测模型,其形式包括但不限于解析函数、神经网络等,只要可以进行求导,即
Figure BDA0003069910440000101
Figure BDA0003069910440000102
可求即可。对于给定的预测时域Np,如图4所示,约束函数对策略参数θ的导数表示可以通过链式法则解析求出,其表示形式为:
Figure BDA0003069910440000103
定义如下等式:
Figure BDA0003069910440000104
可以得到:
Figure BDA0003069910440000105
即根据式(27)-(30),可以递推得到“约束梯度”
Figure BDA0003069910440000106
接着,该实施例策略提升模块中的安全约束投影模块,如图5所示,采用Rosen梯度投影法,将“目标梯度”投影到满足约束的可行区域的切面上,即“约束梯度”的零空间,并计算求得约束梯度的投影矩阵PT。此时,
Figure BDA0003069910440000107
表示第i辆周车的第j个约束的梯度,即:
Figure BDA0003069910440000108
定义投影矩阵PT为:
PT=I-MT(MMT)-1M (32)
式(32)中,
Figure BDA0003069910440000109
是“约束梯度”的矩阵,m表示周车数目,n表示一辆周车需要考虑的约束目标数目。其中,投影矩阵PT必须是正定的,并且它的投影能够沿着“约束梯度”的切线方向找到可行下降方向,给出可行区域的投影。实际上,矩阵(I-PT)可以将梯度投影到主动约束的法线上,这是进入可行域的最快方向。因此,如图5所示,梯度投影可以处理任意的初始策略,无论是可行的还是不可行的。另外,投影矩阵PT的维数是固定的,即“约束梯度”向量M的数量取决于约束的数量。
在训练策略网络πθ的参数θ时,使用可行梯度下降算法进行求解,具体方法是在自适应动量下降梯度的基础上利用“约束梯度”
Figure BDA00030699104400001010
确定的投影矩阵PT,使得“目标梯度”
Figure BDA00030699104400001011
满足安全性约束。投影矩阵PT的作用是将“目标梯度”
Figure BDA00030699104400001012
投影到满足约束的可行且安全的方向上,并保证每一步更新时约束目标不会变化太多,同时把超过可行域的部分投影回可行域内。
步骤6:利用步骤4和步骤5中的策略评估模块和策略提升模块对策略网络θ和Q网络参数ω进行交替迭代更新,从而得到近似最优策略
Figure BDA00030699104400001013
迭代过程主要包含如下两步:首先给定策略网络
Figure BDA00030699104400001014
利用式(24)求得Q网络的更新梯度
Figure BDA0003069910440000111
以梯度下降法为例,参数ω的更新规则为:
Figure BDA0003069910440000112
其中,βQ是Q网络的学习率。接着,基于
Figure BDA0003069910440000113
利用式(26)求得策略网络的更新梯度(或目标梯度)
Figure BDA0003069910440000114
和式(32)求得的投影矩阵PT。以梯度下降法为例,参数θ的考虑安全约束的更新规则为:
Figure BDA0003069910440000115
其中,βπ是策略网络的学习率。
步骤7:由于训练过程中的扰动等因素存在,基于策略π(s)产生的动作a=π(s)不一定能够完全近似该问题约束下的最优解,故而为确保绝对的安全,需要通过安全护盾模块的检验,输出最后的绝对安全动作,用于智能车辆执行:
Figure BDA0003069910440000116
Figure BDA0003069910440000117
其中,at为智能汽车控制环节最终执行的安全动作,例如方向盘转角、油门、刹车等车辆控制动作,
Figure BDA0003069910440000118
为安全动作集。
根据本发明实施例提出的约束型智能汽车自主决策系统在线训练方法,通过将先验模型预测步内的约束计算出合理的投影矩阵,并将目标函数的“目标梯度”投影到可行且安全的方向上,能够保证智能汽车在线训练过程的安全性。能够根据不同场景(或者任务的需求)对目标函数做出修改,例如跟踪性、经济性等,多维度综合优化智能汽车的在线训练过程。
其次参照附图描述根据本发明实施例提出的约束型智能汽车自主决策系统在线训练装置。
图6为根据本发明一个实施例的约束型智能汽车自主决策系统在线训练装置结构示意图。
如图6所示,该约束型智能汽车自主决策系统在线训练装置包括:数据存储模块601、策略评估模块602、目标梯度模块603、模型预测模块604、安全约束投影模块605和安全护盾模块606。
数据存储模块601,用于存储从智能汽车传感器上收集的向量级状态信息并为策略评估模块随机提供数据组。
策略评估模块602,用于利用获得的数据组来评估当前策略的价值,计算当前状态-动作的价值。
目标梯度模块603,用于计算得到的状态-动作价值的策略梯度,确定初始策略优化方向。
模型预测模块604,用于根据先验的车辆动力学模型以及周车行为模型进行有限时域预测,计算未来时刻的约束函数值和策略梯度,以保证未来策略优化方向的安全性。
安全约束投影模块605,用于根据确定的投影规则,将策略梯度更新方向投影至可行且安全的梯度方向,并进行策略网络与值网络的参数更新。
安全护盾模块606,用于对优化过的策略产生的动作信息进行检验。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的约束型智能汽车自主决策系统在线训练装置,通过将先验模型预测步内的约束计算出合理的投影矩阵,并将目标函数的“目标梯度”投影到可行且安全的方向上,能够保证智能汽车在线训练过程的安全性。能够根据不同场景(或者任务的需求)对目标函数做出修改,例如跟踪性、经济性等,多维度综合优化智能汽车的在线训练过程。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种约束型智能汽车自主决策系统在线训练方法,其特征在于,包括以下步骤:
S1,对策略网络和策略评估网络的参数进行初始化,分别选择所述策略网络和所述策略评估网络的学习率,开始马尔科夫决策进程;
S2,通过所述策略网络输出动作分布,并执行满足所述动作分布的动作,获取智能汽车与环境交互产生的数据组,将所述数据组进行存储,判断存储量是否达到预设阈值,在所述数据组的存储量达到预设阈值时,执行S3;
S3,随机在所述数据组中选取多组数据组,通过所述策略评估网络对选取数据组的状态-动作值进行估计;
S4,根据估计值计算所述策略评估网络的梯度,以及计算当前所述策略网络的目标梯度;
S5,根据先验模型和约束计算选取数据组的未来有限步状态,根据约束函数计算所述策略网络的约束梯度和对应的约束投影矩阵;
S6,通过所述目标梯度、所述约束投影矩阵以及所述策略网络和所述策略评估网络的学习率,更新所述策略网络和所述策略评估网络的参数;
S7,根据所述马尔科夫决策进程的标志量判断该进程是否结束,若是,则转S1,若不是,智能汽车根据更新后的所述策略网络的输出动作分布及满足该动作分布的动作,与环境进行交互,将交互得到的数据组进行存储,转S3。
2.根据权利要求1所述的方法,其特征在于,
所述先验模型和约束为:
Figure FDA0003547898530000011
h(st+i)≤d,i∈{0,1,2,…,T}
其中,收益函数r(s,a)代表任务的目标,γ为折扣因子,πθ为当前的参数化策略的概率密度函数,a为智能车辆实际执行的安全的确定性动作,
Figure FDA0003547898530000012
代表策略πθ或π(·|si;θ)下状态si的分布,
Figure FDA0003547898530000013
为期望,h(st+i)为状态st+i在t+i时刻的安全约束函数,d为安全约束阈值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述估计值计算所述策略评估网络的梯度为:
Figure FDA0003547898530000014
其中,yQ为目标函数值,Q(st,at;ω)为策略评估网络的输出近似值,ω为网络当前参数,
Figure FDA0003547898530000021
代表策略πθ下状态-动作对(st,at)的分布。
4.根据权利要求3所述的方法,其特征在于,所述当前所述策略网络的目标梯度为:
Figure FDA0003547898530000022
其中,∝表明log的底数不唯一。
5.根据权利要求4所述的方法,其特征在于,所述约束梯度为:
Figure FDA0003547898530000023
其中,
Figure FDA0003547898530000024
为第i辆周车的第j个约束的梯度。
6.根据权利要求4所述的方法,其特征在于,所述投影矩阵为:
PT=I-MT(MMT)-1M
其中,M为约束梯度矩阵,I为单位矩阵。
7.根据权利要求4所述的方法,其特征在于,更新所述策略网络和所述策略评估网络的参数的更新规则为:
Figure FDA0003547898530000025
Figure FDA0003547898530000026
其中,βQ是Q网络的学习率,βπ是策略网络的学习率,k为迭代计数。
8.根据权利要求1所述的方法,其特征在于,还包括:
对所述策略网络的输出动作分布以及满足所述动作分布的动作进行安全检验。
9.根据权利要求4所述的方法,其特征在于,S7进一步包括:
对所述策略网络的输出动作分布及满足该动作分布的动作进行安全检验后,得到智能汽车执行的绝对安全动作:
Figure FDA0003547898530000027
Figure FDA0003547898530000028
其中,at为智能汽车控制环节最终执行的安全动作,
Figure FDA0003547898530000029
为安全动作集。
10.一种约束型智能汽车自主决策系统在线训练装置,其特征在于,包括:
数据存储模块,用于存储从智能汽车传感器上收集的向量级状态信息并为策略评估模块随机提供数据组;
策略评估模块,用于利用获得的数据组来评估当前策略的价值,计算当前状态-动作的价值;
目标梯度模块,用于计算得到的状态-动作价值的策略梯度,确定初始策略优化方向;
模型预测模块,用于根据先验的车辆动力学模型以及周车行为模型进行有限时域预测,计算未来时刻的约束函数值和策略梯度,以保证未来策略优化方向的安全性;
安全约束投影模块,用于根据确定的投影规则,将策略梯度更新方向投影至可行且安全的梯度方向,并进行策略网络与值网络的参数更新;
安全护盾模块,用于对优化过的策略产生的动作信息进行检验。
CN202110536117.1A 2021-05-17 2021-05-17 约束型智能汽车自主决策系统在线训练方法及装置 Active CN113110359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110536117.1A CN113110359B (zh) 2021-05-17 2021-05-17 约束型智能汽车自主决策系统在线训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110536117.1A CN113110359B (zh) 2021-05-17 2021-05-17 约束型智能汽车自主决策系统在线训练方法及装置

Publications (2)

Publication Number Publication Date
CN113110359A CN113110359A (zh) 2021-07-13
CN113110359B true CN113110359B (zh) 2022-05-03

Family

ID=76722515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110536117.1A Active CN113110359B (zh) 2021-05-17 2021-05-17 约束型智能汽车自主决策系统在线训练方法及装置

Country Status (1)

Country Link
CN (1) CN113110359B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230143937A1 (en) * 2021-11-10 2023-05-11 International Business Machines Corporation Reinforcement learning with inductive logic programming
CN114084155B (zh) * 2021-11-15 2023-10-20 清华大学 预测型智能汽车决策控制方法、装置、车辆及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110535146B (zh) * 2019-08-27 2022-09-23 哈尔滨工业大学 基于深度确定策略梯度强化学习的电力系统无功优化方法
US11615293B2 (en) * 2019-09-23 2023-03-28 Adobe Inc. Reinforcement learning with a stochastic action set
CN110615003B (zh) * 2019-10-30 2020-09-18 吉林大学 基于策略梯度在线学习算法的巡航控制系统及设计方法
CN111934335B (zh) * 2020-08-18 2022-11-18 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法

Also Published As

Publication number Publication date
CN113110359A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN110297494B (zh) 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
US20230124864A1 (en) Graph Representation Querying of Machine Learning Models for Traffic or Safety Rules
CN113110359B (zh) 约束型智能汽车自主决策系统在线训练方法及装置
Ward et al. Probabilistic model for interaction aware planning in merge scenarios
Fukuyama Dynamic game-based approach for optimizing merging vehicle trajectories using time-expanded decision diagram
Jayawardana et al. Learning eco-driving strategies at signalized intersections
CN112406904B (zh) 自动驾驶策略的训练方法、自动驾驶方法、设备和车辆
Huang et al. Human-machine cooperative trajectory planning and tracking for safe automated driving
Chen et al. A hierarchical hybrid system of integrated longitudinal and lateral control for intelligent vehicles
CN111679660A (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN113511222A (zh) 场景自适应式车辆交互行为决策与预测方法及装置
Yavas et al. A new approach for tactical decision making in lane changing: Sample efficient deep Q learning with a safety feedback reward
CN114881339A (zh) 车辆轨迹预测方法、系统、计算机设备及存储介质
Wei et al. Game theoretic merging behavior control for autonomous vehicle at highway on-ramp
Coskun Autonomous overtaking in highways: A receding horizon trajectory generator with embedded safety feature
Hang et al. Conflict resolution for connected automated vehicles at unsignalized roundabouts considering personalized driving behaviours
CN115204455A (zh) 适用于高速与环路交通场景的长时域驾驶行为决策方法
Tran et al. Improved responsibility-sensitive safety algorithm through a partially observable Markov decision process framework for automated driving behavior at non-signalized intersection
Mirchevska et al. Optimizing trajectories for highway driving with offline reinforcement learning
CN114174935A (zh) 用于近似计算测试结果的子集的计算机实现的方法和测试单元
CN117032203A (zh) 基于svo的自动驾驶智能控制方法
CN114919578B (zh) 智能车行为决策方法、规划方法、系统及存储介质
CN113353102B (zh) 一种基于深度强化学习的无保护左转弯驾驶控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant