CN108819948B - 基于逆向强化学习的驾驶员行为建模方法 - Google Patents

基于逆向强化学习的驾驶员行为建模方法 Download PDF

Info

Publication number
CN108819948B
CN108819948B CN201810660203.1A CN201810660203A CN108819948B CN 108819948 B CN108819948 B CN 108819948B CN 201810660203 A CN201810660203 A CN 201810660203A CN 108819948 B CN108819948 B CN 108819948B
Authority
CN
China
Prior art keywords
driving
state
neural network
strategy
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810660203.1A
Other languages
English (en)
Other versions
CN108819948A (zh
Inventor
邹启杰
李昊宇
裴炳南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201810660203.1A priority Critical patent/CN108819948B/zh
Publication of CN108819948A publication Critical patent/CN108819948A/zh
Application granted granted Critical
Publication of CN108819948B publication Critical patent/CN108819948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W40/09Driving style or behaviour
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0029Mathematical model of the driver

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于逆向强化学习的驾驶员行为建模方法,具体包括如下步骤:S1,构建驾驶环境特征提取器,用于提取构建回报函数的特征;S2,构建回报函数生成器,用于驾驶策略的获取;S3,构建驾驶策略获取器,完成驾驶策略的构建;S4,判断获取器构建的最优驾驶策略,其是否满足评判标准;若不满足,则重复执行步骤S2重新构建回报函数,重复构建最优驾驶策略,反复迭代,直到满足评判标准;最终获得描述真实驾驶示范的驾驶策略。本申请可以对于新的状态场景进行适用,来获得其对应动作,大大提高了建立的驾驶员行为模型的泛化能力,适用场景更广,鲁棒性更强。

Description

基于逆向强化学习的驾驶员行为建模方法
技术领域
本发明涉及一种建模方法,具体说是一种基于逆向强化学习的驾驶员行为建模方法。
背景技术
自主驾驶作为智能交通领域的一个重要部分。受当前技术等原因,自主车依旧需要智能驾驶系统(智能辅助驾驶系统)和人类驾驶员相互协作以完成驾驶任务。而在这个过程中,无论是更好的量化驾驶员的信息以供智能系统决策,还是通过区分驾驶员的不同为人们提供个性化的服务,驾驶员建模都是必不可少的重要步骤。
在当前有关驾驶员建模的方法中,强化学习方法因为对于驾驶员在车辆驾驶这样具有大规模连续空间以及多个优化目标的复杂序贯决策问题,有着很好的解决效果,于是也是一种针对驾驶员行为建模有效的方法。强化学习作为基于MDP的问题解决方法,需要和环境交互,采取行动以获取来自环境的评价性质的反馈信号即回报(reward),并使长期的回报最大化。
通过对于现有文献的检索发现,现有的对于驾驶员行为建模中,对于回报函数的设置方法,主要包括:传统的由研究人员手动针对不同场景状态进行设置的方法,以及借助逆向强化学习的方法来设置的方法。传统的方法对于研究人员的主观性依赖极大,回报函数的好坏取决于研究人员的能力与经验。同时因为在车辆行驶过程中,为了正确的设置回报函数,需要平衡大量的决策变量,这些变量存在极大的不可共度性甚至矛盾性,而研究人员往往无法设计出来能够平衡各项需求的回报函数。
而逆向强化学习借助驾驶示范数据,为各类驾驶特征分配适合的权重,可以自动学习得到所需要的回报函数,进而解决了原有的人为决策的不足。但传统逆向强化学习方法,只能对于驾驶示范数据中已存在的场景状态进行学习,而实际驾驶的时候,因为天气、景物等因素的不同,真实驾驶场景往往超越驾驶示范范围。因而,逆向强化学习的方法解决将驾驶示范数据中场景和决策动作的关系表现出泛化能力不足的问题。
现有基于强化学习理论的驾驶员行为建模方法主要有两种思路:思路一,采用传统强化学习的方法,其回报函数的设置依赖研究人员对于场景的分析、整理、筛选和归纳,进而获得到一系列驾驶决策有关的特征,如:车前距、是否远离路缘、是否远离行人、合理速度、变道频率等;再根据驾驶场景需求,设计一系列的实验来求取这些特征在对应场景环境下的回报函数中的权重占比,最后完成对于回报函数的整体设计,而作为描述驾驶员驾驶行为的模型。思路二,基于概率模型建模方法,采用最大熵逆向强化学习求解驾驶行为特征函数。首先假定存在潜在的、特定的一个概率分布,产生了驾驶的示范轨迹;进而,需要来找到一个能够拟合驾驶示范的概率分布,而求取这个概率分布的问题可转化为非线性规划问题,即:
max-plogp
Figure BDA0001706546390000021
∑P=1
P代指的就是示范轨迹的概率分布,通过上面的式子求解得到概率分布后,由
Figure BDA0001706546390000022
求取得到相关参数,即可求得回报函数r=θTf(st)。
传统的驾驶员驾驶行为模型,利用已知驾驶数据分析、描述和推理驾驶行为,然而已采集的驾驶数据并不能完全覆盖无穷无尽的驾驶行为特征,更不可能获取全部状态对应动作的情况。在实际驾驶场景下,因为天气、场景、物体的不同,驾驶状态有着众多可能,遍历全部的状态是不可能的事情。因此传统驾驶员驾驶行为模型泛化能力弱,模型假设条件多,鲁棒性差。
其次,在实际的驾驶问题中,仅凭研究人员设置回报函数的方法,需要平衡太多对于各种特征的需求,完全依赖研究人员的经验设置,反复手动调解,耗时耗力,更致命的是过于主观。在不同场景和环境下,研究人员则需要面对太多的场景状态;同时,即使是针对某一个确定的场景状态,需求的不同,也会导致驾驶行为特征的变化。为了准确描述该驾驶任务就要分配一系列权重以准确描述这些因素。现有方法中,基于概率模型的逆向强化学习主要从现有的示范数据出发,把示范数据作为已有数据,进而寻求对应当前数据的分布情况,基于此才能求取对应状态下的动作选取。但已知数据的分布并不能表示全部数据的分布,正确获取分布,需要获取全部状态对应动作的情况。
发明内容
为解决驾驶员建模泛化性弱的问题,即现有技术中所存在的对于驾驶场景不在示范数据的情况下,无法建立对应的回报函数来进行驾驶员行为建模的技术问题,本申请提供了一种基于逆向强化学习的驾驶员行为建模方法,可以对于新的状态场景进行适用,来获得其对应动作,大大提高了建立的驾驶员行为模型的泛化能力,适用场景更广,鲁棒性更强。
为了实现上述目的,本发明方案的技术要点是:一种基于逆向强化学习的驾驶员行为建模方法,具体包括如下步骤:
S1,构建驾驶环境特征提取器,用于提取构建回报函数的特征;
S2,构建回报函数生成器,用于驾驶策略的获取;
S3,构建驾驶策略获取器,完成驾驶策略的构建;
S4,判断获取器构建的最优驾驶策略,其是否满足评判标准;若不满足,则重复执行步骤S2重新构建回报函数,重复构建最优驾驶策略,反复迭代,直到满足评判标准;最终获得描述真实驾驶示范的驾驶策略。
进一步地,步骤S1的具体实现过程是:
S11.在车辆行驶过程中,利用放在车辆挡风玻璃后面的摄像机对驾驶视频进行采样,获得N组不同车辆驾驶环境道路情况的图片;同时对应驾驶操作数据,即该道路环境下的转向角情况,联合构建起来训练数据;
S12.对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景;
S13.构建卷积神经网络,将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;
S14.将训练完成后的卷积神经网络的网络结构和权值保存,以建立新的一个卷积神经网络,完成状态特征提取器。
进一步地,步骤S13中建立的卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层;输入层依次连接第一个卷积层、第一个池化层,然后连接第二个卷积层、第二个池化层,再连接第三个卷积层、第三个池化层,最后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。
进一步地,步骤S14中的训练完成后的卷积神经网络不包括输出层。
进一步地,步骤S2的具体实现过程是:
S21.获得专家的驾驶示范数据:驾驶示范数据来自对于示范驾驶视频数据的采样提取,按照一定频率对一段连续的驾驶视频进行采样,得到一组轨迹示范;一个专家示范数据包括多条轨迹,总体记做:
DE={(s1,a1),(s2,a2),...,(sM,aM)}
Figure BDA0001706546390000031
其中DE表示整体的驾驶示范数据,(sj,aj)表示对应状态j和该状态对应决策指令构成的数据对,M代表总共的驾驶示范数据的个数,NT代表驾驶示范轨迹的数目,Li代表第i条驾驶示范轨迹中包含的状态-决策指令对(sj,aj)的个数;
S22.求取驾驶示范的特征期望值;
首先将驾驶示范数据DE中的各个描述驾驶环境情况的状态st输入S1中的状态特征提取器中,获得对应状态st下的特征情况f(st,at),f(st,at)代指一组对应st的影响驾驶决策结果的驾驶环境场景特征值,然后基于下述公式计算出来驾驶示范的特征期望值:
Figure BDA0001706546390000041
其中γ为折扣因子,根据问题的不同,对应进行设置。
S23.求取贪婪策略下的状态-动作集;
S24.求取回报函数的权值。
更进一步地,求取贪婪策略下的状态-动作集的具体步骤是:由于步骤S2与S3是循环的两部分;
首先,获取驾驶策略获取器中的神经网络:把驾驶示范数据DE提取得到的描述环境情况的状态特征f(st,at),输入神经网络,得到输出gw(st);gw(st)是关于描述状态st的一组Q值集合,即[Q(st,a1),...,Q(st,an)]T,而Q(st,ai)代表状态-动作值,用于描述在当前驾驶场景状态st下,选取决策驾驶动作ai的优劣,基于公式Q(s,a)=θ·μ(s,a)进行求得,该公式中的θ代指当前回报函数中的权值,μ(s,a)代指特征期望值。
然后基于ε-greedy策略,进行选取描述驾驶场景状态st对应的驾驶决策动作
Figure BDA0001706546390000042
选取关于当前驾驶场景st下的Q值集合中让Q值最大的决策动作
Figure BDA0001706546390000043
否则,则随机选取
Figure BDA0001706546390000044
选取完
Figure BDA0001706546390000045
之后,记录此时的
Figure BDA0001706546390000046
如此对于驾驶示范DE中的每个状态的状态特征f(st,at),输入该神经网络,共获取得到M个状态-动作对(st,at),其描述了t时刻的驾驶场景状态st下选取驾驶决策动作at;同时基于动作选取的情况,获取了M个对应状态-动作对的Q值,记做Q。
更进一步地,求取回报函数的权值具体步骤是:
首先基于下面公式,构建目标函数:
Figure BDA0001706546390000051
Figure BDA0001706546390000052
代表损失函数,即依据当前状态-动作对是否存在于驾驶示范之中,若存在则为0,否则为1;
Figure BDA0001706546390000053
为上面所记录的对应状态-动作值;
Figure BDA0001706546390000054
为S22中求取的驾驶示范特征期望和回报函数的权值θ的乘积;
Figure BDA0001706546390000055
为正则项;
借助梯度下降法最小化该目标函数,即t=minθJ(θ),获取令该目标函数最小化的变量θ,该θ即所求取的所需的回报函数的权值。
更进一步地,步骤S2的具体实现过程还包括:S25.基于获得的对应回报函数权值θ,根据公式r(s,a)=θTf(s,a)构建回报函数生成器。
作为更进一步地,步骤S3的具体实现过程为:
S31构建驾驶策略获取器的训练数据
获取训练数据,每个数据包括两部分:一个是将t时刻驾驶场景状态输入S1中的驾驶状态提取器得到的驾驶决策特征f(st,at),另一个就是基于下面公式得到的
Figure BDA0001706546390000056
Figure BDA0001706546390000057
其中,rθ(st,at)借助S2中的回报函数生成器基于驾驶示范数据生成的回报函数;Qπ(st,at)和Qπ(st+1,at+1)来自于S23中所记录的Q值,选取其中描述t时刻驾驶场景st的Q值和选取其中描述t+1时刻驾驶场景st+1的Q值;
S32.建立神经网络
神经网络包括三层,第一层作为输入层,其中的神经元个数和特征提取器的输出特征种类相同为k个,用于输入驾驶场景的特征f(st,at),第二层的隐层个数为10个,第三层的神经元个数和动作空间中进行决策的驾驶动作个数n相同;输入层和隐层的激活函数都为sigmoid函数,即
Figure BDA0001706546390000058
即有着:
z=w(1)x=w(1)[1,ft]T
h=sigmoid(z)
gw(st)=sigmoid(w(2)[1,h]T)
其中w(1)为隐层的权值;ft为t时刻驾驶场景的状态st的特征,也就是神经网络的输入;z为未经过隐层sigmoid激活函数时候的网络层输出;h为经过sigmoid激活函数后的隐层输出;w(2)为输出层的权值;
网络输出的gw(st)是t时刻驾驶场景状态st的Q集合,即[Q(st,a1),...,Q(st,an)]T,S31中的Qπ(st,at)就是将状态st输入神经网络,选择输出中的at项所得到;
S33.优化神经网络
对于该神经网络的优化,建立的损失函数是交叉熵代价函数,公式如下:
Figure BDA0001706546390000061
其中N代指训练数据的个数;Qπ(st,at)是将描述t时刻驾驶场景状态st输入神经网络,选择输出中的对应驾驶决策动作at项所得到的数值;
Figure BDA0001706546390000062
为S31中求得的数值;
Figure BDA0001706546390000063
是正则项,其中的W={w(1),w(2)}代指上面神经网络中权值;
将S31中获取的训练数据,输入该神经网络优化代价函数;借助梯度下降法完成对于该交叉熵代价函数的最小化,得到的优化完成的神经网络,进而得到驾驶策略获取器。
作为更进一步地,步骤S4具体实现过程包括:
S4.将当前的S2的回报函数生成器和S3的驾驶策略获取器看做一个整体,查看当前S22中的t值,是否满足t<ε,ε为评判目标函数是否满足需求的阈值,也就是判断当前用于获取驾驶策略的回报函数是否满足要求;其数值根据具体需要进行不同的设置;
当t的数值,不满足该公式时;需要重新构建S2中的回报函数生成器,此时需要将当前S23中需要的神经网络替换成S33中已经经过优化过后的新的神经网络,即将用于生成描述在驾驶场景状态st下,选取的决策驾驶动作ai优劣的Q(st,ai)值的网络,替换成S33中经过梯度下降方法进行优化过的新的网络结构;然后重新进行S2、S3的步骤:构架回报函数生成器、得到驾驶策略获取器,再次判断t的数值是否满足需求;
当满足该公式时,当前的θ就是所需的回报函数的权值;S2的回报函数生成器则满足要求,S3中的驾驶策略获取器也满足要求;于是采集需要建立驾驶员模型的某驾驶员的驾驶数据,即驾驶过程中的环境场景图像和对应的操作数据,输入驾驶环境特征提取器,得到对于当前场景的决策特征;然后将提取得到的特征输入回报函数生成器,得到对应场景状态的回报函数;然后把采集的决策特征和计算得到的回报函数输入驾驶策略获取器,得到该驾驶员对应的驾驶策略。
本发明与现有技术相比有益效果在于:本发明中用于描述驾驶员决策,建立驾驶员行为模型的方法,因采用神经网络来描述策略,在神经网络参数确定的时候,状态和动作一一对应,于是对于状态-动作对可能的情况不再受限于示范轨迹。于是在实际的驾驶情况中,因为天气、景物等原因导致的多样的驾驶场景对应的大状态空间,借助于神经网络优秀的近似表达任意函数的能力,近似的可将这一种策略表达看作黑箱:通过输入状态的特征值,输出对应的状态-动作值,同时进一步的根据输出值的情况来选取动作,以获得对应动作。从而使借助逆向强化学习来对于驾驶员行为建模的适用性大大增强,传统方法因试图借助某一概率分布来拟合到示范轨迹,因而获得的最优策略依旧受限于示范轨迹中的已有的状态情况,而本发明可以对于新的状态场景进行适用,来获得其对应动作,大大提高了建立的驾驶员行为模型的泛化能力,适用场景更广,鲁棒性更强。
附图说明
图1为新的深度卷积神经网络;
图2为驾驶视频采样图;
图3为本方法流程框图;
图4为步骤S32中建立神经网络结构图。
具体实施方式
下面将结合说明书附图,对本发明作进一步说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本实施例提供一种基于逆向强化学习的驾驶员行为建模方法,具体包括如下步骤:
S1.构建驾驶环境特征提取器,包括以下具体步骤:
S11.对车辆行驶过程中,利用放在车的挡风玻璃后面的摄像机得到的驾驶视频进行采样,采样图如图2所示。
获得N组不同车辆驾驶道路环境道路情况的图片和对应的转向角情况。包括N1张直道和N2张弯道,N1、N2的取值可以为N1>=300,N2>=3000,同时对应驾驶操作数据,联合构建起来训练数据。
S12.对收集来的图像进行相关的平移、裁剪、变更亮度等操作,以模拟不同光照和天气的场景。
S13.构建卷积神经网络,将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练;采用基于Nadam优化器的优化方法来对均方误差损失求最优解来优化神经网络的权重参数。
卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层。输入层依次连接第一个卷积层、第一个池化层,然后连接第二个卷积层、第二个池化层,再连接第三个卷积层、第三个池化层,然后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。
S14.将训练完成后的卷积神经网络的除最后输出层之外的网络结构和权值保存,以建立新的一个卷积神经网络,完成状态特征提取器。
S2.构建回报函数生成器
回报函数作为强化学习方法中动作选取的标准,在驾驶策略的获取过程,回报函数的好坏起到了决定性的作用,其直接决定了获取的驾驶策略的优劣,以及获得的策略是否和真实的驾驶示范数据对应的策略相同。回报函数的公式为reward=θTf(st,at),f(st,at)代指对应驾驶环境场景「车辆周围环境」下的t时刻状态st的一组影响驾驶决策结果的特征值,用于描述车辆周围环境场景情况。而θ代指对应影响驾驶决策的特征的一组权值,权值的数值说明了对应的环境特征在回报函数中所占的比重,体现了重要性。在S1的状态特征提取器的基础上,需要求解这一权值θ,从而来构建影响驾驶策略的回报函数。
S21.获得专家的驾驶示范数据
驾驶示范数据来自对于示范驾驶视频数据的采样提取(和之前驾驶环境特征提取器所用数据不同),可以按照10hz的频率对一段连续的驾驶视频进行采样,得到一组轨迹示范。一个专家示范应具有多条轨迹。总体记做:DE={(s1,a1),(s2,a2),...,(sM,aM)}
Figure BDA0001706546390000081
其中DE表示整体的驾驶示范数据,(sj,aj)表示对应状态j(采样的时间j的驾驶环境的视频图片)和该状态对应决策指令(如转向指令中的转向角度)构成的数据对,M代表总共的驾驶示范数据的个数,NT代表驾驶示范轨迹的数目,Li代表第i条驾驶示范轨迹中包含的状态-决策指令对(sj,aj)的个数
S22.求取驾驶示范的特征期望
首先将驾驶示范数据DE中的各个描述驾驶环境情况的状态st输入S1中的状态特征提取器,获得对应状态st下的特征情况f(st,at),f(st,at)代指一组对应st的影响驾驶决策结果的驾驶环境场景的特征值,然后基于下述公式计算出来驾驶示范的特征期望:
Figure BDA0001706546390000091
其中γ为折扣因子,根据问题的不同,对应进行设置,参考数值可设为0.65。
S23.求取贪婪策略下的状态-动作集
首先,获取S32中的驾驶策略获取器中的神经网络。(因S2和S3是一个循环中的两部分,最开始的时候神经网络是S32中刚刚初始化的神经网络。随着循环的进行,循环中的每一步都是:在S2中完成一次影响驾驶决策的回报函数的构建,然后基于当前回报函数在S3中获取对应的最优驾驶策略,判断是否满足结束循环的标准,若不满足,则将当前S34中的经过优化过的神经网络放入S2中重新构建回报函数)
把驾驶示范数据DE提取得到的描述环境情况的状态特征f(st,at),输入神经网络,得到输出gw(st);gw(st)是关于描述状态st的一组Q值集合,即[Q(st,a1),...,Q(st,an)]T,而Q(st,ai)代表状态-动作值,用于描述在当前驾驶场景状态st下,选取决策驾驶动作ai的优劣,可基于公式Q(s,a)=θ·μ(s,a)进行求得,该公式中的θ代指的当前回报函数中的权值,μ(s,a)代指特征期望。
然后基于ε-greedy策略,假如设置ε为0.5,进行选取描述驾驶场景状态st对应的驾驶决策动作
Figure BDA0001706546390000092
也就是说有百分之五十的可能性,选取关于当前驾驶场景st下的Q值集合中让Q值最大的决策动作
Figure BDA0001706546390000093
否则,则随机选取
Figure BDA0001706546390000094
选取完
Figure BDA0001706546390000095
之后,记录此时的
Figure BDA0001706546390000096
如此对于驾驶示范DE中的每个状态的状态特征f(st,at),输入该神经网络,共获取得到M个状态-动作对(st,at)其描述了t时刻的驾驶场景状态st下选取驾驶决策动作at。同时基于动作选取的情况,获取了M个对应状态-动作对的Q值,记做Q。
S24.求取回报函数的权值
首先基于下面公式,构建目标函数:
Figure BDA0001706546390000097
Figure BDA0001706546390000101
代表着损失函数,即依据当前状态-动作对是否存在于驾驶示范之中,若存在则为0,否则为1。
Figure BDA0001706546390000102
为上面所记录的对应状态-动作值。
Figure BDA0001706546390000103
为S22中求取的驾驶示范特征期望和回报函数的权值θ的乘积。
Figure BDA0001706546390000104
为正则项,以防过拟合问题的出现,该γ可以为0.9。
借助梯度下降法最小化该目标函数,即t=minθJ(θ),获取令该目标函数最小化的变量θ,该θ即所求取的所需的回报函数的权值。
S25.基于获得的对应回报函数权值θ,根据公式r(s,a)=θTf(s,a)构建回报函数生成器。
S3.构建驾驶策略获取器
S31驾驶策略获取器的训练数据的构建
获取训练数据。数据来自于对之前的示范数据的采样,但需要进行处理得到一组新的类型的数据共计N个。数据中每个数据包括两部分:一个是将t时刻驾驶场景状态输入S1中的驾驶状态提取器得到的驾驶决策特征f(st),另一个就是基于下面公式得到的
Figure BDA0001706546390000105
Figure BDA0001706546390000106
该公式中包含参数rθ(st,at)借助S2中的回报函数生成器基于驾驶示范数据生成的回报函数。Qπ(st,at)和Qπ(st+1,at+1)来自于S23中所记录的那组Q值Q,选取其中描述t时刻驾驶场景st的Q值和选取其中描述t+1时刻驾驶场景st+1的Q值。
S32.建立神经网络
神经网络包括三层,第一层作为输入层,其中的神经元个数和特征提取器的输出特征种类相同为k个,用于输入驾驶场景的特征f(st,at),第二层的隐层个数为10个,第三层的神经元个数和动作空间中进行决策的驾驶动作个数n一样的个数;输入层和隐层的激活函数都为sigmoid函数,即
Figure BDA0001706546390000107
即有着:
z=w(1)x=w(1)[1,ft]T
h=sigmoid(z)
gw(st)=sigmoid(w(2)[1,h]T)
其中w(1)代指隐层的权值;ft代指t时刻驾驶场景的状态st的特征,也就是神经网络的输入;z代指未经过隐层sigmoid激活函数时候的网络层的输出;h代指经过sigmoid激活函数后的隐层输出;w(2)代指输出层的权值;网络结构如图3:
网络输出的gw(st)是t时刻驾驶场景状态st的Q集合,即[Q(st,a1),...,Q(st,an)]T,S31中的Qπ(st,at)就是将状态st输入神经网络,选择输出中的at项所得到。
S33.优化神经网络
对于该神经网络的优化,建立的损失函数是交叉熵代价函数,公式如下:
Figure BDA0001706546390000111
其中N代指训练数据的个数。Qπ(st,at)就是将描述t时刻驾驶场景状态st输入神经网络,选择输出中的对应驾驶决策动作at项所得到的数值。
Figure BDA0001706546390000112
为S31中求得的数值。
Figure BDA0001706546390000113
同样是正则项,防止过拟合而设置的。该γ也可以为0.9。其中的W={w(1),w(2)}代指上面神经网络中权值。
将S31中获取的训练数据,输入该神经网络优化代价函数。借助梯度下降法完成对于该交叉熵代价函数的最小化,得到的优化完成的神经网络,得到驾驶策略获取器。
S4.将当前的S2的回报函数生成器和S3的驾驶策略获取器看做一个整体,查看当前S22中的t值,是否满足t<ε,ε为评判目标函数是否满足需求的阈值,也就是判断当前用于获取驾驶策略的回报函数是否满足要求。其数值根据具体需要进行不同的设置。
当t的数值,不满足该公式的时候。需要重新构建S2中的回报函数生成器,此时需要将当前S23中需要的神经网络替换成S33中已经经过优化过后的新的神经网络,即将用于生成描述在驾驶场景状态st下,选取的决策驾驶动作ai优劣的Q(st,ai)值的网络,替换成S33中经过梯度下降方法进行优化过的新的网络结构。然后重新进行S2、S3的步骤:构架回报函数生成器、得到驾驶策略获取器,再次判断t的数值是否满足需求。
当满足该公式的时候,当前的θ就是所需的回报函数的权值。S2的回报函数生成器则满足要求,S3中的驾驶策略获取器也满足要求。于是可以:采集需要建立驾驶员模型的某驾驶员的驾驶数据,即驾驶过程中的环境场景图像和对应的操作数据,如驾驶转向角。输入驾驶环境特征提取器,得到对于当前场景的决策特征。然后将提取得到的特征输入回报函数生成器,得到对应场景状态的回报函数。然后把采集的决策特征和计算得到的回报函数输入驾驶策略获取器,得到该驾驶员对应的驾驶策略。
在马尔科夫决策过程中,一种策略需要连接状态到其对应的动作。但对于一个有着大范围的状态空间的时候,对于未遍历的区域,很难描述出来一个确定的策略表示,传统方法之中也忽略了对这部分的描述,仅仅是基于示范轨迹,来说明整个轨迹分布的概率模型,对于新的状态并没有给出具体的策略表示,即对于新状态采取确定动作的可能性并未给出具体的方法。本发明中借助神经网络对于策略进行描述,神经网络因其能够在任何精确度上近似表示任意函数的特性,同时有着优秀的泛化能力。借助状态特征的表示,一方面可以表示出那些不包含在示范轨迹中的状态,另外,借助将对应的状态特征输入神经网络。可以求取对应的动作值,从而依策略求取应得的动作,因而,传统方法无法泛化驾驶示范数据到未遍历驾驶场景状态问题得以解决。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (8)

1.一种基于逆向强化学习的驾驶员行为建模方法,其特征在于,具体包括如下步骤:
S1,构建驾驶环境特征提取器,用于提取构建回报函数的特征;
S2,构建回报函数生成器,用于驾驶策略的获取;
S3,构建驾驶策略获取器,完成驾驶策略的构建;
S4,判断获取器构建的最优驾驶策略,其是否满足评判标准;若不满足,则重复执行步骤S2重新构建回报函数,重复构建最优驾驶策略,反复迭代,直到满足评判标准;最终获得描述真实驾驶示范的驾驶策略;
步骤S1的具体实现过程是:
S11.在车辆行驶过程中,利用放在车辆挡风玻璃后面的摄像机对驾驶视频进行采样,获得N组不同车辆驾驶环境道路情况的图片;同时对应驾驶操作数据,即该道路环境下的转向角情况,联合构建起来训练数据;
S12.对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景;
S13.构建卷积神经网络,将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;
S14.将训练完成后的卷积神经网络的网络结构和权值保存,以建立新的一个卷积神经网络,完成状态特征提取器;
步骤S2的具体实现过程是:
S21.获得专家的驾驶示范数据:驾驶示范数据来自对于示范驾驶视频数据的采样提取,按照一定频率对一段连续的驾驶视频进行采样,得到一组轨迹示范;一个专家示范数据包括多条轨迹,总体记做:
Figure FDA0002385383490000011
其中DE表示整体的驾驶示范数据,(sj,aj)表示对应状态j和该状态对应决策指令构成的数据对,M代表总共的驾驶示范数据的个数,NT代表各条驾驶示范轨迹,Li代表第i条驾驶示范轨迹中包含的状态-决策指令对(sj,aj)的个数;
S22.求取驾驶示范的特征期望值;
首先将驾驶示范数据DE中的各个描述驾驶环境情况的状态st输入S1中的状态特征提取器中,获得对应状态st下的特征情况f(st,at),f(st,at)代指一组对应st的影响驾驶决策结果的驾驶环境场景特征值,然后基于下述公式计算出来驾驶示范的特征期望值:
Figure FDA0002385383490000021
其中γ为折扣因子,根据问题的不同,对应进行设置;
S23.求取贪婪策略下的状态-动作集;
S24.求取回报函数的权值。
2.根据权利要求1所述一种基于逆向强化学习的驾驶员行为建模方法,其特征在于,步骤S13中建立的卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层;输入层依次连接第一个卷积层、第一个池化层,然后连接第二个卷积层、第二个池化层,再连接第三个卷积层、第三个池化层,最后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。
3.根据权利要求1所述一种基于逆向强化学习的驾驶员行为建模方法,其特征在于,步骤S14中的训练完成后的卷积神经网络不包括输出层。
4.根据权利要求1所述一种基于逆向强化学习的驾驶员行为建模方法,其特征在于,求取贪婪策略下的状态-动作集的具体步骤是:由于步骤S2与S3是循环的两部分;
首先,获取驾驶策略获取器中的神经网络:把驾驶示范数据DE提取得到的描述环境情况的状态特征f(st,at),输入神经网络,得到输出gw(st);gw(st)是关于描述状态st的一组Q值集合,即[Q(st,a1),...,Q(st,an)]T,而Q(st,ai)代表状态-动作值,用于描述在当前驾驶场景状态st下,选取决策驾驶动作ai的优劣,基于公式Q(s,a)=θ·μ(s,a)进行求得,该公式中的θ代指当前回报函数中的权值,μ(s,a)代指特征期望值;
然后基于ε-greedy策略,进行选取描述驾驶场景状态st对应的驾驶决策动作
Figure FDA0002385383490000022
选取关于当前驾驶场景st下的Q值集合中让Q值最大的决策动作
Figure FDA0002385383490000023
否则,则随机选取
Figure FDA0002385383490000024
选取完
Figure FDA0002385383490000025
之后,记录此时的
Figure FDA0002385383490000026
如此对于驾驶示范DE中的每个状态的状态特征f(st,at),输入该神经网络,共获取得到M个状态-动作对(st,at),其描述了t时刻的驾驶场景状态st下选取驾驶决策动作at;同时基于动作选取的情况,获取了M个对应状态-动作对的Q值,记做Q。
5.根据权利要求1所述一种基于逆向强化学习的驾驶员行为建模方法,其特征在于,求取回报函数的权值具体步骤是:
首先基于下面公式,构建目标函数:
Figure FDA0002385383490000031
Figure FDA0002385383490000032
代表损失函数,即依据当前状态-动作对是否存在于驾驶示范之中,若存在则为0,否则为1;
Figure FDA0002385383490000033
为上面所记录的对应状态-动作值;
Figure FDA0002385383490000034
为S22中求取的驾驶示范特征期望和回报函数的权值θ的乘积;
Figure FDA0002385383490000035
为正则项;
借助梯度下降法最小化该目标函数,即t=minθJ(θ),获取令该目标函数最小化的变量θ,该θ即所求取的所需的回报函数的权值。
6.根据权利要求1所述一种基于逆向强化学习的驾驶员行为建模方法,其特征在于,步骤S2的具体实现过程还包括:S25.基于获得的对应回报函数权值θ,根据公式r(s,a)=θTf(s,a)构建回报函数生成器。
7.根据权利要求1所述一种基于逆向强化学习的驾驶员行为建模方法,其特征在于,步骤S3的具体实现过程为:
S31构建驾驶策略获取器的训练数据
获取训练数据,每个数据包括两部分:一个是将t时刻驾驶场景状态输入S1中的驾驶状态提取器得到的驾驶决策特征f(st,at),另一个就是基于下面公式得到的
Figure FDA0002385383490000036
Figure FDA0002385383490000037
其中,rθ(st,at)借助S2中的回报函数生成器基于驾驶示范数据生成的回报函数;Qπ(st,at)和Qπ(st+1,at+1)来自于S23中所记录的Q值,选取其中描述t时刻驾驶场景st的Q值和选取其中描述t+1时刻驾驶场景st+1的Q值;
S32.建立神经网络
神经网络包括三层,第一层作为输入层,其中的神经元个数和特征提取器的输出特征种类相同为k个,用于输入驾驶场景的特征f(st,at),第二层的隐层个数为10个,第三层的神经元个数和动作空间中进行决策的驾驶动作个数n相同;输入层和隐层的激活函数都为sigmoid函数,即
Figure FDA0002385383490000041
即有着:
z=w(1)x=w(1)[1,ft]T
h=sigmoid(z)
gw(st)=sigmoid(w(2)[1,h]T)
其中w(1)为隐层的权值;ft为t时刻驾驶场景的状态st的特征,也就是神经网络的输入;z为未经过隐层sigmoid激活函数时候的网络层输出;h为经过sigmoid激活函数后的隐层输出;w(2)为输出层的权值;
网络输出的gw(st)是t时刻驾驶场景状态st的Q集合,即[Q(st,a1),...,Q(st,an)]T,S31中的Qπ(st,at)就是将状态st输入神经网络,选择输出中的at项所得到;
S33.优化神经网络
对于该神经网络的优化,建立的损失函数是交叉熵代价函数,公式如下:
Figure FDA0002385383490000042
其中N代指训练数据的个数;Qπ(st,at)是将描述t时刻驾驶场景状态st输入神经网络,选择输出中的对应驾驶决策动作at项所得到的数值;
Figure FDA0002385383490000043
为S31中求得的数值;
Figure FDA0002385383490000044
是正则项,其中的W={w(1),w(2)}代指上面神经网络中权值;
将S31中获取的训练数据,输入该神经网络优化代价函数;借助梯度下降法完成对于该交叉熵代价函数的最小化,得到的优化完成的神经网络,进而得到驾驶策略获取器。
8.根据权利要求5所述一种基于逆向强化学习的驾驶员行为建模方法,其特征在于,步骤S4具体实现过程包括:
S4.将当前的S2的回报函数生成器和S3的驾驶策略获取器看做一个整体,查看t值是否满足t<ε,ε为评判目标函数是否满足需求的阈值,也就是判断当前用于获取驾驶策略的回报函数是否满足要求;其数值根据具体需要进行不同的设置;
当t的数值,不满足该公式时;需要重新构建S2中的回报函数生成器,此时需要将当前S23中需要的神经网络替换成S33中已经经过优化过后的新的神经网络,即将用于生成描述在驾驶场景状态st下,选取的决策驾驶动作ai优劣的Q(st,ai)值的网络,替换成S33中经过梯度下降方法进行优化过的新的网络结构;然后重新进行S2、S3的步骤:构架回报函数生成器、得到驾驶策略获取器,再次判断t的数值是否满足需求;
当满足该公式时,当前的θ就是所需的回报函数的权值;S2的回报函数生成器则满足要求,S3中的驾驶策略获取器也满足要求;于是采集需要建立驾驶员模型的某驾驶员的驾驶数据,即驾驶过程中的环境场景图像和对应的操作数据,输入驾驶环境特征提取器,得到对于当前场景的决策特征;然后将提取得到的特征输入回报函数生成器,得到对应场景状态的回报函数;然后把采集的决策特征和计算得到的回报函数输入驾驶策略获取器,得到该驾驶员对应的驾驶策略。
CN201810660203.1A 2018-06-25 2018-06-25 基于逆向强化学习的驾驶员行为建模方法 Active CN108819948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810660203.1A CN108819948B (zh) 2018-06-25 2018-06-25 基于逆向强化学习的驾驶员行为建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810660203.1A CN108819948B (zh) 2018-06-25 2018-06-25 基于逆向强化学习的驾驶员行为建模方法

Publications (2)

Publication Number Publication Date
CN108819948A CN108819948A (zh) 2018-11-16
CN108819948B true CN108819948B (zh) 2020-05-19

Family

ID=64138475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810660203.1A Active CN108819948B (zh) 2018-06-25 2018-06-25 基于逆向强化学习的驾驶员行为建模方法

Country Status (1)

Country Link
CN (1) CN108819948B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109839937B (zh) * 2019-03-12 2023-04-07 百度在线网络技术(北京)有限公司 确定车辆自动驾驶规划策略的方法、装置、计算机设备
CN110083165B (zh) * 2019-05-21 2022-03-08 大连大学 一种机器人在复杂狭窄环境下路径规划方法
CN110321811B (zh) * 2019-06-17 2023-05-02 中国工程物理研究院电子工程研究所 深度逆强化学习的无人机航拍视频中的目标检测方法
CN110497914B (zh) * 2019-08-26 2020-10-30 格物汽车科技(苏州)有限公司 自动驾驶的驾驶员行为模型开发方法、设备和存储介质
CN110568760B (zh) * 2019-10-08 2021-07-02 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN111310915B (zh) * 2020-01-21 2023-09-01 浙江工业大学 一种面向强化学习的数据异常检测防御方法
CN111415198B (zh) * 2020-03-19 2023-04-28 桂林电子科技大学 一种基于逆向强化学习的游客行为偏好建模方法
US11656627B2 (en) * 2020-03-23 2023-05-23 Baidu Usa Llc Open space path planning using inverse reinforcement learning
CN111731326B (zh) * 2020-07-02 2022-06-21 知行汽车科技(苏州)有限公司 避障策略确定方法、装置及存储介质
CN112046489B (zh) * 2020-08-31 2021-03-16 吉林大学 一种基于因子分析和机器学习的驾驶风格辨识算法
CN112373482B (zh) * 2020-11-23 2021-11-05 浙江天行健智能科技有限公司 一种基于驾驶模拟器的驾驶习惯建模方法
CN113110478A (zh) * 2021-04-27 2021-07-13 广东工业大学 一种多机器人运动规划的方法、系统及存储介质
CN114261400B (zh) * 2022-01-07 2024-06-14 京东鲲鹏(江苏)科技有限公司 一种自动驾驶决策方法、装置、设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103381826B (zh) * 2013-07-31 2016-03-09 中国人民解放军国防科学技术大学 基于近似策略迭代的自适应巡航控制方法
CN105955930A (zh) * 2016-05-06 2016-09-21 天津科技大学 引导型策略搜索强化学习算法
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
CN107229973B (zh) * 2017-05-12 2021-11-19 中国科学院深圳先进技术研究院 一种用于车辆自动驾驶的策略网络模型的生成方法及装置
CN107203134B (zh) * 2017-06-02 2020-08-18 浙江零跑科技有限公司 一种基于深度卷积神经网络的前车跟随方法
CN107679557B (zh) * 2017-09-19 2020-11-27 平安科技(深圳)有限公司 驾驶模型训练方法、驾驶人识别方法、装置、设备及介质
CN108108657B (zh) * 2017-11-16 2020-10-30 浙江工业大学 基于多任务深度学习的修正局部敏感哈希车辆检索方法

Also Published As

Publication number Publication date
CN108819948A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108819948B (zh) 基于逆向强化学习的驾驶员行为建模方法
CN108791302B (zh) 驾驶员行为建模系统
CN108920805B (zh) 具有状态特征提取功能的驾驶员行为建模系统
US11062617B2 (en) Training system for autonomous driving control policy
CN111079561B (zh) 一种基于虚拟训练的机器人智能抓取方法
CN109131348B (zh) 一种基于生成式对抗网络的智能车驾驶决策方法
CN110874578B (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
US20180157972A1 (en) Partially shared neural networks for multiple tasks
CN108891421B (zh) 一种构建驾驶策略的方法
CN111246091B (zh) 一种动态自动曝光控制方法和装置及电子设备
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
CN110281949B (zh) 一种自动驾驶统一分层决策方法
CN112550314B (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN108944940B (zh) 基于神经网络的驾驶员行为建模方法
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
Farag Cloning safe driving behavior for self-driving cars using convolutional neural networks
Babiker et al. Convolutional neural network for a self-driving car in a virtual environment
Farag Safe-driving cloning by deep learning for autonomous cars
CN113869170B (zh) 一种基于图划分卷积神经网络的行人轨迹预测方法
CN115376103A (zh) 一种基于时空图注意力网络的行人轨迹预测方法
CN117406762A (zh) 一种基于分段式强化学习的无人机远程控制算法
Zhong et al. Behavior prediction for unmanned driving based on dual fusions of feature and decision
CN117709602B (zh) 一种基于社会价值取向的城市智能车辆拟人化决策方法
Meftah et al. A virtual simulation environment using deep learning for autonomous vehicles obstacle avoidance
CN112947466B (zh) 一种面向自动驾驶的平行规划方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181116

Assignee: Dalian Big Data Industry Development Research Institute Co.,Ltd.

Assignor: DALIAN University

Contract record no.: X2023210000224

Denomination of invention: A Driver Behavior Modeling Method Based on Reverse Reinforcement Learning

Granted publication date: 20200519

License type: Common License

Record date: 20231129

OL01 Intention to license declared
OL01 Intention to license declared
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181116

Assignee: Dalian Hengxing Information Technology Co.,Ltd.

Assignor: DALIAN University

Contract record no.: X2024210000035

Denomination of invention: Driver behavior modeling method based on reverse reinforcement learning

Granted publication date: 20200519

License type: Common License

Record date: 20240702