CN108944940B - 基于神经网络的驾驶员行为建模方法 - Google Patents

基于神经网络的驾驶员行为建模方法 Download PDF

Info

Publication number
CN108944940B
CN108944940B CN201810662026.0A CN201810662026A CN108944940B CN 108944940 B CN108944940 B CN 108944940B CN 201810662026 A CN201810662026 A CN 201810662026A CN 108944940 B CN108944940 B CN 108944940B
Authority
CN
China
Prior art keywords
driving
neural network
state
layer
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810662026.0A
Other languages
English (en)
Other versions
CN108944940A (zh
Inventor
邹启杰
李昊宇
裴炳南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201810662026.0A priority Critical patent/CN108944940B/zh
Publication of CN108944940A publication Critical patent/CN108944940A/zh
Application granted granted Critical
Publication of CN108944940B publication Critical patent/CN108944940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W40/09Driving style or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/043Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Mathematics (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明公开了一种基于神经网络的驾驶员行为建模方法,包括:特征提取器,提取构建回报函数特征;回报函数生成器,获取构建驾驶策略所需的回报函数;之后的驾驶策略获取器采用神经网络的方法来搭建,输入来自回报函数生成器的回报函数以及来自特征提取器的状态特征,通过优化最终得到生成驾驶策略的驾驶策略获取器。

Description

基于神经网络的驾驶员行为建模方法
技术领域
本发明涉及一种建模方法,具体说是一种基于神经网络的驾驶员行为建模方法。
背景技术
现有基于强化学习理论的驾驶员行为建模方法主要有两种思路:思路一,采用传统强化学习的方法,其回报函数的设置依赖研究人员对于场景的分析、整理、筛选和归纳,进而获得到一系列驾驶决策有关的特征,如:车前距、是否远离路缘、是否远离行人、合理速度、变道频率等;再根据驾驶场景需求,设计一系列的实验来求取这些特征在对应场景环境下的回报函数中的权重占比,最后完成对于回报函数的整体设计,而作为描述驾驶员驾驶行为的模型。思路二,基于概率模型建模方法,采用最大熵逆向强化学习求解驾驶行为特征函数。首先假定存在潜在的、特定的一个概率分布,产生了驾驶的示范轨迹;进而,需要来找到一个能够拟合驾驶示范的概率分布,而求取这个概率分布的问题可转化为非线性规划问题,即:
max-p log p
Figure BDA0001706981620000011
∑P=1
P代指的就是示范轨迹的概率分布,通过上面的式子求解得到概率分布后,由
Figure BDA0001706981620000012
求取得到相关参数,即可求得回报函数r=θTf(st)。
传统的驾驶员驾驶行为模型,利用已知驾驶数据分析、描述和推理驾驶行为,然而以采集的驾驶数据并不能完全覆盖无穷无尽的驾驶行为特征,更不可能获取全部状态对应动作的情况。在实际驾驶场景下,因为天气、场景、物体的不同,驾驶状态有着众多可能,遍历全部的状态是不可能的事情。因此传统驾驶员驾驶行为模型泛化能力弱,模型假设条件多,鲁棒性差。
其次,在实际的驾驶问题中,仅凭研究人员设置回报函数的方法,需要平衡太多对于各种特征的需求,只依赖研究人员的经验设置,反复手动调解,耗时耗力,更致命的是过于主观。在不同场景和环境下,研究人员则需要面对太多的场景状态;同时,即使是针对某一个确定的场景状态,需求的不同,也会导致驾驶行为特征的变化。为了准确描述该驾驶任务就要分配一系列权重以准确描述这些因素。现有方法中,基于概率模型的逆向强化学习主要从现有的示范数据出发,把示范数据作为已有数据,进而寻求对应当前数据的分布情况,基于此才能求取对应状态下的动作选取。但已知数据的分布并不能表示全部数据的分布,正确获取分布,需要获取全部状态对应动作的情况。
发明内容
为解决驾驶员建模泛化性弱的问题,即现有技术中所存在的对于驾驶场景不在示范数据的情况下,无法建立对应的回报函数来进行驾驶员行为建模的技术问题,本申请提供了一种基于神经网络的驾驶员行为建模方法,可以对于新的状态场景进行适用,来获得其对应动作,大大提高了建立的驾驶员行为模型的泛化能力,适用场景更广,鲁棒性更强。
为了实现上述目的,本发明方案的技术要点是:一种基于神经网络的驾驶员行为建模方法,具体包括如下步骤:
S1,构建驾驶环境特征提取器,用于提取构建回报函数的特征,具体实施方法为:
S11.在车辆行驶过程中,利用放在车辆挡风玻璃后面的摄像机对驾驶视频进行采样,获得N组不同车辆驾驶环境道路情况的图片;同时对应驾驶操作数据,即该道路环境下的转向角情况,联合构建起来训练数据;
S12.对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景;
S13.构建卷积神经网络,将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;新的卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层;输入层依次连接第一个卷积层、第一个池化层,然后连接第二个卷积层、第二个池化层,再连接第三个卷积层、第三个池化层,最后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层;
S14.将训练完成后的卷积神经网络的网络结构和权值保存,以建立新的一个卷积神经网络,完成状态特征提取器。
进一步地,步骤S14中的训练完成后的卷积神经网络不包括输出层。
进一步地,本申请还包括步骤S2,构建回报函数生成器,用于驾驶策略的获取,具体实施方法为:
S21.获得专家的驾驶示范数据:驾驶示范数据来自对于示范驾驶视频数据的采样提取,按照一定频率对一段连续的驾驶视频进行采样,得到一组轨迹示范;一个专家示范数据包括多条轨迹,总体记做:
Figure BDA0001706981620000031
其中DE表示整体的驾驶示范数据,(sj,aj)表示对应状态j和该状态对应决策指令构成的数据对,M代表总共的驾驶示范数据的个数,NT代表驾驶示范轨迹数目,Li代表第i条驾驶示范轨迹中包含的状态-决策指令对(sj,aj)的个数;
S22.求取驾驶示范的特征期望值;
首先将驾驶示范数据DE中的各个描述驾驶环境情况的状态st输入S1中的状态特征提取器中,获得对应状态st下的特征情况f(st,at),f(st,at)代指一组对应st的影响驾驶决策结果的驾驶环境场景特征值,然后基于下述公式计算出来驾驶示范的特征期望值:
Figure BDA0001706981620000032
其中γ为折扣因子,根据问题的不同,对应进行设置;
S23.求取贪婪策略下的状态-动作集;
S24.求取回报函数的权值。
进一步地,本申请还包括步骤S3.构建驾驶策略获取器,完成驾驶策略的构建,具体实现过程为:
S31构建驾驶策略获取器的训练数据;
S32.建立神经网络;
S33.优化神经网络
对于该神经网络的优化,建立的损失函数是交叉熵代价函数,公式如下:
Figure BDA0001706981620000033
其中N代指训练数据的个数;Qπ(st,at)是将描述t时刻驾驶场景状态st输入神经网络,选择输出中的对应驾驶决策动作at项所得到的数值;
Figure BDA0001706981620000034
为S31中求得的数值;
Figure BDA0001706981620000035
是正则项,其中的W={w(1),w(2)}代指上面神经网络中权值;
将S31中获取的训练数据,输入该神经网络优化代价函数;借助梯度下降法完成对于该交叉熵代价函数的最小化,得到的优化完成的神经网络,进而得到驾驶策略获取器。
进一步地,步骤S2与S3是循环的两部分;求取贪婪策略下的状态-动作集的具体步骤是:
首先,获取驾驶策略获取器中的神经网络:把驾驶示范数据DE提取得到的描述环境情况的状态特征f(st,at),输入神经网络,得到输出gw(st);gw(st)是关于描述状态st的一组Q值集合,即[Q(st,a1),...,Q(st,an)]T,而Q(st,ai)代表状态-动作值,用于描述在当前驾驶场景状态st下,选取决策驾驶动作ai的优劣,基于公式Q(s,a)=θ·μ(s,a)进行求得,该公式中的θ代指当前回报函数中的权值,μ(s,a)代指特征期望值;
然后基于ε-greedy策略,进行选取描述驾驶场景状态st对应的驾驶决策动作
Figure BDA0001706981620000041
选取关于当前驾驶场景st下的Q值集合中让Q值最大的决策动作
Figure BDA0001706981620000042
否则,则随机选取
Figure BDA0001706981620000043
选取完
Figure BDA0001706981620000044
之后,记录此时的
Figure BDA0001706981620000045
如此对于驾驶示范DE中的每个状态的状态特征f(st,at),输入该神经网络,共获取得到M个状态-动作对(st,at),其描述了t时刻的驾驶场景状态st下选取驾驶决策动作at;同时基于动作选取的情况,获取了M个对应状态-动作对的Q值,记做Q。
更进一步地,求取回报函数的权值具体步骤是:
首先基于下面公式,构建目标函数:
Figure BDA0001706981620000046
Figure BDA0001706981620000047
代表损失函数,即依据当前状态-动作对是否存在于驾驶示范之中,若存在则为0,否则为1;
Figure BDA0001706981620000048
为上面所记录的对应状态-动作值;
Figure BDA0001706981620000049
为S22中求取的驾驶示范特征期望和回报函数的权值θ的乘积;
Figure BDA00017069816200000410
为正则项;
借助梯度下降法最小化该目标函数,即t=minθJ(θ),获取令该目标函数最小化的变量θ,该θ即所求取的所需的回报函数的权值。
更进一步地,步骤S2的具体实现过程还包括:S25.基于获得的对应回报函数权值θ,根据公式r(s,a)=θTf(s,a)构建回报函数生成器。
更进一步地,步骤S31中构建驾驶策略获取器的训练数据,每个数据包括两部分:一个是将t时刻驾驶场景状态输入S1中的驾驶状态提取器得到的驾驶决策特征f(st,at),另一个就是基于下面公式得到的
Figure BDA0001706981620000051
Figure BDA0001706981620000052
其中,rθ(st,at)借助S2中的回报函数生成器基于驾驶示范数据生成的回报函数;Qπ(st,at)和Qπ(st+1,at+1)来自于S23中所记录的Q值,选取其中描述t时刻驾驶场景st的Q值和选取其中描述t+1时刻驾驶场景st+1的Q值。
作为更进一步地,S32中建立神经网络,包括三层,第一层作为输入层,其中的神经元个数和特征提取器的输出特征种类相同为k个,用于输入驾驶场景的特征f(st,at),第二层的隐层个数为10个,第三层的神经元个数和动作空间中进行决策的驾驶动作个数n相同;输入层和隐层的激活函数都为sigmoid函数,即
Figure BDA0001706981620000053
即有着:
z=w(1)x=w(1)[1,ft]T
h=sigmoid(z)
gw(st)=sigmoid(w(2)[1,h]T)
其中w(1)为隐层的权值;ft为t时刻驾驶场景的状态st的特征,也就是神经网络的输入;z为未经过隐层sigmoid激活函数时候的网络层输出;h为经过sigmoid激活函数后的隐层输出;w(2)为输出层的权值;
网络输出的gw(st)是t时刻驾驶场景状态st的Q集合,即[Q(st,a1),...,Q(st,an)]T,S31中的Qπ(st,at)就是将状态st输入神经网络,选择输出中的at项所得到。
作为更进一步地,申请还包括步骤S4,将当前的S2的回报函数生成器和S3的驾驶策略获取器看做一个整体,查看当前S22中的t值,是否满足t<ε,ε为评判目标函数是否满足需求的阈值,也就是判断当前用于获取驾驶策略的回报函数是否满足要求;其数值根据具体需要进行不同的设置;
当t的数值,不满足该公式时;需要重新构建S2中的回报函数生成器,此时需要将当前S23中需要的神经网络替换成S33中已经经过优化过后的新的神经网络,即将用于生成描述在驾驶场景状态st下,选取的决策驾驶动作ai优劣的Q(st,ai)值的网络,替换成S33中经过梯度下降方法进行优化过的新的网络结构;然后重新进行S2、S3的步骤:构架回报函数生成器、得到驾驶策略获取器,再次判断t的数值是否满足需求;
当满足该公式时,当前的θ就是所需的回报函数的权值;S2的回报函数生成器则满足要求,S3中的驾驶策略获取器也满足要求;于是采集需要建立驾驶员模型的某驾驶员的驾驶数据,即驾驶过程中的环境场景图像和对应的操作数据,输入驾驶环境特征提取器,得到对于当前场景的决策特征;然后将提取得到的特征输入回报函数生成器,得到对应场景状态的回报函数;然后把采集的决策特征和计算得到的回报函数输入驾驶策略获取器,得到该驾驶员对应的驾驶策略。
本发明与现有技术相比有益效果在于:本发明中用于描述驾驶员决策,建立驾驶员行为模型的方法,因采用神经网络来描述策略,在神经网络参数确定的时候,状态和动作一一对应,于是对于状态-动作对可能的情况不再受限于示范轨迹。
在实际的驾驶情况中,因为天气、景物等原因导致的多样的驾驶场景对应的大状态空间,借助于神经网络优秀的近似表达任意函数的能力,近似的可将这一种策略表达看作黑箱:通过输入状态的特征值,输出对应的状态-动作值,同时进一步的根据输出值的情况来选取动作,以获得对应动作。从而使借助逆向强化学习来对于驾驶员行为建模的适用性大大增强,传统方法因试图借助某一概率分布来拟合到示范轨迹,因而获得的最优策略依旧受限于示范轨迹中的已有的状态情况,而本发明可以对于新的状态场景进行适用,来获得其对应动作,大大提高了建立的驾驶员行为模型的泛化能力,适用场景更广,鲁棒性更强。
附图说明
图1为新的深度卷积神经网络;
图2为驾驶视频采样图;
图3为本方法流程框图;
图4为步骤S32中建立神经网络结构图。
具体实施方式
下面将结合说明书附图,对本发明作进一步说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本实施例提供一种基于神经网络的驾驶员行为建模方法,具体包括如下步骤:
S1.构建驾驶环境特征提取器,包括以下具体步骤:
S11.对车辆行驶过程中,利用放在车的挡风玻璃后面的摄像机得到的驾驶视频进行采样,采样图如图2所示。
获得N组不同车辆驾驶道路环境道路情况的图片和对应的转向角情况。包括N1张直道和N2张弯道,N1、N2的取值可以为N1>=300,N2>=3000,同时对应驾驶操作数据,联合构建起来训练数据。
S12.对收集来的图像进行相关的平移、裁剪、变更亮度等操作,以模拟不同光照和天气的场景。
S13.构建卷积神经网络,将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练;采用基于Nadam优化器的优化方法来对均方误差损失求最优解来优化神经网络的权重参数。
卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层。输入层依次连接第一个卷积层、第一个池化层,然后连接第二个卷积层、第二个池化层,再连接第三个卷积层、第三个池化层,然后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。
S14.将训练完成后的卷积神经网络的除最后输出层之外的网络结构和权值保存,以建立新的一个卷积神经网络,完成状态特征提取器。
S2.构建回报函数生成器
回报函数作为强化学习方法中动作选取的标准,在驾驶策略的获取过程,回报函数的好坏起到了决定性的作用,其直接决定了获取的驾驶策略的优劣,以及获得的策略是否和真实的驾驶示范数据对应的策略相同。回报函数的公式为reward=θTf(st,at),f(st,at)代指对应驾驶环境场景「车辆周围环境」下的t时刻状态st的一组影响驾驶决策结果的特征值,用于描述车辆周围环境场景情况。而θ代指对应影响驾驶决策的特征的一组权值,权值的数值说明了对应的环境特征在回报函数中所占的比重,体现了重要性。在S1的状态特征提取器的基础上,需要求解这一权值θ,从而来构建影响驾驶策略的回报函数。
S21.获得专家的驾驶示范数据
驾驶示范数据来自对于示范驾驶视频数据的采样提取(和之前驾驶环境特征提取器所用数据不同),可以按照10hz的频率对一段连续的驾驶视频进行采样,得到一组轨迹示范。一个专家示范应具有多条轨迹。总体记做:
Figure BDA0001706981620000071
其中DE表示整体的驾驶示范数据,(sj,aj)表示对应状态j(采样的时间j的驾驶环境的视频图片)和该状态对应决策指令(如转向指令中的转向角度)构成的数据对,M代表总共的驾驶示范数据的个数,NT代表驾驶示范轨迹数目,Li代表第i条驾驶示范轨迹中包含的状态-决策指令对(sj,aj)的个数
S22.求取驾驶示范的特征期望
首先将驾驶示范数据DE中的各个描述驾驶环境情况的状态st输入S1中的状态特征提取器,获得对应状态st下的特征情况f(st,at),f(st,at)代指一组对应st的影响驾驶决策结果的驾驶环境场景的特征值,然后基于下述公式计算出来驾驶示范的特征期望:
Figure BDA0001706981620000081
其中γ为折扣因子,根据问题的不同,对应进行设置,参考数值可设为0.65。
S23.求取贪婪策略下的状态-动作集
首先,获取S32中的驾驶策略获取器中的神经网络。(因S2和S3是一个循环中的两部分,最开始的时候神经网络是S32中刚刚初始化的神经网络。随着循环的进行,循环中的每一步都是:在S2中完成一次影响驾驶决策的回报函数的构建,然后基于当前回报函数在S3中获取对应的最优驾驶策略,判断是否满足结束循环的标准,若不满足,则将当前S34中的经过优化过的神经网络放入S2中重新构建回报函数)
把驾驶示范数据DE提取得到的描述环境情况的状态特征f(st,at),输入神经网络,得到输出gw(st);gw(st)是关于描述状态st的一组Q值集合,即[Q(st,a1),...,Q(st,an)]T,而Q(st,ai)代表状态-动作值,用于描述在当前驾驶场景状态st下,选取决策驾驶动作ai的优劣,可基于公式Q(s,a)=θ·μ(s,a)进行求得,该公式中的θ代指的当前回报函数中的权值,μ(s,a)代指特征期望。
然后基于ε-greedy策略,假如设置ε为0.5,进行选取描述驾驶场景状态st对应的驾驶决策动作
Figure BDA0001706981620000082
也就是说有百分之五十的可能性,选取关于当前驾驶场景st下的Q值集合中让Q值最大的决策动作
Figure BDA0001706981620000083
否则,则随机选取
Figure BDA0001706981620000084
选取完
Figure BDA0001706981620000085
之后,记录此时的
Figure BDA0001706981620000086
如此对于驾驶示范DE中的每个状态的状态特征f(st,at),输入该神经网络,共获取得到M个状态-动作对(st,at)其描述了t时刻的驾驶场景状态st下选取驾驶决策动作at。同时基于动作选取的情况,获取了M个对应状态-动作对的Q值,记做Q。
S24.求取回报函数的权值
首先基于下面公式,构建目标函数:
Figure BDA0001706981620000091
Figure BDA0001706981620000092
代表着损失函数,即依据当前状态-动作对是否存在于驾驶示范之中,若存在则为0,否则为1。
Figure BDA0001706981620000093
为上面所记录的对应状态-动作值。
Figure BDA0001706981620000094
为S22中求取的驾驶示范特征期望和回报函数的权值θ的乘积。
Figure BDA0001706981620000095
为正则项,以防过拟合问题的出现,该γ可以为0.9。
借助梯度下降法最小化该目标函数,即t=minθJ(θ),获取令该目标函数最小化的变量θ,该θ即所求取的所需的回报函数的权值。
S25.基于获得的对应回报函数权值θ,根据公式r(s,a)=θTf(s,a)构建回报函数生成器。
S3.构建驾驶策略获取器
S31驾驶策略获取器的训练数据的构建
获取训练数据。数据来自于对之前的示范数据的采样,但需要进行处理得到一组新的类型的数据共计N个。数据中每个数据包括两部分:一个是将t时刻驾驶场景状态输入S1中的驾驶状态提取器得到的驾驶决策特征f(st,at),另一个就是基于下面公式得到的
Figure BDA0001706981620000096
Figure BDA0001706981620000097
该公式中包含参数rθ(st,at)借助S2中的回报函数生成器基于驾驶示范数据生成的回报函数。Qπ(st,at)和Qπ(st+1,at+1)来自于S23中所记录的那组Q值Q,选取其中描述t时刻驾驶场景st的Q值和选取其中描述t+1时刻驾驶场景st+1的Q值。
S32.建立神经网络
神经网络包括三层,第一层作为输入层,其中的神经元个数和特征提取器的输出特征种类相同为k个,用于输入驾驶场景的特征f(st,at),第二层的隐层个数为10个,第三层的神经元个数和动作空间中进行决策的驾驶动作个数n一样的个数;输入层和隐层的激活函数都为sigmoid函数,即
Figure BDA0001706981620000101
即有着:
z=w(1)x=w(1)[1,ft]T
h=sigmoid(z)
gw(st)=sigmoid(w(2)[1,h]T)
其中w(1)代指隐层的权值;ft代指t时刻驾驶场景的状态st的特征,也就是神经网络的输入;z代指未经过隐层sigmoid激活函数时候的网络层的输出;h代指经过sigmoid激活函数后的隐层输出;w(2)代指输出层的权值;网络结构如图3:
网络输出的gw(st)是t时刻驾驶场景状态st的Q集合,即[Q(st,a1),...,Q(st,an)]T,S31中的Qπ(st,at)就是将状态st输入神经网络,选择输出中的at项所得到。
S33.优化神经网络
对于该神经网络的优化,建立的损失函数是交叉熵代价函数,公式如下:
Figure BDA0001706981620000102
其中N代指训练数据的个数。Qπ(st,at)就是将描述t时刻驾驶场景状态st输入神经网络,选择输出中的对应驾驶决策动作at项所得到的数值。
Figure BDA0001706981620000103
为S31中求得的数值。
Figure BDA0001706981620000104
同样是正则项,防止过拟合而设置的。该γ也可以为0.9。其中的W={w(1),w(2)}代指上面神经网络中权值。
将S31中获取的训练数据,输入该神经网络优化代价函数。借助梯度下降法完成对于该交叉熵代价函数的最小化,得到的优化完成的神经网络,得到驾驶策略获取器。
S4.将当前的S2的回报函数生成器和S3的驾驶策略获取器看做一个整体,查看当前S22中的t值,是否满足t<ε,ε为评判目标函数是否满足需求的阈值,也就是判断当前用于获取驾驶策略的回报函数是否满足要求。其数值根据具体需要进行不同的设置。
当t的数值,不满足该公式的时候。需要重新构建S2中的回报函数生成器,此时需要将当前S23中需要的神经网络替换成S33中已经经过优化过后的新的神经网络,即将用于生成描述在驾驶场景状态st下,选取的决策驾驶动作ai优劣的Q(st,ai)值的网络,替换成S33中经过梯度下降方法进行优化过的新的网络结构。然后重新进行S2、S3的步骤:构架回报函数生成器、得到驾驶策略获取器,再次判断t的数值是否满足需求。
当满足该公式的时候,当前的θ就是所需的回报函数的权值。S2的回报函数生成器则满足要求,S3中的驾驶策略获取器也满足要求。于是可以:采集需要建立驾驶员模型的某驾驶员的驾驶数据,即驾驶过程中的环境场景图像和对应的操作数据,如驾驶转向角。输入驾驶环境特征提取器,得到对于当前场景的决策特征。然后将提取得到的特征输入回报函数生成器,得到对应场景状态的回报函数。然后把采集的决策特征和计算得到的回报函数输入驾驶策略获取器,得到该驾驶员对应的驾驶策略。
在马尔科夫决策过程中,一种策略需要连接状态到其对应的动作。但对于一个有着大范围的状态空间的时候,对于未遍历的区域,很难描述出来一个确定的策略表示,传统方法之中也忽略了对这部分的描述,仅仅是基于示范轨迹,来说明整个轨迹分布的概率模型,对于新的状态并没有给出具体的策略表示,即对于新状态采取确定动作的可能性并未给出具体的方法。本发明中借助神经网络对于策略进行描述,神经网络因其能够在任何精确度上近似表示任意函数的特性,同时有着优秀的泛化能力。借助状态特征的表示,一方面可以表示出那些不包含在示范轨迹中的状态,另外,借助将对应的状态特征输入神经网络。可以求取对应的动作值,从而依策略求取应得的动作,因而,传统方法无法泛化驾驶示范数据到未遍历驾驶场景状态问题得以解决。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (7)

1.一种基于神经网络的驾驶员行为建模方法,其特征在于,包括如下步骤:
S1,构建驾驶环境特征提取器,用于提取构建回报函数的特征,具体实施方法为:
S11.在车辆行驶过程中,利用放在车辆挡风玻璃后面的摄像机对驾驶视频进行采样,获得N组不同车辆驾驶道路环境道路情况的图片;同时对应驾驶操作数据,即在该道路的环境下的转向角情况,联合构建起来训练数据;
S12.对收集来的图片进行平移、裁剪、变更亮度操作,以模拟不同光照和天气的场景;
S13.构建卷积神经网络,将经过处理后的图片作为输入,对应图片的操作数据作为标签值,进行训练,采用基于Nadam优化器的优化方法对均方误差损失求最优解来优化神经网络的权重参数;新的卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层;输入层依次连接第一个卷积层、第一个池化层,然后连接第二个卷积层、第二个池化层,再连接第三个卷积层、第三个池化层,最后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层;
S14.将训练完成后的卷积神经网络的网络结构和权值保存,以建立新的一个卷积神经网络,完成状态特征提取器;
步骤S2,构建回报函数生成器,用于驾驶策略的获取,具体实施方法为:
S21.获得专家的驾驶示范数据:驾驶示范数据来自对于示范驾驶视频数据的采样提取,按照一定频率对一段连续的驾驶视频进行采样,得到一组轨迹示范;一个专家示范数据包括多条轨迹,总体记做:
DE={(s1,a1),(s2,a2),...,(sM,aM)}
Figure FDA0002411216970000011
其中DE表示整体的驾驶示范数据,(sj,aj)表示对应状态j和该状态对应决策指令构成的数据对,M代表总共的驾驶示范数据的个数,NT代表驾驶示范轨迹数目,Li代表第i条驾驶示范轨迹中包含的状态-决策指令对(sj,aj)的个数;
S22.求取驾驶示范的特征期望值;
首先将驾驶示范数据DE中的各个描述驾驶环境情况的状态st输入S1中的状态特征提取器中,获得对应状态st下的特征情况f(st,at),f(st,at)代指一组对应st的影响驾驶决策结果的驾驶环境场景特征值,然后基于下述公式计算出来驾驶示范的特征期望值:
Figure FDA0002411216970000021
其中γ为折扣因子,根据问题的不同,对应进行设置;
S23.求取贪婪策略下的状态-动作集;
S24.求取回报函数的权值,其具体步骤是:
首先基于下面公式,构建目标函数:
Figure FDA0002411216970000022
Figure FDA0002411216970000023
代表损失函数,即依据当前状态-动作对是否存在于驾驶示范之中,若存在则为0,否则为1;
Figure FDA0002411216970000024
为上面所记录的对应状态-动作值;
Figure FDA0002411216970000025
为S22中求取的驾驶示范特征期望和回报函数的权值θ的乘积;
Figure FDA0002411216970000026
为正则项;
借助梯度下降法最小化该目标函数,即t=minθJ(θ),获取令该目标函数最小化的变量θ,该θ即所求取的所需的回报函数的权值;
S25.基于获得的对应回报函数权值θ,根据公式r(s,a)=θTf(s,a)构建回报函数生成器。
2.根据权利要求1所述一种基于神经网络的驾驶员行为建模方法,其特征在于,步骤S14中的训练完成后的卷积神经网络不包括输出层。
3.根据权利要求1所述一种基于神经网络的驾驶员行为建模方法,其特征在于,本申请还包括步骤S3.构建驾驶策略获取器,完成驾驶策略的构建,具体实现过程为:
S31构建驾驶策略获取器的训练数据;
S32.建立神经网络;
S33.优化神经网络
对于该神经网络的优化,建立的损失函数是交叉熵代价函数,公式如下:
Figure FDA0002411216970000027
其中N代指训练数据的个数;Qπ(st,at)是将描述t时刻驾驶场景状态st输入神经网络,选择输出中的对应驾驶决策动作at项所得到的数值;
Figure FDA0002411216970000028
为S31中求得的数值;
Figure FDA0002411216970000029
是正则项,其中的W={w(1),w(2)}代指上面神经网络中权值;
将S31中获取的训练数据,输入该神经网络优化代价函数;借助梯度下降法完成对于该交叉熵代价函数的最小化,得到的优化完成的神经网络,进而得到驾驶策略获取器。
4.根据权利要求3所述一种基于神经网络的驾驶员行为建模方法,其特征在于,步骤S2与S3是循环的两部分;求取贪婪策略下的状态-动作集的具体步骤是:
首先,获取驾驶策略获取器中的神经网络:把驾驶示范数据DE提取得到的描述环境情况的状态特征f(st),输入神经网络,得到输出gw(st);gw(st)是关于描述状态st的一组Q值集合,即[Q(st,a1),...,Q(st,an)]T,而Q(st,ai)代表状态-动作值,用于描述在当前驾驶场景状态st下,选取决策驾驶动作ai的优劣,基于公式Q(s,a)=θ·μ(s,a)进行求得,该公式中的θ代指当前回报函数中的权值,μ(s,a)代指特征期望值;
然后基于ε-greedy策略,进行选取描述驾驶场景状态st对应的驾驶决策动作
Figure FDA0002411216970000031
选取关于当前驾驶场景st下的Q值集合中让Q值最大的决策动作
Figure FDA0002411216970000032
否则,则随机选取
Figure FDA0002411216970000033
选取完
Figure FDA0002411216970000034
之后,记录此时的
Figure FDA0002411216970000035
如此对于驾驶示范DE中的每个状态的状态特征f(st,at),输入该神经网络,共获取得到M个状态-动作对(st,at),其描述了t时刻的驾驶场景状态st下选取驾驶决策动作at;同时基于动作选取的情况,获取了M个对应状态-动作对的Q值,记做Q。
5.根据权利要求3所述一种基于神经网络的驾驶员行为建模方法,其特征在于,步骤S31中构建驾驶策略获取器的训练数据,每个数据包括两部分:一个是将t时刻驾驶场景状态输入S1中的驾驶状态提取器得到的驾驶决策特征f(st,at),另一个就是基于下面公式得到的
Figure FDA0002411216970000036
Figure FDA0002411216970000037
其中,rθ(st,at)借助S2中的回报函数生成器基于驾驶示范数据生成的回报函数;Qπ(st,at)和Qπ(st+1,at+1)来自于S23中所记录的Q值,选取其中描述t时刻驾驶场景st的Q值和选取其中描述t+1时刻驾驶场景st+1的Q值。
6.根据权利要求3所述一种基于神经网络的驾驶员行为建模方法,其特征在于,S32中建立神经网络,包括三层,第一层作为输入层,其中的神经元个数和特征提取器的输出特征种类相同为k个,用于输入驾驶场景的特征f(st,at),第二层的隐层个数为10个,第三层的神经元个数和动作空间中进行决策的驾驶动作个数n相同;输入层和隐层的激活函数都为sigmoid函数,即
Figure FDA0002411216970000041
即有着:
z=w(1)x=w(1)[1,ft]T
h=sigmoid(z)
gw(st)=sigmoid(w(2)[1,h]T)
其中w(1)为隐层的权值;ft为t时刻驾驶场景的状态st的特征,也就是神经网络的输入;z为未经过隐层sigmoid激活函数时候的网络层输出;h为经过sigmoid激活函数后的隐层输出;w(2)为输出层的权值;
网络输出的gw(st)是t时刻驾驶场景状态st的Q集合,即[Q(st,a1),...,Q(st,an)]T,S31中的Qπ(st,at)就是将状态st输入神经网络,选择输出中的at项所得到。
7.根据权利要求3所述一种基于神经网络的驾驶员行为建模方法,其特征在于,申请还包括步骤S4,将当前的S2的回报函数生成器和S3的驾驶策略获取器看做一个整体,查看当前S24中的t值,是否满足t<ε,ε为评判目标函数是否满足需求的阈值,也就是判断当前用于获取驾驶策略的回报函数是否满足要求;其数值根据具体需要进行不同的设置;
当t的数值,不满足公式t<ε时;需要重新构建S2中的回报函数生成器,此时需要将当前S23中需要的神经网络替换成S33中已经经过优化过后的新的神经网络,即将用于生成描述在驾驶场景状态st下,选取的决策驾驶动作ai优劣的Q(st,ai)值的网络,替换成S33中经过梯度下降方法进行优化过的新的网络结构;然后重新进行S2、S3的步骤:构架回报函数生成器、得到驾驶策略获取器,再次判断t的数值是否满足需求;
当满足公式t<ε时,当前的θ就是所需的回报函数的权值;S2的回报函数生成器则满足要求,S3中的驾驶策略获取器也满足要求;于是采集需要建立驾驶员模型的某驾驶员的驾驶数据,即驾驶过程中的环境场景图像和对应的操作数据,输入驾驶环境特征提取器,得到对于当前场景的决策特征;然后将提取得到的特征输入回报函数生成器,得到对应场景状态的回报函数;然后把采集的决策特征和计算得到的回报函数输入驾驶策略获取器,得到该驾驶员对应的驾驶策略。
CN201810662026.0A 2018-06-25 2018-06-25 基于神经网络的驾驶员行为建模方法 Active CN108944940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810662026.0A CN108944940B (zh) 2018-06-25 2018-06-25 基于神经网络的驾驶员行为建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810662026.0A CN108944940B (zh) 2018-06-25 2018-06-25 基于神经网络的驾驶员行为建模方法

Publications (2)

Publication Number Publication Date
CN108944940A CN108944940A (zh) 2018-12-07
CN108944940B true CN108944940B (zh) 2020-05-19

Family

ID=64486532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810662026.0A Active CN108944940B (zh) 2018-06-25 2018-06-25 基于神经网络的驾驶员行为建模方法

Country Status (1)

Country Link
CN (1) CN108944940B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109839937B (zh) * 2019-03-12 2023-04-07 百度在线网络技术(北京)有限公司 确定车辆自动驾驶规划策略的方法、装置、计算机设备
CN110363295A (zh) * 2019-06-28 2019-10-22 电子科技大学 一种基于dqn的智能车多车道换道方法
CN112706777B (zh) * 2020-12-28 2022-05-10 东软睿驰汽车技术(沈阳)有限公司 一种车辆工况调整用户驾驶行为的方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5200926B2 (ja) * 2008-12-26 2013-06-05 トヨタ自動車株式会社 運転支援装置
JP5968259B2 (ja) * 2013-04-11 2016-08-10 日本電信電話株式会社 線形モデルに基づく強化学習方法とその装置とプログラム
US10860887B2 (en) * 2015-11-16 2020-12-08 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognition model
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
CN107229973B (zh) * 2017-05-12 2021-11-19 中国科学院深圳先进技术研究院 一种用于车辆自动驾驶的策略网络模型的生成方法及装置
CN107203134B (zh) * 2017-06-02 2020-08-18 浙江零跑科技有限公司 一种基于深度卷积神经网络的前车跟随方法
CN107704917A (zh) * 2017-08-24 2018-02-16 北京理工大学 一种有效训练深度卷积神经网络的方法
CN107679557B (zh) * 2017-09-19 2020-11-27 平安科技(深圳)有限公司 驾驶模型训练方法、驾驶人识别方法、装置、设备及介质
CN107972662B (zh) * 2017-10-16 2019-12-10 华南理工大学 一种基于深度学习的车辆前向碰撞预警方法
CN108108657B (zh) * 2017-11-16 2020-10-30 浙江工业大学 基于多任务深度学习的修正局部敏感哈希车辆检索方法

Also Published As

Publication number Publication date
CN108944940A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108819948B (zh) 基于逆向强化学习的驾驶员行为建模方法
CN108920805B (zh) 具有状态特征提取功能的驾驶员行为建模系统
CN108791302B (zh) 驾驶员行为建模系统
CN111079561B (zh) 一种基于虚拟训练的机器人智能抓取方法
Codevilla et al. On offline evaluation of vision-based driving models
CN108891421B (zh) 一种构建驾驶策略的方法
CN110874578B (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
CN110175611B (zh) 面向车牌识别系统黑盒物理攻击模型的防御方法及装置
CN114970321A (zh) 一种基于动态轨迹流的场景流数字孪生方法及系统
CN108944940B (zh) 基于神经网络的驾驶员行为建模方法
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
CN112550314B (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN110281949B (zh) 一种自动驾驶统一分层决策方法
CN110737968A (zh) 基于深层次卷积长短记忆网络的人群轨迹预测方法及系统
CN113869170B (zh) 一种基于图划分卷积神经网络的行人轨迹预测方法
Babiker et al. Convolutional neural network for a self-driving car in a virtual environment
Farag Safe-driving cloning by deep learning for autonomous cars
CN117709602B (zh) 一种基于社会价值取向的城市智能车辆拟人化决策方法
CN115376103A (zh) 一种基于时空图注意力网络的行人轨迹预测方法
CN112947466B (zh) 一种面向自动驾驶的平行规划方法、设备及存储介质
CN110222822A (zh) 黑盒预测模型内部特征因果图的构建方法
CN108791308B (zh) 基于驾驶环境构建驾驶策略的系统
CN109493370A (zh) 一种基于空间偏移学习的目标跟踪方法
CN117078923A (zh) 面向自动驾驶环境的语义分割自动化方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181207

Assignee: Dalian Big Data Industry Development Research Institute Co.,Ltd.

Assignor: DALIAN University

Contract record no.: X2023210000224

Denomination of invention: Neural network-based driver behavior modeling method

Granted publication date: 20200519

License type: Common License

Record date: 20231129

EE01 Entry into force of recordation of patent licensing contract
OL01 Intention to license declared
OL01 Intention to license declared
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181207

Assignee: Dalian Hengxing Information Technology Co.,Ltd.

Assignor: DALIAN University

Contract record no.: X2024210000035

Denomination of invention: Driver behavior modeling method based on neural network

Granted publication date: 20200519

License type: Common License

Record date: 20240702

EE01 Entry into force of recordation of patent licensing contract