CN110525428A - 一种基于模糊深度强化学习的自动泊车方法 - Google Patents
一种基于模糊深度强化学习的自动泊车方法 Download PDFInfo
- Publication number
- CN110525428A CN110525428A CN201910810427.0A CN201910810427A CN110525428A CN 110525428 A CN110525428 A CN 110525428A CN 201910810427 A CN201910810427 A CN 201910810427A CN 110525428 A CN110525428 A CN 110525428A
- Authority
- CN
- China
- Prior art keywords
- fuzzy
- network
- moment
- layer
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims abstract description 85
- 101100083446 Danio rerio plekhh1 gene Proteins 0.000 claims description 44
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 12
- 230000007613 environmental effect Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000011217 control strategy Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 230000003631 expected effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/06—Automatic manoeuvring for parking
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0002—Automatic control, details of type of controller or control system architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
- B60W2050/0031—Mathematical model of the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于模糊深度强化学习的自动泊车方法,其步骤包括:1构建模糊动作网络,输出控制指令从而建立样本池集合;2搭建模糊评价网络用于训练模糊动作网络;3搭建目标模糊评价网络与目标模糊动作网络,用于训练模糊评价网络;3以样本池集合中t时刻的样本{st,at,Rt,st+1}作为输入来训练网络;4将t+1的值赋给t返回步骤3继续学习,直到t>C为止。本发明能通过结合模糊神经网络以及深度强化学习的控制方法来完成自动泊车,从而能使得自动泊车过程更加安全可靠,降低停车事故的发生。
Description
技术领域
本发明涉及智能汽车自动泊车规划技术领域,具体的说是一种基于模糊深度强化学习的自动泊车方法。
背景技术
随着机动车保有量的不断上升,停车位变得拥挤,车位拥挤会给城市带来安全、经济、环境、健康等方面的问题,停车问题以及成为不可避免的问题。同时,由于停车环境拥挤、司机技术水平的原因,停车事故频频发生。随着泊车技术的发展,车企推出了半自动泊车系统以及全自动泊车系统。半自动泊车系统利用摄像头来采集图像数据以及超声波雷达来检测周围物体距车身的距离数据,通过传感器的数据提醒司机进行泊车,但是还是根据司机主观因素完成泊车;全自动泊车系统采用传统轨迹规划的方法,通常包括两段式或者三段式泊车,存在着传感器误识别、环境复杂、轨迹误差等原因,无法适用于多种泊车环境。
发明内容
本发明为了克服上述现有技术的不足之处,提供一种基于模糊深度强化学习的自动泊车方法,以期通过结合模糊神经网络以及深度强化学习的控制方法来完成自动泊车,从而能使得自动泊车过程更加安全可靠,降低停车事故的发生。
本发明为达到上述发明目的,采用如下的技术方案是:
本发明一种基于模糊深度强化学习的自动泊车方法的特点在于,包括以下步骤;
步骤1:建立车辆动力学模型以及泊车环境模型;
步骤2:收集真实场景中基于驾驶员经验的泊车数据作为原始数据,所述泊车数据为车辆的状态信息与车辆控制指令;
步骤3:定义车辆控制指令集a={a0,a1,...,at,...,am},a0代表车辆初始时刻的控制指令,at代表车辆t时刻的控制指令,并有at={vt,δt};vt代表车辆t时刻的速度,δt代表车辆t时刻的方向盘角度,定义状态信息集s={s0,s1,...,st,...,sm},s0代表车辆初始时刻的状态,st代表车辆t时刻执行t-1时刻的控制指令at-1后的状态,并有st={xt,yt,εt},xt代表车辆t时刻在大地坐标系下的横坐标,yt代表车辆t时刻在大地坐标系下的纵坐标,εt代表t时刻的航向角;t=1,2,…,m;
步骤4:定义并初始化t=1;更新系数τ,样本数m,目标网络更新频率T,最大迭代次数C;
步骤5:构建模糊动作网络,包括:输入层、隐藏层、输出层;
所述输入层包含一个神经元,用于输入车辆t时刻状态st;
所述隐藏层包括:模糊化层、模糊规则层和模糊决策层;
所述输入层将所述车辆t时刻状态st传递给所述模糊化层;由所述模糊化层中的隶属度函数进行计算,得到车辆t时刻状态st对应的隶属度,并将所述隶属度输入模糊规则层;
利用所述原始数据建立所述模糊规则层中的动作模糊规则,每条动作模糊规则对应输出一个控制指令;所述模糊规则层根据车辆t时刻状态st对应的隶属度计算每条动作模糊规则的适用度后传递给模糊决策层;
所述模糊决策层选出最大适用度所对应的动作模糊规则并输出相应的控制指令at,max1;
所述输出层包含一个神经元,并根据所接收到的模糊规则层输出的控制指令at,max1,利用式(1)得到车辆t时刻的控制指令at并输出;
at=at,max1θmax1 (1)
式(1)中,θmax1表示第max1条动作模糊规则所对应的网络参数;
步骤6:建立样本池集合D;
步骤6.1:在所述模糊动作网络基于车辆t时刻的状态st得到车辆t时刻的控制指令at;
步骤6.2:所述车辆动力学模型执行t时刻的行控制指令at并得到t+1时刻的状态st+1以及t时刻的奖励Rt;将所述t时刻的状态st、控制指令at和奖励Rt作为t时刻的样本{st,at,Rt,st+1}并储存至样本池集合D中;
步骤7、构建与所述模糊动作网络结构相同的目标模糊动作网络,并按照一定的周期更新所述目标模糊动作网络中的网络参数,得到更新后的网络参数θ′max1,并相应输出控制指令a′t;以t时刻的样本{st,at,Rt,st+1}中的t+1时刻的状态st+1作为网络输入,输出t+1时刻的控制指令a′t+1;
步骤8:搭建目标模糊评价网络,包括输入层、隐藏层、输出层;
所述目标模糊评价网络的输入层包含2个神经元;
所述目标模糊评价网络的隐藏层包括:模糊化层,模糊规则层和模糊决策层;
所述目标模糊评价网络的输出层包含1个神经元;
以所述样本池集合D中车辆t+1时刻的状态st+1以及所述目标模糊动作网络输出的控制指令at+1′作为所述目标模糊评价网络的输入并由所述输入层传递给所述模糊化层;由所述模糊化层中的隶属度函数进行计算,得到车辆t时刻状态st对应的隶属度,并传递到模糊规则层;
利用所述原始数据建立所述目标模糊评价网络的模糊规则层中的评价模糊规则,每条目标模糊评价网络的评价模糊规则对应输出一个折扣因子;
所述目标模糊评价网络的模糊规则层根据车辆t时刻状态对应的隶属度计算每条评价模糊规则的适用度;
所述目标模糊评价网络的模糊决策层选出最大适用度所对应的评价模糊规则并输出相应的折扣因子γ′max2;
所述目标模糊评价网络的输出层并根据所接收到的模糊规则层输出的折扣因子γ′max2,利用式(2)得到目标模糊评价网络在t时刻输出的Q值Q′(st+1,a′t+1):
式(3)中,ω′max2表示按照一定的周期更新所述目标模糊评价网络的第max2条网络权值参数后的更新值;γ′max2为折扣因子;
步骤9:建立所述目标模糊评价网络结构相同的模糊评价网络,利用式(3)得到所述模糊评价网络的在t时刻输出的Q值Q(st,at):
式(3)中,ωmax2表示第max2条评价模糊规则所对应的模糊评价网络权值参数,Q′(st+1,a′t+1)为t时刻目标模糊评价网络的输出,γmax2为折扣因子;
步骤10:通过所述模糊评价网络来对所述模糊动作网络进行训练,并通过梯度下降法对模糊动作网络进行更新;
步骤10.1:利用式(4)计算误差函数J(θmax1):
步骤10.2:利用式(5)计算所述模糊动作网络的梯度
步骤10.3:通过式(6)得到更新后的模糊动作网络参数θ* max1:
步骤11:通过所述目标模糊动作网络和目标模糊评价网络对所述模糊评价网络进行训练;
步骤11.1:利用式(7)计算均方差函数L:
步骤11.2:通过式(8)得到更新后的模糊评价网络参数ω* max1:
步骤12:对所述目标模糊动作网络参数θ′max1与目标模糊评价网络的参数ω′max1进行更新;
步骤12.1:若所述最大迭代次数C与所述网络更新频率T比值的余数为1时,利用式(9)对网络参数θ′max1进行更新,得到更新后的目标模糊动作网络参数θ″max1,否则,不更新θ′max1与ω′max1;
θ″max1=τθmax1+(1-τ)θ′max1 (9)
步骤12.2:通过式(10)更新所述目标模糊评价网络参数ω′max1,得到更新后的目标模糊评价网络参数ω″max1:
ω″max1=τωmax+(1-τ)ω′max1 (10)
步骤13:将t+1赋值给t后,判断t>C是否成立,若成立,则结束训练,并得到最优模糊动作网络;否则,返回步骤5执行;
步骤14:利用所述最优模糊动作网络对实时输入的状态信息输出相应的控制指令,从而完成自动泊车。
与已有技术相比,本发明的有益效果体现在:
1.单纯运用人工智能领域的深度强化学习方法,虽具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,本发明方法将两者结合起来,优势互补;
2.本发明中模糊神经网络融合了神经网络与模糊控制策略,通过在神经网络中加入模糊控制策略,可以在初期采集泊车数据时,通过模糊控制方法利用人工泊车经验的特点,可以使车辆在不同的初始位姿下能够准确泊车车位,根据上述特点,针对当前泊车环境选择一个较优的车辆控制指令,缩短了初期探索的试错时间通过这种方式既使网络能够探索更好的策略,减少了试错时间,使模糊深度强化学习的自动泊车控制指令能够以更快于常规深度强化学习的速度收敛至符合正常驾驶预期的效果;
附图说明
图1为本发明车辆动力学模型与泊车环境模型示意图;
图2为本发明网络训练流程图;
图3为本发明模糊动作网络架构图;
图4为本发明样本池建立流程图;
图5为本发明目标模糊动作网络架构图;
图6为本发明目标模糊评价网络架构图;
图7为本发明模糊评价网络架构图。
具体实施方式
本实施例中,一种基于模糊深度强化学习的自动泊车方法包括以下步骤;
步骤1:建立车辆动力学模型以及泊车环境模型,以大地坐标系为参考坐标系,定义泊车起始位置与泊车停车位置,如图1所示;
步骤2:收集真实场景中基于驾驶员经验的泊车数据作为原始数据,泊车数据为车辆的状态信息与车辆控制指令;车辆状态信息包括车辆在大地坐标系下的坐标,航向角;车辆控制指令包括车辆的速度以及方向盘转向角;
步骤3:定义车辆控制指令集a={a0,a1,...,at,...,am},a0代表车辆初始时刻的控制指令,at代表车辆t时刻的控制指令,并有at={vt,δt};vt代表车辆t时刻的速度,δt代表车辆t时刻的方向盘角度,按照控制指令,控制车辆移动以及转向;定义状态信息集s={s0,s1,...,st,...,sm},s0代表车辆初始时刻的状态,st代表车辆t时刻执行t-1时刻的控制指令at-1后的状态,并有st={xt,yt,εt},xt代表车辆t时刻在大地坐标系下的横坐标,yt代表车辆t时刻在大地坐标系下的纵坐标,εt代表t时刻的航向角,t=1,2,…,m;
步骤4:定义并初始化t=1;更新系数τ,样本数m,目标网络更新频率T,最大迭代次数C;训练流程如图2所示;
步骤5:构建模糊动作网络,如图3所示;包括:模糊动作网络输入层、模糊动作网络隐藏层、模糊动作网络输出层;
模糊动作网络输入层包含一个神经元,用于输入车辆t时刻状态st;
模糊动作网络隐藏层包括:模糊动作网络模糊化层、模糊动作网络模糊规则层和模糊动作网络模糊决策层;
模糊动作网络输入层将车辆t时刻状态st传递给模糊动作网络模糊化层,将泊车时输入的车辆状态st模糊化;由模糊动作网络模糊化层中的隶属度函数进行计算,得到车辆t时刻状态st对应的隶属度,并将隶属度输入模糊动作网络模糊规则层;
利用原始数据建立模糊规则层中的动作模糊规则,每条动作模糊规则对应输出一个控制指令;这一步骤是利用了模糊控制的特性,通过原始数据建立的模糊规则,具备人工泊车经验的特性,能够在给定输入的情况下,输出较优的控制指令,减少了初期探索的试错时间,提升效率,使模糊深度强化学习的自动泊车控制指令能够以更快于常规深度强化学习的速度收敛至符合正常驾驶预期的效果;模糊动作网络模糊规则层根据车辆t时刻状态st对应的隶属度计算每条动作模糊规则的适用度后传递给模糊动作网络模糊决策层;
模糊动作网络模糊决策层选出最大适用度所对应的动作模糊规则并输出相应的控制指令at,max1;
模糊动作网络输出层包含一个神经元,并根据所接收到的模糊规则层输出的控制指令at,max1,利用式(1)得到车辆t时刻的控制指令at并输出;
at=at,max1θmax1 (1)
式(1)中,θmax1表示第max1条动作模糊规则所对应的网络参数;
步骤6:建立样本池集合D,如图4所示;
步骤6.1:在模糊动作网络基于车辆t时刻的状态st得到车辆t时刻的控制指令at;
步骤6.2:车辆动力学模型执行t时刻的行控制指令at并得到t+1时刻的状态st+1以及t时刻的奖励Rt;将t时刻的状态st、控制指令at和奖励Rt作为t时刻的样本{st,at,Rt,st+1}并储存至样本池集合D中;
定义泊车位中心在大地系坐标系下的坐标为P={X,Y};
定义泊车时障碍物在大地系坐标系下的坐标为Oobi={Xobi,Yobi},i=1,2...n;
奖励Rt定义如下所示:
执行控制指令at后,st+1={xt+1,yt+1,εt+1},若同时满足式(2)与式(3),即不与障碍物发生碰撞且与车辆t+1时刻到泊车位中心的距离小于t时刻到泊车位中心的距离,则Rt=1:
[(xt-Xobi)2+(yt-Yobi)2]≥ξ (2)
式(2)中,ξ表示距离阈值;
(xt+1-X)2+(yt+1-Y)2<(xt-X)2+(yt-Y)2 (3)
若满足式(4),即车辆与障碍物发生碰撞,则Rt=-1:
[(xt-Xobi)2+(yt-Yobi)2]≤ξ (4)
其他情况Rt均为0;
步骤7、构建与模糊动作网络结构相同的目标模糊动作网络,网络参数为θ′max1,以t时刻的样本{st,at,Rt,st+1}中的t+1时刻的状态st+1作为网络输入,输出t+1时刻的控制指令a′t+1;,如图5所示;并按照一定的周期更新目标模糊动作网络中的网络参数;
步骤8:搭建目标模糊评价网络,如图6所示;包括目标模糊评价网络输入层、目标模糊评价网络隐藏层、目标模糊评价网络输出层;
目标模糊评价网络的输入层包含2个神经元;
目标模糊评价网络的隐藏层包括:目标模糊评价网络模糊化层,目标模糊评价网络模糊规则层和目标模糊评价网络模糊决策层;
目标模糊评价网络的输出层包含1个神经元;
以样本池集合D中车辆t+1时刻的状态st+1以及目标模糊动作网络输出的控制指令at+1′作为目标模糊评价网络的输入并由目标模糊评价网络输入层传递给目标模糊评价网络模糊化层;由目标模糊评价网络模糊化层中的隶属度函数进行计算,得到车辆t时刻状态st对应的隶属度,并传递到目标模糊评价网络模糊规则层;
利用原始数据建立目标模糊评价网络的模糊规则层中的评价模糊规则,这一步骤是利用了模糊控制的特性,通过在神经网络中加入模糊控制策略,可以通过采集的原始数据时建立评价模糊规则,每条目标模糊评价网络的评价模糊规则对应输出一个折扣因子,折扣因子用于计算目标模糊评价网络的输出;
目标模糊评价网络的模糊规则层根据车辆t时刻状态对应的隶属度计算每条评价模糊规则的适用度;
目标模糊评价网络的模糊决策层选出最大适用度所对应的评价模糊规则并输出相应的折扣因子γ′max2;
目标模糊评价网络的输出层并根据所接收到的模糊规则层输出的折扣因子γ′max2,利用式(2)得到目标模糊评价网络在t时刻输出的Q值Q′(st+1,a′t+1),Q′(st+1,a′t+1)用于评价在t+1时刻采取控制指令at+1′的可取性,越高代表该控制指令可取性越大:
式(3)中,ω′max2表示按照一定的周期更新目标模糊评价网络的第max2条网络权值参数后的更新值;γ′max2为目标模糊评价网络的折扣因子;
步骤9:建立目标模糊评价网络结构相同的模糊评价网络,如图7所示;利用式(3)得到模糊评价网络的在t时刻输出的Q值Q(st,at),用于评价在t时刻采取控制指令at的可取程度,越高代表该控制指令可取性越大:
式(3)中,ωmax2表示第max2条评价模糊规则所对应的模糊评价网络权值参数,Q′(st+1,a′t+1)为t时刻目标模糊评价网络的输出,γmax2为模糊评价网络的折扣因子;
步骤10:通过模糊评价网络来对模糊动作网络进行训练,对模糊动作网络进行更新;
步骤10.1:利用式(4)计算误差函数J(θmax1):
步骤10.2:利用式(5)计算模糊动作网络的梯度
步骤10.3:通过式(6)得到更新后的模糊动作网络参数θ* max1:
步骤11:通过目标模糊动作网络和目标模糊评价网络对模糊评价网络进行训练;
步骤11.1:在这里,目标模糊评价网络与模糊评价网络在同一时刻输出不同Q值,通过使用均方差函数进行求导计算来对模糊评价网络参数进行更新;
利用式(7)计算均方差函数L:
步骤11.2:通过式(8)得到更新后的模糊评价网络参数ω* max1:
步骤12:对目标模糊动作网络参数θ′max1与目标模糊评价网络的参数ω′max1进行更新;由于两种目标网络参数变化小,在训练模糊动作网络和模糊评价网络时,比较稳定,使模糊深度强化学习训练的控制指令更快收敛。定期对目标网络参数进行更新,可以增加网络训练的效率;
步骤12.1:两种网络参数按照一定时间周期更新,更新策略为:若最大迭代次数C与网络更新频率T比值的余数为1时,利用式(9)对网络参数θ′max1进行更新,得到更新后的目标模糊动作网络参数θ″max1,否则,不更新θ′max1与ω′max1;
θ″max1=τθmax1+(1-τ)θ′max1 (9)
步骤12.2:通过式(10)更新目标模糊评价网络参数ω′max1,得到更新后的目标模糊评价网络参数ω″max1:
ω″max1=τωmax+(1-τ)ω′max1 (10)
步骤13:将t+1赋值给t后,判断t>C是否成立,若成立,则结束训练,并得到最优模糊动作网络;否则,返回步骤5执行;
步骤14:利用最优模糊动作网络对实时输入的状态信息输出相应的控制指令,从而完成自动泊车。
Claims (1)
1.一种基于模糊深度强化学习的自动泊车方法,其特征在于,包括以下步骤;
步骤1:建立车辆动力学模型以及泊车环境模型;
步骤2:收集真实场景中基于驾驶员经验的泊车数据作为原始数据,所述泊车数据为车辆的状态信息与车辆控制指令;
步骤3:定义车辆控制指令集a={a0,a1,...,at,...,am},a0代表车辆初始时刻的控制指令,at代表车辆t时刻的控制指令,并有at={vt,δt};vt代表车辆t时刻的速度,δt代表车辆t时刻的方向盘角度,定义状态信息集s={s0,s1,...,st,...,sm},s0代表车辆初始时刻的状态,st代表车辆t时刻执行t-1时刻的控制指令at-1后的状态,并有st={xt,yt,εt},xt代表车辆t时刻在大地坐标系下的横坐标,yt代表车辆t时刻在大地坐标系下的纵坐标,εt代表t时刻的航向角;t=1,2,…,m;
步骤4:定义并初始化t=1;更新系数τ,样本数m,目标网络更新频率T,最大迭代次数C;
步骤5:构建模糊动作网络,包括:输入层、隐藏层、输出层;
所述输入层包含一个神经元,用于输入车辆t时刻状态st;
所述隐藏层包括:模糊化层、模糊规则层和模糊决策层;
所述输入层将所述车辆t时刻状态st传递给所述模糊化层;由所述模糊化层中的隶属度函数进行计算,得到车辆t时刻状态st对应的隶属度,并将所述隶属度输入模糊规则层;
利用所述原始数据建立所述模糊规则层中的动作模糊规则,每条动作模糊规则对应输出一个控制指令;所述模糊规则层根据车辆t时刻状态st对应的隶属度计算每条动作模糊规则的适用度后传递给模糊决策层;
所述模糊决策层选出最大适用度所对应的动作模糊规则并输出相应的控制指令at,max1;
所述输出层包含一个神经元,并根据所接收到的模糊规则层输出的控制指令at,max1,利用式(1)得到车辆t时刻的控制指令at并输出;
at=at,max1θmax1 (1)
式(1)中,θmax1表示第max1条动作模糊规则所对应的网络参数;
步骤6:建立样本池集合D;
步骤6.1:在所述模糊动作网络基于车辆t时刻的状态st得到车辆t时刻的控制指令at;
步骤6.2:所述车辆动力学模型执行t时刻的行控制指令at并得到t+1时刻的状态st+1以及t时刻的奖励Rt;将所述t时刻的状态st、控制指令at和奖励Rt作为t时刻的样本{st,at,Rt,st+1}并储存至样本池集合D中;
步骤7、构建与所述模糊动作网络结构相同的目标模糊动作网络,并按照一定的周期更新所述目标模糊动作网络中的网络参数,得到更新后的网络参数θ′max1,并相应输出控制指令a′t;以t时刻的样本{st,at,Rt,st+1}中的t+1时刻的状态st+1作为网络输入,输出t+1时刻的控制指令a′t+1;
步骤8:搭建目标模糊评价网络,包括输入层、隐藏层、输出层;
所述目标模糊评价网络的输入层包含2个神经元;
所述目标模糊评价网络的隐藏层包括:模糊化层,模糊规则层和模糊决策层;
所述目标模糊评价网络的输出层包含1个神经元;
以所述样本池集合D中车辆t+1时刻的状态st+1以及所述目标模糊动作网络输出的控制指令at+1′作为所述目标模糊评价网络的输入并由所述输入层传递给所述模糊化层;由所述模糊化层中的隶属度函数进行计算,得到车辆t时刻状态st对应的隶属度,并传递到模糊规则层;
利用所述原始数据建立所述目标模糊评价网络的模糊规则层中的评价模糊规则,每条目标模糊评价网络的评价模糊规则对应输出一个折扣因子;
所述目标模糊评价网络的模糊规则层根据车辆t时刻状态对应的隶属度计算每条评价模糊规则的适用度;
所述目标模糊评价网络的模糊决策层选出最大适用度所对应的评价模糊规则并输出相应的折扣因子γ′max2;
所述目标模糊评价网络的输出层并根据所接收到的模糊规则层输出的折扣因子γ′max2,利用式(2)得到目标模糊评价网络在t时刻输出的Q值Q′(st+1,a′t+1):
式(3)中,ω′max2表示按照一定的周期更新所述目标模糊评价网络的第max2条网络权值参数后的更新值;γ′max2为折扣因子;
步骤9:建立所述目标模糊评价网络结构相同的模糊评价网络,利用式(3)得到所述模糊评价网络的在t时刻输出的Q值Q(st,at):
式(3)中,ωmax2表示第max2条评价模糊规则所对应的模糊评价网络权值参数,Q′(st+1,a′t+1)为t时刻目标模糊评价网络的输出,γmax2为折扣因子;
步骤10:通过所述模糊评价网络来对所述模糊动作网络进行训练,并通过梯度下降法对模糊动作网络进行更新;
步骤10.1:利用式(4)计算误差函数J(θmax1):
步骤10.2:利用式(5)计算所述模糊动作网络的梯度
步骤10.3:通过式(6)得到更新后的模糊动作网络参数
步骤11:通过所述目标模糊动作网络和目标模糊评价网络对所述模糊评价网络进行训练;
步骤11.1:利用式(7)计算均方差函数L:
步骤11.2:通过式(8)得到更新后的模糊评价网络参数
步骤12:对所述目标模糊动作网络参数θ′max1与目标模糊评价网络的参数ω′max1进行更新;
步骤12.1:若所述最大迭代次数C与所述网络更新频率T比值的余数为1时,利用式(9)对网络参数θ′max1进行更新,得到更新后的目标模糊动作网络参数θ″max1,否则,不更新θ′max1与ω′max1;
θ″max1=τθmax1+(1-τ)θ′max1 (9)
步骤12.2:通过式(10)更新所述目标模糊评价网络参数ω′max1,得到更新后的目标模糊评价网络参数ω″max1:
ω″max1=τωmax+(1-τ)ω′max1 (10)
步骤13:将t+1赋值给t后,判断t>C是否成立,若成立,则结束训练,并得到最优模糊动作网络;否则,返回步骤5执行;
步骤14:利用所述最优模糊动作网络对实时输入的状态信息输出相应的控制指令,从而完成自动泊车。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910810427.0A CN110525428B (zh) | 2019-08-29 | 2019-08-29 | 一种基于模糊深度强化学习的自动泊车方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910810427.0A CN110525428B (zh) | 2019-08-29 | 2019-08-29 | 一种基于模糊深度强化学习的自动泊车方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110525428A true CN110525428A (zh) | 2019-12-03 |
CN110525428B CN110525428B (zh) | 2020-09-04 |
Family
ID=68665186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910810427.0A Active CN110525428B (zh) | 2019-08-29 | 2019-08-29 | 一种基于模糊深度强化学习的自动泊车方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110525428B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260027A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于强化学习的智能体自动决策方法 |
CN111605565A (zh) * | 2020-05-08 | 2020-09-01 | 昆山小眼探索信息科技有限公司 | 基于深度强化学习的自动驾驶行为决策方法 |
CN111661034A (zh) * | 2020-06-04 | 2020-09-15 | 纵目科技(上海)股份有限公司 | 基于深度递归神经网络的车身控制方法、系统、终端和存储介质 |
CN112348258A (zh) * | 2020-11-09 | 2021-02-09 | 合肥工业大学 | 一种基于深度q网络的共享单车预测调度方法 |
CN112356830A (zh) * | 2020-11-25 | 2021-02-12 | 同济大学 | 一种基于模型强化学习的智能泊车方法 |
CN114435380A (zh) * | 2022-02-21 | 2022-05-06 | 浙江蓝盒子航空科技有限公司 | 一种适用于模块化车辆的模糊逻辑控制优化方法 |
CN115817535A (zh) * | 2022-12-23 | 2023-03-21 | 远峰科技股份有限公司 | 基于模糊决策的自动泊车路径规划方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007008624A1 (de) * | 2007-02-22 | 2008-08-28 | Hella Kgaa Hueck & Co. | Verfahren und Vorrichtung zur Lenkführung eines Fahrzeugs |
CN102658819A (zh) * | 2012-05-16 | 2012-09-12 | 涂亚庆 | 一种基于仿人智能控制的汽车自动泊车入位方法 |
US20140012456A1 (en) * | 2010-06-08 | 2014-01-09 | Ford Global Technologies, Llc | Adaptive real-time driver advisory control for a hybrid electric vehicle to achieve fuel economy |
CN105094124A (zh) * | 2014-05-21 | 2015-11-25 | 防灾科技学院 | 基于操作条件反射进行自主路径探索的方法及模型 |
CN107792062A (zh) * | 2017-10-16 | 2018-03-13 | 北方工业大学 | 一种自动泊车控制系统 |
CN109509369A (zh) * | 2018-12-23 | 2019-03-22 | 合肥工业大学 | 智能车位监测方法及其监测系统、城市综合智能交通系统 |
-
2019
- 2019-08-29 CN CN201910810427.0A patent/CN110525428B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007008624A1 (de) * | 2007-02-22 | 2008-08-28 | Hella Kgaa Hueck & Co. | Verfahren und Vorrichtung zur Lenkführung eines Fahrzeugs |
US20140012456A1 (en) * | 2010-06-08 | 2014-01-09 | Ford Global Technologies, Llc | Adaptive real-time driver advisory control for a hybrid electric vehicle to achieve fuel economy |
CN102658819A (zh) * | 2012-05-16 | 2012-09-12 | 涂亚庆 | 一种基于仿人智能控制的汽车自动泊车入位方法 |
CN105094124A (zh) * | 2014-05-21 | 2015-11-25 | 防灾科技学院 | 基于操作条件反射进行自主路径探索的方法及模型 |
CN107792062A (zh) * | 2017-10-16 | 2018-03-13 | 北方工业大学 | 一种自动泊车控制系统 |
CN109509369A (zh) * | 2018-12-23 | 2019-03-22 | 合肥工业大学 | 智能车位监测方法及其监测系统、城市综合智能交通系统 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260027A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于强化学习的智能体自动决策方法 |
CN111260027B (zh) * | 2020-01-10 | 2022-07-26 | 电子科技大学 | 一种基于强化学习的智能体自动决策方法 |
CN111605565A (zh) * | 2020-05-08 | 2020-09-01 | 昆山小眼探索信息科技有限公司 | 基于深度强化学习的自动驾驶行为决策方法 |
CN111661034A (zh) * | 2020-06-04 | 2020-09-15 | 纵目科技(上海)股份有限公司 | 基于深度递归神经网络的车身控制方法、系统、终端和存储介质 |
CN111661034B (zh) * | 2020-06-04 | 2022-07-29 | 纵目科技(上海)股份有限公司 | 基于深度递归神经网络的车身控制方法、系统、终端和存储介质 |
CN112348258B (zh) * | 2020-11-09 | 2022-09-20 | 合肥工业大学 | 一种基于深度q网络的共享单车预测调度方法 |
CN112348258A (zh) * | 2020-11-09 | 2021-02-09 | 合肥工业大学 | 一种基于深度q网络的共享单车预测调度方法 |
CN112356830A (zh) * | 2020-11-25 | 2021-02-12 | 同济大学 | 一种基于模型强化学习的智能泊车方法 |
CN112356830B (zh) * | 2020-11-25 | 2021-11-09 | 同济大学 | 一种基于模型强化学习的智能泊车方法 |
CN114435380A (zh) * | 2022-02-21 | 2022-05-06 | 浙江蓝盒子航空科技有限公司 | 一种适用于模块化车辆的模糊逻辑控制优化方法 |
CN114435380B (zh) * | 2022-02-21 | 2022-09-02 | 浙江蓝盒子航空科技有限公司 | 一种适用于模块化车辆的模糊逻辑控制优化方法 |
CN115817535A (zh) * | 2022-12-23 | 2023-03-21 | 远峰科技股份有限公司 | 基于模糊决策的自动泊车路径规划方法和装置 |
CN115817535B (zh) * | 2022-12-23 | 2023-09-29 | 远峰科技股份有限公司 | 基于模糊决策的自动泊车路径规划方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110525428B (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110525428A (zh) | 一种基于模糊深度强化学习的自动泊车方法 | |
CN110262511B (zh) | 基于深度强化学习的双足机器人自适应性行走控制方法 | |
CN112965499B (zh) | 基于注意力模型和深度强化学习的无人车行驶决策方法 | |
CN108819948B (zh) | 基于逆向强化学习的驾驶员行为建模方法 | |
CN110794842A (zh) | 基于势场的强化学习路径规划算法 | |
Xiang et al. | Task-oriented deep reinforcement learning for robotic skill acquisition and control | |
CN114162146B (zh) | 行驶策略模型训练方法以及自动驾驶的控制方法 | |
CN112232490A (zh) | 一种基于视觉的深度模仿强化学习驾驶策略训练方法 | |
CN108791302B (zh) | 驾驶员行为建模系统 | |
CN108920805B (zh) | 具有状态特征提取功能的驾驶员行为建模系统 | |
CN111625989B (zh) | 一种基于a3c-sru的智能车汇入车流方法及系统 | |
CN112550314B (zh) | 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统 | |
CN105094124A (zh) | 基于操作条件反射进行自主路径探索的方法及模型 | |
CN114973650B (zh) | 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 | |
CN116382267B (zh) | 一种基于多模态脉冲神经网络的机器人动态避障方法 | |
CN113276852B (zh) | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 | |
CN109726676A (zh) | 自动驾驶系统的规划方法 | |
CN117346805B (zh) | 一种非结构化环境的特种车辆自动驾驶路径规划方法 | |
CN115257809A (zh) | 一种人在环的自动驾驶车辆交互学习控制方法及设备 | |
CN114859905A (zh) | 一种基于人工势场法和强化学习的局部路径规划方法 | |
CN115031753B (zh) | 基于安全势场和dqn算法的行车工况局部路径规划方法 | |
CN116894395A (zh) | 一种自动驾驶测试场景的生成方法、系统及存储介质 | |
CN108891421A (zh) | 一种构建驾驶策略的方法 | |
Jaafra et al. | Context-aware autonomous driving using meta-reinforcement learning | |
Li | A hierarchical autonomous driving framework combining reinforcement learning and imitation learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |