CN110525428A

CN110525428A - 一种基于模糊深度强化学习的自动泊车方法

Info

Publication number: CN110525428A
Application number: CN201910810427.0A
Authority: CN
Inventors: 黄鹤; 张润; 张炳力; 郭伟锋; 沈干; 于海涛; 姜平
Original assignee: Hefei Polytechnic University
Current assignee: Hefei University of Technology; Hefei Polytechnic University
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-12-03
Anticipated expiration: 2039-08-29
Also published as: CN110525428B

Abstract

本发明公开了一种基于模糊深度强化学习的自动泊车方法，其步骤包括：1构建模糊动作网络，输出控制指令从而建立样本池集合；2搭建模糊评价网络用于训练模糊动作网络；3搭建目标模糊评价网络与目标模糊动作网络，用于训练模糊评价网络；3以样本池集合中t时刻的样本{s_t,a_t,R_t,s_t+1}作为输入来训练网络；4将t+1的值赋给t返回步骤3继续学习，直到t＞C为止。本发明能通过结合模糊神经网络以及深度强化学习的控制方法来完成自动泊车，从而能使得自动泊车过程更加安全可靠，降低停车事故的发生。

Description

一种基于模糊深度强化学习的自动泊车方法

技术领域

本发明涉及智能汽车自动泊车规划技术领域，具体的说是一种基于模糊深度强化学习的自动泊车方法。

背景技术

随着机动车保有量的不断上升，停车位变得拥挤，车位拥挤会给城市带来安全、经济、环境、健康等方面的问题，停车问题以及成为不可避免的问题。同时，由于停车环境拥挤、司机技术水平的原因，停车事故频频发生。随着泊车技术的发展，车企推出了半自动泊车系统以及全自动泊车系统。半自动泊车系统利用摄像头来采集图像数据以及超声波雷达来检测周围物体距车身的距离数据，通过传感器的数据提醒司机进行泊车，但是还是根据司机主观因素完成泊车；全自动泊车系统采用传统轨迹规划的方法，通常包括两段式或者三段式泊车，存在着传感器误识别、环境复杂、轨迹误差等原因，无法适用于多种泊车环境。

发明内容

本发明为了克服上述现有技术的不足之处，提供一种基于模糊深度强化学习的自动泊车方法，以期通过结合模糊神经网络以及深度强化学习的控制方法来完成自动泊车，从而能使得自动泊车过程更加安全可靠，降低停车事故的发生。

本发明为达到上述发明目的，采用如下的技术方案是：

本发明一种基于模糊深度强化学习的自动泊车方法的特点在于，包括以下步骤；

步骤1：建立车辆动力学模型以及泊车环境模型；

步骤2：收集真实场景中基于驾驶员经验的泊车数据作为原始数据，所述泊车数据为车辆的状态信息与车辆控制指令；

步骤3：定义车辆控制指令集a＝{a₀,a₁,...,a_t,...,a_m}，a₀代表车辆初始时刻的控制指令，a_t代表车辆t时刻的控制指令，并有a_t＝{v_t,δ_t}；v_t代表车辆t时刻的速度，δ_t代表车辆t时刻的方向盘角度，定义状态信息集s＝{s₀,s₁,...,s_t,...,s_m}，s₀代表车辆初始时刻的状态，s_t代表车辆t时刻执行t-1时刻的控制指令a_t-1后的状态，并有s_t＝{x_t,y_t,ε_t}，x_t代表车辆t时刻在大地坐标系下的横坐标，y_t代表车辆t时刻在大地坐标系下的纵坐标，ε_t代表t时刻的航向角；t＝1,2,…,m；

步骤4：定义并初始化t＝1；更新系数τ，样本数m，目标网络更新频率T，最大迭代次数C；

步骤5：构建模糊动作网络，包括：输入层、隐藏层、输出层；

所述输入层包含一个神经元，用于输入车辆t时刻状态s_t；

所述隐藏层包括：模糊化层、模糊规则层和模糊决策层；

所述输入层将所述车辆t时刻状态s_t传递给所述模糊化层；由所述模糊化层中的隶属度函数进行计算，得到车辆t时刻状态s_t对应的隶属度，并将所述隶属度输入模糊规则层；

利用所述原始数据建立所述模糊规则层中的动作模糊规则，每条动作模糊规则对应输出一个控制指令；所述模糊规则层根据车辆t时刻状态s_t对应的隶属度计算每条动作模糊规则的适用度后传递给模糊决策层；

所述模糊决策层选出最大适用度所对应的动作模糊规则并输出相应的控制指令a_t,max1；

所述输出层包含一个神经元，并根据所接收到的模糊规则层输出的控制指令a_t,max1，利用式(1)得到车辆t时刻的控制指令a_t并输出；

a_t＝a_t,max1θ_max1 (1)

式(1)中，θ_max1表示第max1条动作模糊规则所对应的网络参数；

步骤6：建立样本池集合D；

步骤6.1：在所述模糊动作网络基于车辆t时刻的状态s_t得到车辆t时刻的控制指令a_t；

步骤6.2：所述车辆动力学模型执行t时刻的行控制指令a_t并得到t+1时刻的状态s_t+1以及t时刻的奖励R_t；将所述t时刻的状态s_t、控制指令a_t和奖励R_t作为t时刻的样本{s_t,a_t,R_t,s_t+1}并储存至样本池集合D中；

步骤7、构建与所述模糊动作网络结构相同的目标模糊动作网络，并按照一定的周期更新所述目标模糊动作网络中的网络参数，得到更新后的网络参数θ′_max1，并相应输出控制指令a′_t；以t时刻的样本{s_t,a_t,R_t,s_t+1}中的t+1时刻的状态s_t+1作为网络输入，输出t+1时刻的控制指令a′_t+1；

步骤8：搭建目标模糊评价网络，包括输入层、隐藏层、输出层；

所述目标模糊评价网络的输入层包含2个神经元；

所述目标模糊评价网络的隐藏层包括：模糊化层，模糊规则层和模糊决策层；

所述目标模糊评价网络的输出层包含1个神经元；

以所述样本池集合D中车辆t+1时刻的状态s_t+1以及所述目标模糊动作网络输出的控制指令a_t+1′作为所述目标模糊评价网络的输入并由所述输入层传递给所述模糊化层；由所述模糊化层中的隶属度函数进行计算，得到车辆t时刻状态s_t对应的隶属度，并传递到模糊规则层；

利用所述原始数据建立所述目标模糊评价网络的模糊规则层中的评价模糊规则，每条目标模糊评价网络的评价模糊规则对应输出一个折扣因子；

所述目标模糊评价网络的模糊规则层根据车辆t时刻状态对应的隶属度计算每条评价模糊规则的适用度；

所述目标模糊评价网络的模糊决策层选出最大适用度所对应的评价模糊规则并输出相应的折扣因子γ′_max2；

所述目标模糊评价网络的输出层并根据所接收到的模糊规则层输出的折扣因子γ′_max2，利用式(2)得到目标模糊评价网络在t时刻输出的Q值Q′(s_t+1,a′_t+1)：

式(3)中，ω′_max2表示按照一定的周期更新所述目标模糊评价网络的第max2条网络权值参数后的更新值；γ′_max2为折扣因子；

步骤9：建立所述目标模糊评价网络结构相同的模糊评价网络，利用式(3)得到所述模糊评价网络的在t时刻输出的Q值Q(s_t,a_t)：

式(3)中，ω_max2表示第max2条评价模糊规则所对应的模糊评价网络权值参数，Q′(s_t+1,a′_t+1)为t时刻目标模糊评价网络的输出，γ_max2为折扣因子；

步骤10：通过所述模糊评价网络来对所述模糊动作网络进行训练，并通过梯度下降法对模糊动作网络进行更新；

步骤10.1：利用式(4)计算误差函数J(θ_max1)：

步骤10.2：利用式(5)计算所述模糊动作网络的梯度

步骤10.3：通过式(6)得到更新后的模糊动作网络参数θ^* _max1：

步骤11：通过所述目标模糊动作网络和目标模糊评价网络对所述模糊评价网络进行训练；

步骤11.1：利用式(7)计算均方差函数L：

步骤11.2：通过式(8)得到更新后的模糊评价网络参数ω^* _max1：

步骤12：对所述目标模糊动作网络参数θ′_max1与目标模糊评价网络的参数ω′_max1进行更新；

步骤12.1：若所述最大迭代次数C与所述网络更新频率T比值的余数为1时，利用式(9)对网络参数θ′_max1进行更新，得到更新后的目标模糊动作网络参数θ″_max1，否则，不更新θ′_max1与ω′_max1；

θ″_max1＝τθ_max1+(1-τ)θ′_max1 (9)

步骤12.2：通过式(10)更新所述目标模糊评价网络参数ω′_max1，得到更新后的目标模糊评价网络参数ω″_max1：

ω″_max1＝τω_max+(1-τ)ω′_max1 (10)

步骤13：将t+1赋值给t后，判断t＞C是否成立，若成立，则结束训练，并得到最优模糊动作网络；否则，返回步骤5执行；

步骤14：利用所述最优模糊动作网络对实时输入的状态信息输出相应的控制指令，从而完成自动泊车。

与已有技术相比，本发明的有益效果体现在：

1.单纯运用人工智能领域的深度强化学习方法，虽具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，本发明方法将两者结合起来，优势互补；

2.本发明中模糊神经网络融合了神经网络与模糊控制策略，通过在神经网络中加入模糊控制策略，可以在初期采集泊车数据时，通过模糊控制方法利用人工泊车经验的特点，可以使车辆在不同的初始位姿下能够准确泊车车位，根据上述特点，针对当前泊车环境选择一个较优的车辆控制指令，缩短了初期探索的试错时间通过这种方式既使网络能够探索更好的策略，减少了试错时间，使模糊深度强化学习的自动泊车控制指令能够以更快于常规深度强化学习的速度收敛至符合正常驾驶预期的效果；

附图说明

图1为本发明车辆动力学模型与泊车环境模型示意图；

图2为本发明网络训练流程图；

图3为本发明模糊动作网络架构图；

图4为本发明样本池建立流程图；

图5为本发明目标模糊动作网络架构图；

图6为本发明目标模糊评价网络架构图；

图7为本发明模糊评价网络架构图。

具体实施方式

本实施例中，一种基于模糊深度强化学习的自动泊车方法包括以下步骤；

步骤1：建立车辆动力学模型以及泊车环境模型，以大地坐标系为参考坐标系，定义泊车起始位置与泊车停车位置，如图1所示；

步骤2：收集真实场景中基于驾驶员经验的泊车数据作为原始数据，泊车数据为车辆的状态信息与车辆控制指令；车辆状态信息包括车辆在大地坐标系下的坐标，航向角；车辆控制指令包括车辆的速度以及方向盘转向角；

步骤3：定义车辆控制指令集a＝{a₀,a₁,...,a_t,...,a_m}，a₀代表车辆初始时刻的控制指令，a_t代表车辆t时刻的控制指令，并有a_t＝{v_t,δ_t}；v_t代表车辆t时刻的速度，δ_t代表车辆t时刻的方向盘角度，按照控制指令，控制车辆移动以及转向；定义状态信息集s＝{s₀,s₁,...,s_t,...,s_m}，s₀代表车辆初始时刻的状态，s_t代表车辆t时刻执行t-1时刻的控制指令a_t-1后的状态，并有s_t＝{x_t,y_t,ε_t}，x_t代表车辆t时刻在大地坐标系下的横坐标，y_t代表车辆t时刻在大地坐标系下的纵坐标，ε_t代表t时刻的航向角，t＝1,2,…,m；

步骤4：定义并初始化t＝1；更新系数τ，样本数m，目标网络更新频率T，最大迭代次数C；训练流程如图2所示；

步骤5：构建模糊动作网络，如图3所示；包括：模糊动作网络输入层、模糊动作网络隐藏层、模糊动作网络输出层；

模糊动作网络输入层包含一个神经元，用于输入车辆t时刻状态s_t；

模糊动作网络隐藏层包括：模糊动作网络模糊化层、模糊动作网络模糊规则层和模糊动作网络模糊决策层；

模糊动作网络输入层将车辆t时刻状态s_t传递给模糊动作网络模糊化层，将泊车时输入的车辆状态s_t模糊化；由模糊动作网络模糊化层中的隶属度函数进行计算，得到车辆t时刻状态s_t对应的隶属度，并将隶属度输入模糊动作网络模糊规则层；

利用原始数据建立模糊规则层中的动作模糊规则，每条动作模糊规则对应输出一个控制指令；这一步骤是利用了模糊控制的特性，通过原始数据建立的模糊规则，具备人工泊车经验的特性，能够在给定输入的情况下，输出较优的控制指令，减少了初期探索的试错时间，提升效率，使模糊深度强化学习的自动泊车控制指令能够以更快于常规深度强化学习的速度收敛至符合正常驾驶预期的效果；模糊动作网络模糊规则层根据车辆t时刻状态s_t对应的隶属度计算每条动作模糊规则的适用度后传递给模糊动作网络模糊决策层；

模糊动作网络模糊决策层选出最大适用度所对应的动作模糊规则并输出相应的控制指令a_t,max1；

模糊动作网络输出层包含一个神经元，并根据所接收到的模糊规则层输出的控制指令a_t,max1，利用式(1)得到车辆t时刻的控制指令a_t并输出；

a_t＝a_t,max1θ_max1 (1)

步骤6：建立样本池集合D，如图4所示；

步骤6.1：在模糊动作网络基于车辆t时刻的状态s_t得到车辆t时刻的控制指令a_t；

步骤6.2：车辆动力学模型执行t时刻的行控制指令a_t并得到t+1时刻的状态s_t+1以及t时刻的奖励R_t；将t时刻的状态s_t、控制指令a_t和奖励R_t作为t时刻的样本{s_t,a_t,R_t,s_t+1}并储存至样本池集合D中；

定义泊车位中心在大地系坐标系下的坐标为P＝{X,Y}；

定义泊车时障碍物在大地系坐标系下的坐标为O_obi＝{X_obi,Y_obi},i＝1,2...n；

奖励R_t定义如下所示：

执行控制指令a_t后，s_t+1＝{x_t+1,y_t+1,ε_t+1}，若同时满足式(2)与式(3)，即不与障碍物发生碰撞且与车辆t+1时刻到泊车位中心的距离小于t时刻到泊车位中心的距离，则R_t＝1：

[(x_t-X_obi)²+(y_t-Y_obi)²]≥ξ (2)

式(2)中，ξ表示距离阈值；

(x_t+1-X)²+(y_t+1-Y)²＜(x_t-X)²+(y_t-Y)² (3)

若满足式(4)，即车辆与障碍物发生碰撞，则R_t＝-1：

[(x_t-X_obi)²+(y_t-Y_obi)²]≤ξ (4)

其他情况R_t均为0；

步骤7、构建与模糊动作网络结构相同的目标模糊动作网络，网络参数为θ′_max1，以t时刻的样本{s_t,a_t,R_t,s_t+1}中的t+1时刻的状态s_t+1作为网络输入，输出t+1时刻的控制指令a′_t+1；，如图5所示；并按照一定的周期更新目标模糊动作网络中的网络参数；

步骤8：搭建目标模糊评价网络，如图6所示；包括目标模糊评价网络输入层、目标模糊评价网络隐藏层、目标模糊评价网络输出层；

目标模糊评价网络的输入层包含2个神经元；

目标模糊评价网络的隐藏层包括：目标模糊评价网络模糊化层，目标模糊评价网络模糊规则层和目标模糊评价网络模糊决策层；

目标模糊评价网络的输出层包含1个神经元；

以样本池集合D中车辆t+1时刻的状态s_t+1以及目标模糊动作网络输出的控制指令a_t+1′作为目标模糊评价网络的输入并由目标模糊评价网络输入层传递给目标模糊评价网络模糊化层；由目标模糊评价网络模糊化层中的隶属度函数进行计算，得到车辆t时刻状态s_t对应的隶属度，并传递到目标模糊评价网络模糊规则层；

利用原始数据建立目标模糊评价网络的模糊规则层中的评价模糊规则，这一步骤是利用了模糊控制的特性，通过在神经网络中加入模糊控制策略，可以通过采集的原始数据时建立评价模糊规则，每条目标模糊评价网络的评价模糊规则对应输出一个折扣因子，折扣因子用于计算目标模糊评价网络的输出；

目标模糊评价网络的模糊规则层根据车辆t时刻状态对应的隶属度计算每条评价模糊规则的适用度；

目标模糊评价网络的模糊决策层选出最大适用度所对应的评价模糊规则并输出相应的折扣因子γ′_max2；

目标模糊评价网络的输出层并根据所接收到的模糊规则层输出的折扣因子γ′_max2，利用式(2)得到目标模糊评价网络在t时刻输出的Q值Q′(s_t+1,a′_t+1)，Q′(s_t+1,a′_t+1)用于评价在t+1时刻采取控制指令a_t+1′的可取性，越高代表该控制指令可取性越大：

式(3)中，ω′_max2表示按照一定的周期更新目标模糊评价网络的第max2条网络权值参数后的更新值；γ′_max2为目标模糊评价网络的折扣因子；

步骤9：建立目标模糊评价网络结构相同的模糊评价网络，如图7所示；利用式(3)得到模糊评价网络的在t时刻输出的Q值Q(s_t,a_t)，用于评价在t时刻采取控制指令a_t的可取程度，越高代表该控制指令可取性越大：

式(3)中，ω_max2表示第max2条评价模糊规则所对应的模糊评价网络权值参数，Q′(s_t+1,a′_t+1)为t时刻目标模糊评价网络的输出，γ_max2为模糊评价网络的折扣因子；

步骤10：通过模糊评价网络来对模糊动作网络进行训练，对模糊动作网络进行更新；

步骤10.1：利用式(4)计算误差函数J(θ_max1)：

步骤10.2：利用式(5)计算模糊动作网络的梯度

步骤11：通过目标模糊动作网络和目标模糊评价网络对模糊评价网络进行训练；

步骤11.1：在这里，目标模糊评价网络与模糊评价网络在同一时刻输出不同Q值，通过使用均方差函数进行求导计算来对模糊评价网络参数进行更新；

利用式(7)计算均方差函数L：

步骤12：对目标模糊动作网络参数θ′_max1与目标模糊评价网络的参数ω′_max1进行更新；由于两种目标网络参数变化小，在训练模糊动作网络和模糊评价网络时，比较稳定，使模糊深度强化学习训练的控制指令更快收敛。定期对目标网络参数进行更新，可以增加网络训练的效率；

步骤12.1：两种网络参数按照一定时间周期更新，更新策略为：若最大迭代次数C与网络更新频率T比值的余数为1时，利用式(9)对网络参数θ′_max1进行更新，得到更新后的目标模糊动作网络参数θ″_max1，否则，不更新θ′_max1与ω′_max1；

θ″_max1＝τθ_max1+(1-τ)θ′_max1 (9)

步骤12.2：通过式(10)更新目标模糊评价网络参数ω′_max1，得到更新后的目标模糊评价网络参数ω″_max1：

ω″_max1＝τω_max+(1-τ)ω′_max1 (10)

步骤14：利用最优模糊动作网络对实时输入的状态信息输出相应的控制指令，从而完成自动泊车。

Claims

1.一种基于模糊深度强化学习的自动泊车方法，其特征在于，包括以下步骤；

步骤1：建立车辆动力学模型以及泊车环境模型；

所述输入层包含一个神经元，用于输入车辆t时刻状态s_t；

所述隐藏层包括：模糊化层、模糊规则层和模糊决策层；

a_t＝a_t,max1θ_max1 (1)

步骤6：建立样本池集合D；

所述目标模糊评价网络的输入层包含2个神经元；

所述目标模糊评价网络的输出层包含1个神经元；

步骤10.1：利用式(4)计算误差函数J(θ_max1)：

步骤10.2：利用式(5)计算所述模糊动作网络的梯度

步骤10.3：通过式(6)得到更新后的模糊动作网络参数

步骤11.1：利用式(7)计算均方差函数L：

步骤11.2：通过式(8)得到更新后的模糊评价网络参数

θ″_max1＝τθ_max1+(1-τ)θ′_max1 (9)

ω″_max1＝τω_max+(1-τ)ω′_max1 (10)