CN111645673A

CN111645673A - 一种基于深度强化学习的自动泊车方法

Info

Publication number: CN111645673A
Application number: CN202010552372.0A
Authority: CN
Inventors: 龙强; 陶顺波
Original assignee: Southwest University of Science and Technology
Current assignee: Zhongchuang Ziyun (Ningbo) achievement industrialization Service Co.,Ltd.
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-09-11
Anticipated expiration: 2040-06-17
Also published as: CN111645673B

Abstract

本发明提供了一种基于深度强化学习的自动泊车方法，本发明的基本思想是使用深度学习强大的感知能力来感知汽车的当前状态，即感知汽车和停车位的相对位置关系，然后把汽车的状态输入进深度确定性策略梯度模型，利用强化学习的决策能力得到在该状态下需要执行的动作，把需要执行的动作输入环境模型得到下一状态和奖励函数值，然后通过一个奖励机制去评价刚刚执行的动作的好坏，并引导汽车朝着停车点的方向行驶，在下一个状态重复执行前面的操作，直到模型收敛，即汽车准确泊达车位。本发明通过以上设计，解决了现在的自动泊车系统无法做到和环境的实时交互，以及无法实现在任意地点和任意角度开始泊车的问题。

Description

一种基于深度强化学习的自动泊车方法

技术领域

本发明属于汽车技术领域，尤其涉及一种基于深度强化学习的自动泊车方法。

背景技术

随着汽车行业的不断发展和汽车保有量的不断增加，城市的停车困难问题越来越严重，自动泊车技术开始得到发展。自动泊车不仅可以解放双手、方便人们的生活，还能减轻城市的停车压力，降低泊车过程中的安全隐患，在城市建设中具有非常重要的作用。

现在自动泊车系统的主要研究是根据传感器检测到的停车位来规划停车路径，然后根据路径跟踪模块来引导汽车去跟随规划的泊车路线。但是，泊车过程是一个动态过程，需要不断的和周围的环境进行实时交互才能保证在泊车过程中应对突然出现的障碍物，而现在的自动泊车系统不能在泊车的过程中实现和环境的实时交互，不能保证泊车过程中的汽车和人员的安全。同时，在一些使用深度强化学习算法的系统中也只能在规定的地点、特定方向上进行停车，具有很大的限制，无法做到全自动泊车。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于深度强化学习的自动泊车方法，解决了现在的自动泊车系统无法做到和环境的实时交互，以及无法实现在任意地点和任意角度开始泊车的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于深度强化学习的自动泊车方法，包括以下步骤：

S1、随机初始化汽车的开始状态；

S2、对汽车的开始状态进行数据归一化处理，并利用深度确定性策略梯度模型计算得到汽车在当前状态下所需执行的动作；

S3、将所述汽车在当前状态下所需执行的动作输入至模拟环境模型，得到汽车的下一状态以及奖励函数值；

S4、收集汽车的当前状态、奖励函数值、下一状态以及执行动作，并作为一条数据存储于深度确定性策略梯度模型的经验回放池中；

S5、判断经验回放池是否收集满10000条数据，若是，则执行步骤S6，若否，则返回步骤S1；

S6、随机从经验回放池中抽取30条数据对所述深度确定性策略梯度模型进行训练，并判断深度确定性策略梯度模型是否收敛，若是，则深度确定性策略梯度模型训练完毕，并进入步骤S7，否则，利用经验回放池中的数据再次训练深度确定性策略梯度模型，并重复步骤S6；

S7、将汽车当前状态输入至训练好的深度确定性策略梯度模型，得到汽车在当前状态下所需执行的动作；

S8、将当前所需执行的动作输入至汽车，并让汽车与环境进行交互转移至汽车下一状态；

S9、判断汽车的下一状态是否处于泊车到位的状态，若是，则完成自动泊车，否则，返回步骤S7。

进一步地，所述步骤S2中深度确定性策略梯度模型包括：Actor当前网络、Actor目标网络、Critic当前网络、Critic目标网络以及经验回放池，其中，

所述Actor当前网络，用于负责策略网络参数的迭代更新，以及根据汽车当前状态选择当前动作，以及用于和环境交互生成下一状态和奖励函数值；

所述Actor目标网络，用于根据经验回放池中的汽车下一状态选择最优的下一动作；

所述Critic当前网络，用于负责价值网络参数的迭代更新，以及用于计算汽车当前动作的价值函数值；

所述Critic目标网络，用于根据汽车当前动作的价值函数值计算得到下一状态的动作价值函数值；

所述经验回放池，用于存储汽车和环境交互得到的奖励函数值与状态更新情况，以及用于更新目标值。

再进一步地，所述步骤S3中的模拟环境模型包括运动学模型以及奖励函数值，且所述奖励函数值包括无限制模拟环境的奖励函数值以及有限制模拟环境的奖励函数值。

再进一步地，建立运动学模型包括以下步骤：

A1、初始化汽车右后轮M点的坐标为(x₀,y₀)，设汽车方向为θ，并计算得到汽车右后轮M到汽车几何中心N的距离，并根据所述汽车右后轮M到汽车几何中心N的距离计算得到汽车几何中心N的坐标；

A2、根据汽车几何中心N的坐标以及汽车在当前状态下所需执行的动作，计算得到汽车右后轮M到汽车圆心Q的距离；

A3、根据所述汽车右后轮M到汽车圆心Q的距离，计算得到汽车圆心Q的坐标；

A4、根据汽车圆心Q的坐标计算得到汽车右后轮M执行动作之后到达的点M'的坐标，从而建立运动学模型。

再进一步地，所述步骤A1中汽车几何中心N坐标的表达式如下：

x＝x₀+d*cos(μ)

y＝y₀+d*sin(μ)

μ＝α'+θ

其中，(x,y)表示汽车几何中心N的坐标，(x₀,y₀)表示初始化状态下汽车右后轮M点的坐标，μ表示d和X轴正方向的夹角，α'表示汽车几何中心N到汽车后轮距中点E与汽车几何中心N到汽车右后轮点M之间的夹角，d表示汽车右后轮M点到汽车中心点N的距离，L表示汽车轴距，B表示汽车前轮距。

再进一步地，所述步骤A2中汽车右后轮M到汽车圆心Q的距离R的表达式如下：

其中，α≥0表示汽车往车头的左边转向，α<0表示汽车往车头的右边转向，tan(·)表示正切函数，α表示汽车的转向角度，R表示汽车右后轮M做圆周运动的半径，L表示汽车轴距，B表示汽车前轮距。

再进一步地，所述步骤A3中汽车圆心Q的坐标的表达式如下：

x₁＝x₀+R*cos(δ)

y₁＝y₀+R*sin(δ)

其中，α≥0表示汽车往车头的左边转向，α<0表示汽车往车头的右边转向，α表示汽车的转向角度，δ表示汽车右后轮M到圆周运动的圆心的夹角，(x₁,y₁)表示汽车圆心Q的坐标，R表示汽车右后轮M做圆周运动的半径，θ表示汽车方向，(x₀,y₀)表示汽车右后轮M点的坐标。

再进一步地，所述步骤A4中汽车右后轮M执行动作之后到达的点M'的坐标的表达式如下：

其中，(x₂,y₂)表示M'的坐标，M'表示汽车右后轮执行动作之后到达的点，go和back分别表示汽车前进和倒车，(x₀,y₀)表示初始化状态下汽车右后轮M点的坐标，(x₁,y₁)表示汽车圆心Q的坐标，s表示汽车在当前状态按转向角度α行驶的距离，R表示汽车右后轮M做圆周运动的半径，β表示汽车由几何中心N到执行动作后到达点N'的过程中转过的角度。

再进一步地，所述无限制模拟环境的奖励函数值的表达式如下：

r＝-w₁*l-w₂*η

η＝|θ-180|

其中，r表示奖励函数值，l表示汽车与停车点的距离，w₁表示汽车与停车点的距离的权重，η表示汽车方向和X轴负方向的夹角，w₂汽车方向和X轴负方向的夹角的权重，θ表示汽车方向。

再进一步地，所述有限制模拟环境的奖励函数值的表达式如下：

r＝-w₁*l-w₂*η-20

η＝|θ-180|

本发明的有益效果：

(1)本发明在无限制模拟环境中，能够实现全自动泊车。在无限制模拟环境中，汽车在泊车过程中的动作选择会更广泛，因为停车位周围没有任何的限制，汽车能够在不需要人工干预的情况下通过自足选择动作到达到停车位，实现全自动泊车；在有限制模拟环境中，增加必要的约束条件之后，汽车在泊车过程中的选择变少，避免了汽车执行无意义的动作，使得汽车能够执行更少的动作到达停车点，提高了效率，但是模型的训练时间会变长并且稳定性会降低。

(2)本发明能在泊车的过程中实现和环境的实时交互，保障汽车和人员安全。汽车在每次执行动作都会感知汽车的当前状态再执行动作，即汽车在泊车的过程中会多次的和环境进行交互，保证汽车能够及时的感知突然出现的障碍物，防止交通事故的发生。

(3)本发明能从任何初始点开始自动泊车。汽车在开始泊车前不需要把汽车停到特定位置，在泊车的过程中汽车会自动寻找合适的角度去泊车。

附图说明

图1为本发明的算法流程图。

图2为本发明中深度确定性策略梯度算法DDPG的框架图。

图3为本发明中泊车过程的运动学模型图。

图4为本发明中Actor网络的网络框架。

图5为本发明中Critic网络的网络框架。

图6为本发明中无限制环境中随机一次迭代的汽车与停车位距离变化图和泊车过程图。

图7为本发明中有限制环境中随机一次迭代的汽车与停车位距离变化图和泊车过程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例

本发明的基本思想是使用深度学习强大的感知能力来感知汽车的当前状态，即感知汽车和停车位的相对位置关系，然后把汽车的状态输入进网络模型，利用强化学习的决策能力得到在该状态下需要执行的动作，把需要执行的动作输入进环境模型得到下一状态和奖励函数值，然后通过一个奖励机制去评价刚刚执行的动作的好坏，并引导汽车朝着停车点的方向行驶，最后在下一个状态重复执行前面的操作，直到得到一条最优的泊车路线。

为了感知汽车的当前状态，设计两种不同复杂程度的模拟环境：无限制模拟环境和有限制模拟环境。无限制模拟环境表示停车位周围没有任何的障碍物，汽车在泊车的过程中具有很大选择空间。有限制模拟环境更加接近真实的停车环境，具有一个长方形的停车位，汽车需要在有限制的空间中到达停车位。在模拟环境中，把汽车和停车车位简化成矩形，以停车位的中心点为直角坐标系的原点，汽车的状态在坐标系中可以用其中心点的坐标和车头方向表示，这里的方向表示车头和X轴正方向之间的夹角，大小在0-360度之间，此时汽车的状态空间为三元组S(x,y,θ)或二元组S(d,θ)，其中，S表示状态空间，d表示汽车到停车点的距离，θ表示汽车的方向，(x,y)表示汽车中心点的坐标。汽车在泊车过程中执行的动作主要包括，前进、后退、转向等，为了简化模型，假设汽车是从当前状态按转向角度a行驶s米到达下一状态，因此只考虑汽车是怎么从前一个坐标到达下一个坐标的，而不用考虑是以怎样的速度到达另一个地点，此时汽车的动作空间简化为A(α,s)，其中，A表示动作空间，a表示车头的转向角度，s表示汽车行驶的距离。

如图1所示，本发明提供了一种基于深度强化学习的自动泊车方法，其实现方法如下：

S1：随机初始化汽车的开始状态s_t(d_t,θ_t)，其中，s_t表示t时刻的状态空间，d_t表示t时刻汽车到停车点的距离，θ_t表示t时刻汽车的方向；

S2：对汽车的开始状态s_t(d_t,θ_t)进行数据归一化处理，并利用深度确定性策略梯度模型计算得到汽车在当前状态下所需执行的动作a_t(α_t,s_t)，其中，a_t表示t时刻的动作空间；

本实施例中，深度确定性策略梯度模型DDPG为深度确定性策略梯度算法(DeepDeterministic Policy Gradient Algorithms)，为深度强化学习算法中的一种，能够处理连续动作空间问题，得到确定性的输出结果，并且具有很好的算法稳定性。DDPG算法框架可以分成两个小框架：演员(Actor)和评论家(Critic),Actor网络属于策略网络，负责动作选择，而Critic网络属于价值网络，负责评价策略的好坏，其利用Q-learning这个算法得到的网络，Actor和Critic框架下分别又有两个网络，即DDPG算法框架具有4个网络，分别为：Actor当前网络，Actor目标网络，Critic当前网络，Critic目标网络。其中，当前网络在结束一次小批量的样本训练之后，通过梯度上升或者梯度下降算法更新当前网络的参数，而目标网络的参数的更新是通过软更新的方法，即在网络训练时每执行一次动作就把当前网络的参数复制到目标网络中。具体的框架如图2所示。在图2中，μ表示当前策略网络，μ'表示目标策略网络，s(t)表示当前策略网络的参数，N(t)表示随机噪声，a(t)表示执行动作，θ(μ)表示当前策略网络的参数，θ(μ')表示目标策略网络的参数，θ(Q)表示当前Q网络的参数，θ(Q')表示目标Q网络的参数，N(s_i,a_i,r_i,s_i+1)表示批量数据，a＝μ(s_i)表示把数据s_(i)输入进策略网络得到执行动作a，μ'(s_i+1)表示把数据s_(i+1)输入目标策略网络。

本实施例中，Actor网络使用了1层输入层和4层隐藏层的全连接神经网络。Actor网络第一层为输入层，因为Actor网络的输入为车辆的状态，即车辆的横、纵坐标以及车辆方向，所以输入层使用了3个神经元节点；第二层使用了30个神经元节点，激活函数为Tanh；第三层使用了45个神经元，为了防止过拟合，激活函数为Relu；第四层使用了20个神经元，激活函数为Tanh；第五层为输出层，因为Actor神经网络的输出为执行动作，即车辆的转向方向、移动距离，所以输出层使用了2个神经元，同时为了保证输出范围为[-1,1]，激活函数使用Tanh。

Critic网络第一层为输入层，输入为当前状态的横、纵坐标、车辆方向和下一状态的横、纵坐标、车辆方向和车辆的转向方向、移动距离以及奖励函数值，使用了9个神经元节点，第二层使用了30个神经元节点，激活函数为Relu，第三层使用了45个神经元，激活函数为Tanh，第四层使用了25个神经元，激活函数为Relu，第五层为输出层，输出结果为Q值，所以使用了1个神经元，没有使用激活函数。

Actor网络的具体框架图如图3所示，Critic网络的具体框架图如图4所示。

S3：将所述汽车在当前状态下所需执行的动作a_t(α_t,s_t)输入至模拟环境模型，得到汽车的下一状态s_t+1(d_t+1,θ_t+1)以及奖励函数值r_t，其中，s_t+1表示t+1时刻的动作空间，d_t+1表示t+1时刻汽车到停车点的距离，θ_t+1表示t+1时刻汽车的方向；

本实施例中，深度强化学习中的神经网络的训练需要大量的数据，但是在进行研究时，并没有足够的数据来进行训练，若要得到真实的数据，需要花费大量的时间与精力。为解决这个困难，本申请通过建立模拟环境模型来模拟真实的环境，并通过模拟泊车过程获得训练数据，同时实现模拟环境和汽车的实时交互。

本实施例中，汽车在执行动作a_t(α_t,s_t)时，状态的转化需要建立在精确的运动学模型上。运动学模型如图5所示，图5中，N点表示汽车的几何中心，M点表示汽车的右后轮，Q点表示汽车做圆周运动的中心点。汽车执行一次动作的泊车过程大致可以表示为汽车在N点执行特定动作后到达N'点，其中，N'表示汽车中心点在下一状态的位置。建立运动学模型的步骤如下：

A1、初始化右后轮M点的坐标为(x₀,y₀)，设汽车方向为θ，则M到N的距离为：

线段d的和X轴正方向的夹角为μ＝α'+θ，则汽车中心N点的坐标可以表示为：

x＝x₀+d*cos(μ)

y＝y₀+d*sin(μ)

在输入汽车要执行的动作(α,s)之后，所述步骤A2中汽车右后轮M到汽车圆心Q的距离R的表达式如下：

其中，α≥0表示汽车往车头的左边转向，α<0表示汽车往车头的右边转向，tan(·)表示正切函数，α表示汽车的转向角度，R表示汽车右后轮M做圆周运动的半径，L表示汽车轴距，B表示汽车前轮距。汽车由N到N'点的过程中，转过的角度β为：

A3、根据所述汽车右后轮M到汽车圆心Q的距离，计算得到汽车圆心Q的坐标：

x₁＝x₀+R*cos(δ)

y₁＝y₀+R*sin(δ)

点M'的坐标的表达式如下：

这里的“go”和“back”分别表示前进和倒车，假设前进和倒车都是圆周运动。

通过上面的方法可以精确的得到M'的坐标，同时在M'点可以循环执行上面的操作，直到汽车到达停车位置。

本实施例中，为保证汽车在泊车的过程中往停车位方向移动，设计一种奖励机制，当汽车与停车位之间的距离变短时将会获得更大的奖励，鼓励汽车往停车位方向移动，反之则获得较小的奖励。假设规定的停车方向是车头朝向X轴正方向或负方向，即和X轴平行。则最好的泊车情况就是，汽车位于坐标原点，同时车头朝向X轴正方向或负方向。

本实施例中，结合汽车的运动学模型分析，把奖励函数值分成两部分：一部分是汽车中心点N到坐标原定的距离乘以权重，另一部分是汽车方向和X轴负方向的夹角η乘以权重，两者相加之和共同决定。无限制模拟环境的奖励函数的表达式如下：

r＝-w₁*l-w₂*η

η＝|θ-180|

本实施例中，汽车在靠近坐标原点的时候，所获得的奖励就越大，远离坐标原点时所获得的奖励就比较小，所以鼓励它往坐标原点靠近。同时在离坐标原点较远的区域，角度所占整个奖励函数值的比例不大，在慢慢靠近坐标原点的过程中，我们希望夹角η不断的减小，同时角度所占整个奖励函数值的比例慢慢增大。

本实施例中，有限制模拟环境中的奖励函数需要保证在训练的过程中汽车不会触碰到受限制的地方，若汽车在执行动作之后，车身触碰到受限制的地方则会受到一定的惩罚，有限制模拟环境的奖励函数的表达式如下：

r＝-w₁*l-w₂*η-20

η＝|θ-180|

其中，w₁和w₂分别为0.65和0.55。

本实施例中，将所述汽车的下一状态、奖励函数值、当前状态以及执行动作(s_t,a_t,r_t,s_t+)存储至深度确定性策略梯度模型的经验回放池中，作为神经网络更新的训练参数，其中，s_t表示t时刻的状态，a_t表示t时刻执行的动作，r_t表示t时刻得到的奖励函数值，s_t+表示t+1时刻的状态，重复执行S1-S3步骤，直到收集10000条训练数据，此时开始网络训练。每次从经验回放池中随机取出batch_size为140的训练数据进行网络训练，其中，Actor网络的学习率为0.002，Critic网络的学习率为0.00192。

本实施例中，训练迭代2000次，每次迭代执行50次动作，训练300次左右模型即可收敛。

本实施例中，通过以上步骤能实现在两种不同的模拟环境中实现自动泊车，图6表示无限制模拟环境中的自动泊车过程图，图7有限制模拟环境中的自动泊车过程图。图6(a)表示随机抽取一次迭代的部分泊车运动，从图中可以很直观地看出，汽车执行10次左右的动作基本上就能收敛到0附近，表示汽车在此次泊车过程中能够自主的停到停车点周围。图6(b)表示汽车的泊车过程，能够更加形象的看见汽车的整个泊车过程。汽车开始在离停车点有10米左右的位置，执行几次动作之后能够到达到停车点的周围，而且汽车从开始的垂直于X轴的方向在执行几次动作之后慢慢的和X轴平行，即车头方向在不断的靠近0度或者180，能够实现我们的基本要求。在达到停车点周围之后再在此基础上进行微。图7表示有限制模拟环境中汽车的泊车过程，能够更加形象的看见汽车的整个泊车过程。相对于无限制的模拟环境中的泊车过程，有限制的模拟环境的泊车过程更加的复杂，在泊车过程因为有边界的限制导致在泊车的过程进行了更多的调整，例如，汽车先远离停车点，到达到一个比较有利的位置在慢慢的进行泊车，这也更加的符合实际情况。