CN112356830A

CN112356830A - 一种基于模型强化学习的智能泊车方法

Info

Publication number: CN112356830A
Application number: CN202011336997.XA
Authority: CN
Inventors: 陈慧; 宋绍禹; 孙宏伟; 刘美岑
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-02-12
Anticipated expiration: 2040-11-25
Also published as: CN112356830B

Abstract

本发明涉及一种基于模型强化学习的智能泊车方法，使用蒙特卡罗树搜索、车辆运动学模型、动作分类网络和状态值拟合网络，具体包括以下步骤：S1.蒙特卡罗树搜索结合动作分类网络和车辆运动学模型获取泊车数据预训练模型；S2.根据泊车预训练模型生成的泊车数据训练状态值拟合网络；S3.训练完成的状态值拟合网络与蒙特卡罗树搜索、动作分类网络相结合，构成在线驾驶策略模型；S4.泊车在线驾驶策略模型以滚动时域方式，接收库位和车辆运动信息，在每个时间间隔产生一个控制指令，并发送至车辆运动控制模块来控制目标车辆完成泊车。与现有技术相比，本发明具有更好的最终泊车航向角和成功率、减少车辆模型的精确度对最终泊车效果的影响等优点。

Description

一种基于模型强化学习的智能泊车方法

技术领域

本发明涉及自动泊车技术领域，尤其是涉及一种基于模型强化学习的智能泊车方法。

背景技术

自动泊车系统(APS)是重要的智能辅助驾驶系统，因为它们具有减少在狭窄城市中发生事故的巨大潜力，并增加了泊车位的使用率。对于所有APS平台，所述智能车辆必须由车载传感器系统检测库位并生成其运动的泊车空间，如环视相机(AVM)和激光雷达(LIDAR)。APS的常规运动规划方法是路径速度分解方法，将泊车任务分解为运动学子问题和动力学子问题，分别通过路径规划和路径跟踪方法解决，但是不能灵活地处理实时感知信息，同时不能使用历史泊车数据来提高其自身的能力。

目前已有数据驱动的强化学习(RL)的APS来解决上述问题。强化学习包括基于模型的方法和无模型方法。无模型的RL已为APS取得了可接受的控制性能，通过直接尝试操作来获得最大的累积奖励，从而学会倒车。但是需要进行多次真正的交互才能应用。数据效率低下使无模型的RL变得不切实际，并限制了其在泊车场景中的应用，因为在泊车场景中，车辆需要快速掌握驾驶技能。基于模型的强化学习用于实现多目标优化并摆脱人类经验，但是由于动作的回报是通过在线仿真结果确定的，因此该方法在很大程度上依赖于车辆模型的准确性。为了获得和验证车辆模型，需要进行大量试验。此外，该方法不能利用有限的泊车数据对未知模型的被控对象进行连续学习，以进一步提高泊车能力。数据效率在强化学习中是指获得稳定性能所需的数据数量。在保持持续学习能力的同时，很少有研究聚焦基于RL的APS尤其是基于模型的RL的APS数据效率问题。关于基于模型的RL技术，AlphaGo利用围棋游戏中的基本规则和函数逼近来获得状态值函数，并通过自我博弈击败了人类玩家，激发了和状态值函数的结合，克服基于模型的RL的自动泊车系统的缺点。

通过拟合状态值函数来实现连续学习，比如将近似修改策略迭代(AMPI)用来利用状态转换函数来利用车辆运动学的先验知识来构造状态值函数，从而显示出高数据效率。蒙特卡罗树搜索(MCTS)在泊车设置中，会在试验结束时给予奖励，比提供即时奖励更简单，更客观，可以通过限制在搜索过程中使用模拟来减少对车辆模型准确性的要求。MCTS使用状态值的估计和候选动作的概率分布来实现探索与开发之间的平衡。除了用于学习具有高奖励的动作的概率分布的人工神经网络(ANN)，另一个值ANN用于预测状态值。ANN的更新方向可以通过添加加权系数和泊车轨迹的回报值来增强。

发明内容

本发明的目的就是为了克服上述现有技术存在的过度依赖于车辆模型的准确性、信息处理不够灵活、不能有效利用现有数据的缺陷而提供一种基于模型强化学习的智能泊车方法。

本发明的目的可以通过以下技术方案来实现：

一种基于模型强化学习的智能泊车方法，使用蒙特卡罗树搜索、动作分类网络和状态值拟合网络，具体包括以下步骤：

S1.所述蒙特卡罗树搜索结合所述动作分类网络和车辆运动学模型获取泊车数据预训练模型；

S2.根据泊车预训练模型生成的泊车数据训练所述状态值拟合网络；

S3.训练完成的状态值拟合网络与蒙特卡罗树搜索、动作分类网络相结合，构成在线驾驶策略模型；

S4.所述泊车在线驾驶策略模型以滚动时域方式，接收库位和车辆运动信息，在每个时间间隔产生一个控制指令，并发送至车辆运动控制模块，由控制模块控制目标车辆完成泊车。

所述蒙特卡罗树搜索设有记忆链，通过叶节点的多步仿真获得状态值。

所述动作分类网络的输入为泊车状态，输出为泊车动作概率分布，所述泊车动作概率分布根据人工神经网络计算得到，在蒙特卡罗树在搜索中选择动作时，通过系统识别提高模型的准确性，并通过将MCTS与纵向和横向策略相结合，实现多目标最优性。

在每个控制指令的时间间隔，基于实时状态计算车辆底盘控制系统扭矩请求与方向盘角度指令。

所述泊车方法的制定过程中使用马尔可夫决策过程，所述马尔可夫决策的具体过程为优化多个步骤的累积回报，获得最优策略作为泊车指令生成器。

进一步地，所述多个步骤的累积回报的计算公式具体如下：

其中，K为步骤数量，t为当前时刻，r为奖励函数，γ为折扣因子，范围为(0，1]，s_k和a_k分别是k时刻的泊车状态和泊车动作；

所述最优策略的计算公式如下所示：

其中，*表示最优，V_π(s)为状态值函数，π为用于泊车动作选择的驾驶策略模型；

所述状态值函数的计算公式具体如下：

V_π(s)＝E_π[R(τ)|S_t＝s]

其中，E为求期望，V_π(s)为状态的期望回报，S为状态。。

进一步地，所述泊车状态和泊车状态-动作的值函数之间关联关系如下所示：

其中，A为动作，

为泊车状态-动作的值函数；

所述泊车指令的生成过程中设有奖励函数，泊车的主要指标是汽车的最终位置，平行泊车的理想终点位置平行于前后障碍车辆的连接线，同时应确保一定的泊车深度，以避免车轮撞到泊车位的边缘，随着泊车深度和方向接近目标值，奖励应该增加，所述奖励函数具体如下所示：

r(k)＝R_y+R_θ+R_a+R_safe

其中：

R_safe＝{0,C_safe}

R_y和R_θ是具有有界函数值的sigmoid型函数S曲线，c₁、c₂和c₃是比例因子，数值为常数，前两个系数分别决定了关于泊车深度误差和角度误差的奖励的下降速率，a_i–a_i–1用于鼓励以相对较小的转向动作完成任务，R_a决定方向盘动作的权重，C_y、C_θ和C_safe是奖励项权重，C_y＝C_θ＝20000，C_safe＝–10000，在发生碰撞时奖励值将受到-10000的处罚；

前轮转向单轨运动学车辆模型广泛用于低速泊车，此时侧滑可以忽略，所述泊车状态的状态转移函数具体如下所示：

x’＝v(t)cosθ(t)

y’＝v(t)sinθ(t)

其中，v(t)为t时刻的车速，l为车辆轴距，x’为后轴中心x方向变化率，y’为后轴中心y方向变化率，θ’为航向角变化率，

是前轮转角；前轮简化为一个转向角度，在没有滑动时给定转向角，阿克曼转向几何方法确保目标车辆将在后中心轴和前轮垂直线的交点为中心的圆内行驶。

进一步地，所述步骤S3中通过近似修正策略迭代方法，由截断蒙特卡罗树搜索算法实现策略评估和策略提高，所述近似修正策略空间逼近相应的状态值函数，得到策略估计和策略改进，并根据策略改进，通过贪婪步骤计算最优策略，所述策略估计和策略改进估计的计算公式如下所示：

V_πk(s)＝E_πk[r_t+1+γV’_πk(S_t+1)|S_t＝s]

π_k+1(s)＝arg max_a Q_πk(s,a)＝arg max_a E[r_t+γV_πk(S_t+1)|S_t＝s,A_t＝a]

其中，V_πk(s)为状态值函数，arg max_a()表示使括号内部值取得最大时所对应的动作a选取方式，从初始值V₀和初始策略π₁开始，在k迭代中，通过V_k使用V_k-1上的贝尔曼算子建立新的状态值函数，然后使用状态值函数获得动作值；通过选择一个更强的动作a得到一个新的策略，如果满足策略改进定理Q_πk(s,π_k+1(s))≥V_π(k)，则新策略π_k+1收敛到最优策略；对于每个策略对和状态值函数的估计，需要使用上一步迭代生成的训练样本{s_t,a_t,r_t+V(s_t+1)}。

进一步地，所述蒙特卡罗树搜索在搜索过程中根据状态值拟合网络和动作分类网络生成所述策略估计和策略改进进行实施；当目标车辆遇到新状态时，前向采样序列s、a和r用于估计值函数，目标车辆的状态s被视为一个节点，而边缘(s，a)存储状态-动作对的统计信息。基于采样评价结果向树中添加有希望的节点，从根节点到目标状态按照增量式的方式构建蒙特卡罗树搜索，具体公式如下：

其中，N(s,a)是来自状态的动作的访问次数，

是指示a是否被选中的布尔变量，z_i是第i次采样的奖励值；

所述蒙特卡罗树搜索的边缘存储统计值如下：

{P(s,a),N(s,a),W(s,a),Q(s,a),UCT}

每次采样从根节点选择一条边进行搜索，具体公式如下：

其中，μ为自适应系数，用于调控动作分类网络输出分布，μ值越小，P(s,a)的作用越强，当蒙特卡罗树搜索遍历到一个叶节点时，子节点被添加到树中，新节点由值网络v(s)＝V’_μ’(s)来评估，总访问次数N(s,a)和来自根节点的动作链的总值更新为N(s,a)＝N(s,a)+1和W(s,a)＝W(s,a)+v(s)；

所述蒙特卡罗树搜索在实际动作选择时根据以下公式进行：

其中，τ是温度系数，b是根节点的子节点；

所述状态值拟合网络计算当前车辆状态关于最终整体性能的值，动作分类网络学习训练迭代中获得的即时泊车反应经验，共同向蒙特卡罗树搜索提供信息，状态值V对于估计真实的动作状态值Q至关重要，以便确定向树中添加节点的优先级，并进而最终影响实际执行，策略迭代的效果依赖于参数为μ’的值网络的拟合精度，状态值拟合网络采用列文伯格-马夸特方法进行训练，并按如下公式进行最小化处理：

其中，V_est为状态值拟合网络的输出值；

所述动作分类网络推荐动作概率分布，使用交叉熵损失如下所示：

其中，H(p,q)为交叉熵损失，p为动作的概率。

进一步地，所述动作分类网络根据轨迹回报加权探索进行策略学习，对于整个策略迭代根据如下公式判断是否收敛：

V_π(s_t)≤Q_π(s,π'(s_t))

其中，V_π(s_t)为旧策略的状态值，Q_π(s,π'(s_t))为新策略的状态-动作值；

所有轨迹的预期总回报具体如下：

其中，p_π(τ_k)是策略π下轨迹τ_k的概率分布，对于原始策略迭代，所有轨迹都用于评估策略；若将轨迹回报的新分布p’(τ_k)应用于τ，新的总预期回报可将会高于原总预期回报，具体如下所示：

更新与加权因子相关联的网络的规则如下所示：

其中，θ为神经网络参数，l为神经网络更新次数，α’为学习率，

为网络参数更新的计算梯度方向。

本发明将目标策略和行为策略分开，记录目标车辆的所有历史泊车轨迹，并通过历史收益最高的K_s试验用来改进现有策略。

在泊车应用中，进一步抽象出目标车辆的动作，包括增加角度、减少角度和无动作。

为了容易调试并提高网络训练的收敛性，采用分阶段获得泊车数据并训练神经网络的方式。首先利用车辆运动学模型，将动作分类网络和蒙特卡洛树搜索结合，在泊车仿真环境迭代地产生仿真数据-筛选样本-训练动作分类网络。动作分类网络收敛过后，再仿真生成用于泊车状态评估的数据，进而训练状态值值网络。

与现有技术相比，本发明具有以下有益效果：

1.本发明采用截断蒙特卡罗树搜索算法，通过设计自适应的探索激励因子和加权策略学习来提高数据效率，引导网络向高回报轨迹方向的更新，并减少了车辆模型的精确度对最终泊车效果的影响，相比现有基于模型强化学习方法，具备较好的持续学习的能力。

2.本发明持续规划和控制运动，对初始泊车位置的感知系统要求较低，并且由于其数据驱动的特性，将姿态估计器给出的泊车轨迹用来改善系统的性能。

3.本发明包括两个学习阶段：第一阶段学习用于搜索动作概率指导的分类网络，第二阶段学习用于泊车状态值估计的拟合网络。在自动泊车系统训练的全过程不需要人工输入。

4.本发明在全尺寸车辆上得到验证，用标定的车辆运动学参数，显示出无需在真实平台上进行耗时的倒车入库控制训练即可实现可接受的性能。

附图说明

图1为本发明的流程示意图；

图2为本发明蒙特卡罗树搜索的流程示意图；

图3为本发明整体框架的结构示意图；

图4为本发明截断蒙特卡罗树搜索的流程示意图；

图5为本发明动作分类网络的结构示意图；

图6为本发明状态值拟合网络的结构示意图；

图7为本发明泊车数据增广的流程示意图；

图8为本发明预训练动作分类网络的流程示意图；

图9为本发明通过训练得到状态值拟合网络的流程示意图；

图10为本发明实施例中模拟泊车场景的示意图；

图11为本发明实施例中预训练模型的结果示意图，其中图11(a)为总回报的示意图，图11(b)为转角平滑项回报的示意图，图11(c)为方向盘转角增量预测误差的示意图，图11(d)为25×25隐藏层的预测精准度的示意图；

图12为本发明实施例中状态值拟合网络训练结果的示意图；

图13为本发明实施例中蒙特卡罗树搜索在不同参数下的平均回报的示意图；

图14为本发明实施例中不同算法的平均奖励值的示意图；

图15为本发明实施例中采用曲线的路径规划与强化学习的泊车轨迹的对比图，其中图15(a)为采用曲线的路径规划的泊车轨迹示意图，图15(b)为强化学习的泊车轨迹示意图，图15(c)为规划路径的曲率对比图，图15(d)为强化学习的车速曲线示意图；

图16为本发明实施例中不同算法在训练学习过程的示意图；

图17为本发明在每次迭代中初始位姿的变化示意图；

图18为本发明实施例中无重新加权的蒙特卡罗树搜索在每次迭代中初始位姿的变化示意图；

图19为本发明实施例中初始位姿(3.5,1.5,0°)的实验控制量和状态量曲线的变化示意图，其中图19(a)为轨迹的变化示意图，图19(b)为车速的变化示意图，图19(c)为方向盘转角的变化示意图，图19(d)为航向角的变化示意图，图19(e)为加速度的变化示意图，图19(f)为方向盘速度的变化示意图；

图20为本发明实施例中初始位姿(2.5,1.75,-10°)的实验控制量和状态量曲线的变化示意图，其中图20(a)为轨迹的变化示意图，图20(b)为车速的变化示意图，图20(c)为方向盘转角的变化示意图，图20(d)为航向角的变化示意图，图20(e)为加速度的变化示意图，图20(f)为方向盘速度的变化示意图；

图21为本发明实施例中初始位姿(2.5,1.75,10°)的实验控制量和状态量曲线的变化示意图，其中图21(a)为轨迹的变化示意图，图21(b)为车速的变化示意图，图21(c)为方向盘转角的变化示意图，图21(d)为航向角的变化示意图，图21(e)为加速度的变化示意图，图21(f)为方向盘速度的变化示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，一种基于模型强化学习的智能泊车方法，使用蒙特卡罗树搜索、动作分类网络和状态值拟合网络，具体包括以下步骤：

S1.蒙特卡罗树搜索结合动作分类网络和车辆运动学模型获取泊车数据预训练模型；

S2.根据泊车预训练模型生成的泊车数据训练状态值拟合网络；

S4.泊车在线驾驶策略模型以滚动时域方式，接收库位和车辆运动信息，在每个时间间隔产生一个控制指令，并发送至车辆运动控制模块，由控制模块控制目标车辆完成泊车。

泊车预训练模型根据超声波传感器和激光雷达来适应障碍物的形状，在泊车期间结合激光雷达和航位推算，将车辆的定位和地图绘制限制在厘米级。

如图2所示，蒙特卡罗树搜索包括选择、扩展、模拟和备份步骤，蒙特卡罗树搜索设有记忆链，通过叶节点的多步仿真获得状态值。

动作分类网络的输入为泊车状态，输出为泊车动作概率分布，泊车动作概率分布根据人工神经网络计算得到，在蒙特卡罗树在搜索中选择动作时，策略的权重设置为0，通过系统识别提高模型的准确性，并通过将MCTS与纵向和横向策略相结合，实现多目标最优性。

如图3所示，目标车辆的输入是运动状态，输出是方向盘角度命令，在每个控制指令的时间间隔，基于实时状态计算车辆底盘控制系统扭矩请求与方向盘角度指令，通过卡尔曼滤波处理运动传感器数据。

泊车指令的制定过程中使用马尔可夫决策过程，马尔可夫决策的具体过程为优化多个步骤的累积回报，获得最优策略作为泊车指令生成器。

多个步骤的累积回报的计算公式具体如下：

最优策略的计算公式如下所示：

状态值函数的计算公式具体如下：

V_π(s)＝E_π[R(τ)|S_t＝s]

其中，E为求期望，V_π(s)为状态的期望回报，S为状态。

泊车状态和泊车状态-动作的值函数关联函数如下所示：

其中，A为动作，

为泊车状态-动作值函数；

泊车指令的生成过程中设有奖励函数，泊车的主要标准是汽车的最终位置，平行泊车的理想终点位置平行于前后障碍车辆的连接线，同时应确保一定的泊车深度，以避免车轮撞到泊车位的边缘，随着泊车深度和方向接近目标值，奖励应该增加，奖励函数具体如下所示：

r(k)＝R_y+R_θ+R_a+R_safe

其中：

R_safe＝{0,–10000}

R_y和R_θ是具有有界函数值的sigmoid型函数S曲线，c₁、c₂和c₃是比例因子，数值为常数，前两个系数分别决定了关于泊车深度误差和角度误差的奖励的下降速率，a_i–a_i–1用于鼓励以相对较小的转向动作完成任务，R_a决定方向盘动作的权重，在发生碰撞时安全项R_safe奖励值将收到–10000的处罚；

前轮转向单轨运动学车辆模型广泛用于低速泊车，此时侧滑可以忽略，泊车状态的状态转移函数具体如下所示：

x’＝v(t)cosθ(t)

y’＝v(t)sinθ(t)

其中，v(t)为t时刻的车速，l为轴距，x’为后轴中心的x方向变化率，y’为后轴中心的y方向变化率，θ’为航向角变化率，

是前轮转角；前轮简化为一个转向角度，在没有滑动时给定转向角，阿克曼转向几何方法确保目标车辆将在后轴中心和前轮垂直线的交点为中心的圆内行驶。

步骤S3中通过近似修正策略迭代方法的截断蒙特卡罗树搜索实现，如图4所示，近似修正策略空间逼近相应的状态值函数，得到策略估计和策略改进，并根据策略改进，通过贪婪步骤计算最优策略，策略估计和策略改进估计的计算公式如下所示：

V_πk(s)＝E_πk[r_t+1+γV’_πk(S_t+1)|S_t＝s]

蒙特卡罗树搜索在截断过程中根据状态值拟合网络和动作分类网络生成策略估计和策略改进进行实施，状态值拟合网络和动作分类网络如图5和图6所示；当目标车辆遇到新状态时，前向采样序列s、a和r用于估计值函数，目标车辆的状态s被视为一个节点，而边缘(s，a)存储状态-动作对的统计信息。基于采样评价结果向树中添加有希望的节点，从根节点到目标状态按照增量式的方式构建蒙特卡罗树搜索，具体公式如下：

其中，N(s,a)是来自状态的动作的访问次数，

是指示a是否被选中的布尔变量，z_i是第i次采样的奖励值；

蒙特卡罗树搜索的边缘存储统计值如下：

{P(s,a),N(s,a),W(s,a),Q(s,a),UCT}

每次采样从根节点选择一条边进行搜索，具体公式如下：

其中，μ为自适应系数，，用于调控动作分类网络输出分布，μ值越小，P(s,a)的作用越强，当蒙特卡罗树搜索遍历到一个叶节点时，子节点被添加到树中，新节点由值网络v(s)＝V’_μ’(s)来评估，总访问次数N(s,a)和来自根节点的动作链的总值更新为N(s,a)＝N(s,a)+1和W(s,a)＝W(s,a)+v(s)，在泊车应用中，目标车辆的动作进一步离散化，包括增加角度、减少角度和无动作，自适应因子μ的选取原则根据当前动作方向是否与动作分类网络的根节点推荐方向一致而定。

蒙特卡罗树搜索在实际动作选择时根据以下公式进行：

其中，τ是温度系数，b是根节点的子节点；

状态值拟合网络计算当前车辆状态关于最终整体性能的值，动作分类网络学习训练迭代中获得的即时泊车反应经验，共同向蒙特卡罗树搜索提供信息，状态值V对于估计真实的动作状态值Q至关重要，以便确定向树中添加节点的优先级，进而最终影响实际执行，策略迭代的效果依赖于参数为μ’的值网络的拟合精度，状态值拟合网络采用列文伯格-马夸特方法进行训练，并按如下公式进行最小化处理：

其中，V_est为状态值拟合网络的输出值；

动作分类网络推荐动作概率分布，使用的交叉熵损失如下所示：

其中，H(p,q)为交叉熵损失，p为动作的概率。

动作分类网络根据轨迹回报加权探索进行策略学习，对于整个策略迭代根据如下公式判断是否收敛：

V_π(s_t)≤Q_π(s,π'(s_t))

所有轨迹的预期总回报具体如下：

更新与加权因子相关联的网络的规则如下所示：

如图7所示，泊车预训练模型根据交互环境的先验信息进行训练，状态值拟合网络的训练样本生成过程中，奖励在执行结束时给予，真实轨迹生成后，兄弟节点作为根节点，蒙特卡罗树搜索使用分支点执行模拟，直到算法终止，多次模拟的最终r_T做数学期望获得真实回报的无偏估计；由于泊车期间车速和控制间隔很小，较小的动作差异很难产生显著的值分布差异，因此从根节点开始的每个移动被重复采样多次，通过考虑计算机线程的数量来选择用于获得状态值的无偏估计的仿真数量，如图8和图9所示，根据图8中计算得到的收敛动作分类网络，来虚拟泊车，进而训练网络获得9中状态值拟合网络的参数。

如图10所示，在模拟场景中对本发明进行仿真，泊车的初始姿势是固定的，均匀分布在x＝[1.5m，3.5m]，y＝[1.25m，2.25m]的25个位置，泊车位长度为5.5m，在泊车位坐标系中，目标泊车最终位姿y和θ的值分别为-0.85m和0°，对于每个人工神经网络，在训练的10个网络中选择测试集中损失函数最小的一个作为最终的人工神经网络，模拟车辆的基础数据和算法参数如表1所示，具体如下：

表1车辆基础数据和算法参数表

使用动作分类网络和MCTS对应的预先训练模型用于获得动作分类网络，在奖励函数中，R_y加R_θ的范围是0到20000，而收敛-R_a的实验值是600到1000，模型预训练的学习过程如图11所示，由于网络参数过多导致训练不足，50×50网络收敛缓慢，尺寸相对较小的网络拥有收敛更快的预测误差。在学习初期，奖励增长很快，接近19000，尽管预测误差可以进一步减小，但预训练模型的回报在大约20次迭代中收敛。考虑到实验的实时性，最终动作分类网络的隐藏层尺寸设计为25×25。

动作分类网络的预测误差如图11(c)和图11(d)所示，对于每个精确动作(分辨率为5度)，动作分类网络的最终预测误差超过30％，为了更有效地使用动作分类网络的学习信息，车辆转向动作被模糊动作集合{增加角度，减少角度，无动作}，若相应精确动作的预测结果之和大于0.5，则划分到动作集合中对应模糊动作。动作方向启发式信息的预测精度如图11(d)所示，由图11(d)的结果可知模糊化处理后的预测精度很高。

获得动作分类网络后，生成数据{s_t,a_t,r_t+V(s_t+1)}，并训练状态值拟合网络，过程中同时训练了10个网络，其中数据集被随机分成80％用于训练，10％用于验证，10％用于测试，最终选择了测试误差最小的网络，如图12所示，70％训练样本和69.9％测试样本的误差均低于1000。

如图13所示，通过Carsim车辆评估本发明的方法在具有不同蒙特卡洛采样时间c_max和权重项c_puct的所有25个初始姿态上的性能，包括动作分类网络的11个不同c_puct值(从0到10000)的平均回报以及相应的采样时间c_max(从10到100)，其中奖励上限是2万；当c_puct≥6000，c_max≥30时，大部分回报在18120以上；扣除600的平均行动惩罚，剩余奖励在R_θ为1230(对应0.82度)和R_y为50(对应0.9厘米)的区间之中。对于每个c_max值，当c_puct＝0时，始终出现最低奖励，表明采样优先级受动作分类网络的影响，动作分类网络是状态值拟合网络的重要补充，但状态值拟合网络的价值预测误差是不可避免的。

如图14所示，为了评估本发明所提方法对改进组合模型的影响，将参数设置为c_puct＝6000和c_max＝30，在25个初始位置上，本发明所提的数据高效型强化学习获得了较高的平均回报；相比之下，单独动作分类网络的表现最差；自适应搜索过程μ是数据高效型强化学习的关键组成部分，当缺乏自适应μ时，需要进行数据增强DA，在根节点增加与推荐动作方向相同的动作方向的权重可以显著提高整体性能，本发明所提方法受益于预先提取的信息，当没有预先提取的信息，状态值拟合网络的重要性将会提升。

如图15所示，对基于曲线的路径规划和本发明提出的方法进行比较，连续曲率路径规划的圆弧过渡部分采用回旋曲线，在用于平行泊车的传统路径规划方法中，从泊车位反向规划如图15(a)所示，圆弧1的半径最小，圆弧2的半径大于或等于最小半径，回旋曲线和直线用作过渡曲线，连续曲率路径规划的目标姿态为y_goal＝–0.85m，而θ由检索过程能否找到该参数进行决定。最初的目标姿势位于泊车位的中心。如果不能满足检索安全性，则减少x_goal，增加θ_goal。基于曲线的路径规划和基于逆向规划的方法的安全距离在泊车位中为0.25米，在障碍车的拐角处为0.15米。初始位姿是(1.5米，1.25米，0)，连续曲率路径和强化学习的最终姿态分别为(–4.60米，0.85米，4.56度)和(–4.70米，0.86米，0.73度)，连续曲率路径规划方法和本发明提出的方法都满足安全性要求，但是强化学习的最终角度明显小于连续曲率路径规划方法最终得到的角度。

如图15(c)中路径曲率的对比所示，在泊车的早期阶段，本发明所提强化学习方法曲率变化率大于连续曲率方法；在传统方法中，使用1米/秒的速度设计路径，使得路径跟随时只要车速低于1米/秒就能理论上实现，但连续曲率方法未能最大化系统性能。如图15(d)所示的加速阶段，速度小于1米/秒，由于强化学习的动作与时间耦合，方向盘在时域中的动作导致在距离域中更快速地转向到第一个曲率变化点，如图15(c)所示强化学习的路径长度比使用连续曲率曲线的计划路径短，验证了以滚动优化方式进行集成规划和控制的优势。

车辆动力学模型在低速时具有很强的非线性，将运动学模型训练的强化学习模型转移到控制高保真Carsim车辆，检测车辆参数变化对于自动泊车的影响。从方向盘转动角度到前轮的传动比从15.88变为可变传动比，表示可变车辆模型，如表2所示，与真实系统类似，小方向盘角度时转向传动比更高，表2具体如下所示：

表2转向传动比变化表

如图16所示，本发明所提方法仅需最少的泊车样本量来达到相同的性能水平，虚拟数据的加入和自适应的系数μ有助于本方法；没有重新加权的基本MCTS没有重复使用历史泊车经验，对于所选参数的训练是不稳定的；相比之下，由于在所有过去的经验中具有高权重的训练数据是从由不同策略生成的数据集中连续选择的，脱离策略的重新加权过程平滑了学习过程；若本方法中取消自适应μ和数据增强，需要更多的交互进行学习。与模糊行动预测提供的指导相比，通过想象力拓展增强泊车体验具有更强的影响力，该方法的标准差低于基本的MCTS和没有重新加权的MCTS，数据扩充和自适应策略指导有助于提升方法的稳健性。

本发明所提的强化学习模型每次迭代的转向角输出如图17所示，没有重新加权过程的基本MCTS在第二次迭代时向不可靠的方向更新，导致不一致的方向盘动作改变，如图18所示；相比之下，本发明所提方法的每一代都具有较好的稳定性，表明该方法中状态值函数的拟合对网络训练的不确定性具有更强的鲁棒性；移除重新加权的结果显示，来自过去与环境互动的数据也有利于本方法；与基本MCTS相比，本方法的数据扩增奖励收敛更快。

通过实车实验对本发明所提方法的有效性进行验证，初始训练位置与图10相同，使用900MHz处理器的dSpace MicroAutoBoxⅡ1401/1513进行在线运算，转向由电动动力转向系统控制，采用联邦卡尔曼滤波估计算法进行泊车车速估计，泊车时定位精度的最大误差约为0.1m，由于低速行驶扭矩难以克服静摩擦，开始和结束速度指令被设置为–0.2米/秒和0米/秒的阶跃信号，测试平台配备AVM系统和单声道摄像机、激光雷达、雷达和车轮速度传感器，AVM系统对人体周围进行监控，构建鸟瞰图，用于检测泊车位线和远程监控，单目摄像机被用来检测行人和其他车辆，雷达被用来探测短程障碍物，激光雷达估计车辆姿态。

实验由两组姿态的实验构成：首先，初始位置被设置为如图10所示的训练位置(25次测试)，以验证算法对真实车辆动力学的适应性；第二，在(2.5米，1.75米，0)处的初始方向从0度改变为[–10，10]，间隔为1度，以测试20次测试中对未训练过的初始泊车姿势的泛化能力。第一组实验结果如表3和表4所示：

表3训练位姿的25×3次泊车均值和标准差测试结果表

表4训练位姿的25×3次泊车极值结果表

其中，泊车成功与否的定义为深度误差不大于10cm，无碰撞，且最终航向角在3°之内。车辆纵轴和道路边缘之间的平均最终角度δ_θ小于1°，标准差为0.0728°，符合ISO-16787(–3°到3°,1.5°)的要求。和预训练模型(MCTS+动作分类网络)和预训练模型结合精确的车辆模型的泊车相比，本发明所提方法的最终姿态在y偏差、最终角度和成功率方面更好。在这三种方法中，由于存在显著的模型误差累积，使用MCTS+动作分类网络和简单运动学车辆模型表现最差；结果表明，直接应用MCTS搜索的泊车动作序列进行控制需要一个高精度的车辆模型，与只使用策略神经网络和改进的车辆模型获取奖励相比，本发明提出方法没有对车辆转向和驱动系统的响应特性建模，对车辆模型的精度要求较低。然而，由于引入具有更多的超参数的状态值拟合网络，本方法的潜在缺点是其运行时间更长(本实施例中约长3毫秒)和更复杂的结构。

初始位置(3.5米，1.5米，0度)的泊车控制和状态曲线如图19所示，结果显示驱动和转向系统有不可避免的时间延迟，但是由于在每个控制时间间隔内的滚动规划和控制特性，本发明所提方法的模型误差不会累积，验证了本方法对车辆动力学的适应性。

改变初始位姿后的实验结果如表5和表6所示，表5和表6具体如下：

表5改变初始位姿后的20×3次泊车均值和标准差测试结果表

表6改变初始位姿后的20×3次泊车极值结果表

与表3的结果相似，本发明的最终位姿精度和稳定性优于其他方法给出的泊车轨迹，树搜索起到了局部优化器的作用，MCTS将动作分类网络的反应经验和状态值拟合网络对预测性长期回报结合起来，从而最大化其整体性能。如图19(b)和图19(c)所示，与表3中提供的结果类似，由于底盘响应的偏差，仅使用车辆运动学模型的动作分类网络的MCTS表现最差。

如图20和21所示的测试控制和状态配置的测试结果，验证了本发明所提方法的泛化能力，数据高效型强化学习模型DERL和广泛使用的DDPG都使用离策略强化学习，但是本方法使用车辆模型来提取状态值信息的无偏估计，DERL能够将真实的泊车信息与想象的泊车信息结合起来。规划算法和机器学习的集成更具可扩展性和有效性，若不用值函数网络，则需要依赖于大量数据来建立和验证车辆模型的准确性。作为对比，本方法使用的运动学车辆模型不需要进行系统辨识。

此外，需要说明的是，本说明书中所描述的具体实施例子，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化，均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。