CN111026127A

CN111026127A - 基于部分可观测迁移强化学习的自动驾驶决策方法及系统

Info

Publication number: CN111026127A
Application number: CN201911373375.1A
Authority: CN
Inventors: 章宗长; 俞扬; 周志华; 王艺深; 蒋俊鹏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-04-17
Anticipated expiration: 2039-12-27
Also published as: CN111026127B

Abstract

本发明公开一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统，使用情景相关的方案重用方法，通过迁移驾驶方案数据库中的现有方案来辅助解决陌生路况下的行车问题。为了达到较好的乘坐体验，使用强化学习来解决自动驾驶领域中的决策问题。系统包括情景单元、感知单元、决策单元、动作规划单元和控制单元。通过向虚拟环境数据库添加新的环境模型以应对日渐复杂的行车情景；通过在神经网络中添加卷积层来识别车辆周围的障碍物；通过在神经网络中添加长短时记忆单元来记忆重要的历史信息；通过使用基于玻尔兹曼软最大化的加权深度双Q网络算法来更准确地估计Q值；通过使用最大熵Mellowmax算法来求得各驾驶方案被选中的概率。

Description

基于部分可观测迁移强化学习的自动驾驶决策方法及系统

技术领域

本发明涉及一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统，适用部分可观测的行车环境，属于汽车自动驾驶技术领域。

背景技术

自动驾驶需要解决三个问题：定位、路径规划和驾驶行为的选择。目前，“我在哪”的问题可以使用多种传感器融合技术来解决，“怎么去”的问题可以使用Dijkstra、A*、动态规划等算法来解决。然而，驾驶行为选择问题，如在城市路上如何行驶或在夜间行车怎样保证安全，仍然是当今的研究热点。

我们把汽车的行驶过程看作是一个部分可观测的马尔可夫决策过程(PartiallyObservable Markov Decision Process,POMDP)。这导致在行车过程中，车辆无法感知环境的真实状态，它只能得到真实状态的局部信息——观测。

进一步地，在真实场景下，我们还会遇到这些问题：首先，在设计一个智能体用强化学习学得与环境交互的最优策略之前，需要定义何为最优。这是通过奖励函数来体现的。设计者在设计任务时，需要根据任务执行的目的来定义奖励函数。例如，在自动驾驶任务中，奖励函数的设计需要综合安全性、舒适性、高效性等各方面因素。因此，设计一个好的奖励函数是非常困难的。

其次，模拟器中的驾驶环境与真实的驾驶环境存在着巨大的差异，导致行车策略在模拟器中的表现优异，但在真实环境中的效果较差。

最后，强化学习需要消耗大量的计算资源，且得到的策略的泛化性能有待改进。

以上这些都导致我们很难使用单纯的强化学习方法来从零开始学得健壮的、可靠的、安全的行车策略。

迁移学习可以利用先验知识来完成任务。然而，由于目标任务和源任务在动力学系统上的不同，使用单个源任务得到的先验知识并不总能完美地解决目标任务中的子问题。以自动驾驶为例，因为高速路和城市道路在车道数量、车流密度以及车速限制的不同，基于城市道路得到的行车策略在高速路上的性能可能是差强人意的。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统，在部分可观测的驾驶环境下实现了车辆安全、可靠的行驶。本发明是基于迁移学习和强化学习理论实现的，而非以基于规则的方式。迁移学习可以利用已有的驾驶方案来实现自动驾驶。与其它算法相比，基于迁移学习的自动驾驶决策系统更加高效、安全。然而，无人车在行驶过程中必然会遇到不同的路况。单一的驾驶方案可能只适合于某些场景，所以为了使驾驶决策系统更加高效、健壮，提出了基于多驾驶方案的迁移学习自动驾驶决策系统。显然，如何根据环境信息来选择驾驶方案成为该系统的难点。进一步地，如果某一驾驶方案能够使车辆在当前路况下安全、快速地行驶，则会给该方案一个高的评分(奖励)；反之，如果发生车祸，则会给一个低的评分。我们期望在整个行驶过程中得到的累计评分最大。即，需要找到某种路况到驾驶方案的映射，使得在此映射下将得到最大的累计评分。因此，使用强化学习来寻找最优映射，解决多驾驶方案迁移学习系统中何时使用何种驾驶方案的难题。

在本发明中，自动驾驶模型由情景单元、感知单元、决策单元、动作规划单元和控制单元五部分构成。本发明的亮点在于，通过在神经网络中添加卷积层的方式来识别车辆周围的障碍物，保证行车安全；通过在神经网络中添加长短时记忆单元的方式来记忆重要的历史信息，以应对部分可观测的行车环境；通过使用基于玻尔兹曼软最大化的加权深度双Q网络算法来更准确地估计Q值，即缓解Q学习使用单估计器导致的Q值被高估和双Q学习使用双估计器导致的Q值被低估的影响；通过使用最大熵Mellowmax算法来求得各驾驶方案被选中的概率。本发明提出的自动驾驶方法提高了环境信息的利用率，弥补了传统自动驾驶方法在时间效率上的不足，使得行车过程更加安全稳定，提升了用户体验。

技术方案：一种基于部分可观测迁移强化学习的自动驾驶决策方法，通过对不同路况下的行车策略进行迁移，解决了在传统自动驾驶方案中出现的单策略迁移健壮性差、多策略迁移存在信息丢失(甚至存在负迁移)的问题。该方法具有可靠性高、鲁棒性强等优点，在自动驾驶领域具有广泛的应用前景。

具体包括如下步骤：

S1、基于虚拟环境数据库提供的环境模型，情景单元使用强化学习算法得到相应的驾驶策略

因为集合

中的任一策略都只适用于部分场景，所以将驾驶策略集合

扩展为驾驶方案集合

对任一驾驶方案o_i＝{I_i,π_i,β(x,o_i；θ_β)}，除驾驶策略π_i外，它还包含适用该方案的观测集合I_i和终止函数β(x,o_i；θ_β)。进一步地，方案中的终止函数被表示成一个神经网络——终止网络，该网络将在决策单元中被反向传播算法进一步优化。最后，将驾驶方案集合

添加到驾驶方案数据库中。

S2、在决策单元中，初始化Q值网络Q(x,o；θ)、终止网络β(x,o；θ_β)及相应的目标网络Q(x,o；θ^-)和

把从驾驶方案数据库中选择的驾驶方案集合Π＝{o₁,…,o_i,…,o_n}视为动作集合A。

S3、在时刻t，感知单元将观测x_t输入到决策单元的Q值网络中。随后，Q值网络输出驾驶方案o_i的Q值Q(x_t,o_i；θ)，其中i＝{1,2,…,n}。

S4、在决策单元中，使用最大熵Mellowmax算法将驾驶方案o_i在观测x_t下的Q值Q(x_t,o_i；θ)转换为概率值P_i。此阶段将输出概率分布{P₁,…,P_i,…,P_n}。计算公式为：

其中，索引i＝{1,2,…,n}；η_mm为权重系数。基于最大熵的思想，η_mm需要满足下式：

公式(1)中的Δ是Mellowmax算子。与玻尔兹曼软最大化算子不同，Mellowmax算子具有非膨胀的优良性质，能保证收敛到唯一的不动点。Δ的定义如下：

其中，ω是调整因子，它的值是2。

因为公式(1)是二阶可导的，因此使用牛顿迭代法来得到η_mm的值。

S5、决策单元将基于S4得到的概率分布选出驾驶方案o_i＝{I_i,π_i,β(x,o_i；θ_β)}；然后，动作规划单元将根据驾驶方案o_i中的策略π_i，决定在观测x_t下智能体(如汽车)要执行的动作a_t；接着，控制单元将动作a_t转换为控制信号，改变车辆的行驶状态；最后，感知单元会将奖励r_t和下一个观测x_t+1反馈给智能体。将(x_t,a_t,r_t,x_t+1)看作是一个经验元组，存放到回放池D中。

S6、在决策单元中，从回放池D中随机抽取经验元组(x_j,a_j,r_j,x_j+1)。

S7、在决策单元中，获得在观测x_j+1下最大Q值对应的行车方案o_max和最小Q值对应的行车方案o_min：

S8、在决策单元中，计算权重w：

其中，c为调整因子，它的值是5。

S9、在决策单元中，使用玻尔兹曼软最大化算法将驾驶方案o_i的Q值Q(x_t,o_i；θ)转换为概率值P_i。计算公式为：

其中，i＝{1,2,…,n}；τ为权重系数。τ越大，越倾向于随机地选择驾驶方案；τ越小，越倾向于选择最大Q值对应的方案。τ是一个关于时间t的函数，定义如下：

τ(t)＝max(1-0.001t,0.001)

然后，根据驾驶方案的概率分布{P₁,…,P_i,…,P_n}选出目标驾驶方案o_target。P_i越大，选择对应的驾驶方案的概率越大。

S10、在决策单元中，计算驾驶方案o_i的目标值y_i：

其中，折扣因子γ表示对未来奖励的重视程度，它的值是0.98；索引i的取值范围是{1,2,…,n}。

S11、在决策单元中，计算驾驶方案o_i的损失L_i：

L_i＝π_i(a_j|x_j)(y_i-Q(x_j,o_i；θ))²

通过最小化损失，使实际值逐渐逼近真实值。其中，π_i(a_j|x_j)表示策略π_i在观测x_j下选择动作a_j的概率；索引i的取值范围是{1,2,…,n}。

S12、在决策单元中，使用梯度下降算法更新Q值网络参数。

S13、在决策单元中，使用反向传播算法更新终止网络的参数。即：

其中，i＝{1,2,…,n}。

S14、在决策单元中，对于观测x_t+1，基于终止概率β(x_t+1,o_i；θ_β)来判断驾驶方案o_i是否是可靠的。如果β(x_t+1,o_i；θ_β)<η，那么就认为方案o_i在路况x_t+1下是可靠的，执行方案重用，即继续使用驾驶方案o_i与环境交互；如果β(x_t+1,o_i；θ_β)≥η，那么就认为方案o_i在路况x_t+1下是不安全的，选择新的驾驶方案。其中，η是安全阈值。

S15、在决策单元中，每与环境进行K次交互，便将Q值网络和终止网络的参数赋值给对应的目标网络。

S16、重复S4——S15，直至到达终止状态T。

实现基于部分可观测迁移强化学习的自动驾驶决策方法的系统，包括情景单元、感知单元、决策单元、动作规划单元和控制单元。

情景单元：从虚拟环境数据库中读取虚拟环境模型，输出驾驶方案。在该单元中，使用强化学习算法学得驾驶策略。显然，该策略只在某些特殊的路况下有着好的性能。为此，将驾驶策略扩展为驾驶方案。除驾驶策略外，驾驶方案还包含适用该策略的观测集合和终止函数。进一步地，终止函数被表示成一个神经网络——终止网络。终止网络将在决策单元中被反向传播算法进一步优化。最后，情景单元输出的驾驶方案将会被添加到驾驶方案数据库中。

感知单元：感知当前环境并对环境数据进行处理，输出观测和奖励。感知单元包括摄像头、全球定位系统、惯性传感器、毫米波雷达、激光雷达等一系列传感器，所做的工作包括障碍物识别、定位、测距等，收集的数据包括路况图像、经纬度和雷达的点云数据等。

决策单元：基于感知单元输出的观测和奖励来决定采用哪种驾驶方案。由于当前使用的驾驶方案并不总是适用于整个旅途，所以使用迁移强化学习算法，针对不同的道路情况使用不同的驾驶方案。更具体地说，如果业务员要到另一座城市拜访客户，他的旅程可能是“城市路——高速路——城市路”。此时，决策单元会根据感知单元传递的信息，如天气、时间、道路标识等，从驾驶方案数据库中有选择地读取多个候选方案。通过进一步地分析，决策单元将输出最适合当前场景的驾驶方案。对上例而言，决策单元将依次输出“大雾清晨城市路驾驶方案——晴朗正午高速路驾驶方案——大雨傍晚城市路驾驶方案”。

为了达到上述目的，决策单元使用了两个神经网络——Q值网络和终止网络。并且，在两个神经网络中都加入了卷积层，来识别车辆周围的障碍物；在两个神经网络中都加入了长短时记忆层(Long Short-Term Memory,LSTM)，以应对部分可观测的行车环境。

动作规划单元：基于决策单元给出的驾驶方案和路况信息来生成动作。动作是对车辆行为变化的描述。以清晨大雾天气的城市道路为例，该单元将基于决策单元输出的“大雾清晨城市路驾驶方案”，生成包含“打开雾灯、减速10％、向右变道”等行车信息的动作。

控制单元：将动作规划单元输出的动作转换为控制信号，改变行车环境。例如，若动作中包含“打开雾灯、减速10％、向右变道”的信息，控制单元将会发出相应的控制信号，让无人车拨动雾灯按钮、减少输油量、顺时针转动方向盘。控制单元通过调用CAN接口来实现对车辆的控制。

有益效果：与现有技术相比，本发明提供的基于部分可观测迁移强化学习的自动驾驶决策方法及系统，具有如下优点：

传统的自动驾驶都是基于规则的自动驾驶策略，只能解决预设场景下的行车决策问题。若环境发生改变或是在一个完全陌生的环境下驾驶，已有行车方案的表现将会变得很糟糕。而本发明提出的自动驾驶模型则是以自适应的方式实现驾驶方案的切换。

为了识别车辆周围的障碍物、保障行车安全，本发明将卷积层添加到Q值网络和目标Q值网络中；为了记忆重要的历史信息、应对部分可观测的路况，本发明将长短时记忆层添加到Q值网络和目标Q值网络中。

本发明将迁移学习和强化学习相结合，在降低计算资源消耗的同时，提升了行车决策模型的学习效率，改进了环境信息的利用率，弥补了传统自动驾驶方法在时间效率上的不足，使得行车过程更加安全稳定，提升了用户体验。

本发明使用加权深度双Q网络算法来更准确地估计Q值，即缓解Q学习使用单估计器导致的Q值被高估和双Q学习使用双估计器导致的Q值被低估的影响。该算法基于发明人于2017年提出的一种改进Q学习算法——加权双Q算法。进一步地，由于两个Q值网络并非是完全去耦合的，使得高估情况仍有可能发生。为此，我们用玻尔兹曼软最大化算子取代加权深度双Q网络算法中的最大化算子，来更好地消除高估问题带来的影响。

本发明使用最大熵Mellowmax算法来选择驾驶方案。该算法不仅可以缓解人类偏好对选择结果的干扰，还能够避免在∈-greedy算法中出现的次优动作和最差动作被等概率选中的情形。

附图说明

图1为本发明系统的实施例框架图；

图2为本发明系统的决策单元示意图；

图3为本发明决策单元实现流程图；

图4为本发明神经网络结构示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

在本发明中，驾驶方案由观测集合、驾驶策略以及终止函数构成，待完成的任务是从地图上一点快速、安全地到达另一点。显然，如果某一驾驶方案在当前路况下能够可靠地行驶，则该方案会被给予一个正的奖励值；否则，给予一个负的奖励值。为使累计奖励最大，我们需要找到从路况到驾驶方案的最优映射。值得注意的是，本发明并没有使用强化学习去求解最优的行车策略，而是利用强化学习得到在当前行驶环境下的最优驾驶方案。

驾驶决策模型的理论基础是迁移学习和强化学习。迁移学习可以利用已有的驾驶算法来使车辆在目标道路上行驶。然而，目标道路(如从上海到南京)中可能存在多种驾驶场景(如高速路、城市道路)，基于单驾驶方案的迁移学习是不健壮的，多驾驶方案的迁移学习又不可避免地会涉及到何时使用何种方案的难题。对此，强化学习是一种好的算法。强化学习的目标是找到路况到驾驶方案的最佳映射，进而使累计奖励最大。也就是说，基于当前的驾驶方案集合和动力学系统，强化学习给出了驾驶方案的最优组合。车辆遵循该组合可以快速、安全地到达目的地。

车辆可能会在某段时间内总是使用同一种驾驶方案。如图2所示，提出了一种终止算法。该算法被用来判断驾驶方案在未来路况下的安全性。即，如果某种方案在未来路况下是安全的，则无人车继续使用该方案；否则，基于不同驾驶方案的Q值选择新的方案。

如图3所示，基于部分可观测迁移强化学习的自动驾驶决策方法的实现系统中有两个神经网络——Q值网络和终止网络。

如图4所示，在两个神经网络中都加入了卷积层，来识别车辆周围的障碍物。这种结构对平移、缩放、倾斜等各种变形具有高度不变性。与全连接层相比，卷积层有局部感知和参数共享的特点。局部感知是指卷积核每次只对图像的局部像素进行处理，然后在更高层将这些局部信息归纳合并，进而得到图像的全部表征信息；权值共享减少了待训练参数的数量，降低了网络模型的复杂度。

如图4所示，在两个神经网络中都加入了长短时记忆层，以应对部分可观测的行车环境。在行车过程中，感知单元每秒生成的数据能达到GB级别。在数据量大的情况下，与门循环单元(Gated Recurrent Unit,GRU)相比，长短时记忆单元表达性能更好，因此我们在神经网络中添加长短时记忆单元来记忆历史环境信息，以应对部分可观测的环境，使得行车过程更加安全可靠。

如图1所示，自动驾驶系统包括情景单元、感知单元、决策单元、动作规划单元和控制单元。

情景单元：从虚拟环境数据库中读取虚拟环境模型，输出驾驶方案。在该单元中，我们使用强化学习算法学得驾驶策略。显然，该策略只在某些特殊的路况下有着好的性能。为此，本实施例将驾驶策略扩展为驾驶方案。除驾驶策略外，驾驶方案还包含适用该策略的观测集合和终止函数。进一步地，本实施例中的终止函数被表示成一个神经网络——终止网络。终止网络将在决策单元中被反向传播算法进一步优化。最后，情景单元输出的驾驶方案将会被添加到驾驶方案数据库中。

决策单元：基于感知单元输出的观测和奖励来决定采用哪种驾驶方案。由于当前使用的驾驶方案并不总是适用于整个旅途，所以我们使用迁移强化学习算法，针对不同的道路情况使用不同的驾驶方案。更具体地说，如果业务员要到另一座城市拜访客户，他的旅程可能是“城市路——高速路——城市路”。此时，决策单元会根据感知单元传递的信息，如天气、时间、道路标识等，从驾驶方案数据库中有选择地读取多个候选方案。通过进一步地分析，决策单元将输出最适合当前场景的驾驶方案。对上例而言，决策单元将依次输出“大雾清晨城市路驾驶方案——晴朗正午高速路驾驶方案——大雨傍晚城市路驾驶方案”。

为了达到上述目的，决策单元使用了两个神经网络——Q值网络和终止网络。并且，在两个神经网络中都加入了卷积层，来识别车辆周围的障碍物；在两个神经网络中都加入了长短时记忆层，以应对部分可观测的行车环境。

基于部分可观测迁移强化学习的自动驾驶决策方法，根据所给的驾驶方案集，结合实际环境，利用强化学习选择合适的驾驶方案。基于部分可观测迁移强化学习的自动驾驶决策系统的执行过程为：

因为集合

中的任一策略都只适用于部分场景，所以将驾驶策略集合

扩展为驾驶方案集合

添加到驾驶方案数据库中。

其中，ω是调整因子，在本实施例中它的值是2。

因为公式(1)是二阶可导的，因此本实施例使用牛顿迭代法来得到η_mm的值。

S5、决策单元将基于S4得到的概率分布选出驾驶方案o_i＝{I_i,π_i,β(x,o_i；θ_β)}；然后，动作规划单元将根据驾驶方案o_i中的策略π_i，决定在观测x_t下智能体(如汽车)要执行的动作a_t；接着，控制单元将动作a_t转换为控制信号，改变车辆的行驶状态；最后，感知单元会将奖励r_t和下一个观测x_t+1反馈给智能体。本实施例将(x_t,a_t,r_t,x_t+1)看作是一个经验元组，存放到回放池

中。

S6、在决策单元中，从回放池

中随机抽取经验元组(x_j,a_j,r_j,x_j+1)。

S8、在决策单元中，计算权重w：

其中，c为调整因子，在本实施例中它的值是5。

其中，i＝{1,2,…,n}；τ为权重系数。τ越大，越倾向于随机地选择驾驶方案；τ越小，越倾向于选择最大Q值对应的方案。在本实施例中，τ是一个关于时间t的函数，定义如下：

τ(t)＝max(1-0.001t,0.001)

S10、在决策单元中，计算驾驶方案o_i的目标值y_i：

其中，折扣因子γ表示对未来奖励的重视程度，在本实施例中它的值是0.98；索引i的取值范围是{1,2,…,n 。

S11、在决策单元中，计算驾驶方案o_i的损失L_i：

L_i＝π_i(a_j|x_j)(y_i-Q(x_j,o_i；θ))²

S12、在决策单元中，使用梯度下降算法更新Q值网络参数。

其中，i＝{1,2,…,n}。

S16、重复S4——S15，直至到达终止状态T。

Claims

1.一种基于部分可观测迁移强化学习的自动驾驶决策方法，其特征在于，包括如下步骤：

接着，情景单元将驾驶策略集合

扩展为驾驶方案集合

最后，情景单元输出的驾驶方案集合

将被添加到驾驶方案数据库中；

S2、在决策单元中，初始化Q值网络Q(x，o；θ)、终止网络β(x，o；θ_β)及相应的目标网络Q(x，o；θ^-)和

把从驾驶方案数据库中选择的驾驶方案集合Π＝{o₁，…，o_i，…，o_n}视为动作集合A；

S3、在时刻t，感知单元将观测x_t输入到决策单元的Q值网络中；随后，Q值网络输出驾驶方案o_i的Q值Q(x_t，o_i；θ)，其中i＝{1，2，…，n}；

S4、在决策单元中，使用最大熵Mellowmax算法将驾驶方案o_i的Q值Q(x_t，o_i；θ)转换为概率值P_i；此阶段将输出概率分布{P₁，…，P_i，…，P_n}；其中i＝{1，2，…，n}；

S5、决策单元将基于S4得到的概率分布选出驾驶方案o_i＝{I_i，π_i，β(x，o_i；θ_β)}；然后，动作规划单元将根据驾驶方案o_i中的策略π_i，决定在观测x_t下智能体要执行的动作a_t；接着，控制单元将动作a_t转换成控制信号，改变车辆的行驶状态；最后，感知单元会将奖励r_t和下一个观测x_t+1反馈给智能体；将(x_t，a_t，r_t，x_t+1)看作是一个经验元组，存放到回放池

中；

S6、在决策单元中，从回放池

中随机抽取经验元组(x_j，a_j，r_j，x_j+1)；

S7、在决策单元中，获得在观测x_j+1下最大Q值对应的行车方案o_max和最小Q值对应的行车方案o_min；

S8、在决策单元中，计算权重w；

S9、在决策单元中，使用玻尔兹曼软最大化算法选择目标驾驶方案o_target；

S10、在决策单元中，计算驾驶方案o_i的目标值y_i；

S11、在决策单元中，计算驾驶方案o_i的损失L_i；

S12、在决策单元中，使用梯度下降算法更新Q值网络参数；

S13、在决策单元中，使用反向传播算法更新终止网络的参数；

S14、在决策单元中，对于观测x_t+1，基于终止概率β(x_t+1，o_i；θ_β)来判断驾驶方案o_i是否是可靠的；如果是可靠的，执行方案重用，即继续使用驾驶方案o_i与环境交互；如果是不安全的，选择新的驾驶方案；

S15、在决策单元中，每与环境进行K次交互，便将Q值网络和终止网络的参数赋值给对应的目标网络；

S16、重复S4——S15，直至到达终止状态T。

2.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法，其特征在于，情景单元使用虚拟环境数据库得到相应的驾驶方案

实现过程为：基于虚拟环境数据库提供的环境模型，情景单元使用强化学习算法得到相应的驾驶策略

因为集合

中的任一策略都只适用于部分场景，所以将驾驶策略集合

扩展为驾驶方案集合

对任一驾驶方案o_i＝{I_i，π_i，β(x，o_i；θ_β)}，除驾驶策略π_i外，它还包含适用该方案的观测集合Ii和终止函数β(x，o_i；θ_β)；终止函数被表示成一个神经网络——终止网络，该网络将在决策单元中被反向传播算法进一步优化；最后，将驾驶方案集合

添加到驾驶方案数据库中。

3.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法，其特征在于，S4，在决策单元中，使用最大熵Mellowmax算法将驾驶方案o_i在观测x_t下的Q值Q(x_t，o_i；θ)转换为概率值P_i；计算公式为：

其中，索引i＝{1，2，…，n}；η_mm为权重系数；基于最大熵的思想，η_mm需要满足下式：

公式(1)中的Δ是Mellowmax算子；Δ的定义如下：

其中，ω是调整因子；

4.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法，其特征在于，S7，在决策单元中，获得在观测x_j+1下最大Q值对应的行车方案o_max和最小Q值对应的行车方案o_min：

S8，在决策单元中，计算权重w：

其中，c为调整因子。

5.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法，其特征在于，S9，在决策单元中，使用玻尔兹曼软最大化算法选择目标驾驶方案o_target的过程为：

首先，使用玻尔兹曼软最大化算法将驾驶方案o_i的Q值Q(x_t，o_i；θ)转换为概率值P_i；计算公式为：

其中，i＝{1，2，…，n}；τ为权重系数；τ是一个关于时间t的函数，定义如下：

τ(t)＝max(1-0.001t，0.001)

然后，根据驾驶方案的概率分布{P₁，…，P_i，…，P_n}选出目标驾驶方案o_target。

6.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法，其特征在于，S10，在决策单元中，计算驾驶方案o_i的目标值y_i：

其中，折扣因子γ表示对未来奖励的重视程度，索引i的取值范围是{1，2，…，n}。

7.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法，其特征在于，S11，在决策单元中，计算驾驶方案o_i的损失L_i：

L_i＝π_i(a_j|x_j)(y_i-Q(x_j，o_i；θ))²

其中，π_i(a_j|x_j)表示策略π_i在观测x_j下选择动作a_j的概率；索引i的取值范围是{1，2，…，n}；

S13，在决策单元中，使用反向传播算法更新终止网络的参数；即：

其中，i＝{1，2，…，n}。

8.如权利要求1所述的基于部分可观测迁移强化学习的自动驾驶决策方法，其特征在于，S14，在决策单元中，基于观测x_t+1，使用终止概率β(x_t+1，o_i；θ_β)来判断驾驶方案oi是否是可靠的；如果β(x_t+1，o_i；θ_β)＜η，那么就认为方案o_i在路况x_t+1下是可靠的，将继续使用驾驶方案o_i与环境交互；如果β(x_t+1，o_i；θ_β)≥η，那么就认为方案o_i在路况x_t+1下是不合适的，将会选择新的驾驶方案；其中，η是安全阈值。

9.一种基于部分可观测迁移强化学习的自动驾驶决策系统，其特征在于，包括情景单元、感知单元、决策单元、动作规划单元和控制单元；

情景单元：从虚拟环境数据库中读取虚拟环境模型，输出驾驶方案；

感知单元：感知当前环境并对环境数据进行处理，输出观测和奖励；

决策单元：基于感知单元输出的观测和奖励来决定采用哪种驾驶方案；

动作规划单元：基于决策单元给出的驾驶方案和路况信息来生成动作；

控制单元：将动作规划单元输出的动作转换为控制信号，改变行车状态。

10.如权利要求9所述的基于部分可观测迁移强化学习的自动驾驶决策系统，其特征在于，决策单元包括两个神经网络——Q值网络和终止网络；在两个神经网络中都加入了卷积层，来识别车辆周围的障碍物；在两个神经网络中都加入了长短时记忆层，以应对部分可观测的行车环境。