CN108891421A

CN108891421A - 一种构建驾驶策略的方法

Info

Publication number: CN108891421A
Application number: CN201810660246.XA
Authority: CN
Inventors: 邹启杰; 李昊宇; 裴腾达
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2018-11-27
Anticipated expiration: 2038-06-25
Also published as: CN108891421B

Abstract

本发明公开了一种构建驾驶策略的方法，具体包括如下步骤：S1，构建驾驶环境特征提取器，用于提取构建回报函数的特征；S2，构建回报函数生成器，用于驾驶策略的获取；S3，构建驾驶策略获取器，完成驾驶策略的构建；S4，判断获取器构建的最优驾驶策略，其是否满足评判标准；若不满足，则重复执行步骤S2重新构建回报函数，重复构建最优驾驶策略，反复迭代，直到满足评判标准；最终获得描述真实驾驶示范的驾驶策略。本申请可以对于新的状态场景进行适用，来获得其对应动作，大大提高了建立的驾驶员行为模型的泛化能力，适用场景更广，鲁棒性更强。

Description

一种构建驾驶策略的方法

技术领域

本发明涉及一种构建驾驶策略的方法。

背景技术

传统的基于强化学习建立的驾驶员驾驶策略，利用已知驾驶数据分析、描述和推理驾驶行为，然而以采集的驾驶数据并不能完全覆盖无穷无尽的驾驶行为特征，更不可能获取全部状态对应动作的情况。在实际驾驶场景下，因为天气、场景、物体的不同，驾驶状态有着众多可能，遍历全部的状态是不可能的事情。因此传统驾驶员驾驶行为模型泛化能力弱，模型假设条件多，鲁棒性差。

其次，在实际的驾驶问题中，仅凭研究人员设置回报函数的方法，需要平衡太多对于各种特征的需求，完全依赖研究人员的经验设置，反复手动调解，耗时耗力，更致命的是过于主观。在不同场景和环境下，研究人员则需要面对太多的场景状态；同时，即使是针对某一个确定的场景状态，需求的不同，也会导致驾驶行为特征的变化。为了准确描述该驾驶任务就要分配一系列权重以准确描述这些因素。现有方法中，基于概率模型的逆向强化学习主要从现有的示范数据出发，把示范数据作为已有数据，进而寻求对应当前数据的分布情况，基于此才能求取对应状态下的动作选取。但已知数据的分布并不能表示全部数据的分布，正确获取分布，需要获取全部状态对应动作的情况。

发明内容

现有技术中所存在的对于驾驶场景不在示范数据的情况下，无法建立对应的回报函数来进行驾驶员行为建模的技术问题，本申请提供了一种构建驾驶策略的方法，可以对于新的状态场景进行适用，来获得其对应动作，适用场景更广，鲁棒性更强。

为了实现上述目的，本发明方案的技术要点是：一种构建驾驶策略的方法，具体包括如下步骤：

S1，构建驾驶环境特征提取器，用于提取构建回报函数的特征；

S2，构建回报函数生成器，用于驾驶策略的获取，具体通过如下步骤实现：

S21.获得专家的驾驶示范数据：

S22.求取驾驶示范的特征期望值；

S23.求取贪婪策略下的状态-动作集；

S24.求取回报函数的权值；

S3，构建驾驶策略获取器，完成驾驶策略的构建；

S4，判断获取器构建的最优驾驶策略，其是否满足评判标准；若不满足，则重复执行步骤S2重新构建回报函数，重复构建最优驾驶策略，反复迭代，直到满足评判标准；最终获得描述真实驾驶示范的驾驶策略。

进一步地，驾驶示范数据来自对于示范驾驶视频数据的采样提取，按照一定频率对一段连续的驾驶视频进行采样，得到一组轨迹示范；一个专家示范数据包括多条轨迹，总体记做：

D_E＝{(s₁,a₁),(s₂,a₂),...,(s_M,a_M)}其中D_E表示整体的驾驶示范数据，(s_j,a_j)表示对应状态j和该状态对应决策指令构成的数据对，M代表总共的驾驶示范数据的个数，N_T代表驾驶示范轨迹数目，L_i代表第i条驾驶示范轨迹中包含的状态-决策指令对(s_j,a_j)的个数。

进一步地，首先将驾驶示范数据D_E中的各个描述驾驶环境情况的状态s_t输入S1中的状态特征提取器中，获得对应状态s_t下的特征情况f(s_t,a_t)，f(s_t,a_t)代指一组对应s_t的影响驾驶决策结果的驾驶环境场景特征值，然后基于下述公式计算出来驾驶示范的特征期望值：

其中γ为折扣因子，根据问题的不同，对应进行设置。

进一步地，由于步骤S2与S3是循环的两部分；

首先，获取驾驶策略获取器中的神经网络：把驾驶示范数据D_E提取得到的描述环境情况的状态特征f(s_t)，输入神经网络，得到输出g_w(s_t)；g_w(s_t)是关于描述状态s_t的一组Q值集合，即[Q(s_t,a₁),...,Q(s_t,a_n)]^T，而Q(s_t,a_i)代表状态-动作值，用于描述在当前驾驶场景状态s_t下，选取决策驾驶动作a_i的优劣，基于公式Q(s,a)＝θ·μ(s,a)进行求得，该公式中的θ代指当前回报函数中的权值，μ(s,a)代指特征期望值。

然后基于ε-greedy策略，进行选取描述驾驶场景状态s_t对应的驾驶决策动作选取关于当前驾驶场景s_t下的Q值集合中让Q值最大的决策动作否则，则随机选取选取完之后，记录此时的

如此对于驾驶示范D_E中的每个状态的状态特征f(s_t,a_t)，输入该神经网络，共获取得到M个状态-动作对(s_t,a_t)，其描述了t时刻的驾驶场景状态s_t下选取驾驶决策动作a_t；同时基于动作选取的情况，获取了M个对应状态-动作对的Q值，记做Q。

进一步地，求取回报函数的权值具体步骤是：

首先基于下面公式，构建目标函数：

代表损失函数，即依据当前状态-动作对是否存在于驾驶示范之中，若存在则为0，否则为1；为上面所记录的对应状态-动作值；为S22中求取的驾驶示范特征期望和回报函数的权值θ的乘积；为正则项；

借助梯度下降法最小化该目标函数，即t＝min_θJ(θ)，获取令该目标函数最小化的变量θ，该θ即所求取的所需的回报函数的权值。

更进一步地，S25.基于获得的对应回报函数权值θ，根据公式r(s,a)＝θ^Tf(s,a)构建回报函数生成器。

更进一步地，S31构建驾驶策略获取器的训练数据

获取训练数据，每个数据包括两部分：一个是将t时刻驾驶场景状态输入S1中的驾驶状态提取器得到的驾驶决策特征f(s_t,a_t)，另一个就是基于下面公式得到的

其中，r_θ(s_t,a_t)借助S2中的回报函数生成器基于驾驶示范数据生成的回报函数；Q^π(s_t,a_t)和Q^π(s_t+1,a_t+1)来自于S23中所记录的Q值，选取其中描述t时刻驾驶场景s_t的Q值和选取其中描述t+1时刻驾驶场景s_t+1的Q值；

S32.建立神经网络；

S33.优化神经网络。

更进一步地，步骤S32中的神经网络包括三层，第一层作为输入层，其中的神经元个数和特征提取器的输出特征种类相同为k个，用于输入驾驶场景的特征f(s_t,a_t)，第二层的隐层个数为10个，第三层的神经元个数和动作空间中进行决策的驾驶动作个数n相同；输入层和隐层的激活函数都为sigmoid函数，即即有着：

z＝w⁽¹⁾x＝w⁽¹⁾[1,f_t]^T

h＝sigmoid(z)

g_w(s_t)＝sigmoid(w⁽²⁾[1,h]^T)

其中w⁽¹⁾为隐层的权值；f_t为t时刻驾驶场景的状态s_t的特征，也就是神经网络的输入；z为未经过隐层sigmoid激活函数时候的网络层输出；h为经过sigmoid激活函数后的隐层输出；w⁽²⁾为输出层的权值；

网络输出的g_w(s_t)是t时刻驾驶场景状态s_t的Q集合，即[Q(s_t,a₁),...,Q(s_t,a_n)]^T，S31中的Q^π(s_t,a_t)就是将状态s_t输入神经网络，选择输出中的a_t项所得到。

作为更进一步地，对于该神经网络的优化，建立的损失函数是交叉熵代价函数，公式如下：

其中N代指训练数据的个数；Q^π(s_t,a_t)是将描述t时刻驾驶场景状态s_t输入神经网络，选择输出中的对应驾驶决策动作a_t项所得到的数值；为S31中求得的数值；是正则项，其中的W＝{w⁽¹⁾,w⁽²⁾}代指上面神经网络中权值；

将S31中获取的训练数据，输入该神经网络优化代价函数；借助梯度下降法完成对于该交叉熵代价函数的最小化，得到的优化完成的神经网络，进而得到驾驶策略获取器。

作为更进一步地，步骤S4具体实现过程包括：将当前的S2的回报函数生成器和S3的驾驶策略获取器看做一个整体，查看当前S22中的t值，是否满足t＜ε，ε为评判目标函数是否满足需求的阈值，也就是判断当前用于获取驾驶策略的回报函数是否满足要求；其数值根据具体需要进行不同的设置；

当t的数值，不满足该公式时；需要重新构建S2中的回报函数生成器，此时需要将当前S23中需要的神经网络替换成S33中已经经过优化过后的新的神经网络，即将用于生成描述在驾驶场景状态s_t下，选取的决策驾驶动作a_i优劣的Q(s_t,a_i)值的网络，替换成S33中经过梯度下降方法进行优化过的新的网络结构；然后重新进行S2、S3的步骤：构架回报函数生成器、得到驾驶策略获取器，再次判断t的数值是否满足需求；

当满足该公式时，当前的θ就是所需的回报函数的权值；S2的回报函数生成器则满足要求，S3中的驾驶策略获取器也满足要求；于是采集需要建立驾驶员模型的某驾驶员的驾驶数据，即驾驶过程中的环境场景图像和对应的操作数据，输入驾驶环境特征提取器，得到对于当前场景的决策特征；然后将提取得到的特征输入回报函数生成器，得到对应场景状态的回报函数；然后把采集的决策特征和计算得到的回报函数输入驾驶策略获取器，得到该驾驶员对应的驾驶策略。

本发明与现有技术相比有益效果在于：本发明中用于描述驾驶员决策，建立驾驶员行为模型的方法，因采用神经网络来描述策略，在神经网络参数确定的时候，状态和动作一一对应，于是对于状态-动作对可能的情况不再受限于示范轨迹。于是在实际的驾驶情况中，因为天气、景物等原因导致的多样的驾驶场景对应的大状态空间，借助于神经网络优秀的近似表达任意函数的能力，近似的可将这一种策略表达看作黑箱：通过输入状态的特征值，输出对应的状态-动作值，同时进一步的根据输出值的情况来选取动作，以获得对应动作。从而使借助逆向强化学习来对于驾驶员行为建模的适用性大大增强，传统方法因试图借助某一概率分布来拟合到示范轨迹，因而获得的最优策略依旧受限于示范轨迹中的已有的状态情况，而本发明可以对于新的状态场景进行适用，来获得其对应动作，大大提高了建立的驾驶员行为模型的泛化能力，适用场景更广，鲁棒性更强。

附图说明

图1为新的深度卷积神经网络；

图2为驾驶视频采样图；

图3为实施例1中方法流程框图；

图4为步骤S32中建立神经网络结构图。

具体实施方式

下面将结合说明书附图，对本发明作进一步说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本实施例提供一种构建驾驶策略的方法，具体包括如下步骤：

S1.构建驾驶环境特征提取器，包括以下具体步骤：

S11.对车辆行驶过程中，利用放在车的挡风玻璃后面的摄像机得到的驾驶视频进行采样，采样图如图2所示。

获得N组不同车辆驾驶道路环境道路情况的图片和对应的转向角情况。包括N1张直道和N2张弯道，N1、N2的取值可以为N1>＝300,N2>＝3000，同时对应驾驶操作数据，联合构建起来训练数据。

S12.对收集来的图像进行相关的平移、裁剪、变更亮度等操作，以模拟不同光照和天气的场景。

S13.构建卷积神经网络，将经过处理后的图片作为输入，对应图片的操作数据作为标签值，进行训练；采用基于Nadam优化器的优化方法来对均方误差损失求最优解来优化神经网络的权重参数。

卷积神经网络包括1个输入层、3个卷积层、3个池化层、4个全连接层。输入层依次连接第一个卷积层、第一个池化层，然后连接第二个卷积层、第二个池化层，再连接第三个卷积层、第三个池化层，然后依次连接第一个全连接层、第二个全连接层、第三个全连接层、第四个全连接层。

S14.将训练完成后的卷积神经网络的除最后输出层之外的网络结构和权值保存，以建立新的一个卷积神经网络，完成状态特征提取器。

S2.构建回报函数生成器

回报函数作为强化学习方法中动作选取的标准，在驾驶策略的获取过程，回报函数的好坏起到了决定性的作用，其直接决定了获取的驾驶策略的优劣，以及获得的策略是否和真实的驾驶示范数据对应的策略相同。回报函数的公式为reward＝θ^Tf(s_t,a_t)，f(s_t,a_t)代指对应驾驶环境场景「车辆周围环境」下的t时刻状态s_t的一组影响驾驶决策结果的特征值，用于描述车辆周围环境场景情况。而θ代指对应影响驾驶决策的特征的一组权值，权值的数值说明了对应的环境特征在回报函数中所占的比重，体现了重要性。在S1的状态特征提取器的基础上，需要求解这一权值θ，从而来构建影响驾驶策略的回报函数。

S21.获得专家的驾驶示范数据

驾驶示范数据来自对于示范驾驶视频数据的采样提取(和之前驾驶环境特征提取器所用数据不同)，可以按照10hz的频率对一段连续的驾驶视频进行采样，得到一组轨迹示范。一个专家示范应具有多条轨迹。总体记做：D_E＝{(s₁,a₁),(s₂,a₂),...,(s_M,a_M)}其中D_E表示整体的驾驶示范数据，(s_j,a_j)表示对应状态j(采样的时间j的驾驶环境的视频图片)和该状态对应决策指令(如转向指令中的转向角度)构成的数据对，M代表总共的驾驶示范数据的个数，N_T代表驾驶示范轨迹数目，L_i代表第i条驾驶示范轨迹中包含的状态-决策指令对(s_j,a_j)的个数

S22.求取驾驶示范的特征期望

首先将驾驶示范数据D_E中的各个描述驾驶环境情况的状态s_t输入S1中的状态特征提取器，获得对应状态s_t下的特征情况f(s_t,a_t)，f(s_t,a_t)代指一组对应s_t的影响驾驶决策结果的驾驶环境场景的特征值，然后基于下述公式计算出来驾驶示范的特征期望：

其中γ为折扣因子，根据问题的不同，对应进行设置，参考数值可设为0.65。

S23.求取贪婪策略下的状态-动作集

首先，获取S32中的驾驶策略获取器中的神经网络。(因S2和S3是一个循环中的两部分，最开始的时候神经网络是S32中刚刚初始化的神经网络。随着循环的进行，循环中的每一步都是：在S2中完成一次影响驾驶决策的回报函数的构建，然后基于当前回报函数在S3中获取对应的最优驾驶策略，判断是否满足结束循环的标准，若不满足，则将当前S34中的经过优化过的神经网络放入S2中重新构建回报函数)

把驾驶示范数据D_E提取得到的描述环境情况的状态特征f(s_t,a_t)，输入神经网络，得到输出g_w(s_t)；g_w(s_t)是关于描述状态s_t的一组Q值集合，即[Q(s_t,a₁),...,Q(s_t,a_n)]^T，而Q(s_t,a_i)代表状态-动作值，用于描述在当前驾驶场景状态s_t下，选取决策驾驶动作a_i的优劣，可基于公式Q(s,a)＝θ·μ(s,a)进行求得，该公式中的θ代指的当前回报函数中的权值，μ(s,a)代指特征期望。

然后基于ε-greedy策略，假如设置ε为0.5，进行选取描述驾驶场景状态s_t对应的驾驶决策动作也就是说有百分之五十的可能性，选取关于当前驾驶场景s_t下的Q值集合中让Q值最大的决策动作否则，则随机选取选取完之后，记录此时的

如此对于驾驶示范D_E中的每个状态的状态特征f(s_t,a_t)，输入该神经网络，共获取得到M个状态-动作对(s_t,a_t)其描述了t时刻的驾驶场景状态s_t下选取驾驶决策动作a_t。同时基于动作选取的情况，获取了M个对应状态-动作对的Q值，记做Q。

S24.求取回报函数的权值

首先基于下面公式，构建目标函数：

代表着损失函数，即依据当前状态-动作对是否存在于驾驶示范之中，若存在则为0，否则为1。为上面所记录的对应状态-动作值。为S22中求取的驾驶示范特征期望和回报函数的权值θ的乘积。为正则项，以防过拟合问题的出现，该γ可以为0.9。

S25.基于获得的对应回报函数权值θ，根据公式r(s,a)＝θ^Tf(s,a)构建回报函数生成器。

S3.构建驾驶策略获取器

S31驾驶策略获取器的训练数据的构建

获取训练数据。数据来自于对之前的示范数据的采样，但需要进行处理得到一组新的类型的数据共计N个。数据中每个数据包括两部分：一个是将t时刻驾驶场景状态输入S1中的驾驶状态提取器得到的驾驶决策特征f(s_t,a_t)，另一个就是基于下面公式得到的

该公式中包含参数r_θ(s_t,a_t)借助S2中的回报函数生成器基于驾驶示范数据生成的回报函数。Q^π(s_t,a_t)和Q^π(s_t+1,a_t+1)来自于S23中所记录的那组Q值Q，选取其中描述t时刻驾驶场景s_t的Q值和选取其中描述t+1时刻驾驶场景s_t+1的Q值。

S32.建立神经网络

神经网络包括三层，第一层作为输入层，其中的神经元个数和特征提取器的输出特征种类相同为k个，用于输入驾驶场景的特征f(s_t,a_t)，第二层的隐层个数为10个，第三层的神经元个数和动作空间中进行决策的驾驶动作个数n一样的个数；输入层和隐层的激活函数都为sigmoid函数，即即有着：

z＝w⁽¹⁾x＝w⁽¹⁾[1,f_t]^T

h＝sigmoid(z)

g_w(s_t)＝sigmoid(w⁽²⁾[1,h]^T)

其中w⁽¹⁾代指隐层的权值；f_t代指t时刻驾驶场景的状态s_t的特征，也就是神经网络的输入；z代指未经过隐层sigmoid激活函数时候的网络层的输出；h代指经过sigmoid激活函数后的隐层输出；w⁽²⁾代指输出层的权值；网络结构如图3：

S33.优化神经网络

对于该神经网络的优化，建立的损失函数是交叉熵代价函数，公式如下：

其中N代指训练数据的个数。Q^π(s_t,a_t)就是将描述t时刻驾驶场景状态s_t输入神经网络，选择输出中的对应驾驶决策动作a_t项所得到的数值。为S31中求得的数值。同样是正则项，防止过拟合而设置的。该γ也可以为0.9。其中的W＝{w⁽¹⁾,w⁽²⁾}代指上面神经网络中权值。

将S31中获取的训练数据，输入该神经网络优化代价函数。借助梯度下降法完成对于该交叉熵代价函数的最小化，得到的优化完成的神经网络，得到驾驶策略获取器。

S4.将当前的S2的回报函数生成器和S3的驾驶策略获取器看做一个整体，查看当前S22中的t值，是否满足t＜ε，ε为评判目标函数是否满足需求的阈值，也就是判断当前用于获取驾驶策略的回报函数是否满足要求。其数值根据具体需要进行不同的设置。

当t的数值，不满足该公式的时候。需要重新构建S2中的回报函数生成器，此时需要将当前S23中需要的神经网络替换成S33中已经经过优化过后的新的神经网络，即将用于生成描述在驾驶场景状态s_t下，选取的决策驾驶动作a_i优劣的Q(s_t,a_i)值的网络，替换成S33中经过梯度下降方法进行优化过的新的网络结构。然后重新进行S2、S3的步骤：构架回报函数生成器、得到驾驶策略获取器，再次判断t的数值是否满足需求。

当满足该公式的时候，当前的θ就是所需的回报函数的权值。S2的回报函数生成器则满足要求，S3中的驾驶策略获取器也满足要求。于是可以：采集需要建立驾驶员模型的某驾驶员的驾驶数据，即驾驶过程中的环境场景图像和对应的操作数据，如驾驶转向角。输入驾驶环境特征提取器，得到对于当前场景的决策特征。然后将提取得到的特征输入回报函数生成器，得到对应场景状态的回报函数。然后把采集的决策特征和计算得到的回报函数输入驾驶策略获取器，得到该驾驶员对应的驾驶策略。

在马尔科夫决策过程中，一种策略需要连接状态到其对应的动作。但对于一个有着大范围的状态空间的时候，对于未遍历的区域，很难描述出来一个确定的策略表示，传统方法之中也忽略了对这部分的描述，仅仅是基于示范轨迹，来说明整个轨迹分布的概率模型，对于新的状态并没有给出具体的策略表示，即对于新状态采取确定动作的可能性并未给出具体的方法。本发明中借助神经网络对于策略进行描述，神经网络因其能够在任何精确度上近似表示任意函数的特性，同时有着优秀的泛化能力。借助状态特征的表示，一方面可以表示出那些不包含在示范轨迹中的状态，另外，借助将对应的状态特征输入神经网络。可以求取对应的动作值，从而依策略求取应得的动作，因而，传统方法无法泛化驾驶示范数据到未遍历驾驶场景状态问题得以解决。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.一种构建驾驶策略的方法，其特征在于，具体包括如下步骤：

S21.获得专家的驾驶示范数据：

S22.求取驾驶示范的特征期望值；

S23.求取贪婪策略下的状态-动作集；

S24.求取回报函数的权值；

S3，构建驾驶策略获取器，完成驾驶策略的构建；

2.根据权利要求1所述一种构建驾驶策略的方法，其特征在于，步骤S21.获得专家的驾驶示范数据具体为：驾驶示范数据来自对于示范驾驶视频数据的采样提取，按照一定频率对一段连续的驾驶视频进行采样，得到一组轨迹示范；一个专家示范数据包括多条轨迹，总体记做：

3.根据权利要求1所述一种构建驾驶策略的方法，其特征在于，S22.求取驾驶示范的特征期望值具体为；首先将驾驶示范数据D_E中的各个描述驾驶环境情况的状态s_t输入S1中的状态特征提取器中，获得对应状态s_t下的特征情况f(s_t,a_t)，f(s_t,a_t)代指一组对应s_t的影响驾驶决策结果的驾驶环境场景特征值，然后基于下述公式计算出来驾驶示范的特征期望值：

其中γ为折扣因子，根据问题的不同，对应进行设置。

4.根据权利要求1所述一种构建驾驶策略的方法，其特征在于，求取贪婪策略下的状态-动作集的具体步骤是：由于步骤S2与S3是循环的两部分；

5.根据权利要求1所述一种构建驾驶策略的方法，其特征在于，求取回报函数的权值具体步骤是：

首先基于下面公式，构建目标函数：

6.根据权利要求1-5任一项所述一种构建驾驶策略的方法，其特征在于，步骤S2的具体实现过程还包括：S25.基于获得的对应回报函数权值θ，根据公式r(s,a)＝θ^Tf(s,a)构建回报函数生成器。

7.根据权利要求1所述一种构建驾驶策略的方法，其特征在于，步骤S3的具体实现过程为：

S31构建驾驶策略获取器的训练数据

S32.建立神经网络；

S33.优化神经网络。

8.根据权利要求7所述一种构建驾驶策略的方法，其特征在于，步骤S32中的神经网络包括三层，第一层作为输入层，其中的神经元个数和特征提取器的输出特征种类相同为k个，用于输入驾驶场景的特征f(s_t,a_t)，第二层的隐层个数为10个，第三层的神经元个数和动作空间中进行决策的驾驶动作个数n相同；输入层和隐层的激活函数都为sigmoid函数，即即有着：

z＝w⁽¹⁾x＝w⁽¹⁾[1,f_t]^T

h＝sigmoid(z)

g_w(s_t)＝sigmoid(w⁽²⁾[1,h]^T)

9.根据权利要求7所述一种构建驾驶策略的方法，其特征在于，对于该神经网络的优化，建立的损失函数是交叉熵代价函数，公式如下：

10.根据权利要求1所述一种构建驾驶策略的方法，其特征在于，步骤S4具体实现过程包括：

S4.将当前的S2的回报函数生成器和S3的驾驶策略获取器看做一个整体，查看当前S22中的t值，是否满足t＜ε，ε为评判目标函数是否满足需求的阈值，也就是判断当前用于获取驾驶策略的回报函数是否满足要求；其数值根据具体需要进行不同的设置；