CN110745136A

CN110745136A - 一种驾驶自适应控制方法

Info

Publication number: CN110745136A
Application number: CN201910893473.1A
Authority: CN
Inventors: 高洪波; 刘康; 李智军; 储晓丽; 郝正源
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-02-04
Anticipated expiration: 2039-09-20
Also published as: CN110745136B

Abstract

本发明公开了一种驾驶自适应控制方法，属于智能驾驶和人工智能技术领域，包括获取历史驾驶数据集，并将历史驾驶数据集分为训练集、测试集和验证集；采用基于深度卷积神经网络的深度强化学习算法，构建用于驾驶控制的网络模型；利用训练集数据对网络模型进行训练，并利用代价函数的梯度迭代重复训练网络模型，以得到优化后的网络模型；利用测试集和验证集对优化后的网络模型的性能进行验证，并将满足性能的网络模型作为自适应决策模型；利用自适应决策模型对当前采集的实时环境数据进行处理，做出驾驶决策。本发明能更好的模拟人类在真实复杂环境下做出的驾驶决策和相应的驾驶动作。

Description

一种驾驶自适应控制方法

技术领域

本发明涉及智能驾驶及人工智能技术领域，特别涉及一种驾驶自适应控制方法。

背景技术

近年来，随着智能驾驶技术和人工智能技术的快速兴起，越来越多的高校、企业以及研究所纷纷对智能车开始实验测试，并已经从基础技术研发逐渐转向为市场应用。智能驾驶的发展，从根本上改变了传统的车辆驾驶方式，将驾驶员从复杂的驾驶环境中解放出来，利用环境感知、雷达设备、自主定位、决策规划、以及智能控制等技术，来实现在没有人类主动干扰的情况下，自动、安全且高效地完成自动避障、自适应巡航、泊车以及超车等类人类驾驶行为。智能驾驶技术的研究对缓解交通拥堵、保证交通安全以及降低能源消耗，具有不可替代的现实意义和应用前景，同时，也极大地加强了在复杂环境下的自主探测与作业能力，满足国家重大安全需求的战略性核心技术。

智能驾驶的自主控制系统是利用感知的实时环境数据、高精度的地图、车辆的驾驶状态以及预测到的周边行人和车辆的动作和意图，自主制定控制策略的过程。随着信息技术，尤其是传感器、通信、认知科学、计算机和互联网技术的快速发展，基于深度学习和专家规则限定的控制方法被广泛应用于智能车辆的控制和自动识别领域。然而，由于实际应用场景的复杂多变和不可预测，基于专家规则制定的策略可能无法覆盖足够广阔的场景范围，从而容易造成严重的交通事故。除此之外，当新添加的规则与原本的规则发生冲突时，就必须对原本的规则进行调整修改，这大大降低了基于专家规则制定策略的鲁棒性和自适应性。基于深度学习的控制理论，英伟达公司于2016年通过训练深度卷积神经网络搭建环境信息与车辆控制参数的映射关系，实现“端到端”控制，然而，该方法只是简单的利用深度学习所具备的感知能力来转化为对自主车辆的决策与控制，因此，这过度依赖深度学习而缺乏理性客观的分析，同时，该方法需要大量含有标签的数据集，这极大地加重了研究者的工作量。

发明内容

本发明的目的在于克服现有技术存在的缺陷或不足，以提供一种能更好的模拟人类在真实复杂环境下做出的驾驶决策和相应的驾驶动作的智能驾驶控制方法。

为实现以上目的，采用一种驾驶自适应控制方法，包括如下步骤：

获取历史驾驶数据集，并将历史驾驶数据集分为训练集、测试集和验证集；

采用基于深度卷积神经网络的深度强化学习算法，构建用于驾驶控制的网络模型；

利用训练集数据对网络模型进行训练，并利用代价函数的梯度迭代重复训练网络模型，以得到优化后的网络模型；

利用测试集和验证集对优化后的网络模型的性能进行验证，并将满足性能的网络模型作为自适应决策模型；

利用自适应决策模型对当前采集的实时环境数据进行处理，做出驾驶决策。

进一步地，所述获取的历史驾驶数据集为驾驶员处于自然状态下在实际道路上行驶得到驾驶数据；所述历史驾驶数据集中每组样本值包括车辆驾驶状态和对应的驾驶动作，车辆驾驶状态包括车辆周围的道路环境信息、车辆当前行驶的速度和朝向以及驾驶决策信息。

进一步地，所述用于驾驶控制的网络模型，其结构包括1个输入层、 5个卷积层、3个池化层、3个全连接层以及1个输出层；

输入层接第一卷积层，第一卷积层的输出接第一池化层，第一池化层的输出接第二卷积层，第二卷积层的输出接第二池化层，第二池化层的输出依次接第三卷积层、第四卷积层和第五卷积层；

第五卷积层的输出接第三池化层，第三池化层的输出依次接第一全连接层、第二全连接层和第三全连接层，第三全连接层的输出接输出层。

进一步地，所述利用训练集数据对网络模型进行训练，并利用代价函数的梯度迭代重复训练网络模型，以得到优化后的网络模型，包括：

将所述训练集的数据作为所述网络模型的输入，构建样本集D，样本集D中的样本值为(s,a,r,s′)，其中，s表示车辆当前的驾驶状态，a表示车辆当前的驾驶状态所对应的驾驶动作，s′表示车辆下一步的驾驶状态，r表示在驾驶状态s下的奖励值，s′和r为执行驾驶动作a′后从环境中获得的反馈信息，a′为将s和a作为所述网络模型的输入时，所述网络模型输出网络目标值中的最大值所对应的驾驶动作；

基于样本集D中的样本值，利用代价函数的梯度迭代重复所述训练网络模型，得到优化后的网络模型并输出优化后的网络目标值。

进一步地，所述驾驶决策包括跟驰驾驶、变道驾驶、转弯驾驶和泊车，在所述驾驶决策为跟驰驾驶时，还包括对跟驰驾驶决策下的奖励值进行评价，具体为：

其中，A_distance、B_angle、G_distance和v分别表示当前车辆与前方车辆的车距、车辆当前的行驶朝向与所行驶道路中线的切线夹角、车辆中线上的点与所行驶道路中线的最短距离以及车辆当前的行驶速度，a1、b1、c1 和d1分别表示A_distance、B_angle、v和G_distance的权重系数。

进一步地，在所述驾驶决策为变道驾驶时，还包括对变道驾驶决策下的奖励值进行评价，具体为：

其中，E_distance、B_angle和G_distance分别表示车辆在当前行驶道路和换道后距离前后方障碍物的最近距离、车辆当前的行驶朝向与所行驶道路中线的切线夹角，以及车辆中线上的点与所行驶道路中线的最短距离；v表示车辆当前的行驶速度，T1表示完成变道所需的时间，a2、b2、c2、d2 和g1分别分别表示E_distance、B_angle、v、G_distance和T1的权重系数。

进一步地，在所述驾驶决策为转弯驾驶时，还包括对转弯驾驶决策下的奖励值进行评价，具体为：

其中，F_distance、B_angle和G_distance分别表示车辆距离周围障碍物的最近距离、车辆当前的行驶朝向与所行驶道路中线的切线夹角，以及车辆中线上的点与所行驶道路中线的最短距离，v表示车辆当前的行驶速度，T2 表示完成转弯所需的时间，a3、b3、c3、d3和g2分别表示F_distance、B_angle、 v、H_distance和T2权重系数，n1和m别表示变道驾驶和跟驰驾驶评分的权重系数。

进一步地，在所述驾驶决策为泊车时，还包括对泊车决策下的奖励值进行评价，具体为：

其中，G_distance、H_distance和B_angle分别表示车辆当前车道距前后方障碍物的最近距离、车辆中线上的点距离道路边缘的最近距离以及车辆当前的行驶朝向与所行驶道路中线的切线夹角；v表示车辆当前的行驶速度， T3表示完成泊车所需的时间，a4、b 4、c4、d4和g3分别表示G_distance、B_angle、 v、H_distance和T3的权重系数；n2和m分别表示泊车过程和跟驰驾驶评分的权重系数。

进一步地，所述基于样本集D中的样本值，利用代价函数的梯度迭代重复所述训练网络模型，得到优化后的网络模型并输出优化后的网络目标值，包括：

从所述样本集D中随机选择一组样本值作为所述网络模型的输入，并判断是否达到最大迭代步数或满足迭代结束条件；

若是，则将所述网络模型作为优化后的网络模型；

若否，则从样本集D中随机选择一组样本值作为所述网络模型的输入，对所述网络模型进行训练和学习，并在达到收敛后，将新产生的样本值替换掉样本集D中当前选择的样本值；

并将误差最小的网络模型作为所述优化后的网络模型，并输出优化后的网络目标值，所述优化后的网络目标值y的计算公式为：

y＝r+γ·Q^*(s′,a′)

其中，γ为衰减系数，Q^*表示在所有迭代时间中网络目标Q的最大值，·表示乘积；

利用优化后的网络目标值对所述优化后的网络模型的参数进行更新。

进一步地，所述利用优化后的网络目标值对所述优化后的网络模型的参数进行更新，包括：

通过代价函数的反向梯度下降法对所述优化后的网络模型的参数进行更新，所述代价函数的计算公式如下：

所述代价函数的更新率的计算公式如下：

按照目标的正梯度方向对参数进行更新，更新后的网络参数θ_i计算公式如下：

其中，η为学习率，θ_i表示在i时刻的网络参数，1≤i≤T，T表示迭代更新步长。

与现有技术相比，本发明存在以下技术效果：本发明将深度学习和强化学习结合起来，利用深度学习强大的感知能力来解决目标和值函数的建模问题，利用强化学习出色的决策能力来实现目标的优化和调度问题，深度强化学习是一种非监督式学习方法，通过奖励的方式，使机器人从环境中获得的累计奖励值最大化，最终得到能实现目标的最优控制方案，能更好的模拟人类在真实复杂环境下做出的驾驶决策和相应的驾驶动作，为解决智能驾驶中的控制问题提供了有效的解决策略。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种驾驶自适应控制方法的流程示意图；

图2是深度强化学习算法的训练流程图；

图3是用于驾驶控制的网络模型的结构示意图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种驾驶自适应控制方法，包括如下步骤S1至S5：

S1、获取历史驾驶数据集，并将历史驾驶数据集分为训练集、测试集和验证集；

S2、采用基于深度卷积神经网络的深度强化学习算法，构建用于驾驶控制的网络模型；

S3、利用训练集数据对网络模型进行训练，并利用代价函数的梯度迭代重复训练网络模型，以得到优化后的网络模型；

S4、利用测试集和验证集对优化后的网络模型的性能进行验证，并将满足性能的网络模型作为自适应决策模型；

S5、利用自适应决策模型对当前采集的实时环境数据进行处理，做出驾驶决策。

其中，通过搭建深度卷积神经网络模型作为用于驾驶控制的网络模型，计算出网络目标值。经过反复迭代训练和测试验证，更新网络参数，构建更加优化的神经网络模型，并移植至真实环境中的智能车控制系统中。基于深度强化学习的智能驾驶控制策略能更好地模拟人类在真实复杂环境下做出的驾驶决策和相应的驾驶动作，同时也对智能驾驶的发展具有长远且积极的影响。

具体来说，本实施例所述历史驾驶数据为基于大型实车路试先验实验所提供的实验数据，从中随机选取大量人工驾驶模式下的自然驾驶数据，并将所选取的自然驾驶数据划分为训练集、测试集和验证集，划分比例为6:1:1。

需要说明的是，自然驾驶数据指的是利用高精密度的数据采集系统所获取到驾驶员在自然状态下(即驾驶员按照日常的驾驶习惯和驾驶动作行驶)最真实的实际道路下的驾驶数据。特别地，自然驾驶数据相较于实验道路的实车数据，具有更多样的数据量，更能反映驾驶员在实际交通环境下的真实驾驶状态，另外，自然驾驶数据相较于高空摄像机采集的纯轨迹数据，包含了更清楚的道路环境信息和车辆驾驶时的姿态信息，有利于开展驾驶员对车辆控制层面的评估。

本实施例所述的历史驾驶数据集中，每组样本值包括车辆驾驶状态和对应的驾驶动作，车辆驾驶状态包括车辆周围的道路环境信息、车辆当前行驶的速度和朝向以及驾驶决策信息。其中，车辆周围的道路环境信息包括信号灯、道路标志、周围车辆以及行人；驾驶决策信息包括泊车、跟驰、转弯、换道驾驶，利用驾驶状态信息去指导做出正确的驾驶动作，驾驶动作包括踩油门，踩刹车以及打方向。

为了使问题简单化，本实施例中将车辆的驾驶动作空间分解为对车辆的纵向控制和横向控制两部分，其中把整车视为刚体，将车辆中心视为坐标原点，车辆正前方视为二维坐标系中的正纵坐标轴。除此之外，本发明通过调整方向盘的转角对车辆进行横向控制，通过将刹车和油门合成为一个向量对车辆进行纵向控制，如果向量是正则表示踩油门，即车辆加速，如果向量是负则表示踩刹车，即车辆减速，如果向量是零则表示车辆在纵向上既不踩刹车也不踩油门，即车辆保持当前速度行驶。

具体来说，如图3所示，上述步骤S2中构建用于驾驶控制的网络模型，其网络结构包括1个输入层、5个卷积层、3个池化层、3个全连接层以及1个输出层；

具体地，在基于深度卷积神经网络的深度强化学习中，输入信息从输入层通过前向反馈方式，经过由卷积层和池化层相互交替连接的中间层，最后通过采用全连接结构方式的输出层来输出信息，具体的计算公式如下：

设

β^l和W^l(·)分别表示深度卷积网络的第l层中的第n个神经元输出量，偏置量以及权重，则有以下三种情况：

(1)当第l层为卷积层时，则该层中第n个神经元的输出公式为

其中，k、f_a、M以及符号*分别表示卷积核、卷积层的激活函数、输入信息的集合以及卷积核在第l-1层所有关联的特征映射上进行运算。

(2)当第l层为池化层时，则该层中第n个神经元的输出公式为

其中，f_b表示池化函数；

表示池化层中的激活函数，在本实施例中采用随机池化，降低计算复杂度、消除非极大值以及避免过拟合的现象。

(3)当第l层为全连接层时，则该层中第n个神经元的输出公式为

其中，f_b表示全连接层的激活函数。

对于情况(1)-(3)，所述的激活函数采用ELU(Exponential Linear Units)函数，表达式如下：

其中，α表示正常数。

具体来说，如图2所示，上述步骤S3：所述利用训练集数据对网络模型进行训练，并利用代价函数的梯度迭代重复训练网络模型，以得到优化后的网络模型，包括如下细分步骤S31至S32：

S31、将所述训练集的数据作为所述网络模型的输入，构建样本集D，样本集D中的样本值为(s,a,r,s′)，其中，s表示车辆当前的驾驶状态，a 表示车辆当前的驾驶状态所对应的驾驶动作，s′表示车辆下一步的驾驶状态，r表示在驾驶状态s下的奖励值，s′和r为执行驾驶动作a′后从环境中获得的反馈信息，a′为将s和a作为所述网络模型的输入时，所述网络模型输出网络目标值中的最大值所对应的驾驶动作；

需要说明的是，样本集D的构建过程为：智能车在当前驾驶状态s 下，从可行的驾驶动作列表中以概率ε随机选择一个驾驶动作作为当前驾驶动作a，当前驾驶状态s和当前驾驶动作a输入到深度卷积神经网络中，利用深度强化学习算法计算出下一步中执行每个可能的驾驶动作a′ 的Q值，选取其中最大的Q值所对应的驾驶动作a′，当执行完成驾驶动作a′后，则智能车能从环境中获得反馈信息，即下一步驾驶状态s′和在驾驶状态s下的奖励值r，从而获得由四元组构成的样本值(s,a,r,s′)。重复上述过程，持续采集数据样本，并将获得的样本值存入到回放样本存储器中，形成样本集D。

S32、基于样本集D中的样本值，利用代价函数的梯度迭代重复所述训练网络模型，得到优化后的网络模型并输出优化后的网络目标值。

进一步地，由于基于深度卷积神经网络的深度强化学习模型是根据与环境交互所得的奖励值对网络进行反馈指导和训练优化，因此，训练的目标越明确且奖励值与训练目标的正相关越强，也就越有利于缩短训练网络模型的时间。针对智能车在实际道路上行驶时做出的不同驾驶决策，本实施例设计了相应的奖励值评价方法，以保证不同的驾驶决策都能通过正确且合理的奖励值评价方法对驾驶动作做出反馈和指导。本申请所述驾驶决策包括跟驰驾驶、变道驾驶、转弯驾驶和泊车，奖励值评价方法的原理如下：

(1)驾驶决策为跟驰驾驶时，对跟驰驾驶决策下的奖励值进行评价，具体为：

(2)驾驶决策为变道驾驶时，对变道驾驶决策下的奖励值进行评价，具体为：

(3)驾驶决策为转弯驾驶时，对转弯驾驶决策下的奖励值进行评价，具体为：

(4)在驾驶决策为泊车时，对泊车决策下的奖励值进行评价，具体为：

需要说明的是，上述不同驾驶决策的奖励值评价方法是基于训练目标与奖励值的正负相关性来设计的，不仅仅局限于本申请所提出的训练目标，还可以包括其他合理的训练目标。

进一步地，上述步骤S32：基于样本集D中的样本值，利用代价函数的梯度迭代重复所述训练网络模型，得到优化后的网络模型并输出优化后的网络目标值，具体包括如下细分步骤S321至S324：

S321、从所述样本集D中随机选择一组样本值(s_j,a_j,r_j,s′_j)作为所述网络模型的输入，并判断是否达到最大迭代步数或满足迭代结束条件，若是则执行步骤S322，若否则执行步骤S323；

S322、将所述网络模型作为优化后的网络模型，则优化后的网络目标值y＝r；

S323、从样本集D中随机选择一组样本值(s_j,a_j,r_j,s′_j)作为所述网络模型的输入，对所述网络模型进行训练和学习，并在达到收敛后，将新产生的样本值(s_m,a_m,r_m,s′_m)替换掉样本集D中当前选择的样本值 (s_j,a_j,r_j,s′_j)；

S324、不断重复更新和优化网络模型后，将误差最小的网络模型作为优化后的网络模型，并输出优化后的网络目标值y。

具体地，从所述样本集D中随机选择一组样本值(s_j,a_j,r_j,s′_j)作为所述网络模型的输入，计算网络目标值Q的最大值Q^*。在经历迭代时间T 后，Q^*值的计算公式如下：

Q^*(s′,a′)＝max{Q(s′,a′；θ₁),Q(s′,a′；θ₂),...,Q(s′,a′；θ_T)}

其中，Q(s′,α′；θ_i)分别表示在下一步状态s′和奖励值r时的网络目标值，Q^*表示在所有迭代时间中Q的最大值，θ_i表示在i时刻的网络参数，另外，1≤i≤T，T表示迭代更新步长。

所述优化后的网络目标值y的计算公式为：

y＝r+γ·Q^*(s′,a′)

其中，γ为衰减系数，Q^*表示所有迭代时间中网络目标值Q的最大值，·表示乘积。

所述利用优化后的网络目标值对所述优化后的网络模型的参数进行更新，包括：

所述代价函数的更新率的计算公式如下：

其中，η为学习率，η为学习率，其决定着算法每一轮迭代中的更新步长，θ_i+1表示θ_i更新后的值。

具体来说，上述步骤S4：利用测试集和验证集对优化后的网络模型的性能进行验证，并将满足性能的网络模型作为自适应决策模型，具体包括：将测试集和验证集分别输入到优化后的网络模型中，进行验证和分析，基于验证误差来评价模型的泛化能力，如果满足性能要求，则将最终的优化网络模型移植至现实环境中。

具体来说，上述步骤S5：利用自适应决策模型对当前采集的实时环境数据进行处理，做出驾驶决策，包括：

将车载摄像机、惯导系统以及GPS定位系统所采集到的车辆周围环境信息，输入至自适应决策模型中，做出驾驶决策并指导完成相应的驾驶动作，实现智能车在真实道路下的智能驾驶的自适应控制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种驾驶自适应控制方法，其特征在于，包括：

2.如权利要求1所述的驾驶自适应控制方法，其特征在于，所述获取的历史驾驶数据集为驾驶员处于自然状态下在实际道路上行驶得到驾驶数据；所述历史驾驶数据集中每组样本值包括车辆驾驶状态和对应的驾驶动作，车辆驾驶状态包括车辆周围的道路环境信息、车辆当前行驶的速度和朝向以及驾驶决策信息。

3.如权利要求1所述的驾驶自适应控制方法，其特征在于，所述用于驾驶控制的网络模型，其结构包括1个输入层、5个卷积层、3个池化层、3个全连接层以及1个输出层；

4.如权利要求2所述的驾驶自适应控制方法，其特征在于，所述利用训练集数据对网络模型进行训练，并利用代价函数的梯度迭代重复训练网络模型，以得到优化后的网络模型，包括：

5.如权利要求4所述的驾驶自适应控制方法，其特征在于，所述驾驶决策包括跟驰驾驶、变道驾驶、转弯驾驶和泊车，在所述驾驶决策为跟驰驾驶时，还包括对跟驰驾驶决策下的奖励值进行评价，具体为：

其中，A_distance、B_angle、G_distance和v分别表示当前车辆与前方车辆的车距、车辆当前的行驶朝向与所行驶道路中线的切线夹角、车辆中线上的点与所行驶道路中线的最短距离以及车辆当前的行驶速度，a1、b1、c1和d1分别表示A_distance、B_angle、v和G_distance的权重系数。

6.如权利要求5所述的驾驶自适应控制方法，其特征在于，在所述驾驶决策为变道驾驶时，还包括对变道驾驶决策下的奖励值进行评价，具体为：

其中，E_distance、B_angle和G_distance分别表示车辆在当前行驶道路和换道后距离前后方障碍物的最近距离、车辆当前的行驶朝向与所行驶道路中线的切线夹角，以及车辆中线上的点与所行驶道路中线的最短距离；v表示车辆当前的行驶速度，T1表示完成变道所需的时间，a2、b2、c2、d2和g1分别分别表示E_distance、B_angle、v、G_distance和T1的权重系数。

7.如权利要求5所述的驾驶自适应控制方法，其特征在于，在所述驾驶决策为转弯驾驶时，还包括对转弯驾驶决策下的奖励值进行评价，具体为：

其中，F_distance、B_angle和G_distance分别表示车辆距离周围障碍物的最近距离、车辆当前的行驶朝向与所行驶道路中线的切线夹角，以及车辆中线上的点与所行驶道路中线的最短距离，v表示车辆当前的行驶速度，T2表示完成转弯所需的时间，a3、b3、c3、d3和g2分别表示F_distance、B_angle、v、H_distance和T2权重系数，n1和m别表示变道驾驶和跟驰驾驶评分的权重系数。

8.如权利要求5所述的驾驶自适应控制方法，其特征在于，在所述驾驶决策为泊车时，还包括对泊车决策下的奖励值进行评价，具体为：

其中，G_distance、H_distance和B_angle分别表示车辆当前车道距前后方障碍物的最近距离、车辆中线上的点距离道路边缘的最近距离以及车辆当前的行驶朝向与所行驶道路中线的切线夹角；v表示车辆当前的行驶速度，T3表示完成泊车所需的时间，a4、b4、c4、d4和g3分别表示G_distance、B_angle、v、H_distance和T3的权重系数；n2和m分别表示泊车过程和跟驰驾驶评分的权重系数。

9.如权利要求4所述的驾驶自适应控制方法，其特征在于，所述基于样本集D中的样本值，利用代价函数的梯度迭代重复所述训练网络模型，得到优化后的网络模型并输出优化后的网络目标值，包括：

若是，则将所述网络模型作为优化后的网络模型；

将误差最小的网络模型作为所述优化后的网络模型，并输出优化后的网络目标值，所述优化后的网络目标值y的计算公式为：

y＝r+γ·Q^*(s′,a′)

其中，γ为衰减系数，Q^*表示所有迭代时间中网络目标值Q的最大值，·表示乘积；

10.如权利要求9所述的驾驶自适应控制方法，其特征在于，所述利用优化后的网络目标值对所述优化后的网络模型的参数进行更新，包括：

所述代价函数的更新率的计算公式如下：