CN113807503B

CN113807503B - 适用于智能汽车的自主决策方法及系统、装置、终端

Info

Publication number: CN113807503B
Application number: CN202111142980.5A
Authority: CN
Inventors: 高洪波; 朱菊萍; 何希; 王成才
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2024-02-09
Anticipated expiration: 2041-09-28
Also published as: CN113807503A

Abstract

本发明提供了一种适用于智能汽车的自主决策方法，包括根据状态选择动作集合A中的动作，得到下一个状态，然后计算出回报R，在Double DQN框架下，给当前Q网络与目标Q网络构建相同的CNN网络用于训练；利用贪婪策略选择动作获得待训练的样本，动作从步骤S1中的动作集合A中选择，样本构成reply池；待样本达到设定数量后，从reply池中根据设定阈值选择样本，随后进行训练，根据梯度下降法，由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数；样本训练之后应用至载体进行自主决策。本发明对不同信息构建不同网络，有利于保证各种信息的本质特征，避免所有信息通过同一网络，特征混杂难以处理。

Description

适用于智能汽车的自主决策方法及系统、装置、终端

技术领域

本发明涉及自动驾驶技术领域，具体地，涉及一种适用于智能汽车的自主决策方法及系统、装置、终端。

背景技术

近年来，随着以人工智能为代表的新一轮科技革命的崛起，推动了传统制造业进入快速转型升级发展。传统的汽车产业作为各类先进机电系统技术集成的典型代表，其智能化也随着这轮科技革命逐渐成为发展趋势，成为研究热点。同时，自动驾驶汽车也为解决汽车交通安全、交通拥堵、燃油消耗和空气污染问题提供了新的解决方案。

驾驶行为决策是智能车的重要功能模块，也是自主驾驶技术研究的重点和难点。驾驶行为决策是根据感知系统得到的环境信息和当前的车辆状态做出安全合理的驾驶操作，比如车辆跟驰、换道、超车、汇入车流等，其性能好坏是衡量智能车辆智能化水平的重要指标。

现有技术中对驾驶决策行为采用的是基于规则的技术方案，存在的缺点是鲁棒性不足，本申请对技术方案的决策方法进行了改进，解决了现有技术不能解决的鲁棒性不足的技术问题，将现有技术方案应用到本申请中也不能解决，是因为现有技术无法实现对实际环境的精确模拟。

经过检索，专利文献CN110406530B公开了一种自动驾驶方法、装置、设备和车辆。包括：获取环境感知数据和车辆状态参数；将所述环境感知数据和车辆状态参数输入第一动作参数识别模型进行离散型动作参数识别，得到离散型动作的目标参数；将所述环境感知数据和车辆状态参数输入第二动作参数识别模型进行连续型动作参数识别，得到连续型动作的目标参数；当所述离散型动作的目标参数和所述连续型动作的目标参数匹配时，基于所述连续型动作的目标参数和所述离散型动作的目标参数控制车辆自动驾驶。该现有技术是基于车辆的驾驶数据和建立的学习模型实现车辆自动驾驶的端对端训练，实现车辆在复杂场景中离散型动作和连续型动作的控制参数的输出、匹配和同步；但是不足之处在于如何合理的离散化连续型模型，或者如何直接构建合理的离散型模型是十分困难的。

专利文献CN110893860B公开了一种智能驾驶方法及智能驾驶系统，包括：获取车辆当前时刻的特征参数以及车辆在未来预设时间段内驾驶场景的道路属性；其中，所述特征数可以包括结构化语义信息、道路属性以及交通态势频谱；比较当前时刻的特征参数与场景特征库中标准场景的特征参数，以及比较车辆在未来预设时间段内驾驶场景的道路属性与场景特征库中标准场景的道路属性，根据比较结果确定每个场景类与所述车辆当前时刻的驾驶场景的总相似度；将N个场景类中总相似度最高的第一场景类确定为当前时刻的驾驶场景；根据确定结果控制车辆进行智能驾驶。该现有技术的不足之处在于为特征参数和道路属性等都是基于规则制定者的经验选定，鲁棒性不足。

因此，亟需研发设计一种对不同信息通过不同网络进行处理实现自主决策的方法和系统。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种适用于智能汽车的自主决策方法及系统、装置、终端。

根据本发明提供的一种适用于智能汽车的自主决策方法，包括如下步骤：

步骤S1：构建驾驶行为的状态集合S、驾驶行为的动作集合A和驾驶行为的回报集合R，根据状态选择动作集合A中的动作，得到下一个状态，然后计算出回报R，在Double DQN框架下，给当前Q网络与目标Q网络构建相同的CNN网络用于训练；

步骤S2：利用贪婪策略选择动作获得待训练的样本，动作从步骤S1中的动作集合A中选择，样本构成reply池；

步骤S3：待样本达到设定数量后，从reply池中根据设定阈值选择样本，随后进行训练，根据梯度下降法，由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数；

步骤S4：样本训练之后应用至载体进行自主决策。

优选地，步骤S1中驾驶行为的状态集合S包括智能汽车采集的速度与距离信息；驾驶行为的动作集合A包括加速、减速、车道保持、左变道和右变道信息；

训练在Double DQN框架下，给当前Q网络与目标Q网络构建相同的CNN网络。

优选地，步骤S1中驾驶行为的回报集合R包括：

r_sum＝r_col+r_left+r_lc+r_speed；

其中，v_max为允许的最大速度；v_min为允许的最小速度；r_left为左车道奖励；r_col为相撞惩罚；r_speed为根据速度大小归一化后得到奖励；r_lc为车道变化惩罚。

优选地，步骤S2中获得待训练的样本放入reply池进行积累，在reply池中获取训练集。

优选地，步骤S3中采用CNN深度神经网络进行样本训练，包括：

步骤S3.1：初始化CNN深度神经网络参数；

步骤S3.2：针对大于设定阈值的样本在被多次抽取训练后舍弃，针对小于设定阈值的样本在抽样后即被舍弃；

步骤S3.3：根据输入信息匹配不同的CNN深度神经网络进行训练；

步骤S3.4：求取CNN深度神经网络的损失值，两个网络间的损失值用于反向传播来优化当前Q网络；

步骤S3.5：利用梯度下降法优化CNN深度神经网络参数，当前值神经网络每优化N轮，将CNN深度神经网络参数复制给目标Q网络即决策网络；

优选地，步骤S3.4中损失值计算为：

loss＝(y-Q(s,a；θ))²

式中，r为下一个状态返回奖励，γ为折扣系数，Q(s,a；θ)为当前Q网络的Q值，Q(s,a；θ′)为目标Q网络的Q值。

优选地，步骤S4中输入所需信息，将信息输入所训练CNN网络即可得到动作集合A中的动作所对应的Q值，选择Q值最大的动作，车辆根据动作行动，实现自动驾驶。

根据本发明提供的一种适用于智能汽车的自主决策系统，包括：

信息获取与构建模块：构建驾驶行为的状态集合S、驾驶行为的动作集合A和驾驶行为的回报集合R，根据状态选择动作集合A中的动作，得到下一个状态，然后计算出回报R，在Double DQN框架下，给当前Q网络与目标Q网络构建相同的CNN网络用于训练；

训练样本采集模块：利用贪婪策略选择动作获得待训练的样本，动作从步骤S1中的动作集合A中选择，样本构成reply池；

样本训练模块：待样本达到设定数量后，从reply池中根据设定阈值选择样本，随后进行训练，根据梯度下降法，由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数；

决策模块：样本训练之后应用至载体进行自主决策。

根据本发明提供的一种适用于智能汽车的自主决策装置，使用上述任一种适用于智能汽车的自主决策方法进行自主决策。

根据本发明提供的一种智能终端，包括上述的适用于智能汽车的自主决策装置。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过对不同信息构建不同网络，有利于保证各种信息的本质特征，避免所有信息通过同一网络，特征混杂难以处理。

2、本发明通过构建不同网络，有利于减少预测时间，各种信息并行处理，最终汇总，提高预测准确度，减少预测时间。

3、本发明对reply池进行改进，根据阈值判别是否为成功样本，成功样本比失败样本在reply池中存在几率更大，提高训练效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明中适用于智能汽车的自主决策方法的步骤流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，本发明提供了一种适用于智能汽车的自主决策方法，包括如下步骤：

步骤S1：构建驾驶行为的状态集合S、驾驶行为的动作集合A和驾驶行为的回报集合R，根据状态选择动作集合A中的动作，得到下一个状态，然后计算出回报R，在Double DQN框架下，给当前Q网络与目标Q网络构建相同的CNN网络用于训练。

具体地，步骤S1中驾驶行为的状态集合S包括智能汽车采集的速度与距离信息；驾驶行为的动作集合A包括加速、减速、车道保持、左变道和右变道信息。

训练在Double DQN框架下，给当前Q网络与目标Q网络构建相同的CNN网络。驾驶行为的回报集合R包括：

r_sum＝r_col+r_left+r_lc+r_speed；

其中，v_max为允许的最大速度；v_min为允许的最小速度；r_left为左车道奖励；r_col为相撞惩罚；r_speed为根据速度大小归一化后得到奖励；r_lc为车道变化惩罚，尽可能少变化车道，保证安全。

步骤S2：利用贪婪策略选择动作获得待训练的样本，动作从步骤S1中的动作集合A中选择，样本构成reply池；获得待训练的样本放入reply池进行积累，在reply池中获取训练集。

根据上式选择动作，获得下一步状态s‘，将(a,s,s‘,r)作为一组样本存入reply池。∈的值随着训练次数的增加逐渐减小，以便于更加可能选择正确的动作而不是探索环境。设定ε_min作为下限，使总有能力探索环境。

步骤S3：待样本达到设定数量后，从reply池中根据设定阈值选择样本，随后进行训练，根据梯度下降法，由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数。具体地：

步骤S3.1：初始化CNN深度神经网络参数；

步骤S3.2：针对大于设定阈值的样本在被多次抽取训练后舍弃，针对小于设定阈值的样本在抽样后即被舍弃。特别地，对reward大于阈值的样本，在reply池中会被抽取至多两次训练后舍弃，而reward小于阈值的样本在抽样后就会被舍弃。阈值取当回合训练结果的reward-0.5。

步骤S3.3：根据输入信息匹配不同的CNN深度神经网络进行训练；根据信息的类型，如图像，速度和位置信息等，构建不同的网络。图像信息利用多层二维卷积网络进行处理，而速度位置信息可以利用层数较少的一维卷积网络处理。

步骤S3.4：求取CNN深度神经网络的损失值，两个网络间的损失值用于反向传播来优化当前Q网络。损失值计算为：

loss＝(y-Q(s,a；θ))²

步骤S3.5：利用梯度下降法优化CNN深度神经网络参数，当前值神经网络每优化N轮，将CNN深度神经网络参数复制给目标Q网络即决策网络。

令L(θ)＝∑(y-Q(s,a；θ))²，对其求导

利用梯度下降法对θ进行优化直至L(θ)达到最小值。

步骤S4：样本训练之后应用至载体进行自主决策。输入所需信息，将信息输入所训练CNN网络即可得到动作集合A中的动作所对应的Q值，选择Q值最大的动作，车辆根据动作行动，实现自动驾驶。

本发明还提供了一种适用于智能汽车的自主决策系统，包括：

决策模块：样本训练之后应用至载体进行自主决策。

本发明又提供了一种适用于智能汽车的自主决策装置，使用上述任一种适用于智能汽车的自主决策方法进行自主决策。

本发明继续提供了一种智能终端，包括上述的适用于智能汽车的自主决策装置。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种适用于智能汽车的自主决策方法，其特征在于，包括如下步骤：

步骤S4：样本训练之后应用至载体进行自主决策；

所述步骤S1中驾驶行为的状态集合S包括智能汽车采集的速度与距离信息；驾驶行为的动作集合A包括加速、减速、车道保持、左变道和右变道信息；

训练在Double DQN框架下，给当前Q网络与目标Q网络构建相同的CNN网络；

所述步骤S1中驾驶行为的回报集合R包括：

r_sum＝r_col+r_left+r_lc+r_speed；

其中，v_max为允许的最大速度；v_min为允许的最小速度；r_left为左车道奖励；r_col为相撞惩罚；r_speed为根据速度大小归一化后得到奖励；r_lc为车道变化惩罚；

所述步骤S3中采用CNN深度神经网络进行样本训练，包括：

步骤S3.1：初始化CNN深度神经网络参数；

步骤S3.3：根据输入信息的类型匹配不同的CNN深度神经网络进行训练；

所述步骤S4中输入所需信息，将信息输入所训练CNN网络即可得到动作集合A中的动作所对应的Q值，选择Q值最大的动作，车辆根据动作行动，实现自动驾驶。

2.根据权利要求1所述的适用于智能汽车的自主决策方法，其特征在于，所述步骤S2中获得待训练的样本放入reply池进行积累，在reply池中获取训练集。

3.一种适用于智能汽车的自主决策系统，其特征在于，基于如权利要求1所述的适用于智能汽车的自主决策的方法，包括：

决策模块：样本训练之后应用至载体进行自主决策。

4.一种适用于智能汽车的自主决策装置，其特征在于，使用权利要求1至2中任一项所述

的适用于智能汽车的自主决策方法进行自主决策。

5.一种智能终端，其特征在于，包括权利要求4所述的适用于智能汽车的自主决策装置。