CN111123738B

CN111123738B - 提高仿真环境中深度强化学习算法训练效率的方法及系统

Info

Publication number: CN111123738B
Application number: CN201911166461.5A
Authority: CN
Inventors: 董舒
Original assignee: Dilu Technology Co Ltd
Current assignee: Dilu Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2023-06-30
Anticipated expiration: 2039-11-25
Also published as: CN111123738A

Abstract

本发明公开了提高仿真环境中深度强化学习算法训练效率的方法及系统，包括以下步骤，在仿真环境中定义符合分解场景要求的城镇道路地图；提取所述地图中的道路先验信息和提取档位先验信息；利用卷积神经网络中提取车载相机的图像特征序列；将提取的所述先验信息加入到所述车载相机图像特征值序列构成最终特征值序列；所述新特征值序列作为深度强化学习算法模型训练使用的特征值序列；减少所述深度强化学习算法模型需要输出的控制信息；强化所述学习算法模型训练。本发明的有益效果：将场景进行分解，使复杂问题简单化；加入先验知识，减少训练时间。

Description

提高仿真环境中深度强化学习算法训练效率的方法及系统

技术领域

本发明涉及强化学习应用在自动驾驶领域的技术领域，尤其涉及一种提高仿真环境中深度强化学习算法训练效率的方法和提高仿真环境中深度强化学习算法训练效率的系统。

背景技术

近年来随着国家经济、社会的发展，汽车在国民的生活中的作用愈发重要，但随之而来的交通事故日益严重，给行人、乘客、司机带来较大的隐患。车辆的主被动安全日益受到重视。人工智能技术近些年的飞速发展，给人们的生活带来了很大的便利，同时也在改变人们的生活。使用人工智能技术实现车辆的自动驾驶，也成为当前研究中的重点方向。

目前自动驾驶行业中，成功实现车辆自动驾驶的技术中，主要是通过机器学习和传统的自动驾驶技术的深度结合来实现，取得了惊人的成绩，但其依赖于高精度的地图导航信息、高精度的雷达系统、以及其他成本较高的传感器设备，导致目前的技术落地成本较高。强化学习作为人工智能的重要组成部分，通过不断的试错来进行自主学习，与人类的进化类似，理论上可以达到人类智能的程度，人们将其作为人工智能的一个重点研究方向进行研究，所以将其在自动驾驶领域的应用也是具有相当的潜力。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的一个技术问题是：提出一种提高仿真环境中深度强化学习算法训练效率的方法，将复杂问题简化，避免深度强化学习算法模型学习车辆在各种情况下的自动驾驶。

为解决上述技术问题，本发明提供如下技术方案：一种提高仿真环境中深度强化学习算法训练效率的方法，包括以下步骤，在仿真环境中定义符合分解场景要求的城镇道路地图；提取所述地图中的道路先验信息和提取档位先验信息；利用卷积神经网络中提取车载相机的图像特征序列；将提取的所述先验信息加入到所述车载相机图像特征值序列构成最终特征值序列；所述新特征值序列作为深度强化学习算法模型训练使用的特征值序列；减少所述深度强化学习算法模型需要输出的控制信息；强化所述学习算法模型训练。

作为本发明所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案，其中：所述道路先验信息和提取档位先验信息包括，根据所述仿真环境建议的导航信息点判断当前道路的类型；判断目标车速所需要的变速箱档位。

作为本发明所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案，其中：所述符合分解场景要求包括，车辆、行人数量较少，且行人无随意横穿马路行为；道路类型为平坦直行道，存在90°转弯弯道，不存在崎岖弯路；道路能够实现90km以上的车速行驶。

作为本发明所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案，其中：所述判断当前道路的类型为直行道路包括，判断当前道路的类型是直行道路、转弯道路；将道路类型转换为离散数字量；根据仿真环境提供的导航信息点，判断下一个导航点和当前导航点的指向偏差是否在设定的阈值范围内；在阈值范围内判断为直行道路，大于阈值范围判断为转弯道路；将道路类型进行独热编码，其中直行道路为[1,0]、转弯道路为[0,1]、无法判断类型道路[0,0]。

作为本发明所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案，其中：所述判断目标车速所需要的变速箱档位并将其转化为数字量，其中数字1～9分别代表1档～9档、0代表空挡和-1代表倒车档。

作为本发明所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案，其中：所述提取车载相机的图像特征序列包括，使用CNN神经网络提取车载相机的图像特征序列；在所述图像特征值序列尾部加入所述道路先验信息的值构成新特征值序列；新特征值序列尾部加入档位先验信息，构成最终特征值序列。

作为本发明所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案，其中：所述减少强化学习算法模型的输出信息包括，排除定义时需要避开障碍物、紧急刹车和自动限速的场景；算法模型只输出油门和方向盘控制信息，只对油门和方向盘进行控制。

作为本发明所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案，其中：使用所述最终特征值序列训练强化学习算法模型输出的控制信息包括，定义合适的强化学习算法模型；使用Actor-Critic组合的算法模型；将所述最终特征值序列作为强化学习算法模型的输入信息，训练的输出的控制信息；利用验证的结果，调整算法模型的关键参数。

作为本发明所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案，其中：所述关键参数包括学习率、单次同时训练数量、训练次数和奖励函数。

本发明解决的另一个技术问题是：提出一种提高仿真环境中深度强化学习算法训练效率的方法，将复杂问题简化，避免深度强化学习算法模型学习车辆在各种情况下的自动驾驶。

为解决上述技术问题，本发明提供如下技术方案：一种提高仿真环境中深度强化学习算法训练效率的系统，包括仿真模块、提取模块、算法模型模块；所述仿真模块用于提供仿真环境，通过所述仿真环境定义符合分解场景要求的城镇道路地图；所述提取模块包括信息提取模块和序列提取模块，所述信息提取模块用于提取所述地图中的道路先验信息和提取档位先验信息，所述序列提取模块用于提取车载相机的图像特征序列；所述算法模型模块用于输出控制信息，并通过所述提取模块提取的道路先验信息和提取档位先验信息结合车载相机的图像特征序列进行模型的训练和参数优化

本发明的有益效果：将车辆在仿真环境中的自动行驶场景进行分解，使用深度强化学习模型只学习其中简单的场景需求，避免出现使用强化学习算法针对整个自动驾驶情况，使复杂问题简单化，使得强化学习可以在自动驾驶领域中进行落地；加入先验知识，避免使用纯强化学习模型从零开始学习过于基础的信息，可以提高训练成功率，同时减少训练时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一种实施例所述提高仿真环境中深度强化学习算法训练效率方法的整体流程示意图；

图2为本发明第一种实施例所述采用提高仿真环境中深度强化学习算法训练效率方法的效果示意图；

图3为本发明第一种实施例所述未采用提高仿真环境中深度强化学习算法训练效率方法的效果示意图；

图4为本发明第一种实施例所述提高仿真环境中深度强化学习算法训练效率的系统的整体原理结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

深度强化学习是AI(人工智能)中的重要分支，但目前深度强化学习技术的发展水平表明其适合处理简单场景的任务，面对自动驾驶这种在复杂环境中存在逻辑判断、分析、决策的任务显非常困难。且当前在其他领域取得巨大成的深度学习案例主要偏向于纯强化学习，即让算法网络模型从0开始全新学习，导致模型的学习范围太广，学习速度太慢，而且难以取得理想的效果。对于自动驾驶领域，车辆周围的道路情况、车辆配置情况、天气情况非常复杂，这种方式下使用纯强化学习实现自动驾驶非常耗费资源，再考虑到各种工况，所花费的时间、经费可能是天文数字，故需要将自动驾驶领域进行场景分解，挑选适合强化学习的场景进行应用。

针对上述问题，本实施例中自动驾驶领域目前主要划分为感觉、决策、规划、控制四部分，本实施例从规划中分解出城镇道路路径规划的任务，根据当前道路类型和车辆档位先验信息，进行深度强化学习算法模型训练。

将场景进行分解，使用深度强化学习模型只学习其中简单的场景需求，避免出现使用强化学习算法针对整个自动驾驶情况，使复杂问题简单化，使得强化学习可以在自动驾驶领域中进行落地；加入先验知识，避免使用纯强化学习模型从0开始学习过于基础的信息，可以提高训练成功率，同时减少训练时间。

具体的，参照图1的示意，本实施例提出一种提高仿真环境中深度强化学习算法训练效率的方法，包括以下步骤，

S1：在仿真环境中定义符合分解场景要求的城镇道路地图；符合分解场景要求包括，车辆、行人数量较少，且行人无随意横穿马路行为；道路类型为平坦直行道，存在90°转弯弯道，不存在崎岖弯路；道路能够实现90km以上的车速行驶。该符合分解场景要求的目的在于将问题简单化，避免复杂的场景中过多信息对训练造成误导。

S2：提取地图中的道路先验信息和提取档位先验信息；其中道路先验信息和提取档位先验信息包括，根据仿真环境建议的导航信息点判断当前道路的类型；判断目标车速所需要的变速箱档位。

进一步的，判断当前道路的类型为直行道路包括，

判断当前道路的类型是直行道路、转弯道路；

将道路类型转换为离散数字量；

根据仿真环境提供的导航信息点，判断下一个导航点和当前导航点的指向偏差是否在设定的阈值范围内；

在阈值范围内判断为直行道路，大于阈值范围判断为转弯道路；

将道路类型进行独热编码，其中直行道路为[1,0]、转弯道路为[0,1]、无法判断类型道路[0,0]。

判断目标车速所需要的变速箱档位并将其转化为数字量，其中数字1～9分别代表1档～9档、0代表空挡和-1代表倒车档。

S3：利用卷积神经网络中提取车载相机的图像特征序列；提取车载相机的图像特征序列包括，

使用CNN神经网络提取车载相机的图像特征序列；

在图像特征值序列尾部加入道路先验信息的值构成新特征值序列；

新特征值序列尾部加入档位先验信息，构成最终特征值序列。

S4：将提取的先验信息加入到车载相机图像特征值序列构成最终特征值序列；

S5：新特征值序列作为深度强化学习算法模型训练使用的特征值序列；

S6：减少深度强化学习算法模型需要输出的控制信息；减少强化学习算法模型的输出信息包括，

排除定义时需要避开障碍物、紧急刹车和自动限速的场景；

算法模型只输出油门和方向盘控制信息，只对油门和方向盘进行控制。

S7：强化学习算法模型训练。使用最终特征值序列训练强化学习算法模型输出的控制信息包括，

定义合适的强化学习算法模型；

使用Actor-Critic组合的算法模型；

将最终特征值序列作为强化学习算法模型的输入信息，训练的输出的控制信息；

利用验证的结果，调整算法模型的关键参数。其中关键参数包括学习率、单次同时训练数量、训练次数和奖励函数。本步骤中调整时，只有单一参数变化，对比其输出的结果，则选择合适参数，

其中合适的含义为经过调试后能过训练能够收敛的算法，Actor-Critic组合包括PPO、SAC、A3C的组合模型。

为验证本实施例提出提高仿真环境中深度强化学习算法训练效率的方法效果，本实施例中将采用本方法训练的结果和未采用本方法训练的结果(为传统的深度学习训练模型)，最终的测试如图2和图3的示意。结果表明训练的目的是行驶距离达到最远距离，采用本专利的效果是耗时13.5小时就能够达到该目的，但未采用本专利时训练16小时仍然不能达到最远距离，采用本专利时的效率明显高于未采用时。

图2～3中横轴代表算法的训练次数，纵轴代表车辆在仿真环境中行驶的最远距离(代表车辆在仿真环境行驶过程中无如下任一情况：碰撞、静止在某处、偏离车道中心超过设定阈值)，其中4338米(图2、图3中的纵/竖轴表示行驶距离，单位是米，刻度4e+3表示4×10×10×10＝4000，4338是直接读取原始数据值，图片中没有进行明确标注，4338在纵轴的位置为4e+3和5e+3之间。)表示设定的最远距离；同时图2中训练1520次，耗时13.5小时，最大行驶距离为4338米；而图3中训练1720次，耗时16小时，最大行驶距离为300米左右(意味着车辆在行驶过程中出现碰撞、静止在某处、偏离车道中心超过设定阈值中任一情况)。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

实施例2

参照图4的示意，本实施例提出一种提高仿真环境中深度强化学习算法训练效率的系统，上述方法能够依托于本实施例进行实现，包括仿真模块100、提取模块200、算法模型模块300；具体的，仿真模块100用于提供仿真环境，通过仿真环境定义符合分解场景要求的城镇道路地图；提取模块200包括信息提取模块201和序列提取模块202，信息提取模块201用于提取地图中的道路先验信息和提取档位先验信息，序列提取模块202用于提取车载相机的图像特征序列；算法模型模块300用于输出控制信息，并通过提取模块200提取的道路先验信息和提取档位先验信息结合车载相机的图像特征序列进行模型的训练和参数优化。

需要说明的是，仿真模块100、提取模块200和算法模型模块300均为计算机的处理模块，通过植入算法程序，来实现本实施例中对于上述实施例方法的依托。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种提高仿真环境中深度强化学习算法训练效率的方法，其特征在于：包括以下步骤，

在仿真环境中定义符合分解场景要求的城镇道路地图；所述符合分解场景要求包括，车辆、行人数量较少，且行人无随意横穿马路行为道路类型为平坦直行道，存在90°转弯弯道，不存在崎岖弯路；道路能够实现90km以上的车速行驶；

提取所述地图中的道路先验信息和提取档位先验信息，根据所述仿真环境建议的导航信息点判断当前道路的类型，并判断目标车速所需要的变速箱档位；所述判断当前道路的类型包括，将道路类型转换为离散数字量，根据仿真环境提供的导航信息点，判断下一个导航点和当前导航点的指向偏差是否在设定的阈值范围内，若在阈值范围内判断为直行道路，大于阈值范围判断为转弯道路，并将道路类型进行独热编码，其中直行道路为[1,0]，转弯道路为[0,1]，无法判断类型道路为[0,0]；

利用卷积神经网络中提取车载相机的图像特征序列，在所述图像特征值序列尾部加入所述道路先验信息的值构成新特征值序列，并在新特征值序列尾部加入档位先验信息，构成最终特征值序列；

所述最终特征值序列作为深度强化学习算法模型训练使用的特征值序列；

减少所述深度强化学习算法模型需要输出的控制信息，排除定义时需要避开障碍物、紧急刹车和自动限速的场景，算法模型只输出油门和方向盘控制信息，只对油门和方向盘进行控制；

强化所述学习算法模型训练后用于加快仿真平台中自动驾驶的模拟进展。

2.如权利要求1所述的提高仿真环境中深度强化学习算法训练效率的方法，其特征在于：所述判断目标车速所需要的变速箱档位包括，将其转化为数字量，其中数字1～9分别代表1档～9档、0代表空挡和-1代表倒车档。

3.如权利要求2所述的提高仿真环境中深度强化学习算法训练效率的方法，其特征在于：所述强化所述学习算法模型训练包括，

定义合适的强化学习算法模型；

使用Actor-Critic组合的算法模型；

将所述最终特征值序列作为强化学习算法模型的输入信息，训练输出的控制信息；

利用验证的结果，调整算法模型的关键参数。

4.如权利要求3所述的提高仿真环境中深度强化学习算法训练效率的方法，其特征在于：所述关键参数包括学习率、单次同时训练数量、训练次数和奖励函数。

5.一种提高仿真环境中深度强化学习算法训练效率的系统，其特征在于：包括仿真模块(100)、提取模块(200)、算法模型模块(300)；

所述仿真模块(100)用于提供仿真环境，通过所述仿真环境定义符合分解场景要求的城镇道路地图；所述符合分解场景要求包括，车辆、行人数量较少，且行人无随意横穿马路行为道路类型为平坦直行道，存在90°转弯弯道，不存在崎岖弯路；道路能够实现90km以上的车速行驶；

所述提取模块(200)包括信息提取模块(201)和序列提取模块(202)；

所述信息提取模块(201)用于提取所述地图中的道路先验信息和提取档位先验信息，根据所述仿真环境建议的导航信息点判断当前道路的类型，并判断目标车速所需要的变速箱档位，所述判断当前道路的类型包括，将道路类型转换为离散数字量，根据仿真环境提供的导航信息点，判断下一个导航点和当前导航点的指向偏差是否在设定的阈值范围内，若在阈值范围内判断为直行道路，大于阈值范围判断为转弯道路，并将道路类型进行独热编码，其中直行道路为[1,0]，转弯道路为[0,1]，无法判断类型道路为[0,0]；

所述序列提取模块(202)用于提取车载相机的图像特征序列，在所述图像特征值序列尾部加入所述道路先验信息的值构成新特征值序列，并在新特征值序列尾部加入档位先验信息，构成最终特征值序列，所述最终特征值序列作为深度强化学习算法模型训练使用的特征值序列；

所述算法模型模块(300)用于减少所述深度强化学习算法模型需要输出的控制信息，排除定义时需要避开障碍物、紧急刹车和自动限速的场景，算法模型只输出油门和方向盘控制信息，只对油门和方向盘进行控制，强化所述学习算法模型训练后用于加快仿真平台中自动驾驶的模拟进展。