CN109871010A

CN109871010A - 基于强化学习型的方法及系统

Info

Publication number: CN109871010A
Application number: CN201811586865.5A
Authority: CN
Inventors: 黄骏; 史玉回; 张大步
Original assignee: Southern University of Science and Technology
Current assignee: Southern University of Science and Technology
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-06-11
Anticipated expiration: 2038-12-25
Also published as: CN109871010B

Abstract

本发明公开了一种基于强化学习型的方法及系统，通过获取车辆驾驶行为数据及车辆当前位置信息，基于预学习驾驶轨迹数据，调整车辆自动驾驶行为，实现车辆的自动控制，通过对驾驶行为进行精准聚类，提高车辆自动驾驶执行精度，提高自动驾驶事故应急管理，有效减少事故的发生。另外，通过将驾驶行为数据实时发送至远程控制端，当车辆驾驶处于失配状态时，接收远程控制端调整车辆驾驶行为指令，使远程控制人员可以在车辆遇到紧急情况时远程遥控车辆驾驶行为，使车辆自动驾驶更加安全可靠。本发明涉及机械电子与人工智能技术领域。

Description

基于强化学习型的方法及系统

技术领域

本发明涉及机械电子与人工智能技术领域，尤其涉及一种基于强化学习型的方法及系统。

背景技术

复分数方差即复数分数方差。

随着社会的进步，我国居民生活水平不断提高，汽车已成为我们不能缺少的重要交通工具。由于任意场景的自动驾驶环境相对复杂，车毁人亡的交通事故被告纠纷较大，需要有云端智能的协助，形成共生自动驾驶的架构，特殊场景的智能援助作业对事故库管理有非常高的实时性要求，作为政府部门事故库管理人员、运营商自动驾驶随车安全员，行业协会远程监督员和其它保险公司流动评估人员应能够与事故库调度室及时取得语音或非语音联系，将事故库一线的各种情况图文并茂的共享，实现智能援助过程统一指挥统一调度。虽然工程师对事故库安全都非常重视，但事故的发生是不确定性的，事故发生前必须依据当时情况，采取果断的快速有组织的反应措施进行处理，对共生自动驾驶数据进行全方位应急调用。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的是提供一种基于强化学习型的方法及系统，提高自动驾驶事故应急管理，有效减少事故的发生。

本发明所采用的技术方案是：一种基于强化学习型的方法，所述方法包括：

获取车辆在行驶过程中的批量训练数据，生成预学习驾驶轨迹数据，并存储在数据库中，所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据；

获取车辆当前驾驶行为数据，基于复分数模型对驾驶行为数据进行处理，根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数；

获取车辆当前位置与环境信息，基于预学习驾驶轨迹数据，根据驾驶行为数据，调整车辆自动驾驶行为；

将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块，对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储，更新数据库。

作为上述方案的进一步改进，所述获取车辆当前驾驶行为数据，基于复分数模型对驾驶行为数据进行处理，根据驾驶行为数据处理结果以确定是否锁定当前驾驶速度具体包括：

采集当前车辆加速度，基于复分数模型计算车辆加速度的复分数方差，判断车辆加速度是否超过加速度预设阈值，若是，则锁定当前车辆加速度，所述车辆加速度包括油门加速度、方向盘加速度和刹车加速度。

作为上述方案的进一步改进，所述获取车辆当前位置与环境信息，基于预学习驾驶轨迹数据，根据驾驶行为数据，调整车辆自动驾驶行为具体包括：

获取车辆当前位置与环境信息，包括当前车身位置、当前航向角及当前道路状况，从数据库中匹配相应的自动驾驶曲线及指令驾驶行为；

根据车辆当前驾驶行为数据，判断车辆当前驾驶行为是否与指令驾驶行为匹配，若不匹配，则调整车辆自动驾驶行为。

作为上述方案的进一步改进，所述将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块，对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储，更新数据库具体包括：

将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块；

对获取的驾驶行为数据按复分数模型进行计算，获取驾驶行为记分聚类表，根据驾驶行为记分聚类表的打分准则，得到当前驾驶行为数据的驾驶行为分值；

根据驾驶行为分值，对当前的驾驶行为进行记分聚类存储，并更新数据库。

作为上述方案的进一步改进，所述方法还包括将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端，当车辆驾驶处于失配状态时，接收远程控制端调整车辆驾驶行为指令。

一种基于强化学习型的系统，包括：

存储模块，用于获取车辆在行驶过程中的批量训练数据，生成预学习驾驶轨迹数据，并存储在数据库中，所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据；

锁定模块，用于获取车辆当前驾驶行为数据，基于复分数模型对驾驶行为数据进行处理，根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数；

调整模块，用于获取车辆当前位置与环境信息，基于预学习驾驶轨迹数据，根据驾驶行为数据，调整车辆自动驾驶行为；

聚类模块，用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块，对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储，更新数据库。

作为上述方案的进一步改进，所述调整模块具体包括：

获取单元，用于获取车辆当前位置与环境信息，包括当前车身位置、当前航向角及当前道路状况，从数据库中匹配相应的自动驾驶曲线及指令驾驶行为；

匹配调整单元，用于根据车辆当前驾驶行为数据，判断车辆当前驾驶行为是否与指令驾驶行为匹配，若不匹配，则调整车辆自动驾驶行为。

作为上述方案的进一步改进，所述聚类模块具体包括：

学习单元，用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块；

记分单元，用于对获取的驾驶行为数据按复分数模型进行计算，获取驾驶行为记分聚类表，根据驾驶行为记分聚类表的打分准则，得到当前驾驶行为数据的驾驶行为分值；

聚类存储单元，用于根据驾驶行为分值，对当前的驾驶行为进行记分聚类存储，并更新数据库。

作为上述方案的进一步改进，所述系统还包括：

发送接收模块，用于将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端，当车辆驾驶处于失配状态时，接收远程控制端调整车辆驾驶行为指令。

本发明的有益效果是：

一种基于强化学习型的方法及系统，通过获取车辆驾驶行为数据及车辆当前位置信息，基于预学习驾驶轨迹数据，调整车辆自动驾驶行为，实现车辆的自动控制，通过对驾驶行为进行精准聚类，提高车辆自动驾驶执行精度，提高自动驾驶事故应急管理，有效减少事故的发生。

另外，通过将驾驶行为数据实时发送至远程控制端，当车辆驾驶处于失配状态时，接收远程控制端调整车辆驾驶行为指令，使远程控制人员可以在车辆遇到紧急情况时远程遥控车辆驾驶行为，使车辆自动驾驶更加安全可靠。

附图说明

下面结合附图对本发明的具体实施方式作进一步说明：

图1是本发明一种基于强化学习型的方法流程图；

图2是本发明一种基于强化学习型的系统模块框图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

图1是本发明一种基于强化学习型的方法流程图，参照图1，一种基于强化学习型的方法，包括步骤S1至步骤S5。

S1，获取车辆在行驶过程中的批量训练数据，生成预学习驾驶轨迹数据，并存储在数据库中，驾驶轨迹数据包括驾驶行为数据和相应的线路数据；

S2，获取车辆当前驾驶行为数据，基于复分数模型对驾驶行为数据进行处理，根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数；

S3，获取车辆当前位置与环境信息，基于预学习驾驶轨迹数据，根据驾驶行为数据，调整车辆自动驾驶行为；

S4，将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块，对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储，并更新数据库；

S5，将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端，当车辆驾驶处于失配状态时，接收远程控制端调整车辆驾驶行为指令。

在本实施例中，自动驾驶车辆可以由车辆电脑控制或者人类控制。

本实施例中，获取车辆在行驶过程中的批量训练数据，生成预学习驾驶轨迹数据具体包括：基于专业司机的T-BOX与GPS线路场景对应同步的刹车油门方向盘转向经验数据对模型进行预训练(即人脑驾驶在无电脑辅助驾驶情形下的训练)，生成预学习驾驶轨迹数据。

具体的，步骤S2包括：

采集当前车辆加速度，基于复分数模型计算车辆加速度的复分数方差，判断车辆加速度是否超过加速度预设阈值，若是，则锁定当前车辆加速度，车辆加速度包括油门加速度、方向盘加速度和刹车加速度。超过加速度预设阈值则锁定车辆加速度，可避免危险驾驶行为带来的潜在事故。本实施例中，计算车辆加速度复分数方差的复分数模型为：

ξ_i＝ξ_i-1+a_i·Δt(1)

其中，a表示加速度，Δt是采样间隔时间，ξ表示速度，i表示采集加速度的序列号，n表示采集加速度的次数。

在本实施例中，步骤S3包括子步骤：

S31，获取车辆当前位置与环境信息，包括当前车身位置、当前航向角及当前道路状况，从数据库中匹配相应的自动驾驶曲线及指令驾驶行为；

S32，根据车辆当前驾驶行为数据，判断车辆当前驾驶行为是否与指令驾驶行为匹配，若不匹配，则调整车辆自动驾驶行为。

在具体实施例中，步骤S31具体为：获取车辆当前车身位置、当前航向角，及当前道路状况，包括当前道路的宽度、弯度、坡度、植被覆盖指数及特征物密度等，从数据库中匹配相应的自动驾驶曲线及指令驾驶行为。

步骤S32具体为：根据车辆当前驾驶行为数据，包括当前车辆姿势信息，判断车辆姿势信息与指令驾驶行为中的车辆姿势信息是否匹配，若不匹配，则调整车辆自动驾驶行为，直至实时车辆驾驶行为与指令驾驶行为匹配为止。

根据快慢车道等级及路段特征，判断驾驶行为是否为异常，对自动驾驶行为进行调整，减少车辆频繁的左右转向与超车行为，减少危险事故发生。

本实施例中，步骤S4包括：

本实施例中，损失函数定义为电脑驾驶行为记分与人脑驾驶行为最优记分之间的差值。

根据驾驶行为分值，对当前的驾驶行为进行记分聚类存储，并更新数据库。将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块，以生成更有的电脑驾驶指令，控制自动驾驶行为。

通过对驾驶行为进行精准聚类，提高车辆自动驾驶执行精度，避免交通伤亡事故的发生。

表1为驾驶行为记分模板列表。

表1：

参照表1，e表示实验测得人脑驾驶的统计值，c表示电脑驾驶仿真的获取值，M为均值，SD为标准差，CM为复数均值，CFD为复分数方差。

本实施例中，步骤S5具体包括：

将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端，包括将普通刹车信息、紧急刹车信息、转向信息、油门信息与GPS时间位置信息实时发送至远程控制端，根据当前车辆姿势信息、当前车身位置及当前航向角，计算在预设时间内抵达预设地点的误差，对误差进行分类估算评分，并将误差及相应评分存储在数据库中，若误差超过预设值时，则认为车辆驾驶处于失配状态，由远程控制端调整车辆驾驶行为，车辆接收远程控制端调整车辆驾驶行为指令。

远程控制端通过无线组网实时红绿灯安全观察及数据库数据，制定最准确的应急事故方案，调整车辆驾驶行为。

误差包括观察误差、动作误差和决策误差，观察误差指摄像头获取图像数据误差，动作误差指传感器误差，决策误差指调整当前车辆驾驶行为产生误差，对此三类误差进行估算评分后存储在数据库中，作为自动驾驶行为学习的参考数据，使学习数据更加精确。

当遭遇紧急情况时，通过远程控制端远程遥控车辆驾驶行为，使车辆自动驾驶更加安全可靠。

实施例二

图2是本发明一种基于强化学习型的系统模块框图，参照图2，一种基于强化学习型的系统，包括：

存储模块，用于获取车辆在行驶过程中的批量训练数据，生成预学习驾驶轨迹数据，并存储在数据库中，驾驶轨迹数据包括驾驶行为数据和相应的线路数据；

聚类模块，用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块，对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储，更新数据库；

本实施例中，调整模块包括：

本实施例中，聚类模块包括：

本发明实施例提供的一种基于强化学习型的系统用于执行上述的基于强化学习型的方法，其工作原理和有益效果一一对应，因而不再赘述。

实施例三

本实施例的一种基于强化学习型的系统由电脑驾驶与人脑协同自动驾驶。

系统包括控制器、执行器、无线通信模块和外设模块，其中，控制器分别与执行器、无线通信模块和外设模块连接。

具体的，外设模块用于实时采集车辆当前驾驶行为数据和当前位置信息。外设模块包括传感器单元和定位单元，定位单元具有多种工作模式，包括GPS和/或SLAM。传感单元实时采集车辆运动数据包括车辆角速度、车辆移动速度等。

控制器负责系统的整体控制、运动传感信号的控制、数据缺省使能的控制、信号处理和模式识别的实现。

执行器接收控制器的控制指令并执行控制指令，进而调整车辆的驾驶行为。

无线通信模块为5G通信模块，无线通信模块将车辆当前驾驶行为数据和当前位置信息实时发送至远程控制端及云端服务器，实现数据共享。

本实施例中，系统还包括存储器，存储区用于存储预学习驾驶轨迹数据，存储器与控制器连接，控制器将驾驶行为记分聚类后存储在存储器中。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于强化学习型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于强化学习型的方法，其特征在于，所述获取车辆当前驾驶行为数据，基于复分数模型对驾驶行为数据进行处理，根据驾驶行为数据处理结果以确定是否锁定当前驾驶速度具体包括：

3.根据权利要求1所述的一种基于强化学习型的方法，其特征在于，所述获取车辆当前位置与环境信息，基于预学习驾驶轨迹数据，根据驾驶行为数据，调整车辆自动驾驶行为具体包括：

4.根据权利要求1所述的一种基于强化学习型的方法，其特征在于，所述将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储，更新数据库具体包括：

5.根据权利要求1至4任一项所述的一种基于强化学习型的方法，其特征在于，所述方法还包括将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端，当车辆驾驶处于失配状态时，接收远程控制端调整车辆驾驶行为指令。

6.一种基于强化学习型的系统，其特征在于，其包括：

7.根据权利要求6所述的一种基于强化学习型的系统，其特征在于，所述调整模块具体包括：

8.根据权利要求6所述的一种基于强化学习型的系统，其特征在于，所述聚类模块具体包括：

9.根据权利要求6所述的一种基于强化学习型的系统，其特征在于，所述系统还包括：