CN113867332B

CN113867332B - 一种无人车自学习控制方法、装置、设备及可读存储介质

Info

Publication number: CN113867332B
Application number: CN202110949314.6A
Authority: CN
Inventors: 汤淑明; 张力夫; 顿海洋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2024-05-14
Anticipated expiration: 2041-08-18
Also published as: CN113867332A

Abstract

本发明提供一种无人车自学习控制方法、装置、设备及可读存储介质，涉及无人驾驶技术领域，该方法包括以下步骤：获取车辆在当前驾驶环境的运动控制规则；其中，所述运动控制规则输出的是所述车辆的执行动作，输入的是所述车辆的行驶状态；根据所述运动控制规则，对无人车进行训练，控制所述车辆进行自主驾驶；在自主驾驶过程中，获取所述行驶状态；根据所述行驶状态，生成车辆的行驶能力，并根据所述行驶能力调整及更新所述运动控制规则，本发明实现无人车控制器可以从无到有逐步提升，进而掌握熟练的驾驶能力。

Description

一种无人车自学习控制方法、装置、设备及可读存储介质

技术领域

本发明涉及无人驾驶技术领域，尤其涉及一种无人车自学习控制方法、装置、设备及可读存储介质。

背景技术

近年来，无人驾驶技术引起了社会的广泛关注，并随着计算机技术和人工智能技术的发展，无人驾驶在物流、公共交通、环卫、零售等领域得到了广泛应用，其应用环境也从简单的受控环境变成了复杂多变的开放环境。

无人车运动控制系统包含感知、认知、决策和控制四个层面，其中：感知指的是通过摄像头、激光雷达或其他传感器采集周围的环境信息；认知指的是从感知信息中解析出环境信息的具体意义，如道路宽度、道路曲率等；决策指的是根据认知解析出的环境信息如何做出使汽车达到驾驶目的指令，如油门、刹车、转向等；控制指的是按照决策层的指令对车辆执行相应操作。

随着深度学习和强化学习理论的不断发展，计算机已具备对某项特定任务的学习能力，但是传统的无人车运动控制方法一般需要先建立被控对象的数学模型，上述的建模过程是非常繁琐的，因此，能够省略掉上述的建模过程的无人车自学习控制方法是业界亟待解决的重要课题。

发明内容

本发明提供一种无人车自学习控制方法、装置、设备及可读存储介质，用以解决现有技术中无人车运动控制方法的建模过程繁琐的缺陷，实现无人车控制器可以从无到有逐步提升，进而掌握熟练的驾驶能力。

本发明提供一种无人车自学习控制方法，包括以下步骤：

获取车辆在当前驾驶环境的运动控制规则；其中，所述运动控制规则输出的是所述车辆的执行动作，输入的是所述车辆的行驶状态；

根据所述运动控制规则，对无人车进行训练，控制所述车辆进行自主驾驶；

在自主驾驶过程中，获取所述行驶状态；

根据所述行驶状态，生成车辆的行驶能力，并根据所述行驶能力调整及更新所述运动控制规则。

根据本发明提供的一种无人车自学习控制方法，所述获取车辆在当前驾驶环境的运动控制规则，具体包括以下步骤：

分析典型城镇道路环境下，车辆的具体行驶任务；

针对不同的所述行驶任务，基于人类驾驶车辆时所关注到的信息，获取车辆在当前驾驶环境的运动控制规则；其中，所述信息包括交通规则、车辆与车道的相对位置、车辆的油门开度以及方向盘角度。

根据本发明提供的一种无人车自学习控制方法，当要求不与周围车辆发生碰撞时，所述运动控制规则为：

If Collision vehicle＝0，Continue run；

Else reward＝-200。

根据本发明提供的一种无人车自学习控制方法，当要求无人车以平稳车速行驶时，所述运动控制规则为：

If Δspeed＞2then reward＝-1，Else reward＝1

其中，Δspeed为车辆的加速度，单位为m/s²。

根据本发明提供的一种无人车自学习控制方法，所述根据所述行驶状态，生成车辆的行驶能力，并根据所述行驶能力调整及更新所述运动控制规则，具体包括以下步骤：

根据所述行驶状态，获取无人车每回合的训练情况，并根据所述每回合的训练情况得到总步骤的平均奖励值，生成车辆的行驶能力；其中，所述行驶状态包括车辆的速度信息以及车辆中心与导航指示路径点的偏差；

比较所述平均奖励数值与奖励规则中的步骤最大奖励值，当所述平均奖励数值满足所述步骤最大奖励值的预设比例时，对所述运动控制规则进行调整及更新。

根据本发明提供的一种无人车自学习控制方法，针对直线行驶情况，当所述平均奖励数值满足所述步骤最大奖励值的预设比例时，对所述运动控制规则进行调整及更新，具体形式如公式(1)至公式(3)：

When Direction＝Straight；

其中，当所述平均奖励数值满足公式(1)中所述步骤最大奖励值的预设比例时，所述运动控制规则的奖励函数由公式(1)调整至公式(2)，当所述平均奖励数值满足调整后的公式(2)中所述步骤最大奖励值的预设比例时，所述运动控制规则的奖励函数由公式(2)调整至公式(3)，并以此类推，且，r₃＞r₂＞r₁＞r_negative，steer为方向盘的旋转角度。

根据本发明提供的一种无人车自学习控制方法，所述运动控制规则采用了深度强化学习算法，并基于Carla无人驾驶仿真平台。

本发明还提供一种无人车自学习控制装置，包括：

规则提炼模块，用于获取车辆在当前驾驶环境的运动控制规则；其中，所述运动控制规则输出的是所述车辆的执行动作，输入的是所述车辆的行驶状态；

自主驾驶模块，用于根据所述运动控制规则，控制所述车辆进行自主驾驶；

状态获取模块，用于在自主驾驶过程中，获取所述车辆行驶状态；

自学习模块，用于根据所述车辆行驶状态，生成车辆的行驶能力，并根据所述行驶能力调整及更新所述运动控制规则。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述无人车自学习控制方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述无人车自学习控制方法的步骤。

本发明提供的无人车自学习控制方法、装置、设备及可读存储介质，提出一种新式的自学习装置，省去了复杂的建模过程，借鉴人类学习驾驶车辆的渐进过程，实现无人车控制器可以从无到有逐步提升，进而掌握熟练的驾驶能力，在训练过程中无需手动设计奖励函数，首先去学习构建的奖励函数并进行训练，然后在该奖励函数的指导下执行强化学习的过程学习策略，在自主驾驶过程中，同步地采集行驶状态，之后，基于深度强化学习的无人车自学习装置，根据当前行驶状态的车辆的行驶状态，选择对应的动作策略，并对车辆当前状态给予评价，返回相应的奖励值，以对奖励函数进行调整及更新。通过上述方式学习到的奖励函数鲁棒性较好，可以应对专家数据中未出现的情况。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的无人车自学习控制方法的流程示意图；

图2是本发明提供的无人车自学习控制方法的逻辑示意图；

图3是本发明提供的无人车自学习控制方法中步骤S100具体的流程示意图；

图4是本发明提供的无人车自学习控制方法中步骤S400具体的流程示意图；

图5是本发明提供的无人车自学习控制装置的结构示意图；

图6是本发明提供的无人车自学习控制装置中规则提炼模块具体的结构示意图；

图7是本发明提供的无人车自学习控制装置中自学习模块具体的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1和图2描述本发明的无人车自学习控制方法，该方法包括以下步骤：

S100、获取车辆在当前驾驶环境的运动控制规则。其中，运动控制规则输出的是车辆的执行动作，输入的是车辆的行驶状态。

在该方法中，运动控制规则采用了深度强化学习深度确定性策略梯度(DeepDeterministic Policy Gradient，DDPG)算法，具体实现是基于开源的Carla无人驾驶仿真平台，利用TensorFlow搭建网络结构。车辆的行驶状态利用传感器仿真，其中，行驶状态包括车辆的速度信息以及车辆中心与导航指示路径点的偏差，并且，导航指示路径点可以通过仿真场景中的全球定位系统(Global Positioning System，GPS)的定位信息获得，车辆的执行动作包含横向控制量和纵向控制量，其中横、纵向控制量可以以油门、刹车和方向盘开度的形式表示。

S200、根据运动控制规则，对无人车进行训练，控制车辆进行自主驾驶。

在步骤S200中，具体的，记录数据状态s_t、动作a_t、奖励值r、以及下一个状态s_t+1，并根据记录到的上述数据对无人车控制器开展训练，实现车辆的无人自主驾驶。

S300、在自主驾驶过程中，获取行驶状态。

在该方法中，会根据运动控制规则构建动态的奖励机制，在本实施例中，奖励机制是通过奖励函数来具体的实现的。具体的，根据运动控制规则构建动态的奖励机制，通过评价车辆的自主行驶能力水平，形成与车辆自主行驶能力相关的奖励函数。

S400、根据行驶状态，生成车辆的行驶能力，并根据行驶能力调整及更新运动控制规则。步骤S400的作用在于参照人类学习驾驶的渐进过程，设计一套可以评价车辆行驶能力的运动控制规则(奖励规则)体系。

随着深度学习在图像识别、语音技术、自然语言处理等领域取得了重大突破，将深度神经网络和强化学习结合的深度强化学习在大规模策略优化问题上获得了超越人类的表现，而强化学习的瓶颈之一在于：在面临诸如自动驾驶、机器人等实际控制问题时，根据专家经验设计合理的奖励函数费时费力。

在本发明的无人车自学习控制方法，提出一种新式的自学习方法，省去了复杂的建模过程，借鉴人类学习驾驶车辆的渐进过程，实现无人车控制器可以从无到有逐步提升，进而掌握熟练的驾驶能力，在训练过程中无需手动设计奖励函数，首先通过步骤S200去学习步骤S100构建的奖励函数并进行训练，然后在该奖励函数的指导下执行强化学习的过程学习策略，步骤S300中，在自主驾驶过程中，同步地采集行驶状态，之后在步骤S400中，基于深度强化学习的无人车自学习方法，根据当前行驶状态的车辆的行驶状态，选择对应的动作策略，并对车辆当前状态给予评价，返回相应的奖励值，以对奖励函数进行调整及更新。通过上述方式学习到的奖励函数鲁棒性较好，可以应对专家数据中未出现的情况。

下面结合图3描述本发明的无人车自学习控制方法，步骤S100具体包括以下步骤：

S110、分析典型城镇道路环境下，车辆的具体行驶任务。

S120、针对不同的行驶任务，基于人类驾驶车辆时所关注到的信息，获取车辆在当前驾驶环境的运动控制规则。其中，信息包括交通规则、车辆与车道的相对位置、车辆的油门开度以及方向盘角度。

例如，当要求不与周围车辆发生碰撞时，运动控制规则(奖励规则)为：

If Collision vehicle＝0，Continue run；

Else reward＝-200；

当要求无人车以平稳车速行驶时，运动控制规则(奖励规则)为：

If Δspeed＞2then reward＝-1，Else reward＝1

其中，Δspeed为车辆的加速度，单位为m/s²。

因此通过步骤S100可以提取人类学习驾驶车辆所关注到的运动控制规则，并以此为基础设计规则迭代的无人车自学习控制方法。

下面结合图4描述本发明的无人车自学习控制方法，步骤S400具体包括以下步骤：

S410、根据行驶状态，获取无人车每回合的训练情况，并根据每回合的训练情况得到总步骤的平均奖励值，生成车辆的行驶能力；

S420、比较平均奖励数值与奖励规则中的步骤最大奖励值r_max，当平均奖励数值满足步骤最大奖励值r_max的预设比例时，即平均奖励数值相对于步骤最大奖励值r_max的比例大于等于预设比例时，对运动控制规则进行调整及更新。满足步骤最大奖励值的预设比例即为对运动控制规则进行调整及更新的判断条件。

动态的奖励机制依照人类学习驾驶这一渐进过程，针对某一行驶状态下，车辆的每一具体规则均可以表示为分段函数，用于评价某一步骤的具体状态的优良程度，并且其中最佳的状态将给予步骤最大奖励值r_max。

以直线行驶情况为例，当平均奖励数值满足步骤最大奖励值r_max的预设比例时，对运动控制规则进行调整及更新，具体形式如公式(1)至公式(3)：

When Direction＝Straight；

其中，当平均奖励数值满足公式(1)中步骤最大奖励值的预设比例时，运动控制规则的奖励函数由公式(1)调整至公式(2)，当平均奖励数值满足调整后的公式(2)中步骤最大奖励值的预设比例时，运动控制规则的奖励函数由公式(2)调整至公式(3)，并以此类推，且，r₃＞r₂＞r₁＞r_negative，在公式(1)中r₁为步骤最大奖励值r_max，在公式(2)中r₂为步骤最大奖励值r_max，在公式(3)中r₃为步骤最大奖励值r_max，r_negative为负数奖惩值，steer为方向盘的旋转角度，steer以(-1，1)表示，是一种开度的表示形式，-1表示方向盘向左转到底，+1表示方向盘向右转到底，steer＝0表示方向盘角度为0即车辆沿直线方向行驶，也可以理解的是，在直线行驶情况下，steer＝0是较优的策略，并且学习奖励函数和驾驶过程中，steer的数值与当前状态有关，与过往状态没有关系。

需要说明的是，公式(1)中的r₁(r_max)、公式(2)中的r₂(r_max)、公式(3)中的r₃(r_max)是递增关系，分段函数将奖励值进行具体的细化。

下面对本发明提供的无人车自学习控制装置进行描述，下文描述的无人车自学习控制装置与上文描述的无人车自学习控制方法可相互对应参照。

下面结合图5描述本发明的无人车自学习控制装置，该装置包括：

规则提炼模块100，用于获取车辆在当前驾驶环境的运动控制规则。其中，运动控制规则输出的是车辆的执行动作，输入的是车辆的行驶状态。

在该装置中，运动控制规则采用了深度强化学习DDPG算法，具体实现是基于开源的Carla无人驾驶仿真平台，利用TensorFlow搭建网络结构。车辆的行驶状态利用传感器仿真，其中，行驶状态包括车辆的速度信息以及车辆中心与导航指示路径点的偏差，并且，导航指示路径点可以通过仿真场景中的GPS的定位信息获得，车辆的执行动作包含横向控制量和纵向控制量，其中横、纵向控制量可以以油门、刹车和方向盘开度的形式表示。

自主驾驶模块200，用于根据运动控制规则，对无人车进行训练，控制车辆进行自主驾驶。

在自主驾驶模块200中，具体的，记录数据状态s_t、动作a_t、奖励值r、以及下一个状态s_t+1，并根据记录到的上述数据对无人车控制器开展训练，实现车辆的无人自主驾驶。

状态获取模块300，用于在自主驾驶过程中，获取行驶状态。

在该装置中，会根据运动控制规则构建动态的奖励机制，在本实施例中，奖励机制是通过奖励函数来具体的实现的。具体的，根据运动控制规则构建动态的奖励机制，通过评价车辆的自主行驶能力水平，形成与车辆自主行驶能力相关的奖励函数。

自学习模块400，用于根据行驶状态，生成车辆的行驶能力，并根据行驶能力调整及更新运动控制规则。自学习模块400的作用在于参照人类学习驾驶的渐进过程，设计一套可以评价车辆行驶能力的运动控制规则(奖励规则)体系。

在本发明的无人车自学习控制装置，提出一种新式的自学习装置，省去了复杂的建模过程，借鉴人类学习驾驶车辆的渐进过程，实现无人车控制器可以从无到有逐步提升，进而掌握熟练的驾驶能力，在训练过程中无需手动设计奖励函数，首先通过自主驾驶模块200去学习规则提炼模块100构建的奖励函数并进行训练，然后在该奖励函数的指导下执行强化学习的过程学习策略，状态获取模块300中，在自主驾驶过程中，同步地采集行驶状态，之后在自学习模块400中，基于深度强化学习的无人车自学习装置，根据当前行驶状态的车辆的行驶状态，选择对应的动作策略，并对车辆当前状态给予评价，返回相应的奖励值，以对奖励函数进行调整及更新。通过上述方式学习到的奖励函数鲁棒性较好，可以应对专家数据中未出现的情况。

下面结合图6描述本发明的无人车自学习控制装置，规则提炼模块100具体包括：

任务提取单元110，用于分析典型城镇道路环境下，车辆的具体行驶任务。

规则提炼单元120，用于针对不同的行驶任务，基于人类驾驶车辆时所关注到的信息，获取车辆在当前驾驶环境的运动控制规则。其中，信息包括交通规则、车辆与车道的相对位置、车辆的油门开度以及方向盘角度。

If Collision vehicle＝0，Continue run；

Else reward＝-200；

If Δspeed＞2then reward＝-1，Else reward＝1

其中，Δspeed为车辆的加速度，单位为m/s²。

因此通过规则提炼模块100可以提取人类学习驾驶车辆所关注到的运动控制规则，并以此为基础设计规则迭代的无人车自学习控制装置。

下面结合图7描述本发明的无人车自学习控制装置，自学习模块400具体包括：

行驶能力评价单元410，用于根据行驶状态，获取无人车每回合的训练情况，并根据每回合的训练情况得到总步骤的平均奖励值，生成车辆的行驶能力；

调整更新单元420，用于比较平均奖励数值与奖励规则中的步骤最大奖励值r_max，当平均奖励数值满足步骤最大奖励值r_max的预设比例时，即平均奖励数值相对于步骤最大奖励值r_max的比例大于等于预设比例时，对运动控制规则进行调整及更新。满足步骤最大奖励值的预设比例即为对运动控制规则进行调整及更新的判断条件。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行无人车自学习控制方法，该方法包括以下步骤：

S100、获取车辆在当前驾驶环境的运动控制规则；其中，所述运动控制规则输出的是所述车辆的执行动作，输入的是所述车辆的行驶状态；

S200、根据所述运动控制规则，对无人车进行训练，控制所述车辆进行自主驾驶；

S300、在自主驾驶过程中，获取所述行驶状态；

S400、根据所述行驶状态，生成车辆的行驶能力，并根据所述行驶能力调整及更新所述运动控制规则。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的无人车自学习控制方法，该方法包括以下步骤：

S300、在自主驾驶过程中，获取所述行驶状态；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的无人车自学习控制方法，该方法包括以下步骤：

S300、在自主驾驶过程中，获取所述行驶状态；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种无人车自学习控制方法，其特征在于，包括以下步骤：

在自主驾驶过程中，获取所述行驶状态；

根据所述行驶状态，生成车辆的行驶能力，并根据所述行驶能力调整及更新所述运动控制规则；

所述根据所述行驶状态，生成车辆的行驶能力，并根据所述行驶能力调整及更新所述运动控制规则，具体包括以下步骤：

2.根据权利要求1所述的无人车自学习控制方法，其特征在于，所述获取车辆在当前驾驶环境的运动控制规则，具体包括以下步骤：

分析典型城镇道路环境下，车辆的具体行驶任务；

3.根据权利要求1所述的无人车自学习控制方法，其特征在于，当要求不与周围车辆发生碰撞时，所述运动控制规则为：

If Collision vehicle＝0,Continue run；

Else reward＝-200。

4.根据权利要求1所述的无人车自学习控制方法，其特征在于，当要求无人车以平稳车速行驶时，所述运动控制规则为：

IfΔspeed>2then reward＝-1,Else reward＝1

其中，Δspeed为车辆的加速度，单位为m/s²。

5.根据权利要求1所述的无人车自学习控制方法，其特征在于，针对直线行驶情况，当所述平均奖励数值满足所述步骤最大奖励值的预设比例时，对所述运动控制规则进行调整及更新，具体形式如公式(1)至公式(3)：

其中，当所述平均奖励数值满足公式(1)中所述步骤最大奖励值的预设比例时，所述运动控制规则的奖励函数由公式(1)调整至公式(2)，当所述平均奖励数值满足调整后的公式(2)中所述步骤最大奖励值的预设比例时，所述运动控制规则的奖励函数由公式(2)调整至公式(3)，并以此类推，且，r₃>r₂>r₁>r_negative，steer为方向盘的旋转角度，在公式(1)中r₁为步骤最大奖励值r_max，在公式(2)中r₂为步骤最大奖励值r_max，在公式(3)中r₃为步骤最大奖励值r_max，r_negative为负数奖惩值。

6.根据权利要求1所述的无人车自学习控制方法，其特征在于，所述运动控制规则采用了深度强化学习算法，并基于Carla无人驾驶仿真平台。

7.一种无人车自学习控制装置，其特征在于，包括：

规则提炼模块(100)，用于获取车辆在当前驾驶环境的运动控制规则；其中，所述运动控制规则输出的是所述车辆的执行动作，输入的是所述车辆的行驶状态；

自主驾驶模块(200)，用于根据所述运动控制规则，控制所述车辆进行自主驾驶；

状态获取模块(300)，用于在自主驾驶过程中，获取所述车辆行驶状态；

自学习模块(400)，用于根据所述车辆行驶状态，生成车辆的行驶能力，并根据所述行驶能力调整及更新所述运动控制规则；

所述自学习模块(400)，具体用于：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述无人车自学习控制方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述无人车自学习控制方法的步骤。