CN112904852A

CN112904852A - 一种自动驾驶控制方法、装置及电子设备

Info

Publication number: CN112904852A
Application number: CN202110065981.8A
Authority: CN
Inventors: 魏晓龙
Original assignee: Guoqi Intelligent Control Beijing Technology Co Ltd
Current assignee: Guoqi Intelligent Control Beijing Technology Co Ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-06-04
Anticipated expiration: 2041-01-18
Also published as: CN112904852B

Abstract

本发明提供一种自动驾驶控制方法、装置及电子设备，其中，方法包括：获取车辆驾驶数据以及车辆所处的环境信息；将所述车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型，得到用于控制车辆自动驾驶的控制数据。通过实施本发明，将车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型，得到车辆的控制数据，该强化学习模型可以根据车辆驾驶数据以及车辆所处的环境信息，得到车辆自动驾驶控制数据，从而实现脱离人为因素，实现车辆驾驶自动化。

Description

一种自动驾驶控制方法、装置及电子设备

技术领域

本发明涉及智能驾驶领域，具体涉及一种自动驾驶控制方法、装置及电子设备。

背景技术

随着交通事业的发展，车辆驾驶越来越智能。相关技术中，一般在车辆上安装自适应巡航控制系统(Adaptive cruise control system，ACC)，自适应巡航控制系统是一种智能化的自动控制系统，接收用户的启用和设置指令，由车距传感器和车速传感器采集前方车辆和本车数据，通过一个统一的网络如控制局域网(Con-troller Area Network，CAN)等送往电子控制单元(Electronic Control Units，ECU)进行信息交互计算，并将结果反馈至汽车传动系统和制动系统完成对汽车的控制，以实现辅助驾驶，比如，用户设置当前为巡航跟车模式，那么若前车逐渐刹停，自车将跟随前车逐渐行驶到停，并保持两车安全车距。可见，自适应巡航控制系统仍然是需要人为参与，仍然实现的是辅助驾驶，难以做到脱离人为因素实现自动控制。

发明内容

有鉴于此，本发明实施例提供了一种自动驾驶控制方法、装置及电子设备，以解决现有技术中仍然实现的是辅助驾驶，难以做到脱离人为因素实现自动控制的缺陷。

根据第一方面，本发明实施例提供一种自动驾驶控制方法，包括如下步骤：获取车辆驾驶数据以及车辆所处的环境信息；将所述车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型，得到用于控制车辆自动驾驶的控制数据。

可选地，所述预先训练好的强化学习模型包括预测网络和目标网络，所述预测网络和所述目标网络结构相同，所述目标网络的网络参数根据所述预测网络的网络参数确定，所述强化学习模型的训练过程包括：将所述车辆驾驶数据以及所述车辆所处的环境信息输入至预测网络模型，得到车辆处于当前状态时的可执行动作以及执行所述动作的预期价值；将所述车辆驾驶数据以及所述车辆所处的环境信息输入至目标网络模型，得到车辆处于当前状态时的可执行动作以及执行所述动作的目标预期价值；根据执行所述动作的预期价值以及执行所述动作的目标预期价值，得到损失函数；根据所述损失函数，更新所述预测网络的网络参数；利用所述预测网络的更新后的网络参数对所述目标网络的网络参数进行更新。

可选地，所述动作的预期价值为：

Q(s，a)＝r_t+γr_t-1+γ²r_t-2+…γⁿr_t-n；

其中，r_t-n为第t-n次执行动作的奖励值，γ为折扣因子，Q(s，a)为车辆状态s时，执行动作a的预期价值。

可选地，自动驾驶控制方法还包括：将所述控制数据发送至车辆的自适应巡航控制系统。

可选地，获取车辆驾驶数据以及车辆所处的环境信息之后，以及将所述车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型之前，所述方法还包括：对所述车辆驾驶数据以及车辆所处的环境信息进行异常数据处理。

根据第二方面，本发明实施例提供一种自动驾驶控制装置，包括：信息采集模块，用于获取车辆驾驶数据以及车辆所处的环境信息；控制数据确定模块，用于将所述车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型，得到用于控制车辆自动驾驶的控制数据。

可选地，所述预先训练好的强化学习模型包括预测网络和目标网络，所述预测网络和所述目标网络结构相同，所述目标网络的网络参数根据所述预测网络的网络参数确定，所述控制数据确定模块包括：预测网络模块，用于将所述车辆驾驶数据以及所述车辆所处的环境信息输入至预测网络模型，得到车辆处于当前状态时的可执行动作以及执行所述动作的预期价值；目标网络模块，用于将所述车辆驾驶数据以及所述车辆所处的环境信息输入至目标网络模型，得到车辆处于当前状态时的可执行动作以及执行所述动作的目标预期价值；损失计算模块，用于根据执行所述动作的预期价值以及执行所述动作的目标预期价值，得到损失函数；第一参数更新模块，用于根据所述损失函数，更新所述预测网络的网络参数；第二参数更新模块，用于利用所述预测网络的更新后的网络参数对所述目标网络的网络参数进行更新。

可选地，所述预测网络模块包括：价值计算模块，用于执行：

Q(s，a)＝r_t+γr_t-1+γ²r_t-2+…γⁿr_t-n；

根据第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面或者第一方面任一实施方式所述的自动驾驶控制方法的步骤。

根据第四方面，本发明实施例提供一种存储介质，其上存储有计算机指令，该指令被处理器执行时实现第一方面或第一方面任一实施方式所述的自动驾驶控制方法的步骤。

本发明技术方案，具有如下优点：

本实施例提供的自动驾驶控制方法/装置，通过将车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型，得到车辆的控制数据，该强化学习模型可以根据车辆驾驶数据以及车辆所处的环境信息，得到车辆自动驾驶控制数据，从而实现脱离人为因素，实现车辆驾驶自动化。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中自动驾驶控制方法的一个具体示例的流程图；

图2为本发明实施例中自动驾驶控制方法的一个具体示例的流程图；

图3为本发明实施例中自动驾驶控制方法的一个具体示例的流程图；

图4为本发明实施例中自动驾驶控制装置的一个具体示例原理框图；

图5为本发明实施例中电子设备的一个具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本实施例提供一种自动驾驶控制方法，如图1所示，包括如下步骤：

S101，获取车辆驾驶数据以及车辆所处的环境信息；

示例性地，车辆驾驶数据可以包括车辆的速度、加速度、角速度等，车辆所处的环境信息可以包括周围车辆的速度、加速度等等。车辆驾驶数据已经车辆所处的环境信息可以是从车辆上安装的各种传感器获取，本实施例对车辆驾驶数据、车辆所处的环境信息及数据或者信息获取方式不做限定，本领域技术人员可以根据需要确定。

S102，将车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型，得到用于控制车辆自动驾驶的控制数据。

示例性地，强化学习模型是一种用于时序决策的学习框架，通过让机器自己选择操作和环境交互并从环境得到相应的奖励让机器逐渐能够选择合适的操作。本实施例中的强化学习模型可以是基于如Q-learning模型自由(model-free)的算法建立而成，Q-learning不对环境进行任何假设，避免一些错误的或是限制性很强的假设条件带来负面影响。

通过强化学习模型得到控制数据过程可以如图2所示，在强化学习模型中，可以预测出车辆在当前状态下，执行不同动作时产生的价值，假设车辆当前的状态为s2，执行动作a1，预测的价值为Q(s2，a1)，执行动作a2，预测的价值为Q(s2，a2)，然后强化学习模型选取价值Q中最大值的动作来换取环境中的奖励，强化学习的目标就是选择合适的操作，最大化打折的未来累积奖励。

当强化学习模型学习出Q值计算规则，就能知道在当前的环境状态下，执行各种动作的预期收益，从而执行最大价值Q对应的动作即可。在本实施例中控制车辆自动驾驶的控制数据可以是自适应巡航控制系统的状态机控制数据，其中，状态机是为研究有限内存的计算过程和某些语言类而抽象出的一种计算模型。有限状态自动机拥有有限数量的状态，每个状态可以迁移到零个或多个状态，输入字串决定执行哪个状态的迁移。如图3所示，状态机可以表示为一个有向图。状态机控制数据可以是关闭自适应巡航控制系统、激活自适应巡航控制系统、使得自适应巡航控制系统待机、选取自适应巡航控制系统各种功能(包括巡航跟车模式、加速、减速等)等等。

本实施例提供的自动驾驶控制方法，通过将车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型，得到车辆的控制数据，该强化学习模型可以根据车辆驾驶数据以及车辆所处的环境信息，得到车辆自动驾驶控制数据，从而实现脱离人为因素，实现车辆驾驶自动化。

作为本实施例一种可选的实施方式，预先训练好的强化学习模型包括预测网络和目标网络，预测网络和目标网络结构相同，目标网络的网络参数根据预测网络的网络参数确定，强化学习模型的训练过程包括：

首先，将车辆驾驶数据以及车辆所处的环境信息输入至预测网络模型，得到车辆处于当前状态时的可执行动作以及执行动作的预期价值。

示例性地，车辆驾驶数据可以包括车辆的速度、加速度、角速度等，环境信息可以包括周围车辆的速度、加速度等等。在训练过程中车辆驾驶数据和环境信息可以是虚拟车辆驾驶数据和虚拟环境信息。车辆处于当前状态时的可执行动作可以包括关闭自适应巡航控制系统、激活自适应巡航控制系统、使自适应巡航控制系统待机、选取自适应巡航控制系统各种功能等。

预测网络模型可以是在线学习的Q网络模型，Q网络模型用于根据当前的车辆驾驶数据以及车辆所处的环境信息，分析得到执行动作的预期价值Q。

执行动作的预期价值Q可以通过以下公式得到：

Q(s，a)＝r_t+γr_t-1+γ²r_t-2+…γⁿr_t-n；

其中，Q(s，a)为车辆状态s时，执行动作a的预期价值，γ为折扣因子，0＜γ＜1，γ表明了未来的奖励相对于当前奖励的重要程度，γ取0时，相当于只考虑立即奖励不考虑长期奖励，γ为1时，长期奖励和立即奖励同等重要，r_t-n为t-n次执行动作的奖励值，奖励值可以根据设定的奖励函数得到，奖励函数可以根据本车与前导车的距离以及一些风险指标(如碰撞率)确定，本实施例对奖励函数的设定不做限定，本领域技术人员可以根据需要确定。

其次，将车辆驾驶数据以及车辆所处的环境信息输入至目标网络模型，得到车辆处于当前状态时的可执行动作以及执行动作的目标预期价值。

示例性地，目标网络模型可以为离线学习的Q网络模型，其结构与预测网络模型相同，但是目标网络模型网络参数为预测网络的网络历史网络参数。对于目标网络模型，其目标预期价值可以由以下公式得到：

Q^*(s，a)＝r_t+γmax_a′Q^*(s′，a′)；

其中，Q^*(s，a)为目标预期价值，r_t为执行对应动作的奖励，γ为折扣因子，max_a′Q^*(s′，a′)为下一步预测到的Q值。

然后，根据执行动作的预期价值以及执行动作的目标预期价值，得到损失函数；

示例性地，损失函数由以下公式确定：

LOSS＝(Q^*(s，a)-Q(s，a))²＝(r_t+γmax_a′Q(s′，a′)-Q(s，a))²；

再次，根据损失函数，更新预测网络的网络参数；根据损失函数，更新预测网络的网络参数的方式可以是采用梯度下降法，不断调整预测网络的网络参数，直至满足损失要求。

然后，利用预测网络的更新后的网络参数对目标网络的网络参数进行更新。

示例性地，目标网络的网络参数并不是实时更新，而是当预测网络更新预设次数后，将预测网络的网络参数赋予目标网络的网络，也即目标网络相当于提供标签，根据标签和预测网络的预期价值确定损失，根据损失对神经网络进行更新。

本实施例提供的自动驾驶控制方法，根据预测网络和目标网络对强化学习模型进行训练更新，目标网络作用是为了提高算法稳定性，因为在一段时间里目标预期价值是保持不变的，一定程度降低了预测网络和目标网络的相关性。

作为本实施例一种可选的实施方式，方法还包括：将控制数据发送至车辆的自适应巡航控制系统。自适应巡航控制系统内包括ACC自适应巡航状态机，强化学习模型输出的结果转换为状态机信号，在实际或者虚拟环境进行实时的输出。

本实施例提供的自动驾驶控制方法，输入已有历史信息，直接输出选择的动作，而不是像以往的模型一样输出的是对市场的预测，然后再人为的决定操作，从而避免了人错误判断造成损失。

作为本实施例一种可选的实施方式，获取车辆驾驶数据以及车辆所处的环境信息之后，以及将车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型之前，方法还包括：对车辆驾驶数据以及车辆所处的环境信息进行异常数据处理。

示例性地，在获取车辆驾驶数据以及车辆所处的环境信息时，可能会获取到当前环境包括自车以及其他车或者障碍物等数据，需要对获取到的数据进行数据处理，删除重复数据以及无效数据，从而筛选出所需要的数据。

本实施例提供一种自动驾驶控制装置，如图4所示，包括：

信息采集模块201，用于获取车辆驾驶数据以及车辆所处的环境信息；具体内容参见上述方法实施例对应部分，在此不再赘述。

控制数据确定模块202，用于将所述车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型，得到用于控制车辆自动驾驶的控制数据。具体内容参见上述方法实施例对应部分，在此不再赘述。

作为本实施例一种可选的实施方式，所述预先训练好的强化学习模型包括预测网络和目标网络，所述预测网络和所述目标网络结构相同，所述目标网络的网络参数根据所述预测网络的网络参数确定，所述控制数据确定模块包括：

预测网络模块，用于将所述车辆驾驶数据以及所述车辆所处的环境信息输入至预测网络模型，得到车辆处于当前状态时的可执行动作以及执行所述动作的预期价值；具体内容参见上述方法实施例对应部分，在此不再赘述。

目标网络模块，用于将所述车辆驾驶数据以及所述车辆所处的环境信息输入至目标网络模型，得到车辆处于当前状态时的可执行动作以及执行所述动作的目标预期价值；具体内容参见上述方法实施例对应部分，在此不再赘述。

损失计算模块，用于根据执行所述动作的预期价值以及执行所述动作的目标预期价值，得到损失函数；具体内容参见上述方法实施例对应部分，在此不再赘述。

第一参数更新模块，用于根据所述损失函数，更新所述预测网络的网络参数；具体内容参见上述方法实施例对应部分，在此不再赘述。

第二参数更新模块，用于利用所述预测网络的更新后的网络参数对所述目标网络的网络参数进行更新。具体内容参见上述方法实施例对应部分，在此不再赘述。

作为本实施例一种可选的实施方式，所述预测网络模块包括：价值计算模块，用于执行

Q(s，a)＝r_t+γr_t-1+γ²r_t-2+…γⁿr_t-n；

其中，r_t-n为第t-n次执行动作的奖励值，γ为折扣因子，Q(s，a)为车辆状态s时，执行动作a的预期价值。具体内容参见上述方法实施例对应部分，在此不再赘述。

作为本实施例一种可选的实施方式，自动驾驶控制装置还包括：数据发送模块，用于将所述控制数据发送至车辆的自适应巡航控制系统。具体内容参见上述方法实施例对应部分，在此不再赘述。

作为本实施例一种可选的实施方式，自动驾驶控制装置还包括：异常数据处理模块，用于对所述车辆驾驶数据以及车辆所处的环境信息进行异常数据处理。具体内容参见上述方法实施例对应部分，在此不再赘述。

本申请实施例还提供一种电子设备，如图5所示，处理器310和存储器320，其中处理器310和存储器320可以通过总线或者其他方式连接。

处理器310可以为中央处理器(Central Processing Unit，CPU)。处理器310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器320作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的自动驾驶控制方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理。

存储器320可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器320可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器320中，当被所述处理器310执行时，执行如图1所示实施例中的自动驾驶控制方法。

上述电子设备的具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本实施例还提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例1中自动驾驶控制方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种自动驾驶控制方法，其特征在于，包括如下步骤：

获取车辆驾驶数据以及车辆所处的环境信息；

将所述车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型，得到用于控制车辆自动驾驶的控制数据。

2.根据权利要求1所述的方法，其特征在于，所述预先训练好的强化学习模型包括预测网络和目标网络，所述预测网络和所述目标网络结构相同，所述目标网络的网络参数根据所述预测网络的网络参数确定，所述强化学习模型的训练过程包括：

将所述车辆驾驶数据以及所述车辆所处的环境信息输入至预测网络模型，得到车辆处于当前状态时的可执行动作以及执行所述动作的预期价值；

将所述车辆驾驶数据以及所述车辆所处的环境信息输入至目标网络模型，得到车辆处于当前状态时的可执行动作以及执行所述动作的目标预期价值；

根据执行所述动作的预期价值以及执行所述动作的目标预期价值，得到损失函数；

根据所述损失函数，更新所述预测网络的网络参数；

利用所述预测网络的更新后的网络参数对所述目标网络的网络参数进行更新。

3.根据权利要求2所述的方法，其特征在于，所述动作的预期价值为：

Q(s,a)＝r_t+γr_t-1+γ²r_t-2+…γⁿr_t-n；

其中，r_t-n为第t-n次执行动作的奖励值，γ为折扣因子，Q(s,a)为车辆状态s时，执行动作a的预期价值。

4.根据权利要求1所述的方法，其特征在于，还包括：将所述控制数据发送至车辆的自适应巡航控制系统。

5.根据权利要求1所述的方法，其特征在于，获取车辆驾驶数据以及车辆所处的环境信息之后，以及将所述车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型之前，所述方法还包括：对所述车辆驾驶数据以及车辆所处的环境信息进行异常数据处理。

6.一种自动驾驶控制装置，其特征在于，包括：

信息采集模块，用于获取车辆驾驶数据以及车辆所处的环境信息；

控制数据确定模块，用于将所述车辆驾驶数据以及车辆所处的环境信息输入至预先训练好的强化学习模型，得到用于控制车辆自动驾驶的控制数据。

7.根据权利要求6所述的装置，其特征在于，所述预先训练好的强化学习模型包括预测网络和目标网络，所述预测网络和所述目标网络结构相同，所述目标网络的网络参数根据所述预测网络的网络参数确定，所述控制数据确定模块包括：

预测网络模块，用于将所述车辆驾驶数据以及所述车辆所处的环境信息输入至预测网络模型，得到车辆处于当前状态时的可执行动作以及执行所述动作的预期价值；

目标网络模块，用于将所述车辆驾驶数据以及所述车辆所处的环境信息输入至目标网络模型，得到车辆处于当前状态时的可执行动作以及执行所述动作的目标预期价值；

损失计算模块，用于根据执行所述动作的预期价值以及执行所述动作的目标预期价值，得到损失函数；

第一参数更新模块，用于根据所述损失函数，更新所述预测网络的网络参数；

第二参数更新模块，用于利用所述预测网络的更新后的网络参数对所述目标网络的网络参数进行更新。

8.根据权利要求7所述的装置，其特征在于，所述预测网络模块包括：价值计算模块，用于执行：

Q(s,a)＝r_t+γr_t-1+γ²r_t-2+…γⁿr_t-n；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1－5任一所述的自动驾驶控制方法的步骤。

10.一种存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1－5任一所述的自动驾驶控制方法的步骤。