CN111208838B

CN111208838B - 一种无人驾驶设备的控制方法及装置

Info

Publication number: CN111208838B
Application number: CN202010313981.0A
Authority: CN
Inventors: �田润; 王志超; 任冬淳; 许笑寒; 陈鸿帅; 赵博林; 颜诗涛
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-11-03
Anticipated expiration: 2040-04-20
Also published as: CN111208838A

Abstract

本说明书公开了一种无人驾驶设备的控制方法及装置，在该方法中获取无人驾驶设备的当前状态数据，并根据该无人驾驶设备的当前状态数据，预测出无人驾驶设备下一时刻的行驶轨迹，作为该无人驾驶设备的当前状态数据对应的期望轨迹，将该当前状态数据以及该期望轨迹输入到预先训练的控制器选择网络中，以确定出各控制器针对该期望轨迹的匹配度，根据确定出的各控制器的匹配度，选择出目标控制器，并将该期望轨迹输入到该目标控制器中，得到针对该无人驾驶设备的控制量并对无人驾驶设备进行控制。通过该方法可以保证选择的控制器是适用于无人驾驶设备当前状态以及下一时刻的行驶轨迹的，提高了无人驾驶设备的安全行驶。

Description

一种无人驾驶设备的控制方法及装置

技术领域

本说明书涉及无人驾驶技术领域，尤其涉及一种无人驾驶设备的控制方法及装置。

背景技术

随着科技水平的不断提升，诸如无人车、机器人等无人驾驶设备已在众多的领域中得到了广泛的应用，给人们的日常生活带来了极大的方便。

目前，无人驾驶设备中设有多个控制器，这些控制器用于在不同的实际场景在对无人驾驶设备实施控制。例如，当无人驾驶设备处于高速公路的实际场景时，无人驾驶设备需要基于适用于高速公路的控制器来对自身的行驶实施控制；再例如，当无人驾驶设备处于城市公路的实际场景时，无人驾驶设备需要基于适用于城市公路的控制器来对自身的行驶实施控制。

无人驾驶设备在行驶过程中，通常会涉及到实际场景的切换，如，无人驾驶设备从城市公路进入高速公路。相应的，为保证无人驾驶设备的正常行驶，无人驾驶设备需要对自身所使用的控制器进行切换。在现有技术中，通常是在无人驾驶设备中设置一些固定的切换条件来实现控制器的切换的，例如，当无人驾驶设备的速度到达一定阈值时，可以将无人驾驶设备所使用的适用于城市公路的控制器切换至适用于高速公路的控制器。

然而在实际应用中，无人驾驶设备在行驶过程中所处的实际环境较为复杂，所以，单纯通过设置固定的切换条件来实现控制器的切换，并不能保证控制器切换的准确性。例如，假设无人驾驶设备在城市公路的行驶过程中，位于某一路段的行驶速度可能已经超过了预设的切换至高速公路控制器的速度阈值，则可能会出现无人驾驶设备依然在城市公路中行驶，但是使用的控制器是适用于高速公路的控制器的情况，即，使用的控制器并不符合无人驾驶设备当前所处的状态，这就给无人驾驶设备在城市公路的行驶带来了极大的安全隐患。

所以，如何能够保证控制器切换的准确性，保障无人驾驶设备的安全行驶，则是一个亟待解决的问题。

发明内容

本说明书实施例提供一种无人驾驶的控制方法及装置，用以部分解决现有技术中存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种无人驾驶设备的控制方法，包括：

获取无人驾驶设备的当前状态数据；

根据所述无人驾驶设备的当前状态数据，预测出所述无人驾驶设备下一时刻的行驶轨迹，作为所述无人驾驶设备的当前状态数据对应的期望轨迹；

将所述无人驾驶设备的当前状态数据以及所述期望轨迹输入到预先训练的控制器选择网络中，确定各控制器针对所述期望轨迹的匹配度；

根据确定出的所述各控制器的匹配度，从所述各控制器中选择控制器，并将选择出的控制器作为目标控制器；

将所述期望轨迹输入到所述目标控制器中，得到针对所述无人驾驶设备的控制量，并通过所述控制量控制所述无人驾驶设备。

可选地，根据所述无人驾驶设备的当前状态数据，预测所述无人驾驶设备下一时刻的行驶轨迹，作为所述无人驾驶设备的当前状态数据对应的期望轨迹之前，所述方法还包括：

获取所述无人驾驶设备周围障碍物的当前状态数据；

根据所述无人驾驶设备的当前状态数据，预测所述无人驾驶设备下一时刻的行驶轨迹，作为所述无人驾驶设备的当前状态数据对应的期望轨迹，具体包括：

将所述无人驾驶设备的当前状态数据以及所述周围障碍物的当前状态数据输入预设的轨迹预测模型中，以预测出所述无人驾驶设备下一时刻的行驶轨迹，作为所述无人驾驶设备的当前状态数据对应的期望轨迹。

可选地，训练所述控制器选择网络，具体包括：

获取若干第一训练样本；

针对每个第一训练样本，将该第一训练样本中包含的历史期望轨迹以及该第一训练样本中包含的得到所述历史期望轨迹所基于的目标设备的历史状态数据输入到所述控制器选择网络中，得到各控制器针对所述历史期望轨迹的第一匹配度；

针对每个控制器，确定该第一训练样本中包含的预先确定出的该控制器针对所述历史期望轨迹的第二匹配度，并以最小化所述第一匹配度与所述第二匹配度之间的偏差为优化目标，调整所述控制器选择网络中的各项参数，直至达到预设的训练目标为止。

可选地，预先确定该控制器针对所述历史期望轨迹的第二匹配度，具体包括：

将所述历史期望轨迹输入到各控制器中，分别得到各控制器针对所述历史期望轨迹所得到的控制量；

针对每个控制器，将该控制器针对所述历史期望轨迹所得到的控制量以及该第一训练样本中包含的得到所述历史期望轨迹所基于的目标设备的历史状态数据输入预先训练出的状态预测网络中，以得到预测状态数据；

根据所述预测状态数据以及所述历史期望轨迹，确定该控制器针对所述历史期望轨迹所对应的第二匹配度。

可选地，根据所述预测状态数据以及所述历史期望轨迹，确定该控制器针对所述历史期望轨迹所对应的第二匹配度，具体包括：

根据所述预测状态数据，确定所述预测状态数据所对应的预测行驶轨迹；

根据所述预测行驶轨迹以及所述历史期望轨迹，确定该控制器针对所述历史期望轨迹所对应的第二匹配度。

可选地，根据所述预测行驶轨迹以及所述历史期望轨迹，确定该控制器针对所述历史期望轨迹所对应的第二匹配度，具体包括：

确定所述预测行驶轨迹和所述历史期望轨迹之间的轨迹偏差；

根据所述轨迹偏差，确定该控制器针对所述历史期望轨迹的第二匹配度，其中，所述轨迹偏差越大，该控制器针对所述历史期望轨迹的第二匹配度越低。

可选地，训练所述状态预测网络，具体包括：

针对每个控制器，获取该控制器对应的若干第二训练样本；

针对每个第二训练样本，将该第二训练样本中包含的目标设备的第一状态数据以及该控制器在所述第一状态数据下所输出的标准控制量输入到所述状态预测网络中，以预测出所述目标设备按照所述标准控制量进行行驶后的状态数据，作为第二状态数据；

以最小化所述第二状态数据和该训练样本中包含的所述目标设备基于所述第一状态数据选择该控制器得到的实际状态数据之间的偏差为优化目标，对所述状态预测网络进行训练，直到达到预设的训练目标为止。

本说明书提供了一种无人驾驶设备的控制装置，包括：

获取模块，用于获取所述装置的当前状态数据；

预测模块，用于根据所述装置的当前状态数据，预测出所述装置下一时刻的行驶轨迹，作为所述装置的当前状态数据对应的期望轨迹；

输入模块，用于将所述装置的当前状态数据以及所述期望轨迹输入到预先训练的控制器选择网络中，确定各控制器针对所述期望轨迹的匹配度；

选择模块，用于根据确定出的所述各控制器的匹配度，从所述各控制器中选择控制器，并将选择出的控制器作为目标控制器；

控制模块，用于将所述期望轨迹输入到所述目标控制器中，得到针对所述装置的控制量，并通过所述控制量控制所述装置。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述无人驾驶设备的控制方法。

本说明书提供了一种无人驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述无人驾驶设备的控制方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的无人驾驶设备的控制方法中，获取无人驾驶设备的当前状态数据，并根据该无人驾驶设备的当前状态数据，预测出无人驾驶设备下一时刻的行驶轨迹，作为该无人驾驶设备的当前状态数据对应的期望轨迹，将该无人驾驶设备的当前状态数据以及该期望轨迹输入到预先训练的控制器选择网络中，以确定出各控制器针对该期望轨迹的匹配度，根据确定出的各控制器的匹配度，从各控制器中选择控制器，并将选择出的控制器作为目标控制器，将该期望轨迹输入到该目标控制器中，得到针对该无人驾驶设备的控制量，并通过该控制量对无人驾驶设备进行控制。

从上述方法可以看出，由于可以基于无人驾驶设备的当前状态数据以及预测出的无人驾驶设备下一时刻的期望轨迹来进行控制器的选择，可以有效的保证选择出的控制器是适用于无人驾驶设备当前状态以及下一时刻的行驶轨迹的，从而在提高控制器切换准确性的同时，有效的保证了无人驾驶设备的安全行驶。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本申请，并不构成对本说明书的不当限定。在附图中：

图1为本申请实施例中一种无人驾驶设备的控制方法的流程示意图；

图2为本说明书提供的无人驾驶设备通过控制器对自身进行控制的示意图；

图3为本说明书提供的一种无人驾驶设备的控制装置示意图；

图4为本说明书提供的对应于图1的无人驾驶设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书提供的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书实施例中一种无人驾驶设备的控制方法的流程示意图，具体包括以下步骤：

S101：获取无人驾驶设备的当前状态数据。

S102：根据所述无人驾驶设备的当前状态数据，预测出所述无人驾驶设备下一时刻的行驶轨迹，作为所述无人驾驶设备的当前状态数据对应的期望轨迹。

为了保证无人驾驶设备的正常行驶，需要对无人驾驶设备下一时刻的行驶轨迹进行预测。基于此，在本说明书中，可以获取无人驾驶设备的当前状态数据，并基于该当前状态数据，对无人驾驶设备下一时刻的行驶轨迹进行预测。

其中，获取无人驾驶设备的当前状态数据以及预测无人驾驶设备下一时刻的行驶轨迹的执行主体，可以是无人驾驶设备本身，即，本说明书提供的无人驾驶设备的控制方法的执行主体可以是无人驾驶设备自身。当然，获取无人驾驶设备的当前状态数据以及预测无人驾驶设备下一时刻的行驶轨迹的执行主体也可以是服务器，即，无人驾驶设备在行驶过程中可以将采集到的自身的数据上传至服务器，以使服务器根据无人驾驶设备上传的数据，获取到无人驾驶设备的当前状态数据，以及预测无人驾驶设备下一时刻的行驶轨迹。而为了便于描述，下面将仅以无人驾驶设备为执行主体，对本说明书提供的无人驾驶设备的控制方法进行说明。

上述提到的无人驾驶设备可以是指无人车、机器人、自动配送设备等能够实现自动驾驶的设备。基于此，本说明书提供的无人驾驶设备的控制方法可以应用于对执行配送领域的配送任务的无人驾驶设备进行控制，如，使用无人驾驶设备进行快递、物流、外卖等配送的业务场景。而通过本说明书提供的无人驾驶设备的控制方法，可以有效的保证无人驾驶设备在执行这些业务场景配送任务过程中的行驶安全。

在本说明书中，无人驾驶设备获取到的自身的当前状态数据可以是指无人驾驶设备当前时刻的行驶速度、加速度、所处的地理位置等数据。相应的，无人驾驶设备可以通过设置在自身上的传感器（如加速度计、陀螺仪等）来获取到该当前状态数据。而在获取到该当前状态数据后，无人驾驶设备可以基于该当前状态数据，来预测出无人驾驶设备下一时刻的行驶轨迹。具体的，无人驾驶设备可以将获取到的该无人驾驶设备的当前状态数据输入到预设的轨迹预测模型中，以预测出下一时刻的行驶轨迹。

需要说明的是，在实际应用中，无人驾驶设备的周围往往会存在一些障碍物，所以，为了保证预测出的无人驾驶设备下一时刻的行驶轨迹的准确性，无人驾驶设备可以参考周围障碍物的当前状态数据，来预测该行驶轨迹。

具体的，无人驾驶设备除了需要获取到自身的当前状态数据，也需要获取到周围障碍物的当前状态数据。其中，这里提到的周围障碍物可以是指诸如机动车、行人、护栏、建筑物等能够对无人驾驶设备的行进造成阻碍的物体。相应的，周围障碍物的当前状态数据用于表征周围障碍物当前所处的状态，如，周围障碍物所处的位置、当前的行驶速度等。

在本说明书中，无人驾驶设备可以通过设置在自身上的传感器（如摄像头、激光雷达、超声波传感器等）来获取到周围障碍物的当前状态数据。例如，无人驾驶设备可以通过设置在自身上的激光雷达来确定出周围障碍物与该无人驾驶设备的相对位置，进而通过结合无人驾驶设备当前的地理位置，来确定出周围障碍物的地理位置；再例如，无人驾驶设备可以通过设置的摄像头，连续采集周围障碍物的多帧图像数据，进而通过对周围障碍物的图像在这些图像数据中的变化，来确定出周围障碍物的当前行驶速度。

在获取到无人驾驶设备周围障碍物的当前状态数据以及无人驾驶设备自身的当前状态数据后，可以将无人驾驶设备的当前状态数据以及周围障碍物的状态数据输入到预设的轨迹预测模型中，以预测出无人驾驶设备下一时刻的行驶轨迹，作为无人驾驶设备的当前状态数据所对应的期望轨迹。这里提到的无人驾驶设备的当前状态数据所对应的期望轨迹，即是指在无人驾驶设备的当前状态数据下，期望无人驾驶设备在下一时刻所能行驶出的轨迹。

在本说明书中，无人驾驶设备预测出的期望轨迹可以视为无人驾驶设备通过该轨迹预测模型所预测出的下一时刻的理想轨迹，即，无人驾驶设备在下一时刻按照该期望轨迹进行行驶，可以在安全性以及行驶效率上尽可能的保证最优。

上述提到的轨迹预测模型可以通过预先获取到的训练样本对其进行训练。具体的，若是不考虑障碍物的影响，则在获取到的训练样本中，包含有目标设备的历史状态数据以及针对该历史状态数据所设置的规划轨迹。而后，可以将该目标设备的历史状态数据输入到该轨迹预测模型中，以输出预测出的行驶轨迹，进而以最小化该轨迹预测模型预测出的行驶轨迹和该训练样本中包含的规划轨迹之间的偏差为优化目标，对该轨迹预测模型进行训练。

而若是考虑障碍物的影响，则训练样本中应包含有目标设备的历史状态数据以及该目标设备在处于该历史状态数据时周围障碍物的所处的状态数据，这里可以将该目标设备在处于该历史状态数据时周围障碍物的所处状态的状态数据称之为与该目标设备的历史状态数据对应的周围障碍物的历史状态数据。而后，可以将该目标设备的历史状态数据以及周围障碍物对应的历史状态数据输入到轨迹预测模型中，以输出预测出的行驶轨迹。进一步地，可以最小化该轨迹预测模型预测出的行驶轨迹和该训练样本中包含的规划轨迹之间的偏差为优化目标，对该轨迹预测模型进行训练。

其中，上述提到的目标设备可以是指无人驾驶设备本身，也可以是指专门用于采集训练模型所需数据的设备（如机动车）。而该训练样本中包含的规划轨迹可以是人为根据实际经验规划出的行驶轨迹。

需要指出的是，对上述轨迹预测模型进行训练的执行主体除了可以是无人驾驶设备本身外，还可以是服务器或是专门用于模型训练的终端（如台式电脑），以服务器为例，服务器通过训练样本对该轨迹预测模型进行训练后，可以将该轨迹预测模型部署在无人驾驶设备中，以使无人驾驶设备能够通过训练后的轨迹预测模型，确定出上述期望轨迹。

S103：将所述无人驾驶设备的当前状态数据以及所述期望轨迹输入到预先训练的控制器选择网络中，确定各控制器针对所述期望轨迹的匹配度。

在确定出无人驾驶设备的当前状态数据以及期望轨迹后，可以将该无人驾驶设备的当前状态数据以及期望轨迹输入到预先训练的控制器选择网络中，确定出各控制器针对该期望轨迹的匹配度。其中，针对每个控制器，通过控制器选择网络所确定出的该控制器针对该期望轨迹的匹配度，能够有效的反映出通过该控制器对无人驾驶设备进行控制后得到该期望轨迹或是与该期望轨迹相接近的行驶轨迹的概率大小。也就是说，若是该控制器针对该期望轨迹的匹配度越高，则说明在下一时刻通过该控制器来控制无人驾驶设备进行行驶的合适程度越高，在下一时刻通过该控制器控制无人驾驶设备进行行驶后所得到的行驶轨迹与该期望轨迹越接近。

而从上述内容可知，将该无人驾驶设备的当前状态数据以及期望轨迹输入到控制器选择网络后，其实可以通过该控制器选择网络得到每个控制器针对该期望轨迹的匹配度，基于此，无人驾驶设备可以通过得到的各控制器针对该期望轨迹的匹配度，来进行控制器选择。

在通过该控制器选择网络进行控制器选择之前，需要对该控制器选择网络进行训练。具体的，可以先获取若干第一训练样本，并针对每个第一训练样本，将该第一训练样本中包含的历史期望轨迹以及该第一训练样本中包含的得到该历史期望轨迹所基于的目标设备的历史状态数据输入到该控制器选择网络中，得到各控制器针对该历史期望轨迹的第一匹配度。而后，针对每个控制器，可以确定出该第一训练样本中包含的预先确定出的该控制器针对该历史期望轨迹的第二匹配度，并以最小化该第一匹配度和第二匹配度之间的偏差为优化目标，调整该控制器选择网络中的各项参数，直至达到预设的训练目标为止。

其中，第一训练样本可以理解为用于对控制器选择网络进行训练所使用的训练样本，而之所以称之为第一训练样本，主要用于和后续训练状态预测网络所使用的第二训练样本进行区分，而本身“第一”和“第二”没有其他的特殊含义。

第一训练样本中包含的历史期望轨迹可以是指通过采集到的目标设备的历史状态数据进行确定出的。而若考虑到障碍物的影响，则该历史期望轨迹也可以是通过采集到的目标设备的历史状态数据以及目标设备在处于历史状态数据所对应的状态时周围障碍物对应的历史状态数据进行确定的。从另一个角度来说，这里提到的历史状态数据（包括目标设备和周围障碍物的历史状态数据）其实表明了该历史期望轨迹是在何种历史状态数据下得出的。

上述提到的第一匹配度控制器选择网络针对该第一训练样本中包含的历史期望轨迹所输出的匹配度，而第二匹配度为预先确定出的用于对该第一训练样本中包含的历史期望轨迹进行标注的匹配度。其中，第二匹配度可以通过历史期望轨迹以及得到历史期望轨迹所基于的历史状态数据进行确定。

具体的，针对每个第一训练样本，可以将该第一训练样本中包含的历史期望轨迹输入到各控制器中，以分别得到各控制器针对该历史期望轨迹所得到的控制量。而后，可以针对每个控制器，将该控制器针对该历史期望轨迹所得到的控制量以及该第一训练样本中包含的得到该历史期望轨迹所基于的目标设备的历史状态数据输入到预先训练的状态预测网络中，以得到预测状态数据，并根据该预测状态数据以及该历史期望轨迹，确定该控制器针对该历史期望轨迹所对应的第二匹配度。

其中，这里提到的控制量用于表征若是选择该控制器，该控制器应该如何对目标设备实施控制，以使目标设备能够行驶出该历史期望行驶轨迹或是接近该历史期望行驶轨迹的行驶轨迹。控制量主要用于表征对目标设备行驶过程中的具体控制，如，目标设备在行驶过程中油门的控制力度，目标设备在转向过程中的转向角度等。

而上述得到的预测状态数据用于表征目标设备处于该历史状态数据所对应的状态下，按照该控制量进行控制后应该处于的状态，即，通过该控制量对该目标设备进行控制后，该目标设备应从该历史状态数据所对应的状态变更为何种状态。进一步地，从时间维度上来看，该预测状态数据用于表示以该历史状态数据所对应的时间为时间点，预测出的目标设备在该时间点的下一时刻应处于何种状态。

在本说明书中，可以先根据预测状态数据，确定出该预测状态数据所对应的预测行驶轨迹，而后，再根据该预测行驶轨迹以及该历史期望轨迹，确定出该控制器针对该历史期望轨迹所对应的第二匹配度。

从上述内容可知，上述无人驾驶设备的当前状态数据中可以包含有无人驾驶设备当前所处的地理位置，相应的，这里提到的预测状态数据中也可以包含有预测出的目标设备在历史状态数据所对应的时间点的下一时刻所处的地理位置。而在得到该地理位置的情况下，将地理位置作为轨迹点，以得到预测状态数据所对应的预测行驶轨迹。

进一步地，在得到上述预测行驶轨迹和历史期望轨迹后，可以确定出该预测行驶轨迹和该历史期望轨迹之间的轨迹偏差，并根据该轨迹偏差，确定出该控制器针对该历史期望轨迹的第二匹配度。

从这里可以看出，若是预测行驶轨迹和历史期望轨迹之间的轨迹偏差越大，则该控制器针对该历史期望轨迹的第二匹配度应越低，反之则第二匹配度应越高。也就是说，预测行驶轨迹和历史期望轨迹之间的轨迹偏差与控制器针对该历史期望轨迹的第二匹配度之间应呈负相关的关系。

而从上述整个过程可以看出，确定第二匹配度的过程，其实可以视为对第一训练样本进行标注的过程。也就是说，在对控制器选择网络进行训练时，其训练目的是要使控制器选择网络所输出的结果尽可能的接近确定出的这些第二匹配度。也就是说，对于一个控制器来说，若是通过该控制器控制目标设备所得到的行驶轨迹与历史期望轨迹之间的轨迹偏差较大，则控制器选择网络得到的该控制器针对该历史期望轨迹所对应的第二匹配度应是较低的。

在本说明书中，基于上述轨迹偏差来确定出该控制器针对该历史期望轨迹之间的第二匹配度的具体方式可以有多种。例如，针对每个控制器，可以将基于该控制器所确定出的预测行驶轨迹和该历史期望轨迹之间的轨迹偏差，作为该控制器对应的轨迹偏差。而后，可以将各控制器对应的轨迹偏差进行加和，并将通过该控制器对应的轨迹偏差以及得到的轨迹偏差和值，来确定出该控制器针对该历史期望轨迹的第二匹配度，具体参考如下公式：

其中，

用于表示控制器

所对应的轨迹偏差，

用于表示控制器

针对该历史期望轨迹所对应的第二匹配度。而从该公式中可以看出，若是控制器

所对应的轨迹偏差的数值越大，

的数值也就越大，则

的数值（即第二匹配度）也就越小。

当然，基于轨迹偏差来确定控制器针对该历史期望轨迹所对应的第二匹配度的具体方式还可以有很多，并不一定仅限于上述公式，只需保证该控制器对应的轨迹偏差与该控制器针对该历史期望轨迹所对应的第二匹配度之间呈负相关的关系即可。

而除了基于轨迹偏差来确定该控制器针对该历史期望轨迹对应的第二匹配度的方式外，还可以通过其他的方式来确定第二匹配度。例如，在得到上述预测行驶轨迹以及历史期望轨迹后，可以分别确定出预测行驶轨迹对应的轨迹向量以及历史期望轨迹对应的轨迹向量。而后，通过确定这两个轨迹向量的点积的方式，来确定该控制器针对该历史期望轨迹对应的第二匹配度。再例如，在确定出预测行驶轨迹对应的轨迹向量以及历史期望轨迹对应的轨迹向量后，可以通过确定这两个轨迹向量之间的欧式距离，来确定该控制器针对该历史期望轨迹对应的第二匹配度，其他的方式在此就不详细举例说明了。

上述提到的第一匹配度和第二匹配度主要用于对控制器选择网络训练过程中所涉及的匹配度进行区分，而对“第一”和“第二”本身来说，没有其他的特殊含义。

从上述内容可知，状态预测网络主要用于通过输入的控制量以及历史状态数据，来预测目标设备接下来应处于何种状态。而之所以需要状态预测网络来进行状态预测，主要是因为，在实际应用中，目标设备在一个时刻内往往只会采用一种控制器对其自身的行驶过程进行控制，所以，往往也只会采集到在一种控制器的控制下接下来的一个时刻所处状态的状态数据。即，由于目标设备同一时刻只会采用一种控制器，所以，选择其他控制器会产生何种的状态数据，目标设备是无法采集到的。

而由于控制器选择网络能够得到的所有控制器针对同一期望轨迹的匹配度，所以在对控制器选择网络进行训练时，就需要对所有控制器针对同一期望轨迹都设置相应的第二匹配度，而由于目标设备未采用的控制器所对应的状态数据不可知，这就需要对这些状态数据进行预测，以能够得到目标设备未采用的控制器针对同一期望轨迹所对应的第二匹配度。

基于此，在本说明书中，需要对状态预测网络进行训练，以使状态预测网络能够基于输入的控制量以及历史状态数据，准确的预测出目标设备在处于该历史状态数据对应的状态下，按照该控制量进行控制后应处于何种状态。具体的，针对每个控制器，可以获取该控制器对应的若干第二训练样本，而后，针对每个第二训练样本，将该第二训练样本中包含的目标设备的第一状态数据以及该控制器在该第一状态数据所输出的标准控制量输入到该状态预测网络中，以预测出该目标设备按照该标准控制量进行行驶后的状态数据，作为第二状态数据。进一步地，可以最小化该第二状态数据和该训练样本中包含的该目标设备基于该第一状态数据选择该控制器得到的实际状态数据之间的偏差为优化目标，对该状态预测网络进行训练，直到达到预设的训练目标为止。

其中，这里提到的针对该控制器的第二训练样本，可以是通过目标设备使用各控制器所产生的数据来得到的。针对每个第二训练样本，该第二训练样本中包含的目标设备的第一状态数据与该训练样本中包含的该目标设备基于该第一状态数据选择该控制器得到的实际状态数据是相对应的，即，可以将该目标设备的第一状态数据理解为该目标设备在一个时间点上所处状态的状态数据，而该目标设备基于该第一状态数据选择该控制器得到的实际状态数据则可以是该目标设备在该时间点的下一时刻所处实际状态的状态数据。也就是说，该目标设备将该第一状态数据输入到该控制器后，按照该控制器所输出的控制量进行行驶后得到的实际状态数据。该控制器在该第一状态数据下所输出的标准控制量可以理解为目标设备在该第一状态数据下选择该控制器对其自身进行控制时，该控制器所输出的控制量。

而从这一训练过程中可以看出，其实就是通过有监督训练的方式，使状态预测网络所预测出的第二状态数据，能够尽可能的接近目标设备基于该第一状态数据选择该控制器后得到的实际状态数据。所以，第二训练样本中包含的该目标设备基于该第一状态数据选择该控制器后得到的实际状态数据可以理解为用于对状态预测网络进行训练时所标注出的状态数据。而这里上述的“第一”以及“第二”主要是用于对第二训练样本中包含的状态数据以及状态预测网络所输出的状态数据进行区分，其本身没有特殊的含义。

需要指出的是，对该控制器选择网络实施训练的执行主体除了可以是无人驾驶设备本身外，还可以是上述提到的服务器或是专门用于进行模型训练的终端，本说明书不对网络训练的执行主体进行具体的限制。同理，对状态预测网络进行训练的执行主体可以是无人驾驶设备本身，也可以是上述提到的服务器或是专门用于进行模型训练的终端，本说明书亦不对该网络训练的执行主体进行具体的限制。

S104：根据确定出的所述各控制器的匹配度，从所述各控制器中选择控制器，并将选择出的控制器作为目标控制器。

在确定出各控制器的匹配度后，无人驾驶设备可以从这些控制器中，选择出匹配度最高的控制器，作为目标控制器，并在后续过程中，通过该目标控制器，对无人驾驶设备的行驶实施控制。

当然，在本说明书中，无人驾驶设备确定出各控制器的匹配度后，可以先确定出无人驾驶设备上一时刻所选择的控制器，作为指定控制器，并确定出匹配度高于指定控制器的其他控制器，而后，针对每个其他控制器，可以确定出该其他控制器与该指定控制器之间匹配度的差值。无人驾驶设备可以将与该指定控制器之间匹配度差值最小的其他控制器，作为目标控制器。这样可以使后续基于选取出的目标控制器所确定出的控制量与上一时刻选取出的指定控制器确定出的控制量之间的差异不至过大，从而可以在一定程度上保证无人驾驶设备在控制器的切换过程中，依然能够较为平稳的进行行驶。

S105：将所述期望轨迹输入到所述目标控制器中，得到针对所述无人驾驶设备的控制量，并通过所述控制量控制所述无人驾驶设备。

在选取出目标控制器后，无人驾驶设备可以将先前预测出的期望轨迹输入到该目标控制器中，从而得到针对该无人驾驶设备的控制量，并通过该控制量，对自身实施控制。例如，无人驾驶设备将该期望轨迹输入到该目标控制器后，确定出的控制量为：将油门调节为A状态、无人驾驶设备的转向方向为向左转向10°，则无人驾驶设备可以按照该控制量，来对无人驾驶设备下一时刻的行驶进行控制。

从上述方法中可以看出，由于可以基于无人驾驶设备的当前状态数据以及预测出的无人驾驶设备下一时刻的期望轨迹来进行控制器的选择，可以有效的保证选择出的控制器是适用于无人驾驶设备当前状态以及下一时刻的行驶轨迹的，从而在提高控制器切换准确性的同时，有效的保证了无人驾驶设备的安全行驶。

在本说明书中，可以将上述提到的轨迹预测模型、控制器选择网络以及状态预测网络均部署在无人驾驶设备中，无人驾驶设备通过这三种网络模型实现控制的同时，还可以通过行驶过程中所产生的数据，对这三种网络模型进行更新，以提高这三种网络模型输出结果的准确性，进一步地保证了无人驾驶设备在行驶过程中的安全性，如图2所示。

图2为本说明书提供的无人驾驶设备通过控制器对自身进行控制的示意图。

在图2中可以看出，无人驾驶设备可以先通过轨迹预测模型进行轨迹规划，以得到期望轨迹，并将该期望轨迹以及无人驾驶设备的当前状态数据输入到控制器选择网络中。无人驾驶设备可以通过控制器选择网络确定出的各控制器对应的匹配度，进而选择出目标控制器，并控制控制器切换装置切换至该目标控制器中，以将期望轨迹输入到该目标控制器中，得到相应的控制量，并通过执行器执行该控制量实现对无人驾驶设备的控制。

除此之外，无人驾驶设备还需要将期望轨迹输入到除目标控制器以外的其他控制器中，以分别得到各其他控制器针对该期望轨迹的控制量，并将这些控制量输入到状态预测网络中，以使状态预测网络可以根据得到的这些控制量以及无人驾驶设备的当前状态数据，预测出无人驾驶设备在处于该当前状态数据所对应的状态下，通过各控制器进行控制后所应处于的各种状态，进而基于预测出的这些状态，得到各控制器针对该期望轨迹的轨迹偏差，也就各控制器针对该期望轨迹的第二匹配度。无人驾驶设备可以控制状态预测网络，将这些第二匹配度输入到控制器选择网络中，以对该控制器选择网络实施更新。

以上为本说明书的一个或多个实施例提供的无人驾驶设备的控制方法，基于同样的思路，本说明书还提供了相应的无人驾驶设备的控制装置，如图3所示。

图3为本说明书提供的一种无人驾驶设备的控制装置示意图，具体包括：

获取模块301，用于获取所述装置的当前状态数据；

预测模块302，用于根据所述装置的当前状态数据，预测出所述装置下一时刻的行驶轨迹，作为所述装置的当前状态数据对应的期望轨迹；

输入模块303，用于将所述装置的当前状态数据以及所述期望轨迹输入到预先训练的控制器选择网络中，确定各控制器针对所述期望轨迹的匹配度；

选择模块304，用于根据确定出的所述各控制器的匹配度，从所述各控制器中选择控制器，并将选择出的控制器作为目标控制器；

控制模块305，用于将所述期望轨迹输入到所述目标控制器中，得到针对所述装置的控制量，并通过所述控制量控制所述装置。

可选地，在所述获取模块301获取所述装置的当前状态数据之前，所述获取模块301还用于，获取所述装置周围障碍物的当前状态数据；

所述预测模块302具体用于，将所述装置的当前状态数据以及所述周围障碍物的当前状态数据输入预设的轨迹预测模型中，以预测出所述装置下一时刻的行驶轨迹，作为所述装置的当前状态数据对应的期望轨迹。

可选地，所述装置还包括：

训练模块306，用于训练所述控制器选择网络；

所述训练模块306具体用于，获取若干第一训练样本；针对每个第一训练样本，将该第一训练样本中包含的历史期望轨迹以及该第一训练样本中包含的得到所述历史期望轨迹所基于的目标设备的历史状态数据输入到所述控制器选择网络中，得到各控制器针对所述历史期望轨迹的第一匹配度；针对每个控制器，确定该第一训练样本中包含的预先确定出的该控制器针对所述历史期望轨迹的第二匹配度，并以最小化所述第一匹配度与所述第二匹配度之间的偏差为优化目标，调整所述控制器选择网络中的各项参数，直至达到预设的训练目标为止。

可选地，所述训练模块306具体用于，将所述历史期望轨迹输入到各控制器中，分别得到各控制器针对所述历史期望轨迹所得到的控制量；针对每个控制器，将该控制器针对所述历史期望轨迹所得到的控制量以及该第一训练样本中包含的得到所述历史期望轨迹所基于的目标设备的历史状态数据输入预先训练出的状态预测网络中，以得到预测状态数据；根据所述预测状态数据以及所述历史期望轨迹，确定该控制器针对所述历史期望轨迹所对应的第二匹配度。

可选地，所述训练模块306具体用于，根据所述预测状态数据，确定所述预测状态数据所对应的预测行驶轨迹；根据所述预测行驶轨迹以及所述历史期望轨迹，确定该控制器针对所述历史期望轨迹所对应的第二匹配度。

可选地，所述训练模块306具体用于，确定所述预测行驶轨迹和所述历史期望轨迹之间的轨迹偏差；根据所述轨迹偏差，确定该控制器针对所述历史期望轨迹的第二匹配度，其中，所述轨迹偏差越大，该控制器针对所述历史期望轨迹的第二匹配度越低。

可选地，所述训练模块306还用于，训练所述状态预测网络；

所述训练模块306具体用于，针对每个控制器，获取该控制器对应的若干第二训练样本；针对每个第二训练样本，将该第二训练样本中包含的目标设备的第一状态数据以及该控制器在所述第一状态数据下所输出的标准控制量输入到所述状态预测网络中，以预测出所述目标设备按照所述标准控制量进行行驶后的状态数据，作为第二状态数据；以最小化所述第二状态数据和该训练样本中包含的所述目标设备基于所述第一状态数据选择该控制器得到的实际状态数据之间的偏差为优化目标，对所述状态预测网络进行训练，直到达到预设的训练目标为止。

本说明书实施例还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的无人驾驶设备的控制方法。

本说明书实施例还提供了图4所示的无人驾驶设备的示意结构图。如图4所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的无人驾驶设备的控制方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种无人驾驶设备的控制方法，其特征在于，包括：

获取无人驾驶设备的当前状态数据；

根据所述无人驾驶设备的当前状态数据，预测所述无人驾驶设备下一时刻的行驶轨迹，作为所述无人驾驶设备的当前状态数据对应的期望轨迹；

将所述无人驾驶设备的当前状态数据以及所述期望轨迹输入到预先训练的控制器选择网络中，确定各控制器针对所述期望轨迹的匹配度，所述控制器选择网络是通过各控制器针对目标设备历史期望轨迹的第一匹配度及第二匹配度之间的偏差最小化为优化目标训练的，所述第一匹配度是通过所述目标设备的历史状态数据以及所述目标设备的历史期望轨迹确定，所述第二匹配度通过所述历史期望轨迹以及状态预测网络得到的预测状态数据确定，所述预测状态数据由所述状态预测网络通过所述历史状态数据及控制器针对所述历史期望轨迹的控制量确定，所述目标设备在同一时刻只用一种控制器；

2.如权利要求1所述的方法，其特征在于，根据所述无人驾驶设备的当前状态数据，预测所述无人驾驶设备下一时刻的行驶轨迹，作为所述无人驾驶设备的当前状态数据对应的期望轨迹之前，所述方法还包括：

获取所述无人驾驶设备周围障碍物的当前状态数据；

3.如权利要求1所述的方法，其特征在于，训练所述控制器选择网络，具体包括：

获取若干第一训练样本；

4.如权利要求3所述的方法，其特征在于，预先确定该控制器针对所述历史期望轨迹的第二匹配度，具体包括：

5.如权利要求4所述的方法，其特征在于，根据所述预测状态数据以及所述历史期望轨迹，确定该控制器针对所述历史期望轨迹所对应的第二匹配度，具体包括：

6.如权利要求5所述的方法，其特征在于，根据所述预测行驶轨迹以及所述历史期望轨迹，确定该控制器针对所述历史期望轨迹所对应的第二匹配度，具体包括：

7.如权利要求4所述的方法，其特征在于，训练所述状态预测网络，具体包括：

针对每个控制器，获取该控制器对应的若干第二训练样本；

8.一种无人驾驶设备的控制装置，其特征在于，包括：

获取模块，用于获取所述装置的当前状态数据；

输入模块，用于将所述装置的当前状态数据以及所述期望轨迹输入到预先训练的控制器选择网络中，确定各控制器针对所述期望轨迹的匹配度，所述控制器选择网络是通过各控制器针对目标设备历史期望轨迹的第一匹配度及第二匹配度之间的偏差最小化为优化目标训练的，所述第一匹配度是通过所述目标设备的历史状态数据以及所述目标设备的历史期望轨迹确定，所述第二匹配度通过所述历史期望轨迹以及状态预测网络得到的预测状态数据确定，所述预测状态数据由所述状态预测网络通过所述历史状态数据及控制器针对所述历史期望轨迹的控制量确定，所述目标设备在同一时刻只用一种控制器；

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~7任一所述的方法。

10.一种无人驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~7任一所述的方法。