CN112947495B

CN112947495B - 模型训练的方法、无人驾驶设备的控制方法以及装置

Info

Publication number: CN112947495B
Application number: CN202110445170.0A
Authority: CN
Inventors: 熊方舟; 夏华夏; 任冬淳; 李潇; 丁曙光; 樊明宇
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-09-24
Anticipated expiration: 2041-04-25
Also published as: CN112947495A

Abstract

本说明书公开了模型训练的方法、无人驾驶设备的控制方法以及装置，获取采集设备在各历史时刻下对应的状态数据，作为历史状态数据，而后，针对每个历史时刻，将该历史时刻对应的历史状态数据输入到待训练的决策模型中，确定采集设备在该历史时刻对应的锚点。而后，确定采集设备按照采集设备在各历史时刻对应的锚点进行行驶所得到的行驶轨迹，并确定行驶轨迹对应的目标奖励值，最后，根据目标奖励值，对决策模型进行训练。本方法通过获取采集设备在各历史时刻下对应的状态数据，进行决策模型的训练，通过训练完成的决策模型规划锚点，根据锚点对无人驾驶设备进行控制，从而降低了无人驾驶设备与周围障碍物发生碰撞的概率。

Description

模型训练的方法、无人驾驶设备的控制方法以及装置

技术领域

本说明书涉及无人驾驶技术领域，尤其涉及模型训练的方法、无人驾驶设备的控制方法以及装置。

背景技术

目前，无人驾驶设备在交通情况复杂的道路上会遇到许多的障碍物，无人驾驶设备往往根据自身的状态数据，以及无人驾驶设备的周围障碍物的状态数据，基于预先设定的规则来完成躲避障碍物。但在实际应用中，由于交通参与者的意图以及行为过于复杂，仅仅根据预先设定的规则来躲避障碍物的成功率并不高，存在与周围其他障碍物碰撞的可能，安全性较低。

因此，无人驾驶设备如何根据周围交通参与者的交互情况，规划出一条合理的行驶轨迹，则是一个亟待解决的问题。

发明内容

本说明书提供一种模型训练的方法、无人驾驶设备的控制方法以及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种模型训练的方法，用于对部署在无人驾驶设备的决策模型进行训练，包括：

获取采集设备在各历史时刻下对应的状态数据，作为历史状态数据；

针对每个历史时刻，将该历史时刻对应的历史状态数据输入到待训练的决策模型中，确定所述采集设备在该历史时刻对应的锚点，其中，所述锚点用于引导所述采集设备在下一历史时刻向所述锚点进行行驶；

确定所述采集设备按照所述采集设备在各历史时刻对应的锚点进行行驶所得到的行驶轨迹，并确定所述行驶轨迹对应的目标奖励值；

根据所述目标奖励值，对所述决策模型进行训练。

可选地，确定所述采集设备按照所述采集设备在各历史时刻对应的锚点进行行驶所得到的行驶轨迹，并确定所述行驶轨迹对应的目标奖励值，具体包括：

针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值；

将各历史时刻对应的锚点的奖励值的奖励和值，作为所述目标奖励值。

可选地，针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，具体包括：

针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，预测所述采集设备在该历史时刻之后的状态数据，作为预测状态数据；

根据所述预测状态数据，预测所述采集设备在该历史时刻之后的每个其他历史时刻对应的预测奖励值；

根据所述预测奖励值、所述采集设备按照上一历史时刻对应的锚点行驶至该历史时刻后的实际奖励值以及预设因子，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，其中，针对该历史时刻之后的每个其他历史时刻，若是该历史时刻距离该其他历史时刻越远，该其他历史时刻对应的预测奖励值在所述预设因子的作用下，对该历史时刻对应的锚点的奖励值的影响越小。

可选地，针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，具体包括：

根据所述采集设备在该历史时刻对应的锚点，预测所述采集设备在该历史时刻之后的状态数据，作为预测状态数据；

根据所述预测状态数据，确定该历史时刻对应的第一影响因子；

根据该历史时刻对应的第一影响因子，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，所述第一影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶时，与所述采集设备周围的障碍物的碰撞概率，所述碰撞概率越大，该历史时刻对应的锚点的奖励值越小。

根据所述预测状态数据，确定该历史时刻对应的第二影响因子；

根据该历史时刻对应的第一影响因子，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，所述第二影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶时的行驶效率，所述行驶效率越大，该历史时刻对应的锚点的奖励值越大。

根据所述预测状态数据，确定该历史时刻对应的第三影响因子；

根据该历史时刻对应的第三影响因子，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，所述第三影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶后的状态变化程度，所述状态变化程度越大，该历史时刻对应的锚点的奖励值越小。

确定该历史时刻对应的锚点，与所述决策模型在上一轮训练时所确定出的该历史时刻对应的锚点之间的变化程度表征值；

根据所述变化程度表征值，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值。

可选地，根据所述变化程度表征值，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，具体包括：

若确定所述变化程度表征值未落入预设的表征值范围，根据所述表征值范围，对所述变化程度表征值进行更新，得到更新后变化程度表征值；

根据所述更新后变化程度表征值以及所述变化程度表征值，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值。

可选地，根据所述更新后变化程度表征值以及所述变化程度表征值，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，具体包括：

确定所述更新后变化程度表征值对应的第一奖励值，以及所述变化程度表征值对应的第二奖励值；

根据所述第一奖励值和所述第二奖励值中的最小奖励值，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值。

本说明书提供了一种无人驾驶设备的控制方法，包括：

获取无人驾驶设备在当前时刻时的状态数据，作为当前状态数据；

将所述当前状态数据输入到决策模型中，确定出所述无人驾驶设备在当前时刻对应的锚点，其中，所述锚点用于引导所述无人驾驶设备在下一时刻向所述锚点进行行驶，所述决策模型是通过上述模型训练的方法训练得到的；

根据所述锚点，对所述无人驾驶设备进行控制。

本说明书提供了一种模型训练的装置，用于对部署在无人驾驶设备的决策模型进行训练，包括：

获取模块，用于获取采集设备在各历史时刻下对应的状态数据，作为历史状态数据；

确定模块，用于针对每个历史时刻，将该历史时刻对应的历史状态数据输入到待训练的决策模型中，确定所述采集设备在该历史时刻对应的锚点，其中，所述锚点用于引导所述采集设备在下一历史时刻向所述锚点进行行驶；

轨迹模块，用于确定所述采集设备按照所述采集设备在各历史时刻对应的锚点进行行驶所得到的行驶轨迹，并确定所述行驶轨迹对应的目标奖励值；

训练模块，用于根据所述目标奖励值，对所述决策模型进行训练。

本说明书提供了一种无人驾驶设备的控制装置，包括：

获取模块，用于获取无人驾驶设备在当前时刻时的状态数据，作为当前状态数据；

确定模块，用于将所述当前状态数据输入到决策模型中，确定出所述无人驾驶设备在当前时刻对应的锚点，其中，所述锚点用于引导所述无人驾驶设备在下一时刻向所述锚点进行行驶，所述决策模型是通过上述模型训练的方法训练得到的；

控制模块，用于根据所述锚点，对所述无人驾驶设备进行控制。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练的方法或无人驾驶设备的控制方法。

本说明书提供了一种无人驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述模型训练的方法或无人驾驶设备的控制方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的模型训练的方法中，获取采集设备在各历史时刻下对应的状态数据，作为历史状态数据，而后，针对每个历史时刻，将该历史时刻对应的历史状态数据输入到待训练的决策模型中，确定采集设备在该历史时刻对应的锚点，其中，锚点用于引导采集设备在下一历史时刻向锚点进行行驶。而后，确定采集设备按照采集设备在各历史时刻对应的锚点进行行驶所得到的行驶轨迹，并确定行驶轨迹对应的目标奖励值，最后，根据目标奖励值，对决策模型进行训练。

从上述的模型训练的方法中可以看出，决策模型在输出采集设备在该历史时刻对应的锚点后，可以通过采集设备按照该历史时刻对应的锚点进行行驶时所得到的行驶轨迹对应的目标奖励值衡量该锚点的合理程度，所以，通过这种方式训练决策模型，可以使得无人驾驶设备向该锚点进行行驶时，能够有效地保障了无人驾驶设备的安全行驶，避免与周围障碍物发生碰撞，降低了与周围障碍物发生碰撞的概率，从而保证了无人驾驶设备的行驶效率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书实施例提供的模型训练的方法的流程示意图；

图2为本说明书实施例提供的一种采集设备与锚点的相对位置的示意图；

图3为本说明书实施例提供的无人驾驶设备的控制方法的流程示意图；

图4为本说明书实施例提供的模型训练装置结构示意图；

图5为本说明书实施例提供的无人驾驶设备的控制装置结构示意图；

图6为本说明书实施例提供的无人驾驶设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

在本说明书实施例中，根据当前状态数据进行规划锚点之前，需要依赖预先训练好的决策模型，下面将先介绍如何对决策模型进行训练的过程，如图1所示。

图1为本说明书实施例提供的模型训练的方法的流程示意图，具体包括以下步骤：

S100：获取采集设备在各历史时刻下对应的状态数据，作为历史状态数据。

在本说明书实施例中，采集设备在运动过程中，可以采集自身的状态数据以及采集设备周围的障碍物在各历史时刻下对应的状态数据，其中，这里提到的采集设备可以是指在决策模型训练的过程中进行数据采集的设备，如有人驾驶的汽车、有人操控的机器人等设备，也可以是指无人驾驶设备，采集设备可以装配有多种传感器，例如，摄像机、激光雷达、毫米波雷达等，用来在行驶过程中感知采集设备周围的环境，获取所需的状态数据。这里提到的障碍物可以是指采集设备运动过程中周围的车辆、自行车、行人等可以运动的物体，即能够对采集设备运动造成干扰的障碍物。

本说明书提供的决策模型的训练方法的执行主体可以是服务器，也可以是诸如台式电脑等电子设备，抑或是无人驾驶设备，为了便于描述，下面仅以无人驾驶设备为执行主体，对本说明书提供的控制模型的训练方法进行说明。

可以获取采集设备在各历史时刻下对应的状态数据。也就是说，采集设备主要负责决策模型训练的前期数据采集。其中，获取到的状态数据可以包括：采集设备的位置数据，以及采集设备周围的障碍物的位置数据、采集设备的速度数据，以及采集设备周围的障碍物的速度数据、采集设备的转向角数据、采集设备到行程终点的距离等。在采集设备运动过程中，周围可能存在多个障碍物，因此，采集设备可以针对周围每个障碍物，采集并获取这些障碍物的状态数据。

在本说明书提到的无人驾驶设备可以是指无人车、机器人、自动配送设备等能够实现自动驾驶的设备。基于此，应用本说明书提供的模型训练的方法的无人驾驶设备可以用于执行配送领域的配送任务，如，使用无人驾驶设备进行快递、物流、外卖等配送的业务场景。

S102：针对每个历史时刻，将该历史时刻对应的历史状态数据输入到待训练的决策模型中，确定所述采集设备在该历史时刻对应的锚点，其中，所述锚点用于引导所述采集设备在下一历史时刻向所述锚点进行行驶。

在本说明书实施例中，可以针对每个历史时刻，将该历史时刻对应的历史状态数据输入到待训练的决策模型中，确定采集设备在该历史时刻对应的锚点，其中，锚点用于引导采集设备在下一历史时刻向锚点进行行驶。这里提到的锚点可以是指与采集设备之间具有相对距离的坐标点。

无人驾驶设备可以通过决策模型确定出锚点与采集设备的相对位置，再根据锚点与采集设备的相对位置以及采集设备在地图中的坐标点，确定出锚点在地图中的坐标点。如图2所示。

图2为本说明书实施例提供的一种采集设备与锚点的相对位置的示意图。

在图2所示的道路场景下，将采集设备采集到的该历史时刻对应的历史状态数据输入到待训练的决策模型中，确定采集设备在该历史时刻对应的锚点。其中，锚点的坐标可以通过

表示，

表示锚点与采集设备之间的横向距离，

表示锚点与采集设备之间的纵向距离。若

小于零时，表示锚点位于采集设备的右方（假设默认位于采集设备左侧为正向），若

大于零时，表示锚点位于采集设备的左方，相应的，若

小于零时，表示锚点位于采集设备的后方，若

大于零时，表示锚点位于采集设备的前方。

在实际应用中，由于决策模型训练的初期，样本的数量较少，无人驾驶设备会将

小于零时的样本用于决策模型的训练，而在决策模型训练的后期，无人驾驶设备可以将

小于零时的样本进行过滤，这是因为若是

小于零，表明采集设备按照锚点行驶时会进行倒车或是掉头，而为了保证安全行驶以及行驶效率，则可以在后期去除掉会使采集设备出现倒车或是掉头的样本。

上述提到的决策模型可以是近端策略优化算法（Proximal PolicyOptimization，PPO），策略梯度算法（Policy Graident，PG）等得到的模型，本说明书不对决策模型的具体形式进行限定。

S104：确定所述采集设备按照所述采集设备在各历史时刻对应的锚点进行行驶所得到的行驶轨迹，并确定所述行驶轨迹对应的目标奖励值。

在本说明书实施例中，可以确定采集设备按照采集设备在各历史时刻对应的锚点进行行驶所得到的行驶轨迹，并确定行驶轨迹对应的目标奖励值。

需要强调的是，通过决策模型确定出的采集设备在该历史时刻对应的锚点，可以理解成采集设备在该历史时刻的下一时刻将要行驶到的位置，其中，采集设备在下一时刻并不一定会到达该锚点所在的位置，可能未行驶到该锚点所在的位置，也可能会到达的位置超过了该锚点所在的位置。所以，该历史时刻对应的锚点实际上可以理解成采集设备在下一时刻期望所要到达的位置。相应的，采集设备每个时刻都可以确定出相应的锚点，进而使得采集设备按照各锚点进行行驶后，最终到达目标终点。

在本说明书实施例中，可以针对每个历史时刻，根据采集设备在该历史时刻对应的锚点，确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，将各历史时刻对应的锚点的奖励值的奖励和值，作为目标奖励值。也就是说，服务器可以根据采集设备从起点行驶到终点的行驶轨迹中，确定出的所有的锚点对应的奖励值之和，得到采集设备对应的实际的行驶轨迹的目标奖励值。

在实际应用中，无人驾驶设备确定出的采集设备在该历史时刻对应的锚点的合理程度，可以根据采集设备向该锚点进行行驶后，预测该采集设备在行驶之后的状态数据来确定。例如，采集设备向该锚点进行行驶，预测该采集设备以及障碍物在下一时刻的位置、速度，确定采集设备与障碍物是否碰撞，以此来确定该锚点对应的奖励值，判断该锚点的合理程度。

也就是说，可以针对每个历史时刻，根据采集设备在该历史时刻对应的锚点，预测采集设备在该历史时刻之后的状态数据，作为预测状态数据。而后，根据预测状态数据，预测采集设备在该历史时刻之后的每个其他历史时刻对应的预测奖励值。最后，根据各历史时刻对应的预测奖励值以及采集设备按照上一历史时刻对应的锚点行驶至该历史时刻后的实际奖励值，确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值。

进一步的，确定出的该历史时刻对应的锚点的奖励值可以是由行驶至该历史时刻后的实际奖励值以及各历史时刻对应的预测奖励值得到的。具体的，可以根据预测奖励值、采集设备按照上一历史时刻对应的锚点行驶至该历史时刻后的实际奖励值以及预设因子，确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值。其中，针对该历史时刻之后的每个其他历史时刻，若是该历史时刻距离该其他历史时刻越远，该其他历史时刻对应的预测奖励值在预设因子的作用下，对该历史时刻对应的锚点的奖励值的影响越小。具体可以参考如下公式：

其中，

用于表示采集设备按照时刻t对应的锚点进行行驶，所得到的在时刻t下的采集设备的状态数据对应的奖励值。

用于表示采集设备在时刻t下的状态数据对应的奖励值。

用于表示采集设备在时刻t+1下预测出的状态数据对应的奖励值。

为预设因子，用于减小在时刻t之后的其他时刻预测出的状态数据对

的影响。

从该公式中可以看出，采集设备在时刻t下的状态数据对应的奖励值，需要参考采集设备在时刻t+1下预测出的状态数据对应的奖励值。例如，预测采集设备在时刻t+1与障碍物发生碰撞，那么预测出的采集设备在时刻t+1的状态数据对应的奖励值较小，从而导致在时刻t下的采集设备的状态数据对应的奖励值也较小，也就是说，可以通过预测出的采集设备的状态数据对应的奖励值对当前时刻的锚点的合理程度进行判断。

在实际应用中，确定时刻t对应的锚点的合理程度，还可以结合t-1时刻预测出的采集设备在时刻t的状态数据对应的奖励值，来判断时刻t对应的锚点的合理程度。具体可以参考如下公式：

其中，

用于表示采集设备在时刻t-1预测出的采集设备在t时刻的状态数据对应的奖励值。从该公式中可以看出，若采集设备在时刻t-1预测出的采集设备在t时刻的状态数据与采集设备在时刻t对应的实际状态数据存在偏差，则可以通过这一偏差，对采集设备在时刻t下的状态数据对应的奖励值（即

）进行补偿，从而保证

的合理性。进一步地，由于上述公式中减去了

，则相当于

这一奖励值更加关注t时刻所对应的锚点对未来的影响。

进一步地，该历史时刻对应的锚点的奖励值可以通过如下公式进行确定：

其中，

用于表示采集设备在时刻t对应的锚点的奖励值。

为预设因子，用于减小在时刻t之后的其他时刻预测出的状态数据对应的奖励值对

的影响，其中，

、

数值均大于0且小于1，主要用于减少较远时刻的采集设备的状态数据对应的奖励值对时刻t对应的锚点的奖励值的影响。

用于表示采集设备的行驶轨迹的时长。

从该公式中可以看出，可以基于时刻t对应的锚点，预测采集设备按照时刻t对应的锚点进行行驶的状态数据，并通过预设因子减小时刻t之后的预测奖励值，计算出采集设备在时刻t对应的锚点的奖励值，以此来判断时刻t对应的锚点的合理程度。

换句话说，采集设备在确定时刻t对应的锚点的奖励值过程中，不仅考虑了在该锚点的基础上未来所产生的状态数据，对采集设备行驶过程的影响，也进一步地降低了距离时刻t过远的历史时刻的状态数据，对该锚点的奖励值的影响程度，从而保证了该锚点的奖励值的合理性。

在本说明书实施例中，需要保证采集设备按照决策模型输出的锚点进行行驶的过程中，不会与周围的障碍物发生碰撞，同时还可以进一步地保证采集设备按照锚点进行行驶时的行驶效率以及平稳性。

具体的，可以根据采集设备在该历史时刻对应的锚点，预测采集设备在该历史时刻之后的状态数据，作为预测状态数据。而后，根据预测状态数据，确定该历史时刻对应的第一影响因子。最后，根据该历史时刻对应的第一影响因子，确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，第一影响因子用于表征采集设备按照该历史时刻对应的锚点进行行驶时，与采集设备周围的障碍物的碰撞概率，碰撞概率越大，该历史时刻对应的锚点的奖励值越小。具体可以参考如下公式：

其中，

可以用于表示该历史时刻对应的锚点在碰撞方面上的奖励值，

可以用于表示障碍物与采集设备之间的距离，其中，这里提到的距离具体可以有多种形式，例如，可以是指采集设备按照该历史时刻对应的锚点进行行驶的过程中，与周围障碍物之间的平均距离；再例如，也可以是指采集设备按照该历史时刻对应的锚点进行行驶的过程中，与周围障碍物之间的最小距离。

可以用于表示采集设备与障碍物之间的预计碰撞时间，具体形式也可以有多种，如，采集设备按照该历史时刻对应的锚点进行行驶的过程中，与障碍物之间的平均预计碰撞时间。

当然，

也可以是指采集设备与障碍物之间的距离所对应的奖励值，其中，若障碍物与采集设备之间的距离小于设定阈值，则

为较小的奖励值，若障碍物与采集设备之间的距离不小于设定阈值，则

为较大的奖励值。

同理，

也可以是指采集设备与障碍物之间的预计碰撞时间所对应的奖励值，若预计碰撞时间小于设定阈值，则

为较小的奖励值，若预计碰撞时间不小于设定阈值，则

为较大的奖励值。

需要说明的是，上述

以及

即可以理解成是第一影响因子，而无论

以及

为哪种形式，通过上述公式均可以表征出，若是采集设备与障碍物之间的距离越大，奖励值

越大，采集设备与障碍物的预计碰撞时间越大，奖励值

越大。进一步地，若确定出采集设备与障碍物发生碰撞或采集设备驶出车道，则可以对

奖励值减去一个预设的极大值，从而使得在使用这种方式训练出的决策模型进行决策时，可以有效地避免无人驾驶设备与障碍物发生碰撞或无人驾驶设备驶出车道的情况的发生。

进一步地，在实际应用中，可能出现采集设备周围没有障碍物的情况，导致得到采集设备与障碍物之间的距离或预计碰撞时间为无限大，因此，可以根据预设阈值，将超出预设阈值的数值统一确定为预设阈值的数值，避免出现奖励值无限大的情况发生。

在本说明书实施例中，可以根据采集设备在该历史时刻对应的锚点，预测采集设备在该历史时刻之后的状态数据，作为预测状态数据。而后，根据预测状态数据，确定该历史时刻对应的第二影响因子。最后，根据该历史时刻对应的第一影响因子，确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，第二影响因子用于表征采集设备按照该历史时刻对应的锚点进行行驶时的行驶效率，行驶效率越大，该历史时刻对应的锚点的奖励值越大。具体可以参考如下公式：

其中，

为采集设备按照该历史时刻对应的锚点进行行驶时得到的轨迹点到目标终点的横向距离，

为起点到目标终点的横向距离。相应的，

用于表示采集设备按照该历史时刻对应的锚点进行行驶时，在横向距离上接近目标终点的程度。

其中，

为采集设备按照该历史时刻对应的锚点进行行驶时得到的轨迹点到目标终点的纵向距离，

为起点到目标终点的纵向距离，

用于表示采集设备按照该历史时刻对应的锚点进行行驶时，在纵向距离上接近目标终点的程度。

其中，

为采集设备在按照该历史时刻对应的锚点进行行驶时得到的轨迹点上的行驶速度，

为道路场景下的最大行驶速度，

用于表示采集设备按照该历史时刻对应的锚点进行行驶时，接近最大行驶速度的程度。

可以根据采集设备的横向行驶距离、纵向行驶距离、行驶速度，确定出该历史时刻对应的锚点在行驶效率方面上的奖励值。具体可以参考如下公式：

其中，

可以用于表示该历史时刻对应的锚点在行驶效率方面上的奖励值，从该公式中可以看出，

越小，则

对应的奖励值越大，

越小，则

对应的奖励值越大，

越大，则

对应的奖励值越大。

当然，

可以根据采集设备在该锚点处的行驶方向，来确定上述

。若该行驶方向，与目标起点到目标终点的方向之间的夹角超过设定阈值，则确定

较小，若该行驶方向，与目标起点到目标终点的方向之间的夹角不超过设定阈值，则确定

较大。在本说明书实施例中，目标起点和目标终点，可以是指采集设备在执行任务的过程中的起点以及所要到达的终点位置。

可以根据采集设备在该历史时刻对应的锚点，预测采集设备在该历史时刻之后的状态数据，作为预测状态数据。而后，根据预测状态数据，确定该历史时刻对应的第三影响因子。最后，根据该历史时刻对应的第三影响因子，确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，第三影响因子用于表征采集设备按照该历史时刻对应的锚点进行行驶后的状态变化程度，状态变化程度越大，该历史时刻对应的锚点的奖励值越小。具体可以参考如下公式：

其中，

可以用于表示该历史时刻对应的锚点在状态变化程度方面上的奖励值，

可以用于表示采集设备按照该历史时刻对应的锚点进行行驶时加速度的变化率。

可以用于表示采集设备按照该历史时刻对应的锚点进行行驶时方向盘转角的变化率。从该公式中可以看出，采集设备的加速度的变化率越大，表明采集设备按照该历史时刻对应的锚点进行行驶时，平稳性越差，所以

越小，相应的，若是采集设备的方向盘转角的变化率越大，表明采集设备按照该历史时刻对应的锚点进行行驶时，平稳性越差，

越小。

当然，上述

也可以是用于表征采集设备的加速度的变化率，对采集设备平稳性的影响程度表征值，若采集设备的加速度的变化率小于设定阈值，则可以对应较低的影响程度表征值，相应的，

越大，若采集设备的加速度不小于设定阈值，则可以对应较高的影响程度表征值，相应的，

越小。

同理，上述

也可以用于表征采集设备的方向盘转角的变化率，对采集设备平稳性的影响程度表征值，其中，若采集设备的方向盘转角的变化率小于设定阈值，则可以对应较低的影响程度表征值，相应的，

越大，若采集设备的方向盘转角不小于设定阈值，则可以对应较高的影响程度表征值，相应的，

越小。

当然，可以根据上述确定奖励值的方式：

、

中的一种或多种，来确定采集设备在该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值。

需要指出的是，对控制模型进行训练所使用的奖励函数的具体形式可以有多种，只要能够表征出奖励值与上述碰撞概率呈负相关的关系、奖励值与上述行驶效率呈正相关的关系，以及奖励值与上述状态变化程度呈负相关的关系即可，本说明书不对奖励函数的具体形式进行限制。

在实际应用中，由于决策模型训练的初期可能出现生成的锚点的位置变化过大的情况，而为了防止锚点的位置变化过大，避免决策模型在训练的过程中难以进行收敛。可以确定该历史时刻对应的锚点，与决策模型在上一轮训练时所确定出的该历史时刻对应的锚点之间的变化程度表征值，并根据变化程度表征值，确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值。

这里提到的变化程度表征值可以用于表征决策模型中包含的模型参数的变化程度，实际的表现形式基于相同的数据所确定出的同一时刻下的锚点的位置变化。具体可以参考如下公式：

其中，

可以用于表示决策模型在这一轮训练时的模型参数与决策模型在上一轮训练时的模型参数的比值，

可以用于表征决策模型根据这一轮训练时的模型参数确定出的锚点，

可以用于表征决策模型根据上一轮训练时的模型参数确定出的锚点。

在确定出变化程度表征值后，可以根据预设的超参数，确定出预设的表征值范围，若确定变化程度表征值未落入预设的表征值范围，根据表征值范围，对变化程度表征值进行更新，得到更新后变化程度表征值。再根据更新后变化程度表征值以及变化程度表征值，确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值。

其中，可以确定更新后变化程度表征值对应的第一奖励值，以及变化程度表征值对应的第二奖励值，根据第一奖励值和第二奖励值中的最小奖励值，确定采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值。具体可以参考如下公式：

其中，

可以用于表示采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，

用于表示在两个数值中选取最小的数值，

用于表示限制决策模型的模型参数更新幅度的超参数，

用于表示限制决策模型的模型参数更新幅度。

例如，预设的超参数为0.2，预设的表征值范围则为0.8至1.2，若确定出变化程度表征值大于1.2，则将确定出的变化程度表征值更新为1.2，若确定出变化程度表征值小于0.8，则将确定出的变化程度表征值更新为0.8。

从该公式中可以看出，可以选取出两者之中奖励值较小的数值，并对决策模型中包含的模型参数进行调整和优化，是为了使得决策模型确定出的锚点在最差的情况下，依然可以避免与障碍物碰撞，并能够保证采集设备在行驶过程中有着较高的行驶效率以及平稳性。

在本说明书实施例中，在变化程度表征值落入预设的表征值范围时，可以以行驶轨迹对应的目标奖励值最大为优化目标，通过调整和优化上述决策模型中包含的模型参数，实现该决策模型的训练。也就是说，经过多轮的迭代训练，可以使行驶轨迹对应的目标奖励值不断增大，并收敛在一个数值范围内，进而完成决策模型的训练过程。

当然，除了以目标奖励值最大为优化目标对决策模型进行训练外，还可以以预设的目标奖励值为优化目标，通过调整决策模型中包含的模型参数，对决策模型进行训练。也就是说，在多轮迭代训练的过程中，需要使目标奖励值不断的接近该预设的奖励值，当经过多轮迭代训练后，目标奖励值在该预设的奖励值周围来回浮动，则可以确定完成对该决策模型的训练。

需要说明的是，可以同时对多个采集设备的历史行驶轨迹并行训练，以加快模型的训练速度。

从上述过程中可以看出，由于在模型的训练过程中不仅考虑到了采集设备的碰撞概率，同时也考虑到了采集设备的行驶效率以及采集设备的状态变化程度，这使得训练后的决策模型根据状态数据得到的锚点不仅能够提高行驶过程中的安全性，同时还能够提高行驶效率以及平稳性。

需要说明的是，上述模型训练的方法的执行主体也可以是服务器、电脑等设备，即，服务器可以获取到采集设备在各历史时刻下的历史状态数据，并针对每个历史时刻，将该历史时刻对应的历史状态数据输入到待训练的决策模型，确定出采集设备在该历史时刻对应的锚点，并基于确定出的锚点，对决策模型进行训练，以及将训练后的决策模型部署到无人驾驶设备中。

本说明书实施例在决策模型的训练完成后，可以将训练后的决策模型部署到无人驾驶设备中，以实现对无人驾驶设备的控制，如图3所示。

图3为本说明书实施例提供的无人驾驶设备的控制方法的流程示意图，具体包括：

S300：获取无人驾驶设备在当前时刻时的状态数据，作为当前状态数据。

S302：将所述当前状态数据输入到决策模型中，确定出所述无人驾驶设备在当前时刻对应的锚点，其中，所述锚点用于引导所述无人驾驶设备在下一时刻向所述锚点进行行驶，所述决策模型是通过上述模型训练的方法训练得到的。

S304：根据所述锚点，对所述无人驾驶设备进行控制。

在本说明书实施例中，无人驾驶设备可以通过自身设置的各种传感器（如摄像头、激光雷达等），获取无人驾驶设备在当前时刻时的状态数据，作为当前状态数据。而后，将当前状态数据输入到决策模型中，确定出无人驾驶设备在当前时刻对应的锚点。

本说明书提供的无人驾驶设备的控制方法的执行主体可以是诸如无人驾驶设备，也可以是服务器、台式电脑等终端设备。若是以诸如服务器、台式电脑等终端设备为执行主体，则终端设备可以获取到无人驾驶设备采集并上传的的状态数据，并在确定出在该时刻对应的锚点后，可以将确定出的锚点对应的数据返回给无人驾驶设备。

以上为本说明书的一个或多个实施例提供的模型训练的方法，基于同样的思路，本说明书还提供了相应的模型训练的装置，如图4所示。

图4为本说明书实施例提供的模型训练装置结构示意图，具体包括：

获取模块400，用于获取采集设备在各历史时刻下对应的状态数据，作为历史状态数据；

确定模块402，用于针对每个历史时刻，将该历史时刻对应的历史状态数据输入到待训练的决策模型中，确定所述采集设备在该历史时刻对应的锚点，其中，所述锚点用于引导所述采集设备在下一历史时刻向所述锚点进行行驶；

轨迹模块404，用于确定所述采集设备按照所述采集设备在各历史时刻对应的锚点进行行驶所得到的行驶轨迹，并确定所述行驶轨迹对应的目标奖励值；

训练模块406，用于根据所述目标奖励值，对所述决策模型进行训练。

可选地，所述轨迹模块404具体用于，针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，将各历史时刻对应的锚点的奖励值的奖励和值，作为所述目标奖励值。

可选地，所述轨迹模块404具体用于，针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，预测所述采集设备在该历史时刻之后的状态数据，作为预测状态数据，根据所述预测状态数据，预测所述采集设备在该历史时刻之后的每个其他历史时刻对应的预测奖励值，根据所述预测奖励值、所述采集设备按照上一历史时刻对应的锚点行驶至该历史时刻后的实际奖励值以及预设因子，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，其中，针对该历史时刻之后的每个其他历史时刻，若是该历史时刻距离该其他历史时刻越远，该其他历史时刻对应的预测奖励值在所述预设因子的作用下，对该历史时刻对应的锚点的奖励值的影响越小。

可选地，所述轨迹模块404具体用于，根据所述采集设备在该历史时刻对应的锚点，预测所述采集设备在该历史时刻之后的状态数据，作为预测状态数据，根据所述预测状态数据，确定该历史时刻对应的第一影响因子，根据该历史时刻对应的第一影响因子，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，所述第一影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶时，与所述采集设备周围的障碍物的碰撞概率，所述碰撞概率越大，该历史时刻对应的锚点的奖励值越小。

可选地，所述轨迹模块404具体用于，根据所述采集设备在该历史时刻对应的锚点，预测所述采集设备在该历史时刻之后的状态数据，作为预测状态数据，根据所述预测状态数据，确定该历史时刻对应的第二影响因子，根据该历史时刻对应的第一影响因子，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，所述第二影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶时的行驶效率，所述行驶效率越大，该历史时刻对应的锚点的奖励值越大。

可选地，所述轨迹模块404具体用于，根据所述采集设备在该历史时刻对应的锚点，预测所述采集设备在该历史时刻之后的状态数据，作为预测状态数据，根据所述预测状态数据，确定该历史时刻对应的第三影响因子，根据该历史时刻对应的第三影响因子，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，所述第三影响因子用于表征所述采集设备按照该历史时刻对应的锚点进行行驶后的状态变化程度，所述状态变化程度越大，该历史时刻对应的锚点的奖励值越小。

可选地，所述轨迹模块404具体用于，确定该历史时刻对应的锚点，与所述决策模型在上一轮训练时所确定出的该历史时刻对应的锚点之间的变化程度表征值，根据所述变化程度表征值，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值。

可选地，所述轨迹模块404具体用于，若确定所述变化程度表征值未落入预设的表征值范围，根据所述表征值范围，对所述变化程度表征值进行更新，得到更新后变化程度表征值，根据所述更新后变化程度表征值以及所述变化程度表征值，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值。

可选地，所述轨迹模块404具体用于，确定所述更新后变化程度表征值对应的第一奖励值，以及所述变化程度表征值对应的第二奖励值，根据所述第一奖励值和所述第二奖励值中的最小奖励值，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值。

图5为本说明书实施例提供的无人驾驶设备的控制装置结构示意图，具体包括：

获取模块500，用于获取无人驾驶设备在当前时刻时的状态数据，作为当前状态数据；

确定模块502，用于将所述当前状态数据输入到决策模型中，确定出所述无人驾驶设备在当前时刻对应的锚点，其中，所述锚点用于引导所述无人驾驶设备在下一时刻向所述锚点进行行驶，所述决策模型是通过上述模型训练的方法训练得到的；

控制模块504，用于根据所述锚点，对所述无人驾驶设备进行控制。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的模型训练的方法或上述图3提供的无人驾驶设备的控制方法。

本说明书还提供了图6所示的无人驾驶设备的结构示意图。如图6所述，在硬件层面，该无人驾驶设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的模型训练的方法或上述图3提供的无人驾驶设备的控制方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种模型训练的方法，其特征在于，用于对部署在无人驾驶设备的决策模型进行训练，包括：

针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，并将各历史时刻对应的锚点的奖励值的奖励和值，作为目标奖励值，其中，该历史时刻对应的锚点的奖励值用于表示所述采集设备按照该历史时刻对应的锚点进行行驶的合理程度，该历史时刻对应的锚点的奖励值是根据预测出的所述采集设备向该历史时刻对应的锚点进行行驶后，在该历史时刻之后的每个其他历史时刻对应的预测奖励值确定出的；

根据所述目标奖励值，对所述决策模型进行训练。

2.如权利要求1所述的方法，其特征在于，针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，具体包括：

3.如权利要求1所述的方法，其特征在于，针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，具体包括：

4.如权利要求1所述的方法，其特征在于，针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，具体包括：

5.如权利要求1所述的方法，其特征在于，针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，具体包括：

6.如权利要求1所述的方法，其特征在于，针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，具体包括：

7.如权利要求6所述的方法，其特征在于，根据所述变化程度表征值，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，具体包括：

8.如权利要求7所述的方法，其特征在于，根据所述更新后变化程度表征值以及所述变化程度表征值，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，具体包括：

9.一种无人驾驶设备的控制方法，其特征在于，包括：

将所述当前状态数据输入到决策模型中，确定出所述无人驾驶设备在当前时刻对应的锚点，其中，所述锚点用于引导所述无人驾驶设备在下一时刻向所述锚点进行行驶，所述决策模型是通过上述权利要求1~8任一所述的方法训练得到的；

根据所述锚点，对所述无人驾驶设备进行控制。

10.一种模型训练的装置，其特征在于，用于对部署在无人驾驶设备的决策模型进行训练，包括：

轨迹模块，用于针对每个历史时刻，根据所述采集设备在该历史时刻对应的锚点，确定所述采集设备按照该历史时刻对应的锚点进行行驶所得到的行驶轨迹的奖励值，作为该历史时刻对应的锚点的奖励值，并将各历史时刻对应的锚点的奖励值的奖励和值，作为目标奖励值，其中，该历史时刻对应的锚点的奖励值用于表示所述采集设备按照该历史时刻对应的锚点进行行驶的合理程度，该历史时刻对应的锚点的奖励值是根据预测出的所述采集设备向该历史时刻对应的锚点进行行驶后，在该历史时刻之后的每个其他历史时刻对应的预测奖励值确定出的；

11.一种无人驾驶设备的控制装置，其特征在于，包括：

确定模块，用于将所述当前状态数据输入到决策模型中，确定出所述无人驾驶设备在当前时刻对应的锚点，其中，所述锚点用于引导所述无人驾驶设备在下一时刻向所述锚点进行行驶，所述决策模型是通过上述权利要求1~8任一所述的方法训练得到的；

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~8或9任一项所述的方法。

13.一种无人驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~8或9任一项所述的方法。