CN114153207B

CN114153207B - 一种无人驾驶设备的控制方法及控制装置

Info

Publication number: CN114153207B
Application number: CN202111435046.2A
Authority: CN
Inventors: 熊方舟; 丁曙光; 张羽; 周奕达; 袁克彬; 李潇; 樊明宇; 任冬淳
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2024-02-27
Anticipated expiration: 2041-11-29
Also published as: CN114153207A

Abstract

本说明书公开了一种无人驾驶设备的控制方法及控制装置，涉及无人驾驶领域，无人驾驶设备可以获取综合状态信息，并针对预设的每个行为意图，根据综合状态信息，确定在行人按照该行为意图进行执行后，行人以及周围车辆的未来状态信息，并针对每个行为因素，根据在该行人按照该行为意图进行执行后，该行人和/或周围车辆的未来状态信息，确定该行为因素下该行为意图的评分，进而确定行人在每个行为因素下的权重，并根据每个行为因素下的权重以及每个行为因素下该行为意图的评分，确定该行为意图的综合评分，以及根据各行为意图的综合评分，判断行人将选择的行为意图，并对无人驾驶设备进行控制，能够在一定程度上准确地确定出行人的行为意图。

Description

一种无人驾驶设备的控制方法及控制装置

技术领域

本说明书涉及无人驾驶领域，尤其涉及一种无人驾驶设备的控制方法及控制装置。

背景技术

在无人驾驶技术中，无人驾驶设备可能需要行驶过不包含有交通灯的人行横道，而这种情况下，由于人行横道处不包含有交通灯，无人驾驶设备需要自行判断行人的行为意图，即，人行横道处的行人是会原地等待周围车辆行驶过，再走过人行横道，还是不会等待周围车辆，直接走过人行横道，来确定自身下一步的行驶策略。

无人驾驶设备需要根据判断出的行为意图，来对自身进行决策，即，若行人会等待，则无人驾驶设备可以直接行驶过人行横道，而若行人不会等待，则无人驾驶设备需要等待行人走过人行横道再行驶。

在现有技术中，往往难以预测出行人的行为意图，即，行人是会横穿还是等待，那么无人驾驶设备在对行人的行为意图不明确时，对自身进行决策，无论行人是哪种行为意图，都需要停留在原地等待。

所以，如何判断出行人的行为意图，则是一个亟待解决的问题。

发明内容

本说明书提供一种无人驾驶设备的控制方法及控制装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种无人驾驶设备的控制方法，包括：

获取综合状态信息，所述综合状态信息包括行人的状态信息以及所述行人周围车辆的状态信息；

针对预设的每个行为意图，根据所述综合状态信息，确定在所述行人按照该行为意图进行执行后，所述行人以及周围车辆的未来状态信息；

针对每个行为因素，根据在所述行人按照该行为意图进行执行后，所述行人和/或周围车辆的未来状态信息，确定该行为因素下该行为意图的评分；

确定所述行人在所述每个行为因素下的权重，并根据每个行为因素下的权重以及每个行为因素下该行为意图的评分，确定该行为意图的综合评分；

根据各行为意图的综合评分，判断所述行人将选择的行为意图，并根据判断出的行为意图，对所述无人驾驶设备进行控制。

可选地，所述行为因素包括行人安全因素、效率因素以及车辆安全因素中的至少一种；

根据在所述行人按照该行为意图进行执行后，所述行人和/或周围车辆的未来状态信息，确定该行为因素下该行为意图的评分，具体包括：

若该行为因素为行人安全因素，确定所述行人按照该行为意图进行执行后，周围车辆的刹车程度；

根据所述刹车程度，确定在所述行人安全因素下该行为意图的评分，其中，若刹车程度越小，在所述行人安全因素下该行为意图的评分越高。

可选地，根据在所述行人按照该行为意图进行执行后，所述行人和/或周围车辆的未来状态信息，确定该行为因素下该行为意图的评分，具体包括：

若该行为因素为效率因素，确定所述行人按照该行为意图进行执行后，所述行人的等待时长；

根据所述等待时长，确定在所述效率因素下该行为意图的评分，其中，若等待时长越短，在所述效率因素下该行为意图的评分越高。

可选地，根据在所述行人按照该行为意图进行执行后，所述行人以及周围车辆的未来状态信息，确定该行为因素下该行为意图的评分，具体包括：

若该行为因素为车辆安全因素，确定所述行人按照该行为意图进行执行后，周围车辆的速度变化量；

根据所述速度变化量，确定所述车辆安全因素下该行为意图的评分，其中，若所述速度变化量越少，所述车辆安全因素下该行为意图的评分越高。

可选地，确定所述行人在所述每个行为因素的权重，具体包括：

确定所述行人在所述每个行为因素的初始权重；

根据所述综合状态信息，对所述初始权重进行更新，得到每个行为因素对应的更新后权重；

根据每个行为因素下的权重以及每个行为因素下该行为意图的评分，确定该行为意图的综合评分，具体包括：

根据每个行为因素对应的更新后权重，以及每个行为因素下该行为意图的评分，确定该行为意图的综合评分。

可选地，确定所述行人在所述每个行为因素下的初始权重，具体包括：

获取确定出的每个行为因素的权重对应的初始概率分布；

从每个行为因素的权重对应的初始概率分布中采样得到每个行为因素的权重对应的采样值，以得到所述行人在所述每个行为因素下的初始权重；

根据所述综合状态信息，对所述初始权重进行更新，得到每个行为因素对应的更新后权重，具体包括：

根据每个行为因素的权重对应的采样值以及所述综合状态信息，确定所述行人采取的行为意图的概率估计值；

根据所述概率估计值以及每个行为因素的权重对应的采样值，对所述每个行为因素的权重对应的初始概率分布进行更新，得到各行为因素对应的更新后概率分布；

根据所述各更新后概率分布，确定所述每个行为因素对应的更新后权重。

可选地，根据每个行为因素的权重对应的采样值以及所述综合状态信息，确定所述行人采取的行为意图的概率估计值，具体包括：

针对每个行为意图，根据所述综合状态信息以及每个行为因素的权重对应的采样值，确定每个行为因素下该行为意图的评分；

根据每个行为因素下该行为意图的评分，确定该行为意图对应的综合评分；

根据确定出的每个行为意图对应的综合评分，确定所述行人采取的行为意图的概率估计值。

可选地，从每个行为因素的权重对应的初始概率分布中采样得到每个行为因素的权重对应的采样值，以及每个行为因素的权重对应的采样值的概率，具体包括：

从每个行为因素的权重对应的初始概率分布中采样得到若干个采样值集合，一个采样值集合中包含每个行为因素的权重对应的一种采样值；

根据每个行为因素的权重对应的采样值以及所述综合状态信息，确定所述行人采取的行为意图的概率估计值，具体包括：

针对每个采样值集合，根据该采样值集合中包含的每个行为因素的权重对应的采样值以及所述综合状态信息，确定所述行人采取的行为意图的概率估计值，作为该采样值集合对应的概率估计值；

根据所述概率估计值以及每个行为因素的权重对应的采样值，对所述每个行为因素的权重对应的初始概率分布进行更新，得到各更新后概率分布，具体包括：

针对每个行为因素，根据各采样值集合中包含的该行为因素对应的采样值以及各采样值集合对应的概率估计值，更新该行为因素对应的初始概率分布，得到该行为因素对应的更新后概率分布。

可选地，确定每个行为因素的权重对应的初始概率分布，具体包括：

获取训练样本，所述训练样本包括目标行人对应的真实行为意图；

根据针对每个行为因素的预设权重，预测所述目标行人的行为意图，作为预测意图；

以最小化所述预测意图与所述真实行为意图之间的偏差为训练目标，对所述预设权重进行调整，得到优化后权重；

根据所述优化后权重，确定所述初始概率分布。

可选地，所述训练样本中还包括所述目标行人的综合状态信息；

根据针对每个行为因素的预设权重，预测所述目标行人的行为意图，作为预测意图，具体包括：

将所述综合状态信息输入到待训练的策略网络中，以使所述策略网络预测所述目标行人的行为意图，得到预测意图，所述预设权重为所述策略网络的初始网络参数；

以最小化所述预测意图与所述真实行为意图之间的偏差为训练目标，对所述预设权重进行调整，得到优化后权重，具体包括：

以最小化所述预测意图与所述真实行为意图之间的偏差为训练目标，对所述策略网络进行训练，得到训练后的策略网络；

根据所述训练后的策略网络中包含的网络参数，确定所述优化后权重。

本说明书提供了一种无人驾驶设备的控制装置，包括：

获取模块，用于获取综合状态信息，所述综合状态信息包括行人的状态信息以及所述行人周围车辆的状态信息；

信息确定模块，用于针对预设的每个行为意图，根据所述综合状态信息，确定在所述行人按照该行为意图进行执行后，所述行人以及周围车辆的未来状态信息；

评分确定模块，用于针对每个行为因素，根据在所述行人按照该行为意图进行执行后，所述行人和/或周围车辆的未来状态信息，确定该行为因素下该行为意图的评分；

权重确定模块，用于确定所述行人在所述每个行为因素下的权重，并根据每个行为因素下的权重以及每个行为因素下该行为意图的评分，确定该行为意图的综合评分；

控制模块，用于根据各行为意图的综合评分，判断所述行人将选择的行为意图，并根据判断出的行为意图，对所述无人驾驶设备进行控制。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述无人驾驶设备的控制方法。

本说明书提供了一种无人驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述无人驾驶设备的控制方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

从上述方法中可以看出，无人驾驶设备可以获取综合状态信息，综合状态信息包括行人的状态信息以及行人周围车辆的状态信息，并针对预设的每个行为意图，根据综合状态信息，确定在行人按照该行为意图进行执行后，行人以及周围车辆的未来状态信息，并针对每个行为因素，根据在该行人按照该行为意图进行执行后，该行人和/或周围车辆的未来状态信息，确定该行为因素下该行为意图的评分，进而确定行人在每个行为因素下的权重，并根据每个行为因素下的权重以及每个行为因素下该行为意图的评分，确定该行为意图的综合评分，以及根据各行为意图的综合评分，判断行人将选择的行为意图，并根据判断出的行为意图，对无人驾驶设备进行控制。

从上述内容中可以看出，本方法可以基于不同的行为因素对行人可能会采取的行为意图进行打分，并且可以确定出行人在不同的行为因素下的权重，因此，结合行人的状态以及行为周围车辆的状态，无人驾驶设备可以确定出行人每个行为意图对应的各自的综合评分，从而确定出行人可能会选取的行为意图，所以本方法相比于现有技术能够明确的判断出行人的行为意图，从而对无人驾驶设备进行安全的控制。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种无人驾驶设备的控制方法的流程示意图；

图2为本说明书中提供的一种无人驾驶设备对行人的行为意图进行判断的场景示意图；

图3为本说明书提供的一种无人驾驶设备的控制装置示意图；

图4为本说明书提供的对应于图1的无人驾驶设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种无人驾驶设备的控制方法的流程示意图，具体包括以下步骤：

S101：获取综合状态信息，所述综合状态信息包括行人的状态信息以及所述行人周围车辆的状态信息。

S102：针对预设的每个行为意图，根据所述综合状态信息，确定在所述行人按照该行为意图进行执行后，所述行人以及周围车辆的未来状态信息。

在实际应用中，无人驾驶设备在需要通过人行横道时，往往需要对行人的行为意图进行推测，即，确定行人是想要等待，还是想要横穿，再通过推测出的行人意图，对自身进行决策，是继续行驶还是停留在原地等待行人通过人行横道。

在本说明书中，无人驾驶设备需要获取综合状态信息。这里提到的综合状态信息包括行人的状态信息以及该行人周围车辆的状态信息(可以包括当前的状态信息，也可以包括历史的状态信息)。

行人的状态信息可以表示出行人当前的行进状态，如行人的状态信息中可以包括该行人的位置、速度以及加速度，而行人周围车辆的状态信息也可以表示出周围车辆的行驶状态，如周围车辆的状态信息可以包括车辆的位置、速度以及加速度。

而后，无人驾驶设备需要针对每个预设的行为意图，根据该综合状态信息，确定在行人按照该行为意图执行后，该行人以及周围车辆的未来状态信息，也就是说，对于不同的行为意图，无人驾驶设备可以推测出在行人按照该行为意图执行后(如，在原地等待或横穿过人行横道)，该行人与周围车辆是什么样的状态。这里提到的未来状态信息可以存在多种，如周围车辆的加速度、速度、行人的等待时长等。

可以理解为存在几种行为意图，可以确定出几种行为意图之下的未来状态信息，例如，行为意图包括行为意图A(行人等待)以行为意图B(行人横穿人行横道)，则可以确定出在行人会等待的情况下行人和/或周围车辆的未来状态信息，作为行为意图A的未来状态信息，还可以确定出在行人会横穿人行横道的情况下的未来状态信息，作为行为意图B的未来状态信息，在后续过程中需要分别通过行为意图A的未来状态信息为行为意图A来评分以及通过行为意图B的未来状态信息来为行为意图B来评分。

S103：针对每个行为因素，根据在所述行人按照该行为意图进行执行后，所述行人和/或周围车辆的未来状态信息，确定该行为因素下该行为意图的评分。

在上述内容中，针对每个行为意图，确定出了行人按照该行为意图进行执行后，行人以及周围车辆的未来状态信息，则接下来可以针对该行为意图进行评分，具体的，可以针对每个行为因素，根据在该行人按照该行为意图进行执行后，该行人和/或周围车辆的未来状态信息，确定该行为因素下该行为意图的评分。

这里提到的行为因素可以是指与该行人做出的行为意图相关的因素，由于行人做出的行为意图可能与多项因素有关，因此，可以在多个行为因素下为该行为意图进行评分，并进一步结合多个行为因素下对该行为意图的评分，得出该行为意图的总评分(即，综合评分)。

例如，行为因素可以包括行人安全因素、效率因素以及车辆安全因素等，当行人在考虑采取什么样的行为意图时，可能会结合自身的安全、效率以及周围车辆的安全选取出最终的行为意图，因此行为因素可以包括行人安全因素、效率因素以及车辆安全因素这三个因素，可以分别在这三个行为因素下为该行为意图进行打分。

若该行为因素为行人安全因素，则可以确定行人按照该行为意图进行执行后，周围车辆的刹车程度，并根据该刹车程度，确定在行人安全因素下行为意图的评分，其中，若刹车程度越小，在行人安全因素下该行为意图的评分越高，刹车程度可以通过确定出的未来状态信息中周围车辆的最大刹车减速度来确定。

若该行为因素为效率因素，确定该行人按照该行为意图进行执行后，该行人的等待时长，并根据该等待时长，确定在效率因素下该行为意图的评分，其中，若等待时长越短，效率因素下该行为意图的评分越高，该等待时长用于表示行人停留在原地等待周围车辆驶过的时长。

若该行为因素为车辆安全因素，确定该行人按照该行为意图进行执行后，周围车辆的速度变化量，根据该速度变化量，确定车辆安全因素下该行为意图的评分，其中，若速度变化量越少，所述车辆安全因素下该行为意图的评分越高。

得到每个行为意图的综合评分具体可以通过如下公式进行计算：

V(a)＝w_ss(a)+w_cc(a)+w_ee(a)

其中，a为一种行为意图，V(a)为该行为意图的综合评分，s、c、e分别对应不同的行为因素，w_s为行人安全因素对应的权重，s(a)为行人安全因素下该行为意图的评分，w_c为效率因素对应的权重，c(a)为效率因素下该行为意图的评分，e(a)车辆安全因素下该行为意图的评分，w_e为车辆安全因素对应的权重。

S104：确定所述行人在所述每个行为因素下的权重，并根据每个行为因素下的权重以及每个行为因素下该行为意图的评分，确定该行为意图的综合评分。

S105：根据各行为意图的综合评分，判断所述行人将选择的行为意图，并根据判断出的行为意图，对所述无人驾驶设备进行控制。

在针对该行人，确定出每个行为因素下该行为意图的评分后，可以确定该行人在每个行为因素下的权重，并根据每个行为因素下的权重以及每个行为因素下该行为意图的评分，确定该行为意图的综合评分。确定出各行为意图的综合评分后，可以根据各行为意图的综合评分，判断该行人将选择的行为意图，并根据判断出的行为意图，对该无人驾驶设备进行控制。

也就是说，对于该行人来说，每个行为因素可以对应有各自的权重，因此，在各行为因素下对一个行为意图进行打分后，可以，确定出该行人在每个行为因素下的权重，并基于该行人在每个行为因素下的权重，对每个行为因素下该行为意图的评分进行加权求和，以得到该行为意图的综合评分，对于该行人来说，综合评分较高的行为意图，则可以确定为该行人将选择的行为意图。

其中，确定该行人在每个行为因素下的权重的方式可以存在多种。例如，可以同一针对所有行人预设出每个行为因素下的权重。再例如，可以确定出行人在每个行为因素的初始权重，并根据该行人的综合状态信息，对初始权重进行更新，得到每个行为因素对应的更新后权重，这样一来可以根据每个行为因素对应的更新后权重，以及每个行为因素下该行为意图的评分，确定该行为意图的综合评分。根据综合状态信息，确定出的每个行为因素对应的更新后权重，可以表示出该行人对于每个行为因素的侧重程度，即，可以表示出行人更倾向于哪个行为因素。

在更新初始权重时，方式也可以存在多种，例如，综合状态信息中可以包含该行人历史上的轨迹、速度、加速度等信息，通过对综合状态信息的分析，可以确定出该行人更倾向于哪一方面的行为因素，例如，若历史上该行人周围车辆行驶时，该行人轨迹中存在停留，则可以将行人安全因素的权重更新得较大，若历史上该行人周围存在车辆行驶，但是该行人依然以较大速度行进，则可以将效率因素的权重更新得较大。

当然，还可以通过其他方式对初始权重进行更新，具体的，在通过行人的综合状态信息(包括行人的历史轨迹)对行人在每个行为因素下的初始权重进行更新时，可以通过对贝叶斯更新的方式，对每个行为因素下的初始权重进行更新。

也就是说，对每个行为因素下的权重进行更新，具体可以通过对每个行为因素的权重对应的初始概率分布进行更新的方式，得到更新后的概率分布，再通过更新后的概率分布，来确定出更新后权重，具体的，可以获取确定出的每个行为因素的权重对应的初始概率分布，并从每个行为因素的权重对应的初始概率分布中采样得到每个行为因素的权重对应的采样值(该采样值可以是指初始权重)，根据每个行为因素的权重对应的采样值以及行人的历史轨迹，确定行人采取的行为意图的概率估计值，进而根据该概率估计值以及每个行为因素的权重对应的采样值，对每个行为因素的权重对应的初始概率分布进行更新，得到各行为因素对应的更新后概率分布，根据各更新后概率分布，确定每个行为因素对应的更新后权重。

也就是说，可以确定出每个行为因素对应的初始概率分布，该初始概率分可以为正态分布、高斯分布等，可以预先确定出该初始概率分布对应的均值以及方差，确定出该初始概率分布后，对于一个行为因素来说，可以从该行为因素对应的初始概率分布中采样得到该行为因素的权重的采样值，作为初始权重，而后，可以通过每个行为因素的权重的采样值，来确定出行人采取的行为意图的概率估计值，即，可以分别确定出每个行为意图对应的概率估计值，并将概率估计值最高的行为意图的概率估计值，作为行人采取的行为意图的概率估计值。进而，可以根据行人采取的行为意图的概率估计值，对分别对每个行为因素的初始概率分布进行更新，具体原理如以下公式所示：

p(w|x)∝p(x|w)*p(w)

上述公式中，p(w)为一个权重的采样值对应的先验概率，该先验概率属于初始概率分布，p(x|w)为概率估计值，p(w|x)为权重的采样值对应的后验概率，从该公式中可以看出，概率估计值可以用于对初始概率分布进行更新。

因此，需要对该概率估计值进行计算，具体的，可以针对每个行为意图，根据综合状态信息以及每个行为因素的权重对应的采样值，确定每个行为因素下该行为意图的评分，并根据每个行为因素下该行为意图的评分，确定该行为意图对应的综合评分，以及根据确定出的每个行为意图对应的综合评分，确定行人采取的行为意图的概率估计值。

这里提到的综合状态信息除了上述提到的信息外，还可以包括行人的历史轨迹等。在确定行人采取的行为意图的概率估计值时，可以先确定每个行为意图对应的综合评分，再根据每个行为意图对应的综合评分，来确定出每个行为意图对应的概率估计值，具体可以通过以下公式进行计算。

确定出每个行为意图对应的概率估计值之后，可以将概率估计值最高的行为意图的概率估计值，作为行人采取的行为意图的概率估计值，确定出行人采取的行为意图的概率估计值后，可以对初始概率分布进行更新。其中，在对该初始概率分布进行更新时，可以通过行人采取的行为意图的概率估计值，对该初始概率分布的均值以及方差进行更新，以得到更新后概率分布。

还需说明的是，在对初始概率分布进行采样，得到一个行为因素对应的权重的采样值时，由于采样得到的权重的采样值是不确定的，因此，可以对于一个行为因素对应的权重进行多次采样，得到多个不同的采样值，并通过这不同的采样值，来进初始概率分布的更新。

具体的，可以从从每个行为因素的权重对应的初始概率分布中采样得到若干个采样值集合，一个采样值集合中包含每个行为因素的权重对应的一种采样值，也就是说，一个采样值集合为一组包含有采样出的各行为因素的权重的集合，不同采样值集合中同一行为因素的权重的采样值可以不同，例如采样值集合A中可以包含行为意图A的采样值a1以及行为意图B的采样值b1，采样值集合B中可以包含行为意图A的采样值a2以及行为意图B的采样值b2。

针对每个采样值集合，可以根据该采样值集合中包含的每个行为因素的权重对应的采样值以及综合状态信息，确定行人采取的行为意图的概率估计值，作为该采样值集合对应的概率估计值，并针对每个行为因素，根据各采样值集合中包含的该行为因素对应的采样值以及各采样值集合对应的概率估计值，更新该行为因素对应的初始概率分布，得到该行为因素对应的更新后概率分布。

确定初始概率分布的方式可以存在多种，例如，可以预设出每个行为因素对应的初始概率分布。再例如，可以通过收集历史上的样本进行训练的方式，确定出该初始概率分布。具体的，可以获取训练样本，该训练样本包括目标行人(可以是指历史上收集到样本所涉及的行人)对应的真实行为意图，可以根据针对每个行为因素的预设权重，预测目标行人的意图，作为预测意图，并以最小化预测意图与真实行为意图之间的偏差为训练目标，对预设权重进行调整，得到优化后权重，进而根据优化后权重，确定初始概率分布。

也就是说，可以通过收集到的历史数据作为训练样本，以预测出最真实的行为意图为目标，对每个行为因素的权重进行优化，得到最佳的权重，得到优化后权重，并基于该优化后权重确定出初始概率分布，当然，若是在上述过程中不是对初始概率分布进行更新，而是直接对每个行为因素的权重进行更新，则该优化后权重可以直接作为初始权重。

在确定该优化后权重时，可以引入强化学习模型(如模仿学习)，具体的，可以将该综合状态信息输入到待训练的策略网络中，以使该策略网络预测目标行人的行为意图，得到预测意图，并以最小化预测意图与真实行为意图之间的偏差为训练目标，对该策略网络进行训练，得到训练后的策略网络，以及根据训练后的策略网络中包含的网络参数，确定优化后权重。

需要说明的是，在上述更新行人在每个行为因素下的权重的过程可以是迭代的，即，可以每隔设定时长对行人在每个行为因素下的权重进行更新，因此，若当前为首次对行人在每个行为因素下的权重的更新，上述初始权重可以是指最初的行人在每个行为因素下的权重，否则，该初始权重可以是指当前时刻下上一次更新后的行人在每个行为因素下的权重进行更新。

上述提到的无人驾驶设备可以是指无人车、无人机、自动配送设备等能够实现自动驾驶的设备。基于此，采用本说明书提供的无人驾驶设备的控制方法可以用于对无人驾驶设备周围的行人进行行为意图的判断，进而对无人驾驶设备进行控制，该无人驾驶设备具体可应用于通过无人设备进行配送的领域，如，使用无人驾驶设备进行快递、物流、外卖等配送的业务场景。

下面以一个完整的例子，对通过各行为因素对行为意图进行评分，进行完整的说明，如图2所示。

图2为本说明书中提供的一种无人驾驶设备对行人的行为意图进行判断的场景示意图。

从图2中可以看出，当无人驾驶设备需要通过人行横道时，人行横道处的行人也需要通过人行横道，因此，无人驾驶设备可以获取到综合状态信息，并根据该综合状态信息，在行人安全因素、效率因素以及车辆安全因素这三个行为因素下分别为不同的行为意图进行打分，并通过该行人在这三个行人因素下的权重，对三个行为因素下的打分进行加权就和。

在这一过程中，无人驾驶设备可以以不断迭代的形式，对行人在这三个行人因素下的权重进行更新，从而使得各行为因素的权重能够符合该行人对于不同行为因素的侧重，从而更准确地确定出每个行为意图的评分。

从上述方法中可以看出，可以基于不同的行为因素对行人可能会采取的行为意图进行打分，并且可以确定出行人在不同的行为因素下的权重，因此，结合行人的状态以及行为周围车辆的状态，无人驾驶设备可以确定出行人每个行为意图对应的各自的综合评分，从而确定出行人可能会选取的行为意图，所以本方法相比于现有技术能够明确的判断出行人的行为意图，从而对无人驾驶设备进行安全的控制。

并且，该行人在每个行为因素下的权重均可以通过行人的综合状态信息进行更新，从而可以确定出该行人更加侧重哪些行为因素，这样一来，通过更新后的权重确定出的各行为意图的综合评分，能够更加准确地表示出行人更倾向于的行人意图。

以上为本说明书的一个或多个实施例提供的无人驾驶设备的控制方法，基于同样的思路，本说明书还提供了相应的无人驾驶设备的控制装置，如图3所示。

图3为本说明书提供的一种无人驾驶设备的控制装置示意图，具体包括：

获取模块301，用于获取综合状态信息，所述综合状态信息包括行人的状态信息以及所述行人周围车辆的状态信息；

信息确定模块302，用于针对预设的每个行为意图，根据所述综合状态信息，确定在所述行人按照该行为意图进行执行后，所述行人以及周围车辆的未来状态信息；

评分确定模块303，用于针对每个行为因素，根据在所述行人按照该行为意图进行执行后，所述行人和/或周围车辆的未来状态信息，确定该行为因素下该行为意图的评分；

权重确定模块304，用于确定所述行人在所述每个行为因素下的权重，并根据每个行为因素下的权重以及每个行为因素下该行为意图的评分，确定该行为意图的综合评分；

控制模块305，用于根据各行为意图的综合评分，判断所述行人将选择的行为意图，并根据判断出的行为意图，对所述无人驾驶设备进行控制。

所述评分确定模块303具体用于，若该行为因素为行人安全因素，确定所述行人按照该行为意图进行执行后，周围车辆的刹车程度；根据所述刹车程度，确定在所述行人安全因素下该行为意图的评分，其中，若刹车程度越小，在所述行人安全因素下该行为意图的评分越高。

可选地，所述评分确定模块303具体用于，若该行为因素为效率因素，确定所述行人按照该行为意图进行执行后，所述行人的等待时长；根据所述等待时长，确定在所述效率因素下该行为意图的评分，其中，若等待时长越短，在所述效率因素下该行为意图的评分越高。

可选地，所述评分确定模块303具体用于，若该行为因素为车辆安全因素，确定所述行人按照该行为意图进行执行后，周围车辆的速度变化量；根据所述速度变化量，确定所述车辆安全因素下该行为意图的评分，其中，若所述速度变化量越少，所述车辆安全因素下该行为意图的评分越高。

可选地，所述权重确定模块304具体用于，确定所述行人在所述每个行为因素的初始权重；根据所述综合状态信息，对所述初始权重进行更新，得到每个行为因素对应的更新后权重；根据每个行为因素对应的更新后权重，以及每个行为因素下该行为意图的评分，确定该行为意图的综合评分。

可选地，所述权重确定模块304具体用于，获取确定出的每个行为因素的权重对应的初始概率分布；从每个行为因素的权重对应的初始概率分布中采样得到每个行为因素的权重对应的采样值，以得到所述行人在所述每个行为因素的初始权重；根据每个行为因素的权重对应的采样值以及所述综合状态信息，确定所述行人采取的行为意图的概率估计值；根据所述概率估计值以及每个行为因素的权重对应的采样值，对所述每个行为因素的权重对应的初始概率分布进行更新，得到各行为因素对应的更新后概率分布；根据所述各更新后概率分布，确定所述每个行为因素对应的更新后权重。

可选地，所述权重确定模块304具体用于，针对每个行为意图，根据所述行人的历史轨迹以及每个行为因素的权重对应的采样值，确定每个行为因素下该行为意图的评分；根据每个行为因素下该行为意图的评分，确定该行为意图对应的综合评分；根据确定出的每个行为意图对应的综合评分，确定所述行人采取的行为意图的概率估计值。

可选地，所述权重确定模块304具体用于，从每个行为因素的权重对应的初始概率分布中采样得到若干个采样值集合，一个采样值集合中包含每个行为因素的权重对应的一种采样值；针对每个采样值集合，根据该采样值集合中包含的每个行为因素的权重对应的采样值以及所述综合状态信息，确定所述行人采取的行为意图的概率估计值，作为该采样值集合对应的概率估计值；针对每个行为因素，根据各采样值集合中包含的该行为因素对应的采样值以及各采样值集合对应的概率估计值，更新该行为因素对应的初始概率分布，得到该行为因素对应的更新后概率分布。

可选地，所述权重确定模块304具体用于，获取训练样本，所述训练样本包括目标行人对应的真实行为意图；根据针对每个行为因素的预设权重，预测所述目标行人的行为意图，作为预测意图；以最小化所述预测意图与所述真实行为意图之间的偏差为训练目标，对所述预设权重进行调整，得到优化后权重；根据所述优化后权重，确定所述初始概率分布。

所述权重确定模块304具体用于，将所述综合状态信息输入到待训练的策略网络中，以使所述策略网络预测所述目标行人的行为意图，得到预测意图，所述预设权重为所述策略网络的初始网络参数；以最小化所述预测意图与所述真实行为意图之间的偏差为训练目标，对所述策略网络进行训练，得到训练后的策略网络；根据所述训练后的策略网络中包含的网络参数，确定所述优化后权重。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的无人驾驶设备的控制方法。

本说明书还提供了图4所示的无人驾驶设备的示意结构图。如图4所述，在硬件层面，该无人驾驶设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的无人驾驶设备的控制方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种无人驾驶设备的控制方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述行为因素包括行人安全因素、效率因素以及车辆安全因素中的至少一种；

3.如权利要求2所述的方法，其特征在于，根据在所述行人按照该行为意图进行执行后，所述行人和/或周围车辆的未来状态信息，确定该行为因素下该行为意图的评分，具体包括：

4.如权利要求2所述的方法，其特征在于，根据在所述行人按照该行为意图进行执行后，所述行人以及周围车辆的未来状态信息，确定该行为因素下该行为意图的评分，具体包括：

5.如权利要求1所述的方法，其特征在于，确定所述行人在所述每个行为因素下的权重，具体包括：

确定所述行人在所述每个行为因素下的初始权重；

6.如权利要求5所述的方法，其特征在于，确定所述行人在所述每个行为因素下的初始权重，具体包括：

获取确定出的每个行为因素的权重对应的初始概率分布；

根据所述各行为因素对应的更新后概率分布，确定所述每个行为因素对应的更新后权重。

7.如权利要求6所述的方法，其特征在于，根据每个行为因素的权重对应的采样值以及所述综合状态信息，确定所述行人采取的行为意图的概率估计值，具体包括：

8.如权利要求6所述的方法，其特征在于，从每个行为因素的权重对应的初始概率分布中采样得到每个行为因素的权重对应的采样值，具体包括：

9.如权利要求6所述的方法，其特征在于，确定每个行为因素的权重对应的初始概率分布，具体包括：

根据所述优化后权重，确定所述初始概率分布。

10.如权利要求9所述的方法，其特征在于，所述训练样本中还包括所述目标行人的综合状态信息；

将所述综合状态信息输入到待训练的策略网络中，以使所述策略网络预测所述目标行人的行为意图，得到预测意图，所述预设权重为所述策略网络包含的初始网络参数；

11.一种无人驾驶设备的控制装置，其特征在于，包括：

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～10任一项所述的方法。

13.一种无人驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～10任一项所述的方法。