CN114296456A

CN114296456A - 一种网络训练以及无人驾驶设备的控制方法及装置

Info

Publication number: CN114296456A
Application number: CN202111635972.4A
Authority: CN
Inventors: 熊方舟; 吴思雷; 丁曙光; 张羽; 周奕达; 任冬淳
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-08

Abstract

本说明书公开了一种网络训练以及无人驾驶设备的控制方法及装置，涉及无人驾驶领域，获取训练样本，而后，将目标物对应的状态信息与采集设备的状态信息，作为综合状态信息输入到预设的关注度网络中，得到采集设备针对目标物的关注度。针对目标物预设的每个行驶策略，基于综合状态信息，确定针对该行驶策略的评价值，进而确定各行驶策略之间在评价值上的评价值差异程度，并以最小化评价值差异程度与采集设备针对目标物的关注度之间的偏差为优化目标，对关注度网络进行训练，从而，无人驾驶设备在自动行驶时可以结合对每个目标物的关注度，进行行驶策略的选取，这样一来，无人驾驶设备周围存在不确定数目的目标物时，也可以确定出合理的行驶策略。

Description

一种网络训练以及无人驾驶设备的控制方法及装置

技术领域

本说明书涉及无人驾驶领域，尤其涉及一种网络训练以及无人驾驶设备的控制方法及装置。

背景技术

在无人驾驶技术中，无人驾驶设备行驶过程中需要按照周围行人、车辆等目标物的状态进行自身的控制，从而保证自身的行驶安全。

在现有技术中，无人驾驶设备可以通过设定的规则来确定下一步的行驶策略，但是规则需要进行人为设定，很难应对所有的情况，当然，无人驾驶设备还可以通过将周围目标物的状态输入到神经网络中，从而确定下一步的行驶策略，但是通常神经网络的输入维度是固定的，而周围目标物的数量通常不固定，这样一来，也难以对行驶策略进行判断。

所以，如何在目标物数量不固定的情况下确定出行驶策略，则是一个亟待解决的问题。

发明内容

本说明书提供一种网络训练以及无人驾驶设备的控制方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种网络训练的方法，包括：

获取训练样本，所述训练样本中包括采集设备的状态信息以及所述采集设备周围目标物的状态信息；

将所述目标物对应的状态信息与所述采集设备的状态信息，作为综合状态信息输入到预设的关注度网络中，得到所述采集设备针对所述目标物的关注度；

针对所述目标物预设的每个行驶策略，基于所述综合状态信息，确定针对该行驶策略的评价值；

确定所述各行驶策略之间在评价值上的评价值差异程度，并以最小化所述评价值差异程度与所述采集设备针对所述目标物的关注度之间的偏差为优化目标，对所述关注度网络进行训练，训练后的所述关注度网络用于确定针对目标物的关注度，以及用于根据确定出的关注度，对策略网络基于目标物所处状态确定出的各行驶策略的概率进行补偿，以得到无人驾驶设备受目标物影响下的行驶策略。

可选地，针对所述目标物预设的每个行驶策略，基于所述综合状态信息，确定针对该行驶策略的评价值，具体包括：

针对每个行驶策略，将所述综合状态信息以及该行驶策略输入到预先训练的评价网络中，确定针对该行驶策略的评价值。

可选地，训练所述策略网络，具体包括：

将所述综合状态信息输入到所述策略网络中，得到所述策略网络基于所述采集设备周围目标物所处状态确定出的各行驶策略对应的概率；

根据所述各行驶策略对应的概率以及针对所述各行驶策略的评价值，确定评价期望值；

以最大化所述评价期望值，对所述策略网络进行强化学习训练。

可选地，所述训练样本中包括：第一历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息、第二历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息、所述第一历史时刻下采集设备选取出的目标行驶策略，所述第一历史时刻下采集设备执行所述目标行驶策略所得到的实际奖励值，所述第二历史时刻为位于所述第一历史时刻之后的时刻；

训练所述评价网络，具体包括：

将第一历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息，作为第一综合状态信息，以及第二历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息，作为第二综合状态信息；

将所述第一综合状态信息以及所述目标行驶策略输入到评价网络中，得到所述目标行驶策略对应的评价值；

根据所述第二综合状态信息，确定所述第二历史时刻对应的评价值；

根据所述第二历史时刻对应的评价值与所述实际奖励值，确定目标评价值；

以所述目标行驶策略对应的评价值逼近所述目标评价值为优化目标，对所述评价网络进行强化学习训练。

可选地，根据所述第二历史时刻对应的评价值与所述实际奖励值，确定目标评价值，具体包括：

根据所述第二历史时刻对应的评价值、所述实际奖励值以及所述第二历史时刻对应的折扣因子，确定所述目标评价值，其中，针对所述第一历史时刻之后的每个历史时刻，若是所述第一历史时刻距离该历史时刻越远，该历史时刻对应的行驶策略的评价值在该历史时刻对应的折扣因子的作用下，对所述目标评价值的影响越小。

可选地，根据所述第二综合状态信息，确定所述第二历史时刻对应的评价值，具体包括：

针对每个行驶策略，将所述第二综合状态信息以及该行驶策略输入到辅助评价网络中，得到所述第二历史时刻下每个行驶策略对应的评价值；

根据所述第二历史时刻下每个行驶策略对应的评价值，确定所述第二历史时刻对应的评价值，所述辅助评价网络用于辅助所述评价网络进行强化学习训练，所述辅助评价网络与所述评价网络的网络结构相同，所述辅助评价网络在网络强化学习训练过程中的参数调整步长，小于所述评价网络在网络强化学习训练过程中的参数调整步长。

可选地，根据所述第二历史时刻下每个行驶策略对应的评价值，确定所述第二历史时刻对应的评价值，具体包括：

将所述第二综合状态信息输入到辅助策略网络中，得到所述第二历史时刻下各行驶策略对应的概率，以及将所述第二综合状态信息输入到辅助关注度网络中，得到所述第二历史时刻下针对所述采集设备周围目标物的关注度；

根据所述第二历史时刻下各行驶策略对应的概率、所述第二历史时刻下针对所述采集设备周围目标物的关注度，以及所述第二历史时刻下每个行驶策略对应的评价值，确定所述第二历史时刻对应的评价值，所述辅助策略网络用于辅助所述评价网络进行强化学习训练，所述辅助策略网络与所述策略网络的网络结构相同，所述辅助策略网络在网络强化学习训练过程中的参数调整步长，小于所述策略网络在网络强化学习训练过程中的参数调整步长，所述辅助关注度网络用于辅助所述评价网络进行强化学习训练，所述辅助关注度网络与所述关注度网络的网络结构相同，所述辅助关注度网络在网络强化学习训练过程中的参数调整步长，小于所述关注度网络在网络强化学习训练过程中的参数调整步长。

可选地，确定所述实际奖励值，具体包括：

根据所述采集设备在所述第一历史时刻下选取出目标行驶策略后下一时刻的行驶状态，确定所述实际奖励值。

可选地，根据所述采集设备在所述第一历史时刻下选取出目标行驶策略后的行驶状态，确定所述实际奖励值，具体包括：

根据所述行驶状态，确定所述采集设备在所述第一历史时刻下选取出目标行驶策略后的速度以及加速度；

根据所述行驶状态，判断所述采集设备在所述第一历史时刻下选取出目标行驶策略后是否发生碰撞，得到第一判断结果；

根据所述行驶状态，判断所述采集设备在所述第一历史时刻下选取出目标行驶策略后是否通过所述采集设备所位于的地点，得到第二判断结果，所述地点包括人行横道；

根据所述速度、加速度、所述第一判断结果以及所述第二判断结果，确定所述实际奖励值。

本说明书提供了一种无人驾驶设备的控制方法，包括：

获取当前无人驾驶设备的状态信息以及所述无人驾驶设备周围每个目标物的状态信息；

针对每个目标物，将该目标物的状态信息以及所述无人驾驶设备的状态信息作为该目标物对应的综合状态信息；

将该目标物对应的综合状态信息输入到关注度网络以及策略网络中，得到所述无人驾驶设备针对该目标物的关注度以及该目标物对应的各行驶策略的概率，该目标物对应的各行驶策略的概率为基于该目标物所处状态为所述无人驾驶设备确定出的各行驶策略对应的概率，所述关注度网络以及所述策略网络通过网络训练的方法进行训练得到；

根据所述无人驾驶设备针对各目标物的关注度，以及每个目标物对应的各行驶策略的概率，从各行驶策略中选取出目标行驶策略，并根据选取出的目标行驶策略对所述无人驾驶设备进行控制。

本说明书提供了一种网络训练的装置，包括：

获取模块，用于获取训练样本，所述训练样本中包括采集设备的状态信息以及所述采集设备周围目标物的状态信息；

综合输入模块，用于将所述目标物对应的状态信息与所述采集设备的状态信息，作为综合状态信息输入到预设的关注度网络中，得到所述采集设备针对所述目标物的关注度；

评价值确定模块，用于针对所述目标物预设的每个行驶策略，基于所述综合状态信息，确定针对该行驶策略的评价值；

训练模块，用于确定所述各行驶策略之间在评价值上的评价值差异程度，并以最小化所述评价值差异程度与所述采集设备针对所述目标物的关注度之间的偏差为优化目标，对所述关注度网络进行训练，训练后的所述关注度网络用于通过确定出的针对目标物的关注度，对策略网络基于目标物所处状态确定出的各行驶策略的概率进行补偿，以得到无人驾驶设备受目标物影响下的行驶策略。

本说明书提供了一种无人驾驶设备的控制装置，包括：

获取模块，用于获取当前无人驾驶设备的状态信息以及所述无人驾驶设备周围每个目标物的状态信息；

确定模块，用于针对每个目标物，将该目标物的状态信息以及所述无人驾驶设备的状态信息作为该目标物对应的综合状态信息；

输入模块，用于将该目标物对应的综合状态信息输入到关注度网络以及策略网络中，得到所述无人驾驶设备针对该目标物的关注度以及该目标物对应的各行驶策略的概率，该目标物对应的各行驶策略的概率为基于该目标物所处状态为所述无人驾驶设备确定出的各行驶策略对应的概率，所述关注度网络以及所述策略网络通过网络训练的方法进行训练得到；

控制模块，用于根据所述无人驾驶设备针对各目标物的关注度，以及每个目标物对应的各行驶策略的概率，从各行驶策略中选取出目标行驶策略，并根据选取出的目标行驶策略对所述无人驾驶设备进行控制。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述网络训练和无人驾驶设备的控制方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现网络训练的方法。

本说明书提供了一种无人驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现无人驾驶设备的控制方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

从上述方法中可以看出，获取训练样本，训练样本中包括采集设备的状态信息以及采集设备周围目标物的状态信息，而后，将目标物对应的状态信息与采集设备的状态信息，作为综合状态信息输入到预设的关注度网络中，得到采集设备针对目标物的关注度。针对目标物预设的每个行驶策略，基于综合状态信息，确定针对该行驶策略的评价值，进而确定各行驶策略之间在评价值上的评价值差异程度，并以最小化评价值差异程度与采集设备针对目标物的关注度之间的偏差为优化目标，对关注度网络进行训练，训练后的关注度网络用于通过确定出的针对目标物的关注度，对策略网络基于目标物所处状态确定出的各行驶策略的概率进行补偿，以得到无人驾驶设备受目标物影响下的行驶策略。

从上述方法中可以看出，本方法可以对关注度网络进行训练，从而，无人驾驶设备在自动行驶时，通过关注度网络，无人驾驶设备可以确定对每个目标物的关注度，再结合对每个目标物的关注度，进行行驶策略的选取，这样一来，无人驾驶设备周围存在多个目标物时，也可以确定出合理的行驶策略。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种网络训练的方法的流程示意图；

图2为本说明书中提供的一种对各个网络进行训练的示意图；

图3为本说明书中一种无人驾驶设备的控制方法的流程示意图；

图4为本说明书提供的一种网络训练的装置示意图；

图5为本说明书提供的一种无人驾驶设备的控制装置示意图；

图6为本说明书提供的对应于图1的电子设备示意图；

图7为本说明书提供的对应于图3的无人驾驶设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种网络训练的方法的流程示意图，具体包括以下步骤：

S101：获取训练样本，所述训练样本中包括采集设备的状态信息以及所述采集设备周围目标物的状态信息。

在无人驾驶领域中，无人驾驶设备在自动行驶时，每一时刻需要根据自身的行驶状态以及周围目标物(如行人、车辆等)的行驶状态，确定当前的行驶策略，从而对自身进行控制，并且，无人驾驶设备周围往往存在有多个目标物，因此无人驾驶设备需要在存在多个目标物的情况下确定出行驶策略，例如，在无人驾驶设备需要通过不存在交通灯的人行横道时，而人行横道处还往往存在有多个行人，在这种情况下，除了无人驾驶设备自身的状态外，无人驾驶设备还需要结合每个行人的行驶状态来确定出行驶策略，从而保证自身安全地通过人行横道。

因此，在本说明书中提供的网络训练的方法中的关注度网络以及策略网络可以共同用于在无人驾驶设备周围存在多个目标物时，为该无人驾驶设备确定行驶策略。

具体的，可以获取训练样本，该训练样本中可以包括采集设备的状态信息以及该采集设备周围目标物的状态信息，该采集设备可以是指无人驾驶设备、也可以是普通的驾驶设备，该采集设备可以用于在训练阶段实时采集周围目标物的状态信息，以对关注度网络、策略网络以及评价网络进行一定的训练，当然，该采集设备也可以是指仿真系统中虚拟的采集设备，通过仿真系统来模拟真实的驾驶环境，以得到上述采集设备的状态信息以及该采集设备周围目标物的状态信息，从而对关注度网络、策略网络以及评价网络进行训练。

采集设备的状态信息可以是指与采集设备行驶的状态相关的信息，采集设备周围目标物的状态信息可以是指与采集设备周围目标物行驶的状态相关的信息，因此、采集设备的状态信息可以包括采集设备的实时位置信息、速度大小、速度方向、加速度大小以及加速度方向等，目标物的状态信息可以包括目标物与采集设备之间的相对位置信息、速度大小、速度方向、加速度大小以及加速度方向。

S102：将所述目标物对应的状态信息与所述采集设备的状态信息，作为综合状态信息输入到预设的关注度网络中，得到所述采集设备针对所述目标物的关注度。

S103：针对所述目标物预设的每个行驶策略，基于所述综合状态信息，确定针对该行驶策略的评价值。

S104：确定所述各行驶策略之间在评价值上的评价值差异程度，并以最小化所述评价值差异程度与所述采集设备针对所述目标物的关注度之间的偏差为优化目标，对所述关注度网络进行训练，训练后的所述关注度网络用于确定出针对目标物的关注度，并根据确定出的关注度，对策略网络基于目标物所处状态确定出的各行驶策略的概率进行补偿，以得到无人驾驶设备受目标物影响下的行驶策略。

获取到上述训练样本后，可以将该训练样本中的目标物对应的状态信息与采集设备的状态信息，作为综合状态信息，并将该综合状态信息输入到预设的关注度网络中，得到采集设备针对该目标物的关注度，而后，可以针对每个行驶策略，基于该综合状态信息，得到各行驶策略对应的评价值，其中，每个行驶策略可以包括预设出的一种加速度和方向盘转角。

关注度网络可以用于确定采集设备(或无人驾驶设备)针对周围目标物的关注度，对于一个目标物来说，采集设备对该目标物的关注度越高，该目标物对采集设备在行驶策略的选取上存在的影响更大，说明采集设备(或无人驾驶设备)越需要重视该目标物。

因此，在对关注度网络进行训练时，可以确定各行驶策略之间在评价值上的评价值差异程度，并以最小化该评价值差异程度与该采集设备针对该目标物的关注度之间的偏差为优化目标，对该关注度网络进行训练。一个行驶策略的评价值可以表示出该行驶策略的好坏，若该行驶策略能够使得采集设备后续的行驶状况较好，则该行驶策略的评价值较高，反之，则该行驶策略的评价值可能会较低。

之所以以最小化该评价值差异程度与该采集设备针对该目标物的关注度之间的偏差为优化目标，是因为对于一个目标物来说，若该目标物对采集设备(如无人驾驶设备)来说的影响不大的话，那么基于该目标物的状态信息，确定出的每个行驶策略的评价值可能会差不多，而若该目标物对采集设备来说影响较大的话，则可能存在某个行驶策略的评价值相比其他行驶策略评价值高得较多，因此，可以通过各行驶策略在评价值上的差异程度，即，评价值差异程度，来对关注度网络进行优化，使得对于一个目标物来说，基于该目标物的状态信息确定出的各行驶策略的评价值差异程度越高(说明该目标物对行驶策略的影响越大)，该目标物的关注度越高，无人驾驶设备在行驶时越会考虑到该目标物。

上述提到的评价值差异程度可以通过多种方式进行确定。例如，可以确定各行驶策略对应的评价值的方差，作为该评价值差异程度，再例如，可以将各行驶策略中不同行驶策略对应的评价值之间差值均确定出来，并将各差值进行求和，作为该评价值差异程度。训练后的关注度网络可以用于确定出针对目标物的关注度，并根据确定出的关注度，对策略网络基于目标物所处状态确定出的各行驶策略的概率进行补偿，以得到无人驾驶设备受目标物影响下的行驶策略(这一部分的具体过程将在下面的无人驾驶设备的控制方法中进行说明)。

上述提到的评价值也可以通过多种方式进行确定，例如，可以通过预先训练的评价网络进行确定，即，可以针对每个行驶策略，可以将该行驶策略以及该综合状态信息输入到预先训练的评价网络中，确定针对该行驶策略的评价值。当然，也可以通过其他方式，如预先构建出存储有各综合状态信息下对应的评价值的关系表，并通过该关系表进行查询确定等。

其中，该评价网络也需要预先进行训练，该评价网络可以仅用于对上述关注度网络以及策略网络进行训练，不需要应用在无人驾驶设备实际对行驶策略的选取中。

对该评价网络训练的具体过程如下：

在对评价网络进行训练时，训练样本需要包括第一历史时刻采集设备的状态信息以及该采集设备周围目标物的状态信息，第二历史时刻采集设备的状态信息以及该采集设备周围目标物的状态信息，第一历史时刻下采集设备选取出的目标行驶策略，第一历史时刻下采集设备执行该目标行驶策略所得到的实际奖励值，第二历史时刻为位于第一历史时刻之后的时刻(可以是第一历史时刻的下一时刻)。

之所以既需要第一历史时刻下采集设备以及周围目标物的状态信息，也需要第二历史时刻下采集设备以及周围目标物的状态信息，是因为希望通过评价网络确定出的在某一时刻下针对一个行驶策略的评价值是考虑了该时刻之后的若干时刻下采集设备的行驶状态，而不仅仅是考虑在该时刻时选取出的这个行驶策略并执行后下一时刻可以立即得到的奖励(即，实际奖励值)，也就是说，对于该时刻来说，若采集设备选取了一个行驶策略为将来带来了较好的行驶状况，则希望通过该时刻的采集设备的状态信息以及目标物的状态信息确定出的该行驶策略的评价值较高。

基于此，服务器可以将第一历史时刻该目标物对应的状态信息与第一历史时刻该采集设备的状态信息，作为第一综合状态信息，以及将第二历史时刻该目标物对应的状态信息与第二历史时刻该采集设备的状态信息，作为第二综合状态信息，并将该第一综合状态信息以及目标行驶策略输入到评价网络中，得到目标行驶策略对应的评价值。

而后，可以根据第二综合状态信息，确定第二历史时刻对应的评价值，并根据第二历史时刻对应的评价值与实际奖励值，确定目标评价值，并以目标行驶策略对应的评价值逼近该目标评价值为优化目标，对该评价网络进行强化学习训练。

也就是说，对于评价网络针对第一历史时刻所选择的目标行驶策略所输出的评价值来说，除了需要使该评价网络考虑到在第一历史时刻选择了该目标行驶策略后在下一时刻所得到的真实奖励(即实际奖励值)，还需要使该评价网络能够考虑在后续时刻的评价值，这样一来，通过评价网络所确定出的评价值能够尽量对采集设备的行驶过程进行全面的考量。

还需说明的是，为了降低后续时刻的评价值对第一历史时刻下目标行驶策略的评价值的影响，在对评价网络进行训练时，可以根据第二历史时刻对应的评价值、实际奖励值以及第二历史时刻对应的折扣因子，确定目标评价值，其中，针对第一历史时刻之后的每个历史时刻，若是第一历史时刻距离该历史时刻越远，该历史时刻对应的行驶策略的评价值在该历史时刻对应的折扣因子的作用下，对目标评价值的影响越小。

上述提到的第二历史时刻对应的评价值可以根据在第二历史时刻时每个行驶策略对应的评价值来确定。并且，该第二历史时刻对应的评价值不仅可以通过评价网络自身来获得，也可以通过另一个与评价网络网络结构相同但是网络参数更新较慢的辅助评价网络来进行确定。

具体的，可以针对每个行驶策略，将第二综合状态信息以及该行驶策略输入到辅助评价网络中，得到第二历史时刻下每个行驶策略对应的评价值，并根据该第二历史时刻下每个行驶策略对应的评价值，确定该第二历史时刻对应的评价值，其中，辅助评价网络可以用于辅助上述评价网络进行强化学习训练，辅助评价网络与评价网络的网络结构相同，辅助评价网络在网络强化学习训练过程中的参数调整步长，小于评价网络在网络强化学习训练过程中的参数调整步长。

也就是说，辅助评价网络的训练过程相对于评价网络要慢一些，每次计算评价网络的目标函数并对该评价网络的网络参数进行调整需要该辅助评价网络来进行辅助，这样一来，评价网络不会快速的训练完成，能够使得评价网络在训练过程中逐渐学习到每个行驶策略在每个不同的综合状态信息下的评价值。

当然，为了减缓评价网络的训练过程，在对评价网络的训练过程中除了可以加入辅助评价网络之外，还可以加入辅助策略网络以及辅助关注度网络，如图2所示。

图2为本说明书中提供的一种对各个网络进行训练的示意图。

从图2中可以看出，辅助策略网络、辅助关注度网络以及辅助评价网络均可以用于对评价网络进行强化训练，辅助策略网络、辅助关注度网络与辅助评价网络均与各自对应的策略网络、关注度网络以及评价网络所输出的信息以及网络结果是一致的，但是在训练过程中参数调整较慢，例如，对于辅助策略网络以及策略网络来说，在策略网络的网络参数进行一次更新后，可以根据该策略网络的网络参数对辅助策略网络进行更新，将策略网络的网络参数赋予较低的权重，使得辅助策略网络的网络参数比策略网络参数更新得慢一些，辅助关注度网络以及辅助评价网络同理。而后，在训练评价网络时，再通过辅助策略网络、辅助关注度网络以及辅助评价网络的结果，来对评价网络进行强化学习训练。

具体的，可以将第二综合状态信息输入到辅助策略网络中，得到第二历史时刻下各行驶策略对应的概率，以及将第二综合状态信息输入到辅助关注度网络中，得到第二历史时刻下针对采集设备周围目标物的关注度，并根据第二历史时刻下各行驶策略对应的概率、第二历史时刻下针对采集设备周围目标物的关注度，以及第二历史时刻下每个行驶策略对应的评价值，确定第二历史时刻对应的评价值，辅助策略网络用于辅助评价网络进行强化学习训练，辅助策略网络与策略网络的网络结构相同，辅助策略网络在网络训练过程中的参数调整步长，小于策略网络在网络训练过程中的参数调整步长，辅助关注度网络用于辅助评价网络进行强化学习训练，辅助关注度网络与关注度网络的网络结构相同，辅助关注度网络在网络强化学习训练过程中的参数调整步长，小于关注度网络在网络强化学习训练过程中的参数调整步长。

上述提到的实际奖励值可以通过采集设备在第一历史时刻下选取出目标行驶策略后下一时刻该采集设备所获得的真实的奖励，因此，可以根据采集设备在第一历史时刻下选取出目标行驶策略后下一时刻的行驶状态，来确定出上述实际奖励值。

具体的，可以根据该行驶状态，确定采集设备在第一历史时刻下选取出目标行驶策略后的速度以及加速度，根据行驶状态，判断采集设备在第一历史时刻下选取出目标行驶策略后是否发生碰撞，得到第一判断结果，根据行驶状态，判断采集设备在第一历史时刻下选取出目标行驶策略后是否通过采集设备所位于的地点，得到第二判断结果，这里提到的地点包括人行横道，最后，可以根据速度、加速度、第一判断结果以及第二判断结果，确定实际奖励值。

其中，在进行实际奖励值的计算时，由于上述某些因素对无人驾驶设备来说是有益的，而某些因素则对无人驾驶设备来说，是不希望无人驾驶设备出现这样的状况。例如，对于是否发生碰撞以及加速度来说，并不希望无人驾驶设备发生碰撞，以及不希望无人驾驶设备存在急刹或者紧急启动的情况，并且由于发生碰撞是较为严重的状况，可以赋予第一判断结果较高的权重。因此，在无人驾驶设备选取了某个行驶策略后，若无人驾驶设备存在碰撞或无人驾驶设备的加速度较高，则实际奖励值可能会较低。

再例如，对于速度以及第二判断结果，若速度较高，则可以判断采集设备行驶状况较为通畅，而若第二判断结果是采集设备通过了人行横道，也说明采集设备的行驶状态较好，因此，若采集设备通过了人行横道，或是速度较高，则实际奖励值可能较高。

具体可以通过以下公式进行实际奖励值的计算：

r(s_t，a_t)＝α₁r_collision+α₂r_acceleration+α₃r_done+α₄r_speed

上述r(s_t,a_t)为t时刻下选取出a_t这个行驶策略的实际奖励值，r_collision表示是否发生碰撞，若发生碰撞可以为1，未发生碰撞可以为0，α₁为第一判断结果对应的权重，该权重可以为负，并且数值较大，当然，也可以将r_collision赋予较大数值，r_acceleration可以为加速度的数值，α₂为加速度对应的权重，该权重可以为负值，r_done表示是否通过该采集设备所处的地点(如人行横道)，α₃为对应的权重，可以为一个较大的正值，r_speed为速度的数值，α₃为速度对应的权重，该权重可以为正值。

还需说明的是，本说明书中提供的关注度网络以及策略网络可以用于无人驾驶设备处于不存在交通灯的人行横道时，进行无人驾驶设备行驶策略的选取，因此在进行网络的训练时，也可以在使真实的无人驾驶设备作为采集设备，在人行横道处行驶，获取每一时刻无人驾驶设备的状态信息、周围目标物的状态信息、无人驾驶设备的行驶策略、无人驾驶设备在该时刻采取行驶策略后所得到的真实奖励值以及下一时刻无人驾驶设备的状态信息和周围目标物的状态信息，作为训练样本进行存储。

可以每T时刻对关注度网络、策略网络以及评价网络进行一轮训练，直到无人驾驶设备出现撞车、通过人行横道的情况，或者超过一定时长未出现前两种情况下，终止这一轮训练，并且在进行了N个周期的训练后，完成对关注度网络、策略网络以及评价网络的训练。

上述详细说明了对评价网络进行训练的多种方式，下面的公式为对该评价网络进行训练的目标函数的一种示例：

其中，

上述目标函数中，D为样本集，样本集中可以包括N个训练样本，

为评价网络输出的针对tⁱ这一时刻的综合状态信息对a_t这一行驶策略的评价值，r(s_t,a_t)为获得的实际奖励值，

为辅助评价网络输出的t+1时刻下每个行驶策略对应的评价值，

为正则化项，

为辅助策略网络通过t+1时刻的一个综合状态信息得到出策略向量，该策略向量中包含每个行驶策略对应的概率，γ为折扣因子，

是指

满足辅助关注度网络对应的概率分布。

下面是策略网络的一种目标函数的一种示例：

其中，

为正则化项，

为策略向量，从上述公式中可以看出，在训练策略网络时，也需要使用到评价值，也就是说，在训练策略网络时，可以将综合状态信息输入到策略网络中，得到策略网络基于采集设备周围目标物所处状态确定出的各行驶策略对应的概率，并根据各行驶策略对应的概率以及针对各行驶策略的评价值，确定评价期望值，进而以最大化评价期望值，对该策略网络进行强化学习训练。这里提到的评价期望值，可以是指各行驶策略对应的概率与针对各行驶策略的评价值的加权求和结果，即，通过每个行驶策略的评价值与相应行驶策略对应的概率相乘，并求得的和值，通过最大化该和值的方式，对策略网络进行强化学习训练，以使评价值越大的行驶策略，该行驶策略的对应的概率越高。

下面的目标函数为关注度网络的目标函数的一种示例：

其中，J_C(ω)可以理解为关注度网络所输出的关注度，

为tⁱ这一时刻每个行驶策略对应的评价值的方差。

上述网络训练的方法主要是在说明对关注度网络、策略网络以及评价网络训练的过程，而关注度网络以及策略网络需要应用在对无人驾驶设备实际进行自动驾驶时行驶策略的选取，因此，下面对本说明书提供的一种无人驾驶设备的控制方法进行说明，如图3所示。

图3为本说明书中一种无人驾驶设备的控制方法的流程示意图，具体包括以下步骤：

S301：获取当前无人驾驶设备的状态信息以及所述无人驾驶设备周围每个目标物的状态信息。

S302：针对每个目标物，将该目标物的状态信息以及所述无人驾驶设备的状态信息作为该目标物对应的综合状态信息。

S303：将该目标物对应的综合状态信息输入到关注度网络以及策略网络中，得到所述无人驾驶设备针对该目标物的关注度以及该目标物对应的各行驶策略的概率，该目标物对应的各行驶策略的概率为基于该目标物所处状态为所述无人驾驶设备确定出的各行驶策略对应的概率，所述关注度网络以及所述策略网络通过网络训练的方法进行训练得到。

S304：根据所述无人驾驶设备针对各目标物的关注度，以及每个目标物对应的各行驶策略的概率，从各行驶策略中选取出目标行驶策略，并根据选取出的目标行驶策略对所述无人驾驶设备进行控制。

在确定无人驾驶设备的行驶策略时，可以仅通过关注度网络以及策略网络来进行行驶策略的选取，具体的，无人驾驶设备可以获取当前自身的状态信息，以及周围每个目标物的状态信息，并针对每个目标物，将该目标物的状态信息以及该无人驾驶设备的无人驾驶设备的状态信息作为该目标物对应的综合状态信息。

而后，将该目标物对应的综合状态信息输入到关注度网络以及策略网络中，得到无人驾驶设备针对该目标物的关注度以及该目标物对应的各行驶策略的概率，该目标物对应的各行驶策略的概率为基于该目标物所处状态为无人驾驶设备确定出的各行驶策略对应的概率。

根据无人驾驶设备针对各目标物的关注度，以及每个目标物对应的各行驶策略的概率(可以通过无人驾驶设备针对各目标物的关注度，对每个目标物对应的各行驶策略的概率进行补偿，从而确定出目标行驶策略)，从各行驶策略中选取出目标行驶策略，并根据选取出的目标行驶策略对无人驾驶设备进行控制，其中，关注度网络以及策略网络通过上述网络训练的方法进行训练得到。

其中，策略网络输出的可以是策略向量，该策略向量中包含了每个行驶策略对应的概率，关注度网络输出的即为关注度，针对每个目标物，可以确定出该目标物对应的策略向量，从而得到基于该目标物所处状态为无人驾驶设备确定出的各行驶策略对应的概率。

可以得到各目标物对应的策略向量以及各目标物对应的关注度，并将各目标物对应的策略向量进行汇总，得到策略矩阵P＝(p₁,…,p_N)，以及将各目标物对应的关注度进行汇总，得到关注度向量c＝(c₁,…,c_N)，将策略矩阵与关注度向量进行点乘以及归一化，可以得到综合了各目标物所处状态的每个行驶策略对应的概率：

p_out＝softmax(P·c^T)

其中，p_out包含有每个行驶策略对应的概率，可以将概率最高的行驶策略选取出，作为目标行驶策略，以使无人驾驶设备根据目标行驶策略对自身进行控制。需要说明的是，可以预设出多个行驶策略，一个策略向量中包含针对每个行驶策略确定出的概率，通过每个目标物对应的策略向量以及该目标物对应的关注度，能够确定出综合各目标物来确定出每个行驶策略最终的概率，来进行行驶策略的选取。

需要说明的是，本说明书中的网络训练的方法以及无人驾驶设备的控制方法基于强化学习的基础上实现，即，本说明书中的评价网络、策略网络以及关注度网络是基于强化学习的框架实现的，并且，本说明书中的训练样本来源于构建的经验池，该经验池通过驾驶设备(如无人驾驶设备)或仿真出的驾驶设备在道路(或仿真出的道路环境)中行驶，得到每一时刻驾驶设备的状态信息、行人的状态信息、计算出的奖励值以及下一时刻的状态信息，从而将这些信息作为一条经验信息存储在经验池中，每个训练样本可以通过经验池中的一条经验信息获得。

上述提到的无人驾驶设备可以是指无人车、无人机、自动配送设备等能够实现自动驾驶的设备。基于此，采用本说明书提供的网络训练以及无人驾驶设备的方法可以用于为无人驾驶设备在周围存在多个目标物时进行行驶策略的选取，该无人驾驶设备具体可应用于通过无人驾驶设备进行配送的领域，如，使用无人驾驶设备进行快递、物流、外卖等配送的业务场景。

从上述方法中可以看出，可以对关注度网络进行训练，在进行训练时，通过以最小化评价值差异程度与采集设备针对目标物的关注度之间的偏差的方式，使得对行驶策略影响较大的目标物，关注度网络针对该目标物输出的关注度可以较高，从而，无人驾驶设备在自动行驶时，通过关注度网络，无人驾驶设备可以确定对每个目标物的关注度，再结合对每个目标物的关注度，进行行驶策略的选取，这样一来，无人驾驶设备周围存在多个目标物时，也可以确定出合理的行驶策略。

以上为本说明书的一个或多个实施例提供的网络训练以及无人驾驶设备控制方法，基于同样的思路，本说明书还提供了相应的网络训练以及无人驾驶设备控制装置，如图4、图5所示。

图4为本说明书提供的一种网络训练的装置示意图，具体包括：

获取模块401，用于获取训练样本，所述训练样本中包括采集设备的状态信息以及所述采集设备周围目标物的状态信息；

综合输入模块402，用于将所述目标物对应的状态信息与所述采集设备的状态信息，作为综合状态信息输入到预设的关注度网络中，得到所述采集设备针对所述目标物的关注度；

评价值确定模块403，用于针对所述目标物预设的每个行驶策略，基于所述综合状态信息，确定针对该行驶策略的评价值；

训练模块404，用于确定所述各行驶策略之间在评价值上的评价值差异程度，并以最小化所述评价值差异程度与所述采集设备针对所述目标物的关注度之间的偏差为优化目标，对所述关注度网络进行训练，训练后的所述关注度网络用于通过确定出的针对目标物的关注度，对策略网络基于目标物所处状态确定出的各行驶策略的概率进行补偿，以得到无人驾驶设备受目标物影响下的行驶策略。

可选地，所述评价值确定模块403具体用于，针对每个行驶策略，将所述综合状态信息以及该行驶策略输入到预先训练的评价网络中，确定针对该行驶策略的评价值。

可选地，所述训练模块404还用于，将所述综合状态信息输入到所述策略网络中，得到所述策略网络基于所述采集设备周围目标物所处状态确定出的各行驶策略对应的概率；根据所述各行驶策略对应的概率以及针对所述各行驶策略的评价值，确定评价期望值；以最大化所述评价期望值，对所述策略网络进行强化学习训练。

所述训练模块404具体用于，将第一历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息，作为第一综合状态信息，以及第二历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息，作为第二综合状态信息；将所述第一综合状态信息以及所述目标行驶策略输入到评价网络中，得到所述目标行驶策略对应的评价值；根据所述第二综合状态信息，确定所述第二历史时刻对应的评价值；根据所述第二历史时刻对应的评价值与所述实际奖励值，确定目标评价值；以所述目标行驶策略对应的评价值逼近所述目标评价值为优化目标，对所述评价网络进行强化学习训练。

可选地，所述训练模块404具体用于，根据所述第二历史时刻对应的评价值、所述实际奖励值以及所述第二历史时刻对应的折扣因子，确定所述目标评价值，其中，针对所述第一历史时刻之后的每个历史时刻，若是所述第一历史时刻距离该历史时刻越远，该历史时刻对应的行驶策略的评价值在该历史时刻对应的折扣因子的作用下，对所述目标评价值的影响越小。

可选地，所述训练模块404具体用于，针对每个行驶策略，将所述第二综合状态信息以及该行驶策略输入到辅助评价网络中，得到所述第二历史时刻下每个行驶策略对应的评价值；根据所述第二历史时刻下每个行驶策略对应的评价值，确定所述第二历史时刻对应的评价值，所述辅助评价网络用于辅助所述评价网络进行强化学习训练，所述辅助评价网络与所述评价网络的网络结构相同，所述辅助评价网络在网络强化学习训练过程中的参数调整步长，小于所述评价网络在网络强化学习训练过程中的参数调整步长。

可选地，所述训练模块404具体用于，将所述第二综合状态信息输入到辅助策略网络中，得到所述第二历史时刻下各行驶策略对应的概率，以及将所述第二综合状态信息输入到辅助关注度网络中，得到所述第二历史时刻下针对所述采集设备周围目标物的关注度；根据所述第二历史时刻下各行驶策略对应的概率、所述第二历史时刻下针对所述采集设备周围目标物的关注度，以及所述第二历史时刻下每个行驶策略对应的评价值，确定所述第二历史时刻对应的评价值，所述辅助策略网络用于辅助所述评价网络进行强化学习训练，所述辅助策略网络与所述策略网络的网络结构相同，所述辅助策略网络在网络强化学习训练过程中的参数调整步长，小于所述策略网络在网络强化学习训练过程中的参数调整步长，所述辅助关注度网络用于辅助所述评价网络进行强化学习训练，所述辅助关注度网络与所述关注度网络的网络结构相同，所述辅助关注度网络在网络强化学习训练过程中的参数调整步长，小于所述关注度网络在网络强化学习训练过程中的参数调整步长。

可选地，所述训练模块404具体用于，根据所述采集设备在所述第一历史时刻下选取出目标行驶策略后下一时刻的行驶状态，确定所述实际奖励值。

可选地，所述训练模块404具体用于，根据所述行驶状态，确定所述采集设备在所述第一历史时刻下选取出目标行驶策略后的速度以及加速度；根据所述行驶状态，判断所述采集设备在所述第一历史时刻下选取出目标行驶策略后是否发生碰撞，得到第一判断结果；根据所述行驶状态，判断所述采集设备在所述第一历史时刻下选取出目标行驶策略后是否通过所述采集设备所位于的地点，得到第二判断结果，所述地点包括人行横道；根据所述速度、加速度、所述第一判断结果以及所述第二判断结果，确定所述实际奖励值。

图5为本说明书提供的一种无人驾驶设备的控制装置示意图，具体包括：

获取模块501，用于获取当前无人驾驶设备的状态信息以及所述无人驾驶设备周围每个目标物的状态信息；

确定模块502，用于针对每个目标物，将该目标物的状态信息以及所述无人驾驶设备的状态信息作为该目标物对应的综合状态信息；

输入模块503，用于将该目标物对应的综合状态信息输入到关注度网络以及策略网络中，得到所述无人驾驶设备针对该目标物的关注度以及该目标物对应的各行驶策略的概率，该目标物对应的各行驶策略的概率为基于该目标物所处状态为所述无人驾驶设备确定出的各行驶策略对应的概率，所述关注度网络以及所述策略网络通过网络训练的方法进行训练得到；

控制模块504，用于根据所述无人驾驶设备针对各目标物的关注度，以及每个目标物对应的各行驶策略的概率，从各行驶策略中选取出目标行驶策略，并根据选取出的目标行驶策略对所述无人驾驶设备进行控制。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1或图3所述的网络训练和无人驾驶设备的控制方法。

本说明书还提供了图6、7所示的电子设备以及无人驾驶设备的示意结构图。如图6、7所述，在硬件层面，该电子设备以及无人驾驶设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1或图3所述的网络训练和无人驾驶设备的控制方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种网络训练的方法，其特征在于，包括：

确定所述各行驶策略之间在评价值上的评价值差异程度，并以最小化所述评价值差异程度与所述采集设备针对所述目标物的关注度之间的偏差为优化目标，对所述关注度网络进行训练，训练后的所述关注度网络用于确定针对目标物的关注度，以及用于根据确定出的关注度，对策略网络基于目标物所处状态确定的各行驶策略的概率进行补偿，以得到无人驾驶设备受目标物影响下的行驶策略。

2.如权利要求1所述的方法，其特征在于，针对所述目标物预设的每个行驶策略，基于所述综合状态信息，确定针对该行驶策略的评价值，具体包括：

3.如权利要求1所述的方法，其特征在于，训练所述策略网络，具体包括：

4.如权利要求2所述的方法，其特征在于，所述训练样本中包括：第一历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息、第二历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息、所述第一历史时刻下采集设备选取出的目标行驶策略，所述第一历史时刻下采集设备执行所述目标行驶策略所得到的实际奖励值，所述第二历史时刻为位于所述第一历史时刻之后的时刻；

训练所述评价网络，具体包括：

5.如权利要求4所述的方法，其特征在于，根据所述第二历史时刻对应的评价值与所述实际奖励值，确定目标评价值，具体包括：

6.如权利要求4所述的方法，其特征在于，根据所述第二综合状态信息，确定所述第二历史时刻对应的评价值，具体包括：

7.如权利要求6所述的方法，其特征在于，根据所述第二历史时刻下每个行驶策略对应的评价值，确定所述第二历史时刻对应的评价值，具体包括：

8.如权利要求4所述的方法，其特征在于，确定所述实际奖励值，具体包括：

9.如权利要求8所述的方法，其特征在于，根据所述采集设备在所述第一历史时刻下选取出目标行驶策略后的行驶状态，确定所述实际奖励值，具体包括：

10.一种无人驾驶设备的控制方法，其特征在于，包括：

将该目标物对应的综合状态信息输入到关注度网络以及策略网络中，得到所述无人驾驶设备针对该目标物的关注度以及该目标物对应的各行驶策略的概率，该目标物对应的各行驶策略的概率为基于该目标物所处状态为所述无人驾驶设备确定出的各行驶策略对应的概率，所述关注度网络以及所述策略网络通过权利要求1～9任一项所述的方法进行训练得到；

11.一种网络训练的装置，其特征在于，包括：

训练模块，用于确定所述各行驶策略之间在评价值上的评价值差异程度，并以最小化所述评价值差异程度与所述采集设备针对所述目标物的关注度之间的偏差为优化目标，对所述关注度网络进行训练，训练后的所述关注度网络用于通过确定出的针对目标物的关注度，以及用于根据确定出的关注度，对策略网络基于目标物所处状态确定出的各行驶策略的概率进行补偿，以得到无人驾驶设备受目标物影响下的行驶策略。

12.一种无人驾驶设备的控制装置，其特征在于，包括：

13.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～9或10任一项所述的方法。

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～9任一项所述的方法。

15.一种无人驾驶设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求10任一项所述的方法。