CN110659796B

CN110659796B - 一种可充电群车智能中的数据采集方法

Info

Publication number: CN110659796B
Application number: CN201910731819.8A
Authority: CN
Inventors: 刘驰; 戴子彭; 辛高枫
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2022-07-08
Anticipated expiration: 2039-08-08
Also published as: CN110659796A

Abstract

本发明公开了一种可充电群车智能中的数据采集方法，本发明的e‑Divert框架结合Ape‑X机制、MADDPG算法、带有优先级与LSTM的经验复用机制，是一种新的分布式多智能体强化学习算法,带有优先级与LSTM的经验复用机制为本发明的创新点之一，机制整合了优先级经验复用机制和LSTM机制，实现了模型能够对N步时间序列的建模，并对环境进行有效地探索与优化,能够更好地学习多个无人车之间的竞争与合作机制，并有效地自动充电续航，从而提高能量利用率、数据采集率、采集广度，并同时有效地降低能耗比例。

Description

一种可充电群车智能中的数据采集方法

技术领域

本发明属于可充电群车智能技术领域，尤其涉及一种可充电群车智能中的数据采集方法，本发明具体应用于无人车导航与数据采集方面的工作领域。

背景技术

目前，群车智能已经得到越来越好的发展。不同于需要专业人士进行的传统采集方法，群车智能考虑采用无人车这样的无人设备进行更加有效的数据采集。这些无人车一般都装载了高精度传感器，能够比普通的采集设备(如手机及其他可穿戴设备)采集更大范围的数据。为了更好地使用无人车，考虑在指定的地点建立充电站，但是无人车需要自己决定什么时候暂时停止采集大量的数据，而是去往充电站进行补给。显然，这与绝大多数强化学习问题一样，也是一个决策问题。

中国专利申请号为2012103952498的专利公开了一种充电桩信息采集及装置，涉及交通信息处理领域，能够实时向浮动车提供预设充电桩信息，满足浮动车对充电桩信息的需求。一种充电桩信息采集方法，该方法包括：接收至少一辆浮动车发送的全球定位系统GPS信息，所述GPS信息携带有所述浮动车在不同位置的停留时间；若根据所述GPS信息确定至少一辆所述浮动车停留在同一位置的时间大于第一预设阈值，则根据所述位置更新电子地图上的预设充电桩，以实时向所述浮动车提供所述预设充电桩信息。申请号2017100657318的专利公开了一种群互联控制电动汽车充电监控系统及方法，包括：群管理控制层、群功率调度层、群功率输出层；群管理控制层与群功率调度层和群功率输出层分别通信；所述群管理控制层根据群功率调度层计算的数据向群功率输出层发送充电控制指令，所述群功率输出层将充电车辆的实时数据反馈给群管理控制层。综上所述，随着深度Q网络(DQN)在围棋与游戏上取得重大成就，一直以来被学界忽视的强化学习(Reinforcement learning)方法重新登上历史舞台，被认为是解决复杂序列下的抉择问题的首选方法。DQN是传统Q-learning方法与深度神经网络的结合，并且首次引入了经验缓冲机制，使模型能够从一连串的图片帧中来学习不同的Atari游戏，最终能够达到人类的表现甚至超过人类。自此，为了提高Q网络的效果，诞生了众多的延伸工作来提高速度和稳定性。例如，优先级经验复用机制提高了复用过程中的数据利用率，能够更多次地使用更有用的数据。此后，强化学习方法成功延伸在了连续空间下的动作，诞生了新的通用actor-critic模型“DDPG”。最近，Open AI团队又提出了强化学习在多智能体问题下的延伸模型“MADDPG”。算法能够让当前训练的智能体实时地从其他的智能体那里得到梯度优化信息，并反馈在自己的网络参数中，同时这个框架是一个非中心化的分布式训练框架。实验证明，MADDPG方法在多智能体合作与竞争的业务场景中，效果远远好于中心控制的DDPG方法，因此也被作为多智能体DRL方法中的首选。现有技术的缺点：是必须建立在中心控制的基础上，解决的是群车智能问题下的底层动态网络，这在实际的业务场景中可能不够实用。其次，没有考虑到使用无人车来进行更可靠与高效的数据采集服务。尽管Guizani教授的成果考虑到了使用无人设备进行采集，但并没有考虑到充电机制的问题，而后者才是在现实业务场景中对于无人车来讲最大的瓶颈。缺点是：非中心控制；未使用无人车；未考虑充电机制。

发明内容

本发明的目的在于提供一种能够克服上述技术问题的可充电群车智能中的数据采集方法，本发明所述方法包括以下步骤：

步骤1，运行单个Learner，单个Learner包含一个提取空间信息的CNN网络，多个actor-critic网络；在Learner里，每一个无人车v，都存在和DDPG方法定义相同的actor网络

critic网络

以及他们各自的目标actor网络π′^v(.)、目标critic网络Q′^v(.)，t表示时间顺序，s_t表示t时无人车v当前所处业务场景的状态，

表示无人车v在t时的行为，

表示t时无人车v在当前业务场景中能够观察到的状态。每个无人车v根据经过CNN提取空间信息的小批量经验数据，更新各自对应的actor-critic网络：

步骤1.1，初始化折扣因子γ以及参数更新比例τ；

步骤1.2，随机初始化每一个无人车v的参数

与

分别初始化critic网络

以及actor网络

步骤1.3，初始化每一个无人车v两个目标网络的参数

步骤1.4，初始化每一个无人车v的全局经验缓冲池B^v；

步骤1.5，带有优先级与LSTM的经验复用机制，当无人车v的B^v中经验数据数量大于等于H，执行所述机制进行采样，否则重新开始循环；

步骤1.5.1，预先设置好LSTM状态序列长度ε与奖励序列长度N；

步骤1.5.2，每一个无人车v从各自对应的优先级经验重播缓冲区中，根据优先级，并按相同索引t，进行小批量采样；

步骤1.5.3，使用所述机制与N步奖励机制同时对当前的采样出的这批经验数据进行处理；

步骤1.5.3.1，计算每个无人车v，N步连续状态对应的奖励

计算公式如下：

折扣因子γ∈[0，1]；

步骤1.5.3.2，得到每个无人车v的全局缓冲池B^v收集到的每一个索引t对应的两条观察状态序列

与

步骤1.5.3.3，在LSTM网络的帮助下，提取出各自的时序信息

步骤1.5.3.4，使用

代替状态转移组

步骤1.6，CNN网络提取空间信息，CNN网络的卷积层和全连接层层数根据情况调节。

步骤1.6.1，接收步骤1.5生成的小批量经验数据作为输入；

步骤1.6.2，输入经过多个卷积层和全连接层处理，提取每个无人车v当前时序信息

的空间信息；

步骤1.6.3，将处理后的数据传递给Learner里的actor-critic网络；

步骤1.7，actor-critic更新网络权重，每一个无人车v根据经过CNN提取空间信息的小批量经验数据，更新各自对应的actor-critic网络；

步骤1.7.1，接收经过CNN提取空间信息的小批量经验数据；

步骤1.7.2，每个无人车v的actor-critic网络根据对应的小批量经验数据生成自己的目标价值

计算公式如下：

其中

π′^v(.)的输入为经过带有优先级与LSTM的经验复用机制和CNN网络提取的空间信息，Q′^v表示目标critic网络，折扣因子γ∈[0，1]，

为无人车v在t时N步连续状态对应的奖励；

步骤1.7.3，通过如下最小化公式，来相应地更新无人车v的critic网络的权重，所采用的更新方法是标准的梯度下降法：

步骤1.7.4，通过如下最小化公式，来相应地更新无人车v的actor网络的权重，所采用的更新方法是标准的梯度下降法：

步骤1.7.5，使用如下软更新的方法相应的更新每个无人车v的目标critic网络权重。

τ∈[0，1]是参数更新比例；

步骤1.7.6，使用如下软更新的方法相应的更新每个无人车v的目标actor网络权重；

步骤1.8，重新计算本次采样的小批量经验数据每一个状态转移组的时序差分值，简称TD-error，使用如下公式：

然后计算当前状态转移组的优先级权重，使用如下公式：

指数α是一个超参数，体现了无人设备v在训练抽样过程中对整个优先级值的重视程度，而α＝0自然就表示根据均匀分布进行抽样；

步骤1.9，如果无人车v的全局经验缓冲池B^v被填满，移除最过时的经验；

步骤1.10，步骤1.5到1.9重复M次，M为episode的数量。

步骤2，Worker生成经验，包含多个生成经验的Worker，每个生成经验的Worker在回合开始时完全相同，所有Worker之间、所有Worker与Learner之间异步地执行任务，生成经验数据，存储到本地经验缓冲池中，然后转移到对应的全局经验缓冲池中；

步骤2.1，每一个任务回合中，初始化每一个无人车v的本地环境，得到全局初始状态s₀。

步骤2.2，初始化每一个生成经验的Worker对应的本地经验缓冲池B，负责当前本地环境内每一个状态转移组的收集；

步骤2.3，从Learner中拷贝每一个无人车v对应actor的最新参数

初始化每一个无人车v的本地策略π^v(·)用于行为决策；

步骤2.4，每一个无人车v从本地环境中获取的对当前状态的观察

来决策出行为

为了进行更好的探索，在策略分布中加入了随机的噪声；

步骤2.5，环境执行每一个无人车的行为

输出全局奖励r_t，并得到新的状态s_t+1；

步骤2.6，每一个无人车v根据全局奖励r_t和s_t+1，得到自己的即时奖励

以及对下一步本地环境的观察

步骤2.7，首先计算时序差分值，简称TD-error，使用如下公式：

然后计算当前状态转移组的优先级权重，使用如下公式：

其中，指数α是一个超参数，体现了无人设备v在训练抽样过程中对整个优先级值的重视程度，而α＝0自然就表示根据均匀分布进行抽样；

步骤2.8，将每个无人车v生成的本地状态转移组

存储在对应的本地经验缓冲池B中，j标记了当前生成经验的Worker的编号；

步骤2.9，每当B被填满时，所有的数据都会被送往每个无人车v对应的全局缓冲池B^v中；

步骤2.9.1，从每个无人车v对应的本地经验缓冲池里获取产生的状态转移组

状态转移组优先级权重

生成经验的Worker的编号j、状态转移组的索引t(表示被放入B^v的时间顺序)，即经验数据

表示无人车v在t时进行行为

获得的奖励；

步骤2.9.2，将

存入每个无人车v对应的全局缓冲池B^v的优先级经验重播缓冲区内，并按优先级排序；

步骤2.10，重复步骤2.4到2.9，重复T次，T表示每一回合的数据收集任务都会进行T步；

步骤2.11，重复步骤2.1到2.10，重复M次，M表示数据收集任务经历了M次回合。

需要说明的是，本发明的一种分布式控制框架-“e-Divert”，框架结合Ape-X机制、MADDPG算法、带有优先级与LSTM的经验复用机制，是一种新的分布式多智能体强化学习算法，带有优先级与LSTM的经验复用机制为本发明的创新点之一；本发明的“e-Divert”考虑无人车电量有限并引入充电站的使用，解决了在考虑能量利用率与非中心化机制下的无人车自动导航与数据采集方面的问题，能够有效地自动充电续航，从而提高能量利用率、数据采集率、采集广度，并同时有效地降低能耗比例；“e-Divert”是一个分布式多智能体强化学习算法。“e-Divert”包含单个learner、多个生成经验的Worker、多个全局经验缓冲池，Learner与Worker之间、Worker与Worker之间通过各自的进程异步地执行任务。Learner由一个提供空间信息的CNN、多个actor-critic、带有优先级与LSTM的经验复用机制组成；每个生成经验的Worker定期复制Learner里，所有actor-critic，所有生成经验的Worker初始完全相同，e-Divert能够非常有效地提取业务场景中的时空特征，以此来提高训练收敛的速度以及最后经过训练的无人车在群车智能场景中数据采集方面的表现，本发明的带有优先级与LSTM的经验复用机制整合了优先级经验复用机制与LSTM机制，实现了模型能够对N步时间序列的建模，并对环境进行了有效的探索与优化。

本发明的优越效果是：

解决了无人车导航与数据采集问题并重新定义了多用户任务分配的机制，通过利用人群移动规律来安排参与设备工作，进行综合型的城市感知任务，首次从能量利用率的视角下利用无人设备任务分配系统来解决群车智能中的数据采集问题。

本发明解决了在考虑能量利用率与非中心化机制下的无人车自动导航与数据采集方面的问题的同时，也考虑了电量有限并引入充电站的使用，同时在给定的业务背景下能够充分的提取环境中的时空序列化特征，并且能够更好地学习多个无人车之间的竞争与合作机制，并有效地自动充电续航，从而提高能量利用率、数据采集率、采集广度，并有效地降低能耗比例。

本发明涉及的缩略词和关键术语定义如下所示：

Q-learning：一种强化学习算法。

DQN：一种结合深度学习的强化学习算法。

DDPG：一种结合深度学习的强化学习算法。

MADDPG：一种结合深度学习的强化学习算法。

DRL：Deep Reinforcement Learning，深度强化学习。

Open AI：由诸多硅谷大亨联合建立的人工智能非营利组织。

e-Divert：本发明提出的分布式多智能体强化学习算法。

CNN：Convolutional Neural Network，卷积神经网络，是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。

DNN：Deep Neural Network，深度神经网络，是近几年在工业界和学术界新型的一个机器学习领域的流行话题。

RNN：Recurrent Neural Network，循环神经网络。

LSTM：Long Short-Term Memory，长短期记忆网络，是一种时间循环神经网络。

Actor-Critic：结合了Policy Gradient(Actor)和Function Approximation(Critic)的强化学习算法，Actor基于概率选行为，Critic基于Actor的行为评判行为的得分，Actor根据Critic的评分修改选行为的概率。

PoI：Point of Interset，中文翻译为“兴趣点”，在地理信息系统中，一个PoI能够是一栋房子、一个商铺、一个邮筒、一个公交站等。本发明中指一个数据采集点。

Ape-X：一种深度强化学习网络训练框架。

off-policy：强化学习的一种概念。

TD-error：Temporal Difference error，时序差分值，是对不同时间的状态的价值估计的差异。

episode：深度强化学习的一种概念，活动从一次开始到结束称为一个episode。

ReLU：Rectified Linear Unit，线性整流函数，又称修正线性单元，是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的的非线性函数。

Batch normalization：批标准化，是对具有深度结构的人工神经网络进行优化的方法之一，通过减少内部协变量移位加速深度网络训练。

Layer normalization：是对具有深度结构的人工神经网络进行优化的方法之一。

Dropout：随机失活，是对具有深度结构的人工神经网络进行优化的方法之一。

附图说明

图1是无人车在城市群车智能任务中的使用示意图；

图2是本发明所述方法的分布式控制框架“e-Divert”原理图；

图3是本发明所述方法的带有优先级与LSTM的经验复用机制原理图；

图4是本发明所述方法的传感器感知范围对四个评价指标的影响示意图；

图5是本发明所述方法的无人车数量对四个评价指标的影响示意图；

图6是本发明所述方法的充电站数量对四个评价指标的影响示意图；

图7是本发明所述方法的充电功率(速率)对四个评价指标的影响示意图。

具体实施方式

下面结合附图对本发明的实施方式进行详细描述。

本实施例中使用集合

来表示在当前的2D场景下的无人车，这些移动终端通过不断地移动来收集数据或给自身充电。这个区域在仿真过程中设计了边界，以往无人车移动到与任务无关的区域。为了更具普遍性，本实施例假定有

的PoI数据点，每一个数据点都设置了确定的数据量

需要采集。设置集合

表示在这一区域中有C个充电站，每一个都连接了国家电网，具有充足的能量补给。除此之外，还有一些地方存在障碍，如建筑物、施工地点，对于无人车来讲也可能代表正在维修的道路或设施，无人车不能碰撞到这些障碍。本实施例假设执行每次行为都以步为单位，而每一次的采集任务最多持续T步，在一开始，所有的无人车都充满了电，从同一起点出发，之后在每一步t中，每一个无人车的移动由确定的方向

与距离

组成，其中l_max表示了一个无人车在每一次步中能够移动的最长距离，也就对应了时间t上的速度；本实施例定义每一个无人车v感知数据的能力与传感器的感知范围R正相关，也就是说：对于任何一个或多个PoI数据点

只要当前同时处于一个无人车的感知范围R中，就能够被同时收集。然而由于每一个PoI的对应了体量非常大的数据，通常是远远大于一个传感器仅在一步t内收集的体量，因此假设每一个无人车v在每一步内收集一定比例的数据量

并将其余的剩下的数据留在后面几步进行采集。以上这些趋于实际的考量势必会对本实施例的问题带来更大的挑战，直觉上说，本实施例所引入的每一个无人车都需要最终被优化，最终学会往返地移动采集所有的数据点。在有限电量与充电机制的仿真中，本实施例使用

(由以

和

为自变量的线性函数计算)代表在一步t中无人车v因为移动消耗的能量。显然，当电池电量不足时，智能设备需要及时前往充电站。本实施例使用

表示在一步t中充电站c为这个智能设备v补充的能量。

在仿真实验中，本实施例将业务场景设计一个大小为16x16单元格的2维区域，区域较为均匀地分布着256个PoI数据点以及一些充电站，使用大小为(0，1]的浮点数随机初始化每一个数据点的数据量。每一个无人车在开始运行阶段带有50单位的电量，并设定此时电池为满电状态。实验固定了两个超参数β＝0.1、κ＝1，即每一单位的数据被采集时和每移动一单位的距离时相应的能耗，显然β∶κ＝1∶10。本实施例还在奖励函数中加入了一些惩罚项，即障碍碰撞惩罚

未有效采集数据和充电的单步惩罚

对于每一个无人车单次能够对每一个数据点采集到的比例，设定μ＝0.2，即每一次采集20％。

在本实施例对算法的具体实现过程中，actor网络、critic网络以及相应的目标网络结构都仅具有两个全连接层，使用ReLU作为每一个隐藏层之间的激活函数。为了防止过拟合，本实施例使用了0.01的权值衰减来调节L₂正则化项。为了防止梯度爆炸，采用梯度裁剪，除此之外，CNN中的Batch normalization以及LSTM中的layer normalization也都能够有效地控制批量梯度的大小。

对于深度强化学习方法，选择合理的超参数会极大的提高模型整体的表现。对于绝大多数参数的设置，本实施例只需要参考其他著名强化学习方法如DQN、DDPG即可。将初始学习率设置为0.0005，衰减指数γ＝0.98，软更新指数τ＝0.001，经验缓冲池大小2×10⁵，批量大小H＝512。为了使训练更加稳定，本实施例设置了指数为0.99995/100步的学习率衰减。参考其他DRL方法，本实施例使用每层有64个神经元的三层全连接网络作为actor网络、critic网络以及相应的目标网络的结构。本实施例设置了3个卷积层，结构为第i层16×0^i-1个3×3卷积核、步长为2。对于LSTM的Layer normalization超参数，设置gain为1.0，shift为0.0。

本实施例使用以下四个结果评估标准：

数据采集率：当一次任务完成时，即第T步结束，地图中已经被采集的数据总量D_T与地图初始数据总量∑_nd(p)的比例。

采集广度(f_T)：由式(3-2)计算得到，展示了在一次任务完成时(即第T步结束)，所有无人车对地图中数据点采集过程中的平衡性。

能耗比例(e_T)：当一次任务完成时(即第T步结束)，所有无人车所消耗的能量(包括采集数据与正常移动)与初始拥有的电量的比例。

能量利用率(v)：作为最重要的评价指标，定义与奖励函数类似，具体公式为：

本实施例设置优先级指数α＝0.5、Ape-X机制中Worker的数量为5以及LSTM的序列长度ε＝3。

一，Learner运行步骤：

在Ape-X机制中，最为核心的部分是Learner，运行在一个独立的进程中，具体为以下步骤：

步骤1：初始化折扣因子γ以及参数更新比例τ；

步骤2：循环每一个无人车；

步骤2.1：对于当前无人车v，本实施例使用随机初始化参数

与

分别初始化critic网络

以及actor网络

是当前无人车v的actor网络的参数，

是当前无人车v的critic网络的参数；

步骤2.2：对于当前无人车v，两个目标网络的参数

从各自原本的critic网络与actor网络中拷贝；

步骤2.3：初始化当前无人车v独立的全局经验缓冲池B^v，并在各自的多个生成经验的Worker中以异步方式不断收集新的状态转移组；

步骤3：循环每一个episode；

步骤3.1：循环每一个无人车；

步骤3.1.1如果全局经验缓冲池B^v状态转移组数量大于等于批量大小H；

步骤3.1.1.1根据优先级来取出大小为H的批量状态转移组用于训练，其中用到带有优先级与LSTM的经验复用机制对数据进行处理；

步骤3.1.1.2所有的无人车依次进行训练，其训练过程相互独立的，在这个过程中actor-critic的网络参数得到了更新；

步骤3.1.1.3：在训练结束以后，之前从B^v中取样出的这H个状态转移组被重新计算

步骤3.1.1而.4被：赋当予le新ar的ne优r先中级一权个重无；人车的全局经验缓冲池B^v被填满，最过时的经验都会被移除；

步骤3.1.2：当经验缓冲池B^v状态转移组数量小于批量大小H，不做任何操作，进行下次循环。

二，带有优先级与LSTM的经验复用机制运行步骤：

步骤1，预先设置好LSTM状态序列长度ε与奖励序列长度N这两个最重要的超参数；

步骤2，循环每一个无人车；

步骤2.1，每一个状态转移组都有一个索引t，表示被放入B^v的时间顺序，每一个无人车v在从各自经验缓冲池进行采样时，都取同一批量的索引t，以保证后续策略的更新沿着统一的方向；

步骤2.2，循环根据优先级来取出大小为H的批量状态转移组

步骤2.2.1，根据N步奖励机制，使用

计算

步骤2.2.2，从B^v收集到的每一个索引t，得到对应的观察状态序列

步骤2.2.3，从B^v收集到的每一个索引t，得到对应的观察状态序列

步骤2.2.4，在LSTM网络的帮助下，提取出各自的时序信息

步骤2.2.5，每一个被取出的状态转移组

被相应的替换为了

步骤2.2.6，进行下次循环。

三，更新多个actor-critic网络的步骤：

步骤1，对于已经被采样并相应处理好的数据，先使用CNN从中提取空间信息；

步骤2，计算每一个无人车目标网络的Q值，考虑到N步序列与批量数据的影响，本实施例重新定义目标价值函数的计算方法如下：

其中：

步骤3，通过最小化式

中的误差，更新无人车v的critic网络的权重，所采用的更新方法自然也是标准的梯度下降法；

步骤4，通过最小化式

中的误差；更新无人车v的actor网络的权重，所采用的更新方法自然也是标准的梯度下降法；

步骤5，使用软更新方法相应地更新目标网络的权重。

四，生成经验的Worker运行步骤：

步骤1：循环每一个episode；

步骤1.1：初始化每一个生成经验的Worker各自的本地环境，然后得到初始全局状态s₀；

步骤1.2：初始化本地经验缓冲池B,负责当前本地环境中内每一个状态转移组的收集；

步骤1.3：循环T个时间步；

步骤1.3.1：循环每一个无人车v；

步骤1.3.1.1：当为第一个时间步，从learner中拷贝过来最新参数

初始化每一个无人车v的本地策略π^v(·)用于行为决策；

步骤1.3.1.2：根据本地环境获取无人车v当前状态的观察

步骤1.3.1.3：无人车v根据从本地环境中获取的对当前状态的观察

来决策出行为

为了进行更好的探索，本实施例最初在策略分布中加入了随机的噪声，故策略在前期并不算是一个单纯的高斯分布；

步骤1.3.2：环境执行所有无人车的行为

输出全局奖励r_t，并得到新的状态s_t+1；

步骤1.3.3：循环每一个无人车v；

步骤1.3.3.1：当前无人车v得到自己的即时奖励

步骤1.3.3.2：当前无人车v得到自己对下一步本地环境的观察

步骤1.3.3.3：使用TD-error的绝对值来计算经验数据的初始优先级权重δ；

步骤1.3.3.4：本地经验缓冲池B会存储每一个这样的本地状态转移组

其中j标记了当前所属的生成经验的Worker，为了保证每一个状态转移组都有机会被抽到，当前这个δ会比已经被存储在B中的状态转移组的δ要大；

步骤1.3.3.5：每当B被填满时，所有的数据都会被送往无人车v对应的全局经验缓冲池B^v中，通过这种方法，每一个无人车v在不同的生成经验的Worker下所收集的状态转移组，最终会被自己的全局经验缓冲池B^v所收集；

步骤1.3.3.6：对于多个生成经验的Worker中learner的actor而言，每一个无人车v的actor的π^v都能够通过远程从learner调取最新的网络参数

来方便地自我更新，并且更新时机不限；

步骤1.3.4：当使用π^v与当前本地环境交互并得到所有设备的状态转移组

之后，更新当前环境的全局状态，并自此进入下一步，执行下一次循环。

下面详细评估一下算法最后的结果，采用以下三个基准方法进行对比：

MADDPG：这是由Google DeepMind团队在NIPS 2017会议中提出的分布式多智能体最佳解决方案。实验证据表明，这种方法在多智能体场景中合作与竞争策略的学习上，好于其它所有DRL方法。

e-Divert w/o Ape-X：在训练过程中，不使用Ape-X机制下的“多actor与中心learner”结构，而是只使用一个本地环境来进行行为决策以及模型参数的更新。

e-Divert w/o LSTM：在每一步的行为决策过程中，策略模型不采用LSTM机制，而是只使用当前观察状态

代替观察序列

同样，只使用每一步的即时奖励，而不再考虑N步奖励。

测试过程中，所有算法都每一回合均运行500步，并重复运行10次取平均表现。

本实施例接下来总共进行四组仿真测试，分别以传感器感知范围R、无人车数量V、充电站数量C以及充电功率(速率)作为自变量，而因变量为前面提到过的四个评价指标——数据采集率、采集广度、能耗比例、能量利用率。通过简单的假设，本实施例也计算了理论上最大的能耗值作为辅助指标：

其中的假设包括了全部数据被采集、每一次移动最长距离，显然此时所有无人车的总耗能是最大的。

仅作实验对比用的理论最大值，而并不代表任何策略。

如图4所示，本实施例分别展示了传感器感知范围对能量利用率、数据采集率、采集广度、能耗比例的影响。此时固定无人车数量V＝2、充电站数量C＝5、充电速率为每次充电池满电量的20％，而本实施例设置传感器感知范围的变化范围为R＝0.6到R＝1.4，测试间隔为0.2。计算最大的能耗值能够得到，此时的最大能耗为4.62电池单位。如图4所示，本实施例能够总结出如下结果：

在能量利用率方面，“e-Divert”完全胜过了其它三个基准方法。例如，在如4(a)中，当感知范围为1.0时，e-Divert的能量利用率达到了0.179，这比起目前表现最好的基准方法e-Divert w/o Ape-X有20％的提升。就能量利用率的平均表现而言，e-Divert分别比e-Divert w/o Ape-X、e-Divert w/o LSTM以及MADDPG有27％、158％与484％的提升。

如图4(a)所示，本实施例能够看出e-Divert的能量利用率随着感知范围的增加而单调递增，这是因为感知能力的增强有效地提高了数据采集率与采集广度，就像如图4(b)与图4(c)所示的那样。能够看到，感知范围非常大时，采集广度甚至一度濒临1.0。除此之外，一个更大的感知范围也意味着相对更小的移动距离，这也是符合直觉的。例如，如图4(d)所示，本实施例能够看到随着感知范围R的增大，能耗有了下降。

e-Divert在下图五个感知范围R中都具有好于其它所有基准方法的表现。例如，如图4(b)与图4(c)所示，当R＝1.0时，e-Divert同时提高了数据采集率与采集广度，但是却节省了16％的能耗。而如图4(d)所示，e-Divert w/o Ape-X此时的能耗已经濒临理论最大值了，这是因为Ape-X结构更专注于对当前学习质量更高的状态转移组，而不是一些局部最优数据。然而，在没有LSTM机制下的序列建模后，e-Divert w/o LSTM忽视或遗忘了长期奖励，其中可能会包括一些未被使用的充电站以及未被采集的数据。最终，在带有LSTM的N步序列时间特征提取机制下，e-Divert在数据采集率、采集广度与能量利用率方面明显好于目前最好的MADDPG方法。

如图5所示，本实施例分别展示了无人车数量对能量利用率、数据采集率、采集广度、能耗比例的影响。此时固定无人车数量R＝1.1、充电站数量C＝5、充电速率为每次充电池满电量的20％，而本实施例设置无人车数量的变化范围V为从1到5。计算得知，此时5个V值对应的最大能耗分别为[3.62，4.62，5.62，6.62，7.62]电池单位。如图5所示，本实施例能够总结出如下结果：

在能量利用率方面，“e-Divert”完全胜过了其它三个基准方法。例如，在如图5(a)中，当无人车数量V＝4时，e-Divert的能量利用率达到了0.158，这比起目前表现最好的基准方法e-Divert w/o Ape-X的0.091有74％的提升。就能量利用率的平均表现而言，e-Divert分别比e-Divert w/o Ape-X、e-Divert w/o LSTM以及MADDPG有53％、76％与362％的提升。

如图5(a)所示，本实施例能够看出e-Divert方法在能量利用率上随着无人车数量的增大而逐渐缓慢下降。这是因为更大的V也会带来更大的总能耗，就像如图5(d)中所示的那样。此外，更多的无人车也会加剧不同无人车在各自负责范围交界处上发生的竞争情况。正如图5(b)与图5(c)中所示的那样，数据采集率与采集广度基本已经到了瓶颈。然而，如图3所示，能够看到无人车的平均能耗随着设备数量增大而逐渐下降，这是e-Divert学会多智能体合作策略的有力体现。因此，本实施例能够看到e-Divert方法比起表现最好的基准方法e-Divert w/o Ape-X，在数据采集率与采集广度上分别有24％与19％的提升，但是却最终节省了15％的能耗。

如图5所示，当无人车数量V＝1时，两个自身对比基准方法在能量利用率与能耗上都有差不多的表现。然而，当数量V越来越大时，这些方法比e-Divert方法消耗了更多的能量。与此同时，在不同无人车间的合作策略上，训练效果也不好。这是因为带有优先级的经验复用机制、空间特征与时序特征提取都能够为训练过程带来一定的帮助。如果没有了Ape-X机制与LSTM机制的帮助，就算是目前最好的MADDPG算法也不能在MCS业务场景中学会一个好的策略。例如，当V＝5是，MADDPG具有很高的能耗，但是却有非常糟糕的能量采集比例与采集广度。通过复盘无人车的轨迹后，本实施例能够发现在MADDPG方法指导下的这5个无人车由于没有任何的分工与合作，经常会挤在同一片区域，做很多的无用功。

如图6所示，充电站数量对能量利用率、数据采集率、采集广度、能耗比例的影响。此时固定传感器感知范围R＝1.1、无人车数量V＝2、充电速率为每次充电池满电量的20％，而本实施例设置充电站数量C的变化范围为从1到5。计算得知，此时最大能耗为4.62电池单位。如图6所示，本实施例能够总结如下结果：

在能量利用率方面，“e-Divert”完全胜过了其它三个基准方法。例如，在如6(a)中，当充电站数量C＝2时，e-Divert的能量利用率达到了0.12ε，这比起目前表现最好的基准方法e-Divert w/o Ape-X有38％的提升。就能量利用率的平均表现而言，e-Divert分别比e-Divert w/o Ape-X、e-Divert w/o LSTM以及MADDPG有33％、48％与236％的提升。

如图6(a)所示，本实施例能够看出e-Divert的能量利用率随着充电站数量C的增加在一开始上升，但在C＝2之后就基本趋于平稳。这是因为如果充电站的数量设置得不够，无人车需要为来回往返于数据采集与充电站消耗很多电量。在另一方面，建立更多的充电站也能够鼓励无人车对较远区域、尤其是地形较为复杂的区域进行积极地探索，如图6(b)与图6(c)所示。此外，本实施例的e-Divert方法能够在很多必要的情况下学会更好地使用最近的充电站，也正因如此在C＞2以后总能耗没有出现显著增加。

三个基准方法的表现都再次证明了时空序列建模对多智能体合作策略学习的重要性。无人车不仅需要学会自己负责一片指定区域的采集任务，还需要充分利用区域内的充电站，这样才能在保证数据采集率与采集广度的同时，有效地减少长距离来回移动造成的能耗。例如，如图6(b)、图6(c)与图6(d)所示，当C＝4时，e-Divert在轻微提高了数据采集率与采集广度的同时，却减少了14％的能耗。

最后，如图7所示，本实施例分别展示了充电功率(速率)对能量利用率、数据采集率、采集广度、能耗比例的影响。此时固定传感器感知范围R＝1.1、无人车数量V＝2、充电站数量C＝3，而本实施例设置充电速率的变化范围为10％到50％，测试间隔为10％。在大多数实际情况下，充电功率也能够反映出充电的速率。如图7所示，本实施例能够总结出：在能量利用率、数据采集率、采集广度方面，“e-Divert”均完全胜过了其它三个基准方法。目前多智能体DRL领域表现最好的MADDPG算法的表现再一次是最差的，这是因为缺少了Ape-X机制与时空序列建模后，智能体将非常难以充分地探索整个环境，这对于off-policy方法的效果具有致命的不良影响。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的范围内，能够轻易想到的变化或替换，都应涵盖在本发明权利要求的保护范围内。

Claims

1.一种可充电群车智能中的数据采集方法，其特征在于，包括以下步骤：

critic网络

表示无人车v在t时的行为，

表示t时无人车v在当前业务场景中能够观察到的状态,每个无人车v根据经过CNN提取空间信息的经验数据，更新各自对应的actor-critic网络：

步骤1.1，初始化折扣因子γ以及参数更新比例τ；

步骤1.2，随机初始化每一个无人车v的权重参数

与

分别初始化critic网络

以及actor网络

步骤1.3，初始化每一个无人车v两个目标网络的权重参数

步骤1.4，初始化每一个无人车v的全局经验缓冲池B^v；

步骤1.5，带有优先级与LSTM的经验复用机制，如果无人车v的B^v中经验数据数量大于等于H，执行此机制进行采样，否则重新开始循环：

步骤1.5.1，预先设置好LSTM状态序列长度ε与奖励序列长度N；

步骤1.5.2，每一个无人车v从各自对应的优先级经验重播缓冲区中，根据优先级，并按相同索引t，t表示被放入B^v的时间顺序，进行采样；

步骤1.5.3，使用LSTM机制与N步奖励机制同时对当前的采样出的这批经验数据进行处理：

步骤1.5.3.1，计算每个无人车v，N步连续状态对应的奖励

计算公式如下：

折扣因子γ∈[0，1]；

与

步骤1.5.3.3，在LSTM网络的帮助下，提取出各自的时序信息

步骤1.5.3.4，使用

代替状态转移组

步骤1.6，CNN网络提取空间信息，CNN网络的卷积层和全连接层层数能够根据情况调节；

步骤1.7，actor-critic更新网络权重,每一个无人车v根据经过CNN提取空间信息的经验数据，更新各自对应的actor-critic网络；

步骤1.8，重新计算本次采样的经验数据每一个状态转移组的时序差分值，简称TD-error，使用如下公式：

然后计算当前状态转移组的优先级权重，使用如下公式：

指数α是一个超参数，体现了v在训练抽样过程中对整个优先级值的重视程度，而α＝0就表示根据均匀分布进行抽样；

步骤1.10，步骤1.5到1.9重复M次，M为episode即任务回合的数量；

步骤2，Worker生成经验，包含多个生成经验的Worker，每个生成经验的Worker在回合开始时完全相同，所有Worker之间、所有Worker与Learner之间异步地执行任务，生成经验数据，存储到本地经验缓冲池中，然后转移到对应的全局经验缓冲池中：

步骤2.1，每一个任务回合中，初始化每一个无人车v的本地环境，得到全局初始状态s₀；

步骤2.2，初始化每一个生成经验的Worker对应的本地经验缓冲池B′，负责当前本地环境内每一个状态转移组的收集；

步骤2.3，从Learner中拷贝每一个无人车v对应actor的最新参数

初始化每一个无人车v的π^v(·)用于行为决策；

来决策出行为

在策略分布中加入了随机的噪声；

步骤2.5，环境执行每一个无人车的行为

输出全局奖励r_t，并得到新的状态s_t+1；

以及对下一步本地环境的观察

然后计算当前状态转移组的优先级权重，使用如下公式：

步骤2.8，将每个无人车v生成的本地状态转移组

存储在对应的本地经验缓冲池B′中，j标记了当前生成经验的Worker的编号；

步骤2.9，每当B′被填满时，所有的数据都会被送往每个无人车v对应的全局缓冲池B^v中；

步骤2.10，重复步骤2.4到2.9，重复T次,T表示每一回合的数据收集任务都会进行T步；

步骤2.11，重复步骤2.1到2.10，重复M次,M表示数据收集任务经历了M次回合。

2.根据权利要求1所述的一种可充电群车智能中的数据采集方法，其特征在于，所述步骤1.6包括以下步骤：

步骤1.6.1，接收步骤1.5生成的经验数据作为输入；

的空间信息；

步骤1.6.3，将处理后的数据传递给Learner里的actor-critic网络。

3.根据权利要求1所述的一种可充电群车智能中的数据采集方法，其特征在于，所述步骤1.7包括以下步骤：

步骤1.7.1，接收经过CNN提取空间信息的经验数据；

步骤1.7.2，每个无人车v的actor-critic网络根据对应的经验数据生成自己的目标价值

计算公式如下：

其中：

π′^v(.)的输入为经过带有优先级与LSTM的经验复用机制和CNN网络提取的空间信息，Q′^v表示目标critic网络，折扣因子γ∈[0，1],

为无人车v在t时N步连续状态对应的奖励；

步骤1.7.3，通过如下最小化公式，相应地更新无人车v的critic网络的权重，所采用的更新方法是标准的梯度下降法：

步骤1.7.4，通过最小化如下公式，来相应地更新无人车v的actor网络的权重，所采用的更新方法是标准的梯度下降法：

步骤1.7.5，使用如下软更新的方法相应的更新每个无人车v的目标critic网络权重,

τ∈[0，1]是参数更新比例；

4.根据权利要求1所述的一种可充电群车智能中的数据采集方法，其特征在于，所述步骤2.9包括以下步骤：

状态转移组优先级权重

生成经验的Worker的编号j、状态转移组的索引t，即经验数据

表示无人车v在t时进行行为

获得的奖励；

步骤2.9.2，将

存入每个无人车v对应的全局缓冲池B^v的优先级经验重播缓冲区内，并按优先级排序。