CN113420867A

CN113420867A - 一种面向维舍克集群模型的行为模仿方法

Info

Publication number: CN113420867A
Application number: CN202110715342.1A
Authority: CN
Inventors: 彭星光; 刘硕; 王童豪; 宋保维; 潘光; 张福斌; 高剑; 李乐; 张立川
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-06-27
Filing date: 2021-06-27
Publication date: 2021-09-21

Abstract

本发明提出一种面向维舍克集群模型的行为模仿方法，在传统基于生成对抗网络的模仿学习算法基础上，引入了基于种群的训练方法，并将该方法用于面向维舍克模型的集群行为模仿上。本发明对比单线程的生成对抗模仿学习算法，结合了基于种群的训练方式，能够更快地使训练网络收敛；而且引入种群适应度，使得训练模型的效果可供技术人员观测，训练效果过程可视化；本发明能够提高面向维舍克集群模型寻找最优参数的效率。

Description

一种面向维舍克集群模型的行为模仿方法

技术领域

本发明是一种面向维舍克集群模型的行为模仿方法，涉及机器学习、分布式多智能体、集群控制等技术领域。

背景技术

群体智能是大自然中生物群体呈现的智慧。近年来，人们在赞叹自然界中形态百变、组织有序的群体行为时，也对其背后的机理展开了深刻的研究。模仿群体行为是理解群体行为机理的重要手段之一，人们通过复现群体行为加深对群体行为的认知层次。因此，如何高效地模仿生物群体的行为策略具有深远的研究意义。

模仿学习是一种数据驱动的机器学习方法，能够模仿专家演示的样本数据来解决智能体的序贯决策问题。模仿学习已经在停车场导航、机器臂抓取、词句生成、对话智能等多个任务域内都取得了不错的研究进展。传统的模仿学习方法有行为克隆技术、逆强化学习、基于生成对抗网络的模仿学习等方法。行为克隆是基于专家示教数据的监督学习的方法，然而，这种方法往往会累积决策误差，并逐渐影响序贯决策的效果。逆强化学习首先通过学习示教数据得到一个奖励函数，再用强化学习的方法求取专家策略，这种方法往往能在示教数据下学习到最佳策略，但是对示教数据未覆盖的专家策略的拟合准确度较低。基于生成对抗网络的模仿学习是一种通过“生成对抗”思想对专家数据进行学习的方法，这种方法具有较好的函数拟合能力，然而，该方法所需的训练时间较长，且不可观测过程中模型的训练进度。

发明内容

为提高基于生成对抗网络模仿学习的收敛速度，并进一步提升该方法对专家示教策略的拟合效果，本发明结合模仿学习和基于种群的神经网络训练方法，提出了一种面向维舍克集群模型的群体模仿学习方法。该方法在基于生成对抗网络模仿学习方法的基础上，能够观测过程中模型训练进展、降低训练时间、提升专家策略的拟合效果。

本发明的技术方案为：

所述一种面向维舍克集群模型的行为模仿方法，包括以下步骤：

步骤1：基于维舍克模型，采集集群中每个个体在每个时间步的观测-动作元组<s_i,a_i>，其中s_i表示当前时刻集群内个体i的观测向量，a_i表示当前观测下集群个体i的转向动作；

步骤2：进行模型初始化过程：初始化神经网络训练种群，设定神经网络种群规模为K，每个训练个体包括一组“生成器-判别器”组合，生成器由actor网络和critic网络组成，判别器则由另外的一个单独的网络组成；

步骤3：初始化训练种群后，在每个训练种群的仿真环境下，集群环境内每个集群个体共用当前训练种群的生成器作为控制模型，与环境进行交互，生成经验元组，并储存在经验元组缓存池中；

经验元组为

<o_i,u_i,r_i,d_i,e_i>

其中，o_i表示当前时刻集群个体i的观测，与步骤1中s_i组成形式相同；u_i表示当前时刻集群个体i的动作，与步骤1中a_i性质相同，在输入为o_i时由对应训练种群中的生成器的actor网络生成：

u_i＝G(o_i)

其中，G为当前训练种群生成器的actor网络；

r_i表示当前时刻集群个体i的奖励值，由判别器网络输出得到：

r_i＝-log(D(o_i,u_i))

其中，D为当前训练种群的判别器；

d_i是一个布尔值，表示当前时刻是否继续将生成器与环境交互；

e_i表示当前时刻集群个体观测的价值，由critic网络输出得到：

e_i＝V(o_i)

其中，V为当前训练种群生成器的critic网络；

步骤4：从专家示教和经验缓存池分别加载L条数据，进行判别器参数更新：

loss_1＝BCE(D(S_e,A_e),0)

loss_2＝BCE(D(S_g,A_g),1)

loss＝(loss_1+loss_2)/2

其中，BCE()表示交叉熵损失函数；D()表示当前训练种群的判别器；S_e,A_e表示专家示教数据中抽取L数目的s_i,a_i向量；S_g,A_g表示经验缓存池中抽取L数目的o_i,u_i向量；0,1表示专家数据和经验缓存池数据的样本标签；通过loss_1,loss_2计算得到一个带有梯度信息的loss，并利用带有梯度信息的loss对判别器网络参数进行更新；

步骤5：对生成器的参数进行更新，包括actor网络更新和critic网络更新两部分；

先更新critic网络，按存储顺序从经验池中依次提取L条经验元组，网络更新公式为

其中，Mean()表示求均值；

分别表示按时间顺序存储的下一时刻奖励值和当前时刻奖励值；γ是一个折扣因子；

均为当前时刻元组内的元素；利用公式得到带梯度信息的损失值loss_value_net来更新critic网络的参数；

然后更新actor网络参数，先计算每个经验元组内优势函数值：

更新actor网络公式如下：

surr1＝adv_g*ratio

loss_policy_net＝min(surr1,surr2)

其中，G_old,G_new分别为参数更新前和更新后的生成器actor网络，G_old是若干次更新前的actor网络，G_new表示当前的actor网络；adv_g为抽取的每条经验元组中adv_i的总拼接向量；每次更新actor网络参数使用梯度反向传播算法；

步骤6：在更新网络参数后，对每个训练种群进行生成器的模型评估，并得到评估结果作为适应度；

步骤7：依据步骤6得到的适应度，将适应度高的网络参数复制给适应度低的网络参数，实现种群的神经网络参数更新；

步骤8：判断当前的迭代次数是否达到设定的迭代总步数T，若未达到迭代次数，则当前迭代次数加一，回到步骤3；若达到迭代次数，则停止迭代，输出最优适应度的训练种群个体，该训练种群个体中的生成器即为学习得到的模仿专家策略。

进一步的，所述集群规模为N，对于集群中的某个个体i，具有航向向量h_i、坐标[x_i,y_i]、速度v_i的属性；集群个体的运动位置更新公式为：

其中，

表示个体i在t时刻的横、纵坐标；

表示个体i在t+1时刻的横、纵坐标；

表示个体i在t时刻航向的横、纵分向量，有

进一步的，步骤1中，在采集M步时间步后重新初始化集群个体位置、航向参数后继续采集；在一次M步时间步后，得到观测-动作元组容量为M*N的专家数据集。

进一步的，步骤1中，观测向量s_i表示个体i与所有邻居各自对应的航向差和距离：

航向差公式为：

其中，h_i,h_j分别为个体i和它的某个邻居j的航向向量；

距离为两个体i,j的地理距离，距离公式如下：

个体i的转向动作a_i是一个转向角度，转向动作对个体i的航向影响为向量旋转公式：

其中，

分别表示t+1,t时刻个体i的航向，

表示t时刻个体i的转向动作。

进一步的，步骤6中，进行生成器的模型评估的评估方式为设定固定步长的集群运动测试样例，计算每次样例最后一个时间步的集群极化指数，取1多次样例的结果作求取平均值，将平均值结果作为适应度；极化指数公式为：

其中，N,h_i分别为集群规模、个体i的航向；极化指数越接近0，代表集群个体间的航向越无序，极化指数越接近1，代表集群个体航向越趋于一致。

进一步的，步骤7中，更新种群的神经网络参数规则为：

a)、对所有种群的评估适应度从高到低排序；

b)、设定一个复制值C，C为大于0，小于种群规模K的整形值；

c)、将适应度最高的C个训练种群的生成器、判别器网络参数复制拷贝给适应度最低的C个训练种群。

进一步的，步骤4中，得到带有梯度信息的loss后，通过反向传播算法对判别器网络参数进行更新。

进一步的，步骤5中，利用带梯度信息的损失值loss_value_net，通过反向传播算法来更新critic网络的参数。

有益效果

本发明在传统基于生成对抗网络的模仿学习算法基础上，引入了基于种群的训练方法，并将该方法用于面向维舍克模型的集群行为模仿上，与现有技术相比，本发明具有如下优点：

(1)对比单线程的生成对抗模仿学习算法，本发明的技术结合了基于种群的训练方式，能够更快地使训练网络收敛；

(2)引入种群适应度，使得训练模型的效果可供技术人员观测，训练效果过程可视化；

(3)将能够提高面向维舍克集群模型寻找最优参数的效率。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为发明算法的训练流程框图；

图2为维舍克模型的更新原理框图；

图3为发明算法的训练方法框架体系示意图；

图4为更新个体位置示意图。

具体实施方式

本发明结合模仿学习和基于种群的神经网络训练方法，提出了一种面向维舍克集群模型的群体模仿学习方法。在基于生成对抗网络模仿学习方法的基础上，该方法能够观测过程中模型训练进展、降低训练时间、提升专家策略的拟合效果。

本发明涉及的集群运动环境为二维仿真环境，环境设定如下：集群规模为N，即集群个体总数。对于集群内某个个体i，具有航向向量h_i、坐标[x_i,y_i]、速度v_i的属性。集群个体的运动位置更新公式如下：

其中，

表示个体i在t时刻的横、纵坐标；

表示个体i在t+1时刻的横、纵坐标；

表示个体i在t时刻航向的横、纵分向量，有

训练前，设定算法总迭代次数T，设定当前迭代次数为0，设定折扣因子参数γ，设定参数ε。

步骤1：如图1所示，基于维舍克模型，采集集群个体在每个时间步的观测-动作元组。在采集M步时间步后重新初始化集群个体位置、航向等继续采集。维舍克集群模型原理如图2所示。每个时间步，对每个集群个体的观测-动作元组进行采集，一共采集M步时间步，得到容量为M*N的专家数据集。数据集中，每个元组表示如下：

<s_i,a_i>

其中，s_i是对于当前时刻集群内个体i的观测向量，本发明中具体为该个体与所有邻居各自对应的航向差和距离，这里举例，比如集群规模为10个个体，那么每个s的长度为18，原因是每个时刻每个个体对其余9个邻居的航向差、距离差这2个特征，2*9＝18得到18维的观测，航向差公式如下：

其中，h_i,h_j分别为个体i和它的某个邻居j(非自身)的航向向量；距离为两个体i,j的地理距离，距离公式如下：

a_i表示当前观测下集群个体i的转向动作，是一个转向角度，本实施例中规定左转为负值，右转为正值，转向动作对个体i的航向影响为向量旋转公式，如下：

其中，

分别表示t+1,t时刻个体i的航向，

表示t时刻个体i的转向动作。

步骤2：如图1所示，开始训练后，初始化神经网络训练种群，设定神经网络种群规模为K，即该种群有K个个体，每个训练个体包括一组“生成器-判别器”组合，生成器由actor网络和critic网络组成，判别器则由另外的一个单独的网络组成。环境内集群规模与步骤1相同，集群内有N个集群个体。基于种群的训练框架如图3所示。

步骤3：如图1所示，初始化训练种群后，在每个训练种群的仿真环境下，集群环境内每个集群个体共用当前训练种群的生成器作为控制模型，与环境进行交互，生成经验元组，并储存在经验元组缓存池中。经验元组表示如下：

<o_i,u_i,r_i,d_i,e_i>

其中，o_i表示当前时刻集群个体i的观测，与步骤1中s_i组成形式相同；u_i表示当前时刻集群个体i的动作，与步骤1中a_i性质相同，在输入为o_i时由对应训练种群中的生成器的actor网络生成，公式如下：

u_i＝G(o_i)

其中，G为当前训练种群生成器的actor网络；

r_i表示当前时刻集群个体i的奖励值，由判别器网络输出得到，公式如下：

r_i＝-log(D(o_i,u_i))

其中，D为当前训练种群的判别器；

e_i表示当前时刻集群个体观测的价值，由critic网络输出得到，公式如下：

e_i＝V(o_i)

其中，V为当前训练种群生成器的critic网络。

步骤4：在更新判别器参数前，先从专家示教和经验缓存池分别加载，分别抽取L条数据。判别器的参数更新公式如下：

loss_1＝BCE(D(S_e,A_e),0)

loss_2＝BCE(D(S_g,A_g),1)

loss＝(loss_1+loss_2)/2

其中，BCE()表示交叉熵损失函数；D()表示当前训练种群的判别器；S_e,A_e表示专家数据中抽取L数目的s_i,a_i向量；S_g,A_g表示经验缓存池中抽取L数目的o_i,u_i向量；0,1表示专家数据和经验缓存池数据的样本标签；通过loss_1,loss_2计算得到一个带有梯度信息的loss，并通过传统的反向传播算法对判别器网络参数进行更新。

步骤5：如图1所示，为生成器的参数更新步骤。生成器的参数更新分为actor网络更新和critic网络更新两部分。首先更新critic网络，按存储顺序从经验池中依次提取L条经验元组，网络更新公式如下：

其中，Mean()表示求均值；

分别表示按时间顺序存储的下一时刻奖励值和当前时刻奖励值；γ是一个折扣因子，已在步骤1中设定；

均为当前时刻元组内的元素。上面公式得到带梯度信息的损失值通过传统的反向传播算法来更新critic网络的参数。

然后，更新actor网络参数，先计算每个经验元组内优势函数值：

更新actor网络公式如下：

surr1＝adv_g*ratio

loss_policy_net＝min(surr1,surr2)

其中，G_old,G_new分别为参数更新前和更新后的生成器actor网络，在本步骤下，若需要更新actor网络参数10次，G_old是更新10次前的actor网络，G_new表示当前的actor网络，会随着更新次数而优化参数比如old是第0次更新的网络，则new可以是第0,1，…，10次的网络；adv_g为抽取的每条经验元组中adv_i的总拼接向量；每次更新actor网络参数使用传统的梯度反向传播算法。

步骤6：如图1所示，在更新网络参数后，对每个训练种群进行生成器的模型评估。评估方式为设定固定步长的集群运动测试样例，计算每次样例最后一个时间步的集群极化指数，取10次样例的结果作求取平均值，将结果作为适应度。极化指数公式如下：

其中，N,h_i分别为集群规模，个体i的航向。极化指数越接近0，代表集群个体间的航向越无序，极化指数越接近1，代表集群个体航向越趋于一致。

步骤7：如图1所示，更新种群的神经网络参数。这里的更新与步骤4和步骤5的更新不同，步骤4和步骤5是梯度回传的参数更新，这里是直接将适应度高的网络复制给适应度低的网络。更新规则如下：

a)、对所有种群的评估适应度从高到低排序；

b)、设定一个复制值C，为大于0，小于种群规模K的整形值；

步骤8：如图1所示，判断当前的迭代次数是否等于步骤1设定的迭代总步数T，若未达到迭代次数，则当前迭代次数加一，回到步骤3；若达到迭代次数，则停止迭代，输出最优适应度的训练种群个体，该训练种群个体中的生成器即为学习得到的模仿专家策略。

现结合附图对本发明作进一步描述，在仿真集群环境下验证本发明训练模型的效果，过程如下：

仿真环境下，参数设置方面，训练与评价时应相同。设定集群规模为N。设定算法总迭代次数T，设定当前迭代次数为0，设定折扣因子参数γ，设定参数ε，时间步参数M。

地图场景大小应预先进行设定。神经网络方面，全部使用三层全连接层神经网络，隐藏节点数为64；生成器actor网络前两层全连接网络使用RELU激活函数，最后一层网络使用TANH激活函数；生成器critic网络以及判别器前两层全连接网络使用RELU激活函数，最后一层网络使用SIGMOID激活函数；学习率为0.001，使用Adam优化器。

通过上述方法训练完成后，得到适应度均大于0.95的训练种群，取最高适应度训练种群的生成器actor网络作为模仿策略。而在评价模仿策略时，初始化集群后，采用如图4的方式更新个体位置以及航向。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。