CN111160511A

CN111160511A - 一种共识主动学习的群体智能方法

Info

Publication number: CN111160511A
Application number: CN201911114478.6A
Authority: CN
Inventors: 彭木根; 乔亚娟; 刘杨
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-05-15

Abstract

本发明公开了一种共识主动学习的群体智能方法，通过设置单个智能体获取奖励方式和启发式因子来更新任务的完成状况，依据智能体群体的潜在奖励回报值确定智能体采取动作，进而来更新智能体的状态值。最终实现任务分配和协作问题。本发明所述方法提出引入强化学习的奖励回报值来描述群体智能的激励机制，通过知识共享来实现个体之间的协作，在提高完成任务的效率和决策的优化程度的同时，能够保证分布式环境下的个体安全和避免隐私泄露。

Description

一种共识主动学习的群体智能方法

技术领域

本发明属于人工智能算法领域，尤其涉及一种共识主动学习的群体智能方法。

背景技术

目前，随着高带宽、低时延、多连接第五代移动通信(5G)网络的普及以及支持垂直行业的发展，以及驱动第六代移动通信(6G)系统的CRAS(Connected Robotics andAutonomous Systems)即将部署，尤其是无人机传输系统、自主无人机群。无人机(UAV)因具有高机动性、部署快速、时效性强、低成本的优点，由无人机群执行复杂、危险任务场景在军事、民用有广泛的应用场景，不同于传统网络拓扑结构的稳定性，无人机群通信网络基本不依赖固定设施，具有自组织、无中心的特点，构成的网络结构极其不稳定，暴露在户外、无人值守的设备极易受到干扰和黑客攻击，威胁无人机通信的安全性。因此，如何在保证安全和隐私的前提下，提高无人机任务的完成效率是亟待解决的问题。

在生物昆虫学中，存在高度结构化的群体组织，尽管个体简单智力有限，他们能够完成复杂的任务，远远超过单个个体的能力，如蚁群、蜂群、蛙群。并且个体与个体之间的交流是间接的，以蚁群为例，蚂蚁在环境中分泌信息素，其他蚂蚁通过“读取”信息素共同完成“食物来源”、“筑造蚁巢”的任务。随着搜索的不断进行，信息素会发生动态变化：旧蚂蚁留下的信息素会不断蒸发，新蚂蚁经过后则会产生新的信息素。但是蚁群算法有自己的限制条件，只有当拥有足够的蚂蚁，效果越好。首先，现有算法只适用于“简单个体”，即个体只具有简单的能力，随着6G驱动下的CRAS(连接机器人和自治系统，包括无人机传输系统、自动驾驶汽车、自主无人机群)即将部署，个体的智能性势必增强，那么现有算法不再适用于新场景。其次，信息素浓度的调节没有考虑个体之间距离不同带来的影响各异，除了信息素随着时间的衰减和“分配路径”浓度的增加，未学习自己和他人的经验。最后，虽然个体之间是非直接交流，但是留在环境中的信息素也会泄露隐私，可能存在非法用户攻击服务器节点的风险。

在群体认知研究中，从生物体和大脑神经元的角度来进行研究，探索生物群体的群体智慧和大脑中神经元受刺激的启发认知过程。共识主动性是直接交流和间接交流的衔接过渡，获取介于局部和全局之间的信息，能够激发人工智能算法的进一步研究。而目前关于人工智能算法的研究中，本质上都是通过对人类思维的模拟，由此衍生出人工神经网络、深度学习的算法。但是这些算法均通过输入设定的先验规则来进行功能模拟，很难产生人类的智能水平。受“量变产生质变”的哲学观点启发，将作用于个体的运行规则和作用于整体的通用目标有机结合，通过个体之间的“合作”来共同完成某项任务或实现某种功能，利用智能体在环境中表现出的学习性、自主性、反应性和适应性的一系列特性，实现解决问题时的最佳决策，远超个体的智慧。

发明内容

本发明的目的在于提供一种能够克服上述技术问题的共识主动学习的群体智能方法，本发明所述方法包括以下步骤：

步骤1，初始化智能体群体的数量规模、待完成任务的目标值、待选择群体的数量规模、每个智能体获取的实际奖励值、每个智能体的能力值、智能体的初始状态值、任务的完成度或紧急程度以及学习率、启发式因子参数、迭代次数。

步骤2，基于初始化智能体群体以及所有智能体的初始状态值，计算每个智能体被选择的概率值，选出设定数量规模的智能体构成优选群体集合，优选群体集合中的智能体构成执行任务的一个批次：

步骤201，当有多个任务需要分配给多个智能体完成时，假设任务数量大于智能体的数量，具体可视总体数量而定，在同一时刻的任务分配是相互独立的，计算每个智能体被选择的概率，采用如下公式(1)：

其中，p_i,j(t)是第t时刻第i个智能体被选中来参与到第j个任务的概率，任务相当于深度神经网络训练完成的任务；

是第t时刻第j个任务的紧急程度，初始值为0，且随着任务的完成情况最终达到1；

表示在t时刻第i个智能体对于第j个任务的状态值；

表示在t时刻第i个智能体对于第j个任务的启发式因子值；α和β均为权重因子，用来表示

和

的相对重要程度；

步骤202，选出设定数量规模的智能体构成优选群体集合，具体数量视智能体的整体数量规模而定并且小于整体数量规模，优选群体集合中的智能体构成执行任务的一个批次，根据设定的智能体的优选群体数量规模，将步骤201中每个智能体被选择的概率值按照从大到小的顺序降序排列，选出符合优选群体数量规模的智能体的优选群体集合。

步骤203，选出设定数量规模的智能体构成优选群体集合，具体数量视智能体的整体数量规模而定,并且小于整体数量规模，优选群体集合中的智能体构成执行任务的一个批次，根据设定的智能体的优选群体概率值最小阈值，将步骤201中每个智能体被选择的概率值按照从大到小的顺序降序排列，选出满足大于等于优选群体概率值最小阈值条件的智能体的优选群体集合。

步骤3，基于智能体的优选群体集合，开始执行行动获得各自的奖励回报值；

优选群体截止到t时刻的累加奖励之和为截止到上一时刻(即t-1时刻，包括t-1时刻)为止的累加奖励之和加上此时刻即t时刻优选群体的奖励值，优选群体在t时刻的奖励值为完成第j个任务的智能体集合的奖励值之和，其计算公式如下公式(2)：

其中，S_j(t)表示t时刻参与到第j个任务的智能体集合，r_m,j(t)表示t时刻参与任务的第m个智能体在第j个任务中获得的回报值，回报值可代表第m个智能体完成第j个任务的效用值，与误差值的大小成反比，R_j(t)表示第t时刻对于第j个任务的累计回报值。

步骤4，基于所述智能体优选群体集合的奖励回报值，更新自身的动作对应的潜在奖励值，进而影响下一步动作的选择：

步骤401，依据优选群体集合的奖励回报值，更新自身的动作对应的潜在奖励值，进而影响下一步动作的选择，其更新公式如下公式(3)：q'_m(θ(t),a)＝(1-α)q_m(θ(t),a)+α[r_m(θ(t),a)+γ*maxq_m(θ_t+1,a)]......(3),

其中，q_m(θ(t),a)表示t时刻采取行动前对应的潜在奖励值，q'_m(θ(t),a)为采取行动获得实际奖励回报值后更新的潜在奖励值，r_m(θ(t),a)表示采取行动后获得的实际奖励回报值,α表示学习速率，学习速率的值越小，则保留之前训练结果越少，学习速率的值越大，则保留之前训练结果越多，γ值表示重视以往经验程度，γ值越大，越会重视以往经验，相反，γ值越小，越会重视眼前收益；

步骤402，依据更新自身的动作对应的潜在奖励值，进而影响下一步动作的选择，选择最大的潜在奖励值对应的动作，如下公式(4)所示：

a'＝argmaxq'_m(θ(t),a)……(4),

其中，q'_m(θ(t),a)为采取行动获得实际奖励回报值后更新的潜在奖励值，α'表示最大的潜在奖励值对应的动作。

步骤5，基于所述智能体优选群体集合的奖励回报值，更新任务完成度、自身状态值以及被选择的概率值：

步骤501，基于所述智能体优选群体集合的奖励回报值，更新任务完成度，更新任务完成度为奖励总和除以设定的目标值，其计算公式如下：

s(t)＝R(t)/T……(5),

其中，T表示任务的期望回报值；

步骤502，基于所述智能体优选群体集合的奖励回报值，更新、自身状态值，在t-1时刻参与任务的各个智能体将根据回报值来更新各自的状态值，具体每个智能体的状态值更新公式如下：

θ_i(t)＝θ_i(t-1)+Δθ_i(t)……(6),

其中，θ_i(t-1)是第i个智能体t-1时刻的状态值，θ_i(t)是第i个智能体在t时刻的状态值，是第i个智能体在t时刻受优选群体集合的状态改变值，是优选群体中的智能体规模，q_m(t)表示优选群体中的每个智能体在t时刻的潜在奖励回报值,q_i(t)表示优选群体中的第i个智能体在在t时刻的潜在奖励回报值；

步骤503，基于所述智能体优选群体集合的奖励回报值，更新被选择的概率值；

当只有一项任务需要一个或多个智能体协作完成时，依据计算每个智能体被选择的概率值的计算表达式如下：

其中，p_i(t)是第t时刻第i个智能体被选中来参与到任务的概率；s(t)是第t时刻任务的紧急程度，初始值为0，且随着任务的完成情况最终达到1；θ_i(t)表示在t时刻第i个智能体对于任务的状态值；

表示在t时刻第i个智能体对于任务的启发式因子值；α和β均为权重因子，用来表示θ_i(t)和

的相对重要程度；

当有多个任务需要分配给多个智能体完成时，设定任务数量远大于智能体的数量，具体可视总体数量而定，且在同一时刻的任务分配是相互独立的，计算每个智能体被选择的概率，计算每个智能体被选择的概率，采用如下公式：

表示在t时刻第i个智能体对于第j个任务的状态值；

表示在t时刻第i个智能体对于第j个任务的启发式因子值；αβ均为权重因子，用来表示

和

的相对重要程度。

步骤6，基于所述智能体的优选群体集合更新的任务完成度、自身状态值以及被选择的概率值，判断优选群体中的智能体与优选群体中除自身智能体之外的其他所有智能体的状态值的影响方向和自身的更新方向是否一致，依据判断结果来更新优选群体中的智能体与优选群体中除自身智能体之外的其他所有智能体之间的距离；

优选群体中的智能体将以往经验和动作的潜在奖励计算Q值，进而计算自身状态值的改变量与距离权重因子相乘后发送给当前层内所有其他智能体，进而影响其他智能体，每一次迭代之后，智能体之间的距离将会得到更新，意味着作用权重也会更新，每个智能体将根据自身状态值在t时刻的改变量Δθ_i,j(t)和其他智能体之间的状态值改变量Δθ_k,j(t-1)来调整彼此之间的作用距离。以第i和第k个智能体为例，作用调整的调整方式如下：

φ＝Δθ_i,j(t)·Δθ_k,j(t-1)……(11),

步骤7，基于所述判断优选群体集合中的智能体与其他智能体的状态值的影响方向和自身的更新方向是否一致，将优选群体中的智能体自身状态值的改变量与距离权重因子相乘后发送给当前迭代次数内所有优选群体集合中其他智能体，进而影响其他智能体的状态改变值；

在作用权重的影响下，智能体状态值的更新不仅受到自身回报值的影响值的影响，还将受到其他智能体状态值改变的影响，具体每个智能体的状态值的进一步更新为：

其中，ρ₂是标量调节函数，设置为1，或者是0到1之间的小数。

步骤8，判断是否达到任务目标值，当已达到目标任务值则结束选择优选群体集合，当未达到目标任务值，继续进行下一轮优选群体集合的选择,直到t时刻为止，判断优选群体集合所获得实际奖励回报值总和是否超过设定任务的目标值，当优选群体集合所获得实际奖励回报值总和超过包括等于设定任务的目标值，则认为达到目标值；当优选群体集合所获得实际奖励回报值总和小于设定任务的目标值，则认为未达到目标值，继续进行下一组优选群体集合的选择，当全部任务均已达到目标值，表明全部任务已完成；当只完成个别任务，则继续进行下一任务分配的优选智能体集合的选择。

本发明中的技术名词、术语解释说明如下：

5G：5th generation mobile networks，第五代移动网络；

6G：6th generation mobile networks，第六代移动网络；

CRAS：Connected Robotics and Autonomous Systems，连接机器人和自治系统。

本发明的优越效果是；

本发明所述方法通过设置单个智能体获取奖励方式和启发式因子来更新任务的完成状况，依据智能体群体的潜在奖励回报值确定智能体采取动作，进而来更新智能体的状态值。在考虑智能体之间距离影响程度各异的同时，确定智能体的被选择概率，组成优选群体集合去完成任务，最终实现任务分配和协作问题。本发明创新性地提出一种群体智能算法即共识主动学习算法，本发明所述方法不同于传统意义上的人工智能技术，本发明所述方法提出引入强化学习的奖励回报值来描述群体智能的激励机制，通过知识共享来实现个体之间的协作，在提高完成任务的效率和决策的优化程度的同时，同时能够保证分布式环境下的个体安全和避免隐私泄露。

本发明提出的群体智能算法是新一代人工智能算法的重要方向，推动群体智能应用。本发明巧妙结合群体的正反馈机制和强化学习的学习经验能力，通过信息素的更新迭代，实现最终收敛于最优分配策略。利用高斯距离函数来调整不同距离下的智能体的相互影响权重因子，通过权重因子调节智能体的状态更新值，后续考虑引入神经网络来来提高运算效率，解决了Q表规模庞大带来的内存消耗问题，同时将重要的状态更新参数进行同态加密处理，保护了数据的完整性。

附图说明

图1为本发明所述方法的共识主动学习的基本流程图；

图2为本发明所述方法的优选智能体集合距离调节下的共识主动学习的智能体状态调整值基本流程图；

图3为本发明所述方法的共识主动学习的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。。

针对现行的共识主动性算法只适用于“简单个体”，即个体只具有简单的能力，随着6G驱动下的CRAS即将部署，个体的智能性势必增强，那么现有算法不再适用于新场景。本发明实例提供一种共识主动学习的群体智能方法。图1为本发明实例中提供的共识主动学习的基本流程图，包括以下步骤：

步骤110，设定智能体群体的数量规模，待完成任务的目标值，待选择智能体群体的数量规模或待选择智能体群体的概率值最小阈值，每个智能体获取的实际奖励值，每个智能体的能力值，初始化智能体的状态值，任务的完成度或紧急程度以及学习率、启发式因子参数、迭代次数。

智能体群体的数量规模为区域内空闲可调用总体的数量值，待完成任务的目标值设定需远大于单个智能体获得的最大奖励值；每个智能体获取的实际奖励值和每个智能体的能力值均需设定最小值和最大值的阈值调整范围，初始化智能体的状态值，任务的完成度或紧急程度为随机矩阵，学习率、启发式因子参数合理设置在[0,1]之间，启发式因子为1，迭代次数合理设置。

步骤120，计算每个智能体被选择的概率值，选出设定数量规模的智能体构成优选群体集合，优选群体集合中的智能体构成执行任务的一个批次。

所述以轮盘赌的形式选出一定数量规模的智能体构成优选群体集合，具体数量视智能体的整体数量规模而定，且小于整体数量规模，优选群体集合中的智能体构成执行任务的一个批次。

步骤121，当只有一项任务需要一个或多个智能体协作完成时，依据计算每个智能体被选择的概率值的计算表达式如下：

的相对重要程度。

步骤122，选出设定数量规模的智能体构成优选群体集合，具体数量视智能体的整体数量规模而定，且小于整体数量规模，优选群体集合中的智能体构成执行任务的一个批次。根据设定的智能体的优选群体数量规模，将步骤121中每个智能体被选择的概率值按照从大到小的顺序降序排列，选出符合优选群体数量规模的智能体的优选群体集合。

步骤123，选出设定数量规模的智能体构成优选群体集合，具体数量视智能体的整体数量规模而定，且小于整体数量规模，优选群体集合中的智能体构成执行任务的一个批次，根据设定的智能体的优选群体概率值最小阈值，将步骤121中每个智能体被选择的概率值按照从大到小的顺序降序排列，选出满足大于含等于优选群体概率值最小阈值条件的智能体的优选群体集合。

步骤130，基于所述智能体的优选群体集合，开始执行行动获得各自的奖励回报值，

优选群体截止到t时刻的累加奖励之和为截止到上一时刻(即t-1时刻，包括t-1时刻)为止的累加奖励之和加上此时刻即t时刻优选群体的奖励值，优选群体在t时刻的奖励值为完成第j个任务的智能体集合的奖励值之和，其计算公式如下：

其中，S(t)表示t时刻参与到任务的智能体集合，r_m(t)表示t时刻参与任务的第m个智能体获得的奖励回报值，奖励回报值可代表第m个智能体完成任务的效用值，与误差值的大小成反比，R(t)表示截止到t时刻为止对于任务的累计回报值。

步骤140，基于所述智能体优选群体集合的奖励回报值，更新自身的动作对应的潜在奖励值，进而影响下一步动作的选择；

具体的，智能体的优选群体集合，开始执行行动获得各自的奖励回报值。

步骤141，依据优选群体集合的奖励回报值，更新自身的动作对应的潜在奖励值，进而影响下一步动作的选择，其更新公式如下：

q'_m(θ(t),a)＝(1-α)q_m(θ(t),a)+α[r_m(θ(t),a)+γ*maxq_m(θ_t+1,a)]......(16),

其中，q_m(θ(t),a)表示t时刻采取行动前对应的潜在奖励值，q'_m(θ(t),a)为采取行动获得实际奖励回报值后更新的潜在奖励值，r_m(θ(t),a)表示采取行动后获得的实际奖励回报值，α表示学习速率，学习速率的值越小，则保留之前训练结果越少，学习速率的值越大，则保留之前训练结果越多，γ值表示重视以往经验程度，γ值越大，越会重视以往经验，相反，γ值越小，越会重视眼前收益。

步骤142，依据更新自身的动作对应的潜在奖励值，进而影响下一步动作的选择，选择最大的潜在奖励值对应的动作：如下式所示：

a'＝argmaxq'_m(θ(t),a)......(17),

其中，q'_m(θ(t),a)为采取行动获得实际奖励回报值后更新的潜在奖励值，a'表示最大的潜在奖励值对应的动作。

步骤150，基于所述智能体优选群体集合的奖励回报值，更新任务完成度、自身状态值以及被选择的概率值；

基于上述实施例，步骤150具体包括以下步骤：

步骤151，基于所述智能体优选群体集合的奖励回报值，更新任务完成度，

更新任务完成度为奖励总和除以设定的目标值，其计算公式如下：

s(t)＝R(t)/T……(18),

其中，T表示任务的期望回报值。

步骤152，基于所述智能体优选群体集合的奖励回报值，更新、自身状态值。

在t-1时刻参与任务的各个智能体将根据回报值来更新各自的状态值，具体每个智能体的状态值更新公式如下：

θ_i(t)＝θ_i(t-1)+Δθ_i(t)……(19),

其中，θ_i(t-1)是第i个智能体t-1时刻的状态值，θ_i(t)是第i个智能体在t时刻的状态值，是第i个智能体在t时刻受优选群体集合的状态改变值，是优选群体中的智能体规模，q_m(t)表示优选群体中的每个智能体在t时刻的潜在奖励回报值，q_i(t)表示优选群体中的第i个智能体在t时刻的潜在奖励回报值。

步骤153，基于所述智能体优选群体集合的奖励回报值，更新被选择的概率值；

的相对重要程度。

步骤160，判断是否达到任务目标值，若已达到目标任务值则结束选择优选群体集合，若未达到目标任务值，继续进行下一轮优选群体集合的选择；

直到t时刻为止，判断优选群体集合所获得实际奖励回报值总和是否超过设定任务的目标值，若优选群体集合所获得实际奖励回报值总和超过包括等于设定任务的目标值，则认为达到目标值；若优选群体集合所获得实际奖励回报值总和小于设定任务的目标值，则认为未达到目标值，继续进行下一组优选群体集合的选择。

本发明实施例提供的方法，通过引入动作空间，将个体作为智能体来考虑而非“简单个体”，通过设置选择概率阈值或者待选择智能体数量规模来确定最优任务的智能体，同时，本发明实施例综合考虑眼前奖励、长远收益、群体奖励最大化进行智能体和动作的联合决策，依据最优潜在奖励回报值确定智能体所对应的动作空间。

以蚁群算法为例，现介绍共识主动性的寻优方法，确定最优的任务分配策略，即将长度不等的任务按照某种策略分配给处理能力各异的服务器节点，将完成所有任务达到目标需要的群体规模作为评价指标，具体步骤如下：初始随机设定任务分配给节点的信息素浓度，将每个任务循环分配给某一个节点，直到所有任务分配完毕。每只蚂蚁将所有任务分配给节点，直到所有蚂蚁分配完毕。每完成一次迭代，信息素浓度进行衰减，在一次迭代进行过程中，信息素浓度保持不变。在一次迭代完成后，蚂蚁的任务分配路径增加信息素浓度，同样在迭代进行过程中，信息素浓度保持不变。整个蚁群算法过程中，每一次迭代完成后，都会产生一个“局部最优解”，随着迭代次数的增加，局部最优解接近于全局最优解。通过限制迭代次数或者设置允许的误差范围，停止迭代。

本发明相比于上述如蚁群算法的已有群体智能启发式算法，具有很强的鲁棒性和搜索较好解的能力。本发明是分布式的优化算法，既适用于串行计算机，又适用于并行计算机，适用于第六代移动通信(6G)系统即将部署的CRAS尤其是无人机传输系统、自主无人机群的分布式新场景。群体智能系统中组成集群的个体完全可以同时在不同的地方执行不同的行为。同时，并行性也决定了群体智能具有较强的环境适应能力，不会由于若干个个体出现故障而影响群体对整个问题的求解。由于集群系统由许多可互换的个体组成，没有负责控制整个系统行为的智能体，所以失败的个体很容易被其他正常运作的个体所取代，去中心化和自组织使容错性成为集群智能的固有属性。此外，个体之间采用间接通信，降低数据传输的威胁程度。

图2为本发明另一实施例提供的基于距离权重因子调节下的共识主动学习算法的流程示意图，如图2所示，预先确定的任务为多个待分配任务，任务数量远远大于候选智能体的整体数量规模，包括如下步骤：

步骤210，初始化智能体群体的数量规模，待完成任务的目标值，待选择群体的数量规模，每个智能体获取的实际奖励值，每个智能体的能力值，智能体的初始状态值，待完成任务的数量，任务的完成度以及学习率、启发式因子参数、迭代次数。

步骤220，计算每个智能体被选择的概率值，选出一定数量规模的智能体构成优选群体集合，优选群体集合中的智能体构成执行任务的一个批次。

当有多个任务需要分配给多个智能体完成时，设定任务数量远大于智能体的数量，具体可视总体数量而定，并且在同一时刻的任务分配是相互独立的，计算每个智能体被选择的概率，计算每个智能体被选择的概率，采用如下公式：

表示在t时刻第i个智能体对于第j个任务的状态值；

和

的相对重要程度。

步骤230，基于所述智能体的优选群体集合，开始执行行动获得各自的奖励回报值。

优选群体截止到t时刻为完成第j个任务的累加奖励之和为截止到上一时刻(即t-1时刻，包括t-1时刻)为止为完成第j个任务累加奖励之和加上此时刻即t时刻优选群体为完成第j个任务的奖励值，优选群体在t时刻的奖励值为完成第j个任务的智能体集合的奖励值之和，其计算公式如下：

其中，S_j(t)表示t时刻参与到第j个任务的智能体集合,r_m,j(t)表示t时刻参与任务的第m个智能体在第j个任务中获得的奖励回报值，奖励回报值代表第m个智能体完成第j个任务的效用值，与误差值的大小成反比,R_j(t)表示第t时刻对于第j个任务的累计回报值。

步骤240，基于所述智能体优选群体集合的奖励回报值，更新自身的动作对应的潜在奖励值，进而影响下一步动作的选择；

步骤241，依据优选群体集合的奖励回报值，更新自身的动作对应的潜在奖励值，进而影响下一步动作的选择，其更新公式如下：

q'_m(θ(t),a)＝(1-α)q_m(θ(t),a)+α[r_m(θ(t),a)+γ*maxq_m(θ_t+1,a)]……(24),

其中，q_m(θ(t),a)表示t时刻采取行动前对应的潜在奖励值，q'_m(θ(t),a)为采取行动获得实际奖励回报值后更新的潜在奖励值，r_m(θ(t),a)表示采取行动后获得的实际奖励回报值,α表示学习速率，学习速率的值越小，则保留之前训练结果越少，学习速率的值越大，则保留之前训练结果越多，γ值表示重视以往经验程度，γ值越大，越会重视以往经验，相反，γ值越小，越会重视眼前收益。

步骤242，依据更新自身的动作对应的潜在奖励值，进而影响下一步动作的选择，选择最大的潜在奖励值对应的动作。

a'＝argmaxq'_m(θ(t),a)……(25),

步骤250，基于所述智能体优选群体集合的奖励回报值，更新任务完成度、自身状态值以及被选择的概率值；

步骤251，更新任务完成度为奖励总和除以设定的目标值，其计算公式如下：

s_j(t)＝R_j(t)/T_j……(26),

其中，T_j表示第j个任务的期望回报值，R_j(t)表示到t时刻优选智能体集合获得的实际奖励回报值总和，s_j(t)表示第j个任务的任务完成程度。

步骤252，在t-1时刻参与任务的各个智能体将根据回报值来更新各自的状态值，状态值的更新公式如下：

θ_i,j(t)＝θ_i,j(t-1)+Δθ_i,j(t)……(27),

其中，θ_i,j(t-1)表示在t-1时刻第i个智能体完成第j项任务时的状态值，θ_i,j(t)表示在t时刻第i个智能体完成第j项任务时的状态值，Δθ_i,j(t)表示在t时刻第i个智能体完成第j项任务时的状态改变值，|S_j(t)|是完成第j项任务时优选群体中的智能体规模，q_m,j(t)表示完成第j项任务时优选群体中的每个智能体在t时刻的潜在奖励回报值，q_i,j(t)表示完成第j项任务时优选群体中的第i个智能体在t时刻的潜在奖励回报值。

步骤253，当有多个任务需要分配给多个智能体完成时，假设任务数量远大于智能体的数量，具体可视总体数量而定，并且在同一时刻的任务分配是相互独立的，计算每个智能体被选择的概率，计算每个智能体被选择的概率，采用如下公式：

表示在t时刻第i个智能体对于第j个任务的状态值；

和

的相对重要程度。

步骤260，基于所述智能体的优选群体集合更新的任务完成度、自身状态值以及被选择的概率值，判断优选群体中的智能体与其他智能体的状态值的影响方向和自身的更新方向是否一致，依据判断结果来更新它们之间的距离；

优选群体中的智能体判断来自其他智能体的状态值的影响方向和自身的更新方向是否一致，依据判断结果来更新优选群体中的智能体和其他智能体之间的距离。

步骤261，优选群体中的智能体将以往经验和动作的潜在奖励计算Q值，进而计算自身状态值的改变量与距离权重因子相乘后发送给当前层内所有其他智能体，进而影响其他智能体。每一次迭代之后，智能体之间的距离将会得到更新，意味着作用权重也会更新。具体的，每个智能体将根据自身状态值在t时刻的改变量Δθ_i,j(t)和优选群体中除自身智能体之外的其他所有智能体之间的状态值改变量Δθ_k,j(t-1)来调整彼此之间的作用距离。以第i和第k个智能体为例，作用调整的调整方式如下：

φ＝Δθ_i,j(t)·Δθ_k,j(t-1)……(31),

步骤262，在作用权重的影响下，智能体状态值的更新不仅受到自身回报值的影响值的影响，还将受到优选群体中除自身智能体之外的其他所有智能体状态值改变的影响。具体优选群体中每个智能体的状态值的进一步更新为：

ρ₂是标量调节函数，设置为1，或者是0到1之间的小数。

步骤270，判断是否达到全部任务目标值，当全部任务已达到目标任务值则结束选择优选群体集合，当未达到全部目标任务值，继续进行下一轮优选群体集合的选择。

直到t时刻为止，判断优选群体集合所获得实际奖励回报值总和是否超过设定任务的目标值，当优选群体集合所获得实际奖励回报值总和超过包括等于设定任务的目标值，则认为达到目标值；当优选群体集合所获得实际奖励回报值总和小于设定任务的目标值，则认为未达到目标值，继续进行下一组优选群体集合的选择。当全部任务均已达到目标值，表明全部任务已完成；当只完成个别任务，则继续进行下一任务分配的优选智能体集合的选择。

图3为共识主动学习机制的示意图。其中，智能体之间不进行直接交流，当其中一个智能体开始接受外界输入，智能体开始进行自身的动作选择，获得环境给予的反馈奖励，更新智能体自身状态值和潜在奖励的同时，将获得奖励反馈情况匿名留在环境中，其他智能体在学习自身历史“奖励”反馈的同时，亦可学习来自前人遗留信息素中的“奖励”反馈。各智能体的输出受到输入强度影响，同时随着智能体之间的距离的增加，智能体彼此之间的影响权重因子减小，基于上述的环境奖励反馈机制和距离调节权重因子来实现智能体之间的交叉调控，智能体在不同场景中可有不同的定义，例如能用来解决任务分配和协作问题。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的范围内，能够轻易想到的变化或替换，都应涵盖在本发明权利要求的保护范围。

Claims

1.一种共识主动学习的群体智能方法，其特征在于，包括以下步骤：

步骤1，初始化智能体群体的数量规模、待完成任务的目标值、待选择群体的数量规模、每个智能体获取的实际奖励值、每个智能体的能力值、智能体的初始状态值、任务的完成度或紧急程度以及学习率、启发式因子参数、迭代次数；

步骤2，基于初始化智能体群体以及所有智能体的初始状态值，计算每个智能体被选择的概率值，选出设定数量规模的智能体构成优选群体集合，优选群体集合中的智能体构成执行任务的一个批次；

其中，S_j(t)表示t时刻参与到第j个任务的智能体集合，r_m,j(t)表示t时刻参与任务的第m个智能体在第j个任务中获得的回报值，回报值可代表第m个智能体完成第j个任务的效用值，与误差值的大小成反比，R_j(t)表示第t时刻对于第j个任务的累计回报值；

步骤4，基于所述智能体优选群体集合的奖励回报值，更新自身的动作对应的潜在奖励值，进而影响下一步动作的选择；

步骤5，基于所述智能体优选群体集合的奖励回报值，更新任务完成度、自身状态值以及被选择的概率值；

其中，ρ₂是标量调节函数，设置为1，或者是0到1之间的小数；

步骤8，判断是否达到任务目标值，当已达到目标任务值则结束选择优选群体集合，当未达到目标任务值，继续进行下一轮优选群体集合的选择。

2.根据权利要求1所述的一种共识主动学习的群体智能方法，其特征在于，所述步骤2包括以下步骤：

步骤201，当有多个任务需要分配给多个智能体完成时，假设任务数量远大于智能体的数量，具体可视总体数量而定，在同一时刻的任务分配是相互独立的，计算每个智能体被选择的概率，计算每个智能体被选择的概率，采用如下公式(1)：

表示在t时刻第i个智能体对于第j个任务的状态值；

和

的相对重要程度；

步骤202，选出设定数量规模的智能体构成优选群体集合，具体数量视智能体的整体数量规模而定并且小于整体数量规模，优选群体集合中的智能体构成执行任务的一个批次，根据设定的智能体的优选群体数量规模，将步骤201中每个智能体被选择的概率值按照从大到小的顺序降序排列，选出符合优选群体数量规模的智能体的优选群体集合；

步骤203，选出设定数量规模的智能体构成优选群体集合，具体数量视智能体的整体数量规模而定并且小于整体数量规模，优选群体集合中的智能体构成执行任务的一个批次，根据设定的智能体的优选群体概率值最小阈值，将步骤201中每个智能体被选择的概率值按照从大到小的顺序降序排列，选出满足大于含等于优选群体概率值最小阈值条件的智能体的优选群体集合。

3.根据权利要求1所述的一种共识主动学习的群体智能方法，其特征在于，所述步骤4包括以下步骤：

步骤401，依据优选群体集合的奖励回报值，更新自身的动作对应的潜在奖励值，进而影响下一步动作的选择，其更新公式如下公式(3)：

q'_m(θ(t),a)＝(1-α)q_m(θ(t),a)+α[r_m(θ(t),a)+γ*maxq_m(θ_t+1,a)]......(3),

a'＝argmaxq'_m(θ(t),a)……(4),

4.根据权利要求1所述的一种共识主动学习的群体智能方法，其特征在于，所述步骤5包括以下步骤：

s(t)＝R(t)/T……(5),

其中，T表示任务的期望回报值；

θ_i(t)＝θ_i(t-1)+Δθ_i(t)……(6),

其中，

是第i个智能体t|1时刻的状态值，θ_i(t)是第i个智能体在t时刻的状态值，是第i个智能体在t时刻受优选群体集合的状态改变值，是优选群体中的智能体规模，q_m(t)表示优选群体中的每个智能体在t时刻的潜在奖励回报值，q_i(t)表示优选群体中的第i个智能体在在t时刻的潜在奖励回报值；

的相对重要程度；

其中，p_i，j(t)是第t时刻第i个智能体被选中来参与到第j个任务的概率，任务相当于深度神经网络训练完成的任务；

表示在t时刻第i个智能体对于第j个任务的状态值；

和

的相对重要程度。

5.根据权利要求1所述的一种共识主动学习的群体智能方法，其特征在于，所述步骤6中，优选群体中的智能体将以往经验和动作的潜在奖励计算Q值，进而计算自身状态值的改变量与距离权重因子相乘后发送给当前层内所有其他智能体，进而影响其他智能体，每一次迭代之后，智能体之间的距离将会得到更新，意味着作用权重也会更新，每个智能体将根据自身状态值在t时刻的改变量Δθ_i,j(t)和其他智能体之间的状态值改变量Δθ_k,j(t-1)来调整彼此之间的作用距离，以第i和第k个智能体为例，作用调整的调整方式如下：

φ＝Δθ_i,j(t)·Δθ_k,j(t-1)……(11)。

6.根据权利要求1所述的一种共识主动学习的群体智能方法，其特征在于，所述步骤8中，直到t时刻为止，判断优选群体集合所获得实际奖励回报值总和是否超过设定任务的目标值，当优选群体集合所获得实际奖励回报值总和超过包括等于设定任务的目标值，则认为达到目标值；当优选群体集合所获得实际奖励回报值总和小于设定任务的目标值，则认为未达到目标值，继续进行下一组优选群体集合的选择，当全部任务均已达到目标值，表明全部任务已完成；当只完成个别任务，则继续进行下一任务分配的优选智能体集合的选择。