CN108259608B

CN108259608B - 一种多智能体集群运算方法

Info

Publication number: CN108259608B
Application number: CN201810052321.4A
Authority: CN
Inventors: 马金锋; 马梅; 徐强; 饶凯锋
Original assignee: Research Center for Eco Environmental Sciences of CAS
Current assignee: Research Center for Eco Environmental Sciences of CAS
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2020-07-07
Anticipated expiration: 2038-01-19
Also published as: CN108259608A

Abstract

本发明涉及一种多智能体集群运算方法，其步骤：采用3台商用PC机器，其中一台机器作为集群的master即NameNode节点；另外一台机器作为Secondary NameNode，作为主NameNode的备份，主NameNode负责管理整个文件系统，维护和更新文件的分块、存储信息，监视文件系统的健康状态；剩余集群同时作为TaskTracker和DataNode；多智能体分类；多智能体的构建包括系统中微观个体的识别以及智能体的内部模型的构造；多智能体系统包括环境、结构、通讯和协调四个组成部分；将MAS的某个智能体交互过程映射为一个MR的一个具体任务,即表达为MAS.iter.agent＝MR.job.task；其中，MAS为多智能体系统，MapReduce简写为MR；多智能体可视化。

Description

一种多智能体集群运算方法

技术领域

本发明涉及一种集群运算方法，特别是关于一种多智能体集群运算方法。

背景技术

多智能体系统(MAS，Multi-Agents System)是一种进行复杂系统分析与模拟的思想方法与工具，它利用分布式人工智能领域的最新研究成果，依靠计算机强大的计算能力，采用自下而上的思路，对复杂系统建立模型，模型中的微观个体可具有丰富的属性和接近真实的决策逻辑和行为特征，通过个体之间以及个体与环境之间的相互作用，涌现出系统的宏观特征，从而在微观和宏观之间建立起联系的桥梁。多智能体仿真建模灵活、自然、个体属性和行为不受限制，特别适合对由具有一定智能性微观个体组成的复杂系统进行研究，受到生物学、经济学、社会学等科学的重视。

多智能体系统思想的核心是微观个体的相互作用能够产生宏观的全局格局，其模拟仿真结果的真实性很大程度上取决于智能体的数量。智能体的数量越多、智能体决策和通讯的信息越详细，模拟的结果越接近与现实。一个经典的例子是用数以百万级的人智能体和数以千级的车辆智能体(比如地铁、公交车等)模拟城市交通情况，由于智能体的数量巨大，往往导致模拟时间过长，尤其当硬件故障时，甚至造成计算过程失败。

多智能体仿真工具研发一直是研究的一个热点领域，此类研发侧重不同方面，比如系统的体系结构、可扩展性、效率、容错性和有效性等。许多框架比如Netlogo、ADK、Agent-Builder、AgentFactory、ZASE、JADE、JACK、DMASF、Zeus和MASON等被用于不同应用，但是这些框架均缺乏处理硬件故障能力，SWARM、Repast、JAS和其他广泛应用的框架不能管理多个模拟子系统，因而不具有可扩展性。

当多智能体模拟个数达到一定规模时，分布式集群运算成为一种可行的解决方法。然而现有的集群运算方法存储如下不足：(1)当集群中某台机器发生硬件故障时，整个集群需要重新启动，从而中断整个计算进程；(2)当集群中动态增加或者删除机器时，整个集群需要重新部署并重新启动。两者均给用户维护带来巨大负担，必须寻求一种新的适合多智能体集群运算方法。

发明内容

针对上述问题，本发明的目的是提供一种多智能体集群运算方法，其能有效解决多智能模拟过程中硬件故障问题，集群环境具有可扩展性。

为实现上述目的，本发明采取以下技术方案：一种多智能体集群运算方法，其特征在于包括以下步骤：1)集群环境搭建：采用至少3台商用PC机器，其中一台机器作为集群的master即NameNode节点，当NameNode节点失败时会导致集群失败；选择其中的另外一台机器作为Secondary NameNode，作为主NameNode的备份，主NameNode负责管理整个文件系统，维护和更新文件的分块、存储信息，监视文件系统的健康状态；剩余集群同时作为TaskTracker和DataNode；2)多智能体分类：在多智能体系统中含有两类智能体，一类代表现实行为主体的活动智能体，另一类代表环境或资源不能活动的智能体；3)多智能体构建：多智能体的构建包括系统中微观个体的识别以及智能体的内部模型的构造；系统中微观个体的识别即判断系统中的哪一组成部分可以映射为智能体，智能体的内部模型的构造即智能体的内部结构组成；4)多智能体系统构建：多智能体系统包括环境、结构、通讯和协调四个组成部分；5)多智能体系统与MapReduce作业系统映射：将MAS的某个智能体交互过程映射为一个MR的一个具体任务,即表达为MAS.iter.agent＝MR.job.task；其中，MAS为多智能体系统，MapReduce简写为MR；6)多智能体可视化：模拟结果能在线或者离线展示；对于在线显示，在Reduce任务完成后能触发渲染更新操作。

进一步，所述步骤4)中，环境定义了智能体的运作与生存的基础，它是真实空间在模型空间上的虚拟映射；采用的数据结构包括抽象的网络空间、连续空间以及基于GIS的真实地理空间。

进一步，所述步骤4)中，结构将个体间的关系转化为多智能体的系统模型表达，将现实世界中的个体之间的关系在计算机中进行表达。

进一步，所述步骤4)中，通信作为智能体之间的交互手段，定义了智能体间消息发送与接收机制、消息的内容格式。

进一步，所述步骤4)中，协调实现了智能体之间的协作或者消除冲突。

进一步，所述步骤5)中，多智能体系统与MapReduce作业系统映射过程如下：5.1)多智能体系统中的每一次迭代映射为MapReduce的一个独立作业Job；5.2)多智能体系统中的所有迭代映射为MapReduce的一系列作业Jobs，MapReduce作业调度方式采用先入先出模式；5.3)一次迭代过程对应的独立作业Job中，一个Map类型任务Task映射为多智能体中的一个智能体agent；一个Map Task负责一个agent的行为、交互以及状态更新，Task的个数等于agent的个数；5.4)MapReduce通过对HDFS文件的分布式操作来调度和分发Task,一个Task对应一个HDFS文件，HDFS文件个数等于Task个数；该文件不仅记录了一个agent的描述信息，还记录了该agent与其他agent的通讯信息；5.5)每次迭代过程中即每个Job启动时，Map Task首先读取该Task对应的HDFS文件，更新agent初始状态；然后通过获取该agent与其他agent的交互-通讯信息，根据自主决策过程，更新自身状态信息，并将agent的ID值和状态值作为Key-Value对发送给ReducerTask；5.6)Reducer Task获取到Map Task发送的Key-Value对后，将根据Key即ID值找到相应的HDFS文件，并将新状态值写入该HDFS文件中；5.7)当某台机器发生故障时，作业追踪器JobTracker会将故障机器节点未完成的Task重新分配到剩余的机器，而集群不用重新启动，模拟进程不会中断；5.8)当在集群中增加新机器节点时，作业追踪器JobTracker会将未完成的Task分配到新加机器上，而集群也不需要重新启动，模拟进程也不会中断；5.9)当某台机器的Task发生异常时，任务管理器TaskTracker会将未完成的Task回收到任务队列，重新分发到集群中。

进一步，所述步骤5)中，多智能体创建由HDFS文件实现。

进一步，所述步骤5)中，多智能体的分布式计算分发由JobTracker完成；多智能体的运行监控由TaskTracker完成。

进一步，所述步骤5)中，多智能体之间的通讯由HDFS文件实现，通过HDFS文件共享模式，所有Agent能相互通讯。

进一步，所述步骤5)中，多智能体系统共享信息由分布式缓存实现，通过在所有DataNode上物理拷贝同一缓存，达到信息全局共享。

本发明由于采取以上技术方案，其具有以下优点：1、本发明相比传统多智能体模拟系统，适用于超大规模数量智能体模拟，具有实用性。2、本发明相比传统多智能体模拟系统，能有效解决多智能模拟过程中硬件故障问题，具有容错性。3、本发明相比传统多智能体模拟系统，可以在动态配置多智能体模拟的硬件环境时，不会影响正常计算，因此具有扩展性。4、本发明相比传统多智能体模拟系统，将多智能体系统(MAS)与MapReduce(MR)作业系统映射，有效地解决了目前多智能体模拟计算存在的中断问题。

附图说明

图1为本发明的整体结构示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

本发明提供一种多智能体集群运算方法，其采用Hadoop集群构建多智能体集群运算，当集群中的某个系统运行失败时，集群并不立刻停止，Hadoop自动将未完成的任务重新分配给其他剩余系统。进一步来讲，集群可在运行时动态增加或者删除计算节点而不用中断现有计算进程。因此，在Hadoop集群之上构建多智能体系统集群，可以有效解决硬件故障问题和扩展性问题。其中，Hadoop是一个实现谷歌MapReduce算法的开源云计算框架。

如图1所示，本发明具体包括以下步骤：

1)集群环境搭建：

Hadoop框架由两个主要组成部分构成：Hadoop分布式文件系统HDFS和分布式计算框架DCF。其中HDFS负责数据存储；MapReduce负责专业数据分析方法计算。它们之间分工明确、低度耦合、相关关联。

Hadoop采用传统的主/从框架体系，集群的搭建中采用至少3台商用PC机器，其中一台机器作为集群的master即NameNode节点，当NameNode节点失败时会导致集群失败。为了保障NameNode节点故障时恢复集群运转，选择其中的另外一台机器作为SecondaryNameNode，作为主NameNode的备份。主NameNode负责管理整个文件系统，维护和更新文件的分块、存储信息，监视文件系统的健康状态。为了维护整个文件系统，主NameNode需要在内存磁盘中进行大量的读写操作，因此有可能抢占计算资源，因此通常托管主NameNode的机器不再承担DataNode或者TaskTracker(任务管理器)任务。剩余集群同时作为TaskTracker和DataNode。

2)多智能体分类：

多智能体系统就是由多个可以相互交互的智能体所组成的系统。智能体一般都有一个或多个特征值，智能体之间能够进行交互作用，使得系统整体具有进化、演化和涌现规律。通常在多智能体系统中含有两类智能体，一类代表现实行为主体的活动智能体，另一类代表环境或资源不能活动的智能体。

3)多智能体构建：

多智能体的构建包括：一是系统中微观个体的识别，即判断系统中的哪一组成部分可以映射为智能体；二是智能体的内部模型的构造，即智能体的内部结构组成。从计算角度来看，智能体是一个计算实体，它具有属于自身的资源，不但能够感知环境信息，而且可以根据内部的行为控制机制确定应采取的行动，智能体的行动实施后，将对自身状态和环境状态产生影响。

4)多智能体系统构建：

多智能体系统包括环境、结构、通讯和协调四个组成部分。

环境定义了智能体的运作与生存的基础，它是智能体模型的重要组成部分，是真实空间在模型空间上的虚拟映射。常采用的数据结构包括抽象的网络空间、连续空间以及基于GIS的真实地理空间等等。

结构将个体间的关系转化为多智能体的系统模型表达。将现实世界中的个体之间的关系在计算机中进行表达，比如交通系统中的节点连接关系、组织团体的上下级关系等。

通信作为智能体之间的交互手段，定义了智能体间消息发送与接收机制、消息的内容格式等。

协调实现了智能体之间的协作或者消除冲突。

5)多智能体系统(MAS)与MapReduce(MR)作业系统映射：

MAS与MR映射的核心在于将MAS的每一次迭代过程映射为MR中的一个作业，即表达为MAS.iter＝MR.job，iter表示迭代。在具体的迭代过程中，将MAS的某个智能体交互过程映射为一个MR的一个具体任务,即表达为MAS.iter.agent＝MR.job.task。

多智能体创建由HDFS文件实现。每一个智能体对应一个HDFS文件，Map Task读取该文件实现agent的初始化，根据自主决策过程，更新自身状态信息，并将更新后的最新状态信息发送给Reduce Task，Reducer Task获取到状态信息后更新该HDFS文件。

多智能体的分布式计算分发由JobTracker完成。多个Job代表多次迭代过程，Job调度模式采用FIFO方式，即先入先出模式，保障迭代的顺序执行。

多智能体的运行监控由TaskTracker完成。一个Map Task代表一个agent自主决策过程，当Task故障时，TaskTracker将此故障任务重新分配给其他计算节点，集群不用中断执行，保障集群容错性。

多智能体之间的通讯由HDFS文件实现，通过HDFS文件共享模式，所有Agent可以相互通讯。

多智能体系统共享信息由分布式缓存(Distributed Cache)实现，通过在所有DataNode上物理拷贝同一缓存，达到信息全局共享目的。分布式缓存用于少量信息的全局共享。

6)多智能体可视化：

由于所有的模拟数据存储在HDFS文件中，因此模拟结果的可视化模块非常容易实现。模拟结果可以在线或者离线展示，对于在线显示来说，在Reduce任务完成后可以触发渲染更新操作。

上述步骤5)中，多智能体系统(MAS)与MapReduce作业系统映射过程如下：

5.1)多智能体系统中的每一次迭代映射为MapReduce的一个独立作业(Job)；

5.2)多智能体系统中的所有迭代映射为MapReduce的一系列作业(Jobs)，MapReduce作业调度方式采用先入先出模式(FIFO)，保证了多智能体系统中的迭代按时间顺序执行；

5.3)一次迭代过程对应的独立作业(Job)中，一个Map类型任务(Task)映射为多智能体中的一个智能体(agent)；一个Map Task负责一个agent的行为、交互以及状态更新，Task的个数等于agent的个数；

5.4)MapReduce通过对HDFS文件的分布式操作来调度和分发Task,一个Task对应一个HDFS文件，HDFS文件个数等于Task个数。该文件不仅记录了一个agent的描述信息，比如ID，属性和行为，还记录了该agent与其他agent的通讯信息。

5.5)每次迭代过程中即每个Job启动时，Map Task首先读取该Task对应的HDFS文件，更新agent初始状态；然后通过获取该agent与其他agent的交互-通讯信息，根据自主决策过程，更新自身状态信息，并将agent的ID值和状态值作为Key-Value对发送给ReducerTask；

5.6)Reducer Task获取到Map Task发送的Key-Value对后，将根据Key即ID值找到相应的HDFS文件，并将新状态值写入该HDFS文件中；

5.7)当某台机器发生故障时，作业追踪器(JobTracker)会将故障机器节点未完成的Task重新分配到剩余的机器，实现计算任务负载均衡，而集群不用重新启动，模拟进程不会中断，因此保障集群具有容错性；

5.8)当在集群中增加新机器节点时，作业追踪器(JobTracker)会将未完成的Task分配到新加机器上，实现计算任务负载均衡，而集群也不需要重新启动，模拟进程也不会中断，因此保障集群具有可扩展性。

5.9)当某台机器的Task发生异常时，任务管理器(TaskTracker)会将未完成的Task回收到任务队列，重新分发到集群中，因此保障集群具有很强的容错性。

实施例：

1)集群容错处理

Hadoop具有良好的处理机器故障处理(容错)机制，即能够事后即时监督并及时调整，Google认为机器出现故障是常态，所以在MapReduce系统中充分考虑了故障处理。这里主要包括两个方面：一是具有对任务状态进行监控的能力，能及时获得每个任务执行的状态；二是根据任务的种类(Map任务还是Reduce任务)以及子任务执行的状态(正在执行、已完成、失败)，确定后续处理策略。比如，如果某一个TaskTracker出现故障，JobTracker会将其负责的任务转交给另一个空闲的TaskTrack重新运行。

2)NameNode故障

当数据节点没有收到NameNode节点的心跳消息超过两个默认间隔(1200s)，那么NameNode被认为发生故障。由于NameNode存储的数据定期备份到SecondaryNameNode上，因此NameNode故障不会引起任何数据丢失。探测到NameNode失败的DataNode立刻宣布Secondary NameNode作为主NameNode,由这个新的NameNode承担所有的责任(比如作业调度等)。与此同时，物理上距离新NameNode的DataNode会被选择为新的SecondaryNameNode,承担主NameNode的定期备份任务。

3)Secondary NameNode故障

当NameNode没有收到Secondary NameNode节点返回的心跳信息，那么SecondaryNameNode被认为发生故障。由于Secondary NameNode只是存储主NameNode的备份数据，因此，Secondary NameNode的故障并不会影响整个集群的运行。集群处理的方法也非常简单，主NameNode会选择物理上距离最近的DataNode作为Secondary NameNode，承担SecondaryNameNode的定期备份任务。

4)DataNode故障

当NameNode没有收到DataNode节点返回的心跳信息，那么该DataNode被认为发生故障。在Hadoop集群中，DataNode上的数据默认会在其它DataNode上备份三份，因此数据的恢复非常容易。但是当在DataNode节点执行MapReduce任务时，这些未成功执行的任务将会被重新调度给其它节点。当任务类型是Map时，该任务被重新分配并启动。当任务类型是Reduce时，Map任务不会被重新启动，Map计算的结果会被复制到那些拥有DataNode拷贝数据的节点上，只有Reduce任务被重新分配并启动。

5)动态增加计算节点

NameNode的core-site.xml文件维护所有集群节点的IP详细信息，它定时(默认600s)向其他机器发送心跳信息。当在集群中增加新机器时，只需要将新机器IP加入到core-site.xml文件中。当NameNode发现新加入的IP入口时,它会立刻向此机器赋予HDFS的访问权限，并且重新对工作任务进行负载平衡。因此，集群在新加入机器时，并不需要停止，具有很强的可扩展性。

上述各实施例仅用于说明本发明，各个步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种多智能体集群运算方法，其特征在于包括以下步骤：

1)集群环境搭建：采用至少3台商用PC机器，其中一台机器作为集群的master即NameNode节点，当NameNode节点失败时会导致集群失败；选择其中的另外一台机器作为Secondary NameNode，作为主NameNode的备份，主NameNode负责管理整个文件系统，维护和更新文件的分块、存储信息，监视文件系统的健康状态；剩余集群同时作为TaskTracker和DataNode；

2)多智能体分类：在多智能体系统中含有两类智能体，一类代表现实行为主体的活动智能体，另一类代表环境或资源不能活动的智能体；

3)多智能体构建：多智能体的构建包括系统中微观个体的识别以及智能体的内部模型的构造；系统中微观个体的识别即判断系统中的哪一组成部分可以映射为智能体，智能体的内部模型的构造即智能体的内部结构组成；

4)多智能体系统构建：多智能体系统包括环境、结构、通讯和协调四个组成部分；

5)多智能体系统与MapReduce作业系统映射：将MAS的某个智能体交互过程映射为一个MR的一个具体任务,即表达为MAS.iter.agent＝MR.job.task；其中，MAS为多智能体系统，MapReduce简写为MR；

多智能体系统与MapReduce作业系统映射过程如下：

5.1)多智能体系统中的每一次迭代映射为MapReduce的一个独立作业Job；

5.2)多智能体系统中的所有迭代映射为MapReduce的一系列作业Jobs，MapReduce作业调度方式采用先入先出模式；

5.3)一次迭代过程对应的独立作业Job中，一个Map类型任务Task映射为多智能体中的一个智能体agent；一个Map Task负责一个agent的行为、交互以及状态更新，Task的个数等于agent的个数；

5.4)MapReduce通过对HDFS文件的分布式操作来调度和分发Task,一个Task对应一个HDFS文件，HDFS文件个数等于Task个数；该文件不仅记录了一个agent的描述信息，还记录了该agent与其他agent的通讯信息；

5.5)每次迭代过程中即每个Job启动时，Map Task首先读取该Task对应的HDFS文件，更新agent初始状态；然后通过获取该agent与其他agent的交互-通讯信息，根据自主决策过程，更新自身状态信息，并将agent的ID值和状态值作为Key-Value对发送给Reducer Task；

5.7)当某台机器发生故障时，作业追踪器JobTracker会将故障机器节点未完成的Task重新分配到剩余的机器，而集群不用重新启动，模拟进程不会中断；

5.8)当在集群中增加新机器节点时，作业追踪器JobTracker会将未完成的Task分配到新加机器上，而集群也不需要重新启动，模拟进程也不会中断；

5.9)当某台机器的Task发生异常时，任务管理器TaskTracker会将未完成的Task回收到任务队列，重新分发到集群中；

6)多智能体可视化：模拟结果能在线或者离线展示；对于在线显示，在Reduce任务完成后能触发渲染更新操作。

2.如权利要求1所述的一种多智能体集群运算方法，其特征在于：所述步骤4)中，环境定义了智能体的运作与生存的基础，它是真实空间在模型空间上的虚拟映射；采用的数据结构包括抽象的网络空间、连续空间以及基于GIS的真实地理空间。

3.如权利要求1所述的一种多智能体集群运算方法，其特征在于：所述步骤4)中，结构将个体间的关系转化为多智能体的系统模型表达，将现实世界中的个体之间的关系在计算机中进行表达。

4.如权利要求1所述的一种多智能体集群运算方法，其特征在于：所述步骤4)中，通信作为智能体之间的交互手段，定义了智能体间消息发送与接收机制、消息的内容格式。

5.如权利要求1所述的一种多智能体集群运算方法，其特征在于：所述步骤4)中，协调实现了智能体之间的协作或者消除冲突。

6.如权利要求1所述的一种多智能体集群运算方法，其特征在于：所述步骤5)中，多智能体创建由HDFS文件实现。

7.如权利要求1所述的一种多智能体集群运算方法，其特征在于：所述步骤5)中，多智能体的分布式计算分发由JobTracker完成；多智能体的运行监控由TaskTracker完成。

8.如权利要求1所述的一种多智能体集群运算方法，其特征在于：所述步骤5)中，多智能体之间的通讯由HDFS文件实现，通过HDFS文件共享模式，所有Agent能相互通讯。

9.如权利要求1所述的一种多智能体集群运算方法，其特征在于：所述步骤5)中，多智能体系统共享信息由分布式缓存实现，通过在所有DataNode上物理拷贝同一缓存，达到信息全局共享。