CN1819531A - 基于移动代理的部落式大规模网络故障管理办法 - Google Patents

基于移动代理的部落式大规模网络故障管理办法 Download PDF

Info

Publication number
CN1819531A
CN1819531A CN 200610038964 CN200610038964A CN1819531A CN 1819531 A CN1819531 A CN 1819531A CN 200610038964 CN200610038964 CN 200610038964 CN 200610038964 A CN200610038964 A CN 200610038964A CN 1819531 A CN1819531 A CN 1819531A
Authority
CN
China
Prior art keywords
clan
management
agency
node
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610038964
Other languages
English (en)
Other versions
CN100450027C (zh
Inventor
王汝传
徐喜春
徐小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CNB2006100389640A priority Critical patent/CN100450027C/zh
Publication of CN1819531A publication Critical patent/CN1819531A/zh
Application granted granted Critical
Publication of CN100450027C publication Critical patent/CN100450027C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

基于移动代理的部落式大规模网络故障管理方法是一种在大规模网络环境中进行分布式的网络故障管理方法。主要用于解决大规模网络的故障管理问题,该方法包括创建部落,部署部落,多移动代理协作进行故障管理,通过利用移动代理的移动性,自治性和智能性进行拓扑发现,从而根据网络的拓扑结构进行部落的划分创建,然后由网络管理站派生分发部落管理代理进行部落的部署,这样用于故障管理的代理通过消息通讯可以在同一部落和不同部落之间进行全局的网络故障管理和部落内部的网络故障管理,利用了移动代理的智能性、移动性和自主性等特点进行网络故障管理,极大地提高了故障管理的精度及效率。

Description

基于移动代理的部落式大规模网络故障管理方法
技术领域
本发明是一种在大规模网络环境中进行分布式的网络故障管理方法。主要用于解决大规模网络的故障管理问题,属于分布式计算、计算机网络和人工智能交叉技术应用领域。
背景技术
移动代理技术是随着Internet(因特网)的发展而出现的一种新兴技术,它较好的适应了Internet的特点,有效简化分布式系统的设计、实现和维护。一般来讲,移动代理是指一段独立的计算机程序,它按照一定的规程,能够自主的在异构的网络上移动,代表用户完成特定的任务。移动代理的优势主要有两点:一方面,它实现了计算向所需资源的靠拢,这可以节省网络的带宽并具有异步功能;另一方面,允许程序动态发布到主机。由于移动代理的诸多优点,它在电子商务、网络管理、移动计算、Internet信息的智能检索等方面都有较好的应用前景,对移动代理技术的研究正成为学术界和工业界的热点之一。
故障管理作为网络管理的功能之一,在网络管理中占有核心的地位。目前,大多数故障管理系统都是基于SNMP(Simple Network Management Protocol,简单网络管理协议)协议,但在管理上缺乏足够的灵活性和智能性,随着网络规模的不断扩大,网络应用的增多,集中式的网络故障管理的缺点日益明显,它不易扩充,管理开销大,不适宜构建大型网管系统。近几年,移动代理技术的兴起,给网络管理带来新的思路。移动代理是一独立的软件实体,它具有反应性、自治性、导向目标性和针对环境性等特性外,还具有移动性,可在异构的软、硬件网络环境中移动,代表用户完成指定的任务。移动代理计算模式能有效地降低分布式计算中的网络负载、提高通信效率、支持断连操作、支持异步自主交互、可动态适应网络环境。移动代理计算模式集中了客户/服务器模式、分布式对象技术、移动代码技术等传统分布式技术的优点,并结合分布式人工智能技术提供了一个普遍的、开放的、综合的、简便的分布式应用开发框架。基于移动代理的网络故障管理利用移动代理的移动性、智能性和灵活性,通过对整个网络进行本地和全局的故障监测、告警和排除,能够对网络实施高效、实时和准确的故障管理,而且移动代理的平台无关性又可方便地实现跨平台的网络管理,在复杂的大规模网络的管理方面有着极大的优势。
发明内容
技术问题:本发明的目的是提供一种基于移动代理的部落式大规模网络故障管理方法。在大规模网络中,可以通过创建多个管理域实现网络管理任务的分布,将每个管理域作为一个部落,模拟人类社会行为,每个部落的管理任务由一系列移动代理来具体完成,它摆脱了传统的集中式网络管理的羁绊,利用了移动代理的智能性、移动性和自主性等特点进行网络故障管理,极大地提高了故障管理的精度及效率。
技术方案:本发明所采用的发明方法是采取“分而治之”的策略,按设备的相互关系(如地理位置相邻关系)划分和组织管理域,管理域的划分可采用子网划分的原则,即将不同的子网划分到不同的管理域当中,也可以采用地理区域划分的原则,按不同的地理位置划分相应的区域。所有的管理域通过一个网络管理控制台来进行控制。在每一个管理域中指派一个节点作为子管理站,管理域与管理域之间,管理站与子管理站之间以及管理域内部的信息交互可由移动代理之间的消息传递来完成,在每一个管理域内部通过代理协作进行自主的网络管理。因此,每一个管理域都可以看成是一个“部落”,部落式的网络故障管理充分利用了移动代理的自主性,移动性和智能性,进一步平衡了分布管理与本地处理的负担,在大规模动态变化的大规模网络管理中起到不可低估的作用。
一、体系结构
本发明所述的基于移动代理的部落式大规模网络故障管理体系结构包括代理执行环境,用于故障管理的移动代理和网络故障管理应用。代理执行环境是支撑交互代理的基础设施,它创造一个位置透明、便于控制、安全可靠的运行环境,为故障管理代理提供各种功能支持,包括创建、运行、挂起、终止、传送、接收和保护。故障管理代理作为一个具有智能性和自主性的软件实体,利用代理执行环境所提供的服务做出适当的反应,根据具体的管理任务需要随时随处迁移,为网络故障的发现定位和排除提供全方位和灵活的支持。网络故障管理应用基于不同类型的移动代理来完成不同的故障管理任务。
所述的基于移动代理的部落式大规模网络故障管理方法中,移动代理运行于动态环境,在所属的部落中或者在不同的部落之间具有高度的自治能力,模拟人类社会的交互行为和关系,具有一定的智能并自主运行。
二、方法流程
本发明方案是利用移动代理的移动性将全网进行划分,按照分治策略实现各子网的故障管理,利用移动代理携带数据和交互特性对各子网运行状态信息进行汇总分析从而达到全网管理的目的;该方法包括创建部落,部署部落,多移动代理协作进行故障管理,通过利用移动代理的移动性,自治性和智能性进行拓扑发现,从而根据网络的拓扑结构进行部落的划分创建,然后由网络管理站派生分发部落管理代理进行部落的部署,这样用于故障管理的代理通过消息通讯可以在同一部落和不同部落之间进行全局的网络故障管理和部落内部的网络故障管理,步骤如下:
创建部落:收集拓扑信息是创建部落的前提。在管理站创建驻留代理和节点发现代理用于网络拓扑信息收集,当子网拓扑结构获得以后,管理站根据一定的策略来划分部落;
部署部落:给每个部落指定一个子管理站和部署部落管理代理和必需的子代理;
多移动代理协作进行故障管理:同一部落或不同部落的代理之间通过消息通讯,协商共同进行故障管理,主要包括全局的网络故障管理和部落内部的网络故障管理;
创建部落的方法为:
1)在管理站创建驻留代理和节点发现代理,节点发现代理将管理站的地址作为其主地址,并通过创建节点的相关信息更新自身,
2)节点发现代理在管理站通过访问地址解析协议缓存表进行资源发现,获得一张初始地址表;同时,根据所发现的节点数确定其漫游时间参数,确定在任一节点代理能被复制的次数k,这两个参数用来控制网络搜索的深度和广度;3)代理自我复制多次,使得代理能被派遣到每个节点处;
4)到达每个节点处后,节点发现代理的漫游时间参数开始计时,根据代理本身携带的创建点相关信息更新该节点,并根据当前节点更新本身;如果两个来自于同一创建点的代理相继到达该节点,则后来的代理自动销毁;
5)如果漫游时间参数到期,则节点发现代理返回创建节点根据在漫游中得到的所有节点信息来更新创建点信息;如果参数k还未到期,则代理继续复制足够多次并将其派遣到当前节点所知的每一个节点,通过排除先前已知的节点,访问的范围逐渐减少,直到最后完成拓扑发现任务;
6)管理站驻留代理负责发送代理以及收集整理节点返回的拓扑信息以生成子网拓扑结构;当子网拓扑结构获得以后,管理站根据一定的策略来划分部落,所有部落通过一个网络管理控制台进行管理;部落的划分采用子网划分的原则,即将不同的子网划分到不同的部落当中,或采用地理区域划分的原则,按不同的地理位置划分相应的部落由于网络规模的扩大,一个部落又可以被分成若干子部落,就形成了嵌套管理部落,因此划分得到的部落形成一个树形的层次结构,系统将部落视为一种特殊的管理对象进行管理。
所述的部署部落为:每个部落指定一个子管理站,由管理站驻留代理变异出部落管理代理,分别发往每个部落的管理站上,当移动代理到达部落子管理站上之后,创建进行故障管理所必需的子代理:数据采集代理和网络监视代理。
所述的多移动代理协作进行故障管理为:
1)全局的故障管理:
网络管理控制台保存所有部落管理者的地址列表,管理站保持对部落列表的刷新,用于全局故障管理的移动代理包括管理站代理,陷阱接收代理,信使代理,巡行代理;在网络管理控制台有管理站代理,负责维护整个网管系统的全局管理策略,即发放代理和将子网发来的拓扑信息和故障信息进行分析整理;陷阱接收代理负责接收来自网络中的陷阱报文,并且对其进行分析认证,只有通过认证的陷阱报文才会被接收,若成功接收,对陷阱报文进行过滤和解析,进行故障告警并将解析结果存入故障信息库当中;信使代理充当信使的角色,各种配置信息的传送,阈值及其他性能参数的改变等等,都可以通过信使代理来实现;部落管理者代理通常被网络管理控制台创建,当获取网络拓扑信息完毕,便被推送到每个部落,长期驻留在此部落的管理站上,代替上一级的管理者对部落内的设备进行故障管理;巡行代理可以在多个部落的管理者之间迁移,实现位置相关的计算,当巡行代理迁移到某一个部落中,便向与它相邻的网段发送icmp echo消息,记录响应时间,并将现在的响应时间与正常的响应时间对比,进行分析之后保存测量结果,巡行代理直接访问该部落管理服务器,就可以从网络对象数据库中得到该部落的拓扑信息,而不必遍历所有的节点;移动代理返回顶级管理者之后,对所获结果进行综合处理;巡行代理要建立对迁移失败的故障处理机制,即向某部落迁移失败时,能对该失败原因进行分析,并且要绕过故障部落向地址列表中下一节点迁移;查询故障信息的方式有两种:主动信息获取和被动信息获取。主动信息获取:管理站发送查询故障信息请求,子部落管理站发送最近故障信息;被动信息获取:子部落管理站分析域内各节点运行情况,整理后向管理站发送故障管理信息;
2)部落内部的网络故障管理
部落内部的代理包括部落故障管理代理,数据采集代理和网络监视代理;其中部落故障管理代理是父代理,与后面两种代理是主从关系,数据采集代理与网络监视代理是对等关系;
部落管理者代理创建数据采集代理和网络监视代理,把数据采集代理释放到部落的每一个节点上去,成为部落里的“居民”,这些居民驻留在本地进行监测,规定该数据采集代理每隔一定时间间隔,把收集到的数据统计分析,在发现异常时,向部落管理站报警,并且每隔一段时间向子管理站发送“alive”消息,报告当前节点的活动情况,子管理站代理可以定义超时的时限,如果某个节点在时限允许时间内没有发送消息,则认为该节点出现连接故障,子管理站代理向该节点进行连通性测试,根据测试的结果来被被管节点做出判断;网络监视代理负责本部落的成员更新,记录新加入或者是刚离开部落的节点,保存到子管理站的部落成员列表里面,等待提交给网络搜索代理,子管理站代理每隔一段时间将故障报告提交给顶级管理站代理。
有益效果:本发明所述的基于移动代理的部落式大规模网络故障管理方法中,将被管网络抽象成为一个个部落,所有的负载均匀分布到每个子系统当中去,顶级管理站只需与所有部落管理站进行交互,减小了管理的范围,部落内部利用移动代理协作实行自治的故障管理,实现最大限度的分布式计算,综合了集中式和分布式网管的优点,充分利用子系统中的计算资源来进行智能化的分布式网络故障管理。具体来说,本发明所述的方法具有如下的有益效果:
(1)部落式的大规模网络故障管理模型能够较好地克服集中式组织模型的缺点,具有良好的可扩展性,当网络规模扩大时,可以通过创建多个部落实现网络故障管理任务的分布。这种网管模型引起的带宽开销主要集中在部落内部,部落管理者只有在必要时才向高级管理者发送其感兴趣的信息。基于移动代理的网络计算对网络的带宽要求低,具有无连接性和在线服务的可扩充性等特点。
(2)本发明所述的部落式大规模网络故障管理方法中采用多移动代理协作共同完成对网络故障的监视,告警,定位和排除,相对于单一代理系统而言,多移动代理系统具有如下优点:任务的分布、快速求解问题、减少通信流量、增加安全性、增加灵活性、增加可靠性等等。代理之间可以进行通信,所以在大规模网络环境中可以通过移动代理建立起透明的网络分布式交互,增强了多移动代理协作的可操作性和系统运行的可靠性。
(3)本发明所述的部落式网络故障管理方法中,在划分部落时需要考虑实际的网络拓扑关系。本发明采用的是基于移动代理的大规模网络资源发现算法,如图1所示,该方法减少了网络管理对带宽的要求,提高了资源发现的效率,更适合于当今在地理上越来越分布的网络环境。
(4)本发明所述的基于移动代理的大规模网络故障管理方法中,顶级管理者作为部落中唯一的管理者对整个部落进行集中式的管理,但管理范围大大缩小。子网的拓扑结构没有被破坏,并且在部落中进行管理时并不考虑实际网络的拓扑关系,部落管理者对部落中的各个物理对象进行统一的管理。
(5)本发明所述的基于移动代理的部落式网络故障管理方法中,即使某个部落或者部落内部某个节点脱离网络,由于移动代理的自治性,用于故障管理的代理仍可以离线工作,与顶级管理者连接失败的部落仍可以进行独立的故障管理,增强了故障管理系统的健壮性和可伸缩性。
(6)本发明所述的基于移动代理的大规模网络故障管理方法中,采用部落式的组织模型可以将故障定位到具体的部落当中,防止故障的蔓延,将原本完全或者大部分由网管站完成的计算任务分布到网络各节点上,变传输数据为传输计算,从而减轻了网管站的计算负载,提高了网络管理功能的灵活性和可重构性,加之移动代理可嵌入、扩充智能知识库,增强了网络故障管理的准确性和高效性。
附图说明
图1基于移动代理的部落式大规模网络故障管理流程示意图。
图2是部落式大规模网络故障管理组织模型示意图。
具体实施方式
下面结合附图对本发明的某些实施例作更详细的描述。
一、部落的创建
创建部落的前提是要对被管理网络进行拓扑发现,明确子网间的组成关系才可以进行部落的划分。拓扑发现是配置管理的基础,故障管理的核心,它是形成部落式网络管理的前提。移动代理具有自治性,具有学习功能,并且可以离线工作,可以迅速的复制和派遣移动代理到网络中的任意节点,在发现过程中即使一些代理被销毁,其他的代理也可以继续处理,可以保证资源发现任务可以被最快的完成,其具体步骤如下:
(1)在管理站创建驻留代理和节点发现代理,节点发现代理将管理站的地址作为其主地址,并通过创建节点的相关信息更新自身。
(2)节点发现代理在管理站首先要通过访问ARP缓存来进行资源发现,获得一张初始地址表。同时,根据所发现的节点数确定其漫游时间参数TTL(Time To Live),确定在任一节点代理能被复制的次数k,这两个参数用来控制网络搜索的深度和广度。
(3)代理自我复制多次,使得代理能被派遣到每个节点处。
(4)到达每个节点处后,节点发现代理的漫游时间参数TTL开始计时,根据代理本身携带的创建点相关信息更新该节点,并根据当前节点更新本身。如果两个来自于同一创建点的代理相继到达该节点,则后来的代理自动销毁。这样可以使得保持信息更新的同时避免来自于同一创建点的代理对节点的重复处理,减少网络负担。
(5)如果参数TTL到期,则节点发现代理返回创建节点根据在漫游中得到的所有节点信息来更新创建点信息。如果参数k还未到期,则代理继续复制足够多次并将其派遣到当前节点所知的每一个节点。通过排除先前已知的节点,访问的范围逐渐减少,直到最后完成拓扑发现任务。
(6)重复步骤(4)。
(7)管理站驻留代理负责发送代理以及收集整理节点返回的拓扑信息以生成子网拓扑结构。当子网拓扑结构获得以后,管理站根据一定的策略来划分部落,所有部落通过一个网络管理控制台进行管理。部落的划分可采用子网划分的原则,即将不同的子网划分到不同的部落当中,也可以采用地理区域划分的原则,按不同的地理位置划分相应的部落由于网络规模的扩大,有时一个部落又被分成若干子部落,就形成了嵌套管理部落,因此划分得到的部落形成一个树形的层次结构。系统将部落视为一种特殊的管理对象进行管理。
二、部落的部署
每个部落指定一个子管理站,由管理站驻留代理变异出部落管理代理,分别发往每个部落的管理站上,当移动代理到达部落子管理站上之后,创建进行故障管理所必需的子代理:数据采集代理和网络监视代理。
三、多代理协作进行网络故障管理
1.全局的故障管理
网络管理控制台保存所有部落管理者的地址列表,管理站保持对部落列表的刷新。用于全局故障管理的移动代理包括管理站代理,trap接收代理,信使代理,巡行代理。
在网络管理控制台有管理站代理,负责维护整个网管系统的全局管理策略,主要是发放代理和将子网发来的拓扑信息和故障信息进行分析整理。
trap接收代理负责接收来自网络中的trap报文,并且对其进行分析认证,只有通过认证的trap报文才会被接收,若成功接收,对trap报文进行过滤和解析,进行故障告警并将解析结果存入故障信息库当中。
信使代理:充当信使的角色,负责给各部落传送各种配置信息或者改变阈值及其他性能参数等等,都可以通过信使agent来实现。
部落管理者代理:通常被网络管理控制台创建,当获取网络拓扑信息完毕,便被推送到每个部落,长期驻留在此部落的管理站上,代替上一级的管理者对部落内的设备进行故障管理。
巡行代理:可以在多个部落的管理者之间迁移,实现位置相关的计算,当巡行代理迁移到某一个部落中,便向与它相邻的网段发送icmp echo消息,记录响应时间,并将现在的响应时间与正常的响应时间对比,进行分析之后保存测量结果,巡行代理直接访问该部落管理服务器,就可以从网络对象数据库中得到该部落的拓扑信息,而不必遍历所有的节点,大大节省了拓扑发现的时间。移动代理返回顶级管理者之后,对所获结果进行综合处理。巡行代理要建立对迁移失败的故障处理机制,即向某部落迁移失败时,能对该失败原因进行分析,并且要绕过故障部落向地址列表中下一节点迁移。
查询故障信息的方式有两种:主动信息获取和被动信息获取。主动信息获取:管理站发送查询故障信息请求,子部落管理站发送最近故障信息;被动信息获取:子部落管理站分析域内各节点运行情况,整理后向管理站发送故障管理信息。
2.部落内部的网络故障管理
部落内部的代理包括部落故障管理代理,数据采集代理和网络监视代理。其中部落故障管理代理是父代理,与后面两种代理是主从关系;数据采集代理与网络监视代理是对等关系。
部落管理者代理创建数据采集代理和网络监视代理,把数据采集代理释放到部落的每一个节点上去,成为部落里的“居民”,这些居民驻留在本地进行监测,规定该数据采集代理每隔一定时间间隔,把收集到的数据统计分析,在发现异常时,向部落管理站报警,并且每隔一段时间向子管理站发送“alive”消息,报告当前节点的活动情况,子管理站代理可以定义超时的时限,如果某个节点在时限允许时间内没有发送消息,则认为该节点出现连接故障,子管理站代理向该节点进行连通性测试,根据测试的结果来被被管节点做出判断。网络监视代理负责本部落的成员更新,记录新加入或者是刚离开部落的节点,保存到子管理站的部落成员列表里面。等待提交给网络搜索代理。
子管理站代理每隔一段时间将故障报告提交给顶级管理站代理。
本发明建立在移动代理系统的基础上,具体的实施方式为:
1、创建代理执行环境,组成分布式网络管理环境
每一个被管理网络节点都建立代理执行环境。代理执行环境和大规模网络组成一个分布式的网络管理环境。
2、创建管理站代理,进行部落的创建
创建部落的前提是要对被管理网络进行拓扑发现,明确子网间的组成关系才可以进行部落的划分。拓扑发现是配置管理的基础,故障管理的核心,它是形成部落式网络管理的前提。移动代理具有自治性,具有学习功能,并且可以离线工作,可以迅速的复制和派遣移动代理到网络中的任意节点,在发现过程中即使一些代理被销毁,其他的代理也可以继续处理,可以保证资源发现任务可以被最快的完成,其具体步骤如下,如图1描述:(1)在管理站创建驻留代理和节点发现代理,节点发现代理将管理站的地址作为其主地址,并通过创建节点的相关信息更新自身。
(2)节点发现代理在管理站首先通过访问ARP缓存来进行资源发现,获得一张初始地址表。同时,根据所发现的节点数确定其漫游时间参数TTL(Time ToLive),确定在任一节点代理能被复制的次数k,这两个参数用来控制网络搜索的深度和广度。
(3)代理自我复制多次,使得代理能被派遣到每个节点处。
(4)到达每个节点处后,节点发现代理的漫游时间参数TTL开始计时,根据代理本身携带的创建点相关信息更新该节点,并根据当前节点更新本身。如果两个来自于同一创建点的代理相继到达该节点,则后来的代理自动销毁。这样可以使得保持信息更新的同时避免来自于同一创建点的代理对节点的重复处理,减少网络负担。
(5)如果参数TTL到期,则节点发现代理返回创建节点根据在漫游中得到的所有节点信息来更新创建点信息。如果参数k还未到期,则代理继续复制足够多次并将其派遣到当前节点所知的每一个节点。通过排除先前已知的节点,访问的范围逐渐减少,直到最后完成拓扑发现任务。
(6)管理站驻留代理负责发送代理以及收集整理节点返回的拓扑信息以生成子网拓扑结构。当子网拓扑结构获得以后,管理站根据一定的策略来划分部落,所有部落通过一个网络管理控制台进行管理。部落的划分可采用子网划分的原则,即将不同的子网划分到不同的部落当中,也可以采用地理区域划分的原则,按不同的地理位置划分相应的部落由于网络规模的扩大,有时一个部落又被分成若干子部落,就形成了嵌套管理部落,因此划分得到的部落形成一个树形的层次结构。系统将部落视为一种特殊的管理对象进行管理。
3、部落的部署
每个部落指定一个子管理站,由管理站驻留代理变异出部落管理代理,分别发往每个部落的管理站上,当移动代理到达部落子管理站上之后,创建进行故障管理所必需的子代理:数据采集代理和网络监视代理。
4、多移动代理协作进行网络故障管理
具体步骤如下,如图2描述:
1.全局的故障管理
网络管理控制台保存所有部落管理者的地址列表,管理站保持对部落列表的刷新。用于全局故障管理的移动代理包括管理站代理,trap接收代理,信使代理,巡行代理。
在网络管理控制台有管理站代理,负责维护整个网管系统的全局管理策略,主要是发放代理和将子网发来的拓扑信息和故障信息进行分析整理。
trap接收代理负责接收来自网络中的trap报文,并且对其进行分析认证,只有通过认证的trap报文才会被接收,若成功接收,对trap报文进行过滤和解析,进行故障告警并将解析结果存入故障信息库当中。
信使代理:充当信使的角色,各种配置信息的传送,阈值及其他性能参数的改变等等,都可以通过信使agent来实现。
部落管理者代理:通常被网络管理控制台创建,当获取网络拓扑信息完毕,便被推送到每个部落,长期驻留在此部落的管理站上,代替上一级的管理者对部落内的设备进行故障管理。
巡行代理:可以在多个部落的管理者之间迁移,实现位置相关的计算,当巡行代理迁移到某一个部落中,便向与它相邻的网段发送icmp echo消息,记录响应时间,并将现在的响应时间与正常的响应时间对比,进行分析之后保存测量结果,巡行代理直接访问该部落管理服务器,就可以从网络对象数据库中得到该部落的拓扑信息,而不必遍历所有的节点,大大节省了拓扑发现的时间。移动代理返回顶级管理者之后,对所获结果进行综合处理。巡行代理要建立对迁移失败的故障处理机制,即向某部落迁移失败时,能对该失败原因进行分析,并且要绕过故障部落向地址列表中下一节点迁移。
查询故障信息的方式有两种:主动信息获取和被动信息获取。主动信息获取:管理站发送查询故障信息请求,子部落管理站发送最近故障信息;被动信息获取:子部落管理站分析域内各节点运行情况,整理后向管理站发送故障管理信息。
2.部落内部的网络故障管理
部落内部的代理包括部落故障管理代理,数据采集代理和网络监视代理。其中部落故障管理代理是父代理,与后面两种代理是主从关系;数据采集代理与网络监视代理是对等关系。
部落管理者代理创建数据采集代理和网络监视代理,把数据采集代理释放到部落的每一个节点上去,成为部落里的“居民”,这些居民驻留在本地进行监测,规定该数据采集代理每隔一定时间间隔,把收集到的数据统计分析,在发现异常时,向部落管理站报警,并且每隔一段时间向子管理站发送“alive”消息,报告当前节点的活动情况,子管理站代理可以定义超时的时限,如果某个节点在时限允许时间内没有发送消息,则认为该节点出现连接故障,子管理站代理向该节点进行连通性测试,根据测试的结果来对被管节点做出判断。网络监视代理负责本部落的成员更新,记录新加入或者是刚离开部落的节点,保存到子管理站的部落成员列表里面。等待提交给网络搜索代理。
子管理站代理每隔一段时间主动将故障报告提交给顶级管理站代理。

Claims (4)

1.一种基于移动代理的部落式大规模网络故障管理方法,其特征在于该方法包括创建部落,部署部落,多移动代理协作进行故障管理,通过利用移动代理的移动性,自治性和智能性进行拓扑发现,从而根据网络的拓扑结构进行部落的划分创建,然后由网络管理站派生分发部落管理代理进行部落的部署,这样用于故障管理的代理通过消息通讯可以在同一部落和不同部落之间进行全局的网络故障管理和部落内部的网络故障管理,步骤如下:
创建部落:收集拓扑信息是创建部落的前提。在管理站创建驻留代理和节点发现代理用于网络拓扑信息收集,当子网拓扑结构获得以后,管理站根据一定的策略来划分部落;
部署部落:给每个部落指定一个子管理站和部署部落管理代理和必需的子代理;
多移动代理协作进行故障管理:同一部落或不同部落的代理之间通过消息通讯,协商共同进行故障管理,主要包括全局的网络故障管理和部落内部的网络故障管理;
2.根据权利要求1所述的基于移动代理的部落式大规模网络故障管理方法,其特征在于所述的创建部落的方法为:
1)在管理站创建驻留代理和节点发现代理,节点发现代理将管理站的地址作为其主地址,并通过创建节点的相关信息更新自身,
2)节点发现代理在管理站通过访问地址解析协议缓存表进行资源发现,获得一张初始地址表;同时,根据所发现的节点数确定其漫游时间参数,确定在任一节点代理能被复制的次数k,这两个参数用来控制网络搜索的深度和广度;
3)代理自我复制多次,使得代理能被派遣到每个节点处;
4)到达每个节点处后,节点发现代理的漫游时间参数开始计时,根据代理本身携带的创建点相关信息更新该节点,并根据当前节点更新本身;如果两个来自于同一创建点的代理相继到达该节点,则后来的代理自动销毁;
5)如果漫游时间参数到期,则节点发现代理返回创建节点根据在漫游中得到的所有节点信息来更新创建点信息;如果参数k还未到期,则代理继续复制足够多次并将其派遣到当前节点所知的每一个节点,通过排除先前已知的节点,访问的范围逐渐减少,直到最后完成拓扑发现任务;
6)管理站驻留代理负责发送代理以及收集整理节点返回的拓扑信息以生成子网拓扑结构;当子网拓扑结构获得以后,管理站根据一定的策略来划分部落,所有部落通过一个网络管理控制台进行管理;部落的划分采用子网划分的原则,即将不同的子网划分到不同的部落当中,或采用地理区域划分的原则,按不同的地理位置划分相应的部落由于网络规模的扩大,一个部落又可以被分成若干子部落,就形成了嵌套管理部落,因此划分得到的部落形成一个树形的层次结构,系统将部落视为一种特殊的管理对象进行管理。
3.根据权利要求1所述的基于移动代理的部落式大规模网络故障管理方法,其特征在于所述的部署部落为:每个部落指定一个子管理站,由管理站驻留代理变异出部落管理代理,分别发往每个部落的管理站上,当移动代理到达部落子管理站上之后,创建进行故障管理所必需的子代理:数据采集代理和网络监视代理。
4.根据权利要求1所述的基于移动代理的部落式大规模网络故障管理方法,其特征在于所述的多移动代理协作进行故障管理为:
1)全局的故障管理:
网络管理控制台保存所有部落管理者的地址列表,管理站保持对部落列表的刷新,用于全局故障管理的移动代理包括管理站代理,陷阱接收代理,信使代理,巡行代理;在网络管理控制台有管理站代理,负责维护整个网管系统的全局管理策略,即发放代理和将子网发来的拓扑信息和故障信息进行分析整理;陷阱接收代理负责接收来自网络中的陷阱报文,并且对其进行分析认证,只有通过认证的陷阱报文才会被接收,若成功接收,对陷阱报文进行过滤和解析,进行故障告警并将解析结果存入故障信息库当中;信使代理充当信使的角色,各种配置信息的传送,阈值及其他性能参数的改变等等,都可以通过信使代理来实现;部落管理者代理通常被网络管理控制台创建,当获取网络拓扑信息完毕,便被推送到每个部落,长期驻留在此部落的管理站上,代替上一级的管理者对部落内的设备进行故障管理;巡行代理可以在多个部落的管理者之间迁移,实现位置相关的计算,当巡行代理迁移到某一个部落中,便向与它相邻的网段发送icmp echo消息,记录响应时间,并将现在的响应时间与正常的响应时间对比,进行分析之后保存测量结果,巡行代理直接访问该部落管理服务器,就可以从网络对象数据库中得到该部落的拓扑信息,而不必遍历所有的节点;移动代理返回顶级管理者之后,对所获结果进行综合处理;巡行代理要建立对迁移失败的故障处理机制,即向某部落迁移失败时,能对该失败原因进行分析,并且要绕过故障部落向地址列表中下一节点迁移;查询故障信息的方式有两种:主动信息获取和被动信息获取。主动信息获取:管理站发送查询故障信息请求,子部落管理站发送最近故障信息;被动信息获取:子部落管理站分析域内各节点运行情况,整理后向管理站发送故障管理信息;
2)部落内部的网络故障管理
部落内部的代理包括部落故障管理代理,数据采集代理和网络监视代理;其中部落故障管理代理是父代理,与后面两种代理是主从关系,数据采集代理与网络监视代理是对等关系;
部落管理者代理创建数据采集代理和网络监视代理,把数据采集代理释放到部落的每一个节点上去,成为部落里的“居民”,这些居民驻留在本地进行监测,规定该数据采集代理每隔一定时间间隔,把收集到的数据统计分析,在发现异常时,向部落管理站报警,并且每隔一段时间向子管理站发送“alive”消息,报告当前节点的活动情况,子管理站代理可以定义超时的时限,如果某个节点在时限允许时间内没有发送消息,则认为该节点出现连接故障,子管理站代理向该节点进行连通性测试,根据测试的结果来被被管节点做出判断;网络监视代理负责本部落的成员更新,记录新加入或者是刚离开部落的节点,保存到子管理站的部落成员列表里面,等待提交给网络搜索代理,子管理站代理每隔一段时间将故障报告提交给顶级管理站代理。
CNB2006100389640A 2006-03-21 2006-03-21 基于移动代理的部落式大规模网络故障管理办法 Expired - Fee Related CN100450027C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100389640A CN100450027C (zh) 2006-03-21 2006-03-21 基于移动代理的部落式大规模网络故障管理办法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100389640A CN100450027C (zh) 2006-03-21 2006-03-21 基于移动代理的部落式大规模网络故障管理办法

Publications (2)

Publication Number Publication Date
CN1819531A true CN1819531A (zh) 2006-08-16
CN100450027C CN100450027C (zh) 2009-01-07

Family

ID=36919235

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100389640A Expired - Fee Related CN100450027C (zh) 2006-03-21 2006-03-21 基于移动代理的部落式大规模网络故障管理办法

Country Status (1)

Country Link
CN (1) CN100450027C (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488898A (zh) * 2009-03-04 2009-07-22 北京邮电大学 一种基于多Agent协作的树形快速连接建立方法
CN102014407A (zh) * 2010-12-10 2011-04-13 北京交通大学 一种基于snmp的无线传感器网络域委托代理管理机制
CN102497409A (zh) * 2011-12-08 2012-06-13 曙光信息产业(北京)有限公司 一种云计算系统资源管理的方法
CN102932200A (zh) * 2012-09-21 2013-02-13 东软集团股份有限公司 一种信息流节点处理时限的监控方法及装置
CN103391207A (zh) * 2012-05-08 2013-11-13 上海富欣智能交通控制有限公司 异构的故障管理系统
CN107547228A (zh) * 2016-06-29 2018-01-05 南京联成科技发展股份有限公司 一种基于大数据的安全运维管理平台的实现架构
CN111314099A (zh) * 2018-12-11 2020-06-19 中国移动通信集团重庆有限公司 网络资源监控方法、装置、设备和介质
CN112905993A (zh) * 2021-03-22 2021-06-04 华东师范大学 一种面向大规模网络的分布式密码设备管理系统及构建方法
CN113965623A (zh) * 2021-09-24 2022-01-21 中国人民解放军63880部队 基于移动代理的工业控制网络数据采集系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030161A (ja) * 2001-07-11 2003-01-31 Hitachi Ltd 移動エージェント障害監視方法
TW595161B (en) * 2003-01-07 2004-06-21 Univ Nat Central Network fault diagnostics system employing multi-home interfaces and multi-layer technique and method thereof
CN1674546A (zh) * 2005-03-15 2005-09-28 南京邮电学院 一种大规模网络中基于移动代理的拓扑方案

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488898A (zh) * 2009-03-04 2009-07-22 北京邮电大学 一种基于多Agent协作的树形快速连接建立方法
CN102014407A (zh) * 2010-12-10 2011-04-13 北京交通大学 一种基于snmp的无线传感器网络域委托代理管理机制
CN102497409A (zh) * 2011-12-08 2012-06-13 曙光信息产业(北京)有限公司 一种云计算系统资源管理的方法
CN103391207B (zh) * 2012-05-08 2016-11-16 上海富欣智能交通控制有限公司 异构的故障管理系统
CN103391207A (zh) * 2012-05-08 2013-11-13 上海富欣智能交通控制有限公司 异构的故障管理系统
CN102932200A (zh) * 2012-09-21 2013-02-13 东软集团股份有限公司 一种信息流节点处理时限的监控方法及装置
CN102932200B (zh) * 2012-09-21 2015-02-18 东软集团股份有限公司 一种信息流节点处理时限的监控方法及装置
CN107547228A (zh) * 2016-06-29 2018-01-05 南京联成科技发展股份有限公司 一种基于大数据的安全运维管理平台的实现架构
CN107547228B (zh) * 2016-06-29 2021-01-05 南京联成科技发展股份有限公司 一种基于大数据的安全运维管理平台的实现架构
CN111314099A (zh) * 2018-12-11 2020-06-19 中国移动通信集团重庆有限公司 网络资源监控方法、装置、设备和介质
CN111314099B (zh) * 2018-12-11 2023-04-28 中国移动通信集团重庆有限公司 网络资源监控方法、装置、设备和介质
CN112905993A (zh) * 2021-03-22 2021-06-04 华东师范大学 一种面向大规模网络的分布式密码设备管理系统及构建方法
CN113965623A (zh) * 2021-09-24 2022-01-21 中国人民解放军63880部队 基于移动代理的工业控制网络数据采集系统
CN113965623B (zh) * 2021-09-24 2024-04-05 中国人民解放军63880部队 基于移动代理的工业控制网络数据采集系统

Also Published As

Publication number Publication date
CN100450027C (zh) 2009-01-07

Similar Documents

Publication Publication Date Title
CN1819531A (zh) 基于移动代理的部落式大规模网络故障管理办法
CN110191148B (zh) 一种面向边缘计算的统计函数分布式执行方法及系统
CN113906716B (zh) 雾节点资源的分配
CN104184819B (zh) 多层级负载均衡云资源监控方法
US8751420B2 (en) Generic reasoner distribution of resources using a plurality of shallow reasoners, and a predictor server
Javed et al. Scalable IoT platform for heterogeneous devices in smart environments
JP2015056182A5 (zh)
CN104461740A (zh) 一种跨域集群计算资源聚合和分配的方法
CN104702651A (zh) 一种基于语义的物联网体系架构模型
CN102739802A (zh) 面向业务应用的it集中运维分析系统
Di Modica et al. Resource and service discovery in SOAs: A P2P oriented semantic approach
Keat et al. Scheduling framework for bandwidth-aware job grouping-based scheduling in grid computing
CN111274282A (zh) 一种空气质量挖掘系统、方法及数据采集监控装置
CN113342510A (zh) 一种水电流域应急指挥云边计算资源协同处理方法
WO2021008675A1 (en) Dynamic network configuration
Radhika et al. Middleware approaches for wireless sensor networks: An overview
CN117751567A (zh) 公用设施通信网络的动态处理分发
Taghizadeh et al. An efficient data replica placement mechanism using biogeography-based optimization technique in the fog computing environment
Chen et al. Joint optimization of sensing and computation for status update in mobile edge computing systems
Liu et al. Cyber physical systems: architectures, protocols and applications
CN102355373B (zh) 一种传输网络大汇聚点隐患自动排查的方法和装置
Rani et al. Blockchain-based IoT enabled health monitoring system
CN104333468A (zh) 在EPON中基于WebNMS拓扑发现与管理的方法
CN101051972A (zh) 一种网格资源路由选择方法
Chen Design of computer big data processing system based on genetic algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20060816

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000217

Denomination of invention: Tribal large-scale network fault managment based on mobile agent

Granted publication date: 20090107

License type: Common License

Record date: 20161118

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000217

Date of cancellation: 20180116

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090107

Termination date: 20180321