CN101094119A - 基于快速切换的覆盖网络故障检测与恢复方法 - Google Patents

基于快速切换的覆盖网络故障检测与恢复方法 Download PDF

Info

Publication number
CN101094119A
CN101094119A CNA2007101195399A CN200710119539A CN101094119A CN 101094119 A CN101094119 A CN 101094119A CN A2007101195399 A CNA2007101195399 A CN A2007101195399A CN 200710119539 A CN200710119539 A CN 200710119539A CN 101094119 A CN101094119 A CN 101094119A
Authority
CN
China
Prior art keywords
neighbours
node
neighbor
state table
transmission frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101195399A
Other languages
English (en)
Other versions
CN100539518C (zh
Inventor
徐恪
刘惠山
王海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CNB2007101195399A priority Critical patent/CN100539518C/zh
Publication of CN101094119A publication Critical patent/CN101094119A/zh
Application granted granted Critical
Publication of CN100539518C publication Critical patent/CN100539518C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

基于快速切换的覆盖网络故障检测与恢复方法属于网络数据传输技术领域,其特征在于,在用户节点建立一个包括用于表示连续丢失多少个探测报文才能确定盖节点失效得故障判定数,以及表示该节点代理身份得标志位在内的邻居状态表,用来计算针对所有邻居的探测报文发送频率,并建立一个包括该邻居所发送保活报文个数以及发送频率的邻居维护表,如果在规定的故障判定次数内没有回应探测报文则将该邻居删除,如果被删除的邻居为该区域的代理节点,则进行快速切换和备份节点的选举,以确保在最短时间内保证网络服务的连续性。本发明同时能够在保证覆盖网络可靠性的基础上提高覆盖网络搜索的成功率。

Description

基于快速切换的覆盖网络故障检测与恢复方法
技术领域
基于快速切换的覆盖网络故障检测与恢复方法属于网络数据传输技术领域。
背景技术
通过在用户节点上运行相应的软件并进行配置,覆盖网络就能够为Internet用户提供高可扩展性的大规模分布式应用,这成为推动覆盖网络广泛应用的主要因素。在当前的研究中,一般将重点集中在如何选择一条低延迟或高带宽的覆盖网络路径以提高网络性能。其中包括覆盖网络单播的路径选择,基于测量的端系统组播协议等。但是,当前大部分的研究都隐含地假设覆盖网络应用是独立的,没有考虑各个应用之间因独立管理资源和拥塞控制而导致的流量抖动和网络性能的下降。同时,由于在Internet上搭建的覆盖网络网络链路延迟较大,覆盖网络应用的流量仅是网络中总流量的一小部分,所以每个覆盖网络应用依据感知到的网络状态进行路径选择,无法保证提高整个网络的性能。
同时由于覆盖网络是由稳定程度相对较低的用户主机构成,并且由于没有集中控制节点,主要的故障最终都归结为节点失效,失效的原因可能是该用户退出网络或是相关网路中的路由错误等。在传统的协议设计中,发现节点失效的方法通常比较简单,如在发起通信时检测,或采用定时握手的机制,但是由于网络规模的不断变大,这种方式的效率和自调节性都受到了极大的挑战,同时网络中查找的成功率也将由于故障的不断变多而急剧下降。
本文提出了一种基于快速切换的覆盖网络故障检测与恢复方法,该方法通过一系列节点之间的通讯与计算规则,量化了探测报文的发送频率并提出了结合出错概率与最大可用带宽的代理节点选择与恢复方法,在提高了使覆盖网络的可靠性与服务的稳定性的同时大大提高了覆盖网络中资源查找的成功率。
发明内容
本发明的目的在于提供一种基于快速切换的覆盖网络故障检测与恢复方法。
本发明的特征在于,它依次含有以下步骤:
步骤(1.):用户终端开启后初始化邻居状态表,其中包括:邻居序号,IP地址,故障判定次数,超时时间,以及标志位,其中,邻居序号用来标记所有邻居和个数,其范围为1到65535,IP地址用来唯一的标记该邻居,故障判定次数表示连续丢失多少个探测报文才能判断该节点失效,超时时间为判断该次探测失败的时间长度,标志位为1位10进制数,其中0表示该记录对应的邻居为该子网的代理节点,1表示该记录对应的邻居为该子网的备份代理节点,2代表记录对应的邻居为一般普通节点;
步骤(2.):初始化邻居维护表,其包括邻居IP地址,邻居保活发送频率,其中IP地址用来唯一的标记该邻居,邻居保活发送频率为用于确认该邻居存活而发送的探测报文的发送频率;
步骤(3.):当某个用户终端加入P2P网络以后,首先连接所述子网中的代理节点并获取邻居信息,同时将所述邻居信息写入邻居状态表;
步骤(4.):扫描邻居状态表,对于每个邻居,令α表示其故障判定次数,T为超时时间,ρ为控制负载占总带宽的百分比,在默认状态下ρ取0.01,K为该邻居的保活发送频率,n为邻居个数,K为邻居的保活发送频率单位为:个每秒;并使用公式K=2α/n+αρn+T计算K,计算完毕以后将该值写入邻居维护表的对应位置,并按照该频率发送探测报文;
步骤(5.):如果在探测过程中,发现某邻居没有回复探测报文,则进一步判断该节点的故障判定次数是否等于1,如果不为1,则并将故障判断次数减1,如果为1则将改邻居标记为失效;
步骤(6.):如果所述某节点发现失效邻居在节点邻居状态表中的标志位为0,则说明该子网代理发生故障,所述节点将向邻居状态表中的标志位为1的邻居发送通告报文,让其代替原代理节点进行工作,同时将邻居状态表中该备用代理的标志位设为0;并依次按照以下步骤选择下一个备份代理节点:
步骤(6.1):扫描邻居状态表,得到表中邻居条目下的故障判定次数为q,最大可用带宽为b,其中b为用户的网络接入带宽与当前已使用带宽之差,并使用G=q*b计算所有邻居的优先级G,并将具有最大优先级的节点IP地址广播出去,作为自己向所有邻居节点推荐的新备份代理节点;
步骤(6.2):对收到的IP地址进行记数,并设拥有最多推荐者数量的邻居节点的邻居为新的份代理节点,同时在邻居状态表中的标志位中标记为1;
步骤(7):按照新的邻居状态表重新整理邻居维护表,同时删除已经失效的邻居节点。
为了验证该机制的有效性,我们使用了基于事件驱动的模拟器来进行该机制的评价与实验工作,实验结果显示该发明在网络出现高错误(错误率大于20%的情况下)能够在队列处理长度很小,也就是负载较轻的情况下获得50%以上的查找成功率,具体实验数据见图3与图4。
附图说明
图1.本发明的总体流程;
图2.备份代理节点选择流程;
图3.覆盖网络查找成功率实验数据表;
图4.节点负载分布情况实验数据图;
图5.本发明的应用示例图。
具体实施方式
本发明实现了一种针对原有覆盖网络维护与故障检测方法的改进,使其具备了更强的稳定性并为数据查找提供了更加可靠的网络保障。
本发明的总体流程图见图1.
用户节点通过对邻居状态表的扫描计算不同邻居的维护开销以及探测报文的发送频率,并且,该频率的大小同时间接反映了所述邻居节点的稳定情况,在该发送频率下,用户节点将动态的根据该节点的历史失效信息按照图1的过程动态的改变对该邻居的维护策略。
同时,当某用户节点发现网络中代理节点失效以后,将比较快速的将所有数据传输的任务转交给新的代理节点,并同时按照图2的过程选择新的备份代理节点。
备份代理节点选择流程图见图2.
在该机制设计完毕后我们使用VC7实现了基于事件驱动的模拟器,来进行该机制的实验和评价工作。
使用本方法后覆盖网络查找成功率实验数据表见图3.
图3显示了不同节点故障概率和恢复概率对精确路由查找成功率的影响,同时
我们发现随着节点故障率的增大,对单一副本的查找成功率将大幅度下降。同时如果节点能够被快速恢复,将明显提高查找成功率。根据实验我们可知,查找不成功是因为目标节点故障、查询在故障节点被丢弃、无效路由等原因造成的,同时发现在使用本机制情况下网络的查找成功率是令人满意的
使用本方法后节点负载分布情况实验数据图见图4.
从图4中发现网络中代理节点的负载较一般节点的负载重很多,我们在选择代理节点时需要充分考虑到节点的性能。另外,网络中节点的动态性不会对增加节点的负载。
本发明的应用示例图见图5.
通过对该机制的实验评价我们发现,该机制能够在覆盖网络中增强网络的稳定性,并在此基础上提高网络中资源查找的成功率。
由此可见,本发明达到了预期目的。

Claims (1)

1.基于快速切换的覆盖网络故障检测与恢复方法,其特征在于,所述方法依次含有以下步骤:
步骤(1.):用户终端开启后初始化邻居状态表,其中包括:邻居序号,IP地址,故障判定次数,超时时间,以及标志位,其中,邻居序号用来标记所有邻居和个数,其范围为1到65535,IP地址用来唯一的标记该邻居,故障判定次数表示连续丢失多少个探测报文才能判断该节点失效,超时时间为判断该次探测失败的时间长度,标志位为1位10进制数,其中0表示该记录对应的邻居为该子网的代理节点,1表示该记录对应的邻居为该子网的备份代理节点,2代表记录对应的邻居为一般普通节点;
步骤(2.):初始化邻居维护表,其包括邻居IP地址,邻居保活发送频率,其中IP地址用来唯一的标记该邻居,邻居保活发送频率为用于确认该邻居存活而发送的探测报文的发送频率;
步骤(3.):当某个用户终端加入P2P网络以后,首先连接所述子网中的代理节点并获取邻居信息,同时将所述邻居信息写入邻居状态表;
步骤(4.):扫描邻居状态表,对于每个邻居,令α表示其故障判定次数,T为超时时间,ρ为控制负载占总带宽的百分比,在默认状态下ρ取0.01,K为该邻居的保活发送频率,n为邻居个数,K为邻居的保活发送频率单位为:个每秒;并使用公式K=2α/n+αρn+T计算K,计算完毕以后将该值写入邻居维护表的对应位置,并按照该频率发送探测报文;
步骤(5.):如果在探测过程中,发现某邻居没有回复探测报文,则进一步判断该节点的故障判定次数是否等于1,如果不为1,则并将故障判断次数减1,如果为1则将改邻居标记为失效;
步骤(6.):如果所述某节点发现失效邻居在节点邻居状态表中的标志位为0,则说明该子网代理发生故障,所述节点将向邻居状态表中的标志位为1的邻居发送通告报文,让其代替原代理节点进行工作,同时将邻居状态表中该备用代理的标志位设为0;并依次按照以下步骤选择下一个备份代理节点:
步骤(6.1):扫描邻居状态表,得到表中邻居条目下的故障判定次数为q,最大可用带宽为b,其中b为用户的网络接入带宽与当前已使用带宽之差,并使用G=q*b计算所有邻居的优先级G,并将具有最大优先级的节点IP地址广播出去,作为自己向所有邻居节点推荐的新备份代理节点;
步骤(6.2):对收到的IP地址进行记数,并设拥有最多推荐者数量的邻居节点的邻居为新的份代理节点,同时在邻居状态表中的标志位中标记为1;
步骤(7):按照新的邻居状态表重新整理邻居维护表,同时删除已经失效的邻居节点。
CNB2007101195399A 2007-07-26 2007-07-26 基于快速切换的覆盖网络故障检测与恢复方法 Expired - Fee Related CN100539518C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101195399A CN100539518C (zh) 2007-07-26 2007-07-26 基于快速切换的覆盖网络故障检测与恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101195399A CN100539518C (zh) 2007-07-26 2007-07-26 基于快速切换的覆盖网络故障检测与恢复方法

Publications (2)

Publication Number Publication Date
CN101094119A true CN101094119A (zh) 2007-12-26
CN100539518C CN100539518C (zh) 2009-09-09

Family

ID=38992166

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101195399A Expired - Fee Related CN100539518C (zh) 2007-07-26 2007-07-26 基于快速切换的覆盖网络故障检测与恢复方法

Country Status (1)

Country Link
CN (1) CN100539518C (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009109141A1 (zh) * 2008-03-06 2009-09-11 华为技术有限公司 一种IPv6会话的存活检测的方法、装置及系统
CN101938758A (zh) * 2009-07-02 2011-01-05 中兴通讯股份有限公司 用户面连接状态获取方法及装置
CN101958845A (zh) * 2010-11-02 2011-01-26 武汉大学 一种覆盖网络环境下的多播路由树前向式重构恢复方法
CN102057647A (zh) * 2008-06-12 2011-05-11 爱立信电话股份有限公司 覆盖网络的维护
WO2012116656A1 (zh) * 2011-03-02 2012-09-07 华为技术有限公司 一种建立邻居关系的方法和网络设备
CN102868603A (zh) * 2012-09-21 2013-01-09 北京邮电大学 基于链路破坏度的动态自适应的路由震荡抑制方法
CN104113476A (zh) * 2014-07-22 2014-10-22 深圳市邦彦信息技术有限公司 一种通信线路的切换方法及系统
CN104348659A (zh) * 2013-08-08 2015-02-11 富士通株式会社 多跳网络的故障检测方法和节点
CN104735131A (zh) * 2009-03-11 2015-06-24 高通股份有限公司 用于发现对等覆盖网络的方法和装置
CN106130819A (zh) * 2016-07-04 2016-11-16 锐捷网络股份有限公司 Vtep异常的检测方法及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009109141A1 (zh) * 2008-03-06 2009-09-11 华为技术有限公司 一种IPv6会话的存活检测的方法、装置及系统
CN102057647A (zh) * 2008-06-12 2011-05-11 爱立信电话股份有限公司 覆盖网络的维护
CN102057647B (zh) * 2008-06-12 2014-07-02 爱立信电话股份有限公司 覆盖网络的维护
CN104735131A (zh) * 2009-03-11 2015-06-24 高通股份有限公司 用于发现对等覆盖网络的方法和装置
WO2011000271A1 (zh) * 2009-07-02 2011-01-06 中兴通讯股份有限公司 用户面连接状态获取方法及装置
CN101938758B (zh) * 2009-07-02 2015-05-13 中兴通讯股份有限公司 用户面连接状态获取方法及装置
CN101938758A (zh) * 2009-07-02 2011-01-05 中兴通讯股份有限公司 用户面连接状态获取方法及装置
CN101958845A (zh) * 2010-11-02 2011-01-26 武汉大学 一种覆盖网络环境下的多播路由树前向式重构恢复方法
WO2012116656A1 (zh) * 2011-03-02 2012-09-07 华为技术有限公司 一种建立邻居关系的方法和网络设备
CN102868603A (zh) * 2012-09-21 2013-01-09 北京邮电大学 基于链路破坏度的动态自适应的路由震荡抑制方法
CN102868603B (zh) * 2012-09-21 2015-01-07 北京邮电大学 基于链路破坏度的动态自适应的路由震荡抑制方法
CN104348659A (zh) * 2013-08-08 2015-02-11 富士通株式会社 多跳网络的故障检测方法和节点
CN104348659B (zh) * 2013-08-08 2018-02-02 富士通株式会社 多跳网络的故障检测方法和节点
CN104113476A (zh) * 2014-07-22 2014-10-22 深圳市邦彦信息技术有限公司 一种通信线路的切换方法及系统
CN106130819A (zh) * 2016-07-04 2016-11-16 锐捷网络股份有限公司 Vtep异常的检测方法及装置
CN106130819B (zh) * 2016-07-04 2019-10-25 锐捷网络股份有限公司 Vtep异常的检测方法及装置

Also Published As

Publication number Publication date
CN100539518C (zh) 2009-09-09

Similar Documents

Publication Publication Date Title
CN100539518C (zh) 基于快速切换的覆盖网络故障检测与恢复方法
Paxson End-to-end routing behavior in the Internet
Rexford et al. BGP routing stability of popular destinations
CN102057647B (zh) 覆盖网络的维护
Kwon et al. Topology-aware overlay networks for group communication
Shaikh et al. Routing stability in congested networks: Experimentation and analysis
EP2911348A1 (en) Control device discovery in networks having separate control and forwarding devices
CN101562569B (zh) 转发节点选取方法和装置
CN100394745C (zh) 一种动态选择出口路径的方法
TW201014396A (en) Network utilities in wireless mesh communications networks
CN101562568B (zh) 覆盖网备用路径生成方法和装置
CN101252533B (zh) 一种覆盖网系统和路由选择方法
TW201014393A (en) Node discovery and culling in wireless mesh communications networks
CN101141391A (zh) 一种实现故障切换的方法
Cheng et al. A coordinated data collection approach: design, evaluation, and comparison
JP2000174755A (ja) 経路選択方式
CN101286944B (zh) 一种路由协作网络系统及其工作方法
WO2002006918A2 (en) A method, system, and product for preventing data loss and forwarding loops when conducting a scheduled change to the topology of a link-state routing protocol network
CN101547188B (zh) 一种实现无线传感器网络通用路由协议的系统及方法
KR100842256B1 (ko) 지.엠.피.엘.에스 기반 네트워크에서 물리계층의 레이블 스위칭 경로에 대한 연결성 검사 방법 및 그 시스템
EP1440529A1 (en) System and method for information object routing in computer networks
JP4846663B2 (ja) Ipパケット追跡装置
KR101348429B1 (ko) 사용자 중심의 서비스 가용성 보장을 위한 네트워크 복구 방법 및 장치
JP2006174156A (ja) ネットワーク輻輳規模判定方法及びシステム
JP5598475B2 (ja) ネットワーク運用システム、ネットワーク運用方法、及びネットワーク運用プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090909

Termination date: 20130726