CN1203427C - 一种具有tcp连接容错功能的负载平衡调度方法 - Google Patents

一种具有tcp连接容错功能的负载平衡调度方法 Download PDF

Info

Publication number
CN1203427C
CN1203427C CN 02139089 CN02139089A CN1203427C CN 1203427 C CN1203427 C CN 1203427C CN 02139089 CN02139089 CN 02139089 CN 02139089 A CN02139089 A CN 02139089A CN 1203427 C CN1203427 C CN 1203427C
Authority
CN
China
Prior art keywords
dispatcher
computer
oneself
address
scheduler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 02139089
Other languages
English (en)
Other versions
CN1410904A (zh
Inventor
金海�
谭光
陈祖彬
韩宗芬
李昕
程璞峰
庞丽萍
李胜利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tuorui Computer System Co Ltd Wuhan
Huazhong University of Science and Technology
Original Assignee
Tuorui Computer System Co Ltd Wuhan
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tuorui Computer System Co Ltd Wuhan, Huazhong University of Science and Technology filed Critical Tuorui Computer System Co Ltd Wuhan
Priority to CN 02139089 priority Critical patent/CN1203427C/zh
Publication of CN1410904A publication Critical patent/CN1410904A/zh
Application granted granted Critical
Publication of CN1203427C publication Critical patent/CN1203427C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

一种具有TCP连接容错功能的的负载平衡调度方法,该方法采用一体化双机协同结构,利用一个背板并列放置两套相同配置的计算机系统,使双机系统形成一个整体。双机通过设置成相同的IP地址和物理地址,同时接收外来IP包,并在链路层按不同规则对IP包进行过滤,对网络请求进行分流。对各自的网络支流,双机利用Linux虚拟服务器对请求进行调度。同时,双机系统通过互相监控和备份,在某台机器出现故障时另一台机器能够平滑地接管其工作。该接管过程能保证客户的连接不会中断。当故障机恢复正常后,通过与另一台机器协商,能够重新分担调度任务。本发明与其他方案相比,具有高可靠、低成本、高效率、体积小等优点。

Description

一种具有TCP连接容错功能的负载平衡调度方法
技术领域
本发明属于计算机应用领域,具体涉及一种具有TCP连接容错功能的的负载平衡调度方法。
背景技术
当今计算机技术已进入以网络为中心的计算时期,大量的应用都围绕着网络进行,对服务器的性能和可靠性提出了越来越高的要求。例如,随着Internet的飞速发展和用户的剧烈增长,比较热门的Web站点会因为被访问次数急剧增长而不能及时处理用户的请求,导致用户长时间地等待甚至遭到拒绝,大大降低了服务质量。对于CPU密集型的应用,比如说带有通用网关接口(Common Gateway Interface,CGI)和数据库操作的Web服务,服务器性能瓶颈问题则更加突出。另外,随着电子商务等关键性应用在网上的推广,任何例外的服务中断都将造成不可估量的损失,因此服务器的可靠性越来越重要。
为了解决服务器的性能问题,许多公司和研究机构研究了基于集群的服务器体系结构。集群服务器是一个利用高速局域网将多个节点(一个节点就是一台服务器、工作站或者PC机)联结起来的系统,这些节点在一个负载平衡调度器的指挥下并发地服务外界请求。由于多个节点是否能够均匀地分担服务请求关系到服务器的整体性能及其扩展性,所以负载平衡调度器的工作对服务器的服务能力至关重要。通常,负载平衡调度器根据某种策略将外来的网络服务请求调往一组工作节点。调度方案可在链路层、网络层或应用层等多处实现。例如,EDDIE,Reverse-Proxy和pWEB都使用基于应用层调度的方法来建立一个可伸缩的Web服务器。它们将到达的Web请求转发到不同的Web服务节点,取得结果后,再返回给用户。IBM的TCP Router和Network Dispatcher都是实现在网络层的调度器。Linux虚拟服务器(Linux Virtual Server)是一个基于Linux操作系统的集群调度软件。它通过扩展IP协议栈,对不同的网络服务提供了多种请求调度方案。
除了软件实现,一些公司也提出了硬件解决方案,比如Cisco公司的LocalDirector。它通过硬件进行集群服务器进出口包的重写,并取得了较高的性能。据称,它能同时调度数十万个TCP连接请求,但是这种专门的硬件产品价格非常昂贵,以致一般用户难以承受。
虽然以上的许多方案解决了服务器的性能瓶颈问题,但它们都存在共同的缺点,即很少考虑集中式调度器的可靠性。作为整个集群服务器的单一入口点,调度器一旦出现故障,整个服务器将陷入瘫痪,从而可能造成巨大的经济损失。一个简单的解决办法是为该调度器专设一台备份机,当调度器出现故障时,备份机取代其IP地址而继续工作。这种容错处理方式的一个重要不足之处在于已建立的TCP连接会全部丢失,这对用户会产生不便甚至带来损失。
Linux虚拟服务器提出了解决可靠性问题的一种方式。它通过内核层的多播将连接信息送往备份机备份,当故障发生时,备份机接管调度器的工作并将已有连接信息恢复。这种方式的缺点是开销较大。尤其是当连接数目增多且状态变化频繁时,多播会给网络造成沉重的负担。另外,这种方式需要专门的一台备份节点从事开销极低的备份工作,并且不能为调度器分担调度任务,所以对资源形成了浪费,这对于较小规模的集群服务器站点尤其突出。
发明内容
本发明的目的在于克服现有集群网络服务器流量调度技术的不足,提供一种具有TCP连接容错功能的负载平衡调度方法,该调度方法具有一体化、高可靠和高效率的特征。
为实现上述发明目的,一种具有TCP连接容错功能的负载平衡调度方法,将二套相同配置的计算机系统置于同一背板上,构成由二台调度机组成的调度器,其调度方法依次包括以下步骤:
(1)二台调度机的外部网卡配置成相同的IP地址和物理地址;
(2)二台调度机的链路层对IP包按照下述二种方式之一进行筛选:
①根据客户端IP地址值进行调度;
②根据客户端IP地址和源端口号进行调度;
(3)两台调度机定时地通过自己的内部网络接口对连接调度信息进行相互备份,相互备份时同时相互进行正常性检验:如果某调度机在某一时间段内发现另一调度机没有备份信息到达,则前一调度机判断后一调度机出现故障,前一调度机即暂时停止调度工作,并完成以下工作:
①通过命令改变自己的物理地址,然后由一个专门的程序发送宣告式ARP包,强制外端路由或交换设备更新自己的ARP缓存;
②根据已备份的对方调度器的连接信息,在自己的内核中重建该表,从而和自己原有的调度表并列形成两个表:奇调度表和偶调度表;
③关闭IP包的筛选控制开关,使本机能够接收所有的外来数据包;
④报警;
之后,前一调度机开始承担全部调度工作;
(4)处理后一调度机的故障并重新启动,之后,后一调度机通过其自身的后台程序自动和前一调度机协商,并完成以下工作:
①命令前一调度机将偶调度表打包发送给自己,并在内核重建该表;
②打开自己的筛选控制开关;
③获得对方当前的物理地址,并将自己网卡设置成该物理地址,同时绑定公共的IP地址;
④开启相互备份进程;
与步骤(4)的同时,前一调度机完成以下工作:
①打开自己的筛选控制开关;
②将偶调度表传给后一调度机,并释放该表所占内存;
③开启相互备份进程;
(5)二台调度机开始正常的协同调度以及相互容错。
上述具有TCP连接容错功能的负载平衡调度器具有以下效果及优点:
(1)高可靠
本发明提出的容错方法使一台调度器出现故障时,另一台调度器能够平滑地接管其工作。使用户感觉不到服务的中断。并且在故障机恢复正常运转时,能够自动地进行调度任务的重新分配。多种报警方式使得系统更加易于管理。
(2)低成本
本调度器系统硬件全部由通用计算机部件构成,并且根据调度器的性能需求作了合理的规划。比如DOM的采用,是考虑到Linux操作系统的可裁剪特性,以节省不必要的硬盘存储空间。另外主板采用集成式,也能够有效地降低成本。
(3)高效率
本发明的双机同时调度方法在本领域内属于独创,它使两台机器能够对外界网络流量进行合理地分流,并各自对自己的网络支流进行调度,最大程度地挖掘了双机并行处理能力。
(4)小体积
本发明根据调度软件的大小对计算机硬件进行合理的剪裁,并使用一个背板耦合两套硬件,使得整个双机调度器的体积较一般方式的双主机调度系统减小了约70%。
附图说明
图1为用于集群网络服务器的负载平衡调度器的结构示意图;
图2为本发明调度器系统总体工作流程图;
图3为本发明调度器系统初启时工作流程图;
图4为本发明调度器系统正常工作时流程图;
图5为本发明调度器系统发生故障时工作流程图;
图6为本发明调度器系统故障恢复时工作流程图。
具体实施方式
本发明从软件方法和硬件的角度可以分为两部分:一体化的双机结构和双机协作调度方法。
所述的一体化双机结构,就是在一个背板上并列放置两套完全相同配置的计算机系统,如图1所示。这里的计算机系统由CPU、主板、内存、DOM(Disk On Module)电子磁盘和电源、风扇等外围设备构成。其中主板采用集成方式,内嵌了显卡和两个网络接口卡。DOM是一种采用集成电路设备(Integrated Devices Electronics,IDE)接口的电子盘,它利用先进的集成电路作存储器,而不象传统硬盘采用磁介质作存储器。对低容量要求的系统它可以降低成本;它还具有数据断电后不会丢失、低功耗、防震、抗污染和抗干扰能力强等优点。集成式主板和DOM的采用不仅提高了系统的性能,而且使系统的体积较传统的双机调度器减小约70%,同时成本也大为降低。两套计算机系统通过集群服务器内部网络相互联结。
所述的双机协作调度方法首先将两台调度机的外部网卡配置成相同的IP地址和物理地址。这个IP地址就是集群服务器的公开访问地址。为了避免IP地址的冲突,需要在内核屏蔽掉ARP(Address Resolve Protocol,地址解析协议)广播询问包的响应。两台调度机的外部网卡都通过网线联入一个共享介质的集线器。当外部IP包到来时,借助于集线器的共享介质特征,使得该IP包能够被两台调度机的网卡同时接收并传往它们各自的链路层。然后两台调度机的链路层对IP包按照某种方式进行筛选。可选的方式有两种:
(1)根据客户端IP地址值进行调度。比如,1号调度器只对奇数IP地址的包进行调度,而丢弃偶数IP地址的数据包;2号调度器只对偶数IP地址的包进行调度,而丢弃奇数IP地址的数据包。
(2)根据客户端IP地址和源端口号进行调度。比如对源IP地址和源端口号进行哈希运算,产生一个值。然后根据它们的奇偶性进行分流。
第一种方式可以适用于任何网络服务。筛包的过程可以在Linux的内核函数netif_rx(struct sk_buff*skb)中进行。该函数紧挨着网卡驱动程序,能够尽早地将不属于本机的包筛掉,从而避免包向网络协议栈上层流动带来的开销。这种方式的一个缺点是根据IP地址的奇偶筛选可能导致分流不均,因为许多客户的访问请求是通过一个网关或代理转发的。第二种方式能够克服的第一种方式分流不均的缺点,但不能用于动态端口服务比如Ftp(File Transfer Protocol,文件传输协议),或持久性服务当中。这种方式只能在IP层实现,较链路层的实现效率有所降低。在实际应用时应该根据具体情况加以选择。
除了并行地进行请求调度以外,两台调度机还定时地通过自己的内部网络接口对连接调度信息进行相互备份。备份时采取增量备份的方式,即只备份连接的变化信息。由于TCP连接的状态繁多且变化频繁,这里的变化情况只包括新增连接和新撤销连接的信息。这样备份的数据量能够减小到最少,结合内核的多播机制,使得备份开销几乎可以忽略不计。
以上相互备份的过程同时也是一个相互进行正常性检验的过程,这个过程是实现容错机制的前提。如果某调度器(设为调度器1)在某一时间段内发现另一台调度器(设为调度器2)的没有备份信息到达,则调度器1判断调度器2出现故障。这时它暂时停止调度工作,并完成以下工作:
(1)通过命令改变自己的物理地址,然后由一个专门的程序发送宣告式ARP包,强制外端路由或交换设备更新自己的ARP缓存;
(2)根据已备份的对方调度器的连接信息,在自己的内核中重建该表,从而和自己原有的调度表并列形成两个表:奇调度表和偶调度表;
(3)关闭IP包的筛选控制开关,使本机能够接收所有的外来数据包;
(4)报警,并向系统管理员的电子信箱发送通知故障日志邮件。
完成这些工作之后,调度器1开始恢复以前的调度工作。
当调度机2恢复正常时(通过管理员或自己重启动),通过其自身的后台程序自动和调度机1协商,并完成以下工作:
(1)命令调度机1将偶调度表打包发送给自己,并在内核重建该表;
(2)打开自己的筛选控制开关;
(3)获得对方当前的物理地址,并将自己网卡设置成该物理地址,同时绑定公共的IP地址(调度器初启时外部网卡是非活跃状态的);
(4)开启相互备份进程。
与此同时调度机1完成以下工作:
(1)打开自己的筛选控制开关;
(2)将偶调度表传给调度机2,并释放该表所占内存;
(3)开启相互备份进程。
以上工作完成之后,双机开始正常的协同调度以及相互容错。
如上所述,本发明调度器由紧密耦合在一个小型机箱中的两套相同配置的计算机系统构成,每一套系统的硬件和操作系统可采用如表1所示的配置。
   CPU   内存   电子盘   主板    操作系统
PIII 866 256M 64M   内嵌两个100Mbps网络接口卡和一个显卡    Linux内核2.4.5带ipvs模块
表1调度器系统硬件配置
具体实施时,调度器的两个调度机分别用一根网线联入集群服务器外端的共享介质集线器,同时用一根网线联入内部的交换机。机器启动后,对Linux Virtual Server进行相应配置,并启动所述的双机容错调度软件,即可开始正常工作。

Claims (1)

1.一种具有TCP连接容错功能的负载平衡调度方法,将二套相同配置的计算机系统置于同一背板上,构成由二台调度机组成的调度器;其调度方法依次包括以下步骤:
(1)二台调度机的外部网卡配置成相同的IP地址和物理地址;
(2)二台调度机的链路层对IP包按照下述二种方式之一进行筛选:
①根据客户端IP地址值进行调度;
②根据客户端IP地址和源端口号进行调度;
(3)两台调度机定时地通过自己的内部网络接口对连接调度信息进行相互备份,相互备份时同时相互进行正常性检验:如果某调度机在某一时间段内发现另一调度机没有备份信息到达,则前一调度机判断后一调度机出现故障,前一调度机即暂时停止调度工作,并完成以下工作:
①通过命令改变自己的物理地址,然后由一个专门的程序发送宣告式ARP包,强制外端路由或交换设备更新自己的ARP缓存;
②根据已备份的对方调度器的连接信息,在自己的内核中重建该表,从而和自己原有的调度表并列形成两个表:奇调度表和偶调度表;
③关闭IP包的筛选控制开关,使本机能够接收所有的外来数据包;
④报警;
之后,前一调度机开始承担全部调度工作;
(4)处理后一调度机的故障并重新启动,之后,后一调度机通过其自身的后台程序自动和前一调度机协商,并完成以下工作:
①命令前一调度机将偶调度表打包发送给自己,并在内核重建该表;
②打开自己的筛选控制开关;
③获得对方当前的物理地址,并将自己网卡设置成该物理地址,同时绑定公共的IP地址;
④开启相互备份进程;与步骤(4)的同时,前一调度机完成以下工作:
①打开自己的筛选控制开关;
②将偶调度表传给后一调度机,并释放该表所占内存;
③开启相互备份进程;
(5)二台调度机开始正常的协同调度以及相互容错。
CN 02139089 2002-09-24 2002-09-24 一种具有tcp连接容错功能的负载平衡调度方法 Expired - Fee Related CN1203427C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 02139089 CN1203427C (zh) 2002-09-24 2002-09-24 一种具有tcp连接容错功能的负载平衡调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 02139089 CN1203427C (zh) 2002-09-24 2002-09-24 一种具有tcp连接容错功能的负载平衡调度方法

Publications (2)

Publication Number Publication Date
CN1410904A CN1410904A (zh) 2003-04-16
CN1203427C true CN1203427C (zh) 2005-05-25

Family

ID=4749885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 02139089 Expired - Fee Related CN1203427C (zh) 2002-09-24 2002-09-24 一种具有tcp连接容错功能的负载平衡调度方法

Country Status (1)

Country Link
CN (1) CN1203427C (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100452673C (zh) * 2004-02-16 2009-01-14 上海欣国信息技术有限公司 数字话务台
FR2882165B1 (fr) * 2005-02-11 2007-06-29 Airbus France Sas Systeme et procede de traitements embarques d'essais en vol
CN100399265C (zh) * 2006-07-14 2008-07-02 中国科学院软件研究所 基于规则的软件过程主体自动协商系统和方法
CN1921369B (zh) * 2006-08-08 2011-02-09 华为技术有限公司 一种网络连接的接管方法
CN101132347A (zh) * 2006-08-24 2008-02-27 华为技术有限公司 一种实现tcp连接备份的系统及方法
CN101582795B (zh) * 2009-04-20 2011-10-12 北京佳讯飞鸿电气股份有限公司 一种ip组网下的双调度指挥中心系统的实现方法
CN101888414B (zh) * 2010-07-02 2013-02-13 武汉大学 移动多任务并行处理系统
CN103428035A (zh) * 2013-08-26 2013-12-04 福建省视通光电网络有限公司 一种基于tcp/ip协议的大型网络通信系统与方法
US10432531B2 (en) * 2016-06-28 2019-10-01 Paypal, Inc. Tapping network data to perform load balancing

Also Published As

Publication number Publication date
CN1410904A (zh) 2003-04-16

Similar Documents

Publication Publication Date Title
CN1212574C (zh) 使用本地标识符的端节点分区
US7634497B2 (en) Technique for improving scalability and portability of a storage management system
CN1308834C (zh) 多途径获取和输出服务器监控信息的方法
US8713127B2 (en) Techniques for distributed storage aggregation
CN101207520B (zh) 一种实现分布式网络管理的方法及系统
US20060095705A1 (en) Systems and methods for data storage management
CN1577314A (zh) 在群集化计算机系统中的节点之间传输数据的方法和设备
CN1642104A (zh) 一种系统日志实现方法和装置
JP2015531512A (ja) 分散型データグリッドクラスタにおけるスケーラブルなメッセージバスをサポートするシステムおよび方法
CN102209087A (zh) 在具有存储网络的数据中心进行MapReduce数据传输的方法和系统
CN1761944A (zh) 用于虚拟机的动态服务注册中心
CN1658145A (zh) 可升级打印假脱机系统
CN1203427C (zh) 一种具有tcp连接容错功能的负载平衡调度方法
CN105357273A (zh) 异步通信模式下socket通信与进程管理通用平台及方法
CN1267026A (zh) 允许服务器远程访问计算机系统资产信息的系统和方法
CN100352199C (zh) 分区环境中的远程加电功能
CN202565318U (zh) 分布式虚拟化存储系统
CN1968148A (zh) 用于实现应用软件系统与主机资源综合监管的网管系统
CN1681251A (zh) 基于以太网媒体接入控制层的网络设备的管理方法
CN1556609A (zh) 移动机器人网络化控制平台装置
CN100336050C (zh) 海量网络存储器设备及其实现方法
CN1564517A (zh) 内存-网络内存-磁盘高速可靠存储系统及其读写方法
CN1835607A (zh) 基于pc服务器短信二级网关及业务环境
CN1151635C (zh) 一种适用于集群网络服务的基于内容的通用调度系统
CN1797385A (zh) 一种电力自动化系统通用管理平台系统及其实现方法与开发方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee