CN1308278A - 集群服务器的ip容错方法 - Google Patents
集群服务器的ip容错方法 Download PDFInfo
- Publication number
- CN1308278A CN1308278A CN 01106482 CN01106482A CN1308278A CN 1308278 A CN1308278 A CN 1308278A CN 01106482 CN01106482 CN 01106482 CN 01106482 A CN01106482 A CN 01106482A CN 1308278 A CN1308278 A CN 1308278A
- Authority
- CN
- China
- Prior art keywords
- machine
- server
- backup
- fault
- software
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
Landscapes
- Hardware Redundancy (AREA)
Abstract
一种集群服务器的IP容错方法。它是在由负载平衡机、高速交换机、物理服务器、互联网和用户现有技术的构成基础上,添加备份机和控制台而实现的,并包含双机热备份软件、物理服务器的自动监控软件、集群服务器的远程动态配置软件。负载平衡机与备份机能自动地互为备份,即当负载平衡机出故障时,备份机能及时发现并接管它的工作,使得集群服务器不会中断对用户的服务;在控制台上会出现报警信息使得系统管理员能及时知道故障信息。
Description
本发明属于计算机应用领域,是一种用于集群服务器的IP容错方法。
随着互连网用户的爆炸性增长,网站访问量也随之大幅度增长,有些甚至达到了每天几千万次点击。越来越多的网站管理员发现网站的服务器经常超负荷运行并已成为提高服务质量的瓶颈。传统的服务器一般采用小型机,在这种情况下提升服务器性能的方法是换一个更好的、更快的服务器,由于要淘汰旧的服务器,因此升级代价很高。为此,有人提出了一种新的服务器解决方案——集群服务器。这种群集服务器的工作流程为:用户请求由名为负载平衡机(又称为前置机)的计算机接收,负载平衡机根据调度算法选择一个物理服务器并将该用户请求转给它,物理服务器处理完用户请求后直接将结果返回用户。用户只需向单一的入口地址发出访问请求就可得到应答,而不需知道应答来自哪台服务器,即集群服务器的内部结构对用户是透明的。由于是多个服务器共同服务,因此其具有很高的性能;而且服务器的数量可以动态扩充,因此其具有很好的可扩展性。
上述集群服务器也存在一些问题,如负载平衡机出现故障时,未执行完的用户请求将被迫终止,而且直到故障排除,集群服务器才能恢复对用户的服务。
集群服务器技术要应用于商业服务器,必须提高它的可靠性,否则就会对用户及公司造成损失。如果集群服务器用于电子商务,上述的负载平衡机故障一旦出现,可能会带来灾难性的后果。由于计算机的硬件或软件故障的不可预测性,必须采用某种技术来提高集群服务器的容错能力。本发明的目的就是针对现有技术中的不足,研制一种具有良好IP容错的方法。
本发明所说的集群服务器的IP容错方法,其系统结构及原理图如图1所示。它在现有技术的基础上,添加了名为备份机的计算机和名为控制台的计算机。即在用户通过互联网与高速交换机之间设置负载平衡机的备份机,备份机与负载平衡机并行连接于互联网与高速交换机之间;控制台与高速交换机相连接;另外,高速交换机与互联网之间并行连接有n个物理服务器。
本发明所说的集群服务器的IP容错方法发明中包含三个软件:
1.双机热备份软件:这是构成本发明的核心技术,主要在操作系统网络部分的IP层实现,所以命名为IP容错技术。安装在负载平衡机与备份机上。
2.物理服务器的自动监控软件:安装在负载平衡机与备份机上。
3.集群服务器的远程动态配置软件:安装在控制台上。
本发明所说的集群服务器的IP容错技术方法的具体实现方式为:
一、双机热备份软件
本发明所说的集群服务器的IP容错方法是以Redhat Linux提供的虚拟服务器技术为基础实现的,具体步骤如下:
1.在前置机和备份机上安装Redhat Linux;
2.在内核源程序ip_vs.c中添加读取、更新虚拟服务器保存在核心中哈希表的函数;
3.添加系统调用使得用户程序能通过它调用上述添加的函数以实现用户态与内核态下的数据交换;
4.重新编译核心,之后前置机与备份机都必须使用新的核心;
5.前置机上运行一个守护进程,每过T1秒读取一次内核中保存的所有状态为ESTABLISHED的TCP连接信息,并将它打包发送给备份机上运行的特定守护进程。如果前置机出现故障,备份机将自动地取代它的工作;当故障排除并重新启动后,它将自动地作为备份机工作;
6.备份机上运行一个守护进程,不断接收前置机发送来的信息,如果连续T2秒收不到前置机的信息,备份机将判定前置机已出故障并取而代之。具体步骤如下:A.以最后一次收到的数据包为基准通过系统调用在备份机的内核中重构连接信息;B.夺取前置机的虚拟IP地址;C.向控制台报警。
二、物理服务器的自动监控软件
1.在前置机上编写实现读取虚拟服务器当前配置信息的函数F;
2.前置机上运行一个守护进程,定时通过函数F取回虚拟服务器当前的配置信息,即有哪些服务程序运行在那些物理服务器上,然后利用socket请求去测试这些服务程序是否正常工作;
3.如果经过测试,发现某台服务器上的某些服务程序发生了故障,该守护进程会在虚拟服务器上删除该服务条目;
4.该守护进程定时执行,从而保证了虚拟服务器的正常工作。
三、集群服务器的远程动态配置软件
1.该软件实现在控制台上。该软件有几个模块组成。模块1是一个图形监控界面,提供给系统管理员使用;
2.模块2负责定时从虚拟服务器提取当前配置信息,并把这些信息显示在图形界面上;
3.模块3提供给用户,使用户可以远端动态完成配置虚拟服务器的工作;
4.模块4为日志管理。通过日志管理,系统管理员可以全面了解前置机及各个物理服务器当前的工作状况。
本发明所说的集群服务器的IP容错方法具有以下优点:
1.当负载平衡机出故障(比如硬件故障)时,备份机能及时发现并接管它的工作,使得集群服务器不会中断对用户的服务;同时,在控制台上会出现报警信息使得系统管理员能及时知道故障信息。当负载平衡机上的故障被排除并重新启动后,它将自动地作为备份机工作,即负载平衡机与备份机能自动地互为备份。
2.上述的互为备份过程不会影响当前集群服务器正在进行还未完成的服务。例如,某用户正在通过FTP服务从集群服务器上下载一个文件,文件已下载了一半,假定此时负载平衡机因出现硬件故障而崩溃,备份机将及时接管它的工作,用户的文件下载服务将不受任何影响直到正常结束。
3.我们的监控软件能自动地检测到物理服务器上服务程序的故障并作相应的故障处理,使得集群服务器的工作不受影响。
4.我们的动态配置软件能使系统管理员迅速地了解集群服务器的工作状态,并可方便地地对集群服务器进行动态配置。
图1:实现集群服务器的IP容错方法的系统结构原理图。
在图1中表示了一种实现本发明所说的集群服务器的IP容错方法的系统结构及原理图。由负载平衡机3、备份机4,高速交换机5、控制台6、物理服务器7、互联网2和用户1构成。它实际上是在现有技术的基础上,添加了备份机4的计算机和名为控制台5的计算机。其实现IP容错的方法和工作原理如本说明书中在先的描述。其中,所说的物理服务器7可以有n个,n为自然数。如图1中所述的物理服务器71、72、……、7n。
利用本发明所说的IP容错方法,在实验室建立了一个包含16个物理服务器的集群服务器,它可提供WEB服务、FTP服务、E-mail服务等常用网络服务。16个物理服务器以及负载平衡机、备份机、控制台具有相同的硬件配置:
CPU PIII 550
内存 256M
硬盘 10.2G
网卡 3C905B
操作系统 Linux 6.2
使用3COM公司的100M交换机连接集群系统的各个节点机。每个物理服务器上安装下列应用程序:
Qmail 1.03
VM 3.4.2
JIAJIA 2.1
MySQL
Snort
FTP Server
Apache Server
经多次测试,采用本发明所说IP容错技术的集群服务器,强行断开负载平衡机的电源,集群服务器仍能正常工作,且正在执行的服务请求不会受影响。
Claims (4)
1.一种在现有技术的基础上,添加了名为备份机的计算机和名为控制台的计算机的集群服务器的IP容错方法,其特征在于,在用户通过互联网与高速交换机之间设置有备份机,备份机与负载平衡机并行连接于互联网与高速交换机之间;控制台与高速交换机相连接;
在所说的集群服务器的IP容错技术中包含三个软件:
a.双机热备份软件:安装在负载平衡机与备份机上;
b.物理服务器的自动监控软件:安装在负载平衡机与备份机上;
c.集群服务器的远程动态配置软件:安装在控制台上。
2.按照权利要求1所说的集群服务器的IP容错方法,其特征在于,所说的双机热备份软件是:
a.在前置机和备份机上安装Redhat Linux;
b.在内核源程序ip_vs.c中添加读取、更新虚拟服务器保存在核心中哈希表的函数;
c.添加系统调用使得用户程序能通过它调用上述添加的函数以实现用户态与内核态下的数据交换;
d.重新编译核心,之后前置机与备份机都必须使用新的核心;
e.前置机上运行一个守护进程,每过T1秒读取一次内核中保存的所有状态为ESTABLISHED的TCP连接信息,并将它打包发送给备份机上运行的特定守护进程。如果前置机出现故障,备份机将自动地取代它的工作;当故障排除并重新启动后,它将自动地作为备份机工作;
f.备份机上运行一个守护进程,不断接收前置机发送来的信息,如果连续T2秒收不到前置机的信息,备份机将判定前置机已出故障并取而代之;具体步骤如下:A.以最后一次收到的数据包为基准通过系统调用在备份机的内核中重构连接信息;B.夺取前置机的虚拟IP地址;C.向控制台报警。
3.按照权利要求1所说的集群服务器的IP容错方法,其特征在于,所说的物理服务器的自动监控软件是:
a.在前置机上编写实现读取虚拟服务器当前配置信息的函数F;
b.前置机上运行一个守护进程,定时通过函数F取回虚拟服务器当前的配置信息,即有哪些服务程序运行在那些物理服务器上,然后利用socket请求去测试这些服务程序是否正常工作;
c.如果经过测试,发现某台服务器上的某些服务程序发生了故障,该守护进程会在虚拟服务器上删除该服务条目;
d.该守护进程定时执行,从而保证了虚拟服务器的正常工作。
4.按照权利要求1所说的集群服务器的IP容错方法,其特征在于,所说的集群服务器的远程动态配置软件是:
a.该软件实现在控制台上;该软件有几个模块组成,模块1是一个图形监控界面,提供给系统管理员使用;
b.模块2负责定时从虚拟服务器提取当前配置信息,并把这些信息显示在图形界面上;
c.模块3提供给用户,使用户可以远端动态完成配置虚拟服务器的工作;
d.模块4为日志管理。通过日志管理,系统管理员可以全面了解前端机及各个物理服务器当前的工作状况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01106482 CN1308278A (zh) | 2001-02-15 | 2001-02-15 | 集群服务器的ip容错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01106482 CN1308278A (zh) | 2001-02-15 | 2001-02-15 | 集群服务器的ip容错方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1308278A true CN1308278A (zh) | 2001-08-15 |
Family
ID=4655485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 01106482 Pending CN1308278A (zh) | 2001-02-15 | 2001-02-15 | 集群服务器的ip容错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1308278A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1302411C (zh) * | 2002-12-31 | 2007-02-28 | 联想(北京)有限公司 | 大型机群系统的集中控制方法 |
CN1317658C (zh) * | 2002-12-31 | 2007-05-23 | 联想(北京)有限公司 | 利用机群节点相互备份的容错方法 |
CN100334838C (zh) * | 2004-06-14 | 2007-08-29 | 华为技术有限公司 | 一种实现端到端服务质量可靠性保证的方法 |
CN100336344C (zh) * | 2004-05-27 | 2007-09-05 | 国际商业机器公司 | 应用程序服务器集群中用于会话作废处理的系统和方法 |
CN100341298C (zh) * | 2005-10-13 | 2007-10-03 | 华中科技大学 | 协同系统中可扩展的动态容错方法 |
CN100396014C (zh) * | 2006-03-07 | 2008-06-18 | 华为技术有限公司 | 热备维护系统及热备维护和故障切换的方法 |
CN100466536C (zh) * | 2003-12-23 | 2009-03-04 | 诺基亚公司 | 用于管理集群系统中的协议网络故障的系统和方法 |
CN1482773B (zh) * | 2003-04-11 | 2010-04-28 | 比威网络技术有限公司 | 可容错的传输控制协议的实现方法 |
CN102043688A (zh) * | 2010-12-10 | 2011-05-04 | 曙光信息产业(北京)有限公司 | 用于刀片服务器的双机热备的方法和装置 |
US7953015B2 (en) | 2004-06-14 | 2011-05-31 | Huawei Technologies Co., Ltd. | Method for ensuring reliability in network |
CN1893370B (zh) * | 2005-06-29 | 2013-01-30 | 国际商业机器公司 | 用于服务器群集恢复和维护的方法和系统 |
CN103713982A (zh) * | 2014-01-26 | 2014-04-09 | 飞狐信息技术(天津)有限公司 | 对远程服务的返回结果进行监测的方法和装置 |
CN109165506A (zh) * | 2018-07-05 | 2019-01-08 | 河南中烟工业有限责任公司 | 一种工控容错服务器在线病毒查杀和病毒防护的方法 |
WO2020029407A1 (zh) * | 2018-08-08 | 2020-02-13 | 平安科技(深圳)有限公司 | 告警数据的管理方法、装置、计算机设备及存储介质 |
CN110798520A (zh) * | 2019-10-25 | 2020-02-14 | 苏州浪潮智能科技有限公司 | 一种业务处理方法、系统、装置及可读存储介质 |
CN111813620A (zh) * | 2020-06-18 | 2020-10-23 | 麒麟软件有限公司 | 集群监控系统及集群状态监控方法 |
-
2001
- 2001-02-15 CN CN 01106482 patent/CN1308278A/zh active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1317658C (zh) * | 2002-12-31 | 2007-05-23 | 联想(北京)有限公司 | 利用机群节点相互备份的容错方法 |
CN1302411C (zh) * | 2002-12-31 | 2007-02-28 | 联想(北京)有限公司 | 大型机群系统的集中控制方法 |
CN1482773B (zh) * | 2003-04-11 | 2010-04-28 | 比威网络技术有限公司 | 可容错的传输控制协议的实现方法 |
CN100466536C (zh) * | 2003-12-23 | 2009-03-04 | 诺基亚公司 | 用于管理集群系统中的协议网络故障的系统和方法 |
CN100336344C (zh) * | 2004-05-27 | 2007-09-05 | 国际商业机器公司 | 应用程序服务器集群中用于会话作废处理的系统和方法 |
US7953015B2 (en) | 2004-06-14 | 2011-05-31 | Huawei Technologies Co., Ltd. | Method for ensuring reliability in network |
CN100334838C (zh) * | 2004-06-14 | 2007-08-29 | 华为技术有限公司 | 一种实现端到端服务质量可靠性保证的方法 |
CN1893370B (zh) * | 2005-06-29 | 2013-01-30 | 国际商业机器公司 | 用于服务器群集恢复和维护的方法和系统 |
CN100341298C (zh) * | 2005-10-13 | 2007-10-03 | 华中科技大学 | 协同系统中可扩展的动态容错方法 |
CN100396014C (zh) * | 2006-03-07 | 2008-06-18 | 华为技术有限公司 | 热备维护系统及热备维护和故障切换的方法 |
CN102043688A (zh) * | 2010-12-10 | 2011-05-04 | 曙光信息产业(北京)有限公司 | 用于刀片服务器的双机热备的方法和装置 |
CN102043688B (zh) * | 2010-12-10 | 2014-04-30 | 曙光信息产业(北京)有限公司 | 用于刀片服务器的双机热备的方法和装置 |
CN103713982A (zh) * | 2014-01-26 | 2014-04-09 | 飞狐信息技术(天津)有限公司 | 对远程服务的返回结果进行监测的方法和装置 |
CN103713982B (zh) * | 2014-01-26 | 2016-09-14 | 飞狐信息技术(天津)有限公司 | 对远程服务的返回结果进行监测的方法和装置 |
CN109165506A (zh) * | 2018-07-05 | 2019-01-08 | 河南中烟工业有限责任公司 | 一种工控容错服务器在线病毒查杀和病毒防护的方法 |
CN109165506B (zh) * | 2018-07-05 | 2021-07-20 | 河南中烟工业有限责任公司 | 一种工控容错服务器在线病毒查杀和病毒防护的方法 |
WO2020029407A1 (zh) * | 2018-08-08 | 2020-02-13 | 平安科技(深圳)有限公司 | 告警数据的管理方法、装置、计算机设备及存储介质 |
CN110798520A (zh) * | 2019-10-25 | 2020-02-14 | 苏州浪潮智能科技有限公司 | 一种业务处理方法、系统、装置及可读存储介质 |
CN110798520B (zh) * | 2019-10-25 | 2021-12-03 | 苏州浪潮智能科技有限公司 | 一种业务处理方法、系统、装置及可读存储介质 |
CN111813620A (zh) * | 2020-06-18 | 2020-10-23 | 麒麟软件有限公司 | 集群监控系统及集群状态监控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Linefs: Efficient smartnic offload of a distributed file system with pipeline parallelism | |
US8074014B2 (en) | Storage systems using write off-loading | |
US7610582B2 (en) | Managing a computer system with blades | |
CN1308278A (zh) | 集群服务器的ip容错方法 | |
US8055937B2 (en) | High availability and disaster recovery using virtualization | |
US7734597B2 (en) | System and method performing an on-line check of a file system | |
US7426661B2 (en) | Method and system for minimizing loss in a computer application | |
CA2686384C (en) | Dynamic cli mapping for clustered software entities | |
US20050021514A1 (en) | Persistent client-server database sessions | |
US20060248386A1 (en) | Persistent stateful component-based applications via automatic recovery | |
US11567899B2 (en) | Managing dependent delete operations among data stores | |
CA2523591C (en) | Distributed search methods, architectures, systems, and software | |
US11409711B2 (en) | Barriers for dependent operations among sharded data stores | |
US20220318097A1 (en) | Storage volume snapshot object management | |
US8108580B1 (en) | Low latency synchronous replication using an N-way router | |
US20100085871A1 (en) | Resource leak recovery in a multi-node computer system | |
Meehean et al. | A service migration case study: Migrating the Condor schedd | |
US8537662B2 (en) | Global detection of resource leaks in a multi-node computer system | |
US11397752B1 (en) | In-memory ingestion for highly available distributed time-series databases | |
JP3467750B2 (ja) | 分散オブジェクト処理システム | |
CN112486517B (zh) | 应用程序的安装方法、系统、电子设备及存储介质 | |
US7921324B2 (en) | Providing file system availability during local path failure of a non-server node | |
CN115118519B (zh) | 一种基于Hadoop平台的网络主机漏洞扫描新方法 | |
CN117762673A (zh) | 访问请求处理方法、装置、存储介质及电子设备 | |
US11675668B2 (en) | Leveraging a cloud-based object storage to efficiently manage data from a failed backup operation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |