JP2008542858A5 - - Google Patents

Download PDF

Info

Publication number
JP2008542858A5
JP2008542858A5 JP2008510305A JP2008510305A JP2008542858A5 JP 2008542858 A5 JP2008542858 A5 JP 2008542858A5 JP 2008510305 A JP2008510305 A JP 2008510305A JP 2008510305 A JP2008510305 A JP 2008510305A JP 2008542858 A5 JP2008542858 A5 JP 2008542858A5
Authority
JP
Japan
Prior art keywords
server
computer
operations
link
perform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008510305A
Other languages
English (en)
Other versions
JP5066080B2 (ja
JP2008542858A (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/US2006/017652 external-priority patent/WO2006121990A2/en
Publication of JP2008542858A publication Critical patent/JP2008542858A/ja
Publication of JP2008542858A5 publication Critical patent/JP2008542858A5/ja
Application granted granted Critical
Publication of JP5066080B2 publication Critical patent/JP5066080B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (22)

  1. 耐障害性コンピュータ・システムを動作させる方法であって、
    各々が第1セットの動作を実行するように構成される、第1サーバ、前記第1サーバとネットワークの間の第1リンク、第2サーバ、及び前記第2サーバと前記ネットワークの間の第2リンクを少なくともむ耐障害性コンピュータ・システムの各々のサーバに、前記第1セットの動作を実行しないコンピュータと前記ネットワークを通じて通信させ、
    前記第1サーバ、前記第2サーバ、前記第1リンク、又は前記第2リンクの障害が発生した場合に、第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを
    もし前記第1サーバ及び前記第2サーバが前記第1リンク及び前記第2リンクを介してお互いに通信することができる場合は、前記第1サーバ及び前記第2サーバに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために通信させること、及び
    もし前記第1サーバ及び前記第2サーバが前記第1リンク及び前記第2リンクを介してお互いに通信することができない場合は、前記第1セットの動作を実行しない前記コンピュータに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために、前記第1サーバ及び前記第2サーバと通信させること、
    によって決定する
    ステップを含むことを特徴とする方法。
  2. 前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するステップは、記障害後に前記コンピュータと通信できる前記第1サーバ及び前記第2サーバの内の1つに、前記第1セットの動作の実行を継続させるステップを含むことを特徴とする、請求項1に記載の方法。
  3. 前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するステップは、記障害後に前記コンピュータと通信できない前記第1サーバ及び前記第2サーバの内の1つに、前記第1セットの動作の実行を終了させるステップを含むことを特徴とする、請求項1に記載の方法。
  4. 記障害が発生した場合に、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を終了することになるかを決定するステップをさらに含むことを特徴とする、請求項1に記載の方法。
  5. 前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を終了することになるかを決定するステップは、記障害の後、前記コンピュータと通信できない前記第1サーバ及び前記第2サーバの内の1つに、前記第1セットの動作の実行を終了させるステップを含むことを特徴とする、請求項4に記載の方法。
  6. 第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを前記コンピュータとの通信に基づいて決定するステップは、前記第2リンクの障害が発生した場合に、前記第1サーバに前記第1セットの動作の実行を継続させ、前記第2サーバに前記第1セットの動作の実行を終了させることによって、分離脳動作を避けるステップをさらに含むことを特徴とする、請求項に記載の方法。
  7. 前記コンピュータは前記ネットワークに第3リンクにより接続されることを特徴とする、請求項に記載の方法。
  8. 前記第1サーバ及び前記第2サーバに、前記第1セットの動作を実行しない複数のコンピュータから、前記第1セットの動作を実行しない前記コンピュータを選出させるステップをさらに含むことを特徴とする、請求項1に記載の方法。
  9. 前記第1セットの動作を実行しない前記コンピュータは、独自の識別名を有することを特徴とする、請求項に記載の方法。
  10. 前記第1セットの動作を実行しない前記コンピュータは、複数の耐障害性コンピュータ・システムと通信するように構成されることを特徴とする、請求項に記載の方法。
  11. 前記複数の耐障害性コンピュータ・システムの各々は、独自の識別名を有することを特徴とする、請求項10に記載の方法。
  12. 前記第1サーバ及び前記第2サーバが前記第1セットの動作を実行しない前記コンピュータを選出した後で、第1サーバに、該第1サーバが前記コンピュータ及び第2サーバと独立に動作することを許可するトークンを与えるステップをさらに含むことを特徴とする、請求項に記載の方法。
  13. 前記第1サーバに前記トークンを与えるステップは、前記第1サーバ及び前記第2サーバが互いに通信できるときにだけそれを実行するステップを含むことを特徴とする、請求項12に記載の方法。
  14. 前記第1サーバ及び前記第2サーバに、前記第1セットの動作を実行しない前記コンピュータを選出させるステップは、前記第1サーバ及び前記第2サーバが互いに通信できるときにだけそれを実行するステップを含むことを特徴とする、請求項に記載の方法。
  15. 前記コンピュータに、前記第1サーバに前記トークンを与えさせるステップをさらに含むことを特徴とする、請求項12に記載の方法。
  16. 前記コンピュータに、前記第1サーバ及び前記第2サーバのどちらがより高レベルの機能を有するかを判断させ、前記第1サーバが前記より高レベルの機能を有するとき、前記第1サーバに前記トークンを与える、ステップをさらに含むことを特徴とする、請求項15に記載の方法。
  17. 前記コンピュータに、前記第1サーバ及び前記第2サーバが前記コンピュータとのネットワーク接続を有するかどうかを判断させ、前記第1サーバが前記コンピュータとのネットワーク接続を有し、前記第2サーバが前記コンピュータとのネットワーク接続を有しないとき、前記第1サーバに前記トークンを与えるステップをさらに含むことを特徴とする、請求項15に記載の方法。
  18. 第1セットの動作を実行するように構成され、前記第1セットの動作を実行しないコンピュータとのネットワーク接続を有する第1サーバと、
    前記第1セットの動作を実行するように構成され、前記第1サーバ及び前記コンピュータとのネットワーク接続を有する第2サーバと、
    を備える耐障害性コンピュータ・システムであって、
    前記システムは、該システムのコンポーネントの障害が発生した場合に、前記サーバのどちらが前記第1セットの動作の実行を継続することになるかを、
    もし前記第1サーバ及び前記第2サーバがお互いに直接通信することができる場合は、前記第1サーバ及び前記第2サーバに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために通信させること、及び
    もし前記第1サーバ及び前記第2サーバがお互いに直接通信することができない場合は、前記第1セットの動作を実行しない前記コンピュータに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために、前記第1サーバ及び前記第2サーバと通信させること、
    によって決定するように構成されることを特徴とする、コンピュータ・システム。
  19. コンピュータ可読媒体に格納されたコンピュータ・ソフトウェアであって、実行されたときに、耐障害性コンピュータ・システムに、
    それぞれが第1セットの動作を実行するように構成された、第1サーバ、前記第1サーバとネットワークの間の第1リンク、第2サーバ、及び前記第2サーバと前記ネットワークの間の第2リンクを少なくともむ前記耐障害性コンピュータ・システムの各々のサーバに、前記第1セットの動作を実行しないコンピュータと前記ネットワークを通じて通信させ、
    前記第1サーバ、前記第2サーバ、前記第1リンク、又は前記第2リンクの障害が発生した場合に、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを、
    もし前記第1サーバ及び前記第2サーバが前記第1リンク及び前記第2リンクを介してお互いに通信することができる場合は、前記第1サーバ及び前記第2サーバに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために通信させること、及び
    もし前記第1サーバ及び前記第2サーバが前記第1リンク及び前記第2リンクを介してお互いに通信することができない場合は、前記第1セットの動作を実行しない前記コンピュータに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために、前記第1サーバ及び前記第2サーバと通信させること、
    によって決定すること、
    を行わせる命令を含むことを特徴とするコンピュータ・ソフトウェア。
  20. 前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定する前記ステップは、前記第1サーバが前記第2サーバより高いレベルの機能性を有するときは前記第1サーバが前記第1セットの動作の実行を継続することになると決定するステップを含むことを特徴とする請求項1に記載の方法。
  21. 前記第1セットの動作の実行を継続することになると決定された前記第1サーバ及び前記第2サーバの内の1つに、前記決定された前記第1サーバ及び前記第2サーバの内の1つに、前記コンピュータ、及び前記第1サーバ及び前記第2サーバの内の他の1つと独立して動作することを許すトークンを与えるステップをさらに含むことを特徴とする請求項1に記載の方法。
  22. 前記トークンは、前記第1サーバ及び前記第2サーバの内の前記決定された1つが再起動又はパワーアップすることを許すことを特徴とする請求項21に記載の方法。
JP2008510305A 2005-05-06 2006-05-08 耐障害性コンピュータ・システム Active JP5066080B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US67816705P 2005-05-06 2005-05-06
US60/678,167 2005-05-06
PCT/US2006/017652 WO2006121990A2 (en) 2005-05-06 2006-05-08 Fault tolerant computer system

Publications (3)

Publication Number Publication Date
JP2008542858A JP2008542858A (ja) 2008-11-27
JP2008542858A5 true JP2008542858A5 (ja) 2009-06-25
JP5066080B2 JP5066080B2 (ja) 2012-11-07

Family

ID=37397185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008510305A Active JP5066080B2 (ja) 2005-05-06 2006-05-08 耐障害性コンピュータ・システム

Country Status (4)

Country Link
US (1) US7373545B2 (ja)
EP (1) EP1877901A4 (ja)
JP (1) JP5066080B2 (ja)
WO (1) WO2006121990A2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060259461A1 (en) * 2005-05-16 2006-11-16 Rajesh Kapur Method and system for preserving access to deleted and overwritten documents by means of a system recycle bin
US7668879B2 (en) * 2005-11-30 2010-02-23 Oracle International Corporation Database system configured for automatic failover with no data loss
US8255369B2 (en) * 2005-11-30 2012-08-28 Oracle International Corporation Automatic failover configuration with lightweight observer
US7627584B2 (en) * 2005-11-30 2009-12-01 Oracle International Corporation Database system configured for automatic failover with no data loss
US8201016B2 (en) * 2007-06-28 2012-06-12 Alcatel Lucent Heartbeat distribution that facilitates recovery in the event of a server failure during a user dialog
US8001413B2 (en) * 2008-05-05 2011-08-16 Microsoft Corporation Managing cluster split-brain in datacenter service site failover
US8565067B2 (en) * 2009-01-09 2013-10-22 International Business Machines Corporation Apparatus, system, and method for link maintenance
JP5589393B2 (ja) * 2010-01-13 2014-09-17 富士通株式会社 データベースシステムおよびデータベース制御方法
US9424149B2 (en) 2014-07-01 2016-08-23 Sas Institute Inc. Systems and methods for fault tolerant communications
WO2016077570A1 (en) 2014-11-13 2016-05-19 Virtual Software Systems, Inc. System for cross-host, multi-thread session alignment
US9619148B2 (en) 2015-07-27 2017-04-11 Sas Institute Inc. Distributed data set storage and retrieval
US9946718B2 (en) 2015-07-27 2018-04-17 Sas Institute Inc. Distributed data set encryption and decryption
US10275468B2 (en) * 2016-02-11 2019-04-30 Red Hat, Inc. Replication of data in a distributed file system using an arbiter
EP3506099A4 (en) * 2016-08-25 2019-09-04 Fujitsu Limited MAINTENANCE MANAGEMENT PROGRAM, MAINTENANCE MANAGEMENT METHOD, AND MAINTENANCE MANAGEMENT DEVICE
US11115317B1 (en) 2018-01-05 2021-09-07 Open Invention Network Llc EMS assisted split-brain resolution in virtual network function components
US10379985B1 (en) * 2018-02-01 2019-08-13 EMC IP Holding Company LLC Automating and monitoring rolling cluster reboots

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6021508A (en) * 1997-07-11 2000-02-01 International Business Machines Corporation Parallel file system and method for independent metadata loggin
US5999712A (en) * 1997-10-21 1999-12-07 Sun Microsystems, Inc. Determining cluster membership in a distributed computer system
US6279032B1 (en) * 1997-11-03 2001-08-21 Microsoft Corporation Method and system for quorum resource arbitration in a server cluster
US6449734B1 (en) * 1998-04-17 2002-09-10 Microsoft Corporation Method and system for discarding locally committed transactions to ensure consistency in a server cluster
US6105099A (en) * 1998-11-30 2000-08-15 International Business Machines Corporation Method for synchronizing use of dual and solo locking for two competing processors responsive to membership changes
US7774469B2 (en) * 1999-03-26 2010-08-10 Massa Michael T Consistent cluster operational data in a server cluster using a quorum of replicas
US6453426B1 (en) * 1999-03-26 2002-09-17 Microsoft Corporation Separately storing core boot data and cluster configuration data in a server cluster
JP2000330814A (ja) * 1999-05-19 2000-11-30 Toshiba Corp 二重化サーバシステム
JP3833117B2 (ja) * 2000-01-31 2006-10-11 富士通株式会社 サーバ決定方法及び装置
JP2002169704A (ja) * 2000-12-01 2002-06-14 Hitachi Ltd 代行処理方法、代行処理システム及びコンピュータシステム
US6785678B2 (en) * 2000-12-21 2004-08-31 Emc Corporation Method of improving the availability of a computer clustering system through the use of a network medium link state function
US7016946B2 (en) * 2001-07-05 2006-03-21 Sun Microsystems, Inc. Method and system for establishing a quorum for a geographically distributed cluster of computers
WO2005086756A2 (en) * 2004-03-09 2005-09-22 Scaleout Software, Inc. Scalable, software based quorum architecture
US20050283641A1 (en) * 2004-05-21 2005-12-22 International Business Machines Corporation Apparatus, system, and method for verified fencing of a rogue node within a cluster
US20060100981A1 (en) * 2004-11-04 2006-05-11 International Business Machines Corporation Apparatus and method for quorum-based power-down of unresponsive servers in a computer cluster
GB0501697D0 (en) * 2005-01-27 2005-03-02 Ibm Controlling service failover in clustered storage apparatus networks
JP4177339B2 (ja) * 2005-02-16 2008-11-05 株式会社東芝 分散システム、コンピュータおよび分散システムの状態遷移制御方法
US7631016B2 (en) * 2005-05-04 2009-12-08 Oracle International Corporation Providing the latest version of a data item from an N-replica set

Similar Documents

Publication Publication Date Title
JP2008542858A5 (ja)
US7787388B2 (en) Method of and a system for autonomously identifying which node in a two-node system has failed
WO2006121990A3 (en) Fault tolerant computer system
CN107229221A (zh) 用于多个热和冷备用冗余的容错模式和切换协议
US10826812B2 (en) Multiple quorum witness
Kohn et al. Fail-operational in safety-related automotive multi-core systems
US7480816B1 (en) Failure chain detection and recovery in a group of cooperating systems
CN103257908A (zh) 一种软硬件协同的多控制器磁盘阵列设计方法
US20110219263A1 (en) Fast cluster failure detection
US9164864B1 (en) Minimizing false negative and duplicate health monitoring alerts in a dual master shared nothing database appliance
CN104718533A (zh) 企业设备的强健硬件故障管理系统、方法及架构
GB2530136A (en) Failure management in a vehicle
US8935562B2 (en) Failover of interrelated services on multiple devices
JP2014002731A5 (ja)
WO2015058711A1 (zh) 故障快速检测方法及装置
US20070180287A1 (en) System and method for managing node resets in a cluster
CN110865907A (zh) 在主服务器与从服务器之间提供服务冗余的方法和系统
CN101442437B (zh) 一种实现高可用性的方法、系统及设备
US9047250B2 (en) Failover processing
WO2013053643A3 (de) Verfahren zum betreiben eines steuerungsnetzwerk und steuerungsnetzwerk
JP2009040199A (ja) 運行管理用フォルトトレラントシステム
JP2007280155A (ja) 分散システムにおける信頼性向上方法
CN102571789A (zh) 一种增强soa可生存性的降级服务替换验证方法
WO2011017845A1 (zh) 集群设备的通信系统
CN109344059A (zh) 一种服务器压力测试方法及装置