JP2008542858A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2008542858A5 JP2008542858A5 JP2008510305A JP2008510305A JP2008542858A5 JP 2008542858 A5 JP2008542858 A5 JP 2008542858A5 JP 2008510305 A JP2008510305 A JP 2008510305A JP 2008510305 A JP2008510305 A JP 2008510305A JP 2008542858 A5 JP2008542858 A5 JP 2008542858A5
- Authority
- JP
- Japan
- Prior art keywords
- server
- computer
- operations
- link
- perform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 claims 2
- 210000004556 Brain Anatomy 0.000 claims 1
Claims (22)
- 耐障害性コンピュータ・システムを動作させる方法であって、
各々が第1セットの動作を実行するように構成される、第1サーバ、前記第1サーバとネットワークの間の第1リンク、第2サーバ、及び前記第2サーバと前記ネットワークの間の第2リンクを少なくとも含む耐障害性コンピュータ・システムの各々のサーバに、前記第1セットの動作を実行しないコンピュータと前記ネットワークを通じて通信させ、
前記第1サーバ、前記第2サーバ、前記第1リンク、又は前記第2リンクの障害が発生した場合に、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを、
もし前記第1サーバ及び前記第2サーバが前記第1リンク及び前記第2リンクを介してお互いに通信することができる場合は、前記第1サーバ及び前記第2サーバに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために通信させること、及び
もし前記第1サーバ及び前記第2サーバが前記第1リンク及び前記第2リンクを介してお互いに通信することができない場合は、前記第1セットの動作を実行しない前記コンピュータに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために、前記第1サーバ及び前記第2サーバと通信させること、
によって決定する
ステップを含むことを特徴とする方法。 - 前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するステップは、前記障害後に前記コンピュータと通信できる前記第1サーバ及び前記第2サーバの内の1つに、前記第1セットの動作の実行を継続させるステップを含むことを特徴とする、請求項1に記載の方法。
- 前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するステップは、前記障害後に前記コンピュータと通信できない前記第1サーバ及び前記第2サーバの内の1つに、前記第1セットの動作の実行を終了させるステップを含むことを特徴とする、請求項1に記載の方法。
- 前記障害が発生した場合に、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を終了することになるかを決定するステップをさらに含むことを特徴とする、請求項1に記載の方法。
- 前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を終了することになるかを決定するステップは、前記障害の後、前記コンピュータと通信できない前記第1サーバ及び前記第2サーバの内の1つに、前記第1セットの動作の実行を終了させるステップを含むことを特徴とする、請求項4に記載の方法。
- 前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを前記コンピュータとの通信に基づいて決定するステップは、前記第2リンクの障害が発生した場合に、前記第1サーバに前記第1セットの動作の実行を継続させ、前記第2サーバに前記第1セットの動作の実行を終了させることによって、分離脳動作を避けるステップをさらに含むことを特徴とする、請求項1に記載の方法。
- 前記コンピュータは前記ネットワークに第3リンクにより接続されることを特徴とする、請求項1に記載の方法。
- 前記第1サーバ及び前記第2サーバに、前記第1セットの動作を実行しない複数のコンピュータから、前記第1セットの動作を実行しない前記コンピュータを選出させるステップをさらに含むことを特徴とする、請求項1に記載の方法。
- 前記第1セットの動作を実行しない前記コンピュータは、独自の識別名を有することを特徴とする、請求項8に記載の方法。
- 前記第1セットの動作を実行しない前記コンピュータは、複数の耐障害性コンピュータ・システムと通信するように構成されることを特徴とする、請求項8に記載の方法。
- 前記複数の耐障害性コンピュータ・システムの各々は、独自の識別名を有することを特徴とする、請求項10に記載の方法。
- 前記第1サーバ及び前記第2サーバが前記第1セットの動作を実行しない前記コンピュータを選出した後で、第1サーバに、該第1サーバが前記コンピュータ及び第2サーバと独立に動作することを許可するトークンを与えるステップをさらに含むことを特徴とする、請求項8に記載の方法。
- 前記第1サーバに前記トークンを与えるステップは、前記第1サーバ及び前記第2サーバが互いに通信できるときにだけそれを実行するステップを含むことを特徴とする、請求項12に記載の方法。
- 前記第1サーバ及び前記第2サーバに、前記第1セットの動作を実行しない前記コンピュータを選出させるステップは、前記第1サーバ及び前記第2サーバが互いに通信できるときにだけそれを実行するステップを含むことを特徴とする、請求項8に記載の方法。
- 前記コンピュータに、前記第1サーバに前記トークンを与えさせるステップをさらに含むことを特徴とする、請求項12に記載の方法。
- 前記コンピュータに、前記第1サーバ及び前記第2サーバのどちらがより高レベルの機能を有するかを判断させ、前記第1サーバが前記より高レベルの機能を有するとき、前記第1サーバに前記トークンを与える、ステップをさらに含むことを特徴とする、請求項15に記載の方法。
- 前記コンピュータに、前記第1サーバ及び前記第2サーバが前記コンピュータとのネットワーク接続を有するかどうかを判断させ、前記第1サーバが前記コンピュータとのネットワーク接続を有し、前記第2サーバが前記コンピュータとのネットワーク接続を有しないとき、前記第1サーバに前記トークンを与えるステップをさらに含むことを特徴とする、請求項15に記載の方法。
- 第1セットの動作を実行するように構成され、前記第1セットの動作を実行しないコンピュータとのネットワーク接続を有する第1サーバと、
前記第1セットの動作を実行するように構成され、前記第1サーバ及び前記コンピュータとのネットワーク接続を有する第2サーバと、
を備える耐障害性コンピュータ・システムであって、
前記システムは、該システムのコンポーネントの障害が発生した場合に、前記サーバのどちらが前記第1セットの動作の実行を継続することになるかを、
もし前記第1サーバ及び前記第2サーバがお互いに直接通信することができる場合は、前記第1サーバ及び前記第2サーバに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために通信させること、及び
もし前記第1サーバ及び前記第2サーバがお互いに直接通信することができない場合は、前記第1セットの動作を実行しない前記コンピュータに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために、前記第1サーバ及び前記第2サーバと通信させること、
によって決定するように構成されることを特徴とする、コンピュータ・システム。 - コンピュータ可読媒体に格納されたコンピュータ・ソフトウェアであって、実行されたときに、耐障害性コンピュータ・システムに、
それぞれが第1セットの動作を実行するように構成された、第1サーバ、前記第1サーバとネットワークの間の第1リンク、第2サーバ、及び前記第2サーバと前記ネットワークの間の第2リンクを少なくとも含む前記耐障害性コンピュータ・システムの各々のサーバに、前記第1セットの動作を実行しないコンピュータと前記ネットワークを通じて通信させ、
前記第1サーバ、前記第2サーバ、前記第1リンク、又は前記第2リンクの障害が発生した場合に、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを、
もし前記第1サーバ及び前記第2サーバが前記第1リンク及び前記第2リンクを介してお互いに通信することができる場合は、前記第1サーバ及び前記第2サーバに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために通信させること、及び
もし前記第1サーバ及び前記第2サーバが前記第1リンク及び前記第2リンクを介してお互いに通信することができない場合は、前記第1セットの動作を実行しない前記コンピュータに、前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定するために、前記第1サーバ及び前記第2サーバと通信させること、
によって決定すること、
を行わせる命令を含むことを特徴とするコンピュータ・ソフトウェア。 - 前記第1サーバ及び前記第2サーバのどちらが前記第1セットの動作の実行を継続することになるかを決定する前記ステップは、前記第1サーバが前記第2サーバより高いレベルの機能性を有するときは前記第1サーバが前記第1セットの動作の実行を継続することになると決定するステップを含むことを特徴とする請求項1に記載の方法。
- 前記第1セットの動作の実行を継続することになると決定された前記第1サーバ及び前記第2サーバの内の1つに、前記決定された前記第1サーバ及び前記第2サーバの内の1つに、前記コンピュータ、及び前記第1サーバ及び前記第2サーバの内の他の1つと独立して動作することを許すトークンを与えるステップをさらに含むことを特徴とする請求項1に記載の方法。
- 前記トークンは、前記第1サーバ及び前記第2サーバの内の前記決定された1つが再起動又はパワーアップすることを許すことを特徴とする請求項21に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US67816705P | 2005-05-06 | 2005-05-06 | |
US60/678,167 | 2005-05-06 | ||
PCT/US2006/017652 WO2006121990A2 (en) | 2005-05-06 | 2006-05-08 | Fault tolerant computer system |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008542858A JP2008542858A (ja) | 2008-11-27 |
JP2008542858A5 true JP2008542858A5 (ja) | 2009-06-25 |
JP5066080B2 JP5066080B2 (ja) | 2012-11-07 |
Family
ID=37397185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008510305A Active JP5066080B2 (ja) | 2005-05-06 | 2006-05-08 | 耐障害性コンピュータ・システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US7373545B2 (ja) |
EP (1) | EP1877901A4 (ja) |
JP (1) | JP5066080B2 (ja) |
WO (1) | WO2006121990A2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060259461A1 (en) * | 2005-05-16 | 2006-11-16 | Rajesh Kapur | Method and system for preserving access to deleted and overwritten documents by means of a system recycle bin |
US7668879B2 (en) * | 2005-11-30 | 2010-02-23 | Oracle International Corporation | Database system configured for automatic failover with no data loss |
US8255369B2 (en) * | 2005-11-30 | 2012-08-28 | Oracle International Corporation | Automatic failover configuration with lightweight observer |
US7627584B2 (en) * | 2005-11-30 | 2009-12-01 | Oracle International Corporation | Database system configured for automatic failover with no data loss |
US8201016B2 (en) * | 2007-06-28 | 2012-06-12 | Alcatel Lucent | Heartbeat distribution that facilitates recovery in the event of a server failure during a user dialog |
US8001413B2 (en) * | 2008-05-05 | 2011-08-16 | Microsoft Corporation | Managing cluster split-brain in datacenter service site failover |
US8565067B2 (en) * | 2009-01-09 | 2013-10-22 | International Business Machines Corporation | Apparatus, system, and method for link maintenance |
JP5589393B2 (ja) * | 2010-01-13 | 2014-09-17 | 富士通株式会社 | データベースシステムおよびデータベース制御方法 |
US9424149B2 (en) | 2014-07-01 | 2016-08-23 | Sas Institute Inc. | Systems and methods for fault tolerant communications |
WO2016077570A1 (en) | 2014-11-13 | 2016-05-19 | Virtual Software Systems, Inc. | System for cross-host, multi-thread session alignment |
US9619148B2 (en) | 2015-07-27 | 2017-04-11 | Sas Institute Inc. | Distributed data set storage and retrieval |
US9946718B2 (en) | 2015-07-27 | 2018-04-17 | Sas Institute Inc. | Distributed data set encryption and decryption |
US10275468B2 (en) * | 2016-02-11 | 2019-04-30 | Red Hat, Inc. | Replication of data in a distributed file system using an arbiter |
EP3506099A4 (en) * | 2016-08-25 | 2019-09-04 | Fujitsu Limited | MAINTENANCE MANAGEMENT PROGRAM, MAINTENANCE MANAGEMENT METHOD, AND MAINTENANCE MANAGEMENT DEVICE |
US11115317B1 (en) | 2018-01-05 | 2021-09-07 | Open Invention Network Llc | EMS assisted split-brain resolution in virtual network function components |
US10379985B1 (en) * | 2018-02-01 | 2019-08-13 | EMC IP Holding Company LLC | Automating and monitoring rolling cluster reboots |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6021508A (en) * | 1997-07-11 | 2000-02-01 | International Business Machines Corporation | Parallel file system and method for independent metadata loggin |
US5999712A (en) * | 1997-10-21 | 1999-12-07 | Sun Microsystems, Inc. | Determining cluster membership in a distributed computer system |
US6279032B1 (en) * | 1997-11-03 | 2001-08-21 | Microsoft Corporation | Method and system for quorum resource arbitration in a server cluster |
US6449734B1 (en) * | 1998-04-17 | 2002-09-10 | Microsoft Corporation | Method and system for discarding locally committed transactions to ensure consistency in a server cluster |
US6105099A (en) * | 1998-11-30 | 2000-08-15 | International Business Machines Corporation | Method for synchronizing use of dual and solo locking for two competing processors responsive to membership changes |
US7774469B2 (en) * | 1999-03-26 | 2010-08-10 | Massa Michael T | Consistent cluster operational data in a server cluster using a quorum of replicas |
US6453426B1 (en) * | 1999-03-26 | 2002-09-17 | Microsoft Corporation | Separately storing core boot data and cluster configuration data in a server cluster |
JP2000330814A (ja) * | 1999-05-19 | 2000-11-30 | Toshiba Corp | 二重化サーバシステム |
JP3833117B2 (ja) * | 2000-01-31 | 2006-10-11 | 富士通株式会社 | サーバ決定方法及び装置 |
JP2002169704A (ja) * | 2000-12-01 | 2002-06-14 | Hitachi Ltd | 代行処理方法、代行処理システム及びコンピュータシステム |
US6785678B2 (en) * | 2000-12-21 | 2004-08-31 | Emc Corporation | Method of improving the availability of a computer clustering system through the use of a network medium link state function |
US7016946B2 (en) * | 2001-07-05 | 2006-03-21 | Sun Microsystems, Inc. | Method and system for establishing a quorum for a geographically distributed cluster of computers |
WO2005086756A2 (en) * | 2004-03-09 | 2005-09-22 | Scaleout Software, Inc. | Scalable, software based quorum architecture |
US20050283641A1 (en) * | 2004-05-21 | 2005-12-22 | International Business Machines Corporation | Apparatus, system, and method for verified fencing of a rogue node within a cluster |
US20060100981A1 (en) * | 2004-11-04 | 2006-05-11 | International Business Machines Corporation | Apparatus and method for quorum-based power-down of unresponsive servers in a computer cluster |
GB0501697D0 (en) * | 2005-01-27 | 2005-03-02 | Ibm | Controlling service failover in clustered storage apparatus networks |
JP4177339B2 (ja) * | 2005-02-16 | 2008-11-05 | 株式会社東芝 | 分散システム、コンピュータおよび分散システムの状態遷移制御方法 |
US7631016B2 (en) * | 2005-05-04 | 2009-12-08 | Oracle International Corporation | Providing the latest version of a data item from an N-replica set |
-
2006
- 2006-05-08 US US11/382,133 patent/US7373545B2/en active Active
- 2006-05-08 WO PCT/US2006/017652 patent/WO2006121990A2/en active Application Filing
- 2006-05-08 EP EP06759274.1A patent/EP1877901A4/en not_active Withdrawn
- 2006-05-08 JP JP2008510305A patent/JP5066080B2/ja active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008542858A5 (ja) | ||
US7787388B2 (en) | Method of and a system for autonomously identifying which node in a two-node system has failed | |
WO2006121990A3 (en) | Fault tolerant computer system | |
CN107229221A (zh) | 用于多个热和冷备用冗余的容错模式和切换协议 | |
US10826812B2 (en) | Multiple quorum witness | |
Kohn et al. | Fail-operational in safety-related automotive multi-core systems | |
US7480816B1 (en) | Failure chain detection and recovery in a group of cooperating systems | |
CN103257908A (zh) | 一种软硬件协同的多控制器磁盘阵列设计方法 | |
US20110219263A1 (en) | Fast cluster failure detection | |
US9164864B1 (en) | Minimizing false negative and duplicate health monitoring alerts in a dual master shared nothing database appliance | |
CN104718533A (zh) | 企业设备的强健硬件故障管理系统、方法及架构 | |
GB2530136A (en) | Failure management in a vehicle | |
US8935562B2 (en) | Failover of interrelated services on multiple devices | |
JP2014002731A5 (ja) | ||
WO2015058711A1 (zh) | 故障快速检测方法及装置 | |
US20070180287A1 (en) | System and method for managing node resets in a cluster | |
CN110865907A (zh) | 在主服务器与从服务器之间提供服务冗余的方法和系统 | |
CN101442437B (zh) | 一种实现高可用性的方法、系统及设备 | |
US9047250B2 (en) | Failover processing | |
WO2013053643A3 (de) | Verfahren zum betreiben eines steuerungsnetzwerk und steuerungsnetzwerk | |
JP2009040199A (ja) | 運行管理用フォルトトレラントシステム | |
JP2007280155A (ja) | 分散システムにおける信頼性向上方法 | |
CN102571789A (zh) | 一种增强soa可生存性的降级服务替换验证方法 | |
WO2011017845A1 (zh) | 集群设备的通信系统 | |
CN109344059A (zh) | 一种服务器压力测试方法及装置 |