KR101444783B1 - System managing method for improving system availability - Google Patents

System managing method for improving system availability Download PDF

Info

Publication number
KR101444783B1
KR101444783B1 KR1020130055853A KR20130055853A KR101444783B1 KR 101444783 B1 KR101444783 B1 KR 101444783B1 KR 1020130055853 A KR1020130055853 A KR 1020130055853A KR 20130055853 A KR20130055853 A KR 20130055853A KR 101444783 B1 KR101444783 B1 KR 101444783B1
Authority
KR
South Korea
Prior art keywords
computers
availability
computer
failover
network
Prior art date
Application number
KR1020130055853A
Other languages
Korean (ko)
Inventor
추증호
장혜민
박원익
김도종
Original Assignee
국방과학연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소 filed Critical 국방과학연구소
Priority to KR1020130055853A priority Critical patent/KR101444783B1/en
Application granted granted Critical
Publication of KR101444783B1 publication Critical patent/KR101444783B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/452Remote windowing, e.g. X-Window System, desktop virtualisation

Abstract

The present specification relates to a method for managing a system to improve system availability, which can improve the availability of the system by applying a failover function to the system. According to an embodiment disclosed in the present specification, a method for managing a system to improve system availability is a method for operating a system consisting of an M number of computers connected to each other through a network. The method comprises the steps of: (1) replacing an N number of computers among the M number of computers with a secondary computer; (2) stopping the operation of the N number of computers; (3) rebooting the computers of which the operation is stopped; (4) replacing the rebooted computers with the secondary computer and operating the rebooted computers; and operating the system to alternate an (M+N) number of computers by repeating steps (1) to (4).

Description

시스템 가용성 향상을 위한 시스템 운용 방법{SYSTEM MANAGING METHOD FOR IMPROVING SYSTEM AVAILABILITY}[0001] SYSTEM MANAGEMENT METHOD FOR IMPROVING SYSTEM AVAILABILITY [0002]

본 명세서는 시스템 가용성 향상을 위한 시스템 운용 방법에 관한 것이다. The present specification relates to a system operation method for improving system availability.

일반적으로, 현재의 기업환경은 정보시스템의 단 1분간의 다운으로도 막대한 손실을 초래하는 상황이며, 기업의 모든 자원은 디지털 네트워크로 연결되어 365일 24시간 항상 서비스를 제공하기를 요구받고 있다. 이러한 정보 네트워크 시대에서 시스템의 가용성을 향상시키는 것은 성공적인 경영을 위해 반드시 확립되어야 하는 기본적인 토대가 되고 있다. In general, the present enterprise environment is causing a huge loss even with only one minute of information system down, and all the resources of the enterprise are required to be connected to the digital network to provide services 24 hours a day, 365 days a year. Improving system availability in this age of information networks has become a fundamental foundation that must be established for successful management.

네트워크 중심으로 운용개념이 전환되고 있는 무기체계들 또한 100%의 가용성을 묵시적으로 요구받고 있는 것이 사실이다. 그러나 100%의 가용성은 현실적으로는 달성할 수 없는 이상적인 목표이며, 기업의 정보 시스템뿐만 아니라 무기체계도 투자 대비 효용성(비용 대비 효용성)을 고려한, 그리고 기업의 요구사항(군 성능 요구사항)에 부합하는 수준으로 가용성을 설정할 수밖에 없는 실정이다. 가용성은 비용, 복잡성 등 여러 요소들에 대한 절충(Trade-off)의 결과로 그 수준이 결정된다고 할 수 있다. 일반적인 고가용성 네트워크 시스템은 한국 특허 출원 번호 10-2008-7010167에 개시되어 있다. It is true that the weapon systems that are shifting the concept of network-centric operation are implicitly demanding 100% availability. However, the availability of 100% is an ideal goal that can not be achieved in reality, and it is important that not only the information system of the enterprise but also the weapon system should be considered in terms of investment availability (cost effectiveness) Level of availability. Availability is determined by the trade-off of various factors such as cost and complexity. A typical high availability network system is disclosed in Korean Patent Application No. 10-2008-7010167.

본 명세서는 시스템에 페일오버(failover, 장애 극복 기능)를 적용함으로써 시스템의 가용성을 향상시킬 수 있는 시스템 가용성 향상을 위한 시스템 운용 방법을 제공하는 데 그 목적이 있다. It is an object of the present invention to provide a method of operating a system for improving system availability, which can improve the availability of a system by applying a failover function to the system.

본 명세서에 개시된 실시예에 따른 시스템 가용성 향상을 위한 시스템 운용 방법은, 네트워크를 통해 서로 연결된 M개의 컴퓨터로 구성된 시스템을 운영하는 방법에 있어서, (1) 상기 M개의 컴퓨터 중 N개의 컴퓨터를 보조 컴퓨터로 대체하는 단계와; (2) 상기 N개의 컴퓨터의 작동을 중단하는 단계와; (3) 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와; (4) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와; 상기 (1) 내지 (4) 단계를 반복함으로써 상기 시스템을 M+N개의 컴퓨터로 순환 운용하는 단계를 포함하며, 여기서, M, N은 자연수를 나타내며, 상기 M의 자연수는 상기 N의 자연수보다 큰 값을 의미한다.A method for operating a system for improving system availability according to an exemplary embodiment of the present invention is a method for operating a system composed of M computers connected to each other through a network, the method comprising the steps of: (1) ; (2) stopping operation of the N computers; (3) rebooting the computer whose operation has been interrupted; (4) replacing the rebooted computer with the auxiliary computer and operating the same; And repeating the steps (1) to (4) to circulate the system to M + N computers, wherein M and N represent natural numbers, and the natural number of M is larger than the natural number of N Lt; / RTI >

본 명세서와 관련된 일 예로서, 상기 M개의 컴퓨터는 상기 네트워크를 통해 페일오버(Failover) 기능을 수행할 수 있다. As one example related to the present specification, the M computers can perform a failover function through the network.

본 명세서와 관련된 일 예로서, 상기 N개의 컴퓨터는 미리설정된 주기로 페일오버를 수행할 수 있다. As one example related to the present specification, the N computers can perform fail-over in a predetermined cycle.

본 발명의 실시예에 따른 시스템 가용성 향상을 위한 시스템 운용 방법은, 시스템에 페일오버(failover, 장애 극복 기능)를 적용함으로써 시스템의 가용성을 향상시킬 수 있으며, 상기 페일오버를 기동시키는 간단하고 효과적인 방법을 통하여 시스템의 가용성을 더욱 향상시킬 수 있다. The system operation method for improving the system availability according to the embodiment of the present invention can improve the availability of the system by applying a failover function to the system and can provide a simple and effective method of activating the failover The availability of the system can be further improved.

도 1은 시스템 가용성 측정치를 나타낸 도이다.
도 2는 시스템 다운을 일으킬 수 있는 여러 원인을 나타낸 도이다.
도 3은 페일오버가 일어나지 않은 상태의 시스템 구성도이이다.
도 4는 컴퓨터 B와 B' 사이에 페일오버가 일어나고 있는 상태를 나타낸 도이다.
도 5는 페일오버가 완료되어 컴퓨터 B 대신에 B'가 동작하고 있는 상태를 나타낸 도이다.
도 6은 페일오버가 완료되어 컴퓨터 B 대신에 B'가 동작하고 있는 상태를 나타낸 도이다.
Figure 1 is a diagram illustrating system availability measurements.
FIG. 2 is a diagram showing various causes that can cause a system down. FIG.
3 is a system configuration diagram showing a state in which no failover has occurred.
4 is a diagram showing a state in which a failover occurs between the computers B and B '.
5 is a diagram showing a state in which B 'is being operated instead of the computer B after the failover is completed.
6 is a diagram showing a state in which B 'is being operated instead of the computer B after the failover is completed.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, wherein like reference numerals are used to designate identical or similar elements, and redundant description thereof will be omitted. The suffix "module" and " part "for the components used in the following description are given or mixed in consideration of ease of specification, and do not have their own meaning or role. In the following description of the embodiments of the present invention, a detailed description of related arts will be omitted when it is determined that the gist of the embodiments disclosed herein may be blurred. In addition, it should be noted that the attached drawings are only for easy understanding of the embodiments disclosed in the present specification, and should not be construed as limiting the technical idea disclosed in the present specification by the attached drawings.

도 1은 본 발명의 실시예에 따른 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 가용성 향상을 위한 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용 방법을 나타낸 흐름도이다. 1 is a flow diagram illustrating a method for operating a system (e.g., multiple servers or multiple computers) for improving availability of a system (e.g., multiple servers or multiple computers) in accordance with an embodiment of the present invention.

도 1에 도시한 바와 같이, 본 발명의 실시예에 따른 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 가용성 향상을 위한 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용 방법은, (1) 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용을 위한 M개의 컴퓨터(또는 서버) 중 N개의 컴퓨터(또는 서버)를 보조 컴퓨터로 대체하는 단계와(S10); (2) 상기 N개의 컴퓨터의 작동을 중단하는 단계와(S20); (3) 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와(S30); (4) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와(S40); 상기 (1) 내지 (4) 단계를 반복함으로써 상기 시스템을 M+N개의 컴퓨터로 순환 운용하는 단계를 포함한다. 여기서, M, N은 자연수를 나타내며, 상기 M의 자연수는 상기 N의 자연수보다 큰 값을 의미한다. 상기 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터)으로서 구성된 M개의 컴퓨터(또는 서버)는 네트워크를 통해 서로 연결되어 있으며, 페일오버(Failover) 기능을 수행한다.1, a method for operating a system (e.g., a plurality of servers or a plurality of computers) for improving availability of a system (e.g., a plurality of servers or a plurality of computers) according to an embodiment of the present invention (S10) replacing N computers (or servers) among M computers (or servers) for the operation of a system (e.g., a plurality of servers or a plurality of computers) with a subsidiary computer; (2) stopping operation of the N computers (S20); (3) rebooting the computer whose operation has been interrupted (S30); (4) replacing the rebooted computer with the auxiliary computer and operating (S40); And repeating the steps (1) to (4) to circulate the system to M + N computers. Here, M and N represent natural numbers, and the natural number of M means a value larger than the natural number of N. [ The M computers (or servers) configured as the system (for example, a plurality of servers or a plurality of computers) are connected to each other through a network and perform a failover function.

상기 시스템의 가용성(A)은 수학식1과 같이 표현된다.The availability (A) of the system is expressed as Equation (1).

Figure 112013043505522-pat00001
Figure 112013043505522-pat00001

여기서, MTBF는 평균 고장 간격 시간(Mean Time Between Failures)을 의미하며, MTTR은 평균 복구 시간(Mean Time To Recover)을 의미한다. 상기 수학식1에서 알 수 있듯이, MTTR이 0이 된다면 시스템의 가용성(A)은 100%가 되며, MTBF가 커질수록 MTTR이 시스템의 가용성(A)에 끼치는 영향력은 작아진다. Here, MTBF means Mean Time Between Failures, and MTTR means Mean Time To Recover. As can be seen from Equation (1), if the MTTR becomes 0, the availability (A) of the system becomes 100%. As the MTBF increases, the influence of the MTTR on the availability (A) of the system becomes smaller.

도 2는 시스템 가용성 측정치를 나타낸 도이다. Figure 2 is a diagram illustrating system availability measurements.

도 2에서 볼 수 있듯이, 특정 시스템의 MTBF가 100,000시간이고, MTTR이 1시간이라면 위의 공식에 따라 이 시스템의 가용성(A)은 99.999%가 된다. 만약 이 시스템의 MTTR을 1시간의 10%인 6분으로 낮춘다면 이 시스템의 가용성(A)은 99.9999%가 될 것이다. 하지만 6분 동안만 다운되는 정도의 가용성을 달성하기 위해서 11년도 넘는 100,000시간 동안 지속적으로 동작할 수 있는 부품을 써야 하는 것이다. 그러나 일반적으로 시스템은 한 개의 부품이 아닌 여러 개의 부품으로 이루어져 있으며, 결국 99.9999%의 가용성을 이루기 위해서는 전체 부품이 11.4년 동안 통틀어 6분간만 고장 나야 한다는 말이다. 현 기술을 놓고 볼 때 이는 매우 비현실적이며 달성 불가능한 이야기이다. As can be seen in FIG. 2, if the MTBF of a particular system is 100,000 hours and the MTTR is 1 hour, the availability (A) of this system is 99.999% according to the above formula. If the MTTR of this system is reduced to 6 minutes, which is 10% of 1 hour, the availability (A) of this system will be 99.9999%. However, in order to achieve availability as low as 6 minutes, it is necessary to use components that can operate continuously for over 100,000 hours over 11 years. In general, however, the system consists of several parts rather than a single part, which means that in order to achieve 99.9999% availability, the entire component must fail for a total of 11.4 years for 6 minutes. Based on current technology, this is a very unrealistic and unattainable story.

도 3은 시스템 다운을 일으킬 수 있는 여러 원인(IEEE Computer 매거진, 1995년 4월)을 나타낸 도이다. 그래프에서 가장 많은 비중을 차지하고 있는 것은 예정된 다운(Planned Downtime)이다. 상기 예정된 다운이란 시스템 관리자가 서버의 중요 부품이나 중요한 소프트웨어를 업그레이드하기 위해 의도적으로 시스템을 중단하거나, 때로는 로그 파일을 지우거나 임시 디렉토리와 메모리를 정리하기 위해 시스템을 재부팅하는 경우이다.FIG. 3 is a diagram showing various causes that can cause a system down (IEEE Computer Magazine, April 1995). The planned downtime is the most important part of the graph. The scheduled down is when a system administrator deliberately interrupts the system to upgrade critical parts of the server or critical software, or sometimes erases the log files or reboots the system to clean up temporary directories and memory.

시스템 다운의 또 다른 원인은 사람이다. 사람들은 밀접하게 연관된 두 가지 이유로 인해 시스템을 다운시킨다. 첫 번째 이유는 사람들의 부주의나 직무태만으로 인한 실수이며, 두 번째는 시스템 운영 방법을 완벽하게 숙지하지 않아서 생기는 문제이다. 시스템 다운의 원인 중 하드웨어로 인한 것은 오직 10% 정도이다. 사실 디스크 문제, 네트워크 고장 외에 전원 공급 장치, CPU 및 메모리 문제, 내부 냉각 시스템 고장 등의 하드웨어 불량으로 일어나는 시스템 다운은 10%에 머문다.Another cause of system crash is people. People turn down the system for two closely related reasons. The first is a mistake made by people negligence or neglect, and the second is caused by not fully understanding how to operate the system. Only 10% of the causes of the system crash are caused by hardware. In fact, system failures due to hardware failures, such as power failures, CPU and memory problems, and internal cooling system failures in addition to disk problems, network failures, remain at 10%.

시스템 다운의 또 다른 원인은 소프트웨어 문제이다. 상기 소프트웨어로 인한 시스템 다운은 40%나 된다. 소프트웨어의 버그는 시스템 안정성을 다루는 데 있어 가장 해결하기 힘든 부분이다. 하드웨어가 보다 안정적인 부품으로 교체되고 예정된 다운을 감소시키기 위한 방법을 취함으로써 이에 관련된 문제점은 감소하지만, 상대적으로 소프트웨어로 인한 다운의 비중은 더욱 증가하게 된다. 또한, 소프트웨어가 점점 더 복잡해지면서 소프트웨어 자체 문제로 인한 장애가 더 많이 발생할 수 있다.Another source of system down is software problems. The system down by the software is 40%. Software bugs are the hardest part of addressing system stability. By replacing the hardware with a more stable part and taking a method to reduce the scheduled down, the problem associated therewith is reduced, but the proportion of down due to the software is further increased. In addition, as software becomes increasingly complex, more problems can arise from software problems.

시스템 다운 원인에 따라 시스템 다운 감소를 위한 방안이 강구되어야 하는데, 시스템 다운의 가장 큰 원인인 소프트웨어의 버그는 완전히 없앨 수 없다는 데 어려움이 있다. 소프트웨어의 버그를 완전히 없애기보다는 컴퓨터 시스템을 클러스트로 구성하고, 소프트웨어가 수행되다가 멈춘 경우 다른 곳에 있던 동일한 소프트웨어가 이어받아 계속 동작하게 하는 페일오버(Failover)를 수행하는 소프트웨어를 적용하는 것이 현실적인 소프트웨어에 의한 시스템 다운의 감소 방안이 될 수 있다. 상기 페일오버를 자동으로 수행하는 소프트웨어는 사용자에게 컴퓨터가 다운될 때 컴퓨터 그 자체를 통째로 들어내고 다른 것으로 교체해서 예전처럼 작업을 계속 수행하게 하는 것 같이 느끼게 할 수 있다.It is difficult to reduce the system down according to the cause of the system down. It is difficult to completely eliminate the software bug which is the biggest cause of system down. Instead of completely eliminating bugs in the software, it is more practical to apply software that performs the failover that configures the computer system as a cluster, and when the software is stopped running, It can be a plan to reduce the system down. Software that automatically performs the failover can make the user feel as if the computer itself is lifted entirely and replaced with another when the computer goes down, allowing the user to continue performing the task as before.

가용성을 증대시키기 위해서는 클러스터를 구성해서 페일오버 시스템을 적용하면 사람에 의한 시스템 다운과 주변 환경 및 물리적인 고장에 의한 시스템 다운을 제외한 대부분의 시스템 다운에 대처하는 것이 가능하다. 이런 관점에서 페일오버 시스템을 구축하기 위해서는 다음과 같이 복수개의 서버, 복수개의 네트워크, 미러링되는 비공유 디스크 그리고 동일한 응용프로그램의 중복 배치 등이 요구될 수 있으며, 이를 이하에서 설명한다.In order to increase availability, it is possible to cope with most system downtime except for system down due to human, surrounding environment and system failure due to physical failure. In order to construct a failover system from this point of view, a plurality of servers, a plurality of networks, a mirrored non-shared disk, and a duplicate arrangement of the same application programs may be required as described below.

가. 서버end. server

서비스를 제공하는 소프트웨어인 서버는 주 서버와 그것을 이어받을 대기 서버, 이렇게 두 대의 서버가 필요하다. 주 서버에서 작동하다가 멈춘 중요한 응용프로그램을 두 번째 서버로 이동하는 과정을 페일오버라고 한다. 이 서버들은 동일한 운영체제상에서 동작하고, 서로 동일한 패치가 설치되어 있으며, 동일하게 실행되어, 가능한 동일한 환경으로 설정된다.   The software that provides the service requires two servers: a main server and a standby server to which the service is to be transferred. Failover is the process of moving an important application that has stopped working on a primary server to a secondary server. These servers run on the same operating system, have identical patches installed, run the same, and are set to the same environment as possible.

나. 네트워크 연결I. Network connection

페일오버를 구성하는 데에는 두 개의 다른 종류의 네트워크 연결이 요구되는 데, 세 가지 종류의 네트워크로 구성될 수도 있다. 쌍으로 엮어진 핫비트 네트워크는 서버들이 다른 서버와 연결하게 하고 모니터하도록 하여 짝을 이루는 상대에게 조치가 필요한 일이 발생하는 즉시 알아차리게 된다. 필요한 두 번째 네트워크 연결은 일반 또는 서비스 네트워크이다. 이 네트워크로 사용자들과 클라이언트들이 데이터를 전달한다. 네트워크 연결의 세 번째 타입은 관리자 네트워크인데, 이는 페일오버가 발생한 후에라도 시스템 관리자들에게 각각의 서버 간의 네트워크 경로를 보장한다.   Two different types of network connections are required to configure failover, which can consist of three kinds of networks. A pair of hot bit networks let the servers connect and monitor with other servers and notify each other as soon as something needs to happen. The second network connection required is a normal or service network. This network delivers data to users and clients. The third type of network connection is the administrator network, which ensures system administrators have a network path between each server even after a failover occurs.

다. 디스크All. disk

페일오버에는 두 종류의 디스크 유형이 있는데, 첫 번째인 내부 비공유 디스크들은 현재 동작하고 있는 서버가 아닐 경우 각각의 시스템이 시스템 작동을 위해서 페일오버 과정을 초기화하여 유지하게 하는 소프트웨어를 포함하여 운영체제와 필요한 다른 파일들을 가지고 있다. 비공유 디스크는 공유할 수 없으며, 오직 한 개의 서버에서만 제대로 동작한다. 비공유 디스크의 모든 내용은 미러링 되어야 한다. 비공유 디스크의 요구사항은 장에 회복을 위해 첫 번째 시스템과 대체 시스템의 여러 관리자용 파일은 완전히 동일해야 하고, 자동으로 이루어져야 한다는 것이다. 두 번째 디스크 유형은 공유 디스크로 중요한 데이터를 가지고 있는 디스크이다. 이 디스크의 데이터는 중요해서 첫 번째 시스템과 대체 시스템 모두 이 디스크에 접근할 수 있는 동시에 한 번에 하나의 시스템만이 공유 디스크에 접근해야 한다. 만약 두 시스템이 동시에 공유 디스크에 접근하려고 하면 공유 디스크에 기록되어 있는 데이터에 문제가 생길 수 있다.    There are two types of failover: first, internal non-shared disks, which are software that allows each system to initiate and maintain a failover process for system operation if it is not the currently running server. I have other files. Non-shared disks can not be shared, and only work on one server. All contents of the non-shared disk must be mirrored. The requirement for a non-shared disk is that the files for the first and the alternate system's managers must be exactly the same and must be done automatically for recovery. The second type of disk is a shared disk, which contains important data. The data on this disk is important so that both the first system and the alternate system can access this disk, and only one system at a time needs to access the shared disk. If both systems try to access the shared disk at the same time, there may be a problem with the data recorded on the shared disk.

상기 공유 디스크를 만드는 방법은 두 가지가 있는데, 첫 번째 방법은 물리적으로 연결되어 있는 두 호스트가 같은 디스크를 공유해서 쓰는 듀얼 호스트라는 방법으로 두 시스템의 접근은 외부 소프트웨어가 조절해 한 번에 하나의 호스트만 접근할 수 있도록 제어하는 방법이다. 공유 디스크를 만드는 또 다른 방법으로는 데이터를 각 서버 사이의 네트워크(핫비트 네트워크나 다른 병렬네트워크)에 복제하는 "shared nothing" 이라는 방법이 있다. 이 방법은 서로 다른 쪽에 데이터를 기록할 수 있게 하는 네트워크와 호스트가 요구된다.There are two ways to create the shared disk. The first method is a dual host where two physically connected hosts share the same disk. Access to both systems is controlled by external software, This is a method to control access only to the host. Another way to create a shared disk is to have a "shared nothing" way of copying data to the network between each server (a hot-bit network or another parallel network). This method requires a network and a host that allow data to be written to the other side.

라. 응용프로그램 적용la. Application Application

클러스트 디자인의 중요한 요소로 응용프로그램들이 클러스터된 두 서버 상에서 한 번에 한 서버에서 번갈아 가면서 모두 동작해야 한다는 것이다. 응용프로그램을 부트 및 시스템 정보를 담고 있는 비공유 디스크에 설치했다면 반드시 두 개의 복사본을 만들어야 하며 응용프로그램 구성 변경도 두 번 해야 한다. 그렇지 않으면 페일오버 시스템에서 응용프로그램을 보증할 수 없게 된다. 반면에 공유 디스크에 설치했을 때는 해당 응용프로그램 구성 파일을 한 번만 복사하면 되고, 응용프로그램 구성을 변경하려면 한 부분에서만 바꾸면 된다. 응용프로그램을 한 번만 복사하면 되는 경우는 응용프로그램 업그레이드나 제거를 안전하게 수행할 수 없다. 두 번 복사하는 경우는 시스템(컴퓨터 또는 서버) A에 먼저 업그레이드를 해 보고 혹시 모를 사태에 대비해 시스템(컴퓨터 또는 서버) B를 페일오버 시스템으로 사용하면 된다. 그리고 시스템 A에서 아무런 문제가 없으면 그 때 시스템 B도 업그레이드하고 시스템 A에 문제가 생긴다면 시스템 A를 복구하고 시스템 B에서 다시 설치해 보면 된다. 상황에 맞게 선택해서 쓰면 되는데, 업그레이드가 잦은 경우에는 비공유 디스크에 응용프로그램을 설치하는 것이 유리할 수 있다.An important element of cluster design is that applications must work on both clustered servers, alternating at one server at a time. If you install the application on a non-shared disk that contains boot and system information, you must make two copies and make two application configuration changes. Otherwise, the failover system will not be able to guarantee the application. On the other hand, if you install on a shared disk, you only need to copy the application configuration file once, and if you want to change the application configuration, you only need to change one part. If you only need to copy the application once, you can not safely upgrade or remove the application. If you make two copies, you can upgrade your system (computer or server) A first and use the system (computer or server) B as a failover system in case you ever need to. If there is no problem in System A, then upgrade System B and if there is a problem in System A, recover System A and reinstall it in System B. You can choose to use it according to your situation. If you have frequent upgrades, it may be advantageous to install the application on a non-shared disk.

본 발명은 이러한 페일오버 시스템 요구수준을 만족하는 시스템이 구성되어 있을 때, 페일오버를 기동시키는 이벤트에 의해 비동기적으로 페일오버가 일어나게 하지 않고 적당한(미리설정된) 주기로 강제적으로 페일오버를 수행하게 하는 방법에 관한 것이다. 적정한 수준의 신뢰성을 가지는 시스템의 경우, 도 3과 같이 최초 동작부터 상당한 시간 동안은 고장이 발생하지 않는다. The present invention allows a failover to be performed in a proper (pre-set) period without causing an asynchronous failover by an event for activating the failover when a system satisfying the failover system requirement level is configured ≪ / RTI > In the case of a system having an appropriate level of reliability, as shown in Fig. 3, no failure occurs for a considerable time from the initial operation.

도 4는 페일오버가 일어나지 않은 상태의 시스템 구성도이고, 도 5는 컴퓨터 B와 B' 사이에 페일오버가 일어나고 있는 상태를 나타낸 도이고, 도 6은 페일오버가 완료되어 컴퓨터 B 대신에 B'가 동작하고 있는 상태를 나타낸 도이다.FIG. 5 is a diagram illustrating a state in which a failover occurs between the computers B and B ', FIG. 6 is a diagram illustrating a state in which failover is completed and B' Fig.

사용시간이 길어지면서 메모리 누수라든가 고온에 의한 성능 저하 등에 의해 고장이 발생하는 것이 일반적인 현상이다. 그런 경우, 실제로 가장 손쉬운 고장 해결책은 재부팅이 될 수 있다. 그러나, 본 발명은 주 시스템을 구성하고 있는 부 시스템들을 고장에 의한 다운이 도래되기 전에 도 4와 도 5와 같이 페일오버를 수행하고, 페일오버가 완료된 뒤 임무가 완료된 장비는 재부팅해서 다음번 페일오버를 준비하는 방식으로 시스템을 운용하는 것이 본 발명의 주 내용이다. 많은 수의 장비들이 연결되어 운용된다면 페일오버를 수행하는 주기가 길어짐으로 동시에 페일오버 되는 장비를 복수개로 운용하여 주기를 적절한 수준으로 단축해서 운용할 수도 있다.It is a general phenomenon that a failure occurs due to a memory leak or performance deterioration due to a high temperature as the use time becomes longer. In such a case, the easiest fault solution is actually a reboot. However, according to the present invention, fail-over is performed as shown in FIGS. 4 and 5 before a down-state due to a failure occurs in the sub-systems constituting the main system. After the fail-over is completed, It is a main content of the present invention to operate the system in such a manner that the system is prepared. If a large number of devices are connected and operated, the failover period becomes longer, so that a plurality of failover devices can be operated to shorten the cycle to an appropriate level.

이상에서 설명한 바와 같이, 본 발명의 실시예에 따른 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 가용성 향상을 위한 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용 방법은, (1) 시스템(예를 들면, 다수의 서버 또는 다수의 컴퓨터) 운용을 위한 M개의 컴퓨터(또는 서버) 중 N개의 컴퓨터(또는 서버)를 보조 컴퓨터로 대체하는 단계와, (2) 상기 N개의 컴퓨터의 작동을 중단하는 단계와, (3) 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와, (4) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와, 상기 (1) 내지 (4) 단계를 반복하여 상기 시스템을 M+N개의 컴퓨터로 순환 운용함으로써, 간단하고 효과적으로 시스템의 가용성을 향상시킬 수 있다. 즉, 본 발명의 실시예에 따른 시스템 가용성 향상을 위한 시스템 운용 방법은, 시스템에 페일오버(failover, 장애 극복 기능) 기능을 적용함으로써 시스템의 가용성을 향상시킬 수 있으며, 상기 페일오버를 기동시키는 간단하고 효과적인 방법을 통하여 시스템의 가용성을 더욱 향상시킬 수 있다.As described above, a method for operating a system (for example, a plurality of servers or a plurality of computers) for improving a system according to an embodiment of the present invention (for example, a plurality of servers or a plurality of computers) 1) replacing N computers (or servers) out of M computers (or servers) for operation of a system (e.g., multiple servers or multiple computers) with a secondary computer; and (2) (4) restarting the computer by replacing the rebooted computer with the auxiliary computer; and (4) stopping the operation of the computer when the computer is restarted. By repeating the steps and circulating the system to M + N computers, the availability of the system can be improved simply and effectively. That is, the system operation method for improving system availability according to the embodiment of the present invention can improve the availability of the system by applying a failover function to the system, And the availability of the system can be further improved through an effective method.

상기 M개의 컴퓨터 중 어느 하나 또는 제어 시스템(도시되지 않음)은, 각 컴퓨터를 제어하기 위한 응용 프로그램을 통해, 상기 M개의 컴퓨터 중 N개의 컴퓨터를 보조 컴퓨터로 대체하고, 상기 N개의 컴퓨터의 작동을 중단시키고, 상기 작동이 중단된 컴퓨터를 재부팅하고, 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동시킬 수도 있다. One of the M computers or a control system (not shown) replaces N of the M computers with a subsidiary computer through an application program for controlling each computer, Stop the operation, reboot the computer in which the operation is interrupted, and replace the rebooted computer with the auxiliary computer.

본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. Therefore, the embodiments disclosed in the present invention are intended to illustrate rather than limit the scope of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas falling within the scope of the same shall be construed as falling within the scope of the present invention.

Claims (3)

네트워크를 통해 서로 연결된 M개의 컴퓨터로 구성된 시스템을 운영하는 방법에 있어서,
(1) 상기 시스템의 평균 고장 간격 시간이 증가됨과 함께 상기 시스템의 평균 복구 시간이 감소되도록, 상기 네트워크를 통해 페일오버(Failover) 기능을 수행하는 M개의 컴퓨터 중 N개의 컴퓨터를 상기 페일오버 기능을 이용하여 보조 컴퓨터로 대체하며, 여기서, 상기 N개의 컴퓨터는 상기 N개의 컴퓨터가 고장에 의한 다운이 도래되기 전인 미리설정된 주기로 상기 페일오버 기능을 수행하는 단계와;
(2) 상기 고장에 의한 다운이 도래되기 전에, 상기 N개의 컴퓨터의 작동을 중단한 후 상기 작동이 중단된 컴퓨터를 재부팅하는 단계와;
(3) 상기 재부팅된 컴퓨터를 상기 보조 컴퓨터와 교체하여 가동하는 단계와;
상기 (1) 내지 (3) 단계를 반복함으로써 상기 시스템을 M+N개의 컴퓨터로 순환 운용하는 단계를 포함하며, 여기서, M, N은 자연수를 나타내며, 상기 M의 자연수는 상기 N의 자연수보다 큰 값을 의미하는 것을 특징으로 하는 시스템 가용성 향상을 위한 시스템 운용 방법.
1. A method for operating a system comprising M computers interconnected via a network,
(1) N computers out of M computers performing a failover function through the network, so that the mean time to failure of the system is increased and the average recovery time of the system is reduced, Wherein the N computers perform the failover function in a predetermined cycle before the N computers come down due to a failure;
(2) rebooting the computer after stopping the operation of the N computers before the down due to the failure comes;
(3) replacing the rebooted computer with the auxiliary computer and running it;
Wherein M and N are natural numbers, and the natural number of M is larger than the natural number of N by repeating the steps (1) to (3) Value of the system in order to improve system usability.
삭제delete 삭제delete
KR1020130055853A 2013-05-16 2013-05-16 System managing method for improving system availability KR101444783B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130055853A KR101444783B1 (en) 2013-05-16 2013-05-16 System managing method for improving system availability

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130055853A KR101444783B1 (en) 2013-05-16 2013-05-16 System managing method for improving system availability

Publications (1)

Publication Number Publication Date
KR101444783B1 true KR101444783B1 (en) 2014-09-26

Family

ID=51761195

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130055853A KR101444783B1 (en) 2013-05-16 2013-05-16 System managing method for improving system availability

Country Status (1)

Country Link
KR (1) KR101444783B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102062097B1 (en) * 2018-06-27 2020-06-23 송암시스콤 주식회사 A Bus Information Terminal Having Dual Structure With Automatic Recovery Function

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0134146B1 (en) * 1993-07-23 1998-05-15 윌리암 티.엘리스 Method for saving and restoring the state of a cpu executing code in protected mode including estimating the ualue of the page table base register
JP2010198442A (en) * 2009-02-26 2010-09-09 Toshiba Corp Distributed system with failover function and failover method in the same
JP2011081830A (en) 2010-12-09 2011-04-21 Hitachi Ltd Server switching method, program and management server
JP2011248735A (en) 2010-05-28 2011-12-08 Hitachi Ltd Server computer changeover method, management computer and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0134146B1 (en) * 1993-07-23 1998-05-15 윌리암 티.엘리스 Method for saving and restoring the state of a cpu executing code in protected mode including estimating the ualue of the page table base register
JP2010198442A (en) * 2009-02-26 2010-09-09 Toshiba Corp Distributed system with failover function and failover method in the same
JP2011248735A (en) 2010-05-28 2011-12-08 Hitachi Ltd Server computer changeover method, management computer and program
JP2011081830A (en) 2010-12-09 2011-04-21 Hitachi Ltd Server switching method, program and management server

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102062097B1 (en) * 2018-06-27 2020-06-23 송암시스콤 주식회사 A Bus Information Terminal Having Dual Structure With Automatic Recovery Function

Similar Documents

Publication Publication Date Title
US11586514B2 (en) High reliability fault tolerant computer architecture
US8856776B2 (en) Updating firmware without disrupting service
US20170091221A1 (en) System and method for providing a virtualized replication and high availability environment
US8862927B2 (en) Systems and methods for fault recovery in multi-tier applications
US10108517B1 (en) Techniques for data storage systems using virtualized environments
US11144405B2 (en) Optimizing database migration in high availability and disaster recovery computing environments
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US10509705B2 (en) Application protection through a combined functionality failure manager
US8015432B1 (en) Method and apparatus for providing computer failover to a virtualized environment
Network et al. What's new
WO2018183733A1 (en) Input/output(i/o) fencing without dedicated arbitrators
KR101444783B1 (en) System managing method for improving system availability
US8707018B1 (en) Managing initialization of file systems
Resman CentOS High Availability
Khomh On improving the dependability of cloud applications with fault-tolerance
US8756370B1 (en) Non-disruptive drive firmware upgrades
US11360685B2 (en) Data consistency during reverse replication
US10365934B1 (en) Determining and reporting impaired conditions in a multi-tenant web services environment
US10348675B1 (en) Distributed management of a storage system
Calzolari High availability using virtualization
Bolinches et al. IBM elastic storage server implementation guide for version 5.3
US11615006B2 (en) Virtual network life cycle management
Mackey et al. XenServer Administration Handbook: Practical Recipes for Successful Deployments
US20220215001A1 (en) Replacing dedicated witness node in a stretched cluster with distributed management controllers
Quintero et al. IBM PowerHA SystemMirror for AIX Cookbook

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant