WO1999026138A1 - Method of changing over a multiplex system - Google Patents

Method of changing over a multiplex system Download PDF

Info

Publication number
WO1999026138A1
WO1999026138A1 PCT/JP1997/004160 JP9704160W WO9926138A1 WO 1999026138 A1 WO1999026138 A1 WO 1999026138A1 JP 9704160 W JP9704160 W JP 9704160W WO 9926138 A1 WO9926138 A1 WO 9926138A1
Authority
WO
WIPO (PCT)
Prior art keywords
computer
failure
message
interrupt
processing
Prior art date
Application number
PCT/JP1997/004160
Other languages
French (fr)
Japanese (ja)
Inventor
Hiroshi Ohno
Shigenori Kaneko
Yoshihiro Miyazaki
Soichi Takaya
Hiroaki Fukumaru
Takahiro Saruta
Naoshi Kato
Kunihiro Suzuki
Kenichi Kurosawa
Masahiko Saito
Hidehito Takewa
Hirohito Tsukahara
Eiki Shoji
Original Assignee
Hitachi, Ltd.
Hitachi Process Computer Engineering, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi, Ltd., Hitachi Process Computer Engineering, Inc. filed Critical Hitachi, Ltd.
Priority to JP2000521438A priority Critical patent/JP3806600B2/en
Priority to PCT/JP1997/004160 priority patent/WO1999026138A1/en
Publication of WO1999026138A1 publication Critical patent/WO1999026138A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare

Definitions

  • the present invention relates to a method for managing a multiplex system, and more particularly to a method for performing a system switchover when a failure occurs in any of the computers in a multiplex system including an active computer and a standby computer. is there. Background art
  • Failures that hinder the operation of computers include hardware failures and logical inconsistencies due to defects in core software such as operating systems (hereinafter referred to as OS) and device drivers.
  • OS operating systems
  • device drivers When these faults occur, by saving various states related to the hardware and software of the computer, it is possible to analyze faults after the fact, which can be used for recovery measures, measures to prevent recurrence, etc., and improve system reliability. Useful. This is the same in a multiplex system.
  • An object of the present invention is to realize high-speed system switching while storing large-capacity failure information including a memory dump when a failure occurs in a multiplex system.
  • the processing performed on the active computer in which the failure has occurred is stopped, the processing for storing the failure information is started, and subsequently, the standby computer performs the processing for the failure of the computer. It takes over the processing that was stopped after detecting harm.
  • the stop of the processing and the start of the storage of the fault information in the faulty computer are performed spontaneously by software on the faulty computer, or the standby computer first detects the fault in the computer and notifies the computer of the fault. This is realized by instructing the operation by using
  • the processing can be switched only by the estimated time from the detection of a failure in the standby computer to the start of stable storage of the failure information in the computer in which the failure has occurred. Can be reduced.
  • the standby computer that has detected the failure of the active computer instructs the failure computer to stop the operation of the failure computer following the instruction to start saving the failure information. Therefore, the fault occurrence computer ignores the operation stop instruction when the normal failure information storage operation is performed, and completely accepts the operation stop instruction when the normal failure information storage operation is not performed. It will stop.
  • the fault occurrence computer operates unexpectedly in a severe fault state in which the fault information storage operation cannot be performed, and the fault occurrence computer operates between systems such as a network and a shared disk device. Through the connection unit, it is possible to prevent the operation of the new active computer taking over the processing from being affected.
  • the present invention provides a method for stopping the operation of an input / output device of a coupling unit between a system such as a network and a shared disk device before storing the fault information in the fault occurrence computer. Things.
  • FIG. 1 is a block diagram showing the configuration of a duplex system
  • FIG. 2 is a time chart showing the order of the system switching process and the relationship between the processes in the duplex system.
  • FIG. 3 is a time chart of the system switching process based on the OS logical inconsistency detection
  • FIG. 4 is a time chart of the system switching process based on the hardware failure detection.
  • Fig. 5 is a block diagram showing the configuration of the LXP board mounted on the computer.
  • Fig. 6 is a flowchart showing the processing procedure of the expansion bus interface mounted on the LXP board. Is a flowchart showing the processing procedure of the linkage control processor mounted on the LXP board.
  • Fig. 8 is a flowchart showing the processing procedure of the management program's survival notification message transmission processing.
  • Fig. 9 shows the processing procedure of monitoring of the management program's survival notification message and processing in the event of a failure in another system.
  • FIG. 10 is a flowchart showing a processing procedure of processing when a failure occurs in the own computer of the management program.
  • the multiplex system according to the present embodiment is a double system composed of two computers. However, three or more computers may be used.
  • computers 100 and 101 represent an active computer and a standby computer, respectively.
  • the active computer 100 operates as a standby computer
  • the active computer 101 operates as an active computer.
  • Each computer 100, 101 has a central processing unit (hereinafter referred to as MPU) 110, main memory 111, and input / output control unit 112, which are connected by a processor bus 120. Have been.
  • MPU central processing unit
  • a circuit for expanding the functions of the computer is connected to the expansion bus 122.
  • an expansion board on which a circuit is mounted is connected to the expansion bus 122 by inserting it into a slot connector.
  • some functions may be implemented inside the computer and connected directly to the expansion bus.
  • the computers 100 and 101 include a small computer system interface (SCSI) board K114, a link bus port (hereinafter referred to as LX) as an extension board.
  • SCSI small computer system interface
  • LX link bus port
  • the shared disk unit 102 is connected to the SCS I board 114.
  • This shared disk device 102 is used to store data that takes over the processing at the time of system switching.
  • a bus such as a USB (Universal Serial Bus) may be used instead of the SCS I bus.
  • the Ethernet board 116 is connected to the Ethernet network 103, and communicates with other computers connected to the network 103. Real truth In the embodiment, a plurality of controllers 910 for managing and controlling the plant 900 are connected to the network 103. A network such as token ring or ATM may be used instead of Ethernet.
  • the management communication program 132 sends and receives a survival notification message to and from another computer via the network 103 using the Ethernet board 116. Messages are sent and received using the TCPZIP protocol. This program waits for a connection from another computer on a predetermined TCP port, and if connected, receives a message, retains the contents in this program, and reads it out from the management program 13 1 Returns the contents held for the request. Also, upon receiving a request for transmission of a survival confirmation message from the management program 131, the management communication program 132 on the other computer constituting the duplex system sends a message to the TCP port on standby.
  • the interrupt processing routine 133 is registered to be activated when a non-maskable interrupt signal is input to the MPU. Then, when a non-maskable interrupt signal is generated, processing at the time of occurrence of a failure, such as storage of failure information, is performed. However, in the present embodiment, registration is made so as to be activated by a non-maskable interrupt signal, but it may be realized using another interrupt mechanism provided by the MPU. In this embodiment, the interrupt processing routine 133 is an independent program. However, depending on the type of ⁇ S130, the interrupt processing routine is provided as a part of ⁇ S. In this case, the same function can be realized by incorporating the necessary processing as a subroutine called from the interrupt processing routine of S130.
  • Figure 2 shows the time chart of the system switchover process.
  • the management program 13 1 requests the management communication program 13 2 and the LXP board 115 to transmit a survival notification message at regular time intervals (301).
  • the management communication program 132 drives the Ethernet board 116, and sends a survival notification message 4-1 to another computer via the network 103 (302).
  • the LXP board 115 sends a survival notification message 402 to another computer via the linkage bus 104 (303).
  • Fig. 2 only the transmission of the survival confirmation message from the active computer 100 to the standby computer 101 is shown, but in reality, the transmission of the survival confirmation message in the opposite direction is also performed.
  • the reception confirmation processing at the active computer 100 and the transmission processing at the standby computer 101 are scheduled. Running every second.
  • the operation of the management program 13 1 stops due to the occurrence of a failure inside the 0 S, and the transmission processing 3 0 1 of the survival notification message is not executed at regular intervals.
  • the management program 13 1 of the standby computer 10 1 receives both the survival notification messages 4 0 1 and 4 0 2 at the time of the received message confirmation 3 0 6 performed at regular intervals 4 5 1. If it is detected that no failure has occurred, it is determined that a failure has occurred in the active computer 100.
  • the management program 13 1 on the standby computer 101 that detected the failure has requested the LXP board 115 to transmit a forced interrupt instruction (307), and the LXP board 115
  • the forced interrupt instruction message 400 is transmitted to the LXP board of the active computer (308).
  • the LXP board 1 15 on the active computer 1 0 0 When the LXP board 1 15 on the active computer 1 0 0 receives the forced interrupt instruction message 4 0 3, it generates a hardware non-maskable interrupt signal 4 0 4 (3 0 9 ). The MPU receives this interrupt signal and activates the interrupt processing routine 133.
  • the non-maskable interrupt signal is invalidated. That is, if the non-maskable interrupt signal is generated again, it is set to be ignored (3 1 0).
  • the interrupt processing routine 133 instructs the operation stop of a component in the own computer that may affect the partner computer 101 (311).
  • the SCSI board 114 and the Ethernet board The node 116 corresponds to such a component, and the operation is stopped by setting a bit in the register on each board that instructs the operation to stop.
  • the operation stop may be instructed by clearing the operable bit in the register.
  • the management program 1311 of the standby computer 101 After sending the forced interrupt instruction (307), the management program 1311 of the standby computer 101 sends an operation stop instruction to the LXP board 115 after a certain period of time 45 (3 15), and at this time, the application 13 5 loaded on the standby computer 101 is started to take over the processing of the active computer 100 (3 18). , Set your computer as the new active system. This completes system switching.
  • Ai? Board 1 15 sends an operation stop instruction from the management program 13 1.
  • an operation stop instruction message 405 is transmitted (3 16).
  • the interrupt processing routine 133 sets the LXP board to ignore the instruction message (3 1 2). 5 is ignored, and the collection of fault information (3 1 3) is continued.
  • the interrupt processing routine 13 33 ignores the LXP board message. May be canceled (319), and the failure information storage processing may be stopped. Also in this case, the failure computer 100 is forcibly stopped in response to the operation stop instruction message 405 from the standby computer.
  • FIG. 3 shows the time chart of the process in this case.
  • the management program 13 1 on the active computer 100 stops operating, and a survival notification message is sent to the standby computer. 4 0 1 and 4 0 2 are not transmitted. As described above, the management program 13 1 on the standby computer 101 detects that neither the survival notification message 401 nor 402 is received.
  • ⁇ S itself saves the failure information (memory dump), but if the function to call the process registered before the execution is provided, the interrupt process The same processing can be realized by registering the processing excluding the saving of the fault information (3 13) from the routine 13 3.
  • the third failure mode describes a partial hardware failure I do.
  • the effect of the failure does not appear in the two failure modes described above, but it is not possible to continue processing that is the original use of the multiplex system. It was detected again.
  • Figure 4 shows the time chart of the process in this case.
  • the detection of the occurrence of such a failure includes detection by the management program 131, detection by the dedicated failure detection subprogram 134, and abnormality detection by the application 135. If a failure is detected by a program other than the management program, the failure detection is notified to the management program 13 1 (3 4 1, 3 4 2).
  • the management program 13 1 starts the interrupt processing routine 13 3 upon detection of a failure by itself or a failure notification from the failure detection subprogram 13 4 or the application 13 5 (3 4 3) .
  • the interrupt processing routine 1 33 executes the same processing procedure as that at the time of detection of the logical inconsistency of 0 S described in FIG. 3, and the system switching is performed.
  • this hardware uses an interrupt to notify the abnormality detection result to the management program 131, the failure detection subprogram 1334, or The program and the fault detection subprogram poll the hardware periodically to confirm the presence or absence of abnormality detection, and perform the same processing.
  • the interrupt processing routine 133 may not be able to be started.
  • the fault occurrence computer 100 is in a severely uncontrollable state, performs an unpredictable operation, and may affect the operation of the standby computer 101.
  • the setting (3 1 2) for ignoring the instruction message from the other computer is not performed for the LXP board 115 of the faulty computer. Therefore, the LXP board receiving the operation stop instruction message 4 05 from the standby computer The node 115 forces the computer 100 to stop. Therefore, it is necessary to ensure that the fault occurrence computer 100 does not affect the operation of the standby computer 101 and then take over the processing, so that the system switching can be reliably performed. it can.
  • the time 451 from when the existence notification message is not received to the time when it is determined that a failure has occurred is, as shown in FIG. 3, the interruption processing routine 133 is called by software due to the failure. Therefore, set a little longer than the time until the setting (31 2) for the LXP board is completed.
  • the interval 452 between the transmission of the forced interrupt instruction message and the transmission of the computer operation stop instruction message is, as shown in FIG. 2, the interrupt processing routine of the active computer 100 by the forced interrupt instruction (307).
  • the system switching time that is, the time until the completion of the processing takeover, is approximately the sum of the time 451 and the time 452.
  • the switching time of this system is sufficiently shorter than the time required for saving the failure information such as memory dumps, and both saving the failure information and reducing the system switching time are compatible.
  • each computer has the LXP board 115 and the Ethernet board 116, but each computer has two Ethernet boards 116, and the Ethernet network 103 is duplicated.
  • system switching can be performed in the same way.
  • OS logical inconsistency detection In the failure mode of partial failure detection in one hardware, the failure information is saved in the failure occurrence computer 100 and the processing is transferred to the standby computer 101. Operation is possible. However, since the forced interrupt instruction 4 0 3 cannot be sent, failure information cannot be saved in the failure mode in the hang-up state. In addition, since the operation stop instruction message 4 05 cannot be sent, there is a possibility that the abnormal operation of the failure computer 100 will affect the standby computer 101 depending on the degree of the failure.
  • the LXP board 115 is a linkage control processor that processes messages via the expansion bus interface 170 and the linkage bus 104 that are in charge of input and output to and from the expansion bus 121. 1 7 1, memory for storing programs to be executed by this linkage control processor 17 1
  • transmission line interface that converts messages to electrical signals on the linkage bus 17 2
  • message storage memory 17 3 that is a buffer for temporarily storing messages 17 3
  • power supply that detects rising power supply voltage It has a voltage detection circuit 174 and an operation control register 176 for checking the operation state of the linkage control processor 171 from the expansion bus side and instructing the operation method.
  • the operation control registers 1 16 can be read and written from the expansion bus 12 1, so check the operation state and instruct the operation method from software running on the computer on which the LXP board 115 is mounted. Is possible.
  • the operation control register 176 includes a forced interrupt instruction inhibit bit 176 1, an operation stop instruction inhibit bit 176 2, and a restart instruction inhibit bit 176 3 described later. No.
  • the initialization operation of the LXP board will be described.
  • the LXP board operates independently of the connected computer and needs to handle the reset signal itself of the computer. For this reason, the initialization of the LXP board is performed only when the power to the LXP board is turned on, independent of the reset processing of the computer.
  • the power supply voltage detection circuit 174 that monitors the power supply voltage supplied via the expansion bus 122 detects the rise of the power supply voltage and instructs each component in the LXP board to initialize. Outputs initialization signal 18 4.
  • the extended bus interface 170, the linkage control processor 171, and the transmission line interface 172 receive this initialization signal 184, and clear the memory, clear various state information, and clear the register. Performs initialization processing such as resetting the rear and linkage buses.
  • the management program 131 sends a message transmission request to the expansion bus interface 170 via the expansion bus 122. Since the expansion bus interface 170 has a different data transfer rate between the expansion bus 122 and the linkage bus 104, the message to be transmitted is temporarily used as a speed buffer and the message storage memory 173 is used. And notifies the linkage control processor 171 of the arrival of the message. In response to this notification, the linkage control processor 171 retrieves the message from the message storage memory 173, transfers the message to the transmission path interface 172, and transmits the message via the linkage bus 104. To the LXP board of another computer.
  • the reset signal is continuously output to the connected own computer via the reset signal line 183, thereby forcibly stopping the computer.
  • the operation stop instruction disable bit 1762 of the register 176 is set, the message is ignored without performing this processing.
  • the contents of the message are stored in the message storage memory 173.
  • the stored message is thereafter read out at any time via the extended bus interface 170 and the extended bus 122 in response to a request from the management program 131.
  • FIG. 6 shows the processing procedure of the extended bus interface 170.
  • the extended paste interface 170 Upon receiving an input / output request signal from a computer (expansion bus) and an initialization signal from the initialization signal line 184, the extended paste interface 170 exits the request waiting state 501 and processes it. Is started, and the type of the processing request is determined from the received signal (502).
  • processing request is an initialization signal
  • initialization processing of internal registers and circuits is performed. (503).
  • the processing request is a read signal from the expansion bus 121
  • the target of the read request is a register
  • the contents of the register 176 are read (505)
  • the target of the read request is a message
  • a message is output.
  • the contents of the storage memory 173 are read (507), and the read result is sent to the extension bus 121 (506, 508).
  • Fig. 7 shows the processing procedure of the linkage control processor 171.
  • the control processor 17 1 receives one of a start request from the expansion bus interface 17 0, a message from the transmission path interface 17 2, and an initialization signal from the initialization signal line 18 4. With this event, the process exits from the event waiting state 5 21 to start processing, and determines the type of the event (5 2 2).
  • the communication process is initialized, all messages stored in the message storage memory 173 are discarded, and registers 1 to 6 are set to the initial state ( 5 2 3).
  • the generated event is a start request from the extended bus interface 170, that is, a message transmission request
  • the message to be transmitted is read from the message storage memory 173 (52 4) Then, the message is transmitted to the transmission path interface 172 (525).
  • the generated event is a message from the transmission line interface 172.
  • a page reception event it indicates the arrival of an instruction message from another LXP board.
  • the type of the received instruction message is determined (526), and processing corresponding to each is performed.
  • the message is a forced interrupt instruction, operation stop instruction, or restart instruction, as described above, the corresponding inhibit bit (1 176 1, 1 762 2, 1 7 Confirm that (6 3) is cleared (5 27, 5 29, 5 3 1), and output the signal as described above (5 2 8, 5 3 0, 5 3 2).
  • the received instruction message is simply stored in the message storage memory 173 (533)
  • management program 13 1 may also have a function of detecting the occurrence of a failure in its own computer. In this case, when a failure is detected, the same as (3) above To start an interrupt processing routine.
  • Fig. 8 shows the processing flow of the survival notification message transmission processing in (1) above.
  • a survival notification is periodically sent to another computer. That is, it requests the management communication program 132 and the LXP board 115 to transmit a survival notification message (301), and shifts to a waiting state for a predetermined time (5401). .
  • Fig. 9 shows the processing flow of the surviving notification message and the processing when an error occurs in the other system (2).
  • the reception status of the survival message from the other computer is periodically checked, and if it cannot be received for a certain period of time, the other system failure processing is executed.
  • the variables “number of times of waiting for notification 1” and “number of times of waiting for notification 2” are set.
  • the initial value of these variables is N times, the product of the latency t. Lambda.
  • "New X t w" is the waiting time 4 5 1 for determining that the other system failures.
  • the management communication program 132 is inquired as to whether or not the existence notification message 401 has been received (5553). If received
  • the “Notification 1 wait count” is set to N times and reinitialized (555), and the management communication program 1332 is instructed to clear the stored survival notification message (5555.5). ).
  • the existence notification message has not been received, the value of “the number of times to wait for notification 1” is decreased by one. However, if the value of “Number of times to wait for notification 1” becomes negative, 0 shall be set (555).
  • the LXP board 115 since the LXP board 115 stores the contents of the received message, it is inquired whether or not the survival notification message 402 has been received (5557). If it has been received, the “notification 2 wait count” is reset to N times (558), and the survival notification message stored in the LXP board 115 is cleared (5). 5 9). If the existence notification message has not been received, the value of “notification 2 wait count” is decremented by one. However, if the value of “Number of waits for notification 2” becomes negative, 0 shall be set (560).
  • the LXP board 115 is requested to transmit a forced interrupt instruction message 403 (307), and then waits for a certain period of time 452 (5664). Request the LXP board 115 to send a computer operation stop instruction message 405 (315). Further, if the setting of the own computer is a standby computer, the processing of the active computer is taken over (3 18), and the system switching is executed. After these processes are executed, the surviving notification message monitoring process is stopped because the faulty computer of the other system is always in a stopped state (566).
  • this process is started again (550).
  • the operation may be started manually by the operator, or after the monitoring process is stopped (555), another process is started to continue monitoring the alive monitoring message. When the alive monitoring message is detected, the monitoring process is started.
  • the restart (550) method may be used. If only one of ⁇ Notification 1 wait count '' and ⁇ Notification 2 wait count '' is 0 in process 56, it is considered that a failure has occurred in the message transmission path or the connection circuit to the transmission path. Judgment is made and a warning is issued in the form of a screen display or log recording (5562).
  • FIG. 10 shows the processing flow of the management program 133 when a failure has occurred in the computer (3).
  • This processing is started by a call from the fault detection subprogram 134 or the application 135 (570), and simply starts the interrupt processing routine 133 (344).
  • the interrupt processing routine 1 3 3 does not return the processing to the caller.
  • the interrupt processing routine 1 3 3 is started from the software on its own computer when a failure occurs, or from the LXP board 1 15 upon receiving a forced interrupt instruction message from another computer. Stores fault information and performs related processing.
  • FIG. 11 shows the processing flow of the interrupt processing routine 133.
  • the interrupt processing routine 133 first invalidates the non-maskable interrupt signal (310). This is achieved by preparing a dummy interrupt processing routine that returns without performing any processing and registering this in the MPU as a processing routine for non-maskable interrupts. As a result, even if a non-maskable interrupt signal is generated again during the processing of the interrupt processing routine 133, the processing returns to the dummy routine and the interrupt returns immediately. The possible interrupt is ignored, and the interrupt processing routine 13 can be continued. Next, it instructs to stop the operation of some of its own computers, especially those components that may affect other computers (311). Then, the status is inquired for each component that has instructed to stop the operation, and it is confirmed whether or not all the components have actually stopped (581). If there is any operation that failed, interrupt processing is terminated (590). If all the components for which operation stop has been instructed have stopped, the LXP board 115 is set to ignore subsequent instruction messages from other computers (312).
  • failure information it is checked whether or not the failure information can be saved (582). If it is determined that the failure information cannot be saved, the LXP board 115 is released from ignoring the instruction message from the other computer ( 319), interrupt processing is terminated (590). If it is determined that saving is possible, save the actual failure information
  • the interrupt processing routine 1 3 3 stops (3 1 4), and the host computer is stopped.
  • the LXP board 115 on its own computer may be instructed to continue the reset signal to completely stop the operation of the computer.
  • the runaway of hardware or software in the fault occurrence system and the saving operation of the fault information in the fault occurrence system are performed by the system disconnection. It is possible not to affect the operation of the new operating system that took over the switching operation and the processing after the switching.
  • the present invention is effective in a multiplex system for applications requiring high reliability, and when a failure occurs in the active computer, the standby system takes over the processing performed by the active computer.
  • the standby system takes over the processing performed by the active computer.
  • post-failure analysis can be performed, which can be used for recovery measures, measures to prevent recurrence, and improve reliability. Help.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

When a failure has occurred in a multiplex system, the computer of the operating system in which the failure has occurred stops the processing and starts storing the failure information. Then, a stand-by computer detects the failure in the computer and autonomously takes over the processing. When the failure information is not properly stored, the computer having the failure is completely brought into a halt upon the operation-stop instruction from the stand-by computer. Prior to storing the failure information by the computer which has the failure, the operation of the input/output devices at the coupling portions among the systems such as networks and shared disk devices are halted. Thus the system can be switched at high speeds while storing a large amount of failure information when a failure has occurred in a multiplex system.

Description

明 細 書  Specification
多重系システムの系切り替え方法 技術分野  System switching method for multiple systems
本発明は多重系システムの管理方法に係わり、 特に、 稼働系と待機系 の計算機により構成される多重系システムにおいて、 いずれかの計算機 に障害が発生した際に系切り替えを実施する方法に関するものである。 背景技術  The present invention relates to a method for managing a multiplex system, and more particularly to a method for performing a system switchover when a failure occurs in any of the computers in a multiplex system including an active computer and a standby computer. is there. Background art
高い信頼性が要求される用途、 例えば、 鉄道運行管理, プラン 卜制御, 電力系統制御などに計算機を用いる場合には、 処理を行う稼働系計算機 の他に、 稼働系の計算機に障害が生じた場合に稼働系の計算機が行って いた処理を引き継ぐ待機系の計算機を備えた多重系システムとして計算 機を利用することが望ましい。  In applications where high reliability is required, for example, when computers are used for railway operation management, plant control, power system control, etc., failures have occurred in the active computer as well as the active computer that performs the processing. In such cases, it is desirable to use a computer as a multiplex system with a standby computer that takes over the processing that was performed by the active computer.
計算機の稼働を阻害する障害としては、 ハー ドウェアの故障、 および オペレーティ ングシステム (以下 O Sと記す) やデバイス ドライバなど の基幹ソフ 卜ウェアの欠陥による論理矛盾が挙げられる。 これらの障害 発生時に、 計算機のハ一 ドウエア · ソフ トウエアに関する各種状態を保 存することにより、 事後の障害解析が可能となり、 復旧措置, 再発防止 策の実施などに活用でき、 システムの信頼性向上に役立つ。 これは多重 系システムにおいても同様である。  Failures that hinder the operation of computers include hardware failures and logical inconsistencies due to defects in core software such as operating systems (hereinafter referred to as OS) and device drivers. When these faults occur, by saving various states related to the hardware and software of the computer, it is possible to analyze faults after the fact, which can be used for recovery measures, measures to prevent recurrence, etc., and improve system reliability. Useful. This is the same in a multiplex system.
従来の多重系システムにおいては、 障害が発生した場合に、 障害が発 生した計算機のディスク装置に障害情報を保存し、 その後、 当該障害発 生計算機が実行していた処理を待機系に引き継ぐ系切り替え方法が実施 されてきた。 また、 特開平 8— 202573 号公報には、 多重系を構成する計算機全てに, お互いに常に内容を一致化させている共通メモリ を搭載し、 この共通メ モリ上に障害情報を常に書き込み、 障害発生計算機が実行していた処理 を引き継いだ計算機がこの障害情報をディスクに保存する方法が記載さ れている。 In a conventional multiplex system, when a failure occurs, the failure information is stored in the disk unit of the failed computer, and then the processing executed by the failed computer is taken over to the standby system. Switching methods have been implemented. In Japanese Patent Application Laid-Open No. 8-202573, all computers constituting a multiplex system are equipped with a common memory whose contents are always matched to each other. Fault information is always written on this common memory, It describes how the computer that took over the processing that was performed by the generating computer saves this fault information to disk.
処理の停止時間を短くするために、 系切リ替えに要する時間はできる だけ短いことが望ましい。 従来の切り替え方法の場合、 障害情報の保存 に要する間だけ系切り替えが待たされるため、 実用的な切り替え時間を 実現するためには保存できる障害情報の量が制限されてしまう。  In order to shorten the processing stop time, it is desirable that the time required for system switching is as short as possible. In the case of the conventional switching method, system switching is waited only for the time required to store the fault information, so that the amount of fault information that can be stored is limited in order to realize a practical switching time.
一方、 特開平 8— 202573 号公報に記載された方法の場合、 系切り替え 時間の短縮は可能であるが、 保存する障害情報の量が多くなると、 必要 な共通メモリの容量が大きくなり装置コス トが大きくなると同時に、 共 通メモリ内容一致化のための計算機負荷およびネッ 卜ワーク負荷も大き くなつてしまう。  On the other hand, in the case of the method described in Japanese Patent Application Laid-Open No. 8-202573, it is possible to reduce the system switching time, but if the amount of fault information to be stored increases, the required capacity of the common memory increases and the cost of the device increases. At the same time, the computer load and network load for matching the common memory contents also increase.
本発明は、 多重系システムにおいて、 障害発生時に、 メモリダンプを 含む大容量の障害情報の保存を実施しつつ、 高速な系切り替えを実現す ることを目的とする。  An object of the present invention is to realize high-speed system switching while storing large-capacity failure information including a memory dump when a failure occurs in a multiplex system.
また、 障害発生系におけるハー ドウェアやソフ トウェアの暴走、 およ び障害発生系における障害情報の保存動作が、 系切リ替え動作および切 り替え後の処理を引き継いだ新稼働系の動作に影響を与えないようにす ることを目的とする。 発明の開示  In addition, runaway of hardware or software in the fault occurrence system, and the operation of saving the failure information in the fault occurrence system affect the operation of the system switching operation and the operation of the new operating system taking over the processing after the switching. The purpose is not to give the. Disclosure of the invention
本発明は、 障害の発生した稼働系計算機で行っていた処理を停止して 障害情報の保存処理を開始し、 引き続いて待機系計算機は該計算機の障 害を検出して停止していた処理を引き継ぐものである。 該障害発生計算 機における処理の停止および障害情報の保存開始は、 該障害発生計算機 上のソフ トウエアにより 自発的に行うか、 または先に待機系計算機が該 計算機の障害を検出し該計算機に対して動作を指示することにより行う かにより実現される。 According to the present invention, the processing performed on the active computer in which the failure has occurred is stopped, the processing for storing the failure information is started, and subsequently, the standby computer performs the processing for the failure of the computer. It takes over the processing that was stopped after detecting harm. The stop of the processing and the start of the storage of the fault information in the faulty computer are performed spontaneously by software on the faulty computer, or the standby computer first detects the fault in the computer and notifies the computer of the fault. This is realized by instructing the operation by using
このような系切り替え方法によれば、 処理の切り替えは、 待機系計算 機における障害検出から、 障害発生計算機において安定して障害情報の 保存が開始されるまでの見込み時間のみで実施でき、 切り替え時間の短 縮が実現できる。  According to such a system switching method, the processing can be switched only by the estimated time from the detection of a failure in the standby computer to the start of stable storage of the failure information in the computer in which the failure has occurred. Can be reduced.
また、 前記目的達成のために、 本発明は、 稼働系計算機の障害を検出 した待機系計算機が該障害発生計算機に対して障害情報の保存開始指示 に引き続き該障害発生計算機の動作停止を指示して、 該障害発生計算機 では正常な障害情報保存動作をしている場合には動作停止指示を無視し 、 正常な障害情報保存動作をしていない場合には動作停止指示を受け入 れて完全に停止するものである。  In order to achieve the above object, according to the present invention, the standby computer that has detected the failure of the active computer instructs the failure computer to stop the operation of the failure computer following the instruction to start saving the failure information. Therefore, the fault occurrence computer ignores the operation stop instruction when the normal failure information storage operation is performed, and completely accepts the operation stop instruction when the normal failure information storage operation is not performed. It will stop.
このような障害発生計算機の動作方法により、 障害情報保存動作が不 可能なほどの重度の障害状態において、 該障害発生計算機が予期せぬ動 作をし、 ネッ トワークや共有ディスク装置といった系間の結合部を通じ て、 処理を引き継いだ新稼働系計算機の動作に影響を与えることが防げ る。  With such an operation method of the fault occurrence computer, the fault occurrence computer operates unexpectedly in a severe fault state in which the fault information storage operation cannot be performed, and the fault occurrence computer operates between systems such as a network and a shared disk device. Through the connection unit, it is possible to prevent the operation of the new active computer taking over the processing from being affected.
また、 前記目的達成のために、 本発明は、 該障害発生計算機において 障害情報の保存を実施する前に、 ネッ トワークや共有ディスク装置とい つた系間の結合部の入出力装置の動作を停止させるものである。  Further, in order to achieve the above object, the present invention provides a method for stopping the operation of an input / output device of a coupling unit between a system such as a network and a shared disk device before storing the fault information in the fault occurrence computer. Things.
このような障害発生計算機の動作方法により、 障害情報保存に無関係 なハー ドウエアの動作により、 ネッ トワークや共有ディスク装置といつ た系間の結合部を通じて、 処理を引き継いだ新稼働系計算機の動作に影 響を与えることが防げる。 図面の簡単な説明 Due to the operation method of such a failure computer, the operation of the hardware irrelevant to the storage of the failure information allows the network and shared disk device to It is possible to prevent the operation of the new active computer taking over the processing from being affected through the connection between the systems. BRIEF DESCRIPTION OF THE FIGURES
第 1 図は、 2重系システムの構成を示すブロック図であり、 第 2図は、 この 2重系システムにおける系切り替え処理の順序と各処理の関係を示 したタイムチヤ一卜である。  FIG. 1 is a block diagram showing the configuration of a duplex system, and FIG. 2 is a time chart showing the order of the system switching process and the relationship between the processes in the duplex system.
第 3図は、 O Sの論理矛盾検出による系切り替え処理のタイムチヤ一 卜であり、 第 4図は、 ハ一 ドウエア障害検出による系切り替え処理のタ ィムチヤ一卜である。  FIG. 3 is a time chart of the system switching process based on the OS logical inconsistency detection, and FIG. 4 is a time chart of the system switching process based on the hardware failure detection.
第 5図は、 計算機に搭載する L X Pボー ドの構成を示すブロック図で あり、 第 6図は、 L X Pボー ドに搭載する拡張バスイ ンタフェースの処 理手順を示すフローチャー トであり、 第 7図は、 L X Pボー ドに搭載す るリ ンケージ制御用プロセッサの処理手順を示すフローチヤ一卜である。 第 8図は、 管理プログラムの生存通知メッセージ送信処理の処理手順 を示すフローチャー トであり、 第 9図は、 管理プログラムの生存通知メ ッセージの監視と他系障害発生時処理の処理手順を示すフローチヤ一卜 であり、 第 1 0図は、 管理プログラムの自計算機に障害発生時処理の処 理手順を示すフローチヤ一卜である。  Fig. 5 is a block diagram showing the configuration of the LXP board mounted on the computer. Fig. 6 is a flowchart showing the processing procedure of the expansion bus interface mounted on the LXP board. Is a flowchart showing the processing procedure of the linkage control processor mounted on the LXP board. Fig. 8 is a flowchart showing the processing procedure of the management program's survival notification message transmission processing. Fig. 9 shows the processing procedure of monitoring of the management program's survival notification message and processing in the event of a failure in another system. FIG. 10 is a flowchart showing a processing procedure of processing when a failure occurs in the own computer of the management program.
第 1 1 図は、 割込処理ルーチンの処理手順を示すフローチャー トであ る。 発明を実施するための最良の形態  FIG. 11 is a flowchart showing the processing procedure of the interrupt processing routine. BEST MODE FOR CARRYING OUT THE INVENTION
以下、 本発明に係る多重系システムの切り替え方法の実施形態につい て詳細に説明する。 第 1 図に本実施形態に係る多重系システムの構成を示す。 Hereinafter, an embodiment of a method for switching a multiplex system according to the present invention will be described in detail. FIG. 1 shows the configuration of a multiplex system according to the present embodiment.
図示するとおり、 本実施形態に係る多重系システムは 2台の計算機で 構成された 2重系システムである。 ただし、 計算機は 3台以上で構成し てもよい。  As illustrated, the multiplex system according to the present embodiment is a double system composed of two computers. However, three or more computers may be used.
第 1 図において、 計算機 1 0 0, 1 0 1 はそれぞれ稼働系計算機, 待 機系計算機を示している。 系切り替えにより、 稼働系計算機 1 0 0は待 機系計算機として、 稼働系計算機 1 0 1 は稼働系計算機として動作する。 各計算機 1 0 0, 1 0 1 は、 中央演算処理装置 (以下 M P Uと記す) 1 1 0と主メモリ 1 1 1 , 入出力制御装置 1 1 2 を備え、 これらはプロ セッサバス 1 2 0によって接続されている。 入出力制御装置 1 1 2には、 ディスク装置 1 1 3や拡張バス 1 2 1 が接続される。  In Fig. 1, computers 100 and 101 represent an active computer and a standby computer, respectively. By the system switching, the active computer 100 operates as a standby computer, and the active computer 101 operates as an active computer. Each computer 100, 101 has a central processing unit (hereinafter referred to as MPU) 110, main memory 111, and input / output control unit 112, which are connected by a processor bus 120. Have been. To the input / output control unit 112, a disk unit 113 and an expansion bus 121 are connected.
拡張バス 1 2 1 には、 計算機の機能を拡張するための回路が接続され る。 一般的には回路が実装された拡張ボー ドを、 スロッ トコネクタに挿 入する形態で拡張バス 1 2 1 に接続される。 ただし一部の機能は計算機 本体内に実装され、 拡張バスに直接内部で接続されている場合もある。 本実施形態に係る計算機 1 0 0, 1 0 1 は、 拡張ボー ドとして S C S I (Smal l Computer System I nterface ) ボー K 1 1 4 , リンケ一ジノ ス ポ一 卜 (L inkage Bus Port) (以下 L X Ρと記す) ボー ド 1 1 5,  A circuit for expanding the functions of the computer is connected to the expansion bus 122. Generally, an expansion board on which a circuit is mounted is connected to the expansion bus 122 by inserting it into a slot connector. However, some functions may be implemented inside the computer and connected directly to the expansion bus. The computers 100 and 101 according to the present embodiment include a small computer system interface (SCSI) board K114, a link bus port (hereinafter referred to as LX) as an extension board. Ρ) Board 1 1 5 、
Ethernetボー ド 1 1 6 を備える。 Equipped with Ethernet board 1 16.
S C S Iボー ド 1 1 4には共有ディスク装置 1 0 2が接続されている。 この共有ディスク装置 1 0 2は、 系切り替え時の処理の引き継ぎデータ などを記憶するのに使用される。 なお、 S C S I バスの代わりに U S B (Universal Serial Bus ) といったバスを使用する場合もある。  The shared disk unit 102 is connected to the SCS I board 114. This shared disk device 102 is used to store data that takes over the processing at the time of system switching. A bus such as a USB (Universal Serial Bus) may be used instead of the SCS I bus.
Ethernetボー ド 1 1 6は Ethernetネッ 卜ワーク 1 0 3に接続され、 こ のネッ トワーク 1 0 3に接続された他の計算機などと通信を行う。 本実 施形態ではネッ 卜ワーク 1 0 3には、 プラン ト 9 0 0 を管理 · 制御する ための複数のコントローラ 9 1 0が接続されている。 なお、 Ethernetの 代わりに、 トークンリングや A T Mといったネッ 卜ワークを使用する場 合もある。 The Ethernet board 116 is connected to the Ethernet network 103, and communicates with other computers connected to the network 103. Real truth In the embodiment, a plurality of controllers 910 for managing and controlling the plant 900 are connected to the network 103. A network such as token ring or ATM may be used instead of Ethernet.
L X Pボー ド 1 1 5は、 系切り替え制御のための機能拡張ボー ドであ り、 専用の伝送路であるリンケージパス 1 0 4 を介して接続される。 L X Pボー ドは計算機 1 0 0, 1 0 1相互間での相手計算機の生存監視 と、 系切り替えに必要な強制割込, 動作停止, 計算機再起動の各指示メ ッセージの送信、 さらに各指示メッセージ受信時の自計算機における指 示内容の実行を行う。  The LXP board 115 is a function expansion board for system switching control, and is connected via a linkage path 104 which is a dedicated transmission path. The LXP board monitors the live status of the partner computer between computers 100 and 101, transmits the forced interrupt, operation stop, and computer restart instruction messages required for system switchover, and also sends each instruction message. Executes the contents of the instruction on the local computer at the time of reception.
このような 2重系システムにおいて、 稼働系計算機 1 0 0 , 待機系計 算機 1 0 1 ともに正常な状態では、 稼働系計算機 1 0 0の主メモリ 111 には 0 S 1 3 0, 管理プログラム 1 3 1 , 管理通信プログラム 1 3 2 およびアプリケーション (A P) 1 3 5がロー ドされ、 管理プログラム 1 3 1 , 管理通信プログラム 1 3 2、 およびアプリケーシヨン 1 3 5が 〇 S 1 3 0上で実行されている。 同様に、 待機系計算機 1 0 1 の主メモ リ 1 1 1 にも同じプログラムがロー ドされ、 〇 S 1 3 0, 管理プログラ ム 1 3 1、 および管理通信プログラム 1 3 2は実行されている力 アブ リケーシヨン 1 3 5は実行されていない。 さらに各計算機 1 0 0, 101 の主メモリ 1 1 1 には割込処理ルーチン 1 3 3がロー ドされている。 アプリケーション 1 3 5は、 該 2重系システムの用途たる処理を行う プログラムであり、 本実施形態の場合、 ネッ トワーク 1 0 3 を介して各 コン トローラ 9 1 0から送られるデータの処理 · 記録を行うものである ( 管理プログラム 1 3 1 は、 稼働系計算機と待機系計算機の切り替え処 理を行うプログラムである。 本プログラムは L X Pボー ド 1 1 5に対し てメッセージ送受信要求や動作指示を行い、 また、 管理通信プログラム 1 3 2に対して生存通知メッセージの送受信要求を行う。 In such a dual system, when both the active computer 100 and the standby computer 101 are in a normal state, the main memory 111 of the active computer 100 stores 0 S 13 0 and the management program. 13 1, management communication program 13 2 and application (AP) 13 5 are loaded, and management program 13 1, management communication program 13 2, and application 13 5 It is running. Similarly, the same program is loaded in the main memory 111 of the standby computer 101, and 〇S130, the management program 131, and the management communication program 1332 are executed. Force Absorption 1 3 5 has not been performed. Further, an interrupt processing routine 133 is loaded in the main memory 111 of each of the computers 100 and 101. The application 135 is a program that performs processing as a use of the dual system. In the case of the present embodiment, the application 135 processes and records data sent from each controller 910 via the network 103. (The management program 13 1 is a program that switches between the active computer and the standby computer. This program is for the LXP board 1 15 It sends a message transmission request and an operation instruction to the management communication program 1332, and sends a transmission / reception request of the existence notification message to the management communication program 13.
管理通信プログラム 1 3 2は Etherne tボー ド 1 1 6 を使いネッ トヮ一 ク 1 0 3 を介して、 他計算機と生存通知メッセージの送受信を行う。 メ ッセージ送受信は T C P Z I Pプロ トコルを使って実行する。 本プログ ラムは予め決められた T C Pポー トで他計算機からの接続を待ち、 接続 された場合にはメッセ一ジを受信して本プログラム内で内容を保持し、 管理プログラム 1 3 1からの読み出し要求に対して保持している内容を 返す。 また管理プログラム 1 3 1 からの生存確認メッセージ送信要求を 受け、 2重系を構成している他計算機上の管理通信プログラム 1 3 2が 待機している T C Pポー トに対してメッセージを送信する。  The management communication program 132 sends and receives a survival notification message to and from another computer via the network 103 using the Ethernet board 116. Messages are sent and received using the TCPZIP protocol. This program waits for a connection from another computer on a predetermined TCP port, and if connected, receives a message, retains the contents in this program, and reads it out from the management program 13 1 Returns the contents held for the request. Also, upon receiving a request for transmission of a survival confirmation message from the management program 131, the management communication program 132 on the other computer constituting the duplex system sends a message to the TCP port on standby.
割込処理ルーチン 1 3 3は、 M P Uに対してマスク不可能割込信号が 入力されたときに起動されるように登録される。 そして、 マスク不可能 割込信号発生時に障害情報の保存等、 障害発生時の処理を実行する。 た だし、 本実施形態ではマスク不可能割込信号により起動するように登録 しているが、 M P Uが提供する他の割込機構を使って実現してもよい。 なお、 本実施形態の場合、 割込処理ルーチン 1 3 3が独立したプログラ ムとなっているが、 〇 S 1 3 0の種類によっては〇 Sの一部として割込 処理ルーチンが提供される場合もあり、 この場合は〇 S 1 3 0の割込処 理ルーチンから呼び出されるサブルーチンとして必要な処理を組み込む ことによリ同一の機能が実現できる。  The interrupt processing routine 133 is registered to be activated when a non-maskable interrupt signal is input to the MPU. Then, when a non-maskable interrupt signal is generated, processing at the time of occurrence of a failure, such as storage of failure information, is performed. However, in the present embodiment, registration is made so as to be activated by a non-maskable interrupt signal, but it may be realized using another interrupt mechanism provided by the MPU. In this embodiment, the interrupt processing routine 133 is an independent program. However, depending on the type of 〇S130, the interrupt processing routine is provided as a part of 〇S. In this case, the same function can be realized by incorporating the necessary processing as a subroutine called from the interrupt processing routine of S130.
次に、 本実施形態に係る多重系システムの系切り替え方法について説 明する。  Next, a system switching method of the multiplex system according to the present embodiment will be described.
第 2図に系切り替え処理のタイムチャー トを示す。  Figure 2 shows the time chart of the system switchover process.
稼働系計算機 1 0 0, 待機系計算機 1 0 1 がともに正常な状態では、 次のような処理が行われる。 If both the active computer 100 and the standby computer 101 are normal, The following processing is performed.
管理プログラム 1 3 1 は、 一定時間毎に管理通信プログラム 1 3 2お よび L X Pボー ド 1 1 5に対して、 生存通知メッセージ送信を要求する ( 3 0 1 ) 。 管理通信プログラム 1 3 2は Ehternetボー ド 1 1 6 を駆動 し、 ネッ トワーク 1 0 3経由で他計算機に対して生存通知メッセージ 4 〇 1 を送信する ( 3 0 2 ) 。 一方、 L X Pボー ド 1 1 5はリンケージ バス 1 0 4経由で他計算機に対して生存通知メッセージ 4 0 2 を送信す る ( 3 0 3 ) 。  The management program 13 1 requests the management communication program 13 2 and the LXP board 115 to transmit a survival notification message at regular time intervals (301). The management communication program 132 drives the Ethernet board 116, and sends a survival notification message 4-1 to another computer via the network 103 (302). On the other hand, the LXP board 115 sends a survival notification message 402 to another computer via the linkage bus 104 (303).
前記の生存通知メッセージ 4 0 1, 0 2 を受信した待機系計算機 1 0 1 の管理通信プログラム 1 3 2および L X Pボー ド 1 1 5は、 各々 受信結果を記憶する ( 3 0 4, 3 0 5 ) 。 そして、 待機系計算機 1 0 1 の管理プログラム 1 3 1 は、 一定時間毎に自計算機の管理通信プログラ ム 1 3 2および L X Pボー ド 1 1 5に対して、 稼働系計算機からの生存 通知メッセージを受信したかどうか確認する ( 3 0 6 ) 。 一定時間以上、 稼働系計算機からの生存通知メッセージ 4 0 1 , 4 0 2が双方とも受信 されない場合には、 稼働系計算機に障害が発生したものと判断する。 ここで生存通知メッセージを 2つの経路で伝送するのは、 各伝送経路 や伝送路への接続回路に発生した障害を、 計算機自体の障害と区別でき るようにするためである。 一方の生存通知メッセージのみが受信されな い場合には、 伝送路で障害であると判断し、 画面表示やログ記録などの 形で警告を発するに止め、 系切り替えは実施しない。  The management communication program 132 and the LXP board 115 of the standby computer 101 that have received the survival notification messages 401 and 02 respectively store the reception results (304, 305) ). Then, the management program 13 1 of the standby computer 101 sends a survival notification message from the active computer to the management communication program 13 2 and the LXP board 115 of its own computer at regular intervals. Check whether it has been received (306). If neither of the survival notification messages 401 and 402 from the active computer is received for a certain time or more, it is determined that a failure has occurred in the active computer. The reason why the survival notification message is transmitted over two paths is to make it possible to distinguish failures that occur in each transmission path and the connection circuit to the transmission path from failures in the computer itself. If only one survival notification message is not received, it is determined that there is a failure in the transmission path, and only a warning is issued in the form of screen display or log recording, and no system switchover is performed.
第 2図では稼働系計算機 1 0 0から待機系計算機 1 0 1への向きの生 存確認メッセージの送信動作のみが示されているが、 実際には逆向きの 生存確認メッセージの送信も行っており、 稼働系計算機 1 0 0での受信 確認処理 3 0 6および待機系計算機 1 0 1 での送信処理 3 0 1 がー定時 間毎に実行されている。 In Fig. 2, only the transmission of the survival confirmation message from the active computer 100 to the standby computer 101 is shown, but in reality, the transmission of the survival confirmation message in the opposite direction is also performed. The reception confirmation processing at the active computer 100 and the transmission processing at the standby computer 101 are scheduled. Running every second.
次に、 稼働系計算機 1 0 0に障害が発生した場合の動作について説明 する。  Next, an operation when a failure occurs in the active computer 100 will be described.
障害モー ドは複数考えられるが、 第 1 に、 O S内部で無限ループが発 生するなどの要因でハングアツプ状態になった場合を説明する。  There are several possible failure modes. First, a description will be given of a case in which a hang-up state occurs due to an infinite loop inside the OS.
0 S内部での障害発生により管理プログラム 1 3 1 の動作はス トップ し、 生存通知メッセージの送信処理 3 0 1 がー定時間毎に実行されなく なる。 待機系計算機 1 0 1 の管理プログラム 1 3 1 は、 一定時間 4 5 1 の間隔で行う受信メッセージ確認 3 0 6の際に、 2つの生存通知メッセ ージ 4 0 1 , 4 0 2 とも受信されていないことを検出すると、 稼働系計 算機 1 0 0に障害が発生したものと判断する。 障害発生を検出した待機 系計算機 1 0 1上の管理プログラム 1 3 1 は L X Pボー ド 1 1 5に対し て強制割込指示の送信を依頼し ( 3 0 7 ) 、 L X Pボー ド 1 1 5は稼働 系計算機の L X Pボー ドに対して強制割込指示メッセージ 4 0 3 を送信 する ( 3 0 8 ) 。  The operation of the management program 13 1 stops due to the occurrence of a failure inside the 0 S, and the transmission processing 3 0 1 of the survival notification message is not executed at regular intervals. The management program 13 1 of the standby computer 10 1 receives both the survival notification messages 4 0 1 and 4 0 2 at the time of the received message confirmation 3 0 6 performed at regular intervals 4 5 1. If it is detected that no failure has occurred, it is determined that a failure has occurred in the active computer 100. The management program 13 1 on the standby computer 101 that detected the failure has requested the LXP board 115 to transmit a forced interrupt instruction (307), and the LXP board 115 The forced interrupt instruction message 400 is transmitted to the LXP board of the active computer (308).
稼働系計算機 1 0 0上の L X Pボー ド 1 1 5は強制割込指示メッセ一. ジ 4 0 3 を受信すると、 ハー ドウエア的にマスク不可能割込信号 4 0 4 を発生させる ( 3 0 9 ) 。 M P Uはこの割込信号を受け、 割込処理ル一 チン 1 3 3 を起動する。  When the LXP board 1 15 on the active computer 1 0 0 receives the forced interrupt instruction message 4 0 3, it generates a hardware non-maskable interrupt signal 4 0 4 (3 0 9 ). The MPU receives this interrupt signal and activates the interrupt processing routine 133.
割込処理ル一チン 1 3 3は起動時に、 まず、 マスク不可能割込信号を 無効化、 すなわち再度マスク不可能割込信号が発生した場合にこれを無 視するように設定する ( 3 1 0 ) 。  When the interrupt processing routine 1 3 3 is started, first, the non-maskable interrupt signal is invalidated. That is, if the non-maskable interrupt signal is generated again, it is set to be ignored (3 1 0).
割込処理ルーチン 1 3 3は、 起動後、 相手系計算機 1 0 1 に影響を及 ぼす可能性のある自計算機内の構成要素の動作停止を指示する ( 3 1 1 ) 。 本実施形態の構成の場合、 S C S I ボー ド 1 1 4および Ethernetボー ド 1 1 6がこの様な構成要素に相当し、 各ボー ドにあるレジスタ中の動 作停止を指示するビッ 卜をセッ 卜することにより動作を停止させる。 こ れにより相手系計算機 1 0 1 が共有ディスク 1 0 2やネッ トワーク 1 03 にアクセスする場合に、 障害発生計算機 1 0 0の影響を受けなくなる。 なお、 構成要素の種類によってはレジスタ中の動作可能ビッ トをク リア することにより、 動作停止を指示する場合もある。 After the startup, the interrupt processing routine 133 instructs the operation stop of a component in the own computer that may affect the partner computer 101 (311). In the case of the configuration of the present embodiment, the SCSI board 114 and the Ethernet board The node 116 corresponds to such a component, and the operation is stopped by setting a bit in the register on each board that instructs the operation to stop. As a result, when the other computer 101 accesses the shared disk 102 or the network 103, the other computer 100 is not affected by the failure computer 100. Note that, depending on the type of component, the operation stop may be instructed by clearing the operable bit in the register.
次に割込処理ル一チン 1 3 3は、 L X Pボー ド 1 1 5に対して以後の 他計算機からの指示メッセージを無視するように設定し ( 3 1 2 ) 、 障 害情報の保存を実行する ( 3 1 3 ) 。 障害情報の保存完了後、 割込処理 ルーチン 1 3 3は停止し ( 3 1 4 ) 、 障害が発生した計算機 1 0 0は停 止状態となる。  Next, the interrupt processing routine 13 3 sets the LXP board 115 to ignore subsequent instruction messages from other computers (3 1 2), and saves the fault information. Yes (3 1 3). After saving the failure information, the interrupt processing routine 133 is stopped (314), and the failed computer 100 is stopped.
障害情報の保存処理 3 1 3では、 主メモリ 1 1 1 の内容や、 計算機本 体および各機能拡張ボ一 ドの動作状態を表す各々のレジスタの内容など を保存する。 また、 障害情報以外に、 通常のシャツ 卜ダウン処理のうち、 該障害発生後の条件下でも実行可能な処理を実行してもよい。 例えば、 ディスク装置 1 1 3に対するキャッシュ内容の書き出しを実行すれば、 該障害発生計算機のディスク内容の整合性が保たれ、 内容を救出できる 可能性が高くなる。  In the failure information storage process 3 13, the contents of the main memory 1 11 and the contents of each register indicating the operation state of the computer body and each function expansion board are stored. In addition to the fault information, a process that can be executed even under the condition after the occurrence of the fault may be executed among the normal shutdown processes. For example, if the cache contents are written to the disk devices 113, the consistency of the disk contents of the failed computer is maintained, and the possibility of rescuing the contents increases.
待機系計算機 1 0 1 の管理プログラム 1 3 1 は、 強制割込指示の送信 ( 3 0 7 ) 後、 一定時間 4 5 2 をおいて、 L X Pボー ド 1 1 5に対して 動作停止指示の送信を依頼し ( 3 1 5 ) 、 またこの時点で、 待機系計算 機 1 0 1 でロー ドされていたアプリケーション 1 3 5 を起動して稼働系 計算機 1 0 0の処理を引き継ぎ ( 3 1 8 ) 、 自計算機を新たな稼働系に 設定する。 これで系切り替えは完了する。  After sending the forced interrupt instruction (307), the management program 1311 of the standby computer 101 sends an operation stop instruction to the LXP board 115 after a certain period of time 45 (3 15), and at this time, the application 13 5 loaded on the standby computer 101 is started to take over the processing of the active computer 100 (3 18). , Set your computer as the new active system. This completes system switching.
乂?ボー ド 1 1 5は、 管理プログラム 1 3 1 からの動作停止指示送 信依頼により、 動作停止指示メッセージ 4 0 5 を送信する( 3 1 6 )。 し かし、 障害発生計算機 1 0 0では割込処理ルーチン 1 3 3により L X P ボー ドに対して指示メッセージを無視する設定が行われている( 3 1 2 ) ため、 この動作停止指示メッセージ 4 0 5は無視され、 障害情報の収集 ( 3 1 3 ) が継続されることになる。 Ai? Board 1 15 sends an operation stop instruction from the management program 13 1. In response to the request, an operation stop instruction message 405 is transmitted (3 16). However, in the fault computer 100, the interrupt processing routine 133 sets the LXP board to ignore the instruction message (3 1 2). 5 is ignored, and the collection of fault information (3 1 3) is continued.
障害発生計算機内の構成要素の動作停止処理 3 1 1 において、 各構成 要素に、 動作状態表示レジスタなどの動作状況確認手段が備わつている 場合、 動作停止処理 3 1 1 による動作停止を確認する手順を追加しても よい。 この動作停止の確認において動作停止指示が失敗していると判断 された場合、 割込処理ルーチン 1 3 3はその処理を停止する。 これによ り、 他計算機からの指示メッセージを無視する処理が行われず、 待機系 計算機の L X Pボー ドからの動作停止指示メッセージ 4 0 5 を受けた L X Pボ— ドにより計算機 1 0 0は強制的に停止状態となり、 待機系計 算機 1 0 1 は障害発生計算機 1 0 0の影響を受けずに処理を引き継ぐこ とになる。  In the operation stop processing of the components in the faulty computer 3 1 1, if each component has an operation status check means such as an operation status display register, check the operation stop by the operation stop processing 3 1 1 Additional steps may be added. If it is determined in the confirmation of the operation stop that the operation stop instruction has failed, the interrupt processing routine 133 stops the processing. As a result, the process of ignoring the instruction message from the other computer is not performed, and the computer 100 is forcibly activated by the LXP board receiving the operation stop instruction message 405 from the LXP board of the standby computer. Then, the standby computer 101 takes over the processing without being affected by the failure computer 100.
また、 障害情報保存処理 3 1 3の先頭で、 ディスク装置の異常など、 障害情報保存のための準備が出来ていないと判断された場合、 割込処理 ルーチン 1 3 3は L X Pボー ドのメッセージ無視の設定を解除し (319 ) 、 障害情報保存処理を停止するようにしてもよい。 この場合も、 待機系計 算機からの動作停止指示メッセージ 4 0 5 を受けて障害発生計算機 1 00 は強制的に停止状態となる。  If it is determined at the beginning of the failure information storage process 3 1 3 that the disk device is not ready for failure information storage, such as a disk unit error, the interrupt processing routine 13 33 ignores the LXP board message. May be canceled (319), and the failure information storage processing may be stopped. Also in this case, the failure computer 100 is forcibly stopped in response to the operation stop instruction message 405 from the standby computer.
第 2の障害モー ドとして、 一般的にカーネルパニツクと呼ばれる、 0 Sが重大な論理矛盾を検出して継続運転不能と判断した障害について 説明する。 この場合の処理のタイムチャー トを第 3図に示す。  As a second failure mode, a failure generally called a kernel panic, in which 0S detects a serious logical inconsistency and determines that continuous operation is impossible, will be described. Figure 3 shows the time chart of the process in this case.
〇 Sは論理矛盾を検出すると、 割込処理ルーチン 1 3 3 を起動する ( 3 3 1 ) 。 割込処理ルーチンは、 第 2図で説明した場合と同様に、 自 計算機内の構成要素の動作停止を指示し ( 3 1 1 ) 、 次に L X Pボー ド 1 1 5に対して以後の他計算機からの指示メッセージを無視するように 設定し ( 3 1 2 ) 、 その後、 障害情報の保存処理を行い ( 3 1 3 ) 、 停 止する ( 3 1 4 ) 。 〇 When S detects a logical contradiction, it activates the interrupt processing routine 1 3 3 (3 3 1). The interrupt processing routine instructs the stop of the operation of the components in its own computer (311), as in the case described with reference to FIG. 2, and then sends the LXP board 115 to the other computers thereafter. Then, a setting is made to ignore the instruction message from the user (312), and thereafter, the processing for saving the failure information is performed (313), and the process is stopped (314).
O Sに障害が発生し、 割込処理ル一チンへ実行が移ることにより、 稼 働系計算機 1 0 0上の管理プログラム 1 3 1 が動作しなくなるため、 待 機系計算機に対して生存通知メッセージ 4 0 1, 4 0 2が送信されなく なる。 待機系計算機 1 0 1上の管理プログラム 1 3 1 は、 前述のとおり、 生存通知メッセージ 4 0 1, 4 0 2 ともに受信されないことを検出し When an OS failure occurs and execution is transferred to the interrupt processing routine, the management program 13 1 on the active computer 100 stops operating, and a survival notification message is sent to the standby computer. 4 0 1 and 4 0 2 are not transmitted. As described above, the management program 13 1 on the standby computer 101 detects that neither the survival notification message 401 nor 402 is received.
( 3 0 6 ) 、 強制割込指示メッセージ 4 0 3および計算機動作停止指示 メッセージ 4 0 5の送信を行う ( 3 0 8, 3 1 6 ) 。 (306), the forced interrupt instruction message 403 and the computer operation stop instruction message 405 are transmitted (308, 316).
強制割込指示メッセージ 4 0 3 を受けた時点で、 すでに割込処理ルー チン 1 3 3が起動し L X Pボ一 ドに対してメッセ一ジ無視の設定が行わ れている ( 3 1 2 ) ため、 強制割込指示メッセ一ジ 4 0 3は無視され When the forced interrupt instruction message 400 is received, the interrupt processing routine 133 has already been activated and the message ignore setting has been performed for the LXP board (3 1 2). The forced interrupt instruction message 4 03 is ignored
( 3 3 2 ) 、 障害情報の収集 3 1 3が継続される。 引き続いて受け取る 動作停止指示メッセージ 4 0 5も同様に無視される ( 3 3 3 ) 。 (3 3 2), collection of fault information 3 1 3 is continued. The operation stop instruction message 405 received subsequently is also ignored (333).
なお、 ここでは 0 Sが割込処理ル一チン 1 3 3 を呼び出すものとした が、 マスク不可能割込信号を発生させて割込処理ルーチン 1 3 3 を起動 してもよい。 また〇 Sの種類によっては〇 S 自身が障害情報の保存 (メ モリダンプ) を行うものもあるが、 その実行前に登録した処理を呼び出 す機能が提供されている場合には、 割込処理ルーチン 1 3 3から障害情 報の保存 ( 3 1 3 ) を除いた処理を登録しておく ことにより、 同等の処 理を実現することができる。  Here, it is assumed that 0 S calls the interrupt processing routine 13 3, but the non-maskable interrupt signal may be generated to start the interrupt processing routine 13 3. Depending on the type of 〇S, 〇S itself saves the failure information (memory dump), but if the function to call the process registered before the execution is provided, the interrupt process The same processing can be realized by registering the processing excluding the saving of the fault information (3 13) from the routine 13 3.
第 3の障害モー ドとして、 ハー ドウェアの部分的な障害について説明 する。 ここで説明するのは、 障害の影響が前述した 2つの障害モー ドと しては現れないが、 多重系システムの本来の用途たる処理を継続するこ とができないものであり、 何らかの検出方法によリ検出されたものであ る。 この場合の処理のタイムチャー トを第 4図に示す。 The third failure mode describes a partial hardware failure I do. In this example, the effect of the failure does not appear in the two failure modes described above, but it is not possible to continue processing that is the original use of the multiplex system. It was detected again. Figure 4 shows the time chart of the process in this case.
このような障害の発生の検出には、 管理プログラム 1 3 1 による検出、 専用の障害検出サブプログラム 1 3 4による検出、 アプリケ一ション 1 3 5での異常検出などがある。 これらのうち、 管理プログラム以外で 障害を検出した場合は、 障害発生の検出を管理プログラム 1 3 1 に通知 する ( 3 4 1 , 3 4 2 ) 。 管理プログラム 1 3 1 は、 自分自身での障害 検出、 または障害検出サブプログラム 1 3 4やアプリケーション 1 3 5 からの障害通知を受けて、 割込処理ルーチン 1 3 3 を起動する( 3 4 3 )。 割込処理ルーチン 1 3 3は第 3図で説明した 0 Sの論理矛盾検出時と同 一の処理手順を実行し、 系切り替えが実施される。  The detection of the occurrence of such a failure includes detection by the management program 131, detection by the dedicated failure detection subprogram 134, and abnormality detection by the application 135. If a failure is detected by a program other than the management program, the failure detection is notified to the management program 13 1 (3 4 1, 3 4 2). The management program 13 1 starts the interrupt processing routine 13 3 upon detection of a failure by itself or a failure notification from the failure detection subprogram 13 4 or the application 13 5 (3 4 3) . The interrupt processing routine 1 33 executes the same processing procedure as that at the time of detection of the logical inconsistency of 0 S described in FIG. 3, and the system switching is performed.
なお、 障害発生をハー ドウェア機構により監視している場合は、 この ハー ドウエアが割込を使用して異常検出結果を管理プログラム 1 3 1 や 障害検出サブプログラム 1 3 4に通知するか、 もしくは管理プログラム や障害検出サブプログラムの側が定期的に該ハー ドウエアをポーリ ング して異常検出の有無を確認して、 同様の処理を行う。  If the occurrence of a failure is monitored by a hardware mechanism, this hardware uses an interrupt to notify the abnormality detection result to the management program 131, the failure detection subprogram 1334, or The program and the fault detection subprogram poll the hardware periodically to confirm the presence or absence of abnormality detection, and perform the same processing.
また、 メモリ内容の破壊やハー ドウエア的な動作不全の程度により、 割込処理ルーチン 1 3 3の起動ができない場合がある。 この場合、 障害 発生計算機 1 0 0は重度の制御不能状態であり、 予測できない動作をし て、 待機系計算機 1 0 1 の動作に影響を与える恐れがある。  Also, depending on the degree of destruction of memory contents or hardware malfunction, the interrupt processing routine 133 may not be able to be started. In this case, the fault occurrence computer 100 is in a severely uncontrollable state, performs an unpredictable operation, and may affect the operation of the standby computer 101.
この場合は、 障害発生計算機の L X Pボー ド 1 1 5に対して他計算機 からの指示メッセージを無視する設定 ( 3 1 2 ) が行われない。 従って、 待機系計算機からの動作停止指示メッセージ 4 0 5 を受けた L X Pボー ド 1 1 5が計算機 1 0 0 を強制的に停止状態とする。 従って障害発生計 算機 1 0 0 を待機系計算機 1 0 1 の動作に確実に影響を与えない状態と してから処理の引き継ぎを実施することになるので、 確実に系の切リ替 えができる。 In this case, the setting (3 1 2) for ignoring the instruction message from the other computer is not performed for the LXP board 115 of the faulty computer. Therefore, the LXP board receiving the operation stop instruction message 4 05 from the standby computer The node 115 forces the computer 100 to stop. Therefore, it is necessary to ensure that the fault occurrence computer 100 does not affect the operation of the standby computer 101 and then take over the processing, so that the system switching can be reliably performed. it can.
生存通知メッセージが受信されず障害が発生したと判断するまでの時 間 4 5 1 は、 第 3図で示すように、 障害が発生してソフ 卜ゥエア的に割 込処理ルーチン 1 3 3が呼び出され、 L X Pボー ドに対する設定(31 2 ) を完了するまでの時間に対して、 やや長く設定しておく。 また強制割込 指示メッセージ送信と計算機動作停止指示メッセージ送信の間隔 4 5 2 は、 第 2図に示すように、 強制割込指示 ( 3 0 7 ) による稼働系計算機 1 0 0の割込処理ルーチン 1 3 3が起動され、 L X Pボー ドに対する設 定 ( 3 1 2 ) を完了するまでの時間に対して、 やや長く設定しておく。 系の切り替え時間、 すなわち処理引き継ぎ完了までの時間は、 おおよ そ時間 4 5 1 と時間 4 5 2の合計となる。 この系の切り替え時間は、 メ モリダンプなどの障害情報の保存 3 1 3に要する時間に対して十分短く、 障害情報の保存と系切り替え時間の短縮が両立される。  As shown in FIG. 3, the time 451 from when the existence notification message is not received to the time when it is determined that a failure has occurred is, as shown in FIG. 3, the interruption processing routine 133 is called by software due to the failure. Therefore, set a little longer than the time until the setting (31 2) for the LXP board is completed. The interval 452 between the transmission of the forced interrupt instruction message and the transmission of the computer operation stop instruction message is, as shown in FIG. 2, the interrupt processing routine of the active computer 100 by the forced interrupt instruction (307). Set a little longer than the time until 1 3 3 is started and the setting (3 1 2) for the LXP board is completed. The system switching time, that is, the time until the completion of the processing takeover, is approximately the sum of the time 451 and the time 452. The switching time of this system is sufficiently shorter than the time required for saving the failure information such as memory dumps, and both saving the failure information and reducing the system switching time are compatible.
なお、 以上の説明では稼働系計算機 1 0 0に障害が発生した場合の処 理について説明してきたが、 待機系計算機 1 0 1 に障害が発生した場合 も、 処理の引き継ぎによる稼働系,待機系切リ替えがないことを除いて、 同一の処理が行われる。  In the above description, the processing when a failure occurs in the active computer 100 has been described. However, when a failure occurs in the standby computer 101, the processing of the active and standby systems by taking over the processing can be performed. The same processing is performed except that there is no switching.
本実施形態では、 各計算機が L X Pボー ド 1 1 5 と Ethernetボー ド 1 1 6 を備えていたが、 各計算機に Etherne tボー ド 1 1 6 を 2つ備え、 Ethernetネッ トワーク 1 0 3 を二重化して生存監視メッセージの通信を 行う構成の多重系システムにおいても、 同様の方法による系切り替えが 可能である。 このようなシステムにおいては、 O Sの論理矛盾検出ゃハ 一ドウエアの部分的な障害検出という障害モー ドに対して、 障害発生計 算機 1 0 0における障害情報の保存 3 1 3 と待機系計算機 1 0 1 への処 理引き継ぎ 3 1 8による系切り替え動作が可能である。 ただし強制割込 指示 4 0 3 を送ることが出来ないので、 ハングアップ状態の障害モー ド では障害情報の保存が出来ない。 また、 動作停止指示メッセージ 4 0 5 を送ることが出来ないので、 障害の程度によっては障害発生計算機 1 00 の異常動作が待機系計算機 1 0 1 に影響を与える可能性が残る。 In this embodiment, each computer has the LXP board 115 and the Ethernet board 116, but each computer has two Ethernet boards 116, and the Ethernet network 103 is duplicated. In a multiplex system configured to communicate liveness monitoring messages, system switching can be performed in the same way. In such a system, OS logical inconsistency detection In the failure mode of partial failure detection in one hardware, the failure information is saved in the failure occurrence computer 100 and the processing is transferred to the standby computer 101. Operation is possible. However, since the forced interrupt instruction 4 0 3 cannot be sent, failure information cannot be saved in the failure mode in the hang-up state. In addition, since the operation stop instruction message 4 05 cannot be sent, there is a possibility that the abnormal operation of the failure computer 100 will affect the standby computer 101 depending on the degree of the failure.
以下、 各部の詳細について説明する。  Hereinafter, details of each unit will be described.
まず L X Pボー ド 1 1 5について説明する。 第 5図に L X Pボー ド First, the L XP board 1 15 will be described. Figure 5 shows the L XP board
1 1 5の内部構成を示す。 The internal configuration of 1 15 is shown.
図示するように L X Pボー ド 1 1 5は、 拡張バス 1 2 1 との入出力を 担当する拡張バスィンタフェース 1 7 0, リンケージバス 1 0 4 を介し たメッセ一ジ処理を行う リンケージ制御用プロセッサ 1 7 1 、 このリン ケージ制御用プロセッサ 1 7 1 が実行するプログラムを格納するメモリ As shown in the figure, the LXP board 115 is a linkage control processor that processes messages via the expansion bus interface 170 and the linkage bus 104 that are in charge of input and output to and from the expansion bus 121. 1 7 1, memory for storing programs to be executed by this linkage control processor 17 1
1 7 5 , メッセージとリ ンケージバス上の電気信号との変換を行う伝送 路イ ンタフェース 1 7 2 , メッセージの一時格納用バッファであるメッ セージ記憶用メモリ 1 7 3, 電源電圧の立ち上がりを検出する電源電圧 検出回路 1 7 4, 拡張バス側からリンケージ制御用プロセッサ 1 7 1 の 動作状態を確認したり動作方法を指示するための動作制御レジスタ 176 を備えている。 1 75, transmission line interface that converts messages to electrical signals on the linkage bus 17 2, message storage memory 17 3 that is a buffer for temporarily storing messages 17 3, power supply that detects rising power supply voltage It has a voltage detection circuit 174 and an operation control register 176 for checking the operation state of the linkage control processor 171 from the expansion bus side and instructing the operation method.
動作制御レジスタ 1 Ί 6は拡張バス 1 2 1 から読み書きできるので、 この L X Pボー ド 1 1 5が搭載されている計算機上で動作するソフ トウ エアから動作状態を確認したり動作方法を指示することが可能である。 この動作制御レジスタ 1 7 6は、 後述する強制割込指示禁止ビッ 卜 176 1, 動作停止指示禁止ビッ ト 1 7 6 2, 再起動指示禁止ビッ 卜 1 7 6 3 を含 む。 The operation control registers 1 16 can be read and written from the expansion bus 12 1, so check the operation state and instruct the operation method from software running on the computer on which the LXP board 115 is mounted. Is possible. The operation control register 176 includes a forced interrupt instruction inhibit bit 176 1, an operation stop instruction inhibit bit 176 2, and a restart instruction inhibit bit 176 3 described later. No.
L X Pボー ドの初期化動作を説明する。 L X Pボー ドは、 接続されて いる計算機とは独立に動作し、 計算機のリセッ 卜信号自体を扱う必要が ある。 このため、 L X Pボー ドの初期化処理は、 計算機のリセッ ト処理 とは独立に、 L X Pボー ドへの電源投入時にのみ行う。 このため、 拡張 バス 1 2 1経由で供給される電源電圧を監視する電源電圧検出回路 174 が電源電圧の立ち上がりを検出して、 L X Pボー ド内の各構成要素に対 して初期化を指示する初期化信号 1 8 4 を出力する。 拡張バスィ ンタフ エース 1 7 0, リンケージ制御用プロセッサ 1 7 1 、 および伝送路イン タフエース 1 7 2は、 この初期化信号 1 8 4 を受け、 メモリのク リア, 各種状態情報のクリア, レジスタのク リア, リンケージバスのリセッ ト などの初期化処理を実行する。  The initialization operation of the LXP board will be described. The LXP board operates independently of the connected computer and needs to handle the reset signal itself of the computer. For this reason, the initialization of the LXP board is performed only when the power to the LXP board is turned on, independent of the reset processing of the computer. For this reason, the power supply voltage detection circuit 174 that monitors the power supply voltage supplied via the expansion bus 122 detects the rise of the power supply voltage and instructs each component in the LXP board to initialize. Outputs initialization signal 18 4. The extended bus interface 170, the linkage control processor 171, and the transmission line interface 172 receive this initialization signal 184, and clear the memory, clear various state information, and clear the register. Performs initialization processing such as resetting the rear and linkage buses.
次にメッセージ送信機能について説明する。 管理プログラム 1 3 1 は 拡張バス 1 2 1 を介して、 拡張バスイ ンタフェース 1 7 0にメッセージ の送信要求を行う。 拡張バスィンタフェース 1 7 0は、 拡張バス 1 2 1 とリ ンケージバス 1 0 4のデータ転送速度が異なるため、 送信するメッ セ―ジを一旦速度緩衝用バッファとしてメッセ一ジ記憶用メモリ 1 7 3 に格納し、 リ ンケ一ジ制御用プロセッサ 1 7 1 に対してメッセージの到 着を通知する。 リ ンケージ制御用プロセッサ 1 7 1 はこの通知を受けて メッセージ記憶用メモリ 1 7 3からメッセージを取り出し、 伝送路イン タフェ一ス 1 7 2に転送し、 リ ンケージバス 1 0 4 を介して、 メッセ一 ジを他計算機の L X Pボー ドに送信する。  Next, the message transmission function will be described. The management program 131 sends a message transmission request to the expansion bus interface 170 via the expansion bus 122. Since the expansion bus interface 170 has a different data transfer rate between the expansion bus 122 and the linkage bus 104, the message to be transmitted is temporarily used as a speed buffer and the message storage memory 173 is used. And notifies the linkage control processor 171 of the arrival of the message. In response to this notification, the linkage control processor 171 retrieves the message from the message storage memory 173, transfers the message to the transmission path interface 172, and transmits the message via the linkage bus 104. To the LXP board of another computer.
最後にメッセージ受信処理機能について説明する。 他計算機の L X P ボ一 ドからリ ンケージバス 1 0 4 を経由して指示メッセージが届いた場 合、 その種類に応じて以下のいずれかの処理を行う。 ( 1 ) メッセージが強制割込指示の場合、 接続されている自計算機に 対して、 マスク不可能割込信号線 1 8 2 を通じて、 マスク不可能割込信 号を出力し、 M P U 1 1 0での処理を割込ルーチン 1 3 3に切り替える。 ただし、 レジスタ 1 7 6の強制割込指示禁止ビッ 卜 1 7 6 1 がセッ トさ れている場合には、 本処理を行わず、 指示メッセージを無視する。 Finally, the message reception processing function will be described. When an instruction message arrives from the LXP board of another computer via the linkage bus 104, one of the following processes is performed according to the type of the instruction message. (1) If the message indicates a forced interrupt, a non-maskable interrupt signal is output to the connected computer via the non-maskable interrupt signal line 182, and the MPU 110 Is switched to the interrupt routine 1 3 3. However, if the forced interrupt instruction disable bit 1761 of the register 1776 is set, this processing is not performed and the instruction message is ignored.
( 2 ) メッセージが動作停止指示の場合、 接続されている自計算機に 対してリセッ 卜信号線 1 8 3 を通じてリセッ 卜信号を継続して出力し続 け、 これにより計算機を強制的に停止する。 ただし、 レジスタ 1 7 6の 動作停止指示禁止ビッ 卜 1 7 6 2がセッ 卜されている場合には、 本処理 を行わず、 メッセージを無視する。  (2) If the message indicates an operation stop instruction, the reset signal is continuously output to the connected own computer via the reset signal line 183, thereby forcibly stopping the computer. However, if the operation stop instruction disable bit 1762 of the register 176 is set, the message is ignored without performing this processing.
( 3 ) メッセージが再起動指示の場合、 接続されている自計算機に对 してリセッ 卜信号線 1 8 3 を通じてリセッ 卜信号を 1 度出力し、 これに より計算機を再起動する。 ただし、 レジスタ 1 7 6の再起動指示禁止ビ ッ 卜 1 7 6 3がセッ トされている場合には、 本処理を行わず、 メッセ一 ジを無視する。  (3) If the message indicates a restart instruction, a reset signal is output once to the connected own computer via the reset signal line 183, thereby restarting the computer. However, if the restart instruction prohibition bit 1763 of the register 1776 is set, this processing is not performed and the message is ignored.
( 4 ) 上記以外のメッセ一ジの場合、 メッセ一ジ内容をメッセ一ジ記 憶用メモリ 1 7 3に格納する。 格納されたメッセージは、 その後、 管理 プログラム 1 3 1 からの要求により、 拡張バスィンタフエース 1 7 0, 拡張バス 1 2 1 を介して随時読み出される。  (4) In the case of a message other than the above, the contents of the message are stored in the message storage memory 173. The stored message is thereafter read out at any time via the extended bus interface 170 and the extended bus 122 in response to a request from the management program 131.
第 6図に拡張バスィンタフエース 1 7 0の処理手順を示す。  FIG. 6 shows the processing procedure of the extended bus interface 170.
拡張パスィンタフエース 1 7 0は、 計算機 (拡張バス) からの入出力 要求信号、 および初期化信号線 1 8 4からの初期化信号を受けると、 要 求待ち状態 5 0 1 から抜けて処理を開始し、 受けた信号から処理要求の 種類を判定する ( 5 0 2 ) 。  Upon receiving an input / output request signal from a computer (expansion bus) and an initialization signal from the initialization signal line 184, the extended paste interface 170 exits the request waiting state 501 and processes it. Is started, and the type of the processing request is determined from the received signal (502).
処理要求が初期化信号であった場合、 内部レジスタや回路の初期化処 理 ( 5 0 3 ) を行う。 If the processing request is an initialization signal, initialization processing of internal registers and circuits is performed. (503).
処理要求が拡張バス 1 2 1からの読出信号の場合、 読み出し要求の対 象がレジスタであればそのレジスタ 1 7 6の内容を読み出し ( 5 0 5 ) 、 読み出し要求の対象がメッセージであればメッセージ記憶メモリ 1 7 3 の内容を読み出し ( 5 0 7 ) 、 読み出した結果を拡張バス 1 2 1 に送出 する ( 5 0 6, 5 0 8 ) 。  When the processing request is a read signal from the expansion bus 121, if the target of the read request is a register, the contents of the register 176 are read (505), and if the target of the read request is a message, a message is output. The contents of the storage memory 173 are read (507), and the read result is sent to the extension bus 121 (506, 508).
処理要求が拡張バス 1 2 1 からの書込信号の場合、 書き込み要求の対 象がレジスタであれば書き込み内容をレジスタ 1 7 6に書き込む(51 0 ) 。 一方、 書き込み要求の対象が送信メッセージである場合には、 その送信 メッセージを一旦メッセ一ジ記憶用メモリ 1 7 3に格納し ( 5 1 1 ) 、 これをリンケージ制御用プロセッサ 1 Ί 1 に伝送させる ( 5 1 2 ) 。 第 7図にリンケージ制御用プロセッサ 1 7 1 の処理手順を示す。  When the processing request is a write signal from the expansion bus 122, if the target of the write request is a register, the write contents are written to the register 176 (510). On the other hand, if the target of the write request is a transmission message, the transmission message is temporarily stored in the message storage memory 173 (5 1 1), and transmitted to the linkage control processor 1 Ί 1. (5 1 2). Fig. 7 shows the processing procedure of the linkage control processor 171.
制御用プロセッサ 1 7 1 は、 拡張バスィンタフェース 1 7 0からの起 動要求、 伝送路ィンタフェース 1 7 2からのメッセージ受信、 および初 期化信号線 1 8 4からの初期化信号のいずれかのイベン トにより、 ィべ ン 卜待ち状態 5 2 1 から抜けて処理を開始し、 そのイベン トの種類を判 定する ( 5 2 2 ) 。  The control processor 17 1 receives one of a start request from the expansion bus interface 17 0, a message from the transmission path interface 17 2, and an initialization signal from the initialization signal line 18 4. With this event, the process exits from the event waiting state 5 21 to start processing, and determines the type of the event (5 2 2).
発生したイベン トが初期化信号の場合、 通信処理を初期化し、 メッセ —ジ記憶用メモリ 1 7 3に保存されている全メッセージを破棄し、 さら にレジスタ 1 Ί 6 を初期状態に設定する ( 5 2 3 ) 。  If the generated event is an initialization signal, the communication process is initialized, all messages stored in the message storage memory 173 are discarded, and registers 1 to 6 are set to the initial state ( 5 2 3).
一方、 発生したィベン 卜が、 拡張バスィンタフェース 1 7 0からの起 動要求、 すなわち、 メッセージの送信要求であれば、 送信すべきメッセ 一ジをメッセージ記憶用メモリ 1 7 3から読み出し ( 5 2 4 ) 、 伝送路 イ ンタフェース 1 7 2に該メッセージを伝送させる ( 5 2 5 ) 。  On the other hand, if the generated event is a start request from the extended bus interface 170, that is, a message transmission request, the message to be transmitted is read from the message storage memory 173 (52 4) Then, the message is transmitted to the transmission path interface 172 (525).
また、 発生したイベン トが伝送路インタフェース 1 7 2からのメッセ ージ受信ィベン 卜の場合、 他の L X Pボー ドからの指示メッセージの到 着を示している。 この場合、 受信した指示メッセージの種類を判定し ( 5 2 6 ) 、 各々に対応した処理を行う。 In addition, the generated event is a message from the transmission line interface 172. In the case of a page reception event, it indicates the arrival of an instruction message from another LXP board. In this case, the type of the received instruction message is determined (526), and processing corresponding to each is performed.
メッセージが強制割込指示, 動作停止指示, 再起動指示のいずれかの 場合、 既に述べたとおり、 レジスタ 1 7 6 中の対応する各禁止ビッ 卜 ( 1 7 6 1 , 1 7 6 2 , 1 7 6 3 ) がク リアされていることを確認し ( 5 2 7 , 5 2 9 , 5 3 1 ) 、 前述のとおりの信号を出力する ( 5 2 8, 5 3 0 , 5 3 2 ) 。  If the message is a forced interrupt instruction, operation stop instruction, or restart instruction, as described above, the corresponding inhibit bit (1 176 1, 1 762 2, 1 7 Confirm that (6 3) is cleared (5 27, 5 29, 5 3 1), and output the signal as described above (5 2 8, 5 3 0, 5 3 2).
前記以外のメッセージの場合、 単に受信した指示メッセージをメッセ 一ジ記憶用メモリ 1 7 3に格納する ( 5 3 3 )  In the case of a message other than the above, the received instruction message is simply stored in the message storage memory 173 (533)
次に管理プログラム 1 3 1 について説明する。  Next, the management program 13 1 will be described.
管理プログラム 1 3 1 は次の 3つの処理を行う。  The management program 1 3 1 performs the following three processes.
( 1 ) 自計算機が正常に動作していることを他の計算機に通知するた め、 定期的に生存通知メッセージを送信する。  (1) Periodically send a survival notification message to notify other computers that their computer is operating normally.
( 2 ) 他計算機から送られてくる生存通知メッセージを監視し、 一定 時間以上受信されない場合は送信元計算機に障害が発生したものと判断 し、 他計算機に対して強制割込指示メッセージならびに動作停止指示メ ッセージを送信する。 また、 障害発生計算機が稼働系計算機ならば、 該 計算機で実行していた処理を引き継ぎ、 自計算機を新たな稼働系計算機 ¾t £ ^ 。  (2) Monitor the survival notification message sent from the other computer, and if it is not received for a certain period of time, judge that the source computer has failed, and send a forced interrupt instruction message and operation stop to the other computer Send instruction message. If the faulty computer is an active computer, the process executed by the computer is taken over and the own computer is replaced by a new active computer ¾t £ ^.
( 3 ) 他のプログラムからの呼び出しにより、 自計算機に障害が発生 したことを認識し、 障害情報収集等の割込処理ルーチン 1 3 3 を起動す る。  (3) Recognize that a failure has occurred in its own computer due to a call from another program, and activate the interrupt processing routine 133 for collecting failure information.
なお、 管理プログラム 1 3 1 が自計算機の障害発生を検出する機能を 合わせ持っていてもよい。 この場合、 障害検出時には前記 ( 3 ) と同様 に割込処理ルーチンを起動する。 Note that the management program 13 1 may also have a function of detecting the occurrence of a failure in its own computer. In this case, when a failure is detected, the same as (3) above To start an interrupt processing routine.
第 8図に前記 ( 1 ) の生存通知メッセージ送信処理の処理フローを示 す。  Fig. 8 shows the processing flow of the survival notification message transmission processing in (1) above.
図示するとおリ、 この処理では定期的に生存通知を他計算機に対して 通知する。 すなわち、 管理通信プログラム 1 3 2および L X Pボー ド 1 1 5に対して生存通知メッセージ送信を要求し ( 3 0 1 ) 、 予め定め られた時間だけ待ち状態に移行する ( 5 4 1 ) 処理を繰り返す。  As shown in the figure, in this process, a survival notification is periodically sent to another computer. That is, it requests the management communication program 132 and the LXP board 115 to transmit a survival notification message (301), and shifts to a waiting state for a predetermined time (5401). .
第 9図に前記 ( 2 ) の生存通知メッセージの監視と他系障害発生時処 理の処理フ口一を示す。  Fig. 9 shows the processing flow of the surviving notification message and the processing when an error occurs in the other system (2).
図示するように、 周期的に他計算機からの生存メッセージの受信状態 を確認し、 一定時間以上受信できない場合には他系障害発生時処理を実 行する。  As shown in the figure, the reception status of the survival message from the other computer is periodically checked, and if it cannot be received for a certain period of time, the other system failure processing is executed.
他系障害と判断するための待ち時間 4 5 1 を決定するために、 「通知 1待ち回数」, 「通知 2待ち回数」 という変数を設定する。 これらの変数 の初期値は N回であり、 処理 5 6 3での待ち時間 t .Λ.との積 「 Ν X t w」 が他系障害と判断するための待ち時間 4 5 1 となる。 まずこれらの変数 . の初期化処理として、 各々 N回を設定する ( 5 5 1, 5 5 2 ) 。 To determine the waiting time 4 5 1 for determining a failure in the other system, the variables “number of times of waiting for notification 1” and “number of times of waiting for notification 2” are set. The initial value of these variables is N times, the product of the latency t. Lambda. And in the processing 5 6 3 "New X t w" is the waiting time 4 5 1 for determining that the other system failures. First, each of these variables. Is initialized N times (551, 552).
次に、 管理通信プログラム 1 3 2では受信したメッセージの内容を記 憶しているので、 生存通知メッセージ 4 0 1 を受信したかどうかを管理 通信プログラム 1 3 2に問い合わせる ( 5 5 3 ) 。 受信されていれば Next, since the content of the received message is stored in the management communication program 132, the management communication program 132 is inquired as to whether or not the existence notification message 401 has been received (5553). If received
「通知 1待ち回数」 を N回に設定して再度初期化し ( 5 5 4 ) 、 管理通 信プログラム 1 3 2に対しては記憶している生存通知メッセージのクリ ァを指示する ( 5 5 5 ) 。 一方、 生存通知メッセージが受信されていな ければ、 「通知 1待ち回数」 の値を 1減少させる。 ただし 「通知 1待ち 回数」 の値が負になった場合は 0 を設定するものとする ( 5 5 6 ) 。 同様にして、 L X Pボー ド 1 1 5は受信したメッセージの内容を記憶 しているので、 生存通知メッセ一ジ 4 0 2 を受信したかどうかを問い合 わせる ( 5 5 7 ) 。 受信されていれば 「通知 2待ち回数」 を N回に再設 定して ( 5 5 8 ) 、 L X Pボー ド 1 1 5に記憶している生存通知メッセ —ジのク リアを指示する ( 5 5 9 ) 。 生存通知メッセージが受信されて いなければ、 「通知 2待ち回数」 の値を 1減少させる。 ただし 「通知 2 待ち回数」 の値が負になった場合は 0を設定するものとする ( 5 6 0 ) 。 The “Notification 1 wait count” is set to N times and reinitialized (555), and the management communication program 1332 is instructed to clear the stored survival notification message (5555.5). ). On the other hand, if the existence notification message has not been received, the value of “the number of times to wait for notification 1” is decreased by one. However, if the value of “Number of times to wait for notification 1” becomes negative, 0 shall be set (555). Similarly, since the LXP board 115 stores the contents of the received message, it is inquired whether or not the survival notification message 402 has been received (5557). If it has been received, the “notification 2 wait count” is reset to N times (558), and the survival notification message stored in the LXP board 115 is cleared (5). 5 9). If the existence notification message has not been received, the value of “notification 2 wait count” is decremented by one. However, if the value of “Number of waits for notification 2” becomes negative, 0 shall be set (560).
ここで 「通知 1待ち回数」 および 「通知 2待ち回数」 の値を調べる ( 5 6 1 )  Here, check the values of “Notification 1 wait count” and “Notification 2 wait count” (5 6 1)
両変数とも 0 となっている場合には、 「N X t w 」 で表される待ち時 間 4 5 1以上の間、 生存通知メッセージ 4 0 1 および 4 0 2がともに受 信されていないことになるため、 他系の計算機に障害が発生したものと 判断する。 そしてまず L X Pボー ド 1 1 5に対して強制割込指示メッセ ージ 4 0 3の送信を依頼し ( 3 0 7 ) 、 次いで一定時間 4 5 2だけ待ち 状態とし ( 5 6 4 ) 、 その後、 L X Pボー ド 1 1 5に対して計算機動作 停止指示メッセージ 4 0 5の送信を依頼する ( 3 1 5 ) 。 さらに自計算 機の設定が待機系計算機である場合には、 稼働系計算機の処理内容の引 き継ぎを行い ( 3 1 8 ) 、 系切り替えを実行する。 これらの処理を実行 した後は、 他系の障害発生計算機は必ず停止状態なので、 生存通知メッ セージの監視処理は停止する ( 5 6 6 ) 。 なお、 障害発生計算機を交換 しまたは障害要因を取り除き、 待機系計算機として二重化システム内に 復帰させる場合には、 再度本処理を開始する ( 5 5 0 ) 。 開始はォペレ ータによる手動操作でもよいし、 本監視処理停止 ( 5 5 6 ) 後、 別処理 を起動して生存監視メッセージの監視を続け、 生存監視メッセージを検 出した時点で本監視処理を再開する ( 5 5 0 ) 方法でもよい。 処理 5 6 1 にて 「通知 1待ち回数」 および 「通知 2待ち回数」 のいず れか一方のみが 0であった場合は、 メッセージ伝送路や伝送路への接続 回路に障害が発生したと判断し、 これを画面表示やログ記録などの形で 警告を発する ( 5 6 2 ) 。 If both variables are set to 0, it means that neither the survival notification message 401 nor 402 has been received during the waiting time 45 1 or more represented by “NX tw ”. Therefore, it is determined that a failure has occurred in another computer. First, the LXP board 115 is requested to transmit a forced interrupt instruction message 403 (307), and then waits for a certain period of time 452 (5664). Request the LXP board 115 to send a computer operation stop instruction message 405 (315). Further, if the setting of the own computer is a standby computer, the processing of the active computer is taken over (3 18), and the system switching is executed. After these processes are executed, the surviving notification message monitoring process is stopped because the faulty computer of the other system is always in a stopped state (566). If the faulty computer is replaced or the cause of the fault is removed, and the system is to be returned to the redundant system as a standby computer, this process is started again (550). The operation may be started manually by the operator, or after the monitoring process is stopped (555), another process is started to continue monitoring the alive monitoring message. When the alive monitoring message is detected, the monitoring process is started. The restart (550) method may be used. If only one of `` Notification 1 wait count '' and `` Notification 2 wait count '' is 0 in process 56, it is considered that a failure has occurred in the message transmission path or the connection circuit to the transmission path. Judgment is made and a warning is issued in the form of a screen display or log recording (5562).
処理 5 6 1 にて 「通知 1待ち回数」 および 「通知 2待ち回数」 の両変 数が 0であった場合を除き、 予め定められた時間 t w だけ待ち( 5 6 3 )、 処理 5 5 3へ戻る。 Unless both variables of “number of waits for notification 1” and “number of waits for notification 2” are 0 in process 561, wait for a predetermined time t w (56 3), and process 5 5 Return to 3.
第 1 0図に前記 ( 3 ) の自計算機で障害が発生した時の管理プログラ ム 1 3 3の処理フローを示す。  FIG. 10 shows the processing flow of the management program 133 when a failure has occurred in the computer (3).
この処理は、 障害検出サブプログラム 1 3 4やアプリケーション 135 からの呼び出しにより起動し ( 5 7 0 ) 、 単に割込処理ルーチン 1 3 3 を起動する ( 3 4 3 ) 。 割込処理ルーチン 1 3 3は呼び出し元に処理を 戻さない。  This processing is started by a call from the fault detection subprogram 134 or the application 135 (570), and simply starts the interrupt processing routine 133 (344). The interrupt processing routine 1 3 3 does not return the processing to the caller.
次に、 割込処理ルーチン 1 3 3について説明する。  Next, the interrupt processing routine 133 will be described.
割込処理ルーチン 1 3 3は、 障害発生時に、 自計算機上のソフ トゥェ ァから起動されるか、 または他計算機からの強制割込指示メッセージを . 受けて L X Pボー ド 1 1 5から起動され、 障害情報の保存およびこれに 関連する処理を行う。  The interrupt processing routine 1 3 3 is started from the software on its own computer when a failure occurs, or from the LXP board 1 15 upon receiving a forced interrupt instruction message from another computer. Stores fault information and performs related processing.
第 1 1 図に割込処理ルーチン 1 3 3の処理フローを示す。  FIG. 11 shows the processing flow of the interrupt processing routine 133.
割込処理ルーチン 1 3 3は起動時に、 まずマスク不可能割込信号を無 効化する ( 3 1 0 ) 。 これは、 何も処理を行わずに復帰するダミーの割 込処理ルーチンを用意し、 これをマスク不可能割込に対する処理ルーチ ンとして M P Uに登録することにより実現する。 これにより割込処理ル 一チン 1 3 3の処理中に再度マスク不可能割込信号が発生した場合でも、 前記ダミ一のルーチンへ処理が移りすぐに割込復帰するので、 マスク不 可能割込を無視することとなり、 割込処理ルーチン 1 3 3 を継続できる。 次に、 自計算機の一部、 特に他系の計算機に影響を及ぼす可能性のあ る構成要素の動作停止を指示する ( 3 1 1 ) 。 そして動作停止を指示し た各構成要素に対して状態を問い合わせ、 全ての構成要素が本当に動作 停止したかどうかを確認する ( 5 8 1 ) 。 動作停止に失敗したものがあ る場合、 割込処理を打ち切る ( 5 9 0 ) 。 動作停止を指示した各構成要 素が全て停止していれば、 L X Pボー ド 1 1 5に対して以後の他計算機 からの指示メッセージを無視するように設定する ( 3 1 2 ) 。 At startup, the interrupt processing routine 133 first invalidates the non-maskable interrupt signal (310). This is achieved by preparing a dummy interrupt processing routine that returns without performing any processing and registering this in the MPU as a processing routine for non-maskable interrupts. As a result, even if a non-maskable interrupt signal is generated again during the processing of the interrupt processing routine 133, the processing returns to the dummy routine and the interrupt returns immediately. The possible interrupt is ignored, and the interrupt processing routine 13 can be continued. Next, it instructs to stop the operation of some of its own computers, especially those components that may affect other computers (311). Then, the status is inquired for each component that has instructed to stop the operation, and it is confirmed whether or not all the components have actually stopped (581). If there is any operation that failed, interrupt processing is terminated (590). If all the components for which operation stop has been instructed have stopped, the LXP board 115 is set to ignore subsequent instruction messages from other computers (312).
続いて障害情報の保存が可能な状態かどうかを調べ ( 5 8 2 ) 、 保存 が不可と判断された場合は、 L X Pボー ド 1 1 5に対して他計算機から の指示メッセージ無視を解除し ( 3 1 9 ) 、 割込処理を打ち切る(590) 。 保存が可能と判断された場合は、 実際の障害情報の保存を実行する  Subsequently, it is checked whether or not the failure information can be saved (582). If it is determined that the failure information cannot be saved, the LXP board 115 is released from ignoring the instruction message from the other computer ( 319), interrupt processing is terminated (590). If it is determined that saving is possible, save the actual failure information
( 3 1 3 ) 。 障害情報の保存完了後、 割込処理ルーチン 1 3 3は停止し ( 3 1 4 ) 、 自計算機は停止状態となる。 なお、 障害情報の保存完了後、 自計算機上の L X Pボー ド 1 1 5に対してリセッ 卜信号の継続発生を指 示し、 計算機の動作を完全に停止させるようにしてもよい。  (3 1 3). After saving the failure information, the interrupt processing routine 1 3 3 stops (3 1 4), and the host computer is stopped. After the failure information has been saved, the LXP board 115 on its own computer may be instructed to continue the reset signal to completely stop the operation of the computer.
割込処理の打ち切りにより停止した場合 ( 5 9 0 ) 、 自計算機は停止 状態となるが、 引き続き他計算機から送られてくる動作停止指示メッセ ージを受けて L X Pボー ド 1 1 5がリセッ ト信号を継続発生するので、 この場合でも動作は完全に停止する。  If the computer stops due to interruption of the interrupt processing (590), the own computer will be in the halt state, but the LXP board 115 will be reset following the operation stop instruction message sent from another computer. Since the signal is generated continuously, the operation stops completely even in this case.
以上のように、 本発明によれば、 多重系システムにおいて、 障害発生 時に、 メモリダンプを含む大容量の障害情報の保存を実施しつつ、 高速 な系切り替えを実現することが可能である。  As described above, according to the present invention, in a multiplex system, when a failure occurs, high-speed system switching can be realized while storing large-capacity failure information including a memory dump.
また、 本発明によれば、 障害発生系におけるハー ドウェアやソフ トゥ エアの暴走、 および障害発生系における障害情報の保存動作が、 系切り 替え動作および切リ替え後の処理を引き継いだ新稼働系の動作に影響を 与えないようにすることが可能である。 産業上の利用可能性 Further, according to the present invention, the runaway of hardware or software in the fault occurrence system and the saving operation of the fault information in the fault occurrence system are performed by the system disconnection. It is possible not to affect the operation of the new operating system that took over the switching operation and the processing after the switching. Industrial applicability
以上のように、 本発明は高い信頼性が要求される用途の多重系システ ムに有効であり、 稼働系の計算機に障害が生じた場合に稼働系の計算機 が行っていた処理を引き継ぐ待機系の計算機を備えた多重系システムに おいて、 いずれか一方の計算機で障害が発生した際に、 事後の障害解析 が可能となり、 復旧措置, 再発防止策の実施などに活用でき、 の信頼性向上に役立つ。  As described above, the present invention is effective in a multiplex system for applications requiring high reliability, and when a failure occurs in the active computer, the standby system takes over the processing performed by the active computer. In a multiplex system equipped with computers, if one of the computers fails, post-failure analysis can be performed, which can be used for recovery measures, measures to prevent recurrence, and improve reliability. Help.

Claims

請 求 の 範 囲 The scope of the claims
1 . 複数の計算機で構成され、 稼働系に設定された計算機の障害発生時 に、 当該計算機が行っている処理を、 待機系に設定された計算機が引き 継ぐ多重系システムにおいて、  1. In a multiplex system in which multiple computers are configured and the computer set as the standby system takes over the processing performed by the computer when a failure occurs in the computer set as the active system.
前記障害発生時に、  At the time of the failure,
前記障害の発生した計算機で動作しているソフ 卜ウェアが前記障害を 検出して障害情報の保存を実施し、 または待機系の計算機が前記障害を 検出して前記障害の発生した計算機に対して障害情報の保存を指示し、 かつ前記待機系の計算機は前記障害を認識した後に、 前記障害の発生 した計算機における障害情報の保存終了を待つことなく、 自発的に処理 の引き継ぎを実施することを特徴とした多重系システムの系切り替え方 法。  Software running on the failed computer detects the failure and saves the failure information, or a standby computer detects the failure and responds to the failed computer. After instructing the storage of the fault information, and after the standby computer recognizes the fault, the computer of the standby system spontaneously takes over the processing without waiting for the end of storing the fault information in the failed computer. System switching method for multiplex systems, which is a distinctive feature.
2 . 前記各計算機が、 当該計算機上のソフ トウェアとは独立に動作する、 相互に伝送路を介して接続された機能拡張ボー ドを各々搭載し、  2. Each of the computers has a function expansion board, which operates independently of the software on the computer, and is connected to each other via a transmission line.
前記各機能拡張ボー ドは、 他の計算機に搭載された機能拡張ボ一 ドか ら伝送路を介して受け取るメッセージの内容に従い、 当該機能拡張ボー ドの搭載された計算機に対して割込を発生する機能と当該機能拡張ボ一 ドの搭載された計算機の動作を停止する機能を持ち、 かつ当該機能拡張 ボー ドの搭載された計算機上で動作するソフ 卜ウェアから前記メッセー ジに対する前記各機能の抑止を指示する機能を持ち、  Each of the function expansion boards generates an interrupt to the computer equipped with the function expansion board according to the content of a message received via a transmission line from the function expansion board mounted on another computer. And the function to stop the operation of the computer equipped with the function expansion board, and the functions of the functions corresponding to the message from the software operating on the computer equipped with the function expansion board Has a function to instruct deterrence
他計算機での障害発生を認識した時に、 前記障害を認識した計算機に 搭載された機能拡張ボー ドから、 前記障害の発生した計算機に搭載され た機能拡張ボ一 ドに対して、 割込発生を指示するメッセージを送信し、 さらにその一定時間後に計算機の停止を指示するメッセージを送信し、 前記障害の発生した計算機に搭載された機能拡張ボー ドが前記割込指 示メッセージに対して発生する割込に対する割込処理において、 障害情 報の保存を実行し、 かつ前記機能拡張ボー ドに対して、 前記割込発生機 能と前記計算機動作停止機能の抑止を指示し、 後から送信される計算機 の停止を指示するメッセージを無視して障害情報の保存を継続すること を特徴とした請求の範囲第 1項記載の多重系システムの系切リ替え方法。When the occurrence of a failure in another computer is recognized, an interrupt is generated from the function expansion board mounted on the computer that recognized the failure to the function expansion board mounted on the computer where the failure occurred. A message for instructing the computer to be stopped is transmitted after a certain period of time, and the function expansion board mounted on the failed computer is used for the interrupt instruction. In the interrupt processing for the interrupt that occurs in response to the notification message, save the fault information and instruct the function expansion board to suppress the interrupt generation function and the computer operation stop function 2. The method according to claim 1, further comprising ignoring a message transmitted later to instruct the computer to stop, and continuing to store the failure information.
3 . 障害発生時に、 該障害発生計算機のソフ トウェアにより自発的に障 害情報保存を実行し、 かつ前記機能拡張ボー ドに対して、 前記割込発生 機能と前記計算機動作停止機能の抑止を指示し、 後から送信される割込 発生指示と計算機停止指示のメッセ一ジを無視して障害情報の保存を継 続することを特徴とした請求の範囲第 2項記載の多重系システムの系切 り替え方法。 3. When a fault occurs, the fault information is automatically saved by the software of the faulty computer, and the function expansion board is instructed to suppress the interrupt generation function and the computer operation stop function. 3. The multi-system system according to claim 2, wherein the message of the interrupt generation instruction and the computer stop instruction transmitted later is ignored, and the storage of the failure information is continued. Replacement method.
4 . 前記障害の発生した計算機において、 障害情報の保存に先立ち、 障 害情報の保存に関係しない部位、 特に前記多重系システムを構成する、 前記障害の発生した計算機以外の計算機と接続されている部分の入出力 部で、 前記機能拡張ボー ド相互間を接続する伝送路を除く部分に対して その動作の停止を指示することを特徴とした請求の範囲第 1項記載の多 重系システムの系切り替え方法。  4. Prior to the storage of the fault information, the faulty computer is connected to a part not related to the storage of the fault information, in particular, to a computer other than the faulty computer, which constitutes the multiplex system. 2. The multi-system system according to claim 1, wherein an input / output unit of the unit instructs a unit other than a transmission line connecting the function expansion boards to stop its operation. System switching method.
5 . 前記動作の停止を指示した部位について、 実際に動作が停止したか どうかを確認する手段を有し、 停止に失敗したものがあった場合に、 障 害情報の保存を行わず、 前記障害の発生した計算機の動作を停止するこ とを特徴とした請求の範囲第 4項記載の多重系システムの系切り替え方 法。  5. There is a means for confirming whether or not the operation has actually stopped for the part instructed to stop the operation. If any of the parts failed to stop, the failure information is not stored and the failure is not saved. 5. The method of system switching of a multiplex system according to claim 4, wherein the operation of the computer in which the error occurs is stopped.
6 . 前記障害情報の保存の代わりに、 または前記障害情報の保存と同時 に、 正常時の計算機停止手順のうちの一部を実行することを特徴とした 請求の範囲第 1項に記載された多重系システムの系切り替え方法。  6. The method according to claim 1, wherein a part of a normal computer shutdown procedure is executed instead of or simultaneously with the storage of the fault information. System switching method for multiple systems.
PCT/JP1997/004160 1997-11-14 1997-11-14 Method of changing over a multiplex system WO1999026138A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000521438A JP3806600B2 (en) 1997-11-14 1997-11-14 System switching method for multi-system
PCT/JP1997/004160 WO1999026138A1 (en) 1997-11-14 1997-11-14 Method of changing over a multiplex system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1997/004160 WO1999026138A1 (en) 1997-11-14 1997-11-14 Method of changing over a multiplex system

Publications (1)

Publication Number Publication Date
WO1999026138A1 true WO1999026138A1 (en) 1999-05-27

Family

ID=14181475

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1997/004160 WO1999026138A1 (en) 1997-11-14 1997-11-14 Method of changing over a multiplex system

Country Status (2)

Country Link
JP (1) JP3806600B2 (en)
WO (1) WO1999026138A1 (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101033A (en) * 1999-09-27 2001-04-13 Hitachi Ltd Fault monitoring method for operating system and application program
JP2004246621A (en) * 2003-02-13 2004-09-02 Fujitsu Ltd Information collecting program, information collecting device, and information collecting method
JP2006107053A (en) * 2004-10-04 2006-04-20 Fujitsu Ltd Disk array apparatus
JP2006268596A (en) * 2005-03-25 2006-10-05 Fujitsu Ltd Redundancy system of service system
JP2007058708A (en) * 2005-08-26 2007-03-08 Hitachi Ltd Multiplex system
JP2007334663A (en) * 2006-06-15 2007-12-27 Hitachi Ltd Duplex system
JP2008234196A (en) * 2007-03-19 2008-10-02 Toshiba Corp Multiplexing system and redundant system
JP2008310411A (en) * 2007-06-12 2008-12-25 Nec Corp Duplex device and system switching method in failure
JP2010055509A (en) * 2008-08-29 2010-03-11 Oki Electric Ind Co Ltd System, method, and program for fault recovery, and cluster system
US8549221B2 (en) 2004-11-29 2013-10-01 Fujitsu Limited RAID management apparatus, RAID management method, and computer product
JP5342699B2 (en) * 2010-11-08 2013-11-13 三菱電機株式会社 Virtual computer control device, virtual computer control system, virtual computer control method for virtual computer control device, and virtual computer control program
JP2013239110A (en) * 2012-05-17 2013-11-28 Nec Corp Controller, control system, control method, and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62190543A (en) * 1986-02-18 1987-08-20 Fujitsu Ltd Control system for quick restoration from trouble of communication system
JPS6476230A (en) * 1987-09-18 1989-03-22 Nec Corp Fault information dumping system in duplexed constitution multi-processor
JPH0335339A (en) * 1989-06-30 1991-02-15 Toshiba Corp Settlement processing system for occurrence of os fault
JPH03184128A (en) * 1989-12-13 1991-08-12 Yokogawa Electric Corp Duplex computer system
JPH06348528A (en) * 1993-06-11 1994-12-22 Hitachi Ltd Backup switching control method
JPH0736721A (en) * 1993-07-16 1995-02-07 Pfu Ltd Control system for multiplex computer system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62190543A (en) * 1986-02-18 1987-08-20 Fujitsu Ltd Control system for quick restoration from trouble of communication system
JPS6476230A (en) * 1987-09-18 1989-03-22 Nec Corp Fault information dumping system in duplexed constitution multi-processor
JPH0335339A (en) * 1989-06-30 1991-02-15 Toshiba Corp Settlement processing system for occurrence of os fault
JPH03184128A (en) * 1989-12-13 1991-08-12 Yokogawa Electric Corp Duplex computer system
JPH06348528A (en) * 1993-06-11 1994-12-22 Hitachi Ltd Backup switching control method
JPH0736721A (en) * 1993-07-16 1995-02-07 Pfu Ltd Control system for multiplex computer system

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101033A (en) * 1999-09-27 2001-04-13 Hitachi Ltd Fault monitoring method for operating system and application program
JP2004246621A (en) * 2003-02-13 2004-09-02 Fujitsu Ltd Information collecting program, information collecting device, and information collecting method
JP2006107053A (en) * 2004-10-04 2006-04-20 Fujitsu Ltd Disk array apparatus
US7509527B2 (en) 2004-10-04 2009-03-24 Fujitsu Limited Collection of operation information when trouble occurs in a disk array device
US8549221B2 (en) 2004-11-29 2013-10-01 Fujitsu Limited RAID management apparatus, RAID management method, and computer product
JP4494263B2 (en) * 2005-03-25 2010-06-30 富士通株式会社 Service system redundancy method
JP2006268596A (en) * 2005-03-25 2006-10-05 Fujitsu Ltd Redundancy system of service system
JP2007058708A (en) * 2005-08-26 2007-03-08 Hitachi Ltd Multiplex system
JP2007334663A (en) * 2006-06-15 2007-12-27 Hitachi Ltd Duplex system
JP4630234B2 (en) * 2006-06-15 2011-02-09 株式会社日立製作所 Dual system
JP2008234196A (en) * 2007-03-19 2008-10-02 Toshiba Corp Multiplexing system and redundant system
JP2008310411A (en) * 2007-06-12 2008-12-25 Nec Corp Duplex device and system switching method in failure
JP2010055509A (en) * 2008-08-29 2010-03-11 Oki Electric Ind Co Ltd System, method, and program for fault recovery, and cluster system
JP5342699B2 (en) * 2010-11-08 2013-11-13 三菱電機株式会社 Virtual computer control device, virtual computer control system, virtual computer control method for virtual computer control device, and virtual computer control program
JP2013239110A (en) * 2012-05-17 2013-11-28 Nec Corp Controller, control system, control method, and program

Also Published As

Publication number Publication date
JP3806600B2 (en) 2006-08-09

Similar Documents

Publication Publication Date Title
US6148415A (en) Backup switching control system and method
JP2552651B2 (en) Reconfigurable dual processor system
US5058056A (en) Workstation takeover control
JP3537281B2 (en) Shared disk type multiplex system
WO1999026138A1 (en) Method of changing over a multiplex system
JP2009211517A (en) Virtual computer redundancy system
JPH03164837A (en) Spare switching system for communication control processor
JPH0934809A (en) Highly reliable computer system
JP4487260B2 (en) Multiplex system
JP5287974B2 (en) Arithmetic processing system, resynchronization method, and farm program
JP2006285384A (en) Processor trouble processing method, management processor, and processor trouble processing method
JP2006189963A (en) Storage access control method, cluster system, path connection switch, and storage access control program
JP3420919B2 (en) Information processing device
KR100221525B1 (en) Ipc controller error watching method of a switching system
JP2003330905A (en) Computer system
JPH06325008A (en) Computer system provided with reset function
JP2000020336A (en) Duplex communication system
JP2693627B2 (en) Redundant system of programmable controller
JP2004013723A (en) Device and method for fault recovery of information processing system adopted cluster configuration using shared memory
JP2998804B2 (en) Multi-microprocessor system
JP2002373084A (en) Method for both exchanging states and detecting failure of duplex system
JPH04360242A (en) Device and method for switching systems in duplexed system
JPH10222388A (en) Hot standby method for parallel computer
JP3783560B2 (en) Information processing system
JPH05224964A (en) Bus abnormality information system

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: KR

122 Ep: pct application non-entry in european phase