JPH04340155A - Fault recovery device for shared link structure in computer system - Google Patents

Fault recovery device for shared link structure in computer system

Info

Publication number
JPH04340155A
JPH04340155A JP3140880A JP14088091A JPH04340155A JP H04340155 A JPH04340155 A JP H04340155A JP 3140880 A JP3140880 A JP 3140880A JP 14088091 A JP14088091 A JP 14088091A JP H04340155 A JPH04340155 A JP H04340155A
Authority
JP
Japan
Prior art keywords
link structure
link
elements
processor
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3140880A
Other languages
Japanese (ja)
Inventor
Shigeru Shiotani
塩谷 滋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Facom Corp
Original Assignee
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Facom Corp filed Critical Fuji Facom Corp
Priority to JP3140880A priority Critical patent/JPH04340155A/en
Publication of JPH04340155A publication Critical patent/JPH04340155A/en
Pending legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

PURPOSE:To restrict influence to be exerted upon the whole system to its minimum by removing a fault generated when a processor runs down in a multiprocessor system having a shared link in a shared memory. CONSTITUTION:A connection changing procedure for forward links 20 to 23 and back-ward links 30 to 33 is previously regulated as moving operation for acquiring and returning elements 11 to 13 constituting the link structure in the shared memory. The operation of the processors is monitored during the operation of the system, and at the time of detecting processor down, the stored connection changing procedure is compared with the status of the link structure at that time, a section in which moving operation is executed by the down processor is specified and link connection among the elements in the section of the moving operation is changed to repair the line structure.

Description

【発明の詳細な説明】[Detailed description of the invention]

【0001】0001

【産業上の利用分野】本発明は、複数のプロセッサを有
しプロセッサが共有するメモリを共有リンク構造とした
計算機システムにおける共有リンク構造の障害回復装置
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a failure recovery device for a shared link structure in a computer system having a plurality of processors and a memory shared by the processors having a shared link structure.

【0002】0002

【従来の技術】一般に計算機システム、特にオペレーテ
ィングシステムにおけるデータ処理等では、メモリを小
規模な要素に分割し、要素内に順次、次の要素へのポイ
ンタを入れることによりリンク構造とし、順序性のある
データの管理をおこなうことが多い。また、各要素を任
意のリンク構造の途中から高速に削除するために、要素
内に次の要素へのポインタ(前方リンク)に加えて直前
の要素へのポインタ(後方リンク)を入れて双方向リン
ク構造とすることも多い。この双方向リンクの構造を図
6に示す。
[Prior Art] Generally, in data processing in computer systems, especially operating systems, memory is divided into small elements, and a link structure is created by sequentially inserting a pointer to the next element in each element, and ordering is achieved. Often involves managing certain data. In addition, in order to quickly delete each element from the middle of an arbitrary link structure, in addition to the pointer to the next element (forward link), the pointer to the immediately previous element (backward link) is placed inside the element, so that it can be used in both directions. It often has a link structure. The structure of this bidirectional link is shown in FIG.

【0003】図6では、要素11〜13が前方リンク2
0〜23および後方リンク30〜33を介してリンク構
造の起点となるターミナル10に順次接続されている。 なお、ターミナル10および要素11〜13を総称して
ノード10〜13と呼ぶこともある。要素11がリンク
構造の先頭の要素であり、要素13がリンク構造の末尾
の要素となる。前方リンク21,22は先頭の要素11
から順に次の要素を指し、後方リンク33,32は末尾
の要素13から順に直前の要素を指しているが、最後の
前方リンク23および最後の後方リンク31はターミナ
ル10を指す循環構造、いわゆる双方向循環リンクとな
っている。この双方向循環リンクの構造では、リンク操
作がなされていない安定した状態において、以下のよう
な特徴を有する。
In FIG. 6, elements 11 to 13 are the front link 2.
0 to 23 and rear links 30 to 33, they are sequentially connected to the terminal 10, which is the starting point of the link structure. Note that the terminal 10 and the elements 11 to 13 may be collectively referred to as nodes 10 to 13. Element 11 is the first element of the link structure, and element 13 is the last element of the link structure. Forward links 21 and 22 are the first element 11
The rear links 33 and 32 point to the previous element in order from the last element 13, but the last front link 23 and the last rear link 31 have a circular structure pointing to the terminal 10, so-called double-sided links. It is a circular link. This bidirectional circulation link structure has the following characteristics in a stable state where no link operation is performed.

【0004】リンクの特徴1:特定のノードの前方リン
クの指すノードの後方リンクは特定のノード自身を指す
。 リンクの特徴2:特定のノードの後方リンクの指すノー
ドの前方リンクは特定のノード自身を指す。 ところで、従来、これらのマルチプロセッサシステムに
おいて、共有メモリ上に上記の双方向リンク構造を用い
た制御構造を考えた場合、通常、各プロセッサのリンク
操作中は相互に何らかの排他制御をおこないながらリン
ク操作に競合が発生しないようにしている。
Features of links 1: The forward link of a specific node points to the backward link of a node that points to the specific node itself. Link characteristic 2: The forward link of the node pointed to by the backward link of a specific node points to the specific node itself. By the way, conventionally, in these multiprocessor systems, when considering a control structure using the above-mentioned bidirectional link structure on the shared memory, normally, during the link operation of each processor, the link operation is performed while performing some kind of mutual exclusive control. We are trying to prevent conflicts from occurring.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、従来の
マルチプロセッサシステムにおいては、何れかのプロセ
ッサがリンク操作中の過渡的状態でダウンした場合、そ
の排他制御により他のプロセッサは二度とそのリンクを
使用できない状態となる。プロセッサダウンの相互監視
機構等により、ダウンしたプロセッサのおこなった排他
制御を解除したとしても、リンク構造自体が過渡状態の
ため、そのままでは他のプロセッサが通常の処理をおこ
なうと予期せぬ結果を生じることになる。
[Problem to be Solved by the Invention] However, in conventional multiprocessor systems, if any processor goes down in a transient state during a link operation, other processors cannot use that link again due to exclusive control. state. Even if the mutual monitoring mechanism for processors down is used to release the exclusive control performed by the downed processor, the link structure itself is in a transient state, so if other processors continue to perform normal processing, unexpected results will occur. It turns out.

【0006】また、プロセッサのダウンに対して排他状
態の解除機構が設けられている場合であっても、通常状
態ではダウンした影響によりシステムの処理負荷が増大
してしまう。このような通常状態での負荷増大を防ぐた
め、従来のシステムでは特別な対策が講じられることが
なく、そのため次のような問題がある。
Furthermore, even if a mechanism is provided to release the exclusive state when a processor goes down, the processing load on the system increases under normal conditions due to the effects of the processor going down. In order to prevent such an increase in load under normal conditions, conventional systems do not take any special measures, resulting in the following problems.

【0007】(1)リンク構造操作中のプロセッサがダ
ウンするとその及ぼす影響が大きく、ダウンしたプロセ
ッサが操作していたリンク構造により制御されていた対
象については、他のプロセッサからの健全な制御が不能
となる。 (2)システムが稼働状態のままで、ダウンしたプロセ
ッサのみを再立上げして稼働できるシステムとした場合
でも、再立上げ後にダウン時の障害が継続するため再立
上げの効果が減少する。
(1) If a processor that is operating a link structure goes down, the impact is significant, and the target that was controlled by the link structure that was being operated by the processor that went down cannot be properly controlled by other processors. becomes. (2) Even if the system is made operational by restarting only the processor that has gone down while the system remains in an operating state, the effectiveness of the restart will be reduced because the failure caused by the downtime will continue after the system is restarted.

【0008】本発明は上記問題点を解決するためになさ
れたもので、その目的とするところは、リンク構造操作
中のプロセッサがダウンした場合でも、他のプロセッサ
によりリンク構造の修復をおこなうようにして、プロセ
ッサダウンが及ぼす影響を最低限にとどめるとともに信
頼性を高めることが可能な計算機システムにおける共有
リンク構造の障害回復装置を提供することにある。
The present invention has been made to solve the above problems, and its purpose is to enable other processors to repair the link structure even if the processor operating the link structure goes down. Therefore, it is an object of the present invention to provide a failure recovery device for a shared link structure in a computer system, which can minimize the influence of processor failure and improve reliability.

【0009】[0009]

【課題を解決するための手段】上記目的を達成するため
に、第1の発明は、共有メモリ上にリンク構造を構成す
る要素の獲得および返却する移動操作における前方リン
クおよび後方リンクの接続変更手順を規定し記憶してお
く手段と、共有リンク構造を有する共有メモリをアクセ
スする複数のプロセッサの動作を監視し、プロセッサの
ダウンを検出する手段と、プロセッサのダウンが検出さ
れると、記憶されている接続変更手順とその時点のリン
ク構造の状態とを比較して、移動操作中の区間を特定す
る手段と、特定された移動操作中の区間内における要素
間のリンク接続を変更してリンク構造を修復する手段と
を備えたことを特徴とする。
[Means for Solving the Problems] In order to achieve the above object, a first invention provides a procedure for changing connections of forward links and backward links in a movement operation for acquiring and returning elements constituting a link structure on a shared memory. means for defining and storing a shared memory having a shared link structure; means for monitoring operations of a plurality of processors accessing a shared memory having a shared link structure; and means for detecting down of a processor; A method for identifying a section in which a movement operation is being performed by comparing the connection change procedure currently being performed with the state of the link structure at that time; It is characterized by comprising a means for repairing.

【0010】第2の発明は、共有メモリ上にリンク構造
を構成する要素の獲得および返却する移動操作における
前方リンクおよび後方リンクの接続変更手順を、移動対
象の全要素を常時何れかの要素とリンク接続した状態で
接続変更する操作手順として規定し記憶しておく手段と
、共有リンク構造を有する共有メモリをアクセスする複
数のプロセッサの動作を監視し、プロセッサのダウンを
検出する手段と、プロセッサのダウンが検出されると、
記憶されている接続変更手順とその時点のリンク構造の
状態とを比較して、移動操作中の区間を特定する手段と
、特定された移動操作中の区間内における要素間のリン
ク接続を変更してリンク構造を修復するとともに、接続
変更中であった要素をその性格に応じ、何れかのリンク
構造に挿入する手段とを備えたことを特徴とする。
[0010] The second invention is such that the procedure for changing the connections of forward links and backward links in the movement operation of acquiring and returning elements constituting a link structure on a shared memory is such that all elements to be moved are always connected to some element. means for defining and storing operation procedures for changing connections in a linked state; means for monitoring operations of a plurality of processors accessing a shared memory having a shared link structure; and detecting failure of a processor; When down is detected,
A means for identifying a section during a movement operation by comparing a stored connection change procedure with the state of the link structure at that time, and changing link connections between elements within the specified section during the movement operation. The present invention is characterized by comprising a means for repairing the link structure and inserting the element whose connection was being changed into any link structure depending on its characteristics.

【0011】[0011]

【作用】第1の発明においては、共有メモリ上にリンク
構造を構成する要素を獲得および返却する移動操作とし
て、予め、前方リンクおよび後方リンクの接続変更手順
が規定されて記憶される。システムの動作中は、共有リ
ンク構造を有する共有メモリをアクセスする複数のプロ
セッサの動作が監視され、ダウンしたプロセッサが検出
される。プロセッサのダウンが検出されると、記憶され
ている接続変更手順とその時点のリンク構造の状態とが
比較されて、ダウンしたプロセッサにより移動操作され
ていた区間が特定され、その移動操作中の区間内におけ
る要素間のリンク接続が変更されてリンク構造が修復さ
れる。
[Operation] In the first invention, a procedure for changing connections between forward links and backward links is defined and stored in advance as a movement operation for acquiring and returning elements constituting a link structure on a shared memory. During operation of the system, the operation of multiple processors accessing a shared memory having a shared link structure is monitored to detect a down processor. When a processor down is detected, the stored connection change procedure is compared with the state of the link structure at that time to identify the section that was being moved by the down processor, and the section that was being moved is The link connections between elements within are changed to repair the link structure.

【0012】第2の発明においては、共有メモリ上にリ
ンク構造を構成する要素の獲得および返却する移動操作
における前方リンクおよび後方リンクの接続変更手順が
、移動対象の全要素を常時何れかの要素とリンク接続し
た状態で接続の変更をする操作手順として規定され記憶
される。システムの動作中は、共有リンク構造を有する
共有メモリをアクセスする複数のプロセッサの動作が監
視され、ダウンしたプロセッサが検出される。プロセッ
サのダウンが検出されると、記憶されている接続変更手
順とその時点のリンク構造の状態とが比較されて、ダウ
ンしたプロセッサにより移動操作されていた区間が特定
され、その移動操作中の区間内における要素間のリンク
接続が変更されてリンク構造が修復されるとともに、接
続変更中であった要素がその性格に応じ、何れかのリン
ク構造に挿入される。
[0012] In the second invention, the procedure for changing the connection of forward links and backward links in the movement operation of acquiring and returning elements constituting a link structure on the shared memory always connects all the elements to be moved to one of the elements. It is defined and stored as an operation procedure for changing the connection in a state where the link connection is made with. During operation of the system, the operation of multiple processors accessing a shared memory having a shared link structure is monitored to detect a down processor. When a processor down is detected, the stored connection change procedure is compared with the state of the link structure at that time to identify the section that was being moved by the down processor, and the section that was being moved is The link structure is repaired by changing the link connections between the elements within the link structure, and the element whose connection was being changed is inserted into one of the link structures depending on its characteristics.

【0013】[0013]

【実施例】以下、図に沿って本発明の実施例を説明する
。図1は第1の発明であるところの第1の実施例におけ
るリンク構造の操作手順を示す図である。図において、
状態1から状態5までの操作がリンク構造から要素11
,12を削除する手順を示す。状態1はリンク構造が安
定しており、状態2〜4では順次リンクの接続変更の操
作がおこなわれるため過渡状態である。操作が終了した
状態5でリンク構造は再び安定する。具体的な操作手順
は以下のように規定する。
Embodiments Hereinafter, embodiments of the present invention will be explained with reference to the drawings. FIG. 1 is a diagram showing the operation procedure of a link structure in a first embodiment of the first invention. In the figure,
Operations from state 1 to state 5 are linked to element 11 from the link structure.
, 12 is shown below. In state 1, the link structure is stable, and in states 2 to 4, link connections are sequentially changed, so they are transient states. The link structure becomes stable again in state 5 when the operation is completed. The specific operating procedure is specified as follows.

【0014】状態1→2:削除する要素の先頭のもの(
要素11)の後方リンク31を、削除する要素の最終の
もの(要素12)へのポインタとする。 状態2→3:削除する要素の最終のもの(要素12)の
次のノード(要素13)の後方リンク33を、削除する
要素の先頭のもの(要素11)の直前のノード(ターミ
ナル10)へのポインタとする。 状態3→4:削除する要素の最終のもの(要素12)の
前方リンク22を、削除する要素の先頭のもの(要素1
1)へのポインタとする。 状態4→5:削除する要素の先頭のもの(要素11)の
直前のノード(ターミナル10)の前方リンク20を、
削除する要素の最終のもの(要素12)の次のノード(
要素13)へのポインタとする。
State 1 → 2: The first element to be deleted (
The backward link 31 of element 11) is used as a pointer to the last element to be deleted (element 12). State 2 → 3: Backward link 33 of the next node (element 13) of the last element to be deleted (element 12) to the node (terminal 10) immediately before the first element to be deleted (element 11) be a pointer to State 3 → 4: The forward link 22 of the last element to be deleted (element 12) is replaced with the forward link 22 of the last element to be deleted (element 1).
1). State 4 → 5: The forward link 20 of the node (terminal 10) immediately before the first element to be deleted (element 11) is
The next node (
Pointer to element 13).

【0015】また、リンク構造へ要素を挿入する場合は
、これらの削除手順とは逆に、状態5から順に状態1へ
至る手順の操作をおこなう。このようにして操作手順を
規定しておくことにより、リンク構造操作中のプロセッ
サがダウンした場合、過渡状態の状況では状態2〜4の
何れかに限定され、次の特性を有することになる。なお
、特性の中で言う移動とは、削除および挿入を総称した
ものである。
Furthermore, when inserting an element into the link structure, the procedure from state 5 to state 1 is performed in reverse order to these deletion procedures. By defining the operation procedure in this way, if the processor operating the link structure goes down, it will be limited to any of states 2 to 4 in a transient state, and will have the following characteristics. Note that "movement" in the characteristics is a general term for deletion and insertion.

【0016】特性1:移動中の先頭の要素はリンク構造
内の移動中の区間の直前のノードの前方リンクより指定
されている。 特性2:移動中の先頭の要素の後方リンクは移動中の最
後の要素を指している。 特性3:リンク構造内の移動中の区間の直後のノードの
後方リンクは移動中の最後の要素もしくはターミナルを
指す。
Characteristic 1: The leading element being moved is specified by the forward link of the node immediately before the section being moved in the link structure. Characteristic 2: The backward link of the first element being moved points to the last element being moved. Characteristic 3: The backward link of the node immediately after the moving section in the link structure points to the last moving element or terminal.

【0017】これらの特性から、次の総合特性が得られ
る。 総合特性1:ターミナルを起点として前方リンクの順に
「リンクの特徴1」を調べ、違反しているノードがあれ
ばそのノードが移動中の先頭の要素の直前のノードであ
り、すなわち、そのノードの前方リンクは移動中の先頭
の要素を指している。また、移動中の先頭の要素の後方
リンクは移動中の最後の要素を指している。さらに、タ
ーミナルを起点として後方リンクの順に各要素を調べ、
後方リンクの内容がターミナルもしくは移動中の最後の
要素を指しているノードは、移動中の最後の要素の直後
のノードである。
From these characteristics, the following overall characteristics can be obtained. Comprehensive characteristic 1: Check "link characteristic 1" in the order of forward links starting from the terminal, and if there is a node that violates the rule, that node is the node immediately before the moving head element, that is, the node is A forward link points to the first element being moved. Also, the backward link of the first element being moved points to the last element being moved. Furthermore, examine each element in the order of backward links starting from the terminal,
A node whose backward link content points to a terminal or the last element being moved is the node immediately following the last element being moved.

【0018】実施例はこの総合特性1を用いてリンク構
造の修復をおこない、その処理内容を図2のフローチャ
ートに示す。なお、図中の記号はそれぞれ次のように定
義する。 p〜s:各ノードのアドレス p→flink:pの示すノードの前方リンクの内容p
→blink:pの示すノードの後方リンクの内容A=
B:AへのBの代入 A==B:AとBの一致判定(一致でYES、不一致で
NO)
In this embodiment, the link structure is repaired using this comprehensive characteristic 1, and the details of the process are shown in the flowchart of FIG. The symbols in the figure are defined as follows. p~s: Address of each node p→flink: Contents p of the forward link of the node indicated by p
→blink: Contents of the backward link of the node indicated by p A=
B: Assignment of B to A A==B: Matching judgment of A and B (YES when matching, NO when mismatching)

【0019】図では、プロセッサのダウンが検出された
ことにより処理が開始され、先頭のターミナルからその
前方リンクの順に各ノードについて「リンクの特徴1」
を調べ違反したノードの有無を調べる(ステップ301
〜304)。違反が無ければ(ステップ302YES)
、リンク構造が正常、すなわち図1の状態1または状態
5であることになり、処理を終了する(ステップ305
)。違反が有れば(ステップ302NO)、そのノード
の次のノード以降が、分離または挿入しようとしていた
過渡状態であることになる。すなわち、リンク構造が図
1の状態2〜4の何れかに該当していることになる。
In the figure, processing is started when a processor down is detected, and "Link Feature 1" is applied to each node in order from the first terminal to its forward link.
is checked to see if there is a node that violates the rule (step 301).
~304). If there is no violation (step 302 YES)
, the link structure is normal, that is, state 1 or state 5 in FIG. 1, and the process ends (step 305
). If there is a violation (step 302 NO), it means that the nodes following that node are in the transient state to be separated or inserted. That is, the link structure corresponds to any of states 2 to 4 in FIG.

【0020】次に、ノードp,q,sのアドレスを新た
に設定して(ステップ306〜308)、分離または挿
入しようとしていた最後の要素の直後のノードを後方リ
ンクの順に調べ(ステップ309〜311)、分離また
は挿入しようとしていた要素の前後のノードを特定する
。次に、特定された要素のアドレスに基づき、図1の状
態2〜4の何れかであるリンク構造を状態5に修復して
処理を完了する(ステップ312〜315)。なお、図
中のノードp〜sは、リンクの修復が終了した時点で次
のようになる。
Next, the addresses of nodes p, q, and s are newly set (steps 306 to 308), and the nodes immediately after the last element to be separated or inserted are examined in the order of backward links (steps 309 to 308). 311), identify the nodes before and after the element to be separated or inserted. Next, based on the address of the identified element, the link structure in any of states 2 to 4 in FIG. 1 is restored to state 5, and the process is completed (steps 312 to 315). Note that the nodes p to s in the figure become as follows when link repair is completed.

【0021】p…分離した移動中の区間の先頭のノード
のアドレス q…分離した移動中の区間の末尾のノードのアドレスr
…移動中の区間を分離する前に、pで示されるノードの
直前に位置していたノードのアドレスs…移動中の区間
を分離する前に、qで示されるノードの次に位置してい
たノードのアドレス
p...Address of the first node of the separated moving section q...Address r of the last node of the separated moving section
...The address s of the node that was located immediately before the node indicated by p before separating the section being moved...The address s of the node located immediately before the node indicated by q before separating the section being moved node address

【0022】これらの処理により分離された要素は、そ
のリンク構造の性格により、再度正式に適当なリンク構
造に挿入することができる。例えば、修復動作をおこな
ったリンク構造が空きのメモリブロックを管理するもの
であったような場合は、リンク構造から移動しようとし
ていた要素は、ダウンしたプロセッサがすでに不要とな
ったメモリブロックを空きとして返却(リンク構造への
挿入)しようとしていたものであるか、あるいはこれか
ら使おうとして獲得(リンク構造から削除)しようとし
ていたものの何れかであるとみなすことができる。ここ
で分離された要素を元のリンク構造に戻した方が好まし
いのであれば、再度そのリンク構造へ挿入する(リンク
の再構成)。
[0022] The elements separated by these processes can be formally inserted again into an appropriate link structure depending on the nature of the link structure. For example, if the link structure that performed the repair operation was one that manages free memory blocks, the element that was being moved from the link structure will be moved from the memory block that is no longer needed by the downed processor to the free memory block. It can be assumed that it is either something that was intended to be returned (inserted into the link structure) or something that was intended to be acquired (removed from the link structure) for future use. If it is preferable to return the separated elements to the original link structure, they are inserted into the link structure again (link reconfiguration).

【0023】このようにして第1の実施例では、図1に
示されるノード10〜13のリンク構造の操作手順を規
定しておくことにより、リンク構造の操作途中でプロセ
ッサがダウンした場合でも、図2の処理により何れの状
態であるかが特定され、さらに移動中の要素11,12
が分離されることにより、分離された要素を健全なリン
ク構造に再構成することが可能となる。このようにして
、プロセッサダウンによるシステム全体への影響を少な
くすることができる。なお、図1に示す実施例の操作手
順の規定は一例であって、操作の順序を実施例と異なる
ように規定することも可能である。また、この操作手順
は、2個の要素を分離する場合を示したが2個以外の要
素についても同様に適用できる。
In this way, in the first embodiment, by defining the operation procedure for the link structure of the nodes 10 to 13 shown in FIG. 1, even if the processor goes down during the operation of the link structure, The process in FIG. 2 specifies which state the moving elements 11 and 12 are in.
By separating the elements, it becomes possible to reconfigure the separated elements into a healthy link structure. In this way, the impact on the entire system due to processor failure can be reduced. Note that the operational procedure defined in the embodiment shown in FIG. 1 is just an example, and the order of operations can be defined differently from the embodiment. Furthermore, although this operating procedure has been shown for the case of separating two elements, it can be similarly applied to elements other than two.

【0024】さらに、実施例はプロセッサのダウンが検
出されると、操作中の区間を検出して状態2〜4から状
態5へと操作中の区間の要素を分離したが、システムの
条件等によっては状態2〜4から状態1へ戻した方が好
ましいこともある。その場合は図2の処理に状態1また
は状態5のいずれに復帰するかの判別する処理と状態1
へ戻す処理を付け加える。
Furthermore, in the embodiment, when a processor down is detected, the operating section is detected and the elements of the operating section are separated from states 2 to 4 to state 5. However, depending on the system conditions, etc. It may be preferable to return to state 1 from states 2 to 4. In that case, the process in Figure 2 includes a process to determine whether to return to state 1 or state 5, and state 1.
Add processing to return to.

【0025】次に、図3,4および図5により第2の発
明であるところの第2の実施例について説明する。図3
,4はリンク構造の操作手順を示す。この図示例が第1
の実施例と異なるところは、移動する要素11,12を
孤立させることなく必ず何れかのターミナルと接続する
ようにしたものである。状態1ではターミナル10と移
動先のターミナル50を有し、ターミナル10には要素
11〜13が順に前方リンクと後方リンクにより接続さ
れて双方向循環リンクを構成している。なお、ターミナ
ル50には最初は要素が接続されていない。状態1〜4
におけるノード10〜13の操作は、図1に示された第
1の実施例と同じである。
Next, a second embodiment of the second invention will be explained with reference to FIGS. 3, 4 and 5. Figure 3
, 4 shows the operation procedure of the link structure. This illustrated example is the first
The difference from the above embodiment is that the moving elements 11 and 12 are not isolated and are always connected to one of the terminals. In state 1, there is a terminal 10 and a destination terminal 50, and elements 11 to 13 are sequentially connected to the terminal 10 by a front link and a rear link to form a bidirectional circulation link. Note that no element is connected to the terminal 50 at first. Status 1-4
The operations of nodes 10-13 in are the same as in the first embodiment shown in FIG.

【0026】状態5以降では、移動する要素11,12
をターミナル10から分離するとともにターミナル50
と接続するようにし、最終の状態10では、ターミナル
50と要素11,12が順に前方リンクと後方リンクに
より接続されて双方向循環リンクを構成する。また、要
素11,12をターミナル50から分離して元のターミ
ナル10へ挿入する場合は、これらの手順とは逆に状態
10から順に状態1へ至る手順の操作をおこなう。
After state 5, moving elements 11 and 12
is separated from terminal 10 and terminal 50
In the final state 10, the terminal 50 and the elements 11 and 12 are sequentially connected by the front link and the rear link to form a bidirectional circulation link. When the elements 11 and 12 are separated from the terminal 50 and inserted into the original terminal 10, the procedure from state 10 to state 1 is performed in reverse order.

【0027】ここで、ターミナル10,50を起点とし
た特性は、第1の実施例における「総合特性1」を継承
し、さらにリンク構造の操作手順を図3,4に示したリ
ンク構造間の要素移動方法として統一して規定しておく
。これにより次の総合特性が得られる。 総合特性2:移動中のものも含めて全ての要素は、第1
の実施例と同様な手順で修復した後、その要素が接続さ
れる可能性のある全てのターミナルの何れかのリンク構
造に正常に含まれるか、または、何れのターミナルにも
接続されない孤立したリンク構造に含まれる。
Here, the characteristics starting from the terminals 10 and 50 inherit the "general characteristic 1" in the first embodiment, and furthermore, the operation procedure of the link structure is changed between the link structures shown in FIGS. 3 and 4. A unified method for moving elements is defined. This gives the following overall characteristics. Comprehensive property 2: All elements, including those in motion,
After repairing the same procedure as in the example, the element is successfully included in any link structure of all terminals to which it may be connected, or is an orphan link that is not connected to any terminal. included in the structure.

【0028】この特性によると、空きの要素を接続した
リンク構造から必要個数の要素を獲得して、その中に必
要な情報を書き込み、処理要求の待ち行列を構成するリ
ンク構造に挿入して処理の依頼をするようなケースでは
、必要な情報を書き込む間に接続しておく一時的なター
ミナルを用意しておき、ダウンしたプロセッサと一時的
なターミナルに接続されている要素の対応がつけられる
ように、例えば、プロセッサごとに一時的なターミナル
を用意するようにしておけば、プロセッサがダウンした
場合でも、図2に示した処理と同様な処理をすることで
処理途中の要素をもれなく適当なリンク構造へ組み込む
ことができる。
According to this characteristic, the necessary number of elements are acquired from a link structure connecting empty elements, necessary information is written therein, and the process is performed by inserting the necessary information into the link structure that forms the processing request queue. In cases where you are requesting a For example, if you prepare a temporary terminal for each processor, even if a processor goes down, you can perform the same process as shown in Figure 2 to properly link all the elements that are being processed. Can be incorporated into structures.

【0029】図5は、これらの処理を具体的に示したも
のであり、ターミナル110および要素111〜114
が空きの要素を接続したリンク構造であり、ターミナル
120および要素121,122が一時的なターミナル
およびそれに接続された要素であり、ターミナル130
および要素131,132が処理要求の待ち行列である
FIG. 5 specifically shows these processes, and shows the terminal 110 and elements 111 to 114.
is a link structure connecting empty elements, terminal 120 and elements 121 and 122 are temporary terminals and elements connected to them, and terminal 130 is a link structure connecting empty elements.
and elements 131 and 132 are processing request queues.

【0030】ここで、特定のプロセッサが処理要求を発
生すると、まずターミナル110を含むリンク構造から
必要な個数の要素をターミナル120を含むリンク構造
に図3,4に示す手順で移動し、ターミナル120を含
むリンク構造内で処理要求の内容を移動した要素の中に
書き込む。その後、処理要求が書き込まれた要素を再度
、図3,4に示す手順でターミナル130を含むリンク
構造に移動する。ターミナル130のリンク構造内で処
理された要素は、空き要素として、図3,4に示す手順
でターミナル110を含むリンク構造に移動される。
Here, when a specific processor issues a processing request, the necessary number of elements are first moved from the link structure including the terminal 110 to the link structure including the terminal 120 according to the procedure shown in FIGS. Writes the contents of the processing request into the moved element within the link structure containing the . Thereafter, the element to which the processing request has been written is again moved to the link structure including the terminal 130 in the procedure shown in FIGS. 3 and 4. The processed elements in the link structure of the terminal 130 are moved as free elements to the link structure including the terminal 110 in the procedure shown in FIGS. 3 and 4.

【0031】この処理例では、リンク構造間の要素の移
動が全て図3,4に示す手順でおこなわれるため、要素
を移動している最中のプロセッサが何れの段階でダウン
しても、図2に示した処理と同様な処理をすることでリ
ンクを正常な状態に回復することができる。その回復手
順は次のようにおこなわれる。
In this processing example, all elements are moved between link structures according to the procedure shown in FIGS. 3 and 4, so even if the processor that is moving the elements goes down at any stage, the By performing processing similar to the processing shown in 2, the link can be restored to a normal state. The recovery procedure is performed as follows.

【0032】(1)最初に、空き要素を接続したターミ
ナル110に対して図2に示した処理と同様な処理をお
こない、分離された要素があればそれを空き要素として
ターミナル110のリンク構造へ挿入する。なお、ここ
で分離された要素は、空き要素としてターミナル120
のリンク構造へ移動される途中であってまだ内容が書き
込まれる前のものか、さもなければ、ターミナル130
のリンク構造においてすでに処理が終了したものである
ので、空き要素として扱われても実害はない。
(1) First, the same process as shown in FIG. 2 is performed on the terminal 110 to which empty elements are connected, and if there is a separated element, it is added to the link structure of the terminal 110 as an empty element. insert. Note that the separated element here is used as an empty element in the terminal 120.
is in the process of being moved to the link structure of Terminal 130 and has not yet been filled with content.
Since the processing has already been completed in the link structure of , there is no real harm even if it is treated as an empty element.

【0033】(2)次に、ターミナル120に対して図
2に示した処理と同様な処理により、分離された要素が
あればそれを空き要素としてターミナル110のリンク
構造に挿入する。分離された要素はすでに(1)の操作
において、ターミナル110のリンク構造からターミナ
ル120のリンク構造への移動中のものは除かれている
ので、ターミナル120のリンク構造からターミナル1
30のリンク構造への移動中のものしかなく、ダウンし
たプロセッサの要求のため処理されなくても、一般には
実害がない。なお、ターミナル120からターミナル1
30への移動中の状態では、要求の内容はすでに書き込
まれているので、ターミナル130へ挿入してもよい。
(2) Next, a process similar to that shown in FIG. 2 is performed on the terminal 120 to insert the separated element, if any, into the link structure of the terminal 110 as an empty element. Since the separated elements have already been removed from the link structure of terminal 110 to the link structure of terminal 120 in the operation (1), they are transferred from the link structure of terminal 120 to the link structure of terminal 1.
There is generally no real harm if there are only 30 links in transit and are not processed due to requests from a down processor. In addition, from Terminal 120 to Terminal 1
30, the contents of the request have already been written and may be inserted into the terminal 130.

【0034】(3)上記の(1),(2)の操作が終了
した段階で、リンク構造間を移動中の要素は全て取り除
かれている。ターミナル120に依存しているダウンし
たプロセッサが書き込もうとしていた要素は、ターミナ
ル110からターミナル120への移動時に要素内にプ
ロセッサの識別番号を入れるか、ターミナル120をプ
ロセッサごとに用意する等の方法でターミナル110の
リンク構造に返却できる。また、ターミナル130に残
存しているダウンしたプロセッサの要求も同様な方法で
取り除くことができる。
(3) When the operations (1) and (2) above are completed, all elements moving between link structures have been removed. The element that a downed processor that depends on the terminal 120 was trying to write can be written by putting the processor identification number in the element when moving from the terminal 110 to the terminal 120, or by preparing a terminal 120 for each processor. It can be returned to the link structure of terminal 110. Additionally, requests for downed processors remaining in terminal 130 can be removed in a similar manner.

【0035】このようにして第2の実施例では、図3,
4に示されるノード10〜13,50からなるリンク構
造の操作手順を規定しておくことにより、リンク構造の
操作途中でプロセッサがダウンした場合に、第1の実施
例と同様に操作中の要素を分離するとともに、必ず何れ
かのターミナルに接続してリンク構造を回復するように
し、何れの要素も孤立させることなくリンク構造を再構
成することが可能になり、プロセッサダウンによるシス
テム全体への影響を最小限におさえることができる。
In this way, in the second embodiment, FIG.
By prescribing the operation procedure for the link structure consisting of the nodes 10 to 13 and 50 shown in FIG. 4, if the processor goes down during the operation of the link structure, the elements being operated This makes it possible to reconfigure the link structure without isolating any element, reducing the impact on the entire system due to processor failure. can be kept to a minimum.

【0036】[0036]

【発明の効果】以上述べたように第1の発明によれば、
プロセッサのダウンが検出されると、予め記憶されてい
た接続変更手順とその時点のリンク構造の状態とが比較
されて、ダウンしたプロセッサにより移動操作されてい
た区間が特定され、その移動操作中の区間内における要
素間のリンク接続が変更されてリンク構造が修復される
ことにより、ダウンプロセッサの制御対象となっていた
リンク構造に起因する障害が除去され、システムの健全
な動作が回復される。
[Effect of the invention] As described above, according to the first invention,
When a processor is detected to be down, the pre-stored connection change procedure is compared with the state of the link structure at that time, the section that was being moved by the downed processor is identified, and the By changing the link connections between elements within the section and repairing the link structure, the fault caused by the link structure that was under the control of the down processor is removed, and healthy operation of the system is restored.

【0037】第2の発明によれば、プロセッサのダウン
が検出されると、予め記憶されていた接続変更手順とそ
の時点のリンク構造の状態とが比較されて、ダウンした
プロセッサにより移動操作されていた区間が特定され、
その移動操作中の区間内における要素間のリンク接続が
変更されてリンク構造が修復されるとともに接続変更中
であった要素がその性格に応じて何れかのリンク構造に
挿入されることにより、システムの健全な動作が回復さ
れるとともにダウンプロセッサの制御対象となっていた
リンク構造の要素がいずれかのリンク構造にもれなく接
続されて復帰し、ダウンプロセッサのシステムへの影響
を最小限におさえることができる。
According to the second invention, when a processor down is detected, a pre-stored connection change procedure is compared with the state of the link structure at that time, and it is determined whether a move operation has been performed by the down processor. The section where the
The link connections between elements within the section being moved are changed, the link structure is repaired, and the element whose connection was being changed is inserted into one of the link structures depending on its characteristics, thereby improving the system. The healthy operation of the down processor is restored, and the elements of the link structure that were under the control of the down processor are fully connected to one of the link structures and restored, minimizing the impact of the down processor on the system. can.

【図面の簡単な説明】[Brief explanation of drawings]

【図1】第1の実施例における操作手順の説明図である
FIG. 1 is an explanatory diagram of an operating procedure in a first embodiment.

【図2】第1の実施例の処理を示すフローチャートであ
る。
FIG. 2 is a flowchart showing processing of the first embodiment.

【図3】第2の実施例における操作手順の説明図である
FIG. 3 is an explanatory diagram of the operating procedure in the second embodiment.

【図4】第2の実施例における操作手順の説明図である
FIG. 4 is an explanatory diagram of the operating procedure in the second embodiment.

【図5】第2の実施例を適用したシステムにおけるリン
ク構造の一例を示す。
FIG. 5 shows an example of a link structure in a system to which the second embodiment is applied.

【図6】双方向循環リンクの構造を概念的に示した説明
図である。
FIG. 6 is an explanatory diagram conceptually showing the structure of a bidirectional circulation link.

【符号の説明】[Explanation of symbols]

10  ターミナル(ノード) 11〜13  要素(ノード) 20〜23  前方リンク 30〜33  後方リンク 50  ターミナル(ノード) 110  ターミナル(ノード) 111〜114  要素(ノード) 120  ターミナル(ノード) 121,122  要素(ノード) 130  ターミナル(ノード) 131,132  要素(ノード) 10 Terminal (node) 11-13 Elements (nodes) 20-23 Forward link 30-33 Back link 50 Terminal (node) 110 Terminal (node) 111-114 Elements (nodes) 120 Terminal (node) 121, 122 Element (node) 130 Terminal (node) 131, 132 Element (node)

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】  共有メモリ上にリンク構造を構成する
要素の獲得および返却する移動操作における前方リンク
および後方リンクの接続変更手順を規定し記憶しておく
手段と、共有リンク構造を有する共有メモリをアクセス
する複数のプロセッサの動作を監視し、プロセッサのダ
ウンを検出する手段と、プロセッサのダウンが検出され
ると、記憶されている接続変更手順とその時点のリンク
構造の状態とを比較して、移動操作中の区間を特定する
手段と、特定された移動操作中の区間内における要素間
のリンク接続を変更してリンク構造を修復する手段と、
を備えたことを特徴とする計算機システムにおける共有
リンク構造の障害回復装置。
1. A means for defining and storing a connection change procedure for forward links and backward links in a movement operation for acquiring and returning elements constituting a link structure on a shared memory, and a shared memory having a shared link structure. means for monitoring operations of a plurality of accessing processors and detecting down of a processor, and when down of a processor is detected, comparing a stored connection change procedure with a state of a link structure at that time; means for identifying a section during a movement operation; and means for repairing a link structure by changing link connections between elements within the specified section during a movement operation;
A failure recovery device for a shared link structure in a computer system, characterized by comprising:
【請求項2】  共有メモリ上にリンク構造を構成する
要素の獲得および返却する移動操作における前方リンク
および後方リンクの接続変更手順を、移動対象の全要素
を常時何れかの要素とリンク接続した状態で接続変更す
る操作手順として規定し記憶しておく手段と、共有リン
ク構造を有する共有メモリをアクセスする複数のプロセ
ッサの動作を監視し、プロセッサのダウンを検出する手
段と、プロセッサのダウンが検出されると、記憶されて
いる接続変更手順とその時点のリンク構造の状態とを比
較して、移動操作中の区間を特定する手段と、特定され
た移動操作中の区間内における要素間のリンク接続を変
更してリンク構造を修復するとともに、接続変更中であ
った要素をその性格に応じ、何れかのリンク構造に挿入
する手段と、を備えたことを特徴とする計算機システム
における共有リンク構造の障害回復装置。
[Claim 2] The procedure for changing the connection of forward links and backward links in a movement operation that acquires and returns elements constituting a link structure on a shared memory is carried out in a state in which all elements to be moved are always linked and connected to any element. means for defining and storing operation procedures for changing connections in a shared link structure; means for monitoring operations of multiple processors accessing a shared memory having a shared link structure; means for identifying the section during the movement operation by comparing the stored connection change procedure with the state of the link structure at that time, and link connections between elements within the specified section during the movement operation. of a shared link structure in a computer system, comprising means for repairing a link structure by changing the link structure, and inserting an element whose connection was being changed into any link structure according to its characteristics. Disaster recovery equipment.
JP3140880A 1991-05-16 1991-05-16 Fault recovery device for shared link structure in computer system Pending JPH04340155A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3140880A JPH04340155A (en) 1991-05-16 1991-05-16 Fault recovery device for shared link structure in computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3140880A JPH04340155A (en) 1991-05-16 1991-05-16 Fault recovery device for shared link structure in computer system

Publications (1)

Publication Number Publication Date
JPH04340155A true JPH04340155A (en) 1992-11-26

Family

ID=15278916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3140880A Pending JPH04340155A (en) 1991-05-16 1991-05-16 Fault recovery device for shared link structure in computer system

Country Status (1)

Country Link
JP (1) JPH04340155A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133034A (en) * 2018-01-08 2018-06-08 新华三云计算技术有限公司 Shared storage access method and relevant apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133034A (en) * 2018-01-08 2018-06-08 新华三云计算技术有限公司 Shared storage access method and relevant apparatus
CN108133034B (en) * 2018-01-08 2021-07-06 新华三云计算技术有限公司 Shared storage access method and related device

Similar Documents

Publication Publication Date Title
US9372908B2 (en) Merging an out of synchronization indicator and a change recording indicator in response to a failure in consistency group formation
US9063894B2 (en) Cascade ordering
US7823008B2 (en) Maintaining consistency in a remote copy data storage system
CN110071821A (en) Standby node is specified
CN104281468A (en) Method and system for distributed virtual machine image management
EP1131715A1 (en) Distributed transactional processing system and method
CN110046029A (en) Data processing method and device applied to multi-level buffer in cluster
JP2017201470A (en) Setting support program, setting support method, and setting support device
CN111309524A (en) Distributed storage system fault recovery method, device, terminal and storage medium
CN112506710B (en) Distributed file system data restoration method, device, equipment and storage medium
CN114443332B (en) Storage pool detection method and device, electronic equipment and storage medium
JP3382080B2 (en) Method and system for collating instruction execution order consistency
CN108536473A (en) The method and apparatus for reading data
US20070061613A1 (en) Restart method for operating system
CN102959499B (en) Computer system, storage volume management method
CN107864209A (en) The method, apparatus and server of data write-in
US9430338B2 (en) Method and computing device for recording log entries
JPH04340155A (en) Fault recovery device for shared link structure in computer system
CN115687359A (en) Data table partitioning method and device, storage medium and computer equipment
JP2939414B2 (en) Database Equivalent Processor for Dual Computer
CN112905322B (en) Resource locking method, computing device and computer storage medium
CN113806309A (en) Metadata deleting method, system, terminal and storage medium based on distributed lock
CN114328374A (en) Snapshot method, device, related equipment and database system
JP2000293391A (en) Method and device for large-scale memory system management
JP5465401B2 (en) File management method, apparatus and program

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000530