JP5082147B2 - Multi-node system, inter-node switch, and data relay method - Google Patents
Multi-node system, inter-node switch, and data relay method Download PDFInfo
- Publication number
- JP5082147B2 JP5082147B2 JP2010003682A JP2010003682A JP5082147B2 JP 5082147 B2 JP5082147 B2 JP 5082147B2 JP 2010003682 A JP2010003682 A JP 2010003682A JP 2010003682 A JP2010003682 A JP 2010003682A JP 5082147 B2 JP5082147 B2 JP 5082147B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- block
- blocks
- unit
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 15
- 230000004044 response Effects 0.000 claims description 53
- 230000005540 biological transmission Effects 0.000 claims description 41
- 238000000354 decomposition reaction Methods 0.000 claims description 38
- 238000010586 diagram Methods 0.000 description 8
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 2
- 238000012806 monitoring device Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Small-Scale Networks (AREA)
Description
本発明はマルチノードシステム、ノード間スイッチ及びデータ中継方法に関し、特にノードに障害が発生した場合におけるマルチノードシステム、ノード間スイッチ及びデータ中継方法に関する。 The present invention relates to a multi-node system, an inter-node switch, and a data relay method, and more particularly to a multi-node system, an inter-node switch, and a data relay method when a failure occurs in a node.
プロセッサと共有メモリを備えて構成される電子計算機(ノード)を、ノード間スイッチを介して複数接続したマルチノードシステムが知られている。マルチノードシステムは、複数のノードを用いて処理の分散を図ることにより、システム全体の性能を向上させる。複数のノードを動作させるマルチノードシステムにおいては、いずれかのノードに障害が発生した場合に、障害処理動作を短時間に解決することが望まれている。 There is known a multi-node system in which a plurality of computers (nodes) configured to include a processor and a shared memory are connected via an inter-node switch. The multi-node system improves the performance of the entire system by distributing processing using a plurality of nodes. In a multi-node system that operates a plurality of nodes, it is desired to solve the failure processing operation in a short time when a failure occurs in any of the nodes.
マルチノードシステムを構成するノードに障害が発生した場合の一般的な動作について図7〜9を用いて説明する。図7を用いて、ローカルノード、リモートノード及びノード間スイッチを有するマルチノードシステムの構成例について説明する。 A general operation when a failure occurs in a node constituting the multi-node system will be described with reference to FIGS. A configuration example of a multi-node system having a local node, a remote node, and an inter-node switch will be described with reference to FIG.
ローカルノードは、命令処理情報(リクエスト情報)を発行する。また、リモートノードは、ローカルノードにおいて発行された命令処理情報を取得する。さらに、リモートノードは、取得した命令処理情報に基づいて命令処理を実行する。 The local node issues command processing information (request information). In addition, the remote node acquires command processing information issued in the local node. Furthermore, the remote node executes command processing based on the acquired command processing information.
ローカルノード100のコア110は、リクエスト情報を発行する。リクエスト情報は、RCU(ノード間制御装置)120の命令分解部121においてブロックごとに分解される。分解されたブロックは、メモリ130に出力される。命令分解部121においてリクエスト情報の分解が終了すると、ブロック分解数に関する情報が、ブロック分解数保持部123に記憶される。ブロックに分解された命令処理情報はメモリ130からデータをロードしてロードデータとなる。ロードデータは、データ転送部122からブロック単位にノード間スイッチ200へ出力される。ノード間スイッチ200は、取得したロードデータをリモートノード300へ転送する。ロードデータは、リモートノード300のメモリ320に格納される。ロードデータがメモリ320に格納された場合、RCU310は、ロードデータ格納完了報告であるブロックリプライを、ノード間スイッチ200を介してローカルノード100へ出力する。
The
ローカルノード100は、取得したブロックリプライの数をブロックリプライ数カウンタ124においてカウントし、この値とブロック分解数保持部123に保持されている値を、比較部125が比較する。ブロックリプライ数カウンタ124の値と、ブロック分解数保持部123の値とが一致した場合に、終了ステータス生成部126は、終了ステータスを発行する。さらに、終了ステータス生成部126は、終了ステータスをメモリ130へ書き込む。これにより、リクエスト情報に関する処理が終了する。
The
正常処理の場合は上述したような動きをする。また、正常処理におけるローカルノードと、ノード間スイッチと、リモートノードとの間の処理シーケンスを図8に示す。実線を用いて示される矢印は、ブロックであり、破線を用いて示される矢印は、ブロックリプライである。しかし、リモートノード300において障害が発生すると、リモートノード300からローカルノード100に対して、ブロックリプライが全て返信されない。障害発生時の処理シーケンスを図9に示す。そのため、ブロックリプライ数カウンタ124とブロック分解数保持回路123との値が一致せず、終了ステータス生成回路126は、終了ステータスを発行することができない。このような場合に備えて、ローカルノード100は、命令分解部121においてブロック分解が始まった時点からタイマを動作させる。タイマが一定時間以上経過してもリクエスト処理が終了しないと、タイムアウト検出回路16においてタイムアウトを検出し、終了ステータス生成部126は、強制的に終了ステータスを発行し、リクエスト処理を終了させる。
In the case of normal processing, it moves as described above. Further, FIG. 8 shows a processing sequence among the local node, the inter-node switch, and the remote node in normal processing. An arrow indicated by a solid line is a block, and an arrow indicated by a broken line is a block reply. However, when a failure occurs in the
このような場合、ローカルノード100は、タイムアウトを検出するまで命令処理情報を終了できない。そのため、障害処理に多大な時間を要し、コア110は、後続の命令情報を処理できなくなる。
In such a case, the
このような問題に対応するため、特許文献1には、バス障害処理システムが開示されている。特許文献1におけるバス障害処理システムは、システムバスと、入出力制御装置と、これら二つに接続されているバスコントローラとを備えている。バス障害処理システムにおいては、バスコントローラを介してシステムバスから入出力制御装置へ実行する処理の要求が出力される。この時、バスコントローラが入出力制御装置関連の障害を検出すると、バスコントローラは、システムバスに対して処理要求に応答する疑似応答データを出力し、入出力制御装置に障害が発生したことを通知する。これにより、バスシステムは、入出力制御装置に障害が発生したことを早期に検知することができる。 In order to cope with such a problem, Patent Document 1 discloses a bus failure processing system. The bus failure processing system in Patent Document 1 includes a system bus, an input / output control device, and a bus controller connected to the two. In the bus failure processing system, a request for processing to be executed from the system bus to the input / output control device is output via the bus controller. At this time, if the bus controller detects a failure related to the input / output control device, the bus controller outputs pseudo response data in response to the processing request to the system bus to notify that the failure has occurred in the input / output control device. To do. Thereby, the bus system can detect at an early stage that a failure has occurred in the input / output control device.
特許文献2には、マルチノードシステムにおいて、他のノードにおける障害が通知された場合に、自ノードにおいて当該他ノードに転送するデータを破棄することが開示されている。 Patent Document 2 discloses that in a multi-node system, when a failure in another node is notified, the data transferred to the other node is discarded in the own node.
しかし、特許文献1及び2に開示されている技術を用いた場合に、次のような問題が生じる。特許文献1に開示されている技術は、バスコントローラからシステムバスに対して疑似応答データを出力することにより、入出力装置関連の障害を通知する。そのため、システムバスに接続されているプロセッサ等は、入出力装置から正常にデータ転送が行われた際に出力される応答信号と、バスコントローラから出力される疑似応答データとを取得した場合において、取得する信号もしくはデータによって異なる処理を実行する必要がある。このように、異なる処理を動作させる回路を複数設けた場合に、回路規模が増大するという問題が生じる。特許文献2のように、障害通知がなされた場合に、データを破棄する構成においても同様の問題が生じる。 However, the following problems arise when the techniques disclosed in Patent Documents 1 and 2 are used. The technology disclosed in Patent Document 1 notifies a failure related to an input / output device by outputting pseudo response data from a bus controller to a system bus. Therefore, when the processor connected to the system bus obtains the response signal output when the data transfer is normally performed from the input / output device and the pseudo response data output from the bus controller, It is necessary to execute different processing depending on the signal or data to be acquired. Thus, when a plurality of circuits that operate different processes are provided, there arises a problem that the circuit scale increases. Similar problems occur in a configuration in which data is discarded when a failure notification is made as in Patent Document 2.
本発明は、このような問題を解決するためになされたものであり、回路規模を増大させることなく早期に障害処理を終了させることができるマルチノードシステム、ノード間スイッチ及びデータ中継方法を提供することを目的とする。 The present invention has been made to solve such a problem, and provides a multi-node system, an inter-node switch, and a data relay method capable of ending failure processing at an early stage without increasing the circuit scale. For the purpose.
本発明の第1の態様にかかるマルチノードシステムは、命令処理情報を送信する第1のノードと、当該第1のノードにより送信された命令処理情報を第2のノードへ転送するノード間スイッチと、を備え前記第1のノードは、前記命令処理情報を複数のブロックに分解する命令分解部と前記複数のブロックを前記ノード間スイッチへ送信する送信部と、前記命令分解部により分解されたブロックの数と、前記第2のノードから送信される当該複数のブロックに対する応答信号の数とに基づいて当該複数のブロックの送信処理が正常に終了したか否かを判断する判断部とを有し、前記ノード間スイッチは、前記第2のノードにおいて障害が発生した場合に、前記応答信号を前記第2のノードの代わりに生成し、前記第1のノードへ送信するものである。 A multi-node system according to a first aspect of the present invention includes: a first node that transmits instruction processing information; an inter-node switch that transfers instruction processing information transmitted by the first node to a second node; The first node comprises: an instruction decomposition unit that decomposes the instruction processing information into a plurality of blocks; a transmission unit that transmits the plurality of blocks to the inter-node switch; and a block decomposed by the instruction decomposition unit And a determination unit that determines whether or not transmission processing of the plurality of blocks has been normally completed based on the number of blocks and the number of response signals for the plurality of blocks transmitted from the second node. The inter-node switch generates the response signal instead of the second node and transmits it to the first node when a failure occurs in the second node. A.
本発明の第2の態様にかかるノード間スイッチは、第1のノードにより送信された命令処理情報を受信して、当該命令処理情報を第2のノードへ転送するデータ送受信部と、前記第2のノードにおいて障害が発生した場合に、前記第1のノードにおいて命令処理情報を分解して生成及び送信された複数のブロックに対する応答信号を、前記第2のノードの代わりに生成する応答信号生成部と、を備えるものである。 An inter-node switch according to a second aspect of the present invention includes a data transmitting / receiving unit that receives command processing information transmitted by a first node and transfers the command processing information to a second node; A response signal generator for generating, instead of the second node, response signals for a plurality of blocks generated and transmitted by disassembling instruction processing information in the first node when a failure occurs in the node Are provided.
本発明の第3の態様にかかるデータ中継方法は、第1のノードにより送信された命令処理情報を受信して、当該命令処理情報を第2のノードへ転送するステップと、前記第2のノードにおける障害発生を検知するステップと、前記障害発生を検知した後に、前記第1のノードにおいて命令処理情報を分解して生成されたブロックを受信するステップと、前記ブロックに対する応答信号を、前記第2のノードの代わりに生成するステップと、前記応答信号を前記第1のノードへ送信するステップと、を備えるものである。 A data relay method according to a third aspect of the present invention includes receiving a command processing information transmitted by a first node and transferring the command processing information to a second node; and the second node A step of detecting a failure occurrence in step, a step of receiving a block generated by decomposing instruction processing information in the first node after detecting the occurrence of the failure, and a response signal to the block. And generating the response signal in place of the first node, and transmitting the response signal to the first node.
本発明により、回路規模を増大させることなく早期に障害処理を終了させることができるマルチノードシステム、ノード間スイッチ及びデータ中継方法を提供することができる。 According to the present invention, it is possible to provide a multi-node system, an inter-node switch, and a data relay method capable of ending failure processing at an early stage without increasing the circuit scale.
(実施の形態1)
以下、図面を参照して本発明の実施の形態について説明する。図1を用いて本発明の実施の形態1にかかるマルチノードシステムの構成例について説明する。本実施形態におけるマルチノードシステムは、ノード10と、ノード間スイッチ20と、ノード30とを備えている。
(Embodiment 1)
Embodiments of the present invention will be described below with reference to the drawings. A configuration example of the multi-node system according to the first exemplary embodiment of the present invention will be described with reference to FIG. The multi-node system in this embodiment includes a
はじめに、ノード10の構成例について説明する。ノード10は、命令処理情報を送信するノードである。ノード30は、命令処理情報を受信し、命令処理を実行するノードである。ノード間スイッチ20は、ノード10とノード間スイッチ20との間に配置され、両ノードに接続されている。ここで、本図においては、ノード間スイッチ20に接続されているノードとして、ノード10及び30を示しているが、2以上の複数のノードがノード間スイッチ20に接続されてもよい。命令処理情報は、ノード30において実行される処理内容である。例えば、命令処理情報は、ノード30内においてデータのコピーや、データの演算等の実行を指示する情報である。また、命令処理情報は、ノード30において実行される複数の処理内容を含んでもよい。
First, a configuration example of the
ノード10は、命令分解部11と、送信部12と、判断部13とを備えている。命令分解部11は、ノード10におけるプロセッサ等から出力された命令処理情報を、複数のブロックに分解する。命令分解部11は、命令処理情報を予め定められたビット数毎にブロックへ分解してもよく、命令処理情報に含まれる処理内容に応じてブロックへ分解されてもよい。命令分解部11は、分解した複数のブロックを送信部12へ出力する。また、命令分解部11は、分解したブロック数に関する情報を判断部13へ出力する。
The
送信部12は、命令分解部11から取得した複数のブロックをブロック単位にノード間スイッチ20へ送信する。ノード間スイッチ20へ送信された複数のブロックは、ノード30へ転送される。ノード30は、ノード間スイッチ20から転送される複数のブロックを正常に受信すると、ノード30は、受信したブロック毎に応答信号をノード10へ出力する。もしくは、ノード30は、一定数のブロックを取得する毎に応答信号をノード10へ出力する。
The
判断部13は、ノード30から出力される応答信号の数をカウントする。さらに、判断部13は、命令分解部11から通知される分解したブロック数に関する情報(以下、分解ブロック数、とする)と、ノード30から出力される応答信号の数(以下、応答信号数、とする)とを比較する。これにより、判断部13は、送信部12から送信した複数のブロックの送信処理が正常に終了したか否かを判断する。例えば、判断部13は、分解ブロック数と応答信号数とが一致した場合に、送信部12から送信した複数のブロックの送信処理が正常に終了したと判断し、一致しない場合には、まだ送信処理の途中であると判断してもよい。もしくは、ノード10が、予め定められた複数のブロック数に対して応答信号を1つ取得する場合には、判断部13は、分解ブロック数と応答信号数とが一致しない場合においても送信処理が正常に終了したと判断することができる。
The
例えば、命令分解部11によって1つの命令処理情報が10ブロックに分解され、5ブロック毎に応答信号を1つ取得する場合について説明する。この場合、命令分解部11は、分解ブロック数を2として判断部13へ通知する。また、ノード30には、5ブロック毎に応答信号を1つ出力することを予め設定しておく。この場合、判断部13は、応答信号数が2である場合に、送信処理が正常に終了したと判断することができる。ここで、命令分解部11は、分解ブロック数を10として判断部13へ通知し、判断部13において、取得すべき応答信号数は2であると変換してもよい。ノード10とノード30との間で共有する必要がある応答信号数の数は、命令分解部11と、ノード30とに予め設定されてもよく、送信部12から出力されるブロックに、応答信号数を設定してノード30へ出力されてもよい。
For example, a case will be described in which one instruction processing information is decomposed into 10 blocks by the
続いて、ノード間スイッチ20の構成例について説明する。ノード間スイッチ20は、応答信号生成部21と、データ送受信部22と、を備えている。ノード30に障害が発生していない場合、データ送受信部22は、送信部12から出力された複数のブロックを、ノード30へ転送する。また、ノード30から送信された応答信号をノード10へ転送する。ノード30に障害が発生した場合、応答信号生成部21は、ノード30から障害情報を受信する。ノード間スイッチ20は、ノード30もしくは各ノードを監視する装置(図示せず)から障害情報を通知されることにより、ノード30における障害の発生を認識してもよい。もしくは、ノード間スイッチ20が定期的にノード30に対してヘルスチェック等の監視を行い、ノード30における障害を検出してもよい。応答信号生成部21は、障害情報を受信した後に、送信部12から送信されたブロックのノード30への転送を停止する。さらに、応答信号生成部21は、取得したブロックに対する応答信号をノード30の代わりに生成する。応答信号生成部21が生成する応答信号は、ノード30が送信部12から出力されるブロックに対して生成する応答信号と同一である。応答信号生成部21は、生成した応答信号を判断部13へ出力する。
Subsequently, a configuration example of the
判断部13は、ノード間スイッチ20から送信された応答信号数と、命令分解部11から通知されたブロック分解数とを比較して、送信処理が正常に終了したか否かを判断する。
The
以上説明したように、図1に係るマルチノードシステムを用いることにより、ノード30に障害が発生した場合においても、ノード10は、ノード間スイッチ20から通知される応答信号数を用いて、送信部12から送信した複数のブロックの送信処理が正常に終了したか否かを判定することができる。よって、ノード30から応答信号が出力されない場合におけるタイマを起動する必要がなく、早期に送信部12における送信処理を終了することができる。送信部12における送信処理の終了を検知することにより、命令分解部11は、保持している命令処理情報の処理を開始することができる。
As described above, even when a failure occurs in the
また、ノード10は、ノード30において障害が発生したことに伴い、異なる機能を追加する必要がないため、回路規模の増大を防止することができる。
In addition, since the
続いて、図2を用いて本発明の実施の形態1にかかるマルチノードシステムの詳細な構成例について説明する。マルチノードシステムは、ローカルノード10_1と、ノード間スイッチ20と、リモートノード30_1と、を備えている。ローカルノード10_1は、図1におけるノード10に対応する。リモートノード30_1は、図1におけるノード30に対応する。
Next, a detailed configuration example of the multi-node system according to the first exemplary embodiment of the present invention will be described with reference to FIG. The multi-node system includes a local node 10_1, an
はじめに、ローカルノード10_1の構成について説明する。ローカルノード10_1は、命令分解部11と、送信部12と、判断部13と、コア18と、メモリ19と、を備えている。命令分解部11と、送信部12と、判断部13とは、図1において説明したものと同一である。さらに、判断部13は、ブロック分解数保持部14と、比較部15と、ブロックリプライ数カウンタ16と、終了ステータス生成部17と、を備えている。
First, the configuration of the local node 10_1 will be described. The local node 10_1 includes an
コア18は、CPU、MPU等のプロセッサ等により構成される。コア18は、命令処理情報(リクエスト情報)を命令分解部11へ出力する。命令分解部11は、命令処理情報を複数のブロックに分解する。命令分解部11において分解されたそれぞれのブロックは、メモリ19からデータをロードし、送信部12へ出力される。送信部12は、複数のブロックを、ノード間スイッチ20を介してリモートノード30_1へ出力する。
The
ブロック分解数保持部14は、命令分解部11において分解された分解ブロック数の情報を保持する。比較部15は、ブロック分解数保持部14に保持されている分解ブロック数と、ブロックリプライ数カウンタ16から取得するブロックリプライ数とを比較する。ブロックリプライは、ブロックを取得したリモートノード30_1が、ブロック毎に応答する応答信号である。ブロックリプライ数は、図1において説明した応答信号数に相当する。比較部15は、分解ブロック数とブロックリプライ数とが一致した場合に、送信部12における複数のブロックの送信処理が正常に終了したと判断する。もしくは、コア18から出力された命令処理が、リモートノード30_1において正常に終了したと判断する。比較部15は、分解ブロック数とブロックリプライ数とが一致した場合に、判断結果を終了ステータス生成部17へ出力する。
The block decomposition
終了ステータス生成部17は、比較部15より、正常に処理が終了した旨の通知を受けた場合に、終了ステータスを発行して、メモリ19へ出力する。これにより、コア18において発行された命令処理が終了する。
When the completion
次に、ノード間スイッチ20の構成例について説明する。ノード間スイッチ20は、データ送受信部22と、疑似ブロックリプライ生成部23とを備えている。疑似ブロックリプライ生成部23は、図1における応答信号生成部21に相当する。
Next, a configuration example of the
データ送受信部22は、送信部12から複数のブロックを受信して、当該複数のブロックをノード30へ転送する。また、データ送受信部22は、リモートノード30_1から、それぞれのブロック毎に送信されるブロックリプライをブロックリプライ数カウンタ16へ転送する。さらに、データ送受信部22は、リモートノード30_1から、リモートノード30_1に障害が発生したことを示す障害情報を受信した場合、障害情報を疑似ブロックリプライ生成部23へ出力する。データ送受信部22は、障害情報を取得した後に送信部12から取得するブロックのリモートノード30_1への転送を停止する。
The data transmitter /
疑似ブロックリプライ生成部23は、データ送受信部22からリモートノード30_1の障害情報を取得すると、疑似ブロックリプライを生成する。疑似ブロックリプライは、障害情報を受信した後に送信部12から受信するブロック毎に生成される。疑似ブロックリプライ生成部23において生成された疑似ブロックリプライは、ブロックリプライ数カウンタ16へ出力される。
When the pseudo block
次に、リモートノード30_1の構成例について説明する。リモートノード30_1は、障害処理検出部31とメモリ32とを備えている。メモリ32は、データ送受信部22から受信したブロックを記録する。メモリ32にブロックが記録されると、ブロック毎にブロックリプライをデータ送受信部22へ出力する。ブロックリプライは、リモートノード30_1が有するプロセッサ等(図示せず)により生成されてもよい。
Next, a configuration example of the remote node 30_1 will be described. The remote node 30_1 includes a failure
障害処理検出部31は、リモートノード30_1に障害が発生した場合に、障害情報をデータ送受信部22へ出力する。もしくは、リモートノード30_1において発生した障害は、ノード間スイッチ20に各ノードを監視する監視装置が接続されている場合に、当該監視装置によって検出され、データ送受信部22へ出力されてもよい。これにより、リモートノード30_1において、障害情報を出力することができない深刻な障害が発生した場合においても、ノード30の障害を検出することができる。
The failure
続いて、図3を用いて本発明の実施の形態1にかかる、マルチノードシステム内における処理シーケンスを説明する。図3において、リモートノード30_1に障害が発生した場合の処理シーケンスを説明する。 Subsequently, a processing sequence in the multi-node system according to the first exemplary embodiment of the present invention will be described with reference to FIG. In FIG. 3, a processing sequence when a failure occurs in the remote node 30_1 will be described.
ローカルノード10_1からノード間スイッチ20及びノード間スイッチ20からリモートノード30_1へ出力されている実線の矢印は、ブロックが出力されていることを示す(ブロック1〜6)。リモートノード30_1からノード間スイッチ20及びノード間スイッチ20からローカルノード10_1へ出力されている破線の矢印は、ブロックリプライが出力されていることを示す(リプライ1〜3)。ブロック4〜6に対して、ノード間スイッチ20からローカルノード10_1へ出力されている破線の矢印は、疑似ブロックリプライが出力されていることを示す(疑似ブロックリプライ1〜3)。ブロックリプライ3の後に、リモートノード30_1からノード間スイッチ20へ出力されている実線の矢印は、障害情報が出力されていることを示す。
The solid arrows output from the local node 10_1 to the
ノード間スイッチ20は、障害情報を取得する前に、ローカルノード10_1から受信したブロック1〜3を、リモートノード30_1へ転送する。さらに、ブロック1〜3に対するブロックリプライ1〜3を、リモートノード30_1から受信し、ローカルノード10_1へ転送する。
The
ノード間スイッチ20は、障害情報を取得した後に、ローカルノード10_1から送信されたブロック4〜6のリモートノード30_1への転送を停止する。さらに、ノード間スイッチ20は、ブロック4〜6に対して、疑似ブロックリプライ1〜3を生成し、ローカルノード10_1へ送信する。
After acquiring the failure information, the
続いて、図4を用いて本発明の実施の形態1に係るノード間スイッチ20における疑似ブロックリプライを生成する処理の流れについて説明する。
Next, a flow of processing for generating a pseudo block reply in the
はじめに、データ送受信部22は、送信部12からブロックを取得する。次に、送信部12は、送信部12からブロックを取得する前に、障害報告を受信している場合(S12)、取得したブロックのリモートノード30_1への転送を停止する(S13)。次に、疑似ブロックリプライ生成部23は、障害報告を受信後に取得したブロックに対して、疑似ブロックリプライを生成する(S14)。次に、データ送受信部22は、疑似ブロックリプライ生成部23において生成された疑似ブロックリプライを判断部13へ出力する。
First, the data transmitter /
以上説明したように、本発明の実施の形態1にかかるマルチノードシステムを用いることにより、リモートノード30_1において障害が発生した場合に、ノード間スイッチ20からローカルノード10_1に対して疑似ブロックリプライを出力する。これにより、ローカルノード10_1は、リモートノード30_1において、正常にブロックが取得されたとして、命令処理を終了することができ、次の命令処理を実行することができる。よって、ローカルノード10_1は、タイマを起動する必要がなく、早期に命令処理を終了することができる。また、ローカルノード10_1は、疑似ブロックリプライを、リモートノード30_1によって生成されたブロックリプライと同様に処理することができる。そのため、ローカルノード10_1に新たな機能追加をする必要がなく、回路の増大も防止することができる。
As described above, by using the multi-node system according to the first embodiment of the present invention, when a failure occurs in the remote node 30_1, a pseudo block reply is output from the
(実施の形態2)
続いて、図5を用いて本発明の実施の形態2にかかるマルチノードシステムの構成例について説明する。本図にかかるマルチノードシステムにおいては、データ送受信部22が、命令分解部11に対して、障害処理検出部31から通知された障害情報を通知する点において図2と異なる。その他の構成については、図2と同様である。
(Embodiment 2)
Subsequently, a configuration example of the multi-node system according to the second exemplary embodiment of the present invention will be described with reference to FIG. The multi-node system according to this figure is different from FIG. 2 in that the data transmission /
データ送受信部22は、障害処理検出部31から障害情報が通知された場合、当該障害情報を命令分解部11へ出力する。命令分解部11は、コア18から出力された命令処理情報をブロックに分解している最中に障害情報を取得した場合、ブロックへの分解を中止する。
When the failure information is notified from the failure
続いて、図6を用いて本発明の実施の形態2にかかる、マルチノードシステム内における処理シーケンスを説明する。図6において、リモートノード30_1に障害が発生した場合の処理シーケンスを説明する。ブロック1〜3に対してブロックリプライ1〜3が応答される動作は、図3と同様であるため説明を省略する。 Subsequently, a processing sequence in the multi-node system according to the second exemplary embodiment of the present invention will be described with reference to FIG. In FIG. 6, a processing sequence when a failure occurs in the remote node 30_1 will be described. The operation in which the block replies 1 to 3 are responded to the blocks 1 to 3 is the same as in FIG.
ノード間スイッチ20は、リモートノード30_1から送信された障害情報をローカルノード10_1へ転送する。ローカルノード10_1の命令分解部11は、障害情報を取得した後は、ブロック分解を中止する。そのため、命令分解部11において、障害情報を受信する前に、すでに分解されているブロック(ブロック5)のみ、ノード間スイッチ20へ送信する。また、ノード間スイッチ20は、障害情報を取得した後に送信されたブロック4及び5に対しては疑似ブロックリプライ1及び2を生成してローカルノード10_1へ出力する。
The
以上説明したように、本発明の実施の形態2にかかるマルチノードシステムを用いることにより、ローカルノードから送信するブロックの数を削減することができる。そのため、リモートノードに障害が発生した場合に、ローカルノードは早期に命令処理を終了することができる。よって、ローカルノードは、蓄積している命令処理情報を迅速に処理することができる。 As described above, the number of blocks transmitted from the local node can be reduced by using the multi-node system according to the second exemplary embodiment of the present invention. Therefore, when a failure occurs in the remote node, the local node can finish the command processing early. Therefore, the local node can quickly process the stored instruction processing information.
また、ローカルノードは、障害情報を取得することにより、リモートノードに出力した命令処理が正常に終了しなかったことを検知することができる。そのため、ローカルノードは、リモートノードの障害が復旧後、正常に終了しなかった命令処理を再送することもできる。 In addition, the local node can detect that the instruction processing output to the remote node has not ended normally by acquiring the failure information. Therefore, the local node can also resend the command processing that did not end normally after the failure of the remote node is recovered.
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。 Note that the present invention is not limited to the above-described embodiment, and can be changed as appropriate without departing from the spirit of the present invention.
10 ノード
10_1 ローカルノード
11 命令分解部
12 送信部
13 判断部
14 ブロック分解数保持部
15 比較部
16 ブロックリプライ数カウンタ
17 終了ステータス生成部
18 コア
19 メモリ
20 ノード間スイッチ
21 応答信号生成部
22 データ送受信部
23 疑似ブロックリプライ生成部
30 ノード
30_1 リモートノード
31 障害処理検出部
32 メモリ
DESCRIPTION OF
Claims (7)
前記第1のノードは、
前記命令処理情報を複数のブロックに分解する命令分解部と
前記複数のブロックを前記ノード間スイッチへ送信する送信部と、
前記命令分解部により分解されたブロックの数と、前記第2のノードから送信される当該複数のブロックに対する応答信号の数とに基づいて当該複数のブロックの送信処理が正常に終了したか否かを判断する判断部とを有し、
前記ノード間スイッチは、
前記第2のノードにおいて障害が発生した場合に、前記複数のブロックのうち障害が発生した後のブロックに対して前記第2のノードにおいて生成される応答信号と同じ応答信号を前記第2のノードの代わりに生成し、前記第1のノードへ送信するマルチノードシステム。 A first node that transmits command processing information; and an inter-node switch that transfers the command processing information transmitted by the first node to the second node.
An instruction disassembling unit for disassembling the instruction processing information into a plurality of blocks;
Whether or not the transmission processing of the plurality of blocks has been normally completed based on the number of blocks decomposed by the command decomposition unit and the number of response signals to the plurality of blocks transmitted from the second node And a determination unit for determining
The inter-node switch is
When a failure occurs in the second node, a response signal that is the same as the response signal generated in the second node is transmitted to the block after the failure occurs among the plurality of blocks. A multi-node system that generates and transmits to the first node instead.
前記第2のノードにおいて障害が発生した場合に、前記第1のノードから受信した前記複数のブロックの前記第2のノードへの転送を停止する、請求項1に記載のマルチノードシステム。 The inter-node switch is
The multi-node system according to claim 1, wherein when a failure occurs in the second node, transfer of the plurality of blocks received from the first node to the second node is stopped.
前記第2のノードにおいて障害が発生した場合に、前記命令処理情報を複数のブロックへ分解することを中止する、請求項1又は2に記載のマルチノードシステム。 The instruction decomposition unit
3. The multi-node system according to claim 1, wherein when a failure occurs in the second node, discontinuing the instruction processing information into a plurality of blocks is stopped.
前記第2のノードにおいて障害が発生した場合に、前記第1のノードにおいて命令処理情報を分解して生成及び送信された複数のブロックのうち障害が発生した後のブロックに対して前記第2のノードにおいて生成される応答信号と同じ応答信号を、前記第2のノードの代わりに生成する応答信号生成部と、を備えるノード間スイッチ。 A data transmission / reception unit that receives the instruction processing information transmitted by the first node and transfers the instruction processing information to the second node;
When a failure occurs in the second node, the second node is compared with the block after the failure among the plurality of blocks generated and transmitted by decomposing instruction processing information in the first node. An inter-node switch comprising: a response signal generating unit that generates a response signal that is the same as the response signal generated at the node instead of the second node.
前記第2のノードにおいて障害が発生した場合に、前記第1のノードから受信した前記複数のブロックの前記第2のノードへの転送を停止する、請求項4に記載のノード間スイッチ。 The data transmitter / receiver
The inter-node switch according to claim 4, wherein when a failure occurs in the second node, transfer of the plurality of blocks received from the first node to the second node is stopped.
前記第2のノードにおける障害発生を検知するステップと、
前記障害発生を検知した後に、前記第1のノードにおいて命令処理情報を分解して生成されたブロックを受信するステップと、
前記障害発生を検知した後に受信したブロックに対して前記第2のノードにおいて生成される応答信号と同じ応答信号を、前記第2のノードの代わりに生成するステップと、
前記応答信号を前記第1のノードへ送信するステップと、を備えるデータ中継方法。 Receiving the instruction processing information transmitted by the first node and transferring the instruction processing information to the second node;
Detecting the occurrence of a failure in the second node;
Receiving a block generated by decomposing instruction processing information at the first node after detecting the occurrence of the failure;
Generating, instead of the second node, a response signal that is the same as a response signal generated at the second node for a block received after detecting the occurrence of the failure ;
Transmitting the response signal to the first node.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010003682A JP5082147B2 (en) | 2010-01-12 | 2010-01-12 | Multi-node system, inter-node switch, and data relay method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010003682A JP5082147B2 (en) | 2010-01-12 | 2010-01-12 | Multi-node system, inter-node switch, and data relay method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011146761A JP2011146761A (en) | 2011-07-28 |
JP5082147B2 true JP5082147B2 (en) | 2012-11-28 |
Family
ID=44461256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010003682A Expired - Fee Related JP5082147B2 (en) | 2010-01-12 | 2010-01-12 | Multi-node system, inter-node switch, and data relay method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5082147B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6511019B2 (en) * | 2016-06-21 | 2019-05-08 | 日本電信電話株式会社 | Service continuation apparatus, service continuation method and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3570996B2 (en) * | 2001-02-15 | 2004-09-29 | Necパーソナルプロダクツ株式会社 | Network relay device and network management system |
JP2006287605A (en) * | 2005-03-31 | 2006-10-19 | Seiko Precision Inc | Load balancer and program |
JP4803132B2 (en) * | 2007-07-27 | 2011-10-26 | オムロン株式会社 | Non-contact communication device and non-contact communication method |
-
2010
- 2010-01-12 JP JP2010003682A patent/JP5082147B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011146761A (en) | 2011-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4695705B2 (en) | Cluster system and node switching method | |
JP2006191338A (en) | Gateway apparatus for diagnosing fault of device in bus | |
JP2011123545A (en) | Comparison redundancy type information processing apparatus | |
JP4291384B2 (en) | Detection method of disconnection and power supply disconnection of IO unit connected to numerical controller | |
JP2008172592A (en) | Cluster system, computer and its abnormality detection method | |
JP6007988B2 (en) | Standby system apparatus, operational system apparatus, redundant configuration system, and load distribution method | |
JP2007058708A (en) | Multiplex system | |
JP5625605B2 (en) | OS operation state confirmation system, device to be confirmed, OS operation state confirmation device, OS operation state confirmation method, and program | |
JP5082147B2 (en) | Multi-node system, inter-node switch, and data relay method | |
EP1988469B1 (en) | Error control device | |
JP7311335B2 (en) | DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD | |
JP4863984B2 (en) | Monitoring processing program, method and apparatus | |
JP2008226153A (en) | Redundant computer system | |
JP2006172050A (en) | Duplexing system of hot standby type | |
JP2017183905A (en) | Communication device, method for recovering from communication failure, and program for recovering from communication failure | |
JP5488693B2 (en) | Multi-cluster system | |
JP2008287632A (en) | Control device recovery system | |
JP2006325118A (en) | Monitored data collection system | |
JP5763030B2 (en) | Duplex network control system and duplex network control method | |
CN111712801A (en) | Device with networking function | |
JP5884918B2 (en) | Network management apparatus, system, and method | |
JP2019075677A (en) | Network camera, network camera system including the same, communication control method thereof, communication control device, and communication control program | |
KR102016029B1 (en) | Apparatus and method for distributing load of vehicle communication | |
JP2018201148A (en) | Communication device | |
JP6475056B2 (en) | Interface failure detection device, interface failure detection system, interface failure detection method, and interface failure detection program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120515 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120807 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5082147 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |