JP2012150544A - Information processing device, data transfer method, and information processing system - Google Patents

Information processing device, data transfer method, and information processing system Download PDF

Info

Publication number
JP2012150544A
JP2012150544A JP2011006876A JP2011006876A JP2012150544A JP 2012150544 A JP2012150544 A JP 2012150544A JP 2011006876 A JP2011006876 A JP 2011006876A JP 2011006876 A JP2011006876 A JP 2011006876A JP 2012150544 A JP2012150544 A JP 2012150544A
Authority
JP
Japan
Prior art keywords
data transfer
parameter
instruction
command
main storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011006876A
Other languages
Japanese (ja)
Other versions
JP5669193B2 (en
Inventor
Koji Kirihara
浩司 桐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2011006876A priority Critical patent/JP5669193B2/en
Publication of JP2012150544A publication Critical patent/JP2012150544A/en
Application granted granted Critical
Publication of JP5669193B2 publication Critical patent/JP5669193B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To efficiently transfer transmission data.SOLUTION: An information processing device 1 is connected to another node 2A by a plurality of ports which can be switched by a switch 3. The information processing device 1 includes a core 12, a main storage part 5 which stores transmission data 8 to be transferred to the other node 2A with a data transfer instruction from the core 12 and a parameter 9 as control information needed to execute the data transfer instruction, and an inter-node communication control part 11 which receives the data transfer instruction, reads the parameter 9 and the transmission data 8 out of the main storage part 5, and transmits the transmission data 8 based upon the parameter 9. The inter-node communication control part 11 holds information (pointer) for reading a parameter corresponding to each data transfer instruction out of the main storage part 5, and re-executes a data transfer instruction having ended abnormally based upon the pointer without forcibly ending a job if trouble occurs to a port and the data transfer ends abnormally.

Description

本発明は、ノード間でデータ転送する情報処理システム、当該情報処理システムを構成する情報処理装置及びそのデータ転送方法に関する。   The present invention relates to an information processing system for transferring data between nodes, an information processing apparatus constituting the information processing system, and a data transfer method thereof.

データを送受信する際に、ノード間を複数のパスで接続しておき、現在使用しているパスに何らかの異常が発生した場合、他のパスに切り替えてデータの送受信を行うシステムがある。   When transmitting / receiving data, there is a system in which nodes are connected by a plurality of paths, and if any abnormality occurs in a currently used path, data is transmitted / received by switching to another path.

図3は、従来の情報処理システムを示す図である。図3に示すように、従来の情報処理システム(計算機システム)100は、情報処理装置100と、複数のポート4を介して情報処理システム1と接続されるノード102A、102B、・・・102M(以下、特に区別する必要のないときは、ノード102という。)と、複数のポート104を切り替えるスイッチ103とを有している。   FIG. 3 is a diagram illustrating a conventional information processing system. As shown in FIG. 3, a conventional information processing system (computer system) 100 includes an information processing apparatus 100 and nodes 102A, 102B,... 102M (connected to the information processing system 1 through a plurality of ports 4. Hereinafter, when there is no need to distinguish between them, it is referred to as a node 102) and a switch 103 that switches a plurality of ports 104.

スイッチ103は、あるポートが故障した場合にポートを切り替えて別経路で転送する機能を備える。   The switch 103 has a function of switching a port and transferring it through another route when a certain port fails.

情報処理装置100もノードの1つである。情報処理装置100及びノード102は、演算処理部110及び主記憶部104を有する。演算処理部110は、コア112及びノード間通信制御部111を有する。   The information processing apparatus 100 is also one of the nodes. The information processing apparatus 100 and the node 102 include an arithmetic processing unit 110 and a main storage unit 104. The arithmetic processing unit 110 includes a core 112 and an inter-node communication control unit 111.

コア112は、データ転送命令を発行する。主記憶部105は、データ転送命令により他のノード102に転送する送信データ108、及びデータ転送命令を実行するために必要な制御情報であるパラメータ109を格納する。ノード間通信制御部111は、コア112からのデータ転送命令を受けて、主記憶部104からパラメータ109及び送信データ108を読み出し、パラメータ109に基づき送信データ108を他のノード102に送信する。   The core 112 issues a data transfer instruction. The main storage unit 105 stores transmission data 108 that is transferred to another node 102 by a data transfer command, and parameters 109 that are control information necessary for executing the data transfer command. In response to the data transfer command from the core 112, the inter-node communication control unit 111 reads the parameter 109 and the transmission data 108 from the main storage unit 104 and transmits the transmission data 108 to another node 102 based on the parameter 109.

主記憶部105は、さらに、送信データの送信状況を書き込むステータスエリア107を有している。ノード間通信制御部111は、ステータスエリア107に書き込まれた情報に基づき命令終了を判断するようソフトウェア制御される。ノード間通信制御部111は、一のデータ転送命令を終了すると、一の終了報告をステータスエリア107に書き込む。ここで、スイッチ103がポートの障害を検出すると、ノード間通信制御部111は、この障害情報を受け取り、ステータスエリア107にハードウェア障害が生じたこと記録する。   The main storage unit 105 further includes a status area 107 for writing the transmission status of transmission data. The inter-node communication control unit 111 is controlled by software so as to determine the end of the instruction based on the information written in the status area 107. When the internode communication control unit 111 finishes one data transfer command, the internode communication control unit 111 writes one end report in the status area 107. When the switch 103 detects a port failure, the inter-node communication control unit 111 receives this failure information and records that a hardware failure has occurred in the status area 107.

他の従来技術としては、下記のものが公知である。特許文献1には、周辺装置の試験方法の技術が記載されている。特許文献1に記載の技術は、周辺装置を試験する試験プログラムと、この試験プログラムを実行するCPUとを有する。CPUは、入出力動作指示手段を有し、この入出力動作指示手段により、周辺処理装置及びチャネルを介して入出力処理装置と接続された周辺装置に対し、試験プログラムからの入出力動作を入出力処理装置に指示する。そして、入出力処理装置、チャネル又は周辺処理装置に障害が発生した時に、周辺装置の試験が異常終了してしまうことを防止するものである。   The following are known as other conventional techniques. Patent Document 1 describes a technique of a peripheral device test method. The technique described in Patent Document 1 includes a test program for testing a peripheral device and a CPU for executing the test program. The CPU has an input / output operation instruction means. By this input / output operation instruction means, an input / output operation from the test program is input to the peripheral processing device and the peripheral device connected to the input / output processing device via the channel. Instruct the output processing device. Then, when a failure occurs in the input / output processing device, channel, or peripheral processing device, the peripheral device test is prevented from being abnormally terminated.

特許文献2には、イーサネット(登録商標)を介して対抗機と通信を行うコールサーバであって、運用ポートと待機ポートの2重化ポート構造を備えたコールサーバが記載されている。当該コールサーバは、PCI(Peripheral components Interconnect)バスのバスマスタ制御により運用ポート(ポートA)と待機ポート(ポートB)を切り替えるとともに、ARP(Address Resolution Protocol)プロトコルのパケットをルータ(対抗機)に送信し、ルータ(対抗機)のルーティングテーブル(MACアドレステーブル)を変更させ、ルータのポートの切り替えを実行させるポート切り替え手段を備える。   Patent Document 2 describes a call server that communicates with a counterpart device via Ethernet (registered trademark) and has a dual port structure of an operation port and a standby port. The call server switches the operation port (port A) and standby port (port B) by bus master control of the PCI (Peripheral components Interconnect) bus, and sends ARP (Address Resolution Protocol) protocol packets to the router (counter) And a port switching means for changing the routing table (MAC address table) of the router (counter) and switching the router port.

特開平3−266155号公報JP-A-3-266155 特開2003−348128号公報JP 2003-348128 A

図3に示す従来の情報処理システムにおいては、スイッチ103のスイッチ回路のポートで固定故障(障害)が発生した場合、ポートを切り替えて別経路を使用してデータ転送を行うことができる。しかしながら、ポートで障害が生じると、障害発生時に実行していたジョブは異常終了し、ノード間通信制御部111は、ステータスエリア107にHW障害(HW障害#2)を書き込む。これによりソフトウェアに障害が報告されるため、ジョブはキャンセルされ、最初からジョブを再度実行することとなり、データ転送の際の時間のロスが大きいという問題点がある。   In the conventional information processing system shown in FIG. 3, when a fixed failure (failure) occurs in the port of the switch circuit of the switch 103, data transfer can be performed by switching the port and using another path. However, when a failure occurs in the port, the job that was being executed when the failure occurred ends abnormally, and the inter-node communication control unit 111 writes a HW failure (HW failure # 2) in the status area 107. As a result, a failure is reported to the software, so that the job is canceled and the job is executed again from the beginning, and there is a problem that time loss during data transfer is large.

また、特許文献1に記載の技術では、出力された結果が異常である場合、別のパスを使用し、実行中のプログラムは一旦停止、プログラムを最初から再実行することで周辺機器のテストを行う。よって、時間のロスが大きいという問題点がある。   In the technique described in Patent Document 1, when the output result is abnormal, another path is used, the program being executed is temporarily stopped, and the peripheral device is tested by re-execution from the beginning. Do. Therefore, there is a problem that time loss is large.

さらに、特許文献2に記載の技術では、ポートに障害が発生した際には予備のポートに切り替えるが、上述と同様、通常はハードウェア障害が発生するとジョブは強制終了され、あらためて最初からジョブを実行しなければならず、時間のロスが大きいという問題点がある。   Furthermore, in the technique described in Patent Document 2, when a failure occurs in a port, the port is switched to a spare port. However, as described above, normally, when a hardware failure occurs, the job is forcibly terminated, and the job is restarted from the beginning. There is a problem in that it has to be executed and time loss is large.

本発明にかかる情報処理装置は、スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置であって、データ転送命令を発行するコアと、前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、一のポートに障害が発生して一のデータ転送命令が異常終了した場合、ジョブを強制終了することなく、前記異常終了したデータ転送命令を再実行するものであって、前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生すると、当該情報に基づき、前記異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行するものである。   An information processing apparatus according to the present invention is an information processing apparatus connected to another node by a plurality of ports that can be switched by a switch, the core issuing a data transfer command, and the other node by the data transfer command A main storage unit for storing transmission data to be transferred to and a parameter which is control information necessary for executing the data transfer command; and the data transfer command from the core, the parameter from the main storage unit And an inter-node communication control unit that reads the transmission data and transmits the transmission data to the other node based on the parameter, and when a failure occurs in one port and one data transfer command ends abnormally, a job The node-to-node communication control unit re-executes the abnormally terminated data transfer command without forcibly terminating Information for reading out the parameter corresponding to the send command from the main storage unit is retained, and when the failure occurs, the parameter for executing the abnormally terminated data transfer command is received from the main storage unit based on the information. The read data transfer instruction is re-executed.

本発明にかかるデータ転送方法は、スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置のデータ転送方法であって、前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、一のポートに障害が発生して一のデータ転送命令が異常終了した場合には、ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了したデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行するものである。   A data transfer method according to the present invention is a data transfer method of an information processing apparatus connected to another node by a plurality of ports that can be switched by a switch, and is a data transfer that instructs the other node to transfer transmission data In response to the command, the parameter is read out from the main storage unit storing the transmission data and the parameter that is control information necessary for executing the data transfer command, and the parameter corresponding to each data transfer command is read out from the main memory. Information to be read from the storage unit is held, the transmission data is read from the main storage unit based on the read parameter and transmitted to the other node, and one data is generated when a failure occurs in one port. When the transfer command ends abnormally, the parameter for reading the parameter from the main storage unit without forcibly terminating the job. Based on distribution, which is a parameter of the aborted data transfer instructions intended to re-execute the read the data transfer instruction from said main memory unit.

本発明にかかる情報処理システムは、情報処理装置と、複数のポートにより前記情報処理装置と接続される他のノードと、前記複数のポートを切り替えるスイッチとを有し、前記情報処理装置は、データ転送命令を発行するコアと、前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、前記スイッチは、一のポートに障害が発生した場合、使用するポートを他のポートに切換え、前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生してもジョブを強制終了することなく、当該情報に基づき、前記障害の発生により異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行するものである。   An information processing system according to the present invention includes an information processing device, another node connected to the information processing device by a plurality of ports, and a switch for switching the plurality of ports. A core that issues a transfer command, a main storage unit that stores transmission data to be transferred to the other node by the data transfer command, and parameters that are control information necessary to execute the data transfer command, and the core An inter-node communication control unit that receives the data transfer command from the main storage unit, reads the parameter and transmission data from the main storage unit, and transmits the transmission data to the other node based on the parameter, the switch includes: When a failure occurs in one port, the port to be used is switched to another port, and the inter-node communication control unit Holds information for reading out the parameters corresponding to the main storage unit, and even if the failure occurs, the job is not forcibly terminated, and based on the information, the data transfer command abnormally terminated due to the occurrence of the failure is stored. A parameter for execution is read from the main storage unit and the data transfer instruction is re-executed.

本願発明によれば、送信データを効率よく転送することができる情報処理システム、当該情報処理システムを構成する情報処理装置及びそのデータ転送方法を提供することができる。   According to the present invention, it is possible to provide an information processing system capable of efficiently transferring transmission data, an information processing apparatus constituting the information processing system, and a data transfer method thereof.

本発明の実施の形態にかかる情報送信システムを示すブロック図である。It is a block diagram which shows the information transmission system concerning embodiment of this invention. 本発明の実施の形態にかかる情報送信システムの詳細を示すブロック図である。It is a block diagram which shows the detail of the information transmission system concerning embodiment of this invention. 従来の情報処理システムを示すブロック図である。It is a block diagram which shows the conventional information processing system.

以下、図面を参照して本発明の実施の形態について説明する。図1は、本実施の形態にかかる情報送信システムを示すブロック図である。図1に示すように、本発明の実施の形態にかかる情報処理システム(計算機システム)1は、情報処理装置1と、複数のポート4を介して情報処理システム1と接続されるノード2A、2B、・・・2M(以下、特に区別する必要のないときは、ノード2という。)と、複数のポート4を切り替えるスイッチ3とを有している。なお、本実施の形態においては、ノード2も情報処理装置1と同様の構成として説明するが、ノード2の機能としては、少なくとも情報処理装置1から転送される送信データを受信できる機能があればよい。   Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing an information transmission system according to the present embodiment. As shown in FIG. 1, an information processing system (computer system) 1 according to an embodiment of the present invention includes an information processing apparatus 1 and nodes 2A and 2B connected to the information processing system 1 through a plurality of ports 4. ,... 2M (hereinafter referred to as a node 2 when it is not necessary to distinguish between them) and a switch 3 for switching a plurality of ports 4. In this embodiment, the node 2 is described as having the same configuration as that of the information processing apparatus 1. However, the node 2 has at least a function capable of receiving transmission data transferred from the information processing apparatus 1. Good.

情報処理装置1は、演算処理部10及び主記憶部5を有する。演算処理部10は、コア12及びノード間通信制御部11を有する。   The information processing apparatus 1 includes an arithmetic processing unit 10 and a main storage unit 5. The arithmetic processing unit 10 includes a core 12 and an inter-node communication control unit 11.

コア12は、データ転送命令を発行する。主記憶部5は、データ転送命令により他のノード2に転送する送信データ8、及びデータ転送命令を実行するために必要な制御情報であるパラメータ9を格納する。ノード間通信制御部11は、コア12からのデータ転送命令を受けて、主記憶部5からパラメータ9及び送信データ8を読み出し、パラメータ9に基づき送信データ8を他のノード2に送信する。   The core 12 issues a data transfer instruction. The main storage unit 5 stores transmission data 8 transferred to another node 2 by a data transfer command, and parameters 9 that are control information necessary for executing the data transfer command. The inter-node communication control unit 11 receives the data transfer command from the core 12, reads the parameter 9 and the transmission data 8 from the main storage unit 5, and transmits the transmission data 8 to other nodes 2 based on the parameter 9.

主記憶部5は、さらに、送信データの送信状況を書き込むステータスエリア7を有している。ノード間通信制御部1は、ステータスエリア7に書き込まれた情報に基づき命令終了を判断するようソフトウェア制御される。ノード間通信制御部1は、一のデータ転送命令を終了すると、一の終了報告をステータスエリア7に書き込む。   The main storage unit 5 further has a status area 7 for writing the transmission status of transmission data. The inter-node communication control unit 1 is controlled by software so as to determine the end of the instruction based on the information written in the status area 7. When the inter-node communication control unit 1 completes one data transfer command, it writes one end report in the status area 7.

スイッチ3は、あるポートが故障した場合にポートを切り替えて別経路で転送する機能を備える。このスイッチ3は、パリティチェック等によりポートの障害を検出する障害検出部32と、障害検出部32が一のポートの障害を検出すると、通信に使用するポートを他のポートに切り替えるポート切替部31と、障害検出部32がポートの障害を検出すると、使用中のポートに障害が発生したことを示す障害情報と、障害発生時に実行中であったデータ転送命令のIDとを、送信元である情報処理装置1に出力する送信部33とを有する。   The switch 3 has a function of switching a port and transferring it through another route when a certain port fails. The switch 3 includes a failure detection unit 32 that detects a port failure by parity check or the like, and a port switching unit 31 that switches a port used for communication to another port when the failure detection unit 32 detects a failure of one port. When the failure detection unit 32 detects a failure in the port, failure information indicating that a failure has occurred in the port in use and the ID of the data transfer instruction that was being executed when the failure occurred are the transmission source. And a transmission unit 33 that outputs to the information processing apparatus 1.

この情報処理装置1においては、コア12がデータ転送を指示する非同期データ転送命令を発行するが、この非同期データ転送命令の開始時、先ず、ソフトウェア処理として命令を実行するために必要な制御情報(以下、パラメータ9という。)を主記憶部の特定エリアに書き込み、そのアドレス情報であるポインタを、非同期データ転送命令としてノード間通信制御部11に入力する。ノード間通信制御部11はこのポインタを使用して主記憶部5からパラメータ9を読み出し、命令を組み立てた後、主記憶部5から送信データ8を読み出し、この送信データに、非同期データ転送命令を識別するための識別情報(ID)を付け、これをスイッチ3を介して他のノード2に転送する。ノード間通信制御部11は、命令保持部(図示せず)を有しており、この命令保持部に、上記ID毎に、ステータスエリア7に終了報告を書き込むためのアドレス情報等を含む命令情報と、パラメータのポインタとを対応づけて保持しておく。ノード間通信制御部11は、他のノード2での処理が終了し、一の非同期データ転送命令が正常に終了すると、スイッチ3を経由してIDを含むリプライを受け取る。そして、リプライのIDを元に命令保持部に保持してある命令情報から、正常終了した非同期データ転送命令に対応するステータスエリア7のアドレスを割り出して終了報告を書き込む。ソフトウェアはここを監視することで命令終了を判断する。   In this information processing apparatus 1, the core 12 issues an asynchronous data transfer instruction for instructing data transfer. At the start of this asynchronous data transfer instruction, first, control information necessary for executing the instruction as software processing ( Hereinafter, parameter 9) is written into a specific area of the main storage unit, and a pointer which is the address information is input to the inter-node communication control unit 11 as an asynchronous data transfer command. The inter-node communication control unit 11 reads the parameter 9 from the main storage unit 5 using this pointer, assembles the command, reads the transmission data 8 from the main storage unit 5, and sends an asynchronous data transfer command to the transmission data. Identification information (ID) for identification is attached, and this is transferred to another node 2 via the switch 3. The inter-node communication control unit 11 has an instruction holding unit (not shown). In this instruction holding unit, instruction information including address information for writing an end report in the status area 7 for each ID. And the parameter pointer are stored in association with each other. The inter-node communication control unit 11 receives a reply including an ID via the switch 3 when the process in the other node 2 is completed and one asynchronous data transfer command is normally completed. Then, from the instruction information held in the instruction holding unit based on the reply ID, the address of the status area 7 corresponding to the normally completed asynchronous data transfer instruction is determined and an end report is written. The software determines the end of the instruction by monitoring here.

一方、スイッチ3内のデータ転送経路で障害(HW障害)が発生し、スイッチ障害を示すリプライを受信するとデータ転送が異常終了する。ここで、本実施の形態におけるノード間通信制御部11は、ポートで障害が発生した場合であってもステータスエリア7にHW障害を書き込まない。そして、リプライに含まれるIDを元に命令保持部で保持している、障害時に実行中であった非同期データ転送命令を実行するためのパラメータのポインタを割り出す。ノード間通信制御部11は、命令保持部で割り出されたポインタを使用して、障害発生時に実行中であった非同期データ転送命令のパラメータ9を主記憶部5から読み出し、非同期データ転送命令を再度実行する。すなわち、パラメータ9に基づき送信データ8を主記憶部5から読み出し、IDと共に出力する。スイッチ3では、ポートが切り替えられ動作を続け別経路を使用してデータ転送が可能である。よってこの送信データは、別径路を経由してノード2に転送される。ノード間通信制御部11は、ノード2からリプライを受け取り、再実行した非同期データ転送命令が正常終了したら、主記憶部5のステータスエリア7に終了報告を書き込む。   On the other hand, when a failure (HW failure) occurs in the data transfer path in the switch 3 and a reply indicating a switch failure is received, the data transfer ends abnormally. Here, the inter-node communication control unit 11 in the present embodiment does not write the HW failure in the status area 7 even when a failure occurs in the port. Based on the ID included in the reply, the pointer of the parameter for executing the asynchronous data transfer instruction that was being executed at the time of failure, which is held in the instruction holding unit, is determined. The inter-node communication control unit 11 reads the parameter 9 of the asynchronous data transfer instruction that was being executed at the time of the failure from the main memory unit 5 using the pointer determined by the instruction holding unit, and outputs the asynchronous data transfer instruction. Try again. That is, the transmission data 8 is read from the main storage unit 5 based on the parameter 9 and output together with the ID. In the switch 3, the port is switched and the operation continues and data transfer is possible using another path. Therefore, this transmission data is transferred to the node 2 via another path. The inter-node communication control unit 11 receives a reply from the node 2 and writes a completion report in the status area 7 of the main storage unit 5 when the re-executed asynchronous data transfer instruction is normally completed.

本実施の形態においては、ノード間通信制御部11は、各非同期データ転送命令のパラメータ9が主記憶部5のどこに記憶されているかを示すポインタを保持すると共に、ポートで障害が発生した場合であってもステータスエリア7にHW障害を書き込まない。ステータスエリア7にHW障害があったことを書き込まないため、従来のようにジョブがキャンセルされることがない。一方、障害発生時に実行中であった非同期データ転送命令を実行するためのパラメータ9のポインタは命令保持部から取得できるため、このポインタに基づき、パラメータ9を読み出すことができる。よって、このパラメータ9により、再度非同期データ転送命令を実行することができる。すなわち、ジョブの最初からではなく、障害発生時に実行中であった非同期データ転送命令から再実行すればよく、障害発生までに終了している非同期データ転送命令を再度行う必要がないため、データ転送時間のロスを低減することができる。   In the present embodiment, the inter-node communication control unit 11 holds a pointer indicating where the parameter 9 of each asynchronous data transfer instruction is stored in the main storage unit 5 and when a failure occurs in the port. Even if there is, no HW failure is written in the status area 7. Since the fact that there is a HW failure is not written in the status area 7, the job is not canceled as in the conventional case. On the other hand, since the pointer of the parameter 9 for executing the asynchronous data transfer instruction that was being executed when the failure occurred can be obtained from the instruction holding unit, the parameter 9 can be read based on this pointer. Therefore, the asynchronous data transfer instruction can be executed again by this parameter 9. In other words, instead of starting from the beginning of the job, it is only necessary to re-execute from the asynchronous data transfer instruction that was being executed when the failure occurred, and there is no need to re-execute the asynchronous data transfer instruction that was completed before the failure occurred. Time loss can be reduced.

次に、本実施の形態について更に詳細に説明する。図2は、本実施の形態にかかる情報処理装置1の詳細を示すブロック図である。   Next, this embodiment will be described in more detail. FIG. 2 is a block diagram showing details of the information processing apparatus 1 according to the present embodiment.

図2に示すように、ノード間通信制御部11は、ID制御部14と、命令保持部17と、命令終了判定部19とを有する。ID制御部14は、各非同期データ転送命令の識別情報(例えばID#1〜#n)を決定する。命令保持部17は、各ID#1〜#nと、各ID#1〜#nに対応したポインタとを対応付けて保持する。ID#1〜#n及びこれに対応するポインタは、ID制御部14から入力される。ポインタとは、主記憶部5からパラメータ9を読み出すためのアドレス情報である。命令終了判定部19は、ノード間通信相手のノード2からリプライを受け取り、非同期データ転送命令の終了を判定する。命令終了判定部19は、各非同期データ転送命令によるデータ転送が終了する毎に、スイッチ3を介してリプライを受け取る。このリプライには、正常終了した非同期データ転送命令のID#1〜#nが含まれる。命令終了判定部19は、このID#1〜#nを命令保持部17に送る。命令保持部17は、このID#1〜#nの終了報告を主記憶部5のステータスエリア7のいずれのアドレスに書き込めばよいかを示す命令情報を保持しており、命令終了判定部19はこの命令情報を受け取り、この命令情報に基づきステータスエリア7にID#1〜#nに対応する終了報告を書き込む。   As illustrated in FIG. 2, the inter-node communication control unit 11 includes an ID control unit 14, a command holding unit 17, and a command end determination unit 19. The ID control unit 14 determines identification information (for example, ID # 1 to #n) of each asynchronous data transfer instruction. The instruction holding unit 17 holds the IDs # 1 to #n and the pointers corresponding to the IDs # 1 to #n in association with each other. IDs # 1 to #n and corresponding pointers are input from the ID control unit 14. The pointer is address information for reading the parameter 9 from the main storage unit 5. The instruction end determination unit 19 receives a reply from the node 2 of the internode communication partner and determines the end of the asynchronous data transfer instruction. The instruction end determination unit 19 receives a reply via the switch 3 every time data transfer by each asynchronous data transfer instruction ends. This reply includes IDs # 1 to #n of asynchronous data transfer instructions that have been normally completed. The instruction end determination unit 19 sends the IDs # 1 to #n to the instruction holding unit 17. The instruction holding unit 17 holds instruction information indicating to which address in the status area 7 of the main storage unit 5 the end reports of ID # 1 to #n should be written. The command information is received, and end reports corresponding to IDs # 1 to #n are written in the status area 7 based on the command information.

ここで、ポートに障害が発生すると、命令終了判定部19がスイッチ3からその障害情報及び障害発生時に実行中であったデータ転送命令のID(ここでは、ID#3とする)を受け取り、そのID#3を命令保持部17に出力する。ここで、本実施の形態にかかる命令終了判定部19において、スイッチ3から障害情報及びID#3を受け取っても、ステータスエリア7に障害情報(HW障害)を書き込まない。命令保持部17には、命令終了判定部19から受け取ったID#3に対応するポインタが格納されている。ノード間通信制御部11は、このポインタに基づき、ID#3に対応するパラメータ9及び送信データ8を主記憶部5から読み出し、当該送信データを再送する。   Here, when a failure occurs in the port, the instruction end determination unit 19 receives the failure information from the switch 3 and the ID of the data transfer instruction that was being executed at the time of the failure (here, ID # 3). ID # 3 is output to the instruction holding unit 17. Here, even if the instruction end determination unit 19 according to the present embodiment receives the failure information and ID # 3 from the switch 3, the failure information (HW failure) is not written in the status area 7. The instruction holding unit 17 stores a pointer corresponding to ID # 3 received from the instruction end determination unit 19. Based on this pointer, the inter-node communication control unit 11 reads the parameter 9 and transmission data 8 corresponding to ID # 3 from the main storage unit 5, and retransmits the transmission data.

ノード間通信制御部11は、さらに、パラメータ制御部13と、命令発行部15及び命令組立部16からなる命令生成部と、データ送信部18とを有する。パラメータ制御部13は、コア12から非同期データ転送命令としてポインタを受け取り、このポインタに基づき、命令発行部15に命令を実行させるためのパラメータ読み出し指示を生成する。命令発行部15、パラメータ制御部13からパラメータ読み出し指示を受け取り、ID制御部14からIDを受け取る。命令発行部15は、このパラメータ読み出し指示及びIDに基づき、パラメータ9を読み出すためのパラメータ読み出し命令を生成する。このパラメータ読み出し命令により主記憶部5から読み出されたパラメータ9は、命令組立部16に入力される。命令組立部16は、パラメータに基づき、命令を組み立て命令発行部15に出力する。命令発行部15は、この命令を受けて、送信データを読み出すためのデータ読み出し命令を生成する。また、命令発行部15は、更に、各非同期データ転送命令が完了する毎にその終了報告を主記憶部5のステータスエリア7に記録するための命令情報(ステータスエリアでのアドレス情報等を含む)を、各非同期データ転送命令毎に生成し、対応するIDと共に命令保持部17に出力する。   The inter-node communication control unit 11 further includes a parameter control unit 13, an instruction generation unit including an instruction issue unit 15 and an instruction assembly unit 16, and a data transmission unit 18. The parameter control unit 13 receives a pointer from the core 12 as an asynchronous data transfer instruction, and generates a parameter read instruction for causing the instruction issuing unit 15 to execute the instruction based on the pointer. A parameter read instruction is received from the command issuing unit 15 and the parameter control unit 13, and an ID is received from the ID control unit 14. The command issuing unit 15 generates a parameter read command for reading the parameter 9 based on the parameter read instruction and the ID. The parameter 9 read from the main storage unit 5 by this parameter read command is input to the command assembly unit 16. The instruction assembly unit 16 outputs an instruction to the assembly instruction issue unit 15 based on the parameters. In response to this command, the command issuing unit 15 generates a data read command for reading transmission data. Further, the instruction issuing unit 15 further includes instruction information (including address information in the status area) for recording the completion report in the status area 7 of the main storage unit 5 every time each asynchronous data transfer instruction is completed. Are generated for each asynchronous data transfer instruction and output to the instruction holding unit 17 together with the corresponding ID.

データ送信部18には、上記のデータ読み出し命令により、主記憶部5から送信する送信データ8とIDとが送られる。送信データ8は、送信データ8及びIDを他のノード2に出力する。なお、データ送信部18は、各ポートからへの出力を選択するセレクタを備えてもよい。同様に、命令終了判定部19においても、各ポートからの入力を選択するセレクタを備えてもよい。   The transmission data 8 transmitted from the main storage unit 5 and the ID are sent to the data transmission unit 18 by the data read command. The transmission data 8 outputs the transmission data 8 and the ID to the other node 2. The data transmission unit 18 may include a selector that selects an output from each port. Similarly, the instruction end determination unit 19 may include a selector that selects an input from each port.

ここで、上述のようにポートに障害が発生すると、パラメータ制御部13は、命令保持部17からID#3に対応するポインタを受け取り、当該受け取ったポインタに基づき、パラメータ読み出し指示を再生成する。   Here, when a failure occurs in a port as described above, the parameter control unit 13 receives a pointer corresponding to ID # 3 from the instruction holding unit 17, and regenerates a parameter read instruction based on the received pointer.

命令生成部は、再生成されたID#3に対応するパラメータ読み出し指示に基づきパラメータ9を読み出し、当該パラメータ9に基づきデータ読み出し命令を再生成する。   The command generation unit reads the parameter 9 based on the parameter read instruction corresponding to the regenerated ID # 3, and regenerates the data read command based on the parameter 9.

データ送信部18は、再生成されたデータ読み出し命令により読み出された、障害発生時に送信中であった送信データ及びID(ID#3)を他のノード2に再送信する。   The data transmission unit 18 retransmits the transmission data and ID (ID # 3) that were being transmitted when the failure occurred, read by the regenerated data read command, to the other nodes 2.

また、パラメータ制御部13は、コア12からデータ転送命令を受け取るとカウントアップするライトポインタWP131と、データ転送命令を受けてパラメータ読み出し指示を生成するとカウントアップするリードポインタRP132とを有している。データ転送命令を受けてライトポインタWP131がカウントアップすると、ライトポインタWP131とリードポインタRP132のポインタ値が不一致となる。ポインタの値が不一致で未実行の命令がある場合に、パラメータ制御部13は、パラメータ読み出し指示を生成する。ここで、ID#3の非同期データ転送命令実行中に障害が発生した場合、命令保持部17からID#3のポインタを受け取り、リードポインタを当該受け取ったポインタの値に戻す。これにより、ライトポインタWP131とリードポインタRP132のポインタ値が不一致となるため、パラメータ制御部13は、リードポインタの値がライトポインタの値に一致するまでパラメータ読み出し指示を生成する。すなわち、現在ID#4の非同期データ転送命令を実行していた場合は、ID#0の非同期データ転送命令(ジョブの最初)からではなく、ID#3の非同期データ転送命令から命令を再実行する。   The parameter control unit 13 includes a write pointer WP131 that counts up when receiving a data transfer command from the core 12, and a read pointer RP132 that counts up when receiving a data transfer command and generating a parameter read instruction. When the write pointer WP 131 counts up in response to the data transfer command, the pointer values of the write pointer WP 131 and the read pointer RP 132 do not match. When there is an unexecuted instruction because the pointer values do not match, the parameter control unit 13 generates a parameter read instruction. If a failure occurs during execution of the asynchronous data transfer instruction with ID # 3, the pointer with ID # 3 is received from the instruction holding unit 17, and the read pointer is returned to the value of the received pointer. As a result, the pointer values of the write pointer WP131 and the read pointer RP132 do not match, so the parameter control unit 13 generates a parameter read instruction until the read pointer value matches the write pointer value. That is, if the asynchronous data transfer instruction of ID # 4 is currently being executed, the instruction is re-executed from the asynchronous data transfer instruction of ID # 3, not from the asynchronous data transfer instruction of ID # 0 (the first job). .

次に、本実施の形態にかかる情報処理装置のデータ転送方法について説明する。コア12は、複数の非同期データ転送命令からなるジョブを実施する。なお、本実施の形態においては、ジョブを構成する命令は、非同期のデータ転送命令として説明するが、ノード間で同期してデータ転送してもよい。   Next, a data transfer method of the information processing apparatus according to this embodiment will be described. The core 12 executes a job including a plurality of asynchronous data transfer instructions. In the present embodiment, the instructions constituting the job are described as asynchronous data transfer instructions, but data transfer may be performed synchronously between nodes.

先ず、正常状態の動作について説明する。情報処理装置1(命令発行ノード)では、先ず、コア12が非同期データ転送命令を実行するためのパラメータ9を生成し、主記憶部5に書き込む。次に、コア12は、このパラメータ9のアドレスを示すポインタを非同期データ転送命令としてパラメータ制御部13に出力する。   First, the operation in the normal state will be described. In the information processing apparatus 1 (instruction issue node), first, the core 12 generates a parameter 9 for executing an asynchronous data transfer instruction, and writes it in the main storage unit 5. Next, the core 12 outputs a pointer indicating the address of the parameter 9 to the parameter control unit 13 as an asynchronous data transfer instruction.

パラメータ制御部13は、コア12から非同期データ転送命令のポインタを受信すると、ライトポインタWP131をカウントアップする。パラメータ制御部13は、ライトポインタWP131≠リードポインタRP132の状態で主記憶部5に未実行のパラメータ7がある場合に、リードポインタRP132をカウントアップし、ID制御部14と命令保持部17に対してパラメータ読み出し指示を出力する。パラメータ読み出し指示にはポインタの情報が含まれる。   When the parameter control unit 13 receives the pointer of the asynchronous data transfer instruction from the core 12, the parameter control unit 13 counts up the write pointer WP131. The parameter control unit 13 counts up the read pointer RP132 when there is an unexecuted parameter 7 in the main storage unit 5 in the state of the write pointer WP131 ≠ read pointer RP132, and the ID control unit 14 and the instruction holding unit 17 To output parameter reading instructions. The parameter read instruction includes pointer information.

ID制御部14は、現在実行中の非同期データ転送命令のIDを決定し(ここではID#2とする)、命令保持部17にID#2及びこれに対応するパラメータのポインタを出力し、命令発行部17にはID#2を通知する。命令発行部15では、パラメータ読み出し指示とID#2とを使用してパラメータ読み出し命令を生成する。ここで、ID#2のパラメータ9をパラメータ9(#2)とする。   The ID control unit 14 determines the ID of the currently executing asynchronous data transfer instruction (here, ID # 2), outputs ID # 2 and a pointer to the parameter corresponding thereto to the instruction holding unit 17, The issuing unit 17 is notified of ID # 2. The instruction issuing unit 15 generates a parameter read instruction using the parameter read instruction and ID # 2. Here, parameter 9 of ID # 2 is set as parameter 9 (# 2).

命令組立部16は、パラメータ読み出し命令により主記憶部5から読み出されたパラメータ9(#2)を使用して命令を組み立て、命令発行部15にその命令を送る。命令発行部15は、この命令に基づき、主記憶部5に対し、ID#2に対応する送信データを読み出すためのデータ読み出し命令を発行し、同時に命令保持部17に対し、このID#2と、これに対応する、ステータスエリア7のアドレス情報等を含む命令情報とを送る。こうして、命令保持部17には、ID毎のパラメータのポインタと命令情報とが保持される。データ送信部18は、データ読み出し命令により主記憶部5から読み出された送信データ8を、ID#2と共に受け取る。データ送信部18は、送信データにID#2を付加してスイッチ3を介してノード2に送信する。   The instruction assembly unit 16 assembles an instruction using the parameter 9 (# 2) read from the main storage unit 5 by the parameter read instruction, and sends the instruction to the instruction issue unit 15. Based on this command, the command issuing unit 15 issues a data read command for reading the transmission data corresponding to the ID # 2 to the main storage unit 5 and simultaneously transmits the ID # 2 to the command holding unit 17. Corresponding command information including address information of the status area 7 is sent. Thus, the instruction holding unit 17 holds a parameter pointer and instruction information for each ID. The data transmission unit 18 receives the transmission data 8 read from the main storage unit 5 by the data read command together with ID # 2. The data transmission unit 18 adds ID # 2 to the transmission data and transmits it to the node 2 via the switch 3.

ノード2は、ID#2の非同期データ転送命令によるデータ転送により送信データを受け取ると、これを通知するリプライを情報処理装置1に対して送信する。このリプライにはID#2の情報が含まれる。命令終了判定部19は、正常にデータ転送が終了したID#2の情報を含むリプライを受け取ると、命令保持部17からD#2に対応する命令情報を受け取る。この命令情報には、終了報告を書き込むステータスエリア7のアドレス情報等が含まれ、この命令情報に基づき、命令終了判定部19は、ステータスエリア7の所定のアドレスに終了報告(終了報告#2)を書き込む。   When the node 2 receives the transmission data by the data transfer by the asynchronous data transfer command of ID # 2, the node 2 transmits a reply notifying the transmission data to the information processing apparatus 1. This reply includes information of ID # 2. The instruction end determination unit 19 receives instruction information corresponding to D # 2 from the instruction holding unit 17 when receiving a reply including information of ID # 2 for which data transfer has been completed normally. This command information includes address information of the status area 7 to which the end report is written, and based on this command information, the command end determination unit 19 reports the end report to the predetermined address in the status area 7 (end report # 2). Write.

次に、ポートに障害が発生した場合について説明する。スイッチ3のスイッチ回路31bは、データ転送中にポートが故障しデータ転送が不可能な状態となると、転送中の送信データのID(ここではID#3とする)をリプライに付けて情報処理装置1に対して障害通知として送る。一方で、別経路でデータ転送を行えるようにするため、ポートを切り替える。   Next, a case where a failure has occurred in a port will be described. The switch circuit 31b of the switch 3 attaches the ID of transmission data being transferred (ID # 3 here) to the reply when the port fails and data transfer is impossible during the data transfer. 1 is sent as a failure notification. On the other hand, the port is switched to enable data transfer through another route.

命令終了判定部19は、スイッチの障害通知(ID#3の情報を含む)を受け取ると、命令終了判定部19から命令保持部17にこのID#3を通知する。命令保持部17では各IDのパラメータのポインタを保持しているので、障害時に実行中であった非同期データ転送命令のポインタを割り出し、すなわち本例においては、ID#3のポインタを読み出しパラメータ制御部13に出力する。パラメータ制御部13は、ID#3(障害時に実行中であった非同期データ転送命令)のポインタを受け取ると、リードポインタRP132の値をID#3の値まで戻す。これにより、ライトポインタWP131の値と不一致となり、パラメータ制御部13は、上述のようにID制御部14と命令保持部17に対してパラメータ読み出し指示を出力する。これを受けてその他のブロックも正常時と同様に動作し、障害発生時に実行中であったID#3の非同期データ転送命令を再実行する。   When receiving the switch failure notification (including information of ID # 3), the instruction end determination unit 19 notifies the instruction holding unit 17 of this ID # 3. Since the instruction holding unit 17 holds the pointer of the parameter of each ID, the pointer of the asynchronous data transfer instruction being executed at the time of failure is determined, that is, in this example, the pointer of ID # 3 is read and the parameter control unit 13 is output. When the parameter control unit 13 receives the pointer of ID # 3 (the asynchronous data transfer instruction being executed at the time of failure), the parameter control unit 13 returns the value of the read pointer RP132 to the value of ID # 3. As a result, the value does not match the value of the write pointer WP 131, and the parameter control unit 13 outputs a parameter read instruction to the ID control unit 14 and the instruction holding unit 17 as described above. In response to this, the other blocks operate in the same manner as in the normal state, and the asynchronous data transfer instruction with ID # 3 being executed when the failure occurs is re-executed.

以上説明したように、データ転送命令を実行中にスイッチ3のスイッチ回路31bのポートで固定障害が発生し、そのポートを使用してのデータ転送が不可能となるとデータ転送命令は異常終了するが、スイッチ回路31bはポートを切り替え別ポートにてデータ転送が可能である。本実施の形態においては、各命令のID毎にポインタを記憶しているため、異常終了した命令(非同期データ転送命令)のパラメータを主記憶部5から読み出すことができる。よって、命令を再度実行して正常終了させることができる。命令終了判定部19は固定障害が発生してもステータスエリア7にHW障害があったことを書き込まないため、ジョブは異常終了することなく、よってジョブを最初から実行せず、障害が発生時他時点から再実行することが可能となる。このように、スイッチ障害があっても、ジョブの開始から障害発生前までに実行終了した命令は再実行しないため、ジョブを最初から再実行する従来に比してデータ転送時間を低減することができる。   As described above, when a fixed failure occurs at the port of the switch circuit 31b of the switch 3 during execution of the data transfer instruction and data transfer using that port becomes impossible, the data transfer instruction ends abnormally. The switch circuit 31b can switch ports and transfer data at another port. In the present embodiment, since the pointer is stored for each ID of each instruction, the parameter of the instruction that ended abnormally (asynchronous data transfer instruction) can be read from the main storage unit 5. Therefore, the command can be executed again and terminated normally. Even if a fixed failure occurs, the command end determination unit 19 does not write that there is a HW failure in the status area 7, so the job does not end abnormally, and therefore the job is not executed from the beginning. It becomes possible to re-execute from the time. In this way, even if there is a switch failure, instructions that have been executed between the start of the job and before the failure are not re-executed, so the data transfer time can be reduced compared to the conventional case where the job is re-executed from the beginning. it can.

さらに、本実施の形態においては、命令実行に必要なパラメータ9を主記憶部5に格納する構成となっている。よって、このパラメータ9を読み出せば命令を再実行することができる、すなわち、データを再送信することができる。例えば、データを再送信するために、データ送信部18にバッファを設けてこれを保持しておくこと等が考えられるが、本実施の形態のように複数のパスがある場合はパス毎にバッファを設ける必要等が生じ、HW量が増加する。これに対し、本実施の形態においては、ポインタの情報のみ保持し、このポインタの情報から命令を再構築する、すなわち、パラメータを読み出し、これに基づき送信データを読み出し送信するため、少ないHW資源で本実施の形態の実現が可能である。   Further, in the present embodiment, a parameter 9 necessary for instruction execution is stored in the main storage unit 5. Therefore, if this parameter 9 is read, the instruction can be re-executed, that is, the data can be retransmitted. For example, in order to retransmit data, it is conceivable to provide a buffer in the data transmission unit 18 and hold it. However, when there are a plurality of paths as in the present embodiment, the buffer is provided for each path. It becomes necessary to provide, and the amount of HW increases. On the other hand, in the present embodiment, only the pointer information is retained, and the instruction is reconstructed from the pointer information, that is, the parameter is read out, and the transmission data is read out and transmitted based on the parameter. This embodiment can be realized.

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、情報処理装置1は、図2の構成に限るものではない。各非同期データ転送命令毎に(ID毎に)、そのパラメータを読み出すための情報を保持し、パスに障害が発生するHW障害が発生した場合に、従来のようにHW障害として扱わず、前記のパラメータを読み出すための情報に基づき、パラメータを読み出すことで、障害発生時に実行中であった命令から再実行するよう制御可能であれば、どのような構成であってもよい。また、情報処理システム(計算機システム)を構成するノード数等に特に制限はない。   Note that the present invention is not limited to the above-described embodiment, and can be changed as appropriate without departing from the spirit of the present invention. For example, the information processing apparatus 1 is not limited to the configuration in FIG. For each asynchronous data transfer instruction (for each ID), the information for reading the parameter is held, and when a HW failure that causes a failure in the path occurs, it is not treated as a HW failure as in the prior art. Any configuration may be used as long as it can be controlled to re-execute from the instruction that was being executed when the failure occurred by reading the parameter based on the information for reading the parameter. There is no particular limitation on the number of nodes constituting the information processing system (computer system).

(付記1)
スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置であって、
データ転送命令を発行するコアと、
前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合、ジョブを強制終了することなく、前記異常終了したデータ転送命令を再実行するものであって、
前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生すると、当該情報に基づき、前記異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、情報処理装置。
(付記2)
前記ノード間通信制御部は、
各データ転送命令に識別情報(ID)を付与するID制御部と、
前記IDと、当該IDに対応した前記パラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて保持する命令保持部と、
前記データ転送命令の終了を判定する命令終了判定部とを有し、
前記命令終了判定部は、一のポートの障害発生時に、前記スイッチからその障害情報及び障害発生時に実行中であったデータ転送命令のIDを受け取り、当該IDを前記命令保持部に出力し、
前記ノード間通信制御部は、前記命令保持部に保持されている、前記命令終了判定部から受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、付記1記載の情報処理装置。
(付記3)
前記主記憶部は、前記命令終了判定部が前記送信データの送信状況を書き込むステータスエリアを有し、
前記ノード間通信制御部は、前記ステータスエリアに書き込まれた情報に基づき命令終了を判断するようソフトウェア制御されるものであって、
前記命令終了判定部は、前記スイッチから前記障害情報及びIDを受け取ると、前記ステータスエリアに前記障害情報を書き込まず、受け取ったIDを前記命令保持部に出力する、付記2記載の情報処理装置。
(付記4)
前記ノード間通信制御部は、
前記コアから前記データ転送命令として前記ポインタを受け取り、当該ポインタに基づきパラメータ読み出し指示を生成するパラメータ制御部と、
前記パラメータ読み出し指示を受けてパラメータ読み出し命令を生成すると共に、当該パラメータ読み出し命令により前記主記憶部から読み出されたパラメータに基づきデータ読み出し命令を生成する命令生成部と、
前記データ読み出し命令により前記主記憶部から前記送信データ及びIDを受け取り、前記他のノードに送信するデータ送信部とを更に有し、
前記障害発生時に
前記パラメータ制御部は、前記命令保持部から前記ポインタを受け取り、当該受け取ったポインタに基づき、前記パラメータ読み出し指示を再生成し、
前記命令生成部は、再生成されたパラメータ読み出し指示に基づき前記パラメータを読み出し、当該パラメータに基づき前記データ読み出し命令を再生成し、
前記データ送信部は、再生成されたデータ読み出し命令により、障害発生時に送信中であった送信データ及びIDを前記他のノードに再送信する、付記2又は3項記載の情報処理装置。
(付記5)
前記コアは、前記データ転送命令を実行するための前記パラメータを生成して前記主記憶部に書き込み、そのアドレス情報であるポインタを、当該データ転送命令として前記ノード間通信制御部に出力する、付記1乃至4のいずれか1項に記載の情報処理装置。
(付記6)
前記パラメータ制御部は、前記コアから前記データ転送命令を受け取るとカウントアップするライトポインタと、前記データ転送命令を受けて前記パラメータ読み出し指示を生成するとカウントアップするリードポインタとを有し、前記障害発生時に前記命令保持部から前記ポインタを受け取ると、前記リードポインタを当該受け取ったポインタの値に戻し、当該リードポインタの値が前記ライトポインタの値に一致するまで前記パラメータ読み出し指示を生成する、付記4記載の情報処理装置。
(付記7)
前記コアが出力する前記データ転送命令は、非同期データ転送命令である、付記1乃至6のいずれか1項記載の情報処理装置。
(付記8)
スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置のデータ転送方法であって、
前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、
前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合には、ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了したデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、データ転送方法。
(付記9)
各データ転送命令に識別情報(ID)を付与し、各IDと、各IDに対応したパラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて命令保持部に保持し、
一のポートの障害発生時に、前記スイッチからその障害情報及び障害発生時に実行中であったデータ転送命令のIDを前記スイッチから受け取り、
前記命令保持部に保持されている、前記スイッチから受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、付記8記載のデータ転送方法。
(付記10)
前記主記憶部は、前記命令終了判定部が前記送信データの送信状況を書き込むステータスエリアを有し、
前記情報処理装置は、前記ステータスエリアに書き込まれた情報に基づき命令終了を判断するようソフトウェア制御されるものであって、
前記スイッチから前記障害情報及びIDを受け取ると、前記ステータスエリアに前記障害情報を書き込まず、受け取ったIDを前記命令保持部に出力する、付記9記載のデータ転送方法。
(付記11)
前記データ転送命令として前記ポインタを受け取り、当該ポインタに基づきパラメータ読み出し指示を生成し、
前記パラメータ読み出し指示を受けてパラメータ読み出し命令を生成すると共に、当該パラメータ読み出し命令により前記主記憶部から読み出されたパラメータに基づきデータ読み出し命令を生成し、
前記データ読み出し命令により前記主記憶部から前記送信データ及びIDを受け取り、前記他のノードに送信するものであって、
前記障害発生時には、
前記命令保持部から前記ポインタを受け取り、当該受け取ったポインタに基づき、前記パラメータ読み出し指示を再生成し、
再生成されたパラメータ読み出し指示に基づき前記パラメータを読み出し、当該パラメータに基づき前記データ読み出し命令を再生成し、
再生成されたデータ読み出し命令により、障害発生時に送信中であった送信データ及びIDを前記他のノードに再送信する、付記9又は10項記載のデータ転送方法。
(付記12)
前記データ転送命令を実行するための前記パラメータを生成して前記主記憶部に書き込み、そのアドレス情報であるポインタを、当該データ転送命令として使用する、付記9乃至11のいずれか1項に記載のデータ転送方法。
(付記13)
前記データ転送命令は、非同期データ転送命令である、付記9乃至12のいずれか1項記載のデータ転送方法。
(付記14)
前記データ転送命令を受け取るとライトポインタをカウントアップし、
前記データ転送命令を受けて前記パラメータ読み出し指示を生成するとリードポインタをカウントアップし、
前記障害発生時には、前記命令保持部から前記ポインタを受け取ると、前記リードポインタを当該受け取ったポインタの値に戻し、当該リードポインタの値が前記ライトポインタの値に一致するまで前記パラメータ読み出し指示を生成する、付記11記載のデータ転送方法。
(付記15)
情報処理装置と、
複数のポートにより前記情報処理装置と接続される他のノードと、
前記複数のポートを切り替えるスイッチとを有し、
前記情報処理装置は、
データ転送命令を発行するコアと、
前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
前記スイッチは、一のポートに障害が発生した場合、使用するポートを他のポートに切換え、
前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生してもジョブを強制終了することなく、当該情報に基づき、前記障害の発生により異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、情報処理システム。
(付記16)
データ転送命令によりその識別情報(ID)を付与した送信データを出力する情報処理装置と当該送信データを受信する他のノードとの間を接続する複数のポートの接続を切り替えるスイッチであって、
前記情報処理装置は、一のポートに障害が発生して一のデータ転送命令が異常終了した場合、ジョブを強制終了することなく、他のポートにより前記異常終了したデータ転送命令を再実行するものであって、
前記スイッチは、
前記ポートの障害を検出する障害検出部と、
前記障害検出部が一のポートの障害を検出すると、通信に使用するポートを他のポートに切り替えるポート切替部と、
前記障害検出部がポートの障害を検出すると、使用中のポートに障害が発生したことを示す障害情報と、前記障害発生時に実行中であったデータ転送命令のIDとを、送信元である前記情報処理装置に出力する送信部と、を有するスイッチ。
(付記17)
スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置のデータ転送処理をコンピュータに実行させるためのプログラムであって、
前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、
前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合には、ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了したデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、プログラム。
(Appendix 1)
An information processing apparatus connected to another node by a plurality of ports that can be switched by a switch,
A core that issues data transfer instructions;
A main storage unit for storing transmission data to be transferred to the other node by the data transfer command, and parameters which are control information necessary for executing the data transfer command;
In response to the data transfer command from the core, the parameter and transmission data is read from the main storage unit, and an inter-node communication control unit that transmits transmission data to the other node based on the parameter,
When a failure occurs in one port and one data transfer instruction ends abnormally, the abnormally ended data transfer instruction is re-executed without forcibly ending the job,
The inter-node communication control unit holds information for reading the parameters corresponding to each data transfer command from the main storage unit, and when the failure occurs, executes the abnormally terminated data transfer command based on the information An information processing apparatus that reads a parameter for performing the operation from the main storage unit and re-executes the data transfer instruction.
(Appendix 2)
The inter-node communication control unit
An ID control unit that assigns identification information (ID) to each data transfer command;
An instruction holding unit that holds the ID in association with a pointer that is address information for reading the parameter corresponding to the ID from the main storage unit;
An instruction end determination unit for determining the end of the data transfer instruction;
The instruction end determination unit receives the failure information from the switch and the ID of the data transfer command being executed at the time of the failure when the failure of one port occurs, and outputs the ID to the command holding unit,
The inter-node communication control unit reads the parameter and transmission data from the main storage unit based on the pointer corresponding to the ID received from the command end determination unit and held in the command holding unit, and the transmission data The information processing apparatus according to appendix 1, wherein the information is retransmitted.
(Appendix 3)
The main storage unit has a status area in which the instruction end determination unit writes the transmission status of the transmission data,
The inter-node communication control unit is software-controlled to determine the end of an instruction based on information written in the status area,
3. The information processing apparatus according to appendix 2, wherein upon receiving the failure information and ID from the switch, the command end determination unit outputs the received ID to the command holding unit without writing the failure information in the status area.
(Appendix 4)
The inter-node communication control unit
A parameter control unit that receives the pointer as the data transfer instruction from the core and generates a parameter read instruction based on the pointer;
An instruction generation unit that receives the parameter read instruction and generates a parameter read instruction, and generates a data read instruction based on the parameter read from the main storage unit by the parameter read instruction;
A data transmission unit that receives the transmission data and ID from the main storage unit in response to the data read command and transmits the data to the other node;
When the failure occurs, the parameter control unit receives the pointer from the instruction holding unit, regenerates the parameter read instruction based on the received pointer,
The command generation unit reads the parameter based on the regenerated parameter read instruction, regenerates the data read command based on the parameter,
The information processing apparatus according to claim 2 or 3, wherein the data transmission unit retransmits the transmission data and the ID that were being transmitted when the failure occurred to the other node in response to the regenerated data read command.
(Appendix 5)
The core generates the parameter for executing the data transfer instruction, writes the parameter to the main storage unit, and outputs a pointer that is address information to the inter-node communication control unit as the data transfer instruction. The information processing apparatus according to any one of 1 to 4.
(Appendix 6)
The parameter control unit has a write pointer that counts up when receiving the data transfer command from the core, and a read pointer that counts up when receiving the data transfer command and generates the parameter read instruction, Sometimes when the pointer is received from the instruction holding unit, the read pointer is returned to the value of the received pointer, and the parameter read instruction is generated until the value of the read pointer matches the value of the write pointer. The information processing apparatus described.
(Appendix 7)
The information processing apparatus according to any one of appendices 1 to 6, wherein the data transfer instruction output by the core is an asynchronous data transfer instruction.
(Appendix 8)
A data transfer method for an information processing apparatus connected to another node by a plurality of ports that can be switched by a switch,
In response to a data transfer command for instructing the other node to transfer the transmission data, the transmission data and the parameter from the main storage unit in which parameters that are control information necessary for executing the data transfer command are stored. Read and hold the information for reading the parameters corresponding to each data transfer command from the main storage unit,
Based on the read parameter, the transmission data is read from the main storage unit and transmitted to the other node,
When a failure occurs in one port and one data transfer instruction is abnormally terminated, the abnormally terminated data is based on the information for reading the parameters from the main storage unit without forcibly terminating the job. A data transfer method for reading a parameter of a transfer instruction from the main storage unit and re-executing the data transfer instruction.
(Appendix 9)
Identification information (ID) is given to each data transfer instruction, each ID and a pointer that is address information for reading a parameter corresponding to each ID from the main storage unit are associated and held in the instruction holding unit,
When a failure of one port occurs, the failure information from the switch and the ID of the data transfer command being executed at the time of the failure are received from the switch,
The data transfer method according to appendix 8, wherein the parameter and transmission data are read from the main storage unit based on a pointer corresponding to the ID received from the switch and held in the command holding unit, and the transmission data is retransmitted. .
(Appendix 10)
The main storage unit has a status area in which the instruction end determination unit writes the transmission status of the transmission data,
The information processing apparatus is software-controlled to determine the end of an instruction based on information written in the status area,
The data transfer method according to appendix 9, wherein when the failure information and ID are received from the switch, the received ID is output to the instruction holding unit without writing the failure information in the status area.
(Appendix 11)
Receiving the pointer as the data transfer instruction, generating a parameter read instruction based on the pointer;
In response to the parameter read instruction, a parameter read command is generated, and a data read command is generated based on the parameter read from the main storage unit by the parameter read command.
Receiving the transmission data and ID from the main storage unit in response to the data read command, and transmitting to the other node;
When the failure occurs,
Receiving the pointer from the instruction holding unit, based on the received pointer, regenerate the parameter read instruction,
Read the parameter based on the regenerated parameter read instruction, regenerate the data read command based on the parameter,
11. The data transfer method according to appendix 9 or 10, wherein the transmission data and ID that were being transmitted when the failure occurred are retransmitted to the other node by the regenerated data read command.
(Appendix 12)
12. The appendix 9 to 11, wherein the parameter for executing the data transfer instruction is generated and written to the main storage unit, and a pointer that is address information is used as the data transfer instruction. Data transfer method.
(Appendix 13)
The data transfer method according to any one of appendices 9 to 12, wherein the data transfer instruction is an asynchronous data transfer instruction.
(Appendix 14)
When the data transfer command is received, the write pointer is counted up,
When receiving the data transfer instruction and generating the parameter read instruction, the read pointer is counted up,
When the failure occurs, when the pointer is received from the instruction holding unit, the read pointer is returned to the value of the received pointer, and the parameter read instruction is generated until the value of the read pointer matches the value of the write pointer. The data transfer method according to appendix 11.
(Appendix 15)
An information processing device;
Another node connected to the information processing apparatus by a plurality of ports;
A switch for switching the plurality of ports,
The information processing apparatus includes:
A core that issues data transfer instructions;
A main storage unit for storing transmission data to be transferred to the other node by the data transfer command, and parameters which are control information necessary for executing the data transfer command;
In response to the data transfer command from the core, the parameter and transmission data is read from the main storage unit, and an inter-node communication control unit that transmits transmission data to the other node based on the parameter,
When a failure occurs in one port, the switch switches the port to be used to another port,
The inter-node communication control unit holds information for reading the parameter corresponding to each data transfer command from the main storage unit, based on the information without forcibly terminating the job even if the failure occurs, An information processing system that reads a parameter for executing a data transfer instruction that has ended abnormally due to the occurrence of the failure from the main storage unit and re-executes the data transfer instruction.
(Appendix 16)
A switch that switches connection of a plurality of ports that connect between an information processing device that outputs transmission data to which identification information (ID) is given by a data transfer command and another node that receives the transmission data;
The information processing apparatus re-executes the abnormally terminated data transfer instruction by another port without forcibly terminating the job when a failure occurs in one port and the one data transfer instruction is abnormally terminated. Because
The switch is
A failure detection unit for detecting a failure of the port;
When the failure detection unit detects a failure of one port, a port switching unit that switches a port used for communication to another port;
When the failure detection unit detects a port failure, the failure information indicating that a failure has occurred in the port being used and the ID of the data transfer command being executed at the time of the failure are the transmission source. And a transmission unit that outputs to the information processing apparatus.
(Appendix 17)
A program for causing a computer to execute data transfer processing of an information processing apparatus connected to another node through a plurality of ports that can be switched by a switch,
In response to a data transfer command for instructing the other node to transfer the transmission data, the transmission data and the parameter from the main storage unit in which parameters that are control information necessary for executing the data transfer command are stored. Read and hold the information for reading the parameters corresponding to each data transfer command from the main storage unit,
Based on the read parameter, the transmission data is read from the main storage unit and transmitted to the other node,
When a failure occurs in one port and one data transfer instruction is abnormally terminated, the abnormally terminated data is based on the information for reading the parameters from the main storage unit without forcibly terminating the job. A program for reading a parameter of a transfer command from the main storage unit and re-executing the data transfer command.

1 情報処理装置
2 ノード
3 スイッチ
4 ポート
5 主記憶部
7 ステータスエリア
8 送信データ
9 パラメータ
10 演算処理部
11 ノード間通信制御部
12 コア
13 パラメータ制御部
14 ID制御部
15 命令発行部
16 命令組立部
17 命令保持部
18 データ送信部
19 命令終了判定部
31a 切り替え部
31b 切り替え部
131 ライトポインタWP
132 リードポインタRP
DESCRIPTION OF SYMBOLS 1 Information processing apparatus 2 Node 3 Switch 4 Port 5 Main memory part 7 Status area 8 Transmission data 9 Parameter 10 Arithmetic processing part 11 Internode communication control part 12 Core 13 Parameter control part 14 ID control part 15 Instruction issuing part 16 Instruction assembly part 17 Command holding unit 18 Data transmission unit 19 Command end determination unit 31a Switching unit 31b Switching unit 131 Write pointer WP
132 Read pointer RP

Claims (10)

スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置であって、
データ転送命令を発行するコアと、
前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合、ジョブを強制終了することなく、前記異常終了したデータ転送命令を再実行するものであって、
前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生すると、当該情報に基づき、前記異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、情報処理装置。
An information processing apparatus connected to another node by a plurality of ports that can be switched by a switch,
A core that issues data transfer instructions;
A main storage unit for storing transmission data to be transferred to the other node by the data transfer command, and parameters which are control information necessary for executing the data transfer command;
In response to the data transfer command from the core, the parameter and transmission data is read from the main storage unit, and an inter-node communication control unit that transmits transmission data to the other node based on the parameter,
When a failure occurs in one port and one data transfer instruction ends abnormally, the abnormally ended data transfer instruction is re-executed without forcibly ending the job,
The inter-node communication control unit holds information for reading the parameters corresponding to each data transfer command from the main storage unit, and when the failure occurs, executes the abnormally terminated data transfer command based on the information An information processing apparatus that reads a parameter for performing the operation from the main storage unit and re-executes the data transfer instruction.
前記ノード間通信制御部は、
各データ転送命令に識別情報(ID)を付与するID制御部と、
前記IDと、当該IDに対応した前記パラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて保持する命令保持部と、
前記データ転送命令の終了を判定する命令終了判定部とを有し、
前記命令終了判定部は、一のポートの障害発生時に、前記スイッチからその障害情報及び障害発生時に実行中であったデータ転送命令のIDを受け取り、当該IDを前記命令保持部に出力し、
前記ノード間通信制御部は、前記命令保持部に保持されている、前記命令終了判定部から受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、請求項1記載の情報処理装置。
The inter-node communication control unit
An ID control unit that assigns identification information (ID) to each data transfer command;
An instruction holding unit that holds the ID in association with a pointer that is address information for reading the parameter corresponding to the ID from the main storage unit;
An instruction end determination unit for determining the end of the data transfer instruction;
The instruction end determination unit receives the failure information from the switch and the ID of the data transfer command being executed at the time of the failure when the failure of one port occurs, and outputs the ID to the command holding unit,
The inter-node communication control unit reads the parameter and transmission data from the main storage unit based on the pointer corresponding to the ID received from the command end determination unit and held in the command holding unit, and the transmission data The information processing apparatus according to claim 1, wherein
前記主記憶部は、前記命令終了判定部が前記送信データの送信状況を書き込むステータスエリアを有し、
前記ノード間通信制御部は、前記ステータスエリアに書き込まれた情報に基づき命令終了を判断するようソフトウェア制御されるものであって、
前記命令終了判定部は、前記スイッチから前記障害情報及びIDを受け取ると、前記ステータスエリアに前記障害情報を書き込まず、受け取ったIDを前記命令保持部に出力する、請求項2記載の情報処理装置。
The main storage unit has a status area in which the instruction end determination unit writes the transmission status of the transmission data,
The inter-node communication control unit is software-controlled to determine the end of an instruction based on information written in the status area,
3. The information processing apparatus according to claim 2, wherein when receiving the failure information and the ID from the switch, the command end determination unit outputs the received ID to the command holding unit without writing the failure information in the status area. .
前記ノード間通信制御部は、
前記コアから前記データ転送命令として前記ポインタを受け取り、当該ポインタに基づきパラメータ読み出し指示を生成するパラメータ制御部と、
前記パラメータ読み出し指示を受けてパラメータ読み出し命令を生成すると共に、当該パラメータ読み出し命令により前記主記憶部から読み出されたパラメータに基づきデータ読み出し命令を生成する命令生成部と、
前記データ読み出し命令により前記主記憶部から前記送信データ及びIDを受け取り、前記他のノードに送信するデータ送信部とを更に有し、
前記障害発生時に
前記パラメータ制御部は、前記命令保持部から前記ポインタを受け取り、当該受け取ったポインタに基づき、前記パラメータ読み出し指示を再生成し、
前記命令生成部は、再生成されたパラメータ読み出し指示に基づき前記パラメータを読み出し、当該パラメータに基づき前記データ読み出し命令を再生成し、
前記データ送信部は、再生成されたデータ読み出し命令により、障害発生時に送信中であった送信データ及びIDを前記他のノードに再送信する、請求項2又は3項記載の情報処理装置。
The inter-node communication control unit
A parameter control unit that receives the pointer as the data transfer instruction from the core and generates a parameter read instruction based on the pointer;
An instruction generation unit that receives the parameter read instruction and generates a parameter read instruction, and generates a data read instruction based on the parameter read from the main storage unit by the parameter read instruction;
A data transmission unit that receives the transmission data and ID from the main storage unit in response to the data read command and transmits the data to the other node;
When the failure occurs, the parameter control unit receives the pointer from the instruction holding unit, regenerates the parameter read instruction based on the received pointer,
The command generation unit reads the parameter based on the regenerated parameter read instruction, regenerates the data read command based on the parameter,
The information processing apparatus according to claim 2, wherein the data transmission unit retransmits the transmission data and the ID that were being transmitted when the failure occurred to the other node according to the regenerated data read command.
前記コアは、前記データ転送命令を実行するための前記パラメータを生成して前記主記憶部に書き込み、そのアドレス情報であるポインタを、当該データ転送命令として前記ノード間通信制御部に出力する、請求項1乃至4のいずれか1項に記載の情報処理装置。   The core generates the parameter for executing the data transfer instruction, writes the parameter to the main storage unit, and outputs a pointer, which is address information, to the inter-node communication control unit as the data transfer instruction. Item 5. The information processing apparatus according to any one of Items 1 to 4. 前記パラメータ制御部は、前記コアから前記データ転送命令を受け取るとカウントアップするライトポインタと、前記データ転送命令を受けて前記パラメータ読み出し指示を生成するとカウントアップするリードポインタとを有し、前記障害発生時に前記命令保持部から前記ポインタを受け取ると、前記リードポインタを当該受け取ったポインタの値に戻し、当該リードポインタの値が前記ライトポインタの値に一致するまで前記パラメータ読み出し指示を生成する、請求項4記載の情報処理装置。   The parameter control unit has a write pointer that counts up when receiving the data transfer command from the core, and a read pointer that counts up when receiving the data transfer command and generates the parameter read instruction, 2. When the pointer is sometimes received from the instruction holding unit, the read pointer is returned to the value of the received pointer, and the parameter read instruction is generated until the value of the read pointer matches the value of the write pointer. 4. The information processing apparatus according to 4. 前記コアが出力する前記データ転送命令は、非同期データ転送命令である、請求項1乃至6のいずれか1項記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the data transfer instruction output from the core is an asynchronous data transfer instruction. スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置のデータ転送方法であって、
前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、
前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合には、ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了したデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、データ転送方法。
A data transfer method for an information processing apparatus connected to another node by a plurality of ports that can be switched by a switch,
In response to a data transfer command for instructing the other node to transfer the transmission data, the transmission data and the parameter from the main storage unit in which parameters that are control information necessary for executing the data transfer command are stored. Read and hold the information for reading the parameters corresponding to each data transfer command from the main storage unit,
Based on the read parameter, the transmission data is read from the main storage unit and transmitted to the other node,
When a failure occurs in one port and one data transfer instruction is abnormally terminated, the abnormally terminated data is based on the information for reading the parameters from the main storage unit without forcibly terminating the job. A data transfer method for reading a parameter of a transfer instruction from the main storage unit and re-executing the data transfer instruction.
各データ転送命令に識別情報(ID)を付与し、各IDと、各IDに対応したパラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて命令保持部に保持し、
一のポートの障害発生時に、その障害情報及び障害発生時に実行中であったデータ転送命令のIDを前記スイッチから受け取り、
前記命令保持部に保持されている、前記スイッチから受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、請求項9記載のデータ転送方法。
Identification information (ID) is given to each data transfer instruction, each ID and a pointer that is address information for reading a parameter corresponding to each ID from the main storage unit are associated and held in the instruction holding unit,
When a failure occurs in one port, the failure information and the ID of the data transfer command being executed at the time of the failure are received from the switch,
10. The data transfer according to claim 9, wherein the parameter and transmission data are read from the main storage unit based on a pointer corresponding to the ID received from the switch and held in the command holding unit, and the transmission data is retransmitted. Method.
情報処理装置と、
複数のポートにより前記情報処理装置と接続される他のノードと、
前記複数のポートを切り替えるスイッチとを有し、
前記情報処理装置は、
データ転送命令を発行するコアと、
前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
前記スイッチは、一のポートに障害が発生した場合、使用するポートを他のポートに切換え、
前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生してもジョブを強制終了することなく、当該情報に基づき、前記障害の発生により異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、情報処理システム。
An information processing device;
Another node connected to the information processing apparatus by a plurality of ports;
A switch for switching the plurality of ports,
The information processing apparatus includes:
A core that issues data transfer instructions;
A main storage unit for storing transmission data to be transferred to the other node by the data transfer command, and parameters which are control information necessary for executing the data transfer command;
In response to the data transfer command from the core, the parameter and transmission data is read from the main storage unit, and an inter-node communication control unit that transmits transmission data to the other node based on the parameter,
When a failure occurs in one port, the switch switches the port to be used to another port,
The inter-node communication control unit holds information for reading the parameter corresponding to each data transfer command from the main storage unit, based on the information without forcibly terminating the job even if the failure occurs, An information processing system that reads a parameter for executing a data transfer instruction that has ended abnormally due to the occurrence of the failure from the main storage unit and re-executes the data transfer instruction.
JP2011006876A 2011-01-17 2011-01-17 Information processing apparatus, data transfer method, and information processing system Active JP5669193B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011006876A JP5669193B2 (en) 2011-01-17 2011-01-17 Information processing apparatus, data transfer method, and information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011006876A JP5669193B2 (en) 2011-01-17 2011-01-17 Information processing apparatus, data transfer method, and information processing system

Publications (2)

Publication Number Publication Date
JP2012150544A true JP2012150544A (en) 2012-08-09
JP5669193B2 JP5669193B2 (en) 2015-02-12

Family

ID=46792752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011006876A Active JP5669193B2 (en) 2011-01-17 2011-01-17 Information processing apparatus, data transfer method, and information processing system

Country Status (1)

Country Link
JP (1) JP5669193B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269346A (en) * 2007-04-20 2008-11-06 Nuflare Technology Inc Data transfer system
JP2009267771A (en) * 2008-04-25 2009-11-12 Hitachi Ltd Information processor, and path control method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008269346A (en) * 2007-04-20 2008-11-06 Nuflare Technology Inc Data transfer system
JP2009267771A (en) * 2008-04-25 2009-11-12 Hitachi Ltd Information processor, and path control method

Also Published As

Publication number Publication date
JP5669193B2 (en) 2015-02-12

Similar Documents

Publication Publication Date Title
CN101207408B (en) Apparatus and method of synthesis fault detection for main-spare taking turns
JP4529767B2 (en) Cluster configuration computer system and system reset method thereof
JP5548647B2 (en) Partial failure handling method in computer system
WO2015098589A1 (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
JP6429188B2 (en) Relay device
CN111585835A (en) Control method and device for out-of-band management system and storage medium
US20150098317A1 (en) Linear protection switching method and apparatus for protecting network segmented into multi-domain
JP6190281B2 (en) Relay system and switch device
US8108736B2 (en) Multi-partition computer system, failure handling method and program therefor
JP5669193B2 (en) Information processing apparatus, data transfer method, and information processing system
JP4806382B2 (en) Redundant system
JP6134720B2 (en) Connection method
JP5908068B2 (en) Standby redundant unit
JP6052150B2 (en) Relay device
JP2016058835A (en) Relay system and switch device
JP5104773B2 (en) Data transfer system, data transfer device, and data transfer method
JP4131263B2 (en) Multi-node system, node device, inter-node crossbar switch, and failure processing method
CN100490343C (en) A method and device for realizing switching between main and backup units in communication equipment
US8625585B2 (en) Switch apparatus
JPWO2007096987A1 (en) Error control device
JP4564412B2 (en) Network device, network system, and toughness confirmation method
JP2011049835A (en) Network trouble detection device and network trouble detection program
US20230281066A1 (en) Device Event Notification
WO2008062511A1 (en) Multiprocessor system
JP5449906B2 (en) Diagnostic method of signal for abnormal processing and duplex computer system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140703

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20140807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140812

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141211

R150 Certificate of patent or registration of utility model

Ref document number: 5669193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150