JP2012150544A - Information processing device, data transfer method, and information processing system - Google Patents
Information processing device, data transfer method, and information processing system Download PDFInfo
- Publication number
- JP2012150544A JP2012150544A JP2011006876A JP2011006876A JP2012150544A JP 2012150544 A JP2012150544 A JP 2012150544A JP 2011006876 A JP2011006876 A JP 2011006876A JP 2011006876 A JP2011006876 A JP 2011006876A JP 2012150544 A JP2012150544 A JP 2012150544A
- Authority
- JP
- Japan
- Prior art keywords
- data transfer
- parameter
- instruction
- command
- main storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、ノード間でデータ転送する情報処理システム、当該情報処理システムを構成する情報処理装置及びそのデータ転送方法に関する。 The present invention relates to an information processing system for transferring data between nodes, an information processing apparatus constituting the information processing system, and a data transfer method thereof.
データを送受信する際に、ノード間を複数のパスで接続しておき、現在使用しているパスに何らかの異常が発生した場合、他のパスに切り替えてデータの送受信を行うシステムがある。 When transmitting / receiving data, there is a system in which nodes are connected by a plurality of paths, and if any abnormality occurs in a currently used path, data is transmitted / received by switching to another path.
図3は、従来の情報処理システムを示す図である。図3に示すように、従来の情報処理システム(計算機システム)100は、情報処理装置100と、複数のポート4を介して情報処理システム1と接続されるノード102A、102B、・・・102M(以下、特に区別する必要のないときは、ノード102という。)と、複数のポート104を切り替えるスイッチ103とを有している。
FIG. 3 is a diagram illustrating a conventional information processing system. As shown in FIG. 3, a conventional information processing system (computer system) 100 includes an
スイッチ103は、あるポートが故障した場合にポートを切り替えて別経路で転送する機能を備える。
The
情報処理装置100もノードの1つである。情報処理装置100及びノード102は、演算処理部110及び主記憶部104を有する。演算処理部110は、コア112及びノード間通信制御部111を有する。
The
コア112は、データ転送命令を発行する。主記憶部105は、データ転送命令により他のノード102に転送する送信データ108、及びデータ転送命令を実行するために必要な制御情報であるパラメータ109を格納する。ノード間通信制御部111は、コア112からのデータ転送命令を受けて、主記憶部104からパラメータ109及び送信データ108を読み出し、パラメータ109に基づき送信データ108を他のノード102に送信する。
The
主記憶部105は、さらに、送信データの送信状況を書き込むステータスエリア107を有している。ノード間通信制御部111は、ステータスエリア107に書き込まれた情報に基づき命令終了を判断するようソフトウェア制御される。ノード間通信制御部111は、一のデータ転送命令を終了すると、一の終了報告をステータスエリア107に書き込む。ここで、スイッチ103がポートの障害を検出すると、ノード間通信制御部111は、この障害情報を受け取り、ステータスエリア107にハードウェア障害が生じたこと記録する。
The
他の従来技術としては、下記のものが公知である。特許文献1には、周辺装置の試験方法の技術が記載されている。特許文献1に記載の技術は、周辺装置を試験する試験プログラムと、この試験プログラムを実行するCPUとを有する。CPUは、入出力動作指示手段を有し、この入出力動作指示手段により、周辺処理装置及びチャネルを介して入出力処理装置と接続された周辺装置に対し、試験プログラムからの入出力動作を入出力処理装置に指示する。そして、入出力処理装置、チャネル又は周辺処理装置に障害が発生した時に、周辺装置の試験が異常終了してしまうことを防止するものである。 The following are known as other conventional techniques. Patent Document 1 describes a technique of a peripheral device test method. The technique described in Patent Document 1 includes a test program for testing a peripheral device and a CPU for executing the test program. The CPU has an input / output operation instruction means. By this input / output operation instruction means, an input / output operation from the test program is input to the peripheral processing device and the peripheral device connected to the input / output processing device via the channel. Instruct the output processing device. Then, when a failure occurs in the input / output processing device, channel, or peripheral processing device, the peripheral device test is prevented from being abnormally terminated.
特許文献2には、イーサネット(登録商標)を介して対抗機と通信を行うコールサーバであって、運用ポートと待機ポートの2重化ポート構造を備えたコールサーバが記載されている。当該コールサーバは、PCI(Peripheral components Interconnect)バスのバスマスタ制御により運用ポート(ポートA)と待機ポート(ポートB)を切り替えるとともに、ARP(Address Resolution Protocol)プロトコルのパケットをルータ(対抗機)に送信し、ルータ(対抗機)のルーティングテーブル(MACアドレステーブル)を変更させ、ルータのポートの切り替えを実行させるポート切り替え手段を備える。
図3に示す従来の情報処理システムにおいては、スイッチ103のスイッチ回路のポートで固定故障(障害)が発生した場合、ポートを切り替えて別経路を使用してデータ転送を行うことができる。しかしながら、ポートで障害が生じると、障害発生時に実行していたジョブは異常終了し、ノード間通信制御部111は、ステータスエリア107にHW障害(HW障害#2)を書き込む。これによりソフトウェアに障害が報告されるため、ジョブはキャンセルされ、最初からジョブを再度実行することとなり、データ転送の際の時間のロスが大きいという問題点がある。
In the conventional information processing system shown in FIG. 3, when a fixed failure (failure) occurs in the port of the switch circuit of the
また、特許文献1に記載の技術では、出力された結果が異常である場合、別のパスを使用し、実行中のプログラムは一旦停止、プログラムを最初から再実行することで周辺機器のテストを行う。よって、時間のロスが大きいという問題点がある。 In the technique described in Patent Document 1, when the output result is abnormal, another path is used, the program being executed is temporarily stopped, and the peripheral device is tested by re-execution from the beginning. Do. Therefore, there is a problem that time loss is large.
さらに、特許文献2に記載の技術では、ポートに障害が発生した際には予備のポートに切り替えるが、上述と同様、通常はハードウェア障害が発生するとジョブは強制終了され、あらためて最初からジョブを実行しなければならず、時間のロスが大きいという問題点がある。
Furthermore, in the technique described in
本発明にかかる情報処理装置は、スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置であって、データ転送命令を発行するコアと、前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、一のポートに障害が発生して一のデータ転送命令が異常終了した場合、ジョブを強制終了することなく、前記異常終了したデータ転送命令を再実行するものであって、前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生すると、当該情報に基づき、前記異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行するものである。 An information processing apparatus according to the present invention is an information processing apparatus connected to another node by a plurality of ports that can be switched by a switch, the core issuing a data transfer command, and the other node by the data transfer command A main storage unit for storing transmission data to be transferred to and a parameter which is control information necessary for executing the data transfer command; and the data transfer command from the core, the parameter from the main storage unit And an inter-node communication control unit that reads the transmission data and transmits the transmission data to the other node based on the parameter, and when a failure occurs in one port and one data transfer command ends abnormally, a job The node-to-node communication control unit re-executes the abnormally terminated data transfer command without forcibly terminating Information for reading out the parameter corresponding to the send command from the main storage unit is retained, and when the failure occurs, the parameter for executing the abnormally terminated data transfer command is received from the main storage unit based on the information. The read data transfer instruction is re-executed.
本発明にかかるデータ転送方法は、スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置のデータ転送方法であって、前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、一のポートに障害が発生して一のデータ転送命令が異常終了した場合には、ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了したデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行するものである。 A data transfer method according to the present invention is a data transfer method of an information processing apparatus connected to another node by a plurality of ports that can be switched by a switch, and is a data transfer that instructs the other node to transfer transmission data In response to the command, the parameter is read out from the main storage unit storing the transmission data and the parameter that is control information necessary for executing the data transfer command, and the parameter corresponding to each data transfer command is read out from the main memory. Information to be read from the storage unit is held, the transmission data is read from the main storage unit based on the read parameter and transmitted to the other node, and one data is generated when a failure occurs in one port. When the transfer command ends abnormally, the parameter for reading the parameter from the main storage unit without forcibly terminating the job. Based on distribution, which is a parameter of the aborted data transfer instructions intended to re-execute the read the data transfer instruction from said main memory unit.
本発明にかかる情報処理システムは、情報処理装置と、複数のポートにより前記情報処理装置と接続される他のノードと、前記複数のポートを切り替えるスイッチとを有し、前記情報処理装置は、データ転送命令を発行するコアと、前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、前記スイッチは、一のポートに障害が発生した場合、使用するポートを他のポートに切換え、前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生してもジョブを強制終了することなく、当該情報に基づき、前記障害の発生により異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行するものである。 An information processing system according to the present invention includes an information processing device, another node connected to the information processing device by a plurality of ports, and a switch for switching the plurality of ports. A core that issues a transfer command, a main storage unit that stores transmission data to be transferred to the other node by the data transfer command, and parameters that are control information necessary to execute the data transfer command, and the core An inter-node communication control unit that receives the data transfer command from the main storage unit, reads the parameter and transmission data from the main storage unit, and transmits the transmission data to the other node based on the parameter, the switch includes: When a failure occurs in one port, the port to be used is switched to another port, and the inter-node communication control unit Holds information for reading out the parameters corresponding to the main storage unit, and even if the failure occurs, the job is not forcibly terminated, and based on the information, the data transfer command abnormally terminated due to the occurrence of the failure is stored. A parameter for execution is read from the main storage unit and the data transfer instruction is re-executed.
本願発明によれば、送信データを効率よく転送することができる情報処理システム、当該情報処理システムを構成する情報処理装置及びそのデータ転送方法を提供することができる。 According to the present invention, it is possible to provide an information processing system capable of efficiently transferring transmission data, an information processing apparatus constituting the information processing system, and a data transfer method thereof.
以下、図面を参照して本発明の実施の形態について説明する。図1は、本実施の形態にかかる情報送信システムを示すブロック図である。図1に示すように、本発明の実施の形態にかかる情報処理システム(計算機システム)1は、情報処理装置1と、複数のポート4を介して情報処理システム1と接続されるノード2A、2B、・・・2M(以下、特に区別する必要のないときは、ノード2という。)と、複数のポート4を切り替えるスイッチ3とを有している。なお、本実施の形態においては、ノード2も情報処理装置1と同様の構成として説明するが、ノード2の機能としては、少なくとも情報処理装置1から転送される送信データを受信できる機能があればよい。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing an information transmission system according to the present embodiment. As shown in FIG. 1, an information processing system (computer system) 1 according to an embodiment of the present invention includes an information processing apparatus 1 and
情報処理装置1は、演算処理部10及び主記憶部5を有する。演算処理部10は、コア12及びノード間通信制御部11を有する。
The information processing apparatus 1 includes an
コア12は、データ転送命令を発行する。主記憶部5は、データ転送命令により他のノード2に転送する送信データ8、及びデータ転送命令を実行するために必要な制御情報であるパラメータ9を格納する。ノード間通信制御部11は、コア12からのデータ転送命令を受けて、主記憶部5からパラメータ9及び送信データ8を読み出し、パラメータ9に基づき送信データ8を他のノード2に送信する。
The
主記憶部5は、さらに、送信データの送信状況を書き込むステータスエリア7を有している。ノード間通信制御部1は、ステータスエリア7に書き込まれた情報に基づき命令終了を判断するようソフトウェア制御される。ノード間通信制御部1は、一のデータ転送命令を終了すると、一の終了報告をステータスエリア7に書き込む。
The
スイッチ3は、あるポートが故障した場合にポートを切り替えて別経路で転送する機能を備える。このスイッチ3は、パリティチェック等によりポートの障害を検出する障害検出部32と、障害検出部32が一のポートの障害を検出すると、通信に使用するポートを他のポートに切り替えるポート切替部31と、障害検出部32がポートの障害を検出すると、使用中のポートに障害が発生したことを示す障害情報と、障害発生時に実行中であったデータ転送命令のIDとを、送信元である情報処理装置1に出力する送信部33とを有する。
The switch 3 has a function of switching a port and transferring it through another route when a certain port fails. The switch 3 includes a
この情報処理装置1においては、コア12がデータ転送を指示する非同期データ転送命令を発行するが、この非同期データ転送命令の開始時、先ず、ソフトウェア処理として命令を実行するために必要な制御情報(以下、パラメータ9という。)を主記憶部の特定エリアに書き込み、そのアドレス情報であるポインタを、非同期データ転送命令としてノード間通信制御部11に入力する。ノード間通信制御部11はこのポインタを使用して主記憶部5からパラメータ9を読み出し、命令を組み立てた後、主記憶部5から送信データ8を読み出し、この送信データに、非同期データ転送命令を識別するための識別情報(ID)を付け、これをスイッチ3を介して他のノード2に転送する。ノード間通信制御部11は、命令保持部(図示せず)を有しており、この命令保持部に、上記ID毎に、ステータスエリア7に終了報告を書き込むためのアドレス情報等を含む命令情報と、パラメータのポインタとを対応づけて保持しておく。ノード間通信制御部11は、他のノード2での処理が終了し、一の非同期データ転送命令が正常に終了すると、スイッチ3を経由してIDを含むリプライを受け取る。そして、リプライのIDを元に命令保持部に保持してある命令情報から、正常終了した非同期データ転送命令に対応するステータスエリア7のアドレスを割り出して終了報告を書き込む。ソフトウェアはここを監視することで命令終了を判断する。
In this information processing apparatus 1, the core 12 issues an asynchronous data transfer instruction for instructing data transfer. At the start of this asynchronous data transfer instruction, first, control information necessary for executing the instruction as software processing ( Hereinafter, parameter 9) is written into a specific area of the main storage unit, and a pointer which is the address information is input to the inter-node
一方、スイッチ3内のデータ転送経路で障害(HW障害)が発生し、スイッチ障害を示すリプライを受信するとデータ転送が異常終了する。ここで、本実施の形態におけるノード間通信制御部11は、ポートで障害が発生した場合であってもステータスエリア7にHW障害を書き込まない。そして、リプライに含まれるIDを元に命令保持部で保持している、障害時に実行中であった非同期データ転送命令を実行するためのパラメータのポインタを割り出す。ノード間通信制御部11は、命令保持部で割り出されたポインタを使用して、障害発生時に実行中であった非同期データ転送命令のパラメータ9を主記憶部5から読み出し、非同期データ転送命令を再度実行する。すなわち、パラメータ9に基づき送信データ8を主記憶部5から読み出し、IDと共に出力する。スイッチ3では、ポートが切り替えられ動作を続け別経路を使用してデータ転送が可能である。よってこの送信データは、別径路を経由してノード2に転送される。ノード間通信制御部11は、ノード2からリプライを受け取り、再実行した非同期データ転送命令が正常終了したら、主記憶部5のステータスエリア7に終了報告を書き込む。
On the other hand, when a failure (HW failure) occurs in the data transfer path in the switch 3 and a reply indicating a switch failure is received, the data transfer ends abnormally. Here, the inter-node
本実施の形態においては、ノード間通信制御部11は、各非同期データ転送命令のパラメータ9が主記憶部5のどこに記憶されているかを示すポインタを保持すると共に、ポートで障害が発生した場合であってもステータスエリア7にHW障害を書き込まない。ステータスエリア7にHW障害があったことを書き込まないため、従来のようにジョブがキャンセルされることがない。一方、障害発生時に実行中であった非同期データ転送命令を実行するためのパラメータ9のポインタは命令保持部から取得できるため、このポインタに基づき、パラメータ9を読み出すことができる。よって、このパラメータ9により、再度非同期データ転送命令を実行することができる。すなわち、ジョブの最初からではなく、障害発生時に実行中であった非同期データ転送命令から再実行すればよく、障害発生までに終了している非同期データ転送命令を再度行う必要がないため、データ転送時間のロスを低減することができる。
In the present embodiment, the inter-node
次に、本実施の形態について更に詳細に説明する。図2は、本実施の形態にかかる情報処理装置1の詳細を示すブロック図である。 Next, this embodiment will be described in more detail. FIG. 2 is a block diagram showing details of the information processing apparatus 1 according to the present embodiment.
図2に示すように、ノード間通信制御部11は、ID制御部14と、命令保持部17と、命令終了判定部19とを有する。ID制御部14は、各非同期データ転送命令の識別情報(例えばID#1〜#n)を決定する。命令保持部17は、各ID#1〜#nと、各ID#1〜#nに対応したポインタとを対応付けて保持する。ID#1〜#n及びこれに対応するポインタは、ID制御部14から入力される。ポインタとは、主記憶部5からパラメータ9を読み出すためのアドレス情報である。命令終了判定部19は、ノード間通信相手のノード2からリプライを受け取り、非同期データ転送命令の終了を判定する。命令終了判定部19は、各非同期データ転送命令によるデータ転送が終了する毎に、スイッチ3を介してリプライを受け取る。このリプライには、正常終了した非同期データ転送命令のID#1〜#nが含まれる。命令終了判定部19は、このID#1〜#nを命令保持部17に送る。命令保持部17は、このID#1〜#nの終了報告を主記憶部5のステータスエリア7のいずれのアドレスに書き込めばよいかを示す命令情報を保持しており、命令終了判定部19はこの命令情報を受け取り、この命令情報に基づきステータスエリア7にID#1〜#nに対応する終了報告を書き込む。
As illustrated in FIG. 2, the inter-node
ここで、ポートに障害が発生すると、命令終了判定部19がスイッチ3からその障害情報及び障害発生時に実行中であったデータ転送命令のID(ここでは、ID#3とする)を受け取り、そのID#3を命令保持部17に出力する。ここで、本実施の形態にかかる命令終了判定部19において、スイッチ3から障害情報及びID#3を受け取っても、ステータスエリア7に障害情報(HW障害)を書き込まない。命令保持部17には、命令終了判定部19から受け取ったID#3に対応するポインタが格納されている。ノード間通信制御部11は、このポインタに基づき、ID#3に対応するパラメータ9及び送信データ8を主記憶部5から読み出し、当該送信データを再送する。
Here, when a failure occurs in the port, the instruction
ノード間通信制御部11は、さらに、パラメータ制御部13と、命令発行部15及び命令組立部16からなる命令生成部と、データ送信部18とを有する。パラメータ制御部13は、コア12から非同期データ転送命令としてポインタを受け取り、このポインタに基づき、命令発行部15に命令を実行させるためのパラメータ読み出し指示を生成する。命令発行部15、パラメータ制御部13からパラメータ読み出し指示を受け取り、ID制御部14からIDを受け取る。命令発行部15は、このパラメータ読み出し指示及びIDに基づき、パラメータ9を読み出すためのパラメータ読み出し命令を生成する。このパラメータ読み出し命令により主記憶部5から読み出されたパラメータ9は、命令組立部16に入力される。命令組立部16は、パラメータに基づき、命令を組み立て命令発行部15に出力する。命令発行部15は、この命令を受けて、送信データを読み出すためのデータ読み出し命令を生成する。また、命令発行部15は、更に、各非同期データ転送命令が完了する毎にその終了報告を主記憶部5のステータスエリア7に記録するための命令情報(ステータスエリアでのアドレス情報等を含む)を、各非同期データ転送命令毎に生成し、対応するIDと共に命令保持部17に出力する。
The inter-node
データ送信部18には、上記のデータ読み出し命令により、主記憶部5から送信する送信データ8とIDとが送られる。送信データ8は、送信データ8及びIDを他のノード2に出力する。なお、データ送信部18は、各ポートからへの出力を選択するセレクタを備えてもよい。同様に、命令終了判定部19においても、各ポートからの入力を選択するセレクタを備えてもよい。
The
ここで、上述のようにポートに障害が発生すると、パラメータ制御部13は、命令保持部17からID#3に対応するポインタを受け取り、当該受け取ったポインタに基づき、パラメータ読み出し指示を再生成する。
Here, when a failure occurs in a port as described above, the
命令生成部は、再生成されたID#3に対応するパラメータ読み出し指示に基づきパラメータ9を読み出し、当該パラメータ9に基づきデータ読み出し命令を再生成する。
The command generation unit reads the
データ送信部18は、再生成されたデータ読み出し命令により読み出された、障害発生時に送信中であった送信データ及びID(ID#3)を他のノード2に再送信する。
The
また、パラメータ制御部13は、コア12からデータ転送命令を受け取るとカウントアップするライトポインタWP131と、データ転送命令を受けてパラメータ読み出し指示を生成するとカウントアップするリードポインタRP132とを有している。データ転送命令を受けてライトポインタWP131がカウントアップすると、ライトポインタWP131とリードポインタRP132のポインタ値が不一致となる。ポインタの値が不一致で未実行の命令がある場合に、パラメータ制御部13は、パラメータ読み出し指示を生成する。ここで、ID#3の非同期データ転送命令実行中に障害が発生した場合、命令保持部17からID#3のポインタを受け取り、リードポインタを当該受け取ったポインタの値に戻す。これにより、ライトポインタWP131とリードポインタRP132のポインタ値が不一致となるため、パラメータ制御部13は、リードポインタの値がライトポインタの値に一致するまでパラメータ読み出し指示を生成する。すなわち、現在ID#4の非同期データ転送命令を実行していた場合は、ID#0の非同期データ転送命令(ジョブの最初)からではなく、ID#3の非同期データ転送命令から命令を再実行する。
The
次に、本実施の形態にかかる情報処理装置のデータ転送方法について説明する。コア12は、複数の非同期データ転送命令からなるジョブを実施する。なお、本実施の形態においては、ジョブを構成する命令は、非同期のデータ転送命令として説明するが、ノード間で同期してデータ転送してもよい。
Next, a data transfer method of the information processing apparatus according to this embodiment will be described. The
先ず、正常状態の動作について説明する。情報処理装置1(命令発行ノード)では、先ず、コア12が非同期データ転送命令を実行するためのパラメータ9を生成し、主記憶部5に書き込む。次に、コア12は、このパラメータ9のアドレスを示すポインタを非同期データ転送命令としてパラメータ制御部13に出力する。
First, the operation in the normal state will be described. In the information processing apparatus 1 (instruction issue node), first, the
パラメータ制御部13は、コア12から非同期データ転送命令のポインタを受信すると、ライトポインタWP131をカウントアップする。パラメータ制御部13は、ライトポインタWP131≠リードポインタRP132の状態で主記憶部5に未実行のパラメータ7がある場合に、リードポインタRP132をカウントアップし、ID制御部14と命令保持部17に対してパラメータ読み出し指示を出力する。パラメータ読み出し指示にはポインタの情報が含まれる。
When the
ID制御部14は、現在実行中の非同期データ転送命令のIDを決定し(ここではID#2とする)、命令保持部17にID#2及びこれに対応するパラメータのポインタを出力し、命令発行部17にはID#2を通知する。命令発行部15では、パラメータ読み出し指示とID#2とを使用してパラメータ読み出し命令を生成する。ここで、ID#2のパラメータ9をパラメータ9(#2)とする。
The
命令組立部16は、パラメータ読み出し命令により主記憶部5から読み出されたパラメータ9(#2)を使用して命令を組み立て、命令発行部15にその命令を送る。命令発行部15は、この命令に基づき、主記憶部5に対し、ID#2に対応する送信データを読み出すためのデータ読み出し命令を発行し、同時に命令保持部17に対し、このID#2と、これに対応する、ステータスエリア7のアドレス情報等を含む命令情報とを送る。こうして、命令保持部17には、ID毎のパラメータのポインタと命令情報とが保持される。データ送信部18は、データ読み出し命令により主記憶部5から読み出された送信データ8を、ID#2と共に受け取る。データ送信部18は、送信データにID#2を付加してスイッチ3を介してノード2に送信する。
The
ノード2は、ID#2の非同期データ転送命令によるデータ転送により送信データを受け取ると、これを通知するリプライを情報処理装置1に対して送信する。このリプライにはID#2の情報が含まれる。命令終了判定部19は、正常にデータ転送が終了したID#2の情報を含むリプライを受け取ると、命令保持部17からD#2に対応する命令情報を受け取る。この命令情報には、終了報告を書き込むステータスエリア7のアドレス情報等が含まれ、この命令情報に基づき、命令終了判定部19は、ステータスエリア7の所定のアドレスに終了報告(終了報告#2)を書き込む。
When the
次に、ポートに障害が発生した場合について説明する。スイッチ3のスイッチ回路31bは、データ転送中にポートが故障しデータ転送が不可能な状態となると、転送中の送信データのID(ここではID#3とする)をリプライに付けて情報処理装置1に対して障害通知として送る。一方で、別経路でデータ転送を行えるようにするため、ポートを切り替える。 Next, a case where a failure has occurred in a port will be described. The switch circuit 31b of the switch 3 attaches the ID of transmission data being transferred (ID # 3 here) to the reply when the port fails and data transfer is impossible during the data transfer. 1 is sent as a failure notification. On the other hand, the port is switched to enable data transfer through another route.
命令終了判定部19は、スイッチの障害通知(ID#3の情報を含む)を受け取ると、命令終了判定部19から命令保持部17にこのID#3を通知する。命令保持部17では各IDのパラメータのポインタを保持しているので、障害時に実行中であった非同期データ転送命令のポインタを割り出し、すなわち本例においては、ID#3のポインタを読み出しパラメータ制御部13に出力する。パラメータ制御部13は、ID#3(障害時に実行中であった非同期データ転送命令)のポインタを受け取ると、リードポインタRP132の値をID#3の値まで戻す。これにより、ライトポインタWP131の値と不一致となり、パラメータ制御部13は、上述のようにID制御部14と命令保持部17に対してパラメータ読み出し指示を出力する。これを受けてその他のブロックも正常時と同様に動作し、障害発生時に実行中であったID#3の非同期データ転送命令を再実行する。
When receiving the switch failure notification (including information of ID # 3), the instruction
以上説明したように、データ転送命令を実行中にスイッチ3のスイッチ回路31bのポートで固定障害が発生し、そのポートを使用してのデータ転送が不可能となるとデータ転送命令は異常終了するが、スイッチ回路31bはポートを切り替え別ポートにてデータ転送が可能である。本実施の形態においては、各命令のID毎にポインタを記憶しているため、異常終了した命令(非同期データ転送命令)のパラメータを主記憶部5から読み出すことができる。よって、命令を再度実行して正常終了させることができる。命令終了判定部19は固定障害が発生してもステータスエリア7にHW障害があったことを書き込まないため、ジョブは異常終了することなく、よってジョブを最初から実行せず、障害が発生時他時点から再実行することが可能となる。このように、スイッチ障害があっても、ジョブの開始から障害発生前までに実行終了した命令は再実行しないため、ジョブを最初から再実行する従来に比してデータ転送時間を低減することができる。
As described above, when a fixed failure occurs at the port of the switch circuit 31b of the switch 3 during execution of the data transfer instruction and data transfer using that port becomes impossible, the data transfer instruction ends abnormally. The switch circuit 31b can switch ports and transfer data at another port. In the present embodiment, since the pointer is stored for each ID of each instruction, the parameter of the instruction that ended abnormally (asynchronous data transfer instruction) can be read from the
さらに、本実施の形態においては、命令実行に必要なパラメータ9を主記憶部5に格納する構成となっている。よって、このパラメータ9を読み出せば命令を再実行することができる、すなわち、データを再送信することができる。例えば、データを再送信するために、データ送信部18にバッファを設けてこれを保持しておくこと等が考えられるが、本実施の形態のように複数のパスがある場合はパス毎にバッファを設ける必要等が生じ、HW量が増加する。これに対し、本実施の形態においては、ポインタの情報のみ保持し、このポインタの情報から命令を再構築する、すなわち、パラメータを読み出し、これに基づき送信データを読み出し送信するため、少ないHW資源で本実施の形態の実現が可能である。
Further, in the present embodiment, a
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、情報処理装置1は、図2の構成に限るものではない。各非同期データ転送命令毎に(ID毎に)、そのパラメータを読み出すための情報を保持し、パスに障害が発生するHW障害が発生した場合に、従来のようにHW障害として扱わず、前記のパラメータを読み出すための情報に基づき、パラメータを読み出すことで、障害発生時に実行中であった命令から再実行するよう制御可能であれば、どのような構成であってもよい。また、情報処理システム(計算機システム)を構成するノード数等に特に制限はない。 Note that the present invention is not limited to the above-described embodiment, and can be changed as appropriate without departing from the spirit of the present invention. For example, the information processing apparatus 1 is not limited to the configuration in FIG. For each asynchronous data transfer instruction (for each ID), the information for reading the parameter is held, and when a HW failure that causes a failure in the path occurs, it is not treated as a HW failure as in the prior art. Any configuration may be used as long as it can be controlled to re-execute from the instruction that was being executed when the failure occurred by reading the parameter based on the information for reading the parameter. There is no particular limitation on the number of nodes constituting the information processing system (computer system).
(付記1)
スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置であって、
データ転送命令を発行するコアと、
前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合、ジョブを強制終了することなく、前記異常終了したデータ転送命令を再実行するものであって、
前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生すると、当該情報に基づき、前記異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、情報処理装置。
(付記2)
前記ノード間通信制御部は、
各データ転送命令に識別情報(ID)を付与するID制御部と、
前記IDと、当該IDに対応した前記パラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて保持する命令保持部と、
前記データ転送命令の終了を判定する命令終了判定部とを有し、
前記命令終了判定部は、一のポートの障害発生時に、前記スイッチからその障害情報及び障害発生時に実行中であったデータ転送命令のIDを受け取り、当該IDを前記命令保持部に出力し、
前記ノード間通信制御部は、前記命令保持部に保持されている、前記命令終了判定部から受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、付記1記載の情報処理装置。
(付記3)
前記主記憶部は、前記命令終了判定部が前記送信データの送信状況を書き込むステータスエリアを有し、
前記ノード間通信制御部は、前記ステータスエリアに書き込まれた情報に基づき命令終了を判断するようソフトウェア制御されるものであって、
前記命令終了判定部は、前記スイッチから前記障害情報及びIDを受け取ると、前記ステータスエリアに前記障害情報を書き込まず、受け取ったIDを前記命令保持部に出力する、付記2記載の情報処理装置。
(付記4)
前記ノード間通信制御部は、
前記コアから前記データ転送命令として前記ポインタを受け取り、当該ポインタに基づきパラメータ読み出し指示を生成するパラメータ制御部と、
前記パラメータ読み出し指示を受けてパラメータ読み出し命令を生成すると共に、当該パラメータ読み出し命令により前記主記憶部から読み出されたパラメータに基づきデータ読み出し命令を生成する命令生成部と、
前記データ読み出し命令により前記主記憶部から前記送信データ及びIDを受け取り、前記他のノードに送信するデータ送信部とを更に有し、
前記障害発生時に
前記パラメータ制御部は、前記命令保持部から前記ポインタを受け取り、当該受け取ったポインタに基づき、前記パラメータ読み出し指示を再生成し、
前記命令生成部は、再生成されたパラメータ読み出し指示に基づき前記パラメータを読み出し、当該パラメータに基づき前記データ読み出し命令を再生成し、
前記データ送信部は、再生成されたデータ読み出し命令により、障害発生時に送信中であった送信データ及びIDを前記他のノードに再送信する、付記2又は3項記載の情報処理装置。
(付記5)
前記コアは、前記データ転送命令を実行するための前記パラメータを生成して前記主記憶部に書き込み、そのアドレス情報であるポインタを、当該データ転送命令として前記ノード間通信制御部に出力する、付記1乃至4のいずれか1項に記載の情報処理装置。
(付記6)
前記パラメータ制御部は、前記コアから前記データ転送命令を受け取るとカウントアップするライトポインタと、前記データ転送命令を受けて前記パラメータ読み出し指示を生成するとカウントアップするリードポインタとを有し、前記障害発生時に前記命令保持部から前記ポインタを受け取ると、前記リードポインタを当該受け取ったポインタの値に戻し、当該リードポインタの値が前記ライトポインタの値に一致するまで前記パラメータ読み出し指示を生成する、付記4記載の情報処理装置。
(付記7)
前記コアが出力する前記データ転送命令は、非同期データ転送命令である、付記1乃至6のいずれか1項記載の情報処理装置。
(付記8)
スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置のデータ転送方法であって、
前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、
前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合には、ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了したデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、データ転送方法。
(付記9)
各データ転送命令に識別情報(ID)を付与し、各IDと、各IDに対応したパラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて命令保持部に保持し、
一のポートの障害発生時に、前記スイッチからその障害情報及び障害発生時に実行中であったデータ転送命令のIDを前記スイッチから受け取り、
前記命令保持部に保持されている、前記スイッチから受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、付記8記載のデータ転送方法。
(付記10)
前記主記憶部は、前記命令終了判定部が前記送信データの送信状況を書き込むステータスエリアを有し、
前記情報処理装置は、前記ステータスエリアに書き込まれた情報に基づき命令終了を判断するようソフトウェア制御されるものであって、
前記スイッチから前記障害情報及びIDを受け取ると、前記ステータスエリアに前記障害情報を書き込まず、受け取ったIDを前記命令保持部に出力する、付記9記載のデータ転送方法。
(付記11)
前記データ転送命令として前記ポインタを受け取り、当該ポインタに基づきパラメータ読み出し指示を生成し、
前記パラメータ読み出し指示を受けてパラメータ読み出し命令を生成すると共に、当該パラメータ読み出し命令により前記主記憶部から読み出されたパラメータに基づきデータ読み出し命令を生成し、
前記データ読み出し命令により前記主記憶部から前記送信データ及びIDを受け取り、前記他のノードに送信するものであって、
前記障害発生時には、
前記命令保持部から前記ポインタを受け取り、当該受け取ったポインタに基づき、前記パラメータ読み出し指示を再生成し、
再生成されたパラメータ読み出し指示に基づき前記パラメータを読み出し、当該パラメータに基づき前記データ読み出し命令を再生成し、
再生成されたデータ読み出し命令により、障害発生時に送信中であった送信データ及びIDを前記他のノードに再送信する、付記9又は10項記載のデータ転送方法。
(付記12)
前記データ転送命令を実行するための前記パラメータを生成して前記主記憶部に書き込み、そのアドレス情報であるポインタを、当該データ転送命令として使用する、付記9乃至11のいずれか1項に記載のデータ転送方法。
(付記13)
前記データ転送命令は、非同期データ転送命令である、付記9乃至12のいずれか1項記載のデータ転送方法。
(付記14)
前記データ転送命令を受け取るとライトポインタをカウントアップし、
前記データ転送命令を受けて前記パラメータ読み出し指示を生成するとリードポインタをカウントアップし、
前記障害発生時には、前記命令保持部から前記ポインタを受け取ると、前記リードポインタを当該受け取ったポインタの値に戻し、当該リードポインタの値が前記ライトポインタの値に一致するまで前記パラメータ読み出し指示を生成する、付記11記載のデータ転送方法。
(付記15)
情報処理装置と、
複数のポートにより前記情報処理装置と接続される他のノードと、
前記複数のポートを切り替えるスイッチとを有し、
前記情報処理装置は、
データ転送命令を発行するコアと、
前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
前記スイッチは、一のポートに障害が発生した場合、使用するポートを他のポートに切換え、
前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生してもジョブを強制終了することなく、当該情報に基づき、前記障害の発生により異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、情報処理システム。
(付記16)
データ転送命令によりその識別情報(ID)を付与した送信データを出力する情報処理装置と当該送信データを受信する他のノードとの間を接続する複数のポートの接続を切り替えるスイッチであって、
前記情報処理装置は、一のポートに障害が発生して一のデータ転送命令が異常終了した場合、ジョブを強制終了することなく、他のポートにより前記異常終了したデータ転送命令を再実行するものであって、
前記スイッチは、
前記ポートの障害を検出する障害検出部と、
前記障害検出部が一のポートの障害を検出すると、通信に使用するポートを他のポートに切り替えるポート切替部と、
前記障害検出部がポートの障害を検出すると、使用中のポートに障害が発生したことを示す障害情報と、前記障害発生時に実行中であったデータ転送命令のIDとを、送信元である前記情報処理装置に出力する送信部と、を有するスイッチ。
(付記17)
スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置のデータ転送処理をコンピュータに実行させるためのプログラムであって、
前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、
前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合には、ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了したデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、プログラム。
(Appendix 1)
An information processing apparatus connected to another node by a plurality of ports that can be switched by a switch,
A core that issues data transfer instructions;
A main storage unit for storing transmission data to be transferred to the other node by the data transfer command, and parameters which are control information necessary for executing the data transfer command;
In response to the data transfer command from the core, the parameter and transmission data is read from the main storage unit, and an inter-node communication control unit that transmits transmission data to the other node based on the parameter,
When a failure occurs in one port and one data transfer instruction ends abnormally, the abnormally ended data transfer instruction is re-executed without forcibly ending the job,
The inter-node communication control unit holds information for reading the parameters corresponding to each data transfer command from the main storage unit, and when the failure occurs, executes the abnormally terminated data transfer command based on the information An information processing apparatus that reads a parameter for performing the operation from the main storage unit and re-executes the data transfer instruction.
(Appendix 2)
The inter-node communication control unit
An ID control unit that assigns identification information (ID) to each data transfer command;
An instruction holding unit that holds the ID in association with a pointer that is address information for reading the parameter corresponding to the ID from the main storage unit;
An instruction end determination unit for determining the end of the data transfer instruction;
The instruction end determination unit receives the failure information from the switch and the ID of the data transfer command being executed at the time of the failure when the failure of one port occurs, and outputs the ID to the command holding unit,
The inter-node communication control unit reads the parameter and transmission data from the main storage unit based on the pointer corresponding to the ID received from the command end determination unit and held in the command holding unit, and the transmission data The information processing apparatus according to appendix 1, wherein the information is retransmitted.
(Appendix 3)
The main storage unit has a status area in which the instruction end determination unit writes the transmission status of the transmission data,
The inter-node communication control unit is software-controlled to determine the end of an instruction based on information written in the status area,
3. The information processing apparatus according to
(Appendix 4)
The inter-node communication control unit
A parameter control unit that receives the pointer as the data transfer instruction from the core and generates a parameter read instruction based on the pointer;
An instruction generation unit that receives the parameter read instruction and generates a parameter read instruction, and generates a data read instruction based on the parameter read from the main storage unit by the parameter read instruction;
A data transmission unit that receives the transmission data and ID from the main storage unit in response to the data read command and transmits the data to the other node;
When the failure occurs, the parameter control unit receives the pointer from the instruction holding unit, regenerates the parameter read instruction based on the received pointer,
The command generation unit reads the parameter based on the regenerated parameter read instruction, regenerates the data read command based on the parameter,
The information processing apparatus according to
(Appendix 5)
The core generates the parameter for executing the data transfer instruction, writes the parameter to the main storage unit, and outputs a pointer that is address information to the inter-node communication control unit as the data transfer instruction. The information processing apparatus according to any one of 1 to 4.
(Appendix 6)
The parameter control unit has a write pointer that counts up when receiving the data transfer command from the core, and a read pointer that counts up when receiving the data transfer command and generates the parameter read instruction, Sometimes when the pointer is received from the instruction holding unit, the read pointer is returned to the value of the received pointer, and the parameter read instruction is generated until the value of the read pointer matches the value of the write pointer. The information processing apparatus described.
(Appendix 7)
The information processing apparatus according to any one of appendices 1 to 6, wherein the data transfer instruction output by the core is an asynchronous data transfer instruction.
(Appendix 8)
A data transfer method for an information processing apparatus connected to another node by a plurality of ports that can be switched by a switch,
In response to a data transfer command for instructing the other node to transfer the transmission data, the transmission data and the parameter from the main storage unit in which parameters that are control information necessary for executing the data transfer command are stored. Read and hold the information for reading the parameters corresponding to each data transfer command from the main storage unit,
Based on the read parameter, the transmission data is read from the main storage unit and transmitted to the other node,
When a failure occurs in one port and one data transfer instruction is abnormally terminated, the abnormally terminated data is based on the information for reading the parameters from the main storage unit without forcibly terminating the job. A data transfer method for reading a parameter of a transfer instruction from the main storage unit and re-executing the data transfer instruction.
(Appendix 9)
Identification information (ID) is given to each data transfer instruction, each ID and a pointer that is address information for reading a parameter corresponding to each ID from the main storage unit are associated and held in the instruction holding unit,
When a failure of one port occurs, the failure information from the switch and the ID of the data transfer command being executed at the time of the failure are received from the switch,
The data transfer method according to
(Appendix 10)
The main storage unit has a status area in which the instruction end determination unit writes the transmission status of the transmission data,
The information processing apparatus is software-controlled to determine the end of an instruction based on information written in the status area,
The data transfer method according to
(Appendix 11)
Receiving the pointer as the data transfer instruction, generating a parameter read instruction based on the pointer;
In response to the parameter read instruction, a parameter read command is generated, and a data read command is generated based on the parameter read from the main storage unit by the parameter read command.
Receiving the transmission data and ID from the main storage unit in response to the data read command, and transmitting to the other node;
When the failure occurs,
Receiving the pointer from the instruction holding unit, based on the received pointer, regenerate the parameter read instruction,
Read the parameter based on the regenerated parameter read instruction, regenerate the data read command based on the parameter,
11. The data transfer method according to
(Appendix 12)
12. The
(Appendix 13)
The data transfer method according to any one of
(Appendix 14)
When the data transfer command is received, the write pointer is counted up,
When receiving the data transfer instruction and generating the parameter read instruction, the read pointer is counted up,
When the failure occurs, when the pointer is received from the instruction holding unit, the read pointer is returned to the value of the received pointer, and the parameter read instruction is generated until the value of the read pointer matches the value of the write pointer. The data transfer method according to
(Appendix 15)
An information processing device;
Another node connected to the information processing apparatus by a plurality of ports;
A switch for switching the plurality of ports,
The information processing apparatus includes:
A core that issues data transfer instructions;
A main storage unit for storing transmission data to be transferred to the other node by the data transfer command, and parameters which are control information necessary for executing the data transfer command;
In response to the data transfer command from the core, the parameter and transmission data is read from the main storage unit, and an inter-node communication control unit that transmits transmission data to the other node based on the parameter,
When a failure occurs in one port, the switch switches the port to be used to another port,
The inter-node communication control unit holds information for reading the parameter corresponding to each data transfer command from the main storage unit, based on the information without forcibly terminating the job even if the failure occurs, An information processing system that reads a parameter for executing a data transfer instruction that has ended abnormally due to the occurrence of the failure from the main storage unit and re-executes the data transfer instruction.
(Appendix 16)
A switch that switches connection of a plurality of ports that connect between an information processing device that outputs transmission data to which identification information (ID) is given by a data transfer command and another node that receives the transmission data;
The information processing apparatus re-executes the abnormally terminated data transfer instruction by another port without forcibly terminating the job when a failure occurs in one port and the one data transfer instruction is abnormally terminated. Because
The switch is
A failure detection unit for detecting a failure of the port;
When the failure detection unit detects a failure of one port, a port switching unit that switches a port used for communication to another port;
When the failure detection unit detects a port failure, the failure information indicating that a failure has occurred in the port being used and the ID of the data transfer command being executed at the time of the failure are the transmission source. And a transmission unit that outputs to the information processing apparatus.
(Appendix 17)
A program for causing a computer to execute data transfer processing of an information processing apparatus connected to another node through a plurality of ports that can be switched by a switch,
In response to a data transfer command for instructing the other node to transfer the transmission data, the transmission data and the parameter from the main storage unit in which parameters that are control information necessary for executing the data transfer command are stored. Read and hold the information for reading the parameters corresponding to each data transfer command from the main storage unit,
Based on the read parameter, the transmission data is read from the main storage unit and transmitted to the other node,
When a failure occurs in one port and one data transfer instruction is abnormally terminated, the abnormally terminated data is based on the information for reading the parameters from the main storage unit without forcibly terminating the job. A program for reading a parameter of a transfer command from the main storage unit and re-executing the data transfer command.
1 情報処理装置
2 ノード
3 スイッチ
4 ポート
5 主記憶部
7 ステータスエリア
8 送信データ
9 パラメータ
10 演算処理部
11 ノード間通信制御部
12 コア
13 パラメータ制御部
14 ID制御部
15 命令発行部
16 命令組立部
17 命令保持部
18 データ送信部
19 命令終了判定部
31a 切り替え部
31b 切り替え部
131 ライトポインタWP
132 リードポインタRP
DESCRIPTION OF SYMBOLS 1
132 Read pointer RP
Claims (10)
データ転送命令を発行するコアと、
前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合、ジョブを強制終了することなく、前記異常終了したデータ転送命令を再実行するものであって、
前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生すると、当該情報に基づき、前記異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、情報処理装置。 An information processing apparatus connected to another node by a plurality of ports that can be switched by a switch,
A core that issues data transfer instructions;
A main storage unit for storing transmission data to be transferred to the other node by the data transfer command, and parameters which are control information necessary for executing the data transfer command;
In response to the data transfer command from the core, the parameter and transmission data is read from the main storage unit, and an inter-node communication control unit that transmits transmission data to the other node based on the parameter,
When a failure occurs in one port and one data transfer instruction ends abnormally, the abnormally ended data transfer instruction is re-executed without forcibly ending the job,
The inter-node communication control unit holds information for reading the parameters corresponding to each data transfer command from the main storage unit, and when the failure occurs, executes the abnormally terminated data transfer command based on the information An information processing apparatus that reads a parameter for performing the operation from the main storage unit and re-executes the data transfer instruction.
各データ転送命令に識別情報(ID)を付与するID制御部と、
前記IDと、当該IDに対応した前記パラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて保持する命令保持部と、
前記データ転送命令の終了を判定する命令終了判定部とを有し、
前記命令終了判定部は、一のポートの障害発生時に、前記スイッチからその障害情報及び障害発生時に実行中であったデータ転送命令のIDを受け取り、当該IDを前記命令保持部に出力し、
前記ノード間通信制御部は、前記命令保持部に保持されている、前記命令終了判定部から受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、請求項1記載の情報処理装置。 The inter-node communication control unit
An ID control unit that assigns identification information (ID) to each data transfer command;
An instruction holding unit that holds the ID in association with a pointer that is address information for reading the parameter corresponding to the ID from the main storage unit;
An instruction end determination unit for determining the end of the data transfer instruction;
The instruction end determination unit receives the failure information from the switch and the ID of the data transfer command being executed at the time of the failure when the failure of one port occurs, and outputs the ID to the command holding unit,
The inter-node communication control unit reads the parameter and transmission data from the main storage unit based on the pointer corresponding to the ID received from the command end determination unit and held in the command holding unit, and the transmission data The information processing apparatus according to claim 1, wherein
前記ノード間通信制御部は、前記ステータスエリアに書き込まれた情報に基づき命令終了を判断するようソフトウェア制御されるものであって、
前記命令終了判定部は、前記スイッチから前記障害情報及びIDを受け取ると、前記ステータスエリアに前記障害情報を書き込まず、受け取ったIDを前記命令保持部に出力する、請求項2記載の情報処理装置。 The main storage unit has a status area in which the instruction end determination unit writes the transmission status of the transmission data,
The inter-node communication control unit is software-controlled to determine the end of an instruction based on information written in the status area,
3. The information processing apparatus according to claim 2, wherein when receiving the failure information and the ID from the switch, the command end determination unit outputs the received ID to the command holding unit without writing the failure information in the status area. .
前記コアから前記データ転送命令として前記ポインタを受け取り、当該ポインタに基づきパラメータ読み出し指示を生成するパラメータ制御部と、
前記パラメータ読み出し指示を受けてパラメータ読み出し命令を生成すると共に、当該パラメータ読み出し命令により前記主記憶部から読み出されたパラメータに基づきデータ読み出し命令を生成する命令生成部と、
前記データ読み出し命令により前記主記憶部から前記送信データ及びIDを受け取り、前記他のノードに送信するデータ送信部とを更に有し、
前記障害発生時に
前記パラメータ制御部は、前記命令保持部から前記ポインタを受け取り、当該受け取ったポインタに基づき、前記パラメータ読み出し指示を再生成し、
前記命令生成部は、再生成されたパラメータ読み出し指示に基づき前記パラメータを読み出し、当該パラメータに基づき前記データ読み出し命令を再生成し、
前記データ送信部は、再生成されたデータ読み出し命令により、障害発生時に送信中であった送信データ及びIDを前記他のノードに再送信する、請求項2又は3項記載の情報処理装置。 The inter-node communication control unit
A parameter control unit that receives the pointer as the data transfer instruction from the core and generates a parameter read instruction based on the pointer;
An instruction generation unit that receives the parameter read instruction and generates a parameter read instruction, and generates a data read instruction based on the parameter read from the main storage unit by the parameter read instruction;
A data transmission unit that receives the transmission data and ID from the main storage unit in response to the data read command and transmits the data to the other node;
When the failure occurs, the parameter control unit receives the pointer from the instruction holding unit, regenerates the parameter read instruction based on the received pointer,
The command generation unit reads the parameter based on the regenerated parameter read instruction, regenerates the data read command based on the parameter,
The information processing apparatus according to claim 2, wherein the data transmission unit retransmits the transmission data and the ID that were being transmitted when the failure occurred to the other node according to the regenerated data read command.
前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、
前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合には、ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了したデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、データ転送方法。 A data transfer method for an information processing apparatus connected to another node by a plurality of ports that can be switched by a switch,
In response to a data transfer command for instructing the other node to transfer the transmission data, the transmission data and the parameter from the main storage unit in which parameters that are control information necessary for executing the data transfer command are stored. Read and hold the information for reading the parameters corresponding to each data transfer command from the main storage unit,
Based on the read parameter, the transmission data is read from the main storage unit and transmitted to the other node,
When a failure occurs in one port and one data transfer instruction is abnormally terminated, the abnormally terminated data is based on the information for reading the parameters from the main storage unit without forcibly terminating the job. A data transfer method for reading a parameter of a transfer instruction from the main storage unit and re-executing the data transfer instruction.
一のポートの障害発生時に、その障害情報及び障害発生時に実行中であったデータ転送命令のIDを前記スイッチから受け取り、
前記命令保持部に保持されている、前記スイッチから受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、請求項9記載のデータ転送方法。 Identification information (ID) is given to each data transfer instruction, each ID and a pointer that is address information for reading a parameter corresponding to each ID from the main storage unit are associated and held in the instruction holding unit,
When a failure occurs in one port, the failure information and the ID of the data transfer command being executed at the time of the failure are received from the switch,
10. The data transfer according to claim 9, wherein the parameter and transmission data are read from the main storage unit based on a pointer corresponding to the ID received from the switch and held in the command holding unit, and the transmission data is retransmitted. Method.
複数のポートにより前記情報処理装置と接続される他のノードと、
前記複数のポートを切り替えるスイッチとを有し、
前記情報処理装置は、
データ転送命令を発行するコアと、
前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
前記スイッチは、一のポートに障害が発生した場合、使用するポートを他のポートに切換え、
前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生してもジョブを強制終了することなく、当該情報に基づき、前記障害の発生により異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、情報処理システム。 An information processing device;
Another node connected to the information processing apparatus by a plurality of ports;
A switch for switching the plurality of ports,
The information processing apparatus includes:
A core that issues data transfer instructions;
A main storage unit for storing transmission data to be transferred to the other node by the data transfer command, and parameters which are control information necessary for executing the data transfer command;
In response to the data transfer command from the core, the parameter and transmission data is read from the main storage unit, and an inter-node communication control unit that transmits transmission data to the other node based on the parameter,
When a failure occurs in one port, the switch switches the port to be used to another port,
The inter-node communication control unit holds information for reading the parameter corresponding to each data transfer command from the main storage unit, based on the information without forcibly terminating the job even if the failure occurs, An information processing system that reads a parameter for executing a data transfer instruction that has ended abnormally due to the occurrence of the failure from the main storage unit and re-executes the data transfer instruction.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011006876A JP5669193B2 (en) | 2011-01-17 | 2011-01-17 | Information processing apparatus, data transfer method, and information processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011006876A JP5669193B2 (en) | 2011-01-17 | 2011-01-17 | Information processing apparatus, data transfer method, and information processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012150544A true JP2012150544A (en) | 2012-08-09 |
JP5669193B2 JP5669193B2 (en) | 2015-02-12 |
Family
ID=46792752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011006876A Active JP5669193B2 (en) | 2011-01-17 | 2011-01-17 | Information processing apparatus, data transfer method, and information processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5669193B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008269346A (en) * | 2007-04-20 | 2008-11-06 | Nuflare Technology Inc | Data transfer system |
JP2009267771A (en) * | 2008-04-25 | 2009-11-12 | Hitachi Ltd | Information processor, and path control method |
-
2011
- 2011-01-17 JP JP2011006876A patent/JP5669193B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008269346A (en) * | 2007-04-20 | 2008-11-06 | Nuflare Technology Inc | Data transfer system |
JP2009267771A (en) * | 2008-04-25 | 2009-11-12 | Hitachi Ltd | Information processor, and path control method |
Also Published As
Publication number | Publication date |
---|---|
JP5669193B2 (en) | 2015-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101207408B (en) | Apparatus and method of synthesis fault detection for main-spare taking turns | |
JP4529767B2 (en) | Cluster configuration computer system and system reset method thereof | |
JP5548647B2 (en) | Partial failure handling method in computer system | |
WO2015098589A1 (en) | Cluster system, server device, cluster system management method, and computer-readable recording medium | |
JP6429188B2 (en) | Relay device | |
CN111585835A (en) | Control method and device for out-of-band management system and storage medium | |
US20150098317A1 (en) | Linear protection switching method and apparatus for protecting network segmented into multi-domain | |
JP6190281B2 (en) | Relay system and switch device | |
US8108736B2 (en) | Multi-partition computer system, failure handling method and program therefor | |
JP5669193B2 (en) | Information processing apparatus, data transfer method, and information processing system | |
JP4806382B2 (en) | Redundant system | |
JP6134720B2 (en) | Connection method | |
JP5908068B2 (en) | Standby redundant unit | |
JP6052150B2 (en) | Relay device | |
JP2016058835A (en) | Relay system and switch device | |
JP5104773B2 (en) | Data transfer system, data transfer device, and data transfer method | |
JP4131263B2 (en) | Multi-node system, node device, inter-node crossbar switch, and failure processing method | |
CN100490343C (en) | A method and device for realizing switching between main and backup units in communication equipment | |
US8625585B2 (en) | Switch apparatus | |
JPWO2007096987A1 (en) | Error control device | |
JP4564412B2 (en) | Network device, network system, and toughness confirmation method | |
JP2011049835A (en) | Network trouble detection device and network trouble detection program | |
US20230281066A1 (en) | Device Event Notification | |
WO2008062511A1 (en) | Multiprocessor system | |
JP5449906B2 (en) | Diagnostic method of signal for abnormal processing and duplex computer system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140703 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20140807 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140812 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5669193 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |