JP5669193B2 - 情報処理装置、データ転送方法、及び情報処理システム - Google Patents

情報処理装置、データ転送方法、及び情報処理システム Download PDF

Info

Publication number
JP5669193B2
JP5669193B2 JP2011006876A JP2011006876A JP5669193B2 JP 5669193 B2 JP5669193 B2 JP 5669193B2 JP 2011006876 A JP2011006876 A JP 2011006876A JP 2011006876 A JP2011006876 A JP 2011006876A JP 5669193 B2 JP5669193 B2 JP 5669193B2
Authority
JP
Japan
Prior art keywords
data transfer
instruction
parameter
read
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011006876A
Other languages
English (en)
Other versions
JP2012150544A (ja
Inventor
浩司 桐原
浩司 桐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2011006876A priority Critical patent/JP5669193B2/ja
Publication of JP2012150544A publication Critical patent/JP2012150544A/ja
Application granted granted Critical
Publication of JP5669193B2 publication Critical patent/JP5669193B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ノード間でデータ転送する情報処理システム、当該情報処理システムを構成する情報処理装置及びそのデータ転送方法に関する。
データを送受信する際に、ノード間を複数のパスで接続しておき、現在使用しているパスに何らかの異常が発生した場合、他のパスに切り替えてデータの送受信を行うシステムがある。
図3は、従来の情報処理システムを示す図である。図3に示すように、従来の情報処理システム(計算機システム)100は、情報処理装置100と、複数のポート4を介して情報処理システム1と接続されるノード102A、102B、・・・102M(以下、特に区別する必要のないときは、ノード102という。)と、複数のポート104を切り替えるスイッチ103とを有している。
スイッチ103は、あるポートが故障した場合にポートを切り替えて別経路で転送する機能を備える。
情報処理装置100もノードの1つである。情報処理装置100及びノード102は、演算処理部110及び主記憶部104を有する。演算処理部110は、コア112及びノード間通信制御部111を有する。
コア112は、データ転送命令を発行する。主記憶部105は、データ転送命令により他のノード102に転送する送信データ108、及びデータ転送命令を実行するために必要な制御情報であるパラメータ109を格納する。ノード間通信制御部111は、コア112からのデータ転送命令を受けて、主記憶部104からパラメータ109及び送信データ108を読み出し、パラメータ109に基づき送信データ108を他のノード102に送信する。
主記憶部105は、さらに、送信データの送信状況を書き込むステータスエリア107を有している。ノード間通信制御部111は、ステータスエリア107に書き込まれた情報に基づき命令終了を判断するようソフトウェア制御される。ノード間通信制御部111は、一のデータ転送命令を終了すると、一の終了報告をステータスエリア107に書き込む。ここで、スイッチ103がポートの障害を検出すると、ノード間通信制御部111は、この障害情報を受け取り、ステータスエリア107にハードウェア障害が生じたこと記録する。
他の従来技術としては、下記のものが公知である。特許文献1には、周辺装置の試験方法の技術が記載されている。特許文献1に記載の技術は、周辺装置を試験する試験プログラムと、この試験プログラムを実行するCPUとを有する。CPUは、入出力動作指示手段を有し、この入出力動作指示手段により、周辺処理装置及びチャネルを介して入出力処理装置と接続された周辺装置に対し、試験プログラムからの入出力動作を入出力処理装置に指示する。そして、入出力処理装置、チャネル又は周辺処理装置に障害が発生した時に、周辺装置の試験が異常終了してしまうことを防止するものである。
特許文献2には、イーサネット(登録商標)を介して対抗機と通信を行うコールサーバであって、運用ポートと待機ポートの2重化ポート構造を備えたコールサーバが記載されている。当該コールサーバは、PCI(Peripheral components Interconnect)バスのバスマスタ制御により運用ポート(ポートA)と待機ポート(ポートB)を切り替えるとともに、ARP(Address Resolution Protocol)プロトコルのパケットをルータ(対抗機)に送信し、ルータ(対抗機)のルーティングテーブル(MACアドレステーブル)を変更させ、ルータのポートの切り替えを実行させるポート切り替え手段を備える。
特開平3−266155号公報 特開2003−348128号公報
図3に示す従来の情報処理システムにおいては、スイッチ103のスイッチ回路のポートで固定故障(障害)が発生した場合、ポートを切り替えて別経路を使用してデータ転送を行うことができる。しかしながら、ポートで障害が生じると、障害発生時に実行していたジョブは異常終了し、ノード間通信制御部111は、ステータスエリア107にHW障害(HW障害#2)を書き込む。これによりソフトウェアに障害が報告されるため、ジョブはキャンセルされ、最初からジョブを再度実行することとなり、データ転送の際の時間のロスが大きいという問題点がある。
また、特許文献1に記載の技術では、出力された結果が異常である場合、別のパスを使用し、実行中のプログラムは一旦停止、プログラムを最初から再実行することで周辺機器のテストを行う。よって、時間のロスが大きいという問題点がある。
さらに、特許文献2に記載の技術では、ポートに障害が発生した際には予備のポートに切り替えるが、上述と同様、通常はハードウェア障害が発生するとジョブは強制終了され、あらためて最初からジョブを実行しなければならず、時間のロスが大きいという問題点がある。
本発明にかかる情報処理装置は、スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置であって、データ転送命令を発行するコアと、前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、一のポートに障害が発生して一のデータ転送命令が異常終了した場合、ジョブを強制終了することなく、前記異常終了したデータ転送命令を再実行するものであって、前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生すると、当該情報に基づき、前記異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行するものである。
本発明にかかるデータ転送方法は、スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置のデータ転送方法であって、前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、一のポートに障害が発生して一のデータ転送命令が異常終了した場合には、ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了したデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行するものである。
本発明にかかる情報処理システムは、情報処理装置と、複数のポートにより前記情報処理装置と接続される他のノードと、前記複数のポートを切り替えるスイッチとを有し、前記情報処理装置は、データ転送命令を発行するコアと、前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、前記スイッチは、一のポートに障害が発生した場合、使用するポートを他のポートに切換え、前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生してもジョブを強制終了することなく、当該情報に基づき、前記障害の発生により異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行するものである。
本願発明によれば、送信データを効率よく転送することができる情報処理システム、当該情報処理システムを構成する情報処理装置及びそのデータ転送方法を提供することができる。
本発明の実施の形態にかかる情報送信システムを示すブロック図である。 本発明の実施の形態にかかる情報送信システムの詳細を示すブロック図である。 従来の情報処理システムを示すブロック図である。
以下、図面を参照して本発明の実施の形態について説明する。図1は、本実施の形態にかかる情報送信システムを示すブロック図である。図1に示すように、本発明の実施の形態にかかる情報処理システム(計算機システム)1は、情報処理装置1と、複数のポート4を介して情報処理システム1と接続されるノード2A、2B、・・・2M(以下、特に区別する必要のないときは、ノード2という。)と、複数のポート4を切り替えるスイッチ3とを有している。なお、本実施の形態においては、ノード2も情報処理装置1と同様の構成として説明するが、ノード2の機能としては、少なくとも情報処理装置1から転送される送信データを受信できる機能があればよい。
情報処理装置1は、演算処理部10及び主記憶部5を有する。演算処理部10は、コア12及びノード間通信制御部11を有する。
コア12は、データ転送命令を発行する。主記憶部5は、データ転送命令により他のノード2に転送する送信データ8、及びデータ転送命令を実行するために必要な制御情報であるパラメータ9を格納する。ノード間通信制御部11は、コア12からのデータ転送命令を受けて、主記憶部5からパラメータ9及び送信データ8を読み出し、パラメータ9に基づき送信データ8を他のノード2に送信する。
主記憶部5は、さらに、送信データの送信状況を書き込むステータスエリア7を有している。ノード間通信制御部1は、ステータスエリア7に書き込まれた情報に基づき命令終了を判断するようソフトウェア制御される。ノード間通信制御部1は、一のデータ転送命令を終了すると、一の終了報告をステータスエリア7に書き込む。
スイッチ3は、あるポートが故障した場合にポートを切り替えて別経路で転送する機能を備える。このスイッチ3は、パリティチェック等によりポートの障害を検出する障害検出部32と、障害検出部32が一のポートの障害を検出すると、通信に使用するポートを他のポートに切り替えるポート切替部31と、障害検出部32がポートの障害を検出すると、使用中のポートに障害が発生したことを示す障害情報と、障害発生時に実行中であったデータ転送命令のIDとを、送信元である情報処理装置1に出力する送信部33とを有する。
この情報処理装置1においては、コア12がデータ転送を指示する非同期データ転送命令を発行するが、この非同期データ転送命令の開始時、先ず、ソフトウェア処理として命令を実行するために必要な制御情報(以下、パラメータ9という。)を主記憶部の特定エリアに書き込み、そのアドレス情報であるポインタを、非同期データ転送命令としてノード間通信制御部11に入力する。ノード間通信制御部11はこのポインタを使用して主記憶部5からパラメータ9を読み出し、命令を組み立てた後、主記憶部5から送信データ8を読み出し、この送信データに、非同期データ転送命令を識別するための識別情報(ID)を付け、これをスイッチ3を介して他のノード2に転送する。ノード間通信制御部11は、命令保持部(図示せず)を有しており、この命令保持部に、上記ID毎に、ステータスエリア7に終了報告を書き込むためのアドレス情報等を含む命令情報と、パラメータのポインタとを対応づけて保持しておく。ノード間通信制御部11は、他のノード2での処理が終了し、一の非同期データ転送命令が正常に終了すると、スイッチ3を経由してIDを含むリプライを受け取る。そして、リプライのIDを元に命令保持部に保持してある命令情報から、正常終了した非同期データ転送命令に対応するステータスエリア7のアドレスを割り出して終了報告を書き込む。ソフトウェアはここを監視することで命令終了を判断する。
一方、スイッチ3内のデータ転送経路で障害(HW障害)が発生し、スイッチ障害を示すリプライを受信するとデータ転送が異常終了する。ここで、本実施の形態におけるノード間通信制御部11は、ポートで障害が発生した場合であってもステータスエリア7にHW障害を書き込まない。そして、リプライに含まれるIDを元に命令保持部で保持している、障害時に実行中であった非同期データ転送命令を実行するためのパラメータのポインタを割り出す。ノード間通信制御部11は、命令保持部で割り出されたポインタを使用して、障害発生時に実行中であった非同期データ転送命令のパラメータ9を主記憶部5から読み出し、非同期データ転送命令を再度実行する。すなわち、パラメータ9に基づき送信データ8を主記憶部5から読み出し、IDと共に出力する。スイッチ3では、ポートが切り替えられ動作を続け別経路を使用してデータ転送が可能である。よってこの送信データは、別径路を経由してノード2に転送される。ノード間通信制御部11は、ノード2からリプライを受け取り、再実行した非同期データ転送命令が正常終了したら、主記憶部5のステータスエリア7に終了報告を書き込む。
本実施の形態においては、ノード間通信制御部11は、各非同期データ転送命令のパラメータ9が主記憶部5のどこに記憶されているかを示すポインタを保持すると共に、ポートで障害が発生した場合であってもステータスエリア7にHW障害を書き込まない。ステータスエリア7にHW障害があったことを書き込まないため、従来のようにジョブがキャンセルされることがない。一方、障害発生時に実行中であった非同期データ転送命令を実行するためのパラメータ9のポインタは命令保持部から取得できるため、このポインタに基づき、パラメータ9を読み出すことができる。よって、このパラメータ9により、再度非同期データ転送命令を実行することができる。すなわち、ジョブの最初からではなく、障害発生時に実行中であった非同期データ転送命令から再実行すればよく、障害発生までに終了している非同期データ転送命令を再度行う必要がないため、データ転送時間のロスを低減することができる。
次に、本実施の形態について更に詳細に説明する。図2は、本実施の形態にかかる情報処理装置1の詳細を示すブロック図である。
図2に示すように、ノード間通信制御部11は、ID制御部14と、命令保持部17と、命令終了判定部19とを有する。ID制御部14は、各非同期データ転送命令の識別情報(例えばID#1〜#n)を決定する。命令保持部17は、各ID#1〜#nと、各ID#1〜#nに対応したポインタとを対応付けて保持する。ID#1〜#n及びこれに対応するポインタは、ID制御部14から入力される。ポインタとは、主記憶部5からパラメータ9を読み出すためのアドレス情報である。命令終了判定部19は、ノード間通信相手のノード2からリプライを受け取り、非同期データ転送命令の終了を判定する。命令終了判定部19は、各非同期データ転送命令によるデータ転送が終了する毎に、スイッチ3を介してリプライを受け取る。このリプライには、正常終了した非同期データ転送命令のID#1〜#nが含まれる。命令終了判定部19は、このID#1〜#nを命令保持部17に送る。命令保持部17は、このID#1〜#nの終了報告を主記憶部5のステータスエリア7のいずれのアドレスに書き込めばよいかを示す命令情報を保持しており、命令終了判定部19はこの命令情報を受け取り、この命令情報に基づきステータスエリア7にID#1〜#nに対応する終了報告を書き込む。
ここで、ポートに障害が発生すると、命令終了判定部19がスイッチ3からその障害情報及び障害発生時に実行中であったデータ転送命令のID(ここでは、ID#3とする)を受け取り、そのID#3を命令保持部17に出力する。ここで、本実施の形態にかかる命令終了判定部19において、スイッチ3から障害情報及びID#3を受け取っても、ステータスエリア7に障害情報(HW障害)を書き込まない。命令保持部17には、命令終了判定部19から受け取ったID#3に対応するポインタが格納されている。ノード間通信制御部11は、このポインタに基づき、ID#3に対応するパラメータ9及び送信データ8を主記憶部5から読み出し、当該送信データを再送する。
ノード間通信制御部11は、さらに、パラメータ制御部13と、命令発行部15及び命令組立部16からなる命令生成部と、データ送信部18とを有する。パラメータ制御部13は、コア12から非同期データ転送命令としてポインタを受け取り、このポインタに基づき、命令発行部15に命令を実行させるためのパラメータ読み出し指示を生成する。命令発行部15、パラメータ制御部13からパラメータ読み出し指示を受け取り、ID制御部14からIDを受け取る。命令発行部15は、このパラメータ読み出し指示及びIDに基づき、パラメータ9を読み出すためのパラメータ読み出し命令を生成する。このパラメータ読み出し命令により主記憶部5から読み出されたパラメータ9は、命令組立部16に入力される。命令組立部16は、パラメータに基づき、命令を組み立て命令発行部15に出力する。命令発行部15は、この命令を受けて、送信データを読み出すためのデータ読み出し命令を生成する。また、命令発行部15は、更に、各非同期データ転送命令が完了する毎にその終了報告を主記憶部5のステータスエリア7に記録するための命令情報(ステータスエリアでのアドレス情報等を含む)を、各非同期データ転送命令毎に生成し、対応するIDと共に命令保持部17に出力する。
データ送信部18には、上記のデータ読み出し命令により、主記憶部5から送信する送信データ8とIDとが送られる。送信データ8は、送信データ8及びIDを他のノード2に出力する。なお、データ送信部18は、各ポートからへの出力を選択するセレクタを備えてもよい。同様に、命令終了判定部19においても、各ポートからの入力を選択するセレクタを備えてもよい。
ここで、上述のようにポートに障害が発生すると、パラメータ制御部13は、命令保持部17からID#3に対応するポインタを受け取り、当該受け取ったポインタに基づき、パラメータ読み出し指示を再生成する。
命令生成部は、再生成されたID#3に対応するパラメータ読み出し指示に基づきパラメータ9を読み出し、当該パラメータ9に基づきデータ読み出し命令を再生成する。
データ送信部18は、再生成されたデータ読み出し命令により読み出された、障害発生時に送信中であった送信データ及びID(ID#3)を他のノード2に再送信する。
また、パラメータ制御部13は、コア12からデータ転送命令を受け取るとカウントアップするライトポインタWP131と、データ転送命令を受けてパラメータ読み出し指示を生成するとカウントアップするリードポインタRP132とを有している。データ転送命令を受けてライトポインタWP131がカウントアップすると、ライトポインタWP131とリードポインタRP132のポインタ値が不一致となる。ポインタの値が不一致で未実行の命令がある場合に、パラメータ制御部13は、パラメータ読み出し指示を生成する。ここで、ID#3の非同期データ転送命令実行中に障害が発生した場合、命令保持部17からID#3のポインタを受け取り、リードポインタを当該受け取ったポインタの値に戻す。これにより、ライトポインタWP131とリードポインタRP132のポインタ値が不一致となるため、パラメータ制御部13は、リードポインタの値がライトポインタの値に一致するまでパラメータ読み出し指示を生成する。すなわち、現在ID#4の非同期データ転送命令を実行していた場合は、ID#0の非同期データ転送命令(ジョブの最初)からではなく、ID#3の非同期データ転送命令から命令を再実行する。
次に、本実施の形態にかかる情報処理装置のデータ転送方法について説明する。コア12は、複数の非同期データ転送命令からなるジョブを実施する。なお、本実施の形態においては、ジョブを構成する命令は、非同期のデータ転送命令として説明するが、ノード間で同期してデータ転送してもよい。
先ず、正常状態の動作について説明する。情報処理装置1(命令発行ノード)では、先ず、コア12が非同期データ転送命令を実行するためのパラメータ9を生成し、主記憶部5に書き込む。次に、コア12は、このパラメータ9のアドレスを示すポインタを非同期データ転送命令としてパラメータ制御部13に出力する。
パラメータ制御部13は、コア12から非同期データ転送命令のポインタを受信すると、ライトポインタWP131をカウントアップする。パラメータ制御部13は、ライトポインタWP131≠リードポインタRP132の状態で主記憶部5に未実行のパラメータ7がある場合に、リードポインタRP132をカウントアップし、ID制御部14と命令保持部17に対してパラメータ読み出し指示を出力する。パラメータ読み出し指示にはポインタの情報が含まれる。
ID制御部14は、現在実行中の非同期データ転送命令のIDを決定し(ここではID#2とする)、命令保持部17にID#2及びこれに対応するパラメータのポインタを出力し、命令発行部17にはID#2を通知する。命令発行部15では、パラメータ読み出し指示とID#2とを使用してパラメータ読み出し命令を生成する。ここで、ID#2のパラメータ9をパラメータ9(#2)とする。
命令組立部16は、パラメータ読み出し命令により主記憶部5から読み出されたパラメータ9(#2)を使用して命令を組み立て、命令発行部15にその命令を送る。命令発行部15は、この命令に基づき、主記憶部5に対し、ID#2に対応する送信データを読み出すためのデータ読み出し命令を発行し、同時に命令保持部17に対し、このID#2と、これに対応する、ステータスエリア7のアドレス情報等を含む命令情報とを送る。こうして、命令保持部17には、ID毎のパラメータのポインタと命令情報とが保持される。データ送信部18は、データ読み出し命令により主記憶部5から読み出された送信データ8を、ID#2と共に受け取る。データ送信部18は、送信データにID#2を付加してスイッチ3を介してノード2に送信する。
ノード2は、ID#2の非同期データ転送命令によるデータ転送により送信データを受け取ると、これを通知するリプライを情報処理装置1に対して送信する。このリプライにはID#2の情報が含まれる。命令終了判定部19は、正常にデータ転送が終了したID#2の情報を含むリプライを受け取ると、命令保持部17からD#2に対応する命令情報を受け取る。この命令情報には、終了報告を書き込むステータスエリア7のアドレス情報等が含まれ、この命令情報に基づき、命令終了判定部19は、ステータスエリア7の所定のアドレスに終了報告(終了報告#2)を書き込む。
次に、ポートに障害が発生した場合について説明する。スイッチ3のスイッチ回路31bは、データ転送中にポートが故障しデータ転送が不可能な状態となると、転送中の送信データのID(ここではID#3とする)をリプライに付けて情報処理装置1に対して障害通知として送る。一方で、別経路でデータ転送を行えるようにするため、ポートを切り替える。
命令終了判定部19は、スイッチの障害通知(ID#3の情報を含む)を受け取ると、命令終了判定部19から命令保持部17にこのID#3を通知する。命令保持部17では各IDのパラメータのポインタを保持しているので、障害時に実行中であった非同期データ転送命令のポインタを割り出し、すなわち本例においては、ID#3のポインタを読み出しパラメータ制御部13に出力する。パラメータ制御部13は、ID#3(障害時に実行中であった非同期データ転送命令)のポインタを受け取ると、リードポインタRP132の値をID#3の値まで戻す。これにより、ライトポインタWP131の値と不一致となり、パラメータ制御部13は、上述のようにID制御部14と命令保持部17に対してパラメータ読み出し指示を出力する。これを受けてその他のブロックも正常時と同様に動作し、障害発生時に実行中であったID#3の非同期データ転送命令を再実行する。
以上説明したように、データ転送命令を実行中にスイッチ3のスイッチ回路31bのポートで固定障害が発生し、そのポートを使用してのデータ転送が不可能となるとデータ転送命令は異常終了するが、スイッチ回路31bはポートを切り替え別ポートにてデータ転送が可能である。本実施の形態においては、各命令のID毎にポインタを記憶しているため、異常終了した命令(非同期データ転送命令)のパラメータを主記憶部5から読み出すことができる。よって、命令を再度実行して正常終了させることができる。命令終了判定部19は固定障害が発生してもステータスエリア7にHW障害があったことを書き込まないため、ジョブは異常終了することなく、よってジョブを最初から実行せず、障害が発生時他時点から再実行することが可能となる。このように、スイッチ障害があっても、ジョブの開始から障害発生前までに実行終了した命令は再実行しないため、ジョブを最初から再実行する従来に比してデータ転送時間を低減することができる。
さらに、本実施の形態においては、命令実行に必要なパラメータ9を主記憶部5に格納する構成となっている。よって、このパラメータ9を読み出せば命令を再実行することができる、すなわち、データを再送信することができる。例えば、データを再送信するために、データ送信部18にバッファを設けてこれを保持しておくこと等が考えられるが、本実施の形態のように複数のパスがある場合はパス毎にバッファを設ける必要等が生じ、HW量が増加する。これに対し、本実施の形態においては、ポインタの情報のみ保持し、このポインタの情報から命令を再構築する、すなわち、パラメータを読み出し、これに基づき送信データを読み出し送信するため、少ないHW資源で本実施の形態の実現が可能である。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、情報処理装置1は、図2の構成に限るものではない。各非同期データ転送命令毎に(ID毎に)、そのパラメータを読み出すための情報を保持し、パスに障害が発生するHW障害が発生した場合に、従来のようにHW障害として扱わず、前記のパラメータを読み出すための情報に基づき、パラメータを読み出すことで、障害発生時に実行中であった命令から再実行するよう制御可能であれば、どのような構成であってもよい。また、情報処理システム(計算機システム)を構成するノード数等に特に制限はない。
(付記1)
スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置であって、
データ転送命令を発行するコアと、
前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合、ジョブを強制終了することなく、前記異常終了したデータ転送命令を再実行するものであって、
前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生すると、当該情報に基づき、前記異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、情報処理装置。
(付記2)
前記ノード間通信制御部は、
各データ転送命令に識別情報(ID)を付与するID制御部と、
前記IDと、当該IDに対応した前記パラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて保持する命令保持部と、
前記データ転送命令の終了を判定する命令終了判定部とを有し、
前記命令終了判定部は、一のポートの障害発生時に、前記スイッチからその障害情報及び障害発生時に実行中であったデータ転送命令のIDを受け取り、当該IDを前記命令保持部に出力し、
前記ノード間通信制御部は、前記命令保持部に保持されている、前記命令終了判定部から受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、付記1記載の情報処理装置。
(付記3)
前記主記憶部は、前記命令終了判定部が前記送信データの送信状況を書き込むステータスエリアを有し、
前記ノード間通信制御部は、前記ステータスエリアに書き込まれた情報に基づき命令終了を判断するようソフトウェア制御されるものであって、
前記命令終了判定部は、前記スイッチから前記障害情報及びIDを受け取ると、前記ステータスエリアに前記障害情報を書き込まず、受け取ったIDを前記命令保持部に出力する、付記2記載の情報処理装置。
(付記4)
前記ノード間通信制御部は、
前記コアから前記データ転送命令として前記ポインタを受け取り、当該ポインタに基づきパラメータ読み出し指示を生成するパラメータ制御部と、
前記パラメータ読み出し指示を受けてパラメータ読み出し命令を生成すると共に、当該パラメータ読み出し命令により前記主記憶部から読み出されたパラメータに基づきデータ読み出し命令を生成する命令生成部と、
前記データ読み出し命令により前記主記憶部から前記送信データ及びIDを受け取り、前記他のノードに送信するデータ送信部とを更に有し、
前記障害発生時に
前記パラメータ制御部は、前記命令保持部から前記ポインタを受け取り、当該受け取ったポインタに基づき、前記パラメータ読み出し指示を再生成し、
前記命令生成部は、再生成されたパラメータ読み出し指示に基づき前記パラメータを読み出し、当該パラメータに基づき前記データ読み出し命令を再生成し、
前記データ送信部は、再生成されたデータ読み出し命令により、障害発生時に送信中であった送信データ及びIDを前記他のノードに再送信する、付記2又は3項記載の情報処理装置。
(付記5)
前記コアは、前記データ転送命令を実行するための前記パラメータを生成して前記主記憶部に書き込み、そのアドレス情報であるポインタを、当該データ転送命令として前記ノード間通信制御部に出力する、付記1乃至4のいずれか1項に記載の情報処理装置。
(付記6)
前記パラメータ制御部は、前記コアから前記データ転送命令を受け取るとカウントアップするライトポインタと、前記データ転送命令を受けて前記パラメータ読み出し指示を生成するとカウントアップするリードポインタとを有し、前記障害発生時に前記命令保持部から前記ポインタを受け取ると、前記リードポインタを当該受け取ったポインタの値に戻し、当該リードポインタの値が前記ライトポインタの値に一致するまで前記パラメータ読み出し指示を生成する、付記4記載の情報処理装置。
(付記7)
前記コアが出力する前記データ転送命令は、非同期データ転送命令である、付記1乃至6のいずれか1項記載の情報処理装置。
(付記8)
スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置のデータ転送方法であって、
前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、
前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合には、ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了したデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、データ転送方法。
(付記9)
各データ転送命令に識別情報(ID)を付与し、各IDと、各IDに対応したパラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて命令保持部に保持し、
一のポートの障害発生時に、前記スイッチからその障害情報及び障害発生時に実行中であったデータ転送命令のIDを前記スイッチから受け取り、
前記命令保持部に保持されている、前記スイッチから受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、付記8記載のデータ転送方法。
(付記10)
前記主記憶部は、前記命令終了判定部が前記送信データの送信状況を書き込むステータスエリアを有し、
前記情報処理装置は、前記ステータスエリアに書き込まれた情報に基づき命令終了を判断するようソフトウェア制御されるものであって、
前記スイッチから前記障害情報及びIDを受け取ると、前記ステータスエリアに前記障害情報を書き込まず、受け取ったIDを前記命令保持部に出力する、付記9記載のデータ転送方法。
(付記11)
前記データ転送命令として前記ポインタを受け取り、当該ポインタに基づきパラメータ読み出し指示を生成し、
前記パラメータ読み出し指示を受けてパラメータ読み出し命令を生成すると共に、当該パラメータ読み出し命令により前記主記憶部から読み出されたパラメータに基づきデータ読み出し命令を生成し、
前記データ読み出し命令により前記主記憶部から前記送信データ及びIDを受け取り、前記他のノードに送信するものであって、
前記障害発生時には、
前記命令保持部から前記ポインタを受け取り、当該受け取ったポインタに基づき、前記パラメータ読み出し指示を再生成し、
再生成されたパラメータ読み出し指示に基づき前記パラメータを読み出し、当該パラメータに基づき前記データ読み出し命令を再生成し、
再生成されたデータ読み出し命令により、障害発生時に送信中であった送信データ及びIDを前記他のノードに再送信する、付記9又は10項記載のデータ転送方法。
(付記12)
前記データ転送命令を実行するための前記パラメータを生成して前記主記憶部に書き込み、そのアドレス情報であるポインタを、当該データ転送命令として使用する、付記9乃至11のいずれか1項に記載のデータ転送方法。
(付記13)
前記データ転送命令は、非同期データ転送命令である、付記9乃至12のいずれか1項記載のデータ転送方法。
(付記14)
前記データ転送命令を受け取るとライトポインタをカウントアップし、
前記データ転送命令を受けて前記パラメータ読み出し指示を生成するとリードポインタをカウントアップし、
前記障害発生時には、前記命令保持部から前記ポインタを受け取ると、前記リードポインタを当該受け取ったポインタの値に戻し、当該リードポインタの値が前記ライトポインタの値に一致するまで前記パラメータ読み出し指示を生成する、付記11記載のデータ転送方法。
(付記15)
情報処理装置と、
複数のポートにより前記情報処理装置と接続される他のノードと、
前記複数のポートを切り替えるスイッチとを有し、
前記情報処理装置は、
データ転送命令を発行するコアと、
前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
前記スイッチは、一のポートに障害が発生した場合、使用するポートを他のポートに切換え、
前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを主記憶部から読み出すための情報を保持し、前記障害が発生してもジョブを強制終了することなく、当該情報に基づき、前記障害の発生により異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、情報処理システム。
(付記16)
データ転送命令によりその識別情報(ID)を付与した送信データを出力する情報処理装置と当該送信データを受信する他のノードとの間を接続する複数のポートの接続を切り替えるスイッチであって、
前記情報処理装置は、一のポートに障害が発生して一のデータ転送命令が異常終了した場合、ジョブを強制終了することなく、他のポートにより前記異常終了したデータ転送命令を再実行するものであって、
前記スイッチは、
前記ポートの障害を検出する障害検出部と、
前記障害検出部が一のポートの障害を検出すると、通信に使用するポートを他のポートに切り替えるポート切替部と、
前記障害検出部がポートの障害を検出すると、使用中のポートに障害が発生したことを示す障害情報と、前記障害発生時に実行中であったデータ転送命令のIDとを、送信元である前記情報処理装置に出力する送信部と、を有するスイッチ。
(付記17)
スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置のデータ転送処理をコンピュータに実行させるためのプログラムであって、
前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、
前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、
一のポートに障害が発生して一のデータ転送命令が異常終了した場合には、ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了したデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行する、プログラム。
1 情報処理装置
2 ノード
3 スイッチ
4 ポート
5 主記憶部
7 ステータスエリア
8 送信データ
9 パラメータ
10 演算処理部
11 ノード間通信制御部
12 コア
13 パラメータ制御部
14 ID制御部
15 命令発行部
16 命令組立部
17 命令保持部
18 データ送信部
19 命令終了判定部
31a 切り替え部
31b 切り替え部
131 ライトポインタWP
132 リードポインタRP

Claims (8)

  1. スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置であって、
    データ転送命令を発行するコアと、
    前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
    前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
    一のポートに障害が発生して、複数のデータ転送命令からなるジョブ中の一のデータ転送命令が異常終了した場合、前記ジョブを強制終了することなく、前記異常終了した前記一のデータ転送命令を再実行するものであって、
    前記スイッチは、前記障害が発生すると、別経路でデータ転送を行えるようにするため、前記ポートを切り替え、
    前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを前記主記憶部から読み出すための情報を保持し、前記障害が発生すると、当該情報に基づき、前記異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行し、
    前記ノード間通信制御部は、さらに
    各データ転送命令に識別情報(ID)を付与するID制御部と、
    前記IDと、当該IDに対応した前記パラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて保持する命令保持部と、
    前記データ転送命令の終了を判定する命令終了判定部とを有し、
    前記命令終了判定部は、前記一のポートの障害発生時に、前記スイッチからその障害情報及び障害発生時に実行中であったデータ転送命令のIDを受け取り、当該IDを前記命令保持部に出力し、
    前記ノード間通信制御部は、前記命令保持部に保持されている、前記命令終了判定部から受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、情報処理装置。
  2. 前記主記憶部は、前記命令終了判定部が前記送信データの送信状況を書き込むステータスエリアを有し、
    前記ノード間通信制御部は、前記ステータスエリアに書き込まれた情報に基づき命令終了を判断するようソフトウェア制御されるものであって、
    前記命令終了判定部は、前記スイッチから前記障害情報及びIDを受け取ると、前記ステータスエリアに前記障害情報を書き込まず、受け取ったIDを前記命令保持部に出力する、請求項記載の情報処理装置。
  3. 前記ノード間通信制御部は、
    前記コアから前記データ転送命令として前記ポインタを受け取り、当該ポインタに基づきパラメータ読み出し指示を生成するパラメータ制御部と、
    前記パラメータ読み出し指示を受けてパラメータ読み出し命令を生成すると共に、当該パラメータ読み出し命令により前記主記憶部から読み出されたパラメータに基づきデータ読み出し命令を生成する命令生成部と、
    前記データ読み出し命令により前記主記憶部から前記送信データ及びIDを受け取り、前記他のノードに送信するデータ送信部とを更に有し、
    前記障害発生時に
    前記パラメータ制御部は、前記命令保持部から前記ポインタを受け取り、当該受け取ったポインタに基づき、前記パラメータ読み出し指示を再生成し、
    前記命令生成部は、再生成されたパラメータ読み出し指示に基づき前記パラメータを読み出し、当該パラメータに基づき前記データ読み出し命令を再生成し、
    前記データ送信部は、再生成されたデータ読み出し命令により、障害発生時に送信中であった送信データ及びIDを前記他のノードに再送信する、請求項又は記載の情報処理装置。
  4. 前記コアは、前記データ転送命令を実行するための前記パラメータを生成して前記主記憶部に書き込み、そのアドレス情報であるポインタを、当該データ転送命令として前記ノード間通信制御部に出力する、請求項1乃至のいずれか1項に記載の情報処理装置。
  5. 前記パラメータ制御部は、前記コアから前記データ転送命令を受け取るとカウントアップするライトポインタと、前記データ転送命令を受けて前記パラメータ読み出し指示を生成するとカウントアップするリードポインタとを有し、前記障害発生時に前記命令保持部から前記ポインタを受け取ると、前記リードポインタを当該受け取ったポインタの値に戻し、当該リードポインタの値が前記ライトポインタの値に一致するまで前記パラメータ読み出し指示を生成する、請求項記載の情報処理装置。
  6. 前記コアが出力する前記データ転送命令は、非同期データ転送命令である、請求項1乃至のいずれか1項記載の情報処理装置。
  7. スイッチにより切替可能な複数のポートにより他のノードと接続された情報処理装置のデータ転送方法であって、
    前記他のノードに送信データの転送を指示するデータ転送命令を受けて、送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータが格納された主記憶部から前記パラメータを読み出すと共に、各データ転送命令に対応するパラメータを前記主記憶部から読み出すための情報を保持しておき、
    前記読み出したパラメータに基づき前記主記憶部から前記送信データを読み出して前記他のノードに送信し、
    一のポートに障害が発生して、複数のデータ転送命令からなるジョブ中の一のデータ転送命令が異常終了した場合には、前記ジョブを強制終了することなく、前記パラメータを前記主記憶部から読み出すための情報に基づき、前記異常終了した前記一のデータ転送命令のパラメータを前記主記憶部から読み出し当該データ転送命令を再実行し、
    前記障害が発生すると、前記スイッチにおいて、別経路でデータ転送を行えるようにするため、前記ポートを切り替え、
    各データ転送命令に識別情報(ID)を付与し、各IDと、各IDに対応したパラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて命令保持部に保持し、
    前記一のポートの障害発生時に、その障害情報及び障害発生時に実行中であったデータ転送命令のIDを前記スイッチから受け取り、
    前記命令保持部に保持されている、前記スイッチから受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する、データ転送方法。
  8. 情報処理装置と、
    複数のポートにより前記情報処理装置と接続される他のノードと、
    前記複数のポートを切り替えるスイッチとを有し、
    前記情報処理装置は、
    データ転送命令を発行するコアと、
    前記データ転送命令により前記他のノードに転送する送信データ、及び前記データ転送命令を実行するために必要な制御情報であるパラメータを格納する主記憶部と、
    前記コアからの前記データ転送命令を受けて、前記主記憶部から前記パラメータ及び送信データを読み出し、当該パラメータに基づき送信データを前記他のノードに送信するノード間通信制御部とを備え、
    前記スイッチは、一のポートに障害が発生した場合、別経路でデータ転送を行えるようにするため、使用するポートを他のポートに切換え、
    前記ノード間通信制御部は、各データ転送命令に対応する前記パラメータを前記主記憶部から読み出すための情報を保持し、前記障害が発生しても複数のデータ転送命令からなるジョブを強制終了することなく、当該情報に基づき、前記ジョブ中の一のデータ転送命令であって、前記障害の発生により異常終了したデータ転送命令を実行するためのパラメータを前記主記憶部から読み出し当該データ転送命令を再実行し、
    前記ノード間通信制御部は、さらに
    各データ転送命令に識別情報(ID)を付与するID制御部と、
    前記IDと、当該IDに対応した前記パラメータを前記主記憶部から読み出すためのアドレス情報であるポインタとを対応付けて保持する命令保持部と、
    前記データ転送命令の終了を判定する命令終了判定部とを有し、
    前記命令終了判定部は、前記一のポートの障害発生時に、前記スイッチからその障害情報及び障害発生時に実行中であったデータ転送命令のIDを受け取り、当該IDを前記命令保持部に出力し、
    前記ノード間通信制御部は、前記命令保持部に保持されている、前記命令終了判定部から受け取ったIDに対応するポインタに基づき、そのパラメータ及び送信データを前記主記憶部から読み出し、当該送信データを再送する
    情報処理システム。
JP2011006876A 2011-01-17 2011-01-17 情報処理装置、データ転送方法、及び情報処理システム Active JP5669193B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011006876A JP5669193B2 (ja) 2011-01-17 2011-01-17 情報処理装置、データ転送方法、及び情報処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011006876A JP5669193B2 (ja) 2011-01-17 2011-01-17 情報処理装置、データ転送方法、及び情報処理システム

Publications (2)

Publication Number Publication Date
JP2012150544A JP2012150544A (ja) 2012-08-09
JP5669193B2 true JP5669193B2 (ja) 2015-02-12

Family

ID=46792752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011006876A Active JP5669193B2 (ja) 2011-01-17 2011-01-17 情報処理装置、データ転送方法、及び情報処理システム

Country Status (1)

Country Link
JP (1) JP5669193B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5121291B2 (ja) * 2007-04-20 2013-01-16 株式会社ニューフレアテクノロジー データ転送システム
JP2009267771A (ja) * 2008-04-25 2009-11-12 Hitachi Ltd 情報処理装置及びパス制御方法

Also Published As

Publication number Publication date
JP2012150544A (ja) 2012-08-09

Similar Documents

Publication Publication Date Title
JP4641546B2 (ja) 入出力(i/o)エラーをハンドリングするための方法及びシステム
JP4529767B2 (ja) クラスタ構成コンピュータシステム及びその系リセット方法
JP5548647B2 (ja) 計算機システムでの部分障害処理方法
JP4695705B2 (ja) クラスタシステムおよびノード切り替え方法
CN101207408A (zh) 一种用于主备倒换的综合故障检测装置和方法
CN104598341A (zh) 用于确定在互连/控制器之间的故障的位置的方法和系统
WO2015098589A1 (ja) クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びコンピュータ読み取り可能な記録媒体
JP6429188B2 (ja) 中継装置
US20150098317A1 (en) Linear protection switching method and apparatus for protecting network segmented into multi-domain
JP2008283608A (ja) 冗長化された通信経路を切り替える計算機、プログラム及び方法
JP6190281B2 (ja) 中継システムおよびスイッチ装置
US8108736B2 (en) Multi-partition computer system, failure handling method and program therefor
JP5669193B2 (ja) 情報処理装置、データ転送方法、及び情報処理システム
CN111371582B (zh) 一种pcie链路故障的处理方法及装置
JP6458494B2 (ja) 情報処理装置、情報処理システムおよび通信装置
JP6134720B2 (ja) 接続方法
JP5104773B2 (ja) データ転送システム、データ転送装置およびデータ転送方法
JP6052150B2 (ja) 中継装置
JP4131263B2 (ja) マルチノードシステム、ノード装置、ノード間クロスバスイッチ及び障害処理方法
US8625585B2 (en) Switch apparatus
JPWO2007096987A1 (ja) エラー制御装置
CN100490343C (zh) 一种通讯设备中主备用单元倒换的实现方法和装置
US10417173B2 (en) Parallel processing apparatus and non-transitory computer-readable storage medium
WO2014010021A1 (ja) 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム
JP4564412B2 (ja) ネットワーク装置、ネットワークシステム、および、タフネス性確認方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140703

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20140807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140812

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141211

R150 Certificate of patent or registration of utility model

Ref document number: 5669193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150