JP2018097435A - 並列処理装置及びノード間通信プログラム - Google Patents
並列処理装置及びノード間通信プログラム Download PDFInfo
- Publication number
- JP2018097435A JP2018097435A JP2016238848A JP2016238848A JP2018097435A JP 2018097435 A JP2018097435 A JP 2018097435A JP 2016238848 A JP2016238848 A JP 2016238848A JP 2016238848 A JP2016238848 A JP 2016238848A JP 2018097435 A JP2018097435 A JP 2018097435A
- Authority
- JP
- Japan
- Prior art keywords
- node
- failure
- transmission
- calculation
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims description 39
- 230000005540 biological transmission Effects 0.000 claims abstract description 123
- 238000004891 communication Methods 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 238000012790 confirmation Methods 0.000 abstract description 22
- 238000010586 diagram Methods 0.000 description 22
- 238000012544 monitoring process Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 7
- 230000010354 integration Effects 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/142—Reconfiguring to eliminate the error
- G06F11/1423—Reconfiguring to eliminate the error by reconfiguration of paths
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17306—Intercommunication techniques
- G06F15/17312—Routing techniques specific to parallel machines, e.g. wormhole, store and forward, shortest path problem congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
- H04L45/06—Deflection routing, e.g. hot-potato routing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/22—Alternate routing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/28—Routing or path finding of packets in data switching networks using route fault recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0745—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0775—Content or structure details of the error report, e.g. specific table structure, specific error fields
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Computer And Data Communications (AREA)
- Multi Processors (AREA)
- Retry When Errors Occur (AREA)
Abstract
【解決手段】故障監視デーモン31が、一定時間間隔で計算ノード1及び経路を監視し、ポート故障を検出すると、故障情報ファイルを作成して全計算ノード1へ配付する。故障情報ファイルは、故障情報記憶部41に記憶される。そして、送信確認部43が、データ送信後に一定時間経過してもデータ受信完了が通知されない場合に、いずれかの経路の故障によりデータ送信が失敗したと判断する。そして、送信確認部43は、故障情報記憶部41を参照して経路を再検索し、再検索した経路を用いてデータを再送信する。
【選択図】図4
Description
低通信ライブラリにおいて、計算ノード間通信を行って失敗したときに、前記管理ノードにより送信された故障ポート情報を参照して再送ルートを決定し、決定した再送ルートを用いて前記計算ノード間通信を再実行する複数の計算ノードと
を有することを特徴とする並列処理装置。
前記再送情報記憶部を参照し、再送が行われた場合には、前記再送経路を用いて送信を行う送信部と
を有することを特徴とする情報処理装置。
前記複数の計算ノードを管理する管理ノードが各計算ノードのポートの故障情報を定期的に収集し、故障情報に更新があった場合に、故障ポートの情報に関して作成した故障ポート情報を前記管理ノードから受信し、
計算ノード間通信を行って失敗したときに、前記故障ポート情報を参照して再送ルートを決定し、
決定した再送ルートを用いて前記計算ノード間通信を再実行する
処理をコンピュータに実行させることを特徴とするノード間通信プログラム。
1a ブートIOノード
1b 送信ノード
1c 受信ノード
2 NS
3 制御ノード
11 CPU&メモリ
12 NI
12a 送信命令キュー
12b 送信完了キュー
12c 受信完了キュー
21 MPIライブラリ
22 低レベル通信ライブラリ
23 ネットワークインターフェースドライバ
31 故障監視デーモン
32 故障情報記憶部
32a 故障情報ファイル
41 故障情報記憶部
42,42a 送信部
43 送信確認部
43a 再送部
44 受信確認部
45 再送情報記憶部
Claims (4)
- 計算ノードのポートの故障情報を定期的に収集し、故障情報に更新があった場合に、全計算ノードに故障ポートの情報を含む故障ポート情報を送信する管理ノードと、
低通信ライブラリにおいて、計算ノード間通信を行って失敗したときに、前記管理ノードにより送信された故障ポート情報を参照して再送ルートを決定し、決定した再送ルートを用いて前記計算ノード間通信を再実行する複数の計算ノードと
を有することを特徴とする並列処理装置。 - 前記再送ルートを決定して前記計算ノード間通信を再実行する処理は、送信完了を確認する処理の中で行うことを特徴とする請求項1に記載の並列処理装置。
- 前記故障ポート情報には、計算ノードを識別するためのノード識別子、該計算ノードの並列処理装置における座標を示す座標情報、隣接する計算ノードへのデータ送信に用いられるポートを識別するポート番号、及び、ポートの状態が含まれることを特徴とする請求項1又は2に記載の並列処理装置。
- 並列プログラムを連携して実行する複数の計算ノード間の通信を実現するノード間通信プログラムにおいて、
前記複数の計算ノードを管理する管理ノードが各計算ノードのポートの故障情報を定期的に収集し、故障情報に更新があった場合に、故障ポートの情報に関して作成した故障ポート情報を前記管理ノードから受信し、
計算ノード間通信を行って失敗したときに、前記故障ポート情報を参照して再送ルートを決定し、
決定した再送ルートを用いて前記計算ノード間通信を再実行する
処理をコンピュータに実行させることを特徴とするノード間通信プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016238848A JP6784160B2 (ja) | 2016-12-08 | 2016-12-08 | 並列処理装置及びノード間通信プログラム |
US15/833,121 US10417173B2 (en) | 2016-12-08 | 2017-12-06 | Parallel processing apparatus and non-transitory computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016238848A JP6784160B2 (ja) | 2016-12-08 | 2016-12-08 | 並列処理装置及びノード間通信プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018097435A true JP2018097435A (ja) | 2018-06-21 |
JP6784160B2 JP6784160B2 (ja) | 2020-11-11 |
Family
ID=62489424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016238848A Active JP6784160B2 (ja) | 2016-12-08 | 2016-12-08 | 並列処理装置及びノード間通信プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10417173B2 (ja) |
JP (1) | JP6784160B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6878981B2 (ja) * | 2017-03-23 | 2021-06-02 | 住友電気工業株式会社 | スイッチ装置、通信制御方法および通信制御プログラム |
US12111779B2 (en) * | 2022-09-30 | 2024-10-08 | Mellanox Technologies, Ltd. | Node identification allocation in a multi-tile system with multiple derivatives |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5170393A (en) * | 1989-05-18 | 1992-12-08 | California Institute Of Technology | Adaptive routing of messages in parallel and distributed processor systems |
US5161156A (en) * | 1990-02-02 | 1992-11-03 | International Business Machines Corporation | Multiprocessing packet switching connection system having provision for error correction and recovery |
US5321813A (en) * | 1991-05-01 | 1994-06-14 | Teradata Corporation | Reconfigurable, fault tolerant, multistage interconnect network and protocol |
JPH05265989A (ja) | 1992-03-16 | 1993-10-15 | Mitsubishi Electric Corp | マルチプロセッサシステム |
JP3402398B2 (ja) | 1994-03-17 | 2003-05-06 | 株式会社日立製作所 | 並列プロセッサシステムの通信制御方法 |
US5822605A (en) * | 1994-03-24 | 1998-10-13 | Hitachi, Ltd. | Parallel processor system with a broadcast message serializing circuit provided within a network |
JP3709289B2 (ja) * | 1998-09-01 | 2005-10-26 | 株式会社日立製作所 | データ再送を実行するデータ送受信装置及び並列プロセッサシステム |
US20030105799A1 (en) * | 2001-12-03 | 2003-06-05 | Avaz Networks, Inc. | Distributed processing architecture with scalable processing layers |
JP6048505B2 (ja) * | 2012-09-24 | 2016-12-21 | 富士通株式会社 | 並列計算機、ノード装置、及び並列計算機の制御方法 |
US10637681B2 (en) * | 2014-03-13 | 2020-04-28 | Silicon Laboratories Inc. | Method and system for synchronization and remote control of controlling units |
JP2017059885A (ja) * | 2015-09-14 | 2017-03-23 | 富士通株式会社 | コントローラ及び経路再設定方法 |
US10868708B2 (en) * | 2015-11-02 | 2020-12-15 | Google Llc | System and method for handling link loss in a network |
JP2018025912A (ja) * | 2016-08-09 | 2018-02-15 | 富士通株式会社 | 通信方法、通信プログラムおよび情報処理装置 |
JP6801409B2 (ja) * | 2016-12-02 | 2020-12-16 | 富士通株式会社 | 経路探索システム、経路探索方法及び経路探索プログラム |
-
2016
- 2016-12-08 JP JP2016238848A patent/JP6784160B2/ja active Active
-
2017
- 2017-12-06 US US15/833,121 patent/US10417173B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP6784160B2 (ja) | 2020-11-11 |
US10417173B2 (en) | 2019-09-17 |
US20180165245A1 (en) | 2018-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108604202B (zh) | 并行处理系统的工作节点重建 | |
JP5872731B2 (ja) | クラスタの複数のノードのそれぞれに対してリンクの障害の検出を伝えるためのコンピュータ実装方法、非一時的なコンピュータ可読媒体およびコンピュータシステム | |
EP3129903B1 (en) | Systems and methods for fault tolerant communications | |
JP4611922B2 (ja) | 制御プログラム、制御方法および制御装置 | |
JP3640187B2 (ja) | マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード | |
US8726274B2 (en) | Registration and initialization of cluster-aware virtual input/output server nodes | |
CN107533493B (zh) | 恢复服务加速 | |
Avresky et al. | Dynamic reconfiguration in computer clusters with irregular topologies in the presence of multiple node and link failures | |
KR101983208B1 (ko) | 데이터 관리 방법, 노드, 그리고 데이터베이스 클러스터를 위한 시스템 | |
CN104598341A (zh) | 用于确定在互连/控制器之间的故障的位置的方法和系统 | |
US9032118B2 (en) | Administration device, information processing device, and data transfer method | |
US7747897B2 (en) | Method and apparatus for lockstep processing on a fixed-latency interconnect | |
JP2008519321A (ja) | 環境適応故障許容コンピューティングのための方法およびシステム | |
JP6784160B2 (ja) | 並列処理装置及びノード間通信プログラム | |
US20240020297A1 (en) | Metrics and events infrastructure | |
JP7311335B2 (ja) | 分散型コンテナ監視システム及び分散型コンテナ監視方法 | |
US9594651B2 (en) | Parallel computer system and control method for parallel computer system | |
Georgiou et al. | A self-stabilizing control plane for the edge and fog ecosystems | |
JP2018165908A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP6588484B2 (ja) | 復旧装置、復旧方法、および復旧プログラム | |
Sen et al. | Aegis: Reliable application execution over the mobile cloud | |
JP6279180B2 (ja) | 親局装置、子局装置、プロセス委譲管理方法、プロセス実行方法、プロセス委譲管理プログラム及びプロセス実行プログラム | |
JP6447047B2 (ja) | 送受信制御装置及び送受信制御方法、ノード装置、マルチノードシステム、並びにコンピュータ・プログラム | |
JP5246360B2 (ja) | ネットワークシステム及び情報処理方法 | |
JP2019109735A (ja) | システム、計算機、システム制御方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200923 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201006 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6784160 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |