JP6540309B2 - 共有メモリシステム、演算処理装置、及び方法 - Google Patents
共有メモリシステム、演算処理装置、及び方法 Download PDFInfo
- Publication number
- JP6540309B2 JP6540309B2 JP2015141842A JP2015141842A JP6540309B2 JP 6540309 B2 JP6540309 B2 JP 6540309B2 JP 2015141842 A JP2015141842 A JP 2015141842A JP 2015141842 A JP2015141842 A JP 2015141842A JP 6540309 B2 JP6540309 B2 JP 6540309B2
- Authority
- JP
- Japan
- Prior art keywords
- request
- node
- circuit
- information
- setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/142—Reconfiguring to eliminate the error
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0686—Additional information in the notification, e.g. enhancement of specific meta-data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/805—Real-time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/85—Active fault masking without idle spares
Description
図5は、第1の実施形態に係る情報処理システム500を例示するブロック図である。図5において、情報処理システム500は、複数のビルディングブロック(BB)501、及びクロスバスイッチ(GXB)502を含む。ビルディングブロック501は、メモリ511、CPU(演算処理装置)512、及びクロスバチップ(LXB)513を含む。なお、ビルディングブロック501は、メモリ511と、CPU512とを複数含んでいてもよく、又は、メモリ511と、CPU512とを一つ含んでいてもよい。ビルディングブロック501は、例えば情報処理システム500においてノードとして動作してよい。また、情報処理システム500は、例えば、ディレクトリ方式を採用する共有メモリシステムであり、ディレクトリ方式を用いて、各ノードのCPU512がキャッシュしたデータのコヒーレンシを保持してよい。
第1の実施形態では、CPU内部に備えられたパイプ522が故障ノードリスト550を記憶し、パイプ522が故障ノードリスト550によりリクエストの発行と抑止とを制御する例を述べた。しかしながら、実施形態はこれに限定されるものではない。第2の実施形態では、更に、ビルディングブロック501で動作するファームウェア又はソフトウェアが設定可能な第2の故障ノードリスト1202を用いる場合を例示する。
101 ビルディングブロック
102 クロスバスイッチ
111 メモリ
112 CPU
121 外部インタフェース
500 情報処理システム
501 ビルディングブロック
502 クロスバスイッチ
511 メモリ
512 CPU
513 クロスバチップ
515 コア
520 ホームエージェント回路
522 パイプ
523 リクエスト発行回路
524 タイマ
525 設定回路
526 発行抑止回路
527 割込通知回路
530 外部インタフェース
531 ルータ回路
902 ルータ共通回路
903 ルータポート固有回路
1001 縮退タイミング制御回路
1002 パケット発行抑止制御回路
1003 ドレインタイマ
1004 バリッド回路
1011 縮退制御回路
1013 振分制御部
1015 縮退仮保持部
1016 縮退保持部
1017 マルチプレクサ
1018 バッファ
1019 振分回路
1020 タイマ
1021 クレジット回路
1031 経路故障検出回路
1032 ポートエラー検出回路
1033 異常通知回路
1034 バッファ
1035 ポート
1036 破棄回路
1037 送信ポート
1038 受信ポート
1039 モジュール回路
1200 SCF
1210 記憶装置
1401 通信ケーブル
Claims (6)
- 複数のノードを含む共有メモリシステムであって、
前記複数のノード各々は、
演算処理装置と、
メモリと、
を含み、
前記演算処理装置は、
プロセッサコアと、
前記共有メモリシステム内の他のノードが備える前記メモリに対する第1のリクエストを発行するリクエスト発行回路と、
前記複数のノードそれぞれについて故障していることを示す第1の情報又は故障していないことを示す第2の情報が設定される第1の故障ノードリストを記憶する記憶回路と、
前記リクエスト発行回路が発行した前記第1のリクエストがタイムアウトした場合、前記第1の故障ノードリストにおいて前記他のノードに前記第1の情報を設定する設定回路と、
前記プロセッサコアから前記他のノードが備える前記メモリに対する第2のリクエストが入力された場合に、前記第1の故障ノードリストにおいて前記他のノードに前記第1の情報が設定されていれば前記リクエスト発行回路による前記第2のリクエストの発行を抑止し、前記第1の故障ノードリストにおいて前記他のノードに前記第2の情報が設定されていれば前記リクエスト発行回路による前記第2のリクエストの発行を抑止しない、発行抑止回路と、
を含む、共有メモリシステム。 - 前記リクエスト発行回路は、更に、第1のノードとの間の通信経路の異常が通知された場合、前記リクエスト発行回路が備えるバッファ内に保持される前記第1のノードを送信先とする第3のリクエストに設定抑止情報を設定し、
前記設定回路は、前記第1の故障ノードリストにおいて、前記設定抑止情報が設定されている前記第3のリクエストの送信先の前記第1のノードに前記第1の情報を設定する動作を抑止する、
ことを特徴とする請求項1に記載の共有メモリシステム。 - 前記複数のノード各々は更に、
監視装置と、
前記複数のノードそれぞれについて前記第1の情報又は前記第2の情報が設定される第2の故障ノードリストを記憶する記憶装置と、
を含み、
前記監視装置は、前記設定回路が前記第1の故障ノードリストにおいて、第2のノードに前記第1の情報を設定した場合、前記共有メモリシステム内の別のノードの前記監視装置に前記第2の故障ノードリストにおいて前記第2のノードに前記第1の情報を設定するように指示し、
前記演算処理装置及び前記監視装置は、前記第1の故障ノードリスト又は前記第2の故障ノードリストの一方の設定を変更した場合に、前記設定の変更を他方に反映させるように動作する、
ことを特徴とする請求項1又は2に記載の共有メモリシステム。 - 前記演算処理装置は、更に、
前記第1のリクエストがタイムアウトした場合に、前記第1のリクエストの処理時間の監視を解放させる割り込み通知を前記プロセッサコアに送信する割込通知回路を備える、
ことを特徴とする請求項1から3のいずれか1項に記載の共有メモリシステム。 - プロセッサコアと、
共有メモリシステム内の複数のノードのうちの他のノードが備えるメモリに対する第1のリクエストを発行するリクエスト発行回路と、
前記複数のノードそれぞれについて故障していることを示す第1の情報又は故障していないことを示す第2の情報が設定される第1の故障ノードリストを記憶する記憶回路と、
前記リクエスト発行回路が発行した前記第1のリクエストがタイムアウトした場合、前記第1の故障ノードリストにおいて前記他のノードに前記第1の情報を設定する設定回路と、
前記プロセッサコアから前記他のノードが備える前記メモリに対する第2のリクエストが入力された場合に、前記第1の故障ノードリストにおいて前記他のノードに前記第1の情報が設定されていれば前記リクエスト発行回路による前記第2のリクエストの発行を抑止し、前記第1の故障ノードリストにおいて前記他のノードに前記第2の情報が設定されていれば前記リクエスト発行回路による前記第2のリクエストの発行を抑止しない、発行抑止回路と、
を含む、演算処理装置。 - 共有メモリシステム内の複数のノードのうちの他のノードが備えるメモリに対してリクエスト発行回路が発行した第1のリクエストがタイムアウトした場合、前記複数のノードのそれぞれについて故障していることを示す第1の情報又は故障していないことを示す第2の情報が設定される第1の故障ノードリストにおいて、前記他のノードに対して前記第1の情報を設定回路が設定する工程と、
プロセッサコアから前記他のノードが備える前記メモリに対する第2のリクエストが入力された場合に、前記第1の故障ノードリストにおいて前記他のノードに前記第1の情報が設定されていれば前記リクエスト発行回路による前記第2のリクエストの発行を発行抑止回路が抑止し、前記他のノードに前記第2の情報が設定されていれば前記リクエスト発行回路による前記第2のリクエストの発行を前記発行抑止回路が抑止しない工程と、
を含む、演算処理装置が実行する方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015141842A JP6540309B2 (ja) | 2015-07-16 | 2015-07-16 | 共有メモリシステム、演算処理装置、及び方法 |
US15/172,212 US9959173B2 (en) | 2015-07-16 | 2016-06-03 | Node, arithmetic processing device, and arithmetic processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015141842A JP6540309B2 (ja) | 2015-07-16 | 2015-07-16 | 共有メモリシステム、演算処理装置、及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017027121A JP2017027121A (ja) | 2017-02-02 |
JP6540309B2 true JP6540309B2 (ja) | 2019-07-10 |
Family
ID=57776574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015141842A Active JP6540309B2 (ja) | 2015-07-16 | 2015-07-16 | 共有メモリシステム、演算処理装置、及び方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9959173B2 (ja) |
JP (1) | JP6540309B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870832B (zh) * | 2016-09-23 | 2021-06-18 | 伊姆西Ip控股有限责任公司 | 基于多维度健康诊断方法的多路径存储设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06152612A (ja) | 1992-11-10 | 1994-05-31 | Fujitsu Ltd | ポーリング制御方式 |
JP3345626B2 (ja) * | 1994-09-29 | 2002-11-18 | 富士通株式会社 | マルチプロセッサシステムにおけるプロセッサ異常対策装置およびマルチプロセッサシステムにおけるプロセッサ異常対策方法 |
US6163831A (en) * | 1997-11-14 | 2000-12-19 | Lucent Technologies, Inc. | Minimum refractory period in a multiple agent resource sharing environment |
JP2002259264A (ja) | 2001-03-06 | 2002-09-13 | Toshiba Corp | サーバ及びデータ送信方法 |
JP3988146B2 (ja) | 2004-07-27 | 2007-10-10 | 日本電気株式会社 | マルチノードシステム、ノード間クロスバスイッチ、ノード、スイッチプログラム及びノードプログラム |
JP5590022B2 (ja) * | 2011-12-28 | 2014-09-17 | 富士通株式会社 | 情報処理装置、制御方法および制御プログラム |
JP5614419B2 (ja) | 2012-02-29 | 2014-10-29 | 富士通株式会社 | 情報処理装置、制御方法および制御プログラム |
US9084155B2 (en) * | 2012-06-13 | 2015-07-14 | All Purpose Networks LLC | Optimized broadband wireless network performance through base station application server |
US9141461B2 (en) * | 2013-06-23 | 2015-09-22 | Intel Corporation | Machine check architecture execution environment for non-microcoded processor |
-
2015
- 2015-07-16 JP JP2015141842A patent/JP6540309B2/ja active Active
-
2016
- 2016-06-03 US US15/172,212 patent/US9959173B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017027121A (ja) | 2017-02-02 |
US20170017549A1 (en) | 2017-01-19 |
US9959173B2 (en) | 2018-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9256500B2 (en) | Physical domain error isolation and recovery in a multi-domain system | |
US10007629B2 (en) | Inter-processor bus link and switch chip failure recovery | |
JP5714571B2 (ja) | キャッシュクラスタを構成可能モードで用いるキャッシュデータ処理 | |
US7668923B2 (en) | Master-slave adapter | |
US8850141B2 (en) | System and method for mirroring data | |
US20050081080A1 (en) | Error recovery for data processing systems transferring message packets through communications adapters | |
EP2634696B1 (en) | Information processing apparatus, control method, and control program | |
US20060143497A1 (en) | System, method and circuit for mirroring data | |
JP4529767B2 (ja) | クラスタ構成コンピュータシステム及びその系リセット方法 | |
CN104798349A (zh) | 响应于端口故障的故障转移 | |
JP6098778B2 (ja) | 冗長化システム、冗長化方法、冗長化システムの可用性向上方法、及びプログラム | |
WO2017215430A1 (zh) | 一种集群内的节点管理方法及节点设备 | |
US7797571B2 (en) | System, method and circuit for mirroring data | |
US20050080869A1 (en) | Transferring message packets from a first node to a plurality of nodes in broadcast fashion via direct memory to memory transfer | |
US20050080920A1 (en) | Interpartition control facility for processing commands that effectuate direct memory to memory information transfer | |
KR20180062807A (ko) | 시스템 인터커넥트 및 이를 포함하는 시스템 온 칩 | |
WO2012164417A1 (en) | Sideband error signaling | |
US20050080945A1 (en) | Transferring message packets from data continued in disparate areas of source memory via preloading | |
US20140298076A1 (en) | Processing apparatus, recording medium storing processing program, and processing method | |
US20050078708A1 (en) | Formatting packet headers in a communications adapter | |
US8868731B1 (en) | Technique for false positives prevention in high availability network | |
JP6540309B2 (ja) | 共有メモリシステム、演算処理装置、及び方法 | |
US20100191942A1 (en) | Information processor and control method | |
US11163630B2 (en) | Using real-time analytics to manage application features | |
JP2010176345A (ja) | マルチノードシステム、ノード、メモリダンプ処理方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180413 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190527 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6540309 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |