JP2016004510A - 原因特定方法、原因特定プログラム、情報処理システム - Google Patents

原因特定方法、原因特定プログラム、情報処理システム Download PDF

Info

Publication number
JP2016004510A
JP2016004510A JP2014125994A JP2014125994A JP2016004510A JP 2016004510 A JP2016004510 A JP 2016004510A JP 2014125994 A JP2014125994 A JP 2014125994A JP 2014125994 A JP2014125994 A JP 2014125994A JP 2016004510 A JP2016004510 A JP 2016004510A
Authority
JP
Japan
Prior art keywords
error
link
pcie
register
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014125994A
Other languages
English (en)
Other versions
JP6427979B2 (ja
Inventor
公裕 西山
Kimihiro Nishiyama
公裕 西山
啓治 佐藤
Keiji Sato
啓治 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014125994A priority Critical patent/JP6427979B2/ja
Priority to US14/726,975 priority patent/US9665456B2/en
Publication of JP2016004510A publication Critical patent/JP2016004510A/ja
Application granted granted Critical
Publication of JP6427979B2 publication Critical patent/JP6427979B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3027Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4282Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1443Transmit or communication errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Bus Control (AREA)

Abstract

【課題】複数の装置を有する情報処理システムにおいて、応答が所定時間内に返ってこない原因を特定する方法を提供する。【解決手段】複数の装置のうち、(A)第1の装置が送信した要求に対する応答を所定時間内に受信しない場合、複数の装置のうち少なくとも要求の転送又は応答の転送に関係する装置から、当該装置の記憶部に格納されている、当該装置が接続されたリンクでエラーが発生したか否かを示す情報を取得し、(B)取得した情報に基づき、エラーが発生したリンク又は当該リンクに接続された装置を特定する。【選択図】図11

Description

本発明は、通信に関するエラーの原因を特定する技術に関する。
PCI(Peripheral Components Interconnect) Express(以下、PCIeと呼ぶ)とは、PCI−SIG(Peripheral Components Interconnect-Special Interest Group)により策定された、シリアル転送のインタフェース規格である。
PCIeにおいて、デバイス間における情報の伝達は、デバイス間を接続するネットワークを介してパケットを転送することによって行われる。TLP(Transaction Layer Packet)リクエストと呼ばれる要求パケットの送信元のデバイスはリクエスタと呼ばれ、TLPリクエストの送信先のデバイスはコンプリータと呼ばれる。リクエスタがTLPコンプリーションと呼ばれる応答パケットをコンプリータから所定時間内に受信しない場合、リクエスタにおいてコンプリーションタイムアウト(Completion Timeout)が検出される。
PCIeにおける一部のエラーについては、エラーの原因を特定する技術が知られている。例えば、PCIeがサポートしていないTLPリクエストである場合のエラー(すなわち、"Unsupported Request Error")については、コンプリータが有するヘッダログレジスタ(Header Log Register)に書き込まれた情報に基づき、原因となった箇所(この場合、リクエスタ)を特定することができる。
しかし、コンプリーションタイムアウトの原因の特定に着目した従来技術は存在しない。コンプリーションタイムアウトはリクエスタにおいて検出されるが、ヘッダログレジスタには、コンプリーションタイムアウトに関するログが格納されない。また、コンプリーションタイムアウトの場合、リクエスタ、コンプリータ、及びリクエスタとコンプリータとの間の経路上のリンク等が原因となり得る。
"PCI Express Base Specification Revision 3.0", Peripheral Components Interconnect-Special Interest Group, November 10, 2010, p. 151
特開2008−225694号公報
従って、本発明の目的は、1つの側面では、応答が所定時間内に返ってこない原因を特定するための技術を提供することである。
本発明に係る原因特定方法は、複数の装置を有する情報処理システムにおいて実行される。そして、本原因特定方法は、複数の装置のうち第1の装置が、(A)第1の装置が送信した要求に対する応答を所定時間内に受信しない場合、複数の装置のうち少なくとも要求の転送又は応答の転送に関係する装置から、当該装置の記憶部に格納されている、当該装置が接続されたリンクでエラーが発生したか否かを示す情報を取得し、(B)取得した情報に基づき、エラーが発生したリンク又は当該リンクに接続された装置を特定する処理を含む。
1つの側面では、応答が所定時間内に返ってこない原因を特定できるようになる。
図1は、情報処理装置のハードウエア構成を示す図である。 図2は、ポートの構成を示す図である。 図3は、UESレジスタの一例を示す図である。 図4は、CESレジスタの一例を示す図である。 図5は、情報処理装置の機能ブロック図である。 図6は、エラーの発生とUESレジスタに対する書き込みとの関係を説明するための図である。 図7は、エラーの発生とUESレジスタに対する書き込みとの関係を説明するための図である。 図8は、エラーの発生とCESレジスタに対する書き込みとの関係を説明するための図である。 図9は、メインの処理フローを示す図である。 図10は、特定処理の処理フローを示す図である。 図11は、解析処理の処理フローを示す図である。 図12は、出力されるデータの一例を示す図である。 図13は、PCIeのレイヤについて説明するための図である。
図1に、本実施の形態における情報処理装置1のハードウエア構成を示す。情報処理装置1は、CPU100と、メモリ101と、バスブリッジ及び周辺回路等が集積されたチップを含むチップセット102と、I/O(Input/Output)デバイス103と、ROM(Read Only Memory)とを有する。CPU100は、複数のポート及びレジスタ1002を含むI/O部1000を有する。I/O部1000は、例えばIntel社のIntegrated I/O等であり、I/Oの機能が集約されている。図1において、網掛けが付された正方形の図形はポートを表す。
CPU100にはメモリ101が接続される。また、I/O部1000のポートのうちいずれかのポートにチップセット102が接続される。チップセット102には、I/Oデバイス103と、ROM104とが接続される。
I/O部1000のポートのうちいずれかのポート(ここでは、ポート1001)は、PCIeのデバイスに接続される。以下では、ポート1001をルートポートと呼ぶ。なお、PCIeについては付録を参照されたい。
ルートポート1001には、PCIeスイッチ105が接続される。PCIeスイッチ105には、PCIeスイッチ106及びPCIeスイッチ107が接続される。PCIeスイッチは、データの中継等を行うデバイスである。
PCIeスイッチ106には、PCIeエンドデバイス1061及び1062と、PCIeスイッチ108とが接続される。PCIeスイッチ108には、PCIeエンドデバイス1081乃至1083が接続される。PCIeエンドデバイスは、例えばPCIeカード等である。
PCIeスイッチ107には、PCIeエンドデバイス1071と、PCIeスイッチ109及び110とが接続される。PCIeスイッチ109には、PCIeエンドデバイス1091乃至1093が接続される。PCIeスイッチ110には、PCIeエンドデバイス1101乃至1103が接続される。
このように、ルートポート1001を起点として、PCIeデバイスがツリー状に接続される。ツリーは複数の階層を含み、ルートポート1001に近い階層ほど上位であるとする。
図2に、情報処理装置1内のポートの構成を示す。ポートは、PCIeデバイスが訂正できないエラーについての値が格納されるアンコレクタブルエラーステータスレジスタ(以下、UESレジスタと呼ぶ)1201と、PCIeデバイスが訂正可能なエラーについての値が格納されるコレクタブルエラーステータスレジスタ(以下、CESレジスタと呼ぶ)1202とを有する。
図3に、UESレジスタ1201の一例を示す。図3の例では、"Surprise Down Error Status"の値と、"Uncorrectable Internal Error Status"の値と、"Unsupported Request Error Status"の値と、"Completion Timeout Status"の値とが格納される。これらの値は、実際にエラーが発生した場合に所定の値(例えば1)に設定される。なお、UESレジスタ1201には、PCIeデバイスが訂正することができない他のエラーについても値が格納されるが、本実施の形態とは直接関係しないので説明を省略する。
図4に、CESレジスタ1202の一例を示す。図4の例では、"Receiver Error Status"の値と、"Bad TLP Status"の値と、"Header Log Overflow Status"の値と、"Corrected Internal Error Status"の値と、"Advisory Non-Fatal Error Status"の値と、"Replay Timer Timeout Status"の値と、"REPLAY_NUM Rollover Status"の値と、"Bad DLLP Status"の値とが格納される。これらの値は、実際にエラーが発生した場合に所定の値(例えば1)に設定される。なお、CESレジスタ1202には、PCIeデバイスが訂正可能な他のエラーについても値が格納されるが、本実施の形態とは直接関係しないので説明を省略する。
なお、本実施の形態の処理を実行するためのプログラムは、例えばファームウエアに含まれ、ROM104に格納される。本実施の形態の処理を実行するためのプログラムは、CPU100により実行される際にはROM104からメモリ101に読み出される。図5に、本実施の形態における情報処理装置1の機能ブロック図を示す。図5の例では、情報処理装置1は、割り込み処理部1003と、UESレジスタ読み出し部1004と、停止処理部1005と、特定部1006と、CESレジスタ初期化部1007と、CESレジスタ読み出し部1008とを含む。
割り込み処理部1003は、CPU100への割り込みが発生した場合に、UESレジスタ読み出し部1004に処理の開始を要求する。UESレジスタ読み出し部1004は、割り込み処理部1003からの要求に応じ、情報処理装置1内の全UESレジスタ1201から値を読み出し、特定部1006に通知する。特定部1006は、UESレジスタ読み出し部1004からの通知に応じ、エラーの原因を特定する処理を実行する。また、特定部1006は、発生したエラーがコンプリーションタイムアウトエラーである場合に、CESレジスタ初期化部1007に処理の開始を要求する。CESレジスタ初期化部1007は、特定部1006からの要求に応じ、情報処理装置1内の全CESレジスタ1202を初期化(ここでは、エラーが発生していないことを示す値(例えば0)を設定)し、CESレジスタ読み出し部1008に処理の開始を要求する。CESレジスタ読み出し部1008は、CESレジスタ初期化部1007からの要求を受け取ってから所定時間(例えば1秒)が経過した場合、情報処理装置1内の全CESレジスタ1202から値を読み出し、特定部1006に通知する。特定部1006は、CESレジスタ読み出し部1008からの通知に応じ、コンプリーションタイムアウトエラーの原因を特定する処理を実行し、停止処理部1005に処理の開始を要求する。停止処理部1005は、特定部1006からの要求に応じ、情報処理装置1を停止する処理を実行する。
ここで、エラーの通知について説明する。本実施の形態においては、各PCIeデバイスが、そのPCIeデバイス及びそのPCIeデバイスより下位のPCIeデバイスで検出されたエラーを上位に通知するため、デバイスコントロールレジスタ及びルートコントロールレジスタのビットが予め設定される。具体的には、デバイスコントロールレジスタの"Error Reporting Enable"のビットが予め1に設定され、ルートコントロールレジスタの"System Error Enable"のビットが予め1に設定される。これにより、エラーを通知するためのTLPがI/O部1000まで転送される。なお、PCIExpressにおけるエラー通知の詳細については、"PCI Express Base Specification Revision 3.0"の"6.2.6. Error Message Controls"(例えば、http://www.pcisig.com/specifications/pciexpress/base3/)を参照されたい。
I/O部1000は、ルートポート1001及びルートポート1001配下において訂正不可のエラーが発生したことを、エラーを通知するためのTLPによって検出した場合に、CPU100への割り込みを発生させる。なお、I/O部1000が発生させる割り込みについては、例えばIntel社の"Intel 5520 Chipset and Intel 5500 Chipset Datasheet"(例えば、http://www.intel.com/content/www/us/en/chipsets/5520-5500-chipset-ioh-datasheet.html、又は、http://www.intel.com/content/dam/www/public/us/en/documents/datasheets/5520-5500-chipset-ioh-datasheet.pdf)を参照されたい。本実施の形態においては、訂正不可のエラーが発生した場合に、例えばSMI(System Management Interrupt)と呼ばれるハードウエア割り込みを発生させるように予め設定される。ハードウエア割り込みの設定の詳細については、例えばIntel社の"Intel Core i7 Processor Family for the LGA-2011 Socket Datasheet, Vol. 2"(例えば、http://www.intel.com/content/www/us/en/processors/core/core-i7-lga-2011-datasheet-vol-2.html、又は、"http://www.intel.com/content/dam/doc/datasheet/core-i7-lga-2011-datasheet-vol-2.pdf")を参照されたい。
I/O部1000は、パケットを受信したルートポートの識別情報等をレジスタ1002に書き込む。割り込みの発生により呼び出された割り込み処理部1003は、レジスタ1002の情報を読み出し、ルートポート1001又はルートポート1001の配下において訂正不可のエラーが発生したことを検出する。そして、割り込み処理部1003は、UESレジスタ読み出し部1004に処理の開始を要求するとともに、読み出されたルートポートの識別情報をUESレジスタ読み出し部1004に通知する。
図6乃至図8を用いて、エラーの発生とUESレジスタ1201及びCESレジスタ1202に対する書き込みとの関係について説明する。
まず、図6を用いて、コンプリーションタイムアウトエラーの発生とUESレジスタ1201に対する書き込みとの関係について説明する。図6においては、リクエスタがルートポート1001であり且つコンプリータがPCIeエンドデバイス1071である場合において、ルートポート1001が送信したTLPリクエストに対するTLPコンプリーションが所定時間内に返ってこないとする。
この場合、ルートポート1001のUESレジスタ1201における"Completion Timeout Error"の値が1に設定される。但し、コンプリーションタイムアウトエラーの原因は必ずしもルートポート1001であるわけではなく、PCIeエンドデバイス1071、ルートポート1001とPCIeエンドデバイス1071との間の経路上のPCIeデバイス、或いは経路上のリンクが原因である場合もある。
図7を用いて、リンクのダウンとUESレジスタ1201に対する書き込みとの関係について説明する。図7においては、リクエスタがルートポート1001であり且つコンプリータがPCIeエンドデバイス1071である場合において、PCIeスイッチ105とPCIeスイッチ107との間のリンクがダウンしたとする。
この場合、PCIeスイッチ105のポートのうちダウンしたリンクに接続されたポートのUESレジスタ1201における"Surprise Down Error Status"の値が1に設定される。この場合は、ダウンしたリンクそのもの(例えば、PCIeケーブルなど)が原因である可能性が高い。
図8を用いて、リンクのエラーとCESレジスタ1202に対する書き込みとの関係について説明する。ここで言う「リンクのエラー」とは、PCIeデバイスが訂正可能なエラーであり、リンクがダウンしてはいないが、PCIeケーブルの問題或いはPCIeデバイスの嵌合の問題等によってリンクに何らかの不良があることである。図8においては、リクエスタがルートポート1001であり、コンプリータがPCIeエンドデバイス1071である場合において、PCIeスイッチ105とPCIeスイッチ107との間のリンクにエラーが発生したとする。
この場合、PCIeスイッチ105のポートのうちエラーが発生したリンクに接続されたポートのCESレジスタ1202と、PCIeスイッチ107のポートのうちエラーが発生したリンクに接続されたポートのCESレジスタ1202とに対して書き込みが行われる。具体的には、パケットの送信側のポートのCESレジスタ1202における"Replay Timer Timeout Status"の値及び"REPLAY_NUM Rollover Status"の値と、パケットの受信側のポートのCESレジスタ1202における"Receiver Error Status"の値、"Bad TLP Status"の値及び"Bad DLLP Status"の値とが1に設定される。
次に、図9乃至図12を用いて、情報処理装置1が実行する処理について説明する。まず、情報処理装置1において訂正できないエラー(Uncorrectable Error)が発生したとする。すると、割り込み処理部1003は、ルートポート1001又はルートポート1001の配下において訂正できないエラーが発生したことを検出する(図9:ステップS1)。割り込み処理部1003は、UESレジスタ読み出し部1004に処理の開始を要求すると共に、レジスタ1002から読み出したルートポートの識別情報をUESレジスタ読み出し部1004に通知する。
UESレジスタ読み出し部1004は、ルートポート1001及びルートポート1001の配下にある全PCIeデバイスのUESレジスタ1201からデータを読み出す(ステップS3)。読み出されたデータは、例えばメモリ101に格納される。
UESレジスタ読み出し部1004は、ルートポート1001及びルートポート1001の配下の全PCIeデバイスのうちいずれかについての"Uncorrectable Internal Error Status"のビットが1であるか判断する(ステップS5)。
ルートポート1001及びルートポート1001の配下のPCIeデバイスのうちいずれかについての"Uncorrectable Internal Error Status"のビットが1である場合(ステップS5:Yesルート)、UESレジスタ読み出し部1004は、読み出されたデータを特定部1006に通知する。そして、特定部1006は、"Uncorrectable Internal Error Status"の原因となった箇所を特定し(ステップS7)、特定された箇所の識別情報等をメモリ101に格納する。ステップS7においては、"Uncorrectable Internal Error Status"のビットが1であるUESレジスタ1201を有するルートポート1001又はPCIeデバイスが特定される。
ルートポート1001及びルートポート1001の配下のPCIeデバイスのいずれも"Uncorrectable Internal Error Status"のビットが1ではない場合(ステップS5:Noルート)、UESレジスタ読み出し部1004は、ルートポート1001及びルートポート1001の配下のPCIeデバイスのうちいずれかについての"Surprise Down Error Status"のビットが1であるか判断する(ステップS9)。
ルートポート1001及びルートポート1001の配下のPCIeデバイスのうちいずれかについての"Surprise Down Error Status"のビットが1である場合(ステップS9:Yesルート)、UESレジスタ読み出し部1004は、読み出されたデータを特定部1006に通知する。そして、特定部1006は、"Surprise Down Error Status"の原因となった箇所を特定し(ステップS11)、特定された箇所の識別情報等をメモリ101に格納する。ステップS11においては、"Surprise Down Error Status"のビットが1であるUESレジスタ1201を有するポートが接続されたリンク(すなわち、ダウンしたリンク)が特定される。
ルートポート1001及びルートポート1001の配下のPCIeデバイスのいずれも"Surprise Down Error Status"のビットが1ではない場合(ステップS9:Noルート)、UESレジスタ読み出し部1004は、ルートポート1001及びルートポート1001の配下のPCIeデバイスのうちいずれかについての"Unsupported Request Error Status"のビットが1であるか判断する(ステップS13)。
ルートポート1001及びルートポート1001の配下のPCIeデバイスのうちいずれかについての"Unsupported Request Error Status"のビットが1である場合(ステップS13:Yesルート)、UESレジスタ読み出し部1004は、読み出されたデータを特定部1006に通知する。そして、特定部1006は、"Unsupported Request Error Status"の原因となった箇所を特定し(ステップS15)、特定された箇所の識別情報等をメモリ101に格納する。ステップS15においては、例えば、コンプリータが有するヘッダログレジスタに格納されたTLPリクエストのヘッダに基づき、リクエスタが特定される。
ルートポート1001及びルートポート1001の配下のPCIeデバイスのいずれも"Unsupported Request Error Status"のビットが1ではない場合(ステップS13:Noルート)、UESレジスタ読み出し部1004は、ルートポート1001及びルートポート1001の配下のPCIeデバイスのうちいずれかについての"Completion Timeout Status"のビットが1であるか判断する(ステップS17)。
ルートポート1001及びルートポート1001の配下のPCIeデバイスのいずれも"Completion Timeout Status"のビットが1ではない場合(ステップS17:Noルート)、ステップS21の処理に移行する。
ルートポート1001及びルートポート1001の配下のPCIeデバイスのうちいずれかについての"Completion Timeout Status"のビットが1である場合(ステップS17:Yesルート)、UESレジスタ読み出し部1004は、読み出されたデータを特定部1006に通知する。そして、特定部1006は、特定処理を実行する(ステップS19)。特定処理については図10を用いて説明する。
まず、特定部1006は、コンプリーションタイムアウトがルートポート1001で検出された(すなわち、ルートポート1001のUESレジスタ1201における"Completion Timeout Status"のビットが1である)か判断する(図10:ステップS31)。
コンプリーションタイムアウトがルートポート1001で検出されていない場合(ステップS31:Noルート)、特定部1006は、コンプリーションタイムアウトを検出したPCIeデバイスをコンプリーションタイムアウトの原因に決定する(ステップS33)。そして、特定部1006は、コンプリーションタイムアウトを検出したPCIeデバイスの識別情報等をメモリ101に格納する。
コンプリーションタイムアウトの原因は、コンプリーションタイムアウトを検出したPCIeデバイス以外のPCIeデバイス或いはリンク等である可能性もある。しかし本実施の形態においては、コンプリーションタイムアウトを検出したPCIeデバイスが原因である可能性、並びに、PCIeデバイスの交換及び復旧にかかる工数等を考慮し、コンプリーションタイムアウトを検出したPCIeデバイスを原因に決定する。
一方、コンプリーションタイムアウトがルートポート1001で検出された場合(ステップS31:Yesルート)、特定部1006は、解析処理を実行する(ステップS35)。解析処理については、図11を用いて説明する。
まず、特定部1006は、CESレジスタ初期化部1007に処理の開始を要求する。これに応じ、CESレジスタ初期化部1007は、ルートポート1001及びルートポート1001の配下にある全PCIeデバイスのCESレジスタ1202のデータを初期化する(ここでは、エラーが発生していないことを示す値(例えば0)を設定する)(図11:ステップS41)。
CESレジスタ1202には、最後に初期化された時点(例えば、情報処理装置1を初めて稼働させた時点)の後に発生した訂正可能なエラーについての情報が残されている。そのため、ステップS41の処理を実行することで、コンプリーションタイムアウトに関係しないエラーの記録を消去し、コンプリーションタイムアウトに関係しないエラーが発生したリンクを特定するのを防げる。
CESレジスタ初期化部1007は、CESレジスタ読み出し部1008に処理の開始を要求する。CESレジスタ読み出し部1008は、CESレジスタ初期化部1007からの要求を受け取ってから一定時間(例えば1秒)待機する(ステップS43)。
一定時間が経過した場合、CESレジスタ読み出し部1008は、ルートポート1001及びルートポート1001の配下にある全PCIeデバイスのCESレジスタ1202のデータを読み出し(ステップS45)、特定部1006に通知する。
ステップS45の処理の際には、全PCIeデバイスに対してTLPリクエストが転送されるので、不良リンクに接続されたポートのCESレジスタ1202に書き込みが行われる可能性がある。これだけでも不良リンクを特定できるが、ステップS43において一定時間待機すると、より確実に不良リンクを特定できるようになる。なぜなら、一定時間待機している間に、不良リンクがスリープ状態に移行する場合があるからである。不良リンクがスリープ状態に移行した後にステップS45の処理を実行すると、不良リンクについてリンクの再トレーニング(すなわち、リンクトレーニングの再実行)等が行われるため、その際にCESレジスタ1202に対して書き込みが行われる可能性がより高くなる。
なお、予めリクエスタ及びコンプリータを特定できる場合には、ステップS41及びS45において、TLPリクエスト及びTLPコンプリーションに関係するPCIeデバイスのみを対象として初期化及び読み出しを実行してもよい。
特定部1006は、CESレジスタ1202から読み出したデータを用いて、CESレジスタ1202に対する書き込みがされたか判断する(ステップS47)。ステップS47においては、いずれかのCESレジスタ1202において、物理層の"Receiver Error Status"の値、並びに、データリンク層の"Replay Timer Timeout Status"の値、"REPLAY_NUM Rollover Status"の値、"Bad TLP Status"の値及び"Bad DLLP Status"の値が1に設定されているか判断する。
CESレジスタ1202に対する書き込みが検出された場合(ステップS47:Yesルート)、特定部1006は、書き込みが行われたCESレジスタ1202を有するPCIeデバイスが接続されたリンク(すなわち、エラーが発生したリンク)を特定する(ステップS49)。そして、特定部1006は、特定されたリンクの識別情報等(又は、そのリンクに接続されたPCIeデバイスの識別情報等)をメモリ101に格納する。
CESレジスタ1202に対する書き込みがされていない場合(ステップS47:Noルート)、特定部1006は、ルートポート1001及びルートポート1001の配下にある全PCIeデバイスを被疑箇所として特定する(ステップS51)。そして、特定部1006は、ルートポート1001及びルートポート1001の配下にある全PCIeデバイスの識別情報等をメモリ101に格納する。そして呼び出し元の処理に戻る。
リンクのエラーが発生した場合、データリンク層による再送及び物理層によるリンクの再トレーニング等によってエラーを自動訂正し、リンクのダウンを回避できたとしても、コンプリーションタイムアウトが発生することがある。上で説明した処理によれば、コンプリーションタイムアウトの原因となった不良リンクを特定できるようになる。特にルートポート1001においてコンプリーションタイムアウトが検出された場合、原因となり得るものの範囲が広いが、本実施の形態によれば原因を絞り込むことができる。
そして、特定部1006は、メモリ101に格納された識別情報等を出力(例えば、情報処理装置1の表示画面に表示)する。例えば、図12に示すようなデータが出力される。図12の例では、タイムスタンプと、エラーの重度と、エラーの検出箇所と、エラーの内容を表す情報とが出力される。図12に示したような情報を出力(例えば、情報処理装置1の表示画面に表示)すれば、管理者等は、エラーの発生原因及び交換されるべきPCIeデバイス等を認識できるようになる。
図9の説明に戻り、停止処理部1005は、情報処理装置1を停止するための処理を実行する(ステップS21)。そして処理を終了する。
以上のような処理を実行すれば、管理者等は、交換されるべきPCIeデバイスを交換して情報処理装置1を復旧し、情報処理装置1を再稼働させることができるようになる。コンプリーションタイムアウトの原因を絞り込めない場合、作業の工数が膨大になる(例えば、多数のPCIeデバイスを交換する作業が発生する)。しかし、本実施の形態によれば、作業の工数を削減し、情報処理装置1の運用に及ぼす影響を減らせるようになる。
なお、訂正可能なエラーを常時監視する処理を実行するという方法も考えられるが、物理層及びデータリンク層のエラーは頻発することがあるため、監視する処理がCPU100及びPCIeデバイスの通信を占有し、情報処理装置1の運用に影響を及ぼす。そして、そのような影響を回避するために、複雑な制御を行うことになる。しかし、本実施の形態の方法によれば、そのような問題を生じさせることは無い。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置1の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
また、上で説明したデータ保持形態の構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
また、上ではPCIeのシステムを例にして説明したが、接続の形態が同様であり且つ各接続点がステータスレジスタを有する他のシステムに対して本実施の形態を適用してもよい。
また、上ではルートポート1001の配下にある全PCIeデバイスのUESレジスタ1201及びCESレジスタ1202の読み出し等をしているが、TLPリクエスト及びTLPコンプリーションに関係するPCIeデバイスのみを対象にしてもよい。但し、何らかの方法によってリクエスタ及びコンプリータの両方を予め特定しておくことが前提である。
[付録]
本付録においては、PCIeについて説明する。
1.概要
PCIeは、PCI−SIGにより策定された、PCIバス規格に続くインタフェース規格である。PCIバス規格においては接続がバス型であるのに対し、PCIeにおいては接続がポイントツーポイント(Point to Point)型である。また、データの転送は、PCIバス規格においてはハンドシェイクによって行われるのに対し、PCIeにおいてはネットワークにおけるパケットの送受信によって行われる。
PCIeデバイスは、ルートポート、ポート及びエンドデバイス等の機能毎にコンフィグレーション空間を有し、コンフィグレーション空間は機能にアクセスするために使用される。コンフィグレーション空間は、UESレジスタ1201、CESレジスタ1202、及びエラー発生時のパケット等が格納されるヘッダログレジスタ等を含む。
2.PCIeのレイヤについて
図13に、PCIeのレイヤを示す。図13に示すように、PCIeにおいては、物理層と、データリンク層と、トランザクション層と、ソフトウエア層とが定義されている。
物理層は、データリンク層からデータを受け取り、物理的な信号として送出する役割を有する。ここで、物理層は、上位層から様々な処理を施された8ビットのデータを10ビットのデータに変換してから送出を行う。送出されるデータは、上位層のTLP及びDLLP(Data Link Layer Packet)と、オーダードセットと呼ばれる物理層のパケットとを含む。また、物理層は、通信相手からの信号を受け取り、データリンク層へデータを引き渡す。また、物理層は、無効な10ビットシンボルを検出した場合、受信したシンボルが無効であることをレシーバーエラー(Receiver Error)としてデータリンク層に通知することができる。
データリンク層の主な目的は、物理的なリンクで結ばれたふたつのコンポーネント間においてTLPを確実に交換する仕組みを提供することである。そのため、DLPには、TLPにシーケンス番号とLCRC(Link Cyclic Redundancy Check)とが付与される。パケットを受信したPCIeデバイスは、LCRC及びシーケンス番号を参照し、TLPがシーケンス番号の順に届いたことを確認する。エラー等によってTLPが欠落した場合、復旧のためにリトライが実行される。パケットの再送を行っても送達が確認されない場合、リンクが正常ではないとみなされる。その場合、データリンク層は物理層にリンクの再トレーニングを指示する。物理層におけるリンクの再トレーニングが失敗した場合、リンクダウンが発生したとみなされる。
トランザクション層の主な役割は、TLPリクエスト(例えばメモリ、I/O及びコンフィグレーション空間についての書き込み及び読み出しの要求)及びエラーの通知等に関するパケットをトランザクション層間で交換し、上位のソフトウエアに対してPCIと互換性のある機能を提供することである。TLPリクエストはリクエスタからコンプリータに転送され、コンプリータはTLPコンプリーションをリクエスタに返す。通常、TLPはPCIeエンドデバイス或いはルートコンプレックス(すなわち、ルートポートを含むデバイス)といった末端のPCIeデバイスで生成され、PCIeスイッチ等を経由して宛先のPCIeデバイスに届けられる。リクエスタのトランザクション層とコンプリータのトランザクション層との間の接続は、データリンク層のようなポイントツーポイント型ではなく、エンドツーエンド(End to End)型である。また、トランザクション層においては、ECRC(End-to-end Cyclic Redundancy Check)と呼ばれるTLPのCRCが使用される。
ソフトウエア層はトランザクション層の上位にあり、BIOS(Basic Input/Output System)、ファームウエア、OS(Operating System)、ドライバ及びアプリケーション等である。
3.コンプリーションタイムアウトについて
PCIバス規格において、TLPの送達は、データリンク層におけるシーケンス番号及びLCRCの付与、並びに、Ack及びNackを使用したリトライによって確認される。また、PCIeにおいては、トランザクション層において、クレジットによるフロー制御によりTLPのバッファオーバーフローを防ぐ。しかし、トランザクション層のフロー制御は、物理的なリンクで接続されたPCIeデバイス間でのみ行われる。よって、ポイントツーポイントの制御でありエンドツーエンドの制御ではなく、TLPが宛先に届いたことを保証するものではない。なお、PCIExpressのトランザクション層におけるフロー制御については、例えば、"PCI Express Base Specification Revision 3.0"の"2.6. Ordering and Receive Buffer Flow Control"(例えば、http://www.pcisig.com/specifications/pciexpress/base3/)を参照されたい。
つまり、PCIeにおいては、データリンク間の送達は保証されるが、複数のデータリンクを経由する場合の送達は保証されない。よって、TLPリクエスト及びTLPコンプリーションは、途中の受信者までは到達するが、最終的な受信者までは到達しないということが起こり得る。このような問題は、PCIeスイッチが多段に接続された大規模なシステムである場合に特に発生しやすくなる。
このような問題に関して、PCIeにおいてはコンプリーションタイムアウトが定義されている。リクエスタのトランザクション層においてTLPリクエストを送信してから経過した時間を監視し、経過した時間が所定時間より長い場合にはコンプリーションタイムアウトがリクエスタにおいて検出される。コンプリーションタイムアウトはトランザクション単位のエラーではなく、ルートポート及びエンドデバイスにおいて検出されるエラーである。つまり、PCIeにおいて、コンプリーションタイムアウトは、トランザクション層がデバイス単位で検出するエラーである。コンプリーションタイムアウトが発生したトランザクションを特定することができるのは、ソフトウエア層である。
PCIeにおいては、エラー毎に重度を定義することが可能である。従って、コンプリーションタイムアウトを、システムの稼働を阻む致命的なエラー(Fatal Error)として取り扱うこと、ソフトウエア層の処理によってリカバリが可能であるエラー(Non-Fatal Error)として取り扱うこと、及び、エラーとして取り扱わないことのいずれも可能である。
よって、ソフトウエア層にFatal Errorとして通知することで、装置を速やかに停止するという対処を行うことができる。また、ソフトウエア層にNon-Fatal Errorとして通知をすることで、ソフトウエア層がそのトランザクションについてリトライを行い、復旧を試みることもできる。また、ソフトウエア層にエラーの通知を行わず、ソフトウエア層がタイムアウトの監視及びリトライを実行することによってトランザクションを制御することもできる。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態に係る原因特定方法は、複数の装置を有する情報処理システムにおいて実行される。そして、本原因特定方法は、複数の装置のうち第1の装置が、(A)第1の装置が送信した要求に対する応答を所定時間内に受信しない場合、複数の装置のうち少なくとも要求の転送又は応答の転送に関係する装置から、当該装置の記憶部に格納されている、当該装置が接続されたリンクでエラーが発生したか否かを示す情報を取得し、(B)取得した情報に基づき、エラーが発生したリンク又は当該リンクに接続された装置を特定する処理を含む。
例えばリンクの不良等が発生すると、応答を所定時間内に受信しない(すなわち、タイムアウトになる)場合がある。そこで、上で述べたようにすれば、タイムアウトの原因を特定できるようになる。
また、装置が接続されたリンクでエラーが発生したか否かを示す情報を取得する処理において、(a1)複数の装置のうち少なくとも要求の転送又は応答の転送に関係する装置の記憶部に、当該装置が接続されたリンクでエラーが発生していないことを示す情報を設定し、設定した時点から予め定められた時間が経過した後に、当該装置の記憶部から情報を取得してもよい。記憶部には、タイムアウトに関係しないエラー(例えば既に解消されたエラー等)についての情報が格納されている場合があるため、上記のように設定をすればタイムアウトに関係しないエラーを誤って検出することが無くなる。そして、タイムアウトに関係するエラーは、記憶部から情報を取得する際の通信によって検出され、記憶部にはエラーが発生したことを示す情報が格納される。よって、上で述べたようにすれば、タイムアウトに関係しないエラーを排除し、タイムアウトに関係するエラーを検出できるようになる。
また、上で述べた情報処理システムは、PCI Expressのシステムであり、上で述べた第1の装置は、ルートポートを有するCPUであり、上で述べた記憶部は、訂正可能なエラーについての情報を格納するレジスタであってもよい。ルートポートを有するCPUでタイムアウトが検出されると、ルートポート、ルートポートの配下にある全エンドデバイス、及び経路上のリンク等が被疑箇所になり、原因の特定に多大な工数がかかる。そこで、上で述べたようにすれば、タイムアウトの原因を容易に特定できるようになる。
また、本原因特定方法は、上で述べた第1の装置が、(C)複数の装置のうちPCI Expressのエンドデバイスである第2の装置が送信した要求に対する応答を第2の装置が所定時間内に受信しないことを検出した場合に、第2の装置を原因に決定する処理をさらに含んでもよい。エンドデバイスにおいてタイムアウトが検出された場合は、ルートポートを有するCPUの場合と比較すると、そのエンドデバイス自体がタイムアウトの原因である可能性が高い。そこで、上で述べたようにすれば、適切な対応を行えるようになる。
また、上で述べた複数の装置の各々は、訂正できないエラーについての情報を格納する第2のレジスタを有し、第2の装置を原因に決定する処理において、(c1)第2のレジスタに格納されている情報に基づき、複数の装置の中から、所定時間内に応答を受信しない装置を検出してもよい。PCI Expressにおいては、タイムアウト(例えばコンプリーションタイムアウト)は訂正できないエラーとして検出される。従って、上で述べたようにすれば、タイムアウトを適切に検出できるようになる。
なお、上記方法による処理をプロセッサに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の装置を有する情報処理システムにおいて、
前記複数の装置のうち第1の装置が、
前記第1の装置が送信した要求に対する応答を所定時間内に受信しない場合、前記複数の装置のうち少なくとも前記要求の転送又は前記応答の転送に関係する装置から、当該装置の記憶部に格納されている、当該装置が接続されたリンクでエラーが発生したか否かを示す情報を取得し、
取得した前記情報に基づき、エラーが発生したリンク又は当該リンクに接続された装置を特定する
処理を実行する原因特定方法。
(付記2)
前記装置が接続されたリンクでエラーが発生したか否かを示す情報を取得する処理において、前記複数の装置のうち少なくとも前記要求の転送又は前記応答の転送に関係する装置の記憶部に、当該装置が接続されたリンクでエラーが発生していないことを示す情報を設定し、設定した時点から予め定められた時間が経過した後に、当該装置の記憶部から前記情報を取得する
付記1記載の原因特定方法。
(付記3)
前記情報処理システムは、PCI Expressのシステムであり、
前記第1の装置は、ルートポートを有するCPUであり、
前記記憶部は、訂正可能なエラーについての情報を格納するレジスタである
付記1又は2記載の原因特定方法。
(付記4)
前記第1の装置が、
前記複数の装置のうちPCI Expressのエンドデバイスである第2の装置が送信した要求に対する応答を前記第2の装置が前記所定時間内に受信しないことを検出した場合に、前記第2の装置を原因に決定する
処理をさらに実行する付記3記載の原因特定方法。
(付記5)
前記複数の装置の各々は、訂正できないエラーについての情報を格納する第2のレジスタを有し、
前記第2の装置を原因に決定する処理において、前記第2のレジスタに格納されている情報に基づき、前記複数の装置の中から、前記所定時間内に応答を受信しない装置を検出する
付記4記載の原因特定方法。
(付記6)
複数の装置
を有し、
前記複数の装置の各々は、
当該装置が接続されたリンクでエラーが発生したか否かを示す情報を格納する記憶部
を有し、
前記複数の装置のうち第1の装置は、
前記第1の装置が送信した要求に対する応答を所定時間内に受信しない場合、前記複数の装置のうち少なくとも前記要求の転送又は前記応答の転送に関係する装置から、当該装置の記憶部に格納されている前記情報を取得する取得部と、
取得した前記情報に基づき、エラーが発生したリンク又は当該リンクに接続された装置を特定する特定部と、
を有する情報処理システム。
(付記7)
送信した要求に対する応答を所定時間内に受信しない場合、少なくとも前記要求の転送又は前記応答の転送に関係する装置から、当該装置の記憶部に格納されている、当該装置が接続されたリンクでエラーが発生したか否かを示す情報を取得し、
取得した前記情報に基づき、エラーが発生したリンク又は当該リンクに接続された装置を特定する
処理をプロセッサに実行させるための原因特定プログラム。
1 情報処理装置 100 CPU
101 メモリ 102 チップセット
103 I/Oデバイス 104 ROM
1000 I/O部 1001 ルートポート
1002 レジスタ 1003 割り込み処理部
1004 UESレジスタ読み出し部 1005 停止処理部
1006 特定部 1007 CESレジスタ初期化部
1008 CESレジスタ読み出し部
105,106,107,108,109,110 PCIeスイッチ
1061,1062,1071,1081,1082,1083,1091,1092,1093,1101,1102,1103 PCIeエンドデバイス
1201 UESレジスタ 1202 CESレジスタ

Claims (6)

  1. 複数の装置を有する情報処理システムにおいて、
    前記複数の装置のうち第1の装置が、
    前記第1の装置が送信した要求に対する応答を所定時間内に受信しない場合、前記複数の装置のうち少なくとも前記要求の転送又は前記応答の転送に関係する装置から、当該装置の記憶部に格納されている、当該装置が接続されたリンクでエラーが発生したか否かを示す情報を取得し、
    取得した前記情報に基づき、エラーが発生したリンク又は当該リンクに接続された装置を特定する
    処理を実行する原因特定方法。
  2. 前記装置が接続されたリンクでエラーが発生したか否かを示す情報を取得する処理において、前記複数の装置のうち少なくとも前記要求の転送又は前記応答の転送に関係する装置の記憶部に、当該装置が接続されたリンクでエラーが発生していないことを示す情報を設定し、設定した時点から予め定められた時間が経過した後に、当該装置の記憶部から前記情報を取得する
    請求項1記載の原因特定方法。
  3. 前記情報処理システムは、PCI Expressのシステムであり、
    前記第1の装置は、ルートポートを有するCPUであり、
    前記記憶部は、訂正可能なエラーについての情報を格納するレジスタである
    請求項1又は2記載の原因特定方法。
  4. 前記第1の装置が、
    前記複数の装置のうちPCI Expressのエンドデバイスである第2の装置が送信した要求に対する応答を前記第2の装置が前記所定時間内に受信しないことを検出した場合に、前記第2の装置を原因に決定する
    処理をさらに実行する請求項3記載の原因特定方法。
  5. 複数の装置
    を有し、
    前記複数の装置の各々は、
    当該装置が接続されたリンクでエラーが発生したか否かを示す情報を格納する記憶部
    を有し、
    前記複数の装置のうち第1の装置は、
    前記第1の装置が送信した要求に対する応答を所定時間内に受信しない場合、前記複数の装置のうち少なくとも前記要求の転送又は前記応答の転送に関係する装置から、当該装置の記憶部に格納されている前記情報を取得する取得部と、
    取得した前記情報に基づき、エラーが発生したリンク又は当該リンクに接続された装置を特定する特定部と、
    を有する情報処理システム。
  6. 送信した要求に対する応答を所定時間内に受信しない場合、少なくとも前記要求の転送又は前記応答の転送に関係する装置から、当該装置の記憶部に格納されている、当該装置が接続されたリンクでエラーが発生したか否かを示す情報を取得し、
    取得した前記情報に基づき、エラーが発生したリンク又は当該リンクに接続された装置を特定する
    処理をプロセッサに実行させるための原因特定プログラム。
JP2014125994A 2014-06-19 2014-06-19 原因特定方法、原因特定プログラム、情報処理システム Active JP6427979B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014125994A JP6427979B2 (ja) 2014-06-19 2014-06-19 原因特定方法、原因特定プログラム、情報処理システム
US14/726,975 US9665456B2 (en) 2014-06-19 2015-06-01 Apparatus and method for identifying a cause of an error occurring in a network connecting devices within an information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014125994A JP6427979B2 (ja) 2014-06-19 2014-06-19 原因特定方法、原因特定プログラム、情報処理システム

Publications (2)

Publication Number Publication Date
JP2016004510A true JP2016004510A (ja) 2016-01-12
JP6427979B2 JP6427979B2 (ja) 2018-11-28

Family

ID=54869753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014125994A Active JP6427979B2 (ja) 2014-06-19 2014-06-19 原因特定方法、原因特定プログラム、情報処理システム

Country Status (2)

Country Link
US (1) US9665456B2 (ja)
JP (1) JP6427979B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020107225A (ja) * 2018-12-28 2020-07-09 富士通クライアントコンピューティング株式会社 情報処理システム、および中継装置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155826B (zh) * 2015-04-16 2019-10-18 伊姆西公司 用于在总线结构中检测及处理错误的方法和系统
US10061734B2 (en) 2015-05-20 2018-08-28 International Business Machines Corporation Adjustment of buffer credits and other parameters in a startup phase of communications between a plurality of channels and a control unit
US9892065B2 (en) * 2015-05-20 2018-02-13 International Business Machines Corporation Adjustments of buffer credits for optimizing the number of retry operations and transfer ready operations
US9864716B2 (en) 2015-05-20 2018-01-09 International Business Machines Corporation Receiving buffer credits by a plurality of channels of one or more host computational devices for transmitting data to a control unit
WO2017006457A1 (ja) * 2015-07-08 2017-01-12 株式会社日立製作所 計算機システム及び障害切り分け方法
US10257825B2 (en) * 2016-09-30 2019-04-09 Intel Corporation Reducing hardware precision time measurement inaccuracy
CN108681500B (zh) * 2018-04-28 2021-09-07 格兰菲智能科技有限公司 具有事务记录能力的系统和事务记录方法
US10891179B2 (en) * 2018-10-22 2021-01-12 Western Digital Technologies, Inc. Data storage device with deadlock recovery capabilities
US11973624B2 (en) 2019-11-29 2024-04-30 Intel Corporation Extended link-training time negotiated on link start-up
EP4116833A4 (en) * 2020-03-25 2023-04-26 Huawei Technologies Co., Ltd. COMMUNICATION METHOD AND ASSOCIATED APPARATUS
US11740973B2 (en) * 2020-11-23 2023-08-29 Cadence Design Systems, Inc. Instruction error handling
KR102635450B1 (ko) 2021-05-26 2024-02-13 에스케이하이닉스 주식회사 PCIe 장치 및 그 동작 방법
KR102669923B1 (ko) * 2021-06-01 2024-05-29 에스케이하이닉스 주식회사 PCIe 인터페이스 장치 및 그 동작 방법
KR102669925B1 (ko) 2021-06-01 2024-05-29 에스케이하이닉스 주식회사 PCIe 인터페이스 장치 및 그 동작 방법
US11921657B2 (en) 2021-05-26 2024-03-05 SK Hynix Inc. Peripheral component interconnect express (PCIE) device for supporting separate reference clock(s) operating between host and direct memory access (DMA) controller

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176464A (ja) * 2009-01-30 2010-08-12 Hitachi Ltd 計算機システム
WO2012029147A1 (ja) * 2010-09-01 2012-03-08 富士通株式会社 システムおよび障害処理方法
WO2012063358A1 (ja) * 2010-11-12 2012-05-18 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
JP2013054414A (ja) * 2011-09-01 2013-03-21 Nec Corp 情報処理装置
JP2014048782A (ja) * 2012-08-30 2014-03-17 Fujitsu Ltd 情報処理装置、及び情報処理装置の障害処理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6557121B1 (en) 1997-03-31 2003-04-29 International Business Machines Corporation Method and system for fault isolation for PCI bus errors
JP2003022222A (ja) 2001-07-06 2003-01-24 Toshiba Corp 情報処理装置及びその保守方法
US7620062B2 (en) * 2003-05-01 2009-11-17 Genesis Microchips Inc. Method of real time optimizing multimedia packet transmission rate
US6853887B1 (en) * 2003-09-15 2005-02-08 General Motors Corporation Wireless backup communication link for vehicle control
US7437643B2 (en) * 2005-06-21 2008-10-14 Intel Corporation Automated BIST execution scheme for a link
JP4914253B2 (ja) 2007-03-09 2012-04-11 株式会社リコー 半導体集積回路及びエラー解析方法
US8031731B2 (en) * 2008-06-09 2011-10-04 Oracle America, Inc. System for sharing a network port of a network interface including a link for connection to another shared network interface
US7920481B2 (en) * 2008-06-23 2011-04-05 Dell Products, Lp Path maximum transmission unit determination
US8769158B2 (en) * 2011-07-08 2014-07-01 Rockwell Automation Technologies, Inc. High availability device level ring backplane
US9146791B2 (en) * 2013-03-11 2015-09-29 International Business Machines Corporation Communication failure source isolation in a distributed computing system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176464A (ja) * 2009-01-30 2010-08-12 Hitachi Ltd 計算機システム
WO2012029147A1 (ja) * 2010-09-01 2012-03-08 富士通株式会社 システムおよび障害処理方法
WO2012063358A1 (ja) * 2010-11-12 2012-05-18 富士通株式会社 エラー箇所特定方法、エラー箇所特定装置およびエラー箇所特定プログラム
JP2013054414A (ja) * 2011-09-01 2013-03-21 Nec Corp 情報処理装置
JP2014048782A (ja) * 2012-08-30 2014-03-17 Fujitsu Ltd 情報処理装置、及び情報処理装置の障害処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020107225A (ja) * 2018-12-28 2020-07-09 富士通クライアントコンピューティング株式会社 情報処理システム、および中継装置

Also Published As

Publication number Publication date
JP6427979B2 (ja) 2018-11-28
US9665456B2 (en) 2017-05-30
US20150370683A1 (en) 2015-12-24

Similar Documents

Publication Publication Date Title
JP6427979B2 (ja) 原因特定方法、原因特定プログラム、情報処理システム
US10198379B2 (en) Early identification in transactional buffered memory
US8443126B2 (en) Hot plug process in a distributed interconnect bus
TWI464577B (zh) 即時錯誤回復之方法及系統
CN109614256B (zh) 现场错误恢复
US7536584B2 (en) Fault-isolating SAS expander
EP3234778B1 (en) Error handling in transactional buffered memory
US7774638B1 (en) Uncorrectable data error containment systems and methods
CN111625388B (zh) Ssd前端错误处理方法、装置、计算机设备和存储介质
CN115550291B (zh) 交换机的复位系统及方法、存储介质、电子设备
CN115934389A (zh) 用于错误报告和处理的系统和方法
CN116724297A (zh) 一种故障处理方法、装置及系统
CN115437978A (zh) 高速外围组件互连接口装置及其操作方法
JP5151500B2 (ja) コンピュータシステム、障害処理方法および障害処理プログラム
JP5233415B2 (ja) エラー特定方法、データ処理装置、及び半導体装置
JP6357879B2 (ja) システムおよび障害処理方法
JP2005215809A (ja) コンピュータシステム、バスコントローラ及びそれらに用いるバス障害処理方法
JP2013200616A (ja) 情報処理装置及び情報処理装置の復旧回路
JP4915113B2 (ja) バスシステム、リセットイニシャライズ回路、及びバスシステムにおける障害復旧方法
CN114968860B (zh) 高速外围组件互连接口装置以及包括该接口装置的系统
JP2009104391A (ja) メモリ二重化システム及び情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181015

R150 Certificate of patent or registration of utility model

Ref document number: 6427979

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150