WO2007097040A1 - 情報処理装置の制御方法、情報処理装置 - Google Patents

情報処理装置の制御方法、情報処理装置 Download PDF

Info

Publication number
WO2007097040A1
WO2007097040A1 PCT/JP2006/303653 JP2006303653W WO2007097040A1 WO 2007097040 A1 WO2007097040 A1 WO 2007097040A1 JP 2006303653 W JP2006303653 W JP 2006303653W WO 2007097040 A1 WO2007097040 A1 WO 2007097040A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
information
bit
processing apparatus
error
Prior art date
Application number
PCT/JP2006/303653
Other languages
English (en)
French (fr)
Inventor
Hideyuki Unno
Masaki Ukai
Naozumi Aoki
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2006/303653 priority Critical patent/WO2007097040A1/ja
Priority to JP2008501590A priority patent/JP4894854B2/ja
Priority to EP06714790A priority patent/EP1990723B1/en
Publication of WO2007097040A1 publication Critical patent/WO2007097040A1/ja
Priority to US12/198,577 priority patent/US8301969B2/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0041Arrangements at the transmitter end
    • H04L1/0042Encoding specially adapted to other signal generation operation, e.g. in order to reduce transmit distortions, jitter, or to improve signal shape
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0045Arrangements at the receiver end
    • H04L1/0047Decoding adapted to other signal detection operation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/38Synchronous or start-stop systems, e.g. for Baudot code
    • H04L25/40Transmitting circuits; Receiving circuits
    • H04L25/49Transmitting circuits; Receiving circuits using code conversion at the transmitter; using predistortion; using insertion of idle bits for obtaining a desired frequency spectrum; using three or more amplitude levels ; Baseband coding techniques specific to data transmission systems
    • H04L25/4906Transmitting circuits; Receiving circuits using code conversion at the transmitter; using predistortion; using insertion of idle bits for obtaining a desired frequency spectrum; using three or more amplitude levels ; Baseband coding techniques specific to data transmission systems using binary codes
    • H04L25/4915Transmitting circuits; Receiving circuits using code conversion at the transmitter; using predistortion; using insertion of idle bits for obtaining a desired frequency spectrum; using three or more amplitude levels ; Baseband coding techniques specific to data transmission systems using binary codes using pattern inversion or substitution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/349Performance evaluation by tracing or monitoring for interfaces, buses

Definitions

  • Information processing apparatus control method information processing apparatus
  • the present invention relates to an information processing technique, for example, a technique effective when applied to debugging, performance measurement, and the like in a development process and a maintenance process of an information processing apparatus.
  • a dedicated signal line (wire) has been provided as a method for giving various operation timing instructions to individual devices from the outside in debugging.
  • An object of the present invention is to provide a technique capable of realizing accurate debugging using a hardware debugging function without causing an increase in cost.
  • Another object of the present invention is to provide a technology capable of realizing debugging of system behavior that highly depends on operation timing without requiring hardware such as an extra dedicated signal line. is there.
  • a first aspect of the present invention is a first step of connecting a first device and a second device via an information transmission path protected by adding redundant bits for error detection and error correction. And a second step of transmitting information from the first device to the second device by intentionally manipulating the redundant bits;
  • An information processing apparatus control method including
  • a second aspect of the present invention is the information processing apparatus control method according to the first aspect, wherein, in the second step, the first and second apparatuses are different from those in normal operation.
  • Provided is a method for controlling an information processing apparatus that operates the redundant bit after setting a specific operation mode.
  • a third aspect of the present invention is the information processing apparatus control method according to the first aspect, wherein in the second step,
  • the first device on the transmission side operates the redundant bit within a range where the error correction is possible
  • the second device on the receiving side provides a method of controlling the information processing device for recognizing the error detection as the information transmission and detecting the error when the error detection is detected in the redundant bit .
  • a fourth aspect of the present invention is the information processing apparatus control method according to the first aspect, wherein in the second step, different information is assigned to each of the plurality of redundant bits to simulate the information processing apparatus. Generates a correctable error and recognizes the position of the error bit in the redundant bit Provided is a control method of an information processing apparatus that realizes the information transmission based on the result.
  • a fifth aspect of the present invention is the information processing apparatus control method according to the first aspect, wherein in the second step, the information processing apparatus control method performs information transmission for debugging or performance measurement. I will provide a.
  • a sixth aspect of the present invention provides information on a configuration in which the first device and the second device are connected via an information transmission path protected by adding redundant bits for error detection and error correction.
  • an information processing apparatus including information transmission means for transmitting specific information from a first apparatus to a second apparatus by intentionally manipulating the redundant bits.
  • a seventh aspect of the present invention is the information processing apparatus according to the sixth aspect.
  • the information transmission means includes
  • an information processing apparatus that realizes the specific information based on a position recognition result of an error bit in the redundant bit in the second or first apparatus on the receiving side.
  • An eighth aspect of the present invention is the information processing apparatus according to the sixth aspect.
  • the information transmission means has a function of recognizing a specific operation mode different from that during normal operation in the information processing apparatus, and information in which the specific information is transmitted by the operation of the redundant bit in the specific operation mode.
  • a processing device is provided.
  • the information transmission means includes
  • Redundant bit manipulating means arranged in the first and Z or second devices on the transmitting side and manipulating the redundant bit according to the specific information
  • a determination unit that is arranged in the second and Z or first devices on the receiving side and receives the specific information based on the error detection report obtained by referring to the redundant bits; provide.
  • a tenth aspect of the present invention is the information processing apparatus according to the sixth aspect,
  • the redundant bit is within a range where the error correction is possible.
  • an information processing apparatus for recognizing the error detection as the specific information and executing the error correction when the error detection is detected in the redundant bit.
  • An eleventh aspect of the present invention is the information processing apparatus according to the sixth aspect.
  • the specific information provides an information processing apparatus that is a command for debugging or performance measurement.
  • a redundant bit for ECC Error Correction Code
  • CE pseudo correctable error
  • FIG. 1 is a block diagram illustrating a configuration example of an information processing apparatus that implements a method for controlling an information processing apparatus according to an embodiment of the present invention.
  • FIG. 2 is a conceptual diagram illustrating a part of an information processing apparatus according to an embodiment of the present invention.
  • FIG. 3 is a conceptual diagram showing an example of the configuration of an information processing system that implements a method for controlling an information processing apparatus according to an embodiment of the present invention.
  • FIG. 4 is an explanatory diagram showing an example of allocation of ECC bits and transmission signals in an information processing system that implements a method for controlling an information processing apparatus according to an embodiment of the present invention.
  • FIG. 5 is a conceptual diagram showing an example of a debug request packet in an information processing system that implements a control method for an information processing apparatus according to an embodiment of the present invention.
  • FIG. 6 is a conceptual diagram showing an example of a packet for a debug order in an information processing system that implements a control method for an information processing apparatus according to an embodiment of the present invention.
  • FIG. 7 is a sequence diagram showing an example of the operation of the information processing system that implements the control method of the information processing apparatus according to the embodiment of the present invention.
  • FIG. 8 is a conceptual diagram showing an example of the operation of the information processing system that implements the control method of the information processing apparatus according to the embodiment of the present invention.
  • FIG. 9 is a sequence diagram showing an example of the operation of the information processing system that implements the control method of the information processing apparatus according to the embodiment of the present invention.
  • FIG. 10 is a sequence diagram showing an example of the operation of the information processing system that implements the control method of the information processing apparatus according to the embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating a configuration example of an information processing apparatus that implements a method for controlling an information processing apparatus according to an embodiment of the present invention.
  • FIG. 2 illustrates a part of the information processing apparatus according to the present embodiment. It is the conceptual diagram which took out and illustrated.
  • the information processing apparatus is connected to the transmission side apparatus 10 and the reception side. It consists of the side device 20.
  • a nose 30 is provided between the transmission side device 10 and the reception side device 20, and data transfer is performed from the transmission side device 10 to the reception side device 20 using this nose 30.
  • Bus 30 includes TAG bit 31, data bit 32, and redundant ECC bit 33 to protect these from errors! /.
  • TAG bit 31 is 3 bits and data bit 32 is 24 bits, 7 bits are provided as ECC bit 33.
  • a 1-bit error on bus 30 (34 bits or 50 bits in this case) can identify the error location. Therefore, error correction is possible.
  • a 2-bit error can be detected but not corrected.
  • the transmission side device 10 is provided with a packet generator 12. This packet generator 12
  • the transmission side device 10 also has a function of calculating and setting the value of the ECC bit 33 for protecting the packet data composed of the TAG bit 31 and the data bit 32.
  • the receiving side device 20 is provided with an error detection / correction circuit 22.
  • This error detection / correction circuit 22 uses TAG bit 31 and data bit 32 and redundant ECC bit 33 to detect the presence / absence of an error in each bit of bus 30 and to correct the error. I have.
  • One of the redundant ECC bits 33 is intentionally inverted to send the device 1
  • the side for transmitting information is transmitted to the transmitting side device 10 side.
  • a redundant bit inversion circuit 14 is provided.
  • the receiving side device 20 is provided with a determination circuit 24 for receiving (recognizing) information.
  • this redundant bit inversion circuit 14 has a function of operating each of two bits of ECC bits 33, for example.
  • two types of signals are transmitted from the transmission side device 10 to the reception side device 20 by using 2 bits of ECC bit 33. introduce.
  • Factory-mode signal 43 is used to identify that the error of the ECC bit 33 is a pseudo error for information transmission.
  • a factory-mode signal 43 is provided!
  • FIG. 2 shows a configuration example of the redundant bit inverting circuit 14.
  • the redundant bit inverting circuit 14 includes a plurality of XOR circuits 14a and 14b, and a plurality of AND circuits 14c and 14d corresponding to the respective XOR circuits 14a and 14b.
  • the XOR circuit 14a uses the EC [0] to [6] bit lines of the ECC bit 33 as EC.
  • the XOR circuit 14b is arranged on the bit line of ECC [1], and the corresponding AND circuit 1
  • the logical product circuit 14c inputs the logical product of the Factory-mode signal 43 and the trigger signal 41 as transmission information to the XOR circuit 14a.
  • the logical product circuit 14d inputs the logical product of the Factory-mode signal 43 and the trigger signal 42 to the XOR circuit 14b.
  • the receiving side device 20 is provided with a determination circuit 24 for recognizing information transmitted to the ECC bit 33 via the redundant bit inversion circuit 14.
  • the determination circuit 24 recognizes the information transmitted from the redundant bit inversion circuit 14 (transmission side device 10) based on the error report signal 26 input from the error detection / correction circuit 22. .
  • the Factory-mode signal 43 is not essential! /. If the reliability of bus 30 is high, there will be almost no error in node 30 in a relatively short period of time. Therefore, even if only the presence or absence of an error in a specific bit in ECC bit 33 is monitored, trigger signal 41 and trigger signal 42 are used. It is possible to receive.
  • the transmission side device 10 transmits information to be transmitted to the reception side device 20 to the error detection / correction circuit 22 side in a packet using the TAG bit 31 and the data bit 32. At this time, according to the bit status of TAG bit 31 and data bit 32, the bit of ECC bit 33 for error detection / correction is also set appropriately.
  • the error detection / correction circuit 22 performs error detection and correction to ensure the reliability of the bus 30 (packet).
  • the trigger signal 41 or the trigger signal 42 is transmitted to the receiving device 20 side.
  • a pseudo-correctable error by the redundant bit inversion circuit 14 is detected and corrected by the error detection and correction circuit 22, and the error bit position of the ECC bit 33 is set to the error report signal 26. Is input to the determination circuit 24.
  • the determination circuit 24 to which the error report signal 26 is input recognizes the reception of the trigger signal 41 or the trigger signal 42 from the reported bit position in the ECC bit 33, and transmits it to another circuit (not shown). .
  • the ECC bit 33 provided for protecting the transmission information such as the TAG bit 31 and the data bit 32 in the bus 30 is used for the exclusive use.
  • the transmission of the trigger signal 41 and the trigger signal 42 is possible between the transmission side device 10 and the reception side device 20 without providing any other signal line.
  • the error detection and correction circuit 22 detects and corrects a pseudo-correctable error of the ECC bit 33 by the redundant bit inversion circuit 14, it is performed in the same process as normal error detection and correction.
  • the data transmission status of TAG bit 31 and data bit 32 on bus 30 is not affected at all.
  • the transmission side device 10 does not disturb the TAG bit 31 and the data bit 32, so that the reception side The trigger signal 41 or the trigger signal 42 can be transmitted to the device 20.
  • FIG. 3 is a conceptual diagram showing an example of the configuration of an information processing system that implements the control method of the information processing apparatus according to the present embodiment.
  • An information processing system 100 illustrated in FIG. 3 includes a plurality of CPU nodes 110, a plurality of system controllers 120, a main memory 130, and input / output devices 140.
  • bus 30 (SCREQ—BUS30—1) for transferring information from the CPU node 110 to the system controller 120, and information from the system controller 120 to the CPU node 110.
  • bus 30 (SCODR—B US30 2) for transferring! [0054]
  • each of the CPU node 110 and the system controller 120 includes the transmission side device 10 and the reception side.
  • a device 20 is provided.
  • the transmission side device 10, the reception side device 20, and the bus 30 have the configuration illustrated in FIG.
  • Each CPU node 110 includes one or more CPU cores 112, a cache memory 114, a system bus control unit 116, and a history memory 118.
  • the CPU core 112 includes register storage, an arithmetic unit, and a controller, and performs arithmetic processing and control.
  • the cache memory 114 temporarily stores information exchanged between the CPU core 112 and the system bus control unit 116.
  • the system bus control unit 116 includes the transmission-side device 10 and the reception-side device 20, and includes SCREQ—BUS30-1, SCODR—BUS30-2, system controller 12
  • the history memory 118 stores the operation history of each unit in the CPU node 110 endlessly. That is, the history memory 118 stores the operation history of each unit in the CPU node 110 for a time corresponding to the storage capacity of the history memory 118.
  • each system controller 120 includes a system control logic 122, a system bus control unit 124, and a history memory 126.
  • the system control logic 122 controls the entire system controller 120 and CPU node 1
  • the system bus control unit 124 includes the transmission side device 10 and the reception side device 20, and communicates with the CPU node 110 via the SCREQ-BUS 30-1 and SCODR-BUS 30-2. Controls the exchange of information between them.
  • FIG. 4 is a conceptual diagram showing an example of assignment of the trigger signal 41 and the trigger signal 42 transmitted by the operation of the ECC bit 33 in the information processing system 100.
  • the trigger signal 41 and trigger signal 42 are applied as TRAP1 and TRAP2 forces.
  • SCODR—BUS 30—2 which transfers information from system controller 120 to CPU node 110, HIS 1 FRZ, HIS 1 RLS, and S TART, STOP are assigned as trigger signal 41 and trigger signal 42. Yes.
  • a debug packet as exemplified in FIG. 5 and FIG. 6 can be used for controlling the debug function.
  • each CPU node 110 includes one or more system controllers 120.
  • the TAG bit 31 is 3 bits
  • the data bit 32 is 24 bits
  • the ECC bit 33 forces 7 bits, and so on.
  • Bus 30 (SCODR— in the transfer direction from system controller 120 to CPU node 110
  • Both SCREQ-BUS30-1 and SCODR-BUS30-2 are protected by ECC bit 33, and any lbit error can identify the error location. Therefore, the error can be corrected. 2bit errors can be detected. Power correction is not possible.
  • the debug request packet 201 illustrated in FIG. 5 and the debug order packet 202 illustrated in FIG. 6 are used as the debug function start signal in the normal mode (during normal operation). Have.
  • a debug request packet 201 in FIG. 5 is used for starting a debug function from the CPU node 110 to the system controller 120.
  • SCREQ—BUS30 24-bit width SCREQ—BUS [23: 0] is set to! /, And SCREQ BUS [22] to [16] are set to the 7-bit debug request instruction code.
  • the start signal of TRAP2 and TRAP1 is assigned to each bit of SCREQ—BUS [6] and [7].
  • the debug order packet 202 in FIG. 6 is used for starting a debug function from the system controller 120 to the CPU node 110.
  • SCODR—BUS30 40-bit width SCODR—BUS [39: 0], 0 to 39, SCREQ—BUS [38] to [32] is set to 7-bit debug order instruction code, SCREQ—BUS [21], [20], [19], [18], HIS—FRZ, HIS—RLS, START, STOP, start signals are assigned to each bit.
  • HIS_FRZ is an instruction to freeze history data in hardware such as history memory 118 and history memory 126.
  • this freeze instruction writing to the history memory 118 and the history memory 126 is stopped, and the history data up to that point is overwritten and saved without being lost.
  • the HIS-RLS is a release instruction for the history memory 118, the history memory 126, and the like, and writing of history data to the history memory 118 and the history memory 126 is resumed by this release instruction.
  • START is a control signal for performance measurement, and instructs, for example, hardware (not shown) for debugging to start measuring the number of executions of a specific instruction or the like.
  • STOP is also a performance measurement control signal, and instructs the hardware (not shown) to stop the measurement.
  • TRAP1, TRAP2, HIS FRZ, HIS — Debug signals such as RLS, START, and STOP are realized by manipulating the existing ECC bit 33.
  • the CPU node 110 or the system controller 120 of the transfer source When transmitting the trigger signal, the CPU node 110 or the system controller 120 of the transfer source inverts the corresponding bit of the ECC bit 33 in the redundant bit inversion circuit 14 of the transmission side device 10.
  • the occurrence of a trigger is notified by intentionally generating a correctable error on the bus 30.
  • ECC bit 33 on node 30 is valid (including idle time) regardless of the transfer status, the trigger signal can be transferred at any timing. However, it is impossible in principle to transfer two triggers at the same time.
  • the error detection / correction circuit 22 detects a correctable error, and the error bit position is a bit for trigger transfer. If it is, the judgment circuit 24 interprets that the trigger signal has been received. At this time, the report of correctable error detection to the upper system control logic 122 or the like needs to be suppressed.
  • ECC bit 33 an error in a bit that is not used for the transfer of the trigger signal is corrected as usual, and an error is reported to system control logic 122 and the like.
  • Information processing system 100 If any failure occurs due to an internal factor, read the operation history before and after the failure of each hardware such as CPU node 110, system controller 120, etc. You may want to analyze the cause.
  • history memory 118 and the history memory 126 since history information is recorded endlessly while overwriting a limited storage area, it is necessary to appropriately stop writing (overwriting). . In addition, after use, it is necessary to restart the recording operation in the history memory 118, the history memory 126, and the like.
  • control of the history memory 118 and the history memory 126 is realized as follows.
  • the system controller 120 that has recognized this TRAP1 by the determination circuit 24 of the receiving-side device 20 sends an ECC [33] ECC bit 33 ECC [ By inverting [0], HIST-FRZ is notified and writing to the history memory 126 of the own device is stopped, and the history information for a predetermined period in the past is saved so as not to be overwritten.
  • the contents of the history memory 118 and the history memory 126 are serially read out through the debug information read pins (not shown) provided in the CPU node 110 and the system controller 120 for analysis ( Step 304).
  • the system controller 120 is instructed to release the history through a debug-dedicated pin or the like (not shown) (step 305).
  • the system controller 120 resumes writing history information to the history memory 126 of its own device, and via the ECC bit 33 of SCODR BUS30-2. HIS-RLS is notified to all CPU nodes 110. Receiving this, each CPU node 110 resumes writing history information to the history memory 118 (step 306).
  • the information processing system can be provided with a know-up detection function using a timer.
  • HIS_FRZ is temporarily issued and the instruction is completed. Then, control to issue HIS-RLS.
  • This process will be described as a history information read process 350 with reference to FIG.
  • CPUO issues TRAP1 to system controller 120 (SC) (step 351) when issuing a specific instruction that is likely to hang (time 500).
  • HIS—FRZ is issued to the device and all CPU nodes 110 (step 352), and updating of the history memory 118 and history memory 126 is stopped.
  • the history information for the period 502 described above is stored in the history memory 118 and the history memory 126, and the history information can be collected.
  • HIS-RLS broadcast transmission was performed by giving a command to the system controller 120 via a dedicated debug pin (not shown) from outside, but TRAP2 is set as follows. By using it, CPUO (CPU node 110) can send HIS-RLS broadcasts.
  • CPU node 110 issues HIS RLS to system controller 120 using TRAP2
  • HIS RLS HIS RLS
  • TRAP2 An example of performing this is shown in the lower part of Fig. 9.
  • the HIS-FRZ (step 352) is performed in this way.
  • FIG. 9 a case where the user does not hang up is illustrated.
  • the process is normally completed without hang-up, it is necessary to resume recording history information in the history memory 118 and the history memory 126.
  • the CPUO issues TRAP2 to the SC (step 353), and the SC broadcasts the HIS-RLS to its own device and all CPU nodes 110 in response to TRAP2 (step 35).
  • the system detected in step 301 is controlled by synchronously controlling the update stop of the history memory 118 and the history memory 126 in the individual CPU node 110 and the system controller 120 by the HIST-FRZ. History information of each part of the system regarding errors can be collected accurately.
  • the history information collected from the history memory 118, history memory 126, etc. is in a state where system errors are reflected as they are, and accurate error analysis can be performed in a short time. .
  • the number of executions of a specific instruction may be measured while the information processing system 100 is operating.
  • this performance measurement process 400 is performed as follows.
  • the system controller 120 Upon receiving this, the system controller 120 notifies all CPU nodes 110 of START via the ECC bit 33 of SCODR-BUS30-2, and also starts performance measurement within itself. Further, the performance measurement is also started on each CPU node 110 notified of START (step 402).
  • the start of the performance measurement is, for example, to start counting the number of executions of a specific instruction using a register or the like (not shown).
  • the system controller 120 is instructed to stop the performance measurement process using a debugging pin (not shown) again (step 403).
  • the system controller 120 Upon receiving this, the system controller 120 stops the performance measurement in its own device, and uses the ECC bit 33 of SCODR—BUS30—2 to all CPU nodes 110.
  • STOP is notified (step 404).
  • the individual CPU nodes 110 that have received this STOP notification also stop the performance measurement at the same time, and then read the performance measurement results from the individual CPU nodes 110 and the system controller 120 in the same manner as described above ( Step 405).
  • the performance measurement results can be collected in synchronization with the specific operation states of the plurality of CPU nodes 110 and the system controller 120 using the START and STOP start signals.
  • information transmission by intentional operation of redundant bits on the bus is not limited to debugging and performance measurement, but can also be used for general information transmission.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

 TAGビット31、データビット32およびエラー検出/訂正用のECCビット33からなるバス30を介して接続された送信側装置10および受信側装置20において、送信側装置10は、冗長ビット反転回路14を用いて、トリガ信号41、トリガ信号42に対応したECCビット33の異なるビットを反転させる。受信側装置20では、エラー検出・訂正回路22からエラー報告信号26を受けた判定回路24が、ECCビット33のエラービットの位置からトリガ信号41、トリガ信号42のいずれが送信側装置10から送信されたかを判別する。

Description

明 細 書
情報処理装置の制御方法、情報処理装置
技術分野
[0001] 本発明は、情報処理技術に関し、たとえば、情報処理装置の開発工程や保守工程 等におけるデバッグや性能測定等に適用して有効な技術に関する。
背景技術
[0002] たとえば、情報処理装置の開発や保守工程では、異常動作や障害の原因究明、あ るいは性能向上等のためのデバッグを行う必要がある。
このため、システムを構成する複数のデバイス内に動作履歴を記録する履歴メモリ を設け、外部から個々のデバイスに対して一斉に動作履歴の記録開始、記録停止を 指示することで、障害が発生した前後の特定期間内の動作履歴を個々のデバイス内 に記録させ、外部に読み出して原因解析に利用することが考えられる。
[0003] また、動作履歴として、個々のデバイス内における特定期間内のデータ転送量や 特定の命令の実行回数を履歴メモリに記録させることで、性能測定を行うことも考えら れる。
このように、デバッグ等において、外部から個々のデバイスに対して各種動作タイミ ング等の指示を与える方法として、従来においては、専用信号線 (ワイア)を設けるこ とが行われていた。
[0004] その理由は、通常稼働時の動作に擾乱をカ卩えることなぐ履歴メモリ等のハードゥエ ァのデバッグ機能を用いることができ、実際の稼働状態を反映した正確な障害解析 が可能になるためである。
[0005] しかし、デバイスを構成する半導体装置の集積密度が向上し、デバイス間の信号線 の実装コストが相対的に大きくなり、かつ、増大しつづけている今日においては、通 常運用では全く用いられないデバッグ専用の信号線をデバイス間に設置するコスト は無視できなくなって 、る。
[0006] この対策として、デバッグ専用の信号線を設ける代わりに、デバッグ機能を制御する ための制御コマンドを追加することも考えられる力 この制御コマンドの実行のために 、システムの通常の運用動作に擾乱が加わり、高度に動作タイミングに依存するよう なシステム挙動を解析した ヽ場合には、不利になる。
発明の開示
[0007] 本発明の目的は、コスト増大を生じることなぐハードウェアのデバッグ機能を用い た的確なデバッグを実現することが可能な技術を提供することにある。
本発明の他の目的は、余分な専用信号線等のハードウェアを必要とすることなぐ 高度に動作タイミングに依存するようなシステム挙動のデバッグを実現することが可 能な技術を提供することにある。
[0008] 本発明の第 1の観点は、エラー検出およびエラー訂正のための冗長ビットを付加す ることで保護された情報伝送路を介して第 1装置と第 2装置を接続する第 1ステップと 前記冗長ビットを意図的に操作することで、第 1装置から第 2装置への情報伝達を 行う第 2ステップと、
を含む情報処理装置の制御方法を提供する。
[0009] 本発明の第 2の観点は、第 1の観点に記載の情報処理装置の制御方法において、 前記第 2ステップでは、前記第 1および第 2装置に対して、通常稼働時とは異なる特 定動作モードを設定した後に、前記冗長ビットの操作を行う情報処理装置の制御方 法を提供する。
[0010] 本発明の第 3の観点は、第 1の観点に記載の情報処理装置の制御方法において、 前記第 2ステップでは、
送信側の前記第 1装置は、前記エラー訂正が可能な範囲で前記冗長ビットを操作 し、
受信側の前記第 2装置は、前記冗長ビットに前記エラー検出が検出された時、当該 エラー検出を前記情報伝達と認識するとともに、前記エラー訂正を実行する情報処 理装置の制御方法を提供する。
[0011] 本発明の第 4の観点は、第 1の観点に記載の情報処理装置の制御方法において、 前記第 2ステップでは、複数の前記冗長ビットの各々に異なる情報を割り当てて擬 似的な訂正可能エラーを発生させ、前記冗長ビットにおけるエラービットの位置認識 結果に基づいて前記情報伝達を実現する情報処理装置の制御方法を提供する。
[0012] 本発明の第 5の観点は、第 1の観点に記載の情報処理装置の制御方法において、 前記第 2ステップでは、デバッグまたは性能測定用の情報伝達を行う情報処理装 置の制御方法を提供する。
[0013] 本発明の第 6の観点は、エラー検出およびエラー訂正のための冗長ビットを付加す ることで保護された情報伝送路を介して第 1装置と第 2装置を接続した構成の情報処 理装置であって、
前記冗長ビットを意図的に操作することで、第 1装置から第 2装置への特定情報の 伝達を行う情報伝達手段を含む情報処理装置を提供する。
[0014] 本発明の第 7の観点は、第 6の観点に記載の情報処理装置において、
前記情報伝達手段は、
送信側の前記第 1または第 2装置において複数の前記冗長ビットの各々に異なる 前記特定情報を割り当てて擬似的な訂正可能エラーを発生させ、
受信側の前記第 2または第 1装置において前記冗長ビットにおけるエラービットの 位置認識結果に基づいて前記特定情報を実現する情報処理装置を提供する。
[0015] 本発明の第 8の観点は、第 6の観点に記載の情報処理装置において、
前記情報伝達手段は、前記情報処理装置における通常稼働時とは異なる特定動 作モードを認識する機能を備え、前記特定動作モードにおいて、前記冗長ビットの操 作による前記特定情報の伝達が行われる情報処理装置を提供する。
[0016] 本発明の第 9の観点は、第 6の観点に記載の情報処理装置において、
前記情報伝達手段は、
送信側の前記第 1および Zまたは第 2装置に配置され、前記特定情報に応じて前 記冗長ビットを操作する冗長ビット操作手段と、
受信側の前記第 2および Zまたは第 1装置に配置され、前記冗長ビットを参照して 得られた前記エラー検出の報告に基づいて前記特定情報を受信する判定手段と、 を含む情報処理装置を提供する。
[0017] 本発明の第 10の観点は、第 6の観点に記載の情報処理装置において、
前記情報伝達手段の送信側では前記エラー訂正が可能な範囲で前記冗長ビット を操作し、
前記情報伝達手段の受信側では、前記冗長ビットに前記エラー検出が検出された 時、当該エラー検出を前記特定情報と認識するとともに、前記エラー訂正を実行する 情報処理装置を提供する。
[0018] 本発明の第 11の観点は、第 6の観点に記載の情報処理装置において、
前記特定情報は、デバッグまたは性能測定用のコマンドである情報処理装置を提 供する。
[0019] 一般に、情報処理装置では、複数のデバイス間を接続するバス等の情報伝送路は 、ECC等の冗長ビットを設けることで伝送データの信頼性の向上が図られている。 本発明では、この ECC等の冗長ビットの信号線を利用してデバイス間の情報の伝 達を実現する。この冗長ビットの信号線は通常のバスに備わっているので、デバッグ 専用の信号線を設ける必要がなくなり、デバッグ関係の機能の製造コストを削減する ことが可能になる。
[0020] たとえば、データの送信側にお!、て、この ECC (Error Correction Code)用の冗長 ビットを操作して疑似的な訂正可能エラー(CE: Correctable Error)を発生させる。デ ータの受信側では、この冗長ビットにおける訂正可能エラーの検出と、エラービットの 位置情報に基づ!、て受信情報を認識する。
[0021] 冗長ビットを操作して訂正可能エラーを発生させるだけなので、本来の伝送データ や伝送タイミング等には全く影響しない。すなわち、システムの通常の稼働状態に擾 乱を加えることなぐ冗長ビットの操作によって、個々のデバイスに備えられたデバッ グ機能を制御することが可能になる。
[0022] 特に、高度にタイミングに依存するシステム挙動の解析においても正確な解析を行 うことが可能になる。
近年のバスの信頼性は高ぐデバッグ等の短期間では、実際のデータエラーは発 生しにくい、と考えられるので、 ECC等の冗長ビットを操作することによる情報伝達は 可能である。
[0023] また、必要に応じて、デバッグ中であることを示す特定動作モードを設定し、この動 作モードと、冗長ビットの操作とを併用して、当該冗長ビットを用いた上述の情報伝達 を行うようにしてもよい。
図面の簡単な説明
[0024] [図 1]本発明の一実施の形態である情報処理装置の制御方法を実施する情報処理 装置の構成例を示すブロック図である。
[図 2]本発明の一実施の形態である情報処理装置の一部を取り出して例示した概念 図である。
[図 3]本発明の一実施の形態である情報処理装置の制御方法を実施する情報処理 システムの構成の一例を示す概念図である。
[図 4]本発明の一実施の形態である情報処理装置の制御方法を実施する情報処理 システムにおける ECCビットと伝達信号の割り当て例を示す説明図である。
[図 5]本発明の一実施の形態である情報処理装置の制御方法を実施する情報処理 システムにおけるデバッグリクエスト用のパケットの一例を示す概念図である。
[図 6]本発明の一実施の形態である情報処理装置の制御方法を実施する情報処理 システムにおけるデバッグオーダ用のパケットの一例を示す概念図である。
[図 7]本発明の一実施の形態である情報処理装置の制御方法を実施する情報処理 システムの動作の一例を示すシーケンス図である。
[図 8]本発明の一実施の形態である情報処理装置の制御方法を実施する情報処理 システムの動作の一例を示す概念図である。
[図 9]本発明の一実施の形態である情報処理装置の制御方法を実施する情報処理 システムの動作の一例を示すシーケンス図である。
[図 10]本発明の一実施の形態である情報処理装置の制御方法を実施する情報処理 システムの動作の一例を示すシーケンス図である。
発明を実施するための最良の形態
[0025] 以下、図面を参照しながら、本発明の実施の形態について詳細に説明する。
図 1は、本発明の一実施の形態である情報処理装置の制御方法を実施する情報 処理装置の構成例を示すブロック図であり、図 2は、本実施の形態の情報処理装置 の一部を取り出して例示した概念図である。
[0026] 図 1に例示されるように、本実施の形態の情報処理装置は、送信側装置 10と受信 側装置 20で構成されて ヽる。
送信側装置 10と受信側装置 20との間にはノ ス 30が設けられており、このノ ス 30を 用いて送信側装置 10から受信側装置 20へとデータ転送が行われる。
[0027] バス 30は、 TAGビット 31、データビット 32の他〖こ、これらをエラーから保護するため の冗長な ECCビット 33を含んで!/、る。
たとえば、 TAGビット 31が 3ビット、データビット 32が 24ビットの場合、 ECCビット 33 として 7ビットが設けられる。
[0028] また、 TAGビット 31が 3ビット、データビット 32力 0ビットの場合、 ECCビット 33とし て 7ビットが設けられる。
このいずれの場合も、バス 30 (この場合、 34ビットまたは 50ビット)の 1ビットエラー はエラー位置を特定できる。従ってエラー訂正が可能である。
[0029] 2ビットエラーは、検出は可能であるが訂正はできない。
送信側装置 10には、パケット生成器 12が設けられている。このパケット生成器 12は
、データビット 32に対応した所定のビットパターンと、 TAGビット 31に対応したビット 力もなるパケットを生成する機能を備えている。また、送信側装置 10は、この TAGビ ット 31およびデータビット 32からなるパケットデータを保護するための ECCビット 33 の値を計算して設定する機能を備えて 、る。
[0030] 受信側装置 20には、エラー検出'訂正回路 22が設けられている。このエラー検出' 訂正回路 22は、 TAGビット 31およびデータビット 32と、冗長な ECCビット 33を用い て、バス 30の各ビットにおけるエラーの有無を検出する機能、および当該エラーを訂 正する機能を備えている。
[0031] すなわち、バス 30の TAGビット 31、データビット 32、 ECCビット 33の各々が上述の ようなビット構成の場合、これらのいずれ力 1ビットにエラー (ビット反転)が発生した場 合には、当該エラービットの位置を特定できるとともに、エラー訂正が可能である。
[0032] 本実施の形態の場合には、このバス 30におけるエラー検出、訂正機能を利用して
、冗長な ECCビット 33のいずれか 1ビットを意図的に反転させることで、送信側装置 1
0と受信側装置 20との間における情報伝達を実現する。
[0033] すなわち、本実施の形態の場合、送信側装置 10の側には、情報を送信するための 冗長ビット反転回路 14が設けられている。また、受信側装置 20には、情報を受信 (認 識)するための判定回路 24が設けられている。
[0034] 本実施の形態の場合、この冗長ビット反転回路 14は、たとえば、 ECCビット 33のう ち、 2ビットの各々を操作する機能を備えている。
すなわち、本実施の形態では、 ECCビット 33の 2ビットを用いて、 2種類の信号 (こ の場合、トリガ信号 41、またはトリガ信号 42)を、送信側装置 10から受信側装置 20の 側に伝達する。
[0035] なお、この ECCビット 33のエラーが、情報伝達のための疑似エラーであることを識 別するための、 Factory— mode信号 43が、送信側装置 10の冗長ビット反転回路 1
4と、受信側装置 20の判定回路 24に入力される。
[0036] なお、 Factory— mode信号 43は、必ずしも必要ではな 、。すなわち、近年のバス
30の信頼性は高いので、デバッグ時等の比較的短い期間では、バス 30にほとんど エラーが発生しな 、と考えられるので、 ECCビット 33のビットエラーの有無のみの判 定でも、 ECCビット 33を利用した情報伝達は可能である。
[0037] 本実施の形態では、 ECCビット 33を用いた情報伝達をより確実にするために、 Fac tory— mode信号 43を設けて!/、る。
図 2は、この冗長ビット反転回路 14の構成例を示している。冗長ビット反転回路 14 は、複数の XOR回路 14a、 XOR回路 14bと、各々に対応した複数の論理積回路 14 c、論理積回路 14dを含んでいる。
[0038] この場合、 XOR回路 14aは、 ECCビット 33の ECC[0]〜[6]のビット線のうち、 EC
C [0]に配置されている。
そして、対応する論理積回路 14cからの入力と、 ECC[0]の論理状態の排他的論 理和を演算することで、論理積回路 14cからの入力が真("1")の場合に、 ECC[0] の論理状態を、 "0"から "1"、または" 1"から" 0"に反転させる。
[0039] 同様に、 XOR回路 14bは、 ECC[1]のビット線に配置され、対応する論理積回路 1
4dから入力が真(" 1 ")の場合に、 ECC [ 1 ]の論理状態を反転させる。
論理積回路 14cは、 Factory— mode信号 43と、伝達情報であるトリガ信号 41との 論理積を XOR回路 14aに入力する。 [0040] 同様に、論理積回路 14dは、 Factory— mode信号 43と、トリガ信号 42との論理積 を XOR回路 14bに入力する。
一方、受信側装置 20には、冗長ビット反転回路 14を介して ECCビット 33に送信さ れた情報を認識するための判定回路 24が設けられている。
[0041] この判定回路 24は、エラー検出'訂正回路 22から入力されるエラー報告信号 26に 基づ 、て、冗長ビット反転回路 14 (送信側装置 10)の側から送信された情報を認識 する。
[0042] すなわち、エラー報告信号 26に含まれる、 ECCビット 33におけるエラービットの検 出位置と、 Factory— mode信号 43とに基づいて、 Factory— mode信号 43が真(" 1")の期間中における、トリガ信号 41、トリガ信号 42の各々の送信側装置 10からの 送信の有無を判別する。
[0043] ただし、上述のように Factory— mode信号 43は、必須ではな!/、。バス 30の信頼性 が高い場合は、比較的短期間ではほとんどノ ス 30にエラーは発生しないので、 EC Cビット 33における特定ビットのエラーの有無の監視のみでも、トリガ信号 41やトリガ 信号 42を受信することは可能である。
[0044] 以下、図 1の本実施の形態の作用の一例を説明する。
送信側装置 10では、受信側装置 20に伝達するための情報を、 TAGビット 31およ びデータビット 32を用いるパケットにて、エラー検出'訂正回路 22の側に送信する。 この時、 TAGビット 31とデータビット 32のビット状態に応じて、エラー検出/訂正の ための ECCビット 33のビットも適切に設定される。
[0045] このパケットを受信する受信側装置 20の側では、エラー検出'訂正回路 22におい て、エラー検出、訂正を行うことで、バス 30 (パケット)の信頼性を確保する。
ここで、 ECCビット 33を用いた情報伝達を行う場合、まず、送信側装置 10の冗長ビ ット反転回路 14、および受信側装置 20の判定回路 24の各々に、真("1")の Factor y— mode信号 43を入力する。
[0046] そして、送信側装置 10の側では、必要に応じて、トリガ信号 41またはトリガ信号 42 を" 1"にすることで、 ECCビット 33の対応するビットを反転させ、疑似訂正可能エラー として、当該トリガ信号 41またはトリガ信号 42を受信側装置 20の側に送信する。 [0047] 受信側装置 20の側では、冗長ビット反転回路 14による疑似訂正可能エラーがエラ 一検出'訂正回路 22によって検出されて訂正されるとともに、 ECCビット 33のエラー ビット位置がエラー報告信号 26として判定回路 24に入力される。
[0048] このエラー報告信号 26が入力された判定回路 24は、 ECCビット 33における報告さ れたビット位置から、トリガ信号 41またはトリガ信号 42の受信を認識し、図示しない他 の回路に伝達する。
[0049] このように、本実施の形態の場合には、バス 30における TAGビット 31、データビット 32等の伝送情報の保護のために設けられている ECCビット 33を利用することで、専 用の信号線等を設けることなぐ送信側装置 10と受信側装置 20との間でトリガ信号 4 1、トリガ信号 42の情報伝達が可能である。
[0050] また、エラー検出'訂正回路 22における ECCビット 33の、冗長ビット反転回路 14に よる疑似訂正可能エラーの検出および訂正動作は、通常のエラー検出、訂正と同様 のプロセスで行われるため、バス 30における TAGビット 31、データビット 32のデータ 送信状態には、全く影響しない。
[0051] 従って、たとえば、 TAGビット 31、データビット 32の伝送タイミングに高度に依存す るような処理においても、 TAGビット 31、データビット 32に擾乱を与えることなぐ送 信側装置 10から受信側装置 20へのトリガ信号 41またはトリガ信号 42の伝達が可能 である。
[0052] このような ECCビット 33を利用した本実施の形態の情報伝達技術を、情報処理シ ステムのデバッグに適用する場合について、さらに詳細に説明する。
図 3は、本実施の形態の情報処理装置の制御方法を実施する情報処理システムの 構成の一例を示す概念図である。
[0053] 図 3に例示される情報処理システム 100は、複数の CPUノード 110、複数のシステ ムコントローラ 120、主記憶 130、入出力機器 140を含んでいる。
個々の CPUノード 110とシステムコントローラ 120の間には、 CPUノード 110からシ ステムコントローラ 120への情報転送を行うバス 30 (SCREQ— BUS30—1)と、シス テムコントローラ 120から CPUノード 110への情報転送を行うバス 30 (SCODR—B US30 2)が設けられて!/、る。 [0054] 互!、に情報の転送方向が逆な SCREQ— BUS30 - 1と SCODR— BUS30 - 2の 各々に対応して、 CPUノード 110とシステムコントローラ 120の各々には送信側装置 10および受信側装置 20が設けられて 、る。
[0055] この送信側装置 10、受信側装置 20、バス 30は、上述の図 1に例示した構成を有す る。
個々の CPUノード 110は、一つまたは複数の CPUコア 112、キャッシュメモリ 114、 システムバス制御部 116、履歴メモリ 118を含んで!/、る。
[0056] CPUコア 112は、レジスタ記憶や演算器、制御器を備え、演算処理や制御を行う。
キャッシュメモリ 114は、 CPUコア 112とシステムバス制御部 116との間で授受され る情報を一時的に記憶する。
[0057] システムバス制御部 116は、上述のように、送信側装置 10、受信側装置 20をそな えており、 SCREQ— BUS30— 1、 SCODR— BUS30— 2、システムコントローラ 12
0を介して、主記憶 130、入出力機器 140との間における情報の授受を行う。
[0058] 履歴メモリ 118は、 CPUノード 110における各部の動作履歴をエンドレスに記憶す る。すなわち、履歴メモリ 118には、当該履歴メモリ 118の記憶容量に応じた時間分 だけ、 CPUノード 110内の各部の動作履歴を記憶する。
[0059] 一方、個々のシステムコントローラ 120は、システム制御論理 122、システムバス制 御部 124、履歴メモリ 126を含んでいる。
システム制御論理 122は、システムコントローラ 120の全体を制御し、 CPUノード 1
10から主記憶 130や入出力機器 140に対するアクセス要求を処理する。
[0060] システムバス制御部 124は、上述のように、送信側装置 10、受信側装置 20を備え ており、 SCREQ— BUS 30—1、 SCODR— BUS30— 2を介して、 CPUノード 110 との間における情報の授受を制御する。
[0061] 図 4は、この情報処理システム 100において、 ECCビット 33の操作によって伝達さ れるトリガ信号 41、トリガ信号 42の割り当て例を示す概念図である。
CPUノード 110からシステムコントローラ 120への情報転送を行う SCREQ— BUS
30— 1にお!/ヽては、トリガ信号 41、トリガ信号 42として、 TRAP1、 TRAP2力 ^害 ijり当 てられている。 [0062] システムコントローラ 120から CPUノード 110への情報転送を行う SCODR— BUS 30— 2では、トリガ信号 41、トリガ信号 42として、 HIS一 FRZ、 HIS一 RLS、および S TART, STOPが割り当てられている。
[0063] 本実施の形態の情報処理システム 100では、通常運用時には、デバッグ機能の制 御のために図 5および図 6に例示されるような、デバッグパケットを用いることができる
Factory— mode信号 43が有効("1")の時のみ、 ECCビット 33のビット反転によつ て、 CPUノード 110とシステムコントローラ 120との間の通信を行う。 ECCビット 33を 用いて同時に発生する通信事象はひとつである。これは、疑似的な訂正可能エラー
(CE)を用いるためである。
[0064] 上述のように、個々の CPUノード 110は、ひとつ以上のシステムコントローラ 120と
ECC保護されたバス 30で接続されて ヽる。
本実施の形態においては、 CPUノード 110からシステムコントローラ 120への転送 方向のバス 30 (SCREQ— BUS30— 1)では、 TAGビット 31が 3bit、データビット 32 が 24bit、 ECCビット 33力 7bit力らなる。
[0065] システムコントローラ 120から CPUノード 110への転送方向のバス 30 (SCODR—
BUS30— 2)で ίま、 TAGビット 31力 3bit、データビット 32力40bit、: ECCビット 33力 S
7bitカゝらなる。
[0066] SCREQ— BUS30— 1、 SCODR— BUS30— 2のいずれも ECCビット 33で保護 されており、任意の lbitエラーは、エラー位置を特定できる。したがって、エラーの訂 正が可能である。 2bitエラーは検出が可能である力 訂正はできない。
[0067] 通常モード (通常運用時)における、デバッグ機能の起動信号として、本実施の形 態では、図 5に例示されるデバッグリクエストパケット 201、および図 6に例示されるデ バッグオーダパケット 202を有する。
[0068] 図 5のデバッグリクエストパケット 201は、 CPUノード 110からシステムコントローラ 1 20へのデバッグ機能起動に用いられる。
SCREQ— BUS30— 1における 24ビット幅の SCREQ— BUS [23: 0]にお!/、て、 SCREQ BUS [22]〜 [16]に 7ビット幅のデバッグリクエストの命令コードが設定さ れ、 SCREQ— BUS [6]、 [7]の各ビットに、 TRAP2、 TRAP 1の起動信号が割り当 てられている。
[0069] 図 6のデバッグオーダパケット 202は、システムコントローラ 120から CPUノード 110 へのデバッグ機能起動に用いられる。
SCODR— BUS30— 2における 0〜39の 40ビット幅の SCODR— BUS [39: 0]に おいて、 SCREQ— BUS [38]〜[32]に 7ビット幅のデバッグオーダの命令コードが 設定され、 SCREQ— BUS [21]、 [20]、 [19]、 [18]、の各ビットに、 HIS— FRZ、 HIS— RLS、 START, STOP,の各起動信号が割り当てられている。
[0070] ここで、 HIS_FRZは、履歴メモリ 118、履歴メモリ 126等のハードウェアにおける 履歴データのフリーズ指示である。このフリーズ指示により、履歴メモリ 118、履歴メモ リ 126への書き込みが停止され、その時点までの履歴データが上書きされて失われ ることなく、保存される。
[0071] HIS— RLSは、履歴メモリ 118、履歴メモリ 126等に対するリリース指示であり、この リリース指示により、履歴メモリ 118、履歴メモリ 126への履歴データの書き込みが再 開される。
[0072] STARTは、性能測定用制御信号であり、たとえば特定の命令等の実行回数の測 定開始契機をデバッグ用の図示しないハードウェアに指示する。
STOPは、同じく性能測定用制御信号であり、測定停止契機をデバッグ用の図示し ないハードウェアに指示する。
[0073] いずれも、ソフトウェアを変更することなぐ CPUノード 110やシステムコントローラ 1 20のハードウェアに設けられた調査用のデバッグ装置を制御するための信号である
[0074] ところで、上述のように、これらの信号の送出のために、専用のデバッグリクエストパ ケット 201、デバッグオーダパケット 202等を用いる場合には、当該パケットによって 情報処理システム 100の動作に擾乱が加わる懸念がある。
[0075] これは、高度にタイミングに依存するような情報処理システム 100の挙動を調査した い場合には問題となる。
そこで、本実施の形態では、上述のように、 TRAP1、 TRAP2、 HIS FRZ、 HIS — RLS、 START, STOP等のデバッグ信号を、既存の ECCビット 33を操作すること によって実現する。
[0076] すなわち、本実施の形態では、たとえば、工場での情報処理システム 100の開発 工程や保守における調査専用モード(Factory— mode信号 43)を設け、このモード 時に限り、デバッグ信号の授受に ECCビット 33を用いる。
[0077] これにより、 SCREQ— BUS 30—1、 SCODR— BUS30— 2におけるデータビット
32を用いた通常運用系のパケット転送に干渉することなぐ CPUノード 110とシステ ムコントローラ 120との間で、デバッグ機能のトリガ信号を授受することが可能となる。
[0078] Factory— mode信号 43の設定時にお!、て、 ECCビット 33を用いて転送される信 号と、用いられるチェックビットは、上述の図 4に例示した通りである。
転送元の CPUノード 110またはシステムコントローラ 120は、上記のトリガ信号を送 出する際には、送信側装置 10の冗長ビット反転回路 14において ECCビット 33の該 当するビットを反転させる。
[0079] すなわち、バス 30上で故意に訂正可能エラーを発生させることにより、トリガの発生 を通知する。
ノ ス 30上の ECCビット 33は転送状況に関わらず (アイドル時も含めて)有効である ため、任意のタイミングでトリガ信号の転送が可能である。ただし、 2つのトリガを同時 に転送することは原理的に出来ない。
[0080] 受信側のシステムコントローラ 120または CPUノード 110における受信側装置 20に おいては、エラー検出'訂正回路 22によって訂正可能エラーを検出し、かつ、誤りビ ット位置がトリガ転送用のビットであった場合には、判定回路 24において、トリガ信号 を受信したものと解釈する。このとき、上位のシステム制御論理 122等に対する訂正 可能エラー検出の報告は抑止される必要がある。
[0081] ECCビット 33において、トリガ信号の転送に用いられないビットの誤りは、通常通り 訂正されるとともに、システム制御論理 122等に対してエラー報告が行われる。
図 7のシーケンス図を参照して、 ECCビット 33の操作によって伝達されるデバッグ 用のトリガ信号を用いた処理の一例を説明する。
[0082] まず、履歴情報読み出し処理 300について説明する。情報処理システム 100に、 内部的な要因でなんらかの障害が発生する場合、 CPUノード 110、システムコント口 ーラ 120等の各ハードウェアにおける障害発生時およびその前後における動作履歴 を、履歴メモリ 118、履歴メモリ 126等力 読み出して原因を解析したい場合がある。
[0083] ただし、上述のように、履歴メモリ 118、履歴メモリ 126では、限られた記憶領域を上 書きしながらエンドレスで履歴情報を記録するため、適宜、書き込み (上書き)を停止 させる必要がある。また、用済み後は、履歴メモリ 118、履歴メモリ 126等における記 録動作を再開させる必要がある。
[0084] 本実施の形態では、このような、履歴メモリ 118、履歴メモリ 126の制御を以下のよう にして実現する。
Factory— mode信号 43が真の状態で、たとえば、一つの CPUノード 110 (CPU0 )でエラーが検出されると (ステップ 301)、当該 CPUノード 110は、 SCREQ— BUS 30 - 1の ECCビット 33 (ECC [0] )を反転操作して、システムコントローラ 120に対し て、 TRAP1を通知する(ステップ 302)。
[0085] この TRAP1を、受信側装置 20の判定回路 24で認識したシステムコントローラ 120 は、全ての CPUノード 110 (CPU0、 CPUn)に対して、 SCODR— BUS30— 2の E CCビット 33の ECC[0]を反転させることで、 HIST— FRZを通知するとともに、自装 置の履歴メモリ 126への書き込みを停止し、過去の所定期間の履歴情報が上書きさ れないように保存する。
[0086] 同様に、 SCODR— BUS30— 2を介して、システムコントローラ 120から HIST— F RZを通知された全ての CPUノード 110は、履歴メモリ 118の更新を停止する(ステツ プ 303)。
[0087] その後、たとえば、 CPUノード 110、システムコントローラ 120に設けられた、図示し ないデバッグ情報の読み出しピン等を通じて、履歴メモリ 118、履歴メモリ 126の内容 をシリアルに外部に読み出して解析に供する (ステップ 304)。
[0088] この履歴情報の読み出しが完了したら、図示しないデバッグ専用ピン等を通じて、 システムコントローラ 120にヒストリのリリースを指示する(ステップ 305)。
これを契機に、システムコントローラ 120は、自装置の履歴メモリ 126に対する履歴 情報の書き込みを再開するとともに、 SCODR BUS30— 2の ECCビット 33を介し て、全ての CPUノード 110に対して、 HIS— RLSを通知する。これを受けた個々の C PUノード 110は、履歴メモリ 118に対する履歴情報の書き込みを再開する (ステップ 306)。
[0089] 上述の図 7の例では、エラー検出を契機に HIS— FRZを CPUが発行する場合を 例示したが、以下のように、任意の命令の実行開始後に HIS— FRZを CPUが発行 することちでさる。
[0090] たとえば、エラー検出機構のひとつとして、本実施の形態の情報処理システムに、 タイマーを利用したノヽングアップ検出機能を設けることもできる。
しかし、図 8に例示されるように、ハングアップ検出時点(時刻 501)でヒストリフリー ズしたのでは、ハングアップ検出時点の近辺の履歴しか得られず、また、この期間に 得た 、情報 (エラーの原因)が含まれる可能性は小さ 、。
[0091] そこで、ハングアップする可能性のある命令 (たとえば、応答待ち'処理待ち状態に なるような命令)の開始時(時刻 500)に、仮に HIS_FRZを発行させ、その命令がた だしく完了したら HIS— RLSを発行させるような制御を行う。
[0092] これにより、当該命令の開始直後から、エラーの原因が含まれる可能性の高い期間
502の履歴情報を確実に収集することができる。
この処理を、履歴情報読み出し処理 350として、図 9を参照して説明する。
[0093] CPUOは、ハングする危険のある特定の命令の発行時(時刻 500)に、システムコン トローラ 120 (SC)に対して TRAP1を発行し (ステップ 351)、これを受けた SCは、自 装置および全ての CPUノード 110に対して HIS— FRZを発行し (ステップ 352)、履 歴メモリ 118、履歴メモリ 126の更新を停止させる。
[0094] これにより、履歴メモリ 118、履歴メモリ 126には、上述の期間 502の履歴情報が保 存され、当該履歴情報を採取することが可能になる。
なお、上述の図 7では、外部から図示しないデバッグ専用ピンを介してシステムコン トローラ 120に指令を与えることにより、 HIS— RLSの同報送信を行わせていたが、 以下のように、 TRAP2を利用して、 CPUO (CPUノード 110)力ら HIS— RLSの同報 送信を行わせることもできる。
[0095] TRAP2を用いて CPUノード 110がシステムコントローラ 120に HIS RLSの発行 を行わせる例を、図 9の下側に例示する。
CPUは、キャッシュミスにともなうシステム応答待ち等の、ハングアップに陥る危険 のある処理 (命令)の実行を開始したら(時刻 500)、しばらくの時間(ほぼ履歴メモリ 1 18、履歴メモリ 126の記憶容量できまる)待ったのちに TRAP1を発行する (ステップ 351)。
[0096] これにより HIS— FRZ (ステップ 352)が行われるのは、上述のとおりである。
もし、「ハングアップに陥る危険のある処理」が本当にハングアップに 、たった場合 には、この処理開始力もしばらくの履歴が手に入ることになる。
[0097] なお、図 9では、ハングアップに 、たらなかった場合を図示して!/、る。ハングアップ にならず、処理が正常に完了した際には、履歴メモリ 118、履歴メモリ 126での履歴 情報の記録を再開する必要がある。
[0098] そこで、 CPUOは、 TRAP2を SCに発行し (ステップ 353)、 SCは、 TRAP2を契機 に、 HIS— RLSを自装置および全ての CPUノード 110に同報送信する(ステップ 35
4)。
[0099] このように、個々の CPUノード 110、システムコントローラ 120における履歴メモリ 11 8、履歴メモリ 126の更新停止を HIST— FRZによって同期して制御することで、ステ ップ 301で検出されたシステムエラーに関するシステム各部の履歴情報を的確に収 集することができる。
[0100] また、 SCREQ— BUS30—1、 SCODR— BUS30— 2の各々に本来備わっている
ECCビット 33を操作するだけなので、 TAGビット 31やデータビット 32におけるデー タ転送等に擾乱が加わることがな 、。
[0101] このため、履歴メモリ 118、履歴メモリ 126等力も収集された履歴情報は、システム エラーを、有りのままに反映した状態となっており、短期間に正確なエラー解析を行う ことができる。
[0102] さらに、 SCREQ— BUS30— 1、 SCODR— BUS30— 2の各々に本来備わってい る ECCビット 33の操作によって、図 4に示したような各種のデバッグ信号等の伝達が 行われるので、これらのデバッグ信号等の伝達のために余分なデバッグ専用の信号 線を設ける必要がなぐ情報処理システム 100の製造コストを削減することができる。 [0103] 次に、図 10を参照して、性能測定処理 400について説明する。情報処理システム 1
00のハードウェアやソフトウェアの最適化等のために、情報処理システム 100の稼働 状態において、特定の命令の実行回数等を計測した場合がある。
[0104] 本実施の形態では、以下のようにしてこの性能測定処理 400を行う。
まず、図示されないデバッグ専用ピン等をもちいて、システムコントローラ 120に対し て性能測定処理の開始を指示する (ステップ 401)。
[0105] これを受けたシステムコントローラ 120は、 SCODR— BUS30— 2の ECCビット 33 を介して、 STARTを全ての CPUノード 110に通知するとともに、自装置内でも性能 測定を開始する。また、 STARTを通知された個々の CPUノード 110でも、性能測定 を開始する (ステップ 402)。
[0106] この性能測定の開始とは、たとえば、図示しないレジスタ等を用いて特定の命令の 実行回数のカウントを開始することである。
所定の時間後、ふたたび図示されないデバッグ専用ピン等をもちいて、システムコ ントローラ 120に対して性能測定処理の停止を指示する (ステップ 403)。
[0107] これを受けたシステムコントローラ 120は、自装置内における性能測定を停止すると ともに、 SCODR— BUS30— 2の ECCビット 33を用いて、全ての CPUノード 110に
STOPを通知する(ステップ 404)。
[0108] この STOPの通知を受けた個々の CPUノード 110も、同時に性能測定を停止する その後、上述と同様の方法で、個々の CPUノード 110、システムコントローラ 120か ら、性能測定結果を読み出す (ステップ 405)。
[0109] このように、 START, STOPの起動信号を用いて、複数の CPUノード 110、システ ムコントローラ 120の特定の動作状態に同期して性能測定結果を収集することができ る。
[0110] この性能測定処理 400の場合も、上述した履歴情報読み出し処理 300の場合と同 様の効果を得ることができる。
産業上の利用可能性
[0111] 本発明によれば、コスト増大を生じることなぐハードウェアのデバッグ機能を用いた 的確なデバッグを実現することが可能となる。
また、余分な専用信号線等のハードウェアを必要とすることなぐ高度に動作タイミ ングに依存するようなシステム挙動のデバッグを実現することが可能となる。
なお、本発明は、上述の実施の形態に例示した構成に限らず、その趣旨を逸脱し な!、範囲で種々変更可能であることは言うまでもな 、。
すなわち、バスの冗長ビットの意図的な操作による情報伝達としては、デバッグ、性 能測定等に限らず、一般の情報伝達にも用いることができる。

Claims

請求の範囲
[1] エラー検出およびエラー訂正のための冗長ビットを付加することで保護された情報 伝送路を介して第 1装置と第 2装置を接続する第 1ステップと、
前記冗長ビットを意図的に操作することで、第 1装置から第 2装置への情報伝達を 行う第 2ステップと、
を含むことを特徴とする情報処理装置の制御方法。
[2] 請求項 1記載の情報処理装置の制御方法にお!、て、
前記第 2ステップでは、前記第 1および第 2装置に対して、通常稼働時とは異なる特 定動作モードを設定した後に、前記冗長ビットの操作を行うことを特徴とする情報処 理装置の制御方法。
[3] 請求項 1記載の情報処理装置の制御方法にお!、て、
前記第 2ステップでは、
送信側の前記第 1装置は、前記エラー訂正が可能な範囲で前記冗長ビットを操作 し、
受信側の前記第 2装置は、前記冗長ビットに前記エラー検出が検出された時、当該 エラー検出を前記情報伝達と認識するとともに、前記エラー訂正を実行することを特 徴とする情報処理装置の制御方法。
[4] 請求項 1記載の情報処理装置の制御方法にお!、て、
前記第 2ステップでは、複数の前記冗長ビットの各々に異なる情報を割り当てて擬 似的な訂正可能エラーを発生させ、前記冗長ビットにおけるエラービットの位置認識 結果に基づいて前記情報伝達を実現することを特徴とする情報処理装置の制御方 法。
[5] 請求項 1記載の情報処理装置の制御方法にお!、て、
前記第 2ステップでは、デバッグまたは性能測定用の情報伝達を行うことを特徴と する情報処理装置の制御方法。
[6] エラー検出およびエラー訂正のための冗長ビットを付加することで保護された情報 伝送路を介して第 1装置と第 2装置を接続した構成の情報処理装置であって、 前記冗長ビットを意図的に操作することで、第 1装置から第 2装置への特定情報の 伝達を行う情報伝達手段を含むことを特徴とする情報処理装置。
[7] 請求項 6記載の情報処理装置において、
前記情報伝達手段は、
送信側の前記第 1または第 2装置において複数の前記冗長ビットの各々に異なる 前記特定情報を割り当てて擬似的な訂正可能エラーを発生させ、
受信側の前記第 2または第 1装置において前記冗長ビットにおけるエラービットの 位置認識結果に基づいて前記特定情報を実現することを特徴とする情報処理装置。
[8] 請求項 6記載の情報処理装置において、
前記情報伝達手段は、前記情報処理装置における通常稼働時とは異なる特定動 作モードを認識する機能を備え、前記特定動作モードにおいて、前記冗長ビットの操 作による前記特定情報の伝達が行われることを特徴とする情報処理装置。
[9] 請求項 6記載の情報処理装置において、
前記情報伝達手段は、
送信側の前記第 1および Zまたは第 2装置に配置され、前記特定情報に応じて前 記冗長ビットを操作する冗長ビット操作手段と、
受信側の前記第 2および Zまたは第 1装置に配置され、前記冗長ビットを参照して 得られた前記エラー検出の報告に基づいて前記特定情報を受信する判定手段と、 を含むことを特徴とする情報処理装置。
[10] 請求項 6記載の情報処理装置において、
前記情報伝達手段の送信側では前記エラー訂正が可能な範囲で前記冗長ビット を操作し、
前記情報伝達手段の受信側では、前記冗長ビットに前記エラー検出が検出された 時、当該エラー検出を前記特定情報と認識するとともに、前記エラー訂正を実行する ことを特徴とする情報処理装置。
[11] 請求項 6記載の情報処理装置において、
前記特定情報は、デバッグまたは性能測定用のコマンドであることを特徴とする情 報処理装置。
PCT/JP2006/303653 2006-02-27 2006-02-27 情報処理装置の制御方法、情報処理装置 WO2007097040A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2006/303653 WO2007097040A1 (ja) 2006-02-27 2006-02-27 情報処理装置の制御方法、情報処理装置
JP2008501590A JP4894854B2 (ja) 2006-02-27 2006-02-27 データ送信装置、データ送受信システム及びデータ送受信システムの制御方法
EP06714790A EP1990723B1 (en) 2006-02-27 2006-02-27 Information processing apparatus control method and information processing apparatus
US12/198,577 US8301969B2 (en) 2006-02-27 2008-08-26 Control method of information processing device and information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/303653 WO2007097040A1 (ja) 2006-02-27 2006-02-27 情報処理装置の制御方法、情報処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/198,577 Continuation US8301969B2 (en) 2006-02-27 2008-08-26 Control method of information processing device and information processing device

Publications (1)

Publication Number Publication Date
WO2007097040A1 true WO2007097040A1 (ja) 2007-08-30

Family

ID=38437099

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/303653 WO2007097040A1 (ja) 2006-02-27 2006-02-27 情報処理装置の制御方法、情報処理装置

Country Status (4)

Country Link
US (1) US8301969B2 (ja)
EP (1) EP1990723B1 (ja)
JP (1) JP4894854B2 (ja)
WO (1) WO2007097040A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013062737A (ja) * 2011-09-14 2013-04-04 Nec Corp 信号送受信回路
JP2013062736A (ja) * 2011-09-14 2013-04-04 Nec Corp 信号送受信回路

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012100210A (ja) * 2010-11-05 2012-05-24 Nec Corp データ伝送システム、送信回路および受信回路
US9459977B2 (en) 2014-08-26 2016-10-04 Freescale Semiconductor, Inc. Data processing system with debug control
US9613714B1 (en) * 2016-01-19 2017-04-04 Ememory Technology Inc. One time programming memory cell and memory array for physically unclonable function technology and associated random code generating method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0389182A (ja) * 1989-08-31 1991-04-15 Sharp Corp 集積回路装置
JPH08154084A (ja) * 1994-11-28 1996-06-11 Matsushita Electric Ind Co Ltd ディジタル送受信方法とその装置
JP2002304306A (ja) * 2001-04-05 2002-10-18 Nec Computertechno Ltd エラー報告方式及びその方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5321813A (en) * 1991-05-01 1994-06-14 Teradata Corporation Reconfigurable, fault tolerant, multistage interconnect network and protocol
JPH08195736A (ja) * 1995-01-13 1996-07-30 Nec Corp 通信システム
US6493838B1 (en) * 1995-09-29 2002-12-10 Kabushiki Kaisha Toshiba Coding apparatus and decoding apparatus for transmission/storage of information
US6415398B1 (en) * 1995-09-29 2002-07-02 Kabushiki Kaisha Toshiba Coding system and decoding system
US6427219B1 (en) * 1998-06-24 2002-07-30 Conexant Systems, Inc. Method and apparatus for detecting and correcting errors using cyclic redundancy check
JP2004030527A (ja) * 2002-06-28 2004-01-29 Fujitsu Ltd 記憶制御装置、および記憶制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0389182A (ja) * 1989-08-31 1991-04-15 Sharp Corp 集積回路装置
JPH08154084A (ja) * 1994-11-28 1996-06-11 Matsushita Electric Ind Co Ltd ディジタル送受信方法とその装置
JP2002304306A (ja) * 2001-04-05 2002-10-18 Nec Computertechno Ltd エラー報告方式及びその方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013062737A (ja) * 2011-09-14 2013-04-04 Nec Corp 信号送受信回路
JP2013062736A (ja) * 2011-09-14 2013-04-04 Nec Corp 信号送受信回路

Also Published As

Publication number Publication date
JP4894854B2 (ja) 2012-03-14
EP1990723A4 (en) 2010-06-09
JPWO2007097040A1 (ja) 2009-07-09
US8301969B2 (en) 2012-10-30
EP1990723A1 (en) 2008-11-12
EP1990723B1 (en) 2011-07-13
US20080320360A1 (en) 2008-12-25

Similar Documents

Publication Publication Date Title
US7003698B2 (en) Method and apparatus for transport of debug events between computer system components
CN100474258C (zh) 计算机可读介质、错误恢复方法和装置、计算机系统
JP4894854B2 (ja) データ送信装置、データ送受信システム及びデータ送受信システムの制御方法
CN110580235A (zh) 一种sas扩展器通信方法及装置
US8196028B2 (en) Error detection device
JP2008009796A (ja) 制御装置及び制御方法
CN101009684B (zh) 分布式系统中单板工作状态监控装置及方法
US8484546B2 (en) Information processing apparatus, information transmitting method, and information receiving method
CN101739336A (zh) 调试系统、调试方法和调试控制方法
CN111522757A (zh) 一种基于i2c总线的中断读取与清除的控制方法
US10581555B2 (en) Information processing device and burst error reproducing method
US7243257B2 (en) Computer system for preventing inter-node fault propagation
KR960016272B1 (ko) 이중화프로세서의 에러 감지/처리 장치 및 그 방법
JP2002229811A (ja) 論理分割システムの制御方法
JP4137450B2 (ja) バックアップデータにより処理継続可能なデータ処理装置
WO2008062511A1 (fr) Système multiprocesseur
JPH0535616A (ja) データ転送システム
US20240185938A1 (en) Glitch detection
WO2008026283A1 (fr) Circuit de surveillance d'horloge, appareil de traitement d'informations et procédé de surveillance d'horloge
US20220188204A1 (en) Central processing unit
JPS6126698B2 (ja)
JP2919366B2 (ja) バス障害処理方式
WO2024092193A1 (en) Bus transaction security in multi-chip module
JP2001043104A (ja) コンピュータシステムのバス監視装置
JPH10214207A (ja) 情報処理システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2008501590

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2006714790

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE