JP7418397B2 - コモンモード障害信号に応じたメモリスキャン動作 - Google Patents
コモンモード障害信号に応じたメモリスキャン動作 Download PDFInfo
- Publication number
- JP7418397B2 JP7418397B2 JP2021500733A JP2021500733A JP7418397B2 JP 7418397 B2 JP7418397 B2 JP 7418397B2 JP 2021500733 A JP2021500733 A JP 2021500733A JP 2021500733 A JP2021500733 A JP 2021500733A JP 7418397 B2 JP7418397 B2 JP 7418397B2
- Authority
- JP
- Japan
- Prior art keywords
- memory
- common mode
- scan operation
- redundant processing
- check circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004044 response Effects 0.000 title claims description 32
- 238000012545 processing Methods 0.000 claims description 139
- 238000001514 detection method Methods 0.000 claims description 60
- 230000009471 action Effects 0.000 claims description 21
- 238000003672 processing method Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 15
- 238000012937 correction Methods 0.000 description 14
- 238000011084 recovery Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000002245 particle Substances 0.000 description 4
- 238000005201 scrubbing Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1629—Error detection by comparing the output of redundant processing systems
- G06F11/165—Error detection by comparing the output of redundant processing systems with continued operation after detection of the error
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1629—Error detection by comparing the output of redundant processing systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/073—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0772—Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1695—Error detection or correction of the data by redundancy in hardware which are operating with time diversity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2043—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3037—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
- For Increasing The Reliability Of Semiconductor Memories (AREA)
- Hardware Redundancy (AREA)
Description
Claims (20)
- ロックステップ方式で冗長的にデータ処理を実行するための複数の冗長処理ユニットと、
前記複数の冗長処理ユニットのそれぞれに影響を与える潜在的なコモンモード障害を示すイベントを検出するためのコモンモード障害検出回路と、
前記複数の冗長処理ユニット間で共有されるメモリと、
前記メモリの少なくとも一部をエラーがないかスキャンするためのメモリスキャン動作を実行するためのメモリチェック回路であって、
前記メモリチェック回路が、前記コモンモード障害検出回路によって生成され、潜在的なコモンモード障害を示す前記イベントが検出されたことを示すコモンモード障害信号に応じて前記メモリスキャン動作を実行するように構成される、メモリチェック回路と
を備える、装置。 - 前記メモリスキャン動作において、前記メモリチェック回路が、前記メモリの少なくとも一部のどのメモリロケーションがエラーのあるメモリロケーションであるかを示すエラーマップを生成するように構成される、請求項1に記載の装置。
- 前記メモリチェック回路が、前記エラーマップによって示される前記エラーのあるメモリロケーションの数または分布に応じて、エラー処理応答をトリガするためのエラー報告信号を生成するか否かを判定するように構成される、請求項2に記載の装置。
- 前記メモリチェック回路が、前記メモリ全体に対して前記メモリスキャン動作を実行するように構成される、請求項1から3のいずれか一項に記載の装置。
- 前記メモリチェック回路が、前記メモリの限られた部分に対して前記メモリスキャン動作を実行するように構成される、請求項1から3のいずれか一項に記載の装置。
- 前記メモリチェック回路が、前記メモリの非クリティカル部分に対して前記メモリスキャン動作を実行する前に、前記メモリのクリティカル部分に対して前記メモリスキャン動作を実行するように構成される、請求項1から3のいずれか一項に記載の装置。
- 前記メモリチェック回路が、
前記メモリの前記クリティカル部分に対応するクリティカル部分エラー報告信号と、
前記メモリの前記非クリティカル部分に対応する非クリティカル部分エラー報告信号と
を生成するように構成される、請求項6に記載の装置。 - 前記メモリのメモリロケーションのどのブロックが使用中であるかを追跡するための使用状況追跡回路を備え、
前記メモリチェック回路が、前記使用状況追跡回路によって使用中であると示されるメモリロケーションの前記ブロックに対して前記メモリスキャン動作を実行するように構成される、請求項1から3のいずれか一項に記載の装置。 - 前記イベントの検出に応じて、前記コモンモード障害検出回路が、障害応答アクションを実行するように前記冗長処理ユニットをトリガするように構成される、請求項1から8のいずれか一項に記載の装置。
- 前記冗長処理ユニットが、前記コモンモード障害検出回路による前記イベントの検出後、前記メモリチェック回路による前記メモリスキャン動作の完了の前に処理を再開するように構成される、請求項1から9のいずれか一項に記載の装置。
- 前記冗長処理ユニットのうちの1つが、前記メモリスキャン動作の残りの部分においてまだチェックされていないメモリロケーションのターゲットブロックへのメモリアクセスを要求することに応じて、前記メモリチェック回路が、メモリロケーションの前記ターゲットブロックでエラーがないかチェックされるまで、前記メモリアクセスを停止するように構成される、請求項10に記載の装置。
- 前記メモリチェック回路が、メモリロケーションのどのブロックが前記メモリスキャン動作においてエラーがないかチェック済みであるかを示す進行状況指標を維持するように構成される、請求項11に記載の装置。
- 前記コモンモード障害検出回路が、前記複数の冗長処理ユニットおよび前記メモリの間で共有される共通信号線に関連付けられた少なくとも1つの異常検出回路を備え、前記イベントが、前記少なくとも1つの異常検出回路によって検出された、前記共通信号線上の信号における異常を含む、請求項1から12のいずれか一項に記載の装置。
- 前記複数の冗長処理ユニットが、前記冗長処理ユニットのうちの1つの冗長処理ユニットで実行される所与の処理動作と前記冗長処理ユニットのうちの別の冗長処理ユニットで実行される前記所与の処理動作との間に時間遅延を伴って動作するように構成され、
前記コモンモード障害検出回路が、前記冗長処理ユニットによって生成された処理結果において相違が検出されたときに、前記イベントを検出するための比較回路を備える、請求項1から13のいずれか一項に記載の装置。 - 前記メモリスキャン動作が、エラーがないかチェックされる所与のメモリロケーションについて、前記所与のメモリロケーションに関連付けられた格納されたエラー検出符号を、前記所与のメモリロケーションに格納されたデータ値に基づいて計算された、計算されたエラー検出符号と比較することを含む、請求項1から14のいずれか一項に記載の装置。
- 前記メモリがキャッシュを備える、請求項1から15のいずれか一項に記載の装置。
- 前記メモリがスクラッチパッドメモリを備える、請求項1から16のいずれか一項に記載の装置。
- 前記メモリがシステムメモリを備える、請求項1から17のいずれか一項に記載の装置。
- ロックステップ方式で冗長的にデータ処理を実行するための複数の手段と、
データ処理を実行するための前記複数の手段のそれぞれに影響を与える潜在的なコモンモード障害を示すイベントを検出するための手段と、
データ処理を実行するための前記複数の手段間で共有され、データを格納するためのメモリ手段と、
前記メモリ手段の少なくとも一部をエラーがないかスキャンするためのメモリスキャン動作を実行するためのメモリチェックのための手段であって、
メモリチェックのための前記手段が、検出するための前記手段によって生成され、潜在的なコモンモード障害を示す上記イベントが検出されたことを示すコモンモード障害信号に応じて前記メモリスキャン動作を実行するように構成される、メモリチェックのための手段と
を備える、装置。 - 複数の冗長処理ユニットを使用してロックステップ方式で冗長的にデータ処理を実行することと、
前記複数の冗長処理ユニットのそれぞれに影響を与える潜在的なコモンモード障害を示すイベントを検出することと、
前記イベントの検出に応じて、コモンモード障害信号を生成することと、
前記コモンモード障害信号に応じて、前記複数の冗長処理ユニット間で共有されるメモリの少なくとも一部をエラーがないかスキャンするためのメモリスキャン動作を実行するようにメモリチェック回路をトリガすることと
を含む、データ処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1811795.2A GB2575668B (en) | 2018-07-19 | 2018-07-19 | Memory scanning operation in response to common mode fault signal |
GB1811795.2 | 2018-07-19 | ||
PCT/GB2019/051570 WO2020016550A1 (en) | 2018-07-19 | 2019-06-06 | Memory scanning operation in response to common mode fault signal |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021531568A JP2021531568A (ja) | 2021-11-18 |
JP7418397B2 true JP7418397B2 (ja) | 2024-01-19 |
Family
ID=63364578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021500733A Active JP7418397B2 (ja) | 2018-07-19 | 2019-06-06 | コモンモード障害信号に応じたメモリスキャン動作 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11494256B2 (ja) |
JP (1) | JP7418397B2 (ja) |
GB (1) | GB2575668B (ja) |
WO (1) | WO2020016550A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506710B (zh) * | 2020-12-16 | 2024-02-23 | 深信服科技股份有限公司 | 分布式文件系统数据修复方法、装置、设备及存储介质 |
US11474151B2 (en) * | 2020-12-30 | 2022-10-18 | Texas Instruments Incorporated | Lockstep comparators and related methods |
US11687428B2 (en) | 2021-01-20 | 2023-06-27 | Stmicroelectronics International N.V. | Glitch suppression apparatus and method |
TWI783842B (zh) * | 2021-12-29 | 2022-11-11 | 瑞昱半導體股份有限公司 | 記憶體壞塊掃描方法及其電路系統 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040199813A1 (en) | 2003-02-28 | 2004-10-07 | Maxwell Technologies, Inc. | Self-correcting computer |
JP2006164277A (ja) | 2004-12-02 | 2006-06-22 | Robert Bosch Gmbh | プロセッサにおけるエラー除去装置および方法,プロセッサ |
JP2009516277A (ja) | 2005-11-18 | 2009-04-16 | ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング | 少なくとも2つのレジスタ付き処理ユニットを有するシステムにおいてエラーを除去する装置および方法 |
US20160283314A1 (en) | 2015-03-24 | 2016-09-29 | Freescale Semiconductor, Inc. | Multi-Channel Network-on-a-Chip |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU568977B2 (en) * | 1985-05-10 | 1988-01-14 | Tandem Computers Inc. | Dual processor error detection system |
US7308605B2 (en) * | 2004-07-20 | 2007-12-11 | Hewlett-Packard Development Company, L.P. | Latent error detection |
US8489919B2 (en) * | 2008-11-26 | 2013-07-16 | Arizona Board Of Regents | Circuits and methods for processors with multiple redundancy techniques for mitigating radiation errors |
US8484508B2 (en) * | 2010-01-14 | 2013-07-09 | Arm Limited | Data processing apparatus and method for providing fault tolerance when executing a sequence of data processing operations |
US8996953B2 (en) * | 2013-03-01 | 2015-03-31 | International Business Machines Corporation | Self monitoring and self repairing ECC |
US10628277B2 (en) * | 2018-03-29 | 2020-04-21 | Arm Ltd. | Device, system and process for redundant processor error detection |
US10949203B2 (en) * | 2019-06-29 | 2021-03-16 | Intel Corporation | Technologies for ensuring functional safety of an electronic device |
-
2018
- 2018-07-19 GB GB1811795.2A patent/GB2575668B/en active Active
-
2019
- 2019-06-06 US US17/261,217 patent/US11494256B2/en active Active
- 2019-06-06 WO PCT/GB2019/051570 patent/WO2020016550A1/en active Application Filing
- 2019-06-06 JP JP2021500733A patent/JP7418397B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040199813A1 (en) | 2003-02-28 | 2004-10-07 | Maxwell Technologies, Inc. | Self-correcting computer |
JP2006164277A (ja) | 2004-12-02 | 2006-06-22 | Robert Bosch Gmbh | プロセッサにおけるエラー除去装置および方法,プロセッサ |
JP2009516277A (ja) | 2005-11-18 | 2009-04-16 | ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング | 少なくとも2つのレジスタ付き処理ユニットを有するシステムにおいてエラーを除去する装置および方法 |
US20160283314A1 (en) | 2015-03-24 | 2016-09-29 | Freescale Semiconductor, Inc. | Multi-Channel Network-on-a-Chip |
Also Published As
Publication number | Publication date |
---|---|
GB2575668B (en) | 2021-09-22 |
US20210279124A1 (en) | 2021-09-09 |
GB2575668A (en) | 2020-01-22 |
JP2021531568A (ja) | 2021-11-18 |
GB201811795D0 (en) | 2018-09-05 |
US11494256B2 (en) | 2022-11-08 |
WO2020016550A1 (en) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7418397B2 (ja) | コモンモード障害信号に応じたメモリスキャン動作 | |
US10997027B2 (en) | Lightweight checkpoint technique for resilience against soft errors | |
US6948091B2 (en) | High integrity recovery from multi-bit data failures | |
US8996953B2 (en) | Self monitoring and self repairing ECC | |
US6519730B1 (en) | Computer and error recovery method for the same | |
CN111552590B (zh) | 一种电力二次设备内存位翻转的检测恢复方法及系统 | |
KR101557572B1 (ko) | 메모리 회로들, 메모리에 액세스하는 방법 및 메모리를 복구하는 방법 | |
CN103140841A (zh) | 保护存储器的部分的方法和装置 | |
US7380169B2 (en) | Converting merge buffer system-kill errors to process-kill errors | |
US20180129573A1 (en) | Error detection | |
US20090164872A1 (en) | Prediction and prevention of uncorrectable memory errors | |
KR101983651B1 (ko) | Mram 장 교란 검출 및 복구 | |
WO2022037022A1 (zh) | 一种在线并行处理的软错误实时检错与恢复方法及系统 | |
US10901865B2 (en) | Error detection for processing elements redundantly processing a same processing workload | |
EP3005117A1 (en) | Invoking an error handler to handle an uncorrectable error | |
US11449380B2 (en) | Method for detecting and recovery from soft errors in a computing device | |
US20090249174A1 (en) | Fault Tolerant Self-Correcting Non-Glitching Low Power Circuit for Static and Dynamic Data Storage | |
Kajmakovic et al. | Challenges in mitigating soft errors in safety-critical systems with cots microprocessors | |
Kajmakovic et al. | Challenges in Mitigating Errors in 1oo2D Safety Architecture with COTS Micro-controllers | |
Reviriego et al. | Reliability analysis of memories protected with BICS and a per-word parity bit | |
Zhou et al. | Designing scrubbing strategy for memories suffering MCUs through the selection of optimal interleaving distance | |
US20170337110A1 (en) | Data processing device | |
Garg | Soft error fault tolerant systems: cs456 survey | |
RU2465636C1 (ru) | Способ исправления одиночных ошибок и предотвращения возникновения двойных ошибок в регистровом файле и устройство для его осуществления | |
Nikolaou et al. | Memory array protection: Check on read or check on write? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7418397 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |