JP2006172175A - メモリエラー訂正システム - Google Patents

メモリエラー訂正システム Download PDF

Info

Publication number
JP2006172175A
JP2006172175A JP2004364401A JP2004364401A JP2006172175A JP 2006172175 A JP2006172175 A JP 2006172175A JP 2004364401 A JP2004364401 A JP 2004364401A JP 2004364401 A JP2004364401 A JP 2004364401A JP 2006172175 A JP2006172175 A JP 2006172175A
Authority
JP
Japan
Prior art keywords
memory error
memory
threshold value
occurred
error correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004364401A
Other languages
English (en)
Other versions
JP4396509B2 (ja
Inventor
Hiroaki Nagano
浩明 長野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004364401A priority Critical patent/JP4396509B2/ja
Publication of JP2006172175A publication Critical patent/JP2006172175A/ja
Application granted granted Critical
Publication of JP4396509B2 publication Critical patent/JP4396509B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • For Increasing The Reliability Of Semiconductor Memories (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

【課題】 複数のコンピュータシステムからのメモリエラー情報を収集し、収集したメモリエラー情報から障害予測を行うメモリエラー訂正システムを提供することを目的とする。
【解決手段】 メモリエラー情報収集部101は、コンピュータシステム群200,300で発生したメモリエラー情報を収集する。地域別解析部104は、メモリエラー情報収集部101が収集したメモリエラー情報からコンピュータシステム群200,300の設置地域による統計処理により、地域的に他の地域の傾向から逸脱してメモリエラーが発生しているかを検出する。時系列解析部105は、時系列的に判断して他の時間帯から逸脱したメモリエラーが発生しているかを検出する。そのメモリエラーが発生した地域に存在するコンピュータシステム群に通報するため通報部106は、各地域に存在するコンピュータシステム群を管理する管理部102,103へ通知する。
【選択図】 図1

Description

本発明は、コンピュータシステムに発生するメモリエラー情報を収集するメモリエラー訂正システムに関する。
従来、コンピュータシステムにおいて、訂正不可能なメモリエラーに対してはメモリ素子等の恒久的障害を除く放射線等により偶発的に起きるものについては、検出と同時にシステム全体を再初期化するか、メモリが重要な処理に使用されていない場合にはその部分を一時的に切り離すなどの発生後の対策が取られていた。
しかし、このような対策は後手に回るものであり、コンピュータシステムの不意の停止を防げない。また、近年コンピュータシステムのメモリ搭載量は飛躍的に増大しており、システムごとのメモリエラー頻度は無視できないほど大きくなっている。また、分散システムとして構築されるシステムの増加により、システムを構成するコンピュータ台数の増加もあいまって、メモリエラーへの対策が必要であるが、従来の手法ではいつ起きるかわからないものに対する対策が重荷になりつつある。
また、従来の誤り訂正を行う技術としては、以下に示す技術が開示されている。
特開2001―325155号公報(以下、特許文献1)では、記憶装置における誤り訂正方法を提供したものであり、誤り発生量を統計的に測定し、測定された誤り発生量が増加する場合には所定の周期を短縮し、測定された誤り発生量が減少する場合には所定の周期を長く設定することにより、放射線強度の変化に追従を可能としつつ誤り率を向上させている。
特開平10−50003号公報(以下、特許文献2)では、メインテナンスをすべき時期を正確に報知するデジタル信号記録再生装置を提供したものであり、磁気テープの使用時に発生するエラーに対するメインテナンスが必要か否かを判断し、メインテナンスを必要とする時期を報知する。
特開平10−055320号公報(以下、特許文献3)では、誤り訂正を行ってシステムの暴走や自動リセットを防ぐオンライン・メモリ監視システム及び装置を提供するものであり、1ビットの記憶誤りの数とシステムで観察されたその発生頻度とに基づいて、複数ビットの記憶誤りの発生確率を計算するよう開発された独自の統計的推論方を用いている。
特開平10−107775号公報(以下、特許文献4)では、伝送エラーの原因調査を容易にする伝送エラー監視装置を提供するものであり、単位時間毎に分割された各時間帯に個別に記憶するようにしたことで、障害発生時点の詳細な分析を可能にし、障害の原因調査を容易にすることができる。
特開2004−062717号公報(以下、特許文献5)では、システム管理者や機器管理者の負荷を増大させることなく、システム異常の発生を迅速に判断する異常通知システムを提供するものであり、人数や利用者数などの統計を集計する手段により、端末ごとのイベント発生回数あるいは画像記録数の平均値(通常値)を求め、その平均値から極端に異なる状況が発生した場合、システムのいずれかに異常が発生したと判断し、その旨を管理者や閲覧者に報知する。
特開2001−325155号公報 特開平10−050003号公報 特開平10−055320号公報 特開平10−107775号公報 特開2004−062717号公報
しかしながら、特許文献1乃至5に記載されている発明では装置内で発生するメモリエラーに対する誤り訂正方法や侵入監視を行うものであり、多数のコンピュータシステムで発生するメモリエラーの情報収集や障害予測を行っていない。
本発明は係る問題に鑑みてなされたものであり、複数のコンピュータシステムからのメモリエラー情報を収集し、収集したメモリエラー情報から障害予測を行うメモリエラー訂正システムを提供することを目的とする。
上記目的を達成するために、請求項1記載のメモリエラー訂正システムであって、複数の地域に存在するコンピュータで発生したメモリエラーを収集する収集手段と、収集手段が収集したメモリエラーの統計処理を行う統計処理手段と、統計処理手段による統計処理結果から、メモリエラーが複数の地域に存在するコンピュータの内の1つの地域から発生しているかを解析する地域別解析手段と、統計処理手段による統計処理結果から時系列的な観点から他の時間帯と比較してメモリエラーの発生率の解析を行う時系列解析手段と、地域別解析手段と時系列解析手段との解析を該当する地域のコンピュータにメモリエラーの発生を通知する通知手段を有することを特徴とする。
請求項2記載の発明は、請求項1記載のメモリエラー訂正システムであって、地域別解析手段は、複数の地域に存在するコンピュータで発生するメモリエラーを複数の地域同士で比較し、ある1つの地域が他の地域と比較することでメモリエラーの発生率を解析することを特徴とする。
請求項3記載の発明は、請求項1記載のメモリエラー訂正システムであって、地域別解析手段は、複数の地域ごとに第1の閾値を設け、メモリエラーが該閾値を超えた否かを判断し、第1の閾値を超えた場合に通知手段によって該当する地域に存在するコンピュータにメモリエラーの発生を通知することを特徴とする。
請求項4記載の発明は、請求項3記載のメモリエラー訂正システムであって、地域別解析手段が有する第1の閾値は、地域ごとに異なる閾値であり、該第1の閾値には地域毎のメモリエラー発生回数が設定されていることを特徴とする。
請求項5記載の発明は、請求項1記載のメモリエラー訂正システムであって、時系列解析手段は、複数の地域に存在するコンピュータ毎にメモリエラーが発生した時間帯を検知し、メモリエラーが発生した時間帯でのメモリエラーの回数と他のメモリエラーが発生した時間帯でのメモリエラーの回数とを比較することを特徴とする。
請求項6記載の発明は、請求項1記載のメモリエラー訂正システムであって、時系列解析手段は、第2の閾値を設け、複数の地域に存在するコンピュータ毎にメモリエラーが発生した時間帯を検知し、該メモリエラーが発生した時間帯におけるメモリエラーの回数と第2の閾値とを比較し、閾値を超えているかを判断することを特徴とする。
請求項7記載の発明は、請求項6記載のメモリエラー訂正システムであって、第2の閾値は、メモリエラーが発生した時間帯との比較を行うためのメモリエラーの発生回数が設定されていることを特徴とする。
本発明によれば、複数のコンピュータシステム群のメモリエラー情報を収集することで障害予測を行うことができると共に、既に設置されているコンピュータシステムそのものを測定器として用いることができる。
次に、図面を参照して本実施形態を説明する。
図1は、データ誤り訂正システムの構成を示した図である。
メモリエラー訂正システムは、メモリエラー訂正装置100とコンピュータシステム群200、300から構成され、さらに、データ誤り訂正装置100はメモリエラー情報収集部101、管理部102,103、地域別解析部104、時系列解析部105、通報部106から構成されている。
メモリエラー情報収集部101は、コンピュータシステム群200,300で発生したメモリエラー情報を収集する。地域別解析部104は、メモリエラー情報収集部101が収集したメモリエラー情報からコンピュータシステム群200,300の設置地域による統計処理により、地域的に他の地域の傾向から逸脱してメモリエラーが発生しているかを検出する。
また、時系列解析部105は、時系列的に判断して他の時間帯から逸脱したメモリエラーが発生しているかを検出する。地域別解析部104、時系列解析部105でメモリエラーが発生しているかを検出した場合に、そのメモリエラーが発生した地域に存在するコンピュータシステム群に通報するため通報部106は、各地域に存在するコンピュータシステム群を管理する管理部102,103へ通知する。
管理部102,103は、メモリエラー情報の通知を受信した場合に、単に警告を発するか自動的に計画的再起動を行うといった各コンピュータシステム群の性質に応じた処置を行う。
次に、図1に示す実施形態の動作を図2に示すフローチャートを参照して説明する。
まず、コンピュータシステム群200,300は、多数のパーソナルコンピュータやサーバシステムコンピュータ等からなる。これらのコンピュータシステム群200,300では、放射線や宇宙線に起因するメモリエラーが発生しており、エラー訂正またはシステム再初期化を伴いつつ対処されている。多くのメモリエラーは1ビット単位で発生するため、ECCなどの誤り訂正手段により訂正されることによりコンピュータ自体の動作には影響はない。
しかし、誤り訂正を行ったこと自体はコンピュータシステム内に記録され、個体ごとの保守時の参考などに用いられている。また、ネットワークを通じて参照することも可能である。ここで、特定のコンピュータシステム群の近辺に放射線源が通過したり、宇宙線の増加などにより広範囲にわたってメモリエラーの危険性が増加したとする。そこで、メモリエラー情報収集部101は、コンピュータシステム群200,300で発生したメモリエラーを収集する(ステップS100)。
次に、収集したメモリエラー情報を統計処理し(ステップS101)、統計処理の結果、収集したメモリエラー情報が地域的に発生したのか、時系列的に発生したのかを判断する(ステップS102)。統計処理の結果、収集したメモリエラーが地域的に発生したと判断した場合に(ステップS102/地域的)、地域別解析部104にて統計処理を行ったメモリエラー情報の地域別解析を行う。
地域別解析部104では、地域的に他地域の傾向から逸脱してメモリエラーが発生しているかを検出する(ステップS103)。図1では、コンピュータシステム群は2箇所に設けた構成となっているが、2箇所以上設けてもよい。コンピュータシステム群200,300のどちらか一方で、例えば、コンピュータシステム群200において、放射線や宇宙線等に起因するメモリエラーが発生した場合に、地域別解析部104は、メモリエラー情報収集部101によるメモリエラー情報の統計処理の結果からコンピュータシステム群200にメモリエラーが発生したと判断し、通報部106が、メモリエラーが発生したコンピュータシステム群200を管理する管理部102へ通報する。
また、収集したメモリエラー情報が時系列的に発生したと判断した場合には(ステップS102/時系列的)、時系列解析部105にて統計処理を行ったメモリエラー情報の時系列解析を行う。時系列解析部105では、メモリエラー情報収集部101にて収集したメモリエラーの統計結果により時系列的にみて、他の時間帯から逸脱したメモリエラーが発生していると解析した時に(ステップS104)、時系列的に他の時間帯から逸脱したメモリエラーが発生したコンピュータシステム群に通報部106が通報を行う(ステップS105)。
また、図3には、メモリエラーの頻度に対する閾値を設けた場合の処理動作を示したフローチャートである。
まず、メモリエラー情報収集部101がコンピュータシステム群200,300で発生したメモリエラー情報を収集する(ステップS200)。次に、収集したメモリエラーが閾値を超えたか判断する(ステップS202)。ここで、示す閾値とは、収集したメモリエラーの発生回数に対する閾値や地域毎に設定した閾値であってもよい。また、地域毎に閾値を設定する場合、その地域の特有の条件を含めてもよい。例えば、ある地域では、放射線や宇宙線によるメモリエラーが顕著に発生する場合には、そういった要因を含めた閾値であってもよい。
そこで、ステップS200で収集したメモリエラーが閾値を超えていると判断した場合に(ステップS201/YES)、次に、閾値を超えたメモリエラーが地域的に発生したのか時系列的に発生したのかを判断する(ステップS202)。閾値を超えたメモリエラーが地域的に発生した場合は(ステップS202/地域的)、地域別解析部104により、どの地域にメモリエラーが発生したかを解析し、通報部106へ通知し、通報部106がメモリエラーが発生した地域に存在するコンピュータシステムを管理する管理部102,103へ通報を通知する。(ステップS205)。
また、閾値を超えたメモリエラーが時系列的に発生した場合は(ステップS202/時系列)、時系列解析部105により他の時間帯と比較して逸脱したメモリエラーが発生していると解析し、逸脱したメモリエラーが発生しているコンピュータシステム群へ通報を行うための通知を通報部106へ行い、通報部106がメモリエラーが発生したコンピュータシステム群を管理する管理部102,103へ通知する(ステップS205)。
上記の処理動作のみならず、例えば通報部106に対して他の情報を加味させて通報を行わせることができる。さらに、地域別解析部104では、設置場所に緯度や高度などの情報を加えて解析させることも可能である。
本実施形態におけるメモリエラー訂正システムの構成を示した図である。 図1におけるメモリエラー情報収集システムの処理動作を示したフローチャートである。 図1におけるメモリエラー訂正システムの処理動作を示したフローチャートである。
符号の説明
100 メモリエラー訂正装置
101 メモリエラー情報収集部
102、103 管理部
104 地域別解析部
105 時系列解析部
106 通報部
200、300 コンピュータシステム群

Claims (7)

  1. 複数の地域に存在するコンピュータで発生したメモリエラーを収集する収集手段と、
    前記収集手段が収集したメモリエラーの統計処理を行う統計処理手段と、
    前記統計処理手段による統計処理結果から、前記メモリエラーが前記複数の地域に存在するコンピュータの内の1つの地域から発生しているかを解析する地域別解析手段と、
    前記統計処理手段による統計処理結果から時系列的な観点から他の時間帯と比較してメモリエラーの発生率の解析を行う時系列解析手段と、
    前記地域別解析手段と前記時系列解析手段との解析を該当する地域のコンピュータにメモリエラーの発生を通知する通知手段を有することを特徴とするメモリエラー訂正システム。
  2. 前記地域別解析手段は、前記複数の地域に存在するコンピュータで発生するメモリエラーを複数の地域同士で比較し、ある1つの地域が他の地域と比較することで前記メモリエラーの発生率を解析することを特徴とする請求項1記載のメモリエラー訂正システム。
  3. 前記地域別解析手段は、複数の地域ごとに第1の閾値を設け、前記メモリエラーが該閾値を超えた否かを判断し、前記第1の閾値を超えた場合に前記通知手段によって該当する地域に存在するコンピュータにメモリエラーの発生を通知することを特徴とする請求項1記載のメモリエラー訂正システム。
  4. 前記地域別解析手段が有する第1の閾値は、地域ごとに異なる閾値であり、該第1の閾値には地域毎のメモリエラー発生回数が設定されていることを特徴とする請求項3記載のメモリエラー訂正システム。
  5. 前記時系列解析手段は、前記複数の地域に存在するコンピュータ毎にメモリエラーが発生した時間帯を検知し、前記メモリエラーが発生した時間帯でのメモリエラーの回数と他のメモリエラーが発生した時間帯でのメモリエラーの回数とを比較することを特徴とする請求項1記載のメモリエラー訂正システム。
  6. 前記時系列解析手段は、第2の閾値を設け、前記複数の地域に存在するコンピュータ毎にメモリエラーが発生した時間帯を検知し、該メモリエラーが発生した時間帯におけるメモリエラーの回数と前記第2の閾値とを比較し、閾値を超えているかを判断することを特徴とする請求項1記載のメモリエラー訂正システム。
  7. 前記第2の閾値は、前記メモリエラーが発生した時間帯との比較を行うためのメモリエラーの発生回数が設定されていることを特徴とする請求項6記載のメモリエラー訂正システム。
JP2004364401A 2004-12-16 2004-12-16 メモリエラー管理システム Expired - Fee Related JP4396509B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004364401A JP4396509B2 (ja) 2004-12-16 2004-12-16 メモリエラー管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004364401A JP4396509B2 (ja) 2004-12-16 2004-12-16 メモリエラー管理システム

Publications (2)

Publication Number Publication Date
JP2006172175A true JP2006172175A (ja) 2006-06-29
JP4396509B2 JP4396509B2 (ja) 2010-01-13

Family

ID=36672858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004364401A Expired - Fee Related JP4396509B2 (ja) 2004-12-16 2004-12-16 メモリエラー管理システム

Country Status (1)

Country Link
JP (1) JP4396509B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217735A (ja) * 2007-03-08 2008-09-18 Nec Corp 障害解析システム、方法、及び、プログラム
JP2010176392A (ja) * 2009-01-29 2010-08-12 Renesas Electronics Corp 不良解析装置と方法及びプログラム
JP2012248054A (ja) * 2011-05-30 2012-12-13 Mega Chips Corp 情報処理端末及び管理サーバ
JP2016152011A (ja) * 2015-02-19 2016-08-22 ファナック株式会社 制御装置の故障予測システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217735A (ja) * 2007-03-08 2008-09-18 Nec Corp 障害解析システム、方法、及び、プログラム
JP2010176392A (ja) * 2009-01-29 2010-08-12 Renesas Electronics Corp 不良解析装置と方法及びプログラム
JP2012248054A (ja) * 2011-05-30 2012-12-13 Mega Chips Corp 情報処理端末及び管理サーバ
JP2016152011A (ja) * 2015-02-19 2016-08-22 ファナック株式会社 制御装置の故障予測システム
US9891975B2 (en) 2015-02-19 2018-02-13 Fanuc Corporation Failure prediction system of controller

Also Published As

Publication number Publication date
JP4396509B2 (ja) 2010-01-13

Similar Documents

Publication Publication Date Title
US7225368B2 (en) Efficient real-time analysis method of error logs for autonomous systems
US8478569B2 (en) Auto adjustment of baseline on configuration change
US7870440B2 (en) Method and apparatus for detecting multiple anomalies in a cluster of components
JP2006094497A (ja) 無線ネットワーク・パフォーマンスを監視する方法
JP6091436B2 (ja) ネットワーク・イベント管理のための装置、方法、およびコンピュータ・プログラム
US8862119B2 (en) Method and apparatus for telecommunications network performance anomaly events detection and notification
JP6219865B2 (ja) 制御装置の故障予測システム
CN101668012B (zh) 安全事件检测方法及装置
JP2008059102A (ja) コンピュータ資源監視プログラム
CN111104238B (zh) 一种基于ce的内存诊断的方法、设备及介质
CN113590429A (zh) 一种服务器故障诊断方法、装置及电子设备
CN115794588A (zh) 内存故障预测方法、装置、系统及监测服务器
US9817973B2 (en) Method and device for monitoring virus trend abnormality
JP4396509B2 (ja) メモリエラー管理システム
US7664797B1 (en) Method and apparatus for using statistical process control within a storage management system
Tsai et al. A study of soft error consequences in hard disk drives
JP2014153736A (ja) 障害予兆検出方法、プログラムおよび装置
JP2007028118A (ja) ノード装置の故障判断方法
JP2020038525A (ja) 異常検知装置
JP2004086278A (ja) 装置障害監視方法および装置障害監視システム
CN117076186B (zh) 一种内存故障检测方法、系统、装置、介质及服务器
JP2011180673A (ja) ディスク劣化診断装置
JP2002229867A (ja) ディスク装置の故障予知装置
JP2003345629A (ja) システム監視装置及びそれに用いるシステム監視方法並びにそのプログラム
CN111782462B (zh) 告警方法、装置和电子设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080826

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090804

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090929

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091012

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4396509

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131030

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees