JP6387747B2 - 情報処理装置、障害回避方法およびコンピュータプログラム - Google Patents
情報処理装置、障害回避方法およびコンピュータプログラム Download PDFInfo
- Publication number
- JP6387747B2 JP6387747B2 JP2014176924A JP2014176924A JP6387747B2 JP 6387747 B2 JP6387747 B2 JP 6387747B2 JP 2014176924 A JP2014176924 A JP 2014176924A JP 2014176924 A JP2014176924 A JP 2014176924A JP 6387747 B2 JP6387747 B2 JP 6387747B2
- Authority
- JP
- Japan
- Prior art keywords
- thread
- time
- unit
- memory
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/008—Reliability or availability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/004—Error avoidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3433—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0715—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3024—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3037—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/81—Threshold
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
Description
コンピュータプログラムを実行する単位であるプロセスに割り当てられたメモリ容量の使用率と、前記プロセスが生成し当該プロセスが受けたリクエストに応じた処理を実行する単位であるスレッドがその処理に要した処理時間とのうちの一方又は両方に基づいて、障害が発生しやすい状態であることを検知する検知部と、
障害が発生しやすい状態であることが検知された場合に、前記プロセスが生成し当該プロセスに属することが可能な前記スレッドの上限数を標準値から当該標準値よりも小さい制限値に下げ、かつ、前記スレッドが処理を終了してから別の処理を開始するまでに待機しなければならない待機時間を標準時間から当該標準時間よりも長い拡大時間に延長する障害回避処理を実行する回避部と
を備えている。
コンピュータプログラムを実行する単位であるプロセスに割り当てられたメモリ容量の使用率と、前記プロセスが生成し当該プロセスが受けたリクエストに応じた処理を実行する単位であるスレッドがその処理に要した処理時間とのうちの一方又は両方に基づいて、障害が発生しやすい状態であることをコンピュータが検知し、
障害が発生しやすい状態であることが検知された場合に、前記プロセスが生成し当該プロセスに属することが可能な前記スレッドの上限数を標準値から当該標準値よりも小さい制限値にコンピュータが下げ、かつ、前記スレッドが処理を終了してから別の処理を開始するまでに待機しなければならない待機時間を標準時間から当該標準時間よりも長い拡大時間にコンピュータが延長する。
コンピュータプログラムを実行する単位であるプロセスに割り当てられたメモリ容量の使用率と、前記プロセスが生成し当該プロセスが受けたリクエストに応じた処理を実行する単位であるスレッドがその処理に要した処理時間とのうちの一方又は両方に基づいて、障害が発生しやすい状態であることを検知する処理と、
障害が発生しやすい状態であることが検知された場合に、前記プロセスが生成し当該プロセスに属することが可能な前記スレッドの上限数を標準値から当該標準値よりも小さい制限値にコンピュータが下げ、かつ、前記スレッドが処理を終了してから別の処理を開始するまでに待機しなければならない待機時間を標準時間から当該標準時間よりも長い拡大時間に延長する処理と
をコンピュータに実行させる処理手順が表されている。
図1は、本発明に係る第1実施形態の情報処理装置の構成を簡略化して表すブロック図である。第1実施形態の情報処理装置101は、例えばCPU(Central Processing Unit)102を備えたコンピュータである。CPU102は、記憶装置(図示せず)に格納されているコンピュータプログラム(プログラム)を読み出し当該プログラムを実行することによって、情報処理装置101の全体的な動作を制御する。
以下に、本発明に係る第2実施形態を説明する。
以下に、本発明に係る第3実施形態を説明する。なお、第3実施形態の説明において、第2実施形態と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。
以下に、本発明に係る第4実施形態を説明する。
以下に、本発明に係る第5実施形態を説明する。なお、この第5実施形態の説明において、第4実施形態と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。
(付記1)
プログラムの実行時に生成されプログラムの実行単位であるプロセスと、
前記プロセスに生成され前記プロセスの処理単位である複数のスレッドと、
障害対策部と
を備え、さらに、
前記各スレッドを識別するスレッド識別情報と、該スレッド識別情報により特定されるスレッドが処理を開始した時刻を示す処理開始時刻情報とを関連付けて記憶するスレッド開始時間記憶部と、
前記プロセスに予め定められた数を超える数の前記スレッドの生成が必要となった場合に生成可能な前記スレッドの最大数を示す値を最大スレッド数として記憶する最大スレッド数記憶部と、
前記スレッドが処理を終了した時点から、該スレッドが次の処理を実行できる状態になるまでの時間を示す値を処理間隔として記憶する処理間隔記憶部と
を備え、
前記障害対策部は、
回避部と、
いずれかの前記スレッドが処理を終了した時、当該処理に要した時間を、当該スレッドの前記スレッド識別情報と関連付けられ記憶されている前記処理開始時刻情報と、現在の時刻とに基づいて算出する機能を備えている遅延検知部と
を備え、
前記回避部は、
いずれかの前記スレッドが処理を終了した時に前記遅延検知部が算出した処理時間が予め定められた第1の時間以上である場合、前記最大スレッド数記憶部に記憶されている前記最大スレッド数を予め定められた第1の値から該第1の値より小さい予め定められた第2の値に変更するとともに、前記処理間隔記憶部に記憶されている前記処理間隔を予め定められた第3の値から該第3の値より大きい予め定められた第4の値に変更する障害回避処理を実行する
ことを特徴とする情報処理装置。
(付記2)
プログラムの実行時に生成されプログラムの実行単位であるプロセスと、
前記プロセスに生成され前記プロセスの処理単位である複数のスレッドと、
障害対策部と
を備え、さらに、
前記プロセスに属する前記スレッドの総数を示す値を記憶するスレッド総数記憶部と、
前記スレッドを識別するスレッド識別情報と、該スレッド識別情報により特定される前記スレッドが処理を開始した時刻を示す処理開始時刻情報とを関連付けて記憶するスレッド開始時間記憶部と、
前記プロセスに予め定められた数を超える数のスレッドの生成が必要となった場合に生成可能なスレッドの最大数を示す値を最大スレッド数として記憶する最大スレッド数記憶部と、
前記スレッドが処理を終了した時点から、当該スレッドが次の処理を実行できる状態になるまでの時間を示す値を処理間隔として記憶する処理間隔記憶部と、
次の処理に備えている待機中の前記スレッドの数を示す値を待機スレッド数として記憶する待機スレッド数記憶部と
を備え、
前記障害対策部は、
回避部と、
いずれかの前記スレッドが処理を終了した時、当該処理に要した時間を、前記スレッド開始時間記憶部に当該スレッドを識別する前記スレッド識別情報と関連付けて記憶されている前記処理開始時刻情報と、現在の時刻とに基づいて算出する機能と、いずれかの前記スレッドが処理を終了した時、前記スレッド総数記憶部に記憶されている前記スレッドの総数に対する、前記待機スレッド数記憶部に記憶されている待機スレッド数の割合を待機スレッド割合として算出する機能とを備えた遅延検知部と
を備え、
前記回避部は、
いずれかの前記スレッドが処理を終了した時に前記遅延検知部が算出した前記スレッドの処理時間が予め定められた第1の時間以上であって、当該スレッドが処理を終了した時に前記遅延検知部が算出した待機スレッド割合が予め定められた値未満である場合、前記最大スレッド数記憶部に記憶されている前記最大スレッド数を予め定められた第1の値から当該第1の値より小さい予め定められた第2の値に変更するとともに、前記処理間隔記憶部に記憶されている前記処理間隔を予め定められた第3の値から当該第3の値より大きい予め定められた第4の値に変更する障害回避処理を実行する
ことを特徴とする情報処理装置。
(付記3)
前記回避部は、前記障害回避処理の実行後、いずれかの前記スレッドが処理を終了した時に前記処理時間が前記第1の時間よりも短い予め定められた第2の時間以下である場合、前記最大スレッド数記憶部に記憶されている前記最大スレッド数を前記第2の値から前記第1の値に変更するとともに、前記処理間隔記憶部に記憶されている前記処理間隔を前記第4の値から前記第3の値に変更する回復処理を実行する
ことを特徴とする付記1または付記2に記載の情報処理装置。
(付記4)
プログラムの実行時に生成されプログラムの実行単位であるプロセスと、
前記プロセスに生成され前記プロセスの処理単位である複数のスレッドと、
障害対策部と、
前記プロセスに割り当てられる記憶領域を有する記憶部と
を備え、
前記記憶部は、
前記プロセスに割り当てられている前記記憶部内の記憶領域の容量である割り当て容量と、
前記プロセスが使用している記憶領域の容量であるメモリ使用量と、
前記プロセスが生成可能なスレッドの最大数を示す値である最大スレッド数と、
前記スレッドが処理を終了した時点から、該スレッドが次の処理を実行できる状態になるまでの時間である処理間隔と
を記憶し、
前記障害対策部は、
回避部と、
前記割り当て容量に対する前記メモリ使用量の割合であるメモリ使用率を算出する機能を備えているメモリ不足検知部と
を備え、
前記メモリ不足検知部が予め定められた第1の時間間隔毎に前記メモリ使用率を算出し、この算出したメモリ使用率が予め定められた第1の値以上になった時、前記メモリ不足検知部が前記第1の時間間隔より短い予め定められた第2の時間間隔毎に前記メモリ使用率を算出し始め、予め定められた時間が経過するまでに、前記メモリ使用率が前記第1の値より大きい予め定められた第2の値以下にならない場合に、前記回避部は、前記プロセスの前記最大スレッド数を予め定められた第3の値から当該第3の値より小さい予め定められた第4の値に変更するとともに、前記スレッドの処理間隔を予め定められた第5の値から当該第5の値より大きい予め定められた第6の値に変更する障害回避処理を実行する
ことを特徴とする情報処理装置。
(付記5)
前記障害回避処理の実行後、前記メモリ不足検知部が前記第2の時間間隔毎に前記メモリ使用率を算出し、この算出したメモリ使用率が前記第1の値より小さくなった場合、前記回避部は、前記プロセスの前記最大スレッド数を前記第4の値から前記第3の値に変更するとともに、前記スレッドの前記処理間隔を前記第6の値から前記第5の値に変更する回復処理を実行する
ことを特徴とする付記4記載の情報処理装置。
(付記6)
プログラムの実行時に生成されプログラムの実行単位であるプロセスと、
前記プロセスに生成され前記プロセスの処理単位である複数のスレッドと、
障害対策部と、
前記プロセスに割り当てられる記憶領域を有する記憶部と
を備え、
前記記憶部は、
前記プロセスに割り当てられている前記記憶領域の容量である割り当て容量と、
前記プロセスが使用している記憶領域の容量であるメモリ使用量と、
前記スレッドを識別するスレッド識別情報に関連付けられ当該スレッド識別情報により特定されるスレッドが処理を開始した時刻を示す処理開始時刻情報と、
前記プロセスが生成可能なスレッドの最大数である最大スレッド数と、
前記スレッドが処理を終了した時点から、当該スレッドが次の処理を実行できる状態になるまでの時間である処理間隔と
を記憶し、
前記障害対策部は、
回避部と、
前記プロセスの前記割り当て容量に対する前記メモリ使用量の割合であるメモリ使用率を算出する機能を備えているメモリ不足検知部と、
いずれかの前記スレッドが処理を終了した時、当該処理に要した処理時間を、当該スレッドの前記スレッド識別情報に関連付けられている前記処理開始時刻情報と、現在の時刻とに基づいて算出する機能を備えている遅延検知部と
を備え、
いずれかの前記スレッドが処理を終了した時に前記処理時間が予め定められた第1の時間以上であるという第1の条件と、
前記メモリ使用率を予め定められた第1の時間間隔毎に算出し、この算出した前記メモリ使用率が予め定められた第1の値以上になった時、前記第1の時間間隔より短い予め定められた第2の時間間隔毎に前記メモリ使用率を算出し始め、予め定められた時間が経過するまでに、前記メモリ使用率が前記第1の値より大きい予め定められた第2の値以下にならないという第2の条件と
が予め定められた確認時間内に成立した場合にのみ、前記回避部は、前記プロセスの前記最大スレッド数を予め定められた第4の値から当該第4の値より小さい予め定められた第5の値に変更するとともに、前記スレッドの前記処理間隔を予め定められた第6の値から当該第6の値より大きい予め定められた第7の値に変更する障害回避処理を実行する
ことを特徴とする情報処理装置。
(付記7)
プログラムの実行時に生成されプログラムの実行単位であるプロセスと、
前記プロセスに生成され前記プロセスの処理単位である複数のスレッドと、
障害対策部と、
前記プロセスに割り当てられる記憶領域を有する記憶部と
を備え、
前記記憶部は、
前記プロセスに属する前記スレッドの総数と、
前記スレッドを識別するスレッド識別情報に関連付けられ当該スレッド識別情報により特定されるスレッドが処理を開始した時刻を示す処理開始時刻と、
前記プロセスが生成可能なスレッドの最大数である最大スレッド数と、
前記スレッドが処理を終了した時点から、当該スレッドが次の処理を実行できる状態になるまでの時間である処理間隔と、
前記プロセスに割り当てられている前記記憶部内の記憶領域の容量である割り当て容量と、
前記プロセスが使用している記憶領域の容量であるメモリ使用量と
を記憶し、
前記障害対策部は、
回避部と、
前記プロセスにおける前記割り当て容量に対する前記メモリ使用量の割合であるメモリ使用率を算出する機能を備えているメモリ不足検知部と、
いずれかの前記スレッドが処理を終了した時、当該処理に要した処理時間を、当該スレッドの前記スレッド識別情報に関連付けられている前記処理開始時刻情報と、現在の時刻とに基づいて算出する機能と、いずれかの前記スレッドが処理を終了した時、前記プロセスに生成されている前記スレッドの総数に対する、次の処理に備えている待機中の前記スレッドの数の割合を待機スレッド割合として算出する機能とを備えている遅延検知部と
を備え、
いずれかの前記スレッドが処理を終了した時にその処理に要した前記処理時間が予め定められた第1の時間以上であって、前記待機スレッド割合が予め定められた第1の値未満であるという第1の条件と、
前記メモリ不足検知部が予め定められた第1の時間間隔毎に前記メモリ使用率を算出し、この算出したメモリ使用率が予め定められた第2の値以上になった時、前記メモリ不足検知部は前記第1の時間間隔より短い予め定められた第2の時間間隔毎に前記メモリ使用率を算出し始め、予め定められた時間が経過するまでに、前記メモリ使用率が前記第2の値より大きい予め定められた第3の値以下にならないという第2の条件と
が予め定められた確認時間内に成立した場合にのみ、前記回避部は、前記プロセスの前記最大スレッド数を予め定められた第4の値から当該第4の値より小さい予め定められた第5の値に変更するとともに、当該プロセスの前記処理間隔を予め定められた第6の値から該第6の値より大きい予め定められた第7の値に変更する障害回避処理を実行する
ことを特徴とする情報処理装置。
(付記8)
前記回避部は、前記障害回避処理の実行後、
前記プロセスに属するいずれかの前記スレッドが処理を終了した時にその処理に要した前記処理時間が前記第1の時間よりも短い予め定められた第2の時間以下であるという第3の条件と、
前記メモリ不足検知部が前記第2の時間間隔毎に前記メモリ使用率を算出し、この算出したメモリ使用率が前記第1の値より小さいという第4の条件と、
が成立した場合にのみ、前記プロセスの前記最大スレッド数を前記第5の値から前記第4の値に変更するとともに、前記スレッドの前記処理間隔を前記第7の値から前記第6の値に変更する回復処理を実行する
ことを特徴とする付記6または付記7に記載の情報処理装置。
(付記9)
プログラムを実行する際に当該プログラムの実行単位であるプロセスを生成し、
前記プロセスに属し前記プロセスの処理単位である複数のスレッドを生成し、
いずれかの前記スレッドが処理を終了した時、当該処理に要した処理時間を、当該スレッドを識別するスレッド識別情報に関連付けられ記憶部に記憶されている処理開始時刻情報と、現在の時刻とに基づいて算出し、
また、いずれかの前記スレッドが処理を終了した時、前記プロセスに属している前記スレッドの総数に対する、次の処理に備えている待機中の前記スレッドの数の割合を待機スレッド割合として算出し、
さらに、算出された前記処理時間が予め定められた時間以上であって、待機スレッド割合が予め定められた値未満である場合、前記プロセスの前記最大スレッド数を小さくする方向に変更するとともに、前記プロセスの前記処理間隔を長く方向に変更する
を含む障害回避方法。
(付記10)
プログラムを実行する際に当該プログラムの実行単位であるプロセスを生成し、
前記プロセスに割り当てられている記憶領域の記憶容量に対する、使用している記憶容量であるメモリ使用量の割合であるメモリ使用率を予め定められた第1の時間間隔毎に算出し、
前記メモリ使用率が予め定められた第1の値以上になった時、前記第1の時間間隔より短い予め定められた第2の時間間隔毎に前記メモリ使用率を算出し始め、予め定められた時間が経過するまでに、前記メモリ使用率が前記第1の値より大きい予め定められた第2の値以下にならない場合に、前記プロセスに属することが可能な最大スレッド数を小さくする方向に変更するとともに、前記スレッドが処理を終了してから次の処理が可能な状態になるまでの処理間隔を大きくする方向に変更する
障害回避方法。
103,132 検知部
104,133 回避部
134 復帰部
200 遅延検知部
300 メモリ不足検知部
400 回避部
Claims (10)
- コンピュータプログラムを実行する単位であるプロセスに割り当てられたメモリ容量の使用率と、前記プロセスが生成し当該プロセスが受けたリクエストに応じた処理を実行する単位であるスレッドがその処理に要した処理時間とのうちの一方又は両方に基づいて、障害が発生しやすい状態であることを検知する検知部と、
障害が発生しやすい状態であることが検知された場合に、前記プロセスが生成し当該プロセスに属することが可能な前記スレッドの上限数を標準値から当該標準値よりも小さい制限値に下げ、かつ、前記スレッドが処理を終了してから別の処理を開始するまでに待機しなければならない待機時間を標準時間から当該標準時間よりも長い拡大時間に延長する障害回避処理を実行する回避部と
を備えている情報処理装置。 - 前記検知部は、前記スレッドの処理時間が予め定められた遅延閾値以上に遅延した場合に、障害が発生しやすい状態であることを検知する請求項1に記載の情報処理装置。
- 前記検知部は、前記メモリ容量の使用率が予め定められたメモリ閾値以上に上昇した場合に、障害が発生しやすい状態であることを検知する請求項1に記載の情報処理装置。
- 前記検知部は、障害が発生しやすい状態であることを検知した場合に、前記スレッドの処理時間又は前記メモリ容量の使用率を監視し、この監視結果に基づいて前記検知が正しいか否かを検証する機能をさらに備え、
前記回避部は、前記検知部による検証の結果、障害が発生しやすい状態であることが確認された場合に、前記障害回避処理を実行する請求項1に記載の情報処理装置。 - 前記検知部は、前記プロセスが生成し当該プロセスに属している前記スレッドが複数存在する場合であって、前記スレッドの処理時間に基づいた前記検知を検証する場合には、予め定められた遅延検証期間にわたって前記各スレッドの処理時間を監視し、また、前記プロセスに属している前記スレッドの総数に対する待機中の前記スレッドの数の割合を待機割合として算出し、それら各スレッドの処理時間および前記待機割合に基づいて、前記検知を検証する請求項4に記載の情報処理装置。
- 前記検知部は、予め定められた時間間隔毎に取得した前記メモリ容量の使用率がメモリ閾値以上に上昇したことにより、障害が発生しやすい状態であることを検知した場合であって、その検知を検証する場合には、予め定められたメモリ検証期間にわたって、前記メモリ容量の使用率を取得した時間間隔よりも短い時間間隔毎に前記メモリ容量の使用率を取得し、当該取得したメモリ容量の使用率に基づいて、前記検知を検証する請求項4に記載の情報処理装置。
- 前記回避部は、前記検知部によって、前記メモリ容量の使用率と前記スレッドの処理時間とのうちの一方に基づいて障害が発生しやすい状態であることが検知されてから、予め定められた時間を経過する前に前記メモリ容量の使用率と前記スレッドの処理時間とのうちの他方にも基づいて障害が発生しやすい状態であることが検知された場合に、障害回避処理を実行する請求項1に記載の情報処理装置。
- 前記回避部が前記障害回避処理を実行した後に、前記メモリ容量の使用率あるいは前記スレッドの処理時間を監視し、当該監視の結果、予め定められた改善状態になったことを検知した場合に、前記スレッドの上限数を前記標準値に戻し、かつ、前記スレッドの待機時間を前記標準時間に戻す復帰部をさらに備えている請求項1に記載の情報処理装置。
- コンピュータプログラムを実行する単位であるプロセスに割り当てられたメモリ容量の使用率と、前記プロセスが生成し当該プロセスが受けたリクエストに応じた処理を実行する単位であるスレッドがその処理に要した処理時間とのうちの一方又は両方に基づいて、障害が発生しやすい状態であることをコンピュータが検知し、
障害が発生しやすい状態であることが検知された場合に、前記プロセスが生成し当該プロセスに属することが可能な前記スレッドの上限数を標準値から当該標準値よりも小さい制限値にコンピュータが下げ、かつ、前記スレッドが処理を終了してから別の処理を開始するまでに待機しなければならない待機時間を標準時間から当該標準時間よりも長い拡大時間にコンピュータが延長する障害回避方法。 - コンピュータプログラムを実行する単位であるプロセスに割り当てられたメモリ容量の使用率と、前記プロセスが生成し当該プロセスが受けたリクエストに応じた処理を実行する単位であるスレッドがその処理に要した処理時間とのうちの一方又は両方に基づいて、障害が発生しやすい状態であることを検知する処理と、
障害が発生しやすい状態であることが検知された場合に、前記プロセスが生成し当該プロセスに属することが可能な前記スレッドの上限数を標準値から当該標準値よりも小さい制限値にコンピュータが下げ、かつ、前記スレッドが処理を終了してから別の処理を開始するまでに待機しなければならない待機時間を標準時間から当該標準時間よりも長い拡大時間に延長する処理と
をコンピュータに実行させる処理手順が表されているコンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014176924A JP6387747B2 (ja) | 2013-09-27 | 2014-09-01 | 情報処理装置、障害回避方法およびコンピュータプログラム |
CN201410510736.3A CN104516786B (zh) | 2013-09-27 | 2014-09-28 | 信息处理装置、故障避免方法和程序存储介质 |
US14/499,272 US9558091B2 (en) | 2013-09-27 | 2014-09-29 | Information processing device, fault avoidance method, and program storage medium |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013201451 | 2013-09-27 | ||
JP2013201451 | 2013-09-27 | ||
JP2014176924A JP6387747B2 (ja) | 2013-09-27 | 2014-09-01 | 情報処理装置、障害回避方法およびコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015088176A JP2015088176A (ja) | 2015-05-07 |
JP6387747B2 true JP6387747B2 (ja) | 2018-09-12 |
Family
ID=52741375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014176924A Active JP6387747B2 (ja) | 2013-09-27 | 2014-09-01 | 情報処理装置、障害回避方法およびコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9558091B2 (ja) |
JP (1) | JP6387747B2 (ja) |
CN (1) | CN104516786B (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10133827B2 (en) | 2015-05-12 | 2018-11-20 | Oracle International Corporation | Automatic generation of multi-source breadth-first search from high-level graph language |
US10127025B2 (en) | 2015-07-22 | 2018-11-13 | Oracle International Corporation | Optimization techniques for high-level graph language compilers |
US10810257B2 (en) | 2015-08-27 | 2020-10-20 | Oracle International Corporation | Fast processing of path-finding queries in large graph databases |
US9971570B2 (en) * | 2015-12-15 | 2018-05-15 | Oracle International Corporation | Automated generation of memory consumption aware code |
WO2018040115A1 (en) * | 2016-09-05 | 2018-03-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Determination of faulty state of storage device |
US10540398B2 (en) | 2017-04-24 | 2020-01-21 | Oracle International Corporation | Multi-source breadth-first search (MS-BFS) technique and graph processing system that applies it |
US9934287B1 (en) | 2017-07-25 | 2018-04-03 | Capital One Services, Llc | Systems and methods for expedited large file processing |
US10585945B2 (en) | 2017-08-01 | 2020-03-10 | Oracle International Corporation | Methods of graph-type specialization and optimization in graph algorithm DSL compilation |
US10795672B2 (en) | 2018-10-31 | 2020-10-06 | Oracle International Corporation | Automatic generation of multi-source breadth-first search from high-level graph language for distributed graph processing systems |
JP2022124765A (ja) * | 2021-02-16 | 2022-08-26 | 富士通株式会社 | 多重制御プログラム、情報処理装置および多重制御方法 |
CN114116237B (zh) * | 2022-01-28 | 2022-05-10 | 深圳市玩物科技有限公司 | 一种大规模网络设备的分级自治远程管理方法 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5129080A (en) * | 1990-10-17 | 1992-07-07 | International Business Machines Corporation | Method and system increasing the operational availability of a system of computer programs operating in a distributed system of computers |
JP2001331348A (ja) * | 2000-05-24 | 2001-11-30 | Nec Software Kobe Ltd | プロセスメモリ消費量増加傾向検出方式 |
CN1328877C (zh) * | 2001-12-03 | 2007-07-25 | 中兴通讯股份有限公司 | 共享线程实现和调度方法 |
US7725901B2 (en) * | 2005-04-14 | 2010-05-25 | International Business Machines Corporation | Method and system for performance balancing in a distributed computer system |
JP4876438B2 (ja) * | 2005-05-31 | 2012-02-15 | 株式会社日立製作所 | コンポーネントソフトウェアの運用方法および運用基盤 |
US7966514B2 (en) * | 2005-09-19 | 2011-06-21 | Millennium It (Usa), Inc. | Scalable fault tolerant system |
WO2007125942A1 (ja) * | 2006-04-26 | 2007-11-08 | Nippon Telegraph And Telephone Corporation | 負荷制御装置およびその方法 |
JP2007310749A (ja) * | 2006-05-19 | 2007-11-29 | Hitachi Information Systems Ltd | サーバリソース提供システム及びサーバリソース提供方法 |
US20090172674A1 (en) * | 2007-12-28 | 2009-07-02 | International Business Machines Corporation | Managing the computer collection of information in an information technology environment |
US8447859B2 (en) * | 2007-12-28 | 2013-05-21 | International Business Machines Corporation | Adaptive business resiliency computer system for information technology environments |
CN101382912B (zh) * | 2008-09-02 | 2011-08-24 | 中国科学院软件研究所 | 一种面向应用服务器的资源敏感性能优化方法及其系统 |
US9158606B2 (en) * | 2009-01-22 | 2015-10-13 | International Business Machines Corporation | Failure repetition avoidance in data processing |
JP5455111B2 (ja) * | 2009-03-26 | 2014-03-26 | 日本ユニシス株式会社 | 流量制御装置および流量制御方法 |
US8424005B2 (en) * | 2009-07-27 | 2013-04-16 | International Business Machines Corporation | System and method for time-aware run-time to guarantee time |
CN103026344B (zh) * | 2010-06-07 | 2015-09-09 | 日本电气株式会社 | 故障检测设备、故障检测方法和程序记录介质 |
CN102402459B (zh) * | 2010-09-10 | 2013-09-11 | 中兴通讯股份有限公司 | 网管系统性能数据汇总的方法和装置 |
JP5542700B2 (ja) * | 2011-01-05 | 2014-07-09 | 株式会社日立製作所 | Smtプロセッサにおけるプロセッサ使用率の算出方法 |
WO2012124077A1 (ja) * | 2011-03-16 | 2012-09-20 | 富士通株式会社 | マルチコアプロセッサシステムおよびスケジューリング方法 |
JP5765423B2 (ja) * | 2011-07-27 | 2015-08-19 | 富士通株式会社 | マルチコアプロセッサシステム、およびスケジューリング方法 |
US9047396B2 (en) * | 2011-10-31 | 2015-06-02 | International Business Machines Corporation | Method, system and computer product for rescheduling processing of set of work items based on historical trend of execution time |
JP6019995B2 (ja) * | 2012-09-24 | 2016-11-02 | 日本電気株式会社 | 分散システム、サーバ計算機、及び障害発生防止方法 |
US9342374B2 (en) * | 2013-06-28 | 2016-05-17 | Dell Products, L.P. | Method of scheduling threads for execution on multiple processors within an information handling system |
US9645877B2 (en) * | 2013-08-21 | 2017-05-09 | Hitachi, Ltd. | Monitoring apparatus, monitoring method, and recording medium |
US10334461B2 (en) * | 2014-03-07 | 2019-06-25 | Epitiro Holdings, Inc. | System, device and method for testing app performance |
US10061627B2 (en) * | 2014-09-16 | 2018-08-28 | Oracle International Corporation | System and method for supporting waiting thread notification offloading in a distributed data grid |
-
2014
- 2014-09-01 JP JP2014176924A patent/JP6387747B2/ja active Active
- 2014-09-28 CN CN201410510736.3A patent/CN104516786B/zh active Active
- 2014-09-29 US US14/499,272 patent/US9558091B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20150095698A1 (en) | 2015-04-02 |
JP2015088176A (ja) | 2015-05-07 |
CN104516786A (zh) | 2015-04-15 |
US9558091B2 (en) | 2017-01-31 |
CN104516786B (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6387747B2 (ja) | 情報処理装置、障害回避方法およびコンピュータプログラム | |
CN110825544B (zh) | 计算节点及其失效检测方法与云端数据处理系统 | |
EP2523115B1 (en) | Operation management device, operation management method, and program storage medium | |
US8601493B2 (en) | Application controlling apparatus and storage medium which stores software for the apparatus | |
CN106452818B (zh) | 一种资源调度的方法和系统 | |
US8516499B2 (en) | Assistance in performing action responsive to detected event | |
JP5686904B2 (ja) | 稼働情報予測計算機、稼働情報予測方法及びプログラム | |
JP4573179B2 (ja) | 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム | |
JPWO2011155621A1 (ja) | 障害検出装置、障害検出方法およびプログラム記録媒体 | |
JP2014182561A (ja) | 計算機システム、プロセス及びスレッドの監視方法 | |
CN111880906A (zh) | 虚拟机高可用性管理方法、系统以及存储介质 | |
CN110008090B (zh) | 一种监控内存错误的方法、装置和计算机可读存储介质 | |
JP6539974B2 (ja) | 障害通報装置、障害通報方法及び障害通報プログラム | |
JP5321195B2 (ja) | 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム | |
CN108964992B (zh) | 一种节点故障检测方法、装置和计算机可读存储介质 | |
CN111104266A (zh) | 访问资源的分配方法、装置、存储介质和电子设备 | |
JP2009025971A (ja) | 情報処理装置、ログデータ収集システム | |
US20160224444A1 (en) | Distributed system, server computer, distributed management server, and failure prevention method | |
JP2016085496A (ja) | 計算機システムの異常予兆検出装置および方法 | |
JP2008003940A (ja) | 保護制御装置、保護制御方法及び保護制御プログラム | |
JP2009259005A (ja) | リソース監視方法および装置 | |
CN112291288B (zh) | 一种容器集群伸缩方法、装置、电子设备及可读存储介质 | |
JP5467936B2 (ja) | 分散・並列処理システムの障害監視装置と方法およびプログラム | |
JP6674916B2 (ja) | 通信障害管理装置、及び通信システム | |
JP4941439B2 (ja) | クラスタシステムにおける性能低下の原因箇所の特定方法、クラスタシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180710 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180717 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6387747 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |