JP2022142456A - Abnormality handling program, abnormality handling system, and abnormality handling method - Google Patents
Abnormality handling program, abnormality handling system, and abnormality handling method Download PDFInfo
- Publication number
- JP2022142456A JP2022142456A JP2021042634A JP2021042634A JP2022142456A JP 2022142456 A JP2022142456 A JP 2022142456A JP 2021042634 A JP2021042634 A JP 2021042634A JP 2021042634 A JP2021042634 A JP 2021042634A JP 2022142456 A JP2022142456 A JP 2022142456A
- Authority
- JP
- Japan
- Prior art keywords
- abnormality
- container
- anomaly
- logic
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、異常対処プログラム、異常対処システム、及び異常対処方法に関する。 The present invention relates to an anomaly handling program, an anomaly handling system, and an anomaly handling method.
コンピュータを仮想化する技術の一つにコンテナ仮想化技術がある。コンテナ仮想化技術は、OS(Operating System)のカーネルの一部を利用して仮想化を行うため、VM(Virtual Machine)仮想化技術と比較して仮想化のオーバヘッドが小さく軽量であるという利点がある。そのコンテナ仮想化技術においては、互いに独立した複数のユーザ空間が生成される。これらのユーザ空間はコンテナと呼ばれ、そのコンテナの各々においてアプリケーションプログラムが実行される。 One of the technologies for virtualizing computers is container virtualization technology. Container virtualization technology uses a part of the kernel of the OS (Operating System) to perform virtualization, so it has the advantage of having less virtualization overhead and being lighter than VM (Virtual Machine) virtualization technology. be. In the container virtualization technology, a plurality of mutually independent user spaces are generated. These user spaces are called containers, each of which runs an application program.
コンテナを利用して業務システムを構築する場合、各々のコンテナで一つのアプリケーションプログラムを実行するMSA(Micro Service Architecture)と呼ばれるアーキテクチャを採用することがある。MSAは、業務システムを複数の機能に分割し、各機能を実現するアプリケーションプログラムをコンテナで実行するアーキテクチャである。前述のようにコンテナは軽量であるため、コンテナを利用したMSAでは業務システムを簡単にスケールアウトすることができるというメリットがある。 When building a business system using containers, an architecture called MSA (Micro Service Architecture), in which each container executes one application program, may be adopted. MSA is an architecture that divides a business system into multiple functions and executes application programs that implement each function in containers. As mentioned above, containers are lightweight, so MSA using containers has the advantage of being able to easily scale out business systems.
但し、MSAでは、例えば一つのコンテナの負荷が増大したときの負荷軽減を図る等の目的でコンテナの個数が急増したり、更にコンテナ同士の依存関係が複雑になったりする。そのため、コンテナに異常が発生した場合、業務システムの運用者がその異常に対処するのが極めて難しくなり、ひいては異常への対処が遅れてしまう。 However, in MSA, for example, the number of containers increases rapidly for the purpose of reducing the load when the load of one container increases, and the dependency relationship between containers becomes complicated. Therefore, when an abnormality occurs in a container, it becomes extremely difficult for the operator of the business system to deal with the abnormality, resulting in a delay in dealing with the abnormality.
一側面によれば、コンテナの異常への対処が遅れるのを抑制することを目的とする。 According to one aspect, it is an object to suppress delays in dealing with abnormalities in containers.
一側面によれば、複数のコンテナの各々に発生した異常の優先度を設定し、前記異常の種類ごとに、当該異常を解消させるロジックを生成し、前記優先度の順に、前記異常に対して前記ロジックを実行する処理をコンピュータに実行させるための異常対処プログラムが提供される。 According to one aspect, the priority of anomalies occurring in each of a plurality of containers is set, logic for resolving the anomaly is generated for each type of anomaly, and the anomalies are treated in order of the priority. An anomaly handling program is provided for causing a computer to execute a process of executing the logic.
一側面によれば、コンテナの異常への対処が遅れるのを抑制できる。 According to one aspect, it is possible to suppress delays in dealing with abnormalities in containers.
本実施形態の説明に先立ち、本願発明者が検討した事項について説明する。 Prior to the description of the present embodiment, matters examined by the inventors of the present application will be described.
図1は、業務システムの監視方法について示す模式図である。 FIG. 1 is a schematic diagram showing a method of monitoring a business system.
図1においては、複数のサービス4によって実現される業務システム1について例示している。業務システム1はMSAを採用したシステムであり、MSAの個々の機能がサービス4によって実現される。
FIG. 1 illustrates a
各々のサービス4は、コンテナ基盤2の上で起動した複数のコンテナの各々のアプリケーションプログラムで実現される。コンテナ基盤2は、複数のコンテナを自動的に配備するプログラムであって、Kubernetes(登録商標)やOpenShift(登録商標)等がその一例である。
Each
サービス4を実現するコンテナに異常が発生しているかを判断するために、この例では各々のコンテナをコンテナ監視ソフトウェア5で監視する。コンテナ監視ソフトウェア5は、コンテナの異常を検知した場合には、業務システム1の運用者の操作端末6にアラートを表示する。そして、業務システム1の運用者は、アラートが通知された順に異常に対処することになる。
In this example, each container is monitored by
しかし、コンテナ監視ソフトウェア5は軽微な異常や重篤な異常を問わずにアラートを表示するため、この方法では業務システム1の運用者が重篤な異常に対処するのが遅れる可能性がある。
However, since the
図2は、この問題を示す模式図である。図2の例では、軽微な異常である「軽微A」~「軽微D」という異常と、重大な重篤な異常である「重大A」という異常が各コンテナに発生した場合を想定している。 FIG. 2 is a schematic diagram illustrating this problem. In the example in Figure 2, it is assumed that each container has an abnormality of "minor A" to "minor D", which is a minor abnormality, and an abnormality of "major A", which is a serious serious abnormality. .
この場合、運用者は、異常が発生した順に対処するため、「重大A」という重篤な異常に対処するのが遅れてしまい、業務システム1自体の運用に問題が生じてしまう。更に、業務システム1の運用者が異常の緊急性を考慮して異常への対応順を決めても、対応順を決める判断そのものに時間がかかり、異常への対処が遅れるおそれがある。
In this case, since the operator deals with the errors in the order in which they occur, there is a delay in dealing with the serious error of "serious A", which causes a problem in the operation of the
また、運用者が手動で異常に対処するのではなく、異常への対処をスクリプトで自動化することも考えられる。しかし、単純にスクリプトを組んだのでは、上記と同様にアラートが通知された異常から順にスクリプトが対処するため、やはり重篤な異常への対処が遅れる。 It is also conceivable to automate the handling of anomalies using a script rather than having the operator deal with the anomalies manually. However, if the script is simply constructed, the script will deal with the anomaly in the order that the alert was notified, as in the above case, so the handling of the serious anomaly will be delayed.
しかも、この方法では、異常への対処後に当該異常が解消されたかを運用者が確認する必要があり、解消されていない場合には再び同じ異常に対して対処する必要がある。 Moreover, in this method, the operator needs to check whether the abnormality has been resolved after the abnormality has been dealt with, and if the abnormality has not been resolved, the same abnormality must be dealt with again.
図3は、この問題を示す模式図である。図3では、運用者が同じ異常に対して何度も対処した場合を想定している。これでは運用者の負担が大きくなり煩わしさに堪えない。 FIG. 3 is a schematic diagram illustrating this problem. In FIG. 3, it is assumed that the operator has dealt with the same abnormality many times. This increases the burden on the operator and makes it unbearable.
図4は、業務システムの別の監視方法について示す模式図である。なお、図4において図1で説明したのと同じ要素には図1におけるのと同じ符号を付し、以下ではその説明を省略する。 FIG. 4 is a schematic diagram showing another method of monitoring a business system. In FIG. 4, the same elements as those explained in FIG. 1 are denoted by the same reference numerals as in FIG. 1, and the explanation thereof will be omitted below.
図4の例では、コンテナ基盤2に備わっているヘルスチェック機構2aがサービス4を実行しているコンテナの異常を検出し、異常が検出された場合にはヘルスチェック機構2aが異常を解消させる。
In the example of FIG. 4, the
しかし、ヘルスチェック機構2aが監視可能な異常の種類は、コンテナ自身が停止した等の異常に限定されており、コンテナの内部の異常をヘルスチェック機構2aが検出することはできない。
However, the types of abnormalities that can be monitored by the
更に、ヘルスチェック機構2aは、複数のコンテナに跨って発生した高度な異常を検出することもできない。
Furthermore, the
図5は、その問題について示す模式図である。図5に示すように、ヘルスチェック機構2aは、コンテナの内部でのみ有効なコマンドを実行することで当該コンテナのログを取得し、ログに基づいて異常の有無の判断を行う。そのため、一つのコンテナでコマンドを実行しても、そのコンテナとは別のコンテナのログを取得することができず、複数のサービス4に跨る異常を検出することができない。
FIG. 5 is a schematic diagram showing the problem. As shown in FIG. 5, the
しかも、ヘルスチェック機構2aは、ある異常を解消させることができない場合、その異常に対する対処を繰り返して行うため、重篤な異常への対処が遅れる可能性がある。
In addition, when the
図6は、その問題について示す模式図である。図6に示すように、ヘルスチェック機構2aがあるコンテナのサービス4の異常に対して繰り返し対処をしている間は、他のコンテナで実行しているサービス4の異常が放置されてその対処が遅れてしまう。以下、本実施形態について説明する。
FIG. 6 is a schematic diagram showing the problem. As shown in FIG. 6, while the
(本実施形態)
図7は、本実施形態に係る異常対処システムの機能構成図である。
(this embodiment)
FIG. 7 is a functional configuration diagram of the abnormality handling system according to this embodiment.
図7に示すように、異常対処システム20は、業務システム21と異常対処装置22とを有する。このうち、業務システム21は、複数のサービス23で実現されるMSAを採用したシステムである。各々のサービス23は、コンテナ24とサイドカープロキシ25とを有する。各々のコンテナ24は、業務システム21の複数の機能のうちの一つを実現するためのアプリケーションプログラムを一つ実行しており、これらのアプリケーションプログラムによって業務システム21の機能が実現される。
As shown in FIG. 7, the
各々のコンテナ24とサイドカープロキシ25はコンテナ基盤26の上で実行される。コンテナ基盤26は、コンテナ24を起動するためのDocker(登録商標)等のコンテナエンジンと、各コンテナ24を管理するKubernetes等のコンテナ管理プログラムとをコンピュータの上で実行することで実現されるコンテナ実行環境である。コンテナエンジンとコンテナ管理プログラムを実行するコンピュータは特に限定されず、物理マシンや仮想マシンの上でこれらのプログラムを実行し得る。
Each
サイドカープロキシ25は、自身と同一のサービス23に配備されたコンテナ24に係るサービス情報27の各項目のパラメータを取得し、それを異常対処装置22に通知するためのプログラムである。
The
図8は、サービス情報27の模式図である。図8に示すように、サービス情報27は、「Name」、「Id」、「Status」、「Priority」、「Stdout_path」、「Logfile_path」、「Internalcmd_path」、「Using_db」、「Using_service」、「Operation_type」、及び「SLA」の各項目を有する。
FIG. 8 is a schematic diagram of the
このうち、「Name」はサービス23の名前であり、「Id」はサービス23を一意に識別する識別子である。
Among these, "Name" is the name of the
「Status」は、サービス23の状態を示す情報である。その情報には、サービス23に含まれるコンテナ24が稼働中であることを示す「Running」、当該コンテナ24に異常が発生していることを示す「Error」、当該異常に対処中であることを示す「ResolvingError」がある。また、サービス23に含まれるコンテナ24が停止中であることを示す「Stopped」も「Status」に含まれる。
“Status” is information indicating the status of the
「Priority」は、コンテナ24に異常が発生したときに異常の対処順序を決めるためのパラメータである。「Stdout_path」はサービス23における標準出力先を示し、「Logfile_path」はログファイルの出力先を示す。
“Priority” is a parameter for determining the order of handling an abnormality when an abnormality occurs in the
また、「Internalcmd_path」は、サービス23に含まれるコンテナ24の内部の情報を取得するためのコマンドパスを示す。
“Internalcmd_path” indicates a command path for obtaining information inside the
「Using_db」は、サービス23に含まれるコンテナ24が使用するデータベースの名前である。「Using_service」は、サービス23に含まれるコンテナ24と依存関係にある他のコンテナ24を含むサービス23の名前である。
“Using_db” is the name of the database used by the
「Operation_type」は、業務システム21を実現するのに当該サービス23が必須かどうかを示す情報である。
“Operation_type” is information indicating whether the
「SLA」は、業務システム21のSLA(Service Level Agreement)である。一例として、業務システム21の可用性をSLAとして採用し得る。
“SLA” is the SLA (Service Level Agreement) of the
サービス情報27の取得方法は特に限定されない。
The acquisition method of the
図9(a)、(b)は、サービス情報27の取得方法の例について示す模式図である。
9A and 9B are schematic diagrams showing an example of a method of acquiring
このうち、図9(a)は、サービス23に割り当てられた記憶領域23aを利用した方法の模式図である。記憶領域23aは、同一のサービス23に属するコンテナ24とサイドカープロキシ25の両方からアクセス可能な記憶領域である。例えば、コンテナ24は、動作ログや異常ログを記憶領域23aに格納する。そして、サイドカープロキシ25は、これらのログのうちでサービス情報27に含まれる項目を記憶領域23aから取得し、当該項目をサービス情報取得部41に通知する。
Among them, FIG. 9A is a schematic diagram of a method using the storage area 23a allocated to the
一方、図9(b)は、記憶領域23aを介さずに、サイドカープロキシ25がコンテナ24からサービス情報27に含まれる各項目を直接取得し、それをサービス情報取得部41に通知する場合の模式図である。
On the other hand, FIG. 9(b) shows a model in which the
この場合、サイドカープロキシ25は、サービス情報27に含まれる各項目を収集するための内部コマンド「/bin/internal_cmd」をコンテナ24の内部で実行し、これらの項目を収集する。
In this case, the
図10は、サービス情報27に含まれる「Using_service」の項目を取得する方法の模式図である。
FIG. 10 is a schematic diagram of a method of acquiring the item "Using_service" included in the
ここでは、「ServiceA」のサービス23が、「ServiceB」と「ServiceC」のサービス23の各々に依存しているとする。なお、「SeviceA」のコンテナ24は第1のコンテナの一例であり、「ServiceB」のコンテナ24は第2のコンテナの一例である。この場合、「ServiceA」のサービス23におけるサイドカープロキシ25は、自サービス23のコンテナ24から送信される通信パケット等のデータを監視する。そして、当該サイドカープロキシ25は、通信パケットのヘッダを分析することにより送信元のコンテナ24が属するサービス23と、送信先のコンテナ24が属するサービス23とを特定する。その後、サイドカープロキシ25は、送信元と送信先とを対応つけた通信テーブル23bを生成し、それをサービス情報取得部41に通知する。そして、サービス情報取得部41が制御部42に通信テーブル23bを通知する。
Here, it is assumed that the
制御部42は、通信テーブル23bに基づいて、送信元の「ServiceA」に含まれるコンテナ24と、送信先の「ServiceB」に含まれるコンテナ24とを特定する。そして、制御部42は、「ServiceA」に含まれるコンテナ24が「ServiceB」に含まれるコンテナ24に依存していると判断し、サービス情報27の「Using_service」の項目として「ServiceB」を設定する。
Based on the communication table 23b, the
同様に、制御部42は、は、この通信テーブル23bから「ServiceA」に含まれるコンテナ24が「ServiceC」に含まれるコンテナ24に依存しているとも判断する。そのため、制御部42は、サービス情報27の「Using_service」の項目として更に「ServiceC」を設定する。
Similarly, the
再び図7を参照する。異常対処装置22は、業務システム21の各コンテナ24に異常が発生した場合に、その異常を解消させるための対処を行う装置である。一例として、異常対処装置22は、解析部31、異常対処部32、記憶部33、運用ポリシ生成部34、運用ポリシ適用部35、及び受付部36を備える。
Refer to FIG. 7 again. The
このうち、解析部31は、前述のサービス情報27を解析する処理部であって、サービス情報取得部41と制御部42とを有する。
Among them, the analysis unit 31 is a processing unit that analyzes the
サービス情報取得部41は、各々のサイドカープロキシ25からサービス情報27を取得する処理部である。
The service
制御部42は、サービス情報取得部41が収集したサービス情報27を解析することによりコンテナ24の異常の有無を判定する。
The
例えば、制御部42は、サービス情報27の「Status」が「Error」となっている場合に、そのサービス情報27に係るサービス23に含まれるコンテナ24に異常が発生したと判定する。
For example, when the “Status” of the
また、制御部42は、サービス情報27の「Using_db」や「Using_service」を利用して、複数のサービス23同士の依存関係を示すサービストポロジを生成する。更に、制御部42は、サービス情報27の「Using_db」や「Using_service」が前回取得時と異なっている場合に、複数のサービス23同士の依存関係を示すサービストポロジが変更されたと判定する。
Also, the
制御部42は、前述のようにコンテナ24に異常が発生したと判定した場合には、サービス情報27に基づいて異常情報リソース44を生成し、それを記憶部33に格納する。異常情報リソース44は、サービス23に発生した異常についての情報を示すファイルであり、発生した異常ごとに制御部42が生成する。
When the
図11は、異常情報リソース44の模式図である。図11に示すように、異常情報リソース44は、「Kind」、「Id」、「Status」、「Priority」、「Service」、及び「Retry_count」の各項目を有する。
FIG. 11 is a schematic diagram of the
このうち、「Kind」は、異常の種類を示す情報である。「Kind」の設定方法は特に限定されない。例えば、制御部42は、サービス情報27の「Status」が「Error」となっている場合に、サービス情報27の「Stdout_path」で示されるパスから標準エラー出力を取得し、サービス情報27の「Logfile_path」からログファイルを取得する。そして、制御部42は、取得した標準エラー出力とログファイルに基づいて異常の種類を示す「Kind」の値を設定する。
Among these, "Kind" is information indicating the type of abnormality. The setting method of "Kind" is not particularly limited. For example, when the "Status" of the
また、「Id」は異常情報リソース44を一意に識別する識別子である。「Status」は、異常への対処結果を示す情報である。その情報には、対処により異常が解消されたことを示す「Sucess」、対処しても異常が解消されなかったことを示す「Failed」、及び異常への対処中であることを示す「ResolvingError」がある。
“Id” is an identifier that uniquely identifies the
「Priority」は、複数の異常のうち、どの異常から先に対処すべきかを示す優先度を示す数値であり、その値が小さいほど優先度が高いことになる。「Priority」の値の設定方法は特に限定されず、異常の種類を示す「Kind」と、サービス情報27に含まれる「Priority」等に基づいて、制御部42が異常情報リソース44の「Priority」の値を設定し得る。 "Priority" is a numerical value indicating the priority of which abnormality should be dealt with first among a plurality of abnormalities, and the smaller the value, the higher the priority. The method of setting the value of "Priority" is not particularly limited. You can set the value of
「Service」は、異常が発生したサービス23の名前である。「Retry_count」は、異常に対処した回数を示す。「Retry_count」の初期値は「0」であり、異常を解消させるためのロジックをロジック実行部49が実行するたびに制御部42が「Retry_count」を1だけインクリメントする。
"Service" is the name of the
再び図7を参照する。制御部42は、異常情報リソース44を生成した後に、異常対処部32に対して異常の対処を依頼する。
Refer to FIG. 7 again. After generating the
異常対処部32は、制御部42からの依頼を受けたときに、サービス23に発生した異常を解消させるための対処を行う処理部である。一例として、異常対処部32は、異常特定部46、スケジューリング部47、ロジック生成部48、及びロジック実行部49を有する。
The
このうち、異常特定部46は、制御部42から依頼を受けたときに記憶部33にある複数の異常情報リソース44を読み込み、これらの異常情報リソース44に対応した異常の種類を特定する処理部である。例えば、異常特定部46は、異常情報リソース44の「Kind」から異常の種類を特定する。また、異常特定部46は、異常の種類を特定した後に、異常への対処のスケジューリングを行うようにスケジューリング部47に依頼する。
Among these, the
スケジューリング部47は、異常特定部46からの依頼を受けたときに、異常への対処のスケジューリングを行う処理部である。一例として、スケジューリング部47は、異常情報リソース44の「Priority」から異常の優先度を特定し、優先度が高い異常から順に処理をするようにスケジューリングを行う。
The scheduling unit 47 is a processing unit that, upon receiving a request from the
ロジック生成部48は、異常特定部46が特定した異常の種類ごとに、当該異常を解消させるロジックを生成する処理部である。例えば、ロジック生成部48は、記憶部33に格納されているロジックデータベース51を参照することによりロジックを生成する。
The
図12は、ロジックデータベース51の模式図である。図12に示すように、ロジックデータベース51は、「異常の種類」、「異常名」、及び「ロジック」の各々を対応付けた情報である。
FIG. 12 is a schematic diagram of the
「異常の種類」は、異常情報リソース44の「Kind」と同一の情報であって、異常の種類を示す情報である。「異常名」は、異常の名前を示す情報である。そして、「ロジック」は、異常を解消させるための処理内容を示す情報である。
"Kind of anomaly" is the same information as "Kind" of the
例えば、「異常の種類」が「サービス間のネットワークタイムアウト」である場合について考える。この場合の「異常の名前」は「NW_timeout」である。「ロジック」は、「[COMMAND: “<実行するコマンド>”]」であって、この“<実行するコマンド>”を実行することにより「サービス間のネットワークタイムアウト」という異常が解消される。 For example, consider the case where the 'failure type' is 'network timeout between services'. The "name of anomaly" in this case is "NW_timeout". The “logic” is “[COMMAND: “<command to be executed>”]”, and by executing this “<command to be executed>”, the abnormality of “network timeout between services” is resolved.
そして、ロジック生成部48は、「[COMMAND: “<実行するコマンド>”]」というロジックを生成する。
Then, the
なお、「DBへの接続エラー」のように、ロジックとして異常を解消させるためのスクリプトを用いてもよい。 It should be noted that a script for resolving an error as logic, such as "Error connecting to DB", may be used.
再び図7を参照する。ロジック実行部49は、ロジック生成部48が生成したロジックを実行することにより、異常の解消を試みる処理部である。なお、ロジック生成部48は、ある異常の異常情報リソース44の「Retry_count」が予め定めておいた閾値を超えている場合には、当該異常に対するロジックの実行を停止する。この場合、ロジック生成部48は、残りの異常のうちで優先度が最も高い異常に対してロジックを実行することになる。
Refer to FIG. 7 again. The
運用ポリシ生成部34は、制御部42がサービス情報27から取得したSLAに基づいて業務システム21の運用ポリシを生成する処理部である。
The operation
図13は、運用ポリシの模式図である。運用ポリシは、コンテナ24のリソース使用率の制御のためのパラメータとサービス23間の通信を制御するためのサイドカープロキシ25の設定パラメータである。そのような設定パラメータとしては、サービス情報27における「Name」、「Id」、「Priority」、「Stdout_path」、「Logfile_path」、「Internalcmd_path」、及び「Operation_type」の各パラメータがある。これらの値の初期値は運用者によって設定されるが、業務システム21の運用の開始と共に運用ポリシ生成部34が自動で調節する。例えば、運用ポリシ生成部34は、業務システム21がSLAを満たすようにこれらの設定パラメータを更新する。また、運用ポリシ生成部34は、更新した運用ポリシを運用ポリシデータベース52に格納する。
FIG. 13 is a schematic diagram of an operational policy. The operational policy is a parameter for controlling the resource usage rate of the
再び図7を参照する。運用ポリシ適用部35は、運用ポリシデータベース52を参照することにより、各コンテナ24に運用ポリシを適用する処理部である。
Refer to FIG. 7 again. The operational
受付部36は、運用者からロジックデータベース51に含まれる個々のパラメータの入力を受け付け、それを記憶部33に格納する処理部である。また、受付部36は、運用者から運用ポリシの初期値の入力を受け付け、それを記憶部33の運用ポリシデータベース52に格納する。
The accepting
次に、業務システム12の運用を開始するときの処理の流れについて説明する。 Next, the flow of processing when starting the operation of the business system 12 will be described.
図14は、業務システム12の運用を開始するときの処理の流れを示すフローチャートである。 FIG. 14 is a flow chart showing the flow of processing when starting the operation of the business system 12 .
まず、受付部36が、運用者から運用ポリシ(図13参照)の個々のパラメータの初期値の入力を受け付け、それらを運用ポリシデータベース52に格納する(ステップS11)。
First, the
次に、運用ポリシ生成部34が運用ポリシデータベース52を参照して運用ポリシを生成する(ステップS12)。
Next, the operational
次いで、運用ポリシ適用部35が、運用ポリシデータベース52を参照して運用ポリシを取得する(ステップS13)。
Next, the operational
続いて、運用ポリシ適用部35が、取得した運用ポリシを各コンテナ24に適用する(ステップS14)。
Subsequently, the operational
次に、受付部36が、運用者からロジックデータベース51の個々のパラメータの入力を受け付け、それを記憶部33に格納する(ステップS15)。
Next, the
次いで、ロジック生成部48がこれらのパラメータからロジックデータベース51を作成し、それを記憶部33に格納する(ステップS16)。
Next, the
以上により、業務システム12の運用を開始するときの基本的な処理を終える。 With the above, the basic processing for starting the operation of the business system 12 is completed.
次に、本実施形態に係る異常対処方法について説明する。 Next, an abnormality coping method according to this embodiment will be described.
図15は、本実施形態に係る異常対処方法のフローチャートである。まず、運用ポリシ適用部35が運用ポリシデータベース52を参照し、運用ポリシに変更がある場合には変更後の運用ポリシを各コンテナ24に適用する(ステップS21)。
FIG. 15 is a flowchart of an abnormality coping method according to this embodiment. First, the operation
次いで、サイドカープロキシ25が、サービス情報27に含まれる各項目の情報を、当該サイドカープロキシ25と同じサービス23内のコンテナ24から収集し、それらをサービス情報取得部41に通知する(ステップS22)。
Next, the
次に、サービス情報取得部41が各サイドカープロキシ25からサービス情報27を取得する(ステップS23)。
Next, the service
次いで、制御部42がサービス情報27を解析する(ステップS24)。例えば、制御部42は、通信テーブル23bに基づいて、複数のサービス23同士の依存関係を示すサービストポロジを生成する。また、制御部42は、サービス情報27に基づいて業務システム12のSLAを特定する。
Next, the
次に、制御部42が、サービス情報27を解析した結果、サービストポロジが変更されたかを判定する(ステップS25)。
Next, as a result of analyzing the
そして、サービストポロジが変更されたと判定された場合(ステップS25:肯定)はステップS26に移る。ステップS26では、運用ポリシ生成部34が、変更後のサービストポロジにとって望ましい運用ポリシを生成し、それを運用ポリシデータベース52に格納する。
Then, if it is determined that the service topology has been changed (step S25: affirmative), the process proceeds to step S26. In step S<b>26 , the
一方、サービストポロジが変更されていないと判定された場合(ステップS25:否定)はステップS27に移る。 On the other hand, if it is determined that the service topology has not been changed (step S25: No), the process proceeds to step S27.
ステップS27においては、制御部42が、サービス情報27を解析した結果、業務システム12のSLAが基準を超えたかを判定する。ここで、SLAが基準を超えたと判定された場合(ステップS27:肯定)は前述のステップS26に移る。ステップS26では、運用ポリシ生成部34が、業務システム12のSLAが基準を満たすように運用ポリシを変更する。
In step S27, the
一方、SLAが基準を超えていないと判定された場合(ステップS27:否定)はステップS28に移る。 On the other hand, if it is determined that the SLA does not exceed the standard (step S27: No), the process proceeds to step S28.
ステップS28においては、制御部42が、コンテナ24に異常が発生したかを判定する。例えば、制御部42は、サービス情報27の「Status」が「Error」となっている場合に、サービス情報27の「Name」が示すサービス23に含まれるコンテナ24に異常が発生したと判定する。
In step S28, the
ここで、異常は発生していないと判定された場合(ステップS28:否定)はステップS29に移る。 Here, if it is determined that no abnormality has occurred (step S28: No), the process proceeds to step S29.
ステップS29においては、制御部42が、業務システム12が業務を終了したかを判定する。ここで、業務を終了していないと判定された場合(ステップS29:否定)にはステップS22に戻る。一方、業務を終了したと判定した場合(ステップS29:肯定)は処理を終える。
In step S29, the
また、前述のステップS28において異常が発生したと制御部42が判定した場合にはステップS30の異常対処処理を行い、その後ステップS29に移る。以上により、図15のフローチャートの基本的な処理を終える。
Further, when the
図16は、前述のステップS30の異常対処処理のフローチャートである。 FIG. 16 is a flowchart of the abnormality handling process in step S30 described above.
まず、制御部42が、サービス情報27に基づいて異常情報リソース44を生成し、それを記憶部33に格納する(ステップS41)。このとき、制御部42は、サービス情報27に基づいて異常の種類を特定し、その異常の種類に応じた「Kind」の値を異常情報リソース44に設定する。また、制御部42は、異常対処部32に対して異常の対処を依頼する。
First, the
次に、異常対処部32の異常特定部46が、制御部42からの依頼を受けて、異常の種類を特定する(ステップS42)。例えば、異常特定部46は、記憶部33にある異常情報リソース44を読み込み、その異常情報リソース44の「Kind」から異常の種類を特定する。また、異常特定部46は、異常への対処のスケジューリングを行うようにスケジューリング部47に依頼する。
Next, the
次に、スケジューリング部47が、異常特定部46からの依頼を受けて、異常への対処のスケジューリングを行う(ステップS43)。例えば、スケジューリング部47は、異常情報リソース44の「Priority」から異常の優先度を特定し、優先度が高い異常から順に処理をするようにスケジューリングを行う。
Next, the scheduling unit 47 receives a request from the
次いで、ロジック生成部48が、異常特定部46が特定した異常の種類ごとに、当該異常を解消させるロジックを生成する(ステップS44)。一例として、ロジック生成部48は、記憶部33に格納されているロジックデータベース51を参照することにより、ステップS42で特定した異常の種類に対応するロジックを特定し、当該ロジックを生成する。
Next, the
次に、ロジック実行部49が、ロジック生成部48が生成したロジックを実行する(ステップS45)。
Next, the
次いで、制御部42がサービス情報27を新たに取得し、そのサービス情報27に基づいて異常情報リソース44を生成する(ステップS46)。
Next, the
次に、ロジック実行部49が、ロジックを実行したことにより異常が解消されたかを判定する(ステップS47)。例えば、ロジック実行部49は、ステップS46で生成した異常情報リソース44の「Status」が「Running」の場合に異常が解消されたと判定し、「Status」が「Error」のままの場合に異常は解消されていないと判定する。
Next, the
ここで、異常が解消されたと判定された場合(ステップS47:肯定)はステップS50に移る。 Here, if it is determined that the abnormality has been resolved (step S47: affirmative), the process proceeds to step S50.
ステップS50においては、制御部42が、解消された異常に対応した異常情報リソース44を記憶部33から削除する。
In step S<b>50 , the
一方、異常が解消されていないと判定された場合(ステップS47:否定)はステップS48に移る。 On the other hand, if it is determined that the abnormality has not been resolved (step S47: No), the process proceeds to step S48.
ステップS48においては、ロジック実行部49が、異常対処のリトライ回数を示す異常情報リソース44の「Retry_count」が閾値を超えたかを判定する。その閾値は、ある異常への対処を繰り返すことで他の異常への対処が遅れるのを防止する観点から設定される。
In step S48, the
ここで、閾値を超えたと判定した場合(ステップS48:肯定)は、前述のステップS50に移り、制御部42が、ステップS45で対処した異常に係る異常情報リソース44を記憶部33から削除する。これにより、特定の異常に対する異常を何度も繰り返すことで他の異常への対処が遅れるのを防止することができる。
Here, when it is determined that the threshold value is exceeded (step S48: affirmative), the
なお、この場合は異常が解消されていないことになるが、制御部42が表示装置等にアラートを表示することで、運用者に異常が解消されていないことを通知してもよい。
In this case, the abnormality has not been resolved, but the
一方、閾値を超えていないと判定した場合(ステップS48:否定)はステップS49に移る。 On the other hand, if it is determined that the threshold is not exceeded (step S48: No), the process proceeds to step S49.
ステップS49においては、対処していない異常があるかを制御部42が判定する。ここで、対処していない異常があると判定した場合(ステップS49:肯定)はステップS43に戻る。
In step S49, the
一方、対処していない異常がないと判定した場合(ステップS49:肯定)は処理を終えて呼び出し元に戻る。 On the other hand, if it is determined that there is no abnormality that has not been dealt with (step S49: affirmative), the processing is terminated and the caller is returned to.
以上により、本実施形態に係る異常対処方法の基本的な処理を終える。 With the above, the basic processing of the abnormality coping method according to the present embodiment is completed.
上記した本実施形態によれば、異常に対処すべき優先度を示す異常情報リソース44の「Priority」を制御部42が設定し(ステップS41)、その優先度の順に異常に対処する(ステップS43、S45)。そのため、重篤な異常の対処が後回しにされるのを抑制でき、異常への対処が遅れるのを抑制することができる。
According to the present embodiment described above, the
更に、ロジック生成部48が異常の種類ごとにロジックを生成するため(ステップS44)、当該異常を解消するのに相応しいロジックを自動で実行でき、業務システム12の運用者が対処内容を判断する必要がない。
Furthermore, since the
しかも、ステップS48においてある異常についてのリトライ回数が閾値を超えたと判定された場合には、ロジック実行部49がその異常への対処を停止する。そのため、同一の異常への対処が何度も行われることで他の異常への対処が遅れるのを抑制することができる。
Moreover, when it is determined in step S48 that the number of retries for a certain abnormality has exceeded the threshold, the
次に、異常対処の具体例について説明する。 Next, a specific example of handling an abnormality will be described.
・第1例
図17は、第1例に係る異常対処について説明するための模式図である。
- 1st example FIG. 17 : is a schematic diagram for demonstrating the abnormality handling based on a 1st example.
図17に示すように、第1例では、「ServiceA」~「ServiceD」の4つのサービス23で業務システム12が実現される場合を想定する。また、これらのサービス23のうちで、「ServiceA」と「ServiceD」の2つのコンテナ24に異常が発生したものとする。
As shown in FIG. 17, in the first example, it is assumed that the business system 12 is realized by four
図18(a)は、この場合のサービス情報27の模式図である。図18(a)に示すように、コンテナ24に異常が発生していない「ServiceB」と「ServiceC」の「Status」は「Running」となる。一方、コンテナ24に異常が発生した「ServiceA」と「ServiceD」の「Status」は「Error」となる。
FIG. 18(a) is a schematic diagram of the
図18(b)は、第1例において制御部42が生成した異常情報リソース44の模式図である。異常情報リソース44は、コンテナ24に異常が発生したサービス23ごとに制御部42が生成するため、この例では制御部42が「ServiceA」と「ServiceD」の異常情報リソース44を生成する。
FIG. 18B is a schematic diagram of the
ここでは、制御部42が、「ServiceD」に係る異常情報リソース44の「Priority」を「0」に設定し、「ServiceA」に係る異常情報リソース44の「Priority」をそれよりも高い「1」に設定したものとする。
Here, the
図19は、この場合にロジック生成部48が生成したロジックの模式図である。
FIG. 19 is a schematic diagram of the logic generated by the
そのロジックには、「ServiceA」のコンテナ24の異常を解消させるスクリプトと、「ServiceD」のコンテナ24の異常を解消させるスクリプトが記述される。前述のように「ServiceA」の異常の優先度は「ServiceD」のそれよりも高い。そのため、スケジューリング部47は、「ServiceA」への対処が「ServiceD」への対処よりも先になるようにスケジューリングを行う。このスケジューリングの結果、ロジック生成部48は、「ServiceA」のコンテナ24の異常を解消させるためのスクリプトを、「ServiceD」のコンテナ24の異常を解消させるためのスクリプトよりも先に記述する。
In the logic, a script for resolving the abnormality of the
これにより、ロジック実行部49は、優先度が高い「ServiceA」のコンテナ24の異常から先に対処し、その対処を終えた後に「ServiceD」のコンテナ24の異常に対処する。
As a result, the
その結果、優先度が高く重篤な異常への対処が遅れるのを抑制することができ、業務システム12を安定的に稼働させることができる。しかも、制御部42が自動的に異常の優先度を設定し、その優先度に従ってスケジューリング部47が自動的にスケジューリングを行うため、業務システム12の運用者が異常への対応順を決める必要もない。
As a result, it is possible to suppress delays in dealing with high-priority and serious abnormalities, and the business system 12 can be operated stably. Moreover, since the
・第2例
図20は、第2例に係る異常対処について説明するための模式図である。図20に示すように、第2例では、「ServiceA1」、「ServiceA2」、「ServiceA3」、及び「ServiceB」の4つのサービス23と、「DatabaseA」というデータベース29とによって業務システム21が実現されている場合を想定する。また、図20では、サービス23同士の依存関係を矢印で示している。その矢印の根元のサービス23は、通信パケットの送信元のコンテナ24が起動しているサービスを示す。また、矢印の先端のサービス23は、通信パケットの送信先のコンテナ24を示す。
Second Example FIG. 20 is a schematic diagram for explaining how to deal with an abnormality according to a second example. As shown in FIG. 20, in the second example, a
なお、データベース29に向かう矢印は、矢印の根元のサービス23内のコンテナ24がデータベース29にアクセスすることを示す。
An arrow directed to the
以下では、「ServiceA1」と「ServiceA2」の各々のコンテナ24に異常があった場合について説明する。
Below, a case where there is an abnormality in each of the
図21は、この場合のサービス情報27を示す模式図である。前述のように「ServiceA1」と「ServiceA2」の各々のコンテナ24に異常があるため、これらのサービス23における「Status」は「Error」となる。
FIG. 21 is a schematic diagram
また、「Using_db」と「Using_service」の各項目には、図20の依存関係を反映した値が格納される。例えば、「ServiceA1」の「Using_service」には「ServiceA2」と「ServiceA3」が格納される。なお、「ServiceA1」は「DatabaseA」にアクセスしないため、アクセスしないことを示す「NULL」が「Using_db」に格納される。 Also, the items "Using_db" and "Using_service" store values that reflect the dependencies shown in FIG. For example, "ServiceA2" and "ServiceA3" are stored in "Using_service" of "ServiceA1". Since "ServiceA1" does not access "DatabaseA", "NULL" indicating no access is stored in "Using_db".
一方、「ServiceA2」は「DatabaseA」にアクセスするため、「ServiceA2」の「Using_db」には「DatabaseA」が格納される。また、「ServiceA2」は他のサービス23に依存しないため、「ServiceA2」の「Using_service」は「NULL」となる。
On the other hand, since "ServiceA2" accesses "DatabaseA", "DatabaseA" is stored in "Using_db" of "ServiceA2". Also, since "ServiceA2" does not depend on
なお、「ServiceA3」の「Operation_type」における「CircuitBreakOK」は、「ServiceA3」のサービス23を実行しているコンテナ24に異常が発生した場合、業務システム21から「ServiceA3」を削除してもよいことを示す。
"CircuitBreakOK" in "Operation_type" of "ServiceA3" indicates that "ServiceA3" may be deleted from the
図22は、図21のサービス情報27を利用して制御部42が生成したサービストポロジの模式図である。
FIG. 22 is a schematic diagram of a service topology generated by the
ここでは、制御部42は、サービストポロジを表現する隣接リストを生成する。この隣接リストの1行目の「ServiceA1-ServiceA2-ServiceA3」は、「ServiceA1」の通信先のサービス23が「ServiceA2」と「ServiceA3」であることを示す。2行目の「ServiceA2-DatabaseA」は、「ServiceA2」が「DatabaseA」にアクセスすることを示す。また、最後の行の「DatabaseA」は、「DatabaseA」のアクセス先がないことを示す。
Here, the
図23は、本例において制御部42が生成した異常情報リソース44の模式図である。
FIG. 23 is a schematic diagram of the
図23の例では、「ServiceA1」と「ServiceA2」の各異常に対してロジック実行部49が既に1回ロジックを実行しており、それでも異常が解消されなかった場合を示す。この場合、「ServiceA1」と「ServiceA2」のそれぞれの「Status」は「Failed」となる。
The example of FIG. 23 shows a case where the
また、「ServiceA1」と「ServiceA2」のそれぞれの「Priority」はいずれも「1」であるとする。 Also, it is assumed that the "Priority" of "ServiceA1" and "ServiceA2" are both "1".
このように二つのサービス23の「Priority」が同一の場合は、スケジューリング部47は、通信パケットの送信先のサービス23に含まれるコンテナ24から先にロジックを実行するようにスケジューリングする。この例では通信パケットの送信先は「ServiceA2」であるため、スケジューリング部47は、「ServiceA1」よりも先に「ServiceA2」のロジックが実行されるようにスケジューリングする。
When the two
そのスケジューリングを受けて、ロジック実行部49は、「ServiceA1」よりも先に「ServiceA2」のロジックを実行し、「ServiceA2」のコンテナ24の異常の解消を試みる。
In response to the scheduling, the
これとは逆に「ServiceA1」から先に対処することも考えられるが、この場合は仮に「ServiceA1」の異常が解消しても、送信先の「ServiceA2」で異常が発生しているため、「ServiceA1」にすぐに異常が発生することがある。 Conversely, it is also possible to deal with "ServiceA1" first. ServiceA1" may immediately malfunction.
これに対し、本例では送信先の「ServiceA2」から先に対処し、その次に「ServiceA1」の対処を行う。そのため、「ServiceA2」の異常が解消した後に「ServiceA1」の対処を行っているときに「ServiceA2」で再び異常が発生する可能性が少なく、異常への無駄な対処を抑制できる。 On the other hand, in this example, the transmission destination "ServiceA2" is dealt with first, and then "ServiceA1" is dealt with. Therefore, there is little possibility that an error will occur again in "ServiceA2" while "ServiceA1" is being dealt with after the error in "ServiceA2" has been resolved, and wasteful handling of the error can be suppressed.
(ハードウェア構成)
次に、本実施形態に係る異常対処装置22のハードウェア構成について説明する。
(Hardware configuration)
Next, the hardware configuration of the
図24は、本実施形態に係る異常対処装置22のハードウェア構成図である。
FIG. 24 is a hardware configuration diagram of the
図24に示すように、異常対処装置22は、記憶装置22a、メモリ22b、プロセッサ22c、通信インターフェース22d、入力装置22f、表示装置22g、及び媒体読取装置22hを有する。これらの各部は、バス22jにより相互に接続される。
As shown in FIG. 24, the
このうち、記憶装置22aは、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の不揮発性のストレージであって、本実施形態に係る異常対処プログラム100を記憶する。
Among these, the
なお、異常対処プログラム100をコンピュータが読み取り可能な記録媒体22iに記録し、媒体読取装置22hを介してプロセッサ22cにその異常対処プログラム100を読み取らせるようにしてもよい。
It should be noted that the
そのような記録媒体22iとしては、例えばCD-ROM (Compact Disc - Read Only Memory)、DVD (Digital Versatile Disc)、及びUSB (Universal Serial Bus)メモリ等の物理的な可搬型記録媒体がある。また、フラッシュメモリ等の半導体メモリやハードディスクドライブを記録媒体22iとして使用してもよい。これらの記録媒体22iは、物理的な形態を持たない搬送波のような一時的な媒体ではない。
Examples of such a
更に、公衆回線、インターネット、及びLAN等に接続された装置に異常対処プログラム100を記憶させてもよい。その場合は、プロセッサ22cがその異常対処プログラム100を読み出して実行すればよい。
Furthermore, the
一方、メモリ22bは、DRAM(Dynamic Random Access Memory)等のようにデータを一時的に記憶するハードウェアである。
On the other hand, the
プロセッサ22cは、異常対処装置22の各部を制御するCPUやGPU(Graphical Processing Unit)等のハードウェアである。また、プロセッサ22cは、メモリ22bと協働して異常対処プログラム100を実行する。
The
これにより、図7に示した異常対処装置22の解析部31、異常対処部32、運用ポリシ生成部34、運用ポリシ適用部35、及び受付部36が実現される。
As a result, the analysis unit 31, the
また、記憶部33(図7参照)は、記憶装置22aとメモリ22bによって実現される。
Also, the storage unit 33 (see FIG. 7) is realized by the
更に、通信インターフェース22dは、異常対処装置22をインターネットやLAN(Local Area Network)等のネットワークに接続するためのNIC(Network Interface Card)等のハードウェアである。この通信インターフェース22dを介して、コンテナ24やコンテナ基盤26の各々と異常対処装置22が通信することができる。
Furthermore, the
また、入力装置22fは、ロジックデータベース51に含まれる各パラメータや運用ポリシの初期値を運用者が入力するためのキーボードやマウス等のハードウェアである。
The
表示装置22gは、入力装置22fを介して運用者が異常対処装置22に入力した各種のデータを表示するための液晶ディスプレイ等の表示デバイスである。
The
媒体読取装置22hは、記録媒体22iを読み取るためのCDドライブ、DVDドライブ、及びUSBインターフェース等のハードウェアである。
The
1…業務システム、2…コンテナ基盤、2a…ヘルスチェック機構、4…サービス、5…コンテナ監視ソフトウェア、6…操作端末、12…業務システム、20…異常対処システム、21…業務システム、22…異常対処装置、23…サービス、23a…記憶領域、23b…通信テーブル、24…コンテナ、25…サイドカープロキシ、26…コンテナ基盤、27…サービス情報、29…データベース、31…解析部、32…異常対処部、33…記憶部、34…運用ポリシ生成部、35…運用ポリシ適用部、36…受付部、41…サービス情報取得部、42…制御部、44…異常情報リソース、46…異常特定部、47…スケジューリング部、48…ロジック生成部、49…ロジック実行部、51…ロジックデータベース、52…運用ポリシデータベース、100…異常対処プログラム。
1
Claims (5)
前記異常の種類ごとに、当該異常を解消させるロジックを生成し、
前記優先度の順に、前記異常に対して前記ロジックを実行する、
処理をコンピュータに実行させるための異常対処プログラム。 Set the priority of abnormalities that occurred in each of multiple containers,
generating logic for resolving the anomaly for each type of anomaly;
executing the logic for the anomalies in order of the priority;
An anomaly handling program that causes a computer to execute processing.
前記第1のコンテナの前記異常と前記第2のコンテナの前記異常の各々の前記優先度が同じ場合は、前記第2のコンテナの前記異常から先に前記ロジックを実行する、
処理を更に前記コンピュータに実行させるための請求項1に記載の異常対処プログラム。 identifying a first container that is a source of data and a second container that is a destination of data from among the plurality of containers;
if the priority of each of the anomaly of the first container and the anomaly of the second container are the same, then executing the logic for the anomaly of the second container first;
2. The abnormality handling program according to claim 1, further causing said computer to execute processing.
処理を更に前記コンピュータに実行させるための請求項1に記載の異常対処プログラム。 stopping execution of the logic for the same anomaly when the number of executions of the logic for the same anomaly exceeds a threshold;
2. The abnormality handling program according to claim 1, further causing said computer to execute processing.
前記異常の種類ごとに、当該異常を解消させるロジックを生成する生成部と、
前記優先度の順に、前記異常に対して前記ロジックを実行する実行部と、
を有することを特徴とする異常対処システム。 a control unit that performs control to set the priority of anomalies that have occurred in each of a plurality of containers;
a generation unit that generates logic for resolving the anomaly for each type of anomaly;
an execution unit that executes the logic for the abnormality in order of the priority;
An anomaly coping system characterized by having:
複数のコンテナの各々に発生した異常の優先度を設定し、
前記異常の種類ごとに、当該異常を解消させるロジックを生成し、
前記優先度の順に、前記異常に対して前記ロジックを実行する、
処理を実行することを特徴とする異常対処方法。
the computer
Set the priority of abnormalities that occurred in each of multiple containers,
generating logic for resolving the anomaly for each type of anomaly;
executing the logic for the anomalies in order of the priority;
An abnormality coping method characterized by executing processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021042634A JP2022142456A (en) | 2021-03-16 | 2021-03-16 | Abnormality handling program, abnormality handling system, and abnormality handling method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021042634A JP2022142456A (en) | 2021-03-16 | 2021-03-16 | Abnormality handling program, abnormality handling system, and abnormality handling method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022142456A true JP2022142456A (en) | 2022-09-30 |
Family
ID=83426350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021042634A Pending JP2022142456A (en) | 2021-03-16 | 2021-03-16 | Abnormality handling program, abnormality handling system, and abnormality handling method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022142456A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117707830A (en) * | 2024-02-04 | 2024-03-15 | 中航信移动科技有限公司 | Redis connection abnormality processing method, electronic equipment and storage medium |
-
2021
- 2021-03-16 JP JP2021042634A patent/JP2022142456A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117707830A (en) * | 2024-02-04 | 2024-03-15 | 中航信移动科技有限公司 | Redis connection abnormality processing method, electronic equipment and storage medium |
CN117707830B (en) * | 2024-02-04 | 2024-04-26 | 中航信移动科技有限公司 | Redis connection abnormality processing method, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8533334B2 (en) | Message binding processing technique | |
US8046641B2 (en) | Managing paging I/O errors during hypervisor page fault processing | |
JP4558661B2 (en) | Computer system and method for transferring executable programs between partitions | |
US9582312B1 (en) | Execution context trace for asynchronous tasks | |
US7698602B2 (en) | Systems, methods and computer products for trace capability per work unit | |
US8826286B2 (en) | Monitoring performance of workload scheduling systems based on plurality of test jobs | |
US8112526B2 (en) | Process migration based on service availability in a multi-node environment | |
US20090070457A1 (en) | Intelligent Performance Monitoring of a Clustered Environment | |
US9535754B1 (en) | Dynamic provisioning of computing resources | |
US20210224121A1 (en) | Virtual machine-initiated workload management | |
JP5030647B2 (en) | Method for loading a program in a computer system including a plurality of processing nodes, a computer readable medium containing the program, and a parallel computer system | |
US20090319662A1 (en) | Process Migration Based on Exception Handling in a Multi-Node Environment | |
JP2022142456A (en) | Abnormality handling program, abnormality handling system, and abnormality handling method | |
JP4992740B2 (en) | Multiprocessor system, failure detection method, and failure detection program | |
JP5642725B2 (en) | Performance analysis apparatus, performance analysis method, and performance analysis program | |
US20100085871A1 (en) | Resource leak recovery in a multi-node computer system | |
US20070174836A1 (en) | System for controlling computer and method therefor | |
US9400691B2 (en) | Process allocation management apparatus, system and method | |
JP2007242010A (en) | Analytic computer system for logging information collected by common logging | |
US20180287914A1 (en) | System and method for management of services in a cloud environment | |
JP6279816B2 (en) | Storage monitoring system and monitoring method thereof | |
US8203937B2 (en) | Global detection of resource leaks in a multi-node computer system | |
JP6123487B2 (en) | Control device, control method, and control program | |
US11571618B1 (en) | Multi-region game server fleets | |
EP3382555A1 (en) | System and method for management of services in a cloud environment |