JP4353155B2 - トランザクション装置、監視時間決定装置及び方法、プログラム - Google Patents

トランザクション装置、監視時間決定装置及び方法、プログラム Download PDF

Info

Publication number
JP4353155B2
JP4353155B2 JP2005232875A JP2005232875A JP4353155B2 JP 4353155 B2 JP4353155 B2 JP 4353155B2 JP 2005232875 A JP2005232875 A JP 2005232875A JP 2005232875 A JP2005232875 A JP 2005232875A JP 4353155 B2 JP4353155 B2 JP 4353155B2
Authority
JP
Japan
Prior art keywords
transaction
time
execution
execution time
monitoring time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005232875A
Other languages
English (en)
Other versions
JP2007048110A (ja
Inventor
誠 立花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005232875A priority Critical patent/JP4353155B2/ja
Publication of JP2007048110A publication Critical patent/JP2007048110A/ja
Application granted granted Critical
Publication of JP4353155B2 publication Critical patent/JP4353155B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、トランザクション装置に係り、特に、トランザクションの異常を監視するトランザクション装置に関する。
トランザクション処理は、いわゆるオンラインリアルタイム処理であり、与えられた情報を即時に処理し、その結果を必要な場所で受け取ることを可能にするコンピュータシステムである。そして、処理を要求する側をクライアント、要求された処理を実行して結果を返す側をサーバと呼び、一般的には、端末装置側にクライアントアプリケーション(クライアントアプリケーションプログラムの略)が設けられ、端末装置と通信回線を介して接続されたホストコンピュータ側にサーバアプリケーション(サーバアプリケーションプログラムの略)が設けられる。
従来のトランザクション処理においては、ある一定時間(以降、トランザクション実行監視時間と表現する)を超えてもサーバアプリケーションからの応答がない場合、そのサーバアプリケーションに何らかの障害(以降、無応答障害と表現する)が発生していると判断し、サーバアプリケーションの再起動等の障害復旧処理を行う。しかし、このトランザクション実行監視時間が短すぎると、正常なトランザクション実行中に障害復旧処理を行ってしまいかねず、逆にトランザクション実行監視時間が長すぎると障害復旧までに不必要な時間がかかり、無応答障害時間が長くなってしまう、という問題があった。
そして、トランザクションの無応答障害を検出する方法として特許文献1や特許文献2に開示されているが、かかる文献開示の方法では、トランザクション実行監視時間を運用管理者があらかじめ設定する必要がある。
特開平5−108418号公報 特開昭58−191045号公報 特開2002−297535号公報 特開2002−229867号公報
一方で、トランザクション実行監視時間を自動設定する従来の試みとして、特許文献3に開示されている技術が挙げられる。しかし、かかる文献によると、端末との通信を監視し制御するのみで、トランザクションそのものの処理を制御することができない。また、トランザクション実行監視時間の設定方法に関しても以下に示す問題がある。
第一に、従来の方法では、トランザクション実行時間の平均値に、トランザクション実行単位(以降、オペレーションと表現する)ごとに設定された係数を掛けた値をトランザクション実行監視時間として設定している。ここで、実行時間のばらつきの多いオペレーションについてはこの係数を大きめにとらなければ正常動作時も異常動作と見なしてしまう可能性がある。また、実行時間のばらつきの少ないオペレーションについてはこの係数を少なめにとらなければ異常検出までに不必要に長い時間がかかってしまう。かかる状況下において、上記従来の方法では、そのオペレーションの実行時間データのばらつきに関する係数をオペレーション毎にシステム運用者が手動で設定しなければならず、結局のところトランザクション実行監視時間を完全に自動で設定することができない。従って、トランザクション実行監視時間を設定する際にシステム運用者に強いる負担は依然として大きい。そして、従来の方法では、オペレーションの実行時間データのばらつきに関する適当な係数を算出する手段を擁していないので、このオペレーションの実行時間データのばらつきに関するこの係数を使用して算出されたトランザクション実行監視時間が適当であるか否かは、システム運用者の設定次第であり、システム運用者の設定如何によっては、不適当なトランザクション実行監視時間が設定されてしまう。
第二に、従来の方法では、処理件数の最も多かった日の平均値データをトランザクション実行監視時間の算出に使用しているが、1日分のデータしか保持しておらず、それまでに取得した大部分のデータから得られる情報は考慮されていない。この方法では、処理件数の多かった日の実行時間が異常に長いまたは短かった場合、不適当なトランザクション実行監視時間を延々と使用し続けてしまうことになる。また、明確な実行時間の変化があったとしても、該当トランザクションの処理件数が過去の最頻時より少なければ、不適当な値が延々と使用され続ける。このような明確なパフォーマンスの変化にシステム運用者が気づいたとしても、従来の方法では、トランザクション実行監視時間を適当な値に即時適応させることができない。
第三に、上記従来の方法では、トランザクション実行監視時間を算出する際に使用する正常運転時の実行時間平均値データについての信頼度が考慮されていない。従って、信頼できない実行時間平均値データを使用した結果、正常な長時間トランザクションを障害発生と判断してしまう可能性を低減できない、という問題が生じる。
さらに、上記同様に自動設定する従来の試みとして、特許文献4が挙げられる。かかる文献記載のシステムは、ディスク装置の応答時間を監視し、その平均値と標準偏差から、異常と判断する基準となる標準応答時間(監視時間)を求める、というものである。しかし、上記文献記載のシステムにおいても、以下のような問題が生じる。
まず、実際の応答時間の平均値と標準偏差を用いることから、これらを収集している一定期間の間は障害対策処理を行うことができないこととなり、その期間の適切な設定が困難となる。つまり、データを収集している期間があまりに短い期間であると、不正な標準応答時間を設定してしまう可能性が高まり、一方、長くすると障害対策処理を行うことができない期間が長くなってしまう、という問題が生じる。そして、収集したデータが正規分布に従う場合には、平均値と標準偏差から処理が一定の時間内に終了する確率が高くなるよう標準応答時間を設定するとしているが、分布が特定されては多種のオペレーションを扱うトランザクション処理には適用困難である。
さらに、標準応答時間の初期値として人手により設定することが開示されているが、多種のトランザクションを扱うシステムにおいては、かかる手動設定を用いることは困難である。また、具体的にディスク装置の最大応答時間を設定するとあるが、かかる値を知っていることが必要となり、オペレーションごとに設定することは困難である。
このため、本発明は、上記従来例の有する不都合を改善し、特に、トランザクションの異常を判断するために実行時間と比較される監視時間を、信頼性の高い値に自動設定可能であり、異常なトランザクションをより的確に検出して障害対策を行う、ことをその目的とする。
そこで、本発明の一形態であるトランザクション装置は、
トランザクション要求を受け付けてトランザクションを実行するトランザクション装置であって、
トランザクションの実行を制御すると共に少なくともその実行時間を算出する情報を含む制御情報を出力するトランザクション制御手段と、このトランザクション制御手段から制御情報を取得してトランザクションの実行時間及び実行回数を記憶保持する実行時間管理手段と、この記憶されたトランザクションの実行時間及び実行回数からトランザクション装置の異常を検出する基準となる監視時間を決定する監視時間決定手段と、トランザクション制御手段から制御情報を取得してトランザクションの実行が決定された監視時間を超えても終了しない場合にトランザクション装置が異常であると判断するトランザクション監視手段と、を備え、
監視時間決定手段が、トランザクションの実行時間の平均値と標準偏差とを算出し、この平均値に標準偏差に基づく補正値を加算した平均推定値最大値に基づいて監視時間を決定する、
ことを特徴としている。
そして、監視時間決定手段は、標準偏差を前記実行回数に基づく値にて除算した値を補正値として用いる、ことを特徴としており、特に、監視時間決定手段は、
Figure 0004353155
上記数9式にて平均推定値最大値を算出する、ことを特徴としている。
また、監視時間決定手段は、平均推定値最大値に標準偏差に基づく値を加算していて監視時間を決定する、ことを特徴としており、特に、監視時間決定手段は、
Figure 0004353155
上記数10式にて監視時間を決定する、ことを特徴としている。
上記発明によると、まず、トランザクションが実行されると、常時、トランザクションの実行時間が計測されて、その回数と共に記憶保持される。そして、一定の時間間隔ごとに、この記憶された実行時間と実行回数からトランザクションの異常を検出する基準となる監視時間が算出される。その算出手順は、まず、実行時間の平均値と標準偏差が算出される。続いて、この平均値に、補正値が加算されて平均推定値最大値が算出される。具体的には、上記数9式にて算出される。
続いて、上記平均推定値最大値に、さらに標準偏差に基づく値が加算されて、実際に使用する監視時間が算出される。具体的には、上記数10式にて算出される。この式によると、監視時間は、特定の分布を仮定しないチェビシェフの不等式に基づいて設定されることとなる。つまり、監視時間を超える確率は、1/kよりも小さくなるため、より低い確率となるよう設定することで、無応答障害を適切に検出することができる。
以上より、実行時間の平均値にそのばらつきを考慮した補正値が加算され、かかる値に基づいて決定されるため、計測回数が少ない場合であっても、不適切な監視時間に設定されることを抑制することができ、信頼性の高い監視時間を設定することができる。そして、回数を重ねるにつれてより適切な監視時間へと自動的に算出されることとなる。さらには、チェビシェフの不等式を考慮して監視時間を決定していることから、いかなるオペレーションにも対応することができ、汎用性を有する。
また、上記構成に加えて、実行時間管理手段は、管理者から入力されるリセット操作に基づいて記憶保持されている実行時間及び実行回数を消去する、ことを特徴としている。これにより、その後は新たな実行時間等が記憶され、これらに基づいて上述したように新たな監視時間が決定される。従って、新しい環境のオペレーションに適した監視時間を迅速に設定することができる。
また、本発明の他の形態である監視時間決定装置は、
トランザクション要求を受け付けてトランザクションを実行するトランザクション装置にてトランザクションの実行時間と比較され、当該実行時間が超えた場合にトランザクション装置が異常であると判断する基準となる監視時間を決定する監視時間決定装置であって、少なくともトランザクションの実行時間及び実行回数を記憶保持する実行時間管理手段から当該実行時間及び実行回数を読み出して、この実行時間及び実行回数に基づいてトランザクションの実行時間の平均値と標準偏差とを算出し、この平均値に標準偏差に基づく補正値を加算した平均推定値最大値に基づいて監視時間を決定する、
ことを特徴としている。
このとき、上記監視時間決定装置は、
Figure 0004353155
上記数11式にて平均推定値最大値を算出する、ことを特徴としている。
また、上記監視時間決定装置は、
Figure 0004353155
上記数12式にて監視時間を決定する、ことを特徴としている。
また、本発明の他の形態である監視時間決定方法は、
トランザクション要求を受け付けてトランザクションを実行するトランザクション装置にてトランザクションの実行時間と比較され、当該実行時間が超えた場合にトランザクション装置が異常であると判断する基準となる監視時間を、コンピュータを用いて算出する監視時間決定方法であって、
コンピュータが、少なくともトランザクションの実行時間及び実行回数を記憶保持する実行時間管理手段から当該実行時間及び実行回数を読み出して、この実行時間及び実行回数に基づいてトランザクションの実行時間の平均値と標準偏差とを算出し、この平均値に標準偏差に基づく補正値を加算した平均推定値最大値に基づいて監視時間を決定する、
ことを特徴としている。このとき、コンピュータが、
Figure 0004353155
上記数13式にて平均推定値最大値を算出する、ことを特徴としている。また、コンピュータが、
Figure 0004353155
上記数14式にて監視時間を決定する、ことを特徴としている。
さらに、本発明の他の形態であるプログラムは、
トランザクション要求を受け付けてトランザクションを実行するトランザクション装置に、
トランザクションの実行を制御すると共に少なくともその実行時間を算出する情報を含む制御情報を出力するトランザクション制御手段と、このトランザクション制御手段から制御情報を取得してトランザクションの実行時間及び実行回数を記憶保持する実行時間管理手段と、この記憶されたトランザクションの実行時間及び実行回数からトランザクション装置の異常を検出する基準となる監視時間を決定する監視時間決定手段と、トランザクション制御手段から制御情報を取得してトランザクションの実行が決定された監視時間を超えても終了しない場合にトランザクション装置が異常であると判断するトランザクション監視手段と、を実現するためのプログラムであり、
監視時間決定手段が、トランザクションの実行時間の平均値と標準偏差とを算出し、この平均値に標準偏差に基づく補正値を加算した平均推定値最大値に基づいて監視時間を決定する、
ことを特徴としている。
そして、上記監視時間決定手段は、
Figure 0004353155
上記数15式にて平均推定値最大値を算出する、ことを特徴としており、さらに、監視時間決定手段は、
Figure 0004353155
上記数16式にて監視時間を決定する、ことを特徴としている。
上述した監視時間決定装置、方法、さらにはプログラムであっても、上記トランザクション装置と同様に作用するため、上述した本発明の目的を達成することができる。
本発明は、以上のように構成され機能するので、これによると、実行時間の平均値にそのばらつきを考慮した補正値が加算され、かかる値に基づいて監視時間が決定されるため、計測回数が少ない場合であっても、不適切な監視時間に設定されることを抑制することができ、信頼性の高い監視時間を設定することができ、そして、回数を重ねるにつれてより適切な監視時間へと自動的に算出されることとなりため、さらなる信頼性の向上を図ることができる、という従来にない優れた効果を有する。
本発明では、トランザクションの実行時間を監視し、取得した実行時間データからオペレーションの実行時間のばらつきをも考慮した上で補正を加えてトランザクション実行監視時間を自動で設定し、実行環境へ動的に反映し、トランザクションを制御するものである。以下、実施例にて具体的に説明する。
本発明の第1の実施例を、図1乃至図6を参照して説明する。図1は、トランザクションシステムの全体構成を示すブロック図であり、図2は、トランザクション装置の構成を示す機能ブロック図である。図3は、トランザクション装置に記憶される情報を示す説明図である。図4乃至図6は、トランザクション装置における動作を示すシーケンス図である。
[構成]
図1に示すように、本実施例におけるトランザクションシステムは、トランザクションを実行するサーバコンピュータ1(トランザクション装置)と、これにネットワークNを介して接続された複数のクライアント端末2と、によって構成されている。そして、クライアント端末2からのトランザクション要求をサーバコンピュータ1が受け付けて、トランザクションを実行し、その応答をクライアント端末2に送信する、というシステムである。
但し、本発明であるトランザクション装置は、図1に示すシステム形態に限定されない。所定の処理要求を受け付けて実行し、応答するよう作動するトランザクション装置であればよい。
次に、サーバコンピュータ1について、図2乃至図3を参照して説明する。図2に示すように、トランザクション装置であるサーバコンピュータ1は、基本的なコンピュータの構成であるCPUなどの演算装置1Aと、ハードディスクなどの記憶装置1Bと、を備えている。そして、演算装置1Aには、トランザクション用プログラムが組み込まれることで、トランザクション制御部11と、サーバアプリケーション部12と、実行時間管理部13と、監視時間決定部14と、監視部15と、アプリケーション制御部16と、が構築される。また、記憶装置1Bには、管理表記憶部17が形成されている。なお、演算装置1Aには、トランザクションを実行するために必要な他の機能や一般的なサーバコンピュータが備える他の機能なども構築されており、記憶装置1Bにも他の必要な情報が記憶されているが、かかる説明は省略する。上記各構成についてさらに詳述する。
トランザクション制御部11(トランザクション制御手段)は、クライアント端末2からネットワークNを介して送信されたトランザクション要求を受け付け、サーバアプリケーション部12に、要求を受けたトランザクションを開始させる。つまり、トランザクションの実行を制御する機能を有する。また、トランザクション制御部11は、サーバアプリケーション部12からのトランザクション実行後の応答を受け取り、クライアント端末2に返送する。
また、トランザクション制御部11は、トランザクションの実行時間を計測する機能を有する。具体的には、トランザクションを開始させると同時に、その開始した時刻を内部で保持し、トランザクション処理が終了すると、内部で保持していたトランザクション開始時刻から終了時刻を引き、トランザクション実行時間を算出する。そして、算出した時間と共に、要求され実行されたトランザクションを特定するオペレーション識別子を、実行時間管理部13に通知し、トランザクション実行時間管理表の更新を指示する。但し、トランザクション制御部11は、必ずしも実行時間を計測することに限定されず、トランザクションの実行の開始時刻及び終了時刻といった、実行時間を計測するための情報を実行時間管理部13に通知してもよい。
さらに、トランザクション制御部11は、トランザクションの実行の開始時刻及び終了時刻を、トランザクションが正常に実行されているか否かを監視する監視部15に通知する機能をも有する。
サーバアプリケーション部12は、上述したように、クライアント端末2から要求されたトランザクションを処理する。なお、サーバアプリケーション12は、それぞれシステム内で一意なサーバアプリケーション識別子を持ち、要求されたオペレーション(トランザクション)に対応する各トランザクションを実行する。
実行時間管理部13は、管理表記憶部17と協働して実行時間管理手段として機能し、要求されたオペレーションごとのトランザクション実行時間に関するデータを、管理表記憶部17内に形成されたトランザクション実行時間管理表に記憶保持して管理する。具体的には、図3に示すトランザクション実行時間管理表に、オペレーションごとのオペレーション識別子101、トランザクション実行回数102、トランザクション実行時間合計103、トランザクション実行時間平方和104を管理する。さらに詳述すると、実行時間管理部13は、トランザクション制御部11から受け取ったトランザクション識別子及び実行時間から、対応する識別子101を捜し、あるいは、かかる識別子101の行を生成し、トランザクション実行回数102に「1」を足す。また、トランザクション実行時間合計103については、通知を受けた実行時間を足す。あるいは、トランザクション制御部11にて実行時間が算出されずに終了時刻と開始時刻の通知を受けた場合には、その差分を算出して実行時間として足す。また、トランザクション実行時間平方和104については、トランザクション実行時間の平方を算出して足す。
また、実行時間管理部13は、運用管理者から入力されるリセット操作を認識し、かかるリセット指示に応じて、管理表記億部17内のトランザクション実行時間管理表をリセットする。つまり、上述したように加算した実行時間等を消去する。なお、運用管理者からリセット操作が入力される場合とは、例えば、サーバアプリケーションが稼動する環境の明示的な変化があった場合である。このような状況下においてトランザクション実行時間管理表がリセットされることにより、トランザクション実行監視時間を新しい環境に適した値に即座に変更できる。なお、トランザクション実行時間管理表をリセットする際は、トランザクション実行時間管理表の全体をリセットしてもよいし、リセット操作時に特定のオペレーションを指定し、トランザクション実行時間管理表の指定されたオペレーションの行のみをリセットしてもよい。
監視時間決定部14(監視時間決定手段)は、上記トランザクション実行時間管理表に記憶されたデータに基づいて、トランザクション実行監視時間(監視時間)を決定し、監視部15に通知する。この監視時間の決定処理は、一定の時間間隔ごとに定期的に実行され、次の手順で決定して更新する。
まず、トランザクション実行時間管理表の各行について、オペレーション識別子101、トランザクション実行回数102、トランザクション実行時間合計103、トランザクション実行時間平方和104をそれぞれ読み出す。
続いて、下記の数17式にて、トランザクション実行時間平均値(平均値)を求める。
Figure 0004353155
続いて、下記の数18式にて、トランザクション実行時間標準偏差(標準偏差)を求める。この値は、トランザクション実行時間のばらつきを示す指標として用いられる。
Figure 0004353155
ここで、上記数17式で得られた標本トランザクション実行時間平均値は、得られた値から直接算出された値であり、長時間運用した際に得られる真のトランザクション実行時間平均値よりも大きい、もしくは小さいかもしれない。運用開始時にたまたま短い実行時間のトランザクションが連続した場合などに、標本トランザクション実行時間平均値が、長時間運用した際に得られる真のトランザクション実行時間平均値より下回る可能性がある。この場合、標本トランザクション実行時間平均値をもとに算出されたトランザクション実行監視時間を利用すると、正常なトランザクションを異常と判断し、障害復旧処理などが行われてしまう可能性が高くなる。これはユーザに大きな被害を与える。
そこで、さらに、以下に示す式数19式により、データの信頼性を挙げるための補正を行い、トランザクション実行時間平均推定値最大値として算出する。これにより、正常トランザクションを異常と誤認するという重大な障害を回避する。
Figure 0004353155
なお、統計学の見地から、トランザクション実行回数が30以上であるとき、長時間運用した場合に得られる真のトランザクション実行時間平均値は、95%の確率で以下の数20式に示す不等式を満たす。この範囲は、特定のデータ分布を仮定しない。
Figure 0004353155
つまり、長時間運用した場合に得られる真のトランザクション実行時間平均値は、97.5%の確率でトランザクション実行時間平均推定値最大値を下回ることとなる。これにより、正常トランザクションを異常トランザクションと誤認する危険が軽減される。なお、「1.96」という係数は、可変でもよい。
なお、トランザクション実行時間のばらつきが少ない場合や、十分な数のトランザクション実行時間データが収集できている場合は、このトランザクション実行時間平均推定値最大値が、標本トランザクション実行時間平均値と程近くなるので、この正常トランザクションを異常トランザクションと誤認する危険を軽減するために、トランザクション実行時間平均推定値最大値に全く不必要に大きな値が設定されてしまうということはない。以降は、この補正されたトランザクション実行時間平均推定値最大値を、トランザクション実行監視時間を算出するために使用する。
ここで、トランザクション実行回数が30を下回る場合は、誤認の危険を回避するため、トランザクション実行監視時間の自動設定を行わなくてもよい。但し、30という閾値は可変でもよい。また、トランザクション実行時間の分布が正規分布と仮定できるならば、トランザクション実行回数が30または設定した閾値を下回っても、t分布を利用することによりトランザクション実行時間平均推定値最大値を算出することもできる。しかし、トランザクション実行時間の分布が正規分布であるという仮定を行うことは非常に困難であるがゆえ、本発明では、以下に説明するように、いかなるトランザクション実行時間の分布をとるサーバアプリケーション部12であっても対応できる汎用的な装置を例示している。
そして、監視時間決定部14では、さらに、上記式で得られたトランザクション実行時間標準偏差とトランザクション実行時間平均推定値最大値を用いて、トランザクション実行監視時間を算出する。これには統計学で使用されるチェビシェフの不等式を用いる。この不等式は、特定の分布を仮定しない。具体的には以下の数21式により、トランザクション実行監視時間を算出する。
Figure 0004353155
ここで、数21式の「10」は可変でもよい。数21式より、トランザクション実行時間がどのような分布をとっても、トランザクション実行時間がトランザクション実行監視時間を上回る確率は、もっとも多く見積もっても1%にしかならないということができる。実用上は、トランザクション実行時間が、ある程度平均値の近くに偏った分布をとることが想定できるため、トランザクション実行時間がトランザクション実行監視時間を越える確率は、1%(1/10×10)よりも相当少ない。つまり、正常なトランザクションのトランザクション実行時間が、トランザクション実行監視時間を越えることは考えづらいことであり、トランザクション実行監視時間を越えても終了しないトランザクションには、なんらかの異常が発生していると見なすことができる。
監視部15(トランザクション監視手段)は、トランザクション制御部11から通知されたトランザクションの開始と終了に基づいて、各トランザクションの実行時間を監視し、トランザクション実行監視時間を超えていないか判別する。つまり、トランザクション制御部11からのトランザクション終了通知を受ける前に、トランザクション実行監視時間経過した場合は、アプリケーション制御部16に通知し、サーバアプリケーション部12の障害復旧処理を行う。トランザクション制御部11からのトランザクション開始通知からトランザクション実行監視時間経過する前に、トランザクション制御部11からのトランザクション終了通知を受けた場合は、何もしない。
アプリケーション制御部16は、サーバアプリケーション部12の起動停止制御を行うと共に、上述したように監視部15からトランザクションの無応答障害を検出した場合に、サーバアプリケーション部12を停止して、復旧処理を行う。
ここで、上記サーバコンピュータ1は、複数台のコンピュータにて構成されていてもよい。例えば、監視時間決定部14がサーバコンピュータ1に接続された他のコンピュータにて構成され、監視時間決定装置として作動し、決定した監視時間をサーバコンピュータ1の監視部15に通知してもよい。同様に、他の各部(監視部15など)も他のコンピュータにて構成されていてもよい。
[動作]
次に、上記構成のトランザクション装置1の動作を、図3のトランザクション実行時間管理表及び図4乃至図6のシーケンス図を参照して説明する。
まず、図4に示すように、クライアント端末2から、オペレーションAAにて特定されるトランザクションがサーバコンピュータ1に要求された場合を考える(ステップS1)。トランザクション制御部11は、要求を受け付け、サーバアプリケーション部12にオペレーションAAを開始させる(ステップS2)と同時に、オペレーションAAを開始した時刻を内部で保持する。また、このとき、監視部15にオペレーションAAの開始を、開始時刻と共に伝える(ステップS3)。
続いて、サーバアプリケーション部12でオペレーションAAが実行され(ステップS4)、終了すると、トランザクション制御部11に実行結果の応答を行う(ステップS5)。そして、トランザクション制御部11は、クライアント端末2に応答を返す(ステップS6)と同時に、内部で保持していたトランザクション開始時間からオペレーションAAの終了時刻を引き、トランザクション実行時間を算出する(ステップS7)。この例では、図3に示すように、トランザクション実行時間は「20」とする。
そして、トランザクション制御部11は、終了したオペレーションのオペレーション識別子(AA)とトランザクション実行時間(20)を実行時間管理部13に伝える(ステップS8)。すると、実行時間管理部13は、管理表記憶部17内のサーバアプリケーション状態管理表の中から、通知を受けたオペレーション識別子AAと等しいオペレーション識別子AAの行を探索し、該当する行のトランザクション実行回数102に「1」を足す。また、トランザクション制御11より得られたトランザクション実行時間(20)を、トランザクション実行時間合計103に加算する。さらに、トランザクション実行時間平方和104についても、トランザクション制御部11より得られたトランザクション実行時間(20)の平方を算出して加算する。なお、サーバアプリケーション状態管理表の中から、通知を受けたオペレーション識別子と等しい行が見つからなかった場合は、空行を確保し、上記と同様の処理を行う。つまり、オペレーション識別子101に「AA」、トランザクション実行回数102に「1」、トランザクション実行時間合計103に「20」、トランザクション実行時間平方和104に「400」がそれぞれ設定され、図3に示すように記録される(ステップS9)。
また、トランザクション制御部11は、上述したクライアント端末2へのトランザクション応答の返送と同時に、監視部15にトランザクション終了の通知を行う(ステップS10)。このとき、終了時刻も通知する。
続いて、監視時間決定部14による一定時間毎の動作について、図3に示すオペレーションBBを例にとり、図5のシーケンス図を参照して説明する。まず、トランザクション実行時間管理表より、オペレーション識別子101が「BB」である行のトランザクション実行回数102、トランザクション実行時間合計103、トランザクション実行時間平方和104を読み出し、それぞれの値、「100」、「300」、「1300」を取得する(ステップS11,S12)。
そして、上述した数17式に代入し、下記の数22式のようにして、トランザクション実行時間平均値(平均値)を求める(ステップS13)。
Figure 0004353155
続いて、上述した数18式より、下記の数23式のようにして、トランザクション実行時間標準偏差(標準偏差)を求める(ステップS14)。
Figure 0004353155
次に、上述した数19式より、下記の数24式のようにして、トランザクション実行時間平均推定値最大値(平均推定値最大値)を求める(ステップS15)。
Figure 0004353155
そして、上述した数21式より、下記の数25式のようにして、トランザクション実行監視時間(監視時間)を求める(ステップS16)。
Figure 0004353155
以上により得られたトランザクション実行監視時間(23.392)を、オペレーションBBのトランザクション実行監視時間として監視部15に伝える(ステップS17)。監視部15は、メモリなどに一時的に保持し(ステップS18)、いつでもかかる監視時間を参照できるようにしておく。そして、以上説明した図5に示す処理を一定時間間隔で繰り返し、監視時間を更新する。
次に、監視部15による動作を、オペレーションBBを例に、図6を参照して説明する。まず、図4のステップ3にて説明したように、トランザクション制御部11から、オペレーションBBの開始が通知されると(ステップS21)、監視部15ではタイマをセットする(ステップS22)。このとき、監視部15は、監視時間決定部14より取得したトランザクション実行監視時間(23.392)を保持しているため、トランザクション制御部11からのオペレーションBBの開始通知から23.392(秒)を経過するまでにトランザクション終了通知があるかどうかを監視する(ステップS24)。
そして、監視時間経過前にトランザクション制御部11からオペレーションBBの終了の通知を受けなかった場合(ステップS24にて否定判断後、ステップS25にて肯定判断)、オペレーションBBに該当するサーバアプリケーション部12に障害が発生していると判断し、障害発生をアプリケーション制御部16に通知する(ステップS26)。この通知を受けたアプリケーション制御部16は、サーバアプリケーション部12の動作を停止して、障害復旧処理を実行する(ステップS27)。
一方、トランザクション制御部11からのオペレーションBBの開始通知から23.392(秒)経過する前に、図4のステップS10にて説明したようにトランザクション制御部11からオペレーションBBの終了通知を受け取った場合は(ステップS24にて肯定判断)、このトランザクションを正常処理と判断し、監視部15ではなんら処理を行わない。
このようにすることにより、本発明では、オペレーションの実行時間のばらつきを考慮した値がトランザクション実行監視時間として自動的に設定されると共に、このとき、実際に取得したトランザクション実行時間データの信頼性が低い場合であっても、その信頼性が高くなるよう補正される。従って、適切な値がトランザクション実行監視時間に設定され、小さすぎる値を設定して正常なトランザクションを異常と判断する危険が少なく、また、大きすぎる値を設定して異常なトランザクションを不必要に放置する危険が少ない、という効果を有する。
また、本発明では、自動的に採取した情報をもとにトランザクション実行監視時間を自動的に設定するため、システムの運用管理者は、トランザクション実行監視時間を設定するための負担がなくなる。
また、本発明では、トランザクション実行監視時間を決定する際に、本発明の機能により蓄積されたトランザクション実行時間データを用いているため、時が経過するにつれて、より適切な値へと自動的に変化する学習効果を有する。
また、本発明では、環境の変化に対応することが可能である。つまり、突発的な変化に対して、蓄積しているデータをリセットする機能を有している。
さらに、本発明では、特定のトランザクション実行時間分布を仮定していないため、いかなるオペレーションにも対応することができ、汎用性を有する。
本発明であるトランザクション装置は、あらゆるトランザクションを実行するコンピュータに実装することが可能であり、産業上の利用可能性を有する。
本発明の全体構成を示すブロック図である。 トランザクション装置であるサーバコンピュータの構成を示す機能ブロック図である。 実行時間管理表の一例を示す図である。 サーバコンピュータの動作を示すシーケンス図である。 サーバコンピュータの動作を示すシーケンス図である。 サーバコンピュータの動作を示すシーケンス図である。
符号の説明
1 サーバコンピュータ(トランザクション装置)
2 クライアント端末
11 トランザクション制御部(トランザクション制御手段)
12 サーバアプリケーション部
13 実行時間管理部(実行時間管理手段)
14 監視時間決定部(監視時間決定手段)
15 監視部(トランザクション監視手段)
16 アプリケーション制御部
17 管理表記憶部(実行時間管理手段)

Claims (10)

  1. トランザクション要求を受け付けてトランザクションを実行するトランザクション装置であって、
    トランザクションの実行を制御すると共に少なくともその実行時間を算出する情報を含む制御情報を出力するトランザクション制御手段と、このトランザクション制御手段から前記制御情報を取得してトランザクションの実行時間及び実行回数を記憶保持する実行時間管理手段と、この記憶されたトランザクションの実行時間及び実行回数からトランザクション装置の異常を検出する基準となる監視時間を決定する監視時間決定手段と、前記トランザクション制御手段から前記制御情報を取得してトランザクションの実行が前記決定された監視時間を超えても終了しない場合にトランザクション装置が異常であると判断するトランザクション監視手段と、を備え、
    前記監視時間決定手段が、前記トランザクションの実行時間の平均値と標準偏差とを算出し、この平均値に前記標準偏差に基づく補正値を加算した平均推定値最大値に基づいて前記監視時間を決定すると共に、前記標準偏差を前記実行回数に基づく値にて除算した値を前記補正値として用いる、
    ことを特徴とするトランザクション装置。
  2. 前記監視時間決定手段は、前記平均推定値最大値に前記標準偏差に基づく値を加算していて前記監視時間を決定する、ことを特徴とする請求項記載のトランザクション装置。
  3. 前記監視時間決定手段は、
    Figure 0004353155
    上記数2式にて前記監視時間を決定する、ことを特徴とする請求項記載のトランザクション装置。
  4. 前記実行時間管理手段は、管理者から入力されるリセット操作に基づいて記憶保持されている実行時間及び実行回数を消去する、ことを特徴とする請求項1,2又は3記載のトランザクション装置。
  5. トランザクション要求を受け付けてトランザクションを実行するトランザクション装置にてトランザクションの実行時間と比較され、当該実行時間が超えた場合にトランザクション装置が異常であると判断する基準となる監視時間を決定する監視時間決定装置であって、
    少なくともトランザクションの実行時間及び実行回数を記憶保持する実行時間管理手段から当該実行時間及び実行回数を読み出して、この実行時間及び実行回数に基づいて前記トランザクションの実行時間の平均値と標準偏差とを算出し、この平均値に前記標準偏差に基づく補正値を加算した平均推定値最大値に基づいて前記監視時間を決定すると共に、前記標準偏差を前記実行回数に基づく値にて除算した値を前記補正値として用いる、
    ことを特徴とする監視時間決定装置。
  6. Figure 0004353155
    上記数4式にて前記監視時間を決定する、ことを特徴とする請求項記載の監視時間決定装置。
  7. トランザクション要求を受け付けてトランザクションを実行するトランザクション装置にてトランザクションの実行時間と比較され、当該実行時間が超えた場合にトランザクション装置が異常であると判断する基準となる監視時間を、コンピュータを用いて算出する監視時間決定方法であって、
    コンピュータが、少なくともトランザクションの実行時間及び実行回数を記憶保持する実行時間管理手段から当該実行時間及び実行回数を読み出して、この実行時間及び実行回数に基づいて前記トランザクションの実行時間の平均値と標準偏差とを算出し、この平均値に前記標準偏差に基づく補正値を加算した平均推定値最大値に基づいて前記監視時間を決定すると共に、前記標準偏差を前記実行回数に基づく値にて除算した値を前記補正値として用いる、
    ことを特徴とする監視時間決定方法。
  8. Figure 0004353155
    前記コンピュータが、上記数6式にて前記監視時間を決定する、ことを特徴とする請求項記載の監視時間決定方法。
  9. トランザクション要求を受け付けてトランザクションを実行するトランザクション装置に、
    トランザクションの実行を制御すると共に少なくともその実行時間を算出する情報を含む制御情報を出力するトランザクション制御手段と、このトランザクション制御手段から前記制御情報を取得してトランザクションの実行時間及び実行回数を記憶保持する実行時間管理手段と、この記憶されたトランザクションの実行時間及び実行回数からトランザクション装置の異常を検出する基準となる監視時間を決定する監視時間決定手段と、前記トランザクション制御手段から前記制御情報を取得してトランザクションの実行が前記決定された監視時間を超えても終了しない場合にトランザクション装置が異常であると判断するトランザクション監視手段と、を実現するためのプログラムであり、
    前記監視時間決定手段が、前記トランザクションの実行時間の平均値と標準偏差とを算出し、この平均値に前記標準偏差に基づく補正値を加算した平均推定値最大値に基づいて前記監視時間を決定すると共に、前記標準偏差を前記実行回数に基づく値にて除算した値を前記補正値として用いる、
    ことを特徴とするプログラム。
  10. 前記監視時間決定手段は、
    Figure 0004353155
    上記数8式にて前記監視時間を決定する、ことを特徴とする請求項記載のプログラム。
JP2005232875A 2005-08-11 2005-08-11 トランザクション装置、監視時間決定装置及び方法、プログラム Expired - Fee Related JP4353155B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005232875A JP4353155B2 (ja) 2005-08-11 2005-08-11 トランザクション装置、監視時間決定装置及び方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005232875A JP4353155B2 (ja) 2005-08-11 2005-08-11 トランザクション装置、監視時間決定装置及び方法、プログラム

Publications (2)

Publication Number Publication Date
JP2007048110A JP2007048110A (ja) 2007-02-22
JP4353155B2 true JP4353155B2 (ja) 2009-10-28

Family

ID=37850874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005232875A Expired - Fee Related JP4353155B2 (ja) 2005-08-11 2005-08-11 トランザクション装置、監視時間決定装置及び方法、プログラム

Country Status (1)

Country Link
JP (1) JP4353155B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6959287B2 (ja) * 2019-04-01 2021-11-02 ファナック株式会社 監視装置、監視システムおよび監視方法

Also Published As

Publication number Publication date
JP2007048110A (ja) 2007-02-22

Similar Documents

Publication Publication Date Title
US7698418B2 (en) Monitoring system
US10558544B2 (en) Multiple modeling paradigm for predictive analytics
JP4573179B2 (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
US20090024356A1 (en) Determination of root cause(s) of symptoms using stochastic gradient descent
JP5277667B2 (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP4449929B2 (ja) トランザクション装置、遅延障害検出装置及び方法、並びにプログラム
CN110380982B (zh) 一种流量控制方法及相关装置
CN107218702B (zh) 空调器及空调器频率调节方法和计算机可读存储介质
JP6752739B2 (ja) 保守装置、提示システム及びプログラム
US10842041B2 (en) Method for remotely clearing abnormal status of racks applied in data center
JP4353155B2 (ja) トランザクション装置、監視時間決定装置及び方法、プログラム
US20110173233A1 (en) Database system and database control method
JP2004005305A (ja) メモリ使用容量の監視方法及び計算機システム
JP7059859B2 (ja) 制御方法、制御装置および制御プログラム
CN109933487B (zh) 智能机器人的监测方法和装置
CN107957935B (zh) 设备的控制方法和装置、计算机可读存储介质
US20190068471A1 (en) Dynamic asynchronous communication management
US10050772B2 (en) Method and apparatus for generating standard pattern for data signals
JP2008171104A (ja) 業務サービスとシステム性能を監視対象とする監視装置、監視システム、監視方法および監視プログラム
JP2005293164A (ja) タスク監視方式
CN112506689B (zh) 一种异构柜台系统风险监控方法、装置、设备及介质
WO2022180671A1 (ja) 遠隔監視システム
CN111355624B (zh) 一种自适应的设备性能采集方法及装置
JP7433173B2 (ja) 監視制御システム
WO2019159966A1 (ja) 監視装置および監視方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090707

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090720

R150 Certificate of patent or registration of utility model

Ref document number: 4353155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120807

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130807

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees