JP2014178832A - サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラム - Google Patents

サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラム Download PDF

Info

Publication number
JP2014178832A
JP2014178832A JP2013051825A JP2013051825A JP2014178832A JP 2014178832 A JP2014178832 A JP 2014178832A JP 2013051825 A JP2013051825 A JP 2013051825A JP 2013051825 A JP2013051825 A JP 2013051825A JP 2014178832 A JP2014178832 A JP 2014178832A
Authority
JP
Japan
Prior art keywords
client terminal
log
server device
failure
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013051825A
Other languages
English (en)
Inventor
Junpei Miyauchi
順平 宮内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013051825A priority Critical patent/JP2014178832A/ja
Publication of JP2014178832A publication Critical patent/JP2014178832A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】コンピュータシステムにおいて、導入コストの増加を抑制しつつ、障害検知を確実に実行し得る、サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラムを提供する。
【解決手段】サービス提供システム100は、クライアント端末10と、クライアント端末10にサービスを提供するサーバ装置20とを備えている。クライアント端末10は、サーバ装置20における障害の発生を監視し、障害が発生していると判断した場合に、サーバ装置20に対してログの採取を要求する。また、サーバ装置20は、クライアント端末10から、ログの採取が要求された場合に、ログを採取し、採取したログを格納する。
【選択図】図1

Description

本発明は、障害検知機能を備えたサービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びこれらを実現するためのプログラムに関する。
近年、企業内においては、業務アプリケーションとして、Webアプリケーションの利用が増加しており、各ユーザ(従業員等)へのサービスの提供は、Webブラウザを介して、Webサーバから行なわれている(例えば、特許文献1及び2参照)。このようなWebアプリケーションを利用する場合は、各クライアント端末に、アプリケーションプログラムを導入する必要がない。よって、クライアント端末の管理が容易になると共に、導入コストの低減が可能となる。
但し、Webアプリケーションを利用する場合は、Webサーバ及びネットワークへの負担が大きく、障害が発生し易いため、意図せずに、サービスの提供が不能になる場合がある。このため、Webアプリケーション提供するシステムにおいては、障害の検知が重要となる。
また、こういったシステムで障害が発生し、サーバ全体が停止した場合、ユーザはサービスを利用できなくなることから、ユーザのクライアント端末からの情報を用いれば、比較的早くに、システムの障害を検知することができると考えられる。更に、特定のネットワークからのアクセスでのみで発生する障害、クライアント端末での特定の操作で発生する障害等は、ユーザの操作、又はクライアント端末が接続されているネットワークに依存する。よって、このような障害の検知においては、特にクライアント端末の情報は有効と考えられる。
但し、障害の報告をユーザからの申告に任せるとすると、障害を検知することができない場合がある。また、ユーザからの申告が遅れ、それによれって、必要な情報が消滅してしまい、原因究明ができないという場合もある。
このため、上述した特許文献のうち、特許文献2は、クライアント端末によって、サービスを提供するサーバ装置からのレスポンスの遅れを検出させ、その後、検出結果を、評価装置に通知させる、システムを提案している。そして、特許文献2に開示されたシステムでは、評価装置は、クライアント端末からの通知を受けると、その内容を電子メールによって管理者の端末に通知する。また、評価装置は、サーバ装置に記憶されているリソース情報に関するログ、及び実行されたタスクに関するログを取得し、これを集積する。
特開2010−231368号公報 特開2011−197785号公報
しかしながら、特許文献2に開示されたシステムを実現しようとすると、サービスを提供するサーバ装置とは別に、評価装置を構築するためのサーバ装置を導入する必要があるため、システムの構築にかかるコストが増大してしまう。また、このコストは、監視対象となるシステムの規模が大きくなる程、更に増大してしまう。
本発明の目的の一例は、上記問題を解消し、コンピュータシステムにおいて、導入コストの増加を抑制しつつ、障害検知を確実に実行し得る、サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面におけるサービス提供システムは、クライアント端末と、前記クライアント端末にサービスを提供するサーバ装置とを備え、
前記クライアント端末は、前記サーバ装置における障害の発生を監視し、障害が発生していると判断した場合に、前記サーバ装置に対してログの採取を要求し、
前記サーバ装置は、前記クライアント端末から、前記ログの採取が要求された場合に、ログを採取し、採取したログを格納する、
ことを特徴とする。
また、上記目的を達成するため、本発明の一側面におけるクライアント端末は、サービスを提供するサーバ装置における障害の発生を監視する、監視部と、
障害が発生していると判断された場合に、前記サーバ装置に対してログの採取を要求する、ログ採取要求部とを、
備えている、ことを特徴とする。
また、上記目的を達成するため、本発明の一側面におけるサーバ装置は、クライアント端末にサービスを提供するサーバ装置であって、
前記クライアント端末が、当該サーバ装置において障害が発生していると判断し、当該サーバ装置に対してログの採取を要求した場合に、ログを採取し、採取したログを格納する、ログ記録要求受付部を備えている、
ことを特徴とする。
また、上記目的を達成するため、本発明の一側面における障害検知方法は、クライアント端末と、前記クライアント端末にサービスを提供するサーバ装置とを用いた障害検知方法であって、
(a)前記クライアント端末によって、前記サーバ装置における障害の発生を監視し、障害が発生していると判断した場合に、前記サーバ装置に対してログの採取を要求する、ステップと、
(b)前記クライアント端末から、前記ログの採取が要求された場合に、前記サーバ装置によって、ログを採取し、採取したログを格納する、ステップと、
を有することを特徴とする。
更に、上記目的を達成するため、本発明の一側面における第1のプログラムは、コンピュータに、
(a)サービスを提供するサーバ装置における障害の発生を監視する、ステップと、
(b)前記(a)のステップで障害が発生していると判断された場合に、前記サーバ装置に対してログの採取を要求する、ステップとを、
実行させることを特徴とする。
更に、上記目的を達成するため、本発明の一側面における第2のプログラムは、コンピュータによって、クライアント端末にサービスを提供するためのプログラムであって、
前記コンピュータに、
(a)前記クライアント端末が、当該サーバ装置において障害が発生していると判断し、当該サーバ装置に対してログの採取を要求した場合に、ログを採取し、採取したログを格納する、ステップを、実行させることを特徴とする。
以上のように、本発明によれば、コンピュータシステムにおいて、導入コストの増加を抑制しつつ、障害検知を確実に実行することができる。
図1は、本発明の実施における、サービス提供システムの構成を概略的に示す図である。 図2は、本発明の実施におけるサーバ装置及びクライアント端末の構成を示すブロック図である。図3は、本発明の実施の形態におけるサービス提供システムで利用される管理テーブルの一例を示す図である。 図3は、本発明の実施の形態におけるサービス提供システムで利用される管理テーブルの一例を示す図である。 図4は、本発明の実施の形態におけるクライアント端末の動作を示すフロー図である。 図5は、本発明の実施の形態におけるサービス提供システムにおいて障害が発生した場合の情報の流れを説明する図である。 図6は、本発明の実施の形態におけるWebサーバ(サーバ装置)の動作を示すフロー図である。 図7は、本発明の実施の形態におけるサーバ装置及びクライアント端末を実現するコンピュータの一例を示すブロック図である。
(発明の概要)
本発明では、サービス提供用のサーバ装置(例えば、Webサーバ)において、サーバ負荷、リクエストの不正等による障害(以下「サーバ障害」と表記する。)が発生した場合に、サービスを受ける側のクライアント端末において、そのサーバ障害が検知される。また、原因究明に必要なログは、障害発生時に動的にサーバ側に残されるので、障害の解析に利用することができる。つまり、本発明では、サーバ障害を検知するための仕組みと、検知後の動作とに特徴がある。
従来においては、サーバ障害を検知するため、サービス提供用のサーバ装置とは別に、監視用のサーバ装置を設置し、この監視用のサーバ装置によって、サービスサービス提供用のサーバ装置の死活監視を行うのが一般的である。また、監視用のサーバは、多くの場合、サーバ障害の検知後、障害の発生をシステムの管理者に通知するだけである。
これに対して、本発明では、サービス提供用のサーバ装置の死活監視を、サービスを受ける側のクライアント端末が代行する。また、クライアント端末は、サーバ障害が発生すると、サービス提供用のサーバ装置の状態を監視するため、そのパフォーマンスログ等の採取を開始させる。更に、クライアント端末は、障害の発生を、システムの管理者に通知するともできる。
このため、システムの管理者は、監視用のサーバを別途設置することなく、サーバ障害の発生を検知でき、更に、サーバの状態を調査するために有用なログを採取することもできる。このため、管理者は、容易に障害原因を究明することができようになる。また、障害発生時にログが採取されるので、通常運用時において、ログの採取のためにサービス提供用のサーバ装置に負荷がかかることはない。
また、このように、ユーザが使用するクライアント端末によって、サービス提供用のサーバ装置が監視されるので、ユーザの体感に合わせて障害を検知できるようになる。具体的には、ユーザがサービス提供用のサーバ装置の反応が遅いと感じたときに、障害が発生していると判断することができる。
このため、サービス提供用のサーバ装置の性能に関するチューニングを、ユーザの体感に合せて行なうことができるので、様々な角度から、サービス提供用のサーバ装置の性能に関する問題を検出できる。また、この結果、監視用のサーバを設置する場合と比較して、問題に対する対処の初動を早くすることが可能となる。更に、何十台、何百台というクライアント端末が、監視用の装置として機能するため、特定のサーバを監視用の装置として用いる場合と比べて、脆弱性の解消が図られる。
(実施の形態)
以下、本発明の実施の形態における、サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラムについて、図1〜図7を参照しながら説明する。
[システム構成]
最初に、本実施の形態における、サービス提供システム、サーバ装置、及びクライアント端末の構成について説明する。図1は、本発明の実施における、サービス提供システムの構成を概略的に示す図である。図1において矢印は情報の流れを示している。
図1に示すように、本実施の形態におけるサービス提供システム100は、クライアント端末10と、クライアント端末10にWebサービスを提供するサーバ装置20とを備えている。
なお、図1の例では、2台のクライアント端末10のみが図示されているが、クライアント端末10の台数は特に限定されるものではない。また、同じく図1の例では、1台のサーバ装置20のみが図示されているが、サーバ装置20の台数も特に限定されるものではない。
クライアント端末10は、監視機構を備えており、これによって、サーバ装置20における障害の発生を監視する。そして、クライアント端末10は、障害が発生していると判断した場合は、サーバ装置20に対してログの採取を要求する。サーバ装置20は、クライアント端末10から、ログの採取が要求されると、ログを採取し、採取したログを格納する。
また、クライアント端末10は、本実施の形態では、障害が発生している判断した場合は、サービス提供システム100の管理者(システム管理者)の端末(図1において図示せず)に、障害の発生を通知することができる。
このように、サービス提供システム100では、サーバ装置20とは別に用意された監視用のサーバ装置ではなく、クライアント端末10によって、サーバ装置20の障害が検知される。このため、システムの導入コストの増加を抑制しつつ、障害検知を確実に実行することができる。
続いて、図2及び図3を用いて、本実施の形態におけるサービス提供システム、サーバ装置、及びクライアント端末の構成について更に具体的に説明する。図2は、本発明の実施におけるサーバ装置及びクライアント端末の構成を示すブロック図である。図3は、本発明の実施の形態におけるサービス提供システムで利用される管理テーブルの一例を示す図である。
まず、本実施の形態では、サービス提供システム100は、Webサービスを提供するシステムであり、サーバ装置20は、Webサーバである。また、ユーザは、クライアント端末10に導入されているWebブラウザ14を介して、Webサービスの提供を受けることができる。なお、以降においては、サーバ装置20は、「Webサーバ20」と表記する。
図2に示すように、クライアント端末10は、監視機構として、監視部11と、ログ採取要求部12とを備えている。監視部11及びログ採取要求部12は、クライアント端末10に導入された監視プログラム13によって構築されている。また、クライアント端末10は、上述したように、Webブラウザ14も備えている。
監視部11は、図3に示す管理テーブルに従って、Webサーバ10にHTTP形式のリクエストを送信してから、それに対応するレスポンスを受信するまでの時間が、閾値(以下「レスポンス閾値」と表記する。)を超えているかどうかを判定する。
例えば、レスポンス閾値が2分に設定されている場合は、Webサーバ20からクライアント端末10へのレスポンスが2分を超えた場合、監視部11はサーバ障害が発生したと判断する。
判定の結果、レスポンスを受信するまでの時間がレスポンス閾値を超えている場合は、監視部11は、障害が発生していると判断し、ログ採取要求部12にログの採取を求める旨を通知する。
図3に示すように、クライアント端末10の管理テーブル15には、監視対象となるWebサーバ20のURL(以下「監視対象URL(Uniform Resource Location)」と表記する。)と、レスポンス閾値と、ログ記録要求フラグとが登録されている。なお、図3の例では、監視対象URL及びレスポンス閾値は、Webサーバ20が提供するサービス(認証サービス、アプリケーションサービス等)毎に登録されている。
図3において、ログ記録要求フラグは、該当するWebサーバ20に対して、同一ネットワーク内のクライアント端末10から、既にログの採取が既に要求されているかどうかを示すフラグである。ログ記録要求フラグは、既に要求されている場合は「False」となり、未だ要求されていない場合は「True」となる。
また、ログ採取要求部12は、監視部11から通知を受けると、管理テーブル(図3参照)を確認し、ログ記録要求フラグがTrue及びFalseのいずれであるかを判定する。判定の結果、ログ記録要求フラグがFalseだった場合は、ログ採取要求部12は、同一ネットワーク内ですでに別のクライアント端末10がログの採取を要求している(ログ記録要求を送信済)ため、処理を中止する。
一方、判定の結果、このログ記録要求フラグがTrueだった場合は、ログ採取要求部12は、自身がWebサーバ20にログの採取を要求する旨の通知を、ネットワーク内の他のクライアント端末10にブロードキャストで送信する。これによって、同一ネットワーク内のクライアント端末10では、該当するWebサーバ20のログ記録要求フラグがTrueからFalseに書き換えられる。その後、ログ採取要求部12は、ログの採取を要求するため、Webサーバ20に、ログ記録要求を送信する。
また、図1に示すように、Webサーバ20は、レスポンス閾値管理部21と、ログ記録要求受付部22と、記憶部24と、リクエスト受付部25、Webサービス提供部26とを備えている。このうち、リクエスト受付部25は、クライアント端末10からのリクエストの受信と、それに対するレスポンスの送信とを行なっている。また、Webサービス提供部26は、リクエスト受付部25でやり取りされるリクエストとレスポンスとを利用して、Webサービスに必要なデータを提供する。
また、レスポンス閾値管理部21とログ記録要求受付部22とは、Webサーバ20に導入された常駐プログラム23によって構築されている。レスポンス閾値管理部21は、Webサーバ20からクライアント端末10へのレスポンスが遅延したときに、クライアント端末10がWebサーバ20に障害が発生していると判定する際のレスポンス閾値(数値)を設定する。
なお、図3に示すように、本実施の形態では、レスポンス閾値管理部21は、提供されるサービス毎に、レスポンス閾値を設定する。そして、レスポンス閾値管理部21は、サービス毎に、設定したレスポンス閾値と、対応するWebサーバ20のURL(監視対象URL)と、対応する操作内容とを管理テーブル27(図3参照)に登録する。
また、レスポンス閾値管理部2は、管理テーブル27に登録されている情報が変更されると、その度に、全てのクライアント端末10に対して、変更後の管理テーブル27の内容を通知する。これにより、各クライアント端末10においては、管理テーブル15が更新される。
ログ記録要求受付部3は、クライアント端末10からログ記録要求が送信されてくると、送信されてきたログ記録要求に応じて、ログを採取し、採取したログを記録部24に格納させる。また、このとき、記録部24は、採取されたログを、ログの採取を要求したクライアント端末10を識別する情報に関連付けて格納する。
このような構成により、Webサーバ20は、障害が発生していない通常時においては、ログの採取などの処理は一切行なわず、クライアント端末10の監視プログラム13からの要求を待つのみである。従って、通常時において、Webサーバ20に対して負荷がかかることはない。
一方、クライアント端末10から、ログ採取の要求を受けたときは、Webサーバ20は、ログ採取を実行する。そして、本実施の形態では、この採取されたログは、どのクライアント端末10からの要求で採取されたものであるのかが区別されている。従って、管理者は、採取されたログを解析すれば、障害が、そのクライアント端末に固有の問題であるかどうかを判断することができる。
[システム動作]
次に、本発明の実施の形態における、サービス提供システム、サーバ装置、及びクライアント端末の動作について図4〜図6を用いて説明する。以下の説明においては、適宜図1〜図3を参酌する。また、本実施の形態では、サービス提供システム100を動作させることによって、障害検知方法が実施される。よって、本実施の形態における障害検知方法の説明は、以下のサービス提供システム100の動作説明に代える。
[システム動作:クライアント端末]
最初に、クライアント端末10における動作について図4及び図5を用いて説明する。図4は、本発明の実施の形態におけるクライアント端末の動作を示すフロー図である。図5は、本発明の実施の形態におけるサービス提供システムにおいて障害が発生した場合の情報の流れを説明する図である。
図4及び図5に示すように、まず、各クライアント端末10において、監視部11は、HTTP形式のリクエストを送信する。そして、監視部11は、送信後、Webサーバ20からレスポンスを受信するまでにかかった時間を計測し、計測した時間がレスポンス閾値を超えているかどうかを判定する(ステップA1)。
具体的には、ステップA1では、監視部11は、管理テーブル(図3参照)から、アクセス先となっているURL(監視対処URL)に対応するレスポンス閾値を読み出し、読み出したレスポンス閾値に基づいて判定を実施する。
ステップA1の判定の結果、計測した時間がレスポンス閾値を超えていない場合は、監視部11は、待機状態となる。
一方、ステップA1の判定の結果、計測した時間がレスポンス閾値を超えている場合は、監視部11は、ログ採取要求部12に、ログの採取を求める旨を通知する。これにより、ログ採取要求部12は、管理テーブル(図3参照)を確認し、ログ記録要求フラグがTrueであるかどうかを判定する(ステップA2)。
ステップA2の判定の結果、ログ記録要求フラグがTrueでない場合(Falseである場合)は、ログ採取要求部12は処理を中止する。一方、ステップA2の判定の結果、ログ記録要求フラグがTrueである場合は、ログ採取要求部12は、ログ採取要求をサーバに送信する(ステップA3)。
但し、ステップA3を実行する場合は、ログ採取要求部12は、予め、自身がWebサーバ20にログの採取を要求する旨の通知を、ネットワーク内の他のクライアント端末10にブロードキャストで送信する。これにより、同一ネットワーク内のクライアント端末10では、該当する監視対象URLのログ記録要求フラグがTrueからFalseに書き換えられる。
ステップA3が実行されると、監視部11は、システム管理者の端末にメッセージを送信し、Webサーバ20に障害が発生したことを知らせる(ステップA4)。その後、システム管理者は、Webサーバ20で採取されたログを確認し、障害を解析する。
[システム動作:Webサーバ]
続いて、Webサーバ20における動作について図5及び図6を用いて説明する。図6は、本発明の実施の形態におけるWebサーバ(サーバ装置)の動作を示すフロー図である。
図5及び図6に示すように、まず、Webサーバ20において、ログ記録要求受付部22は、クライアント端末10から、新しくログ採取要求を受信しているかどうかを判定する(ステップB1)。
ステップB1の判定の結果、新しくログ採取要求を受信していない場合は、ログ記録要求受付部22は、待機状態となる。一方、ステップB1の判定の結果、新しくログ採取要求を受信している場合は、ログ記録要求受付部22は、ログの採取を開始する(ステップB2)。
次に、ログ記録要求受付部3は、記録部24に設けられたクライアント端末毎のフォルダのうち、障害を検知したクライアント端末10のフォルダの配下に、採取したログを格納する(ステップB3)。ステップB3の実行後、システム管理者は、採取されたログを確認し、障害を解析する。このとき、システム管理者は、障害を検知したクライアント端末10を特定できるので、障害が、そのクライアント端末10に固有の問題であったかどうかを解析することができる。
[実施の形態における効果]
以上のように、本実施の形態によれば、クライアント端末10によって、サーバ装置20の障害を検知できるので、システムの導入コストの増加を抑制できる。つまり、近年においては、クラウド環境の利用が増加しているため、サービスを提供するサーバ装置の数が数十台、数百台となる可能性が考えられる。このような場合において、本実施の形態におけるサービス提供システム100を適用すれば、サービスを利用するクライアント端末一台一台によってサーバ装置を監視できるため、費用の面でも、管理コストの面でも、管理者側の負担を劇的に軽減させることができる。
また、本実施の形態では、クライアント端末が受信するレスポンスの遅延に基づいて障害発生を検知できることから、エンドユーザの体感に合わせて障害をいち早く検知できる。そして、障害をいち早く検知できるので、システム管理者は、障害対策を早期に練ることができる点である。
[変形例]
上述の例では、レスポンスの遅延に基づいて障害発生の有無が判定されているが、本実施の形態では、例えば、レスポンスのステータス等を監視対象として、アプリケーションレベルの障害検知を実行することもできる。具体的には、「HTTPエラー:503サービス利用不可」というエラーが複数回続いた場合に、クライアント端末10の監視部11は、障害が発生していると判定することができる。
また、負荷分散のためにWebサーバが複数台備えられた大規模な環境の場合では、クライアント端末10の監視部11が管理している「管理テーブル(図3参照)」に、複数のWebサーバを登録することができる。この場合、監視部11は、受信までにかかった時間がレスポンス閾値を超えると、動的に別のWebサーバ10に接続先を変更することができる。この態様では、クライアント端末10は、負荷分散装置として機能するため、ロードバランサが不要となる。
また、上述の例では、クライアント端末として、パーソナルコンピュータが用いられているが、本実施の形態は、これに限定されず、クライアント端末10は、パーソナルコンピュータ以外の携帯電話、スマートフォン、タブレット型端末等であっても良い。
また、クライアント端末は、パーソナルコンピュータ以外の場合は、Webブラウザ以外のアプリケーションプログラムによってリクエストの送信と、レスポンスの受信とを行なっても良い。更に、この場合、Webサーバは、上述の図6に示すステップB3において、クライアント端末のフォルダの配下に採取したログを格納する代わりに、クライアント端末との通信に対応したサーバプロセスのログデータのみを記憶部に格納する。
更に、本実施の形態では、クライアント端末は、HTTP形式のリクエスト及びレスポンスの代わりに、Ajax(Asynchronous Java Script + XML)でやりとりされるデータに基づいて、障害が発生しているかどうかを判定することもできる。
[プログラム]
本実施の形態における第1のプログラムは、コンピュータに、図4に示すステップA1〜A4を実行させるプログラム、即ち、監視プログラム13であれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態におけるクライアント端末10を実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、監視部11、ログ採取要求部12として機能し、処理を行なう。
また、本実施の形態における第2のプログラムは、コンピュータに、図6に示すステップB1〜B3を実行させるプログラム、即ち、常駐プログラム23であれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態におけるWebサーバ20を実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、レスポンス閾値管理部11、ログ記録要求受付部22として機能し、処理を行なう。
ここで、本実施の形態における第1のプログラムを実行することによって、クライアント端末10を実現するコンピュータと、本実施の形態における第2のプログラムを実行することによって、Webサーバ20を実現するコンピュータについて図7を用いて説明する。図7は、本発明の実施の形態におけるサーバ装置及びクライアント端末を実現するコンピュータの一例を示すブロック図である。
図7に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記22)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
クライアント端末と、前記クライアント端末にサービスを提供するサーバ装置とを備え、
前記クライアント端末は、前記サーバ装置における障害の発生を監視し、障害が発生していると判断した場合に、前記サーバ装置に対してログの採取を要求し、
前記サーバ装置は、前記クライアント端末から、前記ログの採取が要求された場合に、ログを採取し、採取したログを格納する、
ことを特徴とするサービス提供システム。
(付記2)
前記クライアント端末は、前記サーバ装置にリクエストを送信してから、それに対応するレスポンスを受信するまでの時間が、閾値を超えているかどうかを判定し、判定の結果、前記時間が前記閾値を超えている場合に、障害が発生していると判断する、
付記1に記載のサービス提供システム。
(付記3)
前記クライアント端末は、障害が発生していると判断した場合に、更に、前記サービス提供システムの管理者の端末に、障害の発生を通知する、
付記1または2に記載のサービス提供システム。
(付記4)
前記クライアント端末は、当該クライアント端末以外のクライアント端末が、サーバ装置に前記ログの採取を要求していない場合に、当該クライアント端末以外のクライアント端末に対して、前記ログの採取を要求する旨を通知し、その後、前記ログの採取を要求する、
付記1〜3のいずれかに記載のサービス提供システム。
(付記5)
前記サーバ装置が、採取したログを、前記ログの採取を要求した前記クライアント端末を識別する情報に関連付けて格納する、
付記1〜4のいずれかに記載のサービス提供システム。
(付記6)
サービスを提供するサーバ装置における障害の発生を監視する、監視部と、
障害が発生していると判断された場合に、前記サーバ装置に対してログの採取を要求する、ログ採取要求部とを、
備えている、ことを特徴とするクライアント端末。
(付記7)
前記監視部は、前記サーバ装置にリクエストを送信してから、それに対応するレスポンスを受信するまでの時間が、閾値を超えているかどうかを判定し、判定の結果、前記時間が前記閾値を超えている場合に、障害が発生していると判断する、
付記6に記載のクライアント端末。
(付記8)
前記監視部は、障害が発生していると判断した場合に、更に、前記サーバ装置の管理者の端末に、障害の発生を通知する、
付記6または7に記載のクライアント端末。
(付記9)
前記ログ採取要求部は、当該クライアント端末以外のクライアント端末が、サーバ装置に前記ログの採取を要求していない場合に、当該クライアント端末以外のクライアント端末に対して、前記ログの採取を要求する旨を通知し、その後、前記ログの採取を要求する、
付記6〜8のいずれかに記載のクライアント端末。
(付記10)
クライアント端末にサービスを提供するサーバ装置であって、
前記クライアント端末が、当該サーバ装置において障害が発生していると判断し、当該サーバ装置に対してログの採取を要求した場合に、ログを採取し、採取したログを格納する、ログ記録要求受付部を備えている、
ことを特徴とするサーバ装置。
(付記11)
前記ログ記録要求受付部が、採取したログを、前記ログの採取を要求した前記クライアント端末を識別する情報に関連付けて格納する、
付記10に記載のサーバ装置。
(付記12)
クライアント端末と、前記クライアント端末にサービスを提供するサーバ装置とを用いた障害検知方法であって、
(a)前記クライアント端末によって、前記サーバ装置における障害の発生を監視し、障害が発生していると判断した場合に、前記サーバ装置に対してログの採取を要求する、ステップと、
(b)前記クライアント端末から、前記ログの採取が要求された場合に、前記サーバ装置によって、ログを採取し、採取したログを格納する、ステップと、
を有することを特徴とする障害検知方法。
(付記13)
前記(a)のステップにおいて、前記サーバ装置にリクエストを送信してから、それに対応するレスポンスを受信するまでの時間が、閾値を超えているかどうかを判定し、判定の結果、前記時間が前記閾値を超えている場合に、障害が発生していると判断する、
付記12に記載の障害検知方法。
(付記14)
(c)前記(a)のステップで、障害が発生していると判断した場合に、更に、クライアント端末によって、前記サービス提供システムの管理者の端末に、障害の発生を通知する、ステップを更に有する、付記12または13に記載の障害検知方法。
(付記15)
前記(a)のステップにおいて、当該クライアント端末以外のクライアント端末が、サーバ装置に前記ログの採取を要求していない場合に、当該クライアント端末によって、当該クライアント端末以外のクライアント端末に対して、前記ログの採取を要求する旨を通知し、その後、前記ログの採取を要求する、
付記12〜14のいずれかに記載の障害検知方法。
(付記16)
前記(b)のステップにおいて、採取したログを、前記ログの採取を要求した前記クライアント端末を識別する情報に関連付けて格納する、
付記12〜15のいずれかに記載の障害検知方法。
(付記17)
コンピュータに、
(a)サービスを提供するサーバ装置における障害の発生を監視する、ステップと、
(b)前記(a)のステップで障害が発生していると判断された場合に、前記サーバ装置に対してログの採取を要求する、ステップとを、
実行させるプログラム。
(付記18)
前記(a)のステップにおいて、前記サーバ装置にリクエストを送信してから、それに対応するレスポンスを受信するまでの時間が、閾値を超えているかどうかを判定し、判定の結果、前記時間が前記閾値を超えている場合に、障害が発生していると判断する、
付記17に記載のプログラム。
(付記19)
(c)前記(a)のステップで障害が発生していると判断した場合に、更に、前記サーバ装置の管理者の端末に、障害の発生を通知する、ステップを更に前記コンピュータに実行させる、
付記17または18に記載のプログラム。
(付記20)
前記(b)のステップにおいて、当該コンピュータ以外のクライアント端末が、サーバ装置に前記ログの採取を要求していない場合に、当該コンピュータ以外のクライアント端末に対して、前記ログの採取を要求する旨を通知し、その後、前記ログの採取を要求する、
付記17〜19のいずれかに記載のプログラム。
(付記21)
コンピュータによって、クライアント端末にサービスを提供するためのプログラムであって、
前記コンピュータに、
(a)前記クライアント端末が、当該サーバ装置において障害が発生していると判断し、当該サーバ装置に対してログの採取を要求した場合に、ログを採取し、採取したログを格納する、ステップを、実行させるプログラム。
(付記22)
(b)前記(a)のステップで採取したログを、前記ログの採取を要求した前記クライアント端末を識別する情報に関連付けて格納する、ステップを更に前記コンピュータに実行させる、付記21に記載のプログラム。
以上のように、本発明によれば、コンピュータシステムにおいて、導入コストの増加を抑制しつつ、障害検知を確実に実行することができる。本発明は、Webサービスを提供するシステムに特に有効である。
10 クライアント端末
11 監視部
12 ログ採取要求部
13 監視プログラム
14 Webブラウザ
20 Webサーバ
21 レスポンス閾値管理部
22 ログ記録要求受付部
23 常駐プログラム
24 記憶部
25 リクエスト受付部
26 Webサービス提供部
100 サービス提供システム
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (10)

  1. クライアント端末と、前記クライアント端末にサービスを提供するサーバ装置とを備え、
    前記クライアント端末は、前記サーバ装置における障害の発生を監視し、障害が発生していると判断した場合に、前記サーバ装置に対してログの採取を要求し、
    前記サーバ装置は、前記クライアント端末から、前記ログの採取が要求された場合に、ログを採取し、採取したログを格納する、
    ことを特徴とするサービス提供システム。
  2. 前記クライアント端末は、前記サーバ装置にリクエストを送信してから、それに対応するレスポンスを受信するまでの時間が、閾値を超えているかどうかを判定し、判定の結果、前記時間が前記閾値を超えている場合に、障害が発生していると判断する、
    請求項1に記載のサービス提供システム。
  3. 前記クライアント端末は、障害が発生していると判断した場合に、更に、前記サービス提供システムの管理者の端末に、障害の発生を通知する、
    請求項1または2に記載のサービス提供システム。
  4. 前記クライアント端末は、当該クライアント端末以外のクライアント端末が、サーバ装置に前記ログの採取を要求していない場合に、当該クライアント端末以外のクライアント端末に対して、前記ログの採取を要求する旨を通知し、その後、前記ログの採取を要求する、
    請求項1〜3のいずれかに記載のサービス提供システム。
  5. 前記サーバ装置が、採取したログを、前記ログの採取を要求した前記クライアント端末を識別する情報に関連付けて格納する、
    請求項1〜4のいずれかに記載のサービス提供システム。
  6. サービスを提供するサーバ装置における障害の発生を監視する、監視部と、
    障害が発生していると判断された場合に、前記サーバ装置に対してログの採取を要求する、ログ採取要求部とを、
    備えている、ことを特徴とするクライアント端末。
  7. クライアント端末にサービスを提供するサーバ装置であって、
    前記クライアント端末が、当該サーバ装置において障害が発生していると判断し、当該サーバ装置に対してログの採取を要求した場合に、ログを採取し、採取したログを格納する、ログ記録要求受付部を備えている、
    ことを特徴とするサーバ装置。
  8. クライアント端末と、前記クライアント端末にサービスを提供するサーバ装置とを用いた障害検知方法であって、
    (a)前記クライアント端末によって、前記サーバ装置における障害の発生を監視し、障害が発生していると判断した場合に、前記サーバ装置に対してログの採取を要求する、ステップと、
    (b)前記クライアント端末から、前記ログの採取が要求された場合に、前記サーバ装置によって、ログを採取し、採取したログを格納する、ステップと、
    を有することを特徴とする障害検知方法。
  9. コンピュータに、
    (a)サービスを提供するサーバ装置における障害の発生を監視する、ステップと、
    (b)前記(a)のステップで障害が発生していると判断された場合に、前記サーバ装置に対してログの採取を要求する、ステップとを、
    実行させるプログラム。
  10. コンピュータによって、クライアント端末にサービスを提供するためのプログラムであって、
    前記コンピュータに、
    (a)前記クライアント端末が、当該サーバ装置において障害が発生していると判断し、当該サーバ装置に対してログの採取を要求した場合に、ログを採取し、採取したログを格納する、ステップを、実行させるプログラム。
JP2013051825A 2013-03-14 2013-03-14 サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラム Pending JP2014178832A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013051825A JP2014178832A (ja) 2013-03-14 2013-03-14 サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013051825A JP2014178832A (ja) 2013-03-14 2013-03-14 サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2014178832A true JP2014178832A (ja) 2014-09-25

Family

ID=51698733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013051825A Pending JP2014178832A (ja) 2013-03-14 2013-03-14 サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2014178832A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016212492A (ja) * 2015-04-30 2016-12-15 セイコーエプソン株式会社 ネットワークシステム、ネットワークシステムの制御方法、及び、制御装置
JP2017004198A (ja) * 2015-06-09 2017-01-05 セイコーエプソン株式会社 ネットワークシステム、ネットワークシステムの制御方法、及び、制御装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266686A (ja) * 1993-03-11 1994-09-22 Hitachi Ltd プログラムの保守情報取得方法
JP2003296211A (ja) * 2002-04-05 2003-10-17 Nec Corp Wwwサーバ自動切替システムおよびプログラム
JP2007041147A (ja) * 2005-08-01 2007-02-15 Daiichikosho Co Ltd 通信カラオケシステム
JP2010231368A (ja) * 2009-03-26 2010-10-14 Fujitsu Ltd 監視方法及び監視プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266686A (ja) * 1993-03-11 1994-09-22 Hitachi Ltd プログラムの保守情報取得方法
JP2003296211A (ja) * 2002-04-05 2003-10-17 Nec Corp Wwwサーバ自動切替システムおよびプログラム
JP2007041147A (ja) * 2005-08-01 2007-02-15 Daiichikosho Co Ltd 通信カラオケシステム
JP2010231368A (ja) * 2009-03-26 2010-10-14 Fujitsu Ltd 監視方法及び監視プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016212492A (ja) * 2015-04-30 2016-12-15 セイコーエプソン株式会社 ネットワークシステム、ネットワークシステムの制御方法、及び、制御装置
JP2017004198A (ja) * 2015-06-09 2017-01-05 セイコーエプソン株式会社 ネットワークシステム、ネットワークシステムの制御方法、及び、制御装置

Similar Documents

Publication Publication Date Title
US10671721B1 (en) Timeout management services
US9367379B1 (en) Automated self-healing computer system
KR101979363B1 (ko) 애플리케이션 토폴로지 관계의 발견 방법, 장치, 및 시스템
US10785255B1 (en) Cluster configuration within a scalable malware detection system
US11770439B2 (en) Web server request identification
JP6160064B2 (ja) 適用判定プログラム、障害検出装置および適用判定方法
US10936386B2 (en) Method, device and computer program product for monitoring access request
JP2012027774A (ja) 処理装置,処理方法,処理用プログラム,同プログラムを記録したコンピュータ読取可能な記録媒体
US9652357B2 (en) Analyzing physical machine impact on business transaction performance
US20130086194A1 (en) Service outage details in an error message
CA3118098A1 (en) Alerting, diagnosing, and transmitting computer issues to a technical resource in response to a dedicated physical button or trigger
WO2014058439A1 (en) Error-capturing service replacement in datacenter environment for simplified application restructuring
JP2011197785A (ja) ログ収集システムおよびログ収集プログラム
CN110896362B (zh) 一种故障检测方法和装置
JP5208324B1 (ja) 情報システム管理装置及び情報システム管理方法及びプログラム
JP2011113122A (ja) 障害影響分析装置及び業務システム及び障害影響分析方法
US10599505B1 (en) Event handling system with escalation suppression
JP2014178832A (ja) サービス提供システム、サーバ装置、クライアント端末、障害検知方法、及びプログラム
JP2020038506A (ja) 情報処理システム、情報処理方法、及び、プログラム
KR101414994B1 (ko) 관제 대상 서버의 자원 및 웹서비스 모니터링 서버 및 그 방법
US9384074B1 (en) Redirecting service calls using endpoint overrides
US11818028B2 (en) Network diagnostic sampling in a distributed computing environment
US20230097020A1 (en) Network safety rules in a distributed computing environment
JP5467936B2 (ja) 分散・並列処理システムの障害監視装置と方法およびプログラム
US10296967B1 (en) System, method, and computer program for aggregating fallouts in an ordering system

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20150123

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171128