JP2016157358A - Drサイト切替先選定装置および方法 - Google Patents

Drサイト切替先選定装置および方法 Download PDF

Info

Publication number
JP2016157358A
JP2016157358A JP2015036032A JP2015036032A JP2016157358A JP 2016157358 A JP2016157358 A JP 2016157358A JP 2015036032 A JP2015036032 A JP 2015036032A JP 2015036032 A JP2015036032 A JP 2015036032A JP 2016157358 A JP2016157358 A JP 2016157358A
Authority
JP
Japan
Prior art keywords
site
disaster
failure
load
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015036032A
Other languages
English (en)
Inventor
玲 町野
Rei Machino
玲 町野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2015036032A priority Critical patent/JP2016157358A/ja
Publication of JP2016157358A publication Critical patent/JP2016157358A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】DRサイトを選定する上で災害や障害時におけるDRシステムのサーバやストレージ、ネットワークのリソースの変化は激しく、特に災害や障害時には多くの企業が特定のDRサイトへ集中してアクセスすることが想定されるため、災害や障害時にリソース状況を見て切替先を選択しても、切替が同じタイミングに集中してしまうと、切り替えてすぐに、処理が重くなってしまうケースが考えられる。【解決手段】上記課題を解決する為に、災害や障害が発生した際に、システムを切り替えた場合に他のシステムの切替が集中しないDRサイトを、システムの切替先として特定する切替先選定処理部を有する。【選択図】 図1

Description

本発明は、メインサイトを切り替えるDRサイトの選択技術に関する。
これまでのDRサイトは、本番稼働しているシステムの拠点であるメインサイトと同じ構成のシステムをDRシステムとして遠隔地に1拠点用意し、災害や障害時に準備していたDRサイトのDRシステムへ切替を行っていた。具体的には、東日本をメインサイトとしてシステムを設け、災害や障害が発生した場合はDRサイトとして準備していた西日本のDRシステムにメインサイトのシステムの切替を行うといったことが一般的である。
しかし、安価にサーバやストレージのサービスを提供する海外のクラウドベンダーの出現や、東日本大震災の影響により企業はDRサイトを国内だけでなく海外にも準備をするようになってきた。具体的には、従来のDRサイトに加え、基幹系システムや分析系システム等の切替対象となるシステム別に広範囲に複数のDRサイトを準備するといったことである。
複数のDRサイトから切替対象のDRサイトを選択する技術として、特許文献1のように、災害や障害が発生した際に事前に定義していた切替のためのシステム情報を元に各DRサイトに用意しているDRシステムのサーバやストレージ、ネットワークのリソース状況を確認してから切替先を選択する旨開示されている。
特開2009−134687号公報
DRサイトを選定する上で災害や障害時におけるDRシステムのサーバやストレージ、ネットワークのリソースの変化は激しく、特に災害や障害時には多くの企業が特定のDRサイトへ集中してアクセスすることが想定されるため、災害や障害時にリソース状況を見て切替先を選択しても、切替が同じタイミングに集中してしまうと、切り替えてすぐに、処理が重くなってしまうケースが考えられる。特許文献1ではこのような状況が考慮されていない。
上記課題を解決するために、災害や障害が発生した際に、システムを切り替えた場合に他のシステムの切替が集中しないDRサイトを、システムの切替先として特定する切替先選定処理部を有することを特徴とする。
本発明によって、より効率的なDRサイトを選択することができる。
DRシステムへの切替先を決定するシステム全体の構成図の例である。 DRシステムへ負荷を与える際のシナリオを管理するサーバの例である。 DRシステムへ負荷を与え、その時のDRシステムのリソース情報を管理するサーバの例である。 平常稼働時と災害や障害時のリソース情報のマッチングによってシステムの切替先を選定するサーバの例である。 平常時実行処理部および災害/障害時実行処理部によって出された負荷に応答し、その時のDRシステムのリソース情報を管理するサーバの例である。 メインサイトで稼働しているシステムのログ情報のデータ例を示す図である。 メインサイトで稼働しているシステムのログ情報から、稼働システムのCPU使用率が最高値であった時間帯のログを抽出したデータ例を示す図である。 平常稼働時にDRシステムへ負荷を与えた際のリソース情報のデータ例を示す図である。 災害や障害時にDRシステムへ負荷を与えた際のリソース情報のデータ例を示す図である。 DRシステムに負荷を与えた際の各DRサイトにおけるDRシステムのリソース情報のデータ例を示す図である。 平常稼働時および災害や障害時にDRシステムに負荷を与えた際に得られたリソース情報の変動の許容範囲を定義したデータ例を示す図である。 平常稼働時および災害や障害時にDRシステムに負荷を与えた際に得られたリソース情報とリソースの変動の許容範囲を元にマッチングをしたデータ例を示す図である。 マッチング処理部によって特定したリソースの許容範囲内の項目の総数から切替先となるDRサイトを選定するデータ例を示す図である。 DRシステムへの負荷を与える際のシナリオを作成するフローチャートの例である。 平常稼働時にDRシステムのリソース情報を収集するフローチャートの例である。 災害や障害時にDRシステムのリソース情報を収集し、平常稼働時と災害や障害時のリソース情報のマッチングによってシステムの切替先を選定するフローチャートの例である。
以下、実施例について図面を用いて説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。
図1は、メインサイトで稼働しているシステムを複数のDRサイトの中から災害や障害時の切替先を決定するためのシステム全体の構成図の例である。図1の構成では、複数のDRサイトの中から災害や障害を想定した負荷を与えるシミュレーションを行った上でメインサイトのシステムの切替先となるDRシステムを選定するために、「シミュレーションのシナリオ作成」「平常稼働時のシミュレーション」「災害や障害時のシミュレーションおよびDRサイトの選定」を考慮した構成になっている。
複数のDRサイトの中から災害や障害を想定したシミュレーションを行った上でメインサイトのシステムの切替先となるDRシステムを選定する図1の構成について、各構成部分のサーバやデータベースを図2〜図5を用いて説明する。本実施例では、複数のサーバでの構成としたが、これに限定されるものではなく、各サーバの処理部やデータベースをひとつのサーバ内で持つこととしてもよい。各処理部やデータベースをひとつにまとめた場合、サーバがDRサイト切替先選定装置となる。
また、本発明に関する具体的なデータ項目について、図6〜図13を用いて説明する。さらに、「シミュレーションのシナリオ作成」におけるフローを図14で、「平常稼働時のシミュレーション」におけるフローを図15で、「災害や障害時のシミュレーションおよびDRサイトの選定」におけるフローを図16で説明する。
災害や障害時にはDRシステムのサーバやストレージ、ネットワークのリソースの空き状況を確認する必要があるが、災害や障害時だけの確認では、災害や障害によってDRシステムへのアクセスが集中しているのか判断することができないため、システムの切替後にサーバやストレージ、ネットワークのリソース不足に伴うシステムダウン等の障害が発生することが想定される。
そこで本発明は、災害や障害時のDRシステムのリソース状況を確認するだけでなく、平常稼働時においてもDRシステムのサーバやストレージ、ネットワークのリソース状況を確認することで災害や障害によってDRシステムへのアクセスが集中しているのか判断した上でDRサイトを選定し、システムの切替後も安定稼働を実現する。特に、メインサイトのシステムの稼働状況を元に複数のDRサイトへ負荷を与えるシナリオを作成し、作成したシナリオを平常稼働時と災害や障害時に実装することで、両者を実装した際のDRシステムのサーバやストレージ、ネットワークのリソース状況において、想定負荷の差の小さいDRサイトを選定し、切替先を決定する。
図1において、ユーザ端末101は本発明を利用するユーザが操作するシステムである。メインサイト102は本番稼働しているシステムの拠点である。基幹システム103および分析系システム104はメインサイト102で本番稼働しているシステムの例である。監視システム105はメインサイト102で稼働しているシステムのログ情報を元に複数のDRサイト115のDRシステム116へシミュレーションを行うシナリオの作成、およびシナリオの実装と、DRシステム116のリソース情報の収集と、平常稼働時および災害や障害時におけるリソース情報のマッチングと、マッチング結果に基づくDRサイト115の選定を実施するシステムの例である。挙動定義サーバ106はメインサイト102で稼働しているシステムのログ情報を収集するログ収集処理部107と、ログ情報を元に複数のDRサイト115のDRシステム116へシミュレーションを行うシナリオの作成を行うログ分析処理部108を持つサーバの例である。挙動実行サーバ109はログ分析処理部108が作成したシナリオを元に、平常稼働時にDRサイト115のDRシステム116へ負荷を与え、その時のDRシステム116のリソース情報を収集する平常時実行処理部110と、ログ分析処理部108が作成したシナリオを元に、災害や障害時にDRサイト115のDRシステム116へ負荷を与え、その時のDRシステム116のリソース情報を収集する災害/障害時実行処理部111を持つサーバの例である。切替先選定サーバ112は平常時実行処理部110および災害/障害時実行処理部111が収集したDRシステム116のリソース情報を元にマッチングを行うマッチング処理部113と、マッチング処理部113の結果から切替先となるDRサイト115を選定する切替先選定処理部114を持つサーバの例である。DRサイト115は切替対象となるDRシステム116の拠点である。監視システム105の挙動応答サーバ117は平常時実行処理部110および災害/障害時実行処理部111の負荷を受けてDRシステム116へ負荷を与えた際のリソース情報を収集する応答処理部118と、その時のリソース情報をメインサイト102へ送付する負荷情報処理部119を持つサーバの例である
図2は、DRシステム116へ負荷を与える際のシナリオを管理するサーバの例である。ログ収集処理部107がメインサイト102で稼働しているシステム別にログ情報を収集しログ収集管理DB201へログ情報を格納する。その後、ログ分析処理部108がログ収集日においてメインサイト102で稼働しているシステム別にCPU使用率が最高値になる時間帯を特定し、その時間帯のログをログ収集管理DB201から抽出し、ログ分析管理DB202へ格納する。
図3は、DRシステム116へ負荷を与え、その時のDRシステム116のリソース情報を管理するサーバの例である。平常稼働時に平常時実行処理部110がログ分析管理DB202に格納しているログ情報を元にその場合実行されていたジョブを各DRサイト115へ再現し、DRシステム116へ負荷を与える。さらに、メインサイト102へ送付されたリソース情報を平常時実行処理部110が受け取り、平常時情報管理DB301に格納する。ここで、ログ情報をもとに負荷を与えているが、これに限定されるものではなく、メインサイト102を各DRサイト115へ移行した場合の負荷を再現できるものならばこれに限定されない。
また、災害や障害時に災害/障害時実行処理部111がログ分析管理DB202に格納しているログ情報を元にその場合実行されていたジョブを各DRサイト115へ再現し、DRシステム116へ負荷を与える。さらに、メインサイト102へ送付されたリソース情報を災害/障害時実行処理部111が受け取り、災害/障害時情報管理DB302に格納する。平常時実行処理部110とは、平常時にDRサイト115へ移行した場合の負荷を見るもので、災害/障害時実行処理部111は、災害や障害時にDRサイト115へ移行した場合の負荷を見るものである。
図4は、平常稼働時と災害や障害時のリソース情報のマッチングによってシステムの切替先を選定するサーバの例である。平常時実行処理部110および災害/障害時実行処理部111によって格納された各DRサイト115のDRシステム116のリソース情報を用いて、マッチング処理部113がリソースの変動の許容範囲が定義されているポリシー管理DB402を元にマッチングを行い、マッチング結果をマッチング結果管理DB401へ格納する。切替先選定処理部114がマッチング結果管理DB401に格納している内容において、各データ項目のマッチング数が多いDRサイト115を選定し、切替先となるDRサイト115として決定する。
図5は、平常時実行処理部110および災害/障害時実行処理部111によって出された負荷に応答し、その時のDRシステム116のリソース情報を管理するサーバの例である。各DRサイト115の応答処理部118が平常時実行処理部110および災害/障害時実行処理部111によって出された負荷に応答し、DRシステム116へ負荷を与え、その時のDRシステム116のリソース情報を応答情報管理DB501へ格納する。負荷情報処理部119が応答情報管理DB501に格納しているリソース情報をメインサイト102へ送付する。
図6〜図13では本発明に関する具体的なデータ項目について説明する。図6〜図7ではDRサイト115のDRシステム116へ負荷を与える際のシナリオ作成の流れについて説明する。図8〜図10では作成したシナリオに沿って平常稼働時および災害や障害時にDRシステム116へ負荷を与えた際に得るリソース情報取得の流れについて説明する。図11〜図13では平常稼働時および災害や障害時に取得したDRシステム116のリソース情報を元にDRシステム116への切替が集中していないDRサイト115の選定の流れについて説明する。
図6は、メインサイト102で稼働しているシステムのログ情報のログ収集管理DB201のデータ例を示す図である。対象システム601はメインサイト102で稼働しているシステムを表す。日時602は対象システム601でのログの日時、ユーザID603は管理しているユーザのID、イベント内容604はユーザID603が実行しているイベントの内容を表している。
本実施例ではログ収集の対象システムとして分析系システム104を考える。そのため、ログ収集処理部107は分析系システム104のログを毎日0:00に収集し、ログ収集管理DB201へ格納する。格納されたログ内容については、対象システム601は分析系システム104、日時602は分析系システム104のログ日時、ユーザID603は分析系システム104において管理しているユーザのID、イベント内容604は分析系システム104において管理しているユーザID603が実行しているイベントになる。
なお、図6のデータ項目およびログを収集する時間帯については一例であり、本発明の条件をすべて満たすとは限らない。
図7は、メインサイト102で稼働しているシステムのログ情報から、稼働システムのCPU使用率が高い時間帯のログを抽出したログ分析管理DB202のデータ例を示す図である。対象システム701はメインサイト102で稼働しているシステムを表す。日時702は対象システム701でのログの日時、ユーザID703は管理しているユーザのID、イベント内容704はユーザID703が実行しているイベントの内容を表している。
本実施例ではログ収集の対象システムとして分析系システム104を考えている。ログ分析処理部108は30分間隔におけるCPU使用率が高い時間帯のログをログ収集管理DB201から抽出し、ログ分析管理DB202へ格納する。格納されたログ内容については、対象システム701は分析系システム104、日時702は分析系システム104のログ日時、ユーザID703は分析系システム104において管理しているユーザのID、イベント内容704は分析系システム104において管理しているユーザID603が実行しているイベントになる。CPU使用率が高いとは一定の閾値以上になるかどうかで判定するように制御してもよい。また、ここではCPU使用率としているがこれに限定されるものではなく、リソースの値であればメモリやディスク容量であってもよいし、その複合でもよい。なお、図7のデータ項目およびCPU使用率を確認する時間の間隔については一例であり、本発明の条件をすべて満たすとは限らない。
図8は、平常稼働時にDRシステム116へ負荷を与えた際のリソース情報の平常時情報管理DB301のデータ例を示す図である。DRサイト801は負荷を与える複数のDRサイト115、チェック日時802はDRサイト115のDRシステム116へ負荷を与えた際の日時、レスポンスタイム803はメインサイト102からDRサイト115を経由してメインサイト102へリクエストが返ってくる時間を表す。またDRシステム116のリソース情報として帯域幅804、CPU使用率805、メモリ使用可能806、ディスク使用率807を想定する。
本実施例では、DRサイト115のDRシステム116へ負荷を与えるシステムの対象として分析系システム104を考えている。平常時実行処理部110は平常稼働時にログ分析管理DB202に格納されている分析系システム104におけるログ情報を元に、その場合実行されていたジョブを各DRサイト115へ再現し、DRシステム116へ負荷を与え、各DRサイト115別にリソース情報を平常時情報管理DB301に格納する。なお、図8のデータ項目は一例であり、本発明の条件をすべて満たすとは限らない。
図9は、災害や障害時にDRシステム116へ負荷を与えた際のリソース情報の災害/障害時情報管理DB302のデータ例を示す図である。DRサイト901は負荷を与える複数のDRサイト115、チェック日時902はDRサイト115のDRシステム116へ負荷を与えた際の日時、レスポンスタイム903はメインサイト102からDRサイト115を経由してメインサイト102へリクエストが返ってくる時間を表す。またDRシステム116のリソース情報として帯域幅904、CPU使用率905、メモリ使用可能906、ディスク使用率907を想定する。
本実施例では、DRサイト115のDRシステム116へ負荷を与えるシステムの対象として分析系システム104を考えている。災害/障害時実行処理部111は災害や障害時にログ分析管理DB202に格納されている分析系システム104におけるログ情報を元に、その場合実行されていたジョブを各DRサイト115へ再現し、DRシステム116へ負荷を与え、各DRサイト115別にリソース情報を災害/障害時情報管理DB302に格納する。なお、図9のデータ項目は一例であり、本発明の条件をすべて満たすとは限らない。
図10は、DRシステム116に負荷を与えた際の各DRサイト115におけるDRシステム116のリソース情報の応答情報管理DB501のデータ例を示す図である。チェック日時1001はDRサイト115のDRシステム116へ負荷を与えた際の日時、レスポンスタイム1002はメインサイト102からDRサイト115を経由してメインサイト102へリクエストが返ってくる時間を表す。またDRシステム116のリソース情報として帯域幅1003、CPU使用率1004、メモリ使用可能1005、ディスク使用率1006を想定する。
本実施例では、DRサイト115のDRシステム116へ負荷を与えるシステムの対象として分析系システム104を考えている。各DRサイト115の応答処理部118が平常時実行処理部110および災害/障害時実行処理部111によって出された負荷に応答し、DRシステム116へ負荷を与え、その時のDRシステム116のリソース情報を応答情報管理DB501へ格納する。なお、図10のデータ項目は一例であり、本発明の条件をすべて満たすとは限らない。
図11は、平常稼働時および災害や障害時にDRシステム116に負荷を与えた際に得られたリソース情報の変動の許容範囲を定義したポリシー管理DB402のデータ例を示す図である。対象システム1101はメインサイト102で稼働するシステム、レスポンスタイム1102はメインサイト102からDRサイト115を経由してメインサイト102へリクエストが返ってくる時間を表す。またDRシステム116のリソース情報として帯域幅1103、CPU使用率1104、メモリ使用可能1105、ディスク使用率1106を想定する。
本実施例では、システム切替の対象となるシステムとして分析系システム104を考えている。よって、リソース情報の変動の許容範囲は対象システム1101の分析系システム104を参照することになる。なお、図11のデータ項目は一例であり、本発明の条件をすべて満たすとは限らない。
図12は、平常稼働時および災害や障害時にDRシステム116に負荷を与えた際に得られたリソース情報とリソースの変動の許容範囲を元にマッチングをしたマッチング結果管理DB401のデータ例を示す図である。DRサイト1201は負荷を与える複数のDRサイト115、チェック日時1202はマッチングを行った際の日時、レスポンスタイム1203はメインサイト102からDRサイト115を経由してメインサイト102へリクエストが返ってくる時間を表す。またDRシステム116のリソース情報として帯域幅1204、CPU使用率1205、メモリ使用可能1206、ディスク使用率1207を想定する。
本実施例では、システム切替の対象となるシステムとして分析系システム104を考えている。マッチング処理部113は平常時情報管理DB301および災害/障害時情報管理DB302を元に各データ項目の差がポリシー管理DB402に定義された値を満たす場合のマッチング結果を「はい」、満たさない場合のマッチング結果を「いいえ」として検査を行い、そのマッチング結果をマッチング結果管理DB401へ格納する。
本検査方法を用いることで、災害や障害時のリソース情報を確認しただけでは予測できなかったリソースの変動を確認できるようになるため、システムの切替後も安定稼働が実現できると考える。
具体的には災害や障害時に取得したリソース情報である図9を確認すると、DRサイトAにおけるCPU使用率905は50%、DRサイトCにおけるCPU使用率905は60%であるため、システムの切替先としてDRサイトAが適切だと考えることができる。しかし、平常稼働時のリソース情報である図8も同時に確認すると、DRサイトAにおけるCPU使用率805は20%、DRサイトCにおけるCPU使用率805は50%であり、その差分はDRサイトAでは30%、DRサイトCでは10%であることから、DRサイトAへアクセスが集中していることが分かる。よって、リソースの変動が小さいDRサイトCへシステムの切替を行う方が、システム切替後も安定稼働が可能だと判断する。
本実施例では更にポリシー管理DB402とマッチングして、その差が条件を満たしているかどうかを判定して、DRサイト115へ切替可能かどうかを判定しているが、これに限定されるものでなく、マッチング処理をすることなしに平常時と災害や障害時の負荷の差が小さいところへ切替するよう制御してもよい。また、ここではCPUリソースに注目して制御しているがこれに限定されるものではなく、メモリ使用やディスク使用率等、リソースを表すものならばよい。
マッチングする際に平常時情報管理DB301および災害/障害時情報管理DB302に格納されている各データ項目の値がある一定値を超えていた場合は、システムの切替後も安定稼働ができないと判断し、システムの切替先の対象外としてマッチング結果に「NG」を入力し、そのマッチング結果をマッチング結果管理DB401へ格納する。
本実施例では、災害や障害時に取得したリソース情報である図9を確認すると、DRサイトBにおけるCPU使用率905が80%であることから、システムの切替え後も安定稼働ができないと判断し、システムの切替え先の対象外としてマッチング結果に「NG」と入力する。なお、図12のデータ項目およびマッチング結果の表示形式は一例であり、本発明の条件をすべて満たすとは限らない。
図13は、マッチング処理部によって特定したリソースの許容範囲内の項目の総数から切替先となるDRサイト115を選定する切替先選定DB403のデータ例を示す図である。対象システム1301はメインサイト102で稼働するシステム、DRサイト1302は負荷を与える複数のDRサイト115、チェック日時1303はマッチングを行った際の日時を表す。
本実施例では、システム切替の対象となるシステムとして分析系システム104を考えている。切替先選定処理部114はマッチング結果管理DB401に格納されているマッチング結果を元に、各DRサイト115の各データ項目においてマッチング結果が「はい」である数を集計し、その数が多いDRサイト115を切替先のDRサイト115として選定し、選定結果を切替先選定DB403に格納する。
具体的には、マッチング結果である図12を確認すると、DRサイトAの「はい」の数は2つ、DRサイトBの「はい」の数は1つ、DRサイトCの「はい」の数は5つである。DRサイトBにおいては「NG」のデータ項目が存在するため、切替先として除外する。以上の結果から、分析系システム104におけるシステム切替先としてDRサイトCが適切であると判断し、切替先をDRサイトCとして切替先選定DB403に格納する。なお、図13のデータ項目およびマッチング結果の表示形式は一例であり、本発明の条件をすべて満たすとは限らない。
図14〜図16では本発明に関する具体的なフローについて説明する。「シミュレーションのシナリオ作成」におけるフローを図14で、「平常稼働時のシミュレーション」におけるフローを図15で、「災害や障害時のシミュレーションおよびDRサイト115の選定」におけるフローを図16で説明する。
図14は、DRシステム116への負荷を与える際のシナリオを作成するフローチャートの例である。ログ収集処理部107がメインサイト102で稼働しているシステム別にログ情報を収集しログ収集管理DB201へログ情報を格納する。その後、ログ分析処理部108がログ収集日においてメインサイト102で稼働しているシステム別にCPU使用率が最高値になる時間帯を特定し、その時間帯のログをログ収集管理DB201から抽出し、ログ分析管理DB202へ格納する。本実施例ではCPU使用率としているがこれに限定されるものではなく、リソースの使用率を表す情報ならばなんでもよい。
具体的には、ログ収集処理部107が毎日0:00に基幹システム103および分析系システム104のログ情報を収集し、ログ収集管理DB201に格納する。その後、ログ分析処理部108がログ収集日の基幹システム103および分析系システム104におけるCPU使用率が最高値になる時間帯を30分間隔で分析し、その時間帯のログをログ収集管理DB201から抽出し、ログ分析管理DB202へ格納する。
本実施例ではログ収集の対象システムとして分析系システム104を考え、ログ収集処理部107は分析系システム104のログを毎日0:00に収集し、ログ収集管理DB201へ格納する。格納されたログ内容については、対象システム601は分析系システム104、日時602は分析系システム104のログ日時、ユーザID603は分析系システム104において管理しているユーザのID、イベント内容604は分析系システム104において管理しているユーザID603が実行しているイベントになる。
ログ分析処理部108は30分間隔におけるCPU使用率が最高値であった時間帯のログをログ収集管理DB201から抽出し、ログ分析管理DB202へ格納する。格納されたログ内容については、対象システム701は分析系システム104、日時702は分析系システム104のログ日時、ユーザID703は分析系システム104において管理しているユーザのID、イベント内容704は分析系システム104において管理しているユーザID603が実行しているイベントになる。
図15は、平常稼働時にDRシステム116のリソース情報を収集するフローチャートの例である。平常稼働時に平常時実行処理部110がログ分析管理DB202に格納しているログ情報を元にその場合実行されていたジョブを各DRサイト115へ再現し、DRシステム116へ負荷を与える。各DRサイト115の応答処理部118が平常時実行処理部110によって出された負荷に応答し、DRシステム116へ負荷を与え、その時のDRシステム116のリソース情報を応答情報管理DB501へ格納する。負荷情報処理部119が応答情報管理DB501に格納しているリソース情報をメインサイト102へ送付する。メインサイト102へ送付されたリソース情報を平常時実行処理部110が受け取り、平常時情報管理DB301に格納する。
本実施例では、DRサイト115のDRシステム116へ負荷を与えるシステムの対象として分析系システム104を考え、平常時実行処理部110は平常稼働時にログ分析管理DB202に格納されている分析系システム104におけるログ情報を元に、その場合メインサイト102の分析系システム104に実行されていたジョブを各DRサイト115へ再現し、DRシステム116へ負荷を与え、各DRサイト115別にリソース情報を平常時情報管理DB301に格納する。
各DRサイト115の応答処理部118が平常時実行処理部110および災害/障害時実行処理部111によって出された負荷に応答し、DRシステム116へ負荷を与え、その時のDRシステム116のリソース情報を応答情報管理DB501へ格納する。
図16は、災害や障害時にDRシステム116のリソース情報を収集し、平常稼働時と災害や障害時のリソース情報のマッチングによってシステムの切替先を選定するフローチャートの例である。災害や障害時に災害/障害時実行処理部111がログ分析管理DB502に格納しているログ情報を元にその場合実行されていたジョブを各DRサイト115へ再現し、DRシステム116へ負荷を与える。各DRサイト115の応答処理部118が災害/障害時実行処理部111によって出された負荷に応答し、DRシステム116へ負荷を与え、その時のDRシステム116のリソース情報を応答情報管理DB801へ格納する。負荷情報処理部119が応答情報管理DB801に格納しているリソース情報をメインサイト102へ送付する。メインサイト102へ送付されたリソース情報を災害/障害時実行処理部111が受け取り、災害/障害時情報管理DB602に格納する。平常時実行処理部110および災害/障害時実行処理部111によって格納された各DRサイト115のDRシステム116のリソース情報を用いて、マッチング処理部113がリソースの変動の許容範囲が定義されているポリシー管理DB702を元にマッチングを行い、マッチング結果を、マッチング結果管理DB701へ格納する。切替先選定処理部114がマッチング結果管理DB701に格納している内容において、各データ項目のマッチング数が多いDRサイト115を選定し、切替先となるDRサイトとして決定する。
本実施例では、システム切替の対象となるシステムとして分析系システム104を考えており、災害/障害時実行処理部111は災害や障害時にログ分析管理DB202に格納されている分析系システム104におけるログ情報を元に、その場合実行されていたジョブを各DRサイト115へ再現し、DRシステム116へ負荷を与え、各DRサイト115別にリソース情報を災害/障害時情報管理DB302に格納する。
マッチング処理部113は平常時情報管理DB301および災害/障害時情報管理DB302を元に各データ項目の差がポリシー管理DB402に定義された値を満たす場合のマッチング結果を「はい」、満たさない場合のマッチング結果を「いいえ」として検査を行い、そのマッチング結果をマッチング結果管理DB401へ格納する。
本検査方法を用いることで、災害や障害時のリソース情報を確認しただけでは予測できなかったリソースの変動を確認できるようになるため、システムの切替後も安定稼働が実現できると考える。
具体的には災害や障害時に取得したリソース情報である図9を確認すると、DRサイトAにおけるCPU使用率905は50%、DRサイトCにおけるCPU使用率905は60%であるため、システムの切替先としてDRサイトAが適切だと考えることができる。しかし、平常稼働時のリソース情報である図8も同時に確認すると、DRサイトAにおけるCPU使用率805は20%、DRサイトCにおけるCPU使用率805は50%であり、その差分はDRサイトAでは30%、DRサイトCでは10%であることから、DRサイトAへアクセスが集中していることが分かる。よって、リソースの変動が小さいDRサイトCへシステムの切替を行う方が、システム切替後も安定稼働が可能だと判断する。
また、マッチングする際に平常時情報管理DB301および災害/障害時情報管理DB302に格納されている各データ項目の値がある一定値を超えていた場合は、システムの切替後も安定稼働ができないと判断し、システムの切替先の対象外としてマッチング結果に「NG」を入力し、そのマッチング結果をマッチング結果管理DB401へ格納する。
本実施例では、災害や障害時に取得したリソース情報である図9を確認すると、DRサイトBにおけるCPU使用率905が80%であることから、システムの切替後も安定稼働ができないと判断し、システムの切替先の対象外としてマッチング結果に「NG」と入力する。
切替先選定処理部114はマッチング結果管理DB401に格納されているマッチング結果を元に、各DRサイト115の各データ項目においてマッチング結果が「はい」である数を集計し、その数が多いDRサイト115を切替え先のDRサイト115として選定し、選定結果を切替先選定DB403に格納する。
具体的には、マッチング結果である図12を確認すると、DRサイトAの「はい」の数は2つ、DRサイトBの「はい」の数は1つ、DRサイトCの「はい」の数は5つである。DRサイトBにおいては「NG」のデータ項目が存在するため、切替先として除外する。以上の結果から、分析系システム104におけるシステム切替先としてDRサイトCが適切であると判断し、切替先をDRサイトCとして切替先選定DB403に格納する。
101:ユーザ端末、102:メインサイト、103:基幹システム、104:分析系システム、105:監視システム、106:挙動定義サーバ、107:ログ収集処理部、108:ログ分析処理部、109:挙動実行サーバ、110:平常時実行処理部、111:災害/障害時実行処理部、112:切替先選定処理部、113:マッチング処理部、114:切替先選定処理部、115:DRサイト、116:DRシステム、117:挙動応答サーバ、118:応答処理部、119:負荷情報処理部

Claims (5)

  1. 災害や障害が発生した際に、システムを切り替えた場合に他のシステムの切替が集中しないDRサイトを、システムの切替先として特定する切替先選定処理部
    を有する
    ことを特徴とするDRサイト切替先選定装置。
  2. 請求項1に記載のDRサイト切替先選定装置であって、
    前記切替先選定処理部が、
    平常時にDRサイトにシステムを切り替えた場合の第一の負荷を特定し、災害や障害時のDRサイトにシステムを切り替えた場合の第二の負荷を特定し、前記第一の負荷と前記第二の負荷の差がより小さいDRサイトを負荷の大きくないDRサイトとして特定する
    ことを特徴とするDRサイト切替先選定装置。
  3. 請求項1乃至請求項2のいずれか一項に記載のDRサイト切替先選定装置であって、
    前記切替先選定処理部が
    前記負荷の差をあらかじめ決められた閾値とマッチングさせ、条件を満たす場合にDRサイトを切替先として特定する
    ことを特徴とするDRサイト切替先選定装置。
  4. 請求項1乃至請求項3のいずれか一項に記載のDRサイト切替先選定装置であって、
    前記負荷を、当該メインサイトのリソースのログ情報を元に特定すること
    を特徴とするDRサイト切替先選定装置。
  5. 災害や障害が発生した際に、システムを切り替えた場合に負荷の大きくないDRサイトを、システムの切替先として特定するステップ
    を有する
    ことを特徴とするDRサイト切替先選定方法。
JP2015036032A 2015-02-26 2015-02-26 Drサイト切替先選定装置および方法 Pending JP2016157358A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015036032A JP2016157358A (ja) 2015-02-26 2015-02-26 Drサイト切替先選定装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015036032A JP2016157358A (ja) 2015-02-26 2015-02-26 Drサイト切替先選定装置および方法

Publications (1)

Publication Number Publication Date
JP2016157358A true JP2016157358A (ja) 2016-09-01

Family

ID=56826172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015036032A Pending JP2016157358A (ja) 2015-02-26 2015-02-26 Drサイト切替先選定装置および方法

Country Status (1)

Country Link
JP (1) JP2016157358A (ja)

Similar Documents

Publication Publication Date Title
KR101916847B1 (ko) 크로스-클라우드식 관리 및 고장수리 기법
CA2811020C (en) Virtual resource cost tracking with dedicated implementation resources
US10013662B2 (en) Virtual resource cost tracking with dedicated implementation resources
US11106479B2 (en) Virtual provisioning with implementation resource boundary awareness
CN102591741B (zh) 使用可缩放虚拟容量实现灾难恢复的方法和系统
US11526386B2 (en) System and method for automatically scaling a cluster based on metrics being monitored
US9135071B2 (en) Selecting processing techniques for a data flow task
US8447757B1 (en) Latency reduction techniques for partitioned processing
CN107547595B (zh) 云资源调度系统、方法及装置
US20150222525A1 (en) Dynamic Rerouting of Service Requests Between Service Endpoints for Web Services in a Composite Service
CN104461747A (zh) 一种分布式任务调度系统
CN110912972B (zh) 一种业务处理方法、系统、电子设备及可读存储介质
CN105556499A (zh) 智能自动缩放
CN105337780A (zh) 一种服务器节点配置方法及物理节点
CN109873714B (zh) 云计算节点配置更新方法及终端设备
US11178197B2 (en) Idempotent processing of data streams
CN107508700B (zh) 容灾方法、装置、设备及存储介质
CN113411209A (zh) 一种分布式的密码服务全链路检测系统及方法
US11340952B2 (en) Function performance trigger
JP2016157358A (ja) Drサイト切替先選定装置および方法
US11755627B1 (en) Systems and methods for centralized database cluster management
CN113138772B (zh) 数据处理平台的构建方法、装置、电子设备和存储介质
JP5381190B2 (ja) 上位処理装置、データ処理システム、下位処理装置、コンピュータプログラム、データ処理方法
JP2006120036A (ja) トランザクション転送システム
US11550270B2 (en) Redundant automation system, method for creating the automation system, computer program and computer readable medium

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170111

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170113