JP6260470B2 - 網監視システムおよび網監視方法 - Google Patents

網監視システムおよび網監視方法 Download PDF

Info

Publication number
JP6260470B2
JP6260470B2 JP2014130886A JP2014130886A JP6260470B2 JP 6260470 B2 JP6260470 B2 JP 6260470B2 JP 2014130886 A JP2014130886 A JP 2014130886A JP 2014130886 A JP2014130886 A JP 2014130886A JP 6260470 B2 JP6260470 B2 JP 6260470B2
Authority
JP
Japan
Prior art keywords
server
monitoring
virtual machine
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014130886A
Other languages
English (en)
Other versions
JP2016009413A (ja
Inventor
晃典 松野
晃典 松野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014130886A priority Critical patent/JP6260470B2/ja
Priority to US14/739,517 priority patent/US10063437B2/en
Publication of JP2016009413A publication Critical patent/JP2016009413A/ja
Application granted granted Critical
Publication of JP6260470B2 publication Critical patent/JP6260470B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level

Description

本発明は網監視システムおよび網監視方法に関する。
近年、ネットワークの品質維持のためにネットワークを監視するシステムが利用されている。このようなシステムは、網監視システムと呼ばれる。網監視システムには、例えば、ネットワーク上の複数の伝送装置の動作状況を、サーバで監視するシステムがある。伝送装置は、データや音声を伝える装置であり、各地に配置される。伝送装置は、基地局を介して通信端末間のネットワーク状況をサーバに通知することもできる。例えば、伝送装置は、ネットワークが正常であるか否かの通知をサーバに送信する。サーバは、伝送装置からの通知状況を監視し、ネットワークの状況をクライアントに提供する。そして、クライアントを利用するユーザは、ネットワークの状況を把握することができる。
また、網監視システムは、可用性やシステムの信頼性を向上させるためにホットスタンバイ型の冗長性を有している場合がある。ホットスタンバイとは、同じ構成のシステムを2系統用意しておき、一方(例えば運用系)を作動させ、他方(例えば予備系)は運用系と同じ動作を行いながら待機状態にしておく、システムの多重化手法である。システムに運用系と予備系とで監視することで、例えば、運用系のサーバに障害が発生しても予備系のサーバでネットワークの監視を続けることができる。
ここで、SLA(Service Level Agreement)違反が発生する危険性のあるシステムを自動的に可用性の環境へ移行させる技術が提案されている。冗長構成が可能な場合には、当該危険性のあるシステムで動作している仮想マシンが2つの物理サーバに移行される。冗長構成が取れない場合には、当該危険性のあるシステムで動作している仮想マシンがFT(Fault Tolerant)サーバに移行される。所定時間が経過して危険性について問題がないときは、冗長構成にする前の状態またはFTサーバに移行する前の状態に戻す。
特開2011−39740号公報
ところで、網監視システムに属するサーバは、大きな負荷を受ける場合がある。例えば、サーバが伝送装置から異常が発生したことの通知(アラーム)を大量に受信した場合などである。そのため、サーバには、大きな負荷を受けた場合に処理できるだけのリソースが備えられている。リソースは、プロセッサやメモリなどである。
一方、通常運用時、すなわち、サーバが大きな負荷を受付けていない状況下ではサーバに備えられているリソースに余裕がある。そこで、ホットスタンバイ型のような冗長構成のシステムでは、予備系のシステムについては、通常運用時の負荷に応じた量のリソースのみを用意することで、使用するリソース量を削減できる。
しかし、予備系のシステムのリソース量を削減すると、運用系側の監視異常などで、予備系を運用系に切替たときに、新たに運用系となったシステムが大きな負荷に耐えられなくなってしまう。その結果、システムの信頼性が低下してしまう。
1つの側面では、本発明は、冗長構成における予備系のリソース量を抑制することによるシステムの信頼性の低下を抑止できる網監視システムおよび網監視方法を提供することを目的とする。
1つの態様では、複数の情報処理装置を有する網監視システムが提供される。この網監視システムは、第1の情報処理装置と第2の情報処理装置とを有する。
第1の情報処理装置は、監視対象装置を監視する第1の仮想マシンに、監視対象装置から受ける所定の負荷を処理できるリソースを割り当てる。第2の情報処理装置は、監視対象装置を監視する第2の仮想マシンに、所定の負荷を処理できるリソースよりも少ないリソースを割り当てる。第2の情報処理装置は、第1の仮想マシンによる監視対象装置の監視に異常が発生した場合、所定の負荷を処理できるリソースを第2の仮想マシンに対して割り当て可能な第3の情報処理装置に、第2の仮想マシンをマイグレーションする。
また、1つの態様では、複数の情報処理装置を有するシステムが実行する網監視方法が提供される。この網監視方法は、第1の情報処理装置が、監視対象装置を監視する第1の仮想マシンに、監視対象装置から受ける所定の負荷を処理できるリソースを割り当て、第2の情報処理装置が、監視対象装置を監視する第2の仮想マシンに、所定の負荷を処理できるリソースよりも少ないリソースに割り当て、第1の仮想マシンによる監視対象装置の監視に異常が発生した場合、所定の負荷を処理できるリソースを第2の仮想マシンに対して割り当て可能な第3の情報処理装置に、第2の仮想マシンをマイグレーションする。
1つの側面では、冗長構成における予備系のリソース量を抑制することによるシステムの信頼性の低下を抑止できる。
第1の実施の形態の網監視システムを示す図である。 第2の実施の形態の網監視システムを示す図である。 第2の実施の形態の網監視システムで動作する仮想マシンの例を示す図である。 管理サーバのハードウェア例を示す図である。 NEのハードウェア例を示す図である。 メインセンターに属する管理サーバの機能例を示す図である。 サブセンターに属する管理サーバの機能例を示す図である。 監視サーバの機能例を示す図である。 メインセンターの管理サーバが有するシステムテーブルの例を示す図である。 サブセンターの管理サーバが有するシステムテーブルの例を示す図である。 メインセンターの管理サーバが有するNE管理テーブルの例を示す図である。 サブセンターの管理サーバが有するNE管理テーブルの例を示す図である。 メインセンターの管理サーバが有する通知テーブルの例を示す図である。 網監視システムで行われる処理の具体例(その1)を示す図である。 網監視システムで行われる処理の具体例(その2)を示す図である。 網監視システムで行われる処理の具体例(その3)を示す図である。 網監視システムで行われる処理の具体例(その4)を示す図である。 網監視システムで行われる処理の具体例(その5)を示す図である。 仮想マシンの負荷監視処理の例を示すフローチャートである。 仮想マシンに対する縮退の処理の例を示すフローチャートである。 仮想マシンに対する縮退の解除処理の例を示すフローチャートである。 運用切替処理の例を示すフローチャートである。
以下、本実施の形態を図面を参照して説明する。
[第1の実施の形態]
図1は、第1の実施の形態の網監視システムを示す図である。網監視システムは、メインセンター1、サブセンター2、監視対象装置4,4aを含む。メインセンター1は、情報処理装置1a,1b,1cを含む。サブセンター2は、情報処理装置2a,2b,2cを含む。例えば、メインセンター1とサブセンター2はデータセンターである。メインセンター1またはサブセンター2は、情報処理装置1a,1b,1c,2a,2b,2c以外の情報処理装置を有していてもよい。網監視システムは、運用系のメインセンター1と予備系のサブセンター2とを設けることでホットスタンバイ型の冗長性を有している。網監視システムでは、メインセンター1に属する情報処理装置で動作されている仮想マシンとサブセンター2に属する情報処理装置で動作されている仮想マシンとが1つの監視対象装置を2重監視する。2重監視することで、メインセンター1に属する情報処理装置で動作されている仮想マシンで監視対象装置を監視できなくなっても、サブセンター2に属する情報処理装置で動作されている仮想マシンで監視対象装置の監視を継続することができる。ここで、例えば、監視対象装置とは、伝送装置である。
情報処理装置1aは、後述する情報処理装置1bのリソースで動作する仮想マシン3,3aを管理する装置である。情報処理装置1aは、メインセンター1と接続可能なクライアント5から監視状況を示す監視情報の提供を要求された場合に、監視情報をクライアント5に送信する。
情報処理装置1bは、監視対象装置4を監視する仮想マシン3を動作させる。仮想マシン3は、運用系の仮想マシンである。仮想マシン3は、情報処理装置1bが有するハイパーバイザによって情報処理装置1bのリソースを割り当てられることで動作する。そして、情報処理装置1bは、仮想マシン3に、監視対象装置4から受ける所定の負荷を処理できるリソースを割り当てる。所定の負荷は、例えば、仮想マシン3に想定される最大負荷である。最大負荷は、例えば、仮想マシン3が監視対象装置4から異常が発生したことの通知(アラーム)を大量に受信した場合に、仮想マシン3に生じる負荷である。
情報処理装置1cは、監視対象装置4aを監視する仮想マシン3aを動作させる。仮想マシン3aは、運用系の仮想マシンである。仮想マシン3aは、情報処理装置1cが有するハイパーバイザによって情報処理装置1cのリソースを割り当てられることで動作する。そして、情報処理装置1cは、仮想マシン3aに、監視対象装置4aから受ける所定の負荷を処理できるリソースを割り当てる。
情報処理装置2aは、後述する情報処理装置2bのリソースで動作する仮想マシン3b,3cを管理する装置である。情報処理装置2aは、サブセンター2と接続可能なクライアント5から監視状況を示す監視情報の提供を要求された場合に、監視情報をクライアント5に送信する。
情報処理装置2bは、監視対象装置4を監視する仮想マシン3bと監視対象装置4aを監視する仮想マシン3cとを動作させる。仮想マシン3b,3cは、予備系の仮想マシンである。仮想マシン3b,3cは、情報処理装置2bが有するハイパーバイザによって情報処理装置2bのリソースを割り当てられることで動作する。情報処理装置2bは、仮想マシン3bに所定の負荷(例えば最大負荷)を処理できるリソースよりも少ないリソースを割り当てる。例えば、情報処理装置2bは、監視対象装置4が通常動作時に送信する通知を処理できるだけのリソースを、仮想マシン3bに割り当てる。また、情報処理装置2bは、仮想マシン3cに所定の負荷を処理できるリソースよりも少ないリソースを割り当てる。仮想マシン3bに割り当てたリソースと仮想マシン3cに割り当てたリソースとを合わせたリソースは、所定の負荷を処理できるリソースを超えないものとする。
監視対象装置4は、仮想マシン3と仮想マシン3bとで監視される。監視対象装置4は、監視対象装置4の動作状況を仮想マシン3と仮想マシン3bとに通知する。仮想マシン3と仮想マシン3bは、同じ動作状況の通知を受けるので、監視対象装置4から受ける負荷は同じである。すなわち、運用系の仮想マシンと予備系の仮想マシンは、2重監視する監視対象装置から同じ負荷を受ける。
監視対象装置4aは、仮想マシン3aと仮想マシン3cとで監視される。監視対象装置4aは、監視対象装置4aの動作状況を仮想マシン3aと仮想マシン3cとに通知する。
ここで、通常運用時、すなわち、監視対象装置から所定の負荷を受けていない場合、メインセンター1で、所定の負荷を受けた場合に備えて当該所定の負荷を処理できるリソースを割り当てて仮想マシンを動作させるとする。しかし、通常運用時は、監視対象装置から所定の負荷を受付けないので、性能に余裕がある。そこで、通常運用時は、複数の予備系の仮想マシンを共通の情報処理装置で動作させる。
例えば、仮想マシン3bが情報処理装置2cで動作しているとする。情報処理装置2cが仮想マシン3bを情報処理装置2bにマイグレーションする。マイグレーションとは、ある情報処理装置で動作しているソフトウェアのシステムを、別の情報処理装置に移行して、移行先の情報処理装置で動作させるものである。マイグレーション技術では、仮想マシンのマイグレーションも可能である。
予備系の仮想マシン3bは、情報処理装置2bにより所定の負荷を処理できるリソースよりも少ないリソースを割り当てられる。情報処理装置2cは、仮想マシン3bをマイグレーションさせたことで、情報処理装置2cの電源をOFFにすることができる。すると、予備系のサブセンター2に属する各情報処理装置のリソースを合わせた全体のリソースを抑制することができる。そして、予備系のリソースを抑制しながら、仮想マシン3bは監視対象装置4を継続して監視することができる。また、情報処理装置2cの電源をOFFにすることで、予備系のサブセンター2で消費される電力を抑制することもできる。
一方、通常運用時、運用系の仮想マシン3は、運用系のメインセンター1に属する情報処理装置1cにマイグレーションされない。例えば、所定の負荷を処理できるリソースよりも少ないリソースを仮想マシン3に割り当てた場合、監視対象装置4から所定の負荷を受けると仮想マシン3は処理できなくなるからである。すなわち、運用系の仮想マシン3は、監視対象装置4から所定の負荷を受けても処理できるように備えておく。
情報処理装置2bは、仮想マシン3による監視対象装置4の監視に異常が発生した場合、所定の負荷を処理できるリソースを仮想マシン3bに対して割り当て可能な情報処理装置2cに、仮想マシン3bをマイグレーションする。マイグレーション後は、仮想マシン3は情報処理装置2cから所定の負荷を処理できるだけのリソースが割り当てられる。マイグレーションを行う際には、情報処理装置2aからの制御により、情報処理装置2cの電源がONにされる。監視対象装置4の監視に異常が発生した場合とは、例えば、仮想マシン3と監視対象装置4との間で通信ができない場合や仮想マシン3と監視対象装置4との間で輻輳になってしまいパケットロスなどが発生している場合である。このように、情報処理装置2bが仮想マシン3bを情報処理装置2cにマイグレーションすることで、仮想マシン3bで監視対象装置4を継続して監視できる。また、仮想マシン3bは、監視対象装置4から受ける所定の負荷を処理できる。すなわち、情報処理装置2bで動作されていた仮想マシン3bを情報処理装置2cにマイグレーションすることで、例えば仮想マシン3bの負荷が最大負荷となっても仮想マシン3bによる監視処理が滞りなく実行でき、網監視システムの信頼性を維持できる。
第1の実施の形態によれば、通常運用時には、仮想マシン3bが情報処理装置2bで動作することで、情報処理装置2cの電源をOFFにすることができる。すると、予備系のサブセンター2に属する各情報処理装置のリソースを合わせた全体のリソースを抑制することができ、消費電力も削減できる。また、情報処理装置2bは、仮想マシン3による監視対象装置4の監視に異常が発生した場合、所定の負荷を処理できるリソースを仮想マシン3bに対して割り当て可能な情報処理装置2cに、仮想マシン3bをマイグレーションする。すると、仮想マシン3bで監視対象装置4を継続して監視できる。また、仮想マシン3bは、監視対象装置4から受ける所定の負荷を処理できる。そのため、網監視システムのホットスタンバイ型の冗長構成による信頼性を維持できる。すなわち、第1の実施の形態によれば、通常運用時は予備系のリソースを抑制しながらも、網監視システムの信頼性を維持できる。
[第2の実施の形態]
図2は、第2の実施の形態の網監視システムを示す図である。第2の実施の形態の網監視システムは、メインセンター100、サブセンター500、クライアント900およびNE(Network Element)1000,1000aを含む。メインセンター100、サブセンター500、クライアント900およびNE1000,1000aは、互いにネットワークを介して接続されている。ネットワークは、LAN(Local Area Network)でもよいし、WAN(Wide Area Network)やインターネットなどの広域ネットワークでもよい。網監視システムは、運用系のメインセンター100と予備系のサブセンター500とを設けることでホットスタンバイ型の冗長性を有している。
メインセンター100は、管理サーバ200、監視サーバ300,300aおよび中継装置400を含む。サブセンター500は、管理サーバ600、監視サーバ700,700aおよび中継装置800を含む。
網監視システムでは、メインセンター100およびサブセンター500に属する管理サーバ200,600および監視サーバ300,300a,700,700aで動作する仮想マシン(VM:Virtual Machine)が連携して実行される。
管理サーバ200,600および監視サーバ300,300a,700,700aは、
サーバコンピュータである。
中継装置400は、管理サーバ200、監視サーバ300,300a、サブセンター500、クライアント900およびNE1000,1000aの間の通信を中継する。例えば、中継装置400は、スイッチやルータである。
中継装置800は、管理サーバ600、監視サーバ700,700a、メインセンター100、クライアント900およびNE1000,1000aの間の通信を中継する。例えば、中継装置800は、スイッチやルータである。
クライアント900は、ユーザが利用するクライアントコンピュータである。図2では、クライアント900のみ図示しているが、複数のクライアントが存在してもよい。NE1000,1000aは、ネットワークが正常であるか否かを監視する装置である。例えば、NE1000,1000aは、伝送装置である。
図3は、第2の実施の形態の網監視システムで動作する仮想マシンの例を示す図である。網監視システムでは、管理サーバ200,600および監視サーバ300,300a,700,700aが自装置内で仮想マシンを動作させる。
管理サーバ200は、自装置内で仮想マシンとしてNMS(Network Management System)サーバ210を動作させる。NMSサーバ210は、管理サーバ200が有するハイパーバイザによって管理サーバ200のリソースを割り当てられることで動作する。
監視サーバ300は、自装置内で仮想マシンとしてEMS(Element Management System)サーバ310を動作させる。監視サーバ300aは、自装置内で仮想マシンとしてEMSサーバ310aを動作させる。EMSサーバ310は、監視サーバ300が有するハイパーバイザによって監視サーバ300のリソースを割り当てられることで動作する。EMSサーバ310aは、監視サーバ300aが有するハイパーバイザによって監視サーバ300aのリソースを割り当てられることで動作する。
管理サーバ600は、自装置内で仮想マシンとしてNMSサーバ610を動作させる。NMSサーバ610は、管理サーバ600が有するハイパーバイザによって管理サーバ600のリソースを割り当てられることで動作する。
監視サーバ700は、自装置内で仮想マシンとしてEMSサーバ710を動作させる。監視サーバ700aは、自装置内で仮想マシンとしてEMSサーバ710aを動作させる。EMSサーバ710は、監視サーバ700が有するハイパーバイザによって監視サーバ700のリソースを割り当てられることで動作する。EMSサーバ710aは、監視サーバ700aが有するハイパーバイザによって監視サーバ700aのリソースを割り当てられることで動作する。
NMSサーバ210は、EMSサーバ310,310aを管理する。EMSサーバ310は、NE1000を監視する。EMSサーバ310aは、NE1000aを監視する。EMSサーバ310,310aは、NE1000,1000aを監視している状況を示す監視情報をNMSサーバ210に送信する。
NMSサーバ610は、EMSサーバ710,710aを管理する。EMSサーバ710は、NE1000を監視する。EMSサーバ710aは、NE1000aを監視する。EMSサーバ710,710aは、NE1000,1000aを監視している状況を示す監視情報をNMSサーバ610に送信する。
クライアント900は、NMSサーバ210またはNMSサーバ610に対してネットワークの監視状況を示す監視情報を提供するように要求する。クライアント900は、NMSサーバ210またはNMSサーバ610から提供されたネットワークの監視状況をクライアント900の画面上で表示する。そして、クライアント900を利用するユーザは、ネットワークの監視状況を把握することができる。
NE1000は、EMSサーバ310,710に、NE1000が監視するネットワークが正常であるか否かを通知する。NE1000aは、EMSサーバ310a,710aに、NE1000aが監視するネットワークが正常であるか否かを通知する。
網監視システムでは、メインセンター100に属する1つのEMSサーバとサブセンター500に属する1つのEMSサーバとで1つのNEを2重監視する。
図4は、管理サーバのハードウェア例を示す図である。管理サーバ200は、プロセッサ201、RAM202、HDD203、ファン204、画像信号処理部205、入力信号処理部206、読み取り装置207および通信インタフェース208を有する。各ユニットが管理サーバ200のバスに接続されている。
プロセッサ201は、管理サーバ200全体を制御する。プロセッサ201は、複数のプロセッシング要素を含むマルチプロセッサであってもよい。プロセッサ201は、例えばCPU(Central Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)またはFPGA(Field Programmable Gate Array)などである。また、プロセッサ201は、CPU、DSP、ASIC、FPGAなどのうちの2以上の要素の組み合わせであってもよい。
RAM(Random Access Memory)202は、管理サーバ200の主記憶装置である。RAM202は、プロセッサ201に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部を一時的に記憶する。また、RAM202は、プロセッサ201による処理に用いる各種データを記憶する。
HDD(Hard Disk Drive)203は、管理サーバ200の補助記憶装置である。HDD203は、内蔵した磁気ディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD203には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。管理サーバ200は、フラッシュメモリやSSD(Solid State Drive)などの他の種類の補助記憶装置を備えてもよく、複数の補助記憶装置を備えてもよい。
ファン204は、管理サーバ200を冷却する。例えば、ファン204は、高温になるプロセッサ201を冷却する。
画像信号処理部205は、プロセッサ201からの命令に従って、管理サーバ200に接続されたディスプレイ11に画像を出力する。ディスプレイ11としては、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(Electro-Luminescence)ディスプレイなど各種のディスプレイを用いることができる。
入力信号処理部206は、管理サーバ200に接続された入力デバイス12から入力信号を取得し、プロセッサ201に出力する。入力デバイス12としては、マウスやタッチパネルなどのポインティングデバイスやキーボードなどの各種の入力デバイスを用いることができる。管理サーバ200には、複数の種類の入力デバイスが接続されてもよい。
読み取り装置207は、記録媒体13に記録されたプログラムやデータを読み取る装置である。記録媒体13として、例えば、フレキシブルディスク(FD:Flexible Disk)やHDDなどの磁気ディスク、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光ディスク、光磁気ディスク(MO:Magneto-Optical disk)を使用できる。また、記録媒体13として、例えば、フラッシュメモリカードなどの不揮発性の半導体メモリを使用することもできる。読み取り装置207は、例えば、プロセッサ201からの命令に従って、記録媒体13から読み取ったプログラムやデータをRAM202またはHDD203に格納する。
通信インタフェース208は、中継装置400を介して監視サーバ300,300a、サブセンター500、クライアント900と通信を行う。
なお、管理サーバ600、監視サーバ300,300a,700,700aも管理サーバ200と同様のハードウェアにより実現できる。
図5は、NEのハードウェア例を示す図である。NE1000は、LIU(Line Interface Unit)1010およびLIU1020を有する。LIU1010は、プロセッサ1011、RAM1012、HDD1013およびポート1014を有する。各ユニットがLIU1010のバスに接続されている。
プロセッサ1011は、LIU1010全体を制御する。プロセッサ1011は、複数のプロセッシング要素を含むマルチプロセッサであってもよい。プロセッサ1011は、例えばCPU、DSP、ASICまたはFPGAなどである。また、プロセッサ1011は、CPU、DSP、ASIC、FPGAなどのうちの2以上の要素の組み合わせであってもよい。
RAM1012は、LIU1010の主記憶装置である。RAM1012は、プロセッサ1011に実行させるOSのプログラムやアプリケーションプログラムの少なくとも一部を一時的に記憶する。また、RAM1012は、プロセッサ1011による処理に用いる各種データを記憶する。
HDD1013は、LIU1010の補助記憶装置である。HDD1013は、内蔵した磁気ディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD1013には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。管理サーバ200は、フラッシュメモリやSSDなどの他の種類の補助記憶装置を備えてもよく、複数の補助記憶装置を備えてもよい。
ポート1014は、ネットワークを介してメインセンター100、サブセンター500、およびNE1000が監視するネットワークに接続されている装置とデータの送受信を行うためのインタフェースである。
また、LIU1020は、LIU1010と同様のハードウェアにより実現できる。
図6は、メインセンターに属する管理サーバの機能例を示す図である。管理サーバ200は、NMSサーバ210と記憶部220を有する。NMSサーバ210は、NMS管理部211、移行部212、クライアント通信部213、EMSサーバ通信部214およびセンター間通信部215を有する。また、NMS管理部211、移行部212、クライアント通信部213、EMSサーバ通信部214およびセンター間通信部215は、互いに通信可能である。
記憶部220は、例えば、RAM202またはHDD203に確保した記憶領域として実装される。記憶部220は、NMS管理部211および移行部212の処理に用いられる情報を記憶する。記憶部220は、システムテーブル221、NE管理テーブル222および通知テーブル223を記憶する。システムテーブル221には、メインセンター100に属するNMSサーバおよびEMSサーバの運用状況などを示す情報が登録されている。NE管理テーブル222には、EMSサーバが監視するNEの監視状態を示す情報が登録されている。通知テーブル223は、NEから通知された情報が登録される。
また、記憶部220は、負荷情報、閾値情報および通信状態情報を記憶する。負荷情報は、管理サーバ200が有するハイパーバイザがNMSサーバ210にどのくらいのリソースを割り当てたかを示す情報である。閾値情報は、後述する縮退するか、または縮退を解除するか否かの指標値である。例えば、閾値は、管理サーバ200が有する全リソースの70%以上のリソースを使用された場合である。通信状態情報は、NMSサーバ210が管理するEMSサーバと、EMSサーバが監視するNEとの通信状態を示す情報である。
また、記憶部220は、メインセンター100に属するNMSサーバ210およびNMSサーバ210が管理するEMSサーバに割り当てられているアドレスを記憶する。さらに、記憶部220は、サブセンター500に属するNMSサーバ610およびNMSサーバ610が管理するEMSサーバに割り当てられているアドレスを記憶する。
NMS管理部211は、周期的にNMSサーバ210が管理するEMSサーバの負荷情報を取得する。NMS管理部211は、取得した負荷情報を移行部212に送信する。また、NMS管理部211は、NMSサーバ210が管理するEMSサーバから異常を検知した旨の通知を受けた場合、運用系または予備系のEMSサーバに対する運用の切替を行うか否かを判定する。運用の切替を行うと判定した場合、NMS管理部211は、システムテーブル221にその旨を登録する。
NMS管理部211は、NMSサーバ210が管理するEMSサーバから取得したNEの監視状況をNE管理テーブル222に登録する。NMS管理部211は、EMSサーバから異常を知らせる通知を受信した場合、その旨を通知テーブル223に登録する。
NMS管理部211は、クライアント900から監視状況を提供する旨の要求を受信した場合、監視状況をクライアント900に提供する。
移行部212は、NMS管理部211から送信された負荷情報に基づいて、NMSサーバ210が管理するEMSサーバを縮退するか否かを判定する。縮退する場合、移行部212は、移行先を認定し、EMSサーバを移行先にマイグレーションする。移行部212は、縮退されているEMSサーバから、閾値を超えた旨の通知をNMS管理部211が受けた場合、縮退を解除する。
クライアント通信部213は、クライアント900とデータの送受信を行う。EMSサーバ通信部214は、NMSサーバ210が管理するEMSサーバとデータの送受信を行う。センター間通信部215は、サブセンター500とデータの送受信を行う。
図7は、サブセンターに属する管理サーバの機能例を示す図である。管理サーバ600は、NMSサーバ610と記憶部620を有する。NMSサーバ610は、NMS管理部611、移行部612、クライアント通信部613、EMSサーバ通信部614およびセンター間通信部615を有する。記憶部620は、システムテーブル621、NE管理テーブル622および通知テーブル623を記憶する。各機能部は、NMSサーバ210と記憶部220と同様の機能なので説明を省略する。また、以下の機能が、NMSサーバ210の機能に追加される。
NMS管理部611は、周期的にNMSサーバ610の負荷情報を取得する。NMS管理部611は、取得した負荷情報を移行部612に送信する。
NMS管理部611は、周期的に記憶部620から通信状態情報を取得する。NMS管理部611は、センター間通信部615を介して、通信状態情報をメインセンター100に送信する。
移行部612は、負荷情報が閾値を超えたことをNMS管理部211が検知した場合、管理サーバ600に縮退されているEMSサーバを移行元に戻す。
また、NE管理テーブル222とNE管理テーブル622とは、同期する。同期していない場合、NMS管理部211またはNMS管理部611が、同期させる。
図8は、監視サーバの機能例を示す図である。メインセンター100またはサブセンター500に属する監視サーバは、共に同様の機能を有する。そこで、図8では、監視サーバ700を用いて説明する。監視サーバ700は、EMSサーバ710と記憶部720を有する。EMSサーバ710は、EMS管理部711、NMSサーバ通信部712およびNE通信部713を有する。また、EMS管理部711、NMSサーバ通信部712およびNE通信部713は、互いに通信可能である。
記憶部720は、負荷情報および閾値情報を記憶する。負荷情報は、管理サーバ700が有するハイパーバイザがEMSサーバ710にどのくらいのリソースを割り当てたかを示す情報である。閾値情報は、後述する縮退するか、または縮退を解除するか否かの指標値である。例えば、閾値は、監視サーバ700が有する全リソースの70%以上のリソースを使用された場合である。
EMS管理部711は、記憶部720から負荷情報または閾値情報を取得し、NMSサーバ通信部712を介してNMSサーバ610に送信する。EMS管理部711は、NMSサーバ通信部712を介して監視対象のNEの監視状況を示す監視情報をNMSサーバ610に送信する。また、EMS管理部711が監視対象のNEから異常を知らせる通知を受信した場合、EMS管理部711は、NMSサーバ通信部712を介して当該通知をNMSサーバ610に送信する。EMS管理部711は、負荷情報が閾値を超えた場合、NMSサーバ通信部712を介して閾値を超えた旨をNMSサーバ610に送信する。
NMSサーバ通信部712は、NMSサーバ610とデータの送受信を行う。NE通信部713は、EMSサーバ710が監視するNEとデータの送受信を行う。また、NE通信部713が、EMSサーバ710が監視するNEから受信するデータをトラップ通知ともいう。
図9は、メインセンターの管理サーバが有するシステムテーブルの例を示す図である。システムテーブル221は、記憶部220に格納されている。システムテーブル221は、系列、種別、ENS番号、名称、運用状況、移行先および切替発生時刻の項目を含む。系列の項目には、メインセンター100またはサブセンター500のどちらに属しているかを示す情報が登録される。種別の項目には、NMSサーバまたはEMSサーバのどちらであるかを示す情報が登録される。ENS番号の項目には、EMSサーバを識別する番号が登録される。名称の項目には、NMSサーバまたはEMSサーバの名称が登録される。運用状況の項目には、運用系または予備系のどちらで運用されているかを示す情報が登録される。移行先の項目には、EMSサーバの移行先が登録される。切替発生時刻の項目には、運用の切替が発生した時刻が登録される。
例えば、システムテーブル221には、系列が“メイン”、種別が“NMS”、ENS番号が“−(ハイフン)”、名称が“NMSサーバN1”、運用状況が“ACT”、移行先が“−”、切替発生時刻が“−”という情報が登録される。これは、“NMSサーバN1”がメインセンター100に属しており、運用系(ACT)の仮想マシンであることを示している。
また、例えば、システムテーブル221には、系列が“メイン”、種別が“EMS”、ENS番号が“1”、名称が“EMSサーバE1”、運用状況が“ACT”、移行先が“−”、切替発生時刻が“2014/04/10 10:10:10”という情報が登録される。これは、 “EMSサーバE1”のENS番号が“1”であり、メインセンター100に属していることを示している。“EMSサーバE1”は、運用系(ACT)の仮想マシンであり、どこにも縮退されていないことを示している。“EMS1”に対して運用の切替が発生した時刻が、“2014/04/10 10:10:10”であることを示している。
図10は、サブセンターの管理サーバが有するシステムテーブルの例を示す図である。システムテーブル621は、記憶部620に格納されている。システムテーブル621は、系列、種別、ENS番号、名称、運用状況、移行先および切替発生時刻の項目を含む。項目は、システムテーブル221と同じなので説明を省略する。
例えば、システムテーブル621には、系列が“サブ”、種別が“EMS”、ENS番号が“11”、名称が“EMSサーバE11”、運用状況が“STBY”、移行先が“管理サーバ600”、切替発生時刻が“2014/04/10 10:10:10”という情報が登録される。これは、“EMSサーバE11”のENS番号が“11”であり、サブセンター500に属していることを示している。“EMSサーバE11”は、予備系(STBY)の仮想マシンであり、“管理サーバ600”に縮退されていることを示している。“EMSサーバE11”に対して運用の切替が発生した時刻が、“2014/04/10 10:10:10”であることを示している。
図11は、メインセンターの管理サーバが有するNE管理テーブルの例を示す図である。NE管理テーブル222は、記憶部220に格納されている。NE管理テーブル222は、NE番号、名称、監視先、IPアドレス、監視状態および異常発生時刻の項目を含む。
NE番号の項目には、NEを識別する番号が登録される。名称の項目には、NEの名称が登録される。監視先の項目には、NEを監視する監視サーバの名称が登録される。IPアドレスの項目には、IPアドレスが登録される。監視状態の項目には、正常に監視できているか否かを示す情報が登録される。異常発生時刻の項目には、異常が発生した時刻が登録される。
例えば、NE管理テーブル222には、NE番号が“1”、名称が“NE10a”、監視先が“EMSサーバE11”、IPアドレスが“192.168.101.101”、監視状態が“正常”、異常発生時刻が“−”という情報が登録される。これは、NE番号が“1”のNEの名称が“NE10a”であり、“NE10a”に割り当てられているIPアドレスが“192.168.101.101”であることを示している。また、“NE10a”は、“EMSサーバE11”に監視され、監視状態が“正常”であることを示す。
図12は、サブセンターの管理サーバが有するNE管理テーブルの例を示す図である。NE管理テーブル622は、記憶部620に格納されている。NE管理テーブル622は、NE番号、名称、監視先、IPアドレス、監視状態および異常発生時刻の項目を含む。項目は、NE管理テーブル222と同じなので説明を省略する。
例えば、NE管理テーブル622には、NE番号が“11”、名称が“NE10e”、監視先が“EMSサーバE2”、IPアドレスが“192.168.120.101”、監視状態が“異常”、異常発生時刻が“2014/04/15 15:15:20”という情報が登録される。これは、NE番号が“11”のNEの名称が“NE10e”であり、“NE10e”に割り当てられているIPアドレスが“192.168.120.101”であることを示している。また、“NE10e”は、“EMSサーバE2”に監視され、監視状態が“異常”であり、異常発生時刻が“2014/04/15 15:15:20”であることを示す。
図13は、メインセンターの管理サーバが有する通知テーブルの例を示す図である。通知テーブル223は、記憶部220に格納されている。通知テーブル223は、日時、アラーム名、NE番号および重要度の項目を含む。
日時の項目には、日時を示す情報が登録される。アラーム名の項目には、アラームの内容を示す情報が登録される。NE番号の項目には、NEを識別する番号が登録される。重要度の項目には、アラームの内容に対する重要度を示す情報が登録される。
例えば、通知テーブル223には、日時が“2013/12/20 20:30:10”、アラーム名が“LINK DOWN”、NE番号が“2”、重要度が“critical”という情報が登録される。これは、異常が発生した日時が“2013/12/20 20:30:10”であり、NE番号“2”との間でネットワークが切断されている(LINK DOWN)ために通信できないことを示している。また、当該事象の重要度は“critical”であることを示している。
サブセンター500の管理サーバ600が有する通知テーブル623も通知テーブル223と同様のテーブルであるため、説明を省略する。
図14は、網監視システムで行われる処理の具体例(その1)を示す図である。メインセンター100は、管理サーバ200および監視サーバ300,300a,300b,300cを含む。サブセンター500は、管理サーバ600および監視サーバ700,700a,700b,700cを含む。
管理サーバ200は、運用系のNMSサーバN1を動作させている。監視サーバ300は、運用系のEMSサーバE1を動作させている。監視サーバ300aは、運用系のEMSサーバE2を動作させている。監視サーバ300bは、運用系のEMSサーバE3を動作させている。監視サーバ300cは、運用系のEMSサーバE4を動作させている。
管理サーバ600は、予備系のNMSサーバN2を動作させている。監視サーバ700は、予備系のEMSサーバE11を動作させている。監視サーバ700aは、予備系のEMSサーバE12を動作させている。監視サーバ700bは、予備系のEMSサーバE13を動作させている。監視サーバ700cは、予備系のEMSサーバE14を動作させている。
地域01には、NE10a〜10dが配置されている。地域02には、NE10e〜10gが配置されている。地域03には、NE10h〜10mが配置されている。地域04には、NE10n〜10rが配置されている。1つの地域に配置されている各NEは互いに通信可能である。
EMSサーバE1とEMSサーバE11は、NE10aを監視している。EMSサーバE2とEMSサーバE12は、NE10eを監視している。EMSサーバE3とEMSサーバE13は、NE10hを監視している。EMSサーバE4とEMSサーバE14は、NE10nを監視している。また、EMSサーバE1とEMSサーバE11は、NE10aを介してNE10b〜10dを監視してもよい。EMSサーバE2とEMSサーバE12は、NE10eを介してNE10fおよびNE10gを監視してもよい。EMSサーバE3とEMSサーバE13は、NE10hを介してNE10i〜10mを監視してもよい。EMSサーバE4とEMSサーバE14は、NE10nを介してNE10o〜10rを監視してもよい。
運用系のEMSサーバE1〜E4および予備系のEMSサーバE11〜E14には、監視対象のNEから異常が発生したことの通知(アラーム)を大量に受信した場合などの最大負荷時にも、受信した通知を処理できるリソースが割り当てられている。
なお、運用系のEMSサーバと予備系のEMSサーバは、同じ監視対象のNEから同じ負荷を受ける。
図14では、ネットワークの接続関係を明確にするため、接続関係を有するもの同士を線で繋いでいる。以下、図14〜図18で示す具体例でも同様である。
図15は、網監視システムで行われる処理の具体例(その2)を示す図である。図15では、EMSサーバE11とEMSサーバE12が、管理サーバ600に縮退されたことを示している。また、EMSサーバE14が、監視サーバ700bに縮退されたことを示している。各EMSサーバの縮退について説明する。
NMS管理部611は、システムテーブル621を参照し、STBY(予備系)のEMSサーバが存在するか否か判定する。NMS管理部611は、EMSサーバE11〜E14を特定する。
NMS管理部611は、NMSサーバN2の負荷情報を記憶部620から取得する。NMS管理部611は、EMSサーバ通信部614を介して、監視サーバ700〜700cの記憶部からEMSサーバE11〜E14の負荷情報を取得する。NMS管理部611は、取得した負荷情報を移行部612に送信する。
移行部612は、記憶部620から閾値情報を取得する。移行部612は、EMSサーバ通信部614を介して、監視サーバ700〜700cの記憶部から閾値情報を取得する。移行部612は、NMS管理部611から送信された負荷情報を組み合わせる。例えば、移行部612は、NMSサーバN2の負荷情報とEMSサーバE11、E12との負荷情報を組み合わせる。または、移行部612は、EMSサーバE13とEMSサーバE14の負荷情報を組み合わせる。なお、負荷情報を組み合わせるとは、例えば負荷を示す数値を合計することである。
移行部612は、EMSサーバE11〜E14を管理サーバ600または監視サーバ700〜700cの何れかにマイグレーション可能であるか否か判定する。ここで、EMSサーバE11〜E14は、管理サーバ600に優先して縮退される。EMSサーバを管理サーバ600に優先して縮退することで、管理サーバ600にEMSサーバを縮退した分だけ監視サーバの電源をOFFにできる。図15の例では、監視サーバ700,700a,700cの電源が落とされている。これにより、サブセンター500の消費電力を抑制することができる。なお、NMSサーバN2は、縮退させないものとする。管理サーバ600に縮退できない場合は、監視サーバ700〜700cの何れかに縮退する。また、管理サーバ600または監視サーバ700〜700cの何れかに縮退可能か否かの判定は、縮退の予定先である管理サーバ600または監視サーバ700〜700cの何れかの記憶部が記憶する閾値情報に基づいて判定する。負荷情報を組み合わせた値が閾値を超える場合は、当該閾値情報を有する装置に縮退できない。
NMSサーバN2の負荷情報とEMSサーバE11、E12との負荷情報を組み合わせた値が、管理サーバ600が有する閾値情報が示す閾値を超えなかったものとする。EMSサーバE13、E14の負荷情報を組み合わせた値が、監視サーバ700bが有する閾値情報が示す閾値を超えなかったものとする。
移行部612は、EMSサーバ通信部614を介して、監視サーバ700にEMSサーバE11を縮退する旨の通知を行う。移行部612は、EMSサーバE11を管理サーバ600にマイグレーションする。以下、マイグレーションの手順を記載する。監視サーバ700は、EMSサーバE11を複製する。監視サーバ700は、EMSサーバE11を停止させる。監視サーバ700は、複製したEMSサーバE11を管理サーバ600に送信する。移行部612は、複製したEMSサーバE11を動作させる。移行部612は、管理サーバ600で通信できるようにEMSサーバE11についてネットワーク設定を更新する。監視サーバ700は、EMSサーバE11を削除する。
同様に、移行部612は、EMSサーバE12を管理サーバ600にマイグレーションする。移行部612は、EMSサーバE14を監視サーバ700bにマイグレーションする。管理サーバ600は、EMSサーバE12に最大負荷を処理できるリソースよりも少ないリソースを割り当てる。例えば、管理サーバ600は、EMSサーバE12の監視対象の地域のNEから、通常状態のときに送信される通知を処理できるだけのリソースを、EMSサーバE12に割り当てる。監視サーバ700bは、EMSサーバE14に最大負荷を処理できるリソースよりも少ないリソースを割り当てる。例えば、管理サーバ700は、EMSサーバE14の監視対象の地域のNEから、通常状態のときに送信される通知を処理できるだけのリソースを、EMSサーバE14に割り当てる。
移行部612は、EMSサーバE11とEMSサーバE12の移行先が管理サーバ600であること、およびEMSサーバE14の移行先が監視サーバ700bであることをシステムテーブル621に登録する。移行部612は、移行元の監視サーバの電源をOFFにするように移行元の監視サーバに通知する。移行元の監視サーバ700,700a,700cは、自装置の電源をOFFになるように設定して、電源OFFにする。
このように、通常運用時は、予備系のEMSサーバを他の装置に縮退させることで移行元の監視サーバの電源をOFFにすることができる。移行元の監視サーバの電源をOFFにすることで、サブセンター500に属する管理サーバ600および監視サーバ700〜700cのリソースを合わせた全体のリソースを抑制することができる。そして、予備系のリソースを抑制しながら、EMSサーバE11〜E14それぞれは、監視対象のNEを継続して監視することができる。また、移行元の監視サーバの電源をOFFにすることで、サブセンター500で消費される電力を抑制することができる。
図16は、網監視システムで行われる処理の具体例(その3)を示す図である。図16では、NE10aから大量の警告が発せられたことにより、管理サーバ600で動作されているEMSサーバE11に対する縮退が解除されたことを示している。また、解除されたEMSサーバE11が監視サーバ700に戻されたことを示している。EMSサーバE11に対する縮退の解除について説明する。
NMS管理部611は、NE10aから大量の警告が発せられたことにより負荷が高くなり、閾値を超えたことを検知する。すなわち、NMS管理部611は、記憶部620に格納されている負荷情報と閾値情報を参照することで閾値を超えたことを検知する。
NMS管理部611は、管理サーバ600で閾値を超える原因となったEMSサーバが動作しているか否かを判定する。NMS管理部611は、EMSサーバE11を特定する。NMS管理部611は、EMSサーバE11に対する縮退の解除の要求を移行部612に通知する。移行部612は、移行元の監視サーバ700の電源をONにする。例えば、移行部612は、WOL(Wake On LAN)機能を用いて移行元の監視サーバ700の電源をONにしてもよい。移行部612は、EMSサーバE11を移行元の監視サーバ700に戻す。移行部612は、EMSサーバE11の縮退の解除が完了した旨をNMS管理部611に通知する。NMS管理部611は、EMSサーバE11が移行元に戻された旨をシステムテーブル621に登録する。
このように、EMSサーバE11に対する縮退の解除をすることで、EMSサーバE11は、NE10aからの大量の警告に対して処理できるリソースを割り当て可能な監視サーバ700で、当該処理を実行することができる。一方、管理サーバ600は、EMSサーバE11をマイグレーションすることで閾値を超えなくなる。
図17は、網監視システムで行われる処理の具体例(その4)を示す図である。図17では、管理サーバ600で動作されているEMSサーバE12に対する縮退が解除され、EMSサーバE12が監視サーバ700aに戻されたことを示している。また、EMSサーバE11とEMSサーバE12が予備系から運用系に切替り、EMSサーバE1とEMSサーバE2が運用系から予備系に切替ったことを示している。運用切替処理について説明する。
EMSサーバE1は、NE10aの監視で異常が発生したことを検知する。EMSサーバE2は、NE10eの監視で異常が発生したことを検知する。ここで、例えば、異常とは、EMSサーバE1とNE10aとの間で通信ができない場合、EMSサーバE1とNE10aとの間で輻輳になってしまいパケットロスなどが発生している場合、または、EMSサーバE1がNE10aを介してNE10b〜10dの何れかと通信ができない場合などである。EMSサーバE1とEMSサーバE2は、NMS管理部211にNE10a、NE10eの監視で異常が発生した旨を通知する。NMS管理部211は、NE管理テーブル222に異常発生時刻を登録する。NMS管理部211は、通知テーブル223に異常内容を登録する。
NMS管理部611は、記憶部620から通信状態情報を取得する。NMS管理部611は、センター間通信部615を介して、通信状態情報をメインセンター100に送信する。NMS管理部211は、システムテーブル221、NE管理テーブル222および通信状態情報を参照する。NMS管理部211は、NE管理テーブル222を参照し、異常発生時刻から所定の時間を経過しているNE10aとNE10eを特定する。
NMS管理部211は、NMS管理部611から送信された通信状態情報と記憶部220に格納されている通信状態情報とを参照し、NE10aを監視しているEMSサーバE1とEMSサーバE11のどちらの通信状態の方が良好であるかを判定する。また、NMS管理部211は、NMS管理部611から送信された通信状態情報と記憶部220に格納されている通信状態情報とを参照し、NE10eを監視しているEMSサーバE2とEMSサーバE12のどちらの通信状態の方が良好であるかを判定する。EMSサーバE1とNE10aとの間およびEMSサーバE2とNE10eとの間で異常が検出されているので、NMS管理部211は、通信状態が良好であるEMSサーバE11およびEMSサーバE12を特定する。
NMS管理部211は、システムテーブル221を参照し、EMSサーバE11およびEMSサーバE12について切替発生時刻から所定時間を経過しているか否かを判定する。切替発生時刻から所定時間が経過しているものとする。NMS管理部211は、センター間通信部215を介して運用の切替を行う旨をサブセンター500に通知する。
NMS管理部611は、システムテーブル621を参照し、EMSサーバE11およびEMSサーバE12が縮退されているか否かを判定する。NMS管理部611は、EMSサーバE12が縮退されていることを検知する。NMS管理部611は、EMSサーバE12の縮退の解除要求を移行部612に通知する。移行部612は、移行元の監視サーバ700aの電源をONにする。移行部612は、EMSサーバE12を移行元の監視サーバ700aに戻す。移行部612は、EMSサーバE12に対する縮退の解除を完了した旨をNMS管理部611に通知する。NMS管理部611は、NE10aまたはNE10eを監視した状況を示す監視情報を管理サーバ200に通知できるようにEMSサーバE11およびEMSサーバE12のネットワークの設定を更新する。
NMS管理部611は、EMSサーバE11およびEMSサーバE12が運用系に切替わった旨をシステムテーブル621に登録する。具体的には、NMS管理部611は、EMSサーバE11およびEMSサーバE12がSTBYからACTに切替った旨をシステムテーブル621に登録する。NMS管理部611は、切替発生時刻をシステムテーブル621に登録する。NMS管理部611は、センター間通信部615を介して、運用の切替を行った旨をメインセンター100に通知する。
NMS管理部211は、NE10aまたはNE10eを監視した状況を示す監視情報を管理サーバ600に通知できるようにEMSサーバE1およびEMSサーバE2のネットワークの設定を更新する。
NMS管理部211は、EMSサーバE1およびEMSサーバE2が予備系に切替った旨をシステムテーブル221に登録する。NMS管理部211は、切替発生時刻をシステムテーブル221に登録する。
このように、EMSサーバと監視対象のNEとの間で異常が発生した場合でも、運用系と予備系の通信状態に基づいて切替えることで継続してNEを監視することができる。そして、網監視システムでは、メインセンター100とサブセンター500とで運用系のEMSサーバと予備系のEMSサーバが混在した状態で運用できる。また、メインセンター100に属する予備系のEMSサーバのネットワーク設定を更新することで、当該予備系のEMSサーバが監視する状況を示す監視情報を管理サーバ600に送信することができる。サブセンター500に属する運用系のEMSサーバのネットワーク設定を更新することで、当該運用系のEMSサーバが監視する状況を示す監視情報を管理サーバ200に送信することができる。
また、異常発生時刻、通信状態、切替発生時刻に基づいて運用の切替を行うので、頻繁に運用の切替を行うことを抑制できる。
図18は、網監視システムで行われる処理の具体例(その5)を示す図である。図18では、EMSサーバE2が監視サーバ300に縮退したことを示している。EMSサーバE2に対する縮退について説明する。
NMS管理部211は、システムテーブル221からSTBY(予備系)のEMSサーバが存在するか否か判定する。NMS管理部611は、EMSサーバE1およびEMSサーバE2を特定する。
NMS管理部211は、EMSサーバ通信部214を介して、監視サーバ300,300aの記憶部からEMSサーバE1およびEMSサーバE2の負荷情報を取得する。NMS管理部211は、取得した負荷情報を移行部212に送信する。
移行部212は、EMSサーバ通信部214を介して、監視サーバ300,300aの記憶部から閾値情報を取得する。移行部212は、EMSサーバE1とEMSサーバE2の負荷情報を組み合わせる。
移行部212は、EMSサーバE1,2を監視サーバ300,300aの何れかに縮退可能か否かを判定する。また、監視サーバ300,300aの何れかに縮退可能か否かの判定は、縮退する予定先である監視サーバ300,300aの何れかの記憶部が記憶する閾値情報に基づいて判定する。負荷情報を組み合わせた値が閾値を超える場合は、当該閾値情報を有する装置には縮退できない。
EMSサーバE1とEMSサーバE2との負荷情報を組み合わせた値が、監視サーバ300が有する閾値情報が示す閾値を超えなかったものとする。移行部212は、EMSサーバE2を監視サーバ300にマイグレーションする。監視サーバ300は、EMSサーバE2に最大負荷を処理できるリソースよりも少ないリソースを割り当てる。
移行部212は、EMSサーバE2の移行先が監視サーバ300であることをシステムテーブル221に登録する。移行部212は、移行元の監視サーバの電源をOFFにするように移行元の監視サーバに通知する。移行元の監視サーバ300aは、自装置の電源をOFFになるように設定して、電源をOFFにする。
このように、メインセンター100に属する予備系の仮想マシンを共通の監視サーバに縮退することで、移行元の電源をOFFにすることができる。移行元の監視サーバの電源をOFFにすることでメインセンター100に属する管理サーバ200および監視サーバ300〜300cのリソースを合わせた全体のリソースについて抑制することができる。そして、全体のリソースを抑制しながら各EMSサーバのNEに対する監視を継続することができる。また、移行元の監視サーバの電源をOFFにすることで、メインセンター100で使用される消費電力を抑制することができる。
また、通常運用時に、運用系のEMSサーバを運用系のNMSサーバおよび運用系のEMSサーバに縮退しない。例えば、最大負荷を処理できるリソースよりも少ないリソースを運用系のEMSサーバに割り当てた場合、監視対象のNEから最大負荷を受けると当該運用系のEMSサーバは処理ができなくなるからである。すなわち、運用系のEMSサーバは、監視対象のNEから最大負荷を受けても処理できるように備えておく。
次に、図14〜18で説明した網監視システムで行われる処理をフローチャートで説明する。
図19は、仮想マシンの負荷監視処理の例を示すフローチャートである。以下、図19に示す処理をステップ番号に沿って説明する。以下の処理について、NMS管理部611を用いて説明するが、NMS管理部211も同様の手順で実行する。
(S11)NMS管理部611は、システムテーブル621を参照する。
(S12)NMS管理部611は、STBYのEMSサーバが存在するか否かを判定する。存在する場合、処理をステップS13に進める。存在しない場合、処理を終了する。
(S13)NMS管理部611は、NMSサーバ610の負荷情報を記憶部620から取得する。NMS管理部611は、EMSサーバ通信部614を介して、STBYのEMSサーバの負荷情報を取得する。
(S14)NMS管理部611は、ステップS13で取得した負荷情報を移行部612に送信する。そして、処理を終了する。
NMS管理部611は、ステップS11〜S14までの処理を周期的に行う。また、NMS管理部211は、ステップS12において、2つ以上のSTBYのEMSサーバが存在するか否かを判定する。NMS管理部211は、ステップS13において、NMSサーバ210の負荷情報を記憶部220から取得する処理は行わない。
図20は、仮想マシンに対する縮退の処理の例を示すフローチャートである。以下、図20に示す処理をステップ番号に沿って説明する。以下の処理について、移行部612を用いて説明するが、移行部212も同様の手順で実行する。
(S21)移行部612は、記憶部620から閾値情報を取得する。移行部612は、EMSサーバ通信部614を介して、STBYのEMSサーバを動作させている監視サーバの記憶部から閾値情報を取得する。
(S22)移行部612は、ステップS14で送信された負荷情報を組み合わせる。例えば、移行部612は、NMSサーバ610の負荷情報とSTBYのEMSサーバの負荷情報とを組み合わせる。または、移行部612は、複数のSTBYのEMSサーバの負荷情報を組み合わせる。
(S23)移行部612は、負荷情報を組み合わせた値が閾値を超えるか否か判定する。閾値を超える場合、処理を終了する。閾値を超えない場合、処理をステップS24に進める。また、移行部612は、STBYのEMSサーバを管理サーバ600に優先して縮退する。STBYのEMSサーバを管理サーバ600に縮退可能でない場合、移行部612は、STBYのEMSサーバ同士を共通の監視サーバに縮退する。
(S24)移行部612は、STBYのEMSサーバを、管理サーバ600または他のSTBYのEMSサーバを動作させている監視サーバにマイグレーションする。
(S25)移行部612は、STBYのEMSサーバの移行先をシステムテーブル621に登録する。
(S26)移行部612は、移行元の監視サーバで他の仮想マシンが動作していない場合は、当該監視サーバの電源をOFFにするように当該監視サーバに通知する。移行元の監視サーバは、自装置の電源をOFFになるように設定して、電源をOFFにする。そして、処理を終了する。
また、移行部212は、ステップS23において、STBYのEMSサーバをNMSサーバ210に優先して縮退する処理を行わない。移行部212は、ステップS24において、管理サーバ200にSTBYのEMSサーバをマイグレーションしない。
図21は、仮想マシンに対する縮退の解除処理の例を示すフローチャートである。以下、図21に示す処理をステップ番号に沿って説明する。以下の処理について、NMS管理部611、移行部612を用いて説明するが、NMS管理部211、移行部212も同様の手順で実行する。
(S31)NMS管理部611は、記憶部620に格納されている負荷情報と閾値情報を参照することで閾値を超えたことを検知する。例えば、NMS管理部611は、クライアント900から集中的にアクセスを受けたことにより、閾値を超えたことを検知する。または、NMS管理部611は、NMSサーバ610が管理するEMSサーバから閾値を超えた旨の通知を受け、EMSサーバで閾値を超えたことを検知する。
(S32)NMS管理部611は、システムテーブル621を参照し、閾値を超えたことを検知したサーバに閾値を超える原因となった縮退されているEMSサーバが存在するか否か判定する。存在する場合、NMS管理部611は、移行部612に縮退の解除要求を行う。そして、処理をステップS33に進める。存在しない場合、処理を終了する。閾値を超えたことを検知したサーバとは、管理サーバ600またはNMSサーバ610が管理するEMSサーバを動作させている監視サーバである。
(S33)移行部612は、移行元の監視サーバの電源をONにする。
(S34)移行部612は、縮退されているEMSサーバを移行元にマイグレーションする。移行部612は、縮退の解除が完了した旨をNMS管理部611に通知する。
(S35)NMS管理部611は、縮退されていたEMSサーバが移行元に戻された旨をシステムテーブル621に登録する。そして、処理を終了する。
図22は、運用切替処理の例を示すフローチャートである。以下、図22に示す処理をステップ番号に沿って説明する。また、図22に示す処理は、運用系のEMSサーバと運用系のEMSサーバが監視するNEとの間で異常が発生しているものとする。
(S41)NMS管理部611は、記憶部620から通信状態情報を取得する。NMS管理部611は、センター間通信部615を介して、通信状態情報をメインセンター100に送信する。NMS管理部611は、ステップS41の処理を周期的に行う。
(S42)NMS管理部211は、記憶部220に記憶されているシステムテーブル221、NE管理テーブル222および通信状態情報を参照する。
(S43)NMS管理部211は、異常発生時刻から所定の時間を経過しているNEを特定する。
(S44)NMS管理部211は、ステップS41で送信された通信状態情報と記憶部220に格納されている通信状態情報とを参照し、ステップS43で特定したNEを監視している運用系と予備系のEMSサーバのどちらの通信状態の方が良好であるかを判定する。予備系の通信状態の方が良好な場合、NMS管理部211は、予備系のEMSサーバを特定する。そして、処理をステップS45に進める。予備系の通信状態の方が良好でない場合、処理を終了する。
(S45)NMS管理部211は、切替発生時刻から所定時間を経過しているか否かを判定する。所定時間を経過している場合、NMS管理部211は、センター間通信部215を介して管理サーバ600に運用の切替を行う旨を通知する。そして、処理をステップS46に進める。所定時間を経過していない場合、処理を終了する。
(S46)NMS管理部611は、システムテーブル621を参照し、ステップS44で特定したEMSサーバが縮退されているか否かを判定する。縮退されている場合、NMS管理部611は、移行部612に縮退の解除要求をする。そして、処理をステップS47に進める。縮退されていない場合、処理をステップS49に進める。
(S47)移行部612は、移行元の監視サーバの電源をONにする。
(S48)移行部612は、縮退されているEMSサーバを移行元にマイグレーションする。移行部612は、縮退の解除が完了した旨をNMS管理部611に通知する。
(S49)NMS管理部611は、ステップS44で特定したEMSサーバが監視した状況を示す監視情報を管理サーバ200に通知できるようにネットワークの設定を更新する。
(S50)NMS管理部611は、運用が切替わった旨をシステムテーブル621に登録する。また、NMS管理部611は、切替発生時刻をシステムテーブル621に登録する。NMS管理部611は、センター間通信部615を介して、運用の切替を行った旨を管理サーバ200に通知する。
(S51)NMS管理部211は、ステップS44で特定したEMSサーバが監視するNEと同じNEを監視するEMSサーバが監視した監視状況を示す監視情報を管理サーバ600に通知できるようにネットワークの設定を更新する。
(S52)NMS管理部211は、運用が切替わった旨をシステムテーブル221に登録する。また、NMS管理部211は、切替発生時刻をシステムテーブル221に登録する。そして、処理を終了する。
また、メインセンター100で行われる処理をサブセンター500が実行し、サブセンター500で行われる処理をメインセンター100が実行してもよい。
ここで、図14〜図18を用いて説明する。第2の実施の形態によれば、通常運用時には、EMSサーバE12が管理サーバ600で動作することで、監視サーバ700aの電源をOFFにすることができる。すると、予備系のサブセンター500に属する管理サーバ600および監視サーバ700〜700cのリソースを合わせた全体のリソースを抑制することができ、消費電力も削減できる。
また、管理サーバ600は、EMSサーバE2によるNE10eの監視に異常が発生した場合、最大負荷を処理できるリソースをEMSサーバE12に対して割り当て可能な監視サーバ700aに、EMSサーバE12をマイグレーションする。すると、EMSサーバE12でNE10eを継続して監視できる。また、EMSサーバE12は、NE10eから最大負荷を受けた場合に当該最大負荷を処理できる。そのため、網監視システムのホットスタンバイ型の冗長構成による信頼性を維持できる。すなわち、第2の実施の形態によれば、通常運用時は予備系のリソースを抑制しながらも、網監視システムの信頼性を維持できる。
なお、各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
1 メインセンター
1a,1b,1c,2a,2b,2c 情報処理装置
2 サブセンター
3,3a,3b,3c 仮想マシン
4,4a 監視対象装置
5 クライアント

Claims (5)

  1. 複数の情報処理装置を有する網監視システムにおいて、
    監視対象装置を監視する第1の仮想マシンに、前記監視対象装置から受ける所定の負荷を処理できるリソースを割り当てる第1の情報処理装置と、
    前記監視対象装置を監視する第2の仮想マシンに、前記所定の負荷を処理できるリソースよりも少ないリソースを割り当てる第2の情報処理装置と、を有し、
    前記第2の情報処理装置は、前記第1の仮想マシンによる前記監視対象装置の監視に異常が発生した場合、前記所定の負荷を処理できるリソースを前記第2の仮想マシンに対して割り当て可能な第3の情報処理装置に、前記第2の仮想マシンをマイグレーションする、
    網監視システム。
  2. 運用系の仮想マシンを管理する第4の情報処理装置と、予備系の仮想マシンを管理する第5の情報処理装置とをさらに有し、
    前記第1の情報処理装置は、前記第2の仮想マシンのマイグレーション前は、前記第1の仮想マシンを運用系として、前記第1の仮想マシンによる前記監視対象装置の監視状況を示す第1の監視情報を前記第4の情報処理装置に送信し、前記第2の仮想マシンのマイグレーション後は、前記第1の仮想マシンを予備系として、前記第1の監視情報を前記第5の情報処理装置に送信し、
    前記第2の情報処理装置は、前記第2の仮想マシンのマイグレーション前は、前記第2の仮想マシンを予備系として、前記第2の仮想マシンによる前記監視対象装置の監視状況を示す第2の監視情報を前記第5の情報処理装置に送信し、
    前記第3の情報処理装置は、前記第2の仮想マシンのマイグレーション後は、前記第2の仮想マシンを運用系として、前記第2の監視情報を前記第4の情報処理装置に送信する、
    請求項1記載の網監視システム。
  3. 前記第4の情報処理装置または前記第5の情報処理装置は、前記第1の情報処理装置のリソースで動作する前記第1の仮想マシンと前記第2の情報処理装置のリソースで動作する前記第2の仮想マシンそれぞれの、前記監視対象装置との通信状態を示す情報を取得し、前記第2の仮想マシンの通信状態の方が前記第1の仮想マシンの通信状態よりも良好な場合、前記第2の情報処理装置に対して、前記第1の仮想マシンによる前記監視対象装置の監視に異常が発生したことを通知する、
    請求項2記載の網監視システム。
  4. 前記第1の情報処理装置は、前記第2の仮想マシンが前記第3の情報処理装置にマイグレーションされた後、前記監視対象装置と異なる他の監視対象装置を監視する第3の仮想マシンにリソースを割り当てている第6の情報処理装置に、前記第1の仮想マシンをマイグレーションする、
    請求項1乃至3のいずれかに記載の網監視システム。
  5. 複数の情報処理装置を有するシステムが実行する網監視方法であって、
    第1の情報処理装置が、監視対象装置を監視する第1の仮想マシンに、前記監視対象装置から受ける所定の負荷を処理できるリソースを割り当て、
    第2の情報処理装置が、前記監視対象装置を監視する第2の仮想マシンに、前記所定の負荷を処理できるリソースよりも少ないリソースに割り当て、前記第1の仮想マシンによる前記監視対象装置の監視に異常が発生した場合、前記所定の負荷を処理できるリソースを前記第2の仮想マシンに対して割り当て可能な第3の情報処理装置に、前記第2の仮想マシンをマイグレーションする、
    網監視方法。
JP2014130886A 2014-06-26 2014-06-26 網監視システムおよび網監視方法 Expired - Fee Related JP6260470B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014130886A JP6260470B2 (ja) 2014-06-26 2014-06-26 網監視システムおよび網監視方法
US14/739,517 US10063437B2 (en) 2014-06-26 2015-06-15 Network monitoring system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014130886A JP6260470B2 (ja) 2014-06-26 2014-06-26 網監視システムおよび網監視方法

Publications (2)

Publication Number Publication Date
JP2016009413A JP2016009413A (ja) 2016-01-18
JP6260470B2 true JP6260470B2 (ja) 2018-01-17

Family

ID=54931746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014130886A Expired - Fee Related JP6260470B2 (ja) 2014-06-26 2014-06-26 網監視システムおよび網監視方法

Country Status (2)

Country Link
US (1) US10063437B2 (ja)
JP (1) JP6260470B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6724960B2 (ja) * 2018-09-14 2020-07-15 株式会社安川電機 リソース監視システム、リソース監視方法、及びプログラム
CN113396561A (zh) * 2018-11-27 2021-09-14 区块链联合香港有限公司 运算设备维护方法及装置、存储介质和程序产品

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3398682B2 (ja) * 1999-02-23 2003-04-21 日本電気株式会社 通信系における冗長構成管理方法ならびにシステム
US7712095B2 (en) * 2000-08-25 2010-05-04 Shikoku Electric Power Co., Inc. Remote control server, center server, and system constituted them
JP2005301436A (ja) * 2004-04-07 2005-10-27 Hitachi Ltd クラスタシステムおよびクラスタシステムにおける障害回復方法
JP4917579B2 (ja) * 2008-07-15 2012-04-18 富士通テレコムネットワークス株式会社 ネットワーク監視システム及びネットワーク監視方法
JP5368907B2 (ja) * 2009-08-10 2013-12-18 株式会社エヌ・ティ・ティ・データ サーバ管理システム、サーバ管理方法、及びプログラム
JP5435399B2 (ja) 2009-10-07 2014-03-05 日本電気株式会社 省電力化システム、省電力化方法、及び省電力化用プログラム
JP5544967B2 (ja) * 2010-03-24 2014-07-09 富士通株式会社 仮想マシン管理プログラム及び仮想マシン管理装置
JP5767480B2 (ja) * 2011-01-31 2015-08-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理システム、配置構成決定方法、プログラムおよび記録媒体
JP2013207674A (ja) * 2012-03-29 2013-10-07 Nec Corp ネットワーク監視システム、ネットワーク監視方法、制御装置およびプログラム
US10075329B2 (en) * 2014-06-25 2018-09-11 A 10 Networks, Incorporated Customizable high availability switchover control of application delivery controllers

Also Published As

Publication number Publication date
US10063437B2 (en) 2018-08-28
JP2016009413A (ja) 2016-01-18
US20150381460A1 (en) 2015-12-31

Similar Documents

Publication Publication Date Title
JP4680919B2 (ja) ネットワークノードクラスタのための冗長なルーティング機能
US9450700B1 (en) Efficient network fleet monitoring
JP2015103092A (ja) 障害回復システム及び障害回復システムの構築方法
US8112518B2 (en) Redundant systems management frameworks for network environments
CN103647668A (zh) 一种高可用集群内主机群体决策系统及切换方法
US10331472B2 (en) Virtual machine service availability
JP2007156679A (ja) サーバの障害回復方法及びデータベースシステム
KR101586354B1 (ko) 병렬 연결식 서버시스템의 통신 장애 복구방법
US20130205162A1 (en) Redundant computer control method and device
JP6260470B2 (ja) 網監視システムおよび網監視方法
JP7206981B2 (ja) クラスタシステム、その制御方法、サーバ、及びプログラム
JP2012190175A (ja) フォールトトレラントシステム、サーバ、フォールトトレラント化方法およびプログラム
JP7006606B2 (ja) 計算機並びにクラスタ管理システム、方法及びプログラム
JP6838334B2 (ja) クラスタシステム、サーバ、サーバの動作方法、及びプログラム
JP2011141675A (ja) 計算機及び計算機管理方法並びに計算機管理プログラム
KR20140140719A (ko) 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
JPWO2018037535A1 (ja) 生存管理プログラム、生存管理方法、および生存管理装置
US11010269B2 (en) Distributed processing system and method for management of distributed processing system
JP5631285B2 (ja) 障害監視システムおよび障害監視方法
JP5691248B2 (ja) タスク引継プログラム、処理装置及びコンピュータ・システム
JP5353378B2 (ja) Haクラスタシステムおよびそのクラスタリング方法
US20230254270A1 (en) Computer-readable recording medium storing program, information processing method, and information processing system
EP4274176A1 (en) Data preservation for node evacuation in unstable nodes within a mesh
JP2015148843A (ja) 仮想マシン管理システム、仮想マシン管理方法、環境管理サーバ及びプログラム
JP5723757B2 (ja) 仮想ipアドレス管理方法、および、2重化サーバシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171127

R150 Certificate of patent or registration of utility model

Ref document number: 6260470

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees