JP2020150518A

JP2020150518A - ネットワーク管理システムおよびプログラム

Info

Publication number: JP2020150518A
Application number: JP2019049033A
Authority: JP
Inventors: 圭介黒木; Keisuke Kuroki
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2020-09-17
Anticipated expiration: 2039-03-15
Also published as: JP7079059B2

Abstract

【課題】目的毎に、最適なネットワークパラメータを強化学習の利用によって決定し、必要に応じ動的にネットワークパラメータを再設定する。【解決手段】監視システム３と、パラメータ算出システム５と、設定システム７と、を備え、パラメータ算出システム５は、監視システム３から取得した初期環境通知に基づいて、ネットワークパラメータの変更内容を示す行動情報から行動を選定し、設定システム７を介して、論理ネットワークのネットワークパラメータを変更し、監視システム３は、変更後のネットワークパラメータが設定された論理ネットワークを監視してパラメータ算出システム５に、前記変更後の環境通知を行ない、パラメータ算出システム５は、環境通知とその前の環境通知結果とを比較することで、行動の行動価値を定める報酬を行動毎に付与することで学習を進め、学習後は最新の報酬テーブルに基づいて、行動情報から行動を選定する。【選択図】図１

Description

本発明は、サービスまたは目的に応じて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムおよびプログラムに関する。

次世代モバイル通信規格である５Ｇにおいては、通信要件の異なる様々なサービスが収容されることが予想される。多彩なサービス要件を１つのネットワークに収容する場合において、全ての要件を満足するために、あらゆる機能を具備したネットワーク機器でネットワーク全体を構築すると、非常にコストがかかりサービス毎の運用が非常に煩雑になる。そこでサービスや目的毎にネットワークを論理的に分けるネットワークスライスという技術が期待されており、それが実現できれば、単一の物理ネットワークにおいて、互いに影響し合わない論理ネットワークを、必要な時に必要な分だけ構築できる。

また、例えば、特許文献１には、動的なサービス品質パラメータ値の設定を、より正確に行なうための発明が開示されている。ＱｏＳパラメータ値などは一般的に固定値であるが、本来は、トポロジ変更やトラフィックの状況に応じて変更すべきものであることから、特許文献１では、Ｏ＆Ｍサーバが定期的に基地局を監視し、ＮＷトポロジ状態、ＱｏＳ値、トラフィック量を取得し、更に呼制御のレスポンス情報（レスポンス率、レスポンス時間など）もＮＷレベルに加え、アプリレベルでの品質をチェックするように構成している。Ｏ＆Ｍサーバ内には取得した情報からＱｏＳ値を最適化すべきかどうかを判断する分析部が存在し、最適化後のＱｏＳパラメータを計算し、設定を行なうことで、動的なパラメータ変更を可能にしている。

特開２０１４−００３４７６号公報

しかしながら、ネットワークスライスを用いた場合において、各々のサービス要件が満たされるように、各々の論理ネットワークのパラメータを決定することは非常に複雑になることも予想される。また、将来自動運転などをサポートするネットワークなどでは、品質の低下は大事故に直結する可能性があり、ネットワーク環境が変化した場合でも、品質の担保のためにサービス毎に動的に最適なネットワークパラメータを設定することも求められる可能性がある。また、特許文献１記載の技術では、目的毎にパラメータを設定することができない。

本発明は、このような事情に鑑みてなされたものであり、サービスや、目的毎にネットワークが論理的に分かれており、または、サービスや目的ごとにネットワークのパラメータを変更する必要があるネットワークにおいて、目的毎に、その目的に関連がある環境データを管理することで、最適なネットワークパラメータを強化学習の利用によって決定し、必要に応じ動的にネットワークパラメータを再設定することができるネットワーク管理システムおよびプログラムを提供することを目的とする。

（１）上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のネットワーク管理システムは、サービスまたは目的に応じて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムであって、前記各論理ネットワークを監視し、少なくとも前記各論理ネットワークの構成情報および性能情報を管理して、各論理ネットワークのネットワークパラメータの変更依頼または環境通知を出力する監視機能部と、前記監視機能部からネットワークパラメータの変更依頼があったときに、サービスまたは目的毎に強化学習を行なって、前記論理ネットワークのパラメータを決定するパラメータ算出機能部と、前記決定された論理ネットワークのパラメータを、当該論理ネットワークに設定する設定機能部と、を備え、前記パラメータ算出機能部は、前記監視機能部から取得した初期環境通知に基づいて、ネットワークパラメータの変更内容を示す行動情報から行動を選定し、前記設定機能部を介して、前記論理ネットワークのネットワークパラメータを変更し、前記監視機能部は、前記変更後のネットワークパラメータが設定された論理ネットワークを監視して前記パラメータ算出機能部に、前記変更後の環境通知を行ない、前記パラメータ算出機能部は、前記環境通知とその前の環境通知結果とを比較することで、前記行動の行動価値を定める報酬を前記行動毎に付与することで学習を進め、学習後は最新の報酬テーブルに基づいて、前記行動情報から行動を選定することを特徴とする。

（２）また、本発明のネットワーク管理システムは、前記各論理ネットワークのトラフィックを蓄積するトラフィック保持部と、前記各論理ネットワークに対応し、前記論理ネットワークを仮想的に再現する複数の模写ネットワークと、をさらに備え、前記パラメータ算出機能部は、前記監視機能部からネットワークパラメータの変更依頼があったときに、前記トラフィック保持部に対して対応する模写ネットワークに対してトラフィックの送出を指示し、前記模写ネットワーク上で前記強化学習を実行することを特徴とする。

（３）また、本発明のプログラムは、サービスまたは目的に応じて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムのプログラムであって、監視機能部において、前記各論理ネットワークを監視し、少なくとも前記各論理ネットワークの構成情報および性能情報を管理して、各論理ネットワークのネットワークパラメータの変更依頼または環境通知を出力する処理と、パラメータ算出機能部において、前記監視機能部からネットワークパラメータの変更依頼があったときに、サービスまたは目的毎に強化学習を行なって、前記論理ネットワークのパラメータを決定する処理と、設定機能部において、前記決定された論理ネットワークのパラメータを、当該論理ネットワークに設定する処理と、の一連の処理をコンピュータに実行させ、前記パラメータ算出機能部において、前記監視機能部から取得した初期環境通知に基づいて、ネットワークパラメータの変更内容を示す行動情報から行動を選定し、前記設定機能部を介して、前記論理ネットワークのネットワークパラメータを変更し、前記監視機能部において、前記変更後のネットワークパラメータが設定された論理ネットワークを監視して前記パラメータ算出機能部に、前記変更後の環境通知を行ない、前記パラメータ算出機能部において、前記環境通知とその前の環境通知結果とを比較することで、前記行動の行動価値を定める報酬を前記行動毎に付与することで学習を進め、学習後は最新の報酬テーブルに基づいて、前記行動情報から行動を選定することを特徴とする。

（４）また、本発明のプログラムは、トラフィック保持部において、前記各論理ネットワークのトラフィックを蓄積する処理と、複数の模写ネットワークにおいて、前記各論理ネットワークに対応し、前記論理ネットワークを仮想的に再現する処理と、前記パラメータ算出機能部において、前記監視機能部からネットワークパラメータの変更依頼があったときに、前記トラフィック保持部に対して対応する模写ネットワークに対してトラフィックの送出を指示し、前記模写ネットワーク上で前記強化学習を実行する処理と、をさらに実行することを特徴とする。

本発明によれば、目的やサービス毎に論理的に分けられたネットワークにおいて、それぞれの論理ネットワークに強化学習を通じて、動的にパラメータを決定することが可能となる。

第１の実施形態に係るネットワーク管理システムの概略構成を示す図である。監視システムの概略構成を示す図である。パラメータ算出システムの概略構成を示す図である。設定システムの概略構成を示す図である。構成情報の一例を示す図である。性能情報の一例を示す図である。ＳＬＡ情報の一例を示す図である。行動情報の一例を示す図である。目的情報の一例を示す図である。ノードコマンド情報の一例を示す図である。第１の実施形態に係るネットワーク管理システムのパラメータ算出動作を示すシーケンスチャートである。報酬テーブルの一例を示す図である。第２の実施形態に係るネットワーク管理システムの概略構成を示す図である。トラフィック保持システム２１の概略構成を示す図である。トラフィックの一例を示す図である。第２の実施形態に係るネットワーク管理システムの動作を示すフローチャートである。第２の実施形態に係るネットワーク管理システムの動作を示すフローチャートである。

本発明者は、サービスや、目的毎にネットワークが論理的に分かれており、または、サービスや目的ごとにネットワークのパラメータを変更する必要があるネットワークにおいて、目的毎に、その目的に関連がある環境データを管理し、最適なネットワークパラメータを強化学習の利用によって決定することに着目し、必要に応じて、動的にネットワークパラメータを再設定することを見出し、本発明に至った。

すなわち、本発明のネットワーク管理システムは、サービスまたは目的に応じて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムであって、前記各論理ネットワークを監視し、少なくとも前記各論理ネットワークの構成情報および性能情報を管理して、各論理ネットワークのネットワークパラメータの変更依頼または環境通知を出力する監視機能部と、前記監視機能部からネットワークパラメータの変更依頼があったときに、サービスまたは目的毎に強化学習を行なって、前記論理ネットワークのパラメータを決定するパラメータ算出機能部と、前記決定された論理ネットワークのパラメータを、当該論理ネットワークに設定する設定機能部と、を備え、前記パラメータ算出機能部は、前記監視機能部から取得した初期環境通知に基づいて、ネットワークパラメータの変更内容を示す行動情報から行動を選定し、前記設定機能部を介して、前記論理ネットワークのネットワークパラメータを変更し、前記監視機能部は、前記変更後のネットワークパラメータが設定された論理ネットワークを監視して前記パラメータ算出機能部に、前記変更後の環境通知を行ない、前記パラメータ算出機能部は、前記環境通知とその前の環境通知とを比較することで、前記行動の行動価値を定める報酬を前記行動毎に付与することで学習を進め、学習後は最新の報酬テーブルに基づいて、前記行動情報から行動を選定することを特徴とする。

これにより、本発明者は、目的やサービス毎に論理的に分けられたネットワークにおいて、それぞれの論理ネットワークに強化学習を通じて、動的にパラメータを決定することを可能とした。以下、本発明の実施形態について、図面を参照しながら具体的に説明する。

［第１の実施形態］
図１は、第１の実施形態に係るネットワーク管理システムの概略構成を示す図である。ネットワーク管理システム１は、監視機能部としての監視システム３、パラメータ算出機能部としてのパラメータ算出システム５、設定機能部としての設定システム７を備えている。これらの構成要素はスイッチ９によって接続されており、相互に通信することが可能となっている。

物理ネットワーク１１は、実際に設置されているルータや伝送装置などで構成されているネットワークである。第１の論理ネットワーク１３および第２の論理ネットワーク１７は、物理ネットワーク１１上で通信帯域などのネットワークリソース、ＣＰＵ、メモリなどのコンピューティングリソースなどを倫理的に分け、それらで構成されたネットワークのことである。

図１に示すように、携帯電話１５用の論理ネットワークが、第１の論理ネットワーク１３であり、携帯電話１５は、基地局１０を介して、第１の論理ネットワーク１３で提供されるサービスを受けることが可能である。車１９用の論理ネットワークが第２の論理ネットワーク１７であり、車１９は、基地局１０を介して、第２の論理ネットワーク１７で提供されるサービスを受けることが可能である。ただし、これはあくまでも例示であって、本発明は、これらの態様に限定されるわけではない。また、監視システム３、パラメータ算出システム５、設定システム７は、各論理ネットワークにアクセスすることができ、監視や設定を行なうことができるように構成されている。

図２は、監視システムの概略構成を示す図である。監視システム３は、構成情報３ａ、性能情報３ｂ、ＳＬＡ（Service Level Agreement）情報３および通信部３ｄから構成されている。各論理ネットワークの構成情報、ＳＬＡ情報３ｃを論理ネットワーク毎に保持し、性能情報３ｂにおいては、論理ネットワークを構成する要素毎に保持している。構成情報３ａは、図５に示すように、論理ネットワーク毎に、その論理ネットワークがどのような要素を含んで構成されているかを示すものである。ただし、図５に示すような形式でなく、ＪＳＯＮやＸＭＬなどで記述される形式でも構わない。性能情報３ｂは、図６に示すように、論理ネットワークを構成するノードなどの各要素からトラフィック量、負荷、遅延などを格納している。

ＳＬＡ情報３ｃは、図７に示すように、論理ネットワーク毎のＳＬＡが格納されており、性能情報３ｂなどから、ＳＬＡが満たされているかどうかの判定結果も含んでいる。通信部３ｄは、各システムや論理ネットワークへのアクセスなど、外部との通信に利用され、構成情報３ａや性能情報３ｂは、定期的にこの通信部３ｄを経由して取得され、もしくは格納される。このため、構成情報３ａが変更された場合に追随し、また、性能情報３ｂを最新情報に保つことができている。

ＳＬＡ情報３ｃは、人などが論理ネットワーク毎に設定したものであり、性能情報３ｂを参照し、そのＳＬＡが満たされているかどうかを、監視システム３が判断し、その判定結果を格納している。なお、判定のアルゴリズムなどは本発明では問わない。また、監視システム３は、判定結果がＮＧとなった時、すなわちＳＬＡが満たされないと判断された時、対象となる論理ネットワークと、パラメータ変更の目的を伝えることによって、動的なパラメータ変更のアルゴリズムを実行する契機とすることが可能である。

図３は、パラメータ算出システムの概略構成を示す図である。パラメータ算出システム５は、強化学習にてパラメータを算出する算出部５ａと、その算出に利用する行動情報５ｂと目的情報５ｃを保持する。行動情報５ｂとは、図８に示すように、ネットワークのパラメータ変更の内容を、行動として記述したものである。この行動情報５ｂは、人などが事前に準備することが想定されている。目的情報５ｃとは、図９に示すように、パラメータを調整する目的と、それを実施する場合の測定対象（環境）および、強化学習実施時に利用される報酬を与える条件とその報酬が記述されている。この目的情報５ｃについても、事前に準備することが想定されている。報酬条件の数式は、例として示しているだけでこれに限らない。パラメータ算出システム５の通信部５ｄは、各システムとの通信に利用される。具体的には、通信部５ｄは、算出されたパラメータに基づいて、実際にパラメータの変更を設定システム７へ依頼するなどの信号を出力する。

パラメータ算出システム５は、パラメータ変更の際、最適なパラメータ値を強化学習により算出する。強化学習とは、ある行動をとった場合の状態を、行動を取る前の状態と比較し、行動をとった価値を大きくしていくという機械学習の一種である。以下はＱ学習という強化学習でパラメータを算出する場合の例である。（式１）は、一般的なＱ学習の更新式を示している。

上記の（式１）において、ある時間tの環境s_tにおいて、行動a_tを実行し、報酬r_tを受け取り、環境がs_(t+1)を観測し、行動価値Ｑを更新するということを示している。なおαは学習率、γは割引率と言われる。

図４は、設定システムの概略構成を示す図である。設定システム７は、論理ネットワークのパラメータを変更するための設定を作成する設定作成部７ａを持ち、その際、実際の設定に関わるコマンド情報などはノードコマンド情報７ｂを参照して作られる。ノードコマンド情報７ｂとは、図１０に示すように、論理ネットワークを構成するノード毎のパラメータを変更する場合のコマンド情報が記載されており、パラメータ変更のために設定を行なう場合に参考にする情報である。設定システム７の通信部７ｃは、各システムや論理ネットワークへのアクセスなど、外部との通信に利用され、パラメータ変更の設定などはこの通信部７ｃを経由して実行される。

図１１は、本実施形態に係るネットワーク管理システムのパラメータ算出動作を示すシーケンスチャートである。ここでは一例として、第１の論理ネットワーク１３のＳＬＡが条件を満たさなくなったことを監視システム３が検知し（ステップＳ１、Ｓ２）、監視システム３がパラメータ算出システム５にパラメータ変更依頼を送出した場合（ステップＳ３）を示している。監視システム３からパラメータ変更依頼を受け取ったパラメータ算出システム５は（ステップＳ３）、パラメータ変更の目的を目的情報から選択する。その後、目的情報を参照して観測すべき環境(測定対象)として、パラメータ算出システム５は、内部に環境ＤＢを作成する。

次に、パラメータ算出システム５は、環境ＤＢにセットされた情報について現時点での情報を監視システム３に確認し、監視システム３は初期環境通知を行ない（ステップＳ４、Ｓ５）、初期値を決定し、登録する。次に、パラメータ算出システム５は、行動をランダムに選択し（１）、設定システム７にパラメータ変更を依頼する（２）（ステップＳ６）。設定システム７は、設定を作成し（３）、第１の論理ネットワーク１３に設定を入力する（２）（ステップＳ７）。そして、設定システム７は、設定完了通知をパラメータ算出システム５に通知する（５）（ステップＳ８）。

パラメータ算出システム５は、パラメータ変更が終了したら、行動の結果として、監視システムを経由して、環境を観測し（６）、観測した環境を通知し（７）（ステップＳ９、Ｓ１０）、目的情報の報酬条件式を参照して、報酬を与える（８）。

上記の行動選択（１）から報酬を与えるまでの動作（８）を規定回数、若しくは終了条件などを事前に定め、その終了条件に合致するまで繰り返す（９）。そして、図１２に示すような報酬テーブルを更新するまでを「エピソード」と呼ぶこととする（１０）。エピソード完了後はパラメータを初期状態に戻し（１１）（ステップＳ１１）、再度（１）〜（８）を繰り返し、次のエピソードを実行する（ステップＳ１２、Ｓ１３）。このエピソードを図１１に示す（１）〜（１４）を繰り返すことで、報酬テーブルは更新されていき、ある状態における次の行動は何が良いかが学習されていく。例えば、報酬テーブルが図１２のようであるとき、状態Ａの時は最も報酬が大きな行動２を選択するのが経験的に良く、その結果状態Ｂに以降した場合は行動４を選択するのが良いということが分かる。

エピソードが規定回数繰り返された後、若しくは終了条件などを事前に定め、例えば環境観測の結果、ＳＬＡを満たす結果が見つかった時点で完了というものを終了条件にし、それに合致するまで繰り返して完了としても良いし、Ｑ値が１００００以上となった場合に学習完了とし、それを設定システム経由で設定して完了となる（ステップＳ１４〜Ｓ１７）。

このように、監視システムからの「ＳＬＡＮＧ」をきっかけとし、パラメータの変更を行なうことで、動的なパラメータ変更を実現できる。また、目的別に取得すべき環境情報などを管理することで、ネットワークスライスなどの目的（要件）の異なる多くの論理ネットワークのパラメータ変更にも対応することができる。なお、行動選択のランダム性の確保には「ε-greedy法」などを取る手法が多く活用されるが、本発明では、ランダム性確保の方法については限定しない。

［第２の実施形態］
第１の実施形態では、論理ネットワークの設定を変えながら、強化学習を行ない、価値の高い行動すなわち、ＳＬＡが満たされるようになるパラメータ変更方法を示した。しかし、実際のネットワークでは、商用として動作している論理ネットワークのパラメータを変更しながら学習するのは、品質が悪化する場合があることを考慮すると難しい。第２の実施形態では、このような不都合を解消するものである。

図１３は、第２の実施形態に係るネットワーク管理システムの概略構成を示す図である。第２の実施形態に係るネットワーク管理システム２０は、トラフィック保持システム２１を備え、第１の模写ネットワーク２３および第２の模写ネットワーク２５を想定している。その他の構成は、第１の実施形態と同様である。本実施形態において、模写ネットワークとは、論理ネットワークを別の環境に模写したものである。模写の方法としては、仮想化やエミュレータ等が考えられるが、本発明においては模写の方法については特に限定されない。第１の模写ネットワーク２３は、第１の論理ネットワーク１３に対応しており、第２の模写ネットワーク２５は、第２の論理ネットワーク１７に対応している。一般化すると、模写ネットワークの番号は論理ネットワークの番号と関連しており、模写ネットワークnは論理ネットワークｎを模写したものとする。

監視システム３は、各論理ネットワークに加え、各模写ネットワークも監視し、設定システム７も論理ネットワークに加え、模写ネットワークの設定を変更できる。

図１４は、トラフィック保持システム２１の概略構成を示す図である。トラフィック保持システム２１は、トラフィックデータ２１ａ、および通信部２１ｂを備え、商用で動作する各論理ネットワークにおいて、論理ネットワーク毎にトラフィックをキャプチャし、蓄積する。例えば、図１５に示すように、曜日と時間帯に区切って論理ネットワーク毎に直近一週間のトラフィックを蓄積するシステムである。また、模写ネットワークに対して、トラフィック保持システム２１から該当のトラフィックを流すことで、商用に近い環境を模写するネットワークとして動作させる。

図１６および図１７は、第２の実施形態に係るネットワーク管理システムの動作を示すフローチャートである。模写ネットワークは、事前に人などが構築しておくことを想定している（ステップＴ１）。その後、監視システム３が各模写ネットワークと関連する論理ネットワークを監視し（ステップＴ２）、各論理ネットワークのＳＬＡは満たされているかどうかを判断する（ステップＴ３）。ステップＴ３において、各論理ネットワークのＳＬＡは満たされている場合は、ステップＴ２へ遷移する一方、いずれかの論理ネットワークのＳＬＡが満たされていないと判断した場合は、パラメータ変更依頼をパラメータ算出システム５へ通知する（ステップＴ４）。

次に、パラメータ算出システム５は、パラメータ変更依頼に基づいて、目的情報および論理ネットワーク構成情報を抽出し（ステップＴ５）、目的を選択して環境ＤＢを作成（ステップＴ６）、トラフィック保持システム２１に対して、対応する模写ネットワークへ現在のトラフィック流入依頼を行なう（ステップＴ７）。そして、模写ネットワーク上での強化学習が実行される。すなわち、トラフィック保持システム２１から模写ネットワークへトラフィックを流入し、パラメータ算出システム５へ通知する（ステップＴ９）。パラメータ算出システム５は、模写ネットワークの初期値を確認し（ステップＴ８）、監視システム３は、模写ネットワークの性能情報を参照して、初期値をパラメータ算出システム５に通知する（ステップＴ１０）。

パラメータ算出システム５は、環境ＤＢへ初期値を登録し（ステップＴ１１）、行動を選択して、設定システム７へ行動依頼を行なう（ステップＴ１２）。設定システム７は、設定を作成し（ステップＴ１３）、模写ネットワークへ設定を入力し（ステップＴ１４）、設定入力完了通知をパラメータ算出システム５に行なう（ステップＴ１５）。パラメータ算出システム５は、模写ネットワークの環境を確認し（ステップＴ１６）、監視システム３は、模写ネットワークの性能情報を参照してパラメータ算出システム５に環境通知として通知する（ステップＴ１８）。

パラメータ算出システム５は、行動価値を計算し（ステップＴ１７）、終了条件が満たされたかどうかを判断する（ステップＴ１９）。ステップＴ１９において、終了条件が満たされていない場合は、ステップＴ１２へ遷移する一方、終了条件が満たされた場合は、報酬テーブルを更新する（ステップＴ２０）。そして、パラメータ算出システム５は、設定システム７に対してパラメータの初期化依頼を行ない（ステップＴ２１）、設定システム７は、設定を作成し（ステップＴ２２）、模写ネットワークのパラメータを初期化して（ステップＴ２３）、パラメータ算出システム５に対して初期化完了通知を行なう（ステップＴ２４）。

パラメータ算出システムは、エピソードが完了したかどうかを判断し（ステップＴ２５）、エピソードが完了していない場合は、ステップＴ１２へ遷移する。一方、ステップＴ１２において、エピソードが完了した場合は、パラメータ算出システム５は、最終パラメータを決定し（ステップＴ２６）、最終パラメータ設定依頼を設定システム７に行なう（ステップＴ２７）。設定システム７は、設定を作成し（ステップＴ２８）、模写ネットワークのパラメータを対応する論理ネットワークへ設定する（ステップＴ２９）。設定システム７は、設定入力完了通知をパラメータ算出システム５に行ない（ステップＴ３０）、パラメータ算出システム５は、パラメータ設定完了通知を監視システム３に通知し（ステップＴ３１）、監視システム３は、ＳＬＡを確認する（ステップＴ３２）。

次に、監視システム３は、論理ネットワークのＳＬＡは満たされているかどうかを判断し（ステップＴ３３）、満たされている場合は、ステップＴ３８へ遷移する一方、満たされていない場合は、再依頼フラグをＯＮとし（ステップＴ３４）、トラフィック停止依頼をトラフィック保持システム２１へ行なう（ステップＴ３５）。トラフィック保持システム２１は、該当する模写ネットワークへのトラフィックを停止してその旨を監視システム３へ通知する（ステップＴ３６）。監視システム３は、再依頼フラグがＯＦＦであるかどうかを判断し（ステップＴ３７）、ＯＦＦでない場合、すなわち、再依頼フラグがＯＮである場合は、ステップＴ４へ遷移する。一方、ステップＴ３７において、再依頼フラグがＯＦＦである場合は、完了する。

以上説明したように、本実施形態によれば、目的やサービス毎に論理的に分けられたネットワークにおいて、それぞれの論理ネットワークに強化学習を通じて、動的にパラメータを決定することができる。

１ネットワーク管理システム
３監視システム
３ａ構成情報
３ｂ性能情報
３ｃＳＬＡ情報
３ｄ通信部
５パラメータ算出システム
５ａ算出部
５ｂ行動情報
５ｃ目的情報
５ｄ通信部
７設定システム
７ａ設定作成部
７ｂノードコマンド情報
７ｃ通信部
９スイッチ
１０基地局
１１物理ネットワーク
１３第１の論理ネットワーク
１５携帯電話
１７第２の論理ネットワーク
１９車
２０ネットワーク管理システム
２１トラフィック保持システム
２１ａトラフィックデータ
２１ｂ通信部
２３第１の模写ネットワーク
２５第２の模写ネットワーク

Claims

サービスまたは目的に応じて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムであって、
前記各論理ネットワークを監視し、少なくとも前記各論理ネットワークの構成情報および性能情報を管理して、各論理ネットワークのネットワークパラメータの変更依頼または環境通知を出力する監視機能部と、
前記監視機能部からネットワークパラメータの変更依頼があったときに、サービスまたは目的毎に強化学習を行なって、前記論理ネットワークのパラメータを決定するパラメータ算出機能部と、
前記決定された論理ネットワークのパラメータを、当該論理ネットワークに設定する設定機能部と、を備え、
前記パラメータ算出機能部は、前記監視機能部から取得した初期環境通知に基づいて、ネットワークパラメータの変更内容を示す行動情報から行動を選定し、前記設定機能部を介して、前記論理ネットワークのネットワークパラメータを変更し、
前記監視機能部は、前記変更後のネットワークパラメータが設定された論理ネットワークを監視して前記パラメータ算出機能部に、前記変更後の環境通知を行ない、
前記パラメータ算出機能部は、前記環境通知とその前の環境通知結果とを比較することで、前記行動の行動価値を定める報酬を前記行動毎に付与することで学習を進め、学習後は最新の報酬テーブルに基づいて、前記行動情報から行動を選定することを特徴とするネットワーク管理システム。
前記各論理ネットワークのトラフィックを蓄積するトラフィック保持部と、
前記各論理ネットワークに対応し、前記論理ネットワークを仮想的に再現する複数の模写ネットワークと、をさらに備え、
前記パラメータ算出機能部は、前記監視機能部からネットワークパラメータの変更依頼があったときに、前記トラフィック保持部に対して対応する模写ネットワークに対してトラフィックの送出を指示し、前記模写ネットワーク上で前記強化学習を実行することを特徴とする請求項１記載のネットワーク管理システム。
サービスまたは目的に応じて設けられた複数の論理ネットワークのネットワークパラメータを、強化学習を用いて決定するネットワーク管理システムのプログラムであって、
監視機能部において、前記各論理ネットワークを監視し、少なくとも前記各論理ネットワークの構成情報および性能情報を管理して、各論理ネットワークのネットワークパラメータの変更依頼または環境通知を出力する処理と、
パラメータ算出機能部において、前記監視機能部からネットワークパラメータの変更依頼があったときに、サービスまたは目的毎に強化学習を行なって、前記論理ネットワークのパラメータを決定する処理と、
設定機能部において、前記決定された論理ネットワークのパラメータを、当該論理ネットワークに設定する処理と、の一連の処理をコンピュータに実行させ、
前記パラメータ算出機能部において、前記監視機能部から取得した初期環境通知に基づいて、ネットワークパラメータの変更内容を示す行動情報から行動を選定し、前記設定機能部を介して、前記論理ネットワークのネットワークパラメータを変更し、
前記監視機能部において、前記変更後のネットワークパラメータが設定された論理ネットワークを監視して前記パラメータ算出機能部に、前記変更後の環境通知を行ない、
前記パラメータ算出機能部において、前記環境通知とその前の環境通知結果とを比較することで、前記行動の行動価値を定める報酬を前記行動毎に付与することで学習を進め、学習後は最新の報酬テーブルに基づいて、前記行動情報を選定することを特徴とするプログラム。
トラフィック保持部において、前記各論理ネットワークのトラフィックを蓄積する処理と、
複数の模写ネットワークにおいて、前記各論理ネットワークに対応し、前記論理ネットワークを仮想的に再現する処理と、
前記パラメータ算出機能部において、前記監視機能部からネットワークパラメータの変更依頼があったときに、前記トラフィック保持部に対して対応する模写ネットワークに対してトラフィックの送出を指示し、前記模写ネットワーク上で前記強化学習を実行する処理と、をさらに実行することを特徴とする請求項３記載のプログラム。