JP2023535043A - Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 - Google Patents
Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 Download PDFInfo
- Publication number
- JP2023535043A JP2023535043A JP2023504457A JP2023504457A JP2023535043A JP 2023535043 A JP2023535043 A JP 2023535043A JP 2023504457 A JP2023504457 A JP 2023504457A JP 2023504457 A JP2023504457 A JP 2023504457A JP 2023535043 A JP2023535043 A JP 2023535043A
- Authority
- JP
- Japan
- Prior art keywords
- generation state
- business
- optimization
- task
- policy parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000003860 storage Methods 0.000 title claims description 15
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 17
- 230000002787 reinforcement Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- MWRWFPQBGSZWNV-UHFFFAOYSA-N Dinitrosopentamethylenetetramine Chemical compound C1N2CN(N=O)CN1CN(N=O)C2 MWRWFPQBGSZWNV-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 229940112112 capex Drugs 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- FEBLZLNTKCEFIT-VSXGLTOVSA-N fluocinolone acetonide Chemical compound C1([C@@H](F)C2)=CC(=O)C=C[C@]1(C)[C@]1(F)[C@@H]2[C@@H]2C[C@H]3OC(C)(C)O[C@@]3(C(=O)CO)[C@@]2(C)C[C@@H]1O FEBLZLNTKCEFIT-VSXGLTOVSA-N 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 240000005499 Sasa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q11/0067—Provisions for optical access or distribution networks, e.g. Gigabit Ethernet Passive Optical Network (GE-PON), ATM-based Passive Optical Network (A-PON), PON-Ring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J3/00—Time-division multiplex systems
- H04J3/16—Time-division multiplex systems in which the time allocation to individual channels within a transmission cycle is variable, e.g. to accommodate varying complexity of signals, to vary number of channels transmitted
- H04J3/1605—Fixed allocated frame structures
- H04J3/1652—Optical Transport Network [OTN]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0005—Switch and router aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/0073—Provisions for forwarding or routing, e.g. lookup tables
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/0086—Network resource allocation, dimensioning or optimisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q2213/00—Indexing scheme relating to selecting arrangements in general and for multiplex systems
- H04Q2213/1301—Optical transmission, optical switches
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Telephonic Communication Services (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公開は、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づき、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定し、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて動作ポリシーを更新する、OTNネットワークリソース最適化方法を提供する。【選択図】図2
Description
本願は、2020年8月31日に提出された中国特許出願No.202010899413.3の優先権を主張し、当該中国特許出願の内容を参照により本願に援用する。
本公開は自動制御技術分野に関わり、具体的にOTNネットワークリソース最適化方法および装置、コンピュータデバイスとコンピュータ可読記憶媒体に関するものである。
人工知能技術の発展に伴い、強化学習技術の応用はますます各分野と業界に幅広く重視されている。強化学習(Reinforcement Learning)は、再励起学習、評価学習とも呼ばれ、重要な機械学習方法であり、知能制御ロボットやネットワーク分析予測などの分野に多くの応用がある。接続主義機械学習流派では、学習アルゴリズムを教師なし学習(unsupervised learning)、教師あり学習(supervised leaning)、強化学習という3つの類型に分類する。
強化学習はエージェント(Agent)が「試行錯誤」という方式で学習し、環境との相互作用により獲得する奨励指導行為であり、目標はエージェントに最大の奨励を獲得させることである。強化学習は接続主義学習における教師あり学習とは異なり、主に強化信号に現れ、強化学習において環境により提供される強化信号は動作発生の良否を評価するものであり(通常はスカラー信号である)、強化学習システム(Reinforcement Learning System,RLS)に正しい動作を如何に生成するかを教えるのではない。外部環境から提供される情報は少ないため、RLSは自身の経験に基づいて学習しなければならず、このような方法により、RLSは行動-評価という環境において知識を得て、環境に適応するように行動案を改善する。
近年、強化学習という技術の応用と普及に伴い、どのように当該技術の利点をOTN(Optical Transport Network、光伝送ネットワーク)ネットワークのインテリジェント化管理制御と運営・メンテナンスの分野に応用するか、特に強化学習のOTNネットワークリソース最適化における応用がOTN分野の専門家に広く注目されている。
1つの態様において本公開の実施例は、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含むOTNネットワークリソース最適化方法を提供する。
もう1つの態様において、本公開の実施例は、第1処理モジュール、第2処理モジュール、更新モジュールを含み、前記第1処理モジュールは、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置され、前記第2処理モジュールは、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置され、前記更新モジュールは、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置されるOTNネットワークリソース最適化装置をさらに提供する。
もう1つの態様において本公開の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を含み、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにて実行される時、前記1つまたは複数のプロセッサに上述のOTNネットワークリソース最適化方法を実現させるコンピュータデバイスをさらに提供する。
もう1つの態様において、本公開の実施例は、コンピュータプログラムが記憶されており、前記コンピュータプログラムが実行される時、上述のOTNネットワークリソース最適化方法を実現するコンピュータ可読記憶媒体をさらに提供する。
以下では図面を参考にして例示的な実施例をより十分に説明するが、例示的な実施例は、異なる形式で体現することができ、本文で述べた実施例に限定されると解釈すべきではない。これらの実施例を提供する目的は、本公開を詳らかにかつ完全にし、当業者に本公開の範囲を十分に理解させることである。
本文で使用する「および/または」という用語は1つまたは複数の関連列挙項目のいずれかとすべての組み合わせを含む。
本文で使用する用語は特定の実施例を説明するためのものにすぎず、本公開を限定することを意図するものではない。前後の文で特に明瞭に指摘しない限り、本文で使用する「1つ」および「当該」という単数形も複数形を含むことを意図している。また、本明細書で「含む」および/または「……によって形成される」という用語を使用する場合は、特定の特徴、実体、ステップ、操作、部材および/または構成要素が存在するが、1つまたは複数の他の特徴、実体、ステップ、操作、部材、構成要素および/またはそのグループの存在または追加を排除しないということを示す。
本文に記載の実施例は、本公開の理想的な概略図を用いて平面図および/または断面図を参照して説明することができる。したがって、製造技術および/または許容範囲に基づいて例示的な図面を修正することができるため、実施例は図面に示す実施例に限らず、製造プロセスに基づいて形成された配置修正を含む。よって、図面に例示された領域は概略的な属性を有し、図面に示された領域の形状は部材の領域の具体的な形状を例示しているが、限定することを意図しない。
特に限定しない限り、本文で使用するすべての用語(技術と科学用語を含む)の意味は、当業者が通常理解しているものと同じである。例えば、常用辞書において限定されているような用語は、その関連技術および本公開の背景での意味と一致する意味を有すると解釈されるべきであり、本文が明確にそのように限定しない限り、理想化されたものまたは過度な形式上の意味を有すると解釈されないとも理解される。
SDON(Software Defined Optical Network、ソフトウェアにより定義された光ネットワーク)アーキテクチャに基づく全ネットワークリソース最適化(Global Co-current Optimization, GCO)方案は図1に示す通りであり、GCOの主な目的は、OTNネットワークリソースの分配過程において、OTNネットワーク業務の開通に対して計画または一括生成を行う際に、各業務ルーティングとリソースの分配が阻害されるのを回避することを前提として、各業務が計算により得たルートとリソース占有の総和は、ユーザ(ネットワークサービスオペレータ)のネットワーク業務全体に対する既定のリソース分配の最適化目標を最大限満たす必要がある。全ネットワークリソース最適化技術によりユーザの運行維持コストCAPEX(資本的支出)/OPEX(運営コスト)を最大限低減し、運行維持収益を高め、伝送性能と品質を最適化することができ、このことはユーザネットワーク運営の経済効果に直接関わるため、当該技術はユーザの高度な重視を得ており、如何にしてOTNネットワークリソースの最適化を実現するかは意義が大きい。
OTNネットワーク業務の配置では通常、運営の需要に応じて各業務へ対応するOTNネットワークリソース(例えば、帯域幅、スペクトル、波長、変調フォーマット、ルートなど)を分配して、業務全体の指定された最適化ポリシーでのリソース最適化を満たす必要がある。最適化ポリシーは、業務全体の遅延が最短であること、ルートコストが最小であることなどを含む。同時に、運営収益の最大化、業務性能の最適化、最低限のCAPEX/OPEX投入などの点から考慮すると、OTN業務運営は既定の最適化ポリシーをめぐって、OTNネットワーク業務のネットワークリソース使用上の全体最適化を満たす必要もあり、例えば、OTNネットワーク業務の遅延が最小であり、OTNネットワークルートコストが最小であり、またはOTNネットワーク業務の帯域幅利用率が最高であるなどの事項を含む。このことは、OTNネットワーク業務が生成過程において、自らの業務リソースの最適化を満たす必要があるとともに、すべての業務の生成順序を編成することで、業務のOTNネットワークリソースの使用に対するグローバル最適化を満たす必要がある。
OTNネットワーク業務の生成過程は通常、同時生成、即ち、ある時点で複数の業務を一括生成するという方法を用い、業務生成過程は実際のところすべての業務の生成順序を確定するものであって、OTNネットワーク業務の生成順序はOTNネットワークリソースに対する占用形態とOTNネットワークリソース分配の最適化状態を決定する。OTNネットワーク業務に対する生成順序を業務生成編成ポリシー(即ち、動作ポリシー)と呼び、良好な業務生成編成ポリシーは、OTNネットワーク業務のネットワークリソース使用に対する最適化ポリシーを満たすことができる。
初期化段階では、OTNネットワークトポロジ構造(mesh、星型などの構造類型を含む)の環境条件に基づいてOTN業務をn個生成し、ネットワーク環境状態、動作空間、動作最適化目標ポリシー、動作ポリシーを初期化する。強化学習アルゴリズムの関連パラメータは以下のように定義される。
3.ラウンド(Episode)を定義する
ある動作ポリシーを用いて、OTNネットワーク業務の順次生成を完了し、1つのEpisodeと定義される。
ある動作ポリシーを用いて、OTNネットワーク業務の順次生成を完了し、1つのEpisodeと定義される。
本公開の実施例はOTNネットワークリソース最適化方法を提供し、図2に示すように、前記方法は以下のステップS11~S14を含む。
ステップS11:動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
本ステップでは、1つのラウンドにおいて、動作ポリシーに基づいて生成対象業務を確定し(当該生成対象業務のルートの確定を含む)、当該生成対象業務を生成した後、当該業務生成状態でのスポットボーナスを計算し、現在の業務生成状態が終了し、次の業務生成状態に移行する。上記ステップに従って、1つのラウンドにおける各業務生成状態に対して生成対象業務をそれぞれ生成して、1つのラウンドが終わるまで対応する業務生成状態でのスポットボーナスを計算し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
本ステップでは、異なるアルゴリズムを用いて最適化目標ポリシーパラメータを計算、更新することができる。なお、用いるアルゴリズムが異なるため、最適化目標ポリシーパラメータも異なり、後続にて各種アルゴリズムについて詳細に説明する。
ステップS12:予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
本ステップでは、ステップS11を繰り返して実行し、予め設定された数のラウンドを反複することで、各ラウンドにおける各業務生成状態での最適化目標ポリシーパラメータを計算、更新する。
ステップS13:前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定する。
本ステップでは、各業務生成状態に対して異なるラウンドの最適化目標ポリシーパラメータから当該業務生成状態での最適な最適化目標ポリシーパラメータを確定する。なお、用いるアルゴリズムが異なるため、最適な最適化目標ポリシーパラメータの確定方式も異なる。本ステップを経て、OTNネットワークのすべての生成対象業務に対応するすべての業務生成状態での最適な最適化目標ポリシーパラメータが得られる。
ステップS14:各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新する。
本公開の実施例が提供するOTNネットワークリソース最適化方法は、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含み、本公開の実施例は強化学習アルゴリズムの賞罰メカニズムを利用してOTNネットワーク業務生成の順序を最適化し、得られた動作ポリシーは収束性が好ましく、厳密性と信頼性が高く、OTNネットワークリソースの最適化の問題をOTNネットワーク業務生成順序の問題に帰結し、最適化された動作ポリシーを得ることにより、OTNネットワークリソースのグローバル最適化を実現する。
一部の実施の形態では、図3に示すように、前記の各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップは以下のステップS21、S22を含む。
ステップS21:次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算する。
なお、最後の業務生成状態での予期リターンは、当該業務生成状態でのスポットボーナスである。
ステップS22:前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
ステップS21~S22により、強化アルゴリズムの賞罰メカニズムを用いて最適化目標ポリシーパラメータの最適化を実現する。
一部の実施の形態では、図4に示すように、前記動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定するステップは、以下のステップS31~S35を含む。
ステップS31:現在の業務生成状態で各生成対象業務を選択する確率を計算する。
ステップS32:前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて生成対象業務を確定する。
なお、強化学習のexploration(探索)構想に基づき、生成対象業務の選択についてはポリシーのランダム性に従う。
ステップS33:予め設定されたOTNネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列させる。
前記OTNネットワーク最適化目標関数は、OTNネットワーク業務ルートコストが最小であること、またはOTNネットワーク業務遅延が最短であることを含む。
選択される生成対象業務の候補ルートの選択については、貪欲なポリシー(greedy)の原則に従い、すべての候補ルートはOTNネットワーク最適化目標関数に従って配列する。例えば、OTNネットワーク最適化目標関数はルートコストが最小であるというものであれば、ルートコストが最小であるというポリシーに基づいて、KSP(K最適経路アルゴリズム)+RWA(ルート波長分配アルゴリズム)+RSA(非対称暗号アルゴリズム)から確定した生成対象業務のすべての候補ルートを、それぞれのルートコストの小さいものから大きいものへという順で配列する。
ステップS34:前記配列における候補ルートの数に応じて前記配列における各候補ルートの選択確率をそれぞれ計算する。
ステップS35:前記配列における各候補ルートの選択確率から1つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとする。
以下では、モンテカルロアルゴリズム、Q-Learningアルゴリズム、SASAアルゴリズム、動的計画法がOTNネットワークリソース最適化を実現する過程についてそれぞれ説明する。
(1)探索性初期化モンテカルロアルゴリズムを用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
以下の処理を重複循環(repeat)する。
(2)Q-Learning(即ち、異なるポリシーのTD-Error)アルゴリズムを用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
各Episodeに対して以下の処理を循環重複(Repeat)する。
(3)SARSA(即ち、同一ポリシーのTD-Error)アルゴリズムを用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
(4)ポリシーに基づいて反復する動的計画法を用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
ステップ1:ネットワークトポロジ環境全体を初期化する。
ステップ2:ポリシーを評価する。
以下の処理を循環重複(Repeat)する。
同一の技術思想に基づき、本公開の実施例はOTNネットワークリソース最適化装置をさらに提供する。図5に示すように、前記OTNネットワークリソース最適化装置は、第1処理モジュール101、第2処理モジュール102、更新モジュール103を含む。
第1処理モジュール101は動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成し、現在の業務生成状態でのスポットボーナスを計算して、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置される。
第2処理モジュール102は前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置される。
更新モジュール103は各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置される。
一部の実施の形態において、第1処理モジュール101は次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算し、前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置される。
一部の実施の形態において、各ラウンドにおいて最後の業務生成状態での予期リターンは前記ラウンドの実際の総リターンであり、第1処理モジュール101は各ラウンドにおける最後の業務生成状態での実際の総リターンを計算した後、各ラウンドにおける最後の業務生成状態での最適化目標ポリシーパラメータを計算する前に、前記実際の総リターン、予め設定された閾値と予め設定された規定外のリターンに基づいて前記実際の総リターンを更新するようにさらに配置される。実際の総リターンが前記閾値以上である場合、実際の総リターン=実際の総リターン+前記規定外のリターンであり、実際の総リターンが前記閾値よりも小さい場合、実際の総リターン=実際の総リターン-前記規定外のリターンである。
一部の実施の形態において、第1処理モジュール101は現在の業務生成状態で各生成対象業務を選択する確率を計算し、前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて生成対象業務を確定し、予め設定されたOTNネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列し、前記配列における候補ルートの数に基づいて、前記配列における各候補ルートの選択確率をそれぞれ計算し、前記配列における各候補ルートの選択確率に基づいて1つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとするように配置される。
一部の実施の形態において、前記OTNネットワーク最適化目標関数はOTNネットワーク業務ルートコストが最小であるということ、またはOTNネットワーク業務遅延が最短であるということを含む。
本公開の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を含み、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにて実行される時、前記1つまたは複数のプロセッサに前記各実施例が提供するOTNネットワークリソース最適化方法を実現させる、コンピュータデバイスをさらに提供する。
本公開の実施例は、コンピュータプログラムが記憶されており、当該コンピュータプログラムがプロセッサにて実行される時、前記各実施例が提供するOTNネットワークリソース最適化方法を実現する、コンピュータ可読記憶媒体をさらに提供する。
上文で開示した方法のすべてまたは一部のステップ、装置における機能モジュール/手段はソフトウェア、ファームウェア、ハードウェア、およびこれらの適切な組み合わせとして実施することができると当業者は理解できる。ハードウェアの実施形態において、上記の説明で言及した機能モジュール/手段との間の区分は必ずしも物理コンポーネントの区分に対応せず、例えば、1つの物理コンポーネントは複数の機能を有してもよく、あるいは1つの機能またはステップは若干のコンポーネントにより連携して実行することができる。一部の物理コンポーネントまたはすべての物理コンポーネントは、プロセッサ(例えば、中央処理器、デジタル信号処理器またはマイクロプロセッサ)によって実行されるソフトウェアとして実施されるか、またはハードウェアとして実施されるか、あるいは専用集積回路のような集積回路として実施されてよい。このようなソフトウェアは、コンピュータ記憶媒体(または非一時的媒体)と通信媒体(または一時的媒体)とを含むことができるコンピュータ可読媒体に配置することができる。当業者が周知しているように、コンピュータ記憶媒体という用語は、情報(例えば、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータ)を記憶するための任意の方法または技術において実施される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多機能ディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報を記憶するのに用いられ、且つコンピュータにてアクセスされ得る他の任意の媒体を含むが、これらに限らない。このほか、通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュール、もしくは搬送波または他の送信メカニズムといった変調データ信号内の他のデータを含み、任意の情報配信媒体を含むことができるということは当業者の公知事項である。
本文では例示的な実施の形態を開示し、具体的な用語を採用しているが、これらは一般的な例示的な意味としてのみ使用、解釈すべきであり、かつ限定的な目的のためのものではない。一部の実例では、別途明確に指摘しない限り、特定の実施の形態を組み合わせて説明した特徴、特性および/または元素を単独で使用してもよく、または他の実施の形態を組み合わせて説明した特徴、特性および/または部材を組み合わせて使用してもよいことは、当業者にとって明らかである。したがって、添付の請求項に記載の本公開の範囲を逸脱しない限り、様々な形式および詳細に関する変更を行うことができると当業者は理解できる。
Claims (14)
- 動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、
予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、
前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、
各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含む
OTNネットワークリソース最適化方法。 - 各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する前記ステップは、
次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算するステップと、
前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、を含む
請求項1に記載の方法。 - 各ラウンドにおける最後の業務生成状態での予期リターンは前記ラウンドの実際の総リターンであり、前記方法はさらに、
各ラウンドにおける最後の業務生成状態での実際の総リターンを計算した後、各ラウンドにおける最後の業務生成状態での最適化目標ポリシーパラメータを計算する前に、前記実際の総リターン、予め設定された閾値と予め設定された規定外のリターンに基づいて前記実際の総リターンを更新するステップを含み、
実際の総リターンが前記閾値以上であれば、実際の総リターンは実際の総リターンと前記規定外のリターンとの和に等しく、実際の総リターンが前記閾値よりも小さければ、実際の総リターンは実際の総リターンと前記規定外のリターンとの差に等しい
請求項2に記載の方法。 - 動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定する前記ステップは、
現在の業務生成状態で各生成対象業務を選択する確率を計算するステップと、
前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて1つの生成対象業務を確定するステップと、
予め設定されたOTNネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列させるステップと、
前記配列における候補ルートの数に基づいて、前記配列における各候補ルートの選択確率をそれぞれ計算するステップと、
前記配列における各候補ルートの選択確率に基づいて1つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとするステップと、を含む
請求項1~7のいずれか1項に記載の方法。 - 前記OTNネットワーク最適化目標関数は、OTNネットワーク業務ルートコストが最小であるかまたはOTNネットワーク業務の遅延が最短であることを含む
請求項8に記載の方法。 - 第1処理モジュール、第2処理モジュール、更新モジュールを含み、
前記第1処理モジュールは、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置され、
前記第2処理モジュールは、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置され、
前記更新モジュールは、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置される
OTNネットワークリソース最適化装置。 - 1つまたは複数のプロセッサと、
1つまたは複数のプログラムが記憶されている記憶装置と、を含み、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにて実行される時、前記1つまたは複数のプロセッサに請求項1~11のいずれか1項に記載のOTNネットワークリソース最適化方法を実現させる
コンピュータデバイス。 - コンピュータプログラムが記憶されており、前記コンピュータプログラムが実行される時、請求項1~11のいずれか1項に記載のOTNネットワークリソース最適化方法を実現する
コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010899413.3 | 2020-08-31 | ||
CN202010899413.3A CN114125595A (zh) | 2020-08-31 | 2020-08-31 | Otn网络资源优化方法、装置、计算机设备和介质 |
PCT/CN2021/111209 WO2022042262A1 (zh) | 2020-08-31 | 2021-08-06 | Otn网络资源优化方法及装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023535043A true JP2023535043A (ja) | 2023-08-15 |
JP7436747B2 JP7436747B2 (ja) | 2024-02-22 |
Family
ID=80352592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023504457A Active JP7436747B2 (ja) | 2020-08-31 | 2021-08-06 | Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230361902A1 (ja) |
EP (1) | EP4207793A4 (ja) |
JP (1) | JP7436747B2 (ja) |
CN (1) | CN114125595A (ja) |
WO (1) | WO2022042262A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114520939B (zh) * | 2022-03-14 | 2023-02-10 | 西安电子科技大学 | 基于指标感知进化的光网络资源分配方法 |
CN115190020B (zh) * | 2022-05-23 | 2023-09-26 | 清华大学 | 一种区域网络抗毁性优化方法和装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100499534C (zh) * | 2003-04-24 | 2009-06-10 | 华为技术有限公司 | 一种实现光同步数字传送网多业务优化的方法 |
CN101909223B (zh) * | 2009-10-27 | 2013-11-27 | 北京邮电大学 | 一种基于资源的wdm光网络通道保护p圈优化配置方法 |
CN103051565B (zh) | 2013-01-04 | 2018-01-05 | 中兴通讯股份有限公司 | 一种等级软件定义网络控制器的架构系统及实现方法 |
JP6631322B2 (ja) | 2016-03-02 | 2020-01-15 | 富士通株式会社 | リソース管理装置、リソース管理システム及びリソース管理プログラム |
JP7145587B2 (ja) | 2017-05-30 | 2022-10-03 | 沖電気工業株式会社 | 親局通信装置、光通信ネットワークシステム、及び通信システム |
US11126929B2 (en) | 2017-11-09 | 2021-09-21 | Ciena Corporation | Reinforcement learning for autonomous telecommunications networks |
JP6590017B2 (ja) | 2018-03-22 | 2019-10-16 | 沖電気工業株式会社 | 局側装置及び局側装置制御プログラム |
CN112205022B (zh) | 2018-05-28 | 2024-04-12 | 三菱电机株式会社 | 无线接入网络的管理装置 |
CN110661633B (zh) | 2018-06-29 | 2022-03-15 | 中兴通讯股份有限公司 | 物理网元节点的虚拟化方法、装置、设备及存储介质 |
CN110458429A (zh) * | 2019-07-29 | 2019-11-15 | 暨南大学 | 一种针对地理网点的智能任务分配和人员调度方法、系统 |
-
2020
- 2020-08-31 CN CN202010899413.3A patent/CN114125595A/zh active Pending
-
2021
- 2021-08-06 US US18/023,347 patent/US20230361902A1/en active Pending
- 2021-08-06 JP JP2023504457A patent/JP7436747B2/ja active Active
- 2021-08-06 EP EP21860102.9A patent/EP4207793A4/en active Pending
- 2021-08-06 WO PCT/CN2021/111209 patent/WO2022042262A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
JP7436747B2 (ja) | 2024-02-22 |
CN114125595A (zh) | 2022-03-01 |
EP4207793A1 (en) | 2023-07-05 |
EP4207793A4 (en) | 2024-08-14 |
US20230361902A1 (en) | 2023-11-09 |
WO2022042262A1 (zh) | 2022-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10491501B2 (en) | Traffic-adaptive network control systems and methods | |
CA3166419A1 (en) | Bandwidth allocation using machine learning | |
Panayiotou et al. | Survey on machine learning for traffic-driven service provisioning in optical networks | |
JP2023535043A (ja) | Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 | |
Kim et al. | Prediction based sub-task offloading in mobile edge computing | |
Rkhami et al. | On the use of graph neural networks for virtual network embedding | |
Santos et al. | Resource provisioning in fog computing through deep reinforcement learning | |
US20170153925A1 (en) | Network | |
Cai et al. | SARM: service function chain active reconfiguration mechanism based on load and demand prediction | |
Soto et al. | Towards autonomous VNF auto-scaling using deep reinforcement learning | |
Santos et al. | Reinforcement learning for service function chain allocation in fog computing | |
Villamayor-Paredes et al. | Routing, modulation level, and spectrum assignment in elastic optical networks. A route-permutation based genetic algorithms | |
Rai et al. | Analysis of RWA in WDM optical networks using machine learning for traffic prediction and pattern extraction | |
Ksieniewicz et al. | Pattern recognition model to aid the optimization of dynamic spectrally-spatially flexible optical networks | |
Laroui et al. | Scalable and cost efficient resource allocation algorithms using deep reinforcement learning | |
EP4236345A1 (en) | Single service resource configuration method and apparatus, computer device and medium | |
WO2022218377A1 (en) | Automatic container migration system | |
US20230216811A1 (en) | Method and apparatus for managing network traffic via uncertainty | |
CN115633083A (zh) | 一种电力通信网业务编排方法、装置及存储介质 | |
Mohamed et al. | Service function chain network planning through offline, online and infeasibility restoration techniques | |
Johari et al. | DRL-assisted reoptimization of network slice embedding on EON-enabled transport networks | |
JP7428831B2 (ja) | Otnネットワークリソース最適化方法および装置、コンピュータデバイスならびに記憶媒体 | |
Moreira et al. | 5G and edge: A reinforcement learning approach for Virtual Network Embedding with cost optimization and improved acceptance rate | |
Nguyen et al. | LP relaxation-based approximation algorithms for maximizing entangled quantum routing rate | |
Mostafa et al. | Intent profiling and translation through emergent communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7436747 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |