JP7436747B2 - Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 - Google Patents

Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 Download PDF

Info

Publication number
JP7436747B2
JP7436747B2 JP2023504457A JP2023504457A JP7436747B2 JP 7436747 B2 JP7436747 B2 JP 7436747B2 JP 2023504457 A JP2023504457 A JP 2023504457A JP 2023504457 A JP2023504457 A JP 2023504457A JP 7436747 B2 JP7436747 B2 JP 7436747B2
Authority
JP
Japan
Prior art keywords
generation state
business
task
optimization target
policy parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023504457A
Other languages
English (en)
Other versions
JP2023535043A (ja
Inventor
王大江
叶友道
王振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of JP2023535043A publication Critical patent/JP2023535043A/ja
Application granted granted Critical
Publication of JP7436747B2 publication Critical patent/JP7436747B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/16Time-division multiplex systems in which the time allocation to individual channels within a transmission cycle is variable, e.g. to accommodate varying complexity of signals, to vary number of channels transmitted
    • H04J3/1605Fixed allocated frame structures
    • H04J3/1652Optical Transport Network [OTN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q11/0067Provisions for optical access or distribution networks, e.g. Gigabit Ethernet Passive Optical Network (GE-PON), ATM-based Passive Optical Network (A-PON), PON-Ring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0005Switch and router aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q2011/0073Provisions for forwarding or routing, e.g. lookup tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q2011/0086Network resource allocation, dimensioning or optimisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/1301Optical transmission, optical switches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本願は、2020年8月31日に提出された中国特許出願No.202010899413.3の優先権を主張し、当該中国特許出願の内容を参照により本願に援用する。
本公開は自動制御技術分野に関わり、具体的にOTNネットワークリソース最適化方法および装置、コンピュータデバイスとコンピュータ可読記憶媒体に関するものである。
人工知能技術の発展に伴い、強化学習技術の応用はますます各分野と業界に幅広く重視されている。強化学習(Reinforcement Learning)は、再励起学習、評価学習とも呼ばれ、重要な機械学習方法であり、知能制御ロボットやネットワーク分析予測などの分野に多くの応用がある。接続主義機械学習流派では、学習アルゴリズムを教師なし学習(unsupervised learning)、教師あり学習(supervised leaning)、強化学習という3つの類型に分類する。
強化学習はエージェント(Agent)が「試行錯誤」という方式で学習し、環境との相互作用により獲得する奨励指導行為であり、目標はエージェントに最大の奨励を獲得させることである。強化学習は接続主義学習における教師あり学習とは異なり、主に強化信号に現れ、強化学習において環境により提供される強化信号は動作発生の良否を評価するものであり(通常はスカラー信号である)、強化学習システム(Reinforcement Learning System,RLS)に正しい動作を如何に生成するかを教えるのではない。外部環境から提供される情報は少ないため、RLSは自身の経験に基づいて学習しなければならず、このような方法により、RLSは行動-評価という環境において知識を得て、環境に適応するように行動案を改善する。
近年、強化学習という技術の応用と普及に伴い、どのように当該技術の利点をOTN(Optical Transport Network、光伝送ネットワーク)ネットワークのインテリジェント化管理制御と運営・メンテナンスの分野に応用するか、特に強化学習のOTNネットワークリソース最適化における応用がOTN分野の専門家に広く注目されている。
1つの態様において本公開の実施例は、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含むOTNネットワークリソース最適化方法を提供する。
もう1つの態様において、本公開の実施例は、第1処理モジュール、第2処理モジュール、更新モジュールを含み、前記第1処理モジュールは、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置され、前記第2処理モジュールは、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置され、前記更新モジュールは、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置されるOTNネットワークリソース最適化装置をさらに提供する。
もう1つの態様において本公開の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を含み、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにて実行される時、前記1つまたは複数のプロセッサに上述のOTNネットワークリソース最適化方法を実現させるコンピュータデバイスをさらに提供する。
もう1つの態様において、本公開の実施例は、コンピュータプログラムが記憶されており、前記コンピュータプログラムが実行される時、上述のOTNネットワークリソース最適化方法を実現するコンピュータ可読記憶媒体をさらに提供する。
図1は本公開の実施例が提供するSDONアーキテクチャでの全ネットワークリソース最適化の概念図である。 図2は本公開の実施例が提供するOTNネットワークリソース最適化のフロー概念図である。 図3は本公開の実施例が提供する、最適化目標ポリシーパラメータを計算するフロー概念図である。 図4は本公開の実施例が提供する、現在の業務生成状態での生成対象業務を確定するフロー概念図である。 図5は本公開の実施例が提供するOTNネットワークリソース最適化装置の構造概念図である。
以下では図面を参考にして例示的な実施例をより十分に説明するが、例示的な実施例は、異なる形式で体現することができ、本文で述べた実施例に限定されると解釈すべきではない。これらの実施例を提供する目的は、本公開を詳らかにかつ完全にし、当業者に本公開の範囲を十分に理解させることである。
本文で使用する「および/または」という用語は1つまたは複数の関連列挙項目のいずれかとすべての組み合わせを含む。
本文で使用する用語は特定の実施例を説明するためのものにすぎず、本公開を限定することを意図するものではない。前後の文で特に明瞭に指摘しない限り、本文で使用する「1つ」および「当該」という単数形も複数形を含むことを意図している。また、本明細書で「含む」および/または「……によって形成される」という用語を使用する場合は、特定の特徴、実体、ステップ、操作、部材および/または構成要素が存在するが、1つまたは複数の他の特徴、実体、ステップ、操作、部材、構成要素および/またはそのグループの存在または追加を排除しないということを示す。
本文に記載の実施例は、本公開の理想的な概略図を用いて平面図および/または断面図を参照して説明することができる。したがって、製造技術および/または許容範囲に基づいて例示的な図面を修正することができるため、実施例は図面に示す実施例に限らず、製造プロセスに基づいて形成された配置修正を含む。よって、図面に例示された領域は概略的な属性を有し、図面に示された領域の形状は部材の領域の具体的な形状を例示しているが、限定することを意図しない。
特に限定しない限り、本文で使用するすべての用語(技術と科学用語を含む)の意味は、当業者が通常理解しているものと同じである。例えば、常用辞書において限定されているような用語は、その関連技術および本公開の背景での意味と一致する意味を有すると解釈されるべきであり、本文が明確にそのように限定しない限り、理想化されたものまたは過度な形式上の意味を有すると解釈されないとも理解される。
SDON(Software Defined Optical Network、ソフトウェアにより定義された光ネットワーク)アーキテクチャに基づく全ネットワークリソース最適化(Global Co-current Optimization, GCO)方案は図1に示す通りであり、GCOの主な目的は、OTNネットワークリソースの分配過程において、OTNネットワーク業務の開通に対して計画または一括生成を行う際に、各業務ルーティングとリソースの分配が阻害されるのを回避することを前提として、各業務が計算により得たルートとリソース占有の総和は、ユーザ(ネットワークサービスオペレータ)のネットワーク業務全体に対する既定のリソース分配の最適化目標を最大限満たす必要がある。全ネットワークリソース最適化技術によりユーザの運行維持コストCAPEX(資本的支出)/OPEX(運営コスト)を最大限低減し、運行維持収益を高め、伝送性能と品質を最適化することができ、このことはユーザネットワーク運営の経済効果に直接関わるため、当該技術はユーザの高度な重視を得ており、如何にしてOTNネットワークリソースの最適化を実現するかは意義が大きい。
OTNネットワーク業務の配置では通常、運営の需要に応じて各業務へ対応するOTNネットワークリソース(例えば、帯域幅、スペクトル、波長、変調フォーマット、ルートなど)を分配して、業務全体の指定された最適化ポリシーでのリソース最適化を満たす必要がある。最適化ポリシーは、業務全体の遅延が最短であること、ルートコストが最小であることなどを含む。同時に、運営収益の最大化、業務性能の最適化、最低限のCAPEX/OPEX投入などの点から考慮すると、OTN業務運営は既定の最適化ポリシーをめぐって、OTNネットワーク業務のネットワークリソース使用上の全体最適化を満たす必要もあり、例えば、OTNネットワーク業務の遅延が最小であり、OTNネットワークルートコストが最小であり、またはOTNネットワーク業務の帯域幅利用率が最高であるなどの事項を含む。このことは、OTNネットワーク業務が生成過程において、自らの業務リソースの最適化を満たす必要があるとともに、すべての業務の生成順序を編成することで、業務のOTNネットワークリソースの使用に対するグローバル最適化を満たす必要がある。
OTNネットワーク業務の生成過程は通常、同時生成、即ち、ある時点で複数の業務を一括生成するという方法を用い、業務生成過程は実際のところすべての業務の生成順序を確定するものであって、OTNネットワーク業務の生成順序はOTNネットワークリソースに対する占用形態とOTNネットワークリソース分配の最適化状態を決定する。OTNネットワーク業務に対する生成順序を業務生成編成ポリシー(即ち、動作ポリシー)と呼び、良好な業務生成編成ポリシーは、OTNネットワーク業務のネットワークリソース使用に対する最適化ポリシーを満たすことができる。
初期化段階では、OTNネットワークトポロジ構造(mesh、星型などの構造類型を含む)の環境条件に基づいてOTN業務をn個生成し、ネットワーク環境状態、動作空間、動作最適化目標ポリシー、動作ポリシーを初期化する。強化学習アルゴリズムの関連パラメータは以下のように定義される。
Figure 0007436747000001
Figure 0007436747000002
Figure 0007436747000003
Figure 0007436747000004
Figure 0007436747000005
Figure 0007436747000006
Figure 0007436747000007
Figure 0007436747000008
Figure 0007436747000009
Figure 0007436747000010
Figure 0007436747000011
Figure 0007436747000012
Figure 0007436747000013
Figure 0007436747000014
Figure 0007436747000015
Figure 0007436747000016
Figure 0007436747000017
Figure 0007436747000018
3.ラウンド(Episode)を定義する
ある動作ポリシーを用いて、OTNネットワーク業務の順次生成を完了し、1つのEpisodeと定義される。
Figure 0007436747000019
Figure 0007436747000020
本公開の実施例はOTNネットワークリソース最適化方法を提供し、図2に示すように、前記方法は以下のステップS11~S14を含む。
ステップS11:動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
本ステップでは、1つのラウンドにおいて、動作ポリシーに基づいて生成対象業務を確定し(当該生成対象業務のルートの確定を含む)、当該生成対象業務を生成した後、当該業務生成状態でのスポットボーナスを計算し、現在の業務生成状態が終了し、次の業務生成状態に移行する。上記ステップに従って、1つのラウンドにおける各業務生成状態に対して生成対象業務をそれぞれ生成して、1つのラウンドが終わるまで対応する業務生成状態でのスポットボーナスを計算し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
本ステップでは、異なるアルゴリズムを用いて最適化目標ポリシーパラメータを計算、更新することができる。なお、用いるアルゴリズムが異なるため、最適化目標ポリシーパラメータも異なり、後続にて各種アルゴリズムについて詳細に説明する。
ステップS12:予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
本ステップでは、ステップS11を繰り返して実行し、予め設定された数のラウンドを反複することで、各ラウンドにおける各業務生成状態での最適化目標ポリシーパラメータを計算、更新する。
ステップS13:前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定する。
本ステップでは、各業務生成状態に対して異なるラウンドの最適化目標ポリシーパラメータから当該業務生成状態での最適な最適化目標ポリシーパラメータを確定する。なお、用いるアルゴリズムが異なるため、最適な最適化目標ポリシーパラメータの確定方式も異なる。本ステップを経て、OTNネットワークのすべての生成対象業務に対応するすべての業務生成状態での最適な最適化目標ポリシーパラメータが得られる。
ステップS14:各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新する。
Figure 0007436747000021
本公開の実施例が提供するOTNネットワークリソース最適化方法は、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含み、本公開の実施例は強化学習アルゴリズムの賞罰メカニズムを利用してOTNネットワーク業務生成の順序を最適化し、得られた動作ポリシーは収束性が好ましく、厳密性と信頼性が高く、OTNネットワークリソースの最適化の問題をOTNネットワーク業務生成順序の問題に帰結し、最適化された動作ポリシーを得ることにより、OTNネットワークリソースのグローバル最適化を実現する。
Figure 0007436747000022
一部の実施の形態では、図3に示すように、前記の各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップは以下のステップS21、S22を含む。
ステップS21:次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算する。
Figure 0007436747000023
なお、最後の業務生成状態での予期リターンは、当該業務生成状態でのスポットボーナスである。
ステップS22:前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新する。
ステップS21~S22により、強化アルゴリズムの賞罰メカニズムを用いて最適化目標ポリシーパラメータの最適化を実現する。
Figure 0007436747000024
Figure 0007436747000025
一部の実施の形態では、図4に示すように、前記動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定するステップは、以下のステップS31~S35を含む。
ステップS31:現在の業務生成状態で各生成対象業務を選択する確率を計算する。
Figure 0007436747000026
ステップS32:前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて生成対象業務を確定する。
なお、強化学習のexploration(探索)構想に基づき、生成対象業務の選択についてはポリシーのランダム性に従う。
ステップS33:予め設定されたOTNネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列させる。
前記OTNネットワーク最適化目標関数は、OTNネットワーク業務ルートコストが最小であること、またはOTNネットワーク業務遅延が最短であることを含む。
選択される生成対象業務の候補ルートの選択については、貪欲なポリシー(greedy)の原則に従い、すべての候補ルートはOTNネットワーク最適化目標関数に従って配列する。例えば、OTNネットワーク最適化目標関数はルートコストが最小であるというものであれば、ルートコストが最小であるというポリシーに基づいて、KSP(K最適経路アルゴリズム)+RWA(ルート波長分配アルゴリズム)+RSA(非対称暗号アルゴリズム)から確定した生成対象業務のすべての候補ルートを、それぞれのルートコストの小さいものから大きいものへという順で配列する。
ステップS34:前記配列における候補ルートの数に応じて前記配列における各候補ルートの選択確率をそれぞれ計算する。
Figure 0007436747000027
ステップS35:前記配列における各候補ルートの選択確率から1つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとする。
Figure 0007436747000028
Figure 0007436747000029
Figure 0007436747000030
Figure 0007436747000031
Figure 0007436747000032
以下では、モンテカルロアルゴリズム、Q-Learningアルゴリズム、SASAアルゴリズム、動的計画法がOTNネットワークリソース最適化を実現する過程についてそれぞれ説明する。
(1)探索性初期化モンテカルロアルゴリズムを用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
Figure 0007436747000033
Figure 0007436747000034
以下の処理を重複循環(repeat)する。
Figure 0007436747000035
(2)Q-Learning(即ち、異なるポリシーのTD-Error)アルゴリズムを用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
Figure 0007436747000036
各Episodeに対して以下の処理を循環重複(Repeat)する。
Figure 0007436747000037
Figure 0007436747000038
Figure 0007436747000039
(3)SARSA(即ち、同一ポリシーのTD-Error)アルゴリズムを用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
Figure 0007436747000040
Figure 0007436747000041
(4)ポリシーに基づいて反復する動的計画法を用いてOTNネットワークリソース最適化を実現する処理過程は以下の通りである。
ステップ1:ネットワークトポロジ環境全体を初期化する。
Figure 0007436747000042
ステップ2:ポリシーを評価する。
Figure 0007436747000043
以下の処理を循環重複(Repeat)する。
Figure 0007436747000044
Figure 0007436747000045
Figure 0007436747000046
同一の技術思想に基づき、本公開の実施例はOTNネットワークリソース最適化装置をさらに提供する。図5に示すように、前記OTNネットワークリソース最適化装置は、第1処理モジュール101、第2処理モジュール102、更新モジュール103を含む。
第1処理モジュール101は動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成し、現在の業務生成状態でのスポットボーナスを計算して、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置される。
第2処理モジュール102は前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置される。
更新モジュール103は各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置される。
一部の実施の形態において、第1処理モジュール101は次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算し、前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置される。
Figure 0007436747000047
一部の実施の形態において、各ラウンドにおいて最後の業務生成状態での予期リターンは前記ラウンドの実際の総リターンであり、第1処理モジュール101は各ラウンドにおける最後の業務生成状態での実際の総リターンを計算した後、各ラウンドにおける最後の業務生成状態での最適化目標ポリシーパラメータを計算する前に、前記実際の総リターン、予め設定された閾値と予め設定された規定外のリターンに基づいて前記実際の総リターンを更新するようにさらに配置される。実際の総リターンが前記閾値以上である場合、実際の総リターン=実際の総リターン+前記規定外のリターンであり、実際の総リターンが前記閾値よりも小さい場合、実際の総リターン=実際の総リターン-前記規定外のリターンである。
Figure 0007436747000048
Figure 0007436747000049
Figure 0007436747000050
Figure 0007436747000051
Figure 0007436747000052
一部の実施の形態において、第1処理モジュール101は現在の業務生成状態で各生成対象業務を選択する確率を計算し、前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて生成対象業務を確定し、予め設定されたOTNネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列し、前記配列における候補ルートの数に基づいて、前記配列における各候補ルートの選択確率をそれぞれ計算し、前記配列における各候補ルートの選択確率に基づいて1つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとするように配置される。
Figure 0007436747000053
一部の実施の形態において、前記OTNネットワーク最適化目標関数はOTNネットワーク業務ルートコストが最小であるということ、またはOTNネットワーク業務遅延が最短であるということを含む。
Figure 0007436747000054
本公開の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を含み、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにて実行される時、前記1つまたは複数のプロセッサに前記各実施例が提供するOTNネットワークリソース最適化方法を実現させる、コンピュータデバイスをさらに提供する。
本公開の実施例は、コンピュータプログラムが記憶されており、当該コンピュータプログラムがプロセッサにて実行される時、前記各実施例が提供するOTNネットワークリソース最適化方法を実現する、コンピュータ可読記憶媒体をさらに提供する。
上文で開示した方法のすべてまたは一部のステップ、装置における機能モジュール/手段はソフトウェア、ファームウェア、ハードウェア、およびこれらの適切な組み合わせとして実施することができると当業者は理解できる。ハードウェアの実施形態において、上記の説明で言及した機能モジュール/手段との間の区分は必ずしも物理コンポーネントの区分に対応せず、例えば、1つの物理コンポーネントは複数の機能を有してもよく、あるいは1つの機能またはステップは若干のコンポーネントにより連携して実行することができる。一部の物理コンポーネントまたはすべての物理コンポーネントは、プロセッサ(例えば、中央処理器、デジタル信号処理器またはマイクロプロセッサ)によって実行されるソフトウェアとして実施されるか、またはハードウェアとして実施されるか、あるいは専用集積回路のような集積回路として実施されてよい。このようなソフトウェアは、コンピュータ記憶媒体(または非一時的媒体)と通信媒体(または一時的媒体)とを含むことができるコンピュータ可読媒体に配置することができる。当業者が周知しているように、コンピュータ記憶媒体という用語は、情報(例えば、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータ)を記憶するための任意の方法または技術において実施される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多機能ディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報を記憶するのに用いられ、且つコンピュータにてアクセスされ得る他の任意の媒体を含むが、これらに限らない。このほか、通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュール、もしくは搬送波または他の送信メカニズムといった変調データ信号内の他のデータを含み、任意の情報配信媒体を含むことができるということは当業者の公知事項である。
本文では例示的な実施の形態を開示し、具体的な用語を採用しているが、これらは一般的な例示的な意味としてのみ使用、解釈すべきであり、かつ限定的な目的のためのものではない。一部の実例では、別途明確に指摘しない限り、特定の実施の形態を組み合わせて説明した特徴、特性および/または元素を単独で使用してもよく、または他の実施の形態を組み合わせて説明した特徴、特性および/または部材を組み合わせて使用してもよいことは、当業者にとって明らかである。したがって、添付の請求項に記載の本公開の範囲を逸脱しない限り、様々な形式および詳細に関する変更を行うことができると当業者は理解できる。

Claims (14)

  1. 動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、
    予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、
    前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、
    各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含む
    OTNネットワークリソース最適化方法。
  2. 各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する前記ステップは、
    次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算するステップと、
    前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、を含む
    請求項1に記載の方法。
  3. Figure 0007436747000055
  4. 各ラウンドにおける最後の業務生成状態での予期リターンは前記ラウンドの実際の総リターンであり、前記方法はさらに、
    各ラウンドにおける最後の業務生成状態での実際の総リターンを計算した後、各ラウンドにおける最後の業務生成状態での最適化目標ポリシーパラメータを計算する前に、前記実際の総リターン、予め設定された閾値と予め設定された規定外のリターンに基づいて前記実際の総リターンを更新するステップを含み、
    実際の総リターンが前記閾値以上であれば、実際の総リターンは実際の総リターンと前記規定外のリターンとの和に等しく、実際の総リターンが前記閾値よりも小さければ、実際の総リターンは実際の総リターンと前記規定外のリターンとの差に等しい
    請求項2に記載の方法。
  5. Figure 0007436747000056
  6. Figure 0007436747000057
  7. Figure 0007436747000058
  8. 動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定する前記ステップは、
    現在の業務生成状態で各生成対象業務を選択する確率を計算するステップと、
    前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて1つの生成対象業務を確定するステップと、
    予め設定されたOTNネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列させるステップと、
    前記配列における候補ルートの数に基づいて、前記配列における各候補ルートの選択確率をそれぞれ計算するステップと、
    前記配列における各候補ルートの選択確率に基づいて1つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとするステップと、を含む
    請求項1~7のいずれか1項に記載の方法。
  9. Figure 0007436747000059
  10. 前記OTNネットワーク最適化目標関数は、OTNネットワーク業務ルートコストが最小であるかまたはOTNネットワーク業務の遅延が最短であることを含む
    請求項8に記載の方法。
  11. Figure 0007436747000060
  12. 第1処理モジュール、第2処理モジュール、更新モジュールを含み、
    前記第1処理モジュールは、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、1つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置され、
    前記第2処理モジュールは、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置され、
    前記更新モジュールは、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置される
    OTNネットワークリソース最適化装置。
  13. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムが記憶されている記憶装置と、を含み、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにて実行される時、前記1つまたは複数のプロセッサに請求項1~11のいずれか1項に記載のOTNネットワークリソース最適化方法を実現させる
    コンピュータデバイス。
  14. コンピュータプログラムが記憶されており、前記コンピュータプログラムが実行される時、請求項1~11のいずれか1項に記載のOTNネットワークリソース最適化方法を実現する
    コンピュータ可読記憶媒体。
JP2023504457A 2020-08-31 2021-08-06 Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体 Active JP7436747B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010899413.3A CN114125595A (zh) 2020-08-31 2020-08-31 Otn网络资源优化方法、装置、计算机设备和介质
CN202010899413.3 2020-08-31
PCT/CN2021/111209 WO2022042262A1 (zh) 2020-08-31 2021-08-06 Otn网络资源优化方法及装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
JP2023535043A JP2023535043A (ja) 2023-08-15
JP7436747B2 true JP7436747B2 (ja) 2024-02-22

Family

ID=80352592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023504457A Active JP7436747B2 (ja) 2020-08-31 2021-08-06 Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体

Country Status (5)

Country Link
US (1) US20230361902A1 (ja)
EP (1) EP4207793A1 (ja)
JP (1) JP7436747B2 (ja)
CN (1) CN114125595A (ja)
WO (1) WO2022042262A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114520939B (zh) * 2022-03-14 2023-02-10 西安电子科技大学 基于指标感知进化的光网络资源分配方法
CN115190020B (zh) * 2022-05-23 2023-09-26 清华大学 一种区域网络抗毁性优化方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101909223A (zh) 2009-10-27 2010-12-08 北京邮电大学 一种基于资源的wdm光网络通道保护p圈优化配置方法
CN103051565A (zh) 2013-01-04 2013-04-17 中兴通讯股份有限公司 一种等级软件定义网络控制器的架构系统及实现方法
JP2017158050A (ja) 2016-03-02 2017-09-07 富士通株式会社 リソース管理装置、リソース管理システム及びリソース管理プログラム
JP2018207180A (ja) 2017-05-30 2018-12-27 沖電気工業株式会社 親局通信装置、光通信ネットワークシステム、及び通信システム
US20190138948A1 (en) 2017-11-09 2019-05-09 Ciena Corporation Reinforcement learning for autonomous telecommunications networks
JP2019169804A (ja) 2018-03-22 2019-10-03 沖電気工業株式会社 局側装置及び局側装置制御プログラム
CN110458429A (zh) 2019-07-29 2019-11-15 暨南大学 一种针对地理网点的智能任务分配和人员调度方法、系统
WO2019229801A1 (ja) 2018-05-28 2019-12-05 三菱電機株式会社 無線アクセスネットワークの管理装置
WO2020001220A1 (zh) 2018-06-29 2020-01-02 中兴通讯股份有限公司 物理网元节点的虚拟化方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101909223A (zh) 2009-10-27 2010-12-08 北京邮电大学 一种基于资源的wdm光网络通道保护p圈优化配置方法
CN103051565A (zh) 2013-01-04 2013-04-17 中兴通讯股份有限公司 一种等级软件定义网络控制器的架构系统及实现方法
JP2017158050A (ja) 2016-03-02 2017-09-07 富士通株式会社 リソース管理装置、リソース管理システム及びリソース管理プログラム
JP2018207180A (ja) 2017-05-30 2018-12-27 沖電気工業株式会社 親局通信装置、光通信ネットワークシステム、及び通信システム
US20190138948A1 (en) 2017-11-09 2019-05-09 Ciena Corporation Reinforcement learning for autonomous telecommunications networks
JP2019169804A (ja) 2018-03-22 2019-10-03 沖電気工業株式会社 局側装置及び局側装置制御プログラム
WO2019229801A1 (ja) 2018-05-28 2019-12-05 三菱電機株式会社 無線アクセスネットワークの管理装置
WO2020001220A1 (zh) 2018-06-29 2020-01-02 中兴通讯股份有限公司 物理网元节点的虚拟化方法、装置、设备及存储介质
CN110458429A (zh) 2019-07-29 2019-11-15 暨南大学 一种针对地理网点的智能任务分配和人员调度方法、系统

Also Published As

Publication number Publication date
US20230361902A1 (en) 2023-11-09
WO2022042262A1 (zh) 2022-03-03
CN114125595A (zh) 2022-03-01
JP2023535043A (ja) 2023-08-15
EP4207793A1 (en) 2023-07-05

Similar Documents

Publication Publication Date Title
Chen et al. DeepRMSA: A deep reinforcement learning framework for routing, modulation and spectrum assignment in elastic optical networks
Zeng et al. Resource management at the network edge: A deep reinforcement learning approach
US11153229B2 (en) Autonomic resource partitions for adaptive networks
JP7436747B2 (ja) Otnネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体
Panayiotou et al. Survey on machine learning for traffic-driven service provisioning in optical networks
Mijumbi et al. A neuro-fuzzy approach to self-management of virtual network resources
US11809895B2 (en) Control device, control method, and program
Rkhami et al. On the use of graph neural networks for virtual network embedding
Santos et al. Resource provisioning in fog computing through deep reinforcement learning
Przewoźniczek et al. Towards solving practical problems of large solution space using a novel pattern searching hybrid evolutionary algorithm–an elastic optical network optimization case study
Soto et al. Towards autonomous VNF auto-scaling using deep reinforcement learning
Rafiq et al. Knowledge defined networks on the edge for service function chaining and reactive traffic steering
Villamayor-Paredes et al. Routing, modulation level, and spectrum assignment in elastic optical networks. A route-permutation based genetic algorithms
Santos et al. Reinforcement learning for service function chain allocation in fog computing
US10505840B2 (en) Methods and systems for failure recovery in a virtual network environment
WO2023130787A1 (en) Method and apparatus for managing network traffic via uncertainty
Laroui et al. Scalable and cost efficient resource allocation algorithms using deep reinforcement learning
EP4236345A1 (en) Single service resource configuration method and apparatus, computer device and medium
US9124496B2 (en) System and method for end- or service-node placement optimization
CN115633083A (zh) 一种电力通信网业务编排方法、装置及存储介质
JP7428831B2 (ja) Otnネットワークリソース最適化方法および装置、コンピュータデバイスならびに記憶媒体
Johari et al. DRL-assisted reoptimization of network slice embedding on EON-enabled transport networks
Oliveira et al. Cognitive Management of Bandwidth Allocation Models with Case-Based Reasoning-Evidences Towards Dynamic BAM Reconfiguration
Rai et al. Analysis of RWA in WDM optical networks using machine learning for traffic prediction and pattern extraction
Yang et al. Virtual network function placement based on differentiated weight graph convolutional neural network and maximal weight matching

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240208

R150 Certificate of patent or registration of utility model

Ref document number: 7436747

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150