JP2023535043A

JP2023535043A - Ｏｔｎネットワークリソース最適化方法および装置、コンピュータデバイスと記憶媒体

Info

Publication number: JP2023535043A
Application number: JP2023504457A
Authority: JP
Inventors: 王大江; 叶友道; 王振宇
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2020-08-31
Filing date: 2021-08-06
Publication date: 2023-08-15
Anticipated expiration: 2041-08-06
Also published as: EP4207793A4; CN114125595A; JP7436747B2; US20230361902A1; EP4207793A1; WO2022042262A1

Abstract

本公開は、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、１つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づき、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定し、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて動作ポリシーを更新する、ＯＴＮネットワークリソース最適化方法を提供する。【選択図】図２

Description

本願は、２０２０年８月３１日に提出された中国特許出願Ｎｏ．２０２０１０８９９４１３．３の優先権を主張し、当該中国特許出願の内容を参照により本願に援用する。

本公開は自動制御技術分野に関わり、具体的にＯＴＮネットワークリソース最適化方法および装置、コンピュータデバイスとコンピュータ可読記憶媒体に関するものである。

人工知能技術の発展に伴い、強化学習技術の応用はますます各分野と業界に幅広く重視されている。強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）は、再励起学習、評価学習とも呼ばれ、重要な機械学習方法であり、知能制御ロボットやネットワーク分析予測などの分野に多くの応用がある。接続主義機械学習流派では、学習アルゴリズムを教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｎｉｎｇ）、強化学習という３つの類型に分類する。

強化学習はエージェント（Ａｇｅｎｔ）が「試行錯誤」という方式で学習し、環境との相互作用により獲得する奨励指導行為であり、目標はエージェントに最大の奨励を獲得させることである。強化学習は接続主義学習における教師あり学習とは異なり、主に強化信号に現れ、強化学習において環境により提供される強化信号は動作発生の良否を評価するものであり（通常はスカラー信号である）、強化学習システム（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＳｙｓｔｅｍ，ＲＬＳ）に正しい動作を如何に生成するかを教えるのではない。外部環境から提供される情報は少ないため、ＲＬＳは自身の経験に基づいて学習しなければならず、このような方法により、ＲＬＳは行動－評価という環境において知識を得て、環境に適応するように行動案を改善する。

近年、強化学習という技術の応用と普及に伴い、どのように当該技術の利点をＯＴＮ（ＯｐｔｉｃａｌＴｒａｎｓｐｏｒｔＮｅｔｗｏｒｋ、光伝送ネットワーク）ネットワークのインテリジェント化管理制御と運営・メンテナンスの分野に応用するか、特に強化学習のＯＴＮネットワークリソース最適化における応用がＯＴＮ分野の専門家に広く注目されている。

１つの態様において本公開の実施例は、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、１つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含むＯＴＮネットワークリソース最適化方法を提供する。

もう１つの態様において、本公開の実施例は、第１処理モジュール、第２処理モジュール、更新モジュールを含み、前記第１処理モジュールは、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、１つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置され、前記第２処理モジュールは、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置され、前記更新モジュールは、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置されるＯＴＮネットワークリソース最適化装置をさらに提供する。

もう１つの態様において本公開の実施例は、１つまたは複数のプロセッサと、１つまたは複数のプログラムが記憶されている記憶装置と、を含み、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサにて実行される時、前記１つまたは複数のプロセッサに上述のＯＴＮネットワークリソース最適化方法を実現させるコンピュータデバイスをさらに提供する。

もう１つの態様において、本公開の実施例は、コンピュータプログラムが記憶されており、前記コンピュータプログラムが実行される時、上述のＯＴＮネットワークリソース最適化方法を実現するコンピュータ可読記憶媒体をさらに提供する。

図１は本公開の実施例が提供するＳＤＯＮアーキテクチャでの全ネットワークリソース最適化の概念図である。図２は本公開の実施例が提供するＯＴＮネットワークリソース最適化のフロー概念図である。図３は本公開の実施例が提供する、最適化目標ポリシーパラメータを計算するフロー概念図である。図４は本公開の実施例が提供する、現在の業務生成状態での生成対象業務を確定するフロー概念図である。図５は本公開の実施例が提供するＯＴＮネットワークリソース最適化装置の構造概念図である。

以下では図面を参考にして例示的な実施例をより十分に説明するが、例示的な実施例は、異なる形式で体現することができ、本文で述べた実施例に限定されると解釈すべきではない。これらの実施例を提供する目的は、本公開を詳らかにかつ完全にし、当業者に本公開の範囲を十分に理解させることである。

本文で使用する「および／または」という用語は１つまたは複数の関連列挙項目のいずれかとすべての組み合わせを含む。

本文で使用する用語は特定の実施例を説明するためのものにすぎず、本公開を限定することを意図するものではない。前後の文で特に明瞭に指摘しない限り、本文で使用する「１つ」および「当該」という単数形も複数形を含むことを意図している。また、本明細書で「含む」および／または「……によって形成される」という用語を使用する場合は、特定の特徴、実体、ステップ、操作、部材および／または構成要素が存在するが、１つまたは複数の他の特徴、実体、ステップ、操作、部材、構成要素および／またはそのグループの存在または追加を排除しないということを示す。

本文に記載の実施例は、本公開の理想的な概略図を用いて平面図および／または断面図を参照して説明することができる。したがって、製造技術および／または許容範囲に基づいて例示的な図面を修正することができるため、実施例は図面に示す実施例に限らず、製造プロセスに基づいて形成された配置修正を含む。よって、図面に例示された領域は概略的な属性を有し、図面に示された領域の形状は部材の領域の具体的な形状を例示しているが、限定することを意図しない。

特に限定しない限り、本文で使用するすべての用語（技術と科学用語を含む）の意味は、当業者が通常理解しているものと同じである。例えば、常用辞書において限定されているような用語は、その関連技術および本公開の背景での意味と一致する意味を有すると解釈されるべきであり、本文が明確にそのように限定しない限り、理想化されたものまたは過度な形式上の意味を有すると解釈されないとも理解される。

ＳＤＯＮ（ＳｏｆｔｗａｒｅＤｅｆｉｎｅｄＯｐｔｉｃａｌＮｅｔｗｏｒｋ、ソフトウェアにより定義された光ネットワーク）アーキテクチャに基づく全ネットワークリソース最適化（ＧｌｏｂａｌＣｏ－ｃｕｒｒｅｎｔＯｐｔｉｍｉｚａｔｉｏｎ，ＧＣＯ）方案は図１に示す通りであり、ＧＣＯの主な目的は、ＯＴＮネットワークリソースの分配過程において、ＯＴＮネットワーク業務の開通に対して計画または一括生成を行う際に、各業務ルーティングとリソースの分配が阻害されるのを回避することを前提として、各業務が計算により得たルートとリソース占有の総和は、ユーザ（ネットワークサービスオペレータ）のネットワーク業務全体に対する既定のリソース分配の最適化目標を最大限満たす必要がある。全ネットワークリソース最適化技術によりユーザの運行維持コストＣＡＰＥＸ（資本的支出）／ＯＰＥＸ（運営コスト）を最大限低減し、運行維持収益を高め、伝送性能と品質を最適化することができ、このことはユーザネットワーク運営の経済効果に直接関わるため、当該技術はユーザの高度な重視を得ており、如何にしてＯＴＮネットワークリソースの最適化を実現するかは意義が大きい。

ＯＴＮネットワーク業務の配置では通常、運営の需要に応じて各業務へ対応するＯＴＮネットワークリソース（例えば、帯域幅、スペクトル、波長、変調フォーマット、ルートなど）を分配して、業務全体の指定された最適化ポリシーでのリソース最適化を満たす必要がある。最適化ポリシーは、業務全体の遅延が最短であること、ルートコストが最小であることなどを含む。同時に、運営収益の最大化、業務性能の最適化、最低限のＣＡＰＥＸ／ＯＰＥＸ投入などの点から考慮すると、ＯＴＮ業務運営は既定の最適化ポリシーをめぐって、ＯＴＮネットワーク業務のネットワークリソース使用上の全体最適化を満たす必要もあり、例えば、ＯＴＮネットワーク業務の遅延が最小であり、ＯＴＮネットワークルートコストが最小であり、またはＯＴＮネットワーク業務の帯域幅利用率が最高であるなどの事項を含む。このことは、ＯＴＮネットワーク業務が生成過程において、自らの業務リソースの最適化を満たす必要があるとともに、すべての業務の生成順序を編成することで、業務のＯＴＮネットワークリソースの使用に対するグローバル最適化を満たす必要がある。

ＯＴＮネットワーク業務の生成過程は通常、同時生成、即ち、ある時点で複数の業務を一括生成するという方法を用い、業務生成過程は実際のところすべての業務の生成順序を確定するものであって、ＯＴＮネットワーク業務の生成順序はＯＴＮネットワークリソースに対する占用形態とＯＴＮネットワークリソース分配の最適化状態を決定する。ＯＴＮネットワーク業務に対する生成順序を業務生成編成ポリシー（即ち、動作ポリシー）と呼び、良好な業務生成編成ポリシーは、ＯＴＮネットワーク業務のネットワークリソース使用に対する最適化ポリシーを満たすことができる。

初期化段階では、ＯＴＮネットワークトポロジ構造（ｍｅｓｈ、星型などの構造類型を含む）の環境条件に基づいてＯＴＮ業務をｎ個生成し、ネットワーク環境状態、動作空間、動作最適化目標ポリシー、動作ポリシーを初期化する。強化学習アルゴリズムの関連パラメータは以下のように定義される。

３．ラウンド（Ｅｐｉｓｏｄｅ）を定義する
ある動作ポリシーを用いて、ＯＴＮネットワーク業務の順次生成を完了し、１つのＥｐｉｓｏｄｅと定義される。

本公開の実施例はＯＴＮネットワークリソース最適化方法を提供し、図２に示すように、前記方法は以下のステップＳ１１～Ｓ１４を含む。

ステップＳ１１：動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、１つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。

本ステップでは、１つのラウンドにおいて、動作ポリシーに基づいて生成対象業務を確定し（当該生成対象業務のルートの確定を含む）、当該生成対象業務を生成した後、当該業務生成状態でのスポットボーナスを計算し、現在の業務生成状態が終了し、次の業務生成状態に移行する。上記ステップに従って、１つのラウンドにおける各業務生成状態に対して生成対象業務をそれぞれ生成して、１つのラウンドが終わるまで対応する業務生成状態でのスポットボーナスを計算し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。

本ステップでは、異なるアルゴリズムを用いて最適化目標ポリシーパラメータを計算、更新することができる。なお、用いるアルゴリズムが異なるため、最適化目標ポリシーパラメータも異なり、後続にて各種アルゴリズムについて詳細に説明する。

ステップＳ１２：予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新する。

本ステップでは、ステップＳ１１を繰り返して実行し、予め設定された数のラウンドを反複することで、各ラウンドにおける各業務生成状態での最適化目標ポリシーパラメータを計算、更新する。

ステップＳ１３：前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定する。

本ステップでは、各業務生成状態に対して異なるラウンドの最適化目標ポリシーパラメータから当該業務生成状態での最適な最適化目標ポリシーパラメータを確定する。なお、用いるアルゴリズムが異なるため、最適な最適化目標ポリシーパラメータの確定方式も異なる。本ステップを経て、ＯＴＮネットワークのすべての生成対象業務に対応するすべての業務生成状態での最適な最適化目標ポリシーパラメータが得られる。

ステップＳ１４：各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新する。

本公開の実施例が提供するＯＴＮネットワークリソース最適化方法は、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、１つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含み、本公開の実施例は強化学習アルゴリズムの賞罰メカニズムを利用してＯＴＮネットワーク業務生成の順序を最適化し、得られた動作ポリシーは収束性が好ましく、厳密性と信頼性が高く、ＯＴＮネットワークリソースの最適化の問題をＯＴＮネットワーク業務生成順序の問題に帰結し、最適化された動作ポリシーを得ることにより、ＯＴＮネットワークリソースのグローバル最適化を実現する。

一部の実施の形態では、図３に示すように、前記の各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップは以下のステップＳ２１、Ｓ２２を含む。

ステップＳ２１：次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算する。

なお、最後の業務生成状態での予期リターンは、当該業務生成状態でのスポットボーナスである。

ステップＳ２２：前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新する。

ステップＳ２１～Ｓ２２により、強化アルゴリズムの賞罰メカニズムを用いて最適化目標ポリシーパラメータの最適化を実現する。

一部の実施の形態では、図４に示すように、前記動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定するステップは、以下のステップＳ３１～Ｓ３５を含む。

ステップＳ３１：現在の業務生成状態で各生成対象業務を選択する確率を計算する。

ステップＳ３２：前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて生成対象業務を確定する。

なお、強化学習のｅｘｐｌｏｒａｔｉｏｎ（探索）構想に基づき、生成対象業務の選択についてはポリシーのランダム性に従う。

ステップＳ３３：予め設定されたＯＴＮネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列させる。

前記ＯＴＮネットワーク最適化目標関数は、ＯＴＮネットワーク業務ルートコストが最小であること、またはＯＴＮネットワーク業務遅延が最短であることを含む。

選択される生成対象業務の候補ルートの選択については、貪欲なポリシー（ｇｒｅｅｄｙ）の原則に従い、すべての候補ルートはＯＴＮネットワーク最適化目標関数に従って配列する。例えば、ＯＴＮネットワーク最適化目標関数はルートコストが最小であるというものであれば、ルートコストが最小であるというポリシーに基づいて、ＫＳＰ（Ｋ最適経路アルゴリズム）＋ＲＷＡ（ルート波長分配アルゴリズム）＋ＲＳＡ（非対称暗号アルゴリズム）から確定した生成対象業務のすべての候補ルートを、それぞれのルートコストの小さいものから大きいものへという順で配列する。

ステップＳ３４：前記配列における候補ルートの数に応じて前記配列における各候補ルートの選択確率をそれぞれ計算する。

ステップＳ３５：前記配列における各候補ルートの選択確率から１つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとする。

以下では、モンテカルロアルゴリズム、Ｑ－Ｌｅａｒｎｉｎｇアルゴリズム、ＳＡＳＡアルゴリズム、動的計画法がＯＴＮネットワークリソース最適化を実現する過程についてそれぞれ説明する。

（１）探索性初期化モンテカルロアルゴリズムを用いてＯＴＮネットワークリソース最適化を実現する処理過程は以下の通りである。

以下の処理を重複循環（ｒｅｐｅａｔ）する。

（２）Ｑ－Ｌｅａｒｎｉｎｇ（即ち、異なるポリシーのＴＤ－Ｅｒｒｏｒ）アルゴリズムを用いてＯＴＮネットワークリソース最適化を実現する処理過程は以下の通りである。

各Ｅｐｉｓｏｄｅに対して以下の処理を循環重複（Ｒｅｐｅａｔ）する。

（３）ＳＡＲＳＡ（即ち、同一ポリシーのＴＤ－Ｅｒｒｏｒ）アルゴリズムを用いてＯＴＮネットワークリソース最適化を実現する処理過程は以下の通りである。

（４）ポリシーに基づいて反復する動的計画法を用いてＯＴＮネットワークリソース最適化を実現する処理過程は以下の通りである。

ステップ１：ネットワークトポロジ環境全体を初期化する。

ステップ２：ポリシーを評価する。

以下の処理を循環重複（Ｒｅｐｅａｔ）する。

同一の技術思想に基づき、本公開の実施例はＯＴＮネットワークリソース最適化装置をさらに提供する。図５に示すように、前記ＯＴＮネットワークリソース最適化装置は、第１処理モジュール１０１、第２処理モジュール１０２、更新モジュール１０３を含む。

第１処理モジュール１０１は動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成し、現在の業務生成状態でのスポットボーナスを計算して、１つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置される。

第２処理モジュール１０２は前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置される。

更新モジュール１０３は各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置される。

一部の実施の形態において、第１処理モジュール１０１は次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算し、前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置される。

一部の実施の形態において、各ラウンドにおいて最後の業務生成状態での予期リターンは前記ラウンドの実際の総リターンであり、第１処理モジュール１０１は各ラウンドにおける最後の業務生成状態での実際の総リターンを計算した後、各ラウンドにおける最後の業務生成状態での最適化目標ポリシーパラメータを計算する前に、前記実際の総リターン、予め設定された閾値と予め設定された規定外のリターンに基づいて前記実際の総リターンを更新するようにさらに配置される。実際の総リターンが前記閾値以上である場合、実際の総リターン＝実際の総リターン＋前記規定外のリターンであり、実際の総リターンが前記閾値よりも小さい場合、実際の総リターン＝実際の総リターン－前記規定外のリターンである。

一部の実施の形態において、第１処理モジュール１０１は現在の業務生成状態で各生成対象業務を選択する確率を計算し、前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて生成対象業務を確定し、予め設定されたＯＴＮネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列し、前記配列における候補ルートの数に基づいて、前記配列における各候補ルートの選択確率をそれぞれ計算し、前記配列における各候補ルートの選択確率に基づいて１つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとするように配置される。

一部の実施の形態において、前記ＯＴＮネットワーク最適化目標関数はＯＴＮネットワーク業務ルートコストが最小であるということ、またはＯＴＮネットワーク業務遅延が最短であるということを含む。

本公開の実施例は、１つまたは複数のプロセッサと、１つまたは複数のプログラムが記憶されている記憶装置と、を含み、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサにて実行される時、前記１つまたは複数のプロセッサに前記各実施例が提供するＯＴＮネットワークリソース最適化方法を実現させる、コンピュータデバイスをさらに提供する。

本公開の実施例は、コンピュータプログラムが記憶されており、当該コンピュータプログラムがプロセッサにて実行される時、前記各実施例が提供するＯＴＮネットワークリソース最適化方法を実現する、コンピュータ可読記憶媒体をさらに提供する。

上文で開示した方法のすべてまたは一部のステップ、装置における機能モジュール／手段はソフトウェア、ファームウェア、ハードウェア、およびこれらの適切な組み合わせとして実施することができると当業者は理解できる。ハードウェアの実施形態において、上記の説明で言及した機能モジュール／手段との間の区分は必ずしも物理コンポーネントの区分に対応せず、例えば、１つの物理コンポーネントは複数の機能を有してもよく、あるいは１つの機能またはステップは若干のコンポーネントにより連携して実行することができる。一部の物理コンポーネントまたはすべての物理コンポーネントは、プロセッサ（例えば、中央処理器、デジタル信号処理器またはマイクロプロセッサ）によって実行されるソフトウェアとして実施されるか、またはハードウェアとして実施されるか、あるいは専用集積回路のような集積回路として実施されてよい。このようなソフトウェアは、コンピュータ記憶媒体（または非一時的媒体）と通信媒体（または一時的媒体）とを含むことができるコンピュータ可読媒体に配置することができる。当業者が周知しているように、コンピュータ記憶媒体という用語は、情報（例えば、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータ）を記憶するための任意の方法または技術において実施される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多機能ディスク（ＤＶＤ）または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報を記憶するのに用いられ、且つコンピュータにてアクセスされ得る他の任意の媒体を含むが、これらに限らない。このほか、通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュール、もしくは搬送波または他の送信メカニズムといった変調データ信号内の他のデータを含み、任意の情報配信媒体を含むことができるということは当業者の公知事項である。

本文では例示的な実施の形態を開示し、具体的な用語を採用しているが、これらは一般的な例示的な意味としてのみ使用、解釈すべきであり、かつ限定的な目的のためのものではない。一部の実例では、別途明確に指摘しない限り、特定の実施の形態を組み合わせて説明した特徴、特性および／または元素を単独で使用してもよく、または他の実施の形態を組み合わせて説明した特徴、特性および／または部材を組み合わせて使用してもよいことは、当業者にとって明らかである。したがって、添付の請求項に記載の本公開の範囲を逸脱しない限り、様々な形式および詳細に関する変更を行うことができると当業者は理解できる。

Claims

動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、１つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、
予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、
前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するステップと、
各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するステップと、を含む
ＯＴＮネットワークリソース最適化方法。
各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新する前記ステップは、
次の業務生成状態後の各業務生成状態でのスポットボーナスに基づいて現在の業務生成状態での予期リターンを計算するステップと、
前記現在の業務生成状態での予期リターンに基づいて現在の業務生成状態での最適化目標ポリシーパラメータを計算して更新するステップと、を含む
請求項１に記載の方法。
各ラウンドにおける最後の業務生成状態での予期リターンは前記ラウンドの実際の総リターンであり、前記方法はさらに、
各ラウンドにおける最後の業務生成状態での実際の総リターンを計算した後、各ラウンドにおける最後の業務生成状態での最適化目標ポリシーパラメータを計算する前に、前記実際の総リターン、予め設定された閾値と予め設定された規定外のリターンに基づいて前記実際の総リターンを更新するステップを含み、
実際の総リターンが前記閾値以上であれば、実際の総リターンは実際の総リターンと前記規定外のリターンとの和に等しく、実際の総リターンが前記閾値よりも小さければ、実際の総リターンは実際の総リターンと前記規定外のリターンとの差に等しい
請求項２に記載の方法。
動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定する前記ステップは、
現在の業務生成状態で各生成対象業務を選択する確率を計算するステップと、
前記現在の業務生成状態で各生成対象業務を選択する確率に基づいて１つの生成対象業務を確定するステップと、
予め設定されたＯＴＮネットワーク最適化目標関数に基づいて、確定された生成対象業務の候補ルートを配列させるステップと、
前記配列における候補ルートの数に基づいて、前記配列における各候補ルートの選択確率をそれぞれ計算するステップと、
前記配列における各候補ルートの選択確率に基づいて１つの候補ルートを確定し、現在の業務生成状態での生成対象業務のルートとするステップと、を含む
請求項１～７のいずれか１項に記載の方法。
前記ＯＴＮネットワーク最適化目標関数は、ＯＴＮネットワーク業務ルートコストが最小であるかまたはＯＴＮネットワーク業務の遅延が最短であることを含む
請求項８に記載の方法。
第１処理モジュール、第２処理モジュール、更新モジュールを含み、
前記第１処理モジュールは、動作ポリシーに基づいて現在の業務生成状態での生成対象業務を確定し、前記生成対象業務を生成して、現在の業務生成状態でのスポットボーナスを計算し、１つのラウンドが終わるまで次の業務生成状態に移行し、各業務生成状態でのスポットボーナスに基づいて各業務生成状態での最適化目標ポリシーパラメータを計算して更新し、予め設定された数のラウンドを反複することで、各業務生成状態での最適化目標ポリシーパラメータを計算して更新するように配置され、
前記第２処理モジュールは、前記予め設定された数のラウンドにおける各業務生成状態での最適化目標ポリシーパラメータに基づいて、各業務生成状態での最適な最適化目標ポリシーパラメータをそれぞれ確定するように配置され、
前記更新モジュールは、各業務生成状態での最適な最適化目標ポリシーパラメータに基づいて前記動作ポリシーを更新するように配置される
ＯＴＮネットワークリソース最適化装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムが記憶されている記憶装置と、を含み、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサにて実行される時、前記１つまたは複数のプロセッサに請求項１～１１のいずれか１項に記載のＯＴＮネットワークリソース最適化方法を実現させる
コンピュータデバイス。
コンピュータプログラムが記憶されており、前記コンピュータプログラムが実行される時、請求項１～１１のいずれか１項に記載のＯＴＮネットワークリソース最適化方法を実現する
コンピュータ可読記憶媒体。