JP7428831B2

JP7428831B2 - Ｏｔｎネットワークリソース最適化方法および装置、コンピュータデバイスならびに記憶媒体

Info

Publication number: JP7428831B2
Application number: JP2022572468A
Authority: JP
Inventors: 王大江; 叶友道; 王振宇
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2020-08-31
Filing date: 2021-08-09
Publication date: 2024-02-06
Anticipated expiration: 2041-08-09
Also published as: WO2022042276A1; CN114125593A; EP4195687A4; US20230319446A1; JP2023527007A; EP4195687A1

Description

本願は２０２０年８月３１日に提出された中国特許出願第２０２０１０８９９１１０．１号の優先権を主張し、当該中国特許出願の全ての内容を援用によって引用することとする。

本開示は自動制御技術分野に関し、具体的には、ＯＴＮネットワークリソース最適化方法および装置、コンピュータデバイスならびにコンピュータ可読記憶媒体に関するものである。

人工知能技術の発展に伴い、強化学習技術の応用は様々な分野と業界においてますます広く重視されている。強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）は再奨励学習、評価学習とも呼ばれ、重要な機械学習方法であり、知能制御ロボットおよびネットワーク分析予測などの分野において多く応用されている。コネクショニズム機械学習流派において、学習アルゴリズムは、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｎｉｎｇ）と強化学習という３種類に分けられている。

強化学習は、エージェント（Ａｇｅｎｔ）が「試行錯誤」で学習を行い、環境と対話することで獲得した賞与指導行為であり、エージェントに最大の賞与を獲得させることをターゲットとし、強化学習はコネクショニズム学習における教師あり学習と異なり、その違いは強化信号に主に現われ、強化学習において、環境によって提供された強化信号は、如何に正しい行動を生じさせるかを強化学習システム（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＳｙｓｔｅｍ，ＲＬＳ）に知らせるのではなく、生じた行動の良し悪しを評価するものである（通常、スカラー信号）。外部環境が提供する情報は少ないため、ＲＬＳは、自身の経験に依存して学習を行わなくてはならず、このような方式を通じて、行動－評価の環境で知識を獲得し、環境に適応するように行動方式を改善する。

近年、強化学習技術の応用と普及に伴い、この技術の強みをＯＴＮ（ＯｐｔｉｃａｌＴｒａｎｓｐｏｒｔＮｅｔｗｏｒｋ、光伝達網）ネットワークインテリジェント化管理・制御と運営・メンテナンス分野に如何に応用するか、特に、強化学習のＯＴＮネットワークリソース最適化での応用は、ＯＴＮ分野専門家によって広く注目されている。

一態様では、本開示実施例は、カレントサービス作成状態での作成予定サービスを行動方策に基づいて決定し、前記作成予定サービスを作成し、カレントサービス作成状態での即時報酬を計算し、一つのエピソードが終了するまで次のサービス作成状態に入り、各々のサービス作成状態での即時報酬に基づいて各々のサービス作成状態での総合最適化パラメータを計算し、前記各々のサービス作成状態での総合最適化パラメータに基づいて量子化インデックス重みベクトルを計算・更新することであって、前記行動方策は、複数の量子化インデックスに対応する量子化インデックス重みベクトルに関する確率関数であることと、数量の予め設けられたエピソードを反復して、最適な量子化インデックス重みベクトルを得ることと、前記最適な量子化インデックス重みベクトルに基づいて前記行動方策を更新することと、を含む、ＯＴＮネットワークリソース最適化方法を提供する。

さらに別の態様では、本開示実施例は、第一処理モジュール、第二処理モジュールと更新モジュールを含み、前記第一処理モジュールは、カレントサービス作成状態での作成予定サービスを行動方策に基づいて決定し、前記作成予定サービスを作成し、カレントサービス作成状態での即時報酬を計算し、一つのエピソードが終了するまで次のサービス作成状態に入り、各々のサービス作成状態での即時報酬に基づいて各々のサービス作成状態での総合最適化パラメータを計算し、前記各々のサービス作成状態での総合最適化パラメータに基づいて量子化インデックス重みベクトルを計算・更新し、前記行動方策は、複数の量子化インデックスに対応する量子化インデックス重みベクトルに関する確率関数であるように構成され、前記第二処理モジュールは、数量の予め設けられたエピソードを反復して、最適な前記量子化インデックス重みベクトルを得るように構成され、前記更新モジュールは、最適な前記量子化インデックス重みベクトルに基づいて前記行動方策を更新するように構成されたＯＴＮネットワークリソース最適化装置をさらに提供する。

さらに別の態様では、本開示の実施例は、一つまたは複数のプロセッサと、一つまたは複数のプログラムが記憶された記憶装置とを、含み、前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサによって実行されると、前記一つまたは複数のプロセッサが前出したようなＯＴＮネットワークリソース最適化方法を実現するようにするコンピュータデバイスをさらに提供する。

さらに別の態様では、本開示の実施例はコンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、前記プログラムがプロセッサによって実行されると、前述したようなＯＴＮネットワークリソース最適化方法を実現するコンピュータ可読記憶媒体をさらに提供する。

図１は本開示実施例によって提供されるＳＤＯＮアーキテクチャにおけるＯＴＮネットワークリソース最適化の模式図である。図２は本開示実施例によって提供されるＯＴＮネットワークリソース最適化のフロー模式図である。図３は本開示実施例によって提供される、カレントサービス作成状態での作成予定サービスを決定するフロー模式図である。図４は本開示実施例によって提供される、総合最適化パラメータを計算するフロー模式図である。図５は本開示実施例によって提供されるＯＴＮネットワークリソース最適化装置の構成模式図である。

以下、実施形態について図面を参照してより充分に説明するが、前記実施例は、本開示に記述の実施例に限定されると解釈するべきではなく、異なる形態で体現することができる。むしろ、これら実施例を提供するのは、本開示を徹底して完全なものにするとともに、当業者に本開示の範囲を十分に理解させることを目的とする。

本開示で使用される用語「および／または」には、１つ以上の関連する列挙項目の任意またはすべての組み合わせが含まれる。

本開示にて使用される用語は特定の実施例について説明するためのものにすぎず、かつ、本開示を制限するものではない。本開示にて使用される、「一つの」と「当該」という単数形は、文脈が別途明らかに説明しない限り、複数形を含む意図がある。本明細書にて「含む」、「…からなる」が使用されるときに、特定の特徴、実体、ステップ、オペレーション、要素、および／またはコンポーネントの存在を指定するが、１つまたは複数の他の特徴、実体、ステップ、オペレーション、要素、コンポーネント、および／またはそれらのグループ、の存在または追加を除外するものでないことが、さらに理解されるであろう。

本明細書に記載の実施例は、本開示の理想的な模式図を借りて平面図および／または断面図を参照して説明することができる。したがって、例示は、製造技術および／または許容範囲に応じて修正され得る。本開示の実施例は図示した実施例に限定されず、製造プロセスに基づいて形成された配置の修正を含む。よって、図示したエリアは概略的な属性を有し、かつ、図示したエリアの形状は素子のエリアの具体的な形状を例示するが、限定的であることを意図していない。

別段の限定がない限り、本開示にて使用されるすべての用語（技術と科学用語を含む）の意味は当業者が通常理解している意味と同一である。また、常用辞典にて限定されるそれら用語は、関連技術案および本開示の背景での意味と一致する意味を有し、本開示にて明確に定義しない限り、理想化された意味に、または過度に形式的な意味に解釈されないであろうことが、さらに理解されるであろう。

ＳＤＯＮ（ＳｏｆｔｗａｒｅＤｅｆｉｎｅｄＯｐｔｉｃａｌＮｅｔｗｏｒｋ、ソフトウェア定義オプティカルネットワークネットワーク）アーキテクチャに基づいたＯＴＮネットワークリソース最適化（ＧｌｏｂａｌＣｏ－ｃｕｒｒｅｎｔＯｐｔｉｍｉｚａｔｉｏｎ，ＧＣＯ）ソリューションは図１に示すとおりであり、ＧＣＯは、ＯＴＮネットワークリソース割当プロセスにおいて、ＯＴＮネットワークサービス開通に関して規格またはバッチ作成を行う場合、各サービスルーティング計算とリソース割当妨害を回避する前提で、各サービスの計算によるルーティングとリソース占用総和は、ユーザ（ネットワークサービスオペレータ）のネットワークサービス全体に対する既定のリソース割当最適化目標を最大限満たすことを主な目的とする。ＯＴＮネットワークリソース最適化技術を通じて、ユーザの運営・メンテナンスコストＣＡＰＥＸ（資本支出）／ＯＰＥＸ（運営コスト）を最大限削減し、運営・メンテナンス収益を向上させ、伝送性能と品質を最適化することができ、これはユーザネットワーク運営の経済効率に直接関連し、このため、該技術はユーザによって高く重視され、ＯＴＮネットワークリソース最適化技術を如何に実現するかは重要である。

ＯＴＮネットワークサービス配置において、通常、運営の必要に応じて、各サービスにそれぞれ対応するＯＴＮネットワークリソース（例えば、帯域幅、スペクトル、波長、変調フォーマット、ルーティングなど）を割り当てる必要があり、また、指定の最適化方策でのサービス全体のリソース最適化を満たすよう求められ、最適化方策は、サービス全体の時間遅延を最短にし、ルーティングコストを最小にすることなどを含む。これと同時に、運営収益最大化、サービス性能最適化、投入ＣＡＰＥＸ／ＯＰＥＸの最小化などの角度から考慮すれば、ＯＴＮサービス運営はさらに、既定の最適化方策を巡って、ＯＴＮネットワークサービスのネットワークリソース使用での全体最適化を満たす必要があり、これは、ＯＴＮネットワークサービス時間遅延を最小にすること、ＯＴＮネットワークルーティングコストを最小にすること、或いはＯＴＮネットワークサービス帯域幅利用率を最高にすることなどを含む。これには、作成プロセスにおいて、ＯＴＮネットワークサービスが、それ自体のサービスリソース最適化を満たす必要があると同時に、すべてのサービスの作成手順を編成することでＯＴＮネットワークリソースをサービスが使用するグローバル最適化を満たす必要もある。

ＯＴＮネットワークサービス作成プロセスは通常、ある時点で複数のサービスを集中してバッチ作成するという並行性作成の方式を採用し、サービス作成プロセスは実際にすべてのサービスの作成手順を決定するものであり、ＯＴＮネットワークサービスの作成手順は、ＯＴＮネットワークリソースに対する占用形態とＯＴＮネットワークリソース割当の最適化状態を決定する。ＯＴＮネットワークサービスを作成する手順を、サービス作成編成方策（即ち、行動方策）と呼び、優れたサービス作成編成方策は、ＯＴＮネットワークサービスがネットワークリソースを使用する最適化方策を満たすことができる。

しかし、実際のＯＴＮネットワークリソースの割当と使用においては、ネットワークリソース最適化が多次元で考えられており、ある次元のネットワークリソース量子化インデックスの最適化のみを考慮するだけでは、他の量子化インデックスの使用と最適化に影響を及ぼすだろう。よって、ユーザはネットワークリソースの複数の量子化インデックスを総合的に最適化し、複数の量子化インデックスの最適な組み合わせモードを得る必要がある。このプロセスにおいて、単体の量子化インデックスに対しできるだけグローバル最適化を実現するよう保証するとともに、ＯＴＮネットワークリソースすべての量子化インデックスの総合グローバル最適化を実現し、こうしてこそＯＴＮネットワークリソースに対する利用の最大化を保証し、また、収益の最大化、伝送性能の最適化を保証できる。

初期化フェーズでは、ＯＴＮネットワークトポロジー（ｍｅｓｈ、星型などの構造類型を含む）の環境条件に基づいてｎ本のＯＴＮサービスを作成し、ネットワーク環境状態、行動空間、行動最適化目標方策、行動方策を初期化する。強化学習アルゴリズムの関連パラメータは以下に定義される。

１．ＯＴＮネットワーク総合インデックス最適化目的関数を定義する。

３．エピソード（Ｅｐｉｓｏｄｅ）を定義する。

ある行動方策を採用して、ＯＴＮネットワークサービスに対する順次作成を完了させることは、一つのＥｐｉｓｏｄｅとして定義される。

行動は、現在のネットワークトポロジー環境状態で、作成予定サービスにおいて、一つの作成予定サービスを次の作成対象となるサービスとして選択し、当該作成予定サービスの複数本の代替経路選択（ネットワークリソースがすでに割り当てられたルーティング）から１つを当該サービスのリソースルーティングとして選択し、当該サービスの作成を完了するプロセスを指す。作成予定サービスの複数本のリソースの代替経路選択は、ＫＳＰ（ＡｎＥｆｆｉｃｉｅｎｔＡｌｇｏｒｉｔｈｍｆｏｒＫＳｈｏｒｔｅｓｔＳｉｍｐｌｅＰａｔｈｓ）＋ＲＷＡ（ｒｏｕｔｉｎｇａｎｄｗａｖｅｌｅｎｇｔｈａｓｓｉｇｎｍｅｎｔａｌｇｏｒｉｔｈｍ、ルーティング波長割当アルゴリズム）＋ＲＳＡ（Ａｓｙｍｍｅｔｒｉｃｅｎｃｒｙｐｔｉｏｎａｌｇｏｒｉｔｈｍ、非対称暗号化アルゴリズム）で計算され得、また割り当てられた、対応するネットワークリソースによって得られ、かつ単独の代替経路選択は各量子化インデックスの閾値要求を満たす。

５．量子化インデックスを定義する。

６．量子化インデックス評価体系を定義する

ＯＴＮネットワーク総合量子化インデックス閾値は以下のように定義する。

各サービスの代替経路選択の量子化インデックス採点は量子化インデックスの種別に従って３種類の状況に分けられる。

各サービスのリソースの代替経路選択のインデックス評価は以下のように３種類に分け得る。

各サービスの代替経路選択の量子化インデックス採点は量子化インデックスの種別に従って３種類の状況に分け得る。

本開示実施例は、図２に示すように、以下のステップＳ１１～Ｓ１３を含むＯＴＮネットワークリソース最適化方法を提供する。

ステップＳ１１：カレントサービス作成状態での作成予定サービスを行動方策に基づいて決定し、前記作成予定サービスを作成し、また、カレントサービス作成状態での即時報酬を計算し、一つのエピソードが終了するまで次のサービス作成状態に入り、各々のサービス作成状態での即時報酬に基づいて各々のサービス作成状態での総合最適化パラメータを計算し、また、前記各々のサービス作成状態での総合最適化パラメータに基づいて量子化インデックス重みベクトルを計算・更新する。

前述したように、前記行動方策は、複数の量子化インデックスに対応する量子化インデックス重みベクトルに関する確率関数である。

本ステップにおいて、一つのエピソードでは、一つの作成予定サービス（当該作成予定サービスのルーティングの決定を含む）を行動方策に基づいて決定し、当該作成予定サービス作成後に、当該サービス作成状態での即時報酬を計算し、カレントサービス作成状態が終了し、次のサービス作成状態に移る。上記ステップに従って、一つのエピソード中におけるそれぞれのサービス作成状態に対し、作成予定サービスをそれぞれ作成し、相応のサービス作成状態での即時報酬を一つのエピソードが終了するまで計算し、各々のサービス作成状態での即時報酬に基づいて各々のサービス作成状態での総合最適化パラメータを計算・更新する。

本ステップにおいて、異なるアルゴリズムで総合最適化パラメータを計算・更新してよく、なお、用いたアルゴリズムが異なると、総合最適化パラメータも異なり、後で各種のアルゴリズムについて詳細に解説する。

ステップＳ１２：数量の予め設けられたエピソードを反復して、最適な前記量子化インデックス重みベクトルを得る。

本ステップにおいて、ステップＳ１１の実行を繰り返し、数量の予め設けられたエピソードを反復し、各エピソードにおける各サービス作成状態での総合最適化パラメータを計算・更新する。本ステップによって、ＯＴＮネットワークのすべての作成予定サービスに対応するすべてのサービス作成状態での最適な総合最適化パラメータを得ることができる。

ステップＳ１３：各サービス作成状態での最適な総合最適化パラメータに基づいて前記行動方策を更新する。

本開示実施例によって提供されるＯＴＮネットワークリソース最適化方法は、カレントサービス作成状態での作成予定サービスを行動方策に基づいて決定し、前記作成予定サービスを作成し、また、カレントサービス作成状態での即時報酬を計算し、一つのエピソードが終了するまで次のサービス作成状態に入り、各々のサービス作成状態での即時報酬に基づいて各々のサービス作成状態での総合最適化パラメータを計算し、また、前記各々のサービス作成状態での総合最適化パラメータに基づいて量子化インデックス重みベクトルを計算・更新し、前記行動方策は、複数の量子化インデックスに対応する量子化インデックス重みベクトルに関する確率関数であり、数量の予め設けられたエピソードを反復して、最適な前記量子化インデックス重みベクトルを得、前記最適な量子化インデックス重みベクトルに基づいて前記行動方策を更新することを含む。本開示実施例では、強化学習アルゴリズムの賞罰メカニズムを用いてＯＴＮネットワークサービス作成のソートを最適化し、得られた行動方策は収束性が良く、厳密性と信頼性が高く、ＯＴＮネットワークリソース最適化問題をＯＴＮネットワークサービス作成のソート問題に総括し、かつ、強化学習の行動方策設計にパラメータベクトルを導入し、正しい改善によって最適化した行動方策を獲得し、ＯＴＮネットワークリソースに対するグローバル最適化を実現させる。

幾つかの実施形態では、図３に示すように、前記カレントサービス作成状態での作成予定サービスを行動方策に基づいて決定することは、以下のステップＳ２１～Ｓ２５を含む。

ステップＳ２１：各作成予定サービスをカレントサービス作成状態で選択する確率を計算する。

本ステップにおいて、選択した量子化インデックス評価体系に応じて、相応するアルゴリズムを決定し、各作成予定サービスが選択される確率を計算し、異なる量子化インデックス評価体系での、各作成予定サービスを選択する確率は前述したとおりであり、ここでは省略する。

ステップＳ２２：各作成予定サービスを前記カレントサービス作成状態で選択する確率に基づいて一つの作成予定サービスを決定する。

なお、強化学習のｅｘｐｌｏｒａｔｉｏｎ（探索）の考え方に基づき、作成予定サービスの選択にあたっては、方策のランダム性に従う。

ステップＳ２３：予め設けられたＯＴＮネットワーク総合インデックス最適化目的関数に基づいて、決定された作成予定サービスの代替経路選択をソートする。

ステップＳ２４：前記ソートにおける各代替経路選択の選択確率を計算する。

ステップＳ２５：前記ソートにおける各代替経路選択の選択確率に基づいて一つの代替経路選択を決定し、カレントサービス作成状態での作成予定サービスのルーティングとする。

幾つかの実施形態では、図４に示すように、前記各々のサービス作成状態での即時報酬に基づいて各々のサービス作成状態での総合最適化パラメータを計算・更新することは、以下のステップＳ３１とＳ３２を含む。

ステップＳ３１：次のサービス作成状態の後の各サービス作成状態での即時報酬に基づいてカレントサービス作成状態での期待収益を計算する。

なお、最後のサービス作成状態下の期待収益とは当該サービス作成状態での即時報酬である。

ステップＳ３２：前記カレントサービス作成状態での期待収益に基づいてカレントサービス作成状態での総合最適化パラメータを計算・更新する。

ステップＳ３１とＳ３２によって、補強アルゴリズムの賞罰メカニズムで総合最適化パラメータの最適化を実現させる。

以下、それぞれＱ－ＢａｓｅｄＡｃｔｏｒ－ＣｒｉｔｉｃアルゴリズムとＰＧアルゴリズムでＯＴＮネットワークリソース最適化を実現するプロセスについて説明する。

（１）Ｑ－ＢａｓｅｄＡｃｔｏｒ－ＣｒｉｔｉｃアルゴリズムでＯＴＮネットワークリソース最適化を実現させる処理プロセスは以下の通りである。

（２）ＰＧアルゴリズムでＯＴＮネットワークリソース最適化を実現させる処理プロセスは以下の通りである。

同じ技術思想に基づき、本開示実施例はＯＴＮネットワークリソース最適化装置をさらに提供し、図５に示すように、前記ＯＴＮネットワークリソース最適化装置は、第一処理モジュール１０１、第二処理モジュール１０２と更新モジュール１０３を備える。

前記第一処理モジュール１０１は、カレントサービス作成状態での作成予定サービスを行動方策に基づいて決定し、前記作成予定サービスを作成し、また、カレントサービス作成状態での即時報酬を計算し、一つのエピソードが終了するまで次のサービス作成状態に入り、各々のサービス作成状態での即時報酬に基づいて各々のサービス作成状態での総合最適化パラメータを計算し、また、前記各々のサービス作成状態での総合最適化パラメータに基づいて量子化インデックス重みベクトルを計算・更新し、前記行動方策は、複数の量子化インデックスに対応する量子化インデックス重みベクトルに関する確率関数であるように配置されている。

前記第二処理モジュール１０２は数量の予め設けられたエピソードを反復して、最適な前記量子化インデックス重みベクトルを得るように配置されている。

前記更新モジュール１０３は、前記最適な量子化インデックス重みベクトルに基づいて前記行動方策を更新するように配置されている。

幾つかの実施形態では、前記第一処理モジュール１０１はさらに、複数の量子化インデックスとインデックス重みベクトルとに基づいて総合量子化インデックス採点を計算し、前記総合量子化インデックス採点に基づいて欲張り係数を計算し、作成予定サービスの選択確率と前記欲張り係数とに基づいて前記行動方策を決定するように配置されている。

幾つかの実施形態では、前記量子化インデックスは、第１種の量子化インデックス、第２種の量子化インデックスと第３種の量子化インデックスを含み、前記第１種の量子化インデックスの取り得る値は第１種の量子化インデックス採点に反比例し、前記第２種の量子化インデックスの取り得る値は第２種の量子化インデックス採点に反比例し、前記第３種の量子化インデックス採点は、一つのエピソードの最後のサービスが作成された後に得られる。

幾つかの実施形態では、第一処理モジュール１０１は更に、以下の式に従って、欲張り係数を計算するように配置されている。

幾つかの実施形態では、第一処理モジュール１０１は、各作成予定サービスをカレントサービス作成状態で選択する確率を計算し、各作成予定サービスを前記カレントサービス作成状態で選択する確率に基づいて一つの作成予定サービスを決定し、予め設けられたＯＴＮネットワーク総合インデックス最適化目的関数に基づいて、決定された作成予定サービスの代替経路選択をソートし、前記ソートにおける各代替経路選択の選択確率を計算し、前記ソートにおける各代替経路選択の選択確率に基づいて一つの代替経路選択を決定し、カレントサービス作成状態での作成予定サービスのルーティングとするように配置されている。

幾つかの実施形態では、第一処理モジュール１０１は、以下のように配置されている。

幾つかの実施形態では、第一処理モジュール１０１は次のサービス作成状態の後の各サービス作成状態での即時報酬に基づいてカレントサービス作成状態での期待収益を計算し、前記カレントサービス作成状態での期待収益に基づいてカレントサービス作成状態での総合最適化パラメータを計算・更新するように配置されている。

幾つかの実施形態では、第一処理モジュール１０は以下のように配置されている。

本開示実施例は、一つまたは複数のプロセッサと、一つまたは複数のプログラムが記憶された記憶装置とを含み、上記一つまたは複数のプログラムが上記一つまたは複数のプロセッサによって実行されると、上記一つまたは複数のプロセッサに、前記各実施例によって提供されたＯＴＮネットワークリソース最適化方法を実現させるコンピュータデバイスを更に提供する。

本開示実施例は、コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサによって実行されると、前記各実施例によって提供されたＯＴＮネットワークリソース最適化方法を実現するコンピュータ可読記憶媒体をさらに提供する。

当業者は、上文で公開されている方法におけるすべてまたはあるステップ、装置の機能モジュール／ユニットが、ソフトウェア、ファームウェア、ハードウェア、およびそれらの適切な組み合わせとして実施されうることを理解するであろう。ハードウェア実施形態において、上記の説明で言及された機能モジュール／ユニット間の区分は、必ずしも物理的構成要素の区分に対応せず、例えば、１つの物理的構成要素は、複数の機能を有してもよく、または１つの機能またはステップは、幾つかの物理的構成要素によって協働して実行されてもよい。いくつかの物理的構成要素またはすべての物理的構成要素は、中央処理装置、デジタル信号プロセッサ、またはマイクロプロセッサなどのプロセッサによって実行されるソフトウェアとして、またはハードウェアとして、または特定用途向け集積回路などの集積回路として実施され得る。このようなソフトウェアは、コンピュータ記憶媒体（または非一時的媒体）および通信媒体（または一時的媒体）を含み得るコンピュータ可読媒体上に配置され得る。当業者によく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術で実施される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ若しくは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）若しくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ若しくは他の磁気ストレージデバイス、または所望の情報を記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を含むが、これらに限定されない。さらに、通信媒体は、一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または搬送波もしくは他の搬送機構などの変調データ信号における他のデータを含み、任意の情報配信媒体を含み得ることが当業者に知られている。

本明細書において実施形態の例が公開されており、また、特定の用語が用いられているが、それらは一般的な説明的な意味としてのみ使用され、解釈されるべきであり、限定を目的としたものではない。いくつかの実例では、特定の実施例と組み合わせて説明される特徴、特性、および／または要素は、別途明確に指摘しない限り、単独で、または他の実施例にて説明される特徴、特性、および／または要素と組み合わせて使用され得ることが当業者に明らかであろう。したがって、添付の請求項によって明らかにされている本開示の範囲から逸脱しない限り、様々な形態および詳細における変更が行われ得ることを当業者は理解するであろう。

Claims

カレントサービス作成状態での作成予定サービスを行動方策に基づいて決定し、前記作成予定サービスを作成し、カレントサービス作成状態での即時報酬を計算し、一つのエピソードが終了するまで次のサービス作成状態に入り、各々のサービス作成状態での即時報酬に基づいて各々のサービス作成状態での総合最適化パラメータを計算し、前記各々のサービス作成状態での総合最適化パラメータに基づいて量子化インデックス重みベクトルを計算・更新することであって、前記行動方策は、複数の量子化インデックスに対応する量子化インデックス重みベクトルに関する確率関数であることと、
数量の予め設けられたエピソードを反復して、最適な量子化インデックス重みベクトルを得ることと、
前記最適な量子化インデックス重みベクトルに基づいて前記行動方策を更新することと、
を含む、ＯＴＮネットワークリソース最適化方法。
カレントサービス作成状態での作成予定サービスを行動方策に基づいて決定する前に、複数の量子化インデックスとインデックス重みベクトルとに基づいて総合量子化インデックス採点を計算することと、
前記総合量子化インデックス採点に基づいて欲張り係数を計算することと、
作成予定サービスの選択確率と前記欲張り係数とに基づいて前記行動方策を決定することと、
をさらに含む、請求項１に記載の方法。
カレントサービス作成状態での作成予定サービスを行動方策に基づいて決定することは、
各作成予定サービスをカレントサービス作成状態で選択する確率を計算することと、
各作成予定サービスを前記カレントサービス作成状態で選択する確率に基づいて一つの作成予定サービスを決定することと、
予め設けられたＯＴＮネットワーク総合インデックス最適化目的関数に基づいて、決定された作成予定サービスの代替経路選択をソートすることと、
前記ソートにおける各代替経路選択の選択確率を計算することと、
前記ソートにおける各代替経路選択の選択確率に基づいて一つの代替経路選択を決定し、カレントサービス作成状態での作成予定サービスのルーティングとすることと、
を含む、請求項３～１１のいずれか一項に記載の方法。
各々のサービス作成状態での即時報酬に基づいて各々のサービス作成状態での総合最適化パラメータを計算・更新することは、
次のサービス作成状態の後の各サービス作成状態での即時報酬に基づいてカレントサービス作成状態での期待収益を計算することと、
前記カレントサービス作成状態での期待収益に基づいてカレントサービス作成状態での総合最適化パラメータを計算・更新することと、を含む、請求項３～１１のいずれか一項に記載の方法。
第一処理モジュール、第二処理モジュールと更新モジュールを含み、
前記第一処理モジュールは、カレントサービス作成状態での作成予定サービスを行動方策に基づいて決定し、前記作成予定サービスを作成し、カレントサービス作成状態での即時報酬を計算し、一つのエピソードが終了するまで次のサービス作成状態に入り、各々のサービス作成状態での即時報酬に基づいて各々のサービス作成状態での総合最適化パラメータを計算し、前記各々のサービス作成状態での総合最適化パラメータに基づいて量子化インデックス重みベクトルを計算・更新し、前記行動方策は、複数の量子化インデックスに対応する量子化インデックス重みベクトルに関する確率関数であるように構成され、
前記第二処理モジュールは、数量の予め設けられたエピソードを反復して、最適な前記量子化インデックス重みベクトルを得るように構成され、
前記更新モジュールは、最適な前記量子化インデックス重みベクトルに基づいて前記行動方策を更新するように構成されたＯＴＮネットワークリソース最適化装置。
一つまたは複数のプロセッサと、
一つまたは複数のプログラムが記憶された記憶装置とを、含み、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサによって実行されると、前記一つまたは複数のプロセッサが請求項１～１６のいずれか一項に記載のＯＴＮネットワークリソース最適化方法を実現するようにするコンピュータデバイス。
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、前記プログラムがプロセッサによって実行されると、請求項１～１６のいずれか一項に記載のＯＴＮネットワークリソース最適化方法を実現するコンピュータ可読記憶媒体。