JP2024014837A

JP2024014837A - 強化学習に基づくオンラインマルチワークフローのスケジューリング方法

Info

Publication number: JP2024014837A
Application number: JP2023118563A
Authority: JP
Inventors: 殷▲いく▼▲いく▼; Yuyu Yin; 黄彬彬; Binbin Huang; 黄子信; Zixin Huang
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-07-20
Filing date: 2023-07-20
Publication date: 2024-02-01
Also published as: CN115114030A; GB202311034D0; CN115114030B; GB2624736A; US20240137404A1

Abstract

【課題】強化学習に基づく、すべてのワークフローの平均完了時間を可能な限り短縮できるオンラインマルチワークフローのスケジューリング方法を提供する。【解決手段】方法は、まず、システムモデルを構築し、次に、ノードのオフロードルールを構築し、モバイルデバイスがノードをエッジサーバにオフロードするか又はローカルに残して実行するかを選択する。その後、タイムラインモデルを構築し、すべてのタスクの到着イベント及びノードの実行完了イベントを記録する。さらに、強化学習に基づくオンラインマルチワークフローのスケジューリングポリシーを構築し、スケジューリング問題の状態空間及び動作空間を定義し、かつ、スケジューリング問題の報酬関数を設計する。最後に、ポリシー勾配に基づく、オンラインマルチワークフローのスケジューリング問題を解くアルゴリズムを設計して、スケジューリングポリシーの実現に用いる。【選択図】図１

Description

本発明は、モバイルエッジコンピューティングの分野に属し、主に強化学習に基づくオンラインマルチワークフローのスケジューリング方法に関する。

モバイルエッジコンピューティング（ＭｏｂｉｌｅＥｄｇｅＣｏｍｐｕｔｉｎｇ、ＭＥＣ）ネットワークは、ネットワークのエッジに一定の計算能力を有するエッジサーバを配置し、コンピューティングタスクをローカルユーザに近いネットワークエッジのエッジサービスにオフロードすることにより、より高いサービス品質を提供する。該ネットワークは、低い遅延、強い安全性及びネットワーク輻輳の減少等の顕著な優位性を有し、従来のクラウドコンピューティングモードにおける限られた計算力及び高遅延の問題を解決する。効果的且つ合理的なオフロード決定とリソース割り当ては、ＭＥＣネットワークの性能を向上させることに役立ち、企業にかなりの利益をもたらす。

しかし、有向非巡回グラフ（ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈ、ＤＡＧ）で特徴付けられるワークフローのＭＥＣネットワーク環境におけるオンラインオフロード決定とリソース割り当ての共同最適化問題は、非凸のＮＰ－ｈａｒｄ問題であり、従来の数学的方法で該種類の問題を解くには、計算量が大きく、複雑性が高く、これはＭＥＣネットワークに巨大な負担をもたらす。したがって、モバイルエッジコンピューティング環境で、どのように良好なオフロード決定とリソース割り当てを得るかは、中国内外の学者に広く注目されている。

上記問題を解決するために、本発明は、強化学習に基づくオンラインマルチワークフローのスケジューリング方法を提供する。

本発明は、ステップＳ１～Ｓ５を含む。

Ｓ１．システムモデルの構築：

モバイルエッジコンピューティングネットワークは、複数のモバイルデバイス及び複数のエッジサーバで構成され、モバイルデバイスのプロセッサ周波数とコア数はf_nとcpu_nで表され、エッジサーバのプロセッサ周波数とコア数はf_mとcpu_mで表され、エッジサーバ間の帯域幅及びモバイルデバイスとエッジサーバとの間の帯域幅はＢで表される。

各モバイルデバイスは、ＤＡＧで特徴付けられる互いに独立したタスクをオンラインで生成する。各ＤＡＧはダブレットG=(V,E)で表すことができ、ここで、V=（v₁,...,v_k,...,v_k）は該ＤＡＧに含まれるノードを示し、E=｛e_kl|v_k∈V,v_l∈V｝はノード間の接続関係を特徴付ける辺を表し、辺e_klはノード間の制約依存関係を表し、すなわちノードv_kの実行が完了した後にのみ、ノードv_lは実行を開始できる。各ノードはいずれもトリプレット

として特徴付けることができ、ここで、W_kはノードv_kのワークロードを表し、

はノードv_kの入力データサイズを表し、

はノードv_kの出力データサイズを表す。各モバイルデバイス及びエッジサーバはいずれも、該モバイルデバイス又はエッジサーバ上で実行されようとするノードを記憶するための自身の待ちキューを有する。

Ｓ２．ノードのオフロードルールの構築：

モバイルデバイスはノード単位でオフロードを行い、ノードをエッジサーバにオフロードするか、ローカルに残して実行するかを選択できる。現在のノードのすべての先行ノードの実行が完了し、かつデータ伝送が完了した後にのみ、現在のノードは実行を開始できる。本発明が提供するスケジューリングポリシーは、スケジューリング動作をトリガした後、割り当て対象のノードを選択し、それに割り当てるエッジサーバ又はモバイルデバイスを決定する。モバイルデバイス又はエッジサーバ上のノードv_kの完了時刻は式（１）で計算でき、

ここで、式（１）のavailはモバイルデバイス又はエッジサーバの利用可能な時刻を表し、

は

とavailの大きな値を取ることを表す。式（２）は、現在のノードv_kのすべての先行ノードの実行が完了し、かつ出力データの伝送が完了した時刻を表し、ここで、

はノードv_lの実行が完了した時刻を表し、

はノードv_kのすべての先行ノードv_lをトラバースし、

とT_tran(v_l,v_k)の和の最大値を取ることを表す。式（３）はデータ伝送に必要な時間を表し、先行ノードと現在のノードが同じモバイルデバイス又はエッジサーバに実行すれば、データ伝送を行う必要がなく、そうでなければ、データ伝送を行う必要があり、式（４）はノードの実行にかかる時間を表す。

Ｓ３．タイムラインモデルの構築：

本発明は、すべてのＤＡＧタスクの到着イベント及びノードの実行完了イベントが記録されるタイムラインモデルを提供する。モバイルデバイス上のタスクの到着過程は、パラメータがλであるポアソン分布に従い、すなわちタスク到着率はλである。スケジューリング動作をトリガする条件が満たされるまで、タイムライン上の現在時刻に最も近いイベントが絶えずキャプチャされ、かつキャプチャされたイベントに従って現在時刻を更新する。スケジューリング動作をトリガする条件は、スケジューリング可能なノードがあり、かつエッジサーバ又は該ノードが属するモバイルデバイスがアイドル状態にあることであり、スケジューリング動作が終了した後、タイムライン上のイベントをキャプチャし続ける。

Ｓ４．強化学習に基づくオンラインマルチワークフローのスケジューリングポリシー：

スケジューリング問題の状態空間及び動作空間を定義し、かつスケジューリング問題の報酬関数を設計し、勾配ポリシーを使用して訓練する必要があり、目標は所望の報酬を最大化することである。具体的には、次のサブステップＳ４１～Ｓ４４を含む。

Ｓ４１．状態空間の定義：

ＤＡＧで特徴付けられるマルチワークフローのオンラインスケジューリング環境で、環境と対話するエージェントはグラフ畳み込みニューラルネットワークを用いてすべてのＤＡＧの特徴を抽出する。グラフ畳み込みニューラルネットワークにより、各ノードは上から下へ自身の子ノードの情報を集約し、同時に自身を親ノードとする子ノードもそれに対応する親ノードによって集約される。メッセージを段階的に伝達して集約することにより、各ノードの埋め込みベクトルを得ることができ、これには各ノードのクリティカルパス値の情報を含む。同時に、これらのノードの埋め込みベクトルに基づいて、エージェントはさらに集約して、ノードが属するＤＡＧの埋め込みベクトルを形成でき、これには該ＤＡＧの残りのワークロードの情報を含む。これらのＤＡＧの埋め込みベクトルに基づいて、エージェントは集約して、ローバルな埋め込みベクトルの情報を得ることができ、これにはグローバルなワークロードの情報を含む。

エージェントが環境を観測して得た環境状態は２つの部分に分けられる。

スケジューリングするノードを選択する時、エージェントの観測可能な環境状態O_nodeは式（５）で表され、

ここで、E_node、E_DAG、E_globaはそれぞれノード、ノードが属するＤＡＧ、グローバルレベルの埋め込みベクトルを表し、T_stayは、ノードが属するＤＡＧが環境内に滞在する時間を表し、T_wasteは、ノードがモバイルデバイス又はエッジサーバでの実行を待機する時間、及びモバイルデバイス又はエッジサーバが待機する時間を表し、D_i,oはノードの入力データと出力データを表し、W_nodeはノードのワークロードを表し、W_preは、ノードのすべての親ノードのワークロードの合計を表す。

今回割り当てるサーバを選択する時、エージェントの観測可能な環境状態O_serverは式（６）で表され、

ここで、st_preは、該ノードの先行ノードのデータ伝送が完了した時刻を表し、st_serverは各サーバの利用可能な時間を表し、T_execは、各サーバ上のノードの実行時間を表し、num_childは、ノードのすべての子ノードの合計数及びすべての子孫ノードの合計数を表し、W_childは、ノードのすべての子ノードとすべての子孫ノードのワークロードの合計を表す。

Ｓ４２．動作空間の定義：

本発明が提供するポリシーは動作を２つの部分に分け、エージェントは、上記の観測された状態O_nodeとO_serverを勾配ポリシーに基づく２つのニューラルネットワーク、すなわちポリシーネットワークにそれぞれ入力して、スケジューリング対象のノードから今回スケジューリングされるノードnodeを選択し、利用可能なサーバから該ノードに割り当てるサーバserverを選択し、式（７）で表すことができ、

ここで、Ａは、定義された動作空間を表す。

Ｓ４３．報酬関数の定義：

マルチワークフローのオンラインスケジューリング中に、各動作は、該動作の良否を評価するために即座報酬を得る。すべてのＤＡＧタスクの平均完了時間を最終的な長期最適化目標として、リトルの法則に従って、即時報酬は、現在の動作の開始から次の動作のトリガまでの間に、すべてのＤＡＧタスクが環境内に存在する時間として設定され、式（８）、（９）で表すことができ、

ここで、T_nowは現在時刻を表し、T_finish(G)はワークフローGの完了時刻を表し、T_preは前の動作が実行された時刻を表し、T_arrive(G)はワークフローGの到着時刻を表し、min(T_now,T_finish(G))はT_now,T_finish(G)の最小値を取ることを表し、max(T_pre,T_arrive(G))はT_pre,T_arrive(G)の最大値を取ることを表す。

Ｓ４４．問題の形式化：

オンラインマルチワークフローのスケジューリングポリシーは、勾配ポリシーに基づくニューラルネットワークモデルを考慮でき、その主な目標は、すべての動作の累積報酬を最大化することであり、式（１０）で表すことができ、

ここで、Ｔは今回のポリシーの実施にＴ個の動作があることを表し、ｋはｋ番目の動作を表し、R_kはｋ番目の動作の報酬を表す。

勾配ポリシーの目標は報酬を最大化することであるため、ニューラルネットワークパラメータに対して勾配上昇を実行してパラメータの学習を行う。

Ｓ５．ポリシーの実現：

本発明は、ポリシー勾配に基づく、オンラインマルチワークフローのスケジューリング問題（ＰＧ－ＯＭＷＳ）を解くアルゴリズムを設計して、ポリシーの実現に用い、ポリシー実現の詳細な過程は、以下のとおりである。

（１）ポリシーの実施段階において、まず、環境パラメータ及びネットワークパラメータを初期化する。環境パラメータは、主に実行キューの長さ、モバイルデバイスとエッジサーバとの間の帯域幅、並びに環境内のＤＡＧタスクの構造及び環境に到着しようとするＤＡＧタスクの構造を含む。ネットワークパラメータは、主に２つのポリシーネットワーク及びグラフ畳み込みニューラルネットワークのネットワークパラメータを含む。その後、エージェントは環境内の各ノードの基本的な特徴を観測し、グラフ畳み込みニューラルネットワークに送信して、２回の集約後にE_nodeを得、これらのE_nodeに従って再び集約してE_DAGを得、すべてのE_DAGに従ってさらに集約してE_globaを得、現在の環境と組み合わせてO_nodeとO_serverを得、これら２つの観測結果に従って、今回の動作に割り当てるノード及び該ノードに割り当てるサーバを選択する。該ノードの完了イベントはタイムラインに記録され、同時に該動作の報酬を計算する。毎回観測された環境状態、動作及び報酬は、保存される。次に、スケジューリング動作をトリガする条件が満たされているか否かを判断し、満たされている場合、スケジューリング動作をトリガし続け、満たされていない場合、スケジューリング動作をトリガする条件が再び満たされるまで、タイムライン上の現在時刻に最も近いイベントをキャプチャし、そのイベントに従って現在時刻を更新する。環境内のすべてのＤＡＧタスクの実行が完了するまで、スケジューリング動作とタイムラインイベントのキャプチャのサイクルを連続的に実行する。

（２）訓練段階において、エージェントは前に保存された環境状態、動作及び報酬に従って、勾配ポリシーを使用して式（１１）によってニューラルネットワークのパラメータを更新し、最終的なワークフロースケジューリングポリシーを取得し、

ここで、θはネットワークパラメータを表し、αは学習率を表し、Tは今回のポリシーの実施にＴ個の動作があることを表し、kはｋ番目の動作を表し、π_θ（o_k,α_k）はθをパラメータとするニューラルネットワークが環境状態o_kで動作α_kを行う確率を表し、r_kは即時報酬に基づいて、さらに減衰して得られた総合報酬を表す。∇_θlnπ_θ（o_k,α_k）r_kはlnπ_θ（s_k,α_k）r_kの勾配を求めることを表し、

はすべての動作について求めた勾配を積算することを表す。

（３）ポリシーの実行段階：環境内にワークフローが動的に到着すると、最終的なワークフロースケジューリングポリシーにより、該ワークフロー内のノードを実行するエッジサーバ又はモバイルデバイスをノードを実行するサーバとして選択し、ワークフロー内のノードを順次実行して完了する。

本発明の有益な効果は以下のとおりである。グラフ畳み込みニューラルネットワークを用いてワークフローの構造的特徴を抽出し、抽出された特徴に基づいてオフロード決定とリソース割り当てを行い、モバイルエッジコンピューティングのマルチワークフローのオンラインスケジューリング環境で、初めて勾配ポリシーと組み合わせた解決手段を提供する。環境内にワークフローが動的に到着すると、本発明は、現在のワークフロー及びサーバの状態をリアルタイムで分析し、ワークフローのノードをあるサーバにスケジューリングして実行することができる。本方法は、複雑さが低く、すべてのワークフローの平均完了時間を可能な限り短縮する。

本発明の強化学習に基づくオンラインマルチワークフローのスケジューリングポリシーのフローチャートである。タスク到着率λの影響下での、本発明とＦＩＦＯ方法、ＳＪＦ方法、Ｒａｎｄｏｍ方法、ＬｏｃａｌＥｘ方法ム及びＥｄｇｅＥｘ方法との実験結果の比較図である。エッジサーバのプロセッサコア数の影響下での、本発明とＦＩＦＯ方法、ＳＪＦ方法、Ｒａｎｄｏｍ方法、ＬｏｃａｌＥｘ方法及びＥｄｇｅＥｘ方法との実験結果の比較図である。モバイルデバイスのプロセッサコア数の影響下での、本発明とＦＩＦＯ方法、ＳＪＦ方法、Ｒａｎｄｏｍ方法、ＬｏｃａｌＥｘ方法及びＥｄｇｅＥｘ方法との実験結果の比較図である。エッジサーバの数の影響下での、本発明とＦＩＦＯ方法、ＳＪＦ方法、Ｒａｎｄｏｍ方法、ＬｏｃａｌＥｘ方法及びＥｄｇｅＥｘ方法との実験結果の比較図である。モバイルデバイスの数の影響下での、本発明とＦＩＦＯ方法、ＳＪＦ方法、Ｒａｎｄｏｍ方法、ＬｏｃａｌＥｘ方法及びＥｄｇｅＥｘ方法との実験結果の比較図である。

本発明の目的、技術的解決手段及び利点をより明確に分かりやすくするために、以下、図面を参照しながら本発明をさらに詳しく説明する。

図１に示すように、本発明が提供する強化学習に基づくオンラインマルチワークフローのスケジューリング方法は、以下のステップＳ１～Ｓ５を含む。

Ｓ１．システムモデルの構築：

モバイルエッジコンピューティングネットワークは、複数のモバイルデバイス及び複数のエッジサーバで構成され、モバイルデバイスのプロセッサ周波数とコア数はf_nとcpu_nで表され、エッジサーバのプロセッサ周波数とコア数はf_mとcpu_mで表され、エッジサーバ間の帯域幅及びモバイルデバイスとエッジサーバとの間の帯域幅はでB表される。

各モバイルデバイスは、ＤＡＧで特徴付けられる互いに独立したタスクをオンラインで生成する。各ＤＡＧはダブレットG=(V,E)で表すことができ、ここで、V=（v₁,...,v_k,...,v_k）は該ＤＡＧに含まれるノードを表し、E=｛e_kl|v_k∈V,v_l∈V｝はノード間の接続関係を特徴付ける辺を表す。辺e_klはノード間の制約依存関係を表し、すなわちノードv_kの実行が完了した後にのみ、ノードv_lは実行を開始できる。各ノードはいずれもトリプレット

として特徴付けることができ、ここで、W_kはノードのワークロードを表し、

はノードv_kの入力データサイズを表し、

はノードの出力データサイズを表す。各モバイルデバイス及びエッジサーバはいずれも、該モバイルデバイス又はエッジサーバ上で実行されようとするノードを記憶するための自身の待ちキューを有する。

Ｓ２．ノードのオフロードルールの構築：

ここで、式（１）のavailは、モバイルデバイス又はエッジサーバの利用可能時刻を表し、式（２）は、現在のノードv_kのすべての先行ノードの実行が完了し、かつ出力データの伝送が完了した時刻を表す。式（３）はデータ伝送に必要な時間を表し、先行ノードと現在のノードが同じモバイルデバイス又はエッジサーバに実行すれば、データ伝送を行う必要がなく、そうでなければ、データ伝送を行う必要がある。式（４）はノードの実行にかかる時間を表す。

Ｓ３．タイムラインモデルの構築：

本発明は、すべてのＤＡＧタスクの到着イベント及びノードの実行完了イベントが記録されるタイムラインモデルを提供する。モバイルデバイス上のタスクの到着過程は、パラメータがλであるポアソン分布に従う。スケジューリング動作をトリガする条件が満たされるまで、タイムライン上の現在時刻に最も近いイベントが絶えずキャプチャされ、かつキャプチャされたイベントに従って現在時刻を更新する。スケジューリング動作をトリガする条件は、スケジューリング可能なノードがあり、かつエッジサーバ又は該ノードが属するモバイルデバイスがアイドル状態にあることである。スケジューリング動作が終了した後、タイムライン上のイベントをキャプチャし続ける。

スケジューリング問題の状態空間及び動作空間を定義し、かつスケジューリング問題の報酬関数を設計し、勾配ポリシーを使用して訓練する必要があり、目標は、所望の報酬を最大化することである。具体的には、次のサブステップＳ４１～Ｓ４４を含む。

Ｓ４１．状態空間の定義：

ＤＡＧの形式で特徴付けられるマルチワークフローのオンラインスケジューリング環境で、環境と対話するエージェントはグラフ畳み込みニューラルネットワークを使用してすべてのＤＡＧの特徴を抽出し、各ノードは上から下へ自身の子ノードの情報を集約し、同時に自身を親ノードとする子ノードも自身の親ノードによって集約される。メッセージを段階的に伝達して集約することにより、各ノードの埋め込みベクトルを得ることができ、これには各ノードのクリティカルパス値の情報を含む。同時に、これらのノードの埋め込みベクトルに基づいて、エージェントはさらに集約して、ノードが属するＤＡＧの埋め込みベクトルを形成でき、これには該ＤＡＧの残りのワークロードの情報を含む。これらのＤＡＧの埋め込みベクトルに基づいて、エージェントは集約して、ローバルな埋め込みベクトルの情報を得ることができ、これにはグローバルなワークロードの情報を含む。ノードの埋め込みベクトルがあると、エージェントは該ノードに沿った下向きのクリティカルパスのワークロードを判断でき、ＤＡＧ及びグローバルレベルの埋め込みベクトルがあると、エージェントはジョブの残りのワークロードの相対的な大きさを識別できる。

今回割り当てるサーバを選択する時、エージェントの観測可能な環境状態空間O_serverは式（６）で表すことができ、

Ｓ４２．動作空間の定義：

本発明が提供するポリシーは動作を２つの部分に分け、エージェントは、上記の観測された状態O_nodeとO_serverを勾配ポリシーの２つのニューラルネットワークにそれぞれ入力して、スケジューリング対象のノードから今回スケジューリングされるノードnodeを選択し、利用可能なサーバから該ノードに割り当てるサーバserverを選択し、式（７）で表すことができ、

ここで、Ａは、定義された動作空間を表し、

Ｓ４３．報酬関数の定義：

マルチワークフローのオンラインスケジューリング中に、各動作は、動作の良否を評価するために即座報酬を得る。すべてのＤＡＧタスクの平均完了時間を最終的な長期最適化目標として、リトルの法則に従って、即時報酬は、現在の動作の開始から次の動作のトリガまでの間に、すべてのＤＡＧタスクが環境内に存在する時間として設定され、式（８）、（９）で表すことができ、

ここで、T_nowは現在時刻を表し、T_finish(G)はワークフローＧの完了時刻を表し、T_preは前の動作が実行された時刻を表し、T_arrive(G)はワークフローＧの到着時刻を表し、min(T_now,T_finish(G))は、T_now,T_finish(G)の最小値を取ることを表し、max(T_pre,T_arrive(G))は、T_pre,T_arrive(G)の最大値を取ることを表す。リトルの法則に従って、タスクの到着速度は外部によって決定されるため、タスクが環境内に留まる時間が短いほど、環境内のタスクの平均数は少なくなり、すべてのタスクの平均完了時間は短くなる。したがって、該即時報酬は、動作の良否を良好に評価できる。

Ｓ４４．問題の形式化：

オンラインマルチワークフローのスケジューリングポリシーは、勾配ポリシーに基づくモデルを考慮でき、その主な目標は、すべての動作の累積報酬を最大化することであり、式（１０）で表すことができ、

Ｓ５．ポリシーの実現：

（１）ポリシーの実行段階において、まず、環境パラメータ及びネットワークパラメータを初期化する。環境パラメータは、主に実行キューの長さ、モバイルデバイスとエッジサーバとの間の帯域幅、並びに環境内に既に存在したＤＡＧタスクの構造及び環境に到着しようとするＤＡＧタスクの構造を含む。ネットワークパラメータは、主に２つのポリシーネットワーク及びグラフ畳み込みニューラルネットワークのネットワークパラメータを含む。その後、エージェントは環境下での各ノードの基本的な特徴を観測し、グラフ畳み込みニューラルネットワークに送信して、２回の集約後にE_nodeを得、これらのE_nodeに従って再び集約してE_DAGを得、すべてのE_DAGに従ってさらに集約してE_globaを得、現在の環境と組み合わせてO_nodeとO_serverを得、これら２つの観測結果に従って、今回の動作に割り当てるノード及び該ノードに割り当てるサーバを選択する。該ノードの完了イベントはタイムラインに記録され、同時に該動作の報酬Rを計算する。毎回観測された環境状態、動作及び報酬は、保存される。次に、スケジューリング動作をトリガする条件が満たされているか否かを判断し、満たされている場合、スケジューリング動作をトリガし続け、満たされていない場合、スケジューリング動作をトリガする条件が再び満たされるまで、タイムライン上の現在時刻に最も近いイベントをキャプチャし、該イベントに従って現在時刻を更新する。環境内のすべてのＤＡＧの実行が完了するまで、スケジューリング動作とタイムラインイベントのキャプチャのサイクルを連続的に実行する。

（２）訓練段階において、エージェントは前に保存された環境状態、動作及び報酬に従って、勾配ポリシーを使用して式（１１）によってネットワークパラメータを更新し、最終的なワークフロースケジューリングポリシーを取得し、

ここで、θはネットワークパラメータを表し、αは学習率を表し、Tは今回のポリシーの実施にＴ個の動作があることを表し、kはｋ番目の動作を表し、π_θ（o_k,α_k）はθをパラメータとするニューラルネットワークが環境状態o_kで動作α_kを行う確率を表し、r_kは即時報酬に基づいて、さらに減衰して得られた総合報酬を表し、∇_θlnπ_θ（o_k,α_k）r_kはlnπ_θ（s_k,α_k）r_kの勾配を求めることを表し、

本実施例のステップは具体的な実施形態と同じであり、ここでは説明を省略する。

好ましくは、Ｓ１に記載のモバイルデバイスの数は３、そのプロセッサコア数cpu_n=4、プロセッサ周波数はf_n＝２．０ＧＨＺである。エッジサーバの数は６、そのプロセッサコア数はcpu_m=６、プロセッサ周波数はf_m=２．５GHZである。モバイルデバイスとエッジサーバとの間の帯域幅、エッジサーバとエッジサーバとの間の帯域幅は、[10,100]ＭＢ／ｓの間でランダムに値を取る。ＤＡＧタスクは、最初に環境内に１０個あり、その後、モバイルデバイスによってオンラインで１５個生成される。ＤＡＧ内のノードのワークロードは、[10,100]ＧＨＺ・Ｓの間でランダムに値を取る。ノードの出力データはＭＢ単位でワークロードの０．１倍に数値的に設定され、入力データはすべての親ノードの出力データの合計である。

好ましくは、Ｓ２に記載のポアソン分布パラメータ、すなわちタスク到着率λは５に設定される。

好ましくは、Ｓ５に記載のグラフ畳み込みニューラルネットワークの集約が通過するニューラルネットワーク隠れ層構造は同じであり、２つの隠れ層があり、ニューロンの数はそれぞれ１６と８であり、２つのポリシーネットワークの隠れ層の構造も同様で、いずれも３つの隠れ層があり、ニューロンの数はそれぞれ３２、１６、８である。本発明は、Ａｄａｍオプティマイザを使用してターゲットネットワークを更新し、活性化関数はいずれもｌｅａｋｙＲｅｌｕを用い、学習率は０．０００３に設定され、報酬減衰係数γは１に設定される。

以下、比較方法の実施及び実施結果について示す。

提供された方法フレームワークの有効性を評価するために、他の５つの方法（ＳＪＦ、ＦＩＦＯ、Ｒａｎｄｏｍ、ＬｏｃａｌＥｘ、ＥｄｇｅＥｘ）が比較のために使用される。以下、５つの方法を簡単に説明する。

（１）ＳＪＦ：該方法は、短いジョブ優先の原則に従って、実行するノードを選択し、ＤＡＧ内のノードのワークロードの合計をＤＡＧのワークロードとし、ワークロードが少ないほど、スケジューリングが早くなり、該ノードの実行完了時間が最も早いエッジサーバ又はモバイルデバイスを該ノードを実行するサーバとして選択する。

（２）ＦＩＦＯ：該方法は、先入れ先出しの原則に従って、実行するノードを選択し、該ノードの実行完了時間が最も早いエッジサーバ又はモバイルデバイスを該ノードを実行するサーバとして選択する。

（３）ＬｏｃａｌＥｘ：該方法は、常にモバイルデバイスを選択してノードを実行し、ノードの実行順序は先入れ先出しの原則に従う。

（４）ＥｄｇｅＥｘ：この略語は、ノードが常にエッジサーバにオフロードされることを意味し、すなわち、開始ノードと終了ノード以外に、該方法は、ノードの実行完了時間が最も早いエッジサーバを常に選択し、ノードの実行順序は先着順の原則に従う。

（５）Ｒａｎｄｏｍ：該方法は、今回割り当てられたノードとエッジサーバ又はモバイルデバイスを該ノードを実行するサーバとしてランダムに選択する。

タスク到着率、エッジサーバのプロセッサコア数、モバイルデバイスのプロセッサコア数、エッジサーバの数及びモバイルデバイスの数という複数の要因のすべてのタスクの平均完了時間に対する影響をそれぞれ評価及び分析した。

様々なタスク到着間隔のパフォーマンスに対する影響を調べるために、タスク到着間隔を３から７単位時間まで１ずつ増分して変更した。６つの方法によって得られた平均完了時間を図２に示した。図２から、他の方法に比べて、本発明が提供するＰＧーＯＭＷＳによって実現される方法は平均完了時間がより短く、タスク到着間隔が増加するにつれて平均完了時間も徐々に減少することが観察された。これは、タスク到着間隔が増加するにつれて、同時に処理する必要があるノードの数が減り、平均完了時間が短縮されるためであった。

エッジサーバの計算能力のパフォーマンスに対する影響を調べるために、エッジサーバのプロセッサコア数、すなわちＣＰＵコア数を４コアから８コアまで１ずつ増分して変更した。実験における６つの方法で得られた平均完了時間を図３に示した。本発明が提供するＰＧーＯＭＷＳによって実現される方法は、最も短い平均完了時間を得ることができ、ＣＰＵコア数が増加するにつれて、平均完了時間は徐々に減少することが分かった。これは、ＣＰＵコア数の増加により、ノードの処理遅延が大幅に短縮され、平均完了時間が短縮されるためであった。

モバイルデバイスの計算能力の影響を調べるために、モバイルデバイスのＣＰＵコア数を２コアから６コアまで１ずつ増分して変更した。６つの方法によって得られた平均完了時間を図４に示した。他の方法に比べて、本発明が提供するＰＧ－ＯＭＷＳによって実現される方法は、より低い平均完了時間を得ることができた。モバイルデバイスのＣＰＵコア数が増加するにつれて、平均完了時間は徐々に減少した。これは、モバイルデバイスのＣＰＵコア数が増加するにつれて、ノードの処理速度が大幅に加速され、平均完了時間が短縮されるためであった。

様々な数のエッジサーバの方法性能に対する影響を調べるために、エッジサーバの数を１から５まで１ずつ増分して設定した。６つの方法によって得られた平均完了時間を図５に示した。図５の結果から、エッジサーバの数が変化した場合、本発明が提供するＰＧーＯＭＷＳによって実現される方法は、他の方法よりも常に優れていることが示された。エッジサーバの数が増加するにつれて、平均完了時間は減少した。その理由は、より多くのエッジサーバがより多くのコンピューティングリソースを提供し、平均完了時間が減少するためであった。また、ＬｏｃａｌＥｘポリシーの曲線は平坦であった。これは、ＬｏｃａｌＥｘ方法が、エッジサーバの数に関係なく、すべてのノードをローカルに実行するためであった。

モバイルデバイスの数のパフォーマンスに対する影響を調べるために、様々な数のモバイルデバイスに基づいて実験を行った。エッジサーバの数を４から８まで１ずつ増分して設定した。関連する結果を図６に示した。図６から、モバイルデバイスの数が変化した場合、本発明が提供するＰＧーＯＭＷＳによって実現される方法は、常に他の方法よりも優れていることが分かった。モバイルデバイスの数が増加するにつれて、平均完了時間は徐々に減少した。その理由は、より多くのモバイルデバイスがより多くのコンピューティングリソースを提供し、平均完了時間が短縮されるためであった。また、モバイルデバイスの数が過度に増加した場合、ＥｄｇｅＥｘ方法はそれに応じて減少し続けることはなかった。これは、ＥｄｇｅＥｘ方法が、モバイルデバイスの数に関係なく、ほとんどのノードをエッジサーバにオフロードするためであった。

Claims

強化学習に基づくオンラインマルチワークフローのスケジューリング方法であって、ステップＳ１～Ｓ５を含み、
Ｓ１．システムモデルの構築：
モバイルエッジコンピューティングネットワークは、複数のモバイルデバイス及び複数のエッジサーバで構成され、モバイルデバイスのプロセッサ周波数とコア数はf_nとcpu_nで表され、エッジサーバのプロセッサ周波数とコア数はf_mとcpu_mで表され、エッジサーバ間の帯域幅及びモバイルデバイスとエッジサーバとの間の帯域幅はＢで表され、
各モバイルデバイスによってオンラインで生成された互いに独立したタスクを有向非巡回グラフ（ＤＡＧ）で特徴付けると、各有向非巡回グラフ（ＤＡＧ）はダブレットG=(V,E)として表され、ここで、V=（v₁,...,v_k,...,v_k）は、前記ＤＡＧに含まれるノードを表し、E=｛e_kl|v_k∈V,v_l∈V｝はノード間の接続関係を特徴付ける辺を表し、辺e_klはノード間の制約依存関係を表し、すなわちノードv_kの実行が完了した後にのみ、ノードv_lは実行を開始でき、
各ノードはトリプレット

として特徴付けることができ、ここで、W_kはノードv_kのワークロードを表し、

はノードv_kの入力データサイズを表し、

はノードv_kの出力データサイズを表し、
Ｓ２．ノードのオフロードルールの構築：
スケジューリングポリシーは、スケジューリング動作をトリガした後、割り当て対象のノードを選択し、それに割り当てるエッジサーバ又はモバイルデバイスを決定し、
Ｓ３．タイムラインモデルの構築：
前記タイムラインモデルは、すべてのＤＡＧタスクの到着イベント及びノードの実行完了イベントを記録し、
モバイルデバイス上のタスクの到着過程は、パラメータがλであるポアソン分布に従い、すなわちタスク到着率はλであり、スケジューリング動作をトリガする条件が満たされるまで、タイムライン上の現在時刻に最も近いイベントが絶えずキャプチャされ、かつキャプチャされたイベントに従って現在時刻を更新し、スケジューリング動作が終了した後、タイムライン上のイベントをキャプチャし続け、
Ｓ４．強化学習に基づくオンラインマルチワークフロースのケジューリングポリシー：
スケジューリング問題の状態空間及び動作空間を定義し、かつスケジューリング問題の報酬関数を設計し、勾配ポリシーを使用して訓練し、
Ｓ４１．状態空間の定義：
エージェントが環境を観測して得た環境状態は２つの部分に分けられ、
スケジューリングするノードを選択する時、エージェントの観測可能な環境状態O_nodeは式（５）で表され、

ここで、E_node、E_DAG、E_globaはそれぞれノード、ノードが属するＤＡＧ、グローバルレベルの埋め込みベクトルを表し、T_stayは、ノードが属するＤＡＧが環境内に滞在する時間を表し、T_wasteは、ノードがモバイルデバイス又はエッジサーバでの実行を待機する時間、及びモバイルデバイス又はエッジサーバが待機する時間を表し、D_i,oはノードの入力データと出力データを表し、W_nodeはノードのワークロードを表し、W_preは、ノードのすべての親ノードのワークロードの合計を表し、
割り当てるサーバを選択する時、エージェントの観測可能な環境状態O_serverは式（６）で表され、

ここで、st_preは、前記ノードの先行ノードのデータ伝送が完了した時刻を表し、st_serverは各サーバの利用可能な時間を表し、T_execは各サーバ上のノードの実行時間を表し、num_childは、ノードのすべての子ノードの合計数及びすべての子孫ノードの合計数を表し、W_childは、ノードのすべての子ノードとすべての子孫ノードのワークロードの合計を表し、
Ｓ４２．動作空間の定義：
エージェントは、上記の観測された状態O_nodeとO_serverを勾配ポリシーに基づく２つのニューラルネットワークにそれぞれ入力して、スケジューリング対象のノードから今回スケジューリングされるノードnodeを選択し、利用可能なサーバから前記ノードに割り当てるサーバserverを選択し、式（７）で表され、

ここで、Ａは定義された動作空間を表し、
Ｓ４３．報酬関数の定義：
即時報酬は、今回の動作の開始から次の動作のトリガまでの間に、すべてのＤＡＧタスクが環境内に存在する時間Rとして設定され、式（８）、（９）で表され、

ここで、T_nowは現在時刻を表し、T_finish(G)はワークフローGの完了時刻を表し、T_preは前の動作が実行された時刻を表し、T_arrive(G)はワークフローGの到着時刻を表し、min(T_now,T_finish(G))はT_now,T_finish(G)の最小値を取ることを表し、max(T_pre,T_arrive(G))はT_pre,T_arrive(G)の最大値を取ることを表し、
Ｓ４４．問題の形式化
オンラインマルチワークフローのスケジューリングポリシーの勾配ポリシーに基づくニューラルネットワークモデルの主な目標は、すべての動作の累積報酬を最大化することであり、式（１０）で表され、

ここで、Ｔは今回のポリシーの実施にＴ個の動作があることを表し、ｋはｋ番目の動作を表し、R_kはｋ番目の動作の報酬を表し、
ニューラルネットワークパラメータに対して勾配上昇を実行してパラメータの学習を行い、
Ｓ５．ポリシーの実現：
（１）まず、環境パラメータ及びネットワークパラメータを初期化し、次に、エージェントは環境内の各ノードの基本的な特徴を観測し、グラフ畳み込みニューラルネットワークに送信して、２回の集約後にE_nodeを得、これらのE_nodeに従って再び集約してE_DAGを得、すべてのE_DAGに従ってさらに集約してE_globaを得、現在の環境と組み合わせてO_nodeとO_serverを得、今回の動作に割り当てるノード及び前記ノードに割り当てるサーバを選択し、前記ノードの完了イベントはタイムラインに記録され、同時に前記動作の報酬を計算し、毎回観測された環境状態、動作及び報酬は、保存され、
次に、スケジューリング動作をトリガする条件が満たされているか否かを判断し、満たされている場合、スケジューリング動作をトリガし続け、満たされていない場合、スケジューリング動作をトリガする条件が再び満たされるまで、タイムライン上の現在時刻に最も近いイベントをキャプチャし、前記イベントに従って現在時刻を更新し、
環境内のすべてのＤＡＧタスクの実行が完了するまで、スケジューリング動作とタイムラインイベントのキャプチャのサイクルを連続的に実行し、
（２）エージェントは前に保存された環境状態、動作及び報酬に従って、勾配ポリシーを使用して式（１１）によってネットワークパラメータを更新し、最終的なワークフロースケジューリングポリシーを取得し、

ここで、θはネットワークパラメータを表し、αは学習率を表し、Tは今回のポリシーの実施にＴ個の動作があることを表し、kはｋ番目の動作を表し、π_θ（o_k,α_k）は、θをパラメータとするニューラルネットワークが環境状態o_kで動作α_kを行う確率を表し、r_kは、即時報酬に基づいて、さらに減衰して得られた総合報酬を表し、∇_θlnπ_θ（o_k,α_k）r_kは、lnπ_θ（s_k,α_k）r_kの勾配を求めることを表し、

はすべての動作について求めた勾配を積算することを表し、
環境内にワークフローが動的に到着すると、最終的なワークフロースケジューリングポリシーにより、前記ワークフロー内のノードを実行するエッジサーバ又はモバイルデバイスを前記ノードを実行するサーバとして選択し、ワークフロー内のノードを順次実行して完了することを特徴とする強化学習に基づくオンラインマルチワークフローのスケジューリング方法。
ステップＳ１に記載のモバイルデバイス及びエッジサーバはいずれも、前記モバイルデバイス又はエッジサーバ上で実行されるノードを記憶するための自身の待ちキューを有することを特徴とする請求項１に記載の強化学習に基づくオンラインマルチワークフローのスケジューリング方法。
ステップＳ２に記載のモバイルデバイスはノード単位でオフロードを行い、ノードをエッジサーバにオフロードするか、ローカルに残して実行するかを選択することを特徴とする請求項１に記載の強化学習に基づくオンラインマルチワークフローのスケジューリング方法。
ステップＳ２において、現在のノードのすべての先行ノードの実行が完了し、かつデータ伝送が完了した後にのみ、現在のノードは実行を開始できることを特徴とする請求項１に記載の強化学習に基づくオンラインマルチワークフローのスケジューリング方法。
ステップＳ２において、モバイルデバイス又はエッジサーバ上のノードv_kの完了時刻は、式（１）で計算され、

ここで、式（１）のavailは、モバイルデバイス又はエッジサーバの利用可能な時刻を表し、

は、

とavailの大きな値を取ることを表し、式（２）は、現在のノードv_kのすべての先行ノードの実行が完了し、かつ出力データの伝送が完了した時刻を表し、ここで、

はノードv_lの実行が完了した時刻を表し、

はノードv_kのすべての先行ノードv_lをトラバースし、

とT_tran(v_l,v_k)の和の最大値を取ることを表し、式（３）はデータ伝送に必要な時間を表し、先行ノードと現在のノードが同じモバイルデバイス又はエッジサーバに実行すれば、データ伝送を行う必要がなく、そうでなければ、データ伝送を行う必要があり、ここで、Ｂはエッジサーバ間の帯域幅及びモバイルデバイスとエッジサーバとの間の帯域幅を表し、

はノードv_lの出力データサイズを表し、式（４）はノードの実行にかかる時間を表し、ここで、f_nとcpu_nはそれぞれモバイルデバイスのプロセッサ周波数とコア数を表し、f_mとcpu_mはそれぞれエッジサーバのプロセッサ周波数とコア数を表すことを特徴とする請求項１に記載の強化学習に基づくオンラインマルチワークフローのスケジューリング方法。
ステップＳ３に記載のスケジューリング動作をトリガする条件は、スケジューリング可能なノードがあり、かつエッジサーバ又は前記ノードが属するモバイルデバイスがアイドル状態にあることであることを特徴とする請求項１に記載の強化学習に基づくオンラインマルチワークフローのスケジューリング方法。
ステップＳ４において、ＤＡＧで特徴付けられるマルチワークフローのオンラインスケジューリング環境で、環境と対話するエージェントは、グラフ畳み込みニューラルネットワークを用いてすべてのＤＡＧの特徴を抽出することを特徴とする請求項１に記載の強化学習に基づくオンラインマルチワークフローのスケジューリング方法。
ステップＳ４１において、グラフ畳み込みニューラルネットワークにより、各ノードは上から下へ自身の子ノードの情報を集約し、同時に自身を親ノードとする子ノードもそれに対応する親ノードによって集約され、各ノードの埋め込みベクトルを取得し、これには各ノードのクリティカルパス値の情報を含み、
同時に、これらのノードの埋め込みベクトルに基づいて、エージェントはさらに集約して、ノードが属するＤＡＧの埋め込みベクトルを形成し、これには前記ＤＡＧの残りのワークロードの情報を含み、
これらのＤＡＧの埋め込みベクトルに基づいて、エージェントは集約して、ローバルな埋め込みベクトルを取得し、これにはグローバルなワークロードの情報を含むことを特徴とする請求項１に記載の強化学習に基づくオンラインマルチワークフローのスケジューリング方法。
ステップＳ４３において、マルチワークフローオンラインスケジューリング中に、各動作は、前記動作の良否を評価するために即時報酬を得、すべてのＤＡＧタスクの平均完了時間を最終的な長期最適化目標とすることを特徴とする請求項１に記載の強化学習に基づくオンラインマルチワークフローのスケジューリング方法。
ステップＳ５に記載の環境パラメータ及びネットワークパラメータ：
前記環境パラメータは、主に実行キューの長さ、モバイルデバイスとエッジサーバとの間の帯域幅、並びに環境内のＤＡＧタスクの構造及び環境に到着しようとするＤＡＧタスクの構造を含み、
前記ネットワークパラメータには、主に２つのポリシーネットワーク及びグラフ畳み込みニューラルネットワークのネットワークパラメータを含むことを特徴とする請求項１に記載の強化学習に基づくオンラインマルチワークフローのスケジューリング方法。