JP7510661B2 - Control quantity calculation device and control quantity calculation method - Google Patents
Control quantity calculation device and control quantity calculation method Download PDFInfo
- Publication number
- JP7510661B2 JP7510661B2 JP2020058499A JP2020058499A JP7510661B2 JP 7510661 B2 JP7510661 B2 JP 7510661B2 JP 2020058499 A JP2020058499 A JP 2020058499A JP 2020058499 A JP2020058499 A JP 2020058499A JP 7510661 B2 JP7510661 B2 JP 7510661B2
- Authority
- JP
- Japan
- Prior art keywords
- slices
- control
- control amount
- slice
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims description 52
- 238000009795 derivation Methods 0.000 claims description 49
- 230000009471 action Effects 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 20
- 230000002787 reinforcement Effects 0.000 claims description 19
- 238000013500 data storage Methods 0.000 claims description 18
- 238000013468 resource allocation Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000010295 mobile communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000000052 comparative effect Effects 0.000 description 7
- 238000010606 normalization Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Description
特許法第30条第2項適用 発行日 令和1年10月15日 刊行物 2019 IEEE 8th Global Conference on Consumer Electronics(GCCE)予稿集、p129-130、発行者:IEEE 〔刊行物等〕 開催日 令和1年10月15日~18日(発表日:令和1年10月15日) 集会名、開催場所 IEEE 8th Global Conference on Consumer Electronics(GCCE 2019)(開催場所:千里ライフサイエンスセンター) 〔刊行物等〕 発行日 令和2年1月7日 刊行物 The 34th International Conference on Information Networking(ICOIN2020)予稿集、p420-425、発行者:IEEE 〔刊行物等〕 開催日 令和2年1月7日~10日(発表日:令和2年1月9日) 集会名、開催場所 The 34th International Conference on Information Networking(ICOIN 2020)(開催場所:ACホテル バルセロナ フォーラム)Article 30,
本発明は、スライスに対する通信リソースの割り当て量を制御するための制御量を算出する制御量算出装置及び制御量算出方法に関する。 The present invention relates to a control amount calculation device and a control amount calculation method for calculating a control amount for controlling the amount of communication resources allocated to a slice.
第5世代(5G)移動通信システムの商用化により、通信ネットワークの大容量化、高速化、及び多数同時接続が可能となり、これに伴い、多様なサービスの提供が円滑化される。また、5G移動通信システムにおいて提供が検討されている技術として、多様なサービスごとに最適なネットワーク環境を提供するネットワークスライシングという技術が存在する。この技術においては、ネットワーク内に設定される各スライスに対して、基地局、通信経路、交換機、ルータ、サーバのCPU等の通信リソース(以下、単にリソースとも言う。)を割り当てるリソース管理の仕組みが重要となる。 The commercialization of the fifth generation (5G) mobile communications system will enable larger capacity, faster speeds, and multiple simultaneous connections in communications networks, facilitating the provision of a variety of services. In addition, one technology being considered for provision in the 5G mobile communications system is network slicing, which provides an optimal network environment for each of a variety of services. In this technology, a resource management mechanism that allocates communications resources (hereinafter simply referred to as resources) such as base stations, communication paths, switches, routers, and server CPUs to each slice set up in the network is important.
ネットワーク内の各スライスに対してリソースを割り当てるリソース管理の手法としては、遺伝的アルゴリズムを用いた手法(下記非特許文献1参照)、深層強化学習を用いた手法(下記非特許文献2参照)が検討されている。
As resource management methods for allocating resources to each slice in a network, methods using genetic algorithms (see Non-Patent
上述した非特許文献1及び非特許文献2に記載の手法では、制御対象のスライスの数が変化した場合にモデルの再学習が必要となり、スライス数の動的な変化に対応が難しい。
In the methods described in
本発明は、上記課題に鑑みて為されたものであり、スライス数が動的に変化した場合にも複数のスライスへのリソース割り当てを実現できる制御量算出装置及び制御量算出方法を提供することを目的とする。 The present invention has been made in consideration of the above problems, and aims to provide a control amount calculation device and a control amount calculation method that can realize resource allocation to multiple slices even when the number of slices changes dynamically.
上記課題を解決するため、本発明の一形態にかかる制御量算出装置は、通信ネットワーク上の仮想化ネットワークである複数のスライスに対する通信リソースの割り当て量を制御するための制御量を算出する制御量算出装置であって、複数のスライスのそれぞれに対応して設けられ、スライスに関する状態値、及びスライスに関する報酬値を取得し、状態値を強化学習モデルに入力することにより、スライスに対する制御量である行動を決定および出力する複数の制御量導出部と、複数の制御量導出部において取得された状態値及び報酬値と、当該状態値に対応して決定された行動との組み合わせである学習データを格納する学習データ格納部と、学習データ格納部に格納された学習データを用いて、複数の制御量導出部で共用される強化学習モデルをトレーニングにより最適化するトレーニング部と、を備える。 In order to solve the above problem, a control amount calculation device according to one embodiment of the present invention is a control amount calculation device that calculates a control amount for controlling the allocation amount of communication resources to multiple slices that are virtualized networks on a communication network, and includes multiple control amount derivation units that are provided corresponding to each of the multiple slices, acquire a state value related to the slice and a reward value related to the slice, and input the state value into a reinforcement learning model to determine and output an action that is a control amount for the slice, a learning data storage unit that stores learning data that is a combination of the state values and reward values acquired in the multiple control amount derivation units and the action determined corresponding to the state value, and a training unit that optimizes the reinforcement learning model shared by the multiple control amount derivation units by training using the learning data stored in the learning data storage unit.
あるいは、本発明の他の形態にかかる制御量算出方法は、通信ネットワーク上の仮想化ネットワークである複数のスライスに対する通信リソースの割り当て量を制御するための制御量を算出する制御量算出装置によって実行される制御量算出方法であって、複数のスライスのそれぞれに対応して実行され、スライスに関する状態値、及びスライスに関する報酬値を取得し、状態値を強化学習モデルに入力することにより、スライスに対する制御量である行動を決定および出力する複数の制御量導出ステップと、複数の制御量導出ステップにおいて取得された状態値及び報酬値と、当該状態値に対応して決定された行動との組み合わせである学習データを格納する学習データ格納ステップと、学習データ格納ステップによって格納された学習データを用いて、複数の制御量導出ステップで共用される強化学習モデルをトレーニングにより最適化するトレーニングステップと、を備える。 Alternatively, a control amount calculation method according to another embodiment of the present invention is a control amount calculation method executed by a control amount calculation device that calculates a control amount for controlling the allocation amount of communication resources to a plurality of slices that are virtualized networks on a communication network, and includes a plurality of control amount derivation steps that are executed corresponding to each of the plurality of slices, acquire a state value for the slice and a reward value for the slice, and input the state value into a reinforcement learning model to determine and output an action that is a control amount for the slice, a learning data storage step that stores learning data that is a combination of the state values and reward values acquired in the plurality of control amount derivation steps and the action determined corresponding to the state value, and a training step that optimizes the reinforcement learning model shared by the plurality of control amount derivation steps by training using the learning data stored in the learning data storage step.
上記一形態あるいは上記他の形態によれば、複数のスライス毎に、状態値を強化学習モデルに入力することによって、スライス毎にリソース割り当て量を制御するための行動が決定および出力され、その際に用いられた状態値及び行動とその行動に対する報酬値との組み合わせが学習データとして格納される。このとき、複数のスライスのリソース割り当ての制御で共用される強化学習モデルは、予め格納された上記の学習データを用いてトレーニングにより最適化される。これにより、制御対象のネットワークにおけるスライスの数が動的に変化した場合であっても、個々のスライスに関する制御結果を学習データとして、複数のスライスに対するリソース割り当て制御に用いられる強化学習モデルを最適化することができる。その結果、複数のスライスへのリソース割り当てを適切に制御することができる。 According to the above one or other of the above embodiments, by inputting state values for each of the multiple slices into a reinforcement learning model, an action for controlling the resource allocation amount for each slice is determined and output, and a combination of the state value and action used at that time and the reward value for that action is stored as learning data. At this time, the reinforcement learning model shared in the control of resource allocation of the multiple slices is optimized by training using the above learning data stored in advance. As a result, even if the number of slices in the network to be controlled changes dynamically, the reinforcement learning model used for resource allocation control for the multiple slices can be optimized using the control results for each slice as learning data. As a result, resource allocation to the multiple slices can be appropriately controlled.
ここで、スライスに関する状態値は、スライスの要件に関する満足度、及び、スライスに割り当てられた通信リソースの使用率を少なくとも含む、ことが好ましい。この場合、複数のスライスに対してリソース割り当てを制御する際に、各スライスの要件を満たすように制御することができるとともに、リソースの利用効率を向上させることができる。 Here, it is preferable that the state value for a slice includes at least the degree of satisfaction with the slice requirements and the utilization rate of the communication resources allocated to the slice. In this case, when controlling resource allocation to multiple slices, it is possible to control so as to satisfy the requirements of each slice, and to improve the efficiency of resource utilization.
また、スライスに関する報酬値は、スライスの要件に関する満足度と、スライスに割り当てられた通信リソースの使用率とを加味した値である、ことも好ましい。この場合、複数のスライスに対してリソース割り当てを制御するための強化学習モデルを最適化する際に、各スライスの要件を満たすように最適化することができるとともに、リソースの利用効率を向上させるように最適化することができる。 It is also preferable that the reward value for a slice is a value that takes into account the satisfaction level regarding the requirements of the slice and the utilization rate of the communication resources allocated to the slice. In this case, when optimizing a reinforcement learning model for controlling resource allocation to multiple slices, it can be optimized to satisfy the requirements of each slice and to improve the utilization efficiency of resources.
また、複数の制御量導出部によって出力された制御量を基に、複数のスライスに対する割り当て量を制御する制御部をさらに備える、ことも好ましい。こうすれば、複数のスライスに対するリソース割り当て量を、複数の制御量導出部によって出力された制御量を基に、決定することができる。その結果、例えば、所定の判断基準を基にした優先制御等が可能となる。 It is also preferable to further include a control unit that controls the allocation amounts for the multiple slices based on the control amounts output by the multiple control amount derivation units. In this way, the resource allocation amounts for the multiple slices can be determined based on the control amounts output by the multiple control amount derivation units. As a result, for example, priority control based on a predetermined judgment criterion becomes possible.
また、制御部は、複数のスライスに対する直前のリソースの割り当て量と複数のスライスの要件に関する満足度とを基に複数のスライスに対する優先度を決定し、優先度の示す順番に従って複数のスライスに対する制御を実行する、ことも好ましい。この場合には、直前のリソース割り当て量とスライス要件の満足度とから決定した優先度を基にしたリソース割り当ての優先制御等が可能となる。これにより、複数のスライスに対する円滑なリソース割り当てが可能となる。 It is also preferable that the control unit determines priorities for the multiple slices based on the immediately preceding resource allocation amounts for the multiple slices and the satisfaction levels of the requirements for the multiple slices, and executes control for the multiple slices according to the order indicated by the priorities. In this case, priority control of resource allocation based on priorities determined from the immediately preceding resource allocation amounts and the satisfaction levels of the slice requirements becomes possible. This enables smooth resource allocation to the multiple slices.
また、スライスに対する制御量は、無線アクセスネットワークにおけるリソースブロックの数に関する、ことも好ましい。この場合には、複数のスライスへのリソースブロックの割り当てを適切に制御することができる。 It is also preferable that the amount of control for a slice relates to the number of resource blocks in the radio access network. In this case, the allocation of resource blocks to multiple slices can be appropriately controlled.
本発明によれば、スライス数が動的に変化した場合にも複数のスライスへのリソース割り当てを実現できる。 According to the present invention, it is possible to allocate resources to multiple slices even when the number of slices changes dynamically.
以下、図面を参照しつつ本発明に係る制御システムの好適な実施形態について詳細に説明する。なお、図面の説明においては、同一又は相当部分には同一符号を付し、重複する説明を省略する。 Below, a preferred embodiment of the control system according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same or corresponding parts are given the same reference numerals, and duplicated explanations will be omitted.
図1に示す本発明の好適な一実施形態である制御システム1は、第5世代の移動体通信(5G)等の移動体通信システムを対象にして、スライスへのリソース割り当てを制御するコンピュータシステムである。スライスとは、通信ネットワーク全体のリソースを複数に分割したうちの1つの仮想化ネットワークのことである。
The
制御システム1の制御対象は、移動体通信システム内に設定された複数のスライスであり、これらの複数のスライスの数は動的に変化しうる。例えば、本実施形態では、複数のスライスとして、スループット、遅延、及び信頼性で規定されるスライスの要件が互いに異なる、スライスS1、スライスS2、…、スライスSN(Nは任意の自然数)、及びスライスSBを含む(N+1)個のスライスを想定している。これらのスライスS1~SN,SBは、それぞれ、基地局BS(Base Station)等を含む無線アクセスネットワーク(RAN:Radio Access Network)のリソースを分割して構成され、複数のユーザ端末UE(User Equipment)によって共有されている。
The control object of the
制御システム1は、スライスS1、スライスS2、…、スライスSNに対するリソースであるリソースブロックの割り当てを制御するための制御量を算出する制御量算出装置3と、制御量算出装置3によって算出された制御量を基に、スライスS1、スライスS2、…、スライスSN、スライスSBに対するリソースブロック(以下、RBともいう)の割り当て量を制御する制御装置(制御部)5とを含む。ここで、本実施形態では、制御量算出装置3と制御装置5とは、別々の装置として構成されているが、一体化された装置であってもよい。制御装置5は、移動体通信システムを制御可能なように当該移動体通信システムとの間で各種データを送受信可能に構成され、制御量算出装置3は、制御装置5との間でデータを送受信可能に構成され、制御装置5を介して後述する状態値あるいは報酬値等の各種データを受信する。制御システム1が割り当てを制御するRBとは、RANにおけるリソースの1種であり、一定の周波数帯域内を周波数分割し、かつ、時間軸も分割した、周波数軸及び時間軸から構成される二次元領域を分割したブロックである。
The
図2は、制御量算出装置3を構成するコンピュータ20のハードウェア構成を示している。図2に示すように、コンピュータ20は、物理的には、プロセッサであるCPU(Central Processing Unit)101、記録媒体であるRAM(Random Access Memory)102又はROM(Read Only Memory)103、通信モジュール104、及び入出力モジュール106等を含んだコンピュータ等であり、各々は電気的に接続されている。なお、コンピュータ20は、入出力モジュール106として、ディスプレイ、キーボード、マウス、タッチパネルディスプレイ等を含んでいてもよいし、ハードディスクドライブ、半導体メモリ等のデータ記録装置を含んでいてもよい。また、コンピュータ20は、複数のコンピュータによって構成されていてもよい。制御装置5も、同様なハードウェア構成を有する。
Figure 2 shows the hardware configuration of the
図3は、制御量算出装置3の機能構成を示すブロック図である。制御量算出装置3は、N個の制御量導出部311~31Nと、トレーニング部32と、学習データ格納部33とを備える。制御量導出部311~31Nは、制御対象のスライスS1~SNの個数に対応した個数で設けられる。図3に示す制御量算出装置3の各機能部は、CPU101及びRAM102等のハードウェア上にプログラムを読み込ませることにより、CPU101の制御のもとで、通信モジュール104、及び入出力モジュール106等を動作させるとともに、RAM102におけるデータの読み出し及び書き込みを行うことで実現される。制御量算出装置3のCPU101は、このコンピュータプログラムを実行することによって制御量算出装置3を図3の各機能部として機能させ、後述する制御量算出方法に対応する処理を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、ROM103、RAM102等の内蔵メモリ、又は、ハードディスクドライブなどの記憶媒体に格納される。
3 is a block diagram showing a functional configuration of the control
制御量導出部311~31Nは、それぞれ、対応するスライスS1~SNに対するRBの割当量を制御するための制御量(RB量)決定し、当該制御量を制御装置5に出力する。すなわち、制御量導出部311~31Nは、移動体通信システムから制御装置5を介して対応するスライスS1~SNに関する状態値を取得し、共通の深層強化学習の学習モデルに当該状態値を入力し、その学習モデルを用いて行動価値を算出し、行動価値が最大となるような行動を選択する。また、制御量導出部311~31Nは、選択した行動に対するスライスS1~SNに関する報酬値を制御装置5を介して取得する。さらに、制御量導出部311~31Nは、選択した行動を基に制御量(RB量)を算出して制御装置5に出力する。加えて、制御量導出部311~31Nは、1回の制御量の算出ステップごとに、状態値及び行動と、その行動に対する報酬値との組み合わせを、学習データとして学習データ格納部33に格納する。
The control amount derivation units 31 1 to 31 N each determine a control amount (RB amount) for controlling the allocation amount of RB for the corresponding slices S 1 to S N , and output the control amount to the
詳細には、制御量導出部311~31Nは、状態値として、スライスS1~SNの要件を示すスループット値及び遅延量と、スライス要件に関するユーザの満足度を示すNSRS(NS requirement satisfaction)値と、スライスS1~SNの使用率を示すRBUR(RB usage ratio)値と、スライスS1~SNに対する実際の割り当てRB数と、制御対象の基地局BSにおけるスライスS1~SN上での到着パケット数、送信パケット数、及びバッファ内(送信待ち)パケット数とを取得する。上記状態値のうち、スループット値、遅延量、及びNSRS値は、スライスS1~SNの要件に関する状態を示す値であり、RBUR値、及びRB数は、スライスS1~SNの使用率に関する状態を示す値であり、到着パケット数、送信パケット数、及びバッファ内パケット数は、これらの状態値の曖昧性を無くすために補助的に取得される状態値である。 In detail, the control amount derivation units 31 1 to 31 N acquire, as state values, a throughput value and a delay amount indicating the requirements of slices S 1 to S N , an NS requirement satisfaction (NSRS) value indicating the user's satisfaction with the slice requirements, an RB usage ratio (RBUR) value indicating the usage rate of slices S 1 to S N , the number of RBs actually allocated to slices S 1 to S N , and the number of arriving packets, the number of transmitted packets, and the number of packets in the buffer (waiting to be transmitted) on slices S 1 to S N in the base station BS to be controlled. Among the above state values, the throughput value, the delay amount, and the NSRS value are values indicating the state regarding the requirements of slices S 1 to S N , the RBUR value and the number of RBs are values indicating the state regarding the usage rate of slices S 1 to S N , and the number of arriving packets, the number of transmitted packets, and the number of packets in the buffer are state values acquired auxiliary to eliminate ambiguity of these state values.
上記状態値のうちのNSRS値は、基地局BS等によってユーザ端末UEからのデータを収集および集計することにより生成され、下記式(1);
によって定義される値である。ここで、Suはユーザ毎のスライス要件の満足度の有無を“0”または“1”で示し、uesはスライスに収容されるユーザ数を示す。このNSRS値はユーザの平均的な満足度を示し、1に近いほどスライスの要件が満たされていることを表す。
The NSRS value among the above state values is generated by the base station BS or the like by collecting and aggregating data from the user terminal UE, and is expressed by the following formula (1):
Here, Su indicates the satisfaction of the slice requirements for each user with "0" or "1", and ues indicates the number of users accommodated in the slice. This NSRS value indicates the average satisfaction of users, and the closer it is to 1, the more the slice requirements are satisfied.
また、上記状態値のうちのRBUR値は、基地局BS等によって生成され、下記式(2);
によって定義される値である。ここで、URBは実際に使用したRB数を示し、MRBは、実際に該当するスライスに割り当てたRB数を示す。RBUR値は、該当するスライスの使用率を示し、1に近いほど過剰なRBの割り当てが少ないことを意味する。
Moreover, the RBUR value among the above state values is generated by the base station BS or the like, and is expressed by the following formula (2):
Here, URB indicates the number of RBs actually used, and MRB indicates the number of RBs actually allocated to the corresponding slice. The RBUR value indicates the usage rate of the corresponding slice, and the closer it is to 1, the less excess RBs are allocated.
制御量導出部311~31Nは、状態値を入力する学習モデルとして、DQNに分散学習を適用したApe-Xの手法を用いる。すなわち、それぞれの制御量導出部311~31Nは、制御対象のスライスS1~SNに関する状態値を学習モデルに適用して行動を決定し、その行動に対する報酬値を得て、状態値、行動、及び報酬値を経験(学習データ)として収集および蓄積する。それに対して、後述するトレーニング部32がこの学習データを用いてトレーニング(学習)することにより、学習モデルのパラメータを最適化する。
The control amount derivation units 31 1 to 31 N use the Ape-X technique, which applies distributed learning to DQN, as a learning model to which state values are input. That is, each of the control amount derivation units 31 1 to 31 N applies state values related to the slices S 1 to S N of the control target to the learning model to determine an action, obtains a reward value for the action, and collects and accumulates the state value, action, and reward value as experience (learning data). In response to this, the
図4には、制御量導出部311~31Nが使用する学習モデルのネットワーク構造の一例を示す。図4に示すように、学習モデルは、状態値が入力される入力層NINと、入力層NINから入力された状態値が順に伝播される全結合層N1、バッチ正規化層N2、全結合層N3、バッチ正規化層N4、全結合層N5、及びバッチ正規化層N6と、バッチ正規化層N6から分岐して結合される、全結合層N7、バッチ正規化層N8、全結合層N9と、全結合層N10、バッチ正規化層N11、全結合層N12と、全結合層N9,N12に結合される出力層NOUTとを含む。このような学習モデルにおいて、入力層NINに状態値を入力することにより、出力層NOUTから、行動の結果として期待される報酬値である行動価値が出力される。 FIG. 4 shows an example of a network structure of a learning model used by the control amount derivation units 31 1 to 31 N. As shown in FIG. 4, the learning model includes an input layer N IN to which a state value is input, a fully connected layer N 1 to which the state value input from the input layer N IN is propagated in order, a batch normalization layer N 2 , a fully connected layer N 3 , a batch normalization layer N 4 , a fully connected layer N 5 , and a batch normalization layer N 6 , which are branched and connected from the batch normalization layer N 6 , a fully connected layer N 7 , a batch normalization layer N 8 , and a fully connected layer N 9 , a fully connected layer N 10 , a batch normalization layer N 11 , and a fully connected layer N 12 , and an output layer N OUT connected to the fully connected layers N 9 and N 12. In such a learning model, by inputting a state value to the input layer N IN , an action value, which is a reward value expected as a result of an action, is output from the output layer N OUT .
さらに、制御量導出部311~31Nは、状態値を学習モデルを入力した結果得られた行動価値を基に、行動価値が最大となる行動を選択する(greedy法)。詳細には、制御量導出部311~31Nは、図4に示す学習モデルを用いて、時刻tにおける状態値st及び行動atに対する行動価値Q(St,at,θ)を取得(θはニューラルネットワークの重み付け等のパラメータ)し、その行動価値Q(St,at,θ)を最大にする行動a(aは1以上の整数)を決定する。そして、制御量導出部311~31Nは、決定した行動aを基に、対応するスライスに対して割り当てる時刻tにおけるRBの相対量(IDRB)を、下記式(3);
によって算出する。上記式(3)中の
は床関数である。さらに、制御量導出部311~31Nは、時間tの割り当てRB量(ARB)を、1ステップ前の時刻t-1における割り当てRB量に対して相対量(IDRB)を加算することにより、下記式(4);
ARBt=ARBt-1+IDRBt …(4)
によって計算し、計算した割り当てRB量を制御装置5に出力する。
Furthermore, the control amount derivation units 31 1 to 31 N select an action that maximizes the action value based on the action value obtained as a result of inputting the state value into the learning model (greedy method). In detail, the control amount derivation units 31 1 to 31 N obtain an action value Q(S t , a t , θ) for the state value s t and action a t at time t using the learning model shown in FIG. 4 (θ is a parameter such as a weighting parameter of the neural network), and determine an action a (a is an integer of 1 or more) that maximizes the action value Q(S t , a t , θ). Then, based on the determined action a, the control amount derivation units 31 1 to 31 N calculate the relative amount of RB (IDRB) at time t to be assigned to the corresponding slice, using the following formula (3);
In the above formula (3),
is a floor function. Furthermore, the control amount derivation units 31 1 to 31 N add a relative amount (IDRB) to the allocated RB amount (ARB) at time t with respect to the allocated RB amount at time t−1 one step before, to obtain the following formula (4);
ARBt = ARBt -1 + IDRBt ... (4)
The calculated amount of allocated RBs is output to the
トレーニング部32は、学習データ格納部33に格納された学習データを用いて制御量導出部311~31Nが共用する学習モデルのパラメータθを最適値に更新する(トレーニング)。すなわち、トレーニング部32は、1組の学習データに含まれる、1ステップ後の時刻t+1の報酬値と、時刻t+1における状態値とを取得し、それらの値を基に時刻tで学習モデルが出力するべきターゲット値ytを算出する。この報酬値は、NSRS値とRBUR値とを加味した値であり、例えば、NSRS値とRBUR値とを掛け合わせた値である。そして、トレーニング部32は、時刻tにおける状態値stを基に決定される行動価値Q(St,at,θ)が、ターゲット値ytに近づくようにパラメータθを更新する。
The
ここで、トレーニング部32は、学習データ格納部33に格納された学習データの中から、優先度を基にトレーニングに用いる学習データをランダムに抽出する。また、トレーニング部32は、トレーニングの実行とともに、学習データ格納部33に格納された学習データの優先度を、古い経験のものほど低くするように更新する。さらに、トレーニング部32は、トレーニングによって更新したパラメータθを、定期的に制御量導出部311~31Nに複製することにより、それぞれの制御量導出部311~31N内のパラメータθを更新する。ここでは、それぞれの制御量導出部311~31Nが、トレーニング部32によって更新されたパラメータθを取得して内部のパラメータθを更新するようにしてもよい。
Here, the
次に、制御装置5の機能について説明する。
Next, the functions of the
制御装置5は、状態値及び報酬値を移動体通信システムから定期的に取得して制御量算出装置3に転送する機能と、制御量算出装置3の複数の制御量導出部311,312,…31Nから出力された時刻tにおける割り当てRB量(ARB)を基に、各スライスS1,S2,…,SN,SBに時刻tに割り当てるRB量(MRB)を決定するように制御する機能とを有する。すなわち、制御装置5は、スライスSB以外のスライスS1,S2,…,SNについては、直前の時刻t-1におけるMRB及びNSRS値とを乗算した値を優先度として、優先度の昇順の順番に従って、スライスS1,S2,…,SNに対する時刻tのMRBをARBに等しい値に決定する制御を実行する。このとき、ARBが残りのRB数より大きい場合には、残りのRB数をMRBとして決定する。このような優先制御により、多くのRBを必要とするスライスがRBを占有しないように、RBの専有量が少ないスライスほど割り当てが優先される。さらに、制御装置5は、スライスSBについては、スライスS1,S2,…,SNに割り当てたMRBの合計値から決まる残りのRB量をMRBとして決定する。
The
図5は、制御量算出装置3及び制御装置5によるスライスへのRB割り当ての全体像を説明するための図であり、図6は、制御量算出装置3及び制御装置5によるスライスへのRB割り当てによってスライスS1,S2,SNに割り当てられるRB量の時間変化を示す図である。このように、制御量算出装置3のトレーニング部32によって、学習データ格納部33に各制御量導出部311,312,…31Nの経験として蓄積された学習データを基に、学習モデルが学習される。そして、学習によって最適化された学習モデルのパラメータが制御量算出装置3内の各制御量導出部311,312,…31Nに複製され、各制御量導出部311,312,…31Nでは、共通の学習モデルに状態値を入力することによって、各スライスS1,S2,…,SNを対象にした行動が選択される。制御装置5では、各スライスS1,S2,…,SNを対象にして選択された行動を基に、各スライスS1,S2,…,SN,SBに割り当てるRB量が決定され、それらのRB量のリソースが各スライスS1,S2,…,SN,SBに割り当てられる。図6に示す例によれば、時間の経過に伴って、スライスS1にはRB量として“0”、“3”、“0”が順に割り当てられ、スライスS2にはRB量として“3”、“2”、“6”が順に割り当てられ、スライスSNにはRB量として“2”、“1”、“0”が順に割り当てられる。
Fig. 5 is a diagram for explaining an overall picture of RB allocation to slices by the control
次に、上述した制御システム1によって実行される制御量算出方法の手順を説明する。図7は、制御量算出方法のうちのRB割り当て処理の手順を示すフローチャートであり、図8は、制御量算出方法のうちの学習処理の手順を示すフローチャートである。図7に示すRB割り当て処理は、複数のステップの時刻t,t+1,…で繰り返し実行され、図7に示す学習処理は、定期的なタイミング、あるいは、RB割り当て処理によって蓄積された経験数が一定数に達したタイミングで繰り返し実行される。
Next, the steps of the control amount calculation method executed by the above-mentioned
まず、図7を参照して、RB割り当て処理が起動されると、制御量算出装置3の制御量導出部311によって、スライスS1に関する状態値が取得される(ステップS101)。次に、制御量導出部311によって、取得した状態値を学習モデルに入力することにより行動価値が算出され、その行動価値が最大となる行動が選択される(ステップS102)。その後、制御量導出部311によって、選択した行動を基に、スライスS1に対する割り当てRB量(ARB)が決定され、そのRB量が制御装置5に出力される(ステップS103)。さらに、制御量導出部311によって、前回のRB割り当て処理に対するスライスS1に関する報酬値が取得され、状態値、行動、報酬値の組み合わせが学習データとして学習データ格納部33に格納される(ステップS104)。このようなステップS101~S104の一連の処理は、制御量導出部312~制御量導出部31Nにより、残りのスライスS2~SNを対象に繰り返される(ステップS105)。
First, referring to Fig. 7, when the RB allocation process is started, the control amount derivation unit 311 of the control
次に、制御装置5により、直前の時刻t-1におけるRB量(MRB)及びNSRS値を基にスライスS1~SNに関する優先度が決定される(ステップS106)。その後、制御装置5により、決定された優先度の順番で、スライスS1~SNに関するRB量(MRB)が、スライスS1~SNに関する割り当てRB量(ARB)を基に決定され、その優先度の順番でスライスS1~SNへのRB割り当てが制御される(ステップS107)。最後に、制御装置5により、スライスSBに対して残りのRBを割り当てるように制御が実行される(ステップS108)。
Next, the
次に、図8を参照して、学習処理が起動されると、制御量算出装置3のトレーニング部32によって、学習データ格納部33に格納された学習データの中から、優先度を基にした重み付けを行いながら、トレーニングに用いる学習データがランダムに抽出される(ステップS201)。次に、トレーニング部32により、抽出した学習データを用いたトレーニングによって、ニューラルネットワークの学習モデルのパラメータθが更新される(ステップS202)。その後、トレーニング部32により、更新したパラメータθが各制御量導出部311,312,…31N内に複製されることにより、各制御量導出部311,312,…31N内の学習モデルが更新される(ステップS203)。最後に、トレーニング部32により、学習データ格納部33に格納された学習データの優先度が、古い経験の学習データほど低くなるように更新される(ステップS204)。
Next, referring to Fig. 8, when the learning process is started, the
上述した実施形態の制御システム1の作用効果について説明する。
The effects of the
本実施形態によれば、複数のスライスS1~SN毎に、状態値を強化学習モデルに入力することによって、スライスS1~SN毎にリソース割り当て量を制御するための行動が決定および出力され、その際に用いられた状態値及び行動とその行動に対する報酬値との組み合わせが学習データとして格納される。このとき、複数のスライスS1~SNのリソース割り当ての制御で共用される強化学習モデルは、予め格納された上記の学習データを用いてトレーニングにより最適化される。これにより、制御対象のネットワークにおけるスライスの数が動的に変化した場合であっても、個々のスライスに関する制御結果を学習データとして、複数のスライスS1~SNに対するリソース割り当て制御に用いられる強化学習モデルを最適化することができる。その結果、スライス数に依存しない複数のスライスS1~SNへのリソース割り当てを適切に制御することができる。 According to this embodiment, by inputting a state value into the reinforcement learning model for each of the slices S 1 to S N , an action for controlling the resource allocation amount for each of the slices S 1 to S N is determined and output, and a combination of the state value and the action used at that time and the reward value for the action is stored as learning data. At this time, the reinforcement learning model shared in the control of the resource allocation of the slices S 1 to S N is optimized by training using the above-mentioned learning data stored in advance. As a result, even if the number of slices in the network to be controlled changes dynamically, the reinforcement learning model used for the resource allocation control for the slices S 1 to S N can be optimized by using the control results for each slice as learning data. As a result, it is possible to appropriately control the resource allocation to the slices S 1 to S N that does not depend on the number of slices.
ここで、スライスS1~SNに関する状態値は、NSRS値及びRBUR値が含まれている。この場合、複数のスライスS1~SNに対してリソース割り当てを制御する際に、各スライスS1~SNの要件を満たすように制御することができるとともに、リソースRBの利用効率を向上させることができる。 Here, the state values for the slices S 1 to S N include an NSRS value and an RBUR value. In this case, when controlling resource allocation for a plurality of slices S 1 to S N , it is possible to control so as to satisfy the requirements of each slice S 1 to S N , and to improve the utilization efficiency of the resource RB.
また、スライスS1~SNに関する報酬値は、NSRS値及びRBUR値を加味した値となっている。この場合、複数のスライスS1~SNに対してリソース割り当てを制御するための学習モデルを最適化する際に、各スライスS1~SNの要件を満たすように最適化することができるとともに、リソースRBの利用効率を向上させるように最適化することができる。
In addition, the reward value for slices S 1 to S N is a value that takes into account the NSRS value and the RBUR value. In this case, when optimizing a learning model for controlling resource allocation for a plurality of slices S 1 to S N , it is possible to optimize the slices S 1 to S N so as to satisfy the requirements of each
また、制御装置5の機能には、複数の制御量導出部311,…31Nによって出力されたRB量(ARB)を基に、複数のスライスS1~SNに対する割り当てRB量(MRB)を制御する機能が含まれている。このような機能により、複数のスライスS1~SNに対するソース割り当て量を、複数の制御量導出部311,…31Nによって出力された制御量を基に決定することができる。その結果、例えば、所定の判断基準を基にした優先制御等が可能となる。
The functions of the
具体的には、本実施形態では、制御装置5による複数のスライスS1~SNに対するリソース割り当ての優先度は、直前の割り当てRB量(MRB)とNSRS値とを基に決定されている。この場合には、多くのRBを必要とするスライスがRBを占有しないようにすることで、複数のスライスS1~SNに対する円滑なリソース割り当てが可能となる。
Specifically, in this embodiment, the priority of resource allocation to the slices S 1 to S N by the
ここで、本実施形態にかかる制御システム1によるRB割り当て制御の性能をシミュレーション計算により評価した結果を、比較例と比較して示す。図9は、平均NSRS値を比較例と比較して示すグラフであり、図10は、平均RBUR値を比較例と比較して示すグラフである。比較例1は、ネットワークスライシングを実行しないで全てのRBをスライス間で共有した場合の例であり、比較例2は、RBをスライス間で等分割するように制御した場合の例であり、比較例3は、基地局BSに到着したパケット数で重み付けをしてRBを分割するように制御した場合の例であり、比較例4は、深層強化学習を用いた既存手法(“R. Li et al., “Deep Reinforcement Learning for Resource Management inNetwork Slicing,” arXiv:1805.06591[cs], May 2018.”に記載の手法)によって制御した場合の例である。これらの評価結果により、本実施形態によれば、全てのユーザに対して様々なサービスの要件の満足度が高い制御を実現できるとともに、様々なサービスにおける過剰なRBの割り当てを少なくして、RBの使用率を高く維持できることが分かった。
Here, the results of evaluating the performance of the RB allocation control by the
本発明は、上述した実施形態に限定されるものではない。上記実施形態の構成は様々変更されうる。 The present invention is not limited to the above-described embodiment. The configuration of the above embodiment may be modified in various ways.
1…制御システム、3…制御量算出装置、5…制御装置(制御部)、311~31N…制御量導出部、32…トレーニング部、33…学習データ格納部、RB…リソース、S1~SN,SB…スライス。
REFERENCE SIGNS
Claims (7)
前記複数のスライスのそれぞれに対応して設けられ、それぞれの前記スライスに関する状態値及び報酬値を取得すると共に、前記状態値を入力し、それぞれの前記スライスに対する前記制御量である行動を決定、及び出力する強化学習モデルをそれぞれに備える複数の制御量導出部と、
前記複数の制御量導出部において取得された前記状態値及び前記報酬値と、当該状態値に対応して決定された前記行動との組み合わせである学習データを格納する学習データ格納部と、
前記学習データ格納部に格納された学習データを用いて、前記複数の制御量導出部がそれぞれに備える前記強化学習モデルが共用するパラメータをトレーニングにより最適化するトレーニング部と、
を備える制御量算出装置。 A control amount calculation device that calculates a control amount for controlling an allocation amount of communication resources to a plurality of slices that are virtualized networks on a communication network, comprising:
A plurality of control variable derivation units are provided corresponding to the plurality of slices, each of which acquires a state value and a reward value related to each of the slices, and each of which includes a reinforcement learning model that inputs the state value, determines an action that is the control variable for each of the slices, and outputs the action;
a learning data storage unit that stores learning data that is a combination of the state value and the reward value acquired in the plurality of control amount derivation units and the action determined corresponding to the state value;
a training unit that optimizes, by training , a parameter shared by the reinforcement learning models included in each of the plurality of control variable derivation units, using the learning data stored in the learning data storage unit;
A control amount calculation device comprising:
請求項1記載の制御量算出装置。 The state value for the slice includes at least a satisfaction level for a requirement of the slice and a utilization rate of a communication resource allocated to the slice.
The control amount calculation device according to claim 1.
請求項1又は2に記載の制御量算出装置。 The reward value for the slice is a value that takes into account the satisfaction level for the requirements of the slice and the usage rate of the communication resources allocated to the slice.
The control amount calculation device according to claim 1 or 2.
請求項1~3のいずれか1項に記載の制御量算出装置。 A control unit that controls the allocation amounts for the plurality of slices based on the control amounts output by the plurality of control amount derivation units.
The control amount calculation device according to any one of claims 1 to 3.
請求項4記載の制御量算出装置。 The control unit determines priorities for the slices based on the immediately preceding allocation amount of the communication resources for the slices and the satisfaction level of the requirements for the slices, and executes the control for the slices in accordance with an order indicated by the priorities.
5. The control amount calculation device according to claim 4.
請求項1~5のいずれか1項に記載の制御量算出装置。 the amount of control for the slice relates to a number of resource blocks in the radio access network;
The control amount calculation device according to any one of claims 1 to 5.
前記複数のスライスのそれぞれに対応して実行され、それぞれの前記スライスに関する状態値及び報酬値を取得すると共に、前記状態値を入力し、それぞれの前記スライスに対する前記制御量である行動を決定及び出力する強化学習モデルをそれぞれ用いて、前記制御量を決定および出力する複数の制御量導出ステップと、
前記複数の制御量導出ステップにおいて取得された前記状態値及び前記報酬値と、当該状態値に対応して決定された前記行動との組み合わせである学習データを格納する学習データ格納ステップと、
前記学習データ格納ステップによって格納された学習データを用いて、前記複数の制御量導出ステップのそれぞれに用いられる前記強化学習モデルが共用するパラメータをトレーニングにより最適化するトレーニングステップと、
を備える制御量算出方法。 A control amount calculation method executed by a control amount calculation device that calculates a control amount for controlling an allocation amount of communication resources to a plurality of slices that are virtualized networks on a communication network, comprising:
A plurality of control variable derivation steps are executed corresponding to each of the plurality of slices, and obtain a state value and a reward value for each of the slices, and determine and output the control variable by using a reinforcement learning model that inputs the state value and determines and outputs an action that is the control variable for each of the slices;
a learning data storage step of storing learning data which is a combination of the state value and the reward value acquired in the plurality of control amount derivation steps and the action determined corresponding to the state value;
a training step of optimizing, by training , parameters shared by the reinforcement learning models used in each of the plurality of control variable derivation steps, using the learning data stored in the learning data storage step;
A control amount calculation method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020058499A JP7510661B2 (en) | 2020-03-27 | Control quantity calculation device and control quantity calculation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020058499A JP7510661B2 (en) | 2020-03-27 | Control quantity calculation device and control quantity calculation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021158591A JP2021158591A (en) | 2021-10-07 |
JP7510661B2 true JP7510661B2 (en) | 2024-07-04 |
Family
ID=
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190332955A1 (en) | 2018-04-30 | 2019-10-31 | Hewlett Packard Enterprise Development Lp | System and method of decentralized machine learning using blockchain |
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190332955A1 (en) | 2018-04-30 | 2019-10-31 | Hewlett Packard Enterprise Development Lp | System and method of decentralized machine learning using blockchain |
Non-Patent Citations (3)
Title |
---|
G. Sun, Z. T. Gebrekidan, G. O. Boateng, D. Ayepah-Mensah and W. Jiang,Dynamic Reservation and Deep Reinforcement Learning Based Autonomous Resource Slicing for Virtualized Radio Access Networks,IEEE Access,2019年,vol. 7,pp. 45758-45772,Internet<https://ieeexplore.ieee.org/abstract/document/8682105> |
R. Li et al.,Deep Reinforcement Learning for Resource Management in Network Slicing,IEEE Access,2018年,vol. 6,pp. 74429-74441,Internet<https://ieeexplore.ieee.org/abstract/document/8540003> |
Y. Abiko, T. Saito, D. Ikeda, K. Ohta, T. Mizuno and H. Mineno,Flexible Resource Block Allocation to Multiple Slices for Radio Access Network Slicing Using Deep Reinforcement Learning,IEEE Access,2020年04月06日,vol. 8,pp. 68183-68198,Internet<https://ieeexplore.ieee.org/document/9057705> |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | Workload allocation in hierarchical cloudlet networks | |
Bitam et al. | Fog computing job scheduling optimization based on bees swarm | |
Maia et al. | An improved multi-objective genetic algorithm with heuristic initialization for service placement and load distribution in edge computing | |
CN112416554A (en) | Task migration method and device, electronic equipment and storage medium | |
CN111538570B (en) | Energy-saving and QoS guarantee-oriented VNF deployment method and device | |
CN112073452B (en) | Mobile edge computing task allocation method with effective energy and limited resources | |
CN111258980B (en) | Dynamic file placement method based on combined prediction in cloud storage system | |
CN116541106B (en) | Computing task unloading method, computing device and storage medium | |
CN114567895A (en) | Method for realizing intelligent cooperation strategy of MEC server cluster | |
Swathy et al. | Game theoretical approach for load balancing using SGMLB model in cloud environment | |
Nguyen et al. | Two-stage robust edge service placement and sizing under demand uncertainty | |
Zhao et al. | Optimize the placement of edge server between workload balancing and system delay in smart city | |
CN115580882A (en) | Dynamic network slice resource allocation method and device, storage medium and electronic equipment | |
CN111699481A (en) | Reducing model update induced errors | |
Hu et al. | Many-objective optimization based-content popularity prediction for cache-assisted cloud-edge-end collaborative IoT networks | |
Xu et al. | Schedule or wait: Age-minimization for IoT big data processing in MEC via online learning | |
Xie et al. | Multi-objective optimization of data deployment and scheduling based on the minimum cost in geo-distributed cloud | |
Xu et al. | Online learning algorithms for offloading augmented reality requests with uncertain demands in MECs | |
Cao et al. | Distributed workflow mapping algorithm for maximized reliability under end-to-end delay constraint | |
Malazi et al. | Distributed service placement and workload orchestration in a multi-access edge computing environment | |
CN110958666B (en) | Network slice resource mapping method based on reinforcement learning | |
JP7510661B2 (en) | Control quantity calculation device and control quantity calculation method | |
Liu et al. | Energy‐aware virtual machine consolidation based on evolutionary game theory | |
Chakraborty et al. | A Hybrid GRASP-GA based collaborative task offloading technique in fog computing | |
CN114785692A (en) | Virtual power plant aggregation regulation and control communication network flow balancing method and device |