DE102021116590A1

DE102021116590A1 - CONTINUOUS NETWORK SLICING IN A 5G MOBILE NETWORK OVER A DELAYED DEEP DETERMINISTIC POLICY GRADIENT

Info

Publication number: DE102021116590A1
Application number: DE102021116590.3A
Authority: DE
Inventors: Christos Verykoukis; Loizos Christofi; Farhad Rezazadeh; Hatim Chergui
Original assignee: eBos Technologies Ltd
Current assignee: eBos Technologies Ltd
Priority date: 2020-06-29
Filing date: 2021-06-28
Publication date: 2021-12-30
Also published as: GB2599196A; GR1010062B; ES2889699A1; GB202108215D0

Abstract

Delayed deep deterministic policy gradient (DDPG) based continuous network slicing definiert s mindestens zwei Netzwerk-Slices in einer Zentraleinheit (CU) eines 5G-Netzwerks, und in verschiedenen Zeitschritten identifiziert einen Zustand jedes Slices, bestimmens aus einer verstärkten Lernpolitik eines Kritiker-Modells und einer Akteursrichtlinie, die den Slices eine Skalierungsoperation zugewiesen, die verschiedene Rechenressourcen den entsprechenden virtuellen Netzwerkfunktionen (VNFs) in der CU für das Slice basierend auf dem Zustand zuweist. Der Skalierungsvorgang wird auf die CU angewendet, und ein Kostenergebnis wird überwacht. Das Ergebnis wird mit einem vorbestimmten optimalen Ergebnisverglichen. Danach werden Gradientens für jedes derAkteurs- und Kritiker Modelle berechnet, wobei eine maximierte Belohnung basierend auf einer Differenz zwischen den Ergebnissensberücksichtigt wird. Bemerkenswerterweise wird der Gradient für die Akteurspolitik im Laufe der Zeit seltener angewendet alsdie Anwendung des Gradienten für das Kritikermodell.Delayed deep deterministic policy gradient (DDPG) based continuous network slicing defines s at least two network slices in a central processing unit (CU) of a 5G network, and in different time steps identifies a state of each slice, determined from a reinforced learning policy of a critic model and an actor policy that assigns a scaling operation to the slices that allocates different computational resources to the appropriate virtual network functions (VNFs) in the CU for the slice based on state. The scaling process is applied to the CU and a cost result is monitored. The result is compared to a predetermined optimal result. Thereafter, gradients are calculated for each of the actor and critic models, considering a maximized reward based on a difference between the results. Notably, the actor politics gradient is applied less frequently over time than the critic model gradient.

Description

HINTERGRUND DER ERFINDUNGBACKGROUND OF THE INVENTION

Gebiet der ErfindungField of invention

Die vorliegende Erfindung betrifft den Bereich der zellulären Datenkommunikation und insbesondere das Network Slicing in einem zellularen Telekommunikationsnetz der fünften Generation (5G).The present invention relates to the field of cellular data communication and in particular to network slicing in a cellular telecommunication network of the fifth generation (5G).

Beschreibung der verwandten KunstDescription of the related art

Unter zellulärer Datenkommunikation versteht man den Austausch von Datenverkehr über ein zelluläres Telekommunikationsnetz. Digitalecellulare Datenkommunikation erfordert das Vorhandensein einer zugrunde liegenden physischen Datenkommunikationsinfrastruktur, die auf einem Mobilfunknetz geschichtet ist, wie es zuerst durch die digitale Mobilfunkkommunikation der zweiten Generation und in jüngster Zeit durch die wesentlich robustere und zuverlässigere LTE -Mobilfunk (Long Term Evolution) der vierten Generation (4G) belegt wird. Datenkommunikationsnetz. Bei 4G LTE unterstützt die Netzwerkarchitektur die Konnektivität von Benutzergeräten (UE) zu verschiedenen Basisstationen(eNBs),die in verschiedenen Funkzugangsnetzen (RANs) geclustert sind, wobei die RANs jeweils mit dem Kernnetz (CN) gekoppelt sind.Cellular data communication is understood to be the exchange of data traffic over a cellular telecommunication network. Digital cellular data communication requires the existence of an underlying physical data communication infrastructure that is layered on top of a cellular network, as first introduced by second-generation digital cellular communication and, more recently, by the much more robust and reliable LTE (Long Term Evolution) cellular network of the fourth generation ( 4G) is occupied. Data communication network. With 4G LTE, the network architecture supports the connectivity of user equipment (UE) to different base stations (eNBs) that are clustered in different radio access networks (RANs), with the RANs each being coupled to the core network (CN).

Die eNBs senden und empfangen Funkübertragungen an jede UE unter Verwendung der analogen und digitalen Signalverarbeitungsfunktionen der LTE-Luftschnittstelle über verschiedene MIMO-Antennenarrays (Multiple Input Multiple Output). Jede eNB steuert auch den Low-Level-Betrieb jeder gekoppelten UE,indem sie dieUE-Signalmeldungen wie Übergabebefehlesendet. Schließlichverbindet sich e ach eBN mit dem CN,auch bekannt als „Evolved Packet Core“ (EPC), über eine S1-Protokoll-Stack-Schnittstelle. Bemerkenswert ist, dass jedes eBN auch kommunikativ mit einem anderen, nahe gelegenen eBN durch eine X2-Schnittstelle gekoppelt werden kann, um die Signalisierung und Paketweiterleitung während der Übergabe einer Kommunikation mit UE von eBN zu eBN (Zelle zu Zelle) zuunterstützen. Das EPCwiederum ist ein Framework für die Bereitstellung konvergenter Sprache und Daten im 4G LTE-Netzwerk. Während 2G- und 3G-Netzwerkarchitekturen der dritten Generation Sprache und Daten über zwei separate Subdomänen verarbeiten und schalten- leitungsvermittelt (CS) für Sprache und paketvermittelte (PS) für Daten-vereint EPC Sprache und Daten auf einer Internet Protocol (IP)-Dienstarchitektur und Sprache wird als nur eine weitere Internetprotokollanwendung (IP)behandelt.The eNBs send and receive radio transmissions to each UE using the analog and digital signal processing functions of the LTE air interface via various multiple input multiple output (MIMO) antenna arrays. Each eNB also controls the low level operation of each coupled UE by sending the UE signal messages such as handover commands. Finally, eBN connects to the CN, also known as "Evolved Packet Core" (EPC), via an S1 protocol stack interface. It is noteworthy that each eBN can also be communicatively coupled to another, nearby eBN through an X2 interface in order to support signaling and packet forwarding during the handover of a communication with UE from eBN to eBN (cell to cell). The EPC, in turn, is a framework for the provision of convergent voice and data in the 4G LTE network. While 2G and 3G network architectures of the third generation process and switch voice and data via two separate subdomains - circuit switched (CS) for voice and packet switched (PS) for data - EPC combines voice and data on an Internet Protocol (IP) service architecture and Speech is treated as just another Internet Protocol (IP) application.

Während 4G einen enormen Leistungssprung gegenüber 2D- und 3G-Netzwerken darstellte, stellt 5G eine enorme Verbesserung gegenüber 4G dar. 5G ist in der Lage, eine Datenaustauschkapazität von fast dreizehn Terabytezu erreichen-fast eine zwanzigfache Verbesserung gegenüber 4G LTE. Die CN der 5G-Architektur spiegelt eine wesentliche Änderung gegenüber dem EPC von 4G wider. Im CN von 5G wurden die Änderungen abstrakt auf die sogenannten „Vier Modernisierungen“ reduziert. Die erste ist „Informationstechnologie“ oder „IT“,die zweite ist das „Internet“, die dritte ist „extrem vereinfacht“ und die vierte ist „servicebasiert“. Die typischste Änderung in der Netzwerkarchitektur der CN ist die dienstbasierte Netzwerkarchitektur der CN, um die Steuerungsebene von der Benutzerebene zu trennen. Andere Technologien unterstützen Network Slicing und Edge Computing.While 4G represented a huge leap in performance over 2D and 3G networks, 5G represents a huge improvement over 4G. 5G is able to achieve a data exchange capacity of almost thirteen terabytes - almost a twenty-fold improvement over 4G LTE. The CN of the 5G architecture reflects a significant change from the EPC of 4G. In the CN of 5G, the changes were abstractly reduced to the so-called "four modernizations". The first is “Information Technology” or “IT”, the second is the “Internet”, the third is “Extremely Simplified” and the fourth is “Service Based”. The most typical change in the network architecture of the CN is the service-based network architecture of the CN in order to separate the control plane from the user plane. Other technologies support network slicing and edge computing.

Was die IT-Modernisierung betrifft, so ist das Merkmal der 5G-Architektur der Begriff der Network Function Virtualization (NFV). NFV entkoppelt Software von Hardware, indem es verschiedene Netzwerkfunktionen wie Firewalls, Load Balancer und Router durch virtualisierte Instanzen ersetzt, die als Software ausgeführt werden. Dadurch entfällt die Notwendigkeit, in viele teure Hardwareelemente zu investieren, und kann auch die Installationszeiten beschleunigen, wodurch dem Kunden schneller umsatzgenerierende Dienstleistungen zur Verfügung gestellt werden. NFV ermöglicht die 5G-Infrastruktur durch virtualisierte Appliances innerhalb des 5G-Netzwerks. Dazu gehört auch die Network Slicing-Technologie, mit der mehrere virtuelle Netzwerke gleichzeitig ausgeführt werden können. NFV kann andere 5G-Herausforderungen durch virtualisierte Computing-, Speicher- und Netzwerkressourcen bewältigen, die basierend auf den Anwendungen und Kundensegmenten angepasst werden.As for IT modernization, the characteristic of 5G architecture is the term Network Function Virtualization (NFV). NFV decouples software from hardware by replacing various network functions such as firewalls, load balancers and routers with virtualized instances that run as software. This eliminates the need to invest in many expensive hardware elements and can also accelerate installation times, thereby providing the customer with revenue-generating services more quickly. NFV enables the 5G infrastructure through virtualized appliances within the 5G network. This also includes network slicing technology, which allows multiple virtual networks to run at the same time. NFV can address other 5G challenges through virtualized compute, storage and network resources that are customized based on the applications and customer segments.

Einige haben Network Slicing als „Schlüsselbestandteil“ von 5G bezeichnet, wodurch das volle Potenzial der 5G-Architektur ausschöpfen kann. Network Slicing fügt der NFV-Domäne eine zusätzliche Dimension hinzu, indem mehrere logische Netzwerke gleichzeitig auf einer gemeinsam genutzten physischen Netzwerkinfrastruktur ausgeführt werden können. Daher wird Network Slicing zu einem integralen Bestandteil der 5G-Architektur, indem virtuelle End-to-End-Netzwerke erstellt werden, die sowohl Netzwerk- als auch Speicherfunktionen umfassen. Betreiber eines 5G-Netzes können dann verschiedene 5G-Anwendungsfälle mit unterschiedlichen Durchsatz-, Latenz- und Verfügbarkeitsanforderungen effektiv verwalten, indem sie Netzwerkressourcen auf mehrere Benutzer oder „Mandanten“ partitionieren. Mit strategisch abgestimmtem Network Slicing und der optimierten Zuweisung von VNF-Instanzen (Virtual Network Function) können die Kosten für den Betrieb eines 5G-Architekturnetzwerks optimiert werden.Some have referred to network slicing as a “key part” of 5G, which enables the full potential of the 5G architecture to be realized. Network slicing adds an extra dimension to the NFV domain by allowing multiple logical networks to run concurrently on a shared physical network infrastructure. Therefore, network slicing is becoming an integral part of the 5G architecture by creating end-to-end virtual networks that are both network and Include memory functions. Operators of a 5G network can then effectively manage different 5G use cases with different throughput, latency and availability requirements by partitioning network resources among several users or "tenants". With strategically coordinated network slicing and the optimized assignment of VNF instances (Virtual Network Function), the costs for operating a 5G architecture network can be optimized.

In Bezug auf die Optimierung der Konfiguration verschiedener Netzwerk-Slices sindz-Ero-Touch und vollautomatische Operationen und Management zu einer Quintessenz geworden, um den potenziellen Gewinn der dynamischen Ressourcenzuweisung in einem NFV-fähigen Netzwerk-Slicezunutzen. Zu diesem Zweck haben viele die autonome Verwaltung und Orchestrierung von VNFs vorgeschlagen, bei der die CU „lernt“, Ressourcen neu zu konfigurieren, neue VNF-Instanzen bereitzustellen oder Jobs in eine zentrale Cloud auszulagern. Ein bemerkenswerter Vorschlag bezieht sich auf eine DRL-basierte Lösung (Deep Reinforced Learning), die als parametrisierter Aktionszwilling (PAT) Deep Deterministic Policy Gradient (DDPG) bezeichnet wird und die Akteur-Kritiker-Methode nutzt, um zu lernen, Netzwerkressourcen für VNFs online bereitzustellen, unter Einem der aktuellen Netzwerkstatus und den Anforderungen der bereitgestellten VNFs.In terms of optimizing the configuration of various network slices, z-Ero-Touch and fully automated operations and management have become quintessential to take advantage of the potential gain of dynamic resource allocation in an NFV-enabled network slice. For this purpose, many have suggested the autonomous management and orchestration of VNFs, in which the CU “learns” to reconfigure resources, provide new VNF instances or outsource jobs to a central cloud. One notable proposal is for a Deep Reinforced Learning (DRL) based solution called a Parameterized Action Twin (PAT) Deep Deterministic Policy Gradient (DDPG) that uses the actor-critic method to learn network resources for VNFs online deployed, taking into account the current network status and the requirements of the deployed VNFs.

Bemerkenswert ist, dass die PAT-DDPG-Lösung alle Benchmark-DRL-Schemata sowie die heuristische gierige Allokation in einer Vielzahl von Netzwerkszenarien übertrifft. Obwohl einDDPG in der Lage ist, hervorragende Ergebnisse zu liefern, hat es seine Nachteile. Wie viele verstärkte Lernalgorithmen kann das Training von DDPG instabil sein und stark davon abhängen, die richtigen Hyperparameter für die aktuelle Aufgabe zu finden. Dies wird dadurch verursacht, dass der Algorithmus dieQ-Werte des Kritiker-(Wert-)Netzwerks kontinuierlich überschätzt. Diese Schätzfehler häufen sich im Laufe der Zeit und können dazu führen, dass der Agent in ein lokales Optima fällt oder katastrophales Vergessen erlebt.Notably, the PAT-DDPG solution outperforms all benchmark DRL schemes as well as heuristic greedy allocation in a variety of network scenarios. While capable of producing excellent results, a DDPG has its drawbacks. Like many reinforced learning algorithms, the training of DDPG can be unstable and heavily reliant on finding the right hyperparameters for the current task. This is caused by the fact that the algorithm continuously overestimates the Q-values of the critic (value) network. These estimation errors accumulate over time and can lead to the agent falling into a local optimum or catastrophic forgetting.

KURZE ZUSAMMENFASSUNG DER ERFINDUNGBRIEF SUMMARY OF THE INVENTION

Ausführungsformen der vorliegenden Erfindung adressieren Mängel des Standes in Bezug auf Network Slicing in einem 5G-Netzwerk und stellen ein neuartiges und nicht offensichtliches Verfahren, System- und Computerprogrammprodukt für das kontinuierliche Netzwerk-Slicing unter Verwendung eines verzögerten DDPGbereit. In einer Ausführungsform der Erfindung sind mindestens zwei Netzwerkscheiben definiert, wobeiin einer CU eines 5G-Netzes ein zelluläres Kommunikationsnetz ausgelegt ist. Danach identifiziert eine Netzwerk-Slicing-Funktion in verschiedenen Zeitschritten einen Zustand jedes der Netzwerk-Slices und bestimmt aus einer verstärkten Lernrichtlinie, die einem der Netzwerk-Sliceszugewiesenist, für einen gleichzeitigen der Zeitschritte einen Skalierungsvorgang bei der Zuweisung verschiedener Rechenressourcen zu entsprechenden VNFs in der CU für eines der Netzwerk-Slices basierend auf dem identifizierten Status des Netzwerk-Slices . Die Network Slicing-Funktion wendet den ermittelten Skalierungsvorgang weiter auf die CU an, indem sie die verschiedenen Rechenressourcen den entsprechenden VNFs in der CU dem Netzwerk-Slice zuweist.Embodiments of the present invention address deficiencies in the prior art relating to network slicing in a 5G network and provide a novel and unobvious method, system, and computer program product for continuous network slicing using delayed DDPG. In one embodiment of the invention, at least two network slices are defined, a cellular communication network being implemented in a CU of a 5G network. A network slicing function then identifies a state of each of the network slices in different time steps and determines a scaling process for a simultaneous time step in the allocation of different computing resources to corresponding VNFs in the CU from a reinforced learning policy that is assigned to one of the network slices for one of the network slices based on the identified status of the network slice. The network slicing function applies the determined scaling process further to the CU by assigning the various computing resources to the corresponding VNFs in the CU to the network slice.

Von Bedeutung ist, dass die verstärkte Lernpolitik eine Akteurspolitik und ein Kritikermodell umfasst. Die Akteursrichtlinie berücksichtigt den Status des einen der Netzwerk-Slices als Eingabe und lieferts als Ausgabe einen bestimmten Skalierungsvorgang, der den entsprechenden virtuellen Netzwerkfunktionen (VNFs) in der CU verschiedene Rechenressourcen für einen der Netzwerk-Slices zuweist, basierend auf dem identifizierten Zustand des eines der Netzwerk-Slices. Das Kritikermodell wiederum berücksichtigt den Zustand des einer der Netzwerk-Slices in Kombination mit der ermittelten Skalierungsoperation als Input und lieferts einen statistischen Q-Wert als Output. Optional kann das Kritikermodell durch eine Verschmelzung von Zwillingskritikermodellen verkörpert werden, wobei der statistische Q-Wert eine Minimierung der einzelnen Q-Werte ist, die von jedem der Zwillinge erzeugt werden. Insbesondere können sowohl die Akteurspolitik als auch das Kritikermodell nach einem tiefen neuronalen Netzwerk implementiert werden, das sich auf der Grundlage des auf das Netzwerk angewendeten Feedbacks selbst lernt.It is important that the reinforced learning policy includes an actor policy and a critic model. The actor guideline takes into account the status of one of the network slices as input and delivers a specific scaling process as output, which assigns different computing resources for one of the network slices to the corresponding virtual network functions (VNFs) in the CU, based on the identified status of one of the Network slices. The critic model in turn takes into account the state of one of the network slices in combination with the determined scaling operation as input and delivers a statistical Q value as output. Optionally, the critic model can be embodied by an amalgamation of twin critic models, the statistical Q value being a minimization of the individual Q values generated by each of the twins. In particular, both the actor policy and the critic model can be implemented according to a deep neural network that learns itself based on the feedback applied to the network.

Sobald der Skalierungsvorgang angewendet wurde, überwacht die Netzwerk-Slicing-Funktion ein Ressourcenkostenergebnis des ermittelten Skalierungsvorgangs in der CU und vergleicht das überwachte Ergebnis mit einem vorab festgelegten optimalen Ergebnis für den ermittelten Skalierungsvorgang. Die Network-Slicing-Funktion bestimmt dann einen statistischen Q-Wert im Kritikermodell basierend auf einer Differenz zwischen dem überwachten Ergebnis und dem optimalen Ergebnis und ermittelt einen Gradienten für jede der Akteurspolitik und das Kritikermodell, das den ermittelten statistischen Q-Wert berücksichtigt. Schließlich appliziert die Network Slicing-Funktion den berechneten Gradientens auf jede der Akteursrichtlinien und das Kritikernetzwerkmodell zur Verwendung in einem nächsten bestimmten Skalierungsvorgang ineinem nachfolgenden der Zeitschritte. DieNetwork-Slicing-Funktion wendet jedochden für die Akteursrichtlinie berechneten Gradienten mit einer Rate an, die weniger häufig ist als eine Anwendung des berechneten Gradienten für das Kritikermodell.As soon as the scaling process has been applied, the network slicing function monitors a resource cost result of the determined scaling process in the CU and compares the monitored result with a predetermined optimal result for the determined scaling process. The network slicing function then determines a statistical Q-value in the critic model based on a difference between the monitored result and the optimal result and determines a gradient for each of the actor policies and the critic model that takes the determined statistical Q-value into account. Finally, the network slicing function applies the calculated gradient to each of the actor guidelines and the critic network model for use in a next particular scaling operation in a subsequent one of the time steps. However, the network slicing function applies the one calculated for the actor guideline Gradients at a rate that is less frequent than an application of the calculated gradient for the critic model.

In einem Aspekt der Ausführungsform wird die ermittelte Skalierungsoperation unter Berücksichtigung eines Zustandsraums für den der Netzwerk-Slices, des Zustandsraums einschließlich einer Anzahl neuer UE-Verbindungen zu dem der Netzwerk-Slices, Rechenressourcen, die jedem der VNFs in der CU für den entsprechenden der Netzwerk-Slices zugewiesen sind, bestimmt. einen Verzögerungsstatus in Bezug auf die Latenzkosten für jedes der Netzwerk-Slices, einen Energiestatus in Bezug auf die Energiekosten für die Nutzung der Rechenressourcen durch jedes der Netzwerk-Slices, eine Anzahl von Benutzern, die in jedem der Netzwerk-Slices bedient werden, und eine Anzahl von VNF-Instanziierungen in jedem der Netzwerk-Slices. In einem anderen Aspekt der Ausführungsform ist der Skalierungsvorgang Teil eines vertikalen Skalierungsaktionsraums, der die Skalierung auf eine erhöhte Kapazität in einem der Netzwerk-Slices und die Skalierung auf reduzierte Kapazität in einem der Netzwerk-Slices umfasst. In einem weiteren Aspekt der Ausführungsform umfasst das optimale Ergebnis eine maximierte Umkehrung der Gesamtnetzwerkkosten des überwachten Ergebnisses im gleichzeitigen Zeitschritt.In one aspect of the embodiment, the determined scaling operation is calculated taking into account a state space for that of the network slices, the state space including a number of new UE connections to that of the network slices, computing resources that each of the VNFs in the CU for the corresponding one of the network -Slices are assigned, determined. a delay status related to the latency cost for each of the network slices, a power status related to the energy cost for the use of the computing resources by each of the network slices, a number of users served in each of the network slices, and a Number of VNF instantiations in each of the network slices. In another aspect of the embodiment, the scaling process is part of a vertical scaling action space that includes scaling to increased capacity in one of the network slices and scaling to reduced capacity in one of the network slices. In another aspect of the embodiment, the optimal result comprises a maximized inverse of the total network cost of the monitored result in the simultaneous time step.

In einer anderen Ausführungsform der Erfindung kann ein C-RAN-architekturiertes Datenverarbeitungssystem für kontinuierliches Netzwerk-Slicing unter Verwendung eines verzögerten DDPG angepasst werden. Das System umfasst eine Host-Computing-Plattform, diein einer CU eines5G-Netzwerks mit Architektur für die Zellkommunikation ausgestattet ist. Das System enthält auch ein verzögertes DDPG-basiertes kontinuierliches Netzwerk-Slicing-Modul. Das Modul enthält Computerprogrammanweisungen, die während der Ausführung in der Host-Computing-Plattform aktiviert sind, um mindestens zwei Netzwerk-Slices in der CU zu definieren, für die Netzwerk-Slices eine verstärkte Lernrichtlinie zu laden, die eine Akteursrichtlinie und ein Kritikermodell enthält. Die Computerprogrammanweisungen identifizieren weiterhin kontinuierlich in verschiedenen Zeitschritten einen Zustand jedes der Netzwerkscheiben, geben den identifizierten Zustand der verstärkten Lernpolitik und erhalten e aus der verstärkten Lernpolitik für einen gleichzeitigen der Zeitschritte, eine ausgegebene Skalierungsoperation.In another embodiment of the invention, a C-RAN-architected data processing system can be adapted for continuous network slicing using delayed DDPG. The system includes a host computing platform built into a CU of a 5G network architecture for cellular communication. The system also includes a delayed DDPG based continuous network slicing module. The module contains computer program instructions that are activated during execution in the host computing platform in order to define at least two network slices in the CU, for which network slices a reinforced learning guideline is to be loaded which contains an actor guideline and a critic model. The computer program instructions further continuously identify a state of each of the network slices in different time steps, give the identified state of the enhanced learning policy and obtain e from the enhanced learning policy for a simultaneous one of the time steps, an output scaling operation.

Die Programmanweisungen wenden den ausgegebenen Skalierungsvorgang noch weiter auf die CU an, indem sie die verschiedenen Rechenressourcen den entsprechenden VNFs in der CU einem der Netzwerk-Slices zuweisen und ein Ressourcenkostenergebnis des ermittelten Skalierungsvorgangs in der CU überwachen, während das überwachte Ergebnis mit einem vorbestimmten optimalen Ergebnis für den ermittelten Skalierungsvorgang verglichen wird. Die Programmanweisungen bestimmen noch weiter einen statistischen Q-Wert im Kritikermodell basierend auf einer Differenz zwischen dem überwachten Ergebnis und dem optimalen Ergebnis und geben einen Gradienten für jede der Akteurspolitik und das Kritikermodell unter Berücksichtigung des ermittelten statistischen Q-Wertes aus. Schließlich wenden die Programmanweisungen die berechneten Gradienten jeweils auf die Akteursrichtlinie bzw. das Kritikermodell an, um sie in einem nächsten bestimmten Skalierungsvorgang in einem nachfolgenden der Zeitschritte zu verwenden. Bemerkenswerterweise erfolgt die Anwendung des berechneten Gradienten für die Akteurspolitik mit einer Rate, die weniger häufig ist als eine Anwendung des berechneten Gradienten für das Kritikermodell.The program instructions apply the output scaling process even further to the CU by assigning the various computing resources to the corresponding VNFs in the CU to one of the network slices and monitoring a resource cost result of the determined scaling process in the CU, while the monitored result has a predetermined optimal result is compared for the determined scaling process. The program instructions further determine a statistical Q value in the critic model based on a difference between the monitored result and the optimal result and output a gradient for each of the actor policies and the critic model taking into account the statistical Q value determined. Finally, the program instructions apply the calculated gradients in each case to the actor guideline or the critic model in order to use them in a next specific scaling process in a subsequent one of the time steps. Notably, the application of the calculated gradient for the actor policy occurs at a rate that is less frequent than an application of the calculated gradient for the critics model.

Zusätzliche Aspekte der Erfindung werden teilweise in der folgenden Beschreibung dargelegt und teilweise aus der Beschreibung ersichtlich sein oder durch die Praxis der Erfindung gelernt werden können. Die erfindungsgemäßen Aspekte werden durch die in den beigefügten Ansprüchen besonders hervorgehobenen Elemente und Kombinationen realisiert und erreicht. Es versteht sich, dass sowohl die vorstehende allgemeine Beschreibung als auch die folgende detaillierte Beschreibung nur beispielhaft und erklärend sind und die Erfindung nicht einschränken, wie beansprucht.Additional aspects of the invention are set forth in part in the following description, and in part will be apparent from the description or may be learned through practice of the invention. The aspects according to the invention are realized and achieved by the elements and combinations particularly emphasized in the appended claims. It is to be understood that both the foregoing general description and the following detailed description are exemplary and explanatory only and are not intended to limit the invention as claimed.

FigurenlisteFigure list

Die beigefügten Zeichnungen, die in diese Spezifikation aufgenommen werden und Teil dieser Spezifikation sind, veranschaulichen Ausführungsformen der Erfindung und dienen zusammen mit der Beschreibung der Erläuterung der Prinzipien der Erfindung. Die hierin dargestellten Ausführungsformen sind derzeit bevorzugt, wobei jedoch davon ausgegangen wird, dass die Erfindung nicht auf die genauen Anordnungen und Instrumente beschränkt ist, wobei

ist eine schematische Darstellung eines C-RAN, der für verzögerte DDPG-basierte kontinuierliche Netzwerk-Slicing geeignet ist; und
ist ein Flussdiagramm, das einen Prozess für C-RAN veranschaulicht, der für verzögerte DDPG-basierte kontinuierliche Netzwerk-Slicing konzipiert ist.

The accompanying drawings, which are incorporated in and constitute a part of this specification, illustrate embodiments of the invention and, together with the description, serve to explain the principles of the invention. The embodiments illustrated herein are presently preferred, it being understood, however, that the invention is not limited to the precise arrangements and instruments wherein

Figure 3 is a schematic representation of a C-RAN suitable for DDPG-based delayed continuous network slicing; and
Figure 13 is a flow diagram illustrating a process for C-RAN designed for DDPG-based delayed continuous network slicing.

DETAILLIERTE BESCHREIBUNG DER ERFINDUNGDETAILED DESCRIPTION OF THE INVENTION

Ausführungsformen der Erfindung sehen C-RAN vor, das für verzögertes DDPG-basiertes kontinuierliches Netzwerk-Slicing ausgelegt ist. Der C-RAN umfasst eine Host-Computing-Plattform, diein einer CU eines 5G-Netzwerks mit Mobilfunknetz ausgestattet ist. Ein DDPG-basiertes continuous Network Slicing Modul wird im Speicher der Plattform ausgeführt und definiert während der Ausführung zwei Netzwerk-Slices in der CU. Das Modul lädt auch für jedes der Netzwerk-Slices eine verstärkte Lernrichtlinie, die eine gleichzeitige Akteursrichtlinie enthält, die den Zustand des einer der Netzwerk-Slices als Eingabe nimmt und als Ausgabe einen bestimmten Skalierungsvorgang liefert, der den entsprechenden VNFs in der CU verschiedene Rechenressourcen für ein entsprechendes der Netzwerk-Slices zuweist basierend auf dem identifizierten Status des Netzwerks . Die verstärkte Lernpolitik beinhaltet auch ein Kritikermodell, das den Zustand eines entsprechenden der Netzwerk-Slices in Kombination mit der ermittelten Skalierungsoperation als Input nimmt und einen statistischen Q-Wert als Output liefert.Embodiments of the invention provide C-RAN designed for delayed DDPG-based continuous network slicing. The C-RAN comprises a host computing platform that is equipped in a CU of a 5G network with a cellular network. A DDPG-based continuous network slicing module runs in the platform's memory and defines two network slices in the CU while it is running. The module also loads a reinforced learning guideline for each of the network slices, which contains a simultaneous actor guideline, which takes the state of one of the network slices as input and delivers a specific scaling process as output, which provides the corresponding VNFs in the CU with different computing resources assigns a corresponding one of the network slices based on the identified status of the network. The enhanced learning policy also includes a critic model that takes the status of a corresponding one of the network slices in combination with the determined scaling operation as input and delivers a statistical Q-value as output.

Sobald die Netzwerk-Slices definiert und die Policies geladensind, identifiziertdas Modul kontinuierlichin verschiedenen Zeitschritten einen Status jedes der Netzwerk-Slices, stellt der Akteursrichtlinieden identifizierten Zustand zur Seite und ehäntiertvon der Akteursrichtlinie für einen gleichzeitigen der Zeitschritte, einen ausgegebenen Skalierungsvorgang. Das Modul wendet dann den ausgegebenen Skalierungsvorgang auf die CU an, indem es die verschiedenen Rechenressourcen den entsprechenden VNFs in der CU dem der Netzwerk-Slices zuweist. Anschließend überwachtdas Modulein Ressourcenkostenergebnis des ermittelten Skalierungsvorgangs in der CU und vergleicht das überwachte Ergebnis mit einem vorbestimmten optimalen Ergebnis für den ermittelten Skalierungsvorgang.As soon as the network slices are defined and the policies loaded, the module continuously identifies a status of each of the network slices in different time steps, provides the actor policy with the identified state and, for a simultaneous one of the time steps, denotes an output scaling process. The module then applies the output scaling operation to the CU by assigning the various computing resources to the appropriate VNFs in the CU to that of the network slices. The module then monitors a resource cost result of the determined scaling process in the CU and compares the monitored result with a predetermined optimal result for the determined scaling process.

Schließlich ermittelt das Modul einen statistischen Q-Wert im Kritikermodell basierend auf einer Differenz zwischen dem überwachten Ergebnis und dem optimalen Ergebnis und liefert einen Gradienten für jede der Akteurspolitik und das Kritikermodell, das den ermittelten statistischen Q-Wert berücksichtigt. Das Modul wendet dann den berechneten Gradienten s auf jeden derAkteursrichtlinien und das Kritikermodell zur Verwendung in einem nächsten bestimmten Skalierungsvorgang in einem nachfolgenden der Zeitschritte an. Wichtig ist jedoch, dass das Modul die Richtlinie für gleichzeitige Akteure mit dem entsprechenden berechneten Gradienten nur mit einer Rate aktualisiert, die weniger häufig ist als die Anwendung jedes berechneten Gradienten auf das Kritikermodell. Auf diese Weise kann ein verzögertes DDPG-basiertes kontinuierliches Netzwerk-Slicing erreicht werden, das zu einer erheblichen Leistungsverbesserung gegenüber einem herkömmlichen dynamischen, verstärkten lernbasierten Netzwerk-Slicing-Prozess führt. Insbesondere adressiert verzögertes DDPG DDPG-Nachteile, indem es sich darauf konzentriert, die Überschätzungsverzerrung früherer Algorithmen durch das Hinzufügen von 3 Schlüsselfunktionen zu reduzieren:

• Beschnittenes doppeltes Q-Learning mit zwei Kritikermodellen
• Verzögerte Richtlinienaktualisierungen und Zielmodelle
• Zielpolitikglättung und Lärmregularisierung

Finally, the module determines a statistical Q-value in the critic model based on a difference between the monitored result and the optimal result and provides a gradient for each of the actor's policies and the critic model, which takes the determined statistical Q-value into account. The module then applies the calculated gradient s to each of the actor guidelines and the critic model for use in a next particular scaling operation in a subsequent one of the time steps. It is important, however, that the module update the guideline for concurrent actors with the corresponding calculated gradient only at a rate that is less frequent than applying each calculated gradient to the critic model. In this way, a delayed DDPG-based continuous network slicing can be achieved, which leads to a considerable improvement in performance compared to a conventional dynamic, enhanced learning-based network slicing process. In particular, delayed DDPG addresses DDPG drawbacks by focusing on reducing the overestimation bias of previous algorithms by adding 3 key features:

• Trimmed double Q-learning with two critic models
• Delayed policy updates and target models
• Target policy smoothing and noise regularization

In der weiteren Abbildung ist eine schematische Darstellung eines C-RAN, der für verzögertes DDPG-basiertes kontinuierliches Netzwerk-Slicing angepasst ist. Wie in dargestellt, kann ein C-RAN 130 implementiert werden, um eine Hostcomputerplattform 100 einzuschließen, die einen oder mehrere Computer 110 mit jeweils Arbeitsspeicher 140 und einen oder mehrere Prozessoren 120 umfasst. Im Speicher 140 sind mehrere verschiedene CUs 150 für die jeweiligen Netzwerk-Slices 170 definiert, die jeweils eine oder mehrere VNFs 160 zur Unterstützung der Verarbeitung von 5G-Mobilfunknetzverbindungen mit verschiedenen UEs 190 bis DUs 180 unterstützen. Wichtig ist, dass ein verzögertes DDPG-Netzwerk-Slicing-Modul 200 im Speicher 140 enthalten ist und von mindestens einem der Prozessoren 120 der Host-Computing-Plattform 100 ausgeführt wird.In the further illustration is Figure 3 is a schematic representation of a C-RAN adapted for delayed DDPG-based continuous network slicing. As in shown, a C-RAN 130 be implemented to a host computing platform 100 include that one or more computers 110 each with main memory 140 and one or more processors 120 includes. In the storage room 140 are several different CUs 150 for the respective network slices 170 each defined one or more VNFs 160 to support the processing of 5G cellular network connections with different UEs 190 until you 180 support. It is important to have a delayed DDPG network slicing module 200 In the storage room 140 is included and from at least one of the processors 120 the host computing platform 100 is performed.

Das delayed DDPG Network Slicing Module 200 enthält Computerprogrammanweisungen, die bei der Ausführung im Speicher 140 einen Status für eines der Netzwerk-Slices 170 empfangen und den Status einer Akteursrichtlinie 115A zur Verfügung stellen. Die Actor-Richtlinie 115 gibt einen Skalierungsvorgang zurück, einschließlich des Hinzufügens weiterer CPUs 120 zu einer der CUs 150 für das Netzwerk-Slice 170 oder des Entfernens einer oder mehrerer CPUs 120 aus einer entsprechenden der CUs 150 für das Netzwerk-Slice 170. Die Programmanweisungen überwachen dann ein Ergebnis des Skalierungsvorgangs und vergleichen das Ergebnis mit einem optimalen Ergebnis. Der Vergleich wird mit dem Paar der Kritikermodelle s 135A, 145A zusammen mit der Skalierungsoperation bereitgestellt, so dass die Kritikermodelle jeweils einen entsprechenden statistischen Q-Wert erzeugen, der dann mit einer Minimierungsoperation amalgamiert wird.The delayed DDPG Network Slicing Module 200 contains computer program instructions that when executed in memory 140 a status for one of the network slices 170 received and the status of an actor guideline 115A provide. The Actor Policy 115 returns a scaling operation, including adding more CPUs 120 to one of the CUs 150 for the network slice 170 or removing one or more CPUs 120 from a corresponding one of the CUs 150 for the network slice 170 . The program instructions then monitor a result of the scaling process and compare the result with an optimal result. The comparison is made with the pair of critic models 135A , 145A provided together with the scaling operation, so that the critic models each generate a corresponding statistical Q value, which is then amalgamated with a minimization operation.

Die Programmanweisungen liefern dann den amalgamierten Q-Wert in einem Gradienten für jede der Akteursrichtlinien 115A und die Kritikerpolitik Modells 135A, 145A und die Gradienten für jede der Akteurspolitik 115A und die Kritikerrichtlinien Modells 135A, 145A werden jeweils auf ein entsprechendes Akteursziel 115B und ein Paar von Kritikerzielen 135B angewendet. 145 B. Schließlich aktualisieren die Programmanweisungen das Kritikermodell s 135A, 145A mit den Kritikerzielen 135B, 145B und die Programmanweisungen aktualisieren die Akteursrichtlinie 115A mit dem Akteursziel 115B, aber die Programmanweisungen führen die Aktualisierung der Akteursrichtlinie 115A mit einer Rate durch, die weniger häufig ist als eine Rate der Aktualisierung des Kritikermodells s 135A. 145A. Auf diese Weise kann eine verzögerte DDPG im C-RAN 130 des 5G-Netz-Architektur-Mobilfunknetzes erreicht werden.The program instructions then provide the amalgamated Q value in a gradient for each of the actor guidelines 115A and the criticism model 135A , 145A and the gradients for each of the actor policies 115A and the model's critics guidelines 135A , 145A are each aimed at a corresponding actor goal 115B and a pair of critic goals 135B applied. 145 B. Finally, the program instructions update the critic model p 135A , 145A with the critic goals 135B , 145B and the program instructions update the actor guideline 115A with the actor goal 115B , but the program instructions carry out the update of the actor guideline 115A at a rate that is less frequent than a rate of update of the critic model 135A . 145A . In this way, a delayed DDPG in the C-RAN 130 of the 5G network architecture cellular network.

Wie erkannt wird, zielen die Programmanweisungen des delayed DDPG network slicing module 200 darauf ab, die Parameter φ der Actor Policy 115A in Richtung eines Leistungsgradienten v φJ(π_φ) anzupassen. Der Leistungsgradient, der auf die Akteurspolitik 115A anzuwenden ist, kann mathematisch wie folgt widergespiegelt werden: $\nabla_{ϕ} J (π_{ϕ}) = \int_{S} p_{π} (s) \int_{A} \nabla_{ϕ} π_{ϕ} (a | s) Q^{π} (s, a) d a d s$

was gleich

E_{s} \sim p_{π} \sim a \sim π_{ϕ} [\nabla_{ϕ} π_{ϕ} {(a | s) |}_{a = π (s)} \nabla_{ϕ} π_{ϕ} (s)]

As can be seen, the program instructions of the delayed DDPG network slicing module 200 aim at the parameters φ of the actor policy 115A to adapt in the direction of a power gradient v φJ (π _φ). The performance gradient that affects actor politics 115A applies can be reflected mathematically as follows:

\nabla_{ϕ} J (π_{ϕ}) = \int_{S.} p_{π} (s) \int_{A.} \nabla_{ϕ} π_{ϕ} (a | s) Q^{π} (s, a) d a d s

what the same

{E.}_{s} \sim p_{π} \sim a \sim π_{ϕ} [\nabla_{ϕ} π_{ϕ} {(a | s) |}_{a = π (s)} \nabla_{ϕ} π_{ϕ} (s)]

Die Akteursrichtlinie 115A kann als Wertfunktion parametrisiert werden, mit dem Ziel, die optimale Richtlinie πφ zu finden, in der φ die Aktualisierung des Gewichts der Akteurspolitik 115Abeinhaltet. Die erwartete Rendite kann auf viele Arten angenähert werden. In einem Beispiel kann der Gradient der erwarteten Rendite nach Parametern von φ wie ∇_φJ(φ) berechnet werden. Wie zu sehen ist, wird der Gradientenabstieg gegenüber dem Gradientenabstieg bevorzugt, um die Parameter zu aktualisieren, φ_t+1 = φ_t + α∇ _φJ(πφ)|φ_t.The Actor Directive 115A can be parameterized as a value function with the aim of finding the optimal guideline πφ in which φ includes the updating of the weight of the actor policy 115A. The expected rate of return can be approximated in many ways. In one example, the gradient of the expected return _{can be calculated according to parameters of φ such as ∇ φ} J (φ). As can be seen, gradient descent is preferred over gradient descent in order to update the parameters, φ _{t + 1} = φ _t + α∇ _φ J (πφ) | φ _t .

In der Akteur-Kritiker-Methode von arbeiten zwei Modelle gleichzeitig, wobei die Akteursrichtlinie 115A eine Richtlinie ist, die einen Politikzustand als Eingabe annimmt und Aktionen als Ausgabe liefert, während das s 135A, 145A jeweils Zustände und Aktionen zusammenführt und den Q-Wert zurückgibt, so dass die Akteursrichtlinie 115A durch den deterministischen Richtliniengradienten aktualisiert werden kann. $\nabla_{ϕ} J (ϕ) = E_{s \sim p_{π}} [\nabla_{a} Q^{π} {(s, a) |}_{a = π (s)} \nabla_{ϕ} π_{ϕ} (s)]$

wo

Q^{π} (s, a) = E_{s \sim p_{π} \sim a_{f} \sim π} [R_{t} | s, a]

ist der statistische Q-Wert, der auch als Wertfunktion oder Kritiker bezeichnet wird.In the actor-critic method of two models work at the same time, with the actor guideline 115A is a rule that takes a policy state as input and provides actions as output while the

s

135A , 145A merges respectively states and actions and returns the Q value, so that the actor guideline 115A can be updated by the deterministic policy gradient.

\nabla_{ϕ} J (ϕ) = {E.}_{s \sim p_{π}} [\nabla_{a} Q^{π} {(s, a) |}_{a = π (s)} \nabla_{ϕ} π_{ϕ} (s)]

Where

Q^{π} (s, a) = {E.}_{s \sim p_{π} \sim a_{f} \sim π} [{R.}_{t} | s, a]

is the statistical Q-value, also known as the value function or critic.

Insbesondere wird zunächst eine zufällige Erfahrung in Puffer- β gespeichert. Mit anderen Worten, (s_t, a_t, r_t, s_t+1) wird gespeichert, um ein Deep Q-Network zu trainieren. Eine zufällige Charge B wird dann im Puffer β ausgewählt und für alle Übergänge (s_tB, a_tB, r_tB, s_tB+1) von β, die Vorhersagen sind Q (s_tB, a_tB) und die Ziele betrachten als optimale sofortige Rückkehr, die genau der erste Teil des Lernfehlers der zeitlichen Differenz (TD) sind, als R (s_tB, a_tB) + γmax_a(Q(_stB+1,a)). Über die gesamte Charge B kann der Verlust zwischen Vorhersagen und den Zielen in der Charge B berechnet werden. Vorzugsweisewird einanderes Zielmodell verwendet, anstatt das Q-Netzwerk zur Berechnung des Ziels zu verwenden, um mehr Stabilität für den lernenden Algorithmus zu erfüllen. Wie erkannt wird,basiert der TD-Prozess auf dem Akteur-Kritiker-Modell, während drei zusätzliche Prozesse genutzt werden, um den TD-Algorithmus zu verbessern:In particular, a random experience is first stored in buffer-β. In other words, (s _t , a _t , r _t , s _t +1) is stored to train a Deep Q network. A random batch B is then selected in buffer β and for all transitions (s _tB , a _tB , r _tB , s _tB +1) of β, the predictions are Q (s _tB , a _tB ) and consider the goals to be optimal instantaneous Returns, which are exactly the first part of the learning error of the time difference (TD), as R (s _tB , a _tB ) + γmax _a (Q ( _{stB + 1} , a)). Over the entire batch B, the loss between predictions and the targets in batch B can be calculated. It is preferred to use a different target model instead of using the Q-network to compute the target in order to meet more stability for the learning algorithm. As can be seen, the TD process is based on the actor-critic model, while three additional processes are used to improve the TD algorithm:

(1) Abgeschnittenes doppeltes Q-Learning mit zwei(1) Truncated double Q-learning with two

Der erste zusätzliche Prozess verwendet zwei Deep Neural Networks(DNNs) als die beiden Akteursmodelle 115A, 115B und wird von φ als DNN für die Akteurspolitik 115A und φ' als DNN für das Akteursziel 115B bezeichnet. Zusätzlichsind zwei Paare von DNNs für Kritikermodells 135A, 135B und Kritikerziele 135B,145B vorgesehen und bezeichnend als θ1, θ2 für die Parametrisierung eines Wertenetzwerks als Kritiker Modells 135A, 145A und θ'₁, θ'₂ als Kritiker zielt auf 135B,145B. Daherfindenzwei maschinelle Lernprozesse gleichzeitig statt, nämlich Q-Learning und Policy Learning, und die Kombination befasst sich mit Demigungsfehlern,derReduzierung von Bias und der Definition des höchsten statistischen Q-Wertes. Für jedes Element und jeden Übergang der Charge spielt das Akteursziel 115B a' basierend auf s' ab, während Gaußsches Rauschen zu a' hinzugefügt wird. Der Kritiker zielt auf 145A, 145B nimmt das Paar (s', a') und gibt zwei Q-Werte Q'_t1 und Q'_t2 als Ausgabe zurück. Dann wird die (min Q'_t1, Q'_t2) als Verschmelzung statistischer Q-Werte als nähergenäherte Wert für DNNs derKritikerziele 145A, 145Bbetrachtet.The first additional process uses two Deep Neural Networks (DNNs) as the two actor models 115A , 115B and is used by φ as DNN for actor policy 115A and φ 'as DNN for the actor target 115B designated. In addition, there are two pairs of DNNs for critic models 135A , 135B and critic goals 135B , 145B provided and designated as θ1, θ2 for the parameterization of a value network as a critic model 135A , 145A and θ ' ₁ , θ' ₂ as a critic aims at 135B , 145B . Therefore, two machine learning processes take place at the same time, namely Q-Learning and Policy Learning, and the combination deals with demeaning errors, the reduction of bias and the definition of the highest statistical Q-value. For every element and transition of the batch, the actor objective plays a role 115B a 'based on s' while adding Gaussian noise to a'. The critic aims at 145A , 145B takes the pair (s ', a') and returns two Q values Q ' _t1 and Q' _t2 as output. Then the (min Q ' _t1 , Q' _t2 ) as the amalgamation of statistical Q values is used as the approximate value for DNNs of the critic's goals 145A , 145B considered.

Die DNNs für die Kritikerziele 145A, 145B werden verwendet, um die Wertschätzungen durch eine Verschmelzung der erzeugten statistical Q-Werte wie folgtzuliefern: $Q_{t} = r + γ * min (Q_{t 1}^{i}, Q_{t 2}^{i})$

The DNNs for the critic targets 145A , 145B are used to deliver the estimates by amalgamating the generated statistical Q-values as follows:

Q_{t} = r + γ * min (Q_{t 1}^{i}, Q_{t 2}^{i})

Folglich geben die DNNs für die beiden Kritikermodelles 135A, 135B zwei Q-Werte als Q₁(s,a) und Q₂(s,a) zurück. Der Verlust kann dann auf der Grundlage der beiden Modelles 135A, 135B und mit Mean Squared Error (MSE) berechnet werden. Um den Verlust über Iterationen durch Back-Propagation-Technik zu minimieren, kann ein effizienter Optimierer namens Adaptive Moment Estimation verwendet werden: $L = l_{M S E} (Q_{1}, Q_{t}) + l_{M S E} (Q_{2}, Q_{t})$

\nabla_{ϕ} J (ϕ) = N^{- 1} \sum [\nabla_{a} Q_{θ 1} {(s, a) |}_{a = π (ϕ)} \nabla_{ϕ} π_{ϕ} (s)]

Consequently, the DNNs give for the two

critic models

135A , 135B returns two Q values as Q ₁ (s, a) and Q ₂ (s, a). The loss can then be based on the two

models

135A , 135B and calculated with Mean Squared Error (MSE). To minimize the loss over iterations through back propagation technique, an efficient optimizer called Adaptive Moment Estimation can be used:

L. = l_{M. S. E.} (Q_{1}, Q_{t}) + l_{M. S. E.} (Q_{2}, Q_{t})

\nabla_{ϕ} J (ϕ) = N^{- 1} \sum [\nabla_{a} Q_{θ 1} {(s, a) |}_{a = π (ϕ)} \nabla_{ϕ} π_{ϕ} (s)]

(2) Verzögerte Richtlinienaktualisierungen und Zielmodelle:(2) Delayed policy updates and target models:

Der zweite zusätzliche Prozess sieht eine verzögerte Aktualisierung der Akteursrichtlinie 115A vor. Insbesondere wird der DNN der Akteursrichtlinie 115A seltener aktualisiert als der DNNs für die Kritikermodelles 135A, 135B, um Wertemit geringerer Varianz zu schätzen. Die Aktualisierungsregel wird von Polyak Averaging gegeben, um die Parameter wie folgt zu aktualisieren: $θ_{f}^{l} \leftarrow τ θ_{f} + (1 - τ) θ_{f}^{l}$

ϕ^{l} \leftarrow τ ϕ + (1 - τ) ϕ^{l}

wobei τ ≤ 1 ein Hyperparameter ist, um die Aktualisierungsgeschwindigkeit zu optimieren.The second additional process sees a delayed update of the actor guideline 115A before. In particular, the DNN becomes the Actors Directive 115A updated less often than the DNNs for the

critics models

135A , 135B to estimate values with less variance. The update rule is given by Polyak Averaging to update the parameters as follows:

θ_{f}^{l} \leftarrow τ θ_{f} + (1 - τ) θ_{f}^{l}

ϕ^{l} \leftarrow τ ϕ + (1 - τ) ϕ^{l}

where τ ≤ 1 is a hyperparameter to optimize the update speed.

(3) Zielpolitik Glättung undLärmregulierung:(3) Target policy smoothing and noise regulation:

Der dritte zusätzliche Prozess dient dazu, das Ziel des Akteurs 115B und das Kritikerziel 135B, 145B zu glätten. In dieser Hinsicht ist bei der Aktualisierung des Kritikermodellss 135A, 145A ein Lernziel 135B, 145B unter Verwendung einer deterministischen Richtlinie sehr anfällig für Ungenauigkeiten, die durch Funktionsnäherungsfehler verursacht werden, wodurch die Varianz des Ziels erhöht wird. Diese induzierte Varianz wird durch Regularisierung reduziert, um sicher zu sein, dass alle möglichen kontinuierlichen Parameter erforscht werden können. Zu diesem Zweck wird der nächsten Aktion a' Gaußsches Rauschen hinzugefügt, um zu verhindern, dass zwei große Aktionen den Zustand der Umgebung stören: $\tilde{a} \leftarrow π_{ϕ^{l}} (s^{l}) + \in, \in \sim c l i p (N (0, \tilde{σ}), - c, c)$

wobei das Rauschen aus einer Gaußschen Verteilung mit Null und einer bestimmten Standardabweichung abgetastet und in einem bestimmten Wertebereich zwischen -c und c abgeschnitten wird, um die Exploration zu fördern. εUmFehler bei der Verwendung eines unmöglichen Wertes von Aktionen zuvermeiden, wird das zusätzliche Rauschen auf den Bereich der möglichen Aktionen (min action, max_action) abgeschnitten.The third additional process serves the purpose of the actor's goal 115B and the

critic target

135B , 145B to smooth. In this regard, when updating the

critic model

135A , 145A a

learning objective

135B , 145B using a deterministic guideline, very susceptible to inaccuracies caused by functional approximation errors, which increases the variance of the target. This induced variance is reduced by regularization to be sure that all possible continuous parameters can be explored. To do this, a 'Gaussian noise is added to the next action to prevent two large actions from perturbing the state of the environment:

\tilde{a} \leftarrow π_{ϕ^{l}} (s^{l}) + \in, \in \sim c l i p (N (0, \tilde{σ}), - c, c)

wherein the noise from a Gaussian distribution with zero and a certain standard deviation is sampled and clipped in a certain range of values between -c and c in order to promote exploration. To avoid errors when using an impossible value of actions, the additional noise is cut off to the area of possible actions (min action, max_action).

Das vorstehende TD3 -basierte Netzwerk-Slicing-Verfahren lässt sich wie folgt zusammenfassen:

The above TD3 -based network slicing method can be summarized as follows:

Zur weiteren Veranschaulichung und Zusammenfassung der vorstehenden TD3-basierten Network Slicing-Methodik istAbbildung 2 ein Flussdiagramm, das einen Prozess für C-RAN veranschaulicht, der für verzögertes DDPG-basiertes kontinuierliches Netzwerk-Slicing konzipiert ist. Ab Block 210 wird ein Netzwerk-Slice in der CU als Umgebung erstellt und in Block 215 im Speicher für das Netzwerk-Slice initialisiert. In Block 220 werden eine Akteursrichtlinie und einn-Akteursziel für ein ausgewähltes Netzwerksegment in den Speicher geladen. Dann werden in Block 225 auch zwei Kritikermodelle und zwei Kritikerziele geladen. Danach, i n Block 230, werden die Aktionen zufällig abgespielt und in Block 235 wird ein Stapel von Übergängen abgetastet. In Block 240 das Schauspielerziel nimmt den nächsten Zustand und spielt eine nächste Aktion. Im Block 245 wird der nächsten Aktion Gaußsches Rauschen hinzugefügt und die nächste Aktion eingeklemmt. In Block 250 berechnen die Kritikerziele Q-Werte aus dem Zustand und der Aktion und in Block 255 wird ein Minimum für die Q-Werte berechnet. In Block 260 wird ein endgültiges Ziel in Bezug auf einen Diskontfaktor festgelegt und in Block 265 erhalten die Kritikermodelle die Aktion und geben Q-Werte an und geben sie zurück. In Block 270 wird der Kritikerverlust in Bezug auf das Endziel und Block 275 berechnet, der Kritikerverlust wird zurückpropagiert, um die Parameter der Kritikermodelle zu aktualisieren. Im Entscheidungsblock 280 wird festgelegt, ob die Aktualisierung des Akteursmodells verzögert werden soll. Wenn ja,wirdin Block 285 das Akteursmodell mit der Ausgabe des ersten Kritikermodells aktualisiert und in Block 290 werden die Gewichtungen jedes der Akteurs- und Kritikerziele aktualisiert.To further illustrate and summarize the above TD3-based network slicing methodology, Figure 2 is a flow diagram illustrating a process for C-RAN designed for delayed DDPG-based continuous network slicing. From block 210 a network slice is created in the CU as an environment and in block 215 initialized in memory for the network slice. In block 220 an actor policy and an actor target for a selected network segment are loaded into memory. Then be in block 225 also loaded two critic models and two critic targets. After that, in a block 230 , the actions are played randomly and in blocks 235 a stack of transitions is scanned. In block 240 the actor target takes the next state and plays a next action. In the block 245 Gaussian noise is added to the next action and the next action is pinched. In block 250 calculate the critic goals Q-values from the state and the action and in block 255 a minimum is calculated for the Q values. In block 260 a final target in terms of a discount factor is set and in block 265 the critic models receive the action and give and return Q-values. In block 270 will be the loss of critics in terms of the ultimate goal and block 275 calculated, the critic loss is propagated back to update the parameters of the critic models. In the decision block 280 it is determined whether the update of the actor model should be delayed. If so, will be in a block 285 the actor model updated with the output of the first critic model and in block 290 the weightings of each of the actor and critic goals are updated.

Somit wird gemäß der vorliegenden Erfindung ein Belohnungs-Straf-Mechanismus bereitgestellt, um negative Auswirkungen des destabilisierenden Trainings zu mildern. Der Belohnungs-Strafe-Mechanismus schneide die Netzwerkwerte auf einige konstante und einschränkende Werte in Bezug auf die Quality of Service (QoS) und andereSchwellenwerte. Wie man also feststellen wird, wendet die vorgeschlagene Technik Roboteralgorithmen im Bereich der Telekommunikation an. Auch die Wiederholung von Erfahrungen ist einer der Hauptaspekte des Lernverhaltens in biologischen Systemen. Um den Trainingsprozess zu beschleunigen und die Lerneffizienz zu verbessern, wird hier ein scorebasierter asynchroner Akteur-Lerner für die Netzwerk-Slicing-Umgebung optimiert.Thus, in accordance with the present invention, a reward penalty mechanism is provided to mitigate the adverse effects of destabilizing training. The reward-penalty mechanism cuts the network values to some constant and restrictive values with regard to the Quality of Service (QoS) and other threshold values. So, as will be seen, the proposed technique uses robotic algorithms in the telecommunications field. The repetition of experiences is also one the main aspects of learning behavior in biological systems. In order to accelerate the training process and improve the learning efficiency, a score-based asynchronous actor-learner is optimized for the network slicing environment.

Die vorliegende Erfindung kann in einem System, einem Verfahren, einem Computerprogrammprodukt oder einer beliebigen Kombination davon verkörpert sein. Das Computerprogrammprodukt kann ein computerlesbares Speichermedium oder Ein Medium mit computerlesbaren Programmanweisungen enthalten, um einen Prozessor dazu zu bringen, Aspekte der vorliegenden Erfindung auszuführen. Das computerlesbare Speichermedium kann ein greifbares Gerät sein, das Gebrauchsanweisungen für ein Befehlsausführungsgerät speichern und speichern kann. Das computerlesbare Speichermedium kann beispielsweise, ist aber nicht beschränkt auf, eine elektronische Speichervorrichtung, eine magnetische Speichervorrichtung, eine optische Speichervorrichtung, eine elektromagnetische Speichervorrichtung, eine Halbleiterspeichervorrichtung oder eine geeignete Kombination des Vorstehenden sein.The present invention can be embodied in a system, a method, a computer program product, or any combination thereof. The computer program product may include a computer readable storage medium or a medium containing computer readable program instructions for causing a processor to carry out aspects of the present invention. The computer readable storage medium can be a tangible device that can store and store instructions for use for an instruction execution device. The computer readable storage medium may be, for example, but is not limited to, an electronic storage device, a magnetic storage device, an optical storage device, an electromagnetic storage device, a semiconductor storage device, or any suitable combination of the foregoing.

Computerlesbare Programmanweisungen, die hier beschrieben werden, können von einem computerlesbaren Speichermedium oder über ein Netzwerk auf entsprechende Computer-/Verarbeitungsgeräte heruntergeladen werden. Die computerlesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Softwarepaket, teilweise auf dem Computer des Benutzers und teilweise auf einem Remotecomputer oder vollständig auf dem Remotecomputer oder -server ausgeführt werden. Aspekte der vorliegenden Erfindung werden hierin unter Bezugnahme auf Flussdiagrammabbildungen und/oder Blockdiagramme von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es versteht sich, dass jeder Block der Flussdiagramm-Illustrationen und / oder Blockdiagramme und Kombinationen von Blöcken in den Flussdiagramm-Illustrationen und / oder Blockdiagrammen durch computerlesbare Programmanweisungen implementiert werden kannComputer readable program instructions described herein can be downloaded from a computer readable storage medium or over a network to appropriate computing / processing devices. The computer-readable program instructions can run entirely on the user's computer, partially on the user's computer, as a stand-alone software package, partially on the user's computer, and partially on a remote computer, or entirely on the remote computer or server. Aspects of the present invention are described herein with reference to flowchart illustrations and / or block diagrams of methods, devices (systems), and computer program products in accordance with embodiments of the invention. It should be understood that each block of the flowchart illustrations and / or block diagrams and combinations of blocks in the flowchart illustrations and / or block diagrams can be implemented by computer readable program instructions

Diese computerlesbaren Programmanweisungen können einem Prozessor eines Allzweckcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung zur Herstellung einer Maschine zur Verfügung gestellt werden, so dass die Anweisungen, die über den Prozessor des Computers oder eine andere programmierbare Datenverarbeitungsvorrichtung ausgeführt werden, Mittel zur Ausführung der im Flussdiagramm und/oder Blockdiagrammblock oder -blöcken angegebenen Funktionen/Handlungen schaffen. Diese computerlesbaren Programmanweisungen können auch auf einem computerlesbaren Speichermedium gespeichert werden, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Vorrichtungen anweisen kann, in einer bestimmten Weise zu funktionieren, so dass das computerlesbare Speichermedium, auf dem Anweisungen gespeichert sind, einen Herstellungsgegenstand einschließlich Anweisungen enthält, die Aspekte der im Flussdiagramm und/oder Blockdiagrammblock oder -blöcken angegebenen Funktion/Handlung implementieren.These computer readable program instructions may be provided to a processor of a general purpose computer, special purpose computer, or other programmable data processing device for making a machine so that the instructions executed by the computer's processor or other programmable data processing device provide means for performing the steps in the flowchart and / or block diagram block or blocks provide specified functions / acts. These computer-readable program instructions can also be stored on a computer-readable storage medium, which can instruct a computer, a programmable data processing device and / or other devices to function in a certain way, so that the computer-readable storage medium on which instructions are stored, an article of manufacture including instructions that implement aspects of the function / action indicated in the flowchart and / or block diagram block or blocks.

Die computerlesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Vorrichtung geladen werden, um eine Reihe von Arbeitsschritten auf dem Computer, anderen programmierbaren Geräten oder anderen Geräten auszuführen, um einen computerimplementierten Prozess zu erzeugen, so dass die Anweisungen, die auf dem Computer ausgeführt werden, andere programmierbare Vorrichtungen; oder ein anderes Gerät die funktionen/handlungen implementieren, die im Flussdiagramm und/oder Blockdiagrammblock oder in den Blöcken angegeben sind.The computer-readable program instructions can also be downloaded to a computer, other programmable data processing device, or other device to perform a series of operations on the computer, other programmable device, or other device to generate a computer-implemented process such that the instructions that running on the computer, other programmable devices; or another device implement the functions / actions indicated in the flowchart and / or block diagram block or blocks.

Die Flussdiagramme und Blockdiagramme in den Abbildungen veranschaulichen die Architektur, Funktionalität und Funktionsweise möglicher Implementierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block im Flussdiagramm oder blockdiagramm ein Modul, Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Implementierung der angegebenen logischen Funktion(en) enthalten. In einigen alternativen Implementierungen können die im Block angegebenen Funktionen außerhalb der in den Abbildungen angegebenen Reihenfolge auftreten. Zum Beispiel können zwei Blöcke, die nacheinander angezeigt werden, tatsächlich im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal in umgekehrter Reihenfolge ausgeführt werden, abhängig von der beteiligten Funktionalität. Es wird auch darauf hingewiesen, dass jeder Block der Blockdiagramme und / oder Flussdiagramm-Illustrationen und Kombinationen von Blöcken in den Blockdiagrammen und / oder Flussdiagramm-Illustrationen durch spezielle hardwarebasierte Systeme implementiert werden können, die die angegebenen Funktionen ausführen oder handeln oder Kombinationen von spezieller Hardware und Computeranweisungen ausführen.The flow diagrams and block diagrams in the figures illustrate the architecture, functionality, and operation of possible implementations of systems, methods, and computer program products in accordance with various embodiments of the present invention. In this context, each block in the flowchart or block diagram can represent a module, segment, or part of instructions that contain one or more executable instructions for implementing the specified logical function (s). In some alternative implementations, the functions noted in the block may occur out of the order noted in the figures. For example, two blocks that are displayed one after the other can actually be executed essentially simultaneously, or the blocks can sometimes be executed in reverse order, depending on the functionality involved. It is also pointed out that each block of the block diagrams and / or flowchart illustrations and combinations of blocks in the block diagrams and / or flowchart illustrations can be implemented by special hardware-based systems that perform or act on the specified functions or combinations of special hardware and follow computer instructions.

Schließlich dient die hierin verwendete Terminologie nur der Beschreibung bestimmter Ausführungsformen und soll die Erfindung nicht einschränken. Wie hierin verwendet, sollen die Singularformen „a“, „an“ und „the“ auch die Pluralformen enthalten, es sei denn, der Kontext weist eindeutig auf etwas anderes hin. Es wird weiter verstanden, dass die Begriffe „include“, „includes“ und/oder „including“, wenn sie in dieser Spezifikation verwendet werden, das Vorhandensein von angegebenen Features, ganzzahlen, Schritten, Operationen, Elementen und/oder Komponenten angeben, aber nicht das Vorhandensein oder Hinzufügen eines oder mehrerer anderer Features, ganzer Zahlen, Schritte, Operationen, Elemente, Komponenten und/oder Gruppen davon ausschließen.Finally, the terminology used herein is only used to describe particular embodiments and is not intended to limit the invention. As used herein, the singular forms “a,” “an,” and “the” are intended to include the plural forms as well, unless the context clearly indicates otherwise. It is further understood that the terms "include", "includes" and / or "including" when used in this specification indicate the presence of specified features, integers, steps, operations, elements and / or components, but does not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, and / or groups thereof.

Die entsprechenden Strukturen, Materialien, Handlungen und Äquivalente aller Mittel oder Stufen-plus-Funktionselemente in den folgenden Ansprüchen sollen jede Struktur, jedes Material oder jede Handlung zur Ausführung der Funktion in Kombination mit anderen beanspruchten Elementen, wie ausdrücklich beansprucht, umfassen. Die Beschreibung der vorliegenden Erfindung wurde zu Zwecken der Veranschaulichung und Beschreibung vorgelegt, soll aber nicht erschöpfend oder auf die Erfindung in der offenbarten Form beschränkt sein. Viele Modifikationen und Variationen werden für diejenigen mit gewöhnlichem Geschick auf dem Gebiet offensichtlich sein, ohne vom Umfang und Geist der Erfindung abzuweichen. Die Ausführungsform wurde ausgewählt und beschrieben, um die Prinzipien der Erfindung und die praktische Anwendung am besten zu erklären und es anderen mit gewöhnlichen Kenntnissen auf dem Gebiet zu ermöglichen, die Erfindung für verschiedene Ausführungsformen mit verschiedenen Modifikationen zu verstehen, die für die jeweilige in Betracht gezogene Verwendung geeignet sind.The corresponding structures, materials, acts, and equivalents of all means or level-plus-functional elements in the following claims are intended to encompass any structure, material, or act for performing the function in combination with other claimed elements as expressly claimed. The description of the present invention has been presented for purposes of illustration and description, but is not intended to be exhaustive or limited to the invention in the form disclosed. Many modifications and variations will be apparent to those of ordinary skill in the art without departing from the scope and spirit of the invention. The embodiment was chosen and described in order to best explain the principles of the invention and its practical application, and to enable others of ordinary skill in the art to understand the invention for various embodiments with various modifications as particular contemplated Use are suitable.

Nachdem somit die Erfindung der vorliegenden Anmeldung ausführlich und unter Bezugnahme auf deren Ausführungsformen beschrieben wurde, wird deutlich, dass Modifikationen und Variationen möglich sind, ohne von dem in den beigefügten Ansprüchen definierten Umfang der Erfindung wie folgt abzuweichen:Having thus described the invention of the present application in detail and with reference to the embodiments thereof, it will be clear that modifications and variations are possible without departing from the scope of the invention as defined in the appended claims as follows:

Claims

A cloud radio data processing system (C-RAN) suitable for continuous network slicing, the system comprises: a host computing platform that has a central unit (CU) of a 5G network with a cellular network, the CU, which comprises a communicative coupling to a large number of different distributed units (DUs), at least one of the DUs, which has a massive MIMO antenna (Multiple Input, Multiple Output), which transmits over millimeter wave frequencies, the platform comprising one or more computers, each comprising memory and at least one processor; and a DDPG-based continuous network slicing module that includes computer program instructions that, while being executed, are enabled in the host computing platform to do the following: Defining at least two network slices in the CU; Load for the network slices a reinforced learning policy, which includes an actor policy that takes the state of one of the network slices as input and delivers a specific scaling process as output, which different computing resources the corresponding virtual network functions (VNFs) in the CU for one assigns the network slices, based on the identified state of one of the network slices, the enhanced learning policy, which additionally comprises a critic model that takes the state of the network slice in combination with the particular scaling process as input and a statistical Q-value returns as output; continuously at different times in order to identify a state of each of the network slices, to provide the identified state for the enhanced learning policy and to receive an output scaling process from the enhanced learning policy for a simultaneous one of the time steps; Application of the output scaling process to the CU by assigning the various computing resources to the corresponding VNFs in the CU to that of the network slices; monitoring of a resource cost result of the determined scaling process in the CU and comparison of the monitored result with a predefined optimal result for the determined scaling process Determination of a statistical Q value in the critic model based on a difference between the monitored result and the optimal result and calculation of a gradient for each of the actor policies and the critic model taking into account the determined statistical Q value; and applying the calculated gradients to each one of the actor policy and the critic model for use in a next particular scaling operation in a subsequent one of the time steps; but applying one of the calculated gradients that correspond to the actor's policy at a rate that is less frequent than applying the other of the calculated gradients to the critic model.

System of Claim 1 , wherein the ascertained scaling process is determined taking into account a state space for that of the network slices, which a number of new user equipment connections (UE) to that of the network slices, computing resources that are assigned to each of the VNFs in the CU for that of the network segments, a delay status with respect to the latency costs for each of the at least two network segments, an energy status in relation to energy costs for the use of the computing resources by each of the at least two network slices, a number of users who are served in each of the at least two network slices, and a number of VNF instantiations in each of the at least two network slices.

System of Claim 1 wherein the scaling process is part of a vertical scaling action space comprising scaling to increased capacity in one of the network slices and scaling to reduced capacity in one of the network slices.

System of Claim 1 , wherein the optimal result comprises a maximized inverse of the total network cost of the monitored result while taking one of the time steps.

The system of the Claim 1 , with the enhanced learning policy including twins of the critic model.

System of Claim 5 , where the Q-value used in calculating the gradient for actor policy is a minimum of Q-values provided by each of the first twins.

A computer program product for continuous network slicing, the computer program product including a computer readable storage medium having program instructions executable by a device to cause the device to perform a method, including: Definition of at least two network slices in a central unit (CU) of a 5G network architecture cellular network; Load for the network slices a reinforced learning policy, which includes an actor policy that takes the state of one of the network slices as input and delivers a specific scaling process as output, which different computing resources the corresponding virtual network functions (VNFs) in the CU for one assigns the network slices, based on the identified state of one of the network slices, the enhanced learning policy, which additionally includes a critic model that takes the state of the network slice in combination with the specific scaling process as input and a statistical Q - Returns value as output; continuously at different times in order to identify a state of each of the network slices, to provide the identified state for the enhanced learning policy and to receive an output scaling process from the enhanced learning policy for a simultaneous one of the time steps; Application of the output scaling process to the CU by assigning the various computing resources to the corresponding VNFs in the CU to that of the network slices; monitoring of a resource cost result of the determined scaling process in the CU and comparison of the monitored result with a predefined optimal result for the determined scaling process Determination of a statistical Q value in the critic model based on a difference between the monitored result and the optimal result and calculation of a gradient for each of the actor policies and the critic model taking into account the determined statistical Q value; and applying the calculated gradients to each one of the actor policy and the critic model for use in a next particular scaling operation in a subsequent one of the time steps; but applying one of the calculated gradients that correspond to the actor's policy at a rate that is less frequent than applying the other of the calculated gradients to the critic model.