EP1116172A2 - Method and configuration for determining a sequence of actions for a system which comprises statuses, whereby a status transition ensues between two statuses as a result of an action - Google Patents

Method and configuration for determining a sequence of actions for a system which comprises statuses, whereby a status transition ensues between two statuses as a result of an action

Info

Publication number
EP1116172A2
EP1116172A2 EP99953714A EP99953714A EP1116172A2 EP 1116172 A2 EP1116172 A2 EP 1116172A2 EP 99953714 A EP99953714 A EP 99953714A EP 99953714 A EP99953714 A EP 99953714A EP 1116172 A2 EP1116172 A2 EP 1116172A2
Authority
EP
European Patent Office
Prior art keywords
sequence
state
action
actions
states
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP99953714A
Other languages
German (de)
French (fr)
Inventor
Ralf Neuneier
Oliver Mihatsch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1116172A2 publication Critical patent/EP1116172A2/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management

Definitions

  • the invention relates to a method and an arrangement for determining a sequence of actions for a system which has states, a state transition between two states taking place as a result of an action.
  • Markov decision problem MDP
  • MDP Markov decision problem
  • the system 201 is in a state x ⁇ .
  • the state x ⁇ can be observed by an observer of the system.
  • the system Based on an action a - j - from a set of possible actions in the state Xt, a ⁇ e A (x ⁇ ), the system goes with a certain probability into a subsequent state xt + i at a subsequent time t + 1.
  • An observer 200 takes observable quantities about the state x - (- true 202 and makes a decision about an action 203 with which he acts on the system 201.
  • the system 201 is usually subject to a fault 205.
  • the profit r- ⁇ can assume a positive or negative scalar value, depending on whether the decision leads to a system development which is positive or negative with regard to a predefinable criterion, in [1] to an increase in capital or to a loss.
  • the observer 200 of the system 201 decides on a new action a - ⁇ + i etc. based on the observable variables 202, 204 of the subsequent state xt + i.
  • future states of system 201 do not depend on states and actions that are further than a time step in the past.
  • the goal is to determine a strategy based on observable variables, the variables referred to hereinafter as training data, i.e. a series of functions
  • Such a strategy is evaluated by an optimization function.
  • the optimization function specifies the expected value of the gains accumulated over time for a given strategy ⁇ and a starting state xn.
  • V (x) max V ⁇ (x) Vx e X (5) ⁇
  • V ⁇ (x) ⁇ t * x t + l)
  • 0 x (6)
  • denotes a predefinable reduction factor, which is formed in accordance with the following regulation:
  • a Q evaluation function Q (xt, at) is formed for each pair (state xt, action at) in accordance with the following rule:
  • the so-called Q values Q * (x, a) are approximated for different actions a by a function approximator, for example a neural network or also a polynomial classifier, with a weight vector w which contains the weights of the function approximator.
  • a function approximator for example a neural network or also a polynomial classifier
  • a function approximator is understood to mean, for example, a neural network, a polynomial classifier or also a combination of a neural network with a polynomial classifier.
  • the neural network which represents the financial market system as described in [1], is trained using the training data, which describe information about previous price developments of a financial market as time series values.
  • TD ( ⁇ ) learning method Another approximate dynamic programming method, the so-called TD ( ⁇ ) learning method, is known from [2] and is explained in more detail in connection with an exemplary embodiment.
  • the extended Q function Q ⁇ (xt, t) describes the worst case if the action at is carried out in the state xt and the strategy ⁇ is then followed.
  • the invention is therefore based on the problem of specifying a method and an arrangement for determining a sequence of actions for a system in which or in which an increased flexibility in determining the strategy is achieved.
  • the sequence of actions is determined in such a way that a sequence of states resulting from the sequence of actions takes place a given optimization function is optimized, the optimization function contains a variable parameter with which a risk which has the resulting sequence of states with respect to a predetermined state of the system can be set.
  • An arrangement for determining a sequence of actions for a system which has states, a state transition between two states taking place as a result of an action has a processor which is set up in such a way that the sequence of actions can be determined in such a way that a a sequence of states resulting from the sequence of actions is optimized with regard to a predetermined optimization function, the optimization function containing a variable parameter with which a risk which the resulting sequence of states has with respect to a predetermined state of the system can be set.
  • the invention makes it possible for the first time to specify a method for determining a sequence of actions with freely definable accuracy as part of a strategy for a possible regulation or control, in general influencing the system.
  • a method of approximate dynamic programming is used for the determination, for example a method based on Q learning or also a method based on TD ( ⁇ ) learning.
  • the OFQ optimization function is preferably formed in accordance with the following regulation:
  • the following adaptation step is carried out to determine the optimal weight w of the function approximator:
  • the optimization function is preferably formed in accordance with the following regulation:
  • A an action from an action area A
  • the system is preferably a technical system, from which measured variables are measured before the determination, which are used in determining the sequence of actions.
  • the technical system can be controlled or regulated using the determined sequence of actions.
  • the system is preferably modeled as a Markov decision problem.
  • the method or the arrangement are preferably used in a traffic control system or in a communication system, the sequence of actions for carrying out access control or routing, that is to say path assignment, being used in a communication network in the communication system.
  • the system can be a financial market which is modeled by a Markov decision problem and where the course of the financial market, for example a course of a Stock index or a price trend of a foreign exchange market can be analyzed using the methods or the arrangement and can be intervened in the market in accordance with the sequence of determined actions.
  • the course of the financial market for example a course of a Stock index or a price trend of a foreign exchange market can be analyzed using the methods or the arrangement and can be intervened in the market in accordance with the sequence of determined actions.
  • Figure 1 is a flowchart showing individual process steps of the first embodiment
  • FIG. 2 shows a sketch of a system which can be modeled as a Markov decision problem
  • FIG. 3 shows a sketch of a communication network in which access control is carried out in a switching unit
  • FIG. 4 shows a symbolic sketch of a function approximator with which a method of approximate dynamic programming is implemented
  • FIG. 5 shows a further sketch of a number of function approximators, with which an approximate dynamic programming is implemented
  • Figure 6 is a sketch of a traffic control system, which is controlled according to an embodiment.
  • First embodiment access control and routing.
  • FIG. 3 shows a communication network 300 which has a multiplicity of switching units 301a, 301b, ..., 301i, ... 301n which are connected to one another via connections 302a, 302b, 302j, ... 302m.
  • a first terminal 303 is connected to a first switching unit 301a.
  • a request message 304 is sent from the first terminal 303 to the first switching unit 301a, with which a reservation of a predetermined bandwidth within the communication network 300 for the transmission of data (video data, textual data) is requested.
  • a strategy described below is used to determine whether the requested bandwidth is available in the communication network 300 on a specified, requested connection (step 305).
  • the request is rejected (step 306).
  • a further check step (step 307) checks whether the bandwidth can be reserved.
  • the request is rejected (step 308).
  • the first switching unit 301a selects a route from the first switching unit 301a via further switching units 301i to a second terminal 309 with which the first terminal 303 wants to communicate, and a connection is initialized (step 310).
  • a communication network 300 is assumed which comprises a set of switching units
  • N ⁇ l, K, n, K, N ⁇ (17) and a set of physical connections
  • a physical connection 1 has a capacity of B (l) bandwidth units.
  • the profit c (m) is given by the amount of money that a network operator of the communication network 300 charges a subscriber for a connection of the service type.
  • the profit c (m) clearly reflects different priorities which can be specified by the network operator and which he associates with different services.
  • a physical connection 1 can simultaneously provide any combination of communication connections as long as the bandwidth used for the communication connections does not exceed the total available bandwidth of the physical connection. If a new communication connection of type m is requested between a first node i and a second node j (terminals are also referred to as nodes), the requested communication connection can, as shown above, either be accepted or rejected.
  • a route is selected from a set of predefined routes. This selection is called routing.
  • b (m) bandwidth units are used for each physical connection along the selected route for the connection duration.
  • a route within the communication network 300 can therefore only be selected as part of the access control (call admission control) if the selected route has sufficient bandwidth available.
  • the goal of access control and routing is to maximize long-term gain that is obtained by accepting the requested connections.
  • the technical system communication network 300 is in a state xt at a point in time t, which is described by a list of routes via existing connections, by means of which lists it is shown how many connections and which service type use the respective route at the point in time t.
  • Events w through which a state xt could be converted into a subsequent state xt + i, are the arrival of new connection request messages or the termination of a connection existing in the communication network 300.
  • an action at at a time t based on a connection request is the a decision as to whether to accept or reject a connection request and, if the connection is accepted, to select the route through the communications network 300.
  • the aim is to determine a sequence of actions, i.e. vividly determining the learning of a strategy with actions for a state x in such a way that the following rule is maximized:
  • the goal is to maximize the expected value of total profit G according to the following regulation J:
  • a risk that the total profit G of a special implementation of an access control and a routing strategy falls below the expected value can be set.
  • the TD ( ⁇ ) learning method is used to perform access control and routing.
  • An approximated value of the target value J * (xt) is learned and stored using a function approximator 400 (see FIG. 4) using training data.
  • Training data are previously measured data in the communication network 300 about the behavior of the communication network 300 when incoming connection requests 304 and when messages are terminated. This chronological sequence of states is stored and the functional approximator 400 is trained using this training data in accordance with the learning method described below.
  • a number of connections each of a service type m on a route of the communication network 300 are used as the input variable of the function approximator 400 for each input 401, 402, 403 of the function approximator 400. These are represented symbolically in FIG. 4 by blocks 404, 405, 406.
  • the output variable of the function approximator 400 is an approximated target value J of the target value J.
  • An output variable is the approximated target value J, which is formed in accordance with the following regulation:
  • the input variables of the subfunction approximators 510, 520 which are present at inputs 511, 512, 513 of the first subfunction approximator 510 or at inputs 521, 522 and 523 of the second subfunction approximator 520, are each a number of service types of a type m in each case in a physical connection r, symbolized by blocks 514, 515, 516 for the first partial function approximator and 524, 525 and 526 for the second partial function approximator 520.
  • Partial output variables 530, 531, 532, 533 are supplied to an adding unit 540 and the approximated target variable J is formed as the output variable of the adding unit.
  • Service type m of class m for a connection between two Node i, j is requested arrives at the first connection unit 301a.
  • R (i, j) a list of permitted routes between the nodes i and j is designated and with
  • a list of all possible routes is referred to as a subset of the routes R (i, j) that could implement a possible connection with regard to the available and requested bandwidth.
  • a subsequent state xt k + l ( x t ⁇ ⁇ r ' ⁇ k' r ) is determined, which results from the connection request 304 being accepted and the connection being opened the route r is made available to the requesting first terminal 303.
  • step 102 This is shown in FIG. 1 as a second step (step 102), the state of the system and the respective event being ascertained in a first step (step 101).
  • a route r * to be selected is determined in accordance with the following rule:
  • step 1014 it is checked whether the following requirement is met:
  • connection request 304 is rejected (step 105), otherwise the connection is accepted and "switched through” to the node j along the selected route r * (step 106).
  • weights of the functional approximators 400, 500 are stored for a time t, which are adapted to the training data as part of the TD ( ⁇ ) learning method, so that an optimized access control and an optimized routing is achieved.
  • the weight parameters are adapted to the training data created in the function approximator.
  • a risk parameter K is defined, by means of which a desired risk, which is due to a sequence of actions and states with regard to a predetermined state of the system, can be set, in accordance with the following regulations:
  • a specifiable parameter 0 ⁇ ⁇ 1 and a step size sequence ⁇ k are specified as part of the learning process.
  • the weight values of the weight vector ⁇ are adapted to the training data based on each event ⁇ t k in accordance with the following adaptation rule:
  • d k e ßO tk - 1 ) (g (x tk , ⁇ k , a t] ) + j (x tk . ®kl)) " 5 ( x t k _ ⁇ kl)
  • FIG. 6 shows a street 600 which is used by cars 601, 602, 603, 604, 605 and 606.
  • Conductor loops 610, 611 integrated in the street 600 receive electrical signals in a known manner and feed the electrical signals 615, 616 to a computer 620 via an input / output interface 621.
  • the electrical signals are digitized in a time series and in a memory 623, which is connected via a bus
  • a traffic control system 650 is supplied with control signals 651, from which a predefined speed setting 652 can be set in the traffic control system 650 or also further information from traffic regulations which is transmitted to the drivers 601, 602, 603, 604, via the traffic control system 650. 605 and 606 are shown.
  • the local state variables are measured as described above using the conductor loops 610, 611. These variables (v (t), p (t), q (t)) thus represent a state of the technical system "traffic" at a specific time t.
  • the system is thus a traffic system which is regulated using the traffic control system 650.
  • an extended Q learning method is described as a method of approximate dynamic programming.
  • the state xt is described by a state vector
  • the gain r (xt, at, xt + l) describes the quality of the traffic flow that was measured by the conductor loops 610 and 611 between the times t and t + 1.
  • r denotes (xt, at, xt + l)
  • a value of the optimization function OFQ is determined, with an estimated value of the optimization function OFQ being implemented as a neural network.
  • the adaptation rule known from the Q learning method for calculating the optimization function OFQ is expanded according to this exemplary embodiment by a risk control function K Q, which takes the risk into account.
  • the risk control parameter K is specified according to the strategy from the first exemplary embodiment in the interval of [-1 ⁇ K ⁇ 1] and represents the risk that a user wants to take in the context of the application with regard to the control strategy to be determined.
  • A a speed limit from the action space A of all speed limits that can be displayed by the traffic control system 650,
  • the following adaptation step is carried out to determine the optimum weights w of the neural network:
  • an action at can be chosen at random from the possible actions at. It is not necessary to choose the action at which has led to the largest assessment variable.
  • the weights have to be adapted in such a way that not only is a regulation of the traffic optimized in the expected value of the optimization function is achieved, but also a variance of the regulation results is taken into account.
  • a regulation phase on the real system according to the traffic control system takes place according to the following steps:
  • a value of the optimization function is determined for all possible actions at and the action at with the highest rating is selected in the optimization function.

Abstract

The determination of a sequence of actions ensues in such a way that a sequence of statuses resulting from the sequence of actions is optimized with regard to a predetermined optimization function. The optimization function includes a variable parameter with which a risk can be set. Said risk comprises the resulting sequence of statuses with regard to a predetermined status of the system.

Description

Beschreibungdescription
Verfahren und Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zu- Standsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgtMethod and arrangement for determining a sequence of actions for a system which has states, a state transition between two states taking place on the basis of an action
Die Erfindung betrifft ein Verfahren sowie eine Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt.The invention relates to a method and an arrangement for determining a sequence of actions for a system which has states, a state transition between two states taking place as a result of an action.
Ein solches Verfahren und eine solche Anordnung sind aus [1] bekannt .Such a method and such an arrangement are known from [1].
In [1] ist als Beispiel für ein solches System, welches Zustände aufweist, ein Finanzmarkt beschrieben.A financial market is described in [1] as an example of such a system, which has states.
Das System wird als ein Markov-Entscheidungsproblem beschrie- ben (Markov-Decision-Problem, MDP) . Ein System, welches als Markov-Entscheidungsproblem beschrieben werden kann, ist in seiner Struktur in Fig.2 dargestellt.The system is described as a Markov decision problem (Markov decision problem, MDP). A system which can be described as a Markov decision problem is shown in its structure in FIG.
Zu einem Zeitpunkt t befindet sich das System 201 in einem Zustand x^. Der Zustand x^ ist für einen Beobachter des Systems beobachtbar. Aufgrund einer Aktion a-j- aus einer Menge in dem Zustand Xt möglicher Aktionen, a^ e A(x^) geht das System mit einer gewissen Wahrscheinlichkeit in einen Folgezustand xt+i zu einem Folgezeitpunkt t+1 über.At a time t, the system 201 is in a state x ^. The state x ^ can be observed by an observer of the system. Based on an action a - j - from a set of possible actions in the state Xt, a ^ e A (x ^), the system goes with a certain probability into a subsequent state xt + i at a subsequent time t + 1.
Dies ist durch eine Schleife in Fig.2 symbolisch dargestellt. Ein Beobachter 200 nimmt beobachtbare Größen über den Zustand x-(- wahr 202 und trifft eine Entscheidung über eine Aktion 203, mit der er auf das System 201 einwirkt. Das System 201 unterliegt üblicherweise einer Störung 205.This is symbolically represented by a loop in Fig. 2. An observer 200 takes observable quantities about the state x - (- true 202 and makes a decision about an action 203 with which he acts on the system 201. The system 201 is usually subject to a fault 205.
Ferner erhält -der Beobachter 200 einen Gewinn r 204 rt = r(xt ' af xt + l) e 9* ' ( DFurthermore, the observer 200 receives a profit r 204 r t = r ( x t ' a f x t + l) e 9 *' ( D
der von der Aktion a-t 203 und dem ursprünglichen Zustand x^- zu dem Zeitpunkt t sowie dem Folgezustand x +1 des Systems zu dem Folgezeitpunkt t+1 abhängt.which depends on the action a-t 203 and the original state x ^ - at the time t and the subsequent state x +1 of the system at the subsequent time t + 1.
Der Gewinn r-^ kann einen positiven oder negativen skalaren Wert annehmen, je nachdem, ob die Entscheidung zu einer hin- sichtlich eines vorgebbaren Kriteriums positiven oder negativen 'Systementwicklung führt, in [1] zu einer Kapitalvermehrung oder zu einem Verlust.The profit r- ^ can assume a positive or negative scalar value, depending on whether the decision leads to a system development which is positive or negative with regard to a predefinable criterion, in [1] to an increase in capital or to a loss.
In einem weiteren Zeitschritt entscheidet sich der Beobachter 200 des Systems 201 aufgrund der beobachtbaren Größen 202, 204 des Folgezustandes xt+i für eine neue Aktion a-^+i usw.In a further time step, the observer 200 of the system 201 decides on a new action a - ^ + i etc. based on the observable variables 202, 204 of the subsequent state xt + i.
Eine Folge vonAn episode of
Zustand: xt e XCondition: x te X
Aktion: at e A(xt)Action: a te A ( x t)
Folgezustand: xt + l € XResult: x t + l € X
Gewinn rt = r(xt, at, xt+l) e mGain r t = r (x t , a t , x t + l) em
usw. beschreibt eine Trajektorie des Systems, die durch ein Performanzkriterium, das die einzelnen Gewinne r-^ über die Zeitpunkte t akkumuliert, bewertet wird. Bei einem Markov- Entscheidungsproblem wird vereinfachend angenommen, daß der Zustand x-^ und die Aktion a-t- alle Informationen enthalten, um eine Übergangswahrscheinlichkeit p(xt + l|-) des Systems von demetc. describes a trajectory of the system, which is evaluated by a performance criterion that accumulates the individual gains r- ^ over the times t. In the case of a Markov decision problem, it is assumed in a simplistic manner that the state x- ^ and the action a-t- contain all information in order to reduce a transition probability p (xt + l | -) of the system from that
Zustand x-^ zu dem Folgezustand xt+l zu beschreiben.State x- ^ to describe the subsequent state xt + l.
Formal bedeutet dies:Formally, this means:
p(xt + l|xt'κ > x0' at'κ > aθ) = p(xt + l|xt' at)- (2) Mit p(xt +l|xt' at) wir eine Übergangswahrscheinlichkeit für den Folgezustand xt+l bei gegebenem Zustand x und gegebener Aktion at bezeichnet.p ( x t + l | x t ' κ > x 0' a t ' κ > a θ) = p ( x t + l | x t' a t) - (2) Xt i w r a transition probability to the following state + l designated at x and a given action with a given condition | p (x t 'A t x t + l).
Bei einem Markov-Entscheidungsproblem hängen also zukünftige Zustände des Systems 201 nicht von Zuständen und Aktionen ab, die weiter als einen Zeitschritt in der Vergangenheit liegen.In the case of a Markov decision problem, future states of system 201 do not depend on states and actions that are further than a time step in the past.
Zusammenfassend sind im weiteren die Charakteristika eines Markov-Entscheidungsproblems dargestellt:The characteristics of a Markov decision problem are summarized below:
X Menge der möglichen Zustände des Systems, z.B. X = <Rm,X set of possible states of the system, e.g. X = <R m ,
A(xt) Menge der möglichen Aktionen in dem Zustand r(x-)-, a^-, xt +l) Gewinn mit Erwartungswert R(xt, at) . A ( x t) set of possible actions in the state r (x -) -, a ^ -, xt + l) profit with expected value R (xt, at).
Das Ziel ist es, ausgehend von beobachtbaren Größen, den im weiteren als Trainingsdaten bezeichneten Größen, eine Strate- gie zu ermitteln, d.h. eine Folge von FunktionenThe goal is to determine a strategy based on observable variables, the variables referred to hereinafter as training data, i.e. a series of functions
π = {μo' μi'κ ι I^T}' O) π = { μ o 'μi' κ ι I ^ T} 'O )
welche zu jedem Zeitpunkt t jeden Zustand in eine Handlungs- Vorschrift, d.h. Aktionwhich, at every point in time t, states each condition in an action, i.e. action
μt(xt) = at (4)μ t (x t ) = a t (4)
abbilden.depict.
Eine solche Strategie wird durch eine Optimierungsfunktion bewertet. Die Optimierungsfunktion gibt den Erwartungswert, der über die Zeit akkumulierten Gewinne bei einer gegebenen Strategie π und einem Startzustand xn an.Such a strategy is evaluated by an optimization function. The optimization function specifies the expected value of the gains accumulated over time for a given strategy π and a starting state xn.
Als ein Beispiel eines Verfahrens des approximativen dynamischen Programmierens ist in [1] das sogenannte Q- Lernverfahren beschrieben.As an example of a method of approximate dynamic programming, the so-called Q learning method is described in [1].
Eine optimale Bewertungsfunktion V* (x) ist definiert durchAn optimal evaluation function V * (x) is defined by
V (x) = max Vπ(x) Vx e X (5) πV (x) = max V π (x) Vx e X (5) π
mitWith
Vπ(x) = μt* xt +l)| 0 = x (6) V π (x) = μt * x t + l) | 0 = x (6)
wobei mit γ ein vorgebbarer Verringerungsfaktor bezeichnet wird, der gemäß folgender Vorschrift gebildet wird:where γ denotes a predefinable reduction factor, which is formed in accordance with the following regulation:
γ = (7)γ = (7)
1 + z1 + z
z e 91" (8)ze 91 " (8)
Im Rahmen des Q-Lernverfahrens wird für jedes Paar (Zustand xt, Aktion at) eine Q-Bewertungsfunktion Q (xt, at) gemäß folgender Vorschrift gebildet:As part of the Q learning process, a Q evaluation function Q (xt, at) is formed for each pair (state xt, action at) in accordance with the following rule:
Q*(xt, at = ∑ p(χt + ι|χt'at) • rt +Q * (x t , a t = ∑ p ( χ t + ι | χ t ' a t) • r t +
X :e€XXX: e € XX
(9) Aufgrund jeweils des Tupels (xt, xt +l' at' rt) werden die Q- Werte Q*(x,a) in der k+1 ten Iteration gemäß folgender Lernregel mit einer vorgegebenen Lernrate η^ gemäß folgender Vorschrift adaptiert:(9) Based on the tuple (xt, xt + l ' a t' r t), the Q values Q * (x, a) in the k + 1 iteration are adapted according to the following learning rule with a predetermined learning rate η ^ according to the following regulation:
Qk+l(xt' t) = i1 - ηk)θk(xt' t) + ηjc + Y • (10) Q k + l ( x t 't) = i 1 - ηk) θk ( x t' t) + ηjc + Y • ( 10 )
Üblicherweise werden die sogenannten Q-Werte Q*(x,a) durch jeweils einen Funktionsapproximator, beispielsweise ein neuronales Netz oder auch einen Polynomklassifikator, mit einem Gewichtsvektor w , der Gewichte des Funktionsapproximators enthält, für verschiedene Aktionen a approximiert.Usually, the so-called Q values Q * (x, a) are approximated for different actions a by a function approximator, for example a neural network or also a polynomial classifier, with a weight vector w which contains the weights of the function approximator.
Unter einem Funktionsapproximator ist beispielsweise ein neuronales Netz, ein Polynomklassifikator oder auch eine Kombination eines neuronalen Netzes mit einem Polynomklassifikator zu verstehen.A function approximator is understood to mean, for example, a neural network, a polynomial classifier or also a combination of a neural network with a polynomial classifier.
Es gilt also:So the following applies:
Q*(x, a) * QX; wa) . (11)Q * (x, a) * QX; w a ). (11)
Änderungen der Gewichte in dem Gewichtsvektor w basieren auf einer temporären Differenz dt, die gemäß folgender Vorschrift gebildet wird:Changes in the weights in the weight vector w are based on a temporary difference dt, which is formed according to the following rule:
dt: = r(xt at' xt +l) + Y max +i; wk) - Q(xf' wkfc J (12) d t : = r ( x t a t ' x t + l) + Y max + i ; w k) - Q (xf ' w k fc J ( 12 )
Es ergibt sich für das Q-Lernverfahren unter Verwendung eines neuronalen Netzes folgende Adaptionsvorschrift für die Gewichte des neuronalen Netzes, welche Gewichte in dem Ge- a wichtsvektor w enthalten sind: w at = , at k + 1 = w, + ηk dt VQ xt i w at ( 13 )For the Q learning method using a neural network, the following adaptation rule for the weights of the neural network results, which weights are contained in the weight vector w: w a t = , at k + 1 = w, + η k d t VQ x ti w a t (13)
Unter Verwendung der Trainingsdaten, die als Zeitreihenwerte Informationen über vorangegangene Kursverläufe eines Finanz- marktes beschreiben, wird das neuronale Netz, welches das System Finanzmarkt, wie in [1] beschrieben, darstellt, trainiert .The neural network, which represents the financial market system as described in [1], is trained using the training data, which describe information about previous price developments of a financial market as time series values.
Ein weiteres Verfahren der approximativen dynamischen Pro- grammierung, das sogenannte TD (λ) -Lernverfahren, ist aus [2] bekannt und wird im Zusammenhang mit einem Ausführungsbeispiel näher erläutert.Another approximate dynamic programming method, the so-called TD (λ) learning method, is known from [2] and is explained in more detail in connection with an exemplary embodiment.
Ferner ist aus [3] bekannt, welches Risiko mit einer Strate- gie π und einem Ausgangszustand x verbunden ist. Ein Verfahren zur Risikovermeidung ist ebenfalls aus [3] bekannt.It is also known from [3] which risk is associated with a strategy π and an initial state x. A method for risk avoidance is also known from [3].
Bei dem aus [3] bekannten Verfahren wird folgende Optimierungsfunktion, welche auch als erweiterte Q-Funktion Qπ(xt' at) bezeichnet wird, verwendet:In the method known from [3], the following optimization function, which is also referred to as an extended Q function Q π ( x t ' a t), is used:
maximieremaximize
Qπ(xt' at = r(xt, at, xt +l) + π(xk), xk +ι)Q π ( x t ' a t = r (x t , a t , x t + l) + π (x k ), x k + ι)
(14)(14)
Die erweiterte Q-Funktion Qπ(xt, t) beschreibt den schlechtesten Fall, falls in dem Zustand xt die Aktion at ausgeführt wird und die Strategie π daraufhin verfolgt wird.The extended Q function Q π (xt, t) describes the worst case if the action at is carried out in the state xt and the strategy π is then followed.
Die Optimierungsfunktion Qπ(xf at) für Q*(xt, at ): = max Qπ(xt , at) π eilThe optimization function Q π (x f a t) f or Q * (x t , a t ): = max Q π (x t , a t ) π hurry
( 15 )-(15) -
ist gegeben, durch folgende Vorschrift:is given by the following regulation:
Q*(xt' at) = : i β ) Q * ( x t ' a t) =: i β)
Ein erheblicher Nachteil dieser Vorgehensweise ist darin zu sehen, daß nur der schlechteste Fall im Rahmen der Strategie- findung berücksichtigt wird. Dies spiegelt jedoch die Anforderungen verschiedenster technischer Systeme nur in unzureichendem Ausmaß wieder.A major disadvantage of this approach is the fact that only the worst case is considered in the context of strategy finding. However, this only insufficiently reflects the requirements of a wide variety of technical systems.
Aus [4] ist es ferner bekannt, eine Zugangskontrolle für ein Kommunikationsnetz sowie das Routing innerhalb des Kommunikationsnetzes als ein Problem der dynamischen Programmierung zu formulieren.From [4] it is also known to formulate access control for a communication network and routing within the communication network as a problem of dynamic programming.
Somit liegt der Erfindung das Problem zugrunde, ein Verfahren sowie eine Anordnung zur Ermittlung einer Folge von Aktionen für ein System anzugeben, bei dem bzw. bei der eine erhöhte Flexibilität bei der Ermittlung der Strategie erreicht wird.The invention is therefore based on the problem of specifying a method and an arrangement for determining a sequence of actions for a system in which or in which an increased flexibility in determining the strategy is achieved.
Das Problem wird durch das Verfahren sowie durch die Anord- nung gemäß den Merkmalen der unabhängigen Patentansprüche gelöst.The problem is solved by the method and by the arrangement according to the features of the independent claims.
Bei einem Verfahren zur rechnergestützten Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, erfolgt die Ermittlung der Folge von Aktionen derart, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimierungsfunktion optimiert ist, wobei die Optimierungs- funktion einen variablen Parameter enthält, mit dem ein Risiko, welches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.In a method for the computer-aided determination of a sequence of actions for a system which has states, a state transition between two states taking place as a result of an action, the sequence of actions is determined in such a way that a sequence of states resulting from the sequence of actions takes place a given optimization function is optimized, the optimization function contains a variable parameter with which a risk which has the resulting sequence of states with respect to a predetermined state of the system can be set.
Eine Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, weist einen Prozessor auf, der derart eingerichtet ist, daß die Ermittlung der Folge von Aktionen derart erfolgen kann, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimie- rungsfunktion optimiert ist, wobei die Optimierungsfunktion einen variablen Parameter enthält, mit dem ein Risiko, wel- ches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.An arrangement for determining a sequence of actions for a system which has states, a state transition between two states taking place as a result of an action, has a processor which is set up in such a way that the sequence of actions can be determined in such a way that a a sequence of states resulting from the sequence of actions is optimized with regard to a predetermined optimization function, the optimization function containing a variable parameter with which a risk which the resulting sequence of states has with respect to a predetermined state of the system can be set.
Durch die Erfindung wird es erstmals möglich, in frei vorgebbarer Genauigkeit im Rahmen einer Strategiefindung für eine möglichen Regelung oder Steuerung, allgemein einer Beeinflussung des Systems, ein Verfahren zur Ermittlung einer Folge von Aktionen anzugeben.The invention makes it possible for the first time to specify a method for determining a sequence of actions with freely definable accuracy as part of a strategy for a possible regulation or control, in general influencing the system.
Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.Preferred developments of the invention result from the dependent claims.
Die im weiteren beschriebenen Weiterbildungen gelten sowohl für das Verfahren als auch die Anordnung, wobei bei der Weiterbildung der Anordnung jeweils der Prozessor derart einge- richtet ist, daß die Weiterbildung realisierbar ist.The further developments described below apply to both the method and the arrangement, the processor being set up in such a way that the further development can be implemented in the further development of the arrangement.
In einer bevorzugten Ausgestaltung wird zur Ermittlung ein Verfahren des approximativen dynamischen Programmierens eingesetzt, beispielsweise ein auf dem Q-Lernen basierendes Ver- fahren oder auch ein auf dem TD(λ) -Lernen basierendes Verfahren. Im Rahmen des Q-Lernens wird bevorzugt die Optimierungsfunktion OFQ gemäß folgender Vorschrift gebildet:In a preferred embodiment, a method of approximate dynamic programming is used for the determination, for example a method based on Q learning or also a method based on TD (λ) learning. As part of Q learning, the OFQ optimization function is preferably formed in accordance with the following regulation:
OFQ = Q(X; wa) ,OFQ = Q (X; w a ),
wobei mitbeing with
• x ein Zustand in einem Zustandsraum X,X a state in a state space X,
• a eine Aktion aus einem Aktionsraum A, aa • ww ddiiee zzuurr AAkkttion a gehörigen Gewichte eines Funktions- approximators• a an action from an action space A, aa • ww ddiiee zuzuurr Aktkt a associated weights of a function approximator
bezeichnet wird/werden.is / will be designated.
Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge- a wichte w des Funktionsapproximators folgender Adaptionsschritt ausgeführt:As part of Q learning, the following adaptation step is carried out to determine the optimal weight w of the function approximator:
wt +l = wtt + t KK(dt) VQxt; w^ J w t + l = w t t + t K K (d t ) VQx t ; w ^ J
mit der Abkürzungwith the abbreviation
dt = r(xt> at' xt +l) + Y max Qxt +1' t) - θxt. wStJ a€A d t = r ( x t> a t ' x t + l) + Y max Qx t +1' t) - θxt. w St J a € A
wobei mitbeing with
• x , Xt+l jeweils ein Zustand in dem Zustandsraum X,X, Xt + l each a state in the state space X,
• at eine Aktion aus einem Aktionsraum A,• at an action from an action area A,
• γ ein vorgebbarer Verringerungsfaktor, • wt at der zur Aktion at gehörige Gewichtsvektor vor dem Adaptionsschritt,• γ a predeterminable reduction factor, • w t a t the weight vector belonging to the action at before the adaptation step,
t at+-j_ der zur Aktion at gehörige Gewichtsvektor nach demt a t + - j _ the weight vector belonging to the action at after the
Adaptionsschritt,Adaptation step,
• η (t = 1, ". . . ) eine vorgebbare Schrittweitenfolge, • K € [-1; 1] ein Risikokontrollparameter,• η (t = 1, "...) A predeterminable step size sequence, • K € [-1; 1] a risk control parameter,
κ eine Risikokontrollfunktion κ(ξ) = (l - κsign(ξ))ξ,κ a risk monitoring function κ (ξ) = (l - κsign (ξ)) ξ,
• VQ(-;-) die Ableitung des Funktionsapproximators nach seinen Gewichten, r(xt, t, χt+l) ein Gewinn beim Zustandsübergang von dem Zustand xt nach dem Folgezustand xt+l/• VQ (- ;-) deriving the Funktionsapproximators to its weights, r (xt, t, χ t + l) e i n gain in state transition from the state xt after the subsequent state xt + l /
bezeichnet wird/werden.is / will be designated.
Im Rahmen des TD (λ) -Lernverfahrens wird die Optimierungsfunktion bevorzugt gemäß folgender Vorschrift gebildet:In the context of the TD (λ) learning method, the optimization function is preferably formed in accordance with the following regulation:
wobei mitbeing with
• x ein Zustand in einem Zustandsraum X,X a state in a state space X,
• a eine Aktion aus einem Aktionsraum A,A an action from an action area A,
• w die Gewichte eines Funktionsapproximators• w the weights of a functional approximator
bezeichnet wird/werden.is / will be designated.
Im Rahmen des TD (λ) -Lernens wird zur Ermittlung der optimalen Gewichte w des Funktionsapproximators folgender Adaptions- schritt ausgeführt:In the context of TD (λ) learning, the following adaptation step is carried out to determine the optimal weights w of the functional approximator:
wt +l = wt + ηt ■ κ(dt) zt w t + l = w t + η t ■ κ (d t ) z t
mit den Abkürzungenwith the abbreviations
dt = ψt- at' χt+ι) + YJ(xt+ι; wt) - j(xf" wt), d t = ψt- a t ' χ t + ι) + Y J ( x t + ι ; w t) - j (xf "w t ),
zt = λ γ • zt_ι + Vj(xt; wt),z t = λ γ • z t _ι + Vj (x t ; w t ),
z_ι = 0, wobei mitz_ι = 0, being with
xt, xt+l jeweils ein Zustand in dem Zustandsraum X, at eine Aktion aus einem Aktionsraum A, γ ein vorgebbarer Verringerungsfaktor, wt der Gewichtsvektor vor dem Adaptionsschritt, wt+i der Gewichtsvektor nach dem Adaptionsschritt, ηt (t = 1, ...) eine vorgebbare Schrittweitenfolge, K e [-1; 1] ein Risikokontrollparameter, κ eine Risikokontrollfunktion KK(ξ) = (l - κsign(ξ))ξ, Vj(V) die Ableitung des Funktionsapproximators nach seinen Gewichten, r(xt, at, xt +l) eln Gewinn beim Zustandsübergang von dem Zustand x nach dem Folgezustand xt+l,xt, xt + l each a state in the state space X, at an action from an action space A, γ a predefinable reduction factor, wt the weight vector before the adaptation step, wt + i the weight vector after the adaptation step, ηt (t = 1, .. .) a predefinable sequence of steps, K e [-1; 1] a risk control parameter, κ a risk control function K K (ξ) = (l - κsign (ξ)) ξ, Vj (V) the derivation of the function approximator according to its weights, r (xt, at, xt + l) e l n profit in the state transition from state x to the subsequent state xt + l,
bezeichnet wird/werden.is / will be designated.
Das System ist bevorzugt ein technisches System, von dem vor der Ermittlung Meßgrößen gemessen werden, die bei der Ermitt- lung der Folge von Aktionen verwendet werden.The system is preferably a technical system, from which measured variables are measured before the determination, which are used in determining the sequence of actions.
Unter Verwendung der ermittelten Folge von Aktionen kann das technische System gesteuert oder auch geregelt werden.The technical system can be controlled or regulated using the determined sequence of actions.
Bevorzugt wird das System als ein Markov-Entscheidungsproblem modelliert.The system is preferably modeled as a Markov decision problem.
Das Verfahren oder die Anordnung werden bevorzugt in einem Verkehrsleitsystem oder in einem Kommunikationssystem einge- setzt, wobei in dem Kommunikationssystem die Folge von Aktionen zur Durchführung einer Zugangskontrolle oder eines Routings, also einer Pfadvergabe, in einem Kommunikationsnetz eingesetzt wird.The method or the arrangement are preferably used in a traffic control system or in a communication system, the sequence of actions for carrying out access control or routing, that is to say path assignment, being used in a communication network in the communication system.
Ferner kann das System ein Finanzmarkt sein, welcher durch ein Markov-Entscheidungsproblem modelliert wird und wobei der Verlauf des Finanzmarkts, beispielsweise ein Verlauf eines Aktienindex oder auch ein Kursverlauf eines Devisenmarktes unter Verwendung der Verfahren bzw. der Anordnung analysiert und in den Markt entsprechend der Folge ermittelter Aktionen eingegriffen werden kann.Furthermore, the system can be a financial market which is modeled by a Markov decision problem and where the course of the financial market, for example a course of a Stock index or a price trend of a foreign exchange market can be analyzed using the methods or the arrangement and can be intervened in the market in accordance with the sequence of determined actions.
Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im weiteren näher erläutert.Embodiments of the invention are shown in the figures and are explained in more detail below.
Es zeigenShow it
Figur 1 ein Ablaufdiagramm, in dem einzelne Verfahrensschritte des ersten Ausführungsbeispiels dargestellt sind;Figure 1 is a flowchart showing individual process steps of the first embodiment;
Figur 2 eine Skizze eines Systems, welches als Markov- Entscheidungsproblem modelliert werden kann;FIG. 2 shows a sketch of a system which can be modeled as a Markov decision problem;
Figur 3 eine Skizze eines Kommunikationsnetzes, bei dem in einer Vermittlungseinheit eine Zugangskontrolle durchgeführt wird;FIG. 3 shows a sketch of a communication network in which access control is carried out in a switching unit;
Figur 4 eine symbolische Skizze eines Funktionsapproximators, mit dem ein Verfahren des approximativen dynamischen Programmierens realisiert wird;FIG. 4 shows a symbolic sketch of a function approximator with which a method of approximate dynamic programming is implemented;
Figur 5 eine weitere Skizze von mehreren Funktionsapproxi- matoren, mit dem ein approximatives dynamisches Programmieren implementiert wird;FIG. 5 shows a further sketch of a number of function approximators, with which an approximate dynamic programming is implemented;
Figur 6 eine Skizze eines Verkehrsleitsystems, welches gemäß einem Ausführungsbeispiel geregelt wird. Erstes Ausführungsbeispiel: Zugangskontrolle und Routing.Figure 6 is a sketch of a traffic control system, which is controlled according to an embodiment. First embodiment: access control and routing.
Fig.3 zeigt ein Kommunikationsnetz 300, welches eine Vielzahl von Vermittlungseinheiten 301a, 301b, ..., 301i, ... 301n aufweist, die über Verbindungen 302a, 302b, 302j, ... 302m miteinander verbunden sind.3 shows a communication network 300 which has a multiplicity of switching units 301a, 301b, ..., 301i, ... 301n which are connected to one another via connections 302a, 302b, 302j, ... 302m.
Ferner ist ein erstes Endgerät 303 mit einer ersten Vermittlungseinheit 301a verbunden. Von dem ersten Endgerät 303 wird eine Anforderungsnachricht 304 an die erste Vermittlungseinheit 301a gesendet, mit der eine Reservierung einer vorgegebenen Bandbreite innerhalb des Kommunikationsnetzes 300 zur Übertragung von Daten (Videodaten, textuelle Daten) angefordert wird.Furthermore, a first terminal 303 is connected to a first switching unit 301a. A request message 304 is sent from the first terminal 303 to the first switching unit 301a, with which a reservation of a predetermined bandwidth within the communication network 300 for the transmission of data (video data, textual data) is requested.
In der ersten Vermittlungseinheit 301a wird gemäß einer im weiteren beschriebenen Strategie ermittelt, ob die angeforderte Bandbreite in dem Kommunikationsnetz 300 auf einer angegebenen, angeforderten Verbindung verfügbar ist (Schritt 305) .In the first switching unit 301a, a strategy described below is used to determine whether the requested bandwidth is available in the communication network 300 on a specified, requested connection (step 305).
Ist dies nicht der Fall, so wird die Anforderung zurückgewiesen (Schritt 306) .If this is not the case, the request is rejected (step 306).
Ist ausreichend Bandbreite verfügbar, so wird in einem weiteren Überprüfungsschritt (Schritt 307) überprüft, ob die Bandbreite reserviert werden kann.If sufficient bandwidth is available, a further check step (step 307) checks whether the bandwidth can be reserved.
Ist dies nicht der Fall, so wird die Anforderung zurückgewie- sen (Schritt 308) .If this is not the case, the request is rejected (step 308).
Sonst wird von der ersten Vermittlungseinheit 301a eine Route von der ersten Vermittlungseinheit 301a über weitere Vermittlungseinheiten 301i zu einem zweiten Endgerät 309, mit dem das erste Endgerät 303 kommunizieren will, ausgewählt und es wird eine Verbindung initialisiert (Schritt 310) . Im folgenden wird von einem Kommunikationsnetz 300 ausgegangen, welches einen Satz von VermittlungseinheitenOtherwise, the first switching unit 301a selects a route from the first switching unit 301a via further switching units 301i to a second terminal 309 with which the first terminal 303 wants to communicate, and a connection is initialized (step 310). In the following, a communication network 300 is assumed which comprises a set of switching units
N= {l,K , n,K , N} (17) und einen Satz von physikalischen VerbindungenN = {l, K, n, K, N} (17) and a set of physical connections
L= {l,K ,1,K ,L}, (18)L = {l, K, 1, K, L}, (18)
umfaßt, wobei eine physikalische Verbindung 1 eine Kapazität von B(l) Bandbreiteneinheiten aufweist.comprises, wherein a physical connection 1 has a capacity of B (l) bandwidth units.
Es sind ein SatzIt is a sentence
M= {l, K ,m, K , M} (19)M = {l, K, m, K, M} (19)
verschiedener Diensttypen m verfügbar, wobei ein Diensttyp m durchdifferent service types m available, one service type m by
• einen Bandbreitenbedarf b (m) ,A bandwidth requirement b (m),
• eine durchschnittliche Verbindungsdauer - , und v(m) • einen Gewinn c (m) , den man dann erhält, wenn eine Verbindungsanforderung des entsprechenden Diensttyps m akzeptiert wird, charakterisiert ist.• an average connection duration -, and v (m) • a gain c (m), which is obtained when a connection request of the corresponding service type m is accepted.
Der Gewinn c (m) ist gegeben durch die Menge des Geldes, die ein Netzwerkbetreiber des Kommunikationsnetzes 300 einem Teilnehmer für eine Verbindung des Diensttyps in Rechnung stellt. Anschaulich spiegelt der Gewinn c (m) unterschiedliche, von dem Netzbetreiber vorgebbare Prioritäten wider, die er mit verschiedenen Diensten assoziiert.The profit c (m) is given by the amount of money that a network operator of the communication network 300 charges a subscriber for a connection of the service type. The profit c (m) clearly reflects different priorities which can be specified by the network operator and which he associates with different services.
Eine physikalischen Verbindung 1 kann gleichzeitig eine beliebige Kombination von Kommunikationsverbindungen bereitstellen, solange die genutzte Bandbreite der Kommunikations- Verbindungen nicht die insgesamt verfügbare Bandbreite der physikalischen Verbindung übersteigt. Wird eine neue Kommunikationsverbindung des Typs m angefordert zwischen einem ersten Knoten i und einem zweiten Knoten j (Endgeräte werden auch als Knoten bezeichnet) , so kann die angeforderte Kommunikationsverbindung, wie oben dargestellt, entweder akzeptiert oder zurückgewiesen werden.A physical connection 1 can simultaneously provide any combination of communication connections as long as the bandwidth used for the communication connections does not exceed the total available bandwidth of the physical connection. If a new communication connection of type m is requested between a first node i and a second node j (terminals are also referred to as nodes), the requested communication connection can, as shown above, either be accepted or rejected.
Wird die Kommunikationsverbindungen akzeptiert, so wird eine Route aus einer Menge vorgegebener Routen ausgewählt. Diese Auswahl wird als Routing bezeichnet. Im Rahmen der Kommunikationsverbindung vom Typ m werden b(m) Bandbreiteneinheiten für jede physikalische Verbindung entlang der ausgewählten Route für die Verbindungsdauer benutzt.If the communication connections are accepted, a route is selected from a set of predefined routes. This selection is called routing. In the context of the type m communication connection, b (m) bandwidth units are used for each physical connection along the selected route for the connection duration.
Somit kann im Rahmen der Zugangskontrolle (Call-Admission- Control) eine Route innerhalb des Kommunikationsnetzes 300 nur ausgewählt werden, wenn die ausgewählte Route ausreichend Bandbreite zur Verfügung hat.A route within the communication network 300 can therefore only be selected as part of the access control (call admission control) if the selected route has sufficient bandwidth available.
Ziel der Zugangskontrolle und des Routings ist es, einen langfristigen Gewinn, der durch Akzeptanz der angeforderten Verbindungen erhalten wird, zu maximieren.The goal of access control and routing is to maximize long-term gain that is obtained by accepting the requested connections.
Das technische System Kommunikationsnetz 300 befindet sich zu einem Zeitpunkt t in einem Zustand xt, welcher durch eine Liste von Routen über bestehende Verbindungen beschrieben wird, durch welche Listen angezeigt ist, wie viele Verbindungen welchen Diensttyps zu dem Zeitpunkt t die jeweilige Route verwenden.The technical system communication network 300 is in a state xt at a point in time t, which is described by a list of routes via existing connections, by means of which lists it is shown how many connections and which service type use the respective route at the point in time t.
Ereignisse w, durch die ein Zustand xt in einen Folgezustand xt+i überführt werden könnte, sind das Ankommen neuer Verbin- dungsanforderungsnachrichten oder auch das Beenden einer in dem Kommunikationsnetz 300 bestehenden Verbindung.Events w, through which a state xt could be converted into a subsequent state xt + i, are the arrival of new connection request messages or the termination of a connection existing in the communication network 300.
Eine Aktion at zu einem Zeitpunkt t aufgrund einer Verbindungsanforderung ist in diesem Ausführungsbeispiel die Ent- scheidung, ob eine Verbindungsanforderung akzeptiert oder zurückgewiesen werden soll und, falls die Verbindung akzeptiert wird, die Auswahl der Route durch das Kommunikationsnetz 300.In this exemplary embodiment, an action at at a time t based on a connection request is the a decision as to whether to accept or reject a connection request and, if the connection is accepted, to select the route through the communications network 300.
Ziel ist die Ermittlung einer Folge von Aktionen, d.h. anschaulich das Lernen einer Strategie mit Aktionen zu einem Zustand x zu bestimmen derart, daß folgende Vorschrift maxi- miert wird:The aim is to determine a sequence of actions, i.e. vividly determining the learning of a strategy with actions for a state x in such a way that the following rule is maximized:
• g(xtk'ωk' tk 0) (20) • g (xt k ' ω k' t k 0) (20)
wobei mitbeing with
• E{.} ein Erwartungswert, • tk ein Zeitpunkt, zu dem ein k-tes Ereignis erfolgt,• E {.} An expected value, • t k a point in time at which a kth event occurs,
• fxtb- ' ωk' at ) der Gewinn, der mit dem k-ten Ereignis verbunden ist, und• fxt b - ' ω k' a t) the gain associated with the kth event and
• ß ein Verringerungsfaktor, der einen sofortigen Gewinn wertvoller bewertet als ein Gewinn in ferner in der Zukunft liegenden Zeitpunkten,A reduction factor that values an immediate profit more valuable than a profit in distant future times,
bezeichnet wird.referred to as.
Unterschiedliche Realisierungen einer Strategie führen übli- cherweise zu unterschiedlichen Gesamtgewinnen G:Different implementations of a strategy usually lead to different total profits G:
co G = ∑e-^k • g(xtkk, atk). (21) k=0co G = ∑e- ^ k • g (xt kk , a tk ). (21) k = 0
Ziel ist die Maximierung des Erwartungswerts des Gesamtgewinns G gemäß folgender Vorschrift J: The goal is to maximize the expected value of total profit G according to the following regulation J:
wobei ein Risiko, daß der Gesamtgewinn G einer speziellen Realisierung einer Zugangskontrolle und einer Routing- Strategie unter den Erwartungswert sinkt, einstellbar ist.a risk that the total profit G of a special implementation of an access control and a routing strategy falls below the expected value can be set.
Zur Durchführung der Zugriffskontrolle sowie zum Routing wird das TD (λ) -Lernverfahren eingesetzt.The TD (λ) learning method is used to perform access control and routing.
Es wird folgende Zielfunktion im Rahmen dieses Ausführungsbeispiels eingesetzt:The following target function is used in the context of this exemplary embodiment:
J*(xt) = Eτ e ßτ Ef max g(xtt, a) + J*(xt + l) (23) l ι laeAl J J * ( x t) = E τ e ß τ E f max g (x t , ω t , a) + J * (x t + l) (23) l ι laeAl J
wobei mitbeing with
• A ein Aktionsraum mit einer vorgegebenen Anzahl Aktionen, die in einem Zustand xt jeweils zur Verfügung stehen,A an action space with a predetermined number of actions which are available in a state xt,
• τ ein erster Zeitpunkt, zudem ein erstes Ereignis ω er- folgt,• τ a first point in time, and a first event ω takes place,
• x +l ein Folgezustand des Systems,X + l a subsequent state of the system,
bezeichnet wird.referred to as.
Ein approximierter Wert des Zielwerts J*(xt) wird unter Verwendung eines Funktionsapproximators 400 (vgl. Fig.4) unter Verwendung von Trainingsdaten gelernt und gespeichert.An approximated value of the target value J * (xt) is learned and stored using a function approximator 400 (see FIG. 4) using training data.
Trainingsdaten sind zuvor in dem Kommunikationsnetz 300 ge- messene Daten über das Verhalten des Kommunikationsnetzes 300 bei ankommenden Verbindungsanforderungen 304 sowie bei Beendigung von Nachrichten. Diese zeitliche Folge von Zuständen wird gespeichert und mit diesen Trainingsdaten wird der Funktionsapproximator 400 gemäß dem im weiteren beschriebenen Lernverfahren trainiert. Als Eingangsgröße des Funktionsapproximators 400 dienen für jeden Eingang 401, 402, 403 des Funktionsapproximators 400 jeweils eine Anzahl von Verbindungen jeweils eines Diensttyps m auf einer Route des Kommunikationsnetzes 300. Diese sind in Fig.4 durch Blöcke 404, 405, 406 symbolisch dargestellt.Training data are previously measured data in the communication network 300 about the behavior of the communication network 300 when incoming connection requests 304 and when messages are terminated. This chronological sequence of states is stored and the functional approximator 400 is trained using this training data in accordance with the learning method described below. A number of connections each of a service type m on a route of the communication network 300 are used as the input variable of the function approximator 400 for each input 401, 402, 403 of the function approximator 400. These are represented symbolically in FIG. 4 by blocks 404, 405, 406.
Ausgangsgröße des Funktionsapproximators 400 ist ein approxi- mierter Zielwert J des Zielwerts J .The output variable of the function approximator 400 is an approximated target value J of the target value J.
Eine detailliertere Darstellung des Funktionsapproximators 500, welcher in diesem Fall mehrere Teil-A more detailed illustration of the function approximator 500, which in this case has several partial
Funktionsapproximatoren 510, 520 des Funktionsapproximators 500 aufweist, zeigt Fig.5. Eine Ausgangsgröße ist der approximierte Zielwert J, der gemäß folgender Vorschrift gebildet wird:5 shows functional approximators 510, 520 of the functional approximator 500. An output variable is the approximated target value J, which is formed in accordance with the following regulation:
Die Eingangsgrößen der Teilfunktionsapproximatoren 510, 520, die an Eingängen 511, 512, 513 des ersten Teil- Funktionsapproximators 510 bzw. an Eingängen 521, 522 und 523 des zweiten Teilfunktionsapproximators 520 anliegen, sind wiederum jeweils eine Anzahl von Diensttypen eines Typs m je- weils in einer physikalischen Verbindung r, symbolisiert durch Blöcke 514, 515, 516 für den ersten Teil- Funktionsapproximator und 524, 525 und 526 für den zweiten Teil-Funktionsapproximator 520.The input variables of the subfunction approximators 510, 520, which are present at inputs 511, 512, 513 of the first subfunction approximator 510 or at inputs 521, 522 and 523 of the second subfunction approximator 520, are each a number of service types of a type m in each case in a physical connection r, symbolized by blocks 514, 515, 516 for the first partial function approximator and 524, 525 and 526 for the second partial function approximator 520.
Teilausgangsgrößen 530, 531, 532, 533 werden einer Addiereinheit 540 zugeführt und als Ausgangsgröße der Addiereinheit wird die approximierte Zielgröße J gebildet.Partial output variables 530, 531, 532, 533 are supplied to an adding unit 540 and the approximated target variable J is formed as the output variable of the adding unit.
Angenommen, das Kommunikationsnetz 300 befindet sich in dem Zustand x^, und eine Anforderungsnachricht, mit der einAssume that the communication network 300 is in the state x ^, and a request message with the one
Diensttyp m der Klasse m für eine Verbindung zwischen zwei Knoten i, j angefordert wird, gelangt zu der ersten Verbindungseinheit 301a.Service type m of class m for a connection between two Node i, j is requested arrives at the first connection unit 301a.
Mit R(i, j) wird eine Liste erlaubter Routen zwischen den Knoten i und j bezeichnet und mitWith R (i, j) a list of permitted routes between the nodes i and j is designated and with
R(i, j, xt]c) c R(i, j) (25)R (i, j, x t] c ) c R (i, j) (25)
wird eine Liste aller möglichen Routen als Teilmenge der Rou- ten R(i, j) bezeichnet, die hinsichtlich der verfügbaren und angeforderten Bandbreite eine mögliche Verbindung realisieren könnten.a list of all possible routes is referred to as a subset of the routes R (i, j) that could implement a possible connection with regard to the available and requested bandwidth.
Für jede mögliche Route r, r e Rli, j, x^ ) wird ein Folgezu- stand xtk +l(x<r ' ωk' r) ermittelt, der daraus resultiert, daß die Verbindungsanforderung 304 akzeptiert wird und die Verbindung auf der Route r dem anfordernden ersten Endgerät 303 zur Verfügung gestellt wird.For each possible route r, re Rli, j, x ^), a subsequent state xt k + l ( x<r ' ω k' r ) is determined, which results from the connection request 304 being accepted and the connection being opened the route r is made available to the requesting first terminal 303.
Dies ist in Fig.1 als zweiter Schritt (Schritt 102) dargestellt, wobei in einem ersten Schritt (Schritt 101) jeweils der Zustand des Systems sowie das jeweilige Ereignis festgestellt werden.This is shown in FIG. 1 as a second step (step 102), the state of the system and the respective event being ascertained in a first step (step 101).
Es wird in einem dritten Schritt (Schritt 103) eine auszuwählende Route r* gemäß folgender Vorschrift ermittelt:In a third step (step 103), a route r * to be selected is determined in accordance with the following rule:
r = arg /max \ 5(xtk+l(xt 'ωk, r), ΘtJ. (26) reRI (i,j,xtk)r = arg / max \ 5 ( x t k + l ( x t 'ω k , r), Θ t J. (26) reRI (i, j, x tk )
In einem weiteren Schritt (Schritt 104) wird überprüft, ob folgende Vorschrift erfüllt ist:In a further step (step 104) it is checked whether the following requirement is met:
c(m) + ΘtJ < j(xtkt). (27) Ist dies der Fall, so wird die Verbindungsanforderung 304 zurückgewiesen (Schritt 105) , sonst wird die Verbindung akzeptiert und entlang der ausgewählten Route r* zu dem Knoten j „durchgeschaltet" (Schritt 106) .c (m) + Θ t J < j (x tkt ). (27) If this is the case, the connection request 304 is rejected (step 105), otherwise the connection is accepted and "switched through" to the node j along the selected route r * (step 106).
In einem Parametervektor Θ sind jeweils für einen Zeitpunkt t Gewichte des Funktionsapproximators 400, 500 gespeichert, die im Rahmen des TD (λ) -Lernverfahrens an die Trainingsdaten adaptiert werden, so daß eine optimierte Zugangskontrolle und ein optimiertes Routing erreicht wird.In a parameter vector Θ, weights of the functional approximators 400, 500 are stored for a time t, which are adapted to the training data as part of the TD (λ) learning method, so that an optimized access control and an optimized routing is achieved.
Während der Trainingsphase werden die Gewichtsparameter an die dem Funktionsapproximator angelegten Trainingsdaten angepaßt.During the training phase, the weight parameters are adapted to the training data created in the function approximator.
Es wird ein Risikoparameter K definiert, mit dem ein gewünschtes Risiko, welches durch eine Folge von Aktionen und Zuständen hinsichtlich eines vorgegebenen Zustands des Systems aufweist, einstellbar ist, gemäß folgenden Vorschrif- ten:A risk parameter K is defined, by means of which a desired risk, which is due to a sequence of actions and states with regard to a predetermined state of the system, can be set, in accordance with the following regulations:
-1 < K < 0: risikoreiches Lernen,-1 <K <0: risky learning,
K = 0: hinsichtlich des Risikos ein neutrales Lernen,K = 0: neutral learning regarding the risk,
0 < K < 1: ein risiko-vermeidendes Lernen,0 <K <1: risk-avoiding learning,
K = 1: „Worst-Case"-Lernen.K = 1: "Worst case" learning.
Fernen wird im Rahmen des Lernverfahrens ein vorgebbarer Parameter 0 < λ < 1 und eine Schrittweitenfolge γk vorgegeben.Furthermore, a specifiable parameter 0 <λ <1 and a step size sequence γ k are specified as part of the learning process.
Die Gewichtswerte des Gewichtsvektors Θ werden aufgrund jedes Ereignisses ωtk gemäß folgender Adaptionsvorschrift an die Trainingsdaten angepaßt:The weight values of the weight vector Θ are adapted to the training data based on each event ωt k in accordance with the following adaptation rule:
®k = Θk_ι + rkNκ(dk)zt, (28) wobei®k = Θ k _ι + rkN κ (d k ) z t , (28) in which
dk = e ßO tk-1)(g(xtkk,at] ) + j(xtk. ®k-l)) " 5(xtk_ ©k-l)d k = e ßO tk - 1 ) (g (x tk , ω k , a t] ) + j (x tk . ®kl)) " 5 ( x t k _ © kl)
(29)(29)
zt = λe ^k-l tk-2)Zt_1 + VΘj(xtk_1k_1), (30)z t = λe ^ kl t k-2) Zt _ 1 + V Θ j (x tk _ 1 , Θ k _ 1 ), (30)
undand
Kκ(ξ) = (l - κsign(ξ))ξ. (31)K κ (ξ) = (l - κsign (ξ)) ξ. (31)
Es wird angenommen: Z_]_ = 0.It is assumed: Z _] _ = 0.
Die FunktionThe function
g(xtk' ωk' at ) (32) g ( x t k ' ω k' a t) ( 32 )
bezeichnet den sofortigen Gewinn gemäß folgender Vorschrift:means immediate profit according to the following rule:
c(m) wenn ωtiist eine Diens tan forderung einesc (m) if ωti is a service requirement
Diensttyps m und die Verbindung wird g( t 'ωk, at Service type m and the connection becomes g (t 'ω k , a t
* ) - akzeptiert 0 sonst*) - accepts 0 otherwise
(33)(33)
Es wird also, wie oben beschrieben, eine Folge von Aktionen ermittelt, hinsichtlich einer Verbindungsanforderung, so daß eine Verbindungsanforderung aufgrund einer Aktion entweder zurückgewiesen oder akzeptiert wird. Die Ermittlung erfolgt unter Berücksichtigung einer Optimierungsfunktion, in der das Risiko mittels eines Risikokontrollparameters K e [-1; 1] variabel einstellbar ist. Zweites Ausführungsbeispiel : VerkehrsleitsystemAs described above, a sequence of actions is thus determined with regard to a connection request, so that a connection request based on an action is either rejected or accepted. The determination is made taking into account an optimization function in which the risk is determined by means of a risk control parameter K e [-1; 1] is variably adjustable. Second embodiment: traffic management system
Fig.6 zeigt eine Straße 600, die von Autos 601, 602, 603, 604, 605 und 606 befahren ist.FIG. 6 shows a street 600 which is used by cars 601, 602, 603, 604, 605 and 606.
In die Straße 600 integrierte Leiterschleifen 610, 611 nehmen elektrische Signale in bekannter Weise auf und führen die elektrischen Signale 615, 616, einem Rechner 620 über eine Eingangs-/Ausgangsschnittstelle 621 zu. In einem mit der Ein- gangs-/Ausgangsschnittstelle 621 verbundenen Analog-/Digital- Wandler 622 werden die elektrischen Signale in eine Zeitreihe digitalisiert und in einem Speicher 623, der über einen BusConductor loops 610, 611 integrated in the street 600 receive electrical signals in a known manner and feed the electrical signals 615, 616 to a computer 620 via an input / output interface 621. In an analog / digital converter 622 connected to the input / output interface 621, the electrical signals are digitized in a time series and in a memory 623, which is connected via a bus
624 mit dem Analog-/Digital-Wandler 622 und einem Prozessor624 with the analog / digital converter 622 and a processor
625 verbunden ist, gespeichert. Über die Eingangs- /Ausgangsschnittsstelle 621 werden einem Verkehrsleitsystem 650 Steuerungssignale 651 zugeführt, aus denen in dem Verkehrsleitsystem 650 eine vorgegebene Geschwindigkeitsvorgabe 652 einstellbar ist oder auch weitere Angaben von Verkehrsvorschriften, die über das Verkehrsleitsystem 650 Fahrern der Fahrzeuge 601, 602, 603, 604, 605 und 606 dargestellt werden.625 is connected. Via the input / output interface 621, a traffic control system 650 is supplied with control signals 651, from which a predefined speed setting 652 can be set in the traffic control system 650 or also further information from traffic regulations which is transmitted to the drivers 601, 602, 603, 604, via the traffic control system 650. 605 and 606 are shown.
Zur Verkehrsmodellierung werden in diesem Fall folgende lokale Zustandsgrößen verwendet:In this case, the following local state variables are used for traffic modeling:
• Verkehrsflußgeschwindigkeit v, • Fahrzeugdichte p (p = Anzahl von Fahrzeugen pro Kilome-• traffic flow velocity v, • vehicle density p (p = number of vehicles per kilometer
Fz ter — ) , kmFz ter -), km
FzVehicle
• Verkehrsfluß q (q = Anzahl der Fahrzeuge pro Stunde — , h• Traffic flow q (q = number of vehicles per hour -, h
(q= v * p) ) , und(q = v * p)), and
• jeweils zu einem Zeitpunkt von dem Verkehrsleitsystem 650 angezeigte Geschwindigkeitsbegrenzungen 652.• Speed limits 652 displayed by the traffic control system 650 at a time.
Die lokalen Zustandsgrößen werden wie oben beschrieben unter Verwendung der Leiterschleifen 610, 611 gemessen. Somit stellen diese Größen (v(t), p(t), q(t)) einen Zustand des technischen Systems "Verkehr" zu einem bestimmten Zeitpunkt t dar.The local state variables are measured as described above using the conductor loops 610, 611. These variables (v (t), p (t), q (t)) thus represent a state of the technical system "traffic" at a specific time t.
In diesem Ausführungsbeispiel ist somit das System ein Verkehrssystem, welches unter Verwendung des Verkehrsleitsystems 650 geregelt wird.In this exemplary embodiment, the system is thus a traffic system which is regulated using the traffic control system 650.
Als Verfahren des approximativen dynamischen Programmierens wird in diesem zweiten Ausführungsbeispiel ein erweitertes Q- Lernverfahren beschrieben.In this second exemplary embodiment, an extended Q learning method is described as a method of approximate dynamic programming.
Der Zustand xt wird beschrieben durch einen ZustandsvektorThe state xt is described by a state vector
x(t) = (v(t), p(t), q(t)) . (34)x (t) = (v (t), p (t), q (t)). (34)
Die Aktion at bezeichnet die Geschwindikeitsbegrenzung 652, die zum Zeitpunkt t von dem Verkehrsleitsystem 650 angezeigt wird.The action at denotes the speed limit 652, which is displayed by the traffic control system 650 at time t.
Der Gewinn r(xt, at, xt + l) beschreibt die Güte des Verkehrsflusses, der zwischen den Zeitpunkten t und t+1 von den Leiterschleifen 610 und 611 gemessen wurde. Im Rahmen dieses zweiten Ausführungsbeispiels bezeichnet r(xt, at, xt +l)The gain r (xt, at, xt + l) describes the quality of the traffic flow that was measured by the conductor loops 610 and 611 between the times t and t + 1. In the context of this second exemplary embodiment, r denotes (xt, at, xt + l)
• die mittlere Geschwindigkeit der Fahrzeuge im Zeitintervall [t, t + 1],The average speed of the vehicles in the time interval [t, t + 1],
oderor
• die Anzahl der Fahrzeuge, die im Zeitintervall [t, t + 1] die Leiterschleifen 610 und 611 passiert haben,The number of vehicles which have passed conductor loops 610 and 611 in the time interval [t, t + 1],
oderor
• die Varianz der Fahrzeuggeschwindigkeiten im Zeitintervall [t, t + 1], ~ oder• The variance of the vehicle speeds in the time interval [t, t + 1], ~ or
• eine gewichtete Summe aus den obigen Größen.• a weighted sum of the above sizes.
Für jede mögliche Aktion at, d.h. für jede von dem Verkehrsleitsystem 650 anzeigbare Geschwindigkeitsbegrenzung, wird ein Wert der Optimierungsfunktion OFQ ermittelt, wobei jeweils ein geschätzter Wert der Optimierungsfunktion OFQ als neuronales Netz realisiert wird.For every possible action at, i.e. For each speed limit that can be displayed by the traffic control system 650, a value of the optimization function OFQ is determined, with an estimated value of the optimization function OFQ being implemented as a neural network.
Aus diese Weise ergibt sich eine Menge von Bewertungsgrößen für die unterschiedlichen Aktionen at in dem Systemzustand xt-This results in a set of evaluation variables for the different actions at in the system state x t-
In einer Regelungsphase wird aus den möglichen Aktionen at, d.h. aus der Menge der von dem Verkehrsleitsystem 650 anzeigbaren Geschwindigkeitsbegrenzungen, diejenige Aktion a ausgewählt, für die in dem aktuellen Systemzustand Xt die maxi- male Bewertungsgröße OFQ ermittelt worden ist.In a regulatory phase, the possible actions at, i.e. From the set of speed limits that can be displayed by the traffic control system 650, that action a is selected for which the maximum evaluation variable OFQ has been determined in the current system state Xt.
Die aus dem Q-Lernverfahren bekannte Adaptionsvorschrift zur Berechnung der Optimierungsfunktion OFQ wird gemäß diesem Ausführungsbeispiel um eine Risikokontrollfunktion KQ , die das Risiko berücksichtigt, erweitert.The adaptation rule known from the Q learning method for calculating the optimization function OFQ is expanded according to this exemplary embodiment by a risk control function K Q, which takes the risk into account.
Wiederum wird der Risikokontrollparameter K gemäß der Strategie aus dem ersten Ausführungsbeispiel im Intervall von [-1 < K < 1] vorgegeben und repräsentiert das Risiko, das ein Benutzer im Rahmen der Anwendung hinsichtlich der zu bestimmenden Kontrollstrategie eingehen will.Again, the risk control parameter K is specified according to the strategy from the first exemplary embodiment in the interval of [-1 <K <1] and represents the risk that a user wants to take in the context of the application with regard to the control strategy to be determined.
Gemäß diesem Ausführungsbeispiel wird folgende Bewertungsfunktion OFQ verwendet:According to this exemplary embodiment, the following evaluation function OFQ is used:
OFQ == QQ(Xx;; wwa') , (35) wobei mitOFQ == QQ (Xx ;; ww a '), (35) being with
• x = (v; p; q) ein Zustand des Verkehrssystems,• x = (v; p; q) a state of the traffic system,
• a eine Geschwindigkeitsbegrenzung aus dem Aktionsraum A aller vom Verkehrsleitsystem 650 anzeigbaren Geschwindigkeitsbegrenzungen,A a speed limit from the action space A of all speed limits that can be displayed by the traffic control system 650,
• w die zur Geschwindigkeitsbegrenzung a gehörigen Gewichte des neuronalen Netzes,W the weights of the neural network belonging to the speed limit a,
bezeichnet wird/werden.is / will be designated.
Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge- a wichte w den neuronalen Netzes folgender Adaptionsschritt ausgeführt:As part of Q learning, the following adaptation step is carried out to determine the optimum weights w of the neural network:
wt +l = wtfc + ηt KK(dt) Vθ(xt ; wtfc) (36) w t + l = w t fc + ηt K K (d t ) Vθ (x t ; wt fc ) ( 36 )
mit der Abkürzungwith the abbreviation
dt = r(xt, at, xt+l) + Y max Qxt +ι, wξ - Q^xt, w^ J (37) aeAd t = r (x t , a t , xt + l) + Y max Qx t + ι, wξ - Q ^ xt, w ^ J (37) aeA
wobei mitbeing with
• x , xt+l jeweils ein Zustand des Verkehrssystems gemäß Vorschrift (34),X, xt + l each state of the traffic system according to regulation (34),
• at eine Aktion, d.h. eine von dem Verkehrsleitsystem 650 anzeigbare Geschwindigkeitsbegrenzung,• at an action, i.e. a speed limit that can be displayed by the traffic control system 650,
• γ ein vorgebbarer Verringerungsfaktor, • at der zur Aktion a gehörige Gewichtsvektor vor dem Adaptionsschritt, at• γ a predefinable reduction factor, • a t the weight vector belonging to action a before the adaptation step, a t
• t +l c*er zur Aktion at gehörige Gewichtsvektor nach dem• t + l c * he weight vector belonging to the action at after the
Adaptionsschritt,Adaptation step,
• Ηt (t = 1, _,..) eine vorgebbare Schrittweitenfolge, • K e [-1; 1] ein Risikokontrollparameter,• Ηt (t = 1, _, ..) a predefinable sequence of steps, • K e [-1; 1] a risk control parameter,
κ eine Risikokontrollfunktion NK(ξ) = (l - κsign(ξ))ξ , κ a risk control function N K (ξ) = (l - κsign (ξ)) ξ,
• VQ(-;-) die Ableitung des neuronalen Netzes nach seinen Gewichten, • r(xtr at, xt +l) ein Gewinn beim Zustandsübergang von dem Zustand xt nach dem Folgezustand xt+l^ • VQ (- ;-) the derivation of the neural network according to its weights, • r (xtr at, xt + l) a gain in the state transition from the state xt to the subsequent state xt + l ^
bezeichnet wird/werden.is / will be designated.
Im Rahmen des Lernens kann aus den möglichen Aktionen at eine Aktion at zufällig gewählt werden. Hierbei ist es nicht erforderlich, die Aktion at, die zu der größten Bewertungsgröße geführt hat, zu wählen.In the course of learning, an action at can be chosen at random from the possible actions at. It is not necessary to choose the action at which has led to the largest assessment variable.
Die Adaption der Gewichte hat derart zu erfolgen, daß nicht nur eine im Erwartungswert der Optimierungsfunktion optimierte Regelung des Verkehrs erreicht wird, sondern auch eine Varianz der Regelungsergebnisse berücksichtigt wird.The weights have to be adapted in such a way that not only is a regulation of the traffic optimized in the expected value of the optimization function is achieved, but also a variance of the regulation results is taken into account.
Dies ist insbesondere vorteilhaft, da der Zustandsvektor x(t) das tatsächliche System Verkehr in einigen Aspekten nur unzureichend modelliert und es deshalb zu nicht erwarteten Störungen kommen kann. So hängt die Dynamik des Verkehrs und damit seiner Modellierung von weiteren Faktoren wie beispiels- weise Wetter, Anteil an Lastkraftwagen auf der Straße, einThis is particularly advantageous since the state vector x (t) models the actual traffic system only inadequately in some aspects and therefore unexpected disturbances can occur. The dynamics of traffic and thus its modeling depend on other factors such as the weather and the share of trucks on the road
Anteil von Wohnmobilen, etc. ab, die nicht immer in den Meßgrößen des Zustandsvektors x(t) integriert sind. Zudem ist nicht immer sichergestellt, daß die Verkehrsteilnehmer sofort den neuen Geschwindigkeitsangaben gemäß dem Verkehrsleitsy- stem Folge leisten.Proportion of mobile homes, etc., which are not always integrated in the measured variables of the state vector x (t). In addition, it is not always ensured that the road users immediately follow the new speed information in accordance with the traffic management system.
Eine Regelungsphase an dem realen System gemäß dem Verkehrsleitsystem vollzieht sich gemäß folgenden Schritten:A regulation phase on the real system according to the traffic control system takes place according to the following steps:
l.Das Messen des Zustandes xt zum Zeitpunkt t erfolgt an verschiedenen Stellen des Verkehrssystems Verkehr und ergibt einen Zustandsvektor x(t): = (v(t), p(t), q(t)) . Für alle möglichen Aktionen at wird ein Wert der Optimierungsfunktion ermittelt und es wird diejenige Aktion at mit der höchsten Bewertung in der Optimierungsfunktion ausgewählt. The state xt at time t is measured at various points in the traffic system and results in a state vector x (t): = (v (t), p (t), q (t)). A value of the optimization function is determined for all possible actions at and the action at with the highest rating is selected in the optimization function.
In diesem Dokument sind folgende Veröffentlichungen zitiert:The following publications are cited in this document:
[1] R. Neuneier, Enhancing Q-Learning for Optimal Asset Al- location, Proceedings of the Neural Information Proces- sing Systems, NIPS 1997[1] R. Neuneier, Enhancing Q-Learning for Optimal Asset Allocation, Proceedings of the Neural Information Processing Systems, NIPS 1997
[2] R.S. Sutton, Learning to predict by the method of temporal differences, Machine Learning, 3:9-44, 1988[2] R.S. Sutton, Learning to predict by the method of temporal differences, Machine Learning, 3: 9-44, 1988
[3] M. Heger, Risk and Reinforcement Learning: Concepts and Dynamic Programming, ZKW Bericht Nr. 8/94, Zentrum für Kognitionswissenschaften, Universität Bremen, ISSN 0947- 0204, Dezember 1994[3] M. Heger, Risk and Reinforcement Learning: Concepts and Dynamic Programming, ZKW Report No. 8/94, Center for Cognitive Sciences, University of Bremen, ISSN 0947-0204, December 1994
[4] D.P. Bertsekas, Dynamic Programming and Optimal Control, Athena Scientific, Belmont, MA, 1995 [4] D.P. Bertsekas, Dynamic Programming and Optimal Control, Athena Scientific, Belmont, MA, 1995

Claims

Patentansprüche claims
1. Verfahren zur rechnergestützten Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, bei dem die Ermittlung der Folge von Aktionen derart erfolgt, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimierungsfunkti- on optimiert ist, wobei die Optimierungsfunktion einen variablen Parameter enthält, mit dem ein Risiko, welches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.1. A method for computer-aided determination of a sequence of actions for a system which has states, a state transition between two states taking place as a result of an action in which the sequence of actions is determined in such a way that a sequence of actions resulting from the sequence of actions States is optimized with regard to a predetermined optimization function, the optimization function containing a variable parameter with which a risk which the resulting sequence of states has with respect to a predetermined state of the system can be set.
2. Verfahren nach Anspruch 1, bei dem zur Ermittlung ein Verfahren des approximativen Dynamischen Programmierens eingesetzt wird.2. The method according to claim 1, in which a method of approximate dynamic programming is used for the determination.
3. Verfahren nach Anspruch 2, bei dem das Verfahren des approximativen Dynamischen Programmierens ein auf dem Q-Lernen basierendes Verfahren ist.3. The method according to claim 2, wherein the method of approximate dynamic programming is a method based on Q learning.
4. Verfahren nach Anspruch 3, bei dem die Optimierungsfunktion OFQ im Rahmen des Q-Lernens gemäß folgender Vorschrift gebildet wird:4. The method as claimed in claim 3, in which the optimization function OFQ is formed as part of Q learning in accordance with the following regulation:
OFQ = Q(X; wa) ,OFQ = Q (X; w a ),
wobei mitbeing with
x ein Zustand in einem Zustandsraum X, a eine Aktion aus einem Aktionsraum A, aax a state in a state space X, a an action from an action space A, aa
• ww ddiiee zzuurr AAkkttion a gehörigen Gewichte eines Funktions- approximators• ww ddiiee zuzuAktkt a appropriate weights of a functional approximator
bezeichnet wird/werden, und bei dem die Gewichte des Funktionsapproximators gemäß folgender Vorschrift adaptiert werden: w?+ι = «t* + ηt κκ(dt) Vθ(xt ; w^)is / are referred to, and in which the weights of the functional approximator are adapted according to the following regulation: w + ι = «t * + ηt κ κ (d t ) Vθ (x t ; w ^)
mit der Abkürzungwith the abbreviation
dt = r(xt ' at/ xt + l) + Y ax Q χt + 1' a " Q[ χt' 3t 1 aeA ι dt = r ( x t ' a t / x t + l) + Y ax Q χ t + 1' a " Q [ χ t ' 3t 1 aeA ι
wobei mitbeing with
• x , xt+l jeweils ein Zustand in dem Zustandsraum X,X, xt + l each a state in the state space X,
• at eine Aktion aus einem Aktionsraum A,• at an action from an action area A,
• γ ein vorgebbarer Verringerungsfaktor, a+-• γ a predefinable reduction factor, a + -
• wt der zur Aktion a gehörige Gewichtsvektor vor dem Ad- aptionsschritt, • wtt ++ ddeerr zzuurr AA'ktion at gehörige Gewichtsvektor nach dem Adaptionsschritt,• w t is the weight vector associated with action a before the adaptation step, • w tt ++ ddeerr zzuurr AA ' ktion at associated weight vector after the adaptation step,
• η (t = 1, ...) eine vorgebbare Schrittweitenfolge, • K G [-1; 1] ein Risikokontrollparameter,• η (t = 1, ...) a predeterminable step size sequence, • K G [-1; 1] a risk control parameter,
κ eine Risikokontrollfunktion κ(ξ) = (l - κsign(ξ))ξ, • VQ(-;-) die Ableitung des Funktionsapproximators nach seinen Gewichten, • r(xt, at, xt+l) eln Gewinn beim Zustandsübergang von dem Zustand xt nach dem Folgezustand xt+l/κ a risk control function κ (ξ) = (l - κsign (ξ)) ξ, • VQ (- ;-) the derivation of the function approximator according to its weights, • r (xt, at, xt + l) e l n profit at State transition from the state xt to the subsequent state xt + l /
bezeichnet wird/werden.is / will be designated.
5. Verfahren nach Anspruch 2, bei dem das Verfahren des approximativen Dynamischen Program- mierens ein auf dem TD(λ) -Lernen basierendes Verfahren ist.5. The method of claim 2, wherein the method of approximate dynamic programming is a method based on TD (λ) learning.
6. Verfahren nach Anspruch 5, bei dem die Optimierungsfunktion OFTD im Rahmen des TD(λ)6. The method according to claim 5, wherein the optimization function OFTD in the context of the TD (λ)
Lernens gemäß folgender Vorschrift gebildet wird: Learning is formed according to the following regulation:
wobei mitbeing with
• x ein Zustand in einem Zustandsraum X,X a state in a state space X,
• a eine Aktion aus einem Aktionsraum A,A an action from an action area A,
• w die Gewichte eines Funktionsapproximators• w the weights of a functional approximator
bezeichnet wird/werden, und bei dem die Gewichte des Funkti- onsapproximators gemäß folgender Vorschrift adaptiert werden:is / are referred to, and in which the weights of the functional approximator are adapted according to the following regulation:
wt +l = wt + ηt *κ(dt) • zt w t + l = w t + ηt * κ (d t ) • z t
mit den Abkürzungenwith the abbreviations
dt = ψt, at. xt +l) + YJ(xt +l'' wt) " j(xf" wt).dt = ψ t , a t . xt + l) + Y J ( x t + l '' w t) " j (xf" w t).
zt = λ γ • zt_ι + Vj(xt; wt),z t = λ γ • z t _ι + Vj (x t ; w t ),
z-l = 0 z -l = 0
wobei mitbeing with
xt, xt+l jeweils ein Zustand in dem Zustandsraum X, at eine Aktion aus einem Aktionsraum A, γ ein vorgebbarer Verringerungsfaktor, wt der Gewichtsvektor vor dem Adaptionsschritt, wt+i der Gewichtsvektor nach dem Adaptionsschritt, ηt (t = 1, ...) eine vorgebbare Schrittweitenfolge,xt, xt + l each a state in the state space X, at an action from an action space A, γ a predefinable reduction factor, wt the weight vector before the adaptation step, wt + i the weight vector after the adaptation step, ηt (t = 1, ... ) a definable sequence of steps,
K e [-1; 1] ein Risikokontrollparameter, κ eine Risikokontrollfunktion KK(ξ) = (l - κsign(ξ))ξ ,K e [-1; 1] a risk control parameter, κ a risk control function K K (ξ) = (l - κsign (ξ)) ξ,
Vj(-;-) die Ableitung des Funktionsapproximators nach seinenVj (- ;-) the derivation of the function approximator according to its
Gewichten, r(xt, at, xt+i) ein Gewinn beim Zustandsübergang von dem Zustand x nach dem Folgezustand xt+l bezeichnet wird/werden.Weights, r (xt, at, xt + i) a gain in the state transition from state x to the subsequent state xt + l is / will be designated.
7. Verfahren nach einem der Ansprüche 1 bis 6, bei dem das System ein technisches System ist, von dem vor der Ermittlung Meßgrößen gemessen werden, die bei der Ermittlung der Folge von Aktionen verwendet werden.7. The method according to any one of claims 1 to 6, wherein the system is a technical system from which measured variables are measured before the determination, which are used in determining the sequence of actions.
8. Verfahren nach Anspruch 7, bei dem gemäß der Folge von Aktionen das technische System gesteuert wird.8. The method according to claim 7, wherein the technical system is controlled according to the sequence of actions.
9. Verfahren nach Anspruch 7, bei dem gemäß der Folge von Aktionen das technische System geregelt wird.9. The method according to claim 7, in which the technical system is regulated according to the sequence of actions.
10. Verfahren nach einem der Ansprüche 1 bis 9, bei dem das System als ein Markov-Entscheidungsproblem modelliert wird.10. The method according to any one of claims 1 to 9, wherein the system is modeled as a Markov decision problem.
11. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt in einem Verkehrsleitsystem.11. The method according to any one of claims 1 to 10, used in a traffic control system.
12. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt in einem Kommunikationssystem.12. The method according to any one of claims 1 to 10, used in a communication system.
13. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt zur Durchführung einer Zugangskontrolle in einem Kommunikationsnetz .13. The method according to any one of claims 1 to 10, used to carry out an access control in a communication network.
14. Verfahren nach einem der Ansprüche 1 bis 10, eingesetzt zur Durchführung eines Routings in einem Kommunikationsnetz.14. The method according to any one of claims 1 to 10, used to perform routing in a communication network.
15. Anordnung zur Ermittlung einer Folge von Aktionen für ein System, welches Zustände aufweist, wobei ein Zustandsübergang zwischen zwei Zuständen aufgrund einer Aktion erfolgt, mit einem Prozessor, der derart eingerichtet ist, daß die Ermittlung der Folge von Aktionen derart erfolgen kann, daß eine aus der Folge von Aktionen resultierende Folge von Zuständen hinsichtlich einer vorgegebenen Optimierungsfunktion op- timiert ist, wobei die Optimierungsfunktion einen variablen Parameter enthält, mit dem ein Risiko, welches die resultierende Folge von Zuständen hinsichtlich eines vorgegebenen Zustandes des Systems aufweist, einstellbar ist.15. Arrangement for determining a sequence of actions for a system which has states, a state transition between two states taking place as a result of an action, with a processor which is set up in such a way that the sequence of actions can be determined in such a way that a sequence of states resulting from the sequence of actions is optimized with regard to a predetermined optimization function, the optimization function containing a variable parameter with which a risk which the resulting sequence of states has with regard to a predetermined state of the system can be set.
16. Anordnung nach Anspruch 15, eingesetzt zur Steuerung eines technischen Systems.16. The arrangement according to claim 15, used to control a technical system.
17. Anordnung nach Anspruch 15, eingesetzt zur Regelung eines technischen Systems.17. The arrangement according to claim 15, used for controlling a technical system.
18. Anordnung nach Anspruch 15, eingesetzt in einem Verkehrsleitsystem.18. Arrangement according to claim 15, used in a traffic control system.
19. Anordnung nach Anspruch 15, eingesetzt in einem Kommunikationssystem.19. The arrangement according to claim 15, used in a communication system.
20. Anordnung nach Anspruch 15, eingesetzt zur Durchführung einer Zugangskontrolle in einem Kommunikationsnetz .20. The arrangement according to claim 15, used to carry out an access control in a communication network.
21. Anordnung nach Anspruch 15, eingesetzt zur Durchführung eines Routings in einem Kommunikationsnetz. 21. The arrangement according to claim 15, used for performing routing in a communication network.
EP99953714A 1998-09-23 1999-09-08 Method and configuration for determining a sequence of actions for a system which comprises statuses, whereby a status transition ensues between two statuses as a result of an action Withdrawn EP1116172A2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19843620 1998-09-23
DE19843620 1998-09-23
PCT/DE1999/002846 WO2000017811A2 (en) 1998-09-23 1999-09-08 Method and configuration for determining a sequence of actions for a system which comprises statuses, whereby a status transition ensues between two statuses as a result of an action

Publications (1)

Publication Number Publication Date
EP1116172A2 true EP1116172A2 (en) 2001-07-18

Family

ID=7881965

Family Applications (1)

Application Number Title Priority Date Filing Date
EP99953714A Withdrawn EP1116172A2 (en) 1998-09-23 1999-09-08 Method and configuration for determining a sequence of actions for a system which comprises statuses, whereby a status transition ensues between two statuses as a result of an action

Country Status (4)

Country Link
US (1) US7047224B1 (en)
EP (1) EP1116172A2 (en)
JP (1) JP2002525763A (en)
WO (1) WO2000017811A2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007036003A1 (en) * 2005-09-30 2007-04-05 University Of South Australia Reinforcement learning for resource allocation in a communications system

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720761B2 (en) * 2002-11-18 2010-05-18 Jpmorgan Chase Bank, N. A. Method and system for enhancing credit line management, price management and other discretionary levels setting for financial accounts
US7363378B2 (en) * 2003-07-01 2008-04-22 Microsoft Corporation Transport system for instant messaging
US7930564B2 (en) * 2006-07-31 2011-04-19 Intel Corporation System and method for controlling processor low power states
DE102008007700A1 (en) * 2007-10-31 2009-05-07 Siemens Aktiengesellschaft Method for the computer-aided exploration of states of a technical system
GB201009974D0 (en) 2010-06-15 2010-07-21 Trinity College Dublin Decentralised autonomic system and method for use inan urban traffic control environment
DE102011075337A1 (en) * 2011-05-05 2012-11-08 Siemens Ag Method for controlling system, involves carrying out action to control system by obtaining control information from data of system, where another action or operation is determined according to data to control system
US8615962B1 (en) * 2013-01-14 2013-12-31 GM Global Technology Operations LLC Retention feature for automotive deco trim
CN103217899B (en) * 2013-01-30 2016-05-18 中国科学院自动化研究所 Q function self adaptation dynamic programming method based on data
JPWO2014148564A1 (en) * 2013-03-19 2017-02-16 株式会社イシダ Quantitative weighing system and quantitative weighing method
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US10871585B2 (en) * 2016-08-03 2020-12-22 Harris Corporation System for processing seismic data based upon linear optimization and related methods
CN109870992B (en) * 2019-03-26 2021-09-07 合肥工业大学 CSPS system control method without considering delay waiting
CN110758382B (en) * 2019-10-21 2021-04-20 南京航空航天大学 Surrounding vehicle motion state prediction system and method based on driving intention

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5608843A (en) 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
AU3477397A (en) * 1996-06-04 1998-01-05 Paul J. Werbos 3-brain architecture for an intelligent decision and control system
US6336109B2 (en) * 1997-04-15 2002-01-01 Cerebrus Solutions Limited Method and apparatus for inducing rules from data classifiers

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO0017811A3 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007036003A1 (en) * 2005-09-30 2007-04-05 University Of South Australia Reinforcement learning for resource allocation in a communications system

Also Published As

Publication number Publication date
JP2002525763A (en) 2002-08-13
US7047224B1 (en) 2006-05-16
WO2000017811A3 (en) 2000-12-07
WO2000017811A2 (en) 2000-03-30

Similar Documents

Publication Publication Date Title
WO2000017811A2 (en) Method and configuration for determining a sequence of actions for a system which comprises statuses, whereby a status transition ensues between two statuses as a result of an action
DE69635092T2 (en) Method for access control and routing of virtual connections
DE69932452T2 (en) NEGOTIATING CARRIER SERVICES
DE102017201789B4 (en) Method for operating a motor vehicle and motor vehicle
DE60216534T2 (en) Bandwidth management apparatus and method, associated computer program, and recording medium having stored the program
DE19528563A1 (en) Communication arrangement and method for evaluating at least two multi-part communication connections between two communication partners in a multi-node network
DE4445800C1 (en) Method for forming routing information intended for the subsequent switching of traffic relationships in a communication network
EP1133112B1 (en) Method for balancing the data transfer load of a communication network and corresponding communication network
DE19746904A1 (en) Traffic data evaluation device and associated method for a network with dynamic switching
WO1998027525A1 (en) Process for completing and/or verifying data concerning the state of a road network; traffic information centre
WO1993008666A1 (en) Method for the non-hierarchical routing of traffic in a communications net
DE19809401A1 (en) Agent identification system for network management
EP1593237B1 (en) Method for allocating transmission bandwidth in a packet-oriented communications facility
EP4046150A1 (en) Method and arrangement for predicting switching times of a signal group of a signal system for controlling traffic flow
DE102020202380A1 (en) Procedure for traffic control and traffic control device
WO2021089237A1 (en) Method for transmitting a message in a communications network for communication between a road user and at least one other road user
EP0523276A1 (en) Method and circuit for arranging virtual circuits over a bundle of ATM-connecting lines
EP0699372B1 (en) Mobile radio transmission system with channels allocated using expanded kohonen networks
DE102021107787A1 (en) Dynamic quality of service control for automotive ethernet
WO2020193294A1 (en) Method and device for compatibly controlling a device with a new program code
EP3340413B1 (en) Method, control device and system for determining condition data of an electrical energy supply network
DE60100685T2 (en) Administrative procedure in front of a telecommunications network and device for carrying out the procedure
DE69922889T2 (en) METHOD AND DEVICE FOR CONTROLLING THE BITRATE CONFORMITY OF DATE CELLS
DE102021102855B4 (en) Multi domain orchestrator and method for cross-domain coordination of service-related measures and computer program product and use
DE60015032T2 (en) Distributed real-time operating system

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20010115

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

RBV Designated contracting states (corrected)

Designated state(s): DE FR GB

17Q First examination report despatched

Effective date: 20040608

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Effective date: 20050616