DE19941854A1 - Steuerungsvorrichtung für eine Verkehrsampelkreuzung - Google Patents
Steuerungsvorrichtung für eine VerkehrsampelkreuzungInfo
- Publication number
- DE19941854A1 DE19941854A1 DE1999141854 DE19941854A DE19941854A1 DE 19941854 A1 DE19941854 A1 DE 19941854A1 DE 1999141854 DE1999141854 DE 1999141854 DE 19941854 A DE19941854 A DE 19941854A DE 19941854 A1 DE19941854 A1 DE 19941854A1
- Authority
- DE
- Germany
- Prior art keywords
- characteristic
- traffic
- intersection
- control unit
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Traffic Control Systems (AREA)
Abstract
Eine Steuerungsvorrichtung zur Steuerung einer Verkehrsampelkreuzung (4) hat eine Steuerungseinheit (2), die so ausgebildet ist, daß Prozeßzustände der Verkehrsampelkreuzung (4) teilweise anhand von Sensorsignalen eines Sensors (3) abtastbar sind. Die Steuerungseinheit (2) bestimmt, welche Charakteristik die Verkehrsampelkreuzung (4) momentan aufweist, und betätigt eine Verkehrsampel (3) unter Anwendung von in der Steuerungseinheit (2) gespeicherten Aktuatorparametern. Dabei ist zu je einer Charakteristik wenigstens ein Satz von Aktuatorparametern in der Steuerungseinheit (2) abspeicherbar.
Description
Die Erfindung betrifft eine Steuerungsvorrichtung zur Steue
rung eines durch Aktuatoren beeinflußbaren technischen Pro
zesses, insbesondere einer Verkehrsampelkreuzung. Die Erfin
dung betrifft weiterhin ein Verfahren zur Steuerung eines
solchen technischen Prozesses.
Technische Prozesse zeichnen sich dadurch aus, daß deren Ver
lauf und deren Prozeßzustände durch Aktuatoren beeinflußt
werden können. In der Regelungstechnik wird versucht, techni
sche Prozesse derart durch Aktuatoren zu beeinflussen, daß
deren Verlauf und Prozeßzustände mit einem gewünschten vorge
gebenen Ergebnis übereinstimmen. Hierfür wird zunächst ver
sucht, ein explizites mathematisches Modell des zu steuernden
technischen Prozesses aufzustellen, um mit regelungstechni
schen Maßnahmen einen geeigneten Regler bzw. eine geeignete
Steuerungseinheit auszubilden.
Es können auch Prozesse gesteuert werden, von denen kein ex
plizites mathematisches Modell gegeben ist oder deren Kom
plexität zwar eine Simulation jedoch keine analytische Be
handlung erlaubt. Eine solche Steuerung basiert auf dem Ein
satz von Lernstrategien wie beispielsweise das sogenannte
Reinforcement-Lernen. Dabei liegt eine Voraussetzung für das
erfolgreiche Anwenden einer Lernstrategie zur Steuerung eines
technischen Prozesses darin, daß das Verhalten des Prozesses
oder seiner Simulation bei der Anwendung von ausgewählten
Steuersequenzen beobachtet werden kann, damit aus diesem Ver
halten die Güte der Steuersequenzen abgeleitet werden kann.
Besonders schwierig ist die Steuerung von technischen Prozes
sen, deren Eigenschaften sich mit der Zeit verändern. Dabei
unterscheidet man kontinuierliche Änderungen, die beispiels
weise aufgrund von Verschleiß von Systemkomponenten auftreten
können, von diskreten Änderungen, die beispielsweise durch
den Ausfall von Komponenten des technischen Prozesses auftre
ten. Eine solche Veränderung im Prozeß kann zur Folge haben,
daß die gelernte Strategie zum Steuern des technischen Pro
zesses nicht mehr für eine Steuerung geeignet ist. Wenn Ver
änderungen des technischen Prozesses bei einem Lernvorgang
zur Anpassung der Steuerung auftreten, kann sogar die Konver
genz des Lernverfahrens beeinträchtigt werden.
Im Stand der Technik sind Verfahren zum Lernen von Steue
rungsstrategien bekannt, die Veränderungen des zu steuernden
technisches Prozesses berücksichtigen.
So sind Verfahren bekannt, die Veränderungen des technischen
Prozesses detektieren können und im Falle einer Veränderung
des technischen Prozesses das gelernte Wissen verwerfen und
mittels einer heuristischen Strategie eine neue Steuerung
lernen. In permanent veränderlichen Umgebungen ist der Lern
prozeß praktisch nie beendet. Bei diesem Verfahren ist von
Nachteil, daß eine Steuerstrategie nicht anhand einer Simula
tion des technischen Prozesses gelernt werden kann, so daß
diese anschließend unmittelbar auf einen vorhandenen techni
schen Prozeß anwendbar ist. Außerdem wird durch das permanen
te Verwerfen von Wissen und das anschließend notwendige Neu
lernen die Steuerung nach einer Veränderung des Prozesses oft
erst nach einer großen Verzögerung brauchbar. Ein solches
Verfahren zur Steuerung eines technisches Prozesses ist in "A
Two-Level Approach to Learning in Nonstationary Environ
ments", Lam, W.; Mukhopadhyay, S., Advances in Artificial In
telligence, Proceedings of the Eleventh Biennial Conference
of the Canadian Society for Computational Studies of Intelli
gence, pp. 271-283, beschrieben.
Außerdem sind Verfahren bekannt, die die Dynamik der Verände
rungen eines technischen Prozesses auf versteckte bzw. nicht
beobachtbare Prozeßzustände des Prozesses zurückführen. Diese
Verfahren setzen voraus, daß bekannt ist, welche versteckten
Zustände es gibt. Daher müssen alle Quellen für mögliche Ver
änderungen eines technischen Prozesses bekannt sein. Weiter
hin muß ein explizites mathematisches Modell angegeben werden
können, das die Abbildung des tatsächlichen Prozeßzustandes
auf den von der Steuerung beobachteten Zustand beschreibt.
Dieses Wissen ist in vielen praktischen Anwendungen nicht
verfügbar. So können beispielsweise nicht alle Möglichkeiten
des Ausfalls einer Systemkomponente vorhergesehen werden oder
es ist nicht genau bekannt, welchen Einfluß ein solcher Aus
fall auf die Prozeßzustände des Prozesses hat. Ein Beispiel
für diese Klasse von Steuerungen ist in "Planning and Acting
in Partially Observable Stochastic Domains", Kaelbling, L. P.;
Littman, M. L.; Cassandra, A. R., 1998, Artificial Intelli
gence, Vol. 101, pp. 8-12, beschrieben.
Es ist Aufgabe der Erfindung, eine Steuerungsvorrichtung und
ein Verfahren zur Steuerung eines durch Aktuatoren beeinfluß
baren technischen Prozesses bereitzustellen, die eine opti
mierte Steuerung auch für Prozesse erlauben, die sich über
die Zeit verändern.
Diese Aufgabe wird durch den Gegenstand der unabhängigen An
sprüche gelöst. Vorteilhafte Weiterbildungen ergeben sich aus
den jeweiligen Unteransprüchen.
Ein der Erfindung zugrundeliegender Gedanke besteht darin,
daß die Steuerung eines nicht-stationären Prozesses, der sich
über die Zeit verändert, auf zwei gedanklichen Ebenen beson
ders vorteilhaft erfolgen kann. Dabei wird auf einer oberen
Ebene eine aktuelle Charakteristik des zu steuernden techni
schen Prozesses analysiert. Mit der "Charakteristik" des
technischen Prozesses ist dabei seine Dynamik gemeint, die
sich beispielsweise in den Übergangswahrscheinlichkeiten zwi
schen seinen Prozeßzuständen äußert. Dabei können Übergangs
wahrscheinlichkeiten auf einfache Weise geschätzt werden, und
zwar als Wahrscheinlichkeit der Veränderung eines Signals ei
nes Sensors am Prozeß um wenigstens einen vorbestimmten Wert
innerhalb eines vorbestimmten Zeitraums nach einer vorbe
stimmten Beeinflussung des Prozesses durch einen Aktuator um
einen vorbestimmten Wert. Konkret am Beispiel einer Ampel
steuerung könnte eine Übergangswahrscheinlichkeit daher durch
das Schätzen einer Wahrscheinlichkeit bestimmt werden, daß
innerhalb eines bestimmten Zeitraums nach dem Übergang des
Signalbilds einer Ampel von "rot" nach "grün" die gemessene
Verkehrsdichte an einem Verkehrsdichtesensor um wenigstens
einen bestimmten Wert abnimmt. Zur Schätzung werden dabei zu
mindest eine begrenzte Anzahl von Schaltvorgängen der Ampel
herangezogen.
Auf der unteren Ebene des erfindungsgemäßen Steuerungsverfah
rens wird gemäß einem Grundgedanken der Erfindung bei jeder
festgestellten Charakteristik ein Satz von Aktuatorparametern
zur Betätigung der Aktuatoren angewendet, der sich für den in
der momentanen Charakteristik befindlichen Prozeß als vor
teilhaft erwiesen hat bzw. erweist.
Mit der erfindungsgemäßen Steuerungsvorrichtung lassen sich
besonders nicht-stationäre Prozesse vorteilhaft steuern. Da
bei weist der zu steuernde technische Prozeß die folgenden
Merkmale auf:
- - der Prozeß weist wenigstens zwei Charakteristiken inner halb eines charakteristischen Prozeßraums auf,
- - der Prozeß weist bei wenigstens einer Charakteristik we nigstens zwei unterschiedliche Prozeßzustände auf, zwi schen denen der Prozeß diskret oder kontinuierlich hin- und herwechseln kann.
Dabei können verschiedene Prozeßzustände nicht nur durch den
Prozeß selbst sondern auch durch Aktuatoren und/oder durch
äußere Einflüsse erzeugt werden. Im Fall von durch äußere
Einflüsse erzeugten Prozeßzuständen spricht man auch von im
pliziten oder von versteckten Prozeßzuständen.
Die Steuerungseinheit gemäß der Erfindung weist die folgenden
Merkmale auf:
- - die Steuerungseinheit ist so ausgebildet, daß Prozeßzu stände wenigstens teilweise anhand von Sensorsignalen von Sensoren der Steuerungsvorrichtung abtastbar sind,
- - die Steuerungseinheit ist so ausgebildet, daß bestimmbar ist, welche Charakteristik der Prozeß momentan aufweist,
- - die Steuerungseinheit ist so ausgebildet, daß der Aktuator bzw. die Aktuatoren unter Anwendung von in der Steuerungs einheit gespeicherten Aktuatorparametern betätigbar sind,
- - die Steuerungseinheit ist so ausgebildet, daß zu je einer Charakteristik wenigstens ein Satz von Aktuatorparametern abspeicherbar ist.
Das erfindungsgemäße Verfahren zur Steuerung eines solchen
technischen Prozesses beinhaltet das schleifenartige Wieder
holen der folgenden Schritte a) bis c):
- a) Abtasten des momentanen Prozeßzustandes mit Sensorsignalen wenigstens eines Sensors,
- b) Bestimmen, welche Charakteristik der Prozeß momentan auf weist, anhand der abgetasteten Sensorsignale,
- c) Betätigen der Aktuatoren gemäß dem bestimmten Prozeßzu stand unter Anwendung von Aktuatorparametern gemäß der an hand der abgetasteten Sensorsignale bestimmten Charakteri stik.
Vor dem Wiederholen der Schritte a) bis c) kann der Schritt
des Abspeicherns je wenigstens eines Satzes von Aktuatorpara
metern zu wenigstens einer vorbestimmten Charakteristik vor
gesehen sein.
Das erfindungsgemäße Verfahren kann in einem sehr einfachen
Fall so ausgebildet sein, daß zu den bekannten Charakteristi
ken eines Prozesses jeweils ein Satz von optimierten Aktua
torparametern zur Betätigung der Sensoren in der Steuerungs
einheit abgespeichert werden. Geeignete Aktuatorparameter
können beispielsweise durch Versuche vor dem Einsatz der er
findungsgemäßen Steuerungsvorrichtung ermittelt werden. Für
den Fall des Detektierens einer unbekannten Charakteristik
kann auch wenigstens ein Satz von Aktuatorparametern vorgese
hen sein, die einen Notbetrieb der Steuerungsvorrichtung vor
sehen, wobei zusätzlich die Ausgabe eines Warnsignals vorge
sehen sein kann. Auf das Erkennen eines solchen Warnsignals
kann Bedienpersonal der Steuerungsvorrichtung auf die Notwen
digkeit des Ermittelns und Abspeicherns eines neuen Satzes
von optimierten Aktuatorparametern hingewiesen werden.
In Weiterbildung der Erfindung ist die Steuerungseinheit so
ausgebildet, daß für den Fall, daß eine der Steuerungseinheit
unbekannte Charakteristik vorliegt, anhand der abgetasteten
Prozeßzustände zu der unbekannten Charakteristik wenigstens
ein Satz von neuen optimierten Aktuatorparametern ermittelbar
und abspeicherbar ist. Dabei kann für das Ermitteln gerade
von optimierten Aktuatorparametern auch ein insbesondere heu
ristisches Lernverfahren verwendet werden. Der Einsatz eines
solchen Lernverfahren zum Ermitteln von neuen Aktuatorparame
tern ermöglicht es dabei nicht nur, auf als neu erkannte Cha
rakteristiken des zu steuernden technischen Prozesses zu rea
gieren. Vielmehr können aus Rückmeldungssignalen, die bei der
Anwendung eines Lernverfahrens entstehen, auch Informationen
über die momentan vorliegende Charakteristik des technischen
Prozesses gewonnen werden. Geeignete Rückmeldungssignale wer
den auch als Reinforcement-Signale bezeichnet, die Auskunft
über die Qualität der aktuellen Steuerung geben. Beim Vorlie
gen von solchen Rückmeldungssignalen kann vorteilhafterweise
sogar auf das besondere Feststellen der momentanen Charakte
ristik des zu steuernden Prozesses anhand anderer Informatio
nen verzichtet werden. Dies ist dort vorteilhaft, wo das Be
stimmen von Übergangswahrscheinlichkeiten zwischen Prozeßzu
ständen zu aufwendig ist.
Mit dieser erfindungsgemäßen Ausbildung können Prozesse ge
steuert werden, die sich kontinuierlich oder diskret verän
dern. Außerdem brauchen nur wenige Annahmen über die Dynamik
der Veränderungen des technischen Prozesses gemacht werden,
was besonders vorteilhaft ist, da dieses Wissen in prakti
schen Anwendungen häufig nicht vorhanden ist.
Bei der Erfindung ist dabei besonders vorteilhaft, daß der
jeweilige Lernprozeß zu einem Satz von Aktuatorparametern
auch in permanent veränderlichen Umgebungen praktisch in end
licher Zeit beendet ist. Sobald nämlich an dem zu steuernden
technischen Prozeß eine Änderung der Charakteristik festge
stellt wird, wird zunächst überprüft, ob die neu festgestell
te Charakteristik mit einer Charakteristik übereinstimmt, zu
der bereits ein Satz von optimierten Aktuatorparametern be
steht. Falls dies der Fall ist, werden diese Aktuatorparame
ter eingesetzt und das erfindungsgemäße Lernverfahren wird
ausgehend von den bekannten Aktuatorparametern weiter opti
miert. Auf diese Weise wird sichergestellt, daß bereits ge
lerntes Wissen stets als Basis für weitere Optimierungen zur
Verfügung steht und nicht verworfen wird.
Die Erfindung stellt somit ein Lernen in einer veränderlichen
Umgebung sicher, wobei sich eine Fuzzy-Gewichtung durch pa
ralleles Lernen erreichen läßt.
Gemäß der Erfindung kann beim Detektieren einer unbekannten
Charakteristik als Ausgangspunkt für das Lernverfahren zum
Ermitteln von neuen Aktuatorparametern ein Satz von Aktuator
parametern einer bekannten Charakteristik verwendet werden.
Dabei werden die neuen Aktuatorparameter durch Gewichtung der
Aktuatorparameter der zugrunde gelegten bekannten Charakteri
stik ermittelt, wobei die für die Gewichtungen verwendeten
Gewichte entsprechend der Ähnlichkeit der als neu ermittelten
Charakteristik zu der bekannten Charakteristik gewählt wer
den. Durch diese Vorgehensweise kann auch für unbekannte Cha
rakteristiken des zu steuernden technischen Prozesses eine
heuristisch gute Steuerung angegeben werden, die bereits in
einem Anfangszustand zufriedenstellende Werte liefert. Das
anschließende Verfeinern und Anpassen der Aktuatorparameter
zu der neuen Charakteristik kann dann in schnellerer Zeit er
folgen, als dies bei herkömmlichen Lernverfahren der Fall
ist. Die Schrittweiten für den neuen Lernprozeß können dabei
um so kleiner gewählt werden, je größer die Ähnlichkeit der
als neu erkannten Charakteristik zu der als Ausgangspunkt ge
wählten bekannten Charakteristik ist.
Das erfindungsgemäße Lernverfahren kann somit vorteilhaft un
ter Anwendung von Iterationsschritten durchgeführt werden,
wobei beim Vorliegen einer großen Ähnlichkeit zwischen der
als unbekannt bestimmten Charakteristik und der nahekommenden
Charakteristik das Lernverfahren mit kleineren Iterations
schritten begonnen wird als beim Vorliegen einer kleinen Ähn
lichkeit zwischen der als unbekannt bestimmten Charakteristik
und der nahekommenden Charakteristik.
Dabei ist es auch möglich, als Ausgangspunkt für das Lernver
fahren einen Satz von Aktuatorparametern zu verwenden, der
sich als gewichtetes Mittel der Aktuatorparameter mehrerer
oder aller bekannten Charakteristiken ergibt. Dies entspricht
dem Wählen einer der unbekannten Charakteristik nahekommenden
Charakteristik als Ausgangspunkt für das Lernverfahren. Da
nach ist es jedoch möglich, die Aktuatorparameter über das
Trainieren der hierbei verwendeten Gewichte zu optimieren.
Dadurch können mehrere Sätze von Aktuatorparametern auf ein
mal trainiert werden, wenn die als Basis verwendeten Aktua
torparameter für ähnliche Prozeßcharakteristika selbst opti
miert werden.
Vorteilhafterweise wird ein heuristisches Lernverfahren ange
wendet, bei dem der zu steuernde technische Prozeß zunächst
willkürlich angesteuert und danach die Güte der Steuerung be
obachtet wird. Aus der Beobachtung der Güte der Steuerung
wird anschließend versucht, Schlüsse zu ziehen, wie die
Steuerung verbessert werden kann. Zumindest muß dann die Mög
lichkeit gegeben sein, den realen Prozeß zu Verfügung zu ha
ben. Alternativ dazu kann auch ein gutes Modell bzw. eine Si
mulation des zu steuernden Prozesses ausreichen, wobei das
vorhandene Modell steuerbar sein muß und wobei der Zustand
des Modells beobachtbar sein muß. Hierzu sind in der Regel
Sensoren vorgesehen. Das Ziel eines solchen heuristischen
Lernverfahrens besteht darin, eine zufriedenstellende Steue
rung zu erreichen, ohne daß von vornherein bekannt ist, wel
che Aktion ausgeführt werden muß, um eine solche Steuerung zu
bewerkstelligen. Gemäß der Erfindung kann insbesondere ein
als "Q-Learning" bekanntes Lernverfahren eingesetzt werden,
wobei dann jedem Satz von Aktuatorparametern ein Satz von Q-
Faktoren zugeordnet ist, der Auskunft über die Qualität der
möglichen Steueraktionen in den verschiedenen Zuständen des
Prozesses der jeweiligen Charakteristik gibt.
Falls gemäß der Erfindung beim Ermitteln eines neuen Satzes
von Aktuatorparametern zu einer bisher unbekannten Charakte
ristik von Aktuatorparametern von bekannten Charakteristiken
ausgegangen wird, indem diese gewichtet als Ausgangspunkt für
den neuen Satz von Aktuatorparametern verwendet werden, kön
nen beim späteren Optimieren der neuen Aktuatorparameter vor
teilhafterweise die bekannten, als Ausgangspunkt verwendeten
Aktuatorparameter mit optimiert werden. Der Lernprozeß auf
der unteren Ebene des Erfindungsgemäßen Verfahrens entspricht
somit einem sogenannten "Fuzzy-Lernverfahren". Dies ist be
sonders vorteilhaft, wenn aufgrund einer Detektierung von
kontinuierlichen Veränderungen des zu steuernden technischen
Prozesses partielle Zugehörigkeiten zu mehreren Sätzen von
optimierten Aktuatorparametern ermöglicht werden. Daraus läßt
sich auch eine Aussage über die Stärke der Zugehörigkeit der
aktuellen Charakteristik des technischen Prozesses zu den be
kannten Charakteristiken angeben, die bei einer sogenannten
"Fuzzy-Annäherung" verwendet werden.
Gemäß den erfindungsgemäßen Verfahrensschritten wird in hier
archisch organisierten Ebenen gearbeitet. Auf der oberen Ebe
ne des erfindungsgemäßen Verfahrens wird jeweils die aktuelle
Charakteristik des Prozesses analysiert. Als Rückmeldung vom
Prozeß stehen dabei entweder die Reinforcement-Signale, die
Auskunft über die Güte der aktuellen Steuerung geben,
und/oder das Übergangsverhalten des Prozesses zwischen seinen
möglichen Zuständen zur Verfügung. Die somit bestimmte Cha
rakteristik dient dazu, Veränderungen im Prozeß zu analysie
ren und insbesondere das spätere Zurückkehren des Prozesses
zu einer bereits bekannten Charakteristik zu erkennen. Die
Charakteristika werden gespeichert, wobei jeweils dann ein
neuer Datensatz für Aktuatorparameter eröffnet wird, wenn
sich der technische Prozeß signifikant verändert hat und die
nach der Veränderung analysierten Charakteristika noch nicht
bekannt sind. Eine signifikante Veränderung trifft zunächst
bei jeder erkannten diskreten Veränderung des Prozesses zu.
Die Erfindung läßt sich jedoch auch auf technische Prozesse
anwenden, die einer kontinuierlichen Veränderung unterliegen.
In einer Weiterbildung der Erfindung kann die Steuerungsein
heit so ausgebildet sein, daß die in der Steuerungseinheit
gespeicherten Aktuatorparameter zu mehreren Charakteristiken
zur Verminderung der Erhaltung von redundanten Daten reorga
nisierbar sind. Hierzu können die Datensätze, die die Aktua
torparameter enthalten, hierarchisch gegliedert werden, was
auch mit dem Begriff "hierarchisches Clustering" bezeichnet
wird. Hierdurch wird das in den Datensätzen der Aktuatorpara
meter gespeicherte Wissen komprimiert und somit der für die
Steuerung notwendige Speicherbedarf reduziert. Vornehmlich
werden dabei solche Datensätze zusammengefaßt, die ähnliche
Charakteristiken des technischen Prozesses betreffen. Für
ähnliche Charakteristiken kann es dabei vorkommen, daß nicht
notwendigerweise die gleichen Steuerungsstrategien optimal
sind, so daß für das hierarchische Organisieren wenigstens
eine Nebenbedingung eingeführt werden kann, die die Zusammen
fassung von Datensätzen mit Aktuatorparametern für ähnliche
Charakteristiken verhindert, wenn die in den Datensätzen ge
speicherten Aktuatorparameter verschiedene Steuerstrategien
betreffen.
Die erfindungsgemäße Vorrichtung und das erfindungsgemäße
Verfahren können für das Trainieren einer adaptiven Ampel
steuerung zur Regelung des Verkehrs eines Fahrstraßenstücks
verwendet werden, das durch Fahrzeuge und/oder Fußgänger be
nutzt wird. Dabei können die Aktuatoren als Verkehrsampeln
ausgebildet sein. Die Sensoren können dabei als Verkehrsdich
tesensoren ausgebildet sein, die das Vorhandensein einer An
zahl von Fahrzeugen in einer bestimmten Länge des Fahrstra
ßenstücks anzeigen. Der implizite Drift des zu steuernden
Prozesses, nämlich des Fahrstraßenverkehrs liegt dabei in der
zeitlichen Veränderung von Verkehrsparametern wie der Ver
kehrsmenge oder wie von Abbiegehäufigkeiten. Diskrete Sprünge
des Prozesses werden beispielsweise durch Unfälle oder durch
die Sperrung von Spuren für Baustellen verursacht. Diese Grö
ßen werden der Steuerungseinrichtung für die Verkehrsampeln
nicht explizit zur Verfügung gestellt. Eine Veränderung in
diesen Größen kann mit dem erfindungsgemäßen Verfahren mit
der erfindungsgemäßen Steuerungseinrichtung aufgrund von Ver
änderungen der Charakteristik des Verkehrs trotzdem erkannt
werden, so daß geeignete optimierte Strategien für die jewei
ligen Charakteristiken gelernt werden können.
Im Ergebnis stellt die Erfindung ein Black-Box-Verfahren zur
Verfügung, das das Erlernen einer optimierten Steuerstrategie
für technische Prozesse mit zeitlich veränderten Charakteri
stika ermöglicht. Dabei ermöglicht das erfindungsgemäße Ver
fahren grundsätzlich auch eine verbesserte Steuerung des be
treffenden technischen Prozesses. Hierzu werden Informationen
aus der Beobachtung von Prozeßcharakteristiken verwendet, um
den technischen Prozeß zu klassifizieren und um für jede
klassifizierte Charakteristik getrennt die Eingabe bzw. das
Speichern von optimierten Aktuatorparametern zu ermöglichen.
Hierbei werden die Schrittweiten für das Training der einzel
nen Charakteristiken in jedem Schritt entsprechend der Ähn
lichkeit zu den bereits gespeicherten Aktuatorparametern zu
bekannten Charakteristika gewählt. Durch das Zulassen von
partiellen Zugehörigkeiten zu mehreren Charakteristiken wird
implizit ein Fuzzy-Q-Learning über den Raum der Prozeßcharak
teristiken ausgeführt. Durch das Ableiten von initialem Wis
sen über die optimierte Steuerung des technischen Prozesses
für eine unbekannte Charakteristik wird durch weiteres Trai
ning mit verringerter Schrittweite eine Verfeinerung durchge
führt. Schließlich kann das gelernte Wissen über den Prozeß
durch die Zuordnung zu Charakteristika des Prozesses gezielt
zusammengefaßt werden, wobei die zugehörigen optimierten
Steuerstrategien mit abgespeichert werden. Dabei wird ein Maß
für den durch die Zusammenfassung mehrerer Sätze von Aktua
torparametern entstehenden Informationsverlust entwickelt,
das als Nebenbedingung in ein sogenanntes "hierarchisches
Clustering" eingeführt wird.
Die Erfindung ist in der Zeichnung anhand von Ausführungsbei
spielen veranschaulicht.
Fig. 1 zeigt eine schematische Darstellung einer erfin
dungsgemäßen Steuerungsvorrichtung zur Steuerung
eines technischen Prozesses,
Fig. 2 zeigt eine schematische Darstellung einer ersten
Ampelkreuzung, die durch die Steuerungsvorrichtung
aus Fig. 1 gesteuert wird,
Fig. 3 ein Fuzzy-Partitionierungsdiagramm von Verkehrs
dichtesensoren der Ampelkreuzung aus Fig. 2,
Fig. 4 zeigt ein Pseudocode-Diagramm, daß die Betriebswei
se der in Fig. 1 gezeigten Steuerungsvorrichtung
veranschaulicht,
Fig. 5 zeigt ein Diagramm, das den Lernfortschritt der
Steuerungsvorrichtung aus Fig. 1 in einer ersten
Betriebsweise an der Ampelkreuzung aus Fig. 2 ver
anschaulicht,
Fig. 6 zeigt eine gemittelte Darstellung des Lernfort
schritts des in Fig. 5 gezeigten Diagramms.
Fig. 7 zeigt ein Diagramm, das den Lernfortschritt der
Steuerungsvorrichtung aus Fig. 1 an der Ampelkreu
zung aus Fig. 2 in der ersten Betriebsweise veran
schaulicht, und zwar während des Auftretens eines
Unfalls an der Ampelkreuzung,
Fig. 8 zeigt eine gemittelte Darstellung des Lernfort
schritts aus Fig. 7,
Fig. 9 zeigt ein Diagramm, das den Lernfortschritt der
Steuerungsvorrichtung aus Fig. 1 an der Ampelkreu
zung aus Fig. 2 bei erfindungsgemäßer Betriebswei
se veranschaulicht, und zwar während des Auftretens
eines Unfalls an der Ampelkreuzung,
Fig. 10 zeigt eine gemittelte Darstellung des Lernfor
schritts aus Fig. 9,
Fig. 11 zeigt eine schematische Darstellung einer weiteren
Ampelkreuzung, die durch die Steuerungsvorrichtung
aus Fig. 1 gesteuert wird,
Fig. 12 zeigt ein Diagramm, daß den Lernfortschritt der
Steuerungsvorrichtung aus Fig. 1 bei einer ersten
Betriebsweise veranschaulicht, wenn sich an der Am
pelkreuzung aus Fig. 7 das Abbiegeverhalten än
dert,
Fig. 13 zeigt ein Diagramm, daß den Lernfortschritt der
Steuerungsvorrichtung aus Fig. 1 an der Ampelkreu
zung aus Fig. 7 veranschaulicht, wenn die Steue
rungsvorrichtung erfindungsgemäß betrieben wird,
und zwar bei mehreren Wechseln des Abbiegeverhal
tens an der Ampelkreuzung aus Fig. 7.
Fig. 1 zeigt eine schematische Darstellung einer erfindungs
gemäßen Steuerungsvorrichtung 1.
Die Steuerungsvorrichtung 1 gliedert sich in eine Steuerungs
einheit 2, in einen Aktuator 3, der auf einen technischen
Prozeß 4 einwirkt und diesen beeinflußt, sowie in einen Sen
sor 5, der vom technischen Prozeß 4 Prozeßzustände abtastet
und an die Steuerungseinheit 2 zurückführt.
Die Steuerungseinheit 2 hat eine abschaltbare Datenbank 6 zur
Speicherung von Charakteristiken des technischen Prozesses 4
sowie zur Speicherung von Sätzen von Aktuatorparametern zur
Betätigung des Aktuators 3. Die Sätze von Aktuatorparametern
werden auch als "Q-Faktoren" bezeichnet.
Innerhalb der Steuerungseinheit 2 laufen ein abschaltbarer
Klassifikationsprozeß 7, ein abschaltbarer Lernprozeß 8 und
ein abschaltbarer Gruppierungsprozeß 9 ab, die als hier nicht
näher veranschaulichte EDV-Programme ausgebildet sein können.
Der Klassifikationsprozeß 7 empfängt vom Sensor 5 Rückmel
dungssignale über Prozeßzustände des technischen Prozesses 4.
Der Klassifikationsprozeß 7 überprüft anhand der Rückmeldun
gen des Sensors 5 durch Vergleich mit Datensätzen in der Da
tenbank 6, ob der technische Prozeß 4 momentan einer bekann
ten oder einer unbekannten Charakteristik folgt. Falls der
technische Prozeß 4 einer bekannten Charakteristik folgt,
entnimmt der Klassifikationsprozeß 7 der Datenbank 6 einen
zugehörigen Satz von abgespeicherten Aktuatorparametern und
übermittelt diesen Satz von Aktuatorparametern an den Lern
prozeß 8. Falls der Klassifikationsprozeß 7 das Vorliegen ei
ner noch nicht bekannten Charakteristik ermittelt, wählt der
Klassifikationsprozeß 7 einen oder mehrere ähnliche Charakte
ristika aus der Datenbank 6 aus und übermittelt diese inklu
sive der jeweils dazugehörigen Sätze von Aktuatorparametern
an den Lernprozeß 8. Der Lernprozeß 8 steuert auf der Basis
der vom Klassifikationsprozeß 7 aus der Datenbank 6 ausge
wählten Sätze von Aktuatorparametern den Aktuator 3 an, der
wiederum Einfluß auf den technischen Prozeß 4 nimmt. Der
Lernprozeß 8 führt dabei ein heuristisches Lernverfahren aus,
das den momentan verwendeten Satz von Aktuatorparametern im
Hinblick auf die ihm vom Sensor 5 übermittelten Rückmeldungen
vom technischen Prozeß 4 optimiert.
Der Lernprozeß 8 speichert die als optimiert erkannten Aktua
torparametern zu einer erkannten Charakteristik des techni
schen Prozesses 4 in der Datenbank 6 ab, bevor nach Erkennen
einer neuen Charakteristik des technischen Prozesses 4 mit
dem Lernen und Ausführen auf der Basis von neuen Aktuatorpa
rametern begonnen wird.
Der Gruppierungsprozeß 9 überprüft in regelmäßigen Abständen
die Datenbank 6 auf das Vorhandensein von Datensätzen, die
zur Vermeidung von Redundanz innerhalb der Datenbank 6 zusam
menfaßbar sind.
Fig. 2 zeigt eine schematische Darstellung einer Straßen
kreuzung 10, an der sich eine vertikale Straße 11 mit einer
horizontalen Straße 12 schneidet. Der Schnittpunkt der verti
kalen Straße 11 und der horizontalen Straße 12 bildet dabei
einen Kreuzungsraum 13. Die Straßenkreuzung 10 wird durch die
hier nicht dargestellte Steuerungsvorrichtung 1 aus Fig. 1
gesteuert, wobei der zu steuernde technische Prozeß 4 im vor
liegenden Fall mit der Straßenkreuzung 10 übereinstimmt.
Auf der vertikalen Straße 11 findet nur Verkehr aufgrund von
Fahrzeugen in einer Y-Richtung von oben nach unten statt. Auf
der horizontalen Straße 12 findet nur Verkehr durch Fahrzeuge
in einer X-Richtung von links nach rechts statt.
Weiterhin wird angenommen, daß diejenigen Fahrzeuge, die die
vertikale Straße 11 befahren, nicht in die horizontale Straße
12 abbiegen und umgekehrt. Vielmehr bleiben alle die Straßen
kreuzung 10 passierenden Fahrzeuge auf derjenigen Straße, auf
der sie fahren.
In der Richtung des Verkehrs der vertikalen Straße 11 sind
vor dem Kreuzungsraum 13 ein erster Verkehrsdichtesensor 14
und ein zweiter Verkehrsdichtesensor 15 angeordnet. In der
Richtung des Verkehrs auf der vertikalen Straße 11 nach dem
Kreuzungsraum 13 ist ein dritter Verkehrsdichtesensor 16 an
geordnet.
In der Richtung des Verkehrs auf der horizontalen Straße 12
sind vor dem Kreuzungsraum 13 ein vierter Verkehrsdichtesen
sor 17 und ein fünfter Verkehrsdichtesensor 18 angeordnet. In
der Richtung des Verkehrs auf der horizontalen Straße 12 ist
schließlich nach dem Kreuzungsraum 13 ein sechster Verkehrs
dichtesensor 19 vorgesehen.
Schließlich ist auf der horizontalen Straße 12 im Bereich vor
dem Kreuzungsraum 13 und dem Bereich nach dem fünften Ver
kehrsdichtesensor 18 ein typischer Unfallort 20 durch ein
Symbol "X" eingezeichnet, an dem ein Verkehrsunfall auftreten
kann, der zur Verminderung der Verkehrsleitfähigkeit der ho
rizontalen Straße 12 führt.
Weiterhin sind in dieser Ansicht nicht gezeigte Verkehrsam
peln vorgesehen, die als durch die Steuerungseinheit 2 betä
tigbare Aktuatoren ausgebildet sind. Die Verkehrsampeln kön
nen zwischen den Signalbildern "rot", "rot-gelb", "grün" und
"gelb" hin- und herschalten. Die Verkehrsampeln sind so ange
ordnet, daß der auf der vertikalen Straße 11 bzw. auf der ho
rizontalen Straße 12 ablaufende Straßenverkehr die Verkehrs
ampeln wahrnehmen kann.
Die Verkehrsdichtesensoren 14 bis 19 liefern jeweils ein Sen
sorsignal ρ als Verkehrsdichten, wobei es Zustände innerhalb
eines Intervalls [0; ρmax] einnehmen kann. Dabei mißt der je
weilige Verkehrsdichtesensor 14 bis 19 die räumliche Dichte
innerhalb einer vorgegebenen Meßstrecke, die auch in der Ein
heit "Kraftfahrzeuge pro Meter" angebbar ist.
Fig. 3 zeigt ein Diagramm, das die Diskretisierung der Si
gnale der Verkehrsdichtesensoren 14 bis 19 veranschaulicht.
Eine solche Diskretisierung wird zur Anwendung bei heuristi
schen Lernverfahren gebraucht, die insbesondere mit digitalen
Rechnern durchgeführt werden.
Auf der horizontalen Achse ist die normierte Verkehrsdichte
ρ/ρmax angegeben, die der betreffende Verkehrsdichtesensor
mißt. Die normierte bzw. relative Verkehrsdichte ρ/ρmax bewegt
sich dabei im Intervall [0; 1]. In Richtung der vertikalen
Achse sind insgesamt fünf Ausgabekurven von normierten Aus
gangswerten angegeben, die eine "Fuzzy-Partitionierung" bil
den, aus der sich die Rückmeldungen an den Lernprozeß 8 erge
ben.
Dabei gibt es eine erste Ausgabekurve vs, die für relative
Verkehrsdichten ρ/ρmax im Intervall [0; 0,1] einen konstanten
Wert von "1" liefert. Für relative Verkehrsdichten ρ/ρmax im
Intervall [0,1; 0,2] liefert die Ausgabekurve vs einen Ausga
bewert im Intervall [1; 0]. Für relative Verkehrsdichten
ρ/ρmax größer als 0,2 liefert die Ausgabekurve vs einen kon
stanten Wert "0". Die Ausgabekurve vs steht für sehr geringe
relative Verkehrsdichten "very small".
Die in dem Diagramm von Fig. 3 gezeigte Ausgabekurve s lie
fert für relative Verkehrsdichten ρ/ρmax im Intervall [0; 0,1]
einen konstanten Ausgabewert von "0". Für relative Verkehrs
dichten ρ/ρmax im Intervall [0,1; 0,2] liefert die Ausgabekur
ve s Ausgabewerte im Intervall [0; 1]. Für relative Verkehrs
dichten ρ/ρmax im Intervall [0,2; 0,3] liefert die Ausgabekur
ve s Ausgabewerte im Intervall [1; 0]. Für relative Verkehrs
dichten ρ/ρmax größer als 0,3 liefert die Ausgabekurve s einen
Ausgabewert von konstant "0". Die Ausgabekurve s steht für
geringe relative Verkehrsdichten "small".
Die in dem Diagramm von Fig. 3 gezeigte Ausgabekurve m lie
fert für relative Verkehrsdichten ρ/ρmax im Intervall [0; 0,2]
einen konstanten Ausgabewert von "0". Für relative Verkehrs
dichten im Intervall [0,2; 0,3] liefert die Ausgabekurve m
Ausgabewerte im Intervall [0; 1]. Für relative Verkehrsdich
ten ρ/ρmax im Intervall [0,3; 0,4] liefert die Ausgabekurve m
Ausgabewerte im Intervall [1; 0]. Für relative Verkehrsdich
ten ρ/ρmax größer als 0,4 liefert die Ausgabekurve s einen
Ausgabewert von konstant "0". Die Ausgabekurve m steht für
mittlere relative Verkehrsdichten "medium".
Die in dem Diagramm von Fig. 3 gezeigte Ausgabekurve h lie
fert für relative Verkehrsdichten ρ/ρmax im Intervall [0; 0,3]
einen konstanten Ausgabewert von "0". Für relative Verkehrs
dichten ρ/ρmax im Intervall [0,3; 0,4] liefert die Ausgabekur
ve h Ausgabewerte im Intervall [0; 1]. Für relative Verkehrs
dichten ρ/ρmax im Intervall [0, 4; 0, 5] liefert die Ausgabekur
ve h Ausgabewerte im Intervall [1; 0]. Für relative Verkehrs
dichten ρ/ρmax größer als 0,5 liefert die Ausgabekurve s einen
Ausgabewert von konstant "0". Die Ausgabekurve h steht für
hohe relative Verkehrsdichten "high".
Schließlich gibt es eine Ausgabekurve vh, die für relative
Verkehrsdichten ρ/ρmax im Intervall [0; 0,4] einen konstanten
Wert von "0" liefert. Für relative Verkehrsdichten ρ/ρmax im
Intervall [0,4; 0,5] steigt der Wert von "0" auf "1" an. Für
relative Verkehrsdichten ρ/ρmax größer als 0,5 liefert die
Ausgabekurve vh einen konstanten Wert "1". Die Ausgabekurve
vh steht für sehr große relative Verkehrsdichten "very high".
Im nachfolgenden wird beschrieben, wie die in Fig. 2 gezeig
te Straßenkreuzung 10 mit Hilfe der Steuerungsvorrichtung 1
auf den auftretenden Straßenverkehr hin angepaßt und opti
miert wird. Hierzu wird im Lernprozeß 8 ein sogenannter CCR-
Algorithmus angewendet.
Für das durch den CCR-Algorithmus ("CCR" = "Characterizing
and Clustering of Reinforcement Signals") zu lösende Optimie
rungsproblem wird angenommen, daß die Straßenkreuzung 10, an
der eine Steuerung der Verkehrsampeln durchgeführt werden
soll, fest vorgegeben ist. Die Verkehrsnachfrage sei in Form
einer Menge von Verkehrsströmen auf der vertikalen Straße 11
und auf der horizontalen Straße 12 vorgegeben, die jeweils
durch das Verkehrsaufkommen in Form der Anzahl der fahrenden
Fahrzeuge und deren zeitliche Verteilung gegeben ist. Weiter
hin sei für die Straßenkreuzung 10 eine Menge zulässiger Si
gnalbilder der Verkehrsampeln gegeben, wobei eine Menge von
zeitlichen Nebenbedingungen an die zulässigen Signalbilder
der Verkehrsampeln existiert. Zeitliche Nebenbedingungen sind
zum Beispiel durch die Bedingungen an die Reihenfolge der zu
lässigen Signalbilder der Verkehrsampeln vorgegeben. So muß
beispielsweise auf ein Signal "rot" ein Signal "rot-gelb"
folgen. Weiterhin sind Einschränkungen bezüglich der Dauer
der jeweiligen Signalbilder gegeben. Zwischen dem Umschalten
zwischen zwei Signalbildern der Verkehrsampeln sollen vorbe
stimmte Minimalzeiten vergehen. Außerdem darf weder die ver
tikale Straße 11 noch die horizontale Straße 12 beliebig lan
ge gesperrt werden. Schließlich ist zur Beschreibung der
Straßenkreuzung 10 eine endliche Anzahl äquidistanter Zeit
punkte vorgegeben, zu denen eine Entscheidung über die je
weils an den Verkehrsampeln anzuzeigenden Signalbildern zu
treffen ist. Dadurch wird das Optimierungsproblem zeitlich
diskretisiert.
Bei dem Problem der Optimierung der Straßenkreuzung 10 han
delt es sich um ein Problem, bei dem die nacheinander zu
treffenden Entscheidungen über die anzuzeigenden Signalbilder
der Verkehrsampeln voneinander abhängeln. So sind die voll
ständig beschriebenen zeitlichen Nebenbedingungen zu berück
sichtigen. Darüber hinaus können ungünstige Entscheidungen zu
einem früheren Zeitpunkt einen starken Einfluß auf die später
erreichbare Störungsqualität des durch die Straßenkreuzung 10
dargestellten technischen Prozesses haben. Werden zum Bei
spiel viele Fahrzeuge so in den Kreuzungspunkt von vertikaler
Straße 11 und horizontaler Straße 12 eingelassen, daß sie
gleichzeitig im Kreuzungsraum 13 ankommen, kann dort zu einem
späteren Zeitpunkt ein Aufstauen der Fahrzeuge auch bei einer
optimalen Steuerung der Verkehrsampeln nicht mehr verhindert
werden.
Das Problem der optimierten Steuerung der Straßenkreuzung 10
ist aufgrund seiner hohen Dimensionalität schwierig zu lösen.
Weiterhin kann eine größere Stadt nicht als ein einziger
technischer Prozeß sondern nur als eine Menge von technischen
Prozessen, die miteinander ein Gesamtsystem bilden, beschrie
ben werden. In diesem System hängen die Steuerungsentschei
dungen der einzelnen Straßenkreuzungen voneinander ab. In ei
nem solchen Fall wird zur Optimierung vorteilhafterweise ein
hierarchischer Ansatz genutzt. In den folgenden Ausführungen
wird speziell das Modell und die Optimierung der Steuerung
der Straßenkreuzung 10 aus Fig. 2 betrachtet. Die Strategie
zur optimierten Steuerung der Straßenkreuzung 10 wird dabei
besonders vorteilhaft durch sogenanntes Reinforcement-Lernen
trainiert. Eine direkte Ableitung eines mathematischen Mo
dells für den Verkehrsfluß im Bereich der Straßenkreuzung 10,
insbesondere der Übergangswahrscheinlichkeiten zwischen ein
zelnen Prozeßzuständen und der Rückmeldungen aus der Steue
rung der Straßenkreuzung 10, gestaltet sich nämlich schwie
rig.
Der Zustand der Straßenkreuzung 10 wird im wesentlichen durch
die Signale der Verkehrsdichtesensoren, durch das momentan
aktive Signalbild der Verkehrsampeln und durch die Zeitdauer
bestimmt, während der an der Straßenkreuzung 10 bereits das
momentane Signalbild der Verkehrsampeln gezeigt wird.
Die Güte der Steuerung der Straßenkreuzung 10, die als Rück
meldung an den im Lernprozeß 8 verwendeten Lernalgorithmus
verwendet wird, wird als Differenz derjenigen Anzahl der
Fahrzeuge, die die Straßenkreuzung 10 bis zum nächsten Ent
scheidungszeitpunkt passieren können, und derjenigen Anzahl
von Fahrzeugen gebildet, die vor der Straßenkreuzung 10 war
ten. Dementsprechend kann auch ein negatives Gütesignal ent
stehen, wenn die Anzahl der vor der Straßenkreuzung 10 war
tenden Fahrzeuge größer ist als diejenige Anzahl der Fahrzeu
ge, die die Kreuzung durchfahren.
Ein Ziel der erfindungsgemäßen Steuerungsvorrichtung und des
darin angewendeten Verfahrens besteht darin, für die Straßen
kreuzung 10 eine Steuerung zu finden, bei der die Summe der
Rückmeldungen über die Zeit maximiert wird, so daß eine maxi
male Anzahl von Fahrzeugen die Straßenkreuzung 10 passieren
kann.
Fig. 4 zeigt einen Pseudocode, der den zur Steuerung der
Steuerungsvorrichtung 1 verwendeten Algorithmus veranschau
licht.
Die in dem Algorithmus verwendeten Variablen und Begriffe
werden nachfolgend erläutert.
- - Obere Indizes e: Während des Trainings werden für jede Charakteristik, die am zu steuernden Prozeß beobachtet wird, eigene Datenstrukturen Qe(i, u), i ∈ Z, u ∈ U(i) und Re(i, u), i ∈ Z, u ∈ U(i) in der Datenbank G angelegt. Die einzelnen Datenstrukturen werden durch den oberen In dex e unterschieden.
- - Untere Indizes k: Iterationszähler
- - ε: Menge der Charakteristiken ε, die am zu steuernden Pro zeß bereits beobachtet wurden.
- - ik: Beobachteter Prozeßzustand des Prozesses in Iteration k.
- - uk: Ausgeführte Steuer-Aktion in Iteration k.
- - Z: Menge der Prozeßzustände, die am Prozeß beobachtet werden können.
- - U(i): Menge der im Zustand i ausführbaren Steuer- Aktionen.
- - g(ik, uk, ik+1): Beobachtete Güte des Prozesses in Iteration k (Reinforcement Signal). Die Güte kann vom Prozeßzustand und der Aktion in Iteration k und dem resultierenden Fol geprozeßzustand abhängen.
- - Q-Values Qe: Qe(i, u) gibt die erwartete Summe der zukünf tigen Rückmeldungen über die Güte des zu steuernden Pro zesses an, wenn im Zustand i die Aktion u ausgeführt wird, und die Steuerung anschließend optimiert ist. Diese Q-Values werden während des Lernvorgangs trainiert. Aus den Q-Values kann die optimale Steuerung abgeleitet wer den, indem im Zustand i diejenige Aktion u ausgeführt wird, für die Qe(i, u) maximal wird. Q-Values werden im Q- Learning verwendet.
- - R e|k: R e|k (i, u) gibt die erwartete Güte der Ausführung von Aktion u im Zustand i an, wenn sich der Prozeß in der Charakteristik e befindet. Diese Werte werden während des Trainings in der oberen Ebene gelernt und ermöglichen, Veränderungen des Prozesses zu erkennen. Wenn Veränderun gen des Prozesses nicht im Verlauf der Güte der Steuerung sichtbar werden, können auch Übergangswahrscheinlichkei ten zwischen den einzelnen Zuständen gelernt und zur Er kennung von Veränderungen genutzt werden.
- - d e|k: Distanz der Charakteristik, die für den Datensatz e gelernt wurde zur Charakteristik des zu trainierenden Prozesses in Iteration k.
- - µ µ|k: Zugehörigkeit des Prozesses in Iteration k zur ge lernten Charakteristik e. Die Zugehörigkeit nimmt mit zu nehmender Distanz d e|k ab.
Der in Fig. 4 dargestellte Pseudocode weist insgesamt sieben
Blöcke auf, die nachfolgend erläutert werden.
- 1. Initialisierung (Zeilen 1.-7.): Anfänglich existiert nur ein einziger Datensatz Qe in der unteren bzw. Re in der oberen Ebene. In der oberen Ebene werden somit am Anfang die Charakteristika des Prozesses in den ersten Iterati onen gelernt. Wenn sich die Charakteristika des Prozesses später verändern, werden dynamisch weitere Datensätze an gelegt. Der initiale Prozeßzustand i0 wird bestimmt.
- 2. Exploration (Zeilen 11.-12.): Die Aktionen uk ∈ U(ik) kön nen während des Trainings zufällig ausgewählt werden. Der Folgezustand ik+1 des Prozesses und die Güte der Steuerung g(ik, uk, ik+1) können anschließend beobachtet werden.
- 3. Einordnung des Prozesses (Zeilen 14.-17.): Die Ähnlich
keit der aktuellen Charakteristik des Prozesses zu den
bereits gelernten kann anhand der für die einzelnen Cha
rakteristiken trainierten erwarteten Güten R e|k bestimmt
werden, indem der Abstand der beobachteten Güten zu die
sen bestimmt wird:
Aus diesen Distanzen können folgendermaßen Zugehörigkei ten abgeleitet werden:
so daß die Zugehörigkeit mit zunehmender Distanz abnimmt und die Summe aller Zugehörigkeiten Eins ist. Die Wahl des Fuzzyfier m hängt dabei von der Problemstellung ab: Verändert sich die Umgebung kontinuierlich, so daß zu je dem Zeitpunkt Zugehörigkeiten zu mehreren Umgebungen mög lich sind, können die Zugehörigkeiten echt fuzzy gewählt werden (z. B. m = 2), geht man dagegen von einer diskreten Änderung der Umgebung aus, ist eine scharfe Trennung der Umgebungen sinnvoll (m → 1). - 4. Neue Charakteristik (Zeilen 19.-22.): Wenn die aktuelle Charakteristik des Prozesses keine Ähnlichkeit zu einer der gelernten Charakteristiken aufweist (alle Distanzen d e|k größer als ein Schwellwert), wird ein neuer Datensatz für diese neue Charakteristik e' angelegt.
- 5. Speicherung der Charakteristika des Prozesses: Die erwar
teten Güten Re(ik, uk) werden für alle e ∈ ε entsprechend
der neuen beobachteten Güte g(ik, uk, ik+1) adaptiert:
Die Schrittweite
der Adaption wird dabei von der Zugehörigkeit µ e|k+1 der aktuellen Charakteristik des Prozesses zu den bereits gelernten Charakteristiken Re und der Anzahl τ ε|k,ik,uk bereits zuvor ausgeführter Adaptionen auf den Feldern Re(ik, uk) bestimmt. Da einerseits die Zu gehörigkeiten µe von den erwarteten Güten Re abhängen, an dererseits aber die Re in Abhängigkeit der Zugehörigkeiten bestimmt werden, muß für die Konvergenz des gesamten Ver fahrens vorausgesetzt werden, daß sich die Charakteristik des Prozesses so langsam ändert, daß zwischen der Ände rung die Re gelernt werden können. Diese Forderung ist sinnvoll, da ein beliebig schnell veränderlicher Prozeß prinzipiell nicht sinnvoll gesteuert werden kann. - 6. Q-Learning: Hierfür wird ein Reinforcement-Lernverfahren
eingesetzt. Hier wird jedoch die Schrittweite der Adapti
on der Q-Values Qe zusätzlich durch die Zugehörigkeiten µ e|k
bestimmt, so daß vorzugsweise nur ein Training auf denje
nigen Q-Values ausgeführt wird, zu denen die aktuelle
Charakteristik des Prozesses paßt. Die Adaption der Q-
Values im Q-Learning wird folgendermaßen ausgeführt:
wenn Steueraktion u im Zustand i ausgeführt wurde, dar aufhin ein Übergang in den Zustand j stattgefunden hat, und das Reinforcement Signal g(i, u, j) geliefert wurde. 0 ≦ α < 1 ist eine vom Anwender vorgegebene Konstante, γ eine Lernrate, die während des Lernprozesses von 1 auf 0 gesenkt wird, und µe ist die Zugehörigkeit des Prozesses zur Charakteristik e, zu der die Q-Values Qe gehören. Da der Prozeß zu mehreren Charakteristiken partiell gehören kann, können also die Q-Values mehrerer Charakteristiken parallel (mit entsprechend der Zugehörigkeit verminderter Lernrate) trainiert werden. Wird nun ein neuer Datensatz angelegt, weil der Prozeß zu keiner bekannten Charakteri stik eine Ähnlichkeit aufweist, so wird offensichtlich zunächst nur der neue Datensatz trainiert. Im Laufe der Zeit kann der Prozeß jedoch wieder zu anderen Charakteri stiken Ähnlichkeit bekommen, so daß dann gegebenenfalls mehrere Datensätze parallel trainiert werden.
In den Fig. 5 bis 10 wird der Verlauf der Güte der Steue
rung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1
über die Zeit dargestellt. Dabei stellen die Angaben auf der
X-Achse jeweils die laufende Nummer der Zeitpunkte dar, zu
denen eine Entscheidung über das nächste anzulegende Signal
bild zu treffen ist.
Die auf der Y-Achse angegebene Güte der Steuerung entspricht
der Differenz aus der Anzahl derjenigen Fahrzeuge, die die
Straßenkreuzung 10 bis zum nächsten Entscheidungszeitpunkt
passieren können und der Anzahl derjenigen Fahrzeuge, die vor
der Straßenkreuzung 10 warten. Wie man aus den Fig. 5 bis
10 sieht, bewegt sich der Gütewert in einem Intervall zwi
schen ca. -15 und ca. +19.
In Fig. 5, in Fig. 7 und in Fig. 9 ist jeweils der genaue
Verlauf der Güte über die Zeit dargestellt, der Schwankungen
von ca. +/-3 Fahrzeugen aufweist. Dies ist darauf zurückzu
führen, daß bei einer gegebenen Güte der Steuerung der Stra
ßenkreuzung 10 durch die Steuerungsvorrichtung 1 nicht bei
jedem Entscheidungszeitpunkt dieselbe Regelungsqualität er
reicht werden kann.
Die Schwankungen im Verlauf der Güte der Steuerung in Fig.
5, in Fig. 7 und in Fig. 9 sind in den in Fig. 6, Fig. 8
und Fig. 10 gezeigten gemittelten Verläufen der Güte der
Steuerung der Straßenkreuzung 10 herausgefiltert.
In Fig. 5 und in Fig. 6 ist der Verlauf der Güte der Steue
rung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1
dargestellt, bei der ausschließlich der Lernprozeß 8 aktiv
ist. Der Klassifikationsprozeß 7, die Datenbank 6 und der
Gruppierungsprozeß 9 sind dabei ausgeschaltet. Wie man an dem
Verlauf der Güte ab dem Entscheidungszeitpunkt 10 000 sieht,
können in einem optimierten Zustand der Steuerungsvorrichtung
1 immer ca. 13 Fahrzeuge mehr die Straßenkreuzung 10 bis zum
nächsten Entscheidungszeitpunkt passieren, als Fahrzeuge vor
der Straßenkreuzung 10 warten müssen. Dabei ergeben sich
deutliche Verbesserungen aus dem Lernverhalten des Lernpro
zesses 8 ab dem Entscheidungszeitpunkt 3000 bzw. 10 000, wie
am besten in Fig. 6 zu sehen ist.
Fig. 7 und Fig. 8 zeigen eine weitere Entwicklung der Güte
der Steuerung durch die Steuerungsvorrichtung 1 der Straßen
kreuzung 10 bei einem Lernen des Lernprozesses 8, wobei der
Klassifikationsprozeß 7, die Datenbank 6 und der Gruppie
rungsprozeß 9 ausgeschaltet sind.
Zum Entscheidungszeitpunkt 5000 wird die horizontale Straße
12 am Unfallort 20 durch einen Unfall verengt, worauf in der
Folge die Güte der Steuerung der Straßenkreuzung 10 durch die
Steuerungsvorrichtung 1 von einem Wert von ca. 12 auf einen
Wert von ca. 3 einbricht und durch fortwährendes Lernen wie
der auf einen Wert von ca. 5 ansteigt.
Zum Entscheidungszeitpunkt 10 000 wird die horizontale Straße
12 am Unfallort 20 freigegeben, so daß wieder deren ursprüng
liche Kapazität vorliegt. Wie man am besten in Fig. 8 sieht,
steigt die Güte der Steuerung der Straßenkreuzung 10 durch
die Steuerungsvorrichtung 1 wieder auf den ursprünglichen
Wert von ca. 11 an, bis zum Zeitpunkt 21 000 eine Güte von 13
erreicht wird, die der maximalen Güte der Steuerung gemäß
Fig. 5 und Fig. 6 entspricht. Durch das Auftreten des Unfalls
während des Lernens des Lernprozesses 8 in der Steuerungsein
heit 2 wird also das Erreichen einer optimierten Güte der
Steuerung der Steuerungsvorrichtung 1 um 11 000 Entscheidungs
zeitpunkte verzögert. Dies wird darauf zurückgeführt, daß die
lernende Steuerungsvorrichtung 1 während des Auftretens des
Unfalls in den Entscheidungszeitpunkten 5000 bis 10 000 ein
Steuerungsverhalten lernt, das nach dem Freigeben der hori
zontalen Straße 12 nicht mehr korrekt ist.
Wie man am besten in Fig. 7 sieht, sind die Ausschläge der
Güte der Steuerung der Straßenkreuzung 10 zwischen den Ent
scheidungszeitpunkten 10 000 und 21 000, also unmittelbar nach
dem Freigeben des Unfallorts 20, größer als beim Erreichen
des optimierten Zustandes auf dem Entscheidungszeitpunkt
21 000.
Fig. 9 und Fig. 10 veranschaulichen einen Lernvorgang der
Steuerungsvorrichtung 1 bei der Steuerung der Straßenkreuzung
10, wobei die Datenbank 6, der Klassifikationsprozeß 7, der
Lernprozeß 8 und der Gruppierungsprozeß 9 aktiv sind und das
erfindungsgemäße Verfahren ausführen.
Zwischen den Entscheidungszeitpunkten 5000 und 10 000 ist die
horizontale Straße 12 durch einen Unfall am Unfallort 20 ver
engt, so daß die Kapazität der horizontalen Straße 12 einge
schränkt ist. Wie man am besten in Fig. 10 sieht, hat die
Güte der Steuerung der Straßenkreuzung 10 zum Entscheidungs
zeitpunkt 5000 einen Wert von ca. 11 erreicht, der während
der Zeitdauer des Unfalls auf einen Wert von ca. 5 absinkt.
Insofern stimmen die Darstellungen von Fig. 10 und Fig. 8
qualitativ überein. Beim Auftreten des Unfalls zum Entschei
dungszeitpunkt 5000 bemerkt die Steuerungseinheit 2, daß der
zu steuernde technische Prozeß, nämlich die Straßenkreuzung
10, eine andere Charakteristik aufweist. Dies kann beispiels
weise durch den Einbruch der Güte der Steuerung bemerkt wer
den, der von dem Klassifikationsprozeß 7 abgetastet wird. Ei
ne andere Möglichkeit, eine Änderung der Charakteristik der
Straßenkreuzung 10 zu detektieren, besteht in der Beobachtung
der Wahrscheinlichkeit, daß innerhalb eines bestimmten Zeit
raums nach dem Übergang der betreffenden Verkehrsampel vom
Signalbild "rot-orange" zum Signalbild "grün" die gemessene
Fahrzeugdichte am vierten Verkehrsdichtesensor 17 und am
fünften Verkehrsdichtesensor 18 nicht um wenigstens in dem
Maße abnimmt, wie es bei Übergängen zwischen denselben Si
gnalbildern zu einem Entscheidungszeitpunkt vor dem Auftreten
des Unfalls der Fall war.
Zum Entscheidungszeitpunkt 5000 legt der Lernprozeß 8 in
Übereinstimmung mit dem Klassifikationsprozeß 7 einen neuen
Satz von Aktuatorparametern für die Verkehrsampeln an und be
ginnt den neuen Satz von Aktuatorparametern zu trainieren.
Der ursprüngliche Satz von Aktuatorparametern wird in der Da
tenbank 6 abgespeichert, und zwar unter einem Merkmal, das
die betreffende Charakteristik der Straßenkreuzung 10 kenn
zeichnet. Wie man am besten in Fig. 10 sieht, nimmt die Güte
aufgrund des Lernvorgangs der Steuerungsvorrichtung 1 bis auf
einen Wert von ca. 10 zu, also auf einen höheren Wert als der
in der Fig. 8 angegebene entsprechende maximale Wert. Beim
Auftreten eines Unfalls wird mit der erfindungsgemäßen Steue
rung daher schneller eine höhere Güte der Steuerung der Stra
ßenkreuzung 10 erreicht als dies bei abgeschaltetem Klassifi
kationsprozeß 7 möglich ist.
Nach dem Freigeben des Unfallorts 20 steigt die Güte der
Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrich
tung 1 sehr schnell auf den Endwert 13 an, der in Fig. 8
erst zum Entscheidungszeitpunkt 21 000 erreicht wurde. Dies
wird damit begründet, daß die in der Datenbank 6 abgespei
cherten Parameter zu der Charakteristik der Straßenkreuzung
10 vor dem Auftreten des Unfalls zum Entscheidungszeitpunkt
5000 während des Trainings der Aktuatorparameter für die Cha
rakteristik der Straßenkreuzung 10 während des Unfalls zwi
schen den Entscheidungszeitpunkten 5000 und 10 000 mittrai
niert werden. Damit zeigt das durch die Steuerungsvorrichtung
1 gesteuerte technische System der Straßenkreuzung 10 unmit
telbar nach Beendigung des Unfalls ein optimiertes Verhalten,
so daß gegenüber der Güte der Steuerung der Straßenkreuzung
10 unmittelbar vor dem Unfall jedenfalls keine Verzögerung im
weiteren Lernverhalten entsteht.
Fig. 11 zeigt eine schematische Darstellung einer Straßen
kreuzung 30, an der sich eine vertikale Straße 31 mit einer
horizontalen Straße 32 schneidet, die in eine erste Abbie
gestraße 33 und in eine zweite Abbiegestraße 34 mündet. Die
Straßenkreuzung 30 wird durch die hier nicht dargestellte
Steuerungsvorrichtung 1 aus Fig. 1 gesteuert, wobei der zu
steuernde technische Prozeß 4 im vorliegenden Fall mit der
Straßenkreuzung 30 übereinstimmt.
Auf der vertikalen Straße 31 findet nur Verkehr aufgrund von
Fahrzeugen in einer Y-Richtung von oben nach unten statt. Auf
der horizontalen Straße 32 findet nur Verkehr durch Fahrzeuge
in einer X-Richtung von links nach rechts statt. Ebenso fin
det auf der ersten Abbiegestraße 33 und auf der zweiten Ab
biegestraße 34 nur Verkehr durch Fahrzeuge in einer X-
Richtung von links nach rechts statt. Weiterhin wird angenom
men, daß diejenigen Fahrzeuge, die die vertikale Straße 31
befahren, nicht in die horizontalen Straße 32, in die erste
Abbiegestraße 33 bzw. in die zweite Abbiegestraße 34 abbiegen
und umgekehrt. Vielmehr bleiben alle die Straßenkreuzung 30
passierenden Fahrzeuge auf derjenigen Straße, auf der sie
fahren.
Der Schnittpunkt der vertikalen Straße 31, der horizontalen
Straße 32, der ersten Abbiegestraße 33 und der zweiten Abbie
gestraße 34 bildet einen Kreuzungsraum 35. In der Richtung
des Verkehrs der vertikalen Straße 31 sind vor dem Kreuzungs
raum 35 ein erster Verkehrsdichtesensor 36 und ein zweiter
Verkehrsdichtesensor 37 angeordnet. In der Richtung des Ver
kehrs auf der vertikalen Straße 31 nach dem Kreuzungsraum 35
ist ein dritter Verkehrsdichtesensor 38 angeordnet.
In der Richtung des Verkehrs auf der horizontalen Straße 32
sind vor dem Kreuzungsraum 35 ein vierter Verkehrsdichtesen
sor 39 und ein fünfter Verkehrsdichtesensor 40 angeordnet. In
der Richtung des Verkehrs auf der ersten Abbiegestraße 33 ist
nach dem Kreuzungsraum 35 ein sechster Verkehrsdichtesensor
41 vorgesehen. In der Richtung des Verkehrs auf der zweiten
Abbiegestraße 34 ist schließlich nach dem Kreuzungsraum 35
ein siebter Verkehrsdichtesensor 42 vorgesehen.
Schließlich ist auf der ersten Abbiegestraße 33 im Bereich
nach dem Kreuzungsraum 35 und nach dem sechsten Verkehrsdich
tesensor 41 eine Baustelle 43 als Ventilsymbol eingezeichnet,
an der die erste Abbiegestraße 33 verengbar ist, was zur Ver
minderung der Verkehrsleitfähigkeit der ersten Abbiegestraße
33 führt. Gleichzeitig wird angenommen, daß der Verkehr auf
der horizontalen Straße 32 sein Abbiegeverhalten mit der Zeit
ändert, zum Beispiel beim Übergang vom Berufsverkehr zum Ein
kaufsverkehr. Diese Informationen werden der Steuerungsvor
richtung 1 ausdrücklich nicht mitgeteilt.
Außerdem sind in dieser Ansicht nicht gezeigte Verkehrsampeln
vorgesehen, die als durch die Steuerungseinheit 2 betätigbare
Aktuatoren ausgebildet sind. Die Verkehrsampeln und die Ver
kehrsdichtesensoren 36 bis 42 entsprechen dabei den Verkehrs
ampeln und den Verkehrsdichtesensoren 14 bis 19 aus Fig. 2
und Fig. 3.
Im Nachfolgenden wird beschrieben, wie die in Fig. 11 ge
zeigte Straßenkreuzung 30 mit Hilfe der Steuerungsvorrichtung
1 auf den auftretenden Straßenverkehr hin angepaßt und opti
miert wird. Hierzu wird im Lernprozeß 8 ein sogenannter CCR-
Algorithmus angewendet.
Die Randbedingungen für das durch den CCR-Algorithmus zu lö
sende Optimierungsproblem entsprechen im wesentlichen denje
nigen, die für die Straßenkreuzung 10 gelten.
Ein Ziel der erfindungsgemäßen Steuerungsvorrichtung und des
darin angewendeten Verfahrens besteht darin, für die Straßen
kreuzung 30 eine Steuerung zu finden, bei der die Summe der
Rückmeldungen über die Zeit maximiert wird, so daß eine maxi
male Anzahl von Fahrzeugen die Straßenkreuzung 10 passieren
kann.
In Fig. 12 und in Fig. 13 wird der Verlauf der Güte der
Steuerung der Straßenkreuzung 30 durch die Steuerungsvorrich
tung 1 über die Zeit dargestellt. Die Art und Weise der Dar
stellung des Verlaufs der Güte der Steuerung der Straßenkreu
zung 30 durch die Steuerungsvorrichtung 1 entspricht dabei im
wesentlichen derjenigen in den Fig. 5 bis 10.
Der von Q1 kommende Verkehr auf der horizontalen Straße 32
hat zwei Möglichkeiten, aus dem Kreuzungsraum 35 auszufahren,
nämlich entweder nach 21 auf der ersten Abbiegestraße 33 oder
nach 22 auf der zweiten Abbiegestraße 34. In Richtung des
Ziels 21 ist die Kapazität der ersten Abbiegestraße 33 redu
ziert, beispielsweise durch die Baustelle 43 oder durch einen
Unfall. In der Richtung 22 soll dagegen freier Verkehr auf
der zweiten Abbiegestraße 34 herrschen.
In dem vorliegenden Beispiel kann der Verkehr auf der Stra
ßenkreuzung 30 in zwei typische Charakteristiken eingeteilt
werden, die durch zwei Abbiegeraten OD-A und OD-B vorgegeben
sind.
Bei der Abbiegerate OD-A biegen 90% der Fahrzeuge auf der ho
rizontalen Straße 32 in die Richtung 22 auf die zweite Abbie
gestraße 34 ab, während 10% der Fahrzeuge auf der horizonta
len Straße 32 in die Richtung 21 auf die erste Abbiegestraße
33 abbiegen.
Bei der Charakteristik mit der Abbiegebeziehung OD-B biegen
90% der Fahrzeuge der horizontalen Straße 32 in auf die erste
Abbiegestraße 33 zum Ziel 21 ab, während 10% des Verkehrs auf
der horizontalen Straße 32 in die zweite Abbiegestraße 34 zum
Ziel 22 abbiegen.
Bei der Abbiegerate OD-B wird sich der Verkehr auf der hori
zontalen Straße 32 stark zurückstauen, so daß der Anteil der
Zeit, in der eine horizontale Verbindung des Kreuzungsraums
35 existiert, drastisch reduziert werden muß. Die Abbiegerate
ist kein expliziter Eingabeparameter für die Steuerungsvor
richtung 1. Die Abbiegerate muß daher als versteckter Parame
ter angesehen werden, der im Laufe der Zeit den zu steuernden
Prozeß, nämlich die Straßenkreuzung 30, verändert.
In Fig. 12 ist der Verlauf der Güte der Steuerung der Stra
ßenkreuzung 30 durch die Steuerungsvorrichtung 1 dargestellt,
bei der ausschließlich der Lernprozeß 8 aktiv ist. Der Klas
sifikationsprozeß 7, die Datenbank 6 und der Gruppierungspro
zeß 9 sind dabei ausgeschaltet. Ab dem Entscheidungszeitpunkt
5000 herrscht die Abbiegerate OD-B. Vom Entscheidungszeit
punkt 0 bis zum Entscheidungszeitpunkt 5000 herrscht die Ab
biegerate OD-A.
Wie man an dem Verlauf der Güte der Steuerung durch die
Steuerungsvorrichtung 1 in Fig. 12 sieht, können in einem
optimierten Zustand die Steuerungsvorrichtung 1 immer zwi
schen 20 und 29 Fahrzeuge mehr die Straßenkreuzung 30 bis zum
nächsten Entscheidungszeitpunkt passieren, als Fahrzeuge vor
der Straßenkreuzung 30 warten müssen.
Zwischen dem Entscheidungszeitpunkt 5000 und dem Entschei
dungszeitpunkt 6000, also kurz nachdem sich die Abbiegerate
drastisch geändert hat, bricht die Güte der Steuerungsvor
richtung 1 auf einen Wert von ca. 10 ein, so daß nur noch
zehn Fahrzeuge mehr die Straßenkreuzung 30 bis zum nächsten
Entscheidungszeitpunkt passieren können, als Fahrzeuge vor
der Straßenkreuzung 30 warten müssen.
Es konnte beobachtet werden, daß die Verkehrsampel der hori
zontalen Straße 32 nach dem Wechsel der Abbiegebeziehung von
OD-A nach OD-B auf das konstante Signalbild "grün" schaltet.
Dies ist darauf zurückzuführen, daß die Steuerungsvorrichtung
1 den Wechsel der Charakteristik des Verkehrs nicht bemerkt
und nach wie vor die gelernten Aktuatorparameter bei der al
ten Abbiegebeziehung OD-A verwendet. Die Aufstauung des Ver
kehrs vor dem Ziel 21 in den Kreuzungsraum 30 hinein bewirkt
schließlich, daß von dem vierten Verkehrsdichtesensor 39 und
von dem fünften Verkehrsdichtesensor 40 ein "starker Verkehr"
auf der horizontalen Straße 32 gemeldet wird, den die Steue
rungsvorrichtung 1 durch Durchlassen des Verkehrs der hori
zontalen Straße 32 durch den Kreuzungsraum 35 abzubauen ver
sucht, indem die zugehörigen Verkehrsampeln das Signalbild
"grün" annehmen. Diese Reaktion ist falsch, weil die Ver
kehrsstauung nicht durch die Straßenkreuzung 30 selbst, son
dern durch den Engpaß an der Baustelle 43 hinter dem Kreu
zungsraum 35 verursacht wird. Die zeitliche Verzögerung des
Einbruchs der Güte der Steuerung der Straßenkreuzung 30 durch
die Steuerungsvorrichtung 1, die in Fig. 12 dargestellt
wird, stellt gerade diejenige Zeit dar, die die Fahrzeuge bei
der neuen Abbiegerate OD-B benötigen, um in das durch die
Straßenkreuzung 30 dargestellte Szenario einzufahren, und die
vergeht, bis der Stau vor der Baustelle 43 bis in den Kreu
zungsraum 35 hineinreicht. Das starke Schwanken der Güte der
Steuerungsvorrichtung 1 vor dem Wechsel der Abbiegerate ist
darauf zurückzuführen, daß auch bei optimaler Steuerung nicht
in jedem Zustand der Straßenkreuzung 30 die gleiche Güte der
Steuerung erreicht werden kann. So können während des Signal
bilds "gelb" keine Fahrzeuge den Kreuzungsraum 30 passieren.
Fig. 13 zeigt eine weitere Entwicklung der Güte der Steue
rung durch die Steuerungsvorrichtung 1 der Straßenkreuzung 30
bei einem Lernen des Lernprozesses 8, wobei der Klassifikati
onsprozeß 7, die Datenbank 6 und der Gruppierungsprozeß 9 ak
tiv sind und das erfindungsgemäße Verfahren ausführen.
Jeweils zwischen den Entscheidungszeitpunkten 1000 und 2000
bzw. 3000 und 4000 ist die Baustelle 43 verengt, so daß die
Kapazität der ersten Abbiegestraße 33 eingeschränkt ist. Die
Güte der Steuerung der Straßenkreuzung 30 erreicht bei der
Abbiegerate OD-A einen gemittelten Wert von ca. 24, während
die Güte der Steuerung der Straßenkreuzung 30 bei der Abbie
gerate OD-B einen gemittelten Wert von ca. 18 erreicht.
Kurz nach dem Wechseln der Abbiegerate an der Straßenkreuzung
30 bemerkt die Steuerungseinheit 2, daß der zu steuernde
technische Prozeß, nämlich die Straßenkreuzung 30, eine ande
re Charakteristik aufweist. Dies kann beispielsweise durch
den Einbruch der Güte der Steuerung bemerkt werden, der je
weils von dem Klassifikationsprozeß 7 abgetastet wird. Eine
andere Möglichkeit, eine Änderung der Charakteristik der
Straßenkreuzung 30 bei der Änderung der Abbiegewahrschein
lichkeit zu detektieren, besteht in der Wahrscheinlichkeit,
daß innerhalb eines bestimmten Zeitraums nach dem Übergang
der betreffenden Verkehrsampel vom Signalbild "rot-gelb" zum
Signalbild "grün" die gemessene Verkehrsdichte am vierten
Verkehrsdichtesensor 39 und am fünften Verkehrsdichtesensor
40 nicht um wenigstens in dem Maße abnimmt, wie es bei Über
gängen zwischen denselben Signalbildern zu einem Entschei
dungszeitpunkt vor dem Auftreten der Änderung der Abbiegerate
der Fall war.
Jeweils beim Detektieren einer bisher unbekannten Änderung
der Charakteristik der Straßenkreuzung 30 legt der Lernprozeß
8 in Übereinstimmung mit dem Klassifikationsprozeß 7 einen
neuen Satz von Aktuatorparametern für die Verkehrsampeln an
und beginnt, den neuen Satz von Aktuatorparametern zu trai
nieren. Der jeweils andere Satz von Aktuatorparametern wird
in der Datenbank 6 abgespeichert, und zwar unter einem Merk
mal, das die betreffende Charakteristik der Straßenkreuzung
30 kennzeichnet. Somit können zu einem späteren Zeitpunkt be
kannte Charakteristiken weitertrainiert werden.
In Fig. 10 wechseln die Abbiegeraten sogar mehrfach. Man
kann beobachten, daß der Wechsel der Güte der Steuerung er
kannt wird und die Steuerungsvorrichtung lernt, sich in der
veränderten Umgebung korrekt zu verhalten. Der auch hier noch
vorhandene kleine Einbruch der Güte bei der Abbiegerate OD-B
von "24" auf "18" ist darauf zurückzuführen, daß auch bei ei
ner optimierten Steuerung der Steuerungsvorrichtung 1 auf
grund des Engpasses vor dem Ziel 21 insgesamt weniger Fahr
zeuge die Straßenkreuzung 30 passieren können, als bei der
Abbiegerate OD-A.
Bei jedem detektierten Wechsel der momentanen Charakteristik
der Straßenkreuzung 30 wird ein betreffender neuer bzw. be
kannter anderer Satz von Aktuatorparametern für die Steuerung
der Steuerungseinheit 2 verwendet. Der jeweils andere, opti
mierte Satz von Aktuatorparametern wird in der Datenbank 6
gespeichert. Dadurch ist gewährleistet, daß die Aktuatorpara
meter immer für diejenige Abbiegebeziehung bzw. Charakteri
stik der Straßenkreuzung 30 optimiert werden, die jeweils
vorhanden ist. Eine fehlerhafte Optimierung wird dadurch ver
mieden.
Claims (13)
1. Steuerungsvorrichtung zur Steuerung eines durch Aktuato
ren beinflußbaren technischen Prozesses (4; 10; 30) mit
einer Steuerungseinheit (2), mit wenigstens einem Aktua
tor (3) und mit wenigstens einem Sensor (5; 14-19; 36-
42),
wobei der Prozeß die folgenden Merkmale aufweist:
- - der Prozeß (4; 10; 30) weist wenigstens zwei Charakte ristiken innerhalb eines charakteristischen Prozeß raums auf,
- - der Prozeß (4; 10; 30) weist bei wenigstens einer Cha rakteristik wenigstens zwei unterschiedliche Prozeßzu stände auf,
- - die Steuerungseinheit (2) ist so ausgebildet, daß Pro zeßzustände wenigstens teilweise anhand von Sensorsi gnalen des Sensors (3) bzw. der Sensoren (14-19; 36- 42) abtastbar sind,
- - die Steuerungseinheit (2) ist so ausgebildet, daß be stimmbar ist, welche Charakteristik der Prozeß (4; 10; 30) momentan aufweist,
- - die Steuerungseinheit (2) ist so ausgebildet, daß der Aktuator (3) bzw. die Aktuatoren unter Anwendung von in der Steuerungseinheit (2) gespeicherten Aktuatorpa rametern betätigbar ist bzw. sind,
- - die Steuerungseinheit (2) ist so ausgebildet, daß zu je einer Charakteristik wenigstens ein Satz von Aktua torparametern abspeicherbar ist.
2. Steuerungsvorrichtung nach Anspruch 1,
dadurch gekennzeichnet, daß
die Steuerungseinheit (2) so ausgebildet ist, daß für den
Fall, daß eine der Steuerungseinheit (2) unbekannte Cha
rakteristik vorliegt, anhand der abgetasteten Prozeßzu
stände zu der unbekannten Charakteristik wenigstens ein
Satz von neuen Aktuatorparametern ermittelbar und/oder
abspeicherbar ist.
3. Steuerungsvorrichtung nach Anspruch 1 oder Anspruch 2,
dadurch gekennzeichnet, daß
die Steuerungseinheit (2) so ausgebildet ist, daß die in
der Steuerungseinheit (2) gespeicherten Aktuatorparameter
zu mehreren Charakteristiken zur Verminderung der Haltung
von redundanten Daten reorganisierbar sind.
4. Vorrichtung nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß
der technische Prozeß als durch wenigstens eine Verkehrs
ampel gesteuertes, durch Fahrzeuge und/oder Fußgänger be
nutztes Fahrstraßenstück (10; 30) ausgebildet ist, wobei
die Aktuatoren als Verkehrsampeln ausgebildet sind
und/oder wobei die Sensoren als Verkehrsdichtesensoren
(14-19; 36-42) ausgebildet sind.
5. Verfahren zur Steuerung eines durch Aktuatoren beinfluß
baren technischen Prozesses (4; 10; 30),
wobei der Prozeß (4; 10; 30) die folgenden Merkmale auf
weist:
- - der Prozeß (4; 10; 30) weist wenigstens zwei Charakte ristiken innerhalb eines charakteristischen Prozeß raums auf,
- - der Prozeß (4; 10; 30) weist bei wenigstens einer Cha rakteristik wenigstens zwei unterschiedliche Prozeßzu stände auf,
- a) Abtasten des momentanen Prozeßzustands mit Sensorsi gnalen wenigstens eines Sensors (3; 14-19; 36-42),
- b) Bestimmen, welche Charakteristik der Prozeß (4; 10; 30) momentan aufweist, und zwar anhand der abgetaste ten Sensorsignale,
- c) Betätigen des Aktuators (3) bzw. der Aktuatoren gemäß dem bestimmten Prozeßzustand unter Anwendung von Ak tuatorparametern gemäß der anhand der abgetasteten Sensorsignale bestimmten Charakteristik,
6. Verfahren nach Anspruch 5,
dadurch gekennzeichnet, daß
für den Fall, daß zu einer anhand der abgetasteten Sen
sorsignale bestimmten Charakteristik keine Aktuatorpara
meter vorhanden sind, anhand der abgetasteten Prozeßzu
stände zu dieser als unbekannt bestimmten Charakteristik
wenigstens ein Satz von neuen Aktuatorparametern ermit
telt wird.
7. Verfahren nach Anspruch 6,
dadurch gekennzeichnet, daß
der Satz von neuen Aktuatorparametern abgespeichert wird.
8. Verfahren nach Anspruch 6 oder Anspruch 7,
dadurch gekennzeichnet, daß
bei dem Ermitteln eines Satzes von neuen Aktuatorparame
tern ein insbesondere heuristisches Lernverfahren verwen
det wird.
9. Verfahren nach Anspruch 8,
dadurch gekennzeichnet, daß
als Ausgangspunkt für das Lernverfahren ein Satz von Ak
tuatorparametern einer bekannten Charakteristik verwendet
wird.
10. Verfahren nach Anspruch 9,
dadurch gekennzeichnet, daß
als Ausgangspunkt für das Lernverfahren ein Satz von Ak
tuatorparametern einer der als unbekannt bestimmten Cha
rakteristik nahekommenden Charakteristik verwendet wird.
11. Verfahren nach Anspruch 10,
dadurch gekennzeichnet, daß
das Lernverfahren unter Anwendung von Iterationsschritten
durchgeführt wird, wobei beim Vorliegen einer großen Ähn
lichkeit zwischen der als unbekannt bestimmten Charakte
ristik und der nahekommenden Charakteristik das Lernver
fahren mit kleineren Iterationsschritten begonnen wird
als beim Vorliegen einer kleinen Ähnlichkeit zwischen der
als unbekannt bestimmten Charakteristik und der nahekom
menden Charakteristik.
12. Verfahren nach einem der Ansprüche 6 bis 11,
dadurch gekennzeichnet, daß
der Schritt des Reorganisierens der in der Steuerungsein
heit (2) gespeicherten Aktuatorparameter zu mehreren Cha
rakteristiken zur Verminderung der Haltung von redundan
ten Daten vorgesehen ist.
13. Verfahren nach einem der Ansprüche 5 bis 12,
dadurch gekennzeichnet, daß
das Verfahren an einem technischen Prozeß ausgeführt
wird, der als durch wenigstens eine Verkehrsampel gesteu
ertes, durch Fahrzeuge oder Fußgänger benutztes Fahrstra
ßenstück (10; 30) ausgebildet ist, wobei die Aktuatoren
als Verkehrsampeln ausgebildet sind und/oder wobei die
Sensoren als Verkehrsdichtesensoren (14-19; 36-42) ausge
bildet sind.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1999141854 DE19941854A1 (de) | 1999-09-02 | 1999-09-02 | Steuerungsvorrichtung für eine Verkehrsampelkreuzung |
PCT/DE2000/002978 WO2001018767A1 (de) | 1999-09-02 | 2000-08-31 | Steuerungsvorrichtung für eine verkehrsampelkreuzung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1999141854 DE19941854A1 (de) | 1999-09-02 | 1999-09-02 | Steuerungsvorrichtung für eine Verkehrsampelkreuzung |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19941854A1 true DE19941854A1 (de) | 2001-04-05 |
Family
ID=7920570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1999141854 Withdrawn DE19941854A1 (de) | 1999-09-02 | 1999-09-02 | Steuerungsvorrichtung für eine Verkehrsampelkreuzung |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE19941854A1 (de) |
WO (1) | WO2001018767A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3425608A1 (de) * | 2017-07-03 | 2019-01-09 | Fujitsu Limited | Verkehrssignalsteuerung mithilfe mehrerer q-learning-kategorien |
US10242568B2 (en) | 2017-03-08 | 2019-03-26 | Fujitsu Limited | Adjustment of a learning rate of Q-learning used to control traffic signals |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10021929A1 (de) * | 2000-05-05 | 2001-11-15 | Siemens Ag | Verfahren und Fuzzy-Steuervorrichtung zum rechnergestützten Ermitteln einer Steuerungsstrategie für ein technisches System, Computerlesbares Speichermedium und Computerprogramm-Element |
KR20060119746A (ko) | 2005-05-18 | 2006-11-24 | 엘지전자 주식회사 | 교통상태에 대한 정보를 제공하고 이를 이용하는 방법 및장치 |
KR101061460B1 (ko) | 2005-05-18 | 2011-09-02 | 엘지전자 주식회사 | 소통상태에 대한 예측정보를 제공하고 이를 이용하는 방법및 장치 |
DE102007062741B4 (de) * | 2007-12-27 | 2009-08-27 | Siemens Ag | Verfahren und Prüfeinrichtung zum Prüfen eines Verkehrssteuerungssystems |
AT510247B1 (de) * | 2010-07-29 | 2023-01-15 | Dr Kuhn Andreas | Verfahren zur regelung einer signalanlage |
CN105118308B (zh) * | 2015-10-12 | 2017-03-15 | 青岛大学 | 基于聚类强化学习的城市道路交叉口交通信号优化方法 |
CN110164147A (zh) * | 2019-05-24 | 2019-08-23 | 南京邮电大学 | 一种基于改进遗传算法的智能交通信号灯调控方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3414846B2 (ja) * | 1993-07-27 | 2003-06-09 | 三菱電機株式会社 | 交通手段制御装置 |
DE4436339A1 (de) * | 1994-10-11 | 1996-04-18 | Ifu Gmbh | Verfahren zur verkehrsadaptiven Steuerung einer Verkehrsampelanlage |
DE19521927C2 (de) * | 1995-06-09 | 1998-08-06 | Inst Automation Und Kommunikat | Verfahren und Vorrichtung zur verkehrsabhängigen Grünzeitanpassung in einer Verkehrssignalanlage |
-
1999
- 1999-09-02 DE DE1999141854 patent/DE19941854A1/de not_active Withdrawn
-
2000
- 2000-08-31 WO PCT/DE2000/002978 patent/WO2001018767A1/de active Application Filing
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10242568B2 (en) | 2017-03-08 | 2019-03-26 | Fujitsu Limited | Adjustment of a learning rate of Q-learning used to control traffic signals |
US10395529B2 (en) | 2017-03-08 | 2019-08-27 | Fujitsu Limited | Traffic signal control using multiple Q-learning categories |
EP3425608A1 (de) * | 2017-07-03 | 2019-01-09 | Fujitsu Limited | Verkehrssignalsteuerung mithilfe mehrerer q-learning-kategorien |
Also Published As
Publication number | Publication date |
---|---|
WO2001018767A1 (de) | 2001-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3820589C2 (de) | Verfahren und Steuervorrichtung zum selbsttätigen Steuern eines Landfahrzeuges | |
EP1110195B1 (de) | Verfahren zur verkehrszustandsüberwachung und fahrzeugzuflusssteuerung in einem strassenverkehrsnetz | |
EP1298620B1 (de) | System zum Steuern von Lichtsignalgebern an Kreuzungen | |
DE10354322A1 (de) | Verfahren und System zur Ermittlung der Fahrsituation | |
DE102008003039A1 (de) | Verfahren zur Verkehrszustandsbestimmung in einem Fahrzeug | |
DE102017213350A1 (de) | Verfahren zur Vorhersage eines Schaltzeitpunktes einer Signalgruppe einer Signalanlage | |
DE69631629T2 (de) | Erfassung und Vorhersage von Verkehrsbehinderungen | |
DE19941854A1 (de) | Steuerungsvorrichtung für eine Verkehrsampelkreuzung | |
DE102013003944A1 (de) | Verfahren und Vorrichtung zum Bereitstellen von Fahrerassistenzfunktionalität | |
WO2021023549A1 (de) | Verfahren zum automatisierten einfädeln eines fahrzeugs | |
EP3279049B1 (de) | Steuerungs-system und steuerungs-verfahren zum bestimmen einer fahrbahn | |
EP3802257B1 (de) | Steuerung eines kraftfahrzeugs | |
DE102009037461A1 (de) | Assistenzsystem zur Erhöhung einer Verkehrssicherheit | |
DE10051777A1 (de) | Verfahren zur dynamischen Verkehrszustandsprognose | |
DE102008021380A1 (de) | Verfahren und Vorrichtung zum Vorhersagen eines Verlaufs einer Fahrbahn und Fahrerassistenzsystem | |
WO2001086359A2 (de) | Fuzzy-steuerung mit reinforcement-lernverfahren | |
DE102019108142A1 (de) | Auswählen einer Handlungsoption für ein automatisiertes Kraftfahrzeug | |
DE102015206593A1 (de) | Fahrzeug, Anordnung und Verfahren zur Analyse eines Verhaltens einer Lichtsignalanlage | |
EP2413302B1 (de) | Verfahren zur Verkehrsregelung eines Strassenzuges | |
DE102015204674A1 (de) | Fahrzeug-Detektionsvorrichtung | |
DE102014019106A1 (de) | Verfahren zum Betrieb eines Fahrzeugsystems zur Auswahl einer Fahr-spur und Kraftfahrzeug | |
DE102021006166A1 (de) | Verfahren zum Datentransfer zwischen zwei digitalen Straßenkarten | |
DE19944891A1 (de) | Verkehrslageerfassung mit Fuzzy-Klassifikation und mehrdimensionaler morphologischer Datenfilterung und dynamischer Domänenbildung | |
EP3772017A1 (de) | Bahnsignalerkennung für autonome schienenfahrzeuge | |
WO2001086610A1 (de) | Verfahren und vorrichtung zum ermitteln einer optimierten auswahl eines rahmensignalplans aus einer menge mehrerer rahmensignalpläne für ein verkehrssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8130 | Withdrawal | ||
8165 | Unexamined publication of following application revoked |