DE19941854A1

DE19941854A1 - Steuerungsvorrichtung für eine Verkehrsampelkreuzung

Info

Publication number: DE19941854A1
Application number: DE1999141854
Authority: DE
Inventors: Martin Appl; Rainer Palm
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1999-09-02
Filing date: 1999-09-02
Publication date: 2001-04-05
Also published as: WO2001018767A1

Abstract

Eine Steuerungsvorrichtung zur Steuerung einer Verkehrsampelkreuzung (4) hat eine Steuerungseinheit (2), die so ausgebildet ist, daß Prozeßzustände der Verkehrsampelkreuzung (4) teilweise anhand von Sensorsignalen eines Sensors (3) abtastbar sind. Die Steuerungseinheit (2) bestimmt, welche Charakteristik die Verkehrsampelkreuzung (4) momentan aufweist, und betätigt eine Verkehrsampel (3) unter Anwendung von in der Steuerungseinheit (2) gespeicherten Aktuatorparametern. Dabei ist zu je einer Charakteristik wenigstens ein Satz von Aktuatorparametern in der Steuerungseinheit (2) abspeicherbar.

Description

Die Erfindung betrifft eine Steuerungsvorrichtung zur Steue rung eines durch Aktuatoren beeinflußbaren technischen Pro zesses, insbesondere einer Verkehrsampelkreuzung. Die Erfin dung betrifft weiterhin ein Verfahren zur Steuerung eines solchen technischen Prozesses.

Technische Prozesse zeichnen sich dadurch aus, daß deren Ver lauf und deren Prozeßzustände durch Aktuatoren beeinflußt werden können. In der Regelungstechnik wird versucht, techni sche Prozesse derart durch Aktuatoren zu beeinflussen, daß deren Verlauf und Prozeßzustände mit einem gewünschten vorge gebenen Ergebnis übereinstimmen. Hierfür wird zunächst ver sucht, ein explizites mathematisches Modell des zu steuernden technischen Prozesses aufzustellen, um mit regelungstechni schen Maßnahmen einen geeigneten Regler bzw. eine geeignete Steuerungseinheit auszubilden.

Es können auch Prozesse gesteuert werden, von denen kein ex plizites mathematisches Modell gegeben ist oder deren Kom plexität zwar eine Simulation jedoch keine analytische Be handlung erlaubt. Eine solche Steuerung basiert auf dem Ein satz von Lernstrategien wie beispielsweise das sogenannte Reinforcement-Lernen. Dabei liegt eine Voraussetzung für das erfolgreiche Anwenden einer Lernstrategie zur Steuerung eines technischen Prozesses darin, daß das Verhalten des Prozesses oder seiner Simulation bei der Anwendung von ausgewählten Steuersequenzen beobachtet werden kann, damit aus diesem Ver halten die Güte der Steuersequenzen abgeleitet werden kann.

Besonders schwierig ist die Steuerung von technischen Prozes sen, deren Eigenschaften sich mit der Zeit verändern. Dabei unterscheidet man kontinuierliche Änderungen, die beispiels weise aufgrund von Verschleiß von Systemkomponenten auftreten können, von diskreten Änderungen, die beispielsweise durch den Ausfall von Komponenten des technischen Prozesses auftre ten. Eine solche Veränderung im Prozeß kann zur Folge haben, daß die gelernte Strategie zum Steuern des technischen Pro zesses nicht mehr für eine Steuerung geeignet ist. Wenn Ver änderungen des technischen Prozesses bei einem Lernvorgang zur Anpassung der Steuerung auftreten, kann sogar die Konver genz des Lernverfahrens beeinträchtigt werden.

Im Stand der Technik sind Verfahren zum Lernen von Steue rungsstrategien bekannt, die Veränderungen des zu steuernden technisches Prozesses berücksichtigen.

So sind Verfahren bekannt, die Veränderungen des technischen Prozesses detektieren können und im Falle einer Veränderung des technischen Prozesses das gelernte Wissen verwerfen und mittels einer heuristischen Strategie eine neue Steuerung lernen. In permanent veränderlichen Umgebungen ist der Lern prozeß praktisch nie beendet. Bei diesem Verfahren ist von Nachteil, daß eine Steuerstrategie nicht anhand einer Simula tion des technischen Prozesses gelernt werden kann, so daß diese anschließend unmittelbar auf einen vorhandenen techni schen Prozeß anwendbar ist. Außerdem wird durch das permanen te Verwerfen von Wissen und das anschließend notwendige Neu lernen die Steuerung nach einer Veränderung des Prozesses oft erst nach einer großen Verzögerung brauchbar. Ein solches Verfahren zur Steuerung eines technisches Prozesses ist in "A Two-Level Approach to Learning in Nonstationary Environ ments", Lam, W.; Mukhopadhyay, S., Advances in Artificial In telligence, Proceedings of the Eleventh Biennial Conference of the Canadian Society for Computational Studies of Intelli gence, pp. 271-283, beschrieben.

Außerdem sind Verfahren bekannt, die die Dynamik der Verände rungen eines technischen Prozesses auf versteckte bzw. nicht beobachtbare Prozeßzustände des Prozesses zurückführen. Diese Verfahren setzen voraus, daß bekannt ist, welche versteckten Zustände es gibt. Daher müssen alle Quellen für mögliche Ver änderungen eines technischen Prozesses bekannt sein. Weiter hin muß ein explizites mathematisches Modell angegeben werden können, das die Abbildung des tatsächlichen Prozeßzustandes auf den von der Steuerung beobachteten Zustand beschreibt. Dieses Wissen ist in vielen praktischen Anwendungen nicht verfügbar. So können beispielsweise nicht alle Möglichkeiten des Ausfalls einer Systemkomponente vorhergesehen werden oder es ist nicht genau bekannt, welchen Einfluß ein solcher Aus fall auf die Prozeßzustände des Prozesses hat. Ein Beispiel für diese Klasse von Steuerungen ist in "Planning and Acting in Partially Observable Stochastic Domains", Kaelbling, L. P.; Littman, M. L.; Cassandra, A. R., 1998, Artificial Intelli gence, Vol. 101, pp. 8-12, beschrieben.

Es ist Aufgabe der Erfindung, eine Steuerungsvorrichtung und ein Verfahren zur Steuerung eines durch Aktuatoren beeinfluß baren technischen Prozesses bereitzustellen, die eine opti mierte Steuerung auch für Prozesse erlauben, die sich über die Zeit verändern.

Diese Aufgabe wird durch den Gegenstand der unabhängigen An sprüche gelöst. Vorteilhafte Weiterbildungen ergeben sich aus den jeweiligen Unteransprüchen.

Ein der Erfindung zugrundeliegender Gedanke besteht darin, daß die Steuerung eines nicht-stationären Prozesses, der sich über die Zeit verändert, auf zwei gedanklichen Ebenen beson ders vorteilhaft erfolgen kann. Dabei wird auf einer oberen Ebene eine aktuelle Charakteristik des zu steuernden techni schen Prozesses analysiert. Mit der "Charakteristik" des technischen Prozesses ist dabei seine Dynamik gemeint, die sich beispielsweise in den Übergangswahrscheinlichkeiten zwi schen seinen Prozeßzuständen äußert. Dabei können Übergangs wahrscheinlichkeiten auf einfache Weise geschätzt werden, und zwar als Wahrscheinlichkeit der Veränderung eines Signals ei nes Sensors am Prozeß um wenigstens einen vorbestimmten Wert innerhalb eines vorbestimmten Zeitraums nach einer vorbe stimmten Beeinflussung des Prozesses durch einen Aktuator um einen vorbestimmten Wert. Konkret am Beispiel einer Ampel steuerung könnte eine Übergangswahrscheinlichkeit daher durch das Schätzen einer Wahrscheinlichkeit bestimmt werden, daß innerhalb eines bestimmten Zeitraums nach dem Übergang des Signalbilds einer Ampel von "rot" nach "grün" die gemessene Verkehrsdichte an einem Verkehrsdichtesensor um wenigstens einen bestimmten Wert abnimmt. Zur Schätzung werden dabei zu mindest eine begrenzte Anzahl von Schaltvorgängen der Ampel herangezogen.

Auf der unteren Ebene des erfindungsgemäßen Steuerungsverfah rens wird gemäß einem Grundgedanken der Erfindung bei jeder festgestellten Charakteristik ein Satz von Aktuatorparametern zur Betätigung der Aktuatoren angewendet, der sich für den in der momentanen Charakteristik befindlichen Prozeß als vor teilhaft erwiesen hat bzw. erweist.

Mit der erfindungsgemäßen Steuerungsvorrichtung lassen sich besonders nicht-stationäre Prozesse vorteilhaft steuern. Da bei weist der zu steuernde technische Prozeß die folgenden Merkmale auf:

- der Prozeß weist wenigstens zwei Charakteristiken inner halb eines charakteristischen Prozeßraums auf,
- der Prozeß weist bei wenigstens einer Charakteristik we nigstens zwei unterschiedliche Prozeßzustände auf, zwi schen denen der Prozeß diskret oder kontinuierlich hin- und herwechseln kann.

Dabei können verschiedene Prozeßzustände nicht nur durch den Prozeß selbst sondern auch durch Aktuatoren und/oder durch äußere Einflüsse erzeugt werden. Im Fall von durch äußere Einflüsse erzeugten Prozeßzuständen spricht man auch von im pliziten oder von versteckten Prozeßzuständen.

Die Steuerungseinheit gemäß der Erfindung weist die folgenden Merkmale auf:

- die Steuerungseinheit ist so ausgebildet, daß Prozeßzu stände wenigstens teilweise anhand von Sensorsignalen von Sensoren der Steuerungsvorrichtung abtastbar sind,
- die Steuerungseinheit ist so ausgebildet, daß bestimmbar ist, welche Charakteristik der Prozeß momentan aufweist,
- die Steuerungseinheit ist so ausgebildet, daß der Aktuator bzw. die Aktuatoren unter Anwendung von in der Steuerungs einheit gespeicherten Aktuatorparametern betätigbar sind,
- die Steuerungseinheit ist so ausgebildet, daß zu je einer Charakteristik wenigstens ein Satz von Aktuatorparametern abspeicherbar ist.

Das erfindungsgemäße Verfahren zur Steuerung eines solchen technischen Prozesses beinhaltet das schleifenartige Wieder holen der folgenden Schritte a) bis c):

a) Abtasten des momentanen Prozeßzustandes mit Sensorsignalen wenigstens eines Sensors,
b) Bestimmen, welche Charakteristik der Prozeß momentan auf weist, anhand der abgetasteten Sensorsignale,
c) Betätigen der Aktuatoren gemäß dem bestimmten Prozeßzu stand unter Anwendung von Aktuatorparametern gemäß der an hand der abgetasteten Sensorsignale bestimmten Charakteri stik.

Vor dem Wiederholen der Schritte a) bis c) kann der Schritt des Abspeicherns je wenigstens eines Satzes von Aktuatorpara metern zu wenigstens einer vorbestimmten Charakteristik vor gesehen sein.

Das erfindungsgemäße Verfahren kann in einem sehr einfachen Fall so ausgebildet sein, daß zu den bekannten Charakteristi ken eines Prozesses jeweils ein Satz von optimierten Aktua torparametern zur Betätigung der Sensoren in der Steuerungs einheit abgespeichert werden. Geeignete Aktuatorparameter können beispielsweise durch Versuche vor dem Einsatz der er findungsgemäßen Steuerungsvorrichtung ermittelt werden. Für den Fall des Detektierens einer unbekannten Charakteristik kann auch wenigstens ein Satz von Aktuatorparametern vorgese hen sein, die einen Notbetrieb der Steuerungsvorrichtung vor sehen, wobei zusätzlich die Ausgabe eines Warnsignals vorge sehen sein kann. Auf das Erkennen eines solchen Warnsignals kann Bedienpersonal der Steuerungsvorrichtung auf die Notwen digkeit des Ermittelns und Abspeicherns eines neuen Satzes von optimierten Aktuatorparametern hingewiesen werden.

In Weiterbildung der Erfindung ist die Steuerungseinheit so ausgebildet, daß für den Fall, daß eine der Steuerungseinheit unbekannte Charakteristik vorliegt, anhand der abgetasteten Prozeßzustände zu der unbekannten Charakteristik wenigstens ein Satz von neuen optimierten Aktuatorparametern ermittelbar und abspeicherbar ist. Dabei kann für das Ermitteln gerade von optimierten Aktuatorparametern auch ein insbesondere heu ristisches Lernverfahren verwendet werden. Der Einsatz eines solchen Lernverfahren zum Ermitteln von neuen Aktuatorparame tern ermöglicht es dabei nicht nur, auf als neu erkannte Cha rakteristiken des zu steuernden technischen Prozesses zu rea gieren. Vielmehr können aus Rückmeldungssignalen, die bei der Anwendung eines Lernverfahrens entstehen, auch Informationen über die momentan vorliegende Charakteristik des technischen Prozesses gewonnen werden. Geeignete Rückmeldungssignale wer den auch als Reinforcement-Signale bezeichnet, die Auskunft über die Qualität der aktuellen Steuerung geben. Beim Vorlie gen von solchen Rückmeldungssignalen kann vorteilhafterweise sogar auf das besondere Feststellen der momentanen Charakte ristik des zu steuernden Prozesses anhand anderer Informatio nen verzichtet werden. Dies ist dort vorteilhaft, wo das Be stimmen von Übergangswahrscheinlichkeiten zwischen Prozeßzu ständen zu aufwendig ist.

Mit dieser erfindungsgemäßen Ausbildung können Prozesse ge steuert werden, die sich kontinuierlich oder diskret verän dern. Außerdem brauchen nur wenige Annahmen über die Dynamik der Veränderungen des technischen Prozesses gemacht werden, was besonders vorteilhaft ist, da dieses Wissen in prakti schen Anwendungen häufig nicht vorhanden ist.

Bei der Erfindung ist dabei besonders vorteilhaft, daß der jeweilige Lernprozeß zu einem Satz von Aktuatorparametern auch in permanent veränderlichen Umgebungen praktisch in end licher Zeit beendet ist. Sobald nämlich an dem zu steuernden technischen Prozeß eine Änderung der Charakteristik festge stellt wird, wird zunächst überprüft, ob die neu festgestell te Charakteristik mit einer Charakteristik übereinstimmt, zu der bereits ein Satz von optimierten Aktuatorparametern be steht. Falls dies der Fall ist, werden diese Aktuatorparame ter eingesetzt und das erfindungsgemäße Lernverfahren wird ausgehend von den bekannten Aktuatorparametern weiter opti miert. Auf diese Weise wird sichergestellt, daß bereits ge lerntes Wissen stets als Basis für weitere Optimierungen zur Verfügung steht und nicht verworfen wird.

Die Erfindung stellt somit ein Lernen in einer veränderlichen Umgebung sicher, wobei sich eine Fuzzy-Gewichtung durch pa ralleles Lernen erreichen läßt.

Gemäß der Erfindung kann beim Detektieren einer unbekannten Charakteristik als Ausgangspunkt für das Lernverfahren zum Ermitteln von neuen Aktuatorparametern ein Satz von Aktuator parametern einer bekannten Charakteristik verwendet werden. Dabei werden die neuen Aktuatorparameter durch Gewichtung der Aktuatorparameter der zugrunde gelegten bekannten Charakteri stik ermittelt, wobei die für die Gewichtungen verwendeten Gewichte entsprechend der Ähnlichkeit der als neu ermittelten Charakteristik zu der bekannten Charakteristik gewählt wer den. Durch diese Vorgehensweise kann auch für unbekannte Cha rakteristiken des zu steuernden technischen Prozesses eine heuristisch gute Steuerung angegeben werden, die bereits in einem Anfangszustand zufriedenstellende Werte liefert. Das anschließende Verfeinern und Anpassen der Aktuatorparameter zu der neuen Charakteristik kann dann in schnellerer Zeit er folgen, als dies bei herkömmlichen Lernverfahren der Fall ist. Die Schrittweiten für den neuen Lernprozeß können dabei um so kleiner gewählt werden, je größer die Ähnlichkeit der als neu erkannten Charakteristik zu der als Ausgangspunkt ge wählten bekannten Charakteristik ist.

Das erfindungsgemäße Lernverfahren kann somit vorteilhaft un ter Anwendung von Iterationsschritten durchgeführt werden, wobei beim Vorliegen einer großen Ähnlichkeit zwischen der als unbekannt bestimmten Charakteristik und der nahekommenden Charakteristik das Lernverfahren mit kleineren Iterations schritten begonnen wird als beim Vorliegen einer kleinen Ähn lichkeit zwischen der als unbekannt bestimmten Charakteristik und der nahekommenden Charakteristik.

Dabei ist es auch möglich, als Ausgangspunkt für das Lernver fahren einen Satz von Aktuatorparametern zu verwenden, der sich als gewichtetes Mittel der Aktuatorparameter mehrerer oder aller bekannten Charakteristiken ergibt. Dies entspricht dem Wählen einer der unbekannten Charakteristik nahekommenden Charakteristik als Ausgangspunkt für das Lernverfahren. Da nach ist es jedoch möglich, die Aktuatorparameter über das Trainieren der hierbei verwendeten Gewichte zu optimieren.

Dadurch können mehrere Sätze von Aktuatorparametern auf ein mal trainiert werden, wenn die als Basis verwendeten Aktua torparameter für ähnliche Prozeßcharakteristika selbst opti miert werden.

Vorteilhafterweise wird ein heuristisches Lernverfahren ange wendet, bei dem der zu steuernde technische Prozeß zunächst willkürlich angesteuert und danach die Güte der Steuerung be obachtet wird. Aus der Beobachtung der Güte der Steuerung wird anschließend versucht, Schlüsse zu ziehen, wie die Steuerung verbessert werden kann. Zumindest muß dann die Mög lichkeit gegeben sein, den realen Prozeß zu Verfügung zu ha ben. Alternativ dazu kann auch ein gutes Modell bzw. eine Si mulation des zu steuernden Prozesses ausreichen, wobei das vorhandene Modell steuerbar sein muß und wobei der Zustand des Modells beobachtbar sein muß. Hierzu sind in der Regel Sensoren vorgesehen. Das Ziel eines solchen heuristischen Lernverfahrens besteht darin, eine zufriedenstellende Steue rung zu erreichen, ohne daß von vornherein bekannt ist, wel che Aktion ausgeführt werden muß, um eine solche Steuerung zu bewerkstelligen. Gemäß der Erfindung kann insbesondere ein als "Q-Learning" bekanntes Lernverfahren eingesetzt werden, wobei dann jedem Satz von Aktuatorparametern ein Satz von Q- Faktoren zugeordnet ist, der Auskunft über die Qualität der möglichen Steueraktionen in den verschiedenen Zuständen des Prozesses der jeweiligen Charakteristik gibt.

Falls gemäß der Erfindung beim Ermitteln eines neuen Satzes von Aktuatorparametern zu einer bisher unbekannten Charakte ristik von Aktuatorparametern von bekannten Charakteristiken ausgegangen wird, indem diese gewichtet als Ausgangspunkt für den neuen Satz von Aktuatorparametern verwendet werden, kön nen beim späteren Optimieren der neuen Aktuatorparameter vor teilhafterweise die bekannten, als Ausgangspunkt verwendeten Aktuatorparameter mit optimiert werden. Der Lernprozeß auf der unteren Ebene des Erfindungsgemäßen Verfahrens entspricht somit einem sogenannten "Fuzzy-Lernverfahren". Dies ist be sonders vorteilhaft, wenn aufgrund einer Detektierung von kontinuierlichen Veränderungen des zu steuernden technischen Prozesses partielle Zugehörigkeiten zu mehreren Sätzen von optimierten Aktuatorparametern ermöglicht werden. Daraus läßt sich auch eine Aussage über die Stärke der Zugehörigkeit der aktuellen Charakteristik des technischen Prozesses zu den be kannten Charakteristiken angeben, die bei einer sogenannten "Fuzzy-Annäherung" verwendet werden.

Gemäß den erfindungsgemäßen Verfahrensschritten wird in hier archisch organisierten Ebenen gearbeitet. Auf der oberen Ebe ne des erfindungsgemäßen Verfahrens wird jeweils die aktuelle Charakteristik des Prozesses analysiert. Als Rückmeldung vom Prozeß stehen dabei entweder die Reinforcement-Signale, die Auskunft über die Güte der aktuellen Steuerung geben, und/oder das Übergangsverhalten des Prozesses zwischen seinen möglichen Zuständen zur Verfügung. Die somit bestimmte Cha rakteristik dient dazu, Veränderungen im Prozeß zu analysie ren und insbesondere das spätere Zurückkehren des Prozesses zu einer bereits bekannten Charakteristik zu erkennen. Die Charakteristika werden gespeichert, wobei jeweils dann ein neuer Datensatz für Aktuatorparameter eröffnet wird, wenn sich der technische Prozeß signifikant verändert hat und die nach der Veränderung analysierten Charakteristika noch nicht bekannt sind. Eine signifikante Veränderung trifft zunächst bei jeder erkannten diskreten Veränderung des Prozesses zu. Die Erfindung läßt sich jedoch auch auf technische Prozesse anwenden, die einer kontinuierlichen Veränderung unterliegen.

In einer Weiterbildung der Erfindung kann die Steuerungsein heit so ausgebildet sein, daß die in der Steuerungseinheit gespeicherten Aktuatorparameter zu mehreren Charakteristiken zur Verminderung der Erhaltung von redundanten Daten reorga nisierbar sind. Hierzu können die Datensätze, die die Aktua torparameter enthalten, hierarchisch gegliedert werden, was auch mit dem Begriff "hierarchisches Clustering" bezeichnet wird. Hierdurch wird das in den Datensätzen der Aktuatorpara meter gespeicherte Wissen komprimiert und somit der für die Steuerung notwendige Speicherbedarf reduziert. Vornehmlich werden dabei solche Datensätze zusammengefaßt, die ähnliche Charakteristiken des technischen Prozesses betreffen. Für ähnliche Charakteristiken kann es dabei vorkommen, daß nicht notwendigerweise die gleichen Steuerungsstrategien optimal sind, so daß für das hierarchische Organisieren wenigstens eine Nebenbedingung eingeführt werden kann, die die Zusammen fassung von Datensätzen mit Aktuatorparametern für ähnliche Charakteristiken verhindert, wenn die in den Datensätzen ge speicherten Aktuatorparameter verschiedene Steuerstrategien betreffen.

Die erfindungsgemäße Vorrichtung und das erfindungsgemäße Verfahren können für das Trainieren einer adaptiven Ampel steuerung zur Regelung des Verkehrs eines Fahrstraßenstücks verwendet werden, das durch Fahrzeuge und/oder Fußgänger be nutzt wird. Dabei können die Aktuatoren als Verkehrsampeln ausgebildet sein. Die Sensoren können dabei als Verkehrsdich tesensoren ausgebildet sein, die das Vorhandensein einer An zahl von Fahrzeugen in einer bestimmten Länge des Fahrstra ßenstücks anzeigen. Der implizite Drift des zu steuernden Prozesses, nämlich des Fahrstraßenverkehrs liegt dabei in der zeitlichen Veränderung von Verkehrsparametern wie der Ver kehrsmenge oder wie von Abbiegehäufigkeiten. Diskrete Sprünge des Prozesses werden beispielsweise durch Unfälle oder durch die Sperrung von Spuren für Baustellen verursacht. Diese Grö ßen werden der Steuerungseinrichtung für die Verkehrsampeln nicht explizit zur Verfügung gestellt. Eine Veränderung in diesen Größen kann mit dem erfindungsgemäßen Verfahren mit der erfindungsgemäßen Steuerungseinrichtung aufgrund von Ver änderungen der Charakteristik des Verkehrs trotzdem erkannt werden, so daß geeignete optimierte Strategien für die jewei ligen Charakteristiken gelernt werden können.

Im Ergebnis stellt die Erfindung ein Black-Box-Verfahren zur Verfügung, das das Erlernen einer optimierten Steuerstrategie für technische Prozesse mit zeitlich veränderten Charakteri stika ermöglicht. Dabei ermöglicht das erfindungsgemäße Ver fahren grundsätzlich auch eine verbesserte Steuerung des be treffenden technischen Prozesses. Hierzu werden Informationen aus der Beobachtung von Prozeßcharakteristiken verwendet, um den technischen Prozeß zu klassifizieren und um für jede klassifizierte Charakteristik getrennt die Eingabe bzw. das Speichern von optimierten Aktuatorparametern zu ermöglichen. Hierbei werden die Schrittweiten für das Training der einzel nen Charakteristiken in jedem Schritt entsprechend der Ähn lichkeit zu den bereits gespeicherten Aktuatorparametern zu bekannten Charakteristika gewählt. Durch das Zulassen von partiellen Zugehörigkeiten zu mehreren Charakteristiken wird implizit ein Fuzzy-Q-Learning über den Raum der Prozeßcharak teristiken ausgeführt. Durch das Ableiten von initialem Wis sen über die optimierte Steuerung des technischen Prozesses für eine unbekannte Charakteristik wird durch weiteres Trai ning mit verringerter Schrittweite eine Verfeinerung durchge führt. Schließlich kann das gelernte Wissen über den Prozeß durch die Zuordnung zu Charakteristika des Prozesses gezielt zusammengefaßt werden, wobei die zugehörigen optimierten Steuerstrategien mit abgespeichert werden. Dabei wird ein Maß für den durch die Zusammenfassung mehrerer Sätze von Aktua torparametern entstehenden Informationsverlust entwickelt, das als Nebenbedingung in ein sogenanntes "hierarchisches Clustering" eingeführt wird.

Die Erfindung ist in der Zeichnung anhand von Ausführungsbei spielen veranschaulicht.

Fig. 1 zeigt eine schematische Darstellung einer erfin dungsgemäßen Steuerungsvorrichtung zur Steuerung eines technischen Prozesses,

Fig. 2 zeigt eine schematische Darstellung einer ersten Ampelkreuzung, die durch die Steuerungsvorrichtung aus Fig. 1 gesteuert wird,

Fig. 3 ein Fuzzy-Partitionierungsdiagramm von Verkehrs dichtesensoren der Ampelkreuzung aus Fig. 2,

Fig. 4 zeigt ein Pseudocode-Diagramm, daß die Betriebswei se der in Fig. 1 gezeigten Steuerungsvorrichtung veranschaulicht,

Fig. 5 zeigt ein Diagramm, das den Lernfortschritt der Steuerungsvorrichtung aus Fig. 1 in einer ersten Betriebsweise an der Ampelkreuzung aus Fig. 2 ver anschaulicht,

Fig. 6 zeigt eine gemittelte Darstellung des Lernfort schritts des in Fig. 5 gezeigten Diagramms.

Fig. 7 zeigt ein Diagramm, das den Lernfortschritt der Steuerungsvorrichtung aus Fig. 1 an der Ampelkreu zung aus Fig. 2 in der ersten Betriebsweise veran schaulicht, und zwar während des Auftretens eines Unfalls an der Ampelkreuzung,

Fig. 8 zeigt eine gemittelte Darstellung des Lernfort schritts aus Fig. 7,

Fig. 9 zeigt ein Diagramm, das den Lernfortschritt der Steuerungsvorrichtung aus Fig. 1 an der Ampelkreu zung aus Fig. 2 bei erfindungsgemäßer Betriebswei se veranschaulicht, und zwar während des Auftretens eines Unfalls an der Ampelkreuzung,

Fig. 10 zeigt eine gemittelte Darstellung des Lernfor schritts aus Fig. 9,

Fig. 11 zeigt eine schematische Darstellung einer weiteren Ampelkreuzung, die durch die Steuerungsvorrichtung aus Fig. 1 gesteuert wird,

Fig. 12 zeigt ein Diagramm, daß den Lernfortschritt der Steuerungsvorrichtung aus Fig. 1 bei einer ersten Betriebsweise veranschaulicht, wenn sich an der Am pelkreuzung aus Fig. 7 das Abbiegeverhalten än dert,

Fig. 13 zeigt ein Diagramm, daß den Lernfortschritt der Steuerungsvorrichtung aus Fig. 1 an der Ampelkreu zung aus Fig. 7 veranschaulicht, wenn die Steue rungsvorrichtung erfindungsgemäß betrieben wird, und zwar bei mehreren Wechseln des Abbiegeverhal tens an der Ampelkreuzung aus Fig. 7.

Fig. 1 zeigt eine schematische Darstellung einer erfindungs gemäßen Steuerungsvorrichtung 1.

Die Steuerungsvorrichtung 1 gliedert sich in eine Steuerungs einheit 2, in einen Aktuator 3, der auf einen technischen Prozeß 4 einwirkt und diesen beeinflußt, sowie in einen Sen sor 5, der vom technischen Prozeß 4 Prozeßzustände abtastet und an die Steuerungseinheit 2 zurückführt.

Die Steuerungseinheit 2 hat eine abschaltbare Datenbank 6 zur Speicherung von Charakteristiken des technischen Prozesses 4 sowie zur Speicherung von Sätzen von Aktuatorparametern zur Betätigung des Aktuators 3. Die Sätze von Aktuatorparametern werden auch als "Q-Faktoren" bezeichnet.

Innerhalb der Steuerungseinheit 2 laufen ein abschaltbarer Klassifikationsprozeß 7, ein abschaltbarer Lernprozeß 8 und ein abschaltbarer Gruppierungsprozeß 9 ab, die als hier nicht näher veranschaulichte EDV-Programme ausgebildet sein können.

Der Klassifikationsprozeß 7 empfängt vom Sensor 5 Rückmel dungssignale über Prozeßzustände des technischen Prozesses 4. Der Klassifikationsprozeß 7 überprüft anhand der Rückmeldun gen des Sensors 5 durch Vergleich mit Datensätzen in der Da tenbank 6, ob der technische Prozeß 4 momentan einer bekann ten oder einer unbekannten Charakteristik folgt. Falls der technische Prozeß 4 einer bekannten Charakteristik folgt, entnimmt der Klassifikationsprozeß 7 der Datenbank 6 einen zugehörigen Satz von abgespeicherten Aktuatorparametern und übermittelt diesen Satz von Aktuatorparametern an den Lern prozeß 8. Falls der Klassifikationsprozeß 7 das Vorliegen ei ner noch nicht bekannten Charakteristik ermittelt, wählt der Klassifikationsprozeß 7 einen oder mehrere ähnliche Charakte ristika aus der Datenbank 6 aus und übermittelt diese inklu sive der jeweils dazugehörigen Sätze von Aktuatorparametern an den Lernprozeß 8. Der Lernprozeß 8 steuert auf der Basis der vom Klassifikationsprozeß 7 aus der Datenbank 6 ausge wählten Sätze von Aktuatorparametern den Aktuator 3 an, der wiederum Einfluß auf den technischen Prozeß 4 nimmt. Der Lernprozeß 8 führt dabei ein heuristisches Lernverfahren aus, das den momentan verwendeten Satz von Aktuatorparametern im Hinblick auf die ihm vom Sensor 5 übermittelten Rückmeldungen vom technischen Prozeß 4 optimiert.

Der Lernprozeß 8 speichert die als optimiert erkannten Aktua torparametern zu einer erkannten Charakteristik des techni schen Prozesses 4 in der Datenbank 6 ab, bevor nach Erkennen einer neuen Charakteristik des technischen Prozesses 4 mit dem Lernen und Ausführen auf der Basis von neuen Aktuatorpa rametern begonnen wird.

Der Gruppierungsprozeß 9 überprüft in regelmäßigen Abständen die Datenbank 6 auf das Vorhandensein von Datensätzen, die zur Vermeidung von Redundanz innerhalb der Datenbank 6 zusam menfaßbar sind.

Fig. 2 zeigt eine schematische Darstellung einer Straßen kreuzung 10, an der sich eine vertikale Straße 11 mit einer horizontalen Straße 12 schneidet. Der Schnittpunkt der verti kalen Straße 11 und der horizontalen Straße 12 bildet dabei einen Kreuzungsraum 13. Die Straßenkreuzung 10 wird durch die hier nicht dargestellte Steuerungsvorrichtung 1 aus Fig. 1 gesteuert, wobei der zu steuernde technische Prozeß 4 im vor liegenden Fall mit der Straßenkreuzung 10 übereinstimmt.

Auf der vertikalen Straße 11 findet nur Verkehr aufgrund von Fahrzeugen in einer Y-Richtung von oben nach unten statt. Auf der horizontalen Straße 12 findet nur Verkehr durch Fahrzeuge in einer X-Richtung von links nach rechts statt.

Weiterhin wird angenommen, daß diejenigen Fahrzeuge, die die vertikale Straße 11 befahren, nicht in die horizontale Straße 12 abbiegen und umgekehrt. Vielmehr bleiben alle die Straßen kreuzung 10 passierenden Fahrzeuge auf derjenigen Straße, auf der sie fahren.

In der Richtung des Verkehrs der vertikalen Straße 11 sind vor dem Kreuzungsraum 13 ein erster Verkehrsdichtesensor 14 und ein zweiter Verkehrsdichtesensor 15 angeordnet. In der Richtung des Verkehrs auf der vertikalen Straße 11 nach dem Kreuzungsraum 13 ist ein dritter Verkehrsdichtesensor 16 an geordnet.

In der Richtung des Verkehrs auf der horizontalen Straße 12 sind vor dem Kreuzungsraum 13 ein vierter Verkehrsdichtesen sor 17 und ein fünfter Verkehrsdichtesensor 18 angeordnet. In der Richtung des Verkehrs auf der horizontalen Straße 12 ist schließlich nach dem Kreuzungsraum 13 ein sechster Verkehrs dichtesensor 19 vorgesehen.

Schließlich ist auf der horizontalen Straße 12 im Bereich vor dem Kreuzungsraum 13 und dem Bereich nach dem fünften Ver kehrsdichtesensor 18 ein typischer Unfallort 20 durch ein Symbol "X" eingezeichnet, an dem ein Verkehrsunfall auftreten kann, der zur Verminderung der Verkehrsleitfähigkeit der ho rizontalen Straße 12 führt.

Weiterhin sind in dieser Ansicht nicht gezeigte Verkehrsam peln vorgesehen, die als durch die Steuerungseinheit 2 betä tigbare Aktuatoren ausgebildet sind. Die Verkehrsampeln kön nen zwischen den Signalbildern "rot", "rot-gelb", "grün" und "gelb" hin- und herschalten. Die Verkehrsampeln sind so ange ordnet, daß der auf der vertikalen Straße 11 bzw. auf der ho rizontalen Straße 12 ablaufende Straßenverkehr die Verkehrs ampeln wahrnehmen kann.

Die Verkehrsdichtesensoren 14 bis 19 liefern jeweils ein Sen sorsignal ρ als Verkehrsdichten, wobei es Zustände innerhalb eines Intervalls [0; ρ_max] einnehmen kann. Dabei mißt der je weilige Verkehrsdichtesensor 14 bis 19 die räumliche Dichte innerhalb einer vorgegebenen Meßstrecke, die auch in der Ein heit "Kraftfahrzeuge pro Meter" angebbar ist.

Fig. 3 zeigt ein Diagramm, das die Diskretisierung der Si gnale der Verkehrsdichtesensoren 14 bis 19 veranschaulicht. Eine solche Diskretisierung wird zur Anwendung bei heuristi schen Lernverfahren gebraucht, die insbesondere mit digitalen Rechnern durchgeführt werden.

Auf der horizontalen Achse ist die normierte Verkehrsdichte ρ/ρ_max angegeben, die der betreffende Verkehrsdichtesensor mißt. Die normierte bzw. relative Verkehrsdichte ρ/ρ_max bewegt sich dabei im Intervall [0; 1]. In Richtung der vertikalen Achse sind insgesamt fünf Ausgabekurven von normierten Aus gangswerten angegeben, die eine "Fuzzy-Partitionierung" bil den, aus der sich die Rückmeldungen an den Lernprozeß 8 erge ben.

Dabei gibt es eine erste Ausgabekurve vs, die für relative Verkehrsdichten ρ/ρ_max im Intervall [0; 0,1] einen konstanten Wert von "1" liefert. Für relative Verkehrsdichten ρ/ρ_max im Intervall [0,1; 0,2] liefert die Ausgabekurve vs einen Ausga bewert im Intervall [1; 0]. Für relative Verkehrsdichten ρ/ρ_max größer als 0,2 liefert die Ausgabekurve vs einen kon stanten Wert "0". Die Ausgabekurve vs steht für sehr geringe relative Verkehrsdichten "very small".

Die in dem Diagramm von Fig. 3 gezeigte Ausgabekurve s lie fert für relative Verkehrsdichten ρ/ρ_max im Intervall [0; 0,1] einen konstanten Ausgabewert von "0". Für relative Verkehrs dichten ρ/ρ_max im Intervall [0,1; 0,2] liefert die Ausgabekur ve s Ausgabewerte im Intervall [0; 1]. Für relative Verkehrs dichten ρ/ρ_max im Intervall [0,2; 0,3] liefert die Ausgabekur ve s Ausgabewerte im Intervall [1; 0]. Für relative Verkehrs dichten ρ/ρ_max größer als 0,3 liefert die Ausgabekurve s einen Ausgabewert von konstant "0". Die Ausgabekurve s steht für geringe relative Verkehrsdichten "small".

Die in dem Diagramm von Fig. 3 gezeigte Ausgabekurve m lie fert für relative Verkehrsdichten ρ/ρ_max im Intervall [0; 0,2] einen konstanten Ausgabewert von "0". Für relative Verkehrs dichten im Intervall [0,2; 0,3] liefert die Ausgabekurve m Ausgabewerte im Intervall [0; 1]. Für relative Verkehrsdich ten ρ/ρ_max im Intervall [0,3; 0,4] liefert die Ausgabekurve m Ausgabewerte im Intervall [1; 0]. Für relative Verkehrsdich ten ρ/ρ_max größer als 0,4 liefert die Ausgabekurve s einen Ausgabewert von konstant "0". Die Ausgabekurve m steht für mittlere relative Verkehrsdichten "medium".

Die in dem Diagramm von Fig. 3 gezeigte Ausgabekurve h lie fert für relative Verkehrsdichten ρ/ρ_max im Intervall [0; 0,3] einen konstanten Ausgabewert von "0". Für relative Verkehrs dichten ρ/ρ_max im Intervall [0,3; 0,4] liefert die Ausgabekur ve h Ausgabewerte im Intervall [0; 1]. Für relative Verkehrs dichten ρ/ρ_max im Intervall [0, 4; 0, 5] liefert die Ausgabekur ve h Ausgabewerte im Intervall [1; 0]. Für relative Verkehrs dichten ρ/ρ_max größer als 0,5 liefert die Ausgabekurve s einen Ausgabewert von konstant "0". Die Ausgabekurve h steht für hohe relative Verkehrsdichten "high".

Schließlich gibt es eine Ausgabekurve vh, die für relative Verkehrsdichten ρ/ρ_max im Intervall [0; 0,4] einen konstanten Wert von "0" liefert. Für relative Verkehrsdichten ρ/ρ_max im Intervall [0,4; 0,5] steigt der Wert von "0" auf "1" an. Für relative Verkehrsdichten ρ/ρ_max größer als 0,5 liefert die Ausgabekurve vh einen konstanten Wert "1". Die Ausgabekurve vh steht für sehr große relative Verkehrsdichten "very high".

Im nachfolgenden wird beschrieben, wie die in Fig. 2 gezeig te Straßenkreuzung 10 mit Hilfe der Steuerungsvorrichtung 1 auf den auftretenden Straßenverkehr hin angepaßt und opti miert wird. Hierzu wird im Lernprozeß 8 ein sogenannter CCR- Algorithmus angewendet.

Für das durch den CCR-Algorithmus ("CCR" = "Characterizing and Clustering of Reinforcement Signals") zu lösende Optimie rungsproblem wird angenommen, daß die Straßenkreuzung 10, an der eine Steuerung der Verkehrsampeln durchgeführt werden soll, fest vorgegeben ist. Die Verkehrsnachfrage sei in Form einer Menge von Verkehrsströmen auf der vertikalen Straße 11 und auf der horizontalen Straße 12 vorgegeben, die jeweils durch das Verkehrsaufkommen in Form der Anzahl der fahrenden Fahrzeuge und deren zeitliche Verteilung gegeben ist. Weiter hin sei für die Straßenkreuzung 10 eine Menge zulässiger Si gnalbilder der Verkehrsampeln gegeben, wobei eine Menge von zeitlichen Nebenbedingungen an die zulässigen Signalbilder der Verkehrsampeln existiert. Zeitliche Nebenbedingungen sind zum Beispiel durch die Bedingungen an die Reihenfolge der zu lässigen Signalbilder der Verkehrsampeln vorgegeben. So muß beispielsweise auf ein Signal "rot" ein Signal "rot-gelb" folgen. Weiterhin sind Einschränkungen bezüglich der Dauer der jeweiligen Signalbilder gegeben. Zwischen dem Umschalten zwischen zwei Signalbildern der Verkehrsampeln sollen vorbe stimmte Minimalzeiten vergehen. Außerdem darf weder die ver tikale Straße 11 noch die horizontale Straße 12 beliebig lan ge gesperrt werden. Schließlich ist zur Beschreibung der Straßenkreuzung 10 eine endliche Anzahl äquidistanter Zeit punkte vorgegeben, zu denen eine Entscheidung über die je weils an den Verkehrsampeln anzuzeigenden Signalbildern zu treffen ist. Dadurch wird das Optimierungsproblem zeitlich diskretisiert.

Bei dem Problem der Optimierung der Straßenkreuzung 10 han delt es sich um ein Problem, bei dem die nacheinander zu treffenden Entscheidungen über die anzuzeigenden Signalbilder der Verkehrsampeln voneinander abhängeln. So sind die voll ständig beschriebenen zeitlichen Nebenbedingungen zu berück sichtigen. Darüber hinaus können ungünstige Entscheidungen zu einem früheren Zeitpunkt einen starken Einfluß auf die später erreichbare Störungsqualität des durch die Straßenkreuzung 10 dargestellten technischen Prozesses haben. Werden zum Bei spiel viele Fahrzeuge so in den Kreuzungspunkt von vertikaler Straße 11 und horizontaler Straße 12 eingelassen, daß sie gleichzeitig im Kreuzungsraum 13 ankommen, kann dort zu einem späteren Zeitpunkt ein Aufstauen der Fahrzeuge auch bei einer optimalen Steuerung der Verkehrsampeln nicht mehr verhindert werden.

Das Problem der optimierten Steuerung der Straßenkreuzung 10 ist aufgrund seiner hohen Dimensionalität schwierig zu lösen. Weiterhin kann eine größere Stadt nicht als ein einziger technischer Prozeß sondern nur als eine Menge von technischen Prozessen, die miteinander ein Gesamtsystem bilden, beschrie ben werden. In diesem System hängen die Steuerungsentschei dungen der einzelnen Straßenkreuzungen voneinander ab. In ei nem solchen Fall wird zur Optimierung vorteilhafterweise ein hierarchischer Ansatz genutzt. In den folgenden Ausführungen wird speziell das Modell und die Optimierung der Steuerung der Straßenkreuzung 10 aus Fig. 2 betrachtet. Die Strategie zur optimierten Steuerung der Straßenkreuzung 10 wird dabei besonders vorteilhaft durch sogenanntes Reinforcement-Lernen trainiert. Eine direkte Ableitung eines mathematischen Mo dells für den Verkehrsfluß im Bereich der Straßenkreuzung 10, insbesondere der Übergangswahrscheinlichkeiten zwischen ein zelnen Prozeßzuständen und der Rückmeldungen aus der Steue rung der Straßenkreuzung 10, gestaltet sich nämlich schwie rig.

Der Zustand der Straßenkreuzung 10 wird im wesentlichen durch die Signale der Verkehrsdichtesensoren, durch das momentan aktive Signalbild der Verkehrsampeln und durch die Zeitdauer bestimmt, während der an der Straßenkreuzung 10 bereits das momentane Signalbild der Verkehrsampeln gezeigt wird.

Die Güte der Steuerung der Straßenkreuzung 10, die als Rück meldung an den im Lernprozeß 8 verwendeten Lernalgorithmus verwendet wird, wird als Differenz derjenigen Anzahl der Fahrzeuge, die die Straßenkreuzung 10 bis zum nächsten Ent scheidungszeitpunkt passieren können, und derjenigen Anzahl von Fahrzeugen gebildet, die vor der Straßenkreuzung 10 war ten. Dementsprechend kann auch ein negatives Gütesignal ent stehen, wenn die Anzahl der vor der Straßenkreuzung 10 war tenden Fahrzeuge größer ist als diejenige Anzahl der Fahrzeu ge, die die Kreuzung durchfahren.

Ein Ziel der erfindungsgemäßen Steuerungsvorrichtung und des darin angewendeten Verfahrens besteht darin, für die Straßen kreuzung 10 eine Steuerung zu finden, bei der die Summe der Rückmeldungen über die Zeit maximiert wird, so daß eine maxi male Anzahl von Fahrzeugen die Straßenkreuzung 10 passieren kann.

Fig. 4 zeigt einen Pseudocode, der den zur Steuerung der Steuerungsvorrichtung 1 verwendeten Algorithmus veranschau licht.

Die in dem Algorithmus verwendeten Variablen und Begriffe werden nachfolgend erläutert.

- Obere Indizes e: Während des Trainings werden für jede Charakteristik, die am zu steuernden Prozeß beobachtet wird, eigene Datenstrukturen Q^e(i, u), i ∈ Z, u ∈ U(i) und R^e(i, u), i ∈ Z, u ∈ U(i) in der Datenbank G angelegt. Die einzelnen Datenstrukturen werden durch den oberen In dex e unterschieden.
- Untere Indizes k: Iterationszähler
- ε: Menge der Charakteristiken ε, die am zu steuernden Pro zeß bereits beobachtet wurden.
- i_k: Beobachteter Prozeßzustand des Prozesses in Iteration k.
- u_k: Ausgeführte Steuer-Aktion in Iteration k.
- Z: Menge der Prozeßzustände, die am Prozeß beobachtet werden können.
- U(i): Menge der im Zustand i ausführbaren Steuer- Aktionen.
- g(i_k, u_k, i_k+1): Beobachtete Güte des Prozesses in Iteration k (Reinforcement Signal). Die Güte kann vom Prozeßzustand und der Aktion in Iteration k und dem resultierenden Fol geprozeßzustand abhängen.
- Q-Values Q^e: Q^e(i, u) gibt die erwartete Summe der zukünf tigen Rückmeldungen über die Güte des zu steuernden Pro zesses an, wenn im Zustand i die Aktion u ausgeführt wird, und die Steuerung anschließend optimiert ist. Diese Q-Values werden während des Lernvorgangs trainiert. Aus den Q-Values kann die optimale Steuerung abgeleitet wer den, indem im Zustand i diejenige Aktion u ausgeführt wird, für die Q^e(i, u) maximal wird. Q-Values werden im Q- Learning verwendet.
- R e|k: R e|k (i, u) gibt die erwartete Güte der Ausführung von Aktion u im Zustand i an, wenn sich der Prozeß in der Charakteristik e befindet. Diese Werte werden während des Trainings in der oberen Ebene gelernt und ermöglichen, Veränderungen des Prozesses zu erkennen. Wenn Veränderun gen des Prozesses nicht im Verlauf der Güte der Steuerung sichtbar werden, können auch Übergangswahrscheinlichkei ten zwischen den einzelnen Zuständen gelernt und zur Er kennung von Veränderungen genutzt werden.
- d e|k: Distanz der Charakteristik, die für den Datensatz e gelernt wurde zur Charakteristik des zu trainierenden Prozesses in Iteration k.
- µ µ|k: Zugehörigkeit des Prozesses in Iteration k zur ge lernten Charakteristik e. Die Zugehörigkeit nimmt mit zu nehmender Distanz d e|k ab.

Der in Fig. 4 dargestellte Pseudocode weist insgesamt sieben Blöcke auf, die nachfolgend erläutert werden.

1. Initialisierung (Zeilen 1.-7.): Anfänglich existiert nur ein einziger Datensatz Q^e in der unteren bzw. R^e in der oberen Ebene. In der oberen Ebene werden somit am Anfang die Charakteristika des Prozesses in den ersten Iterati onen gelernt. Wenn sich die Charakteristika des Prozesses später verändern, werden dynamisch weitere Datensätze an gelegt. Der initiale Prozeßzustand i₀ wird bestimmt.
2. Exploration (Zeilen 11.-12.): Die Aktionen u_k ∈ U(i_k) kön nen während des Trainings zufällig ausgewählt werden. Der Folgezustand i_k+1 des Prozesses und die Güte der Steuerung g(i_k, u_k, i_k+1) können anschließend beobachtet werden.
3. Einordnung des Prozesses (Zeilen 14.-17.): Die Ähnlich keit der aktuellen Charakteristik des Prozesses zu den bereits gelernten kann anhand der für die einzelnen Cha rakteristiken trainierten erwarteten Güten R e|k bestimmt werden, indem der Abstand der beobachteten Güten zu die sen bestimmt wird:
Aus diesen Distanzen können folgendermaßen Zugehörigkei ten abgeleitet werden:
so daß die Zugehörigkeit mit zunehmender Distanz abnimmt und die Summe aller Zugehörigkeiten Eins ist. Die Wahl des Fuzzyfier m hängt dabei von der Problemstellung ab: Verändert sich die Umgebung kontinuierlich, so daß zu je dem Zeitpunkt Zugehörigkeiten zu mehreren Umgebungen mög lich sind, können die Zugehörigkeiten echt fuzzy gewählt werden (z. B. m = 2), geht man dagegen von einer diskreten Änderung der Umgebung aus, ist eine scharfe Trennung der Umgebungen sinnvoll (m → 1).
4. Neue Charakteristik (Zeilen 19.-22.): Wenn die aktuelle Charakteristik des Prozesses keine Ähnlichkeit zu einer der gelernten Charakteristiken aufweist (alle Distanzen d e|k größer als ein Schwellwert), wird ein neuer Datensatz für diese neue Charakteristik e' angelegt.
5. Speicherung der Charakteristika des Prozesses: Die erwar teten Güten R^e(i_k, u_k) werden für alle e ∈ ε entsprechend der neuen beobachteten Güte g(i_k, u_k, i_k+1) adaptiert:
Die Schrittweite
der Adaption wird dabei von der Zugehörigkeit µ e|k+1 der aktuellen Charakteristik des Prozesses zu den bereits gelernten Charakteristiken R^e und der Anzahl τ ε|k,_{i_k,u_k} bereits zuvor ausgeführter Adaptionen auf den Feldern R^e(i_k, u_k) bestimmt. Da einerseits die Zu gehörigkeiten µ^e von den erwarteten Güten R^e abhängen, an dererseits aber die R^e in Abhängigkeit der Zugehörigkeiten bestimmt werden, muß für die Konvergenz des gesamten Ver fahrens vorausgesetzt werden, daß sich die Charakteristik des Prozesses so langsam ändert, daß zwischen der Ände rung die R^e gelernt werden können. Diese Forderung ist sinnvoll, da ein beliebig schnell veränderlicher Prozeß prinzipiell nicht sinnvoll gesteuert werden kann.
6. Q-Learning: Hierfür wird ein Reinforcement-Lernverfahren eingesetzt. Hier wird jedoch die Schrittweite der Adapti on der Q-Values Q^e zusätzlich durch die Zugehörigkeiten µ e|k bestimmt, so daß vorzugsweise nur ein Training auf denje nigen Q-Values ausgeführt wird, zu denen die aktuelle Charakteristik des Prozesses paßt. Die Adaption der Q- Values im Q-Learning wird folgendermaßen ausgeführt:
wenn Steueraktion u im Zustand i ausgeführt wurde, dar aufhin ein Übergang in den Zustand j stattgefunden hat, und das Reinforcement Signal g(i, u, j) geliefert wurde. 0 ≦ α < 1 ist eine vom Anwender vorgegebene Konstante, γ eine Lernrate, die während des Lernprozesses von 1 auf 0 gesenkt wird, und µ^e ist die Zugehörigkeit des Prozesses zur Charakteristik e, zu der die Q-Values Q^e gehören. Da der Prozeß zu mehreren Charakteristiken partiell gehören kann, können also die Q-Values mehrerer Charakteristiken parallel (mit entsprechend der Zugehörigkeit verminderter Lernrate) trainiert werden. Wird nun ein neuer Datensatz angelegt, weil der Prozeß zu keiner bekannten Charakteri stik eine Ähnlichkeit aufweist, so wird offensichtlich zunächst nur der neue Datensatz trainiert. Im Laufe der Zeit kann der Prozeß jedoch wieder zu anderen Charakteri stiken Ähnlichkeit bekommen, so daß dann gegebenenfalls mehrere Datensätze parallel trainiert werden.

In den Fig. 5 bis 10 wird der Verlauf der Güte der Steue rung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 über die Zeit dargestellt. Dabei stellen die Angaben auf der X-Achse jeweils die laufende Nummer der Zeitpunkte dar, zu denen eine Entscheidung über das nächste anzulegende Signal bild zu treffen ist.

Die auf der Y-Achse angegebene Güte der Steuerung entspricht der Differenz aus der Anzahl derjenigen Fahrzeuge, die die Straßenkreuzung 10 bis zum nächsten Entscheidungszeitpunkt passieren können und der Anzahl derjenigen Fahrzeuge, die vor der Straßenkreuzung 10 warten. Wie man aus den Fig. 5 bis 10 sieht, bewegt sich der Gütewert in einem Intervall zwi schen ca. -15 und ca. +19.

In Fig. 5, in Fig. 7 und in Fig. 9 ist jeweils der genaue Verlauf der Güte über die Zeit dargestellt, der Schwankungen von ca. +/-3 Fahrzeugen aufweist. Dies ist darauf zurückzu führen, daß bei einer gegebenen Güte der Steuerung der Stra ßenkreuzung 10 durch die Steuerungsvorrichtung 1 nicht bei jedem Entscheidungszeitpunkt dieselbe Regelungsqualität er reicht werden kann.

Die Schwankungen im Verlauf der Güte der Steuerung in Fig. 5, in Fig. 7 und in Fig. 9 sind in den in Fig. 6, Fig. 8 und Fig. 10 gezeigten gemittelten Verläufen der Güte der Steuerung der Straßenkreuzung 10 herausgefiltert.

In Fig. 5 und in Fig. 6 ist der Verlauf der Güte der Steue rung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 dargestellt, bei der ausschließlich der Lernprozeß 8 aktiv ist. Der Klassifikationsprozeß 7, die Datenbank 6 und der Gruppierungsprozeß 9 sind dabei ausgeschaltet. Wie man an dem Verlauf der Güte ab dem Entscheidungszeitpunkt 10 000 sieht, können in einem optimierten Zustand der Steuerungsvorrichtung 1 immer ca. 13 Fahrzeuge mehr die Straßenkreuzung 10 bis zum nächsten Entscheidungszeitpunkt passieren, als Fahrzeuge vor der Straßenkreuzung 10 warten müssen. Dabei ergeben sich deutliche Verbesserungen aus dem Lernverhalten des Lernpro zesses 8 ab dem Entscheidungszeitpunkt 3000 bzw. 10 000, wie am besten in Fig. 6 zu sehen ist.

Fig. 7 und Fig. 8 zeigen eine weitere Entwicklung der Güte der Steuerung durch die Steuerungsvorrichtung 1 der Straßen kreuzung 10 bei einem Lernen des Lernprozesses 8, wobei der Klassifikationsprozeß 7, die Datenbank 6 und der Gruppie rungsprozeß 9 ausgeschaltet sind.

Zum Entscheidungszeitpunkt 5000 wird die horizontale Straße 12 am Unfallort 20 durch einen Unfall verengt, worauf in der Folge die Güte der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 von einem Wert von ca. 12 auf einen Wert von ca. 3 einbricht und durch fortwährendes Lernen wie der auf einen Wert von ca. 5 ansteigt.

Zum Entscheidungszeitpunkt 10 000 wird die horizontale Straße 12 am Unfallort 20 freigegeben, so daß wieder deren ursprüng liche Kapazität vorliegt. Wie man am besten in Fig. 8 sieht, steigt die Güte der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrichtung 1 wieder auf den ursprünglichen Wert von ca. 11 an, bis zum Zeitpunkt 21 000 eine Güte von 13 erreicht wird, die der maximalen Güte der Steuerung gemäß Fig. 5 und Fig. 6 entspricht. Durch das Auftreten des Unfalls während des Lernens des Lernprozesses 8 in der Steuerungsein heit 2 wird also das Erreichen einer optimierten Güte der Steuerung der Steuerungsvorrichtung 1 um 11 000 Entscheidungs zeitpunkte verzögert. Dies wird darauf zurückgeführt, daß die lernende Steuerungsvorrichtung 1 während des Auftretens des Unfalls in den Entscheidungszeitpunkten 5000 bis 10 000 ein Steuerungsverhalten lernt, das nach dem Freigeben der hori zontalen Straße 12 nicht mehr korrekt ist.

Wie man am besten in Fig. 7 sieht, sind die Ausschläge der Güte der Steuerung der Straßenkreuzung 10 zwischen den Ent scheidungszeitpunkten 10 000 und 21 000, also unmittelbar nach dem Freigeben des Unfallorts 20, größer als beim Erreichen des optimierten Zustandes auf dem Entscheidungszeitpunkt 21 000.

Fig. 9 und Fig. 10 veranschaulichen einen Lernvorgang der Steuerungsvorrichtung 1 bei der Steuerung der Straßenkreuzung 10, wobei die Datenbank 6, der Klassifikationsprozeß 7, der Lernprozeß 8 und der Gruppierungsprozeß 9 aktiv sind und das erfindungsgemäße Verfahren ausführen.

Zwischen den Entscheidungszeitpunkten 5000 und 10 000 ist die horizontale Straße 12 durch einen Unfall am Unfallort 20 ver engt, so daß die Kapazität der horizontalen Straße 12 einge schränkt ist. Wie man am besten in Fig. 10 sieht, hat die Güte der Steuerung der Straßenkreuzung 10 zum Entscheidungs zeitpunkt 5000 einen Wert von ca. 11 erreicht, der während der Zeitdauer des Unfalls auf einen Wert von ca. 5 absinkt.

Insofern stimmen die Darstellungen von Fig. 10 und Fig. 8 qualitativ überein. Beim Auftreten des Unfalls zum Entschei dungszeitpunkt 5000 bemerkt die Steuerungseinheit 2, daß der zu steuernde technische Prozeß, nämlich die Straßenkreuzung 10, eine andere Charakteristik aufweist. Dies kann beispiels weise durch den Einbruch der Güte der Steuerung bemerkt wer den, der von dem Klassifikationsprozeß 7 abgetastet wird. Ei ne andere Möglichkeit, eine Änderung der Charakteristik der Straßenkreuzung 10 zu detektieren, besteht in der Beobachtung der Wahrscheinlichkeit, daß innerhalb eines bestimmten Zeit raums nach dem Übergang der betreffenden Verkehrsampel vom Signalbild "rot-orange" zum Signalbild "grün" die gemessene Fahrzeugdichte am vierten Verkehrsdichtesensor 17 und am fünften Verkehrsdichtesensor 18 nicht um wenigstens in dem Maße abnimmt, wie es bei Übergängen zwischen denselben Si gnalbildern zu einem Entscheidungszeitpunkt vor dem Auftreten des Unfalls der Fall war.

Zum Entscheidungszeitpunkt 5000 legt der Lernprozeß 8 in Übereinstimmung mit dem Klassifikationsprozeß 7 einen neuen Satz von Aktuatorparametern für die Verkehrsampeln an und be ginnt den neuen Satz von Aktuatorparametern zu trainieren. Der ursprüngliche Satz von Aktuatorparametern wird in der Da tenbank 6 abgespeichert, und zwar unter einem Merkmal, das die betreffende Charakteristik der Straßenkreuzung 10 kenn zeichnet. Wie man am besten in Fig. 10 sieht, nimmt die Güte aufgrund des Lernvorgangs der Steuerungsvorrichtung 1 bis auf einen Wert von ca. 10 zu, also auf einen höheren Wert als der in der Fig. 8 angegebene entsprechende maximale Wert. Beim Auftreten eines Unfalls wird mit der erfindungsgemäßen Steue rung daher schneller eine höhere Güte der Steuerung der Stra ßenkreuzung 10 erreicht als dies bei abgeschaltetem Klassifi kationsprozeß 7 möglich ist.

Nach dem Freigeben des Unfallorts 20 steigt die Güte der Steuerung der Straßenkreuzung 10 durch die Steuerungsvorrich tung 1 sehr schnell auf den Endwert 13 an, der in Fig. 8 erst zum Entscheidungszeitpunkt 21 000 erreicht wurde. Dies wird damit begründet, daß die in der Datenbank 6 abgespei cherten Parameter zu der Charakteristik der Straßenkreuzung 10 vor dem Auftreten des Unfalls zum Entscheidungszeitpunkt 5000 während des Trainings der Aktuatorparameter für die Cha rakteristik der Straßenkreuzung 10 während des Unfalls zwi schen den Entscheidungszeitpunkten 5000 und 10 000 mittrai niert werden. Damit zeigt das durch die Steuerungsvorrichtung 1 gesteuerte technische System der Straßenkreuzung 10 unmit telbar nach Beendigung des Unfalls ein optimiertes Verhalten, so daß gegenüber der Güte der Steuerung der Straßenkreuzung 10 unmittelbar vor dem Unfall jedenfalls keine Verzögerung im weiteren Lernverhalten entsteht.

Fig. 11 zeigt eine schematische Darstellung einer Straßen kreuzung 30, an der sich eine vertikale Straße 31 mit einer horizontalen Straße 32 schneidet, die in eine erste Abbie gestraße 33 und in eine zweite Abbiegestraße 34 mündet. Die Straßenkreuzung 30 wird durch die hier nicht dargestellte Steuerungsvorrichtung 1 aus Fig. 1 gesteuert, wobei der zu steuernde technische Prozeß 4 im vorliegenden Fall mit der Straßenkreuzung 30 übereinstimmt.

Auf der vertikalen Straße 31 findet nur Verkehr aufgrund von Fahrzeugen in einer Y-Richtung von oben nach unten statt. Auf der horizontalen Straße 32 findet nur Verkehr durch Fahrzeuge in einer X-Richtung von links nach rechts statt. Ebenso fin det auf der ersten Abbiegestraße 33 und auf der zweiten Ab biegestraße 34 nur Verkehr durch Fahrzeuge in einer X- Richtung von links nach rechts statt. Weiterhin wird angenom men, daß diejenigen Fahrzeuge, die die vertikale Straße 31 befahren, nicht in die horizontalen Straße 32, in die erste Abbiegestraße 33 bzw. in die zweite Abbiegestraße 34 abbiegen und umgekehrt. Vielmehr bleiben alle die Straßenkreuzung 30 passierenden Fahrzeuge auf derjenigen Straße, auf der sie fahren.

Der Schnittpunkt der vertikalen Straße 31, der horizontalen Straße 32, der ersten Abbiegestraße 33 und der zweiten Abbie gestraße 34 bildet einen Kreuzungsraum 35. In der Richtung des Verkehrs der vertikalen Straße 31 sind vor dem Kreuzungs raum 35 ein erster Verkehrsdichtesensor 36 und ein zweiter Verkehrsdichtesensor 37 angeordnet. In der Richtung des Ver kehrs auf der vertikalen Straße 31 nach dem Kreuzungsraum 35 ist ein dritter Verkehrsdichtesensor 38 angeordnet.

In der Richtung des Verkehrs auf der horizontalen Straße 32 sind vor dem Kreuzungsraum 35 ein vierter Verkehrsdichtesen sor 39 und ein fünfter Verkehrsdichtesensor 40 angeordnet. In der Richtung des Verkehrs auf der ersten Abbiegestraße 33 ist nach dem Kreuzungsraum 35 ein sechster Verkehrsdichtesensor 41 vorgesehen. In der Richtung des Verkehrs auf der zweiten Abbiegestraße 34 ist schließlich nach dem Kreuzungsraum 35 ein siebter Verkehrsdichtesensor 42 vorgesehen.

Schließlich ist auf der ersten Abbiegestraße 33 im Bereich nach dem Kreuzungsraum 35 und nach dem sechsten Verkehrsdich tesensor 41 eine Baustelle 43 als Ventilsymbol eingezeichnet, an der die erste Abbiegestraße 33 verengbar ist, was zur Ver minderung der Verkehrsleitfähigkeit der ersten Abbiegestraße 33 führt. Gleichzeitig wird angenommen, daß der Verkehr auf der horizontalen Straße 32 sein Abbiegeverhalten mit der Zeit ändert, zum Beispiel beim Übergang vom Berufsverkehr zum Ein kaufsverkehr. Diese Informationen werden der Steuerungsvor richtung 1 ausdrücklich nicht mitgeteilt.

Außerdem sind in dieser Ansicht nicht gezeigte Verkehrsampeln vorgesehen, die als durch die Steuerungseinheit 2 betätigbare Aktuatoren ausgebildet sind. Die Verkehrsampeln und die Ver kehrsdichtesensoren 36 bis 42 entsprechen dabei den Verkehrs ampeln und den Verkehrsdichtesensoren 14 bis 19 aus Fig. 2 und Fig. 3.

Im Nachfolgenden wird beschrieben, wie die in Fig. 11 ge zeigte Straßenkreuzung 30 mit Hilfe der Steuerungsvorrichtung 1 auf den auftretenden Straßenverkehr hin angepaßt und opti miert wird. Hierzu wird im Lernprozeß 8 ein sogenannter CCR- Algorithmus angewendet.

Die Randbedingungen für das durch den CCR-Algorithmus zu lö sende Optimierungsproblem entsprechen im wesentlichen denje nigen, die für die Straßenkreuzung 10 gelten.

Ein Ziel der erfindungsgemäßen Steuerungsvorrichtung und des darin angewendeten Verfahrens besteht darin, für die Straßen kreuzung 30 eine Steuerung zu finden, bei der die Summe der Rückmeldungen über die Zeit maximiert wird, so daß eine maxi male Anzahl von Fahrzeugen die Straßenkreuzung 10 passieren kann.

In Fig. 12 und in Fig. 13 wird der Verlauf der Güte der Steuerung der Straßenkreuzung 30 durch die Steuerungsvorrich tung 1 über die Zeit dargestellt. Die Art und Weise der Dar stellung des Verlaufs der Güte der Steuerung der Straßenkreu zung 30 durch die Steuerungsvorrichtung 1 entspricht dabei im wesentlichen derjenigen in den Fig. 5 bis 10.

Der von Q1 kommende Verkehr auf der horizontalen Straße 32 hat zwei Möglichkeiten, aus dem Kreuzungsraum 35 auszufahren, nämlich entweder nach 21 auf der ersten Abbiegestraße 33 oder nach 22 auf der zweiten Abbiegestraße 34. In Richtung des Ziels 21 ist die Kapazität der ersten Abbiegestraße 33 redu ziert, beispielsweise durch die Baustelle 43 oder durch einen Unfall. In der Richtung 22 soll dagegen freier Verkehr auf der zweiten Abbiegestraße 34 herrschen.

In dem vorliegenden Beispiel kann der Verkehr auf der Stra ßenkreuzung 30 in zwei typische Charakteristiken eingeteilt werden, die durch zwei Abbiegeraten OD-A und OD-B vorgegeben sind.

Bei der Abbiegerate OD-A biegen 90% der Fahrzeuge auf der ho rizontalen Straße 32 in die Richtung 22 auf die zweite Abbie gestraße 34 ab, während 10% der Fahrzeuge auf der horizonta len Straße 32 in die Richtung 21 auf die erste Abbiegestraße 33 abbiegen.

Bei der Charakteristik mit der Abbiegebeziehung OD-B biegen 90% der Fahrzeuge der horizontalen Straße 32 in auf die erste Abbiegestraße 33 zum Ziel 21 ab, während 10% des Verkehrs auf der horizontalen Straße 32 in die zweite Abbiegestraße 34 zum Ziel 22 abbiegen.

Bei der Abbiegerate OD-B wird sich der Verkehr auf der hori zontalen Straße 32 stark zurückstauen, so daß der Anteil der Zeit, in der eine horizontale Verbindung des Kreuzungsraums 35 existiert, drastisch reduziert werden muß. Die Abbiegerate ist kein expliziter Eingabeparameter für die Steuerungsvor richtung 1. Die Abbiegerate muß daher als versteckter Parame ter angesehen werden, der im Laufe der Zeit den zu steuernden Prozeß, nämlich die Straßenkreuzung 30, verändert.

In Fig. 12 ist der Verlauf der Güte der Steuerung der Stra ßenkreuzung 30 durch die Steuerungsvorrichtung 1 dargestellt, bei der ausschließlich der Lernprozeß 8 aktiv ist. Der Klas sifikationsprozeß 7, die Datenbank 6 und der Gruppierungspro zeß 9 sind dabei ausgeschaltet. Ab dem Entscheidungszeitpunkt 5000 herrscht die Abbiegerate OD-B. Vom Entscheidungszeit punkt 0 bis zum Entscheidungszeitpunkt 5000 herrscht die Ab biegerate OD-A.

Wie man an dem Verlauf der Güte der Steuerung durch die Steuerungsvorrichtung 1 in Fig. 12 sieht, können in einem optimierten Zustand die Steuerungsvorrichtung 1 immer zwi schen 20 und 29 Fahrzeuge mehr die Straßenkreuzung 30 bis zum nächsten Entscheidungszeitpunkt passieren, als Fahrzeuge vor der Straßenkreuzung 30 warten müssen.

Zwischen dem Entscheidungszeitpunkt 5000 und dem Entschei dungszeitpunkt 6000, also kurz nachdem sich die Abbiegerate drastisch geändert hat, bricht die Güte der Steuerungsvor richtung 1 auf einen Wert von ca. 10 ein, so daß nur noch zehn Fahrzeuge mehr die Straßenkreuzung 30 bis zum nächsten Entscheidungszeitpunkt passieren können, als Fahrzeuge vor der Straßenkreuzung 30 warten müssen.

Es konnte beobachtet werden, daß die Verkehrsampel der hori zontalen Straße 32 nach dem Wechsel der Abbiegebeziehung von OD-A nach OD-B auf das konstante Signalbild "grün" schaltet. Dies ist darauf zurückzuführen, daß die Steuerungsvorrichtung 1 den Wechsel der Charakteristik des Verkehrs nicht bemerkt und nach wie vor die gelernten Aktuatorparameter bei der al ten Abbiegebeziehung OD-A verwendet. Die Aufstauung des Ver kehrs vor dem Ziel 21 in den Kreuzungsraum 30 hinein bewirkt schließlich, daß von dem vierten Verkehrsdichtesensor 39 und von dem fünften Verkehrsdichtesensor 40 ein "starker Verkehr" auf der horizontalen Straße 32 gemeldet wird, den die Steue rungsvorrichtung 1 durch Durchlassen des Verkehrs der hori zontalen Straße 32 durch den Kreuzungsraum 35 abzubauen ver sucht, indem die zugehörigen Verkehrsampeln das Signalbild "grün" annehmen. Diese Reaktion ist falsch, weil die Ver kehrsstauung nicht durch die Straßenkreuzung 30 selbst, son dern durch den Engpaß an der Baustelle 43 hinter dem Kreu zungsraum 35 verursacht wird. Die zeitliche Verzögerung des Einbruchs der Güte der Steuerung der Straßenkreuzung 30 durch die Steuerungsvorrichtung 1, die in Fig. 12 dargestellt wird, stellt gerade diejenige Zeit dar, die die Fahrzeuge bei der neuen Abbiegerate OD-B benötigen, um in das durch die Straßenkreuzung 30 dargestellte Szenario einzufahren, und die vergeht, bis der Stau vor der Baustelle 43 bis in den Kreu zungsraum 35 hineinreicht. Das starke Schwanken der Güte der Steuerungsvorrichtung 1 vor dem Wechsel der Abbiegerate ist darauf zurückzuführen, daß auch bei optimaler Steuerung nicht in jedem Zustand der Straßenkreuzung 30 die gleiche Güte der Steuerung erreicht werden kann. So können während des Signal bilds "gelb" keine Fahrzeuge den Kreuzungsraum 30 passieren.

Fig. 13 zeigt eine weitere Entwicklung der Güte der Steue rung durch die Steuerungsvorrichtung 1 der Straßenkreuzung 30 bei einem Lernen des Lernprozesses 8, wobei der Klassifikati onsprozeß 7, die Datenbank 6 und der Gruppierungsprozeß 9 ak tiv sind und das erfindungsgemäße Verfahren ausführen.

Jeweils zwischen den Entscheidungszeitpunkten 1000 und 2000 bzw. 3000 und 4000 ist die Baustelle 43 verengt, so daß die Kapazität der ersten Abbiegestraße 33 eingeschränkt ist. Die Güte der Steuerung der Straßenkreuzung 30 erreicht bei der Abbiegerate OD-A einen gemittelten Wert von ca. 24, während die Güte der Steuerung der Straßenkreuzung 30 bei der Abbie gerate OD-B einen gemittelten Wert von ca. 18 erreicht.

Kurz nach dem Wechseln der Abbiegerate an der Straßenkreuzung 30 bemerkt die Steuerungseinheit 2, daß der zu steuernde technische Prozeß, nämlich die Straßenkreuzung 30, eine ande re Charakteristik aufweist. Dies kann beispielsweise durch den Einbruch der Güte der Steuerung bemerkt werden, der je weils von dem Klassifikationsprozeß 7 abgetastet wird. Eine andere Möglichkeit, eine Änderung der Charakteristik der Straßenkreuzung 30 bei der Änderung der Abbiegewahrschein lichkeit zu detektieren, besteht in der Wahrscheinlichkeit, daß innerhalb eines bestimmten Zeitraums nach dem Übergang der betreffenden Verkehrsampel vom Signalbild "rot-gelb" zum Signalbild "grün" die gemessene Verkehrsdichte am vierten Verkehrsdichtesensor 39 und am fünften Verkehrsdichtesensor 40 nicht um wenigstens in dem Maße abnimmt, wie es bei Über gängen zwischen denselben Signalbildern zu einem Entschei dungszeitpunkt vor dem Auftreten der Änderung der Abbiegerate der Fall war.

Jeweils beim Detektieren einer bisher unbekannten Änderung der Charakteristik der Straßenkreuzung 30 legt der Lernprozeß 8 in Übereinstimmung mit dem Klassifikationsprozeß 7 einen neuen Satz von Aktuatorparametern für die Verkehrsampeln an und beginnt, den neuen Satz von Aktuatorparametern zu trai nieren. Der jeweils andere Satz von Aktuatorparametern wird in der Datenbank 6 abgespeichert, und zwar unter einem Merk mal, das die betreffende Charakteristik der Straßenkreuzung 30 kennzeichnet. Somit können zu einem späteren Zeitpunkt be kannte Charakteristiken weitertrainiert werden.

In Fig. 10 wechseln die Abbiegeraten sogar mehrfach. Man kann beobachten, daß der Wechsel der Güte der Steuerung er kannt wird und die Steuerungsvorrichtung lernt, sich in der veränderten Umgebung korrekt zu verhalten. Der auch hier noch vorhandene kleine Einbruch der Güte bei der Abbiegerate OD-B von "24" auf "18" ist darauf zurückzuführen, daß auch bei ei ner optimierten Steuerung der Steuerungsvorrichtung 1 auf grund des Engpasses vor dem Ziel 21 insgesamt weniger Fahr zeuge die Straßenkreuzung 30 passieren können, als bei der Abbiegerate OD-A.

Bei jedem detektierten Wechsel der momentanen Charakteristik der Straßenkreuzung 30 wird ein betreffender neuer bzw. be kannter anderer Satz von Aktuatorparametern für die Steuerung der Steuerungseinheit 2 verwendet. Der jeweils andere, opti mierte Satz von Aktuatorparametern wird in der Datenbank 6 gespeichert. Dadurch ist gewährleistet, daß die Aktuatorpara meter immer für diejenige Abbiegebeziehung bzw. Charakteri stik der Straßenkreuzung 30 optimiert werden, die jeweils vorhanden ist. Eine fehlerhafte Optimierung wird dadurch ver mieden.

Claims

1. Steuerungsvorrichtung zur Steuerung eines durch Aktuato ren beinflußbaren technischen Prozesses (4; 10; 30) mit einer Steuerungseinheit (2), mit wenigstens einem Aktua tor (3) und mit wenigstens einem Sensor (5; 14-19; 36- 42), wobei der Prozeß die folgenden Merkmale aufweist:

- der Prozeß (4; 10; 30) weist wenigstens zwei Charakte ristiken innerhalb eines charakteristischen Prozeß raums auf,
- der Prozeß (4; 10; 30) weist bei wenigstens einer Cha rakteristik wenigstens zwei unterschiedliche Prozeßzu stände auf,

wobei die Steuerungseinheit (2) die folgenden Merkmale aufweist:

- die Steuerungseinheit (2) ist so ausgebildet, daß Pro zeßzustände wenigstens teilweise anhand von Sensorsi gnalen des Sensors (3) bzw. der Sensoren (14-19; 36- 42) abtastbar sind,
- die Steuerungseinheit (2) ist so ausgebildet, daß be stimmbar ist, welche Charakteristik der Prozeß (4; 10; 30) momentan aufweist,
- die Steuerungseinheit (2) ist so ausgebildet, daß der Aktuator (3) bzw. die Aktuatoren unter Anwendung von in der Steuerungseinheit (2) gespeicherten Aktuatorpa rametern betätigbar ist bzw. sind,
- die Steuerungseinheit (2) ist so ausgebildet, daß zu je einer Charakteristik wenigstens ein Satz von Aktua torparametern abspeicherbar ist.

2. Steuerungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Steuerungseinheit (2) so ausgebildet ist, daß für den Fall, daß eine der Steuerungseinheit (2) unbekannte Cha rakteristik vorliegt, anhand der abgetasteten Prozeßzu stände zu der unbekannten Charakteristik wenigstens ein Satz von neuen Aktuatorparametern ermittelbar und/oder abspeicherbar ist.

3. Steuerungsvorrichtung nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, daß die Steuerungseinheit (2) so ausgebildet ist, daß die in der Steuerungseinheit (2) gespeicherten Aktuatorparameter zu mehreren Charakteristiken zur Verminderung der Haltung von redundanten Daten reorganisierbar sind.

4. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der technische Prozeß als durch wenigstens eine Verkehrs ampel gesteuertes, durch Fahrzeuge und/oder Fußgänger be nutztes Fahrstraßenstück (10; 30) ausgebildet ist, wobei die Aktuatoren als Verkehrsampeln ausgebildet sind und/oder wobei die Sensoren als Verkehrsdichtesensoren (14-19; 36-42) ausgebildet sind.

5. Verfahren zur Steuerung eines durch Aktuatoren beinfluß baren technischen Prozesses (4; 10; 30), wobei der Prozeß (4; 10; 30) die folgenden Merkmale auf weist:

wobei das Verfahren das schleifenartige Wiederholen der folgenden Schritte a) bis c) aufweist:

a) Abtasten des momentanen Prozeßzustands mit Sensorsi gnalen wenigstens eines Sensors (3; 14-19; 36-42),
b) Bestimmen, welche Charakteristik der Prozeß (4; 10; 30) momentan aufweist, und zwar anhand der abgetaste ten Sensorsignale,
c) Betätigen des Aktuators (3) bzw. der Aktuatoren gemäß dem bestimmten Prozeßzustand unter Anwendung von Ak tuatorparametern gemäß der anhand der abgetasteten Sensorsignale bestimmten Charakteristik,

wobei vor dem Wiederholen der Schritte a) bis c) der Schritt des Abspeicherns je wenigstens eines Satzes von Aktuatorparametern zu wenigstens einer vorbestimmten Cha rakteristik vorgesehen ist.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß für den Fall, daß zu einer anhand der abgetasteten Sen sorsignale bestimmten Charakteristik keine Aktuatorpara meter vorhanden sind, anhand der abgetasteten Prozeßzu stände zu dieser als unbekannt bestimmten Charakteristik wenigstens ein Satz von neuen Aktuatorparametern ermit telt wird.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Satz von neuen Aktuatorparametern abgespeichert wird.

8. Verfahren nach Anspruch 6 oder Anspruch 7, dadurch gekennzeichnet, daß bei dem Ermitteln eines Satzes von neuen Aktuatorparame tern ein insbesondere heuristisches Lernverfahren verwen det wird.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß als Ausgangspunkt für das Lernverfahren ein Satz von Ak tuatorparametern einer bekannten Charakteristik verwendet wird.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß als Ausgangspunkt für das Lernverfahren ein Satz von Ak tuatorparametern einer der als unbekannt bestimmten Cha rakteristik nahekommenden Charakteristik verwendet wird.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß das Lernverfahren unter Anwendung von Iterationsschritten durchgeführt wird, wobei beim Vorliegen einer großen Ähn lichkeit zwischen der als unbekannt bestimmten Charakte ristik und der nahekommenden Charakteristik das Lernver fahren mit kleineren Iterationsschritten begonnen wird als beim Vorliegen einer kleinen Ähnlichkeit zwischen der als unbekannt bestimmten Charakteristik und der nahekom menden Charakteristik.

12. Verfahren nach einem der Ansprüche 6 bis 11, dadurch gekennzeichnet, daß der Schritt des Reorganisierens der in der Steuerungsein heit (2) gespeicherten Aktuatorparameter zu mehreren Cha rakteristiken zur Verminderung der Haltung von redundan ten Daten vorgesehen ist.

13. Verfahren nach einem der Ansprüche 5 bis 12, dadurch gekennzeichnet, daß das Verfahren an einem technischen Prozeß ausgeführt wird, der als durch wenigstens eine Verkehrsampel gesteu ertes, durch Fahrzeuge oder Fußgänger benutztes Fahrstra ßenstück (10; 30) ausgebildet ist, wobei die Aktuatoren als Verkehrsampeln ausgebildet sind und/oder wobei die Sensoren als Verkehrsdichtesensoren (14-19; 36-42) ausge bildet sind.