DE19628736A1

DE19628736A1 - Adaptiver, Stützpunkt-basierter Neuroregler

Info

Publication number: DE19628736A1
Application number: DE1996128736
Authority: DE
Inventors: Detlef Arend
Original assignee: Detlef Arend
Current assignee: AREND, DETLEF, 25469 HALSTENBEK, DE
Priority date: 1996-07-17
Filing date: 1996-07-17
Publication date: 1998-01-22

Description

Bei der Erfindung handelt es sich um einen adaptiven Neuroregler, der aufgrund seiner Architektur in Verbin dung mit speziellen Umsetzungen der aus der Neuroinformatik bekannten Lernprinzipien ein gegenüber dem Stand der Technik wesentlich verbessertes Adaptionsverhalten aufweist.

Der Anordnung liegt hierbei die folgende Überlegung zugrunde:

Ein Regler ermittelt anhand eines Regeldifferenzvektors x∈^e einen Stellgrößenvektor y∈a. Er repräsentiert also formal die technische Realisierung einer Abbildung der Form f: ^e→a, wobei e und a zwei natürliche Zahlen sind.

Bei der Erfindung wird für f eine Stützpunkt-basierte Abbildung eingesetzt. Diese läßt sich formal wie folgt beschreiben:

Definition 1 Stützpunkt-basierte Abbildung

Gegeben sei eine n-elementige Stützpunktmenge S = {(x₁, y₁), . . ., (x_n, y_n)} mit den Stützstellen x₁, . . ., x_n∈^e und den Stützordinaten y₁, . . ., y_n∈a. Die Abbildung f heißt Stützpunkt-basiert, wenn sie von S abhängig ist. Sie sollte möglichst viele der folgenden Axiome erfüllen.

A1. f ist bzgl. S exakt oder formal:

A2. f ist durch S beschränkt oder formal:

A3. f ist stetig.
A4. f ist differenzierbar.

Ausgehend von einer solchen Abbildung f lassen sich die neuronalen Lernprinzipien des verstärkenden und unüberwachten Lernens [1] derart reformulieren, daß sie allein auf der Stützpunktmenge S operieren. Zunächst ist es jedoch notwendig, den sogenannten Abstandskoeffizienten zu definieren.

Definition 2 Abstandskoeffizient

Gegeben sei eine Stützpunktmenge S, wie in Definition 1 beschrieben. Ferner sei ein beliebiges x∈^e gegeben. Der Term α_i, heißt Abstandskoeffizient des i-ten Stützpunktes aus S, wenn α vom vektoriellen Abstand zwi schen x und der i-ten Stützstelle x_i abhängt. Der Abstandskoeffizient ist somit eine Stützpunkt-basierte Abbil dung. Die folgenden Axiome dienen der weiteren Klassifizierung.

B1. der Abstandskoeffizient α_i ist normiert oder formal: α_i(x) ∈ [0,1]
B2. die Gesamtheit der Abstandskoeffizienten α₁, . . ., α_n ist normiert oder formal:

B3. der Abstandskoeffizient α_i ist umgekehrt-proportional oder formal:

B4. der Abstandskoeffizient α_i ist stetig
B5. der Abstandskoeffizient α_i ist differenzierbar

Bemerkung zu Definition 1 und Definition 2

Bzgl. einer Stützpunktmenge S mit |S|=n ist die Gesamtheit der Abstandskoeffizienten α₁, . . ., α_n als eine Art von prozentualer Verteilung zu verstehen, sofern die Axiome B1-B4 erfüllt sind. Bei gegebener Eingabe x∈^e gibt der Abstandskoeffizient α_i den Anteil des i-ten Stützpunktes an der durch f zu berechnenden Ausgabe y∈a an. Diese Heuristik ist sicherlich insbesondere dann sinnvoll, wenn f die Axiome A1 und A3 erfüllt.

Die Adaptionsmechanismen des Neuroreglers lassen sich nun wie folgt beschreiben.

Verstärkendes Lernen (reinforcement learning)

Hierbei handelt es sich um den elementaren Adaptionsmechanismus für intelligente Regler (intelligenter Regler; Regler, der auf intelligenten Technologien (Neuronale Netze, Fuzzy Logik, Genetische Algorithmen oder beliebige Kombinationen hieraus) basiert), die in der Arbeits phase autonom ihre Regelungsstrategie verbessern. Dem Regler steht hier eine benutzerdefinierte Bewertungs funktion zur Verfügung, mit deren Hilfe die aktuelle Regelungsstrategie bewertet werden kann. Ziel der Adap tion ist es, die einstellbaren Parameter des Reglers so zu ändern, daß beim nächsten Auftreten derselben Situati on die Bewertungsfunktion einen besseren Wert liefert. Hierzu wird eine vom Regler ermittelte Stellgröße mit einer additiven Zufallszahl verrauscht. Führt eine Verrauschung zu einer besseren Bewertung, wird sie fest übernommen.

Bei dieser allgemeinen Vorgehensweise handelt es sich um einen stochastischen Suchprozeß, der dem Zufall unterliegt. Sie ist also naturgemäß nicht sehr zielgerichtet.

Im Gegensatz dazu kann für den Stützpunkt-basierten Neuroregler (f_S: ^e→a, S) eine sehr zielgerichtete Vari ante des verstärkenden Lernens angegeben werden. Hierzu wird eine Bewertungsfunktion h: ^e→a vorausge setzt, die ausgehend von einem Regelungsfehlervektor x∈^e angibt, in welche Richtung die Komponenten des Stellgrößenvektors verschoben werden müssen. Eine solche Bewertungsfunktion kann i.d.R. leicht formuliert werden.

Für jeden diskreten Zeitpunkt t ist der Arbeitszyklus des Neuroreglers dreigeteilt:

Algorithmus 1: Adaption der Stützordinaten während der Regelung

1. Berechnung aller Abstandskoeffizienten α₁(x[t]), . . ., α_n(x[t])
2. Adaption aller n Stützordinaten aus S nach der Vorschrift y_i[t] = y_i[t-1] + α_i · b(x[t]) · β(wobei β eine benutzerdefinierte Lernkonstante <0 ist)
3. Berechnung des Stellgrößenvektors y[t] = f_S(x[t])

Die Besonderheit dieses speziellen Adaptionsverfahrens ist die Tatsache, daß in jedem Arbeitszyklus adaptiert wird, sofern der aktuelle Regelungsfehler x nicht der Nullvektor ist.

Unüberwachtes Lernen (unsupervised learning)

Bei dieser Art des neuronalen Lernens wird lediglich aus der Folge von Eingaben gelernt. Hier ist die Zielset zung, die Wahrscheinlichkeitsdichte des Eingaberaums in geeigneter Form zu kodieren. Dies ist für den Anwen dungsfall der Regelungstechnik dahingehend relevant, daß beispielsweise im Eingabebereich nahe des Rege lungsziels (Koordinatenursprung des Eingaberaums; engl. setpoint) eine erhöhte Empfindlichkeit des Reglers erwünscht wird, während es bei großen Fehlerbeträgen nicht unbedingt auf Nuancen bei der Bestimmung der Stellgrößen ankommt.

Für den Stützpunkt-basierten Neuroregler kann dies dadurch erreicht werden, daß in jedem Arbeitszyklus die Stützstellen gemäß ihres Einflusses auf die Stellgrößenberechnung ein Stück in die Richtung der aktuellen Ein gabe verschoben werden.

Bei konstanter Wahrscheinlichkeitsdichte im gesamten Eingaberaum werden sich die Stützstellen dementspre chend gleichverteilen. Tatsächlich treten bei einer schon grob richtig arbeitenden Regelung Eingaben gehäuft im Bereich des Regelungsziels auf, so daß hier im Laufe der Adaption die Dichte der Stützstellen zunimmt und sich dadurch auch die Sensitivität des Neuroreglers in diesem Bereich erhöht.

Der um diese Art des Lernens erweiterte Arbeitszyklus des Stützpunkt-basierten Neuroreglers läßt sich für jeden diskreten Zeitpunkt t beschreiben durch:

Algorithmus 2: Adaption der Stützordinaten während der Regelung

1. Berechnung aller Abstandskoeffizienten α₁(x[t]), . . ., α_n(x[t])
2. Adaption aller n Stützordinaten aus S nach der Vorschrift y_i[t] = y_i[t-1] + α_i · b(x[t]) · β(wobei β eine benutzerdefinierte Lernkonstante <0 ist)
3. Adaption aller n Stützstellen aus S nach der Vorschrift x₁[t] = x_i[t-1] + α_i · d_i · γ(wobei γ eine weitere benutzerdefinierte Lernkonstante <0 ist und d_i = x[t]-x_i der Differenzvektor zwischen der aktuellen Eingabe x[t] und der i-ten Stützstelle aus S ist)
4. Berechnung des Stellgrößenvektors y[t] = f_S(x[t])

Tatsächlich ist es für den praktischen Gebrauch noch nicht ausreichend, einen Regler mit guten Adaptionsme chanismen für die Arbeitsphase auszustatten. Schließlich wird niemand einen zunächst gänzlich untrainierten Regler eine technische Anordnung regeln lassen. Daher muß es möglich sein, dem Regler in der Entwurfphase eine A-Priori-Strategie vorzugeben.

Auch hier erweist sich die Erfindung als sehr vorteilhaft. Im wesentlichen besteht nämlich der Entwurf des Stützpunkt-basierten Neuroreglers aus den folgenden Teilproblemen.

1. Festlegung der Anzahl n der Stützpunkte
2. Verteilung der n Stützstellen im Eingaberaum
3. Belegung der n Stützordinaten mit sinnvollen Werten

Zu den ersten beiden Punkten ist nicht viel zu sagen. Die Anzahl der Stützpunkte ist letztlich empirisch zu er mitteln und bzgl. der Verteilung kann gesagt werden, daß es i.A. Sinn macht, die Dichte der Stützstellen zum setpoint hin zunehmen zu lassen.

Für die Belegung der Stützordinaten wird eine Abbildung ^e→a benötigt, die ein im Sinne der Problem stellung (grob) richtiges Verhalten aufweist. Dies kann die Übertragungsfunktion eines verfügbaren Standard reglers sein oder auch ein regelbasiertes Fuzzy-System.

Jede der n Stützordinaten kann nun einfach nach der Vorschrift

y_i = g(x_i) mit i∈ {1, . . ., n}

belegt werden.

Vorteile der Erfindung

Die Erfindung ist überall dort einsetzbar, wo auch Standardregler einsetzbar sind. Das sind alle Anwendungen, bei denen eine ausreichende mathematische Beschreibung der Regelstrecke (Systemidentifikation) vorliegt. Aufgrund der Tatsache, daß in solchen Fällen die Regelstrecke auch leicht mit einem Rechner simuliert werden kann, kann man hier den Stützpunkt-basierten Neuroregler die richtige Regelungsstrategie selbst lernen lassen. Dies dürfte die Entwurfszeiten erheblich verkürzen.

Darüber hinaus ist der Regler hochgradig für komplexe Probleme mit ungenügender mathematischer Beschrei bung geeignet. Hier können qualitative Probleminformationen zur Modellierung eines regelbasierten Fuzzy- Systems herangezogen werden. Letzteres wird wiederum zur Initialisierung der Stützpunkte verwendet und die effizienten neuronalen Adaptionsmechanismen des Reglers optimieren dessen Verhalten autonom in der Ar beitsphase.

Weiterhin kann der Regler für zeitveränderliche Regel strecken, deren Baugruppen z. B. Verschleiß, Verbrauch oder Ablagerungen unterliegen, eingesetzt werden. Hier sorgen die Adaptionsmechanismen für eine automati sche Anpassung des Reglers an die sich wandelnden Gegebenheiten.

Die Effizienz der Adaptionsmechanismen des Stützpunkt-basierten Neuroreglers resultiert aus der Tatsache, daß von einem auftretenden Fehlverhalten direkt auf die behebenden Änderungen an den Stützpunkten ge schlossen werden kann.

Dies steht im Gegensatz zu den Möglichkeiten, die die aktuellen intelligenten Reglerarchitekturen bieten. Bei einem vorwärtsgerichteten neuronalen Netz [1] ist nicht unmittelbar klar, welche Kantengewichte wie verändert werden müssen, um die gewünschte Verhaltensänderung zu bewirken. Bei einem Fuzzy-System ist ein solcher Rückschluß zwar möglich aber mit höherem Aufwand verbunden.

Im übrigen entspricht ein einfaches Fuzzy-System einem vorwärtsgerichteten neuronalen Netz mit fünf Neuro nenschichten (→ ANFIS-Architektur in [2]). Das nachfolgende Ausführungsbeispiel kann aber durch eine vier schichtige, parallele Architektur berechnet werden, so daß sich hier auch in der Verarbeitungsgeschwindigkeit Vorteile ergeben.

Ausführungsbeispiel

Eine sinnvolle Vorschrift für den Abstandskoeffizienten ist z. B.

Hierbei handelt es sich um die stetige Erweiterung des Kehrwert des vektoriellen Abstands zwischen der i-ten Stützstelle und der Eingabe x, geteilt durch die Summe derselben Kehrwerte aller Stützstellen. Der Parameter p ist eine empirische Größe <1.

Ohne Angabe eines Beweises ist anzumerken, daß diese Vorschrift die Axiome B1-B5 erfüllt.

Auf der Basis dieses Abstandskoeffizienten kann nun eine einfache Stützpunkt-basierte Abbildung f_S angegeben werden, die die Axiome A1-A4 erfüllt:

Interessant an diesem Beispiel ist die Doppelrolle des Abstandskoeffizienten, der sowohl zur Berechnung der Stellgrößen als auch zur Adaption der Stützpunkte herangezogen wird.

Der Entwurf der für das verstärkende Lernen benötigten Bewertungsfunktion soll am Anwendungsbeispiel des inversen Pendels veranschaulicht werden. Ziel der Regelung ist hier, einen Stab durch Aufbringen einer geeig neten Kraft am Fußende in der Senkrechten zu halten.

Die Systemdynamik ist durch eine Differenzialgleichung zweiter Ordnung beschreibbar und somit trotz der augenscheinlich simplen Anordnung ein "schwieriges" Regelungsproblem.

Eine Bewertungsfunktion, die in Verbindung mit dem zuvor beschriebenen Ausführungsbeispiel eines Stütz punkt-basierten Neuroreglers in Simulationen am Rechner zu sehr guten Ergebnissen geführt hat, ist die folgende:

wobei ω der Winkel zwischen dem Stab und der Senkrechten und dessen erste Ableitung (Winkelgeschwindigkeit) ist.

Die Summe von Winkel und Winkelgeschwindigkeit wird demnach genau dann als Adaptionsterm benutzt, wenn der Stab fällt. Während der Aufrichtung wird lediglich der Winkelfehler zur Adaption herangezogen.

Literatur

[1] Zell, A.: Simulation Neuronaler Netze, Addison-Wesley, Bonn, 1994
[2] Horikawa, S.; Furuhashi, T.; Uchikawa, Y.: On Fuzzy Modeling Using Fuzzy Neural Networks with the Back-Propagation Algorithm. IEEE Transactions on Neural Networks (Vol. 3, No. 5), 1992

Claims

Adaptiver Regler, der auf einer Stützpunkt-basierten Abbildung gemäß Definition 1 (→ Beschreibung) und Abstandskoeffizienten gemäß Definition 2 (→ Beschreibung) basiert und dessen Adaptionsmechanismus entwe der durch Algorithmus 1 (→ Beschreibung) oder durch Algorithmus 2 (→ Beschreibung) beschreibbar ist.