DE202019100641U1

DE202019100641U1 - Trainingsgerät für KI-Module

Info

Publication number: DE202019100641U1
Application number: DE202019100641.2U
Authority: DE
Original assignee: ABB Schweiz AG
Current assignee: ABB Schweiz AG
Priority date: 2019-02-04
Filing date: 2019-02-04
Publication date: 2019-02-08
Anticipated expiration: 2029-02-05

Abstract

Trainingsgerät (1) für ein KI-Modul (2), wobei das KI-Modul (2) dazu ausgebildet ist, Zustände (31) eines industriellen Prozesses (3) an einem Eingang (21) entgegenzunehmen, diese Zustände (31) durch eine parametrisierte interne Verarbeitungskette (22) auf Entscheidungen (32) für die Fortführung und/oder Zustandsbewertung des industriellen Prozesses (3) abzubilden sowie diese Entscheidungen (32) an einem Ausgang (23) auszugeben, und wobei das Trainingsgerät (1)• einen Problem-Eingang (11) für die dem KI-Modul (2) zugeführten Zustände (31),• ein Lösermodul (12), das ausgehend von einem über den Problem-Eingang (11) erhaltenen Zustand (31) anhand eines mathematischen Modells (12a) des Prozesses (3) eine Referenz-Entscheidung (32a) für die Fortführung und/oder Zustandsbewertung des Prozesses (3) ermittelt dergestalt, dass eine vorgegebene Zielfunktion (12b), die jeder Entscheidung (32) eine Bewertungszahl (33) im Hinblick auf ein oder mehrere Optimierungsziele zuordnet, für die Referenz-Entscheidung (32a) ein Extremum annimmt,• einen Lösungs-Eingang (13) für die vom KI-Modul (2) erzeugten Entscheidungen (32) sowie• einen Komparator (14) umfasst, der eine über den Lösungs-Eingang (13) bezogene Entscheidung (32) und die ausgehend vom gleichen Zustand (31) erzeugte Referenz-Entscheidung (32a) als Eingaben erhält und eine Abweichung (34) zwischen den beiden Entscheidungen (32, 32a) als Ausgabe liefert.

Description

Die Erfindung bezieht sich auf ein Gerät, das den Lernprozess einer zur Steuerung und/oder Zustandsbewertung industrieller Prozesse eingesetzten künstlichen Intelligenz unterstützt.
Stand der Technik
Um komplexe, bislang von Hand vorgenommene Steuerungsaufgaben in industriellen Anlagen zu automatisieren, werden Künstliche-Intelligenz-Module, KI-Module, eingesetzt. Diese KI-Module können beispielsweise künstliche neuronale Netzwerke enthalten. Ein in einem industriellen Prozess eingesetztes KI-Modul erhält typischerweise Informationen, die einen Zustand des Prozesses charakterisieren, als Eingangsgrößen und bildet hieraus mittels einer parametrisierten internen Verarbeitungskette Ausgangsgrößen, die eine Entscheidung des KI-Moduls repräsentieren. Diese Entscheidung kann sich auf eine Bewertung des eingegebenen Zustands beziehen und diesen beispielsweise klassifizieren, und/oder sie kann sich auf eine Aktion beziehen, die im Rahmen des Prozesses als nächstes auszuführen ist.
Ein Beispiel für eine industrielle Anwendung eines KI-Moduls ist in der EP 1 074 306 B1 offenbart. Das KI-Modul liefert in dieser Anwendung Stellgrößen, mit denen die Betriebsparameter einer elektrostatisch betriebenen Lackieranlage so eingestellt werden können, dass ein vorgegebenes Lackierergebnis erzielt wird. KI-Module für solche Anwendungen werden zum großen Teil mit Erfahrungswissen von Prozessbedienern oder anderen empirischen Daten trainiert.
Aufgabe und Lösung
Aufgabe der vorliegenden Erfindung ist, ein Gerät zur Verfügung stellen, mit dem das Training von KI-Modulen für industrielle Anwendungen sowohl vereinfacht als auch im Ergebnis qualitativ verbessert werden kann.
Diese Aufgabe wird erfindungsgemäß gelöst durch ein Trainingsgerät gemäß Hauptanspruch. Weitere vorteilhafte Ausgestaltungen ergeben sich aus den darauf rückbezogenen Unteransprüchen. Das Ergebnis des Trainings ist in einem ebenfalls beanspruchten Datensatz verkörpert.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Trainingsgerät für ein KI-Modul entwickelt. Das KI-Modul kann beispielsweise ein künstliches neuronales Netzwerk, KNN, umfassen. Wie eingangs erläutert, ist das KI-Modul dazu ausgebildet, Zustände eines industriellen Prozesses an einem Eingang entgegenzunehmen, diese Zustände durch eine parametrisierte interne Verarbeitungskette auf Entscheidungen für die Fortführung und/oder Zustandsbewertung des industriellen Prozesses abzubilden sowie diese Entscheidungen an einem Ausgang auszugeben.
Das Training des KI-Moduls erfolgt anhand einer vorgegebenen Menge von Lern-Zuständen. Die Parameter der internen Verarbeitungskette des KI-Moduls werden sukzessive so optimiert, dass das KI-Modul für die vorgegebenen Lern-Zustände Entscheidungen ausgibt, die im Hinblick auf ein beliebiges Kriterium optimal sind. Beispielsweise kann gewünscht sein, dass das KI-Modul jeden Lern-Zustand auf eine zu diesem Lern-Zustand korrespondierende Lern-Entscheidung abbildet.
Das Trainingsgerät ist nun dazu ausgebildet, bei diesem Lernprozess parallel mit dem eigentlichen KI-Modul betrieben und gleichsam in diesen Lernprozess „eingeschleift“ zu werden. Es weist einen Problem-Eingang für die auch dem KI-Modul zugeführten Zustände auf. Weiterhin ist ein Lösermodul vorgesehen, das ausgehend von einem über den Problem-Eingang erhaltenen Zustand anhand eines mathematischen Modells des Prozesses eine Referenz-Entscheidung für die Fortführung und/oder Zustandsbewertung des Prozesses ermittelt. Für dieses Ermitteln wird eine vorgegebene Zielfunktion ausgewertet, die jeder Entscheidung im Hinblick auf ein oder mehrere Optimierungsziele eine Bewertungszahl zuordnet. Die Referenz-Entscheidung ist dahingehend ausgezeichnet, dass die Zielfunktion ihr eine maximale oder minimale Bewertungszahl zuordnet. Sie kann somit über die Suche nach dem Extremum der Zielfunktion aufgefunden werden.
Das Trainingsgerät weist weiterhin einen Lösungs-Eingang für die vom KI-Modul erzeugten Entscheidungen auf. Weiterhin ist ein Komparator vorgesehen, der eine über den Lösungs-Eingang bezogene Entscheidung und die ausgehend vom gleichen Zustand erzeugte Referenz-Entscheidung als Eingaben erhält. Der Komparator liefert eine Abweichung zwischen den beiden Entscheidungen als Ausgabe.
Diese Ausgabe lässt sich in beliebiger Weise nutzen, um die Parameter der internen Verarbeitungskette des KI-Moduls anzupassen. Diese Parameter können also beispielsweise variiert werden mit dem Ziel, die Abweichung zwischen den Entscheidungen zu verringern. Dies kann beispielsweise automatisiert erfolgen, indem die Abweichung in einen Feedback-Eingang des KI-Moduls eingespeist und das KI-Modul unter Nutzung der Abweichung als Feedback trainiert wird. Die ermittelte Abweichung lässt sich jedoch beispielsweise auch nutzen, indem sie am Trainingsgerät lediglich mit einer wie auch immer gearteten Anzeigevorrichtung angezeigt wird und der Benutzer des Geräts manuell in die Parameter des KI-Moduls eingreift, bis der angezeigte Wert der Abweichung zufriedenstellend ist.
Es wurde erkannt, dass beim Training des KI-Moduls unter Verwendung eines derartigen Trainingsgeräts das eingangs erwähnte empirische Wissen über den Prozess mit dem im Lösermodul verkörperten Wissen über den Prozess synergistisch zusammenwirken kann.
Für viele Prozesse sind fertige Lösermodule verfügbar, die zumindest für bestimmte Bereiche des Zustandsraums jeweils eine im Hinblick auf bestimmte Optimierungsziele optimale Entscheidung angeben. In industriellen Anwendungen kann beispielsweise danach gefragt werden, welche Aktion ausgehend von einem bestimmten Zustand durchgeführt werden sollte, damit der Prozess mit möglichst geringem Einsatz an Energie oder Ressourcen, zu möglichst geringen Betriebskosten oder mit möglichst hohem Durchsatz weiterläuft. Derartige Optimierungsziele sind durch ein Training des KI-Moduls, das allein auf empirischen Daten basiert, vergleichsweise schwer abzubilden. Wird beispielsweise zur Gewinnung der empirischen Daten der reale Prozess einschließlich der Aktionen eines Prozessbedieners beobachtet, so lernt das KI-Modul die Verfolgung von Optimierungszielen nur insoweit, wie diese Optimierungsziele auch schon von dem Prozessbediener verfolgt wurden. Das KI-Modul kann also quasi an die Stelle des Prozessbedieners treten, aber im Hinblick auf die Optimierungsziele nicht über den Prozessbediener hinauswachsen.
Indem nun auch eine Abweichung zur durch das Lösermodul ermittelten Referenz-Entscheidung als Feedback zur Verfügung gestellt wird, können die Optimierungsziele gezielt zum Gegenstand des Trainings des KI-Moduls gemacht werden. Dabei ist zugleich gewährleistet, dass für dieses Training eine hinreichende Menge an Trainingsdaten zur Verfügung steht. Diese Trainingsdaten können in beliebiger Menge erzeugt werden, indem Zustände dem Lösermodul zugeführt und die vom Lösermodul ausgegebenen Referenz-Entscheidungen ausgelesen werden. Damit lassen sich insbesondere auch Bereiche im Zustandsraum abdecken, die bei der Beobachtung des realen Prozesses nicht oder nur selten vorkommen. So ist es beispielsweise nicht immer möglich, den Prozess zur Gewinnung empirischer Beobachtungen in die Nähe bestimmter harter Grenzen zu fahren, bei deren Überschreitung ein Verderben des Produkts oder ein Schaden an der Anlage droht. Eine Annäherung an derartige Grenzen bis auf eine Distanz, die geringer ist als die Instabilitäten des Prozesses selbst oder seiner Steuerung, birgt das jederzeitige Risiko, dass die Grenze überschritten wird und das Verderben bzw. der Schaden tatsächlich eintritt. Das Einhalten großzügig dimensionierter „verbotener Zonen“ vor den Grenzen wiederum führt dazu, dass gerade in den kritischen Bereichen nur wenig Trainingsdaten in Form empirischer Entscheidungen zur Verfügung stehen.
Umgekehrt bleiben die spezifischen Vorteile, die ein KI-Modul gegenüber einer Prozessregelung nur auf Basis des Lösermoduls hat, erhalten. So ist das Training eines KI-Moduls anhand empirischer Daten mit vergleichsweise wenig Detailkenntnissen über die inneren Wirkzusammenhänge des Prozesses möglich. Daher ist dieses Training häufig auch schneller als die Entwicklung eines Lösermoduls, die die Entwicklung eines hinreichend präzisen mathematischen Modells des Prozesses erfordert. Weiterhin deckt das Training auf der Basis empirischer Daten auch diejenigen Bereiche des Zustandsraums ab, die durch das mathematische Modell entweder gar nicht oder nicht in der nötigen Genauigkeit abgedeckt werden.
Es kann also beispielsweise ein KI-Modul zunächst wie üblich empirisch trainiert werden, und dieses Training kann dann mit dem vom Trainingsgerät gelieferten Feedback weiter verfeinert werden. Die Nutzung des Trainingsgeräts hat dann insgesamt den Effekt, dass das Verhalten des KI-Moduls mehr in Richtung der gewünschten Optimierungsziele gelenkt wird, während das KI-Modul gleichwohl noch in der Lage ist, auch auf überraschende neue Zustände des Prozesses sinnvoll zu reagieren.
In einer besonders vorteilhaften Ausgestaltung ist der Komparator dazu ausgebildet, die Abweichung zwischen den Entscheidungen mit einer Metrik zu ermitteln, die einen Abstand zwischen den Entscheidungen in einem Vektorraum charakterisiert. Beispielsweise können die Entscheidungen Werte für verschiedene Stellgrößen, und/oder Klassifikationsergebnisse bezüglich verschiedener Kriterien, beinhalten, und diese Werte bzw. Ergebnisse können in einem Vektor zusammengefasst sein. Der Abstand zwischen den Vektoren ist dann eine zusammenfassende Bewertung der Einzel-Abweichungen bezüglich der individuellen Stellgrößen bzw. Kriterien.
In einer weiteren vorteilhaften Ausgestaltung ist der Komparator dazu ausgebildet, eine Differenz zwischen den Bewertungszahlen, die die Zielfunktion den Entscheidungen jeweils zuordnet, als Abweichung zwischen den Entscheidungen zu ermitteln. Eine auf diese Weise ermittelte Abweichung ist durch die konkret in der Zielfunktion verkörperten Optimierungsziele motiviert und somit möglicherweise aussagekräftiger als eine zahlenmäßige Differenz zwischen den Werten der Entscheidungen selbst.
Insbesondere kann beispielsweise der Fall eintreten, dass es zwei verschiedene mögliche Entscheidungen gibt, die im Hinblick auf das letztendlich verfolgte Ziel gleichwertig sind. Wenn beispielsweise ein Industrieroboter einem Hindernis ausweichen soll und das Lösermodul ein Ausweichen nach links vorschlägt, so ist ein durch das KI-Modul auf der Basis seines empirischen Trainings vorgeschlagenes Ausweichen um den gleichen Betrag nach rechts das genaue Gegenteil. Beide Entscheidungen führen jedoch gleichermaßen dazu, dass die Kollision mit dem Hindernis vermieden und das letztendlich verfolgte Ziel erfüllt wird.
Wie zuvor erläutert, kann das Trainingsgerät konkret in automatisierter Weise zur Verfeinerung der Parameter beitragen, die das Verhalten der internen Verarbeitungskette des KI-Moduls festlegen. Hierzu ist in einer weiteren besonders vorteilhaften Ausgestaltung ein Entwicklungsmodul vorgesehen. Diesem Entwicklungsmodul stehen die aktuellen Parameter der internen Verarbeitungskette des KI-Moduls zur Verfügung. Dies kann in beliebiger Weise geschehen. So können die Parameter dem Entwicklungsmodul beispielsweise über eine Kommunikationsverbindung von dem KI-Modul selbst oder von einer Entität, die das Training des KI-Moduls steuert, zur Verfügung gestellt werden. Das Entwicklungsmodul kann aber auch beispielsweise selbst das Training des KI-Moduls steuern und die jeweils aktuellen Parameter der internen Verarbeitungskette festlegen.
Das Entwicklungsmodul ordnet der Kombination aus den aktuellen Parametern und der vom Komparator gelieferten Abweichung zwischen den Entscheidungen nach Maßgabe eines Lernalgorithmus neue Werte für die Parameter zu. Diese Werte sind so bemessen, dass sie, wenn sie im KI-Modul wirksam werden, die besagte Abweichung voraussichtlich vermindern. Hierbei ist unter dem Wort „voraussichtlich“ zu verstehen, dass die Änderung der Parameter ausweislich des Lernalgorithmus eine berechtigte Aussicht darauf hat, die Abweichung zu vermindern. Es gibt jedoch keine Garantie dafür, dass dies bei jeder einzelnen Iteration der Parameter tatsächlich der Fall ist. Vielmehr beruht der Trainingseffekt gerade darauf, dass bestimmte Kandidaten-Werte für die Parameter sich eben nicht als Erfolg erweisen und neue Kandidaten-Werte gesucht werden müssen. Der Lernalgorithmus kann beispielsweise ein Gradientenabstiegsverfahren beinhalten.
Die Parameter können auf diese Weise losgelöst von dem empirischen Training im Hinblick auf die durch die Zielfunktion verkörperten Optimierungsziele verfeinert werden in der Erwartung, dass das Verhalten des KI-Moduls hierdurch qualitativ nicht zu weit aus dem zuvor empirisch gelernten Verhalten ausgelenkt wird. Dieses zusätzliche Training kann insbesondere an einem KI-Modul durchgeführt werden, das fertig trainiert aus einer externen Quelle bezogen wurde, ohne dass der für das empirische Training genutzte Lernalgorithmus bekannt ist.
In einer weiteren besonders vorteilhaften Ausgestaltung ordnet das Entwicklungsmodul der Kombination aus

• den aktuellen Parametern der internen Verarbeitungskette des KI-Moduls,
• der vom Komparator gelieferten Abweichung sowie
• einer weiteren Abweichung zwischen der über den Lösungs-Eingang bezogenen Entscheidung und einer zu dem Zustand, auf den sich diese

Entscheidung bezieht, gehörigen vorgegebenen Erfahrungs-Entscheidung nach Maßgabe des Lernalgorithmus neue Werte für die Parameter zu, die, wenn sie im KI-Modul wirksam werden, voraussichtlich beide Abweichungen vermindern. Die Erfahrungs-Entscheidung repräsentiert hierbei den Lern-Wert für die Entscheidung, der beim konventionellen empirischen Training des KI-Moduls verwendet wird.
In dieser Ausgestaltung sind somit das empirische Training einerseits und das Training im Hinblick auf die mit der Zielfunktion verfolgten Optimierungsziele andererseits vorteilhaft kombiniert, wobei eine beliebige Gewichtung zwischen diesen beiden Aspekten einstellbar ist. Auf diese Weise kann gewährleistet werden, dass das KI-Modul beim Training im Hinblick auf besagte Optimierungsziele das im empirischen Training vermittelte Wissen nicht völlig „aus den Augen verliert“.
In einer weiteren vorteilhaften Ausgestaltung ist ein Ausgabemodul vorgesehen, das die vom Komparator gelieferte Abweichung, und/oder die weitere Abweichung, jeweils mit einem vorgegebenen Schwellwert vergleicht. Das Ausgabemodul ist dazu ausgebildet, bei Erreichen oder Unterschreiten des Schwellwerts ein Signal aus dem Trainingsgerät auszugeben. Dieses Signal zeigt dem Bediener des Trainingsgeräts an, dass das Training insgesamt abgeschlossen ist. Die dann aktuellen Parameter der internen Verarbeitungskette können für den Wirkbetrieb des KI-Moduls übernommen werden, und das KI-Modul kann von dem Trainingsgerät getrennt werden.
In einer weiteren vorteilhaften Ausgestaltung ist ein Bewertungsmodul vorgesehen, das

• einen Zustand des Prozesses und eine Entscheidung für die Fortführung des Prozesses als Eingaben erhält,
• hieraus mit dem mathematischen Modell des Prozesses einen sich auf Grund der Entscheidung einstellenden Zwischenzustand des Prozesses ermittelt und
• die Bewertungszahl für den Zwischenzustand mit einer Zielfunktion, die Zustände des Prozesses im Hinblick auf ein oder mehrere Optimierungsziele bewertet, ermittelt und als Bewertungszahl für die Entscheidung ausgibt.

Auf diese Weise kann die Bewertung von Entscheidungen im Rahmen der Generierung einer Referenz-Entscheidung durch das Lösermodul, und/oder im Rahmen der Bewertung von Entscheidungen für die Zwecke des Komparators, zumindest teilweise vom Raum der Entscheidungen selbst in den Zustandsraum verlagert werden. Das bedeutet, dass eine Zielfunktion mit Optimierungszielen genutzt werden kann, die sich besser in Zuständen ausdrücken lässt als in Stellgrößenwerten und anderen Entscheidungen bezüglich der Abänderung von Zuständen.
Beispielsweise kann ein chemischer Produktionsprozess durch die Mengenströme, mit denen Edukte zugeführt werden, sowie durch Temperaturen und Drücke in Reaktionsgefäßen als Stellgrößen gesteuert werden. Ein Optimierungsziel kann beispielsweise darin bestehen, den Mengenstrom in der Leitung, die das fertige Produkt aus dem Prozess abführt, zu maximieren. Dieses Ziel lässt sich nur schwer als Funktion der besagten Stellgrößen ausdrücken. Entscheidungen in Form von Änderungen der Stellgrößen können nun beispielsweise in ihrer Wertigkeit verglichen werden, indem die sich bei Umsetzung der Entscheidung jeweils einstellenden Massenströme des fertigen Produkts miteinander verglichen werden.
Das im Lösermodul, und/oder im Bewertungsmodul, genutzte mathematische Modell des Prozesses kann insbesondere ein Ab-Initio-Modell, im Englischen auch „first principles model“ genannt, sein. Ein derartiges Modell kann den kompletten Prozess in einer statischen Umgebung nachbilden und in reproduzierbarer Weise ausgehend von einem Anfangszustand und einer Entscheidung für die Fortführung in Form einer oder mehrerer Stellgrößen den sich einstellenden Folgezustand vorhersagen.
In einer weiteren besonders vorteilhaften Ausgestaltung ist im Lösermodul ein Optimierungsalgorithmus implementiert, der das Extremum der Zielfunktion unter vorgegebenen Randbedingungen und/oder Nebenbedingungen des Prozesses ermittelt. Gerade solche Randbedingungen und/oder Nebenbedingungen ergeben sich beim üblichen empirischen Training von KI-Modulen lediglich implizit aus den beobachteten Aktionen. So manifestieren sich beispielsweise Bereiche im Zustandsraum, die durch Randbedingungen und/oder Nebenbedingungen ausgeschlossen sind, in den empirischen Beobachtungen durch ein bloßes Fehlen von Beobachtungen in diesen Bereichen. Die „unsichtbare Wand“, die die besagten Bereiche des Zustandsraums ausschließt, lässt sich hieraus lediglich erahnen. Das Trainingsgerät ermöglicht es nun, das KI-Modul explizit auch auf die Beachtung solcher Randbedingungen und/oder Nebenbedingungen hin zu trainieren.
Die mit der Erfindung bewirkten Vorteile können sich insbesondere in den fertigen Parametern für die interne Verarbeitungskette des KI-Moduls manifestieren. Dabei muss das Training des KI-Moduls mit dem Trainingsgerät nicht zwangsläufig von der gleichen Entität durchgeführt werden, die das fertige KI-Modul im Wirkbetrieb verwendet. Vielmehr kann das Training auch mit einer softwaremäßigen Implementierung des Trainingsgeräts anhand einer Nachbildung des KI-Moduls in einem Rechner durchgeführt werden. Beispielsweise kann Rechenkapazität in einer Cloud, wie etwa Amazon AWS oder Microsoft Azure, spontan angemietet werden, um ein Training möglichst kurzfristig absolvieren zu können. Das Trainingsergebnis kann dann in Form eines Datensatzes mit den gewonnenen Parametern für die interne Verarbeitungskette des KI-Moduls aus der Cloud bezogen und auf das am Standort des physischen industriellen Prozesses installierte KI-Modul geladen werden, um diesem die beschriebenen Vorteile zu verleihen.
Daher bezieht sich die Erfindung auch auf einen Datensatz mit Parametern für die interne Verarbeitungskette eines KI-Moduls, die aus dem Entwicklungsmodul des beschriebenen Trainingsgeräts erhalten wurden.
Spezieller Beschreibungsteil
Nachfolgend wird der Gegenstand der Erfindung anhand einer Figur erläutert, ohne dass der Gegenstand der Erfindung hierdurch beschränkt wird. Es ist gezeigt:

1: Beispielhaftes Trainingsgerät 1, gezeigt im Zusammenwirken mit einem KI-Modul 2.

1 zeigt ein beispielhaftes Trainingsgerät 1 in einem Zustand, in dem es mit einem KI-Modul 2 verbunden ist mit dem Ziel, die interne Verarbeitungskette 22 dieses KI-Moduls 2 zu trainieren.
Das KI-Modul 2 ist anhand von Zuständen 31 zu trainieren, wie sie im Betrieb eines industriellen Prozesses 3 vorkommen. Das KI-Modul 2 nimmt die Zustände 31 an seinem Eingang 21 entgegen und erzeugt hieraus mit seiner internen Verarbeitungskette 22 Entscheidungen 32 für die weitere Fortführung, bzw. für die Zustandsbewertung, des Prozesses 3.
Das Trainingsgerät 1 nimmt die Zustände 31 über seinen Problem-Eingang 11 entgegen und erzeugt hieraus mittels eines Lösermoduls 12 zu jedem Zustand 31 eine zugehörige Referenz-Entscheidung 32a. Das Herzstück des Lösermoduls 12 ist ein mathematisches Modell 12a des Prozesses 3. Mit Hilfe dieses mathematischen Modells 12a werden verschiedene Kandidaten-Entscheidungen 32', die ausgehend vom Zustand 31 in Frage kommen, im Hinblick auf ein oder mehrere Optimierungsziele bewertet. Dazu können die Kandidaten-Entscheidungen 32' beispielsweise direkt einer Zielfunktion 12b zugeführt werden, die eine Bewertungszahl für die Kandidaten-Entscheidung 32' zurückliefert. Die Kandidaten-Entscheidungen 32' können aber auch beispielsweise einem Bewertungsmodul 17 zugeführt werden, welches aus dem ursprünglichen Zustand 31 zunächst den Zwischenzustand 31' ermittelt, der sich bei Umsetzung der Kandidaten-Entscheidung 32' einstellt. Das Bewertungsmodul 17 lässt diesen Zwischenzustand 31' durch die Zielfunktion 12b mit einer Bewertungszahl 33' bewerten und liefert seinerseits diese Bewertungszahl 33' als Bewertungszahl 33 für die Kandidaten-Entscheidung 32'. Somit kann die Bewertung von Kandidaten-Entscheidungen 32' im Raum der Entscheidungen 32 selbst oder im Raum der Zustände 31 ermittelt werden, und diese Bewertungen können optional auch noch miteinander kombiniert werden. Dies richtet sich danach, was im Hinblick auf die konkret bei der Führung des Prozesses 3 verfolgten Optimierungsziele am aussagekräftigsten ist.
Unabhängig davon, auf welche Weise die Bewertungszahl 33 konkret ermittelt wird, wird diejenige Kandidaten-Entscheidung 32', für die die Bewertungszahl 33 ein Extremum annimmt, als Referenz-Entscheidung 32a aus dem Lösermodul 12 ausgegeben. Diese Referenz-Entscheidung 32a wird durch den Komparator 14 mit einer für den Zustand 31 durch das KI-Modul 2 ermittelten Entscheidung 32 verglichen, die dem Trainingsgerät 1 durch den Lösungs-Eingang 13 zugeführt wurde.
Die Zielfunktion 12b und das Bewertungsmodul 17 können anders als in 1 eingezeichnet auch innerhalb des Lösermoduls 12 implementiert sein. Sie sind in 1 innerhalb des Trainingsgeräts, aber außerhalb des Lösermoduls 12, eingezeichnet.
Damit soll verdeutlicht werden, dass der Komparator 14 die Entscheidungen 32 und 32a nicht nur unmittelbar miteinander vergleichen kann, sondern auch über die Bewertungszahlen 33 bzw. 33a dieser Entscheidungen 32 und 32a.
Unabhängig davon, wie der Vergleich im Einzelnen abläuft, wird die ermittelte Abweichung 34 zwischen den Entscheidungen 32 und 32a dem Entwicklungsmodul 16 zugeleitet, welches hieraus konkrete Schritte für das Training des KI-Moduls 2 ableitet.
In dem in 1 gezeigten Beispiel übernimmt das Entwicklungsmodul das Training des KI-Moduls 2 komplett, d.h., sowohl im Hinblick auf die gemäß Zielfunktion 12b verfolgten Optimierungsziele als auch im Hinblick auf das bisherige empirische Training. Dazu führt das Entwicklungsmodul 16 die aktuellen Parameter 22a jeweils in einem Speicher und startet beispielsweise zu Beginn des Trainings mit zufälligen Parametern 22a.
Eine über den Lösungs-Eingang 13 des Trainingsgeräts 1 erhaltene Entscheidung 32 wird in einem weiteren Komparator 16a mit einer für den Zustand 31, auf dem sie basiert, bekannten Erfahrungs-Entscheidung 32b verglichen. Als Ergebnis dieses Vergleichs wird eine weitere Abweichung 35 gebildet. Diese weitere Abweichung 35 wird zusammen mit der Abweichung 34 zwischen den Entscheidungen 32 und 32a einem Schrittgenerator 16b zugeführt, der ausgehend von den aktuellen Parametern 22a der internen Verarbeitungskette 22 und den beiden Abweichungen 34 und 35 neue Werte 22b für diese Parameter ermittelt. Diese Werte 22b treten anschließend sowohl im Entwicklungsmodul 16 selbst als auch in der internen Verarbeitungskette 22 des KI-Moduls 2 an die Stelle der bisherigen Werte 22a.
Ein Ausgabemodul 15 vergleicht fortwährend die Abweichungen 34 und 35 mit jeweiligen Schwellwerten 34a und 35a. In Antwort darauf, dass diese Schwellwerte unterschritten werden, wird ein Signal 15a aus dem Trainingsgerät 1 ausgegeben. Dieses Signal zeigt an, dass das Training bis auf die vorgegebene Genauigkeit abgeschlossen ist. Das Ausgabemodul 15 ist in 1 innerhalb des Entwicklungsmoduls 16 eingezeichnet. Dies ist jedoch nicht zwingend erforderlich.
Bezugszeichenliste

1: Trainingsgerät
11: Problem-Eingang des Trainingsgeräts 1
12: Lösermodul des Trainingsgeräts 1
12a: mathematisches Modell des Prozesses 3
12b: Zielfunktion für Bewertung 33 von Entscheidungen 32
13: Lösungs-Eingang des Trainingsgeräts 1
14: Komparator für Entscheidungen 32, 32a
15: Ausgabemodul des Trainingsgeräts 1
15a: Signal, ausgegeben von Ausgabemodul 15
16: Entwicklungsmodul
16a: weiterer Komparator
16b: Schrittgenerator
17: Bewertungsmodul
2: KI-Modul
21: Eingang des KI-Moduls 2
22: interne Verarbeitungskette des KI-Moduls 2
22a: aktuelle Parameter der internen Verarbeitungskette 22
22b: neue Parameter der internen Verarbeitungskette 22
23: Ausgang des KI-Moduls 2
3: industrieller Prozess
31: Zustand des Prozesses 3
31': Zwischenzustand nach Umsetzung von Entscheidung 32'
32: Entscheidung für Fortführung/Zustandsbewertung des Prozesses 3
32': Kandidat für Referenz-Entscheidung 32a
32a: Referenz-Entscheidung
32b: empirische Entscheidung
33: Bewertungszahl für Entscheidung 32
33': Bewertungszahl für Zwischenzustand 31'
33a: Bewertungszahl für Referenz-Entscheidung 32a
34: Abweichung zwischen Entscheidungen 32 und 32a
34a: Schwellwert für Abweichung 34
35: Abweichung zwischen Entscheidung 32 und empirischer Entscheidung 32b
35a: Schwellwert für Abweichung 35

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

EP 1074306 B1 [0003]

Claims

Trainingsgerät (1) für ein KI-Modul (2), wobei das KI-Modul (2) dazu ausgebildet ist, Zustände (31) eines industriellen Prozesses (3) an einem Eingang (21) entgegenzunehmen, diese Zustände (31) durch eine parametrisierte interne Verarbeitungskette (22) auf Entscheidungen (32) für die Fortführung und/oder Zustandsbewertung des industriellen Prozesses (3) abzubilden sowie diese Entscheidungen (32) an einem Ausgang (23) auszugeben, und wobei das Trainingsgerät (1) • einen Problem-Eingang (11) für die dem KI-Modul (2) zugeführten Zustände (31), • ein Lösermodul (12), das ausgehend von einem über den Problem-Eingang (11) erhaltenen Zustand (31) anhand eines mathematischen Modells (12a) des Prozesses (3) eine Referenz-Entscheidung (32a) für die Fortführung und/oder Zustandsbewertung des Prozesses (3) ermittelt dergestalt, dass eine vorgegebene Zielfunktion (12b), die jeder Entscheidung (32) eine Bewertungszahl (33) im Hinblick auf ein oder mehrere Optimierungsziele zuordnet, für die Referenz-Entscheidung (32a) ein Extremum annimmt, • einen Lösungs-Eingang (13) für die vom KI-Modul (2) erzeugten Entscheidungen (32) sowie • einen Komparator (14) umfasst, der eine über den Lösungs-Eingang (13) bezogene Entscheidung (32) und die ausgehend vom gleichen Zustand (31) erzeugte Referenz-Entscheidung (32a) als Eingaben erhält und eine Abweichung (34) zwischen den beiden Entscheidungen (32, 32a) als Ausgabe liefert.
Trainingsgerät (1) nach Anspruch 1, wobei der Komparator (14) dazu ausgebildet ist, die Abweichung (34) zwischen den Entscheidungen (32, 32a) mit einer Metrik zu ermitteln, die einen Abstand zwischen den Entscheidungen (32, 32a) in einem Vektorraum charakterisiert.
Trainingsgerät (1) nach einem der Ansprüche 1 bis 2, wobei der Komparator (14) dazu ausgebildet ist, eine Differenz zwischen den Bewertungszahlen (33, 33a), die die Zielfunktion (12b) den Entscheidungen (32, 32a) jeweils zuordnet, als Abweichung (34) zwischen den Entscheidungen (32, 32a) zu ermitteln.
Trainingsgerät (1) nach einem der Ansprüche 1 bis 3, weiterhin umfassend ein Entwicklungsmodul (16), wobei dem Entwicklungsmodul (16) die aktuellen Parameter (22a) der internen Verarbeitungskette (22) des KI-Moduls (2) zur Verfügung stehen und wobei das Entwicklungsmodul (16) der Kombination aus diesen aktuellen Parametern (22a) und der vom Komparator (14) gelieferten Abweichung (34) zwischen den Entscheidungen (32, 32a) nach Maßgabe eines Lernalgorithmus neue Werte (22b) für die Parameter zuordnet, die, wenn sie im KI-Modul (2) wirksam werden, die Abweichung (34) voraussichtlich vermindern.
Trainingsgerät (1) nach Anspruch 4, wobei das Entwicklungsmodul (16) der Kombination aus • den aktuellen Parametern (22a) der internen Verarbeitungskette (22) des KI-Moduls, • der vom Komparator (14) gelieferten Abweichung (34) sowie • einer weiteren Abweichung (35) zwischen der über den Lösungs-Eingang (13) bezogenen Entscheidung (32) und einer zu dem Zustand (31), auf den sich diese Entscheidung (32) bezieht, gehörigen vorgegebenen Erfahrungs-Entscheidung (32b) nach Maßgabe des Lernalgorithmus neue Werte (22b) für die Parameter zuordnet, die, wenn sie im KI-Modul (2) wirksam werden, voraussichtlich beide Abweichungen (34, 35) vermindern.
Trainingsgerät (1) nach einem der Ansprüche 4 bis 5, mit einem Ausgabemodul (15), welches die vom Komparator (14) gelieferte Abweichung (34), und/oder die weitere Abweichung (35), jeweils mit einem vorgegebenen Schwellwert (34a, 35a) vergleicht und dazu ausgebildet ist, bei Erreichen oder Unterschreiten des Schwellwerts (34a, 35a) ein Signal (15a) aus dem Trainingsgerät (1) auszugeben.
Trainingsgerät (1) nach einem der Ansprüche 1 bis 6, weiterhin umfassend ein Bewertungsmodul (17), das • einen Zustand (31) des Prozesses (3) und eine Entscheidung (32) für die Fortführung des Prozesses (3) als Eingaben erhält, • hieraus mit dem mathematischen Modell (12a) des Prozesses (3) einen sich auf Grund der Entscheidung (32) einstellenden Zwischenzustand (31') des Prozesses (3) ermittelt und • die Bewertungszahl (33') für den Zwischenzustand (31') mit einer Zielfunktion (12b), die Zustände (31) des Prozesses (3) im Hinblick auf ein oder mehrere Optimierungsziele bewertet, ermittelt und als Bewertungszahl (33) für die Entscheidung (32) ausgibt.
Trainingsgerät (1) nach einem der Ansprüche 1 bis 7, wobei das im Lösermodul (12), und/oder im Bewertungsmodul (17), genutzte mathematische Modell (12a) des Prozesses (3) ein Ab-Initio-Modell ist.
Trainingsgerät (1) nach einem der Ansprüche 1 bis 8, wobei im Lösermodul (12) ein Optimierungsalgorithmus implementiert ist, der das Extremum der Zielfunktion (12b) unter vorgegebenen Randbedingungen und/oder Nebenbedingungen des Prozesses (3) ermittelt.
Datensatz mit Parametern (22b) für die interne Verarbeitungskette (22) eines KI-Moduls (2), erhalten aus dem Entwicklungsmodul (16) des Trainingsgeräts (1) nach einem der Ansprüche 4 oder 5 sowie optional einem der Ansprüche 6 bis 9.