-
Die Erfindung betrifft ein System und Verfahren zum autonomen Konstruieren und Designen von zumindest einer Komponente für ein Bauteil.
-
Im Maschinenbau und in der Automobiltechnik werden eine Vielzahl von Bauteilen mit mechanischen, elektrischen, elektronischen, hydraulischen, chemischen, etc. Komponenten benötigt, die aufgrund von neuen Modellreihen, Umweltvorgaben, etc. einer ständigen Weiterentwicklung unterworfen sind, die zeit- und kostenintensiv ist. Als ein Beispiel für ein Bauteil wird im Folgenden ein Lager betrachtet.
-
Lager werden im Maschinen- und Gerätebau eingesetzt, um eine eingeschränkte relative Bewegung zwischen zwei beweglichen Bauteilen zu ermöglichen. Sie ermöglichen Bewegungen in erwünschten Freiheitsgraden und verhindern Bewegungen in den unerwünschten Freiheitsgraden. Dabei reduzieren sie die Reibung bei der gewünschten Bewegung, während sie unerwünschte Bewegungen unterdrücken. Die häufigsten Lager sind einfache Drehlager (Radiallager) und Linearlager. In beiden Fällen gibt es genau einen gewünschten Freiheitsgrad, nämlich die Rotation beim Radiallager und die Translation beim Linearlager. Daneben gibt es radiale Gleitlager mit zwei Freiheitsgraden und beispielsweise das Kugelgelenklager, das drei Rotationen zulässt. In Abhängigkeit von dem angewandten Wirkprinzip wird zwischen Gleit- und Wälzlager unterschieden. Beim Gleitlager berühren sich die gegenseitig beweglichen Teile oder sie sind durch einen Gleitfilm voneinander getrennt. Beim Wälzlager befinden sich Wälzkörper wie Kugeln oder Rollen, die eine Wälzbewegung ausführen, zwischen einem Innenring und einem Außenring.
-
Die Wahl oder das Design eines Lagers für ein Konstruktionsprojekt richtet sich nach ausgewählten Randbedingungen wie der relativen Geschwindigkeit der beiden beweglichen Bauteile, den Belastungen, der Betriebstemperatur, der Lebensdauer, dem Material der Bauteile, etc. Die Elemente eines Lagers werden in der Weise konstruiert oder designt, dass verschiedene Parameter wie die Dimension, die Gestalt, die Materialien des Lagers geändert werden unter Beibehaltung der gewählten Randbedingungen. Hierfür können Optimierungsalgorithmen eingesetzt werden. In der Regel erfolgt das Design eines Lagers jedoch aufgrund des Fachwissens und der Erfahrung von Experten wie Ingenieuren. Allerdings ist dies mit einem erheblichen Zeit- und damit Kostenaufwand verbunden.
-
Die
US 2007/143039 A1 beschreibt ein Verfahren und eine Sensoranordnung zur Bestimmung eines Lastvektors, der im Betrieb auf ein Wälzlager wirkt. Es sind mehrere Sensoren vorgesehen, die die Verschiebung und/oder Dehnung in einem der Elemente eines Wälzlagers messen. Weiterhin ist ein Modenformkoeffizienten-Rechner vorgesehen, der mit der Vielzahl von Sensoren verbunden ist, um eine Verformung des Elements durch Berechnen der Amplitude und Phase von Fourier-Termen darzustellen, die mindestens eine radiale Modenform des Ringformelements repräsentieren. Es ist ein neuronales Netzwerk vorgesehen, das mit dem Modenformkoeffizienten-Rechner verbunden ist, wobei das neuronale Netzwerk trainiert wird, um den Lastvektor auf dem Wälzlager durch die Fourier-Terme dazustellen.
-
Die
DE 10 2018 104 717 A1 beschreibt ein Vorhersageverfahren für Fahrzeugabmessungen. Ein maschinelles Lernmodul wird basierend auf dem Satz simulierter beobachteter Abmessungen und dem Satz bekannter Fahrzeugabmessungen trainiert.
-
Die
US 2019197198 B1 beschreibt eine Konstruktionsmaschine, bei der ein Teil des Konstruktionsprozesses für mechanische Baugruppen automatisiert abläuft. Es ist eine Benutzeroberfläche vorgesehen, die Tools zum Erfassen von Eingabedaten für eine bestimmte Konstruktionsaufgabe bereitstellt. Die Eingabedaten werden mittels eines zielgesteuerten Optimierungsalgorithmus verarbeitet, der ein Spektrum möglicher Konstruktionsoptionen bereitstellt. Jede Konstruktionsoption beschreibt eine mechanische Baugruppe, die eine mögliche Lösung für die Konstruktionsaufgabe darstellt.
-
Die der Erfindung zu Grunde liegende Aufgabe besteht nun darin, ein Verfahren und ein System zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil zu schaffen, das sich durch eine hohe Zuverlässigkeit und Genauigkeit auszeichnet und sich einfach implementieren lässt.
-
Gemäß der vorliegenden Erfindung wird ein Verfahren und System vorgeschlagen, durch das es möglich ist, zumindest eine Komponente für ein Bauteil autonom zu konstruieren und/oder zu designen, wodurch der Konstruktionsprozess für die Komponente effizienter und zielgenauer durchgeführt werden kann.
-
Diese Aufgabe wird hinsichtlich eines Verfahrens durch die Merkmale des Patentanspruchs 1, und hinsichtlich eines Systems durch die Merkmale des Patentanspruchs 11 erfindungsgemäß gelöst. Die weiteren Ansprüche betreffen bevorzugte Ausgestaltungen der Erfindung.
-
Gemäß einem ersten Aspekt stellt die Erfindung ein Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils bereit. Das Verfahren umfasst die folgenden Verfahrensschritte:
- - Bestimmen eines Zustands si der Komponente durch ein Zustands-Modul, wobei ein Zustand si durch Parameter pi wie Daten und/oder Messwerte von zumindest einer Eigenschaft ei der Komponente definiert wird, und Übermitteln des Zustands si an einen Lernverstärkungs-Agenten, der einen Algorithmus des verstärkenden Lernens verwendet; Auswählen einer Berechnungsfunktion fi und/oder einer Aktion ai basierend auf einer Richtlinie für einen Zustand s für die Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei von dem Lernverstärkungs-Agenten;
- - Berechnen eines modellierten Wertes für die Eigenschaft ei mittels des modifizierten Parameters pi;
- - Berechnen eines neuen Zustands si+1 von einem Umgebungs-Modul aufgrund des modellierten Wertes für die Eigenschaft ei;
- - Vergleichen des neuen Zustands si+1 mit einem Ziel-Zustand st und Zuordnen einer Abweichung Δ für das Vergleichsergebnis in dem Zustands-Modul;
- - Ermitteln einer Belohnung ri von einem Belohnungsmodul für das Vergleichsergebnis;
- - Anpassen der Richtlinie des Lernverstärkungs-Agenten basierend auf der Belohnung ri, wobei bei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand sj zurückgegeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion fj.und/oder eine weitere Aktion aj+1 für einen Zustand sj+1 mit einer Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei von dem Lernverstärkungs-Agenten ausgewählt wird, solange bis der Ziel-Zustand st erreicht ist.
-
In einer Weiterentwicklung sind eine positive Aktion A(+), die den Wert für einen Parameter pi erhöht, eine neutrale Aktion A(0), bei der der Wert des Parameters pi gleichbleibt, und eine negative Aktion A(-), bei der sich der Wert des Parameters pi verringert, vorgesehen.
-
Insbesondere ist der Algorithmus des verstärkenden Lernens als Markov-Entscheidungsprozess oder als Temporal Difference Learning (TD-Learning) oder als Q-Learning oder als SARSA oder als Monte-Carlo-Simulation oder als Actor-Critic ausgebildet.
-
In einer Ausführungsform stellt zumindest ein Parameter pi eine Dimension oder ein Material oder eine Formgebung oder einen Messwert dar.
-
In einer weiteren Ausführungsform stellt zumindest eine Eigenschaft ei einen Sicherheitsfaktor oder einen thermischen Widerstand oder einen elektrischen Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder einen Spannungs-, Druck-, Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärmebehandlung dar.
-
In einer Ausführungsform stellt zumindest eine Richtlinie eine Zuordnung von Zuständen si zu Aktionen ai dar.
-
In einer Ausbildung ist vorgesehen, dass die Richtlinie beinhaltet, dass bei einer positiven Belohnung für den berechneten Zustand eine Wahlwahrscheinlichkeit für die vorherige Aktion für diesen Zustand erhöht wird, bei einer negativen Belohnung für den berechneten Zustand die Wahlwahrscheinlichkeit für die vorherige Aktion für diesen Zustand reduziert wird, und bei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand zurückgegeben wird.
-
Vorteilhafterweise werden die Berechnungsergebnisse in Form von Zuständen si, Aktionen ai, Belohnungen ri und Strategien in einer Cloud-Computing-Umgebung gespeichert und sind über das Internet verfügbar.
-
In einer weiteren Ausbildung verfügen der LV-Agent, das Aktions-Modul, das Umgebungsmodul, das Zustands-Modul und das Belohnungsmodul über ein oder mehrere technischen Schnittstellen und Protokolle für den Zugang zu der Cloud-Computing-Umgebung.
-
In einer Weiterbildung ist vorgesehen, dass mehrere LV-Agenten gekoppelt werden und miteinander über die Cloud-Computing-Umgebung interagieren.
-
Gemäß einem zweiten Aspekt stellt die Erfindung ein System zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils bereit. Das System umfasst einen Lernverstärkungs-Agenten mit einem Algorithmus des verstärkenden Lernens, ein Aktions-Modul, ein Umgebungs-Modul, ein Zustandsmodul und ein Belohnungs-Modul. Das Zustands-Modul ist ausgebildet, einen Zustand si der Komponente zu bestimmen, wobei ein Zustand si durch Daten und/oder Messwerte von zumindest einer Eigenschaft ei der Komponente definiert ist, und den Zustand si an einen Lernverstärkungs-Agenten zu übermitteln. Der Lernverstärkungs-Agent ist ausgebildet, eine Berechnungsfunktion fi und/oder einer Aktion ai basierend auf einer Richtlinie für einen Zustand si für die Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei auszuwählen. Das Aktions-Modul ist ausgebildet, einen modellierten Wert für die Eigenschaft ei mittels des modifizierten Parameters pi zu berechnen. Das Umgebungs-Modul ist ausgebildet, einen neuen Zustand si+1 aufgrund des modellierten Wertes für die Eigenschaft ei zu berechnen. Das Zustands-Modul ist ausgebildet, den neuen Zustand si+1 mit einem Ziel-Zustand st zu vergleichen und dem Vergleichsergebnis eine Abweichung Δ zuzuordnen. Das Belohnungsmodul ist ausgebildet, eine Belohnung ri für das Vergleichsergebnis zu ermitteln und die Belohnung ri für das Vergleichsergebnis an den Lernverstärkungs-Agenten weiterzugeben, der ausgebildet ist, die Richtlinie basierend auf dieser Belohnung ri anzupassen, wobei bei einer Konvergenz der Richtline die optimale Aktion für den berechneten Zustand sj zurückgegeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion fj und/oder eine weitere Aktion aj+1 für einen Zustand sj+1 mit einer Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei von dem LV-Agenten 200 ausgewählt wird, solange bis der Ziel-Zustand st erreicht ist.
-
Vorteilhaftweise sind eine positive Aktion A(+), die den Wert für einen Parameter pi erhöht, eine neutrale Aktion A(0), bei der der Wert des Parameters pi gleichbleibt, und eine negative Aktion A(-), bei der sich der Wert des Parameters pi verringert, vorgesehen.
-
Insbesondere ist der Algorithmus des verstärkenden Lernens als Markov-Entscheidungsprozess oder als Temporal Difference Learning (TD-Learning) oder als Q-Learning oder als SARSA oder als Monte-Carlo-Simulation oder als Actor-Critic ausgebildet.
-
In einer Ausführungsform stellt zumindest ein Parameter pi eine Dimension oder ein Material oder eine Formgebung oder ein Messwert dar.
-
In einer Ausführungsform stellt zumindest eine Eigenschaft ei einen Sicherheitsfaktor oder einen thermischen Widerstand oder einen elektrischen Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder einen Spannungs-, Druck-, Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärmebehandlung dar.
-
Gemäß einem dritten Aspekt stellt die Erfindung ein Computerprogrammprodukt bereit, das einen ausführbaren Programmcode umfasst, der so konfiguriert ist, dass er bei seiner Ausführung das Verfahren gemäß dem ersten Aspekt ausführt.
-
Nachfolgend wird die Erfindung anhand von in der Zeichnung dargestellten Ausführungsbeispielen näher erläutert.
-
Dabei zeigt:
- 1 ein Blockdiagramm zur Erläuterung eines Ausführungsbeispiels eines erfindungsgemäßen Systems;
- 2 ein Blockdiagramm zur Erläuterung eines zweiten Ausführungsbeispiels des erfindungsgemäßen Systems;
- 3 ein Blockdiagramm zur Erläuterung eines weiteren Details des erfindungsgemäßen Systems aus 2;
- 4 ein Flussdiagramm zur Erläuterung der einzelnen Verfahrensschritte eines erfindungsgemäßen Verfahrens;
- 5 zeigt schematisch ein Computerprogrammprodukt gemäß einer Ausführungsform des dritten Aspekts der Erfindung.
-
Zusätzliche Kennzeichen, Aspekte und Vorteile der Erfindung oder ihrer Ausführungsbeispiele werden durch die ausführliche Beschreibung in Verbindung mit den Ansprüchen ersichtlich.
-
1 zeigt ein erfindungsgemäßes System 100 zum autonomen Konstruieren und Designen von Komponenten für ein Bauteil wie beispielswiese von mechanischen Lagerkomponenten für ein Lager. Bei dem Lager kann es sich beispielsweise um ein Gleit- oder Wälzlager handeln. Bei einem Gleitlager berühren sich die gegeneinander beweglichen Teile oder sie sind durch einen Gleitfilm voneinander getrennt. Beim Wälzlager befinden sich Wälzkörper wie Kugeln oder Rollen, die eine Wälzbewegung ausführen, zwischen einem Innenring und einem Außenring. Die Komponenten eines Lagers lassen sich durch Parameter pi wie die Dimension, die Formgebung, das ausgewählte Material, etc. beschreiben. Es kann sich aber auch um andere mechanische Komponenten handeln wie beispielsweise Federkomponenten, die durch Parameter pi wie eine Federkonstante, Zahl der Windungen, etc. gekennzeichnet sind. Allgemein lassen sich somit die mechanischen Komponenten eines Bauteils durch Parameter pi beschreiben.
-
Es kann sich im Rahmen der Erfindung bei einer Komponente aber auch um eine elektrische und/oder elektronische und/oder mechatronische und/oder hydraulische und/oder chemische und/oder biologische Komponenten handeln.
Das erfindungsgemäße System 100 beruht auf Methoden des verstärkenden Lernens und umfasst einen Lernverstärkungs-Agenten (LV) (engl.: reinforcement learning agent) 200, ein Aktions-Modul 300, ein Umgebungs-Modul 400, ein Zustands-Modul 500 und ein Belohnungs-Modul 600.
-
Der LV-Agent 200 und das Aktions-Modul 300, das Umgebungs-Modul 400, das Zustands-Modul 500 und ein Belohnungs-Modul 600 können jeweils mit einem Prozessor und/oder einer Speichereinheit versehen sein.
-
Unter einem „Prozessor“ kann im Zusammenhang mit der Erfindung beispielsweise eine Maschine oder eine elektronische Schaltung verstanden werden. Bei einem Prozessor kann es sich insbesondere um einen Hauptprozessor (engl. Central Processing Unit, CPU), einen Mikroprozessor oder einen Mikrocontroller, beispielsweise eine anwendungsspezifische integrierte Schaltung oder einen digitalen Signalprozessor, möglicherweise in Kombination mit einer Speichereinheit zum Speichern von Programmbefehlen, etc. handeln. Auch kann unter einem Prozessor ein virtualisierter Prozessor, eine virtuelle Maschine oder eine Soft-CPU verstanden werden. Es kann sich beispielsweise auch um einen programmierbaren Prozessor handeln, der mit Konfigurationsschritten zur Ausführung des genannten erfindungsgemäßen Verfahrens ausgerüstet wird oder mit Konfigurationsschritten derart konfiguriert ist, dass der programmierbare Prozessor die erfindungsgemäßen Merkmale des Verfahrens, der Komponente, der Module, oder anderer Aspekte und/oder Teilaspekte der Erfindung realisiert.
-
Unter einer „Speichereinheit“ oder „Speichermodul“ und dergleichen kann im Zusammenhang mit der Erfindung beispielsweise ein flüchtiger Speicher in Form eines Arbeitsspeichers (engl. Random-Access Memory, RAM) oder ein dauerhafter Speicher wie eine Festplatte oder ein Datenträger oder z. B. ein wechselbares Speichermodul verstanden werden. Es kann sich bei dem Speichermodul aber auch um eine cloudbasierte Speicherlösung handeln.
-
Unter einem „Modul“ kann im Zusammenhang mit der Erfindung beispielsweise ein Prozessor und/oder eine Speichereinheit zum Speichern von Programmbefehlen verstanden werden. Beispielsweise ist der Prozessor speziell dazu eingerichtet, die Programmbefehle derart auszuführen, damit der Prozessor und/oder die Steuereinheit Funktionen ausführt, um das erfindungsgemäße Verfahren oder einen Schritt des erfindungsgemäßen Verfahrens zu implementieren oder realisieren.
-
Unter „Messwerten“ sind im Zusammenhang mit der Erfindung sowohl Rohdaten als auch bereits aufbereitete Daten beispielsweise aus Messergebnissen von Sensoren zu verstehen.
-
Der LV-Agent 200 wählt für einen bestimmten Zustand si ∈ S aus einer Menge verfügbarer Zustände zumindest eine Aktion ai ∈ A aus einer Menge verfügbarer Aktionen aus. Die Wahl der ausgewählten Aktion ai basiert auf einer Strategie bzw. Richtlinie (engl.: policy). Für die ausgewählte Aktion ai erhält der Agent 200 eine Belohnung (engl.: reward) rt ∈ ℝ von dem Belohnungs-Modul 600. Die Zustände si ∈ S erhält der Agent 200 von dem Zustands-Modul 500, auf das der LV-Agent 200 zugreifen kann. Die Strategie wird auf der Grundlage der erhaltenen Belohnungen ri angepasst. In der Strategie ist festgelegt, welche Aktion ai ∈ A aus der Menge verfügbarer Aktionen für einen bestimmten Zustand si ∈ S aus der Menge verfügbarer Zustände ausgewählt werden soll. Hierdurch wird ein neuer Zustand si+1 erzeugt, für den der LV-Agent 200 eine Belohnung ri erhält. Eine Strategie legt somit die Zuordnung zwischen einem Zustand si und einer Aktion ai fest, so dass die Strategie die Wahl der auszuführenden Aktion ai für einen Zustand si angibt. Das Ziel des LV-Agenten 200 ist es dabei, die erzielten Belohnungen ri, ri+1, ..., ri+n zu maximieren.
-
Im Aktions-Modul 300 werden die vom LV-Agenten 200 ausgewählten Aktionen ai durchgeführt. Durch eine Aktion ai wird eine Anpassung eines Parameters pi ∈ P aus der Menge von Parametern für zumindest eine Eigenschaft ei der Komponente, die konstruiert oder designt werden soll, vorgenommen. Die gemessenen Parameterwerte pii von einer Eigenschaft ei können von hier nicht näher beschriebenen Sensoren ermittelt worden sein. Vorzugsweise sind die Parameterwerte in einer Wertetabelle und dergleichen gespeichert. Bei den Parametern pi ∈ P handelt es sich beispielsweise um die Dimension einer Kugel und das Material, aus dem sie gefertigt werden soll. Vorzugsweise handelt es sich bei der Aktion ai um eine der Aktionen A(+), A(0) und A(-), Bei einer positiven Aktion A(+) handelt es sich um eine Aktion, die den Wert für einen Parameter pi erhöht, bei einer neutralen Aktion A(0) handelt es sich um ein Aktion, bei der der Wert des Parameters pi gleichbleibt, während sich bei einer negativen Aktion A(-) der Wert des Parameters pi verringert.
-
Das Umgebungs-Modul 400 berechnet aufgrund der gewählten Aktion ai und unter Berücksichtigung von zuvor festgelegten Randbedingungen (engl.: constraints) die Zustände si ∈ S. Bei den Randbedingungen kann es sich auch um wirtschaftliche Aspekte wie die Kostenstruktur, die Energiekosten, die Umweltbilanz, die Verfügbarkeit oder die Liefersituation handeln.
-
Ein Zustand si ∈ S ist somit durch die Auswahl von bestimmten Parameterwerten pi für Eigenschaften ei definiert und damit durch gemessene und/oder berechnete Werte von ausgewählten Eigenschaften ei gekennzeichnet. Bei den Eigenschaften ei kann es sich beispielsweise um Sicherheitskoeffizienten ki für die jeweilige mechanische Komponente handeln, aber es sind auch andere Koeffizienten wie der Energieaufwand bei der Herstellung denkbar. Des Weiteren sind mögliche Eigenschaften ein thermischer Widerstand oder ein elektrischer Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder ein Spannungs-, Druck,-Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärme Behandlung. Im Fall einer Farbauswahl ist die Farbe an sich die Eigenschaft und die konkrete Farbe, beispielsweise ein bestimmter Pantone-Farbton, der Parameter.
-
In dem Zustands-Modul 500 wird eine Abweichung Δ zwischen einem Ziel-Zustand st wie einem Ziel-Sicherheitskoeffizienten Ct und dem berechneten Zustand si wie einem Sicherheitskoeffizienten Ci berechnet. Der Endzustand ist erreicht, wenn die berechneten Zustände si gleich oder größer als die Ziel-Zustände st sind.
-
In dem Belohnungs-Modul 600 wird dem Grad der Abweichung Δ zwischen dem berechneten Wert für den Zustand si und dem Zielwert des Zustands st eine Belohnung ri zugeordnet. Da der Grad der Abweichung Δ von der Auswahl der jeweiligen Aktion A(+), A(0), A(-) abhängig ist, wird vorzugsweise in einer Matrix oder einer Datenbank der jeweiligen ausgewählten Aktion A(+), A(0), A(-) die Belohnung rt zugeordnet. Eine Belohnung ri weist vorzugsweise die Werte +1 und -1 auf, wobei eine geringe oder positive Abweichung Δ zwischen dem berechneten Zustand si und dem Ziel-Zustand st mit +1 belohnt wird und somit verstärkt wird, während eine erhebliche negative Abweichung Δ mit -1 belohnt wird und somit negativ bewertet wird. Es ist aber auch denkbar, dass Werte > 1 und Werte < 1 Verwendung finden.
-
Vorzugsweise wird als Algorithmus für den LV-Agenten 200 ein Markov-Entscheidungsprozess verwendet. Es kann aber auch vorgesehen sind, einen Temporal Difference Learning (TD-Learning) Algorithmus zu verwenden. Ein LV-Agent 200 mit einem TD-Learning-Algorithmus nimmt die Anpassung der Aktionen A(+), A(0), A(-) nicht erst dann vor, wenn er die Belohnung erhält, sondern nach jeder Aktion ai auf Basis einer geschätzten erwarteten Belohnung. Des Weiteren sind auch Algorithmen wie Q-Learning und SARSA denkbar oder Actor-Critic oder auch Monte-Carlo-Simulationen. Mit dem Algorithmus ist eine dynamische Programmierung und eine Anpassung der Strategie durch Iterationsverfahren möglich.
-
Darüber hinaus enthält der LV-Agent 200 und/oder das Aktions-Modul 300 und/oder das Umgebungsmodul 400 und/oder das Zustandsmodul 500 und/oder das Belohnungsmodul 600 Berechnungsverfahren und Algorithmen fi für mathematische Regressionsverfahren oder physikalische Modellberechnungen, die eine Korrelation zwischen ausgewählten Parametern pi ∈ P aus einer Menge von Parametern und einer den Ziel-Zuständen st beschreiben. Bei den mathematischen Funktionen ft kann es sich um statistische Verfahren wie Mittelwerte, Minimal- und Maximalwerte, Lookup Tabellen, Modelle zu Erwartungswerten, lineare Regressionsverfahren oder Gauß-Prozesse handeln, um Fast Fourier Transformationen, Integral- und Differentialrechnungen, Markov-Verfahren, Wahrscheinlichkeitsverfahren wie Monte Carlo-Verfahren, Temporal Difference Learning, aber auch um erweiterte Kalman-Filter, radiale Basisfunktionen, Datenfelder, konvergente neuronale Netze, tiefe neuronale Netze, künstliche neuronale Netze und/oder rückgekoppelte neuronale Netze handeln. Basierend auf den Aktionen ai und den Belohnungen ri wählt der LV-Agent 200 und/oder das Aktions-Modul 300 und/oder das Umgebungsmodul 400 und/oder das Zustandsmodul 500 und/oder das Umgehungs-Modul 600 für einen Zustand si eine oder mehrere dieser Berechnungsfunktionen fi aus.
-
Nun beginnt ein zweiter Zyklus zum Konstruieren bzw. Designen der Komponente(n) des Bauteils. Hierbei kann der LV-Agent 200 eine andere Aktion ai+1 und/oder eine andere Berechnungsfunktion fi+1 und/oder ein anderer Parameter pi+1 ausgewählen entsprechend der definierten Strategie bzw. Richtlinie. Das Ergebnis wird wiederum dem Zustands-Modul 500 zugeführt und das Ergebnis des Vergleichs im Belohnungs-Modul 600 bewertet. Der LV-Agent 200 wiederholt den Konstruktionsvorgang bzw. Designvorgang für alle vorgesehenen Aktionen ai, ai+1, ..., ai+n, Berechnungsfunktionen fi, fi+1, ...,fi+n und Parameter pi,pi+1, ...,pi+n solange, bis eine größtmögliche Übereinstimmung zwischen einem berechneten Zustand si, si+1, ...,si+n und einem Ziel-Zustand st erreicht ist. Vorzugsweise ist der Endzustand des Konstruktionsvorgangs erreicht, wenn die Abweichung Δ im Bereich von +/- 5% liegt. Der LV-Agent 200 optimiert somit sein Verhalten und damit die Strategie bzw. Richtlinie, nach der eine Aktion ai ausgewählt wird, solange, bis die Richtlinie konvergiert. Der LV-Agent 200 lernt somit, welche Aktion/en ai, ai+1, ..., ai+n für welchen Zustand si, si+1, ..., si+n die besten sind. Wenn er die Zustände si, si+1, ...,si+n sehr oft besucht und jedes Mal eine andere Kette von Aktionen ai, ai+1, ..., ai+n mit ausgewählten Aktionen ai, ai+1,..., ai+n, die sowohl sehr unterschiedlich als auch sehr ähnlich sein können, ausprobiert, sammelt er Erfahrungen in Bezug auf die Richtlinie und damit die Kalibrierungsmethodik. Wenn er die Zustände si, si+1, ...,si+n oft genug besucht hat und genügend Aktionen ai, ai+1, ..., ai+n ausprobiert hat, dann kann die Richtlinie zu der optimalen Richtlinie konvergieren. Dies bedeutet, dass die optimale/-en Aktionen ai, ai+1, ..., ai+n für einen bestimmten Zustand si, si+1, ...,si+n zurückgegeben werden, um in den Ziel-Zustand st zu kommen.
-
Wie in 2 dargestellt, kann insbesondere vorgesehen sein, dass die Berechnungsergebnisse in Form von Zuständen, Aktionen, Belohnungen und Strategien in einer Cloud-Computing-Umgebung 700 gespeichert werden und jeweils über das Internet verfügbar sind. Der LV-Agent 200, das Aktions-Modul 300, das Umgebungsmodul 400, das Zustands-Modul 500 und das Belohnungsmodul 600 verfügen hierzu über die erforderlichen technischen Schnittstellen und Protokolle für den Zugang zu der Cloud-Computing-Umgebung 700. Hierdurch kann die Recheneffizienz gesteigert werden, da die Zugriffsmöglichkeiten und die Zugriffsgeschwindigkeiten zu bereits berechneten Zuständen, Aktionen, Belohnungen und Strategien vereinfacht ist.
-
Auch kann vorgesehen sein, dass die gesamte erfindungsgemäße Softwareapplikation (Computerprogrammprodukt) in der Cloud-Computing-Umgebung 700 gespeichert wird. Hierdurch kann das Know-how der Berechnungsalgorithmen besser geschützt und gesichert werden, da diese Algorithmen nicht an die Umgebung außerhalb der Cloud-Computing-Umgebung 700 weitergegeben werden müssen. Wie in 3 dargestellt, können darüber hinaus mehrere LV-Agenten 200, 220, 240 gekoppelt werden, die miteinander über die Cloud-Computing-Umgebung 700 interagieren und ihre Ergebnisse jeweils in der Cloud-Computing-Umgebung 700 speichern. Hierdurch kann die Qualität des Konstruktions- oder Designentwurfs für eine oder mehrere der mechanischen Komponenten des Bauteils gesteigert werden, da ein LV-Agent 200 von der Erfahrung der anderen LV-Agenten 220, 240 lernen kann. Insgesamt kann auf diese Weise das Konvergenzverhalten des Systems 100 gesteigert werden.
-
Die Belohnungsfunktion R wird üblicherweise als eine lineare Kombination von verschiedenen Attributen (engl.: features) A
i und Gewichten w
i dargestellt, beispielsweise als Formel 800:
Bei den Attributen A
i handelt es sich im Rahmen dieser Erfindung insbesondere um die Abweichung Δ zwischen einem Ziel-Zustand s
t und einem berechneten Zustand s
i. Die Attribute A
i können jedoch auch andere Kategorien repräsentieren. Zudem sind auch andere Formeln für die Belohnungsfunktion R möglich.
-
Um eine optimale Belohnungsfunktion R zu entwickeln, werden die einzelnen Gewichte wi insbesondere von einem Experten wie einem Ingenieur angepasst., so dass die Belohnung ri maximiert wird. Da es sich hierbei nicht um einen autonomen Prozess des verstärkenden Lernens handelt, kann eine solche Vorgehensweise als inverses verstärkendes Lernen bezeichnet werden.
-
Darüber hinaus können für die Optimierung der Belohnungsfunktion R Optimierungs-Algorithmen wie eine Ausbeute-Optimierung oder eine Entropie-Optimierung und Algorithmen aus der Statistik wie Klassifikations- und Regressionsalgorithmen oder Gauß-Prozesse und Algorithmen aus dem imitierenden Lernen verwendet werden.
-
Gemäß dem Verfahren und des Systems der vorliegenden Erfindung wird ein verstärkendes Lernen (Reinforcement Learning) eingesetzt, um zumindest eine mechanische Komponente eines Bauteils autonom zu konstruieren und/oder zu designen. Hierzu gehen verschiedene Parameter pi wie die Dimension, die Formgebung und/oder das Material in das Berechnungsverfahren ein. Da der LV-Agent 200 selbstständig für die Parameter pi Aktionen ai ausgewählt, können insbesondere nichtlineare Zusammenhänge zwischen diesen Parametern pi erfasst werden, die in herkömmlichen Konstruktionsverfahren kaum Berücksichtigung finden. Es handelt sich um ein autonomes Konstruktionsverfahren, da der LV-Agent 200 die Aktionen ai selbst auswählt und für diese jeweils eine Belohnung rt erhält. Hierdurch können in kurzer Zeit und mit verringerten Kosten optimal konstruierte und designte mechanische Komponenten für ausgewählte Zwecke bereitgestellt werden. Insbesondere können auch Randbedingungen, die über die Formgebung hinausgehen, wie die Kostenstruktur oder die Umweltbilanz, für die zu konstruierende Komponente berücksichtig werden. Eine Randbedingung kann beispielsweise die Verwendung von einem gewissen Prozentsatz von Recyclingmaterial verlangen, um Umweltauflagen nachzukommen.
-
In 4 sind die Verfahrensschritte zum autonomen Konstruieren und Designen von zumindest einer mechanischen Komponente für ein Bauteil dargestellt.
-
In einem Schritt S10 wird an einen Lernverstärkungs-Agent 200 ein Zustand si von der Komponente von einem Zustands-Modul 500 übermittelt, wobei ein Zustand si durch Daten und Messwerte von zumindest einer Eigenschaft ei der Komponente definiert und durch das Zustands-Modul 500 bestimmt wird.
-
In einem Schritt S20 wählt der LV-Agent 200 für den Zustand si zumindest eine Berechnungsfunktion fi und/oder eine Aktion ai basierend auf einer Richtlinie für einen Zustand si für die Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei aus.
-
In einem Schritt S30 berechnet ein Aktions-Agent 300 einen modellierten Wert für die Eigenschaft ei mittels des modifizierten Parameters pi.
-
In einem Schritt S40 berechnet ein Umgebungs-Modul 400 einen neuen Zustand si+1 aufgrund des modellierten Wertes für die Eigenschaft ei.
-
In einem Schritt S50 vergleicht ein Zustands-Modul 500 den neuen Zustand si+1 mit einem Ziel-Zustand st und ordnet ihm eine Abweichung Δ zu.
-
In einem Schritt S60 ermittelt ein Belohnungs-Modul 600 eine Belohnung ri für das Vergleichsergebnis.
-
In einem Schritt S70 wird die Richtlinie des LV-Agenten 200 angepasst basierend auf der Belohnung ri, wobei bei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand sj zurückgegeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion fj und/oder eine weitere Aktion aj+1 für einen Zustand sj+1 mit einer Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei von dem LV-Agenten 200 ausgewählt wird, solange bis der Ziel-Zustand st erreicht ist.
-
5 stellt schematisch ein Computerprogrammprodukt 900 dar, das einen ausführbaren Programmcode 950 umfasst, der konfiguriert ist, um das Verfahren gemäß dem ersten Aspekt der vorliegenden Erfindung auszuführen, wenn es ausgeführt wird.
-
Mit dem Verfahren gemäß der vorliegenden Erfindung können somit zuverlässig optimierte Zustände si durch die Auswahl von passenden Aktionen ai gefunden werden, um eine oder mehrere Komponenten eines Bauteils zuverlässig und autonom zu konstruieren bzw. zu designen. Durch die Verwendung eines Lernverstärkungs-Agenten 200 mit einem Algorithmus des verstärkenden Lernens ist es möglich, Konstruktions- oder Designvorgänge autonom und selbstoptimierend durchzuführen.
-
Bezugszeichenliste
-
- 100
- System zum Konstruieren
- 200
- Lernverstärkungs-Agent
- 220
- zweiter LV-Agent
- 240
- dritter LV-Agent
- 300
- Aktions-Modul
- 400
- Umgebungs-Modul
- 500
- Zustands-Modul
- 600
- Belohnungs-Modul
- 700
- Cloud-Computing-Umgebung
- 800
- Formel
- 900
- Computerprogrammprodukt
- 950
- Programmcode
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- US 2007143039 A1 [0005]
- DE 102018104717 A1 [0006]
- US 2019197198 B1 [0007]