DE102020118805A1

DE102020118805A1 - System und Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil

Info

Publication number: DE102020118805A1
Application number: DE102020118805.6A
Authority: DE
Inventors: Matteo Skull; Selven Ayasamy
Original assignee: Dr Ing HCF Porsche AG
Current assignee: Dr Ing HCF Porsche AG
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2022-01-20
Also published as: US20220019179A1; US11614718B2

Abstract

Die Erfindung bezieht sich auf ein Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils, umfassend:- Bestimmen eines Zustands der Komponente durch ein Zustands-Modul, wobei ein Zustand durch Parameter wie Daten und/oder Messwerte von zumindest einer Eigenschaft der Komponente definiert wird, und Übermitteln des Zustands an einen Lernverstärkungs-Agenten, der einen Algorithmus des verstärkenden Lernens verwendet;- Auswählen einer Berechnungsfunktion und/oder einer Aktion basierend auf einer Richtlinie für einen Zustand für die Modifizierung zumindest eines Parameters von dem Lernverstärkungs-Agenten;- Berechnen eines modellierten Wertes für die Eigenschaft mittels des modifizierten Parameters;- Berechnen eines neuen Zustands von einem Umgebungs-Modul aufgrund des modellierten Wertes für die Eigenschaft;- Vergleichen des neuen Zustands mit einem Ziel-Zustand und Zuordnen einer Abweichung für das Vergleichsergebnis in dem Zustands-Modul;- Ermitteln einer Belohnung von einem Belohnungsmodul für das Vergleichsergebnis;- Anpassen der Richtlinie des Lernverstärkung-Agenten basierend auf der Belohnung, wobeibei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand zurückgeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion und/oder eine weitere Aktion für einen Zustand mit einer Modifizierung zumindest eines Parameters von dem Lernverstärkungs-Agenten ausgewählt wird, solange bis der Ziel-Zustand erreicht ist.

Description

Die Erfindung betrifft ein System und Verfahren zum autonomen Konstruieren und Designen von zumindest einer Komponente für ein Bauteil.
Im Maschinenbau und in der Automobiltechnik werden eine Vielzahl von Bauteilen mit mechanischen, elektrischen, elektronischen, hydraulischen, chemischen, etc. Komponenten benötigt, die aufgrund von neuen Modellreihen, Umweltvorgaben, etc. einer ständigen Weiterentwicklung unterworfen sind, die zeit- und kostenintensiv ist. Als ein Beispiel für ein Bauteil wird im Folgenden ein Lager betrachtet.
Lager werden im Maschinen- und Gerätebau eingesetzt, um eine eingeschränkte relative Bewegung zwischen zwei beweglichen Bauteilen zu ermöglichen. Sie ermöglichen Bewegungen in erwünschten Freiheitsgraden und verhindern Bewegungen in den unerwünschten Freiheitsgraden. Dabei reduzieren sie die Reibung bei der gewünschten Bewegung, während sie unerwünschte Bewegungen unterdrücken. Die häufigsten Lager sind einfache Drehlager (Radiallager) und Linearlager. In beiden Fällen gibt es genau einen gewünschten Freiheitsgrad, nämlich die Rotation beim Radiallager und die Translation beim Linearlager. Daneben gibt es radiale Gleitlager mit zwei Freiheitsgraden und beispielsweise das Kugelgelenklager, das drei Rotationen zulässt. In Abhängigkeit von dem angewandten Wirkprinzip wird zwischen Gleit- und Wälzlager unterschieden. Beim Gleitlager berühren sich die gegenseitig beweglichen Teile oder sie sind durch einen Gleitfilm voneinander getrennt. Beim Wälzlager befinden sich Wälzkörper wie Kugeln oder Rollen, die eine Wälzbewegung ausführen, zwischen einem Innenring und einem Außenring.
Die Wahl oder das Design eines Lagers für ein Konstruktionsprojekt richtet sich nach ausgewählten Randbedingungen wie der relativen Geschwindigkeit der beiden beweglichen Bauteile, den Belastungen, der Betriebstemperatur, der Lebensdauer, dem Material der Bauteile, etc. Die Elemente eines Lagers werden in der Weise konstruiert oder designt, dass verschiedene Parameter wie die Dimension, die Gestalt, die Materialien des Lagers geändert werden unter Beibehaltung der gewählten Randbedingungen. Hierfür können Optimierungsalgorithmen eingesetzt werden. In der Regel erfolgt das Design eines Lagers jedoch aufgrund des Fachwissens und der Erfahrung von Experten wie Ingenieuren. Allerdings ist dies mit einem erheblichen Zeit- und damit Kostenaufwand verbunden.
Die US 2007/143039 A1 beschreibt ein Verfahren und eine Sensoranordnung zur Bestimmung eines Lastvektors, der im Betrieb auf ein Wälzlager wirkt. Es sind mehrere Sensoren vorgesehen, die die Verschiebung und/oder Dehnung in einem der Elemente eines Wälzlagers messen. Weiterhin ist ein Modenformkoeffizienten-Rechner vorgesehen, der mit der Vielzahl von Sensoren verbunden ist, um eine Verformung des Elements durch Berechnen der Amplitude und Phase von Fourier-Termen darzustellen, die mindestens eine radiale Modenform des Ringformelements repräsentieren. Es ist ein neuronales Netzwerk vorgesehen, das mit dem Modenformkoeffizienten-Rechner verbunden ist, wobei das neuronale Netzwerk trainiert wird, um den Lastvektor auf dem Wälzlager durch die Fourier-Terme dazustellen.
Die DE 10 2018 104 717 A1 beschreibt ein Vorhersageverfahren für Fahrzeugabmessungen. Ein maschinelles Lernmodul wird basierend auf dem Satz simulierter beobachteter Abmessungen und dem Satz bekannter Fahrzeugabmessungen trainiert.
Die US 2019197198 B1 beschreibt eine Konstruktionsmaschine, bei der ein Teil des Konstruktionsprozesses für mechanische Baugruppen automatisiert abläuft. Es ist eine Benutzeroberfläche vorgesehen, die Tools zum Erfassen von Eingabedaten für eine bestimmte Konstruktionsaufgabe bereitstellt. Die Eingabedaten werden mittels eines zielgesteuerten Optimierungsalgorithmus verarbeitet, der ein Spektrum möglicher Konstruktionsoptionen bereitstellt. Jede Konstruktionsoption beschreibt eine mechanische Baugruppe, die eine mögliche Lösung für die Konstruktionsaufgabe darstellt.
Die der Erfindung zu Grunde liegende Aufgabe besteht nun darin, ein Verfahren und ein System zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil zu schaffen, das sich durch eine hohe Zuverlässigkeit und Genauigkeit auszeichnet und sich einfach implementieren lässt.
Gemäß der vorliegenden Erfindung wird ein Verfahren und System vorgeschlagen, durch das es möglich ist, zumindest eine Komponente für ein Bauteil autonom zu konstruieren und/oder zu designen, wodurch der Konstruktionsprozess für die Komponente effizienter und zielgenauer durchgeführt werden kann.
Diese Aufgabe wird hinsichtlich eines Verfahrens durch die Merkmale des Patentanspruchs 1, und hinsichtlich eines Systems durch die Merkmale des Patentanspruchs 11 erfindungsgemäß gelöst. Die weiteren Ansprüche betreffen bevorzugte Ausgestaltungen der Erfindung.
Gemäß einem ersten Aspekt stellt die Erfindung ein Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils bereit. Das Verfahren umfasst die folgenden Verfahrensschritte:

- Bestimmen eines Zustands s_i der Komponente durch ein Zustands-Modul, wobei ein Zustand s_i durch Parameter p_i wie Daten und/oder Messwerte von zumindest einer Eigenschaft e_i der Komponente definiert wird, und Übermitteln des Zustands s_i an einen Lernverstärkungs-Agenten, der einen Algorithmus des verstärkenden Lernens verwendet; Auswählen einer Berechnungsfunktion f_i und/oder einer Aktion a_i basierend auf einer Richtlinie für einen Zustand s für die Modifizierung zumindest eines Parameters p_i der zumindest einen Eigenschaft e_i von dem Lernverstärkungs-Agenten;
- Berechnen eines modellierten Wertes für die Eigenschaft e_i mittels des modifizierten Parameters p_i;
- Berechnen eines neuen Zustands s_i+1 von einem Umgebungs-Modul aufgrund des modellierten Wertes für die Eigenschaft e_i;
- Vergleichen des neuen Zustands s_i+1 mit einem Ziel-Zustand s_t und Zuordnen einer Abweichung Δ für das Vergleichsergebnis in dem Zustands-Modul;
- Ermitteln einer Belohnung r_i von einem Belohnungsmodul für das Vergleichsergebnis;
- Anpassen der Richtlinie des Lernverstärkungs-Agenten basierend auf der Belohnung r_i, wobei bei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand s_j zurückgegeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion f_j.und/oder eine weitere Aktion a_j+1 für einen Zustand s_j+1 mit einer Modifizierung zumindest eines Parameters p_i der zumindest einen Eigenschaft e_i von dem Lernverstärkungs-Agenten ausgewählt wird, solange bis der Ziel-Zustand s_t erreicht ist.

In einer Weiterentwicklung sind eine positive Aktion A(+), die den Wert für einen Parameter p_i erhöht, eine neutrale Aktion A(0), bei der der Wert des Parameters p_i gleichbleibt, und eine negative Aktion A(-), bei der sich der Wert des Parameters p_i verringert, vorgesehen.
Insbesondere ist der Algorithmus des verstärkenden Lernens als Markov-Entscheidungsprozess oder als Temporal Difference Learning (TD-Learning) oder als Q-Learning oder als SARSA oder als Monte-Carlo-Simulation oder als Actor-Critic ausgebildet.
In einer Ausführungsform stellt zumindest ein Parameter p_i eine Dimension oder ein Material oder eine Formgebung oder einen Messwert dar.
In einer weiteren Ausführungsform stellt zumindest eine Eigenschaft e_i einen Sicherheitsfaktor oder einen thermischen Widerstand oder einen elektrischen Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder einen Spannungs-, Druck-, Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärmebehandlung dar.
In einer Ausführungsform stellt zumindest eine Richtlinie eine Zuordnung von Zuständen s_i zu Aktionen a_i dar.
In einer Ausbildung ist vorgesehen, dass die Richtlinie beinhaltet, dass bei einer positiven Belohnung für den berechneten Zustand eine Wahlwahrscheinlichkeit für die vorherige Aktion für diesen Zustand erhöht wird, bei einer negativen Belohnung für den berechneten Zustand die Wahlwahrscheinlichkeit für die vorherige Aktion für diesen Zustand reduziert wird, und bei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand zurückgegeben wird.
Vorteilhafterweise werden die Berechnungsergebnisse in Form von Zuständen s_i, Aktionen a_i, Belohnungen r_i und Strategien in einer Cloud-Computing-Umgebung gespeichert und sind über das Internet verfügbar.
In einer weiteren Ausbildung verfügen der LV-Agent, das Aktions-Modul, das Umgebungsmodul, das Zustands-Modul und das Belohnungsmodul über ein oder mehrere technischen Schnittstellen und Protokolle für den Zugang zu der Cloud-Computing-Umgebung.
In einer Weiterbildung ist vorgesehen, dass mehrere LV-Agenten gekoppelt werden und miteinander über die Cloud-Computing-Umgebung interagieren.
Gemäß einem zweiten Aspekt stellt die Erfindung ein System zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils bereit. Das System umfasst einen Lernverstärkungs-Agenten mit einem Algorithmus des verstärkenden Lernens, ein Aktions-Modul, ein Umgebungs-Modul, ein Zustandsmodul und ein Belohnungs-Modul. Das Zustands-Modul ist ausgebildet, einen Zustand s_i der Komponente zu bestimmen, wobei ein Zustand s_i durch Daten und/oder Messwerte von zumindest einer Eigenschaft e_i der Komponente definiert ist, und den Zustand s_i an einen Lernverstärkungs-Agenten zu übermitteln. Der Lernverstärkungs-Agent ist ausgebildet, eine Berechnungsfunktion f_i und/oder einer Aktion a_i basierend auf einer Richtlinie für einen Zustand s_i für die Modifizierung zumindest eines Parameters p_i der zumindest einen Eigenschaft e_i auszuwählen. Das Aktions-Modul ist ausgebildet, einen modellierten Wert für die Eigenschaft e_i mittels des modifizierten Parameters p_i zu berechnen. Das Umgebungs-Modul ist ausgebildet, einen neuen Zustand s_i+1 aufgrund des modellierten Wertes für die Eigenschaft e_i zu berechnen. Das Zustands-Modul ist ausgebildet, den neuen Zustand s_i+1 mit einem Ziel-Zustand s_t zu vergleichen und dem Vergleichsergebnis eine Abweichung Δ zuzuordnen. Das Belohnungsmodul ist ausgebildet, eine Belohnung r_i für das Vergleichsergebnis zu ermitteln und die Belohnung r_i für das Vergleichsergebnis an den Lernverstärkungs-Agenten weiterzugeben, der ausgebildet ist, die Richtlinie basierend auf dieser Belohnung r_i anzupassen, wobei bei einer Konvergenz der Richtline die optimale Aktion für den berechneten Zustand s_j zurückgegeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion f_j und/oder eine weitere Aktion a_j+1 für einen Zustand s_j+1 mit einer Modifizierung zumindest eines Parameters p_i der zumindest einen Eigenschaft e_i von dem LV-Agenten 200 ausgewählt wird, solange bis der Ziel-Zustand s_t erreicht ist.
Vorteilhaftweise sind eine positive Aktion A(+), die den Wert für einen Parameter p_i erhöht, eine neutrale Aktion A(0), bei der der Wert des Parameters p_i gleichbleibt, und eine negative Aktion A(-), bei der sich der Wert des Parameters p_i verringert, vorgesehen.
Insbesondere ist der Algorithmus des verstärkenden Lernens als Markov-Entscheidungsprozess oder als Temporal Difference Learning (TD-Learning) oder als Q-Learning oder als SARSA oder als Monte-Carlo-Simulation oder als Actor-Critic ausgebildet.
In einer Ausführungsform stellt zumindest ein Parameter p_i eine Dimension oder ein Material oder eine Formgebung oder ein Messwert dar.
In einer Ausführungsform stellt zumindest eine Eigenschaft e_i einen Sicherheitsfaktor oder einen thermischen Widerstand oder einen elektrischen Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder einen Spannungs-, Druck-, Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärmebehandlung dar.
Gemäß einem dritten Aspekt stellt die Erfindung ein Computerprogrammprodukt bereit, das einen ausführbaren Programmcode umfasst, der so konfiguriert ist, dass er bei seiner Ausführung das Verfahren gemäß dem ersten Aspekt ausführt.
Nachfolgend wird die Erfindung anhand von in der Zeichnung dargestellten Ausführungsbeispielen näher erläutert.
Dabei zeigt:

1 ein Blockdiagramm zur Erläuterung eines Ausführungsbeispiels eines erfindungsgemäßen Systems;
2 ein Blockdiagramm zur Erläuterung eines zweiten Ausführungsbeispiels des erfindungsgemäßen Systems;
3 ein Blockdiagramm zur Erläuterung eines weiteren Details des erfindungsgemäßen Systems aus 2;
4 ein Flussdiagramm zur Erläuterung der einzelnen Verfahrensschritte eines erfindungsgemäßen Verfahrens;
5 zeigt schematisch ein Computerprogrammprodukt gemäß einer Ausführungsform des dritten Aspekts der Erfindung.

Zusätzliche Kennzeichen, Aspekte und Vorteile der Erfindung oder ihrer Ausführungsbeispiele werden durch die ausführliche Beschreibung in Verbindung mit den Ansprüchen ersichtlich.
1 zeigt ein erfindungsgemäßes System 100 zum autonomen Konstruieren und Designen von Komponenten für ein Bauteil wie beispielswiese von mechanischen Lagerkomponenten für ein Lager. Bei dem Lager kann es sich beispielsweise um ein Gleit- oder Wälzlager handeln. Bei einem Gleitlager berühren sich die gegeneinander beweglichen Teile oder sie sind durch einen Gleitfilm voneinander getrennt. Beim Wälzlager befinden sich Wälzkörper wie Kugeln oder Rollen, die eine Wälzbewegung ausführen, zwischen einem Innenring und einem Außenring. Die Komponenten eines Lagers lassen sich durch Parameter p_i wie die Dimension, die Formgebung, das ausgewählte Material, etc. beschreiben. Es kann sich aber auch um andere mechanische Komponenten handeln wie beispielsweise Federkomponenten, die durch Parameter p_i wie eine Federkonstante, Zahl der Windungen, etc. gekennzeichnet sind. Allgemein lassen sich somit die mechanischen Komponenten eines Bauteils durch Parameter p_i beschreiben.
Es kann sich im Rahmen der Erfindung bei einer Komponente aber auch um eine elektrische und/oder elektronische und/oder mechatronische und/oder hydraulische und/oder chemische und/oder biologische Komponenten handeln.
Das erfindungsgemäße System 100 beruht auf Methoden des verstärkenden Lernens und umfasst einen Lernverstärkungs-Agenten (LV) (engl.: reinforcement learning agent) 200, ein Aktions-Modul 300, ein Umgebungs-Modul 400, ein Zustands-Modul 500 und ein Belohnungs-Modul 600.
Der LV-Agent 200 und das Aktions-Modul 300, das Umgebungs-Modul 400, das Zustands-Modul 500 und ein Belohnungs-Modul 600 können jeweils mit einem Prozessor und/oder einer Speichereinheit versehen sein.
Unter einem „Prozessor“ kann im Zusammenhang mit der Erfindung beispielsweise eine Maschine oder eine elektronische Schaltung verstanden werden. Bei einem Prozessor kann es sich insbesondere um einen Hauptprozessor (engl. Central Processing Unit, CPU), einen Mikroprozessor oder einen Mikrocontroller, beispielsweise eine anwendungsspezifische integrierte Schaltung oder einen digitalen Signalprozessor, möglicherweise in Kombination mit einer Speichereinheit zum Speichern von Programmbefehlen, etc. handeln. Auch kann unter einem Prozessor ein virtualisierter Prozessor, eine virtuelle Maschine oder eine Soft-CPU verstanden werden. Es kann sich beispielsweise auch um einen programmierbaren Prozessor handeln, der mit Konfigurationsschritten zur Ausführung des genannten erfindungsgemäßen Verfahrens ausgerüstet wird oder mit Konfigurationsschritten derart konfiguriert ist, dass der programmierbare Prozessor die erfindungsgemäßen Merkmale des Verfahrens, der Komponente, der Module, oder anderer Aspekte und/oder Teilaspekte der Erfindung realisiert.
Unter einer „Speichereinheit“ oder „Speichermodul“ und dergleichen kann im Zusammenhang mit der Erfindung beispielsweise ein flüchtiger Speicher in Form eines Arbeitsspeichers (engl. Random-Access Memory, RAM) oder ein dauerhafter Speicher wie eine Festplatte oder ein Datenträger oder z. B. ein wechselbares Speichermodul verstanden werden. Es kann sich bei dem Speichermodul aber auch um eine cloudbasierte Speicherlösung handeln.
Unter einem „Modul“ kann im Zusammenhang mit der Erfindung beispielsweise ein Prozessor und/oder eine Speichereinheit zum Speichern von Programmbefehlen verstanden werden. Beispielsweise ist der Prozessor speziell dazu eingerichtet, die Programmbefehle derart auszuführen, damit der Prozessor und/oder die Steuereinheit Funktionen ausführt, um das erfindungsgemäße Verfahren oder einen Schritt des erfindungsgemäßen Verfahrens zu implementieren oder realisieren.
Unter „Messwerten“ sind im Zusammenhang mit der Erfindung sowohl Rohdaten als auch bereits aufbereitete Daten beispielsweise aus Messergebnissen von Sensoren zu verstehen.
Der LV-Agent 200 wählt für einen bestimmten Zustand s_i ∈ S aus einer Menge verfügbarer Zustände zumindest eine Aktion a_i ∈ A aus einer Menge verfügbarer Aktionen aus. Die Wahl der ausgewählten Aktion a_i basiert auf einer Strategie bzw. Richtlinie (engl.: policy). Für die ausgewählte Aktion a_i erhält der Agent 200 eine Belohnung (engl.: reward) r_t ∈ ℝ von dem Belohnungs-Modul 600. Die Zustände s_i ∈ S erhält der Agent 200 von dem Zustands-Modul 500, auf das der LV-Agent 200 zugreifen kann. Die Strategie wird auf der Grundlage der erhaltenen Belohnungen r_i angepasst. In der Strategie ist festgelegt, welche Aktion a_i ∈ A aus der Menge verfügbarer Aktionen für einen bestimmten Zustand s_i ∈ S aus der Menge verfügbarer Zustände ausgewählt werden soll. Hierdurch wird ein neuer Zustand s_i+1 erzeugt, für den der LV-Agent 200 eine Belohnung r_i erhält. Eine Strategie legt somit die Zuordnung zwischen einem Zustand s_i und einer Aktion a_i fest, so dass die Strategie die Wahl der auszuführenden Aktion a_i für einen Zustand s_i angibt. Das Ziel des LV-Agenten 200 ist es dabei, die erzielten Belohnungen r_i, r_i+1, ..., r_i+n zu maximieren.
Im Aktions-Modul 300 werden die vom LV-Agenten 200 ausgewählten Aktionen a_i durchgeführt. Durch eine Aktion a_i wird eine Anpassung eines Parameters p_i ∈ P aus der Menge von Parametern für zumindest eine Eigenschaft e_i der Komponente, die konstruiert oder designt werden soll, vorgenommen. Die gemessenen Parameterwerte pi_i von einer Eigenschaft e_i können von hier nicht näher beschriebenen Sensoren ermittelt worden sein. Vorzugsweise sind die Parameterwerte in einer Wertetabelle und dergleichen gespeichert. Bei den Parametern p_i ∈ P handelt es sich beispielsweise um die Dimension einer Kugel und das Material, aus dem sie gefertigt werden soll. Vorzugsweise handelt es sich bei der Aktion a_i um eine der Aktionen A(+), A(0) und A(-), Bei einer positiven Aktion A(+) handelt es sich um eine Aktion, die den Wert für einen Parameter p_i erhöht, bei einer neutralen Aktion A(0) handelt es sich um ein Aktion, bei der der Wert des Parameters p_i gleichbleibt, während sich bei einer negativen Aktion A(-) der Wert des Parameters p_i verringert.
Das Umgebungs-Modul 400 berechnet aufgrund der gewählten Aktion a_i und unter Berücksichtigung von zuvor festgelegten Randbedingungen (engl.: constraints) die Zustände s_i ∈ S. Bei den Randbedingungen kann es sich auch um wirtschaftliche Aspekte wie die Kostenstruktur, die Energiekosten, die Umweltbilanz, die Verfügbarkeit oder die Liefersituation handeln.
Ein Zustand s_i ∈ S ist somit durch die Auswahl von bestimmten Parameterwerten p_i für Eigenschaften e_i definiert und damit durch gemessene und/oder berechnete Werte von ausgewählten Eigenschaften e_i gekennzeichnet. Bei den Eigenschaften e_i kann es sich beispielsweise um Sicherheitskoeffizienten k_i für die jeweilige mechanische Komponente handeln, aber es sind auch andere Koeffizienten wie der Energieaufwand bei der Herstellung denkbar. Des Weiteren sind mögliche Eigenschaften ein thermischer Widerstand oder ein elektrischer Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder ein Spannungs-, Druck,-Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärme Behandlung. Im Fall einer Farbauswahl ist die Farbe an sich die Eigenschaft und die konkrete Farbe, beispielsweise ein bestimmter Pantone-Farbton, der Parameter.
In dem Zustands-Modul 500 wird eine Abweichung Δ zwischen einem Ziel-Zustand s_t wie einem Ziel-Sicherheitskoeffizienten C_t und dem berechneten Zustand s_i wie einem Sicherheitskoeffizienten C_i berechnet. Der Endzustand ist erreicht, wenn die berechneten Zustände s_i gleich oder größer als die Ziel-Zustände s_t sind.
In dem Belohnungs-Modul 600 wird dem Grad der Abweichung Δ zwischen dem berechneten Wert für den Zustand s_i und dem Zielwert des Zustands s_t eine Belohnung r_i zugeordnet. Da der Grad der Abweichung Δ von der Auswahl der jeweiligen Aktion A(+), A(0), A(-) abhängig ist, wird vorzugsweise in einer Matrix oder einer Datenbank der jeweiligen ausgewählten Aktion A(+), A(0), A(-) die Belohnung r_t zugeordnet. Eine Belohnung r_i weist vorzugsweise die Werte +1 und -1 auf, wobei eine geringe oder positive Abweichung Δ zwischen dem berechneten Zustand s_i und dem Ziel-Zustand s_t mit +1 belohnt wird und somit verstärkt wird, während eine erhebliche negative Abweichung Δ mit -1 belohnt wird und somit negativ bewertet wird. Es ist aber auch denkbar, dass Werte > 1 und Werte < 1 Verwendung finden.
Vorzugsweise wird als Algorithmus für den LV-Agenten 200 ein Markov-Entscheidungsprozess verwendet. Es kann aber auch vorgesehen sind, einen Temporal Difference Learning (TD-Learning) Algorithmus zu verwenden. Ein LV-Agent 200 mit einem TD-Learning-Algorithmus nimmt die Anpassung der Aktionen A(+), A(0), A(-) nicht erst dann vor, wenn er die Belohnung erhält, sondern nach jeder Aktion a_i auf Basis einer geschätzten erwarteten Belohnung. Des Weiteren sind auch Algorithmen wie Q-Learning und SARSA denkbar oder Actor-Critic oder auch Monte-Carlo-Simulationen. Mit dem Algorithmus ist eine dynamische Programmierung und eine Anpassung der Strategie durch Iterationsverfahren möglich.
Darüber hinaus enthält der LV-Agent 200 und/oder das Aktions-Modul 300 und/oder das Umgebungsmodul 400 und/oder das Zustandsmodul 500 und/oder das Belohnungsmodul 600 Berechnungsverfahren und Algorithmen f_i für mathematische Regressionsverfahren oder physikalische Modellberechnungen, die eine Korrelation zwischen ausgewählten Parametern p_i ∈ P aus einer Menge von Parametern und einer den Ziel-Zuständen s_t beschreiben. Bei den mathematischen Funktionen f_t kann es sich um statistische Verfahren wie Mittelwerte, Minimal- und Maximalwerte, Lookup Tabellen, Modelle zu Erwartungswerten, lineare Regressionsverfahren oder Gauß-Prozesse handeln, um Fast Fourier Transformationen, Integral- und Differentialrechnungen, Markov-Verfahren, Wahrscheinlichkeitsverfahren wie Monte Carlo-Verfahren, Temporal Difference Learning, aber auch um erweiterte Kalman-Filter, radiale Basisfunktionen, Datenfelder, konvergente neuronale Netze, tiefe neuronale Netze, künstliche neuronale Netze und/oder rückgekoppelte neuronale Netze handeln. Basierend auf den Aktionen a_i und den Belohnungen r_i wählt der LV-Agent 200 und/oder das Aktions-Modul 300 und/oder das Umgebungsmodul 400 und/oder das Zustandsmodul 500 und/oder das Umgehungs-Modul 600 für einen Zustand s_i eine oder mehrere dieser Berechnungsfunktionen f_i aus.
Nun beginnt ein zweiter Zyklus zum Konstruieren bzw. Designen der Komponente(n) des Bauteils. Hierbei kann der LV-Agent 200 eine andere Aktion a_i+1 und/oder eine andere Berechnungsfunktion f_i+1 und/oder ein anderer Parameter p_i+1 ausgewählen entsprechend der definierten Strategie bzw. Richtlinie. Das Ergebnis wird wiederum dem Zustands-Modul 500 zugeführt und das Ergebnis des Vergleichs im Belohnungs-Modul 600 bewertet. Der LV-Agent 200 wiederholt den Konstruktionsvorgang bzw. Designvorgang für alle vorgesehenen Aktionen a_i, a_i+1, ..., a_i+n, Berechnungsfunktionen f_i, f_i+1, ...,f_i+n und Parameter p_i,p_i+1, ...,p_i+n solange, bis eine größtmögliche Übereinstimmung zwischen einem berechneten Zustand s_i, s_i+1, ...,s_i+n und einem Ziel-Zustand s_t erreicht ist. Vorzugsweise ist der Endzustand des Konstruktionsvorgangs erreicht, wenn die Abweichung Δ im Bereich von +/- 5% liegt. Der LV-Agent 200 optimiert somit sein Verhalten und damit die Strategie bzw. Richtlinie, nach der eine Aktion a_i ausgewählt wird, solange, bis die Richtlinie konvergiert. Der LV-Agent 200 lernt somit, welche Aktion/en a_i, a_i+1, ..., a_i+n für welchen Zustand s_i, s_i+1, ..., s_i+n die besten sind. Wenn er die Zustände s_i, s_i+1, ...,s_i+n sehr oft besucht und jedes Mal eine andere Kette von Aktionen a_i, a_i+1, ..., a_i+n mit ausgewählten Aktionen a_i, a_i+1,..., a_i+n, die sowohl sehr unterschiedlich als auch sehr ähnlich sein können, ausprobiert, sammelt er Erfahrungen in Bezug auf die Richtlinie und damit die Kalibrierungsmethodik. Wenn er die Zustände s_i, s_i+1, ...,s_i+n oft genug besucht hat und genügend Aktionen a_i, a_i+1, ..., a_i+n ausprobiert hat, dann kann die Richtlinie zu der optimalen Richtlinie konvergieren. Dies bedeutet, dass die optimale/-en Aktionen a_i, a_i+1, ..., a_i+n für einen bestimmten Zustand s_i, s_i+1, ...,s_i+n zurückgegeben werden, um in den Ziel-Zustand s_t zu kommen.
Wie in 2 dargestellt, kann insbesondere vorgesehen sein, dass die Berechnungsergebnisse in Form von Zuständen, Aktionen, Belohnungen und Strategien in einer Cloud-Computing-Umgebung 700 gespeichert werden und jeweils über das Internet verfügbar sind. Der LV-Agent 200, das Aktions-Modul 300, das Umgebungsmodul 400, das Zustands-Modul 500 und das Belohnungsmodul 600 verfügen hierzu über die erforderlichen technischen Schnittstellen und Protokolle für den Zugang zu der Cloud-Computing-Umgebung 700. Hierdurch kann die Recheneffizienz gesteigert werden, da die Zugriffsmöglichkeiten und die Zugriffsgeschwindigkeiten zu bereits berechneten Zuständen, Aktionen, Belohnungen und Strategien vereinfacht ist.
Auch kann vorgesehen sein, dass die gesamte erfindungsgemäße Softwareapplikation (Computerprogrammprodukt) in der Cloud-Computing-Umgebung 700 gespeichert wird. Hierdurch kann das Know-how der Berechnungsalgorithmen besser geschützt und gesichert werden, da diese Algorithmen nicht an die Umgebung außerhalb der Cloud-Computing-Umgebung 700 weitergegeben werden müssen. Wie in 3 dargestellt, können darüber hinaus mehrere LV-Agenten 200, 220, 240 gekoppelt werden, die miteinander über die Cloud-Computing-Umgebung 700 interagieren und ihre Ergebnisse jeweils in der Cloud-Computing-Umgebung 700 speichern. Hierdurch kann die Qualität des Konstruktions- oder Designentwurfs für eine oder mehrere der mechanischen Komponenten des Bauteils gesteigert werden, da ein LV-Agent 200 von der Erfahrung der anderen LV-Agenten 220, 240 lernen kann. Insgesamt kann auf diese Weise das Konvergenzverhalten des Systems 100 gesteigert werden.
Die Belohnungsfunktion R wird üblicherweise als eine lineare Kombination von verschiedenen Attributen (engl.: features) A_i und Gewichten w_i dargestellt, beispielsweise als Formel 800: $R = w_{1} * A_{1} + w_{2} * A_{2} + \dots + w_{n} + A_{n}$
Bei den Attributen A_i handelt es sich im Rahmen dieser Erfindung insbesondere um die Abweichung Δ zwischen einem Ziel-Zustand s_t und einem berechneten Zustand s_i. Die Attribute A_i können jedoch auch andere Kategorien repräsentieren. Zudem sind auch andere Formeln für die Belohnungsfunktion R möglich.
Um eine optimale Belohnungsfunktion R zu entwickeln, werden die einzelnen Gewichte w_i insbesondere von einem Experten wie einem Ingenieur angepasst., so dass die Belohnung r_i maximiert wird. Da es sich hierbei nicht um einen autonomen Prozess des verstärkenden Lernens handelt, kann eine solche Vorgehensweise als inverses verstärkendes Lernen bezeichnet werden.
Darüber hinaus können für die Optimierung der Belohnungsfunktion R Optimierungs-Algorithmen wie eine Ausbeute-Optimierung oder eine Entropie-Optimierung und Algorithmen aus der Statistik wie Klassifikations- und Regressionsalgorithmen oder Gauß-Prozesse und Algorithmen aus dem imitierenden Lernen verwendet werden.
Gemäß dem Verfahren und des Systems der vorliegenden Erfindung wird ein verstärkendes Lernen (Reinforcement Learning) eingesetzt, um zumindest eine mechanische Komponente eines Bauteils autonom zu konstruieren und/oder zu designen. Hierzu gehen verschiedene Parameter p_i wie die Dimension, die Formgebung und/oder das Material in das Berechnungsverfahren ein. Da der LV-Agent 200 selbstständig für die Parameter p_i Aktionen a_i ausgewählt, können insbesondere nichtlineare Zusammenhänge zwischen diesen Parametern p_i erfasst werden, die in herkömmlichen Konstruktionsverfahren kaum Berücksichtigung finden. Es handelt sich um ein autonomes Konstruktionsverfahren, da der LV-Agent 200 die Aktionen a_i selbst auswählt und für diese jeweils eine Belohnung r_t erhält. Hierdurch können in kurzer Zeit und mit verringerten Kosten optimal konstruierte und designte mechanische Komponenten für ausgewählte Zwecke bereitgestellt werden. Insbesondere können auch Randbedingungen, die über die Formgebung hinausgehen, wie die Kostenstruktur oder die Umweltbilanz, für die zu konstruierende Komponente berücksichtig werden. Eine Randbedingung kann beispielsweise die Verwendung von einem gewissen Prozentsatz von Recyclingmaterial verlangen, um Umweltauflagen nachzukommen.
In 4 sind die Verfahrensschritte zum autonomen Konstruieren und Designen von zumindest einer mechanischen Komponente für ein Bauteil dargestellt.
In einem Schritt S10 wird an einen Lernverstärkungs-Agent 200 ein Zustand s_i von der Komponente von einem Zustands-Modul 500 übermittelt, wobei ein Zustand s_i durch Daten und Messwerte von zumindest einer Eigenschaft e_i der Komponente definiert und durch das Zustands-Modul 500 bestimmt wird.
In einem Schritt S20 wählt der LV-Agent 200 für den Zustand s_i zumindest eine Berechnungsfunktion f_i und/oder eine Aktion a_i basierend auf einer Richtlinie für einen Zustand s_i für die Modifizierung zumindest eines Parameters p_i der zumindest einen Eigenschaft e_i aus.
In einem Schritt S30 berechnet ein Aktions-Agent 300 einen modellierten Wert für die Eigenschaft e_i mittels des modifizierten Parameters p_i.
In einem Schritt S40 berechnet ein Umgebungs-Modul 400 einen neuen Zustand s_i+1 aufgrund des modellierten Wertes für die Eigenschaft e_i.
In einem Schritt S50 vergleicht ein Zustands-Modul 500 den neuen Zustand s_i+1 mit einem Ziel-Zustand s_t und ordnet ihm eine Abweichung Δ zu.
In einem Schritt S60 ermittelt ein Belohnungs-Modul 600 eine Belohnung r_i für das Vergleichsergebnis.
In einem Schritt S70 wird die Richtlinie des LV-Agenten 200 angepasst basierend auf der Belohnung r_i, wobei bei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand s_j zurückgegeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion f_j und/oder eine weitere Aktion a_j+1 für einen Zustand s_j+1 mit einer Modifizierung zumindest eines Parameters p_i der zumindest einen Eigenschaft e_i von dem LV-Agenten 200 ausgewählt wird, solange bis der Ziel-Zustand s_t erreicht ist.
5 stellt schematisch ein Computerprogrammprodukt 900 dar, das einen ausführbaren Programmcode 950 umfasst, der konfiguriert ist, um das Verfahren gemäß dem ersten Aspekt der vorliegenden Erfindung auszuführen, wenn es ausgeführt wird.
Mit dem Verfahren gemäß der vorliegenden Erfindung können somit zuverlässig optimierte Zustände s_i durch die Auswahl von passenden Aktionen a_i gefunden werden, um eine oder mehrere Komponenten eines Bauteils zuverlässig und autonom zu konstruieren bzw. zu designen. Durch die Verwendung eines Lernverstärkungs-Agenten 200 mit einem Algorithmus des verstärkenden Lernens ist es möglich, Konstruktions- oder Designvorgänge autonom und selbstoptimierend durchzuführen.
Bezugszeichenliste

100: System zum Konstruieren
200: Lernverstärkungs-Agent
220: zweiter LV-Agent
240: dritter LV-Agent
300: Aktions-Modul
400: Umgebungs-Modul
500: Zustands-Modul
600: Belohnungs-Modul
700: Cloud-Computing-Umgebung
800: Formel
900: Computerprogrammprodukt
950: Programmcode

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 2007143039 A1 [0005]
DE 102018104717 A1 [0006]
US 2019197198 B1 [0007]

Claims

Ein Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils, umfassend: - Bestimmen (S10) eines Zustands (s_i) der Komponente durch ein Zustands-Modul (500), wobei ein Zustand (s_i) durch Parameter (p_i) wie Daten und/oder Messwerte von zumindest einer Eigenschaft (e_i) der Komponente definiert wird, und Übermitteln des Zustands (s_i) an einen Lernverstärkungs-Agenten (200), der einen Algorithmus des verstärkenden Lernens verwendet; - Auswählen (S20) einer Berechnungsfunktion (f_i) und/oder einer Aktion (a_i) basierend auf einer Richtlinie für einen Zustand (s_i) für die Modifizierung zumindest eines Parameters (p_i) von dem Lernverstärkungs-Agenten (200); - Berechnen (S30) eines modellierten Wertes für die Eigenschaft (e_i) mittels des modifizierten Parameters (p_i); - Berechnen (S40) eines neuen Zustands (s_i+1) von einem Umgebungs-Modul (400) aufgrund des modellierten Wertes für die Eigenschaft (e_i); - Vergleichen (S50) des neuen Zustands (s_i+1) mit einem Ziel-Zustand (s_t) und Zuordnen einer Abweichung (Δ) für das Vergleichsergebnis in dem Zustands-Modul (300); - Ermitteln (S60) einer Belohnung (r_i) von einem Belohnungsmodul (600) für das Vergleichsergebnis; - Anpassen (S70) der Richtlinie des Lernverstärkung-Agenten (200) basierend auf der Belohnung (r_i), wobei bei einer Konvergenz der Richtlinie wird die optimale Aktion (a_j) für den berechneten Zustand (s_j) zurückgeben, und bei einer Nicht-Konvergenz der berechneten Richtlinie wird eine weitere Berechnungsfunktion (f_j) und/oder eine weitere Aktion (a_j+1) für einen Zustand (s_j+1) mit einer Modifizierung zumindest eines Parameters (p_j) von dem Lernverstärkungs-Agenten (200) ausgewählt, solange bis der Ziel-Zustand (s_t) erreicht ist.
Verfahren nach Anspruch 1, wobei eine positive Aktion (A(+)), die den Wert für einen Parameter (p_i) erhöht, eine neutrale Aktion (A(0)), bei der der Wert des Parameters (p_i) gleichbleibt, und eine negative Aktion (A(-)), bei der sich der Wert des Parameters (p_i verringert, vorgesehen sind.
Verfahren nach Anspruch 1 oder 2, wobei der Algorithmus des verstärkenden Lernens als Markov-Entscheidungsprozess oder als Temporal Difference Learning (TD-Learning) oder als Q-Learning oder als SARSA oder als Monte-Carlo-Simulation oder als Actor-Critic ausgebildet ist.
Verfahren nach einem oder mehreren der Ansprüche 1 bis 3, wobei zumindest ein Parameter (p_j) eine Dimension oder ein Material oder eine Formgebung oder einen Messwert darstellt.
Verfahren nach einem oder mehreren Ansprüche 1 bis 4, wobei zumindest eine Eigenschaft (e_i) einen Sicherheitsfaktor oder einen thermischen Widerstand oder einen elektrischen Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder einen Spannungs-, Druck,-Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärme Behandlung darstellt.
Verfahren nach einem oder mehreren Ansprüche 1 bis 5, wobei eine Richtlinie eine Zuordnung von Zuständen (s_i) zu Aktionen (a_i) darstellt.
Verfahren nach Anspruch 6, wobei eine Richtlinie beinhaltet, dass bei einer positiven Belohnung (r_j) für den berechneten Zustand (s_j) eine Wahlwahrscheinlichkeit für die vorherige Aktion (a_j) für diesen Zustand (s_j) erhöht wird, bei einer negativen Belohnung (r_j) für den berechneten Zustand (s_j) die Wahlwahrscheinlichkeit für die vorherige Aktion (a_j) für diesen Zustand (s_j) reduziert wird, und bei einer Konvergenz der Richtlinie die optimale Aktion (a_j) für diesen berechneten Zustand (s_j) zurückgegeben wird.
Verfahren nach einem der vorangehenden Ansprüche, wobei die Berechnungsergebnisse in Form von Zuständen (s_i), Aktionen (a_i,) Belohnungen (r_i) und Strategien in einer Cloud-Computing-Umgebung (700) gespeichert werden und über das Internet verfügbar sind.
Verfahren nach Anspruch 8, wobei der LV-Agent (200), das Aktions-Modul (300), das Umgebungsmodul (400), das Zustands-Modul (500) und das Belohnungsmodul (600) über ein oder mehrere technischen Schnittstellen und Protokolle für den Zugang zu der Cloud-Computing-Umgebung (700) verfügen.
Verfahren nach einem der Ansprüche 8 oder 9, wobei mehrere LV-Agenten (200, 220, 240) gekoppelt werden und miteinander über die Cloud-Computing-Umgebung (700) interagieren.
Ein System (100) zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils, umfassend einen LV-Agenten (200) mit einem Algorithmus des verstärkenden Lernens, ein Aktions-Modul (300), ein Umgebungs-Modul (400), ein Zustandsmodul (500) und ein Belohnungs-Modul (600), wobei das Zustands-Modul (300) ausgebildet ist, einen Zustand (s_i) der Komponente zu bestimmen, wobei ein Zustand (s_i) durch Parameter (p_i) wie Daten und/oder Messwerte von zumindest einer Eigenschaft (e_i) der Komponente definiert ist, und den Zustand (s_i) an einen Lernverstärkungs-Agenten (200) zu übermitteln; wobei der Lernverstärkungs-Agent (200) ausgebildet ist, eine Berechnungsfunktion (f_i) und/oder eine Aktion (a_i) basierend auf einer Richtlinie für einen Zustand (s_i) für die Modifizierung zumindest eines Parameters (p_i) der zumindest einen Eigenschaft (e_i) auszuwählen; wobei das Aktions-Modul (300) ausgebildet ist, einen modellierten Wert für die Eigenschaft (e_i) mittels des modifizierten Parameters (p_i) zu berechnen; wobei das Umgebungs-Modul (400) ausgebildet ist, einen neuen Zustand (s_i+1) aufgrund des modellierten Wertes für die Eigenschaft (e_i) zu berechnen; wobei das Zustands-Modul (300) ausgebildet ist, den neuen Zustand (s_i+1) mit einem Ziel-Zustand (s_t) zu vergleichen und dem Vergleichsergebnis eine Abweichung (Δ) zuzuordnen; wobei das Belohnungsmodul (600) ausgebildet ist, eine Belohnung (r_i) für das Vergleichsergebnis zu ermitteln und die Belohnung (r_i) für das Vergleichsergebnis an den Lernverstärkungs-Agenten (200) weiterzugeben, der ausgebildet ist, die Richtlinie basierend auf dieser Belohnung (r_i) anzupassen, wobei bei einer Konvergenz der Richtlinie die optimale Aktion (a_j) für den berechneten Zustand (s_j) zurückgegeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion (f_j) und/oder eine weitere Aktion (a_j) für einen Zustand (s_j+1) mit einer Modifizierung zumindest eines Parameters (p_j) der zumindest einen Eigenschaft (e_j) von dem LV-Agenten (200) ausgewählt wird, solange bis der Ziel-Zustand (s_t) erreicht ist.
System (100) nach Anspruch 11, wobei eine positive Aktion (A(+)), die den Wert für einen Parameter (p_i) erhöht, eine neutrale Aktion (A(0)), bei der der Wert des Parameters (p_i) gleichbleibt, und eine negative Aktion (A(-)), bei der sich der Wert des Parameters (p_i)verringert, vorgesehen sind.
System (100) nach Anspruch 11 oder 12, wobei der Algorithmus des verstärkenden Lernens als Markov-Entscheidungsprozess oder als Temporal Difference Learning (TD-Learning) oder als Q-Learning oder als SARSA oder als Monte-Carlo-Simulation ausgebildet ist.
System (100) nach einem oder mehreren der Ansprüche 11 bis 13, wobei zumindest ein Parameter (p_i) eine Dimension, ein Material oder eine Formgebung darstellt und eine Eigenschaft (e_i) einen Sicherheitsfaktor oder einen thermischen Widerstand oder einen elektrischen Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder einen Spannungs-, Druck,- Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärme Behandlung darstellt.
Computerprogrammprodukt (900), umfassend einen ausführbaren Programmcode (950), der so konfiguriert ist, dass er bei seiner Ausführung das Verfahren nach einem der Ansprüche 1 bis 10 ausführt.