DE102020118805A1 - System und Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil - Google Patents

System und Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil Download PDF

Info

Publication number
DE102020118805A1
DE102020118805A1 DE102020118805.6A DE102020118805A DE102020118805A1 DE 102020118805 A1 DE102020118805 A1 DE 102020118805A1 DE 102020118805 A DE102020118805 A DE 102020118805A DE 102020118805 A1 DE102020118805 A1 DE 102020118805A1
Authority
DE
Germany
Prior art keywords
state
module
action
learning
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020118805.6A
Other languages
English (en)
Inventor
Matteo Skull
Selven Ayasamy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dr Ing HCF Porsche AG
Original Assignee
Dr Ing HCF Porsche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dr Ing HCF Porsche AG filed Critical Dr Ing HCF Porsche AG
Priority to DE102020118805.6A priority Critical patent/DE102020118805A1/de
Priority to US17/376,271 priority patent/US11614718B2/en
Publication of DE102020118805A1 publication Critical patent/DE102020118805A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/028Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using expert systems only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/021Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a variable is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)

Abstract

Die Erfindung bezieht sich auf ein Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils, umfassend:- Bestimmen eines Zustands der Komponente durch ein Zustands-Modul, wobei ein Zustand durch Parameter wie Daten und/oder Messwerte von zumindest einer Eigenschaft der Komponente definiert wird, und Übermitteln des Zustands an einen Lernverstärkungs-Agenten, der einen Algorithmus des verstärkenden Lernens verwendet;- Auswählen einer Berechnungsfunktion und/oder einer Aktion basierend auf einer Richtlinie für einen Zustand für die Modifizierung zumindest eines Parameters von dem Lernverstärkungs-Agenten;- Berechnen eines modellierten Wertes für die Eigenschaft mittels des modifizierten Parameters;- Berechnen eines neuen Zustands von einem Umgebungs-Modul aufgrund des modellierten Wertes für die Eigenschaft;- Vergleichen des neuen Zustands mit einem Ziel-Zustand und Zuordnen einer Abweichung für das Vergleichsergebnis in dem Zustands-Modul;- Ermitteln einer Belohnung von einem Belohnungsmodul für das Vergleichsergebnis;- Anpassen der Richtlinie des Lernverstärkung-Agenten basierend auf der Belohnung, wobeibei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand zurückgeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion und/oder eine weitere Aktion für einen Zustand mit einer Modifizierung zumindest eines Parameters von dem Lernverstärkungs-Agenten ausgewählt wird, solange bis der Ziel-Zustand erreicht ist.

Description

  • Die Erfindung betrifft ein System und Verfahren zum autonomen Konstruieren und Designen von zumindest einer Komponente für ein Bauteil.
  • Im Maschinenbau und in der Automobiltechnik werden eine Vielzahl von Bauteilen mit mechanischen, elektrischen, elektronischen, hydraulischen, chemischen, etc. Komponenten benötigt, die aufgrund von neuen Modellreihen, Umweltvorgaben, etc. einer ständigen Weiterentwicklung unterworfen sind, die zeit- und kostenintensiv ist. Als ein Beispiel für ein Bauteil wird im Folgenden ein Lager betrachtet.
  • Lager werden im Maschinen- und Gerätebau eingesetzt, um eine eingeschränkte relative Bewegung zwischen zwei beweglichen Bauteilen zu ermöglichen. Sie ermöglichen Bewegungen in erwünschten Freiheitsgraden und verhindern Bewegungen in den unerwünschten Freiheitsgraden. Dabei reduzieren sie die Reibung bei der gewünschten Bewegung, während sie unerwünschte Bewegungen unterdrücken. Die häufigsten Lager sind einfache Drehlager (Radiallager) und Linearlager. In beiden Fällen gibt es genau einen gewünschten Freiheitsgrad, nämlich die Rotation beim Radiallager und die Translation beim Linearlager. Daneben gibt es radiale Gleitlager mit zwei Freiheitsgraden und beispielsweise das Kugelgelenklager, das drei Rotationen zulässt. In Abhängigkeit von dem angewandten Wirkprinzip wird zwischen Gleit- und Wälzlager unterschieden. Beim Gleitlager berühren sich die gegenseitig beweglichen Teile oder sie sind durch einen Gleitfilm voneinander getrennt. Beim Wälzlager befinden sich Wälzkörper wie Kugeln oder Rollen, die eine Wälzbewegung ausführen, zwischen einem Innenring und einem Außenring.
  • Die Wahl oder das Design eines Lagers für ein Konstruktionsprojekt richtet sich nach ausgewählten Randbedingungen wie der relativen Geschwindigkeit der beiden beweglichen Bauteile, den Belastungen, der Betriebstemperatur, der Lebensdauer, dem Material der Bauteile, etc. Die Elemente eines Lagers werden in der Weise konstruiert oder designt, dass verschiedene Parameter wie die Dimension, die Gestalt, die Materialien des Lagers geändert werden unter Beibehaltung der gewählten Randbedingungen. Hierfür können Optimierungsalgorithmen eingesetzt werden. In der Regel erfolgt das Design eines Lagers jedoch aufgrund des Fachwissens und der Erfahrung von Experten wie Ingenieuren. Allerdings ist dies mit einem erheblichen Zeit- und damit Kostenaufwand verbunden.
  • Die US 2007/143039 A1 beschreibt ein Verfahren und eine Sensoranordnung zur Bestimmung eines Lastvektors, der im Betrieb auf ein Wälzlager wirkt. Es sind mehrere Sensoren vorgesehen, die die Verschiebung und/oder Dehnung in einem der Elemente eines Wälzlagers messen. Weiterhin ist ein Modenformkoeffizienten-Rechner vorgesehen, der mit der Vielzahl von Sensoren verbunden ist, um eine Verformung des Elements durch Berechnen der Amplitude und Phase von Fourier-Termen darzustellen, die mindestens eine radiale Modenform des Ringformelements repräsentieren. Es ist ein neuronales Netzwerk vorgesehen, das mit dem Modenformkoeffizienten-Rechner verbunden ist, wobei das neuronale Netzwerk trainiert wird, um den Lastvektor auf dem Wälzlager durch die Fourier-Terme dazustellen.
  • Die DE 10 2018 104 717 A1 beschreibt ein Vorhersageverfahren für Fahrzeugabmessungen. Ein maschinelles Lernmodul wird basierend auf dem Satz simulierter beobachteter Abmessungen und dem Satz bekannter Fahrzeugabmessungen trainiert.
  • Die US 2019197198 B1 beschreibt eine Konstruktionsmaschine, bei der ein Teil des Konstruktionsprozesses für mechanische Baugruppen automatisiert abläuft. Es ist eine Benutzeroberfläche vorgesehen, die Tools zum Erfassen von Eingabedaten für eine bestimmte Konstruktionsaufgabe bereitstellt. Die Eingabedaten werden mittels eines zielgesteuerten Optimierungsalgorithmus verarbeitet, der ein Spektrum möglicher Konstruktionsoptionen bereitstellt. Jede Konstruktionsoption beschreibt eine mechanische Baugruppe, die eine mögliche Lösung für die Konstruktionsaufgabe darstellt.
  • Die der Erfindung zu Grunde liegende Aufgabe besteht nun darin, ein Verfahren und ein System zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil zu schaffen, das sich durch eine hohe Zuverlässigkeit und Genauigkeit auszeichnet und sich einfach implementieren lässt.
  • Gemäß der vorliegenden Erfindung wird ein Verfahren und System vorgeschlagen, durch das es möglich ist, zumindest eine Komponente für ein Bauteil autonom zu konstruieren und/oder zu designen, wodurch der Konstruktionsprozess für die Komponente effizienter und zielgenauer durchgeführt werden kann.
  • Diese Aufgabe wird hinsichtlich eines Verfahrens durch die Merkmale des Patentanspruchs 1, und hinsichtlich eines Systems durch die Merkmale des Patentanspruchs 11 erfindungsgemäß gelöst. Die weiteren Ansprüche betreffen bevorzugte Ausgestaltungen der Erfindung.
  • Gemäß einem ersten Aspekt stellt die Erfindung ein Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils bereit. Das Verfahren umfasst die folgenden Verfahrensschritte:
    • - Bestimmen eines Zustands si der Komponente durch ein Zustands-Modul, wobei ein Zustand si durch Parameter pi wie Daten und/oder Messwerte von zumindest einer Eigenschaft ei der Komponente definiert wird, und Übermitteln des Zustands si an einen Lernverstärkungs-Agenten, der einen Algorithmus des verstärkenden Lernens verwendet; Auswählen einer Berechnungsfunktion fi und/oder einer Aktion ai basierend auf einer Richtlinie für einen Zustand s für die Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei von dem Lernverstärkungs-Agenten;
    • - Berechnen eines modellierten Wertes für die Eigenschaft ei mittels des modifizierten Parameters pi;
    • - Berechnen eines neuen Zustands si+1 von einem Umgebungs-Modul aufgrund des modellierten Wertes für die Eigenschaft ei;
    • - Vergleichen des neuen Zustands si+1 mit einem Ziel-Zustand st und Zuordnen einer Abweichung Δ für das Vergleichsergebnis in dem Zustands-Modul;
    • - Ermitteln einer Belohnung ri von einem Belohnungsmodul für das Vergleichsergebnis;
    • - Anpassen der Richtlinie des Lernverstärkungs-Agenten basierend auf der Belohnung ri, wobei bei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand sj zurückgegeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion fj.und/oder eine weitere Aktion aj+1 für einen Zustand sj+1 mit einer Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei von dem Lernverstärkungs-Agenten ausgewählt wird, solange bis der Ziel-Zustand st erreicht ist.
  • In einer Weiterentwicklung sind eine positive Aktion A(+), die den Wert für einen Parameter pi erhöht, eine neutrale Aktion A(0), bei der der Wert des Parameters pi gleichbleibt, und eine negative Aktion A(-), bei der sich der Wert des Parameters pi verringert, vorgesehen.
  • Insbesondere ist der Algorithmus des verstärkenden Lernens als Markov-Entscheidungsprozess oder als Temporal Difference Learning (TD-Learning) oder als Q-Learning oder als SARSA oder als Monte-Carlo-Simulation oder als Actor-Critic ausgebildet.
  • In einer Ausführungsform stellt zumindest ein Parameter pi eine Dimension oder ein Material oder eine Formgebung oder einen Messwert dar.
  • In einer weiteren Ausführungsform stellt zumindest eine Eigenschaft ei einen Sicherheitsfaktor oder einen thermischen Widerstand oder einen elektrischen Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder einen Spannungs-, Druck-, Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärmebehandlung dar.
  • In einer Ausführungsform stellt zumindest eine Richtlinie eine Zuordnung von Zuständen si zu Aktionen ai dar.
  • In einer Ausbildung ist vorgesehen, dass die Richtlinie beinhaltet, dass bei einer positiven Belohnung für den berechneten Zustand eine Wahlwahrscheinlichkeit für die vorherige Aktion für diesen Zustand erhöht wird, bei einer negativen Belohnung für den berechneten Zustand die Wahlwahrscheinlichkeit für die vorherige Aktion für diesen Zustand reduziert wird, und bei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand zurückgegeben wird.
  • Vorteilhafterweise werden die Berechnungsergebnisse in Form von Zuständen si, Aktionen ai, Belohnungen ri und Strategien in einer Cloud-Computing-Umgebung gespeichert und sind über das Internet verfügbar.
  • In einer weiteren Ausbildung verfügen der LV-Agent, das Aktions-Modul, das Umgebungsmodul, das Zustands-Modul und das Belohnungsmodul über ein oder mehrere technischen Schnittstellen und Protokolle für den Zugang zu der Cloud-Computing-Umgebung.
  • In einer Weiterbildung ist vorgesehen, dass mehrere LV-Agenten gekoppelt werden und miteinander über die Cloud-Computing-Umgebung interagieren.
  • Gemäß einem zweiten Aspekt stellt die Erfindung ein System zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils bereit. Das System umfasst einen Lernverstärkungs-Agenten mit einem Algorithmus des verstärkenden Lernens, ein Aktions-Modul, ein Umgebungs-Modul, ein Zustandsmodul und ein Belohnungs-Modul. Das Zustands-Modul ist ausgebildet, einen Zustand si der Komponente zu bestimmen, wobei ein Zustand si durch Daten und/oder Messwerte von zumindest einer Eigenschaft ei der Komponente definiert ist, und den Zustand si an einen Lernverstärkungs-Agenten zu übermitteln. Der Lernverstärkungs-Agent ist ausgebildet, eine Berechnungsfunktion fi und/oder einer Aktion ai basierend auf einer Richtlinie für einen Zustand si für die Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei auszuwählen. Das Aktions-Modul ist ausgebildet, einen modellierten Wert für die Eigenschaft ei mittels des modifizierten Parameters pi zu berechnen. Das Umgebungs-Modul ist ausgebildet, einen neuen Zustand si+1 aufgrund des modellierten Wertes für die Eigenschaft ei zu berechnen. Das Zustands-Modul ist ausgebildet, den neuen Zustand si+1 mit einem Ziel-Zustand st zu vergleichen und dem Vergleichsergebnis eine Abweichung Δ zuzuordnen. Das Belohnungsmodul ist ausgebildet, eine Belohnung ri für das Vergleichsergebnis zu ermitteln und die Belohnung ri für das Vergleichsergebnis an den Lernverstärkungs-Agenten weiterzugeben, der ausgebildet ist, die Richtlinie basierend auf dieser Belohnung ri anzupassen, wobei bei einer Konvergenz der Richtline die optimale Aktion für den berechneten Zustand sj zurückgegeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion fj und/oder eine weitere Aktion aj+1 für einen Zustand sj+1 mit einer Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei von dem LV-Agenten 200 ausgewählt wird, solange bis der Ziel-Zustand st erreicht ist.
  • Vorteilhaftweise sind eine positive Aktion A(+), die den Wert für einen Parameter pi erhöht, eine neutrale Aktion A(0), bei der der Wert des Parameters pi gleichbleibt, und eine negative Aktion A(-), bei der sich der Wert des Parameters pi verringert, vorgesehen.
  • Insbesondere ist der Algorithmus des verstärkenden Lernens als Markov-Entscheidungsprozess oder als Temporal Difference Learning (TD-Learning) oder als Q-Learning oder als SARSA oder als Monte-Carlo-Simulation oder als Actor-Critic ausgebildet.
  • In einer Ausführungsform stellt zumindest ein Parameter pi eine Dimension oder ein Material oder eine Formgebung oder ein Messwert dar.
  • In einer Ausführungsform stellt zumindest eine Eigenschaft ei einen Sicherheitsfaktor oder einen thermischen Widerstand oder einen elektrischen Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder einen Spannungs-, Druck-, Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärmebehandlung dar.
  • Gemäß einem dritten Aspekt stellt die Erfindung ein Computerprogrammprodukt bereit, das einen ausführbaren Programmcode umfasst, der so konfiguriert ist, dass er bei seiner Ausführung das Verfahren gemäß dem ersten Aspekt ausführt.
  • Nachfolgend wird die Erfindung anhand von in der Zeichnung dargestellten Ausführungsbeispielen näher erläutert.
  • Dabei zeigt:
    • 1 ein Blockdiagramm zur Erläuterung eines Ausführungsbeispiels eines erfindungsgemäßen Systems;
    • 2 ein Blockdiagramm zur Erläuterung eines zweiten Ausführungsbeispiels des erfindungsgemäßen Systems;
    • 3 ein Blockdiagramm zur Erläuterung eines weiteren Details des erfindungsgemäßen Systems aus 2;
    • 4 ein Flussdiagramm zur Erläuterung der einzelnen Verfahrensschritte eines erfindungsgemäßen Verfahrens;
    • 5 zeigt schematisch ein Computerprogrammprodukt gemäß einer Ausführungsform des dritten Aspekts der Erfindung.
  • Zusätzliche Kennzeichen, Aspekte und Vorteile der Erfindung oder ihrer Ausführungsbeispiele werden durch die ausführliche Beschreibung in Verbindung mit den Ansprüchen ersichtlich.
  • 1 zeigt ein erfindungsgemäßes System 100 zum autonomen Konstruieren und Designen von Komponenten für ein Bauteil wie beispielswiese von mechanischen Lagerkomponenten für ein Lager. Bei dem Lager kann es sich beispielsweise um ein Gleit- oder Wälzlager handeln. Bei einem Gleitlager berühren sich die gegeneinander beweglichen Teile oder sie sind durch einen Gleitfilm voneinander getrennt. Beim Wälzlager befinden sich Wälzkörper wie Kugeln oder Rollen, die eine Wälzbewegung ausführen, zwischen einem Innenring und einem Außenring. Die Komponenten eines Lagers lassen sich durch Parameter pi wie die Dimension, die Formgebung, das ausgewählte Material, etc. beschreiben. Es kann sich aber auch um andere mechanische Komponenten handeln wie beispielsweise Federkomponenten, die durch Parameter pi wie eine Federkonstante, Zahl der Windungen, etc. gekennzeichnet sind. Allgemein lassen sich somit die mechanischen Komponenten eines Bauteils durch Parameter pi beschreiben.
  • Es kann sich im Rahmen der Erfindung bei einer Komponente aber auch um eine elektrische und/oder elektronische und/oder mechatronische und/oder hydraulische und/oder chemische und/oder biologische Komponenten handeln.
    Das erfindungsgemäße System 100 beruht auf Methoden des verstärkenden Lernens und umfasst einen Lernverstärkungs-Agenten (LV) (engl.: reinforcement learning agent) 200, ein Aktions-Modul 300, ein Umgebungs-Modul 400, ein Zustands-Modul 500 und ein Belohnungs-Modul 600.
  • Der LV-Agent 200 und das Aktions-Modul 300, das Umgebungs-Modul 400, das Zustands-Modul 500 und ein Belohnungs-Modul 600 können jeweils mit einem Prozessor und/oder einer Speichereinheit versehen sein.
  • Unter einem „Prozessor“ kann im Zusammenhang mit der Erfindung beispielsweise eine Maschine oder eine elektronische Schaltung verstanden werden. Bei einem Prozessor kann es sich insbesondere um einen Hauptprozessor (engl. Central Processing Unit, CPU), einen Mikroprozessor oder einen Mikrocontroller, beispielsweise eine anwendungsspezifische integrierte Schaltung oder einen digitalen Signalprozessor, möglicherweise in Kombination mit einer Speichereinheit zum Speichern von Programmbefehlen, etc. handeln. Auch kann unter einem Prozessor ein virtualisierter Prozessor, eine virtuelle Maschine oder eine Soft-CPU verstanden werden. Es kann sich beispielsweise auch um einen programmierbaren Prozessor handeln, der mit Konfigurationsschritten zur Ausführung des genannten erfindungsgemäßen Verfahrens ausgerüstet wird oder mit Konfigurationsschritten derart konfiguriert ist, dass der programmierbare Prozessor die erfindungsgemäßen Merkmale des Verfahrens, der Komponente, der Module, oder anderer Aspekte und/oder Teilaspekte der Erfindung realisiert.
  • Unter einer „Speichereinheit“ oder „Speichermodul“ und dergleichen kann im Zusammenhang mit der Erfindung beispielsweise ein flüchtiger Speicher in Form eines Arbeitsspeichers (engl. Random-Access Memory, RAM) oder ein dauerhafter Speicher wie eine Festplatte oder ein Datenträger oder z. B. ein wechselbares Speichermodul verstanden werden. Es kann sich bei dem Speichermodul aber auch um eine cloudbasierte Speicherlösung handeln.
  • Unter einem „Modul“ kann im Zusammenhang mit der Erfindung beispielsweise ein Prozessor und/oder eine Speichereinheit zum Speichern von Programmbefehlen verstanden werden. Beispielsweise ist der Prozessor speziell dazu eingerichtet, die Programmbefehle derart auszuführen, damit der Prozessor und/oder die Steuereinheit Funktionen ausführt, um das erfindungsgemäße Verfahren oder einen Schritt des erfindungsgemäßen Verfahrens zu implementieren oder realisieren.
  • Unter „Messwerten“ sind im Zusammenhang mit der Erfindung sowohl Rohdaten als auch bereits aufbereitete Daten beispielsweise aus Messergebnissen von Sensoren zu verstehen.
  • Der LV-Agent 200 wählt für einen bestimmten Zustand si ∈ S aus einer Menge verfügbarer Zustände zumindest eine Aktion ai ∈ A aus einer Menge verfügbarer Aktionen aus. Die Wahl der ausgewählten Aktion ai basiert auf einer Strategie bzw. Richtlinie (engl.: policy). Für die ausgewählte Aktion ai erhält der Agent 200 eine Belohnung (engl.: reward) rt ∈ ℝ von dem Belohnungs-Modul 600. Die Zustände si ∈ S erhält der Agent 200 von dem Zustands-Modul 500, auf das der LV-Agent 200 zugreifen kann. Die Strategie wird auf der Grundlage der erhaltenen Belohnungen ri angepasst. In der Strategie ist festgelegt, welche Aktion ai ∈ A aus der Menge verfügbarer Aktionen für einen bestimmten Zustand si ∈ S aus der Menge verfügbarer Zustände ausgewählt werden soll. Hierdurch wird ein neuer Zustand si+1 erzeugt, für den der LV-Agent 200 eine Belohnung ri erhält. Eine Strategie legt somit die Zuordnung zwischen einem Zustand si und einer Aktion ai fest, so dass die Strategie die Wahl der auszuführenden Aktion ai für einen Zustand si angibt. Das Ziel des LV-Agenten 200 ist es dabei, die erzielten Belohnungen ri, ri+1, ..., ri+n zu maximieren.
  • Im Aktions-Modul 300 werden die vom LV-Agenten 200 ausgewählten Aktionen ai durchgeführt. Durch eine Aktion ai wird eine Anpassung eines Parameters pi ∈ P aus der Menge von Parametern für zumindest eine Eigenschaft ei der Komponente, die konstruiert oder designt werden soll, vorgenommen. Die gemessenen Parameterwerte pii von einer Eigenschaft ei können von hier nicht näher beschriebenen Sensoren ermittelt worden sein. Vorzugsweise sind die Parameterwerte in einer Wertetabelle und dergleichen gespeichert. Bei den Parametern pi ∈ P handelt es sich beispielsweise um die Dimension einer Kugel und das Material, aus dem sie gefertigt werden soll. Vorzugsweise handelt es sich bei der Aktion ai um eine der Aktionen A(+), A(0) und A(-), Bei einer positiven Aktion A(+) handelt es sich um eine Aktion, die den Wert für einen Parameter pi erhöht, bei einer neutralen Aktion A(0) handelt es sich um ein Aktion, bei der der Wert des Parameters pi gleichbleibt, während sich bei einer negativen Aktion A(-) der Wert des Parameters pi verringert.
  • Das Umgebungs-Modul 400 berechnet aufgrund der gewählten Aktion ai und unter Berücksichtigung von zuvor festgelegten Randbedingungen (engl.: constraints) die Zustände si ∈ S. Bei den Randbedingungen kann es sich auch um wirtschaftliche Aspekte wie die Kostenstruktur, die Energiekosten, die Umweltbilanz, die Verfügbarkeit oder die Liefersituation handeln.
  • Ein Zustand si ∈ S ist somit durch die Auswahl von bestimmten Parameterwerten pi für Eigenschaften ei definiert und damit durch gemessene und/oder berechnete Werte von ausgewählten Eigenschaften ei gekennzeichnet. Bei den Eigenschaften ei kann es sich beispielsweise um Sicherheitskoeffizienten ki für die jeweilige mechanische Komponente handeln, aber es sind auch andere Koeffizienten wie der Energieaufwand bei der Herstellung denkbar. Des Weiteren sind mögliche Eigenschaften ein thermischer Widerstand oder ein elektrischer Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder ein Spannungs-, Druck,-Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärme Behandlung. Im Fall einer Farbauswahl ist die Farbe an sich die Eigenschaft und die konkrete Farbe, beispielsweise ein bestimmter Pantone-Farbton, der Parameter.
  • In dem Zustands-Modul 500 wird eine Abweichung Δ zwischen einem Ziel-Zustand st wie einem Ziel-Sicherheitskoeffizienten Ct und dem berechneten Zustand si wie einem Sicherheitskoeffizienten Ci berechnet. Der Endzustand ist erreicht, wenn die berechneten Zustände si gleich oder größer als die Ziel-Zustände st sind.
  • In dem Belohnungs-Modul 600 wird dem Grad der Abweichung Δ zwischen dem berechneten Wert für den Zustand si und dem Zielwert des Zustands st eine Belohnung ri zugeordnet. Da der Grad der Abweichung Δ von der Auswahl der jeweiligen Aktion A(+), A(0), A(-) abhängig ist, wird vorzugsweise in einer Matrix oder einer Datenbank der jeweiligen ausgewählten Aktion A(+), A(0), A(-) die Belohnung rt zugeordnet. Eine Belohnung ri weist vorzugsweise die Werte +1 und -1 auf, wobei eine geringe oder positive Abweichung Δ zwischen dem berechneten Zustand si und dem Ziel-Zustand st mit +1 belohnt wird und somit verstärkt wird, während eine erhebliche negative Abweichung Δ mit -1 belohnt wird und somit negativ bewertet wird. Es ist aber auch denkbar, dass Werte > 1 und Werte < 1 Verwendung finden.
  • Vorzugsweise wird als Algorithmus für den LV-Agenten 200 ein Markov-Entscheidungsprozess verwendet. Es kann aber auch vorgesehen sind, einen Temporal Difference Learning (TD-Learning) Algorithmus zu verwenden. Ein LV-Agent 200 mit einem TD-Learning-Algorithmus nimmt die Anpassung der Aktionen A(+), A(0), A(-) nicht erst dann vor, wenn er die Belohnung erhält, sondern nach jeder Aktion ai auf Basis einer geschätzten erwarteten Belohnung. Des Weiteren sind auch Algorithmen wie Q-Learning und SARSA denkbar oder Actor-Critic oder auch Monte-Carlo-Simulationen. Mit dem Algorithmus ist eine dynamische Programmierung und eine Anpassung der Strategie durch Iterationsverfahren möglich.
  • Darüber hinaus enthält der LV-Agent 200 und/oder das Aktions-Modul 300 und/oder das Umgebungsmodul 400 und/oder das Zustandsmodul 500 und/oder das Belohnungsmodul 600 Berechnungsverfahren und Algorithmen fi für mathematische Regressionsverfahren oder physikalische Modellberechnungen, die eine Korrelation zwischen ausgewählten Parametern pi ∈ P aus einer Menge von Parametern und einer den Ziel-Zuständen st beschreiben. Bei den mathematischen Funktionen ft kann es sich um statistische Verfahren wie Mittelwerte, Minimal- und Maximalwerte, Lookup Tabellen, Modelle zu Erwartungswerten, lineare Regressionsverfahren oder Gauß-Prozesse handeln, um Fast Fourier Transformationen, Integral- und Differentialrechnungen, Markov-Verfahren, Wahrscheinlichkeitsverfahren wie Monte Carlo-Verfahren, Temporal Difference Learning, aber auch um erweiterte Kalman-Filter, radiale Basisfunktionen, Datenfelder, konvergente neuronale Netze, tiefe neuronale Netze, künstliche neuronale Netze und/oder rückgekoppelte neuronale Netze handeln. Basierend auf den Aktionen ai und den Belohnungen ri wählt der LV-Agent 200 und/oder das Aktions-Modul 300 und/oder das Umgebungsmodul 400 und/oder das Zustandsmodul 500 und/oder das Umgehungs-Modul 600 für einen Zustand si eine oder mehrere dieser Berechnungsfunktionen fi aus.
  • Nun beginnt ein zweiter Zyklus zum Konstruieren bzw. Designen der Komponente(n) des Bauteils. Hierbei kann der LV-Agent 200 eine andere Aktion ai+1 und/oder eine andere Berechnungsfunktion fi+1 und/oder ein anderer Parameter pi+1 ausgewählen entsprechend der definierten Strategie bzw. Richtlinie. Das Ergebnis wird wiederum dem Zustands-Modul 500 zugeführt und das Ergebnis des Vergleichs im Belohnungs-Modul 600 bewertet. Der LV-Agent 200 wiederholt den Konstruktionsvorgang bzw. Designvorgang für alle vorgesehenen Aktionen ai, ai+1, ..., ai+n, Berechnungsfunktionen fi, fi+1, ...,fi+n und Parameter pi,pi+1, ...,pi+n solange, bis eine größtmögliche Übereinstimmung zwischen einem berechneten Zustand si, si+1, ...,si+n und einem Ziel-Zustand st erreicht ist. Vorzugsweise ist der Endzustand des Konstruktionsvorgangs erreicht, wenn die Abweichung Δ im Bereich von +/- 5% liegt. Der LV-Agent 200 optimiert somit sein Verhalten und damit die Strategie bzw. Richtlinie, nach der eine Aktion ai ausgewählt wird, solange, bis die Richtlinie konvergiert. Der LV-Agent 200 lernt somit, welche Aktion/en ai, ai+1, ..., ai+n für welchen Zustand si, si+1, ..., si+n die besten sind. Wenn er die Zustände si, si+1, ...,si+n sehr oft besucht und jedes Mal eine andere Kette von Aktionen ai, ai+1, ..., ai+n mit ausgewählten Aktionen ai, ai+1,..., ai+n, die sowohl sehr unterschiedlich als auch sehr ähnlich sein können, ausprobiert, sammelt er Erfahrungen in Bezug auf die Richtlinie und damit die Kalibrierungsmethodik. Wenn er die Zustände si, si+1, ...,si+n oft genug besucht hat und genügend Aktionen ai, ai+1, ..., ai+n ausprobiert hat, dann kann die Richtlinie zu der optimalen Richtlinie konvergieren. Dies bedeutet, dass die optimale/-en Aktionen ai, ai+1, ..., ai+n für einen bestimmten Zustand si, si+1, ...,si+n zurückgegeben werden, um in den Ziel-Zustand st zu kommen.
  • Wie in 2 dargestellt, kann insbesondere vorgesehen sein, dass die Berechnungsergebnisse in Form von Zuständen, Aktionen, Belohnungen und Strategien in einer Cloud-Computing-Umgebung 700 gespeichert werden und jeweils über das Internet verfügbar sind. Der LV-Agent 200, das Aktions-Modul 300, das Umgebungsmodul 400, das Zustands-Modul 500 und das Belohnungsmodul 600 verfügen hierzu über die erforderlichen technischen Schnittstellen und Protokolle für den Zugang zu der Cloud-Computing-Umgebung 700. Hierdurch kann die Recheneffizienz gesteigert werden, da die Zugriffsmöglichkeiten und die Zugriffsgeschwindigkeiten zu bereits berechneten Zuständen, Aktionen, Belohnungen und Strategien vereinfacht ist.
  • Auch kann vorgesehen sein, dass die gesamte erfindungsgemäße Softwareapplikation (Computerprogrammprodukt) in der Cloud-Computing-Umgebung 700 gespeichert wird. Hierdurch kann das Know-how der Berechnungsalgorithmen besser geschützt und gesichert werden, da diese Algorithmen nicht an die Umgebung außerhalb der Cloud-Computing-Umgebung 700 weitergegeben werden müssen. Wie in 3 dargestellt, können darüber hinaus mehrere LV-Agenten 200, 220, 240 gekoppelt werden, die miteinander über die Cloud-Computing-Umgebung 700 interagieren und ihre Ergebnisse jeweils in der Cloud-Computing-Umgebung 700 speichern. Hierdurch kann die Qualität des Konstruktions- oder Designentwurfs für eine oder mehrere der mechanischen Komponenten des Bauteils gesteigert werden, da ein LV-Agent 200 von der Erfahrung der anderen LV-Agenten 220, 240 lernen kann. Insgesamt kann auf diese Weise das Konvergenzverhalten des Systems 100 gesteigert werden.
  • Die Belohnungsfunktion R wird üblicherweise als eine lineare Kombination von verschiedenen Attributen (engl.: features) Ai und Gewichten wi dargestellt, beispielsweise als Formel 800: R = w 1 A 1 + w 2 A 2 + + w n + A n
    Figure DE102020118805A1_0001
    Bei den Attributen Ai handelt es sich im Rahmen dieser Erfindung insbesondere um die Abweichung Δ zwischen einem Ziel-Zustand st und einem berechneten Zustand si. Die Attribute Ai können jedoch auch andere Kategorien repräsentieren. Zudem sind auch andere Formeln für die Belohnungsfunktion R möglich.
  • Um eine optimale Belohnungsfunktion R zu entwickeln, werden die einzelnen Gewichte wi insbesondere von einem Experten wie einem Ingenieur angepasst., so dass die Belohnung ri maximiert wird. Da es sich hierbei nicht um einen autonomen Prozess des verstärkenden Lernens handelt, kann eine solche Vorgehensweise als inverses verstärkendes Lernen bezeichnet werden.
  • Darüber hinaus können für die Optimierung der Belohnungsfunktion R Optimierungs-Algorithmen wie eine Ausbeute-Optimierung oder eine Entropie-Optimierung und Algorithmen aus der Statistik wie Klassifikations- und Regressionsalgorithmen oder Gauß-Prozesse und Algorithmen aus dem imitierenden Lernen verwendet werden.
  • Gemäß dem Verfahren und des Systems der vorliegenden Erfindung wird ein verstärkendes Lernen (Reinforcement Learning) eingesetzt, um zumindest eine mechanische Komponente eines Bauteils autonom zu konstruieren und/oder zu designen. Hierzu gehen verschiedene Parameter pi wie die Dimension, die Formgebung und/oder das Material in das Berechnungsverfahren ein. Da der LV-Agent 200 selbstständig für die Parameter pi Aktionen ai ausgewählt, können insbesondere nichtlineare Zusammenhänge zwischen diesen Parametern pi erfasst werden, die in herkömmlichen Konstruktionsverfahren kaum Berücksichtigung finden. Es handelt sich um ein autonomes Konstruktionsverfahren, da der LV-Agent 200 die Aktionen ai selbst auswählt und für diese jeweils eine Belohnung rt erhält. Hierdurch können in kurzer Zeit und mit verringerten Kosten optimal konstruierte und designte mechanische Komponenten für ausgewählte Zwecke bereitgestellt werden. Insbesondere können auch Randbedingungen, die über die Formgebung hinausgehen, wie die Kostenstruktur oder die Umweltbilanz, für die zu konstruierende Komponente berücksichtig werden. Eine Randbedingung kann beispielsweise die Verwendung von einem gewissen Prozentsatz von Recyclingmaterial verlangen, um Umweltauflagen nachzukommen.
  • In 4 sind die Verfahrensschritte zum autonomen Konstruieren und Designen von zumindest einer mechanischen Komponente für ein Bauteil dargestellt.
  • In einem Schritt S10 wird an einen Lernverstärkungs-Agent 200 ein Zustand si von der Komponente von einem Zustands-Modul 500 übermittelt, wobei ein Zustand si durch Daten und Messwerte von zumindest einer Eigenschaft ei der Komponente definiert und durch das Zustands-Modul 500 bestimmt wird.
  • In einem Schritt S20 wählt der LV-Agent 200 für den Zustand si zumindest eine Berechnungsfunktion fi und/oder eine Aktion ai basierend auf einer Richtlinie für einen Zustand si für die Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei aus.
  • In einem Schritt S30 berechnet ein Aktions-Agent 300 einen modellierten Wert für die Eigenschaft ei mittels des modifizierten Parameters pi.
  • In einem Schritt S40 berechnet ein Umgebungs-Modul 400 einen neuen Zustand si+1 aufgrund des modellierten Wertes für die Eigenschaft ei.
  • In einem Schritt S50 vergleicht ein Zustands-Modul 500 den neuen Zustand si+1 mit einem Ziel-Zustand st und ordnet ihm eine Abweichung Δ zu.
  • In einem Schritt S60 ermittelt ein Belohnungs-Modul 600 eine Belohnung ri für das Vergleichsergebnis.
  • In einem Schritt S70 wird die Richtlinie des LV-Agenten 200 angepasst basierend auf der Belohnung ri, wobei bei einer Konvergenz der Richtlinie die optimale Aktion für den berechneten Zustand sj zurückgegeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion fj und/oder eine weitere Aktion aj+1 für einen Zustand sj+1 mit einer Modifizierung zumindest eines Parameters pi der zumindest einen Eigenschaft ei von dem LV-Agenten 200 ausgewählt wird, solange bis der Ziel-Zustand st erreicht ist.
  • 5 stellt schematisch ein Computerprogrammprodukt 900 dar, das einen ausführbaren Programmcode 950 umfasst, der konfiguriert ist, um das Verfahren gemäß dem ersten Aspekt der vorliegenden Erfindung auszuführen, wenn es ausgeführt wird.
  • Mit dem Verfahren gemäß der vorliegenden Erfindung können somit zuverlässig optimierte Zustände si durch die Auswahl von passenden Aktionen ai gefunden werden, um eine oder mehrere Komponenten eines Bauteils zuverlässig und autonom zu konstruieren bzw. zu designen. Durch die Verwendung eines Lernverstärkungs-Agenten 200 mit einem Algorithmus des verstärkenden Lernens ist es möglich, Konstruktions- oder Designvorgänge autonom und selbstoptimierend durchzuführen.
  • Bezugszeichenliste
  • 100
    System zum Konstruieren
    200
    Lernverstärkungs-Agent
    220
    zweiter LV-Agent
    240
    dritter LV-Agent
    300
    Aktions-Modul
    400
    Umgebungs-Modul
    500
    Zustands-Modul
    600
    Belohnungs-Modul
    700
    Cloud-Computing-Umgebung
    800
    Formel
    900
    Computerprogrammprodukt
    950
    Programmcode
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 2007143039 A1 [0005]
    • DE 102018104717 A1 [0006]
    • US 2019197198 B1 [0007]

Claims (15)

  1. Ein Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils, umfassend: - Bestimmen (S10) eines Zustands (si) der Komponente durch ein Zustands-Modul (500), wobei ein Zustand (si) durch Parameter (pi) wie Daten und/oder Messwerte von zumindest einer Eigenschaft (ei) der Komponente definiert wird, und Übermitteln des Zustands (si) an einen Lernverstärkungs-Agenten (200), der einen Algorithmus des verstärkenden Lernens verwendet; - Auswählen (S20) einer Berechnungsfunktion (fi) und/oder einer Aktion (ai) basierend auf einer Richtlinie für einen Zustand (si) für die Modifizierung zumindest eines Parameters (pi) von dem Lernverstärkungs-Agenten (200); - Berechnen (S30) eines modellierten Wertes für die Eigenschaft (ei) mittels des modifizierten Parameters (pi); - Berechnen (S40) eines neuen Zustands (si+1) von einem Umgebungs-Modul (400) aufgrund des modellierten Wertes für die Eigenschaft (ei); - Vergleichen (S50) des neuen Zustands (si+1) mit einem Ziel-Zustand (st) und Zuordnen einer Abweichung (Δ) für das Vergleichsergebnis in dem Zustands-Modul (300); - Ermitteln (S60) einer Belohnung (ri) von einem Belohnungsmodul (600) für das Vergleichsergebnis; - Anpassen (S70) der Richtlinie des Lernverstärkung-Agenten (200) basierend auf der Belohnung (ri), wobei bei einer Konvergenz der Richtlinie wird die optimale Aktion (aj) für den berechneten Zustand (sj) zurückgeben, und bei einer Nicht-Konvergenz der berechneten Richtlinie wird eine weitere Berechnungsfunktion (fj) und/oder eine weitere Aktion (aj+1) für einen Zustand (sj+1) mit einer Modifizierung zumindest eines Parameters (pj) von dem Lernverstärkungs-Agenten (200) ausgewählt, solange bis der Ziel-Zustand (st) erreicht ist.
  2. Verfahren nach Anspruch 1, wobei eine positive Aktion (A(+)), die den Wert für einen Parameter (pi) erhöht, eine neutrale Aktion (A(0)), bei der der Wert des Parameters (pi) gleichbleibt, und eine negative Aktion (A(-)), bei der sich der Wert des Parameters (pi verringert, vorgesehen sind.
  3. Verfahren nach Anspruch 1 oder 2, wobei der Algorithmus des verstärkenden Lernens als Markov-Entscheidungsprozess oder als Temporal Difference Learning (TD-Learning) oder als Q-Learning oder als SARSA oder als Monte-Carlo-Simulation oder als Actor-Critic ausgebildet ist.
  4. Verfahren nach einem oder mehreren der Ansprüche 1 bis 3, wobei zumindest ein Parameter (pj) eine Dimension oder ein Material oder eine Formgebung oder einen Messwert darstellt.
  5. Verfahren nach einem oder mehreren Ansprüche 1 bis 4, wobei zumindest eine Eigenschaft (ei) einen Sicherheitsfaktor oder einen thermischen Widerstand oder einen elektrischen Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder einen Spannungs-, Druck,-Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärme Behandlung darstellt.
  6. Verfahren nach einem oder mehreren Ansprüche 1 bis 5, wobei eine Richtlinie eine Zuordnung von Zuständen (si) zu Aktionen (ai) darstellt.
  7. Verfahren nach Anspruch 6, wobei eine Richtlinie beinhaltet, dass bei einer positiven Belohnung (rj) für den berechneten Zustand (sj) eine Wahlwahrscheinlichkeit für die vorherige Aktion (aj) für diesen Zustand (sj) erhöht wird, bei einer negativen Belohnung (rj) für den berechneten Zustand (sj) die Wahlwahrscheinlichkeit für die vorherige Aktion (aj) für diesen Zustand (sj) reduziert wird, und bei einer Konvergenz der Richtlinie die optimale Aktion (aj) für diesen berechneten Zustand (sj) zurückgegeben wird.
  8. Verfahren nach einem der vorangehenden Ansprüche, wobei die Berechnungsergebnisse in Form von Zuständen (si), Aktionen (ai,) Belohnungen (ri) und Strategien in einer Cloud-Computing-Umgebung (700) gespeichert werden und über das Internet verfügbar sind.
  9. Verfahren nach Anspruch 8, wobei der LV-Agent (200), das Aktions-Modul (300), das Umgebungsmodul (400), das Zustands-Modul (500) und das Belohnungsmodul (600) über ein oder mehrere technischen Schnittstellen und Protokolle für den Zugang zu der Cloud-Computing-Umgebung (700) verfügen.
  10. Verfahren nach einem der Ansprüche 8 oder 9, wobei mehrere LV-Agenten (200, 220, 240) gekoppelt werden und miteinander über die Cloud-Computing-Umgebung (700) interagieren.
  11. Ein System (100) zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente eines Bauteils, umfassend einen LV-Agenten (200) mit einem Algorithmus des verstärkenden Lernens, ein Aktions-Modul (300), ein Umgebungs-Modul (400), ein Zustandsmodul (500) und ein Belohnungs-Modul (600), wobei das Zustands-Modul (300) ausgebildet ist, einen Zustand (si) der Komponente zu bestimmen, wobei ein Zustand (si) durch Parameter (pi) wie Daten und/oder Messwerte von zumindest einer Eigenschaft (ei) der Komponente definiert ist, und den Zustand (si) an einen Lernverstärkungs-Agenten (200) zu übermitteln; wobei der Lernverstärkungs-Agent (200) ausgebildet ist, eine Berechnungsfunktion (fi) und/oder eine Aktion (ai) basierend auf einer Richtlinie für einen Zustand (si) für die Modifizierung zumindest eines Parameters (pi) der zumindest einen Eigenschaft (ei) auszuwählen; wobei das Aktions-Modul (300) ausgebildet ist, einen modellierten Wert für die Eigenschaft (ei) mittels des modifizierten Parameters (pi) zu berechnen; wobei das Umgebungs-Modul (400) ausgebildet ist, einen neuen Zustand (si+1) aufgrund des modellierten Wertes für die Eigenschaft (ei) zu berechnen; wobei das Zustands-Modul (300) ausgebildet ist, den neuen Zustand (si+1) mit einem Ziel-Zustand (st) zu vergleichen und dem Vergleichsergebnis eine Abweichung (Δ) zuzuordnen; wobei das Belohnungsmodul (600) ausgebildet ist, eine Belohnung (ri) für das Vergleichsergebnis zu ermitteln und die Belohnung (ri) für das Vergleichsergebnis an den Lernverstärkungs-Agenten (200) weiterzugeben, der ausgebildet ist, die Richtlinie basierend auf dieser Belohnung (ri) anzupassen, wobei bei einer Konvergenz der Richtlinie die optimale Aktion (aj) für den berechneten Zustand (sj) zurückgegeben wird, und bei einer Nicht-Konvergenz der Richtlinie eine weitere Berechnungsfunktion (fj) und/oder eine weitere Aktion (aj) für einen Zustand (sj+1) mit einer Modifizierung zumindest eines Parameters (pj) der zumindest einen Eigenschaft (ej) von dem LV-Agenten (200) ausgewählt wird, solange bis der Ziel-Zustand (st) erreicht ist.
  12. System (100) nach Anspruch 11, wobei eine positive Aktion (A(+)), die den Wert für einen Parameter (pi) erhöht, eine neutrale Aktion (A(0)), bei der der Wert des Parameters (pi) gleichbleibt, und eine negative Aktion (A(-)), bei der sich der Wert des Parameters (pi)verringert, vorgesehen sind.
  13. System (100) nach Anspruch 11 oder 12, wobei der Algorithmus des verstärkenden Lernens als Markov-Entscheidungsprozess oder als Temporal Difference Learning (TD-Learning) oder als Q-Learning oder als SARSA oder als Monte-Carlo-Simulation ausgebildet ist.
  14. System (100) nach einem oder mehreren der Ansprüche 11 bis 13, wobei zumindest ein Parameter (pi) eine Dimension, ein Material oder eine Formgebung darstellt und eine Eigenschaft (ei) einen Sicherheitsfaktor oder einen thermischen Widerstand oder einen elektrischen Widerstand oder eine Leitfähigkeit oder eine Festigkeit oder ein Bruchverhalten oder eine Farbe oder eine Dichte oder eine plastische Verformung oder einen Spannungs-, Druck,- Biegungswiderstand oder Werkstoffeigenschaften oder Oberflächeneigenschaften oder eine Wärme Behandlung darstellt.
  15. Computerprogrammprodukt (900), umfassend einen ausführbaren Programmcode (950), der so konfiguriert ist, dass er bei seiner Ausführung das Verfahren nach einem der Ansprüche 1 bis 10 ausführt.
DE102020118805.6A 2020-07-16 2020-07-16 System und Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil Pending DE102020118805A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102020118805.6A DE102020118805A1 (de) 2020-07-16 2020-07-16 System und Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil
US17/376,271 US11614718B2 (en) 2020-07-16 2021-07-15 System and method for the autonomous construction and/or design of at least one component part for a component

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020118805.6A DE102020118805A1 (de) 2020-07-16 2020-07-16 System und Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil

Publications (1)

Publication Number Publication Date
DE102020118805A1 true DE102020118805A1 (de) 2022-01-20

Family

ID=79020758

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020118805.6A Pending DE102020118805A1 (de) 2020-07-16 2020-07-16 System und Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil

Country Status (2)

Country Link
US (1) US11614718B2 (de)
DE (1) DE102020118805A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022119318A1 (de) 2022-08-02 2024-02-08 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren zur Optimierung einer Gesamtkonstruktion

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020118805A1 (de) * 2020-07-16 2022-01-20 Dr. Ing. H.C. F. Porsche Aktiengesellschaft System und Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070143039A1 (en) 2003-09-24 2007-06-21 Ab Skf Method and sensor arrangement for load measurement on rolling element bearing based on model deformation
DE102016011525A1 (de) 2015-09-30 2017-03-30 Fanuc Corporation Vorrichtung für maschinelles Lernen und Spulen-Produktionsvorrichtung
DE102017006054A1 (de) 2016-07-04 2018-01-04 Fanuc Corporation Maschinelle Lernvorrichtung, die eine geschätzte Lebensdauer eines Lagers lernt, Lebensdauer-Schätzvorrichtung und maschinelles Lernverfahren
DE102017011754A1 (de) 2016-12-26 2018-06-28 Fanuc Corporation Maschinenlerneinrichtung zum Lernen eines Montagevorgangs und Komponentenmontagesystem
DE102018104717A1 (de) 2017-03-02 2018-09-06 GM Global Technology Operations LLC Systeme und verfahren zur vorhersage der fahrzeugabmessung
US20190197198A1 (en) 2017-12-26 2019-06-27 Autodesk, Inc. Techniques for applying generative design to the configuration of mechanical assemblies

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5999908A (en) * 1992-08-06 1999-12-07 Abelow; Daniel H. Customer-based product design module
JPH06314103A (ja) * 1993-04-30 1994-11-08 Fujitsu Ltd 制御装置と能動的センシング装置
US20080091628A1 (en) * 2006-08-16 2008-04-17 Narayan Srinivasa Cognitive architecture for learning, action, and perception
US9792397B1 (en) * 2017-01-08 2017-10-17 Alphaics Corporation System and method for designing system on chip (SoC) circuits through artificial intelligence and reinforcement learning
US10372859B2 (en) * 2017-03-09 2019-08-06 Alphaics Corporation System and method for designing system on chip (SoC) circuits using single instruction multiple agent (SIMA) instructions
US11915105B2 (en) * 2019-02-05 2024-02-27 Imagars Llc Machine learning to accelerate alloy design
DE102020118805A1 (de) * 2020-07-16 2022-01-20 Dr. Ing. H.C. F. Porsche Aktiengesellschaft System und Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070143039A1 (en) 2003-09-24 2007-06-21 Ab Skf Method and sensor arrangement for load measurement on rolling element bearing based on model deformation
DE102016011525A1 (de) 2015-09-30 2017-03-30 Fanuc Corporation Vorrichtung für maschinelles Lernen und Spulen-Produktionsvorrichtung
DE102017006054A1 (de) 2016-07-04 2018-01-04 Fanuc Corporation Maschinelle Lernvorrichtung, die eine geschätzte Lebensdauer eines Lagers lernt, Lebensdauer-Schätzvorrichtung und maschinelles Lernverfahren
DE102017011754A1 (de) 2016-12-26 2018-06-28 Fanuc Corporation Maschinenlerneinrichtung zum Lernen eines Montagevorgangs und Komponentenmontagesystem
DE102018104717A1 (de) 2017-03-02 2018-09-06 GM Global Technology Operations LLC Systeme und verfahren zur vorhersage der fahrzeugabmessung
US20190197198A1 (en) 2017-12-26 2019-06-27 Autodesk, Inc. Techniques for applying generative design to the configuration of mechanical assemblies

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ertel, Wolfgang: Grundkurs Künstliche Intelligenz; Eine praxisorientierte Einführung. 4. Auflage. Wiesbaden : Springer Fachmedien, 2016. Kapitel 10. - ISBN 978-3-658-13549-2. DOI https://doi.org/10.1007/978-3-658-13549-2. [e-Book]
Kreutz, Clemens: Steuerung stochastischer Systeme; Ein Vergleich von Strategien; Diplomarbeit. Freiburg: Albert-Ludwigs-Universität, 2003. https://freidok.uni-freiburg.de/fedora/objects/freidok:155315/datastreams/FILE1/content [abgerufen am 02.02.2021]

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022119318A1 (de) 2022-08-02 2024-02-08 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren zur Optimierung einer Gesamtkonstruktion

Also Published As

Publication number Publication date
US20220019179A1 (en) 2022-01-20
US11614718B2 (en) 2023-03-28

Similar Documents

Publication Publication Date Title
DE102016009106A1 (de) Mit Steuerung ausgerüstete Bearbeitungsvorrichtung mit Bearbeitungszeit- Messfunktion und Messfunktion auf der Maschine
DE102020118805A1 (de) System und Verfahren zum autonomen Konstruieren und/oder Designen von zumindest einer Komponente für ein Bauteil
DE102018109835A1 (de) Verfahren und Vorrichtung zum Ermitteln einer Netzkonfiguration eines neuronalen Netzes
DE102016117560A1 (de) Werkzeugmaschine zum erzeugen einer geschwindigkeitsverteilung
DE112019003910T5 (de) Informationsverarbeitungsverfahren, informationsverarbeitungsvorrichtung und informationsverarbeitungsprogramm
DE102018001028B4 (de) Numerische Steuerung
DE102021109382A1 (de) System und verfahren eines monotonen neuronalen operatornetzes technisches gebiet
DE112019003929T5 (de) Elektronische steuervorrichtung und aktualisierungssystem eines neuronalen netzes
EP2433185A1 (de) Vorrichtung und verfahren zum bearbeiten einer prozesssimulationsdatenbasis eines prozesses
DE102015221819A1 (de) Verfahren und Vorrichtung zum Adaptieren eines datenbasierten Funktionsmodells zur Berechnung in einer Modellberechnungseinheit
DE102019214546B4 (de) Computerimplementiertes Verfahren und Vorrichtung zur Optimierung einer Architektur eines künstlichen neuronalen Netzwerks
DE102022108379A1 (de) Verfahren, System und Computerprogrammprodukt zum optimierten Konstruieren und/oder Designen einer technischen Komponente
DE102013206274A1 (de) Verfahren und Vorrichtung zum Anpassen eines nicht parametrischen Funktionsmodells
Muñoz et al. Estimation of the lifespan of agricultural tractor using a diffusion model at the aggregate level
DE102022112606B3 (de) Computerimplementiertes Verfahren zur Kalibrierung eines technischen Systems
DE102019121913A1 (de) Verfahren zum Optimieren eines Baukastensystems für technische Funktionseinheiten einer prozesstechnischen Anlage
DE102022104313A1 (de) Verfahren, System und Computerprogrammprodukt zum autonomen Kalibrieren eines elektrischen Antriebsstrangs
DE102021119992B3 (de) Datengetriebenes Verfahren zum Regeln einer Fertigungsmaschine, Prozessor und zweiter Rechner, Computerprogramm
DE102022113702A1 (de) Verfahren, System und Computerprogrammprodukt zum autonomen intuitiven Konstruieren eines technischen Bauteils für eine Entität
DE102022207072A1 (de) Verfahren zum Ermitteln einer optimalen Architektur eines künstlichen neuronalen Netzes
DE102022115217A1 (de) Verfahren und System zur Bestimmung von Parametrierungswerten für ein physikalisches Modell einer Fahrzeugkomponente
DE102022120560A1 (de) Verfahren zur kalibrierung eines drehmomentsensorsystems für ein getriebe
DE102021207275A1 (de) Verfahren zum Erzeugen eines künstlichen neuronalen Netzes
DE102022108396A1 (de) Verfahren, System und Computerprogrammprodukt zum verstärkenden Lernen für die Durchführung von Steuerungs- und/oder Regelungsaufgaben einer Entität
DE102022200418A1 (de) Vorrichtung, System und computerimplementiertes Verfahren zum Betreiben eines technischen Systems

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication