DE102018126434B4

DE102018126434B4 - Testvorrichtung und Maschinenlernvorrichtung

Info

Publication number: DE102018126434B4
Application number: DE102018126434.8A
Authority: DE
Inventors: Genzo Naito
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-10-31
Filing date: 2018-10-24
Publication date: 2021-09-09
Anticipated expiration: 2038-10-25
Also published as: US10908599B2; US20190129398A1; JP2019082882A; CN109725597B; JP6626064B2; CN109725597A; DE102018126434A1

Abstract

Testvorrichtung (1) zum Bestimmen eines Testobjekts zum Testen einer Herstellungsmaschine (70) bei einem Entwicklungsprozess der Herstellungsmaschine (70), um ein Testobjekt zu finden, das die Herstellungsmaschine (70) instabil macht, wobei die Testvorrichtung (1) zum Bestimmen eines Testobjekts in Bezug auf einen Betriebszustand der Herstellungsmaschine (70) und Spezifikationen der Herstellungsmaschine (70) konfiguriert ist, die Testvorrichtung (1) umfassend:eine Maschinenlernvorrichtung (100), die eine Bestimmung des Testobjekts in Bezug auf die Herstellungsmaschine (70) lernt, wobeidie Maschinenlernvorrichtung (100) enthält:eine Zustandsbeobachtungseinheit (106), die Testobjektdaten beobachtet, die das Testobjekt darstellen, Herstellungsmaschinenbetriebszustandsdaten, die einen Betriebszustand der Herstellungsmaschine (70) darstellen, und Herstellungsmaschinenspezifikationsdaten, die Spezifikationen der Herstellungsmaschine (70) darstellen, als eine Zustandsvariable beobachtet, die einen aktuellen Zustand einer Umgebung darstellt;eine Bestimmungsdatengewinnungseinheit (108), die Bestimmungsdaten gewinnt, die ein Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine (70) darstellen, wobei das Eignungsbestimmungsergebnis erhalten wird, wenn das Testobjekt ausgeführt wird;eine Lerneinheit (110), die ein Lernen unter Verwendung der Zustandsvariable und der Bestimmungsdaten von einem oder mehreren vorhergehenden Zyklen derart ausführt, dass die Herstellungsmaschinenbetriebszustandsdaten und die Herstellungsmaschinenspezifikationsdaten verwendet werden, um das in einem nächsten Zyklus auszuführende Testobjekt zu ermitteln, undeine Schlussfolgerungsergebnisausgabeeinheit (122), die einen Betriebsbefehl eines Tests auf Basis des Testobjekts, auf Basis einer Zustandsvariable, die durch die Zustandsbeobachtungseinheit (106) beobachtet wird, und eines Lernergebnisses, das durch die Lerneinheit (110) erhalten wird, ausgibt.

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung betrifft eine Testvorrichtung und eine Maschinenlernvorrichtung und betrifft insbesondere eine Testvorrichtung und eine Maschinenlernvorrichtung, die zum automatischen Einstellen eines Worstcase-Szenario-Tests imstande sind.
Beschreibung des Standes der Technik
In Entwicklung einer Herstellungsmaschine wie einer Werkzeugmaschine und eines Roboters, wird ein Worstcase-Szenario-Test vorab durchgeführt, um so die Zuverlässigkeit der Herstellungsmaschine zu verbessern. Der Worstcase-Szenario-Test ist eine Testverarbeitung, ob eine Anomalität bei Betrieb einer Herstellungsmaschine auftritt oder nicht, wenn ein Signal, ein Stromwert und dergleichen, die von einem in Spezifikationen eingestellten Bereich abweichen, oder dergleichen, eingegeben werden und wenn die Herstellungsmaschine gemäß unerwarteten Betriebsprozeduren betrieben wird. Ein Inhalt dieses Worstcase-Szenario-Tests (das heißt Testobjekte und Testprozeduren) werden von einer Person, die für eine Inhaltsbestimmung eines Worstcase-Szenario-Tests verantwortlich ist, aufgrund ihrer Erfahrung bestimmt.
Als Technik nach dem Stand der Technik zur Unterstützung eines Betriebs in einer solchen Testverarbeitung offenbart JP. 2014-203125 A zum Beispiel eine Technik zum Strukturieren von Steuerdaten zum Steuern einer Vorrichtung, die ein Testobjekt ist. Ferner offenbart die JP 2012-014584 A eine Testvorrichtung, die automatisch eine Steuerung testet.
Da jedoch nur vorwiegend Tests, die auf Testobjekten beruhen, die auf Basis einer Erfahrung einer Person, die für die Tests verantwortlich ist, und auf Basis früherer Versagensfälle erstellt werden, im Worstcase-Szenario-Test durchgeführt werden, ist es schwierig, einen umfassenden Worstcase-Szenario-Test durchzuführen, der eine unerwartete Situation voraussieht. Daher besteht ein Problem, dass Versagen vor Ort nach Lieferung von Herstellungsmaschinen auftreten.
Aus DE 197 43 600 A1 ist ein Verfahren zur Überwachung eines Herstellungsprozesses bekannt, wobei gemessene Signale hinsichtlich ihrer Zulässigkeit bewertet werden und wobei zulässige Signale mit Qualitätsmessungen der hergestellten Produkte unter Verwendung eines neuronalen Netzes korreliert werden
KURZDARSTELLUNG DER ERFINDUNG
Eine Aufgabe der vorliegenden Erfindung ist eine Bereitstellung einer Testvorrichtung und einer Maschinenlernvorrichtung, die imstande sind, einen umfassenden und effizienten Worstcase-Szenario-Test durchzuführen. Diese Aufgabe wird durch eine Testvorrichtung gemäß einem der Ansprüche 1 oder 4, sowie durch eine Maschinenlernvorrichtung gemäß einem der Ansprüche 6 oder 7 gelöst.
Die Testvorrichtung gemäß der vorliegenden Erfindung führt eine Maschinenlernvorrichtung ein, die eine Eingabe (Testobjekt) generiert, die einer Herstellungsmaschine in einem Worstcase-Szenario-Test verliehen wird, und ein Testergebnis auf Basis der Eingaben evaluiert, wodurch das oben erwähnte Problem gelöst wird. Die Maschinenlernvorrichtung, die in die Testvorrichtung gemäß der vorliegenden Erfindung eingeführt wird, bestimmt Eingangsspannung und Eingangsstrom, die der Herstellungsmaschine verliehen werden, auf Basis eines Lernergebnisses und verbessert eine Evaluierung des Testobjekts, wenn ein Ausgang der Maschine aufgrund der Eingaben instabil wird. Die Maschinenlernvorrichtung, die in die Testvorrichtung gemäß der vorliegenden Erfindung eingeführt wird, sucht dementsprechend nach Eingaben (schädlichen Operationen), die eine Maschine instabil machen, wodurch schädliche Operationen, die Entwickler der Herstellungsmaschine nicht erwarten, in der Entwicklungsstufe erfasst werden können. Die Entwickler der Herstellungsmaschine können die Maschine verbessern und eine präventive Wartung der Maschine anhand der Informationen durchführen, wodurch ein Auftreten eines Versagens in unerwarteten Situationen nach Markteinführung von Produkten verhindert werden.
Eine Testvorrichtung gemäß einem Aspekt der vorliegenden Erfindung ist konfiguriert, ein Testobjekt in Bezug auf einen Betriebszustand der Herstellungsmaschine und Spezifikationen der Herstellungsmaschine zu bestimmen. Die Testvorrichtung enthält eine Maschinenlernvorrichtung, die eine Bestimmung des Testobjekts in Bezug auf die Herstellungsmaschine lernt. Die Maschinenlernvorrichtung enthält: eine Zustandsbeobachtungseinheit, die Testobjektdaten, die das Testobjekt darstellen, Herstellungsmaschinenbetriebszustandsdaten, die einen Betriebszustand der Herstellungsmaschine darstellen, und Herstellungsmaschinenspezifikationsdaten, die Spezifikationen der Herstellungsmaschine darstellen, als eine Zustandsvariable beobachtet, die einen aktuellen Zustand einer Umgebung darstellt; eine Bestimmungsdatengewinnungseinheit, die Bestimmungsdaten gewinnt, die ein Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine darstellen, wobei das Eignungsbestimmungsergebnis erhalten wird, wenn das Testobjekt ausgeführt wird; und eine Lerneinheit, die ein Lernen unter Verwendung der Zustandsvariable und der Bestimmungsdaten in einem Zustand ausführt, in dem die Herstellungsmaschinenbetriebszustandsdaten und die Herstellungsmaschinenspezifikationsdaten mit den Testobjektdaten verknüpft sind.
Die Lerneinheit kann eine Bewertungsberechnungseinheit enthalten, die eine Bewertung erhält, die sich auf das Eignungsbestimmungsergebnis bezieht, und eine Wertfunktionsaktualisierungseinheit, die eine Funktion, die einen Wert des Testobjekts in Bezug auf einen Betriebszustand der Herstellungsmaschine und Spezifikationen der Herstellungsmaschine darstellt, unter Verwendung der Bewertung aktualisiert. Die Bewertungsberechnungseinheit kann eine höhere Bewertung berechnen, wenn ein Betrieb der Herstellungsmaschine instabiler wird.
Die Lerneinheit kann die Zustandsvariable und die Bestimmungsdaten in einer mehrschichtigen Struktur berechnen.
Eine Testvorrichtung gemäß einem anderen Aspekt der vorliegenden Erfindung ist konfiguriert, ein Testobjekt in Bezug auf einen Betriebszustand der Herstellungsmaschine und Spezifikationen der Herstellungsmaschine zu bestimmen, und die Testvorrichtung umfasst eine Maschinenlernvorrichtung, die eine Bestimmung des Testobjekts in Bezug auf die Herstellungsmaschine gelernt hat. Die Maschinenlernvorrichtung enthält: eine Zustandsbeobachtungseinheit, die Testobjektdaten, die das Testobjekt darstellen, Herstellungsmaschinenbetriebszustandsdaten, die einen Betriebszustand der Herstellungsmaschine darstellen, und Herstellungsmaschinenspezifikationsdaten, die Spezifikationen der Herstellungsmaschine darstellen, als eine Zustandsvariable beobachtet, die einen aktuellen Zustand einer Umgebung darstellt; eine Lerneinheit, die ein Lernen in einem Zustand durchgeführt hat, in dem die Herstellungsmaschinenbetriebszustandsdaten und die Herstellungsmaschinenspezifikationsdaten mit den Testobjektdaten verknüpft sind; und eine Schlussfolgerungsergebnisausgabeeinheit, die einen Betriebsbefehl eines Tests auf Basis des Testobjekts, auf Basis einer Zustandsvariable, die durch die Zustandsbeobachtungseinheit beobachtet wird, und eines Lernergebnisses, das durch die Lerneinheit erhalten wird, ausgibt.
Die Maschinenlernvorrichtung kann in einem Cloud Server vorliegen.
Eine Maschinenlernvorrichtung gemäß einem weiteren Aspekt der vorliegenden Erfindung ist konfiguriert, eine Bestimmung eines Testobjekts zum Testen einer Herstellungsmaschine zu lernen. Die Maschinenlernvorrichtung enthält: eine Zustandsbeobachtungseinheit, die Testobjektdaten, die das Testobjekt darstellen, Herstellungsmaschinenbetriebszustandsdaten, die einen Betriebszustand der Herstellungsmaschine darstellen, und Herstellungsmaschinenspezifikationsdaten, die Spezifikationen der Herstellungsmaschine darstellen, als eine Zustandsvariable beobachtet, die einen aktuellen Zustand einer Umgebung darstellt; eine Bestimmungsdatengewinnungseinheit, die Bestimmungsdaten gewinnt, die ein Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine darstellen, wobei das Eignungsbestimmungsergebnis erhalten wird, wenn das Testobjekt ausgeführt wird; und eine Lerneinheit, die ein Lernen unter Verwendung der Zustandsvariable und der Bestimmungsdaten in einem Zustand ausführt, in dem die Herstellungsmaschinenbetriebszustandsdaten und die Herstellungsmaschinenspezifikationsdaten mit den Testobjektdaten verknüpft sind.
Eine Maschinenlernvorrichtung gemäß einem weiteren Aspekt der vorliegenden Erfindung ist konfiguriert, eine Bestimmung eines Testobjekts zum Testen einer Herstellungsmaschine zu lernen. Die Maschinenlernvorrichtung enthält: eine Zustandsbeobachtungseinheit, die Testobjektdaten, die das Testobjekt darstellen, Herstellungsmaschinenbetriebszustandsdaten, die einen Betriebszustand der Herstellungsmaschine darstellen, und Herstellungsmaschinenspezifikationsdaten, die Spezifikationen der Herstellungsmaschine darstellen, als eine Zustandsvariable beobachtet, die einen aktuellen Zustand einer Umgebung darstellt; eine Lerneinheit, die ein Lernen in einem Zustand ausführt, in dem die Herstellungsmaschinenbetriebszustandsdaten und die Herstellungsmaschinenspezifikationsdaten mit den Testobjektdaten verknüpft sind; und eine Schlussfolgerungsergebnisausgabeeinheit, die einen Betriebsbefehl eines Tests auf Basis des Testobjekts, auf Basis einer Zustandsvariable, die durch die Zustandsbeobachtungseinheit beobachtet wird, und eines Lernergebnisses, das durch die Lerneinheit erhalten wird, ausgibt.
Die vorliegende Erfindung ermöglicht, zum Beispiel Versagen und Fehler (von Software) zu detektieren, die von Entwicklern einer Herstellungsmaschine nicht erwartet werden, und ermöglicht eine effiziente Ausführung eines Worstcase-Szenario-Tests.
Figurenliste

1 ist ein Hardware-Konfigurationsdiagramm, das schematisch eine Testvorrichtung gemäß einer ersten Ausführungsform zeigt.
2 ist ein Funktionsblockdiagramm, das schematisch die Testvorrichtung gemäß der ersten Ausführungsform zeigt.
3 ist ein Funktionsblockdiagramm, das schematisch eine Ausführungsform der Testvorrichtung zeigt.
4 ist ein Ablaufdiagramm, das schematisch eine Ausführungsform eines Maschinenlernverfahrens zeigt.
5A zeigt ein Neuron.
5B zeigt ein neurales Netzwerk.
6 ist ein Funktionsblockdiagramm, das schematisch eine Ausführungsform eines Systems zeigt, in dem eine Testvorrichtung eingegliedert ist.

AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
1 ist ein Hardware-Konfigurationsdiagramm, das schematisch wesentliche Teile einer Testvorrichtung gemäß einer ersten Ausführungsform zeigt.
Eine Testvorrichtung 1 kann als eine Testvorrichtung montiert werden, die einen Signaleingang, eine Stromquelle und dergleichen in Bezug auf eine Herstellungsmaschine wie einen Roboter und eine Werkzeugmaschine steuert, um die Herstellungsmaschine zu testen, als ein Teil einer Steuerung einer Herstellungsmaschine wie eines Roboters und einer Werkzeugmaschine montiert sein, oder als ein Teil eines Rechners, wie eines Zellenrechners, eines Host Computers und eines Cloud Servers, montiert sein, der mit einer Herstellungsmaschine zum Beispiel über ein Netzwerk verbunden ist. Eine CPU 11, die in dieser Testvorrichtung 1 enthalten ist, ist ein Prozessor, der die Testvorrichtung 1 vollständig steuert. Die CPU 11 liest ein Systemprogramm, das in einem ROM 12 gespeichert ist, über einen Bus 20 und steuert die gesamte Testvorrichtung 1 gemäß dem Systemprogramm. Der RAM 13 speichert temporäre Berechnungsdaten und Anzeigedaten und verschiedene Arten von Daten, die durch einen Bediener zum Beispiel über eine Eingabeeinheit eingegeben werden, die nicht dargestellt ist.
Ein nicht flüchtiger Speicher 14 ist zum Beispiel durch eine Batterie gesichert, die nicht dargestellt ist, und somit ist der nicht flüchtige Speicher 14 als ein Speicher konfiguriert, dessen Datenspeicherzustand aufrechterhalten wird, selbst wenn die Testvorrichtung 1 ausgeschaltet wird. Der nicht flüchtige Speicher 14 speichert zum Beispiel verschiedene Arten von Daten, die von einem Bediener über eine Eingabeeinheit, die nicht dargestellt ist, eingegeben werden (zum Beispiel eine Liste von Steuersignalen einer Herstellungsmaschine 70 und Wertebereiche, die Signale annehmen können, und Spezifikationen der Herstellungsmaschine 70, enthaltend eine Eigenschaft eines Motors zum Antreiben einer Antriebseinheit der Herstellungsmaschine 70), und Steuerprogramme, die über eine Schnittstelle, die nicht dargestellt ist, eingegeben werden. Die Programme und die verschiedenen Arten von Daten, die im nicht flüchtigen Speicher 14 gespeichert sind, können auf dem RAM 13 entwickelt werden, wenn die Programme und die Daten ausgeführt/verwendet werden. Ferner werden verschiedene Arten von Systemprogrammen, wie ein bekanntes Analyseprogramm (enthaltend ein Systemprogramm zum Steuern eines Austausches mit einer Maschinenlernvorrichtung 100, das später beschrieben wird) vorab in den ROM 12 geschrieben.
Ein Sensor 60 ist bereitgestellt, um die Herstellungsmaschine 70 extern zu beobachten. Für diesen Sensor 60 kann zum Beispiel ein visueller Sensor, ein Tonsensor, ein Temperatursensor, ein Distanzsensor und dergleichen verwendet werden. Der Sensor 60 detektiert Informationen, die sich auf einen Betrieb der Herstellungsmaschine 70 beziehen und die durch die Herstellungsmaschine 70 selbst nicht detektiert werden können, und der Sensor 60 benachrichtigt die CPU 11 über eine Schnittstelle 18 über das Detektionsergebnis.
Die Herstellungsmaschine 70 ist eine Maschine, die ein Objekt eines Worstcase-Szenario-Tests ist, und kann zum Beispiel eine Bearbeitungsmaschine wie ein Roboter, eine Werkzeugmaschine, eine elektrische Entladungsmaschine und eine Spritzgussmaschine sein. Diese Herstellungsmaschine 70 ist konfiguriert, zum Beispiel zum Empfang eines Betriebsbefehls in einem Signal von der CPU 11 über eine Schnittstelle 19 und Steuern jeder Einheit imstande zu sein. Ferner detektiert die Herstellungsmaschine 70 einen Stromwert oder dergleichen, der einem Sensor, einem Motor oder dergleichen zugeleitet wird, der jeder Einheit bereitgestellt wird, und benachrichtigt die CPU 11 über den Stromwert oder dergleichen über die Schnittstelle 19.
Eine Schnittstelle 21 ist eine Schnittstelle zum Verbinden der Testvorrichtung 1 mit der Maschinenlernvorrichtung 100. Die Maschinenlernvorrichtung 100 enthält einen Prozessor 101, der die Maschinenlernvorrichtung 100 vollständig steuert, einen ROM 102, der Systemprogramme und dergleichen steuert, einen RAM 103, der eine temporäre Speicherung in jeder Verarbeitung durchführt, die sich auf Maschinenlernen bezieht, und einen nicht flüchtigen Speicher 104, der zum Speichern von Lernmodellen und dergleichen verwendet wird. Die Maschinenlernvorrichtung 100 ist imstande, verschiedene Informationen zu beobachten (zum Beispiel eine Liste von Steuersignalen der Herstellungsmaschine 70 und Wertebereiche, die Signale annehmen können, Spezifikationen der Herstellungsmaschine 70, enthaltend eine Eigenschaft eines Motors zum Antreiben einer Antriebseinheit der Herstellungsmaschine 70, und einen Betriebszustand der Herstellungsmaschine 70, der aus dem Sensor 60 und der Herstellungsmaschine 70 gewonnen wird), die in der Testvorrichtung 1 über die Schnittstelle 21 gewonnen werden können. Ferner steuert die Testvorrichtung 1 die Herstellungsmaschine 70 in Antwort auf einen Betriebsbefehl, der aus der Maschinenlernvorrichtung 100 ausgegeben wird, und betrifft einen Test für die Herstellungsmaschine 70.
2 ist ein Funktionsblockdiagramm, das schematisch die Testvorrichtung 1 und die Maschinenlernvorrichtung 100 gemäß der ersten Ausführungsform zeigt.
Funktionsblöcke, die in 2 dargestellt sind, werden umgesetzt, wenn die CPU 11, die in der Testvorrichtung 1 enthalten ist, und der Prozessor 101 der Maschinenlernvorrichtung 100, die in 1 dargestellt sind, entsprechende Systemprogramme ausführen und einen Betrieb jeder Einheit der Testvorrichtung 1 bzw. der Maschinenlernvorrichtung 100 steuern.
Die Testvorrichtung 1 gemäß der vorliegenden Ausführungsform enthält eine Steuereinheit 34, die einen Betriebsbefehl eines Tests an die Herstellungsmaschine 70 auf Basis eines Schlussfolgerungsergebnisses ausgibt, das von der Maschinenlernvorrichtung 100 ausgegeben wird. Beispiele des Betriebsbefehls eines Tests, der von der Steuereinheit 34 ausgegeben wird, enthalten eine Kombination aus einem Steuerbefehl an eine Stromquelle (rascher Spannungsanstieg, rascher Spannungsabfall und plötzliche Unterbrechung zum Beispiel), einer Liste von Parameterwerten innerhalb und außerhalb eines einstellbaren Bereichs in Spezifikationen der Herstellungsmaschine 70 für jede Einheit der Herstellungsmaschine 70, Stromsteuerung in Bezug auf jeden Motor, der bei der Herstellungsmaschine 70 bereitgestellt ist, einen Befehl an periphere Vorrichtungen, der an der Herstellungsmaschine 70 bereitgestellt ist, und dergleichen. Ohne darauf beschränkt zu sein, können verschiedene Betriebsbefehle, die zum Beispiel durch Funktionen und Spezifikationen der Herstellungsmaschine 70 gesteuert werden können, ausgegeben werden.
Die Maschinenlernvorrichtung 100 gemäß der vorliegenden Ausführungsform enthält Software (zum Beispiel einen Lernalgorithmus) und Hardware (zum Beispiel den Prozessor 101), durch die die Maschinenlernvorrichtung 100 eigenständig Objekte eines Tests, die als nächstes ausgeführt werden, in Bezug auf einen Betriebszustand der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70 durch sogenanntes Maschinenlernen lernt. Was die Maschinenlernvorrichtung 100, die in der Testvorrichtung 1 enthalten ist, lernt, entspricht einer Modellstruktur, die eine Korrelation eines Betriebszustands der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70 in Bezug auf Objekte eines als nächsten auszuführenden Tests darstellt.
Wie im Funktionsblock von 2 dargestellt, enthält die Maschinenlernvorrichtung 100, die in der Testvorrichtung 1 enthalten ist, eine Zustandsbeobachtungseinheit 106, eine Bestimmungsdatengewinnungseinheit 108 und eine Lerneinheit 110. Die Zustandsbeobachtungseinheit 106 beobachtet Testobjektdaten S1, die Objekte eines als nächsten auszuführenden Tests darstellen, Herstellungsmaschinenbetriebszustandsdaten S2, die einen Betriebszustand der Herstellungsmaschine 70 darstellen, und Herstellungsmaschinenspezifikationsdaten S3, die Spezifikationen der Herstellungsmaschine 70 darstellen, als Zustandsvariablen S, die einen aktuellen Zustand einer Umgebung darstellen. Die Bestimmungsdatengewinnungseinheit 108 gewinnt Bestimmungsdaten D, die Betriebszustandsbestimmungsdaten D1 enthält, die ein Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine 70 darstellen, das erhalten wird, wenn ein Objekt eines als nächsten auszuführenden Tests ausgeführt wird. Die Lerneinheit 110 führt ein Lernen unter Verwendung der Zustandsvariablen S und der Bestimmungsdaten D durch, während ein Betriebszustand der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70 mit den Testobjektdaten S1 verknüpft sind.
Von den Zustandsvariablen S, die durch die Zustandsbeobachtungseinheit 106 beobachtet werden, können die Testobjektdaten S1 als ein Satz von Betriebsbefehlen gewonnen werden, der sich auf einen Test für die Herstellungsmaschine 70 bezieht. Beispiele für den Betriebsbefehl, der sich auf einen Test für die Herstellungsmaschine 70 bezieht, enthalten eine Kombination eines Steuerbefehls in Bezug auf eine Stromquelle (rascher Spannungsanstieg, rascher Spannungsabfall und plötzliche Unterbrechung zum Beispiel), eine Liste von Parameterwerten innerhalb und außerhalb eines einstellbaren Bereichs, der in Spezifikationen der Herstellungsmaschine 70 in Bezug auf jede Einheit der Herstellungsmaschine 70 spezifiziert ist, Stromsteuerung in Bezug auf jeden Motor, der an der Herstellungsmaschine 70 bereitgestellt ist, einen Befehl an periphere Vorrichtungen, die an der Herstellungsmaschine 70 bereitgestellt sind, und dergleichen. Ein solcher Betriebsbefehl, der sich auf einen Test für die Herstellungsmaschine 70 bezieht, variiert zum Beispiel abhängig von Funktionen, die an der Herstellungsmaschine 70 bereitgestellt sind, und peripheren Vorrichtungen der Herstellungsmaschine 70, und einstellbare Bereiche von Parametern variieren auch abhängig von Spezifikationen der Herstellungsmaschine 70. Die Zustandsbeobachtungseinheit 106 kann konfiguriert sein, zum Definieren eines Betriebsbefehls, der sich auf einen Test für die Herstellungsmaschine 70 bezieht, als einen dynamischen Befehl (eine Wellenform, die zum Beispiel eine Schwankung eines Werts in einer vorbestimmten zeitlichen Breite darstellt, eine Wellenform, die eine Variation eines Stromwerts darstellt, der an einen Motor ausgegeben wird) wie auch statischen Befehl (Wert) imstande zu sein.
Eine Kombination von Befehlen, die dementsprechend durch die Testvorrichtung 1 auf Basis von Spezifikationen der Herstellungsmaschine 70 für steuerbare Stromquelle, Parameter, Motor oder periphere Vorrichtungen der Herstellungsmaschine 70 erstellt werden, können als die Testobjektdaten S1 verwendet werden oder die Testobjektdaten S1 können aus einem Satz von Testobjekten gewonnen werden, der zum Beispiel in früheren Tests, in der Anfangslernphase verwendet wurde. Ferner kann ein Objekt eines als nächsten auszuführenden Tests, das durch die Maschinenlernvorrichtung 100 auf Basis eines Lernergebnisses der Lerneinheit 110 im vorangehenden Lernzyklus bestimmt wird, als Testobjektdaten S1 in der Stufe verwendet werden, zu der das Lernen bis zu einem gewissen Grad voranschreitet. In einem solchen Fall kann die Maschinenlernvorrichtung 100 das bestimmte Objekt, das im nächsten Test auszuführen ist, im RAM 103 in jedem Lernzyklus speichern und die Zustandsbeobachtungseinheit 106 kann aus dem RAM 103 das Objekt, das im nächsten Test auszuführen ist, gewinnen, das durch die Maschinenlernvorrichtung 100 im vorangehenden Lernzyklus bestimmt wird.
Als Herstellungsmaschinenbetriebszustandsdaten S2 aus den Zustandsvariablen S können zum Beispiel Daten verwendet werden, die sich auf eine Betriebszustand der Herstellungsmaschine 70 beziehen und auf Basis von Informationen eines Stromwerts und dergleichen, die von jeder Einheit der Herstellungsmaschine 70 gewonnen werden, und eines Detektionswerts, der vom Sensor 60 gewonnen wird, analysiert werden. Als Herstellungsmaschinenbetriebszustandsdaten S2 können verschiedene Werte zum Evaluieren eines Betriebszustands der Herstellungsmaschine 70 gehandhabt werden, wie eine Last und ein Vibrationswert eines Motors, der auf Basis eines Stromwerts des Motors, der jede Einheit der Herstellungsmaschine 70 antreibt, eine Schallbelastung, die durch den Sensor 60 detektiert wird, der als Schallsensor dient, ein Bewegungszustand jeder Einheit der Herstellungsmaschine 70, der durch den Sensor 60 detektiert wird, der als visueller Sensor dient, eine Temperatur jeder Einheit der Herstellungsmaschine 70, die durch den Sensor 60 detektiert wird, der als Temperatursensor dient, und dergleichen.
Als Herstellungsmaschinenspezifikationsdaten S3 aus den Zustandsvariablen S können Spezifikationen der Herstellungsmaschine 70, die zum Beispiel durch einen Bediener in Bezug auf die Testvorrichtung 1 eingestellt werden, verwendet werden. Als diese Herstellungsmaschinenspezifikationsdaten S3 wird zum Beispiel eine Liste steuerbarer Steuerobjekte der Herstellungsmaschine 70 und von Wertebereichen, die entsprechende Steuerobjekte annehmen können, verwendet.
Die Bestimmungsdatengewinnungseinheit 108 kann als die Bestimmungsdaten D die Betriebszustandsbestimmungsdaten D1 verwenden, die ein Eignungsbestimmungswert eines Betriebszustands der Herstellungsmaschine 70 sind, der erhalten wird, wenn ein Objekt eines als nächsten auszuführenden Tests ausgeführt wird. Dieses Bestimmungsdaten D, die von der Bestimmungsdatengewinnungseinheit 108 verwendet werden, enthalten zum Beispiel, ob eine Last eines Motors, der jede Einheit der Herstellungsmaschine 70 antreibt, innerhalb eines angemessenen Lastbereichs ist, ob eine Vibration aufgetreten ist, ob eine Einwirkung in der Herstellungsmaschine 70 aufgetreten ist, ob die Herstellungsmaschine 70 an einer angemessenen Position ist, ob eine Temperatur jeder Einheit der Herstellungsmaschine 70 innerhalb eines angemessenen Bereichs ist und dergleichen. Die Bestimmungsdaten D sind ein Index, der eine Wirksamkeit eines Betriebsbefehls eines Tests darstellt, der an die Herstellungsmaschine 70 auf Basis der Zustandsvariablen S ausgegeben wird.
Die Zustandsvariablen S, die gleichzeitig in die Lerneinheit 110 eingegeben werden, beruhen auf Daten in einem Lernzyklus vor einem Lernzyklus, in dem die Bestimmungsdaten D gewonnen werden, im Sinne eines Lernzyklus der Lerneinheit 110. Während die Maschinenlernvorrichtung 100, die in der Testvorrichtung 1 enthalten ist, mit dem Lernen voranschreitet, werden ein Gewinnen der Herstellungsmaschinenbetriebszustandsdaten S2 und der Herstellungsmaschinenspezifikationsdaten S3, eine Ausführung der Eignungsbestimmung eines Betriebszustands der Herstellungsmaschine 70 auf Basis des Testobjektsdaten S1 und ein Gewinnen der Bestimmungsdaten D in einer Umgebung wiederholt ausgeführt.
Die Lerneinheit 110 lernt die Testobjektdaten S1 in Bezug auf einen Betriebszustand der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70 gemäß einem beliebiger Lernalgorithmen, die gemeinsam als Maschinenlernen bezeichnet werden. Die Lerneinheit 110 ist zum wiederholten Ausführen eines Lernens auf Basis eines Datensatzes imstande, der die oben beschriebenen Zustandsvariablen S und die Bestimmungsdaten D enthält. Während der Wiederholung eines Lernzyklus der Testobjektdaten S1 in Bezug auf einen Betriebszustand der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70 werden die Herstellungsmaschinenbetriebszustandsdaten S2 und die Herstellungsmaschinenspezifikationsdaten S3 aus einem Analyseergebnis von Informationen, die von der Herstellungsmaschine 70 und dem Sensor 60 im vorangehenden Lernzyklus wie oben beschrieben gewonnen werden, und Informationen, die im nicht flüchtigen Speicher 14 eingestellt sind und sich auf Spezifikationen der Herstellungsmaschine 70 beziehen, gewonnen und die Testobjektdaten S1 werden als ein Objekt eines als nächsten auszuführenden Tests eingestellt, das auf Basis von Lernergebnissen bis zum vorangehenden Test aus den Zustandsvariablen S bestimmt wird; und die Bestimmungsdaten D werden als ein Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine 70 im aktuellen Lernzyklus eingestellt, der nach Ausführung des Testobjekts auf Basis der Testobjektsdaten S1 ausgeführt wird.
Durch Wiederholen eines solchen Lernzyklus kann die Lerneinheit 110 automatisch ein Merkmal identifizieren, das eine Korrelation eines Betriebszustands der Herstellungsmaschine 70 (der Herstellungsmaschinenbetriebszustandsdaten S2) und Spezifikationen der Herstellungsmaschine 70 (der Herstellungsmaschinenspezifikationsdaten S3) in Bezug auf ein Objekt eines als nächsten auszuführenden Tests entsprechend diesem Zustand identifiziert. Obwohl die Korrelation der Herstellungsmaschinenbetriebszustandsdaten S2 und der Herstellungsmaschinenspezifikationsdaten S3 in Bezug auf ein Objekt eines als nächsten auszuführenden Tests beim Start des Lernalgorithmus im Wesentlichen unbekannt ist, identifiziert die Lerneinheit 110 allmählich Merkmale, während die Lerneinheit 110 mit dem Lernen voranschreitet, und interpretiert somit die Korrelation. Wenn die Korrelation der Herstellungsmaschinenbetriebszustandsdaten S2 und der Herstellungsmaschinenspezifikationsdaten S3 in Bezug auf ein Objekt eines als nächsten auszuführenden Tests auf ein gewisses zuverlässiges Niveau interpretiert wird, kann ein Lernergebnis, das wiederholt durch die Lerneinheit 110 ausgegeben wird, zum Durchführen einer Auswahl (das heißt, Entscheidungsfindung) einer Maßnahme zum Einstellen eines Objekts eines als nächsten auszuführenden Tests in Bezug auf einen aktuellen Zustand (das heißt, einen Betriebszustand der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70) verwendet werden. Das heißt, die Lerneinheit 110 ist imstande, allmählich die Korrelation eines Betriebszustands der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70 in Bezug auf eine Maßnahme zum Bestimmen von Werten eines Objekts eines als nächsten auszuführenden Tests für den entsprechenden Zustand im Laufe des Voranschreitens des Lernalgorithmus zu einer optimalen Lösung zu bringen.
Eine Schlussfolgerungsergebnisausgabeeinheit 122 schlussfolgert ein Objekt eines als nächsten auszuführenden Tests auf Basis eines Ergebnisses, das durch Lernen der Lerneinheit 110 erhalten wird, und gibt das Schlussfolgerungsergebnis an die Steuereinheit 34 aus. Wenn ein Betriebszustand der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70 in die Maschinenlernvorrichtung 100 in einem Zustand eingegeben, in dem ein Lernen durch die Lerneinheit 110 beendet ist, gibt die Schlussfolgerungsergebnisausgabeeinheit 122 ein Objekt eines als nächsten auszuführenden Tests aus.
In der Maschinenlernvorrichtung 100, die in der Testvorrichtung 1 enthalten ist, lern die Lerneinheit 110 ein Objekt eines als nächsten auszuführenden Tests gemäß einem Maschinenlernalgorithmus unter Verwendung der Zustandsvariablen S, die durch die Zustandsbeobachtungseinheit 106 beobachtet werden, und der Bestimmungsdaten D, die durch die Bestimmungsdatengewinnungseinheit 108 gewonnen werden, wie oben beschrieben. Die Zustandsvariablen S bestehen aus den Testobjektdaten S1, den Herstellungsmaschinenbetriebszustandsdaten S2 und den Herstellungsmaschinenspezifikationsdaten S3 und die Bestimmungsdaten D können einzigartig durch Analysieren von Informationen erhalten werden, die von der Herstellungsmaschine 70 und dem Sensor 60 durch die Testvorrichtung 1 gewonnen werden. Somit ist es gemäß der Maschinenlernvorrichtung 100, die in der Testvorrichtung 1 enthalten ist, möglich, automatisch und exakt ein Objekt eines als nächsten auszuführenden Tests, das einem Betriebszustand der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70 entspricht, unter Verwendung eines Lernergebnisses der Lerneinheit 110 zu erhalten.
Falls ein Objekt eines als nächsten auszuführenden Tests automatisch erhalten werden kann, kann ein passender Wert eines Objekts eines als nächsten auszuführenden Tests nur durch Erfassen eines Betriebszustands der Herstellungsmaschine 70 (der Herstellungsmaschinenbetriebszustandsdaten S2) und von Spezifikationen der Herstellungsmaschine 70 (der Herstellungsmaschinenspezifikationsdaten S3) rasch bestimmt werden. Somit kann ein Objekt eines als nächsten auszuführenden Tests effizient bestimmt werden.
In der Maschinenlernvorrichtung 100 mit der oben beschriebenen Konfiguration ist ein Lernalgorithmus, der durch die Lerneinheit 110 ausgeführt wird, nicht besonders eingeschränkt, sondern es kann ein bekannter Lernalgorithmus zum Maschinenlernen verwendet werden. 3 zeigt ein Beispiel der in 2 dargestellten Testvorrichtung 1 und zeigt die Konfiguration, die die Lerneinheit 110 enthält, die ein Verstärkungslernen ausführt, als ein Beispiel des Lernalgorithmus.
Das Verstärkungslernen ist eine Verfahren, in dem ein Zyklus, in dem eine vorbestimmte Maßnahme (das heißt eine Ausgabe) in einem aktuellen Zustand einer Umgebung ausgeführt wird, in der ein Lernobjekt vorhanden ist, während der aktuelle Zustand (das heißt eine Eingabe) und eine gewisse Bewertung, die in Bezug auf die Maßnahme verliehen werden, durch Versuch und Irrtum wiederholt werden, um Maßnahmen zu lernen, durch die eine Gesamtbewertung (ein Objekt eines als nächsten auszuführenden Tests in der Maschinenlernvorrichtung in der vorliegenden Anwendung) als eine optimale Lösung maximiert wird.
In der Maschinenlernvorrichtung 100, die in der in 3 dargestellten Testvorrichtung 1 enthalten ist, enthält die Lerneinheit 110 eine Bewertungsberechnungseinheit 112 und eine Wertfunktionsaktualisierungseinheit 114. Die Bewertungsberechnungseinheit 112 erhält eine Bewertung R, die sich auf ein Eignungsbestimmungsergebnis (entsprechend den Bestimmungsdaten D, die in einer Lernperiode verwendet werden, die einer Lernperiode folgt, in der die Zustandsvariablen S gewonnen werden) eines Betriebszustands der Herstellungsmaschine 70 bezieht, das erhalten wird, wenn ein Objekt eines als nächsten auszuführenden Tests auf Basis der Zustandsvariablen S ausgeführt wird. Die Wertfunktionsaktualisierungseinheit 114 aktualisiert Funktion Q, die einen Wert eines Objekts eines als nächsten auszuführenden Tests darstellt, unter Verwendung der Bewertung R. Die Lerneinheit 110 lernt ein Objekt eines als nächsten auszuführenden Tests in Bezug auf einen Betriebszustand der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70 durch wiederholtes Aktualisieren der Funktion Q, das durch die Wertfunktionsaktualisierungseinheit 114 durchgeführt wird.
Ein Beispiel für einen Algorithmus des Verstärkungslernens, das durch die Lerneinheit 110 ausgeführt wird, wird in der Folge beschrieben. Der Algorithmus in diesem Beispiel ist als Q-Lernen bekannt und ist ein Verfahren zum Lernen der Funktion Q(s,a), die einen Wert einer Maßnahme für den Fall darstellt, in dem eine Maßnahme a in einem Zustand s ausgewählt wird, wenn der Zustand s eines Subjekts einer Maßnahme und die Maßnahme a, die durch das Subjekt der Maßnahme im Zustand s gewählt werden kann, als unabhängige Variablen eingestellt sind. Zur Auswahl der Maßnahme a, bei der die Wertefunktion Q im Zustand s am höchsten wird, ist eine optimale Lösung. Das Q-Lernen beginnt in einem Zustand, in dem eine Korrelation zwischen dem Zustand s und der Maßnahme a unbekannt ist, und Versuch und Irrtum werden bei der Auswahl verschiedener Maßnahmen a in einem beliebigen Zustand s wiederholt. Somit wird die Wertefunktion Q wiederholt aktualisiert, um sich der optimalen Lösung zu nähern. Hier wird die Konfiguration verwendet, in der, wenn eine Umgebung (das heißt der Zustand s) infolge einer Auswahl der Maßnahme a im Zustand s geändert wird, eine Bewertung r (das heißt Gewichtung der Maßnahme a) der Änderung entsprechend erhalten werden kann, und das Lernen wird so gelenkt, dass die Maßnahme a gewählt wird, mit der eine höhere Bewertung r erhalten werden kann. Somit kann die Wertefunktion Q der optimalen Lösung in einer relativ kurzen Zeitperiode genähert werden.
Eine Aktualisierungsformel der Wertefunktion Q kann allgemein in der Folge als Formel (1) angegeben sein. In Formel (1) bezeichnen st und at einen Zustand und eine Maßnahme zum Zeitpunkt t und der Zustand wird abhängig von der Maßnahme a_t zu s_t+1 geändert. r_t+1 bezeichnet eine Bewertung, die erhalten wird, wenn der Zustand von s_t zu s_t+1 geändert wird. Ein Term maxQ bezeichnet Q, das erhalten wird, wenn die Maßnahme a, bei der die maximale Wertefunktion Q zum Zeitpunkt t+1 erhalten wird (zum Zeitpunkt t wird angenommen, dass die maximale Wertefunktion Q zum Zeitpunkt t+1 erhalten wird), durchgeführt wird. α und γ bezeichnen einen Lernkoeffizienten und einen Diskontsatz und sind beliebig als 0<a≤1 und 0<γ≤1 eingestellt. $Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α (r_{t + 1} + γ \underset{α}{m a x} Q (s_{t + 1}, α) - Q (s_{t}, α_{t}))$
Für den Fall, dass die Lerneinheit 110 das Q-Lernen ausführt, die Zustandsvariable S, die durch die Zustandsbeobachtungseinheit 106 beobachtet wird, und die Bestimmungsdaten D, die durch die Bestimmungsdatengewinnungseinheit 108 gewonnen werden, dem Zustand s in einer Aktualisierungsformel entsprechen, entspricht die Art einer Bestimmung eines Objekts eines als nächsten auszuführenden Tests in Bezug auf einen aktuellen Zustand (das heißt ein Betriebszustand der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70) der Maßnahme a in der Aktualisierungsformel und die Bewertung R, die durch die Bewertungsberechnungseinheit 112 erhalten wird, entspricht der Bewertung r in der Aktualisierungsformel. Daher aktualisiert die Wertfunktionsaktualisierungseinheit 114 wiederholt die Funktion Q, die Werte eines Objekts eines als nächsten auszuführenden Tests in Bezug auf einen aktuellen Zustand darstellt, durch das Q-Lernen, das die Bewertung R verwendet.
Falls bezüglich der Bewertung R, die zum Beispiel durch die Bewertungsberechnungseinheit 112 erhalten wird, (1) ein Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine 70 als „geeignet“ bestimmt wird, wenn ein Betriebsbefehl an die Herstellungsmaschine 70 auf Basis eines Objekts eines Tests ausgegeben wird, das nach Bestimmung eines Objekts eines als nächsten auszuführenden Tests bestimmt wird (zum Beispiel, wenn eine Last gleich oder größer einem vorbestimmten Schwellenwert in einem Motor erzeugt wird, wenn eine Vibration gleich oder größer einem vorbestimmten Schwellenwert in der Herstellungsmaschine 70 auftritt, wenn ein Fehler gleich oder größer einem vorbestimmten Schwellenwert in einer vermuteten Achsenbewegung erzeugt wird, und wenn ein Betrieb der Herstellungsmaschine 70 instabil wird), kann die Bewertung R, die durch die Bewertungsberechnungseinheit 112 erhalten wird als positive (plus) Bewertung R eingestellt werden; und (2) ein Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine 70 als „ungeeignet“ bestimmt wird, wenn ein Betriebsbefehl an die Herstellungsmaschine 70 auf Basis eines Objekts eines Tests ausgegeben wird, das nach Bestimmung eines Objekts eines als nächsten auszuführenden Tests bestimmt wird (zum Beispiel, wenn eine Last kleiner als ein vorbestimmter Schwellenwert in einem Motor erzeugt wird, wenn eine Vibration kleiner als ein vorbestimmter Schwellenwert in der Herstellungsmaschine 70 auftritt, wenn ein Fehler kleiner als ein vorbestimmter Schwellenwert in einer vermuteten Achsenbewegung erzeugt wird, und, wenn ein Betrieb der Herstellungsmaschine 70 stabil wird), kann die Bewertung R, die durch die Bewertungsberechnungseinheit 112 erhalten wird, als negative (minus) Bewertung R eingestellt werden.
Im obengenannten Fall können Absolutwerte der positiven und negativen Bewertungen R identisch sein oder sich voneinander unterscheiden. In Bezug auf eine Bedingung der Bestimmung kann die Bestimmung durch Kombinieren einer Vielzahl von Werten durchgeführt werden, die in den Bestimmungsdaten D enthalten sind.
Ferner kann ein Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine 70 nicht nur auf zwei Weisen eingestellt werden, die „geeignet“ und „ungeeignet“ sind, sondern auch in mehreren Stufen. Als ein Beispiel, wenn der maximale Wert des zulässigen Bereichs einer Last, die in einem Motor auftritt, T_max ist, kann die Konfiguration verwendet werden, in der eine Bewertung R=1 verliehen wird, wenn eine Last T, die in einem Motor auftritt, 0≤T<T_max/5 ist, eine Bewertung R=2 verliehen wird, wenn die Last T T_max/5≤T<T_max/2 ist, eine Bewertung R=3 verliehen wird, wenn die Last T T_max/2≤T<T_max ist, und eine Bewertung R=5 verliehen wird, wenn die Last T T_max≤T ist. Ferner kann die Konfiguration auch verwendet werden, in der T_max in der Anfangsphase des Lernens relativ groß eingestellt ist und T_max bei Voranschreiten des Lernens verringert wird.
Die Wertfunktionsaktualisierungseinheit 114 kann eine Maßnahmenwertetabelle haben, in der die Zustandsvariablen S, die Bestimmungsdaten D und die Bewertungen R in einer derartigen Weise organisiert sind, dass sie mit Maßnahmenwerten (zum Beispiel numerische Werten) verknüpft sind, die durch die Funktion Q angegeben sind. In diesem Fall ist eine Maßnahme zur Aktualisierung der Funktion Q durch die Wertfunktionsaktualisierungseinheit 114 einer Maßnahme zur Aktualisierung der Maßnahmenwertetabelle durch die Wertfunktionsaktualisierungseinheit 114 äquivalent. Da die Korrelation zwischen einem aktuellen Zustand einer Umgebung und einem Objekt eines als nächsten auszuführenden Tests zu Beginn des Q-Lernens unbekannt ist, werden verschiedene Zustandsvariable S, Bestimmungsdaten D und Bewertungen R in einer Weise vorbereitet, dass sie mit Werten von Maßnahmenwerten (Funktionen Q) verknüpft sind, die auf einer zufälligen Basis in der Maßnahmenwertetabelle definiert sind. Die Bewertungsberechnungseinheit 112 ist imstande, die Bewertung R entsprechend Bestimmungsdaten D zu berechnen, sobald die Bewertungsberechnungseinheit 112 die Bestimmungsdaten D erfährt und der berechnete Wert R in die Maßnahmenwertetabelle geschrieben wird.
Während das Q-Lernen unter Verwendung der Bewertung R entsprechend einem Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine 70 voranschreitet, wird das Lernen gelenkt, eine Maßnahme auszuwählen, für die eine höhere Bewertung R erhalten werden kann, und ein Wert des Maßnahmenwerts (Funktion Q) für eine Maßnahme, die in einem aktuellen Zustand durchgeführt wird, wird gemäß einem Zustand einer Umgebung (das heißt die Zustandsvariable S und die Bestimmungsdaten D) neu geschrieben, die sich infolge der Ausführung der gewählten Maßnahme im aktuellen Zustand geändert hat. Somit wird die Maßnahmenwertetabelle aktualisiert. Durch Wiederholten dieser Aktualisierung wird ein Wert eines Maßnahmenwerts (Funktion Q), der in der Maßnahmenwertetabelle angezeigt ist, als ein größerer Wert neu geschrieben, da die Maßnahme passender ist (die Maßnahme, die die Herstellungsmaschine 70 in der vorliegenden Erfindung instabil macht). Somit wird eine Korrelation, die unbekannt ist, zwischen einem aktuellen Zustand einer Umgebung (ein Betriebszustand der Herstellungsmaschine 70 und Spezifikationen der Herstellungsmaschine 70) und einer entsprechenden Maßnahme (Bestimmung eines Objekts eines als nächsten auszuführenden Tests) allmählich offensichtlich. Das heißt, eine Relation eines Betriebszustands der Herstellungsmaschine 70 und von Spezifikationen der Herstellungsmaschine 70 in Bezug auf ein Objekt eines als nächsten auszuführenden Tests nähert sich durch Aktualisierung der Maßnahmenwertetabelle allmählich einer optimalen Lösung.
Ein Ablauf des oben beschriebenen Q-Lernens, das durch die Lerneinheit 110 ausgeführt wird (das heißt ein Aspekt des Maschinenlernverfahrens) ist unter Bezugnahme auf 4 näher beschrieben.
Zunächst wählt, in Schritt SA01, die Wertfunktionsaktualisierungseinheit 114 ein Objekt eines als nächsten auszuführenden Tests zufällig als eine Maßnahme, die in einem aktuellen Zustand durchgeführt wird, der durch die Zustandsvariable S dargestellt ist, die durch die Zustandsbeobachtungseinheit 106 beobachtet wird, während auf die Maßnahmenwertetabelle zu diesem Zeitpunkt Bezug genommen wird. Dann nimmt die Wertfunktionsaktualisierungseinheit 114 die Zustandsvariable S des aktuellen Zustands, die durch die Zustandsbeobachtungseinheit 106 beobachtet wird, in Schritt SA02 an und nimmt die Bestimmungsdaten D des aktuellen Zustands an, die durch die Bestimmungsdatengewinnungseinheit 108 in Schritt SA03 gewonnen werden. Anschließend bestimmt die Wertfunktionsaktualisierungseinheit 114 auf Basis der Bestimmungsdaten D, ob oder das Objekt des als nächsten ausgeführten Tests geeignet ist, in Schritt SA04. Falls das Objekt des als nächsten ausgeführten Tests geeignet ist, wird die positive Bewertung R, die durch die Bewertungsberechnungseinheit 112 erhalten wird, bei einer Aktualisierungsformel der Funktion Q in Schritt SA05 angewendet, und dann wird die Maßnahmenwertetabelle unter Verwendung der Zustandsvariable S, der Bestimmungsdaten D, der Bewertung R und des Werts des Maßnahmenwerts (der Funktion Q nach Aktualisierung) im aktuellen Zustand in Schritt SA06 aktualisiert. Falls in Schritt SA04 bestimmt wird, dass das Objekt des als nächsten ausgeführten Tests nicht geeignet ist, wird die negative Bewertung R, die durch die Bewertungsberechnungseinheit 112 erhalten wird, bei der Aktualisierungsformel der Funktion Q in Schritt SA07 angewendet, und dann wird die Maßnahmenwertetabelle unter Verwendung der Zustandsvariable S, der Bestimmungsdaten D, der Bewertung R und des Werts der Maßnahmenwert (der Funktion Q nach Aktualisierung) im aktuellen Zustand in Schritt in Schritt SA06 aktualisiert. Die Lerneinheit 110 aktualisiert wiederholt die Maßnahmenwertetabelle durch Wiederholen der Schritte SA01 bis SA07, um mit dem Lernen des Objekts des als nächsten ausgeführten Tests voranzuschreiten. Hier werden die Verarbeitung zum Erhalten der Bewertung R und die Verarbeitung zum Aktualisieren der Wertefunktion, die von Schritt SA04 bis Schritt SA07 durchgeführt werden, für sämtliche Daten durchgeführt, die in den Bestimmungsdaten D enthalten sind.
Wenn das oben beschriebe Verstärkungslernen voranschreitet, ist zum Beispiel ein neurales Netzwerk anwendbar. 5A zeigt schematisch ein Modell eines Neurons.
5B zeigt schematisch ein Modell eines dreischichtigen neuralen Netzwerks, das durch Kombinieren der in 5A dargestellten Neuronen konfiguriert wird. Das neurale Netzwerk kann zum Beispiel aus arithmetischen Vorrichtungen, Datenspeichervorrichtungen oder dergleichen in Nachahmung des Neuronenmodells bestehen.
Das in 5A dargestellte Neuron gibt ein Ergebnis y in Bezug auf eine Vielzahl von Eingaben x (Eingabe x₁ bis Eingabe x₃ hier als Beispiel) aus. Eingaben x₁ bis x₃ werden jeweils mit Gewichten w (w₁ bis w₃) multipliziert, die diesen Eingaben x entsprechen. Daher gibt das Neuron den durch folgende Formel (2) angegebenen Ausgang aus. Hier, in Formel (2), sind alle der Eingaben x, Ergebnisse y und Gewichte w Vektoren. Ferner bezeichnet θ eine Bias und f_k bezeichnet eine Aktivierungsfunktion. $y = f_{k} (\sum_{i = 1}^{n} x_{i} w_{i} - θ)$
In dem dreischichtigen neuralen Netzwerk, das in 5B dargestellt ist, wird eine Vielzahl von Eingaben x (Eingaben x1, x2, x3 hier als Beispiel) von der linken Seite eingegeben und Ergebnisse y (Ergebnisse y1, y2, y3 hier als Beispiel) werden von der rechten Seite ausgegeben. In dem in 5B dargestellten Beispiel werden Eingaben x1, x2, x3 jeweils mit entsprechenden Gewichten (allgemein mit w1 bezeichnet) multipliziert und jede der Eingaben x1, x2, x3 wird in drei Neuronen N11, N12, N13 eingegeben.
In 5B ist ein Ausgang jedes der Neuronen N11, N12, N13 gemeinsam durch z1 bezeichnet. z1 kann als ein Merkmalsvektor angesehen werden, der durch Extrahieren eines Merkmalsbetrags eines Eingabevektors erhalten wird. In dem in 5B gezeigten Beispiel werden Merkmalsvektoren z1 jeweils mit entsprechenden Gewichten multipliziert (gemeinsam als w2 bezeichnet) und jeder von Merkmalsvektoren z1 wird in zwei Neuronen N21, N22 eingegeben. Merkmalsvektor z1 stellt ein Merkmal zwischen Gewicht w1 und Gewicht w2 dar.
In 5B ist ein Ausgang jeder der Neuronen N21, N22 gemeinsam mit z2 bezeichnet. z2 kann als ein Merkmalsvektor angesehen werden, der durch Extrahieren eines Merkmalsbetrags Merkmalsvektor z1 erhalten wird. In dem in 5B gezeigten Beispiel werden Merkmalsvektoren z2 jeweils mit entsprechenden Gewichten multipliziert gemeinsam als w3 bezeichnet) und jeder von Merkmalsvektoren z2 wird in drei Neuronen N31, N32, N33 eingegeben. Merkmalsvektor z2 stellt ein Merkmal zwischen Gewicht w2 und Gewicht w3 dar. Schließlich geben Neuronen N31 bis N33 Ergebnisse y1 bis y3 aus.
Hier kann auch das Verfahren eines sogenannten tiefen Lernens verwendet werden, in dem ein neurales Netzwerk mit drei oder mehr Schichten verwendet wird.
In der Maschinenlernvorrichtung 100, die in der Testvorrichtung 1 enthalten ist, führt die Lerneinheit 110 eine Berechnung der mehrschichtigen Struktur nach dem oben beschriebenen neuralen Netzwerk unter Verwendung der Zustandsvariable S und der Bestimmungsdaten D als Eingaben x durch, um so imstande zu sein, ein Objekt eines als nächsten auszuführenden Tests (Ergebnisse y) auszugeben. Ferner führt in der Maschinenlernvorrichtung 100, die in der Testvorrichtung 1 enthalten ist, die Lerneinheit 110 eine Berechnung der mehrschichtigen Struktur nach dem oben beschriebenen neuralen Netzwerk unter Verwendung des neuralen Netzwerks als eine Wertefunktion im Q-Lernen und unter Verwendung der Zustandsvariable S und der Maßnahme a als Eingaben x durch, um so imstande zu sein, Werte (Ergebnisse y) der Maßnahme auch in diesem Zustand auszugeben. Hier enthalten Betriebsmoden des neuralen Netzwerks einen Lernmodus und einen Wertevorhersagemodus. Zum Beispiel kann ein Gewicht w unter Verwendung eines Lerndatensatzes im Lernmodus gelernt werden und eine Wertbestimmung einer Maßnahme kann unter Verwendung des gelernten Gewichts w im Wertevorhersagemodus durchgeführt werden. Hier können Detektion, Klassifizierung, Schlussfolgerung und dergleichen auch im Wertevorhersagemodus durchgeführt werden.
Die oben beschriebene Konfiguration der Testvorrichtung 1 kann als ein Maschinenlernverfahren (oder Software) beschrieben werden, die durch den Prozessor 101 ausgeführt wird. Dieses Maschinenlernverfahren ist ein Maschinenlernverfahren zum Lernen eines Objekts eines als nächsten auszuführenden Tests. Das Maschinenlernverfahren enthält: einen Schritt zum Beobachten der Testobjektdaten S1, der Herstellungsmaschinenbetriebszustandsdaten S2 und der Herstellungsmaschinenspezifikationsdaten S3 als die Zustandsvariablen S, die einen aktuellen Zustand einer Umgebung darstellen, in dem das Herstellungsmaschine 70 getestet wird; einen Schritt zum Gewinnen der Bestimmungsdaten D, die ein Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine 70 darstellen, auf Basis von bestimmten Betriebsparametern; und einen Schritt zum Lernen der Herstellungsmaschinenbetriebszustandsdaten S2, der Herstellungsmaschinenspezifikationsdaten S3 und eines Objekts eines als nächsten auszuführenden Tests unter Verwendung der Zustandsvariablen S und der Bestimmungsdaten D in einem Zustand, in dem die Herstellungsmaschinenbetriebszustandsdaten S2 und die Herstellungsmaschinenspezifikationsdaten S3 mit dem Objekt des als nächsten ausgeführten Tests verknüpft sind. Diese Schritte werden durch eine CPU eines Rechners ausgeführt.
6 zeigt ein System 170, gemäß einer Ausführungsform, das die Testvorrichtung 1 enthält.
Das System 170 enthält zumindest eine Testvorrichtung 1, die als Teil eines Rechners, wie eines Zellenrechners, eines Host Computers und eines Cloud Servers montiert ist, eine Vielzahl von Herstellungsmaschinen 70, die Objekte eines Tests sind, und ein verdrahtetes/drahtloses Netzwerk 172, das die Testvorrichtung 1 und die Herstellungsmaschinen 70 miteinander verbindet.
In dem System 170 mit der oben beschriebenen Konfiguration ist die Testvorrichtung 1, die die Maschinenlernvorrichtung 100 enthält, imstande, automatisch und exakt ein Objekt eines als nächsten auszuführenden Tests in Bezug auf Betriebszustände der Herstellungsmaschinen 70 und Spezifikationen der Herstellungsmaschinen 70 unter Verwendung eines Lernergebnisses der Lerneinheit 110 zu erhalten. Ferner kann das System 170 so konfiguriert sein, dass die Maschinenlernvorrichtung 100 der Testvorrichtung 1 ein Objekt eines als nächsten auszuführenden Tests, das allen Herstellungsmaschinen 70 gemein ist, auf Basis der Zustandsvariablen S und der Bestimmungsdaten D lernt, die für jede der Vielzahl von Herstellungsmaschinen 70 erhalten werden, und das Lernergebnis wird in Tests für alle Herstellungsmaschinen 70 benutzt. Gemäß dem System 170 können Geschwindigkeit und Zuverlässigkeit beim Lernen eines Objekts eines als nächsten auszuführenden Tests unter Verwendung unterschiedlicherer Datensätze (die die Zustandsvariablen S und die Bestimmungsdaten D enthalten) als Eingaben verbessert werden.
Die Ausführungsform der vorliegenden Erfindung wurde zuvor beschrieben, aber die vorliegende Erfindung kann in verschiedenen Aspekten verkörpert sein, indem beliebige Änderungen hinzugefügt werden, ohne auf die Beispiele der oben beschriebenen Ausführungsform beschränkt zu sein.
Zum Beispiel sin die Lernalgorithmen und Berechnungsalgorithmen, die durch die Maschinenlernvorrichtung 100 ausgeführt werden, der Steueralgorithmus, der durch die Testvorrichtung 1 ausgeführt wird, und dergleichen nicht auf die oben erwähnten Algorithmen beschränkt, sondern es können verschiedene Algorithmen verwendet werden.
Die oben beschriebene Ausführungsform enthält die Beschreibung, dass die Testvorrichtung 1 und die Maschinenlernvorrichtung 100 Vorrichtungen sind, die unterschiedliche CPUs enthalten, aber die Maschinenlernvorrichtung 100 kann durch die CPU 11, die in der Testvorrichtung 1 enthalten ist, und das Systemprogramm, das im ROM 12 gespeichert ist, umgesetzt werden.

Claims

Testvorrichtung (1) zum Bestimmen eines Testobjekts zum Testen einer Herstellungsmaschine (70) bei einem Entwicklungsprozess der Herstellungsmaschine (70), um ein Testobjekt zu finden, das die Herstellungsmaschine (70) instabil macht, wobei die Testvorrichtung (1) zum Bestimmen eines Testobjekts in Bezug auf einen Betriebszustand der Herstellungsmaschine (70) und Spezifikationen der Herstellungsmaschine (70) konfiguriert ist, die Testvorrichtung (1) umfassend: eine Maschinenlernvorrichtung (100), die eine Bestimmung des Testobjekts in Bezug auf die Herstellungsmaschine (70) lernt, wobei die Maschinenlernvorrichtung (100) enthält: eine Zustandsbeobachtungseinheit (106), die Testobjektdaten beobachtet, die das Testobjekt darstellen, Herstellungsmaschinenbetriebszustandsdaten, die einen Betriebszustand der Herstellungsmaschine (70) darstellen, und Herstellungsmaschinenspezifikationsdaten, die Spezifikationen der Herstellungsmaschine (70) darstellen, als eine Zustandsvariable beobachtet, die einen aktuellen Zustand einer Umgebung darstellt; eine Bestimmungsdatengewinnungseinheit (108), die Bestimmungsdaten gewinnt, die ein Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine (70) darstellen, wobei das Eignungsbestimmungsergebnis erhalten wird, wenn das Testobjekt ausgeführt wird; eine Lerneinheit (110), die ein Lernen unter Verwendung der Zustandsvariable und der Bestimmungsdaten von einem oder mehreren vorhergehenden Zyklen derart ausführt, dass die Herstellungsmaschinenbetriebszustandsdaten und die Herstellungsmaschinenspezifikationsdaten verwendet werden, um das in einem nächsten Zyklus auszuführende Testobjekt zu ermitteln, und eine Schlussfolgerungsergebnisausgabeeinheit (122), die einen Betriebsbefehl eines Tests auf Basis des Testobjekts, auf Basis einer Zustandsvariable, die durch die Zustandsbeobachtungseinheit (106) beobachtet wird, und eines Lernergebnisses, das durch die Lerneinheit (110) erhalten wird, ausgibt.
Testvorrichtung (1) nach Anspruch 1, wobei die Lerneinheit (110) enthält: eine Bewertungsberechnungseinheit (112), die eine Bewertung erhält, die sich auf das Eignungsbestimmungsergebnis bezieht; und eine Wertfunktionsaktualisierungseinheit (114), die eine Funktion, die einen Wert des Testobjekts in Bezug auf einen Betriebszustand der Herstellungsmaschine (70) und Spezifikationen der Herstellungsmaschine (70) darstellt, unter Verwendung der Bewertung aktualisiert; und wobei die Bewertungsberechnungseinheit (112) eine höhere Bewertung wählt, wenn ein Betrieb der Herstellungsmaschine (70) instabiler wird.
Testvorrichtung (1) nach Anspruch 1 oder 2, wobei die Lerneinheit (110) die Zustandsvariable und die Bestimmungsdaten in einer mehrschichtigen Struktur berechnet.
Testvorrichtung (1) zum Bestimmen eines Testobjekts zum Testen einer Herstellungsmaschine (70) bei einem Entwicklungsprozess der Herstellungsmaschine (70), um ein Testobjekt zu finden, das die Herstellungsmaschine (70) instabil macht, wobei die Testvorrichtung (1) konfiguriert ist, ein Testobjekt in Bezug auf einen Betriebszustand der Herstellungsmaschine (70) und Spezifikationen der Herstellungsmaschine (70) zu bestimmen, und die Testvorrichtung eine Maschinenlernvorrichtung (100) umfasst, die eine Bestimmung des Testobjekts in Bezug auf die Herstellungsmaschine (70) gelernt hat, und wobei die Maschinenlernvorrichtung (100) enthält: eine Zustandsbeobachtungseinheit (106), die Testobjektdaten, die das Testobjekt darstellen, Herstellungsmaschinenbetriebszustandsdaten, die einen Betriebszustand der Herstellungsmaschine (70) darstellen, und Herstellungsmaschinenspezifikationsdaten, die Spezifikationen der Herstellungsmaschine (70) darstellen, als eine Zustandsvariable beobachtet, die einen aktuellen Zustand einer Umgebung darstellt; eine Lerneinheit (110), die ein Lernen in einem Zustand durchgeführt hat, in dem die Herstellungsmaschinenbetriebszustandsdaten und die Herstellungsmaschinenspezifikationsdaten verwendet werden, um das in einem nächsten Zyklus auszuführende Testobjekt zu ermitteln; und eine Schlussfolgerungsergebnisausgabeeinheit (122), die einen Betriebsbefehl eines Tests auf Basis des Testobjekts, auf Basis einer Zustandsvariable, die durch die Zustandsbeobachtungseinheit (106) beobachtet wird, und eines Lernergebnisses, das durch die Lerneinheit (110) erhalten wird, ausgibt.
Testvorrichtung (1) nach einem der Ansprüche 1 bis 4, wobei die Maschinenlernvorrichtung (100) in einem Cloud Server vorhanden ist.
Maschinenlernvorrichtung (100), die eine Bestimmung eines Testobjekts zum Testen einer Herstellungsmaschine (70) bei einem Entwicklungsprozess der Herstellungsmaschine (70) lernt, um ein Testobjekt zu finden, das die Herstellungsmaschine (70) instabil macht, die Maschinenlernvorrichtung (100) umfassend: eine Zustandsbeobachtungseinheit (106), die Testobjektdaten, die das Testobjekt darstellen, Herstellungsmaschinenbetriebszustandsdaten, die einen Betriebszustand der Herstellungsmaschine (70) darstellen, und Herstellungsmaschinenspezifikationsdaten, die Spezifikationen der Herstellungsmaschine (70) darstellen, als eine Zustandsvariable beobachtet, die einen aktuellen Zustand einer Umgebung darstellt; eine Bestimmungsdatengewinnungseinheit (108), die Bestimmungsdaten gewinnt, die ein Eignungsbestimmungsergebnis eines Betriebszustands der Herstellungsmaschine (70) darstellen, wobei das Eignungsbestimmungsergebnis erhalten wird, wenn das Testobjekt ausgeführt wird; eine Lerneinheit (110), die ein Lernen unter Verwendung der Zustandsvariable und der Bestimmungsdaten von einem oder mehreren vorhergehenden Zyklen derart ausführt, dass die Herstellungsmaschinenbetriebszustandsdaten und die Herstellungsmaschinenspezifikationsdaten verwendet werden, um das in einem nächsten Zyklus auszuführende Testobjekt zu ermitteln; und eine Schlussfolgerungsergebnisausgabeeinheit (122), die einen Betriebsbefehl eines Tests auf Basis des Testobjekts, auf Basis einer Zustandsvariable, die durch die Zustandsbeobachtungseinheit (106) beobachtet wird, und eines Lernergebnisses, das durch die Lerneinheit (110) erhalten wird, ausgibt.
Maschinenlernvorrichtung (100), die eine Bestimmung eines Testobjekts zum Testen einer Herstellungsmaschine (70) bei einem Entwicklungsprozess der Herstellungsmaschine (70) lernt, um ein Testobjekt zu finden, das die Herstellungsmaschine (70) instabil macht, die Maschinenlernvorrichtung (100) umfassend: eine Zustandsbeobachtungseinheit (106), die Testobjektdaten, die das Testobjekt darstellen, Herstellungsmaschinenbetriebszustandsdaten, die einen Betriebszustand der Herstellungsmaschine (70) darstellen, und Herstellungsmaschinenspezifikationsdaten, die Spezifikationen der Herstellungsmaschine (70) darstellen, als eine Zustandsvariable beobachtet, die einen aktuellen Zustand einer Umgebung darstellt; eine Lerneinheit (108), die ein Lernen in einem Zustand ausführt, in dem die Herstellungsmaschinenbetriebszustandsdaten und die Herstellungsmaschinenspezifikationsdaten verwendet werden, um das in einem nächsten Zyklus auszuführende Testobjekt zu ermitteln; und eine Schlussfolgerungsergebnisausgabeeinheit (122), die einen Betriebsbefehl eines Tests auf Basis des Testobjekts, auf Basis einer Zustandsvariable, die durch die Zustandsbeobachtungseinheit (106) beobachtet wird, und eines Lernergebnisses, das durch die Lerneinheit (110) erhalten wird, ausgibt.