DE102018001893A1

DE102018001893A1 - Reinigungsprozess-Optimierungsvorrichtung und Maschinenlernvorrichtung

Info

Publication number: DE102018001893A1
Application number: DE102018001893.9A
Authority: DE
Inventors: Chikara TANGO; Masahiro Murota
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-03-15
Filing date: 2018-03-08
Publication date: 2018-09-20
Anticipated expiration: 2038-03-09
Also published as: CN108621154B; JP6502983B2; US10754312B2; US20180267489A1; JP2018153872A; CN108621154A; DE102018001893B4

Abstract

Eine Reinigungsprozess-Optimierungsvorrichtung umfasst eine Maschinenlernvorrichtung, die eine Reinigungsbedingung beim Reinigen eines zu reinigenden Objekts erlernt. Die Maschinenlernvorrichtung umfasst: eine Zustandsbeobachtungseinheit, die Reinigungsbedingungsdaten, welche die Reinigungsbedingung angeben, und Verschmutzungszustandsdaten, die einen Verschmutzungszustand des zu reinigenden Objekts angeben, gemessen vor einer Reinigung, als eine Zustandsvariable beobachtet, die einen aktuellen Umgebungszustand darstellt; eine Bestimmungsdaten-Erfassungseinheit, die Bestimmungsdaten erfasst, die ein Angemessenheitsbestimmungsergebnis hinsichtlich einer Genauigkeit eines Verschmutzungszustands des zu reinigenden Objekts nach einem Reinigen angeben; und eine Lerneinheit, die beim Reinigen des zu reinigenden Objekts die Reinigungsbedingung in Verbindung mit den Verschmutzungszustandsdaten unter Verwendung der Zustandsvariablen und der Bestimmungsdaten erlernt.

Description

HINTERGUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung betrifft eine Reinigungsprozess-Optimierungsvorrichtung und eine Maschinenlernvorrichtung.
Beschreibung des Standes der Technik
In einer Werkzeugmaschine ist ein Bearbeitungsraum mit einer Abdeckung bedeckt, um zu verhindern, dass ein Span und ein Kühlmittel in die Umgebung verteilt werden. Eine große Menge an Chips wird beim Bearbeiten eines Werkstücks mithilfe eines Werkzeugs erzeugt, und die Späne sammeln sich in dem mit der Abdeckung bedeckten Raum (hierin nachfolgend als „Innenraum“ bezeichnet). Beim Eintreten der Späne in ein mechanisches Teil der Werkzeugmaschine versagt in einigen Fällen das mechanische Teil. Daher ist es erforderlich, die in der Maschine angesammelten Späne zu entfernen, und es existiert ein Fall, in dem eine derartige Reinigungsarbeit in der Maschine manuell durchgeführt wird, ein Fall, in dem die Maschine durch Verwenden einer maschineninternen Reinigungsvorrichtung gereinigt wird, die unter Verwendung einer Pumpe ein Kühlmittel in die Maschine einspeist und Späne zusammen mit dem Kühlmittel aus der Maschine ablaufen lässt und dergleichen (zum Beispiel: offengelegte japanische Patentanmeldung Nr. 2016-168649 ).
Indessen gibt es aktuell eine große Bandbreite von mittels Werkzeugmaschinen zu bearbeitenden Werkstücken, und deren Typen liegen in einer Spanne von hocheffizienter Bearbeitung bis hochwertiger Bearbeitung. Zu dieser Zeit können die Späne, Kühlmittel oder dergleichen manchmal nach einem Bearbeiten an einer Oberfläche des Werkstücks haften, und wenn eine derartige Verschmutzung vernachlässigt wird, kann ein Problem auftreten, zum Beispiel, dass die Späne die Oberfläche des Werkstücks bei einem späteren Arbeitsprozess zerkratzen. Um ein derartiges Problem zu vermeiden, ist es erforderlich, die Oberfläche des Werkstücks nach dem Ende der Bearbeitung so schnell wie möglich zu reinigen. Reinigungsarbeit an einem Werkstück wird manchmal manuell durchgeführt oder wird unter Verwendung einer Werkstückreinigungsvorrichtung durchgeführt (zum Beispiel: offengelegte japanische Patentanmeldung Nr. 2008-156715 ).
Ein Reinigungsprozess einer Werkzeugmaschine und eines Werkstücks ist ein bedeutender Faktor in der Reihe von Bearbeitungsarbeiten unter Verwendung der Werkzeugmaschine. Die durch ein Bearbeiten des Werkstücks erzeugten Späne werden jedoch über einen großen Bereich in der Maschine verstreut, sodass Streupositionen, die Menge, Größen oder dergleichen davon variieren, und eine Verschmutzung nicht notwendigerweise einheitlich ist. Daher besteht insofern ein Problem, als es erforderlich ist, eine Reinigungsbedingung (ein Winkel einer Reinigungsdüse, Einspritz- oder Saugdruck, eine Reinigungszeit oder dergleichen) entsprechend einem Zustand der Verschmutzung einzustellen. Des Weiteren variieren eine Haftposition, ein Ausmaß an Haftung oder dergleichen der Späne, Kühlmittel oder dergleichen, die an der Oberfläche des Werkstücks haften, und ferner existiert ein Fall, bei dem die Oberfläche des Werkstücks durch Reinigen während der Reinigung des Werkstücks zerkratzt werden kann. Um einen derartigen Fall zu verhindern, ist es erforderlich, eine präzise Reinigung durchzuführen, bei gleichzeitiger Feineinstellung der Reinigungsbedingung (des Winkels der Reinigungsdüse, des Reinigungs- oder Saugdrucks, der Reinigungszeit oder dergleichen), was insofern ein Problem verursacht, als sehr viel Zeit und Aufwand erforderlich sind.
KURZDARSTELLUNG DER ERFINDUNG
Es ist daher eine Aufgabe der vorliegenden Erfindung, eine Reinigungsprozess-Optimierungsvorrichtung und eine Maschinenlernvorrichtung vorzusehen, die imstande sind, eine angemessene Reinigungsbedingung in Übereinstimmung mit Zuständen einer Werkzeugmaschine und eines Werkstücks zu bestimmen.
Ein Aspekt der vorliegenden Erfindung ist eine Reinigungsprozess-Optimierungsvorrichtung, die eine Reinigungsbedingung beim Durchführen einer Reinigung eines zu reinigenden Objekts optimiert, wobei die Reinigungsprozess-Optimierungsvorrichtung umfasst: eine Maschinenlernvorrichtung, die beim Reinigen des zu reinigenden Objekts die Reinigungsbedingung erlernt. Die Maschinenlernvorrichtung umfasst: eine Zustandsbeobachtungseinheit, die Reinigungsbedingungsdaten, welche die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts angeben, und Verschmutzungszustandsdaten beobachtet, die einen Verschmutzungszustand des zu reinigenden Objekts angeben, gemessen vor einem Reinigen des zu reinigenden Objekts als eine Zustandsvariable, die einen aktuellen Umgebungszustand darstellt; eine Bestimmungsdaten-Erfassungseinheit, die Bestimmungsdaten erfasst, die ein Angemessenheitsbestimmungsergebnis hinsichtlich einer Genauigkeit eines Verschmutzungszustands des zu reinigenden Objekts nach einem Reinigen angeben; und eine Lerneinheit, die beim Reinigen des zu reinigenden Objekts die Reinigungsbedingung in Verbindung mit den Verschmutzungszustandsdaten unter Verwendung der Zustandsvariablen und der Bestimmungsdaten erlernt.
Ein anderer Aspekt der vorliegenden Erfindung ist eine Maschinenlernvorrichtung, die beim Durchführen einer Reinigung eines zu reinigenden Objekts eine Reinigungsbedingung erlernt, wobei die Maschinenlernvorrichtung umfasst: eine Zustandsbeobachtungseinheit, die Reinigungsbedingungsdaten, welche die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts angeben, und Verschmutzungszustandsdaten beobachtet, die einen Verschmutzungszustand des zu reinigenden Objekts angeben, gemessen vor einem Reinigen des zu reinigenden Objekts als eine Zustandsvariable, die einen aktuellen Umgebungszustand darstellt; eine Bestimmungsdaten-Erfassungseinheit, die Bestimmungsdaten erfasst, die ein Angemessenheitsbestimmungsergebnis hinsichtlich einer Genauigkeit eines Verschmutzungszustands des zu reinigenden Objekts nach einem Reinigen angeben; und eine Lerneinheit, die beim Reinigen des zu reinigenden Objekts die Reinigungsbedingung in Verbindung mit den Verschmutzungszustandsdaten unter Verwendung der Zustandsvariablen und der Bestimmungsdaten erlernt.
Gemäß der vorliegenden Erfindung ist es möglich, auf effiziente Weise eine Reinigung an verschiedenen Werkzeugmaschinen und Werkstücken durchzuführen, da es möglich ist, einen Reinigungsprozess in Übereinstimmung mit einem maschineninternen Zustand einer Werkzeugmaschine und einer Oberflächenbedingung eines Werkstücks durch Kombinieren einer bekannten Technik zum Durchführen einer Reinigung der Werkzeugmaschinen und der Werkstücke mit Maschinenlernen zu optimieren.
Figurenliste
Die vorstehend beschriebenen sowie andere Aufgaben und Eigenschaften der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung einer Ausführungsform unter Bezugnahme auf die angefügten Zeichnungen ersichtlich. In diesen Zeichnungen:

ist 1 ein schematisches funktionelles Blockschaltbild einer Reinigungsprozess-Optimierungsvorrichtung gemäß einer ersten Ausführungsform;
ist 2 ein schematisches funktionelles Blockschaltbild, das einen Aspekt der Reinigungsprozess-Optimierungsvorrichtung veranschaulicht;
ist 3 ein schematischer Ablaufplan, der einen Aspekt eines Maschinenlernverfahrens veranschaulicht;
ist 4 ein schematisches funktionelles Blockschaltbild, das einen anderen Aspekt der Reinigungsprozess-Optimierungsvorrichtung veranschaulicht;
ist 5A eine Ansicht zum Beschreiben eines Neurons;
ist 5B eine Ansicht zum Beschreiben eines neuronalen Netzwerks;
ist 6 ein schematisches funktionelles Blockschaltbild einer Reinigungsprozess-Optimierungsvorrichtung gemäß einer zweiten Ausführungsform;
ist 7 ein schematisches funktionelles Blockschaltbild, das einen Aspekt eines Reinigungssystems veranschaulicht; und
ist 8 ein schematisches funktionelles Blockschaltbild, das einen anderen Aspekt des Reinigungssystems veranschaulicht.

AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Im Folgenden werden hier mit Bezug auf die Zeichnungen Ausführungsformen der vorliegenden Erfindung beschrieben.
1 ist ein schematisches funktionelles Blockschaltbild einer Reinigungsprozess-Optimierungsvorrichtung 10 gemäß einer ersten Ausführungsform. Die Reinigungsprozess-Optimierungsvorrichtung 10 kann zum Beispiel als eine Steuervorrichtung realisiert werden, die eine Industriemaschine (nicht veranschaulicht) steuert, die zum Reinigen einer Werkzeugmaschine oder eines Werkstücks verwendet wird. Zu Beispielen für die Industriemaschine, die zum Reinigen der Werkzeugmaschine oder des Werkstücks verwendet wird, zählen eine Reinigungsvorrichtung, die eine Reinigungsdüse zum Versprühen einer Reinigungslösung unter Verwendung einer Pumpe umfasst, ein die Reinigungsdüse haltender Roboter und dergleichen. Die Reinigungsprozess-Optimierungsvorrichtung 10 umfasst eine Maschinenlernvorrichtung 20, die Software (Lernalgorithmus oder dergleichen) umfasst, die zum Selbsterlernen einer Reinigungsbedingung (eines Winkels einer Reinigungsdüse, Reinigungs-oder Saugdruck, einer Reinigungszeit oder dergleichen) in einem Reinigungsprozess einer Werkzeugmaschine oder eines Werkstücks mithilfe sogenannten Maschinenlernens ausgestaltet ist, sowie Hardware (eine CPU eines Computers oder dergleichen). Die Reinigungsbedingung, die von der in die Reinigungsprozess-Optimierungsvorrichtung 10 einbezogenen Maschinenlernvorrichtung 20 erlernt wird, entspricht einer Modellstruktur, die eine Korrelation zwischen einem Verschmutzungszustand (wie beispielsweise der Menge von Spänen oder Kühlmitteln oder dergleichen) der Werkzeugmaschine oder der Werkstücke als einem zu reinigenden Objekt und einer Reinigungsbedingung während der Reinigung des zu reinigenden Objekts darstellt.
Wie in dem funktionellen Block in 1 veranschaulicht, umfasst die in die Reinigungsprozess-Optimierungsvorrichtung 10 einbezogene Maschinenlernvorrichtung 20: eine Zustandsbeobachtungseinheit 22, die Reinigungsbedingungsdaten S1, die eine auf das zu reinigende Objekt (nicht veranschaulicht) wie beispielsweise die Werkzeugmaschine und das Werkstück anzuwendende Reinigungsbedingung angeben, und Verschmutzungszustandsdaten S2 beobachtet, die einen Verschmutzungszustand des zu reinigenden Objekts wie beispielsweise die Werkzeugmaschine und das Werkstück als eine Zustandsvariable S angeben, die einen aktuellen Umgebungszustand darstellt; eine Bestimmungsdaten-Erfassungseinheit 24, die Bestimmungsdaten D erfasst, welche ein Angemessenheitsbestimmungsergebnis hinsichtlich des Verschmutzungszustands des zu reinigenden Objekts angeben, nachdem es einer Reinigung unterworfen wurde; und eine Lerneinheit 26, welche die Reinigungsbedingungsdaten S1 in Verbindung mit den Verschmutzungszustandsdaten S2 unter Verwendung der Zustandsvariablen S und der Bestimmungsdaten D erlernt.
Die Zustandsbeobachtungseinheit 22 kann zum Beispiel als eine Funktion der CPU des Computers ausgestaltet werden. Alternativ kann die Zustandsbeobachtungseinheit 22 zum Beispiel als Software ausgestaltet werden, die bewirken soll, dass die CPU des Computers arbeitet. Zum Beispiel ist es möglich, Deklarationsdaten einer Reinigungsbedingung, die von einer Fachkraft deklariert und an die Reinigungsprozess-Optimierungsvorrichtung 10 übergeben wurden, oder einen Betriebsparameter zu der Zeit einer Reinigung, erlangt von einer Industriemaschine beim Verwenden der zum Reinigen genutzten Industriemaschine, als die Reinigungsbedingungsdaten S1 in der von der Zustandsbeobachtungseinheit 22 beobachteten Zustandsvariablen S zu verwenden. Zum Beispiel ist es möglich, einen Abstand der Reinigungsdüse von einer Position in der Verschmutzungsmitte beim Reinigen, den Winkel der Reinigungsdüse, den Reinigungs- oder Saugdruck, die Reinigungszeit, Temperatur der Reinigungslösung, die Anzahl der Male, die gereinigt wird, oder dergleichen als die Reinigungsbedingungsdaten S1 zu verwenden.
Des Weiteren ist es möglich, die Verschmutzungszustandsdaten S2 in der Zustandsvariablen S zum Beispiel durch tatsächliches Messen unter Verwendung einer ersten Messvorrichtung (nicht veranschaulicht) zu erfassen, die an einer Industriemaschine angebracht ist, welche zur von der Reinigungsprozess-Optimierungsvorrichtung gesteuerten Reinigung verwendet wird.
Wenn das zu reinigende Objekt zum Beispiel die Werkzeugmaschine ist, kann die erste Messvorrichtung die gesamte Werkzeugmaschine oder mindestens einen Punkt von Interesse in der Werkzeugmaschine von einer vorgegebenen Position aus messen. Wenn das zu reinigende Objekt zum Beispiel das Werkstück ist, kann die erste Messvorrichtung das gesamte Werkstück oder mindestens einen Punkt von Interesse davon von einer vorgegebenen Position aus messen. Die erste Messvorrichtung kann die Verschmutzungszustandsdaten S2 von jedem Teil des zu reinigenden Objekts auf Grundlage einer Differenz gegenüber einem gemessenen Wert des gesamten zu reinigenden Objekts oder mindestens eines Punkts von Interesse davon berechnen, wobei der Wert im Voraus durch Messen des zu reinigenden Objekts, bevor es verschmutzt wurde, erfasst wurde. Die erste Messvorrichtung kann bewirken, dass die Verschmutzungszustandsdaten S2 das Ausmaß (die Fläche, das Volumen oder dergleichen) der Differenz, eine Farbe der Differenz oder dergleichen enthalten, auf Grundlage der Differenz gegenüber dem gemessenen Wert des gesamten zu reinigenden Objekts oder mindestens eines Punkts von Interesse davon, wobei der Wert im Voraus durch Messen des zu reinigenden Objekts, bevor es verschmutzt wurde, erfasst wurde. Diese Berechnung kann zum Beispiel von der Reinigungsprozess-Optimierungsvorrichtung 10 oder der Zustandsbeobachtungseinheit 22 selbst durchgeführt werden. Es ist möglich, eine optische Bildgebungsvorrichtung, einen Infrarotlaser, eine Ultraschall-Messvorrichtung oder dergleichen als die erste Messvorrichtung zu nehmen.
Die Bestimmungsdaten-Erfassungseinheit 24 kann zum Beispiel als eine Funktion der CPU des Computers ausgestaltet werden. Alternativ kann die Bestimmungsdaten-Erfassungseinheit 24 zum Beispiel als Software ausgestaltet werden, die bewirken soll, dass die CPU des Computers arbeitet. Die von der Bestimmungsdaten-Erfassungseinheit 24 erfassten Bestimmungsdaten D können durch tatsächliches Messen des zu reinigenden Objekts, nachdem es einer Reinigung unterworfen wurde, erfasst werden, zum Beispiel unter Verwendung der an der Reinigungsmaschine angebrachten ersten Messvorrichtung. Die Bestimmungsdaten D sind ein Index, der ein Ergebnis darstellt, das erlangt wird, wenn Reinigungsarbeit gemäß der Zustandsvariablen S ausgeführt wird, und der indirekt den aktuellen Zustand der Umgebung darstellt, in der die Reinigungsarbeit durchgeführt wurde.
Auf diese Weise werden ein Messen eines Verschmutzungszustands des zu reinigenden Objekts unter Verwendung der ersten Messvorrichtung, ein Realisieren von Reinigungsarbeit an dem zu reinigenden Objekt und ein erneutes Messen eines Verschmutzungszustands des zu reinigenden Objekts nach einem Reinigen unter Verwendung der ersten Messvorrichtung gemäß der Umgebung realisiert, während die Maschinenlernvorrichtung 20 der Reinigungsprozess-Optimierungsvorrichtung 10 fortfährt zu lernen.
Die Lerneinheit 26 kann zum Beispiel als eine Funktion der CPU des Computers ausgestaltet werden. Alternativ kann die Lerneinheit 26 zum Beispiel als Software ausgestaltet werden, die bewirken soll, dass die CPU des Computers arbeitet. Die Lerneinheit 26 erlernt die Reinigungsbedingung der an dem zu reinigenden Objekt durchzuführenden Reinigung gemäß einem beliebigen Lernalgorithmus, was insgesamt als Maschinenlernen bezeichnet wird. Die Lerneinheit 26 kann wiederholt Lernen auf Grundlage eines Datensatzes ausführen, der die vorstehend beschriebene Zustandsvariable S sowie Bestimmungsdaten D für eine Mehrzahl von zu reinigenden Objekten umfasst. Während der Wiederholung eines Lernzyklus für die Mehrzahl von zu reinigenden Objekten, sind die Reinigungsbedingungsdaten S1 in der Zustandsvariablen S eine in dem Lernzyklus bis zu dem vorhergehenden Mal erlangte Reinigungsbedingung, und die Bestimmungsdaten D sind ein Angemessenheitsbestimmungsergebnis in Bezug auf ein Reinigen des zu reinigenden Objekts auf Grundlage der bestimmten Reinigungsbedingung.
Durch Wiederholen eines derartigen Lernzyklus kann die Lerneinheit 26 automatisch ein Merkmal erkennen, das die Korrelation zwischen dem Verschmutzungszustand des zu reinigenden Objekts (die Verschmutzungszustandsdaten S2) und der Reinigungsbedingung einer Reinigung an dem zu reinigenden Objekt impliziert. Obwohl die Korrelation zwischen den Verschmutzungszustandsdaten S2 und der Reinigungsbedingung bei dem Start des Lernalgorithmus im Wesentlichen unbekannt ist, erkennt die Lerneinheit 26 graduell das Merkmal und interpretiert die Korrelation während das Lernen fortschreitet. Wenn die Korrelation zwischen den Verschmutzungszustandsdaten S2 und der Reinigungsbedingung bis zu einem Niveau interpretiert wurde, das in einem bestimmten Ausmaß zuverlässig ist, kann ein von der Lerneinheit 26 wiederholt ausgegebenes Lernergebnis verwendet werden, um hinsichtlich einer Aktion wie beispielsweise einer beliebigen Reinigungsbedingung, gemäß der für das zu reinigende Objekt in dem aktuellen Zustand (das heißt dem Verschmutzungszustand) eine Reinigung durchgeführt werden muss, eine Auswahl durchzuführen (das heißt zu entscheiden). Das heißt, während der Lernalgorithmus fortschreitet, kann die Lerneinheit 26 sich graduell einer optimalen Lösung einer Korrelation zwischen einem aktuellen Zustand eines zu reinigenden Objekts und der Aktion einer Reinigungsbedingung nähern, gemäß der für das zu reinigende Objekt in dem aktuellen Zustand eine Reinigung durchgeführt werden muss.
Wie vorstehend beschrieben, lernt die Lerneinheit 26 die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts gemäß dem Maschinenlernalgorithmus unter Verwendung der Zustandsvariablen S, beobachtet von der Zustandsbeobachtungseinheit 22, und der Bestimmungsdaten D, erfasst von der Bestimmungsdaten-Erfassungseinheit 24 in der Maschinenlernvorrichtung 20, die in die Reinigungsprozess-Optimierungsvorrichtung 10 einbezogen ist. Die Zustandsvariable S besteht aus Daten, die nicht leicht durch Störung beeinflusst werden, wie beispielsweise den Reinigungsbedingungsdaten S1 und den Verschmutzungszustandsdaten S2, und die Bestimmungsdaten D werden durch Messen des zu reinigenden Objekts nach einem Reinigen eindeutig bestimmt. Obwohl die Verschmutzungszustandsdaten S2 zum Beispiel von der Messgenauigkeit jedes Teils der Maschine als der Fähigkeit der ersten Messvorrichtung abhängen, wird erwartet, dass die Verschmutzungszustandsdaten S2 auf Grundlage einer solchen Abhängigkeit selbst mit hoher Genauigkeit beobachtet werden können. Dies trifft in ähnlicher Weise auf die Bestimmungsdaten D zu, und es wird erwartet, dass die Bestimmungsdaten D in Abhängigkeit von der Messgenauigkeit der ersten Messvorrichtung mit hoher Genauigkeit erfasst werden können. Daher ist es möglich, beim Reinigen des zu reinigenden Objekts die Reinigungsbedingung automatisch und genau in Übereinstimmung mit dem Verschmutzungszustand des zu reinigenden Objekts ohne Berechnung oder grobe Schätzung zu erlangen, unter Verwendung des Lernergebnisses der Lerneinheit 26 gemäß der Maschinenlernvorrichtung 20, die in die Reinigungsprozess-Optimierungsvorrichtung 10 einbezogen ist.
Wenn es möglich ist, beim Reinigen des zu reinigenden Objekts die Reinigungsbedingung automatisch ohne Berechnung oder grobe Schätzung zu erlangen, ist es möglich, beim Reinigen des zu reinigenden Objekts die Reinigungsbedingung durch einfaches Messen des zu reinigenden Objekts vor einem Beginn der Reinigung des zu reinigenden Objekts und Erfassen des Verschmutzungszustands (der Verschmutzungszustandsdaten S2) umgehend zu bestimmen. Daher ist es möglich, die für die Reinigungsarbeit des zu reinigenden Objekts erforderliche Zeit zu verkürzen.
Als ein abgewandeltes Beispiel der Maschinenlernvorrichtung 20, die in die Reinigungsprozess-Optimierungsvorrichtung 10 einbezogen ist, kann die Zustandsbeobachtungseinheit 22 ferner Typeninformation S3 beobachten, um einen Typ eines zu reinigenden Objekts als die Zustandsvariable S zu erkennen. Zu der Typeninformation S3 können zum Beispiel ein Typ, eine Modellnummer oder dergleichen einer Werkzeugmaschine zählen, wenn das zu reinigende Objekt die Werkzeugmaschine ist, und ein Produkttyp, ein Material oder dergleichen eines Werkstücks, wenn das zu reinigende Objekt das Werkstück ist. Zum Beispiel kann die Typeninformation S3 auf dem zu reinigenden Objekt unter Verwendung eines Kennzeichens wie beispielsweise eines Strichcodes angezeigt werden. Zum Beispiel kann die Zustandsbeobachtungseinheit 22 die Typeninformation S3 aus einer Ausgabe eines Strichcodelesers erfassen. Die Lerneinheit 26 kann die Reinigungsbedingung für das Reinigen des zu reinigenden Objekts in Verbindung sowohl mit den Verschmutzungszustandsdaten S2 als auch der Typeninformation S3 erlernen.
Gemäß dem vorstehend beschriebenen abgewandelten Beispiel ist es möglich, eine optimale Reinigungsbedingung eines normalen Objekts in Übereinstimmung sowohl mit dem Verschmutzungszustand eines herzustellenden Objekts als auch einem Typ des normalen Objekts zu erlernen. Zum Beispiel kann in Bezug auf zwei zu reinigende Werkstücke eine Situation eintreten, bei der sich Reinigungsbedingungen für ein Reinigen der Werkstücke geringfügig voneinander unterscheiden, wenn Verschmutzungszustände (die Verschmutzungszustandsdaten S2) der Werkstücke im Wesentlichen dieselben sind, aber Materialien oder dergleichen (die Typeninformation S3) der Werkstücke unterschiedlich sind. Gemäß der vorstehend beschriebenen Ausgestaltung ist es selbst bei einer derartigen Situation möglich, die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts in Übereinstimmung mit dem Material oder dergleichen (der Typeninformation S3) zu optimieren. Alternativ existiert auch ein Fall, bei dem es möglich ist, die Korrelation zwischen dem Verschmutzungszustand (den Verschmutzungszustandsdaten S2) des zu reinigenden Objekts und dem Typ (der Typeninformation S3) des zu reinigenden Objekts herauszufinden, während mit dem Lernen fortgefahren wird. In diesem Fall ist es möglich, die Verschmutzungszustandsdaten S2 in einem bestimmten Ausmaß auf Grundlage der Typeninformation S3 vorherzusagen, und auf diese Weise ist es möglich, die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts durch angemessenes Konvergieren des Lernens zu optimieren, selbst wenn die Messgenauigkeit jedes Teils der Maschine unter Verwendung der ersten Messvorrichtung niedrig ist.
Als ein anderes abgewandeltes Beispiel der Maschinenlernvorrichtung 20 der Reinigungsprozess-Optimierungsvorrichtung 10 kann die Lerneinheit 26 die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts in jeder aus einer Mehrzahl von für die Reinigung verwendeten Industriemaschinen unter Verwendung der Zustandsvariablen S und der Bestimmungsdaten D erlernen, die für jede der zum Reinigen verwendeten, dieselbe Ausgestaltung aufweisenden Industriemaschinen erlangt werden. Gemäß dieser Ausgestaltung ist es möglich, die Menge an die Zustandsvariable S und die Bestimmungsdaten D enthaltenden Datensätzen zu erhöhen, die für eine gewisse Zeitspanne erlangt werden können, und auf diese Weise ist es möglich, die Geschwindigkeit und Zuverlässigkeit eines Lernens hinsichtlich der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts durch Verwenden unterschiedlicherer Datensätze als Eingaben zu verbessern.
Bei der Maschinenlernvorrichtung 20, welche die vorstehend beschriebene Ausgestaltung aufweist, ist der von der Lerneinheit 26 auszuführende Lernalgorithmus nicht besonders eingeschränkt, und ein als Maschinenlernen bekannter Lernalgorithmus kann übernommen werden. 2 veranschaulicht eine Ausgestaltung, bei der die Lerneinheit 26, die Verstärkendes Lernen als ein Beispiel des Lernalgorithmus ausführt, als ein Aspekt der in 1 veranschaulichten Reinigungsprozess-Optimierungsvorrichtung 10 einbezogen ist. Das Verstärkende Lernen ist eine Technik zum Lernen eines Plans (der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts in der Maschinenlernvorrichtung der vorliegenden Anmeldung), welche die Summe von Belohnungen als eine optimale Lösung maximiert, als eine optimale Lösung, durch Wiederholen eines Zyklus, in dem eine vorgegebene Aktion (das heißt Ausgabe) in einem aktuellen Zustand ausgeführt wird, während der aktuelle Zustand (das heißt Eingabe) einer Umgebung, in der ein zu erlernendes Objekt vorhanden ist, beobachtet wird, und einige Belohnungen werden in einer Versuch-und-Irrtum-Weise für eine derartige Aktion gegeben.
Bei der in die in 2 veranschaulichte Reinigungsprozess-Optimierungsvorrichtung 10 einbezogenen Maschinenlernvorrichtung 20 umfasst die Lerneinheit 26: eine Belohnungsberechnungseinheit 28, die eine Belohnung R erlangt, die sich auf ein Angemessenheitsbestimmungsergebnis (das den in dem nächsten Lernzyklus zu verwendenden Bestimmungsdaten D entspricht) hinsichtlich des Verschmutzungszustands des zu reinigenden Objekts nach einer Reinigung bezieht, die durch Reinigen des zu reinigenden Objekts auf Grundlage der Zustandsvariablen S erlangt wurde; und eine Wertfunktions-Aktualisierungseinheit 30, die eine Funktion Q, die einen Wert der zu der Zeit einer Reinigung des zu reinigenden Objekts zu übernehmenden Reinigungsbedingung darstellt, unter Verwendung der Belohnung R aktualisiert. Die Lerneinheit 26 erlernt die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts, während die Wertfunktions-Aktualisierungseinheit 30 ein Aktualisieren der Funktion Q wiederholt.
Nachfolgend wird ein beispielhafter Algorithmus des von der Lerneinheit 26 ausgeführten Verstärkenden Lernens beschrieben. Der Algorithmus gemäß diesem Beispiel ist als Q-Lernen bekannt und ist eine Technik zum Lernen einer Funktion Q(s, a), die einen Wert einer Aktion darstellt, wenn Aktion a in einem Zustand s ausgewählt wird, wobei der Zustand s eines handelnden Subjekts und die von dem handelnden Subjekt in dem Zustand s wählbare Aktion a als unabhängige Variablen verwendet werden. Die optimale Lösung besteht darin, die Aktion a mit der höchstwertigen Funktion Q in dem Zustand s auszuwählen. Das Q-Lernen wird in einem Zustand gestartet, bei dem eine Korrelation zwischen dem Zustand s und der Aktion a unbekannt ist, und die Wertfunktion Q wird wiederholt aktualisiert, um der optimalen Lösung durch Wiederholen von Versuch und Irrtum beim Auswählen verschiedener Typen von Aktion a in einem beliebigen Zustand s nahezukommen. Hier ist es möglich, wenn sich die Umgebung (das heißt der Zustand s) als ein Ergebnis eines Auswählens der Aktion a in dem Zustand s geändert hat, die Wertfunktion Q zu veranlassen, der optimalen Lösung in einer relativ kurzen Zeit nahezukommen, durch derartiges Ausgestalten der Belohnung r (das heißt einer Gewichtung der Aktion a), die einer derartigen Umgebungsänderung entspricht, dass sie erreichbar ist, und derartiges Lenken eines Lernens, dass Aktion a gewählt wird, mit der eine höhere Belohnung r erlangt werden kann.
Eine Aktualisierungsformel der Wertfunktion Q kann allgemein durch die folgende Forme 1 ausgedrückt werden. In Formel 1 sind s_t und a_t jeweils ein Zustand und eine Aktion zu der Zeit t, und der Zustand ändert sich durch Aktion a_t nach s_t+1. Ferner ist r_t+1 eine Belohnung, die bei der Änderung des Zustands von s_t nach s_t+1 erlangt wird. Der Begriff „maxQ“ bedeutet Q zu der Zeit, zu der die Aktion „a“ unternommen wird (das wird als zu der Zeit t betrachtet), um einen maximalen Wert Q zu der Zeit t+1 (und zu der Zeit t betrachtet) zu erreichen. Ferner sind a und y jeweils ein Lernkoeffizient und eine Discount Rate und werden beliebig derart festgelegt, dass 0 < a ≤ 1 und 0 < y ≤ 1. $Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α (r_{r + 1} + γ max_{a} Q (s_{t + 1}, a) - Q (s_{t}, a_{t}))$
Wenn die Lerneinheit 26 Q-Lernen ausführt, entsprechen die von der Zustandsbeobachtungseinheit 22 beobachtete Zustandsvariable S und die von der Bestimmungsdaten-Erfassungseinheit 24 erfassten Bestimmungsdaten D dem Zustand s der Aktualisierungsformel, eine Aktion wie beispielsweise, wie die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts für das zu reinigende Objekt in dem aktuellen Zustand (das heißt dem Verschmutzungszustand) zu ändern ist, entspricht der Aktion a der Aktualisierungsformel, und die von der Belohnungsberechnungseinheit 28 erlangte Belohnung R entspricht der Belohnung r der Aktualisierungsformel. Dementsprechend aktualisiert die Wertfunktions-Aktualisierungseinheit 30 wiederholt die Funktion Q, die den Wert der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts in dem aktuellen Zustand darstellt, mithilfe von Q-Lernen unter Verwendung der Belohnung R.
Die von der Belohnungsberechnungseinheit 28 zu erlangende Belohnung R kann zum Beispiel derart festgelegt werden, dass eine positive Belohnung R in einem Fall erlangt wird, bei dem ein Verschmutzungszustand eines zu reinigenden Objekts nach einer Reinigung als „angemessen“ bestimmt wird (das heißt, wenn ein Verschmutzungsgrad des zu reinigenden Objekts nach einem Reinigen in einem zulässigen Bereich liegt), zur Zeit einer Realisierung einer Reinigung des zu reinigenden Objekts auf Grundlage einer Reinigungsbedingung nach einem Bestimmen der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts, und eine negative Belohnung R wird in einem Fall erlangt, bei dem der Verschmutzungszustand des zu reinigenden Objekts nach einem Reinigen als „unangemessen“ bestimmt wird (das heißt, wenn der Verschmutzungsgrad des zu reinigenden Objekts nach einem Reinigen außerhalb des zulässigen Bereichs liegt), zur Zeit einer Realisierung einer Reinigung des zu reinigenden Objekts auf Grundlage der Reinigungsbedingung nach einem Bestimmen der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts. Absolute Werte der positiven und negativen Belohnungen R können dieselben sein oder sich voneinander unterscheiden. Hier kann, ob der Verschmutzungsgrad zulässig ist, zum Beispiel auf Grundlage davon bestimmt werden, ob das Ausmaß (wie beispielsweise die Fläche und das Volumen) einer Verschmutzung des zu reinigenden Objekts, der mithilfe der ersten Messvorrichtung gemessen wurde, gleich einem vorgegebenen Schwellenwert oder geringer als dieser ist.
Zu dieser Zeit wird bestimmt, ob der Verschmutzungszustand für jeden Teil des zu reinigenden Objekts nach einem Reinigen in dem zulässigen Bereich liegt. Er kann in einem Fall als „angemessen“ bestimmt werden, bei dem der Verschmutzungszustand für alle Teile in dem zulässigen Bereich liegt, oder kann in einem Fall als „angemessen“ bestimmt werden, bei dem die Summe der Verschmutzungszustände der jeweiligen Teile des zu reinigenden Objekts nach einem Reinigen in dem zulässigen Bereich liegt. Des Weiteren kann die Bestimmung durch Kombinieren beider Fälle getroffen werden.
Überdies ist es möglich, das Angemessenheitsbestimmungsergebnis des Verschmutzungszustands des zu reinigenden Objekts nach einem Reinigen nicht nur auf zwei Arten, „angemessen“ und „unangemessen“, festzulegen, sondern auch auf eine Mehrzahl von Stufen in Übereinstimmung mit dem Verschmutzungsgrad. Wenn zum Beispiel ein Maximalwert des zulässigen Bereichs Tmax ist, kann er derart ausgestaltet werden, dass er die Belohnung R = 5 ergibt, wenn ein Verschmutzungsausmaß K, das in dem zu reinigenden Objekt nach einem Reinigen verbleibt, als 0 ≤ K < Tmax/5 gegeben ist, um die Belohnung R = 2 zu ergeben, wenn Tmax/5 ≤ K < Tmax/2, und die Belohnung R = 1 zu ergeben, wenn Tmax/2 ≤ K ≤ Tmax ist. Ferner ist es auch möglich, Tmax in einer anfänglichen Lernphase als relativ groß festzulegen, und Tmax mit fortschreitendem Lernen zu verringern.
Ferner kann die Belohnung R derart ausgestaltet werden, dass eine positive Belohnung gegeben wird, da die Reinigungszeit kürzer als ein im Voraus festgelegter vorgegebener Wert wird. Auf diese Weise wird Reinigen bevorzugt bei einer Reinigungsbedingung mit einer kürzeren Reinigungszeit unter den Reinigungsbedingungen, bei denen der Verschmutzungszustand des zu reinigenden Objekts als „angemessen“ bestimmt wird, durchgeführt, und daher ist es möglich, eine Zykluszeit des Reinigungsprozesses zu verkürzen.
Die Wertfunktions-Aktualisierungseinheit 30 kann eine Aktion-Wert-Tabelle aufweisen, in welche die Zustandsvariable S, die Bestimmungsdaten D und die Belohnung R in Verbindung mit dem Aktionswert (zum Beispiel ein numerischer Wert), dargestellt durch die Funktion Q, eingeordnet sind. In diesem Fall ist die Handlung der Wertfunktions-Aktualisierungseinheit 30, die Funktion Q zu aktualisieren, synonym mit der Handlung der Wertfunktions-Aktualisierungseinheit 30, die Aktion-Wert-Tabelle zu aktualisieren. Da die Korrelation zwischen dem aktuellen Zustand der Umgebung und der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts zu Beginn eines Q-Lernens unbekannt ist, werden verschiedene Typen der Zustandsvariablen S, der Bestimmungsdaten D und der Belohnung R in der Form erstellt, dass sie einem willkürlich bestimmten Wert (Funktion Q) des Aktionswerts in der Aktion-Wert-Tabelle zugeordnet werden. Übrigens kann die Belohnungsberechnungseinheit 28 umgehend die Belohnung R berechnen, die den Bestimmungsdaten D entspricht, wenn die Bestimmungsdaten D bekannt sind, und der berechnete Wert R wird in die Aktion-Wert-Tabelle geschrieben.
Wird das Q-Lernen unter Verwendung der Belohnung R in Übereinstimmung mit dem Angemessenheitsbestimmungsergebnis hinsichtlich des Verschmutzungszustands des zu reinigenden Objekts nach einem Reinigen fortgesetzt, wird das Lernen in eine Richtung eines Auswählens einer Aktion gelenkt, mit der eine höhere Belohnung R erlangt werden kann. Der Wert (Funktion Q) des Aktionswerts für eine in einem aktuellen Zustand durchzuführende Aktion wird in Übereinstimmung mit dem Zustand (das heißt der Zustandsvariablen S und den Bestimmungsdaten D) einer Umgebung neugeschrieben, die sich als eine Folge eines Ausführens der ausgewählten Aktion in dem aktuellen Zustand ändert, wodurch die Aktion-Wert-Tabelle aktualisiert wird. Mit einer Wiederholung dieser Aktualisierung wird der Wert (Funktion Q) des in der Aktion-Wert-Tabelle angegebenen Aktionswerts derart neugeschrieben, dass er einen größeren Wert für eine angemessenere Aktion aufweist. Auf diese Weise wird die Korrelation zwischen dem aktuellen Zustand der Umgebung (dem Verschmutzungszustand des zu reinigenden Objekts), die unbekannt war, und der Aktion (der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts) für diesen aktuellen Zustand graduell ersichtlich. Das heißt, eine Beziehung zwischen dem Verschmutzungszustand vor einem Reinigen des zu reinigenden Objekts und der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts kommt durch Aktualisieren der Aktion-Wert-Tabelle graduell der optimalen Lösung näher.
Unter Bezugnahme auf 3 wird der Ablauf des vorstehend beschriebenen Q-Lernens (das heißt ein Aspekt eines Maschinenlernverfahrens) näher beschrieben, das von der Lerneinheit 26 ausgeführt wird. In Schritt SA01 wählt die Wertfunktions-Aktualisierungseinheit 30 als Erstes willkürlich eine Reinigungsbedingung beim Reinigen des zu reinigenden Objekts als eine Aktion aus, die in einem aktuellen Zustand, angegeben durch die von der Zustandsbeobachtungseinheit 22 beobachtete Zustandsvariable S, durchzuführen ist, unter Bezugnahme auf die Aktion-Wert-Tabelle zu dieser Zeit. Nach Ausführen einer Reinigung erlangt die Wertfunktions-Aktualisierungseinheit 30 als Nächstes die Zustandsvariable S des aktuellen Zustands, die von der Zustandsbeobachtungseinheit 22 beobachtet wird, in Schritt SA02 und erlangt die Bestimmungsdaten D des aktuellen Zustands, die von der Bestimmungsdaten-Erfassungseinheit 24 erfasst werden, in Schritt SA03. Als Nächstes bestimmt die Wertfunktions-Aktualisierungseinheit 30 auf Grundlage der Bestimmungsdaten D in Schritt SA04, ob die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts angemessen ist, wendet die von der Belohnungsberechnungseinheit 28 erlangte positive Belohnung R in Schritt SA05 auf die Aktualisierungsformel der Funktion Q an, wenn dies angemessen ist, und aktualisiert anschließend in Schritt SA06 die Aktion-Wert-Tabelle unter Verwendung der Zustandsvariablen S, der Bestimmungsdaten D, der Belohnung R und eines Werts des Aktionswerts (aktualisierte Funktion Q) in dem aktuellen Zustand. Wenn in Schritt SA04 bestimmt wird, dass die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts nicht angemessen ist, wird die von der Belohnungsberechnungseinheit 28 erlangte negative Belohnung R in Schritt SA07 auf die Aktualisierungsformel der Funktion Q angewendet, und anschließend wird in Schritt SA06 die Aktion-Wert-Tabelle unter Verwendung der Zustandsvariablen S, der Bestimmungsdaten D, der Belohnung R und eines Werts des Aktionswerts (aktualisierte Funktion Q) in dem aktuellen Zustand aktualisiert. Die Lerneinheit 26 aktualisiert wiederholt die die Aktion-Wert-Tabelle durch Wiederholen der Schritte SA01 bis SA07 und fährt mit dem Erlernen der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts fort.
4 veranschaulicht eine Ausgestaltung, bei der die Lerneinheit 26, die Überwachtes Lernen als ein anderes Beispiel des Lernalgorithmus ausführt, als ein anderer Aspekt der in 1 veranschaulichten Reinigungsprozess-Optimierungsvorrichtung 10 einbezogen ist. Das Überwachte Lernen ist eine Technik zum Erlernen eines Korrelationsmodells (der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts in der Maschinenlernvorrichtung 20 der vorliegenden Anmeldung), um eine erforderliche Ausgabe für eine neue Eingabe mithilfe einer großen Menge im Voraus gegebener bekannter Datensätze (als Lehrdaten bezeichnet) einer Eingabe und einer dieser entsprechenden Ausgabe durch Erkennen eines Merkmals zu schätzen, das eine Korrelation zwischen der Eingabe und der Ausgabe aus den Lehrdaten impliziert, was sich von dem vorstehend beschriebenen Verstärkenden Lernen unterscheidet, bei dem mit dem Lernen in dem Zustand begonnen wird, in dem die Beziehung zwischen der Eingabe und der Ausgabe unbekannt ist.
Bei der in die in 4 veranschaulichte Reinigungsprozess-Optimierungsvorrichtung 10 einbezogene Maschinenlernvorrichtung 20 umfasst die Lerneinheit 26: eine Fehlerberechnungseinheit 32, die einen Fehler E zwischen einem Korrelationsmodell M zum Ableiten der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts aus der Zustandsvariablen S und den Bestimmungsdaten D und einem Korrelationsmerkmal, das aus im Voraus erstellten Lehrdaten T erkannt wird, berechnet; und eine Modellaktualisierungseinheit 34, die das Korrelationsmodell M aktualisiert, um den Fehler E zu verkleinern. Die Lerneinheit 26 erlernt die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts, während die Modellaktualisierungseinheit 34 ein Aktualisieren des Korrelationsmodells M wiederholt.
Ein Anfangswert des Korrelationsmodells M wird zum Beispiel durch einfaches Ausdrücken der Korrelation zwischen der Zustandsvariablen S sowie den Bestimmungsdaten D und der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts festgelegt (zum Beispiel in einer Linearfunktion), und wird an die Lerneinheit 26 vor dem Beginn des Überwachten Lernens übergeben. Die Lehrdaten T werden zum Beispiel unter Verwendung von Erfahrungswerten (bekannte Datensätze der Verschmutzungszustände des zu reinigenden Objekts und der Reinigungsbedingungen beim Reinigen des zu reinigenden Objekts) ausgestaltet, gesammelt durch Aufzeichnen von Reinigungsbedingungen, über die in der Vergangenheit beim Reinigen des zu reinigenden Objekts von einer Fachkraft entschieden wurde, und werden an die Lerneinheit 26 vor dem Beginn des Überwachten Lernens übergeben. Die Fehlerberechnungseinheit 32 erkennt das Korrelationsmerkmal, das die Korrelation zwischen dem Verschmutzungsgrad des zu reinigenden Objekts und der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts impliziert, aus der großen Menge an Lehrdaten T, die an die Lerneinheit 26 übergeben wurden, und erlangt den Fehler E zwischen dem Korrelationsmerkmal und dem Korrelationsmodell M, das der Zustandsvariablen S und den Bestimmungsdaten D in dem aktuellen Zustand entspricht. Die Modellaktualisierungseinheit 34 aktualisiert das Korrelationsmodell M in einer Richtung einer Verkleinerung des Fehlers E, zum Beispiel gemäß einer vorgegebenen Aktualisierungsregel.
In dem nächsten Lernzyklus verwendet die Fehlerberechnungseinheit 32 die Zustandsvariable S und die Bestimmungsdaten D, die sich durch Testen eines Montageprozesses geändert haben, gemäß dem aktualisierten Korrelationsmodell M, um einen Fehler E zu erlangen, der das Korrelationsmodell M betrifft, das dieser geänderten Zustandsvariablen S und diesen geänderten Bestimmungsdaten D entspricht, und die Modellaktualisierungseinheit 34 aktualisiert das Korrelationsmodell M nochmals. Auf diese Weise wird die Korrelation zwischen dem aktuellen Zustand der Umgebung (dem Verschmutzungszustand des zu reinigenden Objekts), die unbekannt war, und der Aktion (Bestimmen der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts) für diesen aktuellen Zustand graduell ersichtlich. Das heißt, die Beziehung zwischen dem Verschmutzungszustand des zu reinigenden Objekts vor einem Reinigen und der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts kommt durch Aktualisieren des Korrelationsmodells M graduell der optimalen Lösung nahe.
Übrigens ist es auch möglich, die Maschinenlernvorrichtung 20, die in die Reinigungsprozess-Optimierungsvorrichtung 10 einbezogen ist, derart auszugestalten, dass die Lerneinheit 26 Überwachtes Lernen in einer anfänglichen Lernphase ausführt, und die Lerneinheit 26 Verstärkendes Lernen mit einer Reinigungsbedingung beim Reinigen des zu reinigenden Objekts ausführt, erlangt durch das Überwachte Lernen als ein Anfangswert in einer Phase, in der das Lernen in einem bestimmten Ausmaß Fortschritte gemacht hat. Da der Anfangswert bei dem Verstärkenden Lernen ein gewisses Niveau von Zuverlässigkeit aufweist, ist es möglich, die optimale Lösung relativ umgehend zu erreichen.
Zum Beispiel ist es möglich, ein neuronales Netzwerk anstelle des Q-Lernens zu der Zeit einer Durchführung des vorstehend beschriebenen Verstärkenden Lernens oder Überwachten Lernens zu verwenden. 5A veranschaulicht schematisch ein Modell eines Neurons. 5B veranschaulicht schematisch ein Modell eines dreischichtigen neuronalen Netzwerks, das durch Kombinieren der in 5A veranschaulichten Neuronen gebildet wird. Das neuronale Netzwerk kann zum Beispiel durch eine Rechenvorrichtung, eine Speichervorrichtung und dergleichen gebildet werden, welche die Modelle von Neuronen imitieren.
Das in 5A veranschaulichte Neuron gibt ein Ergebnis y für eine Mehrzahl von Eingaben x aus (hier als ein Beispiel Eingaben x₁ bis x₃). Jede der Eingaben x₁ bis x₃ wird mit einer Gewichtung w (w₁ bis w₃) multipliziert, die dieser Eingabe x entspricht. Dadurch gibt das Neuron die Ausgabe y aus, die durch die folgende Formel 2 ausgedrückt wird. In Formel 2 sind die Eingabe x, die Ausgabe y und die Gewichtung w alle Vektoren. Des Weiteren ist θ ein Bias, und f_k ist eine Aktivierungsfunktion. $y = f_{k} (\sum_{i = 1}^{n} x_{i} w_{i} - θ)$
In dem in 5B veranschaulichten dreischichtigen neuronalen Netzwerk wird die Mehrzahl von Eingaben x (hier als ein Beispiel Eingaben x1 bis x3) von der linken Seite aus eingegeben, und die Ergebnisse y (hier als ein Beispiel Ergebnisse y1 bis y3) werden von der rechten Seite aus eingegeben. In dem veranschaulichten Beispiel wird jede der Eingaben x1, x2 und x3 mit einer entsprechenden Gewichtung (insgesamt als w1 bezeichnet) multipliziert, und alle einzelnen Eingaben x1, x2 und x3 werden in drei Neuronen N11, N12 und N13 eingegeben.
In 5B sind Ausgaben der jeweiligen Neuronen N11 bis N13 insgesamt als z1 bezeichnet. Hier kann z1 als ein Merkmalsvektor betrachtet werden, der durch Extrahieren eines Merkmalsbetrags eines Eingangsvektors erlangt wird. In dem veranschaulichten Beispiel wird jeder der Merkmalsvektoren z1 mit einer entsprechenden Gewichtung (insgesamt als W2 bezeichnet) multipliziert, und alle einzelnen Merkmalsvektoren z1 werden in zwei Neuronen N21 und N22 eingegeben. Der Merkmalsvektor zl stellt ein Merkmal zwischen der Gewichtung W1 und der Gewichtung W2 dar.
In 5B sind Ausgaben der jeweiligen Neuronen N21 bis N22 insgesamt als z2 bezeichnet. Hier kann z2 als ein Merkmalsvektor betrachtet werden, der durch Extrahieren eines Merkmalsbetrags des Merkmalsvektors z1 erlangt wird. In dem veranschaulichten Beispiel wird jeder der Merkmalsvektoren z2 mit einer entsprechenden Gewichtung (insgesamt als W3 bezeichnet) multipliziert, und alle einzelnen Merkmalsvektoren z2 werden in drei Neuronen N31, N32 und N33 eingegeben. Der Merkmalsvektor z2 stellt ein Merkmal zwischen der Gewichtung W2 und der Gewichtung W3 dar. Schließlich geben die Neuronen N31 bis N33 jeweils das Ergebnis yl bis y3 aus.
Bei der Maschinenlernvorrichtung 20 der Reinigungsprozess-Optimierungsvorrichtung 10 führt die Lerneinheit 26 die Berechnung der mehrschichtigen Struktur gemäß dem vorstehend beschriebenen neuronalen Netzwerk mit der Zustandsvariablen S und den Bestimmungsdaten D als Eingaben x durch, sodass es möglich ist, die Reinigungsbedingung (Ergebnis y) zum Reinigen des zu reinigenden Objekts auszugeben. Übrigens umfasst ein Betriebsmodus des neuronalen Netzwerks einen Lernmodus und einen Wertvorhersagemodus. Zum Beispiel ist es möglich, eine Gewichtung W unter Verwendung eines Lerndatensatzes in dem Lernmodus zu erlernen, und einen Wert einer Aktion in dem Wertvorhersagemodus unter Verwendung der erlernten Gewichtung W zu bestimmen. Übrigens ist es ebenfalls möglich, eine Erkennung, Klassifizierung, Folgerung oder dergleichen in dem Wertvorhersagemodus durchzuführen.
Die vorstehend beschriebene Ausgestaltung der Reinigungsprozess-Optimierungsvorrichtung 10 kann als ein Maschinenlernverfahren (oder Software) beschrieben werden, das durch eine CPU eines Computers auszuführen ist. Dies Maschinenlernverfahren ist ein Maschinenlernverfahren zum Lernen einer Reinigungsbedingung beim Reinigen eines zu reinigenden Objekts, das Verfahren, dass bewirkt, dass eine CPU eines Computers ausführt: einen Schritt eines Beobachtens der Reinigungsbedingungsdaten S1, welche die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts angeben, und der Verschmutzungszustandsdaten S2, die einen Verschmutzungszustand des zu reinigenden Objekts als die Zustandsvariable S angeben, die einen aktuellen Umgebungszustand darstellt, gemäß dem ein Reinigen des zu reinigenden Objekts durchgeführt wird; einen Schritt eines Erfassens der Bestimmungsdaten D, die das Angemessenheitsbestimmungsergebnis hinsichtlich des Verschmutzungszustands des zu reinigenden Objekts nach einer Reinigung angeben; und einen Schritt eines Erlernens der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts in Verbindung mit den Verschmutzungszustandsdaten S2 unter Verwendung der Zustandsvariablen S und der Bestimmungsdaten D.
6 veranschaulicht eine Reinigungsprozess-Optimierungsvorrichtung 40 gemäß einer zweiten Ausführungsform. Die Reinigungsprozess-Optimierungsvorrichtung 40 umfasst eine Maschinenlernvorrichtung 50 und eine Zustandsdaten-Erfassungseinheit 42, welche die Reinigungsbedingungsdaten S1 und die Verschmutzungszustandsdaten S2 der Zustandsvariablen S, beobachtet von der Zustandsbeobachtungseinheit 22, als Zustandsdaten S0 erfasst. Die Zustandsdaten S0, die von der Zustandsdaten-Erfassungseinheit 42 erfasst werden, können auch Typeninformation S3 umfassen. Die Zustandsdaten-Erfassungseinheit 42 kann die Zustandsdaten S0 von der vorstehend beschriebenen an der Maschine angebrachten ersten Messvorrichtung oder aus einer geeigneten Dateneingabe eines Arbeiters erhalten.
Die Maschinenlernvorrichtung 50, welche in die Reinigungsprozess-Optimierungsvorrichtung 40 einbezogen ist, umfasst Software (einen Rechenalgorithmus oder dergleichen) und Hardware (eine CPU eines Computers oder dergleichen), die derart ausgestaltet sind, dass sie eine erlernte Reinigungsbedingung beim Reinigen eines zu reinigenden Objekts anzeigen oder die erlernte Reinigungsbedingung als einen Befehl an eine Industriemaschine (nicht veranschaulicht) ausgeben, das zu reinigende Objekt zu reinigen, und auch Software (einen Lernalgorithmus oder dergleichen) und Hardware (eine CPU eines Computers oder dergleichen), die für ein Selbstlernen der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts mithilfe von Maschinenlernen ausgestaltet sind. Die Maschinenlernvorrichtung 50, welche in die Reinigungsprozess-Optimierungsvorrichtung 40 einbezogen ist, kann auch eine Ausgestaltung aufweisen, bei der eine gemeinsame CPU die gesamte Software wie beispielsweise den Lernalgorithmus und den Rechenalgorithmus ausführt.
Eine Entscheidungseinheit 52 kann zum Beispiel als eine Funktion der CPU des Computers ausgestaltet werden. Alternativ kann die Entscheidungseinheit 52 zum Beispiel als Software ausgestaltet sein, um zu bewirken, dass die CPU des Computers arbeitet. Die Entscheidungseinheit 52 zeigt die von der Lerneinheit 26 erlernte Reinigungsbedingung beim Reinigen des zu reinigenden Objekts dem Arbeiter an oder erzeugt einen Befehlswert C in Bezug auf eine Industriemaschine, die eine Reinigung auf Grundlage der von der Lerneinheit 26 erlernten Reinigungsbedingung beim Reinigen des zu reinigenden Objekts durchführt, und gibt den erzeugten Befehlswert C aus. Wenn die Entscheidungseinheit 52 die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts anzeigt, und die Reinigung des zu reinigenden Objekts von dem Arbeiter auf Grundlage der angezeigten Reinigungsbedingung durchgeführt wird, und wenn die Entscheidungseinheit 52 den Befehlswert C an die Industriemaschine ausgibt, ändert sich ein Umgebungszustand (Reinigungsbedingungsdaten S1) dementsprechend.
Die Zustandsbeobachtungseinheit 22 beobachtet die Zustandsvariable S unter Einschluss der Reinigungsbedingungsdaten S1, die sich nach dem Anzeigen oder Ausgeben der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts an die Umgebung durch die Entscheidungseinheit 52 geändert haben, in dem nächsten Lernzyklus. Die Lerneinheit 26 erlernt die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts, zum Beispiel durch Aktualisieren der Wertfunktion Q (das heißt der Aktion-Wert-Tabelle) unter Verwendung der geänderten Zustandsvariablen S. Die Entscheidungseinheit 52 zeigt die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts in Übereinstimmung mit der Zustandsvariablen S gemäß der erlernten Reinigungsbedingung beim Reinigen des zu reinigenden Objekts an oder gibt den Befehlswert C an die Industriemaschine aus. Durch Wiederholen dieses Zyklus fährt die Maschinenlernvorrichtung 50 mit dem Erlernen der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts fort, und verbessert graduell die Zuverlässigkeit der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts, die von ihr selbst bestimmt wird.
Die in die Reinigungsprozess-Optimierungsvorrichtung 40 einbezogene Maschinenlernvorrichtung 50, welche die vorstehende Ausgestaltung aufweist, erlangt dieselben Wirkungen wie diejenigen der vorstehend beschriebenen Maschinenlernvorrichtung 20. Insbesondere kann die Maschinenlernvorrichtung 50 den Zustand der Umgebung in Abhängigkeit von der Ausgabe der Entscheidungseinheit 52 ändern. Andererseits ist es bei der Maschinenlernvorrichtung 20 möglich, eine Funktion, die der Entscheidungseinheit entspricht, derart ausgestaltet, dass sie das Lernergebnis der Lerneinheit 26 auf die Umgebung reflektiert, von einer externen Vorrichtung (zum Beispiel einer Steuervorrichtung einer Industriemaschine) zu erlangen.
7 veranschaulicht ein Reinigungssystem 70 gemäß einer Ausführungsform, das eine Industriemaschine 60 umfasst. Das Reinigungssystem 70 umfasst eine Mehrzahl von Industriemaschinen 60 und 60', welche dieselbe Maschinenausgestaltung aufweisen, sowie ein Netzwerk 72, das diese Industriemaschinen 60 und 60' miteinander verbindet, und mindestens eine aus der Mehrzahl von Industriemaschinen 60 und 60' ist als eine Industriemaschine 60 ausgestaltet, welche die vorstehend beschriebene Reinigungsprozess-Optimierungsvorrichtung 40 umfasst. Das Reinigungssystem 70 kann auch eine Industriemaschine 60' umfassen, welche nicht die Reinigungsprozess-Optimierungsvorrichtung 40 aufweist. Die Industriemaschinen 60 und 60' weisen die allgemeine Ausgestaltung auf, die zum Reinigen eines zu reinigenden Objekts erforderlich ist.
Bei dem Reinigungssystem 70, das die vorstehend beschriebene Ausgestaltung aufweist, kann die Industriemaschine 60, welche die Reinigungsprozess-Optimierungsvorrichtung 40 unter der Mehrzahl von Industriemaschinen 60 und 60' umfasst, automatisch und genau eine Reinigungsbedingung beim Reinigen des zu reinigenden Objekts in Übereinstimmung mit einem Verschmutzungszustand des zu reinigenden Objekts ohne Berechnung oder grobe Schätzung durch Verwenden eines Lernergebnisses der Lerneinheit 26 erlangen. Überdies kann das Reinigungssystem 70 derart ausgestaltet werden, dass die Reinigungsprozess-Optimierungsvorrichtung 40 mindestens einer Industriemaschine 60 die Reinigungsbedingung für ein zu reinigendes Objekt, die allen Industriemaschinen 60 und 60' gemeinsam ist, auf Grundlage der Zustandsvariablen S und der Bestimmungsdaten D erlernt, die für jede aus einer Mehrzahl der anderen Industriemaschinen 60 und 60' erlangt werden, und ein derartiges erlerntes Ergebnis wird unter allen Industriemaschinen 60 und 60' geteilt. Daher ist es möglich, die Geschwindigkeit und Zuverlässigkeit des Lernens der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts zu verbessern, indem unterschiedlichere Datensätze (darunter die Zustandsvariable S und die Bestimmungsdaten D) als Eingaben gemäß dem Reinigungssystem 70 verwendet werden.
8 veranschaulicht ein Reinigungssystem 70' gemäß einer anderen Ausführungsform, das eine Industriemaschine 60' umfasst. Das Reinigungssystem 70' umfasst eine Maschinenlernvorrichtung 50 (oder 20), eine Mehrzahl von Industriemaschinen 60', welche dieselbe Maschinenausgestaltung aufweisen, sowie ein Netzwerk 72, das diese Industriemaschinen 60' und die Maschinenlernvorrichtung 50 (oder 20) miteinander verbindet.
Bei dem Reinigungssystem 70, das die vorstehend beschriebene Ausgestaltung aufweist, kann die Maschinenlernvorrichtung 50 (oder 20) eine Reinigungsbedingung beim Reinigen des zu reinigenden Objekts erlernen, die allen Industriemaschinen 60' gemeinsam ist, auf Grundlage der Zustandsvariablen S und der Bestimmungsdaten D, die für jede aus der Mehrzahl von Industriemaschinen 60' erlangt werden, und automatisch und genau die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts in Übereinstimmung mit einem Verschmutzungszustand des zu reinigenden Objekts ohne Berechnung oder grobe Schätzung durch Verwenden eines derartigen Lernergebnisses erlangen.
Das Reinigungssystem 70' kann eine Ausgestaltung aufweisen, bei der die Maschinenlernvorrichtung 50 (oder 20) in einem in dem Netzwerk 72 erstellten Cloudserver vorhanden ist. Gemäß dieser Ausgestaltung ist es möglich, die erforderliche Anzahl Industriemaschinen 60' wenn erforderlich mit der Maschinenlernvorrichtung 50 (oder 20) zu verbinden, unabhängig von einem Standort, an dem sich jede aus der Mehrzahl von Industriemaschinen 60' befindet, oder von einem Zeitablauf.
Ein in dem Reinigungssystem 70 oder 70' beschäftigter Arbeiter, kann eine Bestimmung darüber vornehmen, ob ein Grad an Leistung hinsichtlich eines Erlernens der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts (das heißt, die Zuverlässigkeit der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts), der von der Maschinenlernvorrichtung 50 (oder 20) erlangt wurde, ein erforderliches Niveau zu einem angemessenen Zeitpunkt nach dem Start eines Lernens durch die Maschinenlernvorrichtung 50 (oder 20) erreicht.
Obwohl die Ausführungsformen der vorliegenden Erfindung wie vorstehend beschrieben wurden, ist die vorliegende Erfindung nicht nur auf die vorstehend beschriebenen Ausführungsformen beschränkt und kann durch Anwenden geeigneter Abwandlungen in verschiedenen Aspekten realisiert werden.
Zum Beispiel können die von der Maschinenlernvorrichtung 20 oder 50 ausgeführten Lernalgorithmen, der von der Maschinenlernvorrichtung 50 ausgeführte Rechenalgorithmus, ein von der Reinigungsprozess-Optimierungsvorrichtung 10 oder 40 ausgeführter Steueralgorithmus und dergleichen verschiedene Algorithmen übernehmen, ohne auf die vorstehend beschriebenen beschränkt zu sein.
Obwohl die Ausführungsformen der vorliegenden Erfindung wie vorstehend beschrieben wurden, ist die vorliegende Erfindung nicht auf die vorstehend beschriebenen Ausführungsformen beschränkt und kann durch Anwenden angemessener Abwandlungen in verschiedenen Aspekten realisiert werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2016168649 [0002]
JP 2008156715 [0003]

Claims

Reinigungsprozess-Optimierungsvorrichtung, die beim Durchführen einer Reinigung eines zu reinigenden Objekts eine Reinigungsbedingung optimiert, wobei die Reinigungsprozess-Optimierungsvorrichtung umfasst eine Maschinenlernvorrichtung, die beim Reinigen des zu reinigenden Objekts die Reinigungsbedingung erlernt, wobei die Maschinenlernvorrichtung umfasst: eine Zustandsbeobachtungseinheit, die Reinigungsbedingungsdaten, welche die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts angeben, und Verschmutzungszustandsdaten, die einen Verschmutzungszustand des zu reinigenden Objekts angeben, gemessen vor einem Reinigen des zu reinigenden Objekts, als eine Zustandsvariable beobachtet, die einen aktuellen Umgebungszustand darstellt; eine Bestimmungsdaten-Erfassungseinheit, die Bestimmungsdaten erfasst, die ein Angemessenheitsbestimmungsergebnis hinsichtlich einer Genauigkeit eines Verschmutzungszustands des zu reinigenden Objekts nach einer Reinigung angeben; und eine Lerneinheit, welche die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts erlernt, in Verbindung mit den Verschmutzungszustandsdaten unter Verwendung der Zustandsvariablen und der Bestimmungsdaten.
Reinigungsprozess-Optimierungsvorrichtung nach Anspruch 1, wobei die Zustandsbeobachtungseinheit ferner Typeninformation zum Erkennen eines Typs des zu reinigenden Objekts als die Zustandsvariable beobachtet, und die Lerneinheit die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts erlernt, in Verbindung sowohl mit den Verschmutzungszustandsdaten als auch der Typeninformation.
Reinigungsprozess-Optimierungsvorrichtung nach Anspruch 1 oder 2, wobei die Lerneinheit ferner umfasst: eine Belohnungsberechnungseinheit, die eine das Angemessenheitsbestimmungsergebnis betreffende Belohnung erlangt; und eine Wertfunktions-Aktualisierungseinheit, die beim Reinigen des zu reinigenden Objekts unter Verwendung der Belohnung eine Funktion aktualisiert, die einen Wert der Reinigungsbedingung darstellt.
Reinigungsprozess-Optimierungsvorrichtung nach Anspruch 1 oder 2, wobei die Lerneinheit ferner umfasst: eine Fehlerberechnungseinheit, die einen Fehler zwischen einem Korrelationsmodell zum Ableiten der Reinigungsbedingung beim Reinigen des zu reinigenden Objekts aus der Zustandsvariablen und den Bestimmungsdaten und einem Korrelationsmerkmal berechnet, das aus im Voraus erstellten Lehrdaten erkannt wird; und eine Modellaktualisierungseinheit, die das Korrelationsmodell aktualisiert, um den Fehler zu verkleinern.
Reinigungsprozess-Optimierungsvorrichtung nach einem der Ansprüche 1 bis 4, wobei die Lerneinheit die Zustandsvariable und die Bestimmungsdaten in einer mehrschichtigen Struktur berechnet.
Reinigungsprozess-Optimierungsvorrichtung nach einem der Ansprüche 1 bis 5, die ferner umfasst: eine Entscheidungseinheit, welche die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts auf Grundlage eines von der Lerneinheit erlangten Lernergebnisses anzeigt oder ausgibt.
Reinigungsprozess-Optimierungsvorrichtung nach einem der Ansprüche 1 bis 6, wobei die Lerneinheit die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts in jeder aus einer Mehrzahl von Industriemaschinen unter Verwendung der Zustandsvariablen und der Bestimmungsdaten erlernt, die für jede aus der Mehrzahl von Industriemaschinen erlangt werden.
Maschinenlernvorrichtung, die eine Reinigungsbedingung beim Durchführen einer Reinigung eines zu reinigenden Objekts erlernt, wobei die Maschinenlernvorrichtung umfasst: eine Zustandsbeobachtungseinheit, die Reinigungsbedingungsdaten, welche die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts angeben, und Verschmutzungszustandsdaten, die einen Verschmutzungszustand des zu reinigenden Objekts angeben, gemessen vor einem Reinigen des zu reinigenden Objekts, als eine Zustandsvariable beobachtet, die einen aktuellen Umgebungszustand darstellt; eine Bestimmungsdaten-Erfassungseinheit, die Bestimmungsdaten erfasst, die ein Angemessenheitsbestimmungsergebnis hinsichtlich einer Genauigkeit eines Verschmutzungszustands des zu reinigenden Objekts nach einer Reinigung angeben; und eine Lerneinheit, welche die Reinigungsbedingung beim Reinigen des zu reinigenden Objekts erlernt, in Verbindung mit den Verschmutzungszustandsdaten unter Verwendung der Zustandsvariablen und der Bestimmungsdaten.