DE112018001587T5

DE112018001587T5 - Verfahren zur schätzung von operationen eines arbeitsfahrzeugs, system, verfahren zur erzeugung eines trainierten klassifikationsmodells, trainingsdaten und verfahren zur erzeugung von trainingsdaten

Info

Publication number: DE112018001587T5
Application number: DE112018001587.4T
Authority: DE
Inventors: Masanori Aizawa
Original assignee: Komatsu Ltd
Current assignee: Komatsu Ltd
Priority date: 2017-11-10
Filing date: 2018-10-26
Publication date: 2019-12-24
Also published as: JP7345236B2; US20200050890A1; US11556739B2; WO2019093152A1; CN110462628A; CN110462628B; JP2019087200A; KR20190120322A

Abstract

Verfahren nach der vorliegenden Erfindung ist ein von einem Computer ausgeführtes Verfahren und enthält die folgenden Prozesse. Ein erster Prozess ist das Erhalten von Bewegungsdaten. Die Bewegungsdaten sind Daten, die aus mehreren Bildern erzeugt werden, die ein in Zeitreihen in Betrieb befindliches Arbeitsfahrzeug zeigen, und zeigen eine Bewegungsänderung des Arbeitsfahrzeugs an. Ein zweiter Prozess ist das Bestimmen einer Operationsklassifizierung des Arbeitsfahrzeugs aus den Bewegungsdaten durch Durchführen einer Bildklassifizierung unter Verwendung eines trainierten Klassifizierungsmodells.

Description

TECHNISCHER BEREICH
Die vorliegende Erfindung betrifft ein Verfahren zum Schätzen einer Operation eines Arbeitsfahrzeugs unter Verwendung künstlicher Intelligenz, ein System, ein Verfahren zum Erzeugen eines trainierten Klassifizierungsmodells, Trainingsdaten und ein Verfahren zum Erzeugen von Trainingsdaten.
STAND DER TECHNIK
Herkömmlicherweise ist eine Technik zum Schätzen einer von einem Arbeitsfahrzeug unter Verwendung eines Computers ausgeführten Operation bekannt. Beispielsweise führt ein Hydraulikbagger Vorgänge wie Ausheben, Drehen oder Entladen aus. In Patentdokument 1 bestimmt eine Steuervorrichtung diese Operationen eines Hydraulikbaggers basierend auf Erfassungswerten von einem Sensor, der in dem Hydraulikbagger vorgesehen ist. Beispielsweise enthält ein Hydraulikbagger einen Drehzahlsensor, einen Drucksensor und mehrere Winkelsensoren. Der Drehzahlsensor erfasst die Drehzahl des Motors. Der Drucksensor erfasst den Förderdruck der Hydraulikpumpe. Die mehreren Winkelsensoren erfassen einen Auslegerwinkel, einen Armwinkel und einen Schaufelwinkel. Die Steuervorrichtung bestimmt die vom Bagger ausgeführte Operation auf der Grundlage der Erfassungswerte dieser Sensoren.
ZITATIONSLISTE
Patentliteratur
[Patentdokument 1] Japanische offengelegte Patentanmeldungsveröffentlichung Nr. 2016-103301
ZUSAMMENFASSUNG DER ERFINDUNG
Technische Probleme
Mit der vorstehenden Technik ist es jedoch nicht möglich, die Operation eines Arbeitsfahrzeugs zu bestimmen, das keinen Sensor enthält. Auch wenn ein Arbeitsfahrzeug mit einem Sensor ausgestattet ist, kann ein Computer die vom Sensor erfasste(n) Information(en) nicht vom Arbeitsfahrzeug erhalten, es sei denn, das Arbeitsfahrzeug enthält eine Kommunikationsvorrichtung mit dem Computer. Dementsprechend kann in diesem Fall die Operation des Arbeitsfahrzeugs nicht durch den Computer bestimmt werden.
Wenn ferner die Operation jedes Arbeitsfahrzeugs bestimmt wird, um mehrere der am Arbeitsort angeordneten Arbeitsfahrzeuge zu verwalten, sind nicht alle Arbeitsfahrzeuge mit der Kommunikationsvorrichtung mit einem Sensor oder einem Computer versehen. Daher ist es nicht einfach, die Operation jedes Arbeitsfahrzeugs zu bestimmen, um mehrere der am Arbeitsort angeordneten Arbeitsfahrzeuge zu verwalten.
Andererseits wurde in den letzten Jahren eine Technik erforscht, bei der ein Computer bestimmt, welche Art von Operation durchgeführt wird, indem unter Verwendung künstlicher Intelligenz ein Video analysiert wird, das durch Erfassen der Bewegung einer Person oder eines Objekts erhalten wird. Beispielsweise wurde ein rekurrentes neuronales Netzwerk (RNN) oder dergleichen als Modell für künstliche Intelligenz für den Umgang mit Videos untersucht. Wenn es möglich ist, das aufgenommene Video der Operation des Arbeitsfahrzeugs unter Verwendung solcher Techniken künstlicher Intelligenz zu analysieren, ist es möglich, die Operation des Arbeitsfahrzeugs durch einen Computer leicht zu bestimmen. Es ist jedoch immer noch schwierig, ein Modell für künstliche Intelligenz, das, wie vorstehend beschrieben, Videos direkt verarbeitet, aufgrund von Problemen wie Erkennungsgenauigkeit in die Praxis umzusetzen.
Eine Aufgabe der vorliegenden Erfindung ist es, die Operation eines Arbeitsfahrzeugs unter Verwendung künstlicher Intelligenz leicht und genau zu bestimmen.
Lösung der Probleme
Ein erster Aspekt ist ein von einem Computer ausgeführtes Verfahren und enthält die folgende Verarbeitung. Ein erster Prozess ist das Erhalten von Bewegungsdaten. Die Bewegungsdaten sind Daten, die eine Bewegungsänderung des Arbeitsfahrzeugs angeben, die aus mehreren Bildern erzeugt wurden, die in Zeitserien ein in Betrieb befindliches Arbeitsfahrzeug zeigen. Ein zweiter Prozess ist das Bestimmen einer Operationsklassifizierung des Arbeitsfahrzeugs aus den Bewegungsdaten durch Ausführen einer Bildklassifizierung unter Verwendung eines trainierten Klassifizierungsmodells.
Ein zweiter Aspekt ist ein System, das ein trainiertes Klassifizierungsmodell und einen Prozessor enthält. Der Prozessor ist programmiert, um die folgende Verarbeitung durchzuführen. Der Prozessor erhält Bewegungsdaten. Die Bewegungsdaten sind Daten, die eine Bewegungsänderung des Arbeitsfahrzeugs angeben, die aus mehreren Bildern erzeugt wurden, die das in Betrieb befindliche Arbeitsfahrzeug in Zeitreihen zeigen. Der Prozessor bestimmt eine Operationsklassifizierung des Arbeitsfahrzeugs aus den Bewegungsdaten durch Ausführen einer Bildklassifizierung unter Verwendung des Klassifizierungsmodells.
Ein dritter Aspekt ist ein Verfahren zum Erzeugen eines trainierten Klassifizierungsmodells, das die folgenden Prozesse enthält. Ein erster Prozess ist das Erhalten von Trainingsdaten. Die Trainingsdaten enthalten Bewegungsdaten und eine Operationsklassifizierung eines Arbeitsfahrzeugs, das den Bewegungsdaten zugeordnet ist. Die Bewegungsdaten sind Daten, die eine Bewegungsänderung des Arbeitsfahrzeugs angeben, die aus mehreren Bildern erzeugt wurden, die das in Betrieb befindliche Arbeitsfahrzeug in Zeitreihen zeigen. Ein zweiter Prozess ist das Trainieren des Klassifizierungsmodells aus den Trainingsdaten.
Ein vierter Aspekt sind Trainingsdaten zum Trainieren eines Klassifizierungsmodells und enthalten Bewegungsdaten und eine Operationsklassifizierung des Arbeitsfahrzeugs, die den Bewegungsdaten zugeordnet ist. Die Bewegungsdaten sind eine Bewegungsänderung des Arbeitsfahrzeugs angebende Daten, die aus mehreren Bildern, die das in Betrieb befindliche Arbeitsfahrzeug in Zeitreihen zeigen, erzeugt wurden.
Ein fünfter Aspekt ist ein Verfahren zum Erzeugen von Trainingsdaten zum Trainieren eines Klassifizierungsmodells und enthält die folgenden Prozesse. Ein erster Prozess ist das Erhalten mehrerer Bilder, die ein in Betrieb befindliches Arbeitsfahrzeug in Zeitreihen zeigen. Ein zweiter Prozess ist Erzeugen von Bewegungsdaten aus den mehreren Bildern, die eine Bewegungsänderung des Arbeitsfahrzeugs angeben. Ein dritter Prozess ist das Erhalten einer Operationsklassifizierung des Arbeitsfahrzeugs, die den Bewegungsdaten zugeordnet ist.
Ein sechster Aspekt ist ein Verfahren zum Erzeugen eines trainierten Klassifizierungsmodells und enthält die folgende Verarbeitung. Ein erster Prozess ist das Erhalten von Bewegungsdaten. Die Bewegungsdaten sind Daten, die eine Bewegungsänderung eines Arbeitsfahrzeugs angeben, die aus mehreren Bildern erzeugt wurden, die das in Betrieb befindliche Arbeitsfahrzeug in Zeitreihen zeigen. Ein zweiter Prozess ist das Bestimmen einer Operationsklassifizierung des Arbeitsfahrzeugs aus den Bewegungsdaten durch Ausführen einer Bildklassifizierung unter Verwendung eines trainierten ersten Klassifizierungsmodells. Ein dritter Prozess trainiert ein zweites Klassifizierungsmodell durch Trainingsdaten, die die Bewegungsdaten und die bestimmte Operationsklassifizierung des Arbeitsfahrzeugs enthalten.
Vorteilhafte Wirkungen der Erfindung
In der vorliegenden Erfindung wird eine Operationsklassifizierung eines Arbeitsfahrzeugs aus Bewegungsdaten bestimmt, die aus mehreren Bildern erzeugt werden. Daher kann eine Operation des Arbeitsfahrzeugs unter Verwendung eines Klassifizierungsmodells für künstliche Intelligenz geschätzt werden, das zur Klassifizierung von Standbildern geeignet ist. Dadurch kann die Operation des Arbeitsfahrzeugs unter Verwendung künstlicher Intelligenz leicht und genau bestimmt werden.
Figurenliste

1 ist ein schematisches Diagramm, das ein Klassifizierungssystem nach einer Ausführungsform zeigt.
2 ist ein schematisches Diagramm, das eine Konfiguration eines Computers des Klassifizierungssystems zeigt.
3 ist ein schematisches Diagramm, das eine Konfiguration des auf einem Computer montierten Klassifizierungssystems zeigt.
4 ist ein schematisches Diagramm, das eine Konfiguration eines neuronalen Netzwerks zeigt.
5 ist ein Ablaufdiagramm, das einen Prozess zum Schätzen einer Operation eines Arbeitsfahrzeugs zeigt.
6 ist ein Diagramm, das ein Beispiel mehrerer Bilder darstellt, die in Videodaten enthalten sind.
7 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes darstellt, das durch Überlagern vom ersten bis dritten Bild erhalten wird, die in den in 6 dargestellten Videodaten enthalten sind.
8 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes zeigt, das durch Überlagern des zweiten bis vierten Bildes erhalten wird, die in den in 6 dargestellten Videodaten enthalten sind.
9 ist ein Diagramm, das ein anderes Beispiel mehrerer Bilder darstellt, die in Videodaten enthalten sind.
10 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes darstellt, das durch Überlagern eines ersten bis dritten Bildes erhalten wird, die in den in 9 dargestellten Videodaten enthalten sind.
11 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes darstellt, das durch Überlagern des zweiten bis vierten Bildes erhalten wird, die in den in 9 dargestellten Videodaten enthalten sind.
12 ist ein Diagramm, das ein anderes Beispiel mehrerer Bilder darstellt, die in Videodaten enthalten sind.
13 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes darstellt, das durch Überlagern des ersten bis dritten Bildes erhalten wird, die in den in 12 dargestellten Videodaten enthalten sind.
14 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes darstellt, das durch Überlagern des zweiten bis vierten Bildes erhalten wird, die in den in 12 dargestellten Videodaten enthalten sind.
15 ist ein Diagramm, das ein Beispiel eines Verfahrens zum Berechnen eines in eine Eingabeschicht eingegebenen Pixelwerts darstellt.
16 ist ein schematisches Diagramm, das eine Konfiguration eines Lernsystems zeigt.
17 ist ein schematisches Diagramm, das eine Konfiguration eines Computers darstellt, in dem ein Lernsystem implementiert ist.
18 ist ein Ablaufdiagramm, das einen Prozess zum Erzeugen von Trainingsdaten zeigt.
19 ist ein Diagramm, das ein Beispiel eines verarbeiteten Bildes darstellt.
20 ist ein Ablaufdiagramm, das einen Prozess zum Trainieren eines Klassifizierungsmodells durch die Trainingsdaten zeigt.
21 ist ein Diagramm, das ein Klassifizierungssystem nach einem modifizierten Beispiel zeigt.
22 ist ein Ablaufdiagramm, das einen Prozess zum Erzeugen eines Destillationsmodells zeigt.
23 ist ein Diagramm, das ein Beispiel von Bewegungsdaten nach einer Modifikation darstellt.
24 ist ein Diagramm, das ein Beispiel eines Berechnungsverfahrens von Bewegungsdaten nach einem modifizierten Beispiel darstellt.

BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
Nachfolgend werden Ausführungsformen unter Bezugnahme auf die Zeichnungen beschrieben. 1 ist ein schematisches Diagramm, das ein Klassifizierungssystem 100 nach der Ausführungsform darstellt. Das Klassifizierungssystem 100 ist ein System zum Schätzen einer von dem Arbeitsfahrzeug 1 ausgeführten Operation. Wie in 1 dargestellt, enthält das Klassifizierungssystem 100 eine Kamera 101 und einen Computer 102.
Die Kamera 101 ist an einer Arbeitsstelle angeordnet, an der das Arbeitsfahrzeug 1 angeordnet ist. Die Kamera 101 nimmt das Arbeitsfahrzeug 1 von außerhalb des Arbeitsfahrzeugs 1 auf und nimmt ein Video des Arbeitsfahrzeugs 1 auf. Der Computer 102 kommuniziert drahtlos oder drahtgebunden mit der Kamera 101. Die Kamera 101 überträgt Videodaten, die das aufgezeichnete Video angeben, an den Computer 102. Der Computer 102 kann die Videodaten von der Kamera 101 über ein Kommunikationsnetzwerk empfangen. Der Computer 102 kann die Videodaten von der Kamera 101 über ein Aufzeichnungsmedium empfangen.
Der Computer 102 kann sich an einem Arbeitsplatz befinden. Alternativ kann sich der Computer 102 in einem von der Arbeitsstelle entfernten Kontrollzentrum befinden. Der Computer 102 kann ausschließlich für das Klassifizierungssystem 100 ausgelegt sein oder kann ein Allzweck-PC (Personal Computer) sein. Der Computer 102 empfängt die Videodaten von der Kamera 101. Der Computer 102 bestimmt die Operationsklassifizierung des Arbeitsfahrzeugs 1 unter Verwendung eines Klassifizierungsmodells für künstliche Intelligenz.
Das Klassifizierungssystem 100 kann mehrere Kameras 101 aufweisen. Die mehreren Kameras 101 können Videos mehrerer Arbeitsfahrzeuge 1 aufnehmen. Der Computer 102 kann Videodaten von jeder der mehreren Kameras 101 empfangen.
2 ist ein schematisches Diagramm, das die Konfiguration des Computers 102 darstellt. Wie in 2 dargestellt, enthält der Computer 102 einen Prozessor 103, eine Speichervorrichtung 104, eine Kommunikationsschnittstelle 105 und eine E/A-Schnittstelle 106. Der Prozessor 103 ist beispielsweise eine CPU (Central Processing Unit). Die Speichervorrichtung 104 enthält ein Medium zum Aufzeichnen einer/von Information(en), wie beispielsweise aufgezeichneten Programmen und Daten, so dass der Prozessor 103 die Information(en) lesen kann. Die Speichervorrichtung 104 enthält einen Systemspeicher, beispielsweise einen RAM (Direktzugriffsspeicher) oder einen ROM (Nur-Lese-Speicher) und eine Hilfsspeichervorrichtung. Die Hilfsspeichervorrichtung kann ein magnetisches Aufzeichnungsmedium, beispielsweise eine Festplatte, ein optisches Aufzeichnungsmedium, beispielsweise eine CD oder eine DVD, oder ein Halbleiterspeicher, beispielsweise ein Flash-Speicher, sein. Die Speichervorrichtung 104 kann in dem Computer 102 eingebaut sein. Die Speichervorrichtung 104 kann ein externes Aufzeichnungsmedium enthalten, das abnehmbar mit dem Computer 102 verbunden ist.
Die Kommunikationsschnittstelle 105 ist beispielsweise ein drahtgebundenes LAN-Modul (lokales Netzwerk) oder ein drahtloses LAN-Modul und ist eine Schnittstelle zum Durchführen einer Kommunikation über ein Kommunikationsnetzwerk. Die E/A-Schnittstelle 106 ist beispielsweise ein USB-Anschluss (Universal Serial Bus) oder dergleichen und ist eine Schnittstelle zum Verbinden mit einer externen Vorrichtung.
Der Computer 102 ist über eine E/A-Schnittstelle 106 mit einer Eingabevorrichtung 107 und einer Ausgabevorrichtung 108 verbunden. Die Eingabevorrichtung 107 ist eine Vorrichtung, die ein Benutzer in den Computer 102 eingeben kann. Die Eingabevorrichtung 107 enthält z.B. eine Zeigevorrichtung, beispielsweise eine Maus oder ein Trackball. Die Eingabevorrichtung 107 kann eine Vorrichtung zur Zeicheneingabe, beispielsweise eine Tastatur, enthalten. Die Ausgabevorrichtung 108 enthält beispielsweise eine Anzeige.
3 ist ein Diagramm, das einen Teil der Konfiguration des Klassifizierungssystems 100 darstellt. Wie in 3 dargestellt, enthält das Klassifizierungssystem 100 ein Bilderzeugungsmodul 110 und ein trainiertes Klassifizierungsmodell 111. Das Bilderzeugungsmodul 110 und das trainierte Klassifizierungsmodell 111 sind in dem Computer 102 implementiert. Das Bilderzeugungsmodul 110 und das trainierte Klassifizierungsmodell 111 können in der Speichervorrichtung 104 des Computers gespeichert sein.
In der vorliegenden Ausführungsform können die Module und Modelle in Hardware, auf Hardware ausführbarer Software, Firmware oder einer Kombination davon implementiert sein. Module und Modelle können Programme, Algorithmen und Daten enthalten, die vom Prozessor ausgeführt werden. Modul- und Modellfunktionen können von einem einzelnen Modul ausgeführt oder auf mehrere Module verteilt werden. Module und Modelle können in mehreren Computern verteilt und angeordnet sein.
Das Bilderzeugungsmodul 110 erzeugt aus den Videodaten D11 des Arbeitsfahrzeugs 1 Bilddaten D12, die ein überlagertes Bild angeben, das später beschrieben wird. Das überlagerte Bild ist ein Bild, das durch Überlagern einer Reihe mehrerer Bilder erhalten wird, die das in Betrieb befindliche Arbeitsfahrzeug 1 in Zeitreihen darstellen. Das „Bild“ bedeutet hier ein Standbild. Die „Reihe von Bildern“ ist nicht auf mehrere Bilder von vollständig fortlaufenden Einzelbildern beschränkt, die in einem Video enthalten sind, sondern enthält mehrere Bilder, die durch Überspringen einer vorbestimmten Anzahl von Einzelbildern erhalten wurden.
Das Klassifizierungsmodell 111 ist ein Modell für künstliche Intelligenz zur Bildklassifizierung. Das Klassifizierungsmodell 111 analysiert das Eingabebild und gibt eine dem Bild entsprechende Klassifizierung aus. Wie später beschrieben wird, führt der Computer 102 die Bildklassifizierung unter Verwendung des Klassifizierungsmodells 111 für künstliche Intelligenz an dem durch die Bilddaten D12 angezeigten Überlagerungsbild aus, wodurch die Operationsklassifizierung des Arbeitsfahrzeugs 1 bestimmt wird. Das Klassifizierungsmodell 111 gibt Ausgabedaten D13 aus, die die bestimmte Operationsklassifizierung angeben.
Das Klassifizierungsmodell 111 enthält das in 4 dargestellte neuronale Netzwerk 120. Zum Beispiel enthält das Klassifizierungsmodell 111 ein tiefgehendes neuronales Netzwerk, wie zum Beispiel ein faltendes neuronales Netzwerk (convolutional neural network, CNN).
Wie in 4 dargestellt, enthält das neuronale Netzwerk 120 eine Eingabeschicht 121, eine Zwischenschicht 122 (versteckte Schicht) und eine Ausgabeschicht 123. Jede Schicht 121, 122, 123 enthält ein oder mehrere Neuronen. Beispielsweise kann die Anzahl von Neuronen in der Eingabeschicht 121 entsprechend der Anzahl von Pixeln in dem überlagerten Bild eingestellt werden. Die Anzahl von Neuronen in der Zwischenschicht 122 kann entsprechend eingestellt werden. Die Ausgabeschicht 123 kann entsprechend der Anzahl der Operationsklassifizierungen des Arbeitsfahrzeugs 1 eingestellt werden.
Die Neuronen in benachbarten Schichten sind miteinander verbunden, und für jede Verbindung wird eine Gewichtung (Verbindungslast) festgelegt. Die Anzahl der verbundenen Neuronen kann entsprechend eingestellt werden. Ein Schwellenwert wird für jedes Neuron festgelegt, und ein Ausgabewert jedes Neurons wird in Abhängigkeit davon bestimmt, ob die Summe der Produkte von Eingabewerten und Gewichtungen für jedes Neuron den Schwellenwert überschreitet oder nicht.
Die Eingabeschicht 121 empfängt Bewegungsdaten, die die Bewegung des Arbeitsfahrzeugs 1 angeben. Die Bewegungsdaten sind Daten, die aus mehreren Bildern erzeugt werden, die das in Betrieb befindliche Arbeitsfahrzeug in Zeitreihen zeigen, und zeigen die Bewegungsänderung des Arbeitsfahrzeugs an. Die Bewegungsdaten werden später beschrieben. Ein Ausgabewert, der die Wahrscheinlichkeit jeder klassifizierten Operation angibt, wird an die Ausgabeschicht 123 ausgegeben. Das Klassifizierungsmodell 111 wurde darauf trainiert, einen Ausgabewert auszugeben, der die Wahrscheinlichkeit jeder klassifizierten Operation angibt, wenn die Bewegungsdaten eingegeben werden. Die trainierten Parameter des Klassifizierungsmodells 111, die durch Lernen erhalten werden, werden in der Speichervorrichtung 104 gespeichert. Die trainierten Parameter enthalten beispielsweise die Anzahl von Schichten des neuronalen Netzwerks 120, die Anzahl von Neuronen in jeder Schicht, die Verbindungsbeziehung zwischen Neuronen, die Verbindungsgewichtung zwischen jedem Neuron und den Schwellenwert jedes Neurons.
Es sei angemerkt, dass die Klassifizierung jeder Operation entsprechend dem Typ des Arbeitsfahrzeugs 1 bestimmt werden kann. Wenn das Arbeitsfahrzeug 1 beispielsweise ein Hydraulikbagger ist, kann die Operationsklassifizierung „Ausgraben“, „Drehen“ und „Entladen“ enthalten. Das „Drehen“ kann „Hebezeugdrehen“ und „Abwärtsdrehen“ umfassen. Ein Teil der Operationsklassifizierung kann jedoch geändert oder weggelassen werden. Alternativ kann die Operationsklassifizierung ferner andere Klassifizierungen enthalten.
5 ist ein Ablaufdiagramm, das einen Prozess zeigt, der von dem Computer 102 (Prozessor 103) ausgeführt wird, um die Operation des Arbeitsfahrzeugs 1 zu schätzen. Wie in 5 dargestellt, erhält der Computer 102 in Schritt S101 Videodaten D11 des Arbeitsfahrzeugs 1, die von der Kamera 101 erfasst wurden. Der Computer 102 kann die Videodaten D11, die von der Kamera 101 erfasst wurden, in Echtzeit erhalten. Alternativ kann der Computer 102 die von der Kamera 101 aufgenommenen Videodaten D11 zu einer vorbestimmten Zeit oder zu jeder vorbestimmten Zeitdauer erhalten. Der Computer 102 speichert die Videodaten D11 in der Speichervorrichtung 104.
In Schritt S102 extrahiert der Computer 102 eine Reihe von mehreren Bildern, die die Bewegung des Arbeitsfahrzeugs 1 angeben, aus den Videodaten D11. 6 ist ein Diagramm, das mehrere Bilder darstellt, die in einem Beispiel der Videodaten D11 (im Folgenden als „Videodaten MV1“ bezeichnet) enthalten sind. 6 stellt nur einen Teil der mehreren Bilder (Bilder F11 bis F14) dar, die in den Videodaten MV1 enthalten sind. Der Computer 102 extrahiert eine vorbestimmte Anzahl von Einzelbildern aus mehreren Bildern F11-F14, die in den Videodaten MV1 enthalten sind.
In Schritt S103 überlagert der Computer 102 die extrahierten Bilder, um ein überlagertes Bild zu erzeugen. Das überlagerte Bild ist ein Beispiel für Bewegungsdaten, die die Bewegungsänderung des vorstehend beschriebenen Arbeitsfahrzeugs angeben. Der Computer 102 erzeugt ein überlagertes Bild, indem er mehrere Bilder überträgt und diese überlagert. Das überlagerte Bild ist ein Standbild, das durch Überlagern mehrerer aus einem Video extrahierter Bilder synthetisiert wird. Der Computer 102 speichert Bilddaten D12, die das überlagerte Bild angeben, in der Speichervorrichtung 104.
7 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes IM11 darstellt, das durch Überlagern des ersten bis dritten Bildes F11 bis F13 erhalten wird, das in den in 6 dargestellten Videodaten MV1 enthalten ist. 8 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes IM12 darstellt, das durch Überlagern des zweiten bis vierten Bildes F12 bis F14 erhalten wird, das in den in 6 dargestellten Videodaten MV1 enthalten ist. Die in 6 dargestellten Videodaten MV1 werden durch Schießen des sich drehenden Arbeitsfahrzeugs 1 erhalten. Wie in den 7 und 8 dargestellt, sind in den Überlagerungsbildern IM11 und IM12 mehrere unterschiedliche Stellungen des drehenden Arbeitsfahrzeugs 1 in einem Standbild dargestellt.
9 ist ein Diagramm, das einen Teil mehrerer Bilder darstellt, die in einem anderen Beispiel der Videodaten D12 (nachstehend als „Videodaten MV2“ bezeichnet) enthalten sind. Die Videodaten MV2, die in 9 dargestellt sind, werden durch Schießen des Arbeitsfahrzeugs 1 während des Entladens erhalten. 10 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes IM21 darstellt, das durch Überlagern des ersten bis dritten Bildes F21 bis F23 erhalten wird, das in den in 9 dargestellten Videodaten MV2 enthalten ist. 11 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes IM22 darstellt, das durch Überlagern des zweiten bis vierten Bildes F22 bis F24 erhalten wird, das in den in 10 dargestellten Videodaten MV2 enthalten ist. Wie in den 10 und 11 dargestellt, sind in den Überlagerungsbildern IM21 und IM22 mehrere unterschiedliche Stellungen des Arbeitsfahrzeugs 1 während des Entladens in einem Standbild dargestellt.
12 ist ein Diagramm, das einen Teil mehrerer Bilder darstellt, die in einem weiteren Beispiel von Videodaten D11 (nachstehend als „Videodaten MV3“ bezeichnet) enthalten sind. Die Videodaten MV3, die in 12 dargestellt sind, werden durch Schießen des aushebenden Arbeitsfahrzeugs 1 erhalten. 13 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes IM31 darstellt, das durch Überlagern des ersten bis dritten Bildes F31 bis F33 erhalten wird, die in den in 12 dargestellten Videodaten MV3 enthalten sind. 14 ist ein Diagramm, das ein Beispiel eines Überlagerungsbildes IM32 darstellt, das durch Überlagern des zweiten bis vierten Bildes F32 bis F34 erhalten wird, die in den in 12 dargestellten Videodaten MV3 enthalten sind. Wie in 13 und 14 dargestellt, sind in den Überlagerungsbildern IM31 und IM32 mehrere unterschiedliche Stellungen des Arbeitsfahrzeugs 1 während des Aushubs in einem Standbild dargestellt.
In Schritt S104 führt der Computer 102 eine Bildklassifizierung unter Verwendung des trainierten Klassifizierungsmodells 111 aus. Der Computer 102 führt die Bildklassifizierung basierend auf dem vorstehend beschriebenen neuronalen Netzwerk 120 unter Verwendung des in Schritt S103 erzeugten überlagerten Bildes als Eingabedaten für das Klassifizierungsmodell 111 aus.
Beispielsweise gibt der Computer 102 den in dem überlagerten Bild enthaltenen Pixelwert in jedes in der Eingabeschicht 121 des neuronalen Netzwerks 120 enthaltene Neuron ein. 15 ist ein Diagramm, das ein Beispiel eines Verfahrens zum Berechnen eines in die Eingabeschicht 121 eingegebenen Pixelwerts darstellt. In 15 gibt „Bild_1“ den Pixelwert des ersten Bildes an. „Bild_2“ gibt den Pixelwert des zweiten Bildes an. „Bild_3“ gibt den Pixelwert des dritten Bildes an. Außerdem ist der in 15 dargestellte Zahlenwert ein einziges Beispiel und nicht darauf beschränkt.
Wie in 15 dargestellt, erzeugt der Computer 102 Bewegungsdaten, die in die Eingabeschicht 121 eingegeben werden, indem die Pixelwerte des ersten bis dritten Bildes kombiniert werden. Insbesondere berechnet der Computer 102 einen Durchschnittswert von Pixelwerten von miteinander korrespondierenden Pixeln in dem ersten bis dritten Bild. Der Computer 102 gibt den berechneten Durchschnittswert jedes Pixels (Durchschnittspixelwert [0] [0] usw.) in jedes in der Eingabeschicht 121 enthaltene Neuron ein. Der Durchschnittswert kann ein gewichteter Durchschnittswert sein. Die Entsprechung zwischen jedem Pixelwert und jedem Neuron kann entsprechend eingestellt werden. Dadurch erhält der Computer 102 die Wahrscheinlichkeit jeder Operationsklassifizierung des Arbeitsfahrzeugs 1 als die Ausgabedaten D13.
In dem vorstehend beschriebenen Beispiel des Hydraulikbaggers enthält die Operationsklassifizierung des Arbeitsfahrzeugs 1 „Drehen“, „Entladen“ und „Ausheben“. Die Steuervorrichtung erhält einen Ausgabewert, der die Wahrscheinlichkeit jeder Klassifizierung von „Drehen“, „Entladen“ und „Ausheben“ angibt. Das Klassifizierungsmodell 111 wurde so trainiert, dass der Ausgabewert der Klassifizierung von „Drehen“ für das Überlagerungsbild hoch wird, das das Drehen zeigt, wie es in den 7 und 8 dargestellt ist. Das Klassifizierungsmodell 111 wurde so trainiert, dass der Ausgabewert der Klassifizierung von „Entladen“ für das Überlagerungsbild, das das Entladen zeigt, wie es in den 10 und 11 dargestellt ist, hoch wird. Das Klassifizierungsmodell 111 wurde so trainiert, dass der Ausgabewert der Klassifizierung von „Ausheben“ für das überlagerte Bild, das das Ausheben zeigt, wie in den 13 und 14 dargestellt, hoch wird.
In Schritt S105 bestimmt der Computer 102 die Operationsklassifizierung des Arbeitsfahrzeugs 1. Der Computer 102 bestimmt die Operationsklassifizierung des Arbeitsfahrzeugs 1 basierend auf der Wahrscheinlichkeit jeder durch die Ausgabedaten D13 angezeigten Klassifizierung. Der Computer 102 bestimmt die Klassifizierung mit der höchsten Wahrscheinlichkeit als die Operation des Arbeitsfahrzeugs 1. Dadurch schätzt der Computer 102 die Operation, die das Arbeitsfahrzeug 1 durchführt.
In Schritt S106 zeichnet der Computer 102 die Operationszeit des Arbeitsfahrzeugs 1 in der in Schritt S105 bestimmten Klassifizierung auf. Wenn zum Beispiel das Arbeitsfahrzeug 1 dreht, bestimmt der Computer 102 die Operationsklassifizierung als „Drehen“ und zeichnet die Operationszeit des Drehens auf. Der Computer 102 kann die Klassifizierungsoperationszeit aus der Anzahl der in dem überlagerten Bild verwendeten Einzelbildern berechnen.
In Schritt S107 erzeugt der Computer 102 Verwaltungsdaten einschließlich der Operationsklassifizierung und der Operationszeit. Der Computer 102 zeichnet Verwaltungsdaten in der Speichervorrichtung 104 auf.
In dem vorstehend beschriebenen Klassifizierungssystem 100 nach der vorliegenden Ausführungsform bestimmt der Computer 102 die Operationsklassifizierung des Arbeitsfahrzeugs 1 aus dem überlagerten Bild. Daher kann die Operation des Arbeitsfahrzeugs 1 unter Verwendung des zur Standbildklassifizierung geeigneten Modells 111 für künstliche Intelligenz geschätzt werden. Dadurch kann die Operation des Arbeitsfahrzeugs 1 durch den Computer 102 unter Verwendung künstlicher Intelligenz leicht und genau bestimmt werden.
Mit dem Klassifizierungssystem 100 ist es möglich, eine Operation des Arbeitsfahrzeugs 1 aus einem Video zu schätzen, das mit dem Arbeitsfahrzeug 1 von außerhalb des Arbeitsfahrzeugs 1 aufgenommen wurde. Daher kann die Operation sogar für das Arbeitsfahrzeug 1, das nicht mit einem bestimmten Sensor oder einer Kommunikationsvorrichtung ausgestattet ist, leicht und genau bestimmt werden.
In dem Klassifizierungssystem 100 wird die Operationsklassifizierung aus dem Video des Arbeitsfahrzeugs 1 bestimmt, und die Operationszeit der Klassifizierung wird als Verwaltungsdaten aufgezeichnet. Daher kann durch Aufnehmen eines Videos des Arbeitsfahrzeugs 1 die Zeitstudie der Operation mit dem Arbeitsfahrzeug 1 einfach und automatisch von dem Computer 102 durchgeführt werden. Zusätzlich kann durch Aufnehmen eines Videos einer Mehrzahl von Arbeitsfahrzeugen 1 an der Arbeitsstelle ein Video aufgenommen werden und durch Erzeugen von Verwaltungsdaten durch das Klassifizierungssystem 100 kann eine Zeitstudie von Operationen mit den mehreren Arbeitsfahrzeugen 1 an der Arbeitsstelle einfach und automatisch durch den Computer 102 durchgeführt werden.
Als nächstes wird ein Lernverfahren für das Klassifizierungsmodell 111 nach der Ausführungsform beschrieben. 16 ist ein Diagramm, das ein Lernsystem 200 darstellt, das ein Training des Klassifizierungsmodells 111 durchführt. Das Lernsystem 200 enthält ein Trainingsdatenerzeugungsmodul 211 und ein Trainingsmodul 212.
Das Trainingsdatenerzeugungsmodul 211 erzeugt Trainingsdaten D22 aus den Videodaten D21 eines Arbeitsfahrzeugs. Das Trainingsmodul 212 trainiert das Klassifizierungsmodell 111 unter Verwendung der Trainingsdaten D22 und optimiert die Parameter des Klassifizierungsmodells 111. Das Lernsystem 200 erhält den optimierten Parameter als den trainierten Parameter D23.
17 ist ein schematisches Diagramm, das eine Konfiguration eines Computers 202 darstellt, der das Lernsystem 200 implementiert. In 17 enthält der Computer 202 einen Prozessor 203, eine Speichervorrichtung 204, eine Kommunikationsschnittstelle 205, eine E/A-Schnittstelle 206, eine Eingabevorrichtung 207 und eine Ausgabevorrichtung 208. Der Prozessor 203, die Speichervorrichtung 204, die Kommunikationsschnittstelle 205, die E/A-Schnittstelle 206, die Eingabevorrichtung 207 und die Ausgabevorrichtung 208 des Computers 202 sind im Wesentlichen dieselben wie der Prozessor 103, die Speichervorrichtung 104, die Kommunikationsschnittstelle 105 und die E/A-Schnittstelle 106, die Eingabevorrichtung 107 und die Ausgabevorrichtung 108 des Computers 102, und eine detaillierte Beschreibung davon wird weggelassen.
Das Trainingsdatenerzeugungsmodul 211 und das Trainingsmodul 212 sind in dem Computer 202 implementiert. Das Trainingsdatenerzeugungsmodul 211 und das Trainingsmodul 212 sind in der Speichervorrichtung 204 gespeichert.
18 ist ein Ablaufdiagramm, das die Verarbeitung zeigt, die vom Computer 202 (Prozessor 203) ausgeführt wird, um Trainingsdaten D22 zu erzeugen. Wie in 18 dargestellt, erhält der Computer 202 in Schritt S201 Videodaten D21 eines Arbeitsfahrzeugs. Der Computer 202 kann die Videodaten D21 über ein Kommunikationsnetz erhalten. Alternativ kann der Computer 202 die Videodaten D21 über ein externes Aufzeichnungsmedium erhalten.
In Schritt S202 extrahiert der Computer 202 eine Reihe von mehreren Bildern, die die Operation des Arbeitsfahrzeugs in Zeitreihen zeigen, aus den Videodaten D21. In Schritt S203 erzeugt der Computer 202 ein überlagertes Bild durch Überlagern der extrahierten Bilder. Da die Prozesse in den Schritten S202 und S203 im Wesentlichen die gleichen sind wie diejenigen in den vorstehend beschriebenen Schritten S102 und S103, wird eine detaillierte Beschreibung davon weggelassen.
In Schritt S204 weist der Computer 202 dem überlagerten Bild die Operationsklassifizierung des Arbeitsfahrzeugs 1 zu und erzeugt Trainingsdaten. Die Zuordnung der Klassifizierung kann manuell von einem Menschen unter Verwendung der Eingabevorrichtung 207 durchgeführt werden. In diesem Fall kann der Computer 202 die Operationsklassifizierung des Arbeitsfahrzeugs dem überlagerten Bild zuordnen und Trainingsdaten auf der Grundlage der Klassifizierungsdaten, die die über die Eingabevorrichtung 207 eingegebene Klassifizierung angeben, erzeugen.
In Schritt S205 speichert der Computer 202 die Trainingsdaten D22 in der Speichervorrichtung 204. Die Trainingsdaten D22 enthalten das in Schritt S203 erzeugte Überlagerungsbild und die Operationsklassifizierung des dem Überlagerungsbild in Schritt S204 zugewiesenen Arbeitsfahrzeugs.
Der Computer 202 erzeugt mehrere Trainingsdaten D22 aus Videodaten D21, indem die Verarbeitung von Schritt S201 bis Schritt S205 wiederholt wird. Ferner erzeugt der Computer 202 mehrere Trainingsdaten D22 aus den mehreren Videodaten D21, indem die Verarbeitung von Schritt S201 bis Schritt S205 wiederholt wird.
Wie in 19 dargestellt, kann der Computer 202 ein überlagertes Bild als ein Originalbild IM41 verwenden, eine oder mehrere Erweiterungen, Verkleinerungen, Drehungen, Parallelbewegungen und Farbänderungen in Bezug auf das Originalbild IM41 anwenden und dadurch mehrere verarbeitete Bilder IM42 bis IM45 erzeugen. Die Farbänderung kann beispielsweise eine Änderung der Sättigung, Helligkeit oder des Kontrasts sein. Der Computer 202 kann jedem der mehreren verarbeiteten Bilder IM42 bis IM45 die Operationsklassifizierung des Arbeitsfahrzeugs 1 zuweisen und diese als Trainingsdaten D22 speichern. Dadurch kann eine große Menge verschiedener Trainingsdaten D22 vorbereitet werden, und der Lerneffekt des Klassifizierungsmodells 111 kann verbessert werden.
20 ist ein Ablaufdiagramm, das einen Prozess zeigt, der von dem Computer 202 (Prozessor 203) ausgeführt wird, um das Klassifizierungsmodell 111 aus den Trainingsdaten D22 zu trainieren. Wie in 20 dargestellt, erhält der Computer 202 in Schritt S301 Trainingsdaten D22. Wie vorstehend beschrieben, erhält der Computer 202 die Trainingsdaten D22 durch Erzeugen der Trainingsdaten D22 aus den Videodaten D21.
Der Computer 202 kann jedoch Trainingsdaten D22 erhalten, die von einem anderen Computer erzeugt wurden. In diesem Fall kann der Computer 202 die Trainingsdaten D22 über ein Kommunikationsnetzwerk empfangen. Alternativ kann der Computer 202 die Trainingsdaten D22 über ein externes Aufzeichnungsmedium empfangen.
In Schritt S302 trainiert der Computer 202 das Klassifizierungsmodell 111 unter Verwendung der Trainingsdaten D22. Der Computer 202 trainiert das Klassifizierungsmodell 111 unter Verwendung des in den Trainingsdaten D22 enthaltenen überlagerten Bildes als Eingabedaten und der Operationsklassifizierung des Arbeitsfahrzeugs 1 als Lehrerdaten.
Beispielsweise führt der Computer 202 eine Berechnungsverarbeitung in der Vorwärtsausbreitungsrichtung des neuronalen Netzwerks 120 unter Verwendung jedes Pixelwerts jedes überlagerten Bildes als Eingabe der Eingabeschicht 121 durch. Infolgedessen erhält der Computer 202 einen Ausgabewert, der von der Ausgabeschicht 123 des neuronalen Netzwerks 120 ausgegeben wird. Als nächstes berechnet der Computer 202 einen Fehler zwischen dem von der Ausgabeschicht 123 ausgegebenen Ausgabewert und dem korrekten Ausgabewert, der durch die als Lehrerdaten zugewiesene Klassifizierung angezeigt wird. Der Computer 202 berechnet den Fehler der Gewichtung der Verbindung zwischen den Neuronen und den Fehler des Schwellenwerts jedes Neurons aus dem berechneten Ausgabewertfehler durch Rückwärtsausbreitung. Dann aktualisiert der Computer 202 das Verbindungsgewicht zwischen den Neuronen und dem Schwellenwert jedes Neurons basierend auf den berechneten Fehlern.
Der Computer 202 wiederholt die vorstehende Verarbeitung für mehrere überlagerte Bilder, bis der Ausgabewert aus dem Klassifizierungsmodell 111 mit dem Wert übereinstimmt, der der dem überlagerten Bild zugewiesenen Klassifizierung entspricht. Dadurch werden die Parameter des Klassifizierungsmodells 111 optimiert und das Klassifizierungsmodell 111 kann trainiert werden.
Es sei angemerkt, dass Anfangswerte verschiedener Parameter des Klassifizierungsmodells 111 durch eine Schablone gegeben sein können. Alternativ kann der Anfangswert des Parameters manuell durch menschliche Eingabe angegeben werden. Wenn das Klassifizierungsmodell 111 erneut trainiert wird, kann der Computer 202 einen Anfangswert des Parameters auf der Grundlage des trainierten Parameters D23 des erneut zu trainierenden Klassifizierungsmodells 111 vorbereiten.
In Schritt S303 speichert der Computer 202 den durch Training in der Speichervorrichtung 104 optimierten Parameter als den trainierten Parameter D23. Dadurch beendet der Computer 202 das Training des Klassifizierungsmodells 111.
Der Computer 102 des vorstehend beschriebenen Klassifizierungssystems 100 kann das trainierte Klassifizierungsmodell 111 durch Erhalten des Klassifizierungsmodells 111 und des trainierten Parameters D23 von dem Computer 202 des Lernsystems 200 erhalten.
Es sei angemerkt, dass der Computer 202 des Lernsystems 200 den trainierten Parameter D23 aktualisieren kann, indem das Training des vorstehend beschriebenen Klassifizierungsmodells 111 periodisch durchgeführt wird. Der Computer 202 des Lernsystems 200 kann den aktualisierten trainierten Parameter D23 an den Computer 102 des Klassifizierungssystems 100 übertragen. Der Computer 102 des Klassifizierungssystems 100 kann die Parameter des Klassifizierungsmodells 111 mit dem übertragenen trainierten Parameter D23 aktualisieren.
Wie vorstehend erwähnt, ist die vorliegende Erfindung, obwohl eine Ausführungsform der vorliegenden Erfindung beschrieben worden ist, nicht auf diese Ausführungsform beschränkt, und es können verschiedene Änderungen vorgenommen werden, ohne vom Umfang der vorliegenden Erfindung abzuweichen.
Die Konfiguration des Klassifizierungssystems 100 und/oder des Lernsystems 200 kann geändert werden. Beispielsweise kann das Klassifizierungssystem 100 mehrere Computer enthalten. Die Verarbeitung durch das vorstehend beschriebene Klassifizierungssystem 100 kann ausgeführt werden, indem sie auf mehrere Computer verteilt wird. Beispielsweise kann die Erzeugung des überlagerten Bildes und die Bestimmung der Klassifizierung von verschiedenen Computern ausgeführt werden.
21 ist ein Diagramm, das ein Klassifizierungssystem 100 nach einer Modifikation darstellt. Wie in 21 dargestellt, kann das Klassifizierungssystem 100 einen ersten Computer 102a und einen zweiten Computer 102b enthalten. Der erste Computer 102a und der zweite Computer 102b können miteinander kommunizierbar sein. Beispielsweise können der erste Computer 102a und der zweite Computer 102b über das Kommunikationsnetzwerk NT kommunizierbar sein.
Der erste Computer 102a kann die vorstehend beschriebenen Videodaten D11 erhalten und das überlagerte Bild erzeugen. Der zweite Computer 102b kann das überlagerte Bild vom ersten Computer 102a erhalten. Der zweite Computer 102b kann eine Bildklassifizierung unter Verwendung des vorstehend beschriebenen Klassifizierungsmodells 111 und einer Operationsklassifizierung des Arbeitsfahrzeugs 1 durchführen. Der erste Computer 102a kann Verwaltungsdaten einschließlich der Operationsklassifizierung und die Operationszeit von dem zweiten Computer 102b empfangen.
Das Lernsystem 200 kann mehrere Computer enthalten. Die vorstehend beschriebene Verarbeitung durch das Lernsystem 200 kann auf verteilte Weise durch mehrere Computer ausgeführt werden. Beispielsweise führt in der vorstehend beschriebenen Ausführungsform der Computer 202 die Erzeugung von Trainingsdaten und das Training des Klassifizierungsmodells 111 aus. Die Erzeugung von Trainingsdaten und das Training des Klassifizierungsmodells 111 können jedoch von verschiedenen Computern ausgeführt werden. Das heißt, das Trainingsdatenerzeugungsmodul 211 und das Trainingsmodul 212 können auf verschiedenen Computern implementiert sein.
Die Konfiguration des Computers 102 des Klassifizierungssystems 100 und/oder des Computers 202 des Lernsystems 200 kann geändert werden. Beispielsweise kann der Computer 102 mehrere Prozessoren enthalten. Der Computer 202 kann mehrere Prozessoren enthalten. Zumindest ein Teil der vorstehend beschriebenen Verarbeitung ist nicht auf die CPU beschränkt und kann von einem anderen Prozessor wie einer GPU (Graphics Processing Unit) ausgeführt werden. Die vorstehend beschriebene Verarbeitung kann ausgeführt werden, indem sie auf mehrere Prozessoren verteilt wird.
In der vorstehenden Ausführungsform enthält das Klassifizierungsmodell 111 das neuronale Netzwerk 120. Das Klassifizierungsmodell 111 ist jedoch nicht auf ein neuronales Netzwerk beschränkt und kann ein Modell sein, das Standbilder mit hoher Genauigkeit unter Verwendung von maschinellem Lernen, beispielsweise als Stützvektormethode (Support Vector Machine), klassifizieren kann.
Das vorstehend beschriebene Klassifizierungsmodell 111 ist nicht auf ein Modell beschränkt, das durch maschinelles Lernen unter Verwendung der vorstehend beschriebenen Trainingsdaten D21 trainiert wurde, und kann ein Modell sein, das unter Verwendung des trainierten Modells generiert wurde. Beispielsweise kann das Klassifizierungsmodell 111 ein anderes trainiertes Modell (abgeleitetes Modell) sein, bei dem die Parameter durch weiteres Training unter Verwendung neuer Daten in dem trainierten Modell geändert werden und die Genauigkeit weiter verbessert wird. Alternativ kann das Klassifizierungsmodell 111 ein anderes trainiertes Modell (Destillationsmodell) sein, das basierend auf einem Ergebnis trainiert wird, das durch wiederholtes Eingeben und Ausgeben von Daten in das trainierte Modell erhalten wird.
22 ist ein Ablaufdiagramm, das die Verarbeitung zeigt, die vom Computer 202 (Prozessor 203) ausgeführt wird, um ein Destillationsmodell zu erzeugen. Wie in 22 dargestellt, erzeugt der Computer 202 in den Schritten S401 bis S403 ein überlagertes Bild aus Videodaten. Da die Prozesse in den Schritten S401 bis S403 die gleichen sind wie diejenigen in den vorstehend beschriebenen Schritten S201 bis S203, wird eine detaillierte Beschreibung davon weggelassen.
In Schritt S404 führt der Computer 202 eine Bildklassifizierung unter Verwendung des trainierten ersten Klassifizierungsmodells aus. Der Computer 202 führt eine Bildklassifizierung basierend auf dem neuronalen Netzwerk unter Verwendung des in Schritt S403 erzeugten überlagerten Bildes als Eingabedaten für das erste Klassifizierungsmodell aus. In Schritt S405 bestimmt der Computer 202 die Operationsklassifizierung des Arbeitsfahrzeugs 1. Der Computer 202 bestimmt die Operationsklassifizierung des Arbeitsfahrzeugs 1 basierend auf der Bildklassifizierung basierend auf dem ersten Klassifizierungsmodell. Die Prozesse in den Schritten S404 und S405 sind dieselben wie die vorstehend beschriebenen Prozesse in den Schritten S104 und S105.
In Schritt S406 speichert der Computer 202 das in Schritt S403 erzeugte Überlagerungsbild und die in Schritt S405 bestimmte Operationsklassifizierung des Arbeitsfahrzeugs 1 in der Speichervorrichtung 204 als Trainingsdaten D22.
In Schritt S407 trainiert der Computer 202 das zweite Klassifizierungsmodell unter Verwendung der Trainingsdaten D22. In Schritt S408 speichert der Computer 202 den durch Training in der Speichervorrichtung 104 optimierten Parameter als den trainierten Parameter D23. Die Prozesse in den Schritten S407 und S408 sind dieselben wie die vorstehend beschriebenen Prozesse in den Schritten S302 und S303. Es sei angemerkt, dass der Computer 202 das zweite Klassifizierungsmodell unter Verwendung der Trainingsdaten D22 trainieren kann, die von einem anderen Computer erzeugt wurden.
Durch Trainieren des zweiten Klassifizierungsmodells (Destillationsmodells) kann der Computer 102, wie vorstehend beschrieben, das zweite Klassifizierungsmodell verwenden, das einfacher als das erste Klassifizierungsmodell ist, um die Operationsklassifizierung des Arbeitsfahrzeugs 1 zu bestimmen. Dadurch kann die Last des Computers 102 zum Bestimmen der Operationsklassifizierung des Arbeitsfahrzeugs 1 reduziert werden.
Die Bewegungsdaten sind nicht auf das überlagerte Bild beschränkt und können andere Daten sein, solange es sich um Daten handelt, die eine aus mehreren Bildern erzeugte Bewegungsänderung des Arbeitsfahrzeugs angeben. Die Bewegungsdaten können Daten sein, die eine Gruppe von Bildern angeben, die in mehreren Bildern enthalten sind. 23 ist ein Diagramm, das Bewegungsdaten nach der Modifikation zeigt. Wie in 23 dargestellt, können die Bewegungsdaten ein verbundenes Bild IM51 sein, das durch Verbinden mehrerer Bilder erhalten wird. Das verbundene Bild IM51 ist ein Bild, das durch serielles Verbinden des ersten bis dritten Bildes F11 bis F13 erhalten wird, die in den Videodaten MV1 enthalten sind. In diesem Fall kann der Computer 102, wie in 24 dargestellt, die Pixelwerte des ersten bis dritten Bildes F11 bis F13 seriell in die Eingabeschicht 121 eingeben.
In einer solchen Modifikation kann die Operation des Arbeitsfahrzeugs 1 einfach und genau durch den Computer 102 unter Verwendung künstlicher Intelligenz wie in der vorstehend beschriebenen Ausführungsform bestimmt werden. Da jedoch viele Daten wie der Hintergrund eingegeben werden, nehmen die für die Operationsbestimmung unnötigen Daten zu. Daher ist in dem modifizierten Beispiel die Operationsbestimmungsgenauigkeit im Vergleich zu der vorstehend beschriebenen Ausführungsform unter Verwendung des überlagerten Bildes schlechter. Mit anderen Worten können in der vorstehend beschriebenen Ausführungsform unnötige Daten unter Verwendung des überlagerten Bildes reduziert werden, und dadurch kann die Bestimmungsgenauigkeit verbessert werden.
Die Bewegungsdaten können Werte enthalten, die aus Pixelwerten mehrerer Bilder erhalten werden, und sind nicht auf Bilder beschränkt. Zum Beispiel kann in 15 der Computer 102 den Durchschnittswert „Durchschnittspixelwert [0] [0]“ der Pixelwerte berechnen, den berechneten Wert sofort in die Eingabeschicht 121 eingeben und „Durchschnittspixelwert [0] [0]“ initialisieren. Der Computer 102 kann bis „Durchschnittspixelwert [2] [2]“ die gleiche Verarbeitung wiederholen. In diesem Fall erzeugt der Computer 102 kein Bild als Bewegungsdaten, sondern kann einen Wert erzeugen, der durch Kombinieren von Pixelwerten mehrerer Bilder als Bewegungsdaten erhalten wird, und in die Eingabeschicht 121 eingegeben.
Die Bewegungsdaten können erhalten werden, indem ein gemeinsamer Teil in mehreren Bildern weggelassen wird. Beispielsweise können die den Hintergrund angebenden Pixelwerte, die üblicherweise in mehreren Bildern enthalten sind, aus den Bewegungsdaten weggelassen werden. Der Computer 102 kann ein Referenzbild aus mehreren Bildern bestimmen und kann eine Differenz zwischen den anderen Bildern und dem Referenzbild berechnen. Der Computer 102 kann Bewegungsdaten aus dieser Differenz erzeugen und in die Eingabeschicht 121 eingeben.
Das Verfahren zum Erzeugen des überlagerten Bildes oder des verbundenen Bildes kann geändert werden. Zum Beispiel wird in der vorstehend beschriebenen Ausführungsform das überlagerte Bild durch Überlagern der Drei-Einzelbilder in den Videodaten D11 und D21 erzeugt. Die Anzahl der Einzelbilder in dem überlagerten Bild ist jedoch nicht auf drei beschränkt und kann weniger als drei oder mehr als drei betragen.
Die Computer 102 und 202 können ein kontinuierliches Einzelbild extrahieren und ein überlagertes Bild oder ein verbundenes Bild erzeugen. Alternativ können die Computer 102 und 202 ein Bild durch Überspringen eines Teils aufeinanderfolgender Einzelbilder extrahieren. Zum Beispiel können die Computer 102 und 202 ein Bild extrahieren, indem sie einen oder mehrere Einzelbilder aus mehreren aufeinanderfolgenden Einzelbildern überspringen.
Die Computer 102 und 202 können ein überlagertes Bild oder ein verbundenes Bild durch Konvertieren mehrerer Bilder zu Graustufen erzeugen. Die Computer 102 und 202 können die Dunkelheit einiger der mehreren Bilder ändern. Das heißt, die Computer 102 und 202 können ein überlagertes Bild oder ein verbundenes Bild aus mehreren Bildern mit unterschiedlichen Dichten erzeugen. Die Computer 102 und 202 können ein überlagertes Bild oder ein verbundenes Bild durch Ausschneiden eines Teils des extrahierten Bildes erzeugen.
Das Arbeitsfahrzeug ist nicht auf einen Hydraulikbagger beschränkt und kann ein anderes Fahrzeug sein, wie beispielsweise eine Planierraupe bzw. ein Bulldozer, ein Radlader, ein Grader oder ein Muldenkipper. Das Klassifizierungsmodell 111, der trainierte Parameter D23 und/oder die Trainingsdaten D22 können für jeden Typ des Arbeitsfahrzeugs vorbereitet werden. Alternativ können das Klassifizierungsmodell 111, der trainierte Parameter D23 und/oder die Trainingsdaten D22 mehrere Typen des Arbeitsfahrzeugs gemeinsam sein. In diesem Fall kann das Klassifizierungsmodell 111 den Typ des Arbeitsfahrzeugs zusammen mit der Operation des Arbeitsfahrzeugs schätzen.
Ein Teil der vorstehend beschriebenen Verarbeitung kann weggelassen oder geändert werden. Beispielsweise kann der Prozess zum Aufzeichnen der Operationszeit weggelassen werden. Der Prozess des Erzeugens von Verwaltungsdaten kann weggelassen werden.
INDUSTRIELLE ANWENDBARKEIT
Nach der vorliegenden Erfindung ist es möglich, die Operation eines Arbeitsfahrzeugs unter Verwendung künstlicher Intelligenz leicht und genau zu bestimmen.
Bezugszeichenliste

100: Klassifizierungssystem
111: Klassifizierungsmodell
103: Prozessor
101: Kamera
200: Lernsystem

Claims

Verfahren, das von einem Computer ausgeführt wird und das umfasst: Erhalten von Bewegungsdaten, die eine Bewegungsänderung eines Arbeitsfahrzeugs angeben, die aus mehreren Bildern erzeugt werden, die das in Betrieb befindliche Arbeitsfahrzeug in Zeitreihen angeben; und Bestimmen einer Operationsklassifizierung des Arbeitsfahrzeugs aus den Bewegungsdaten durch Durchführen einer Bildklassifizierung unter Verwendung eines trainierten Klassifizierungsmodells.
Verfahren nach Anspruch 1, wobei die Bewegungsdaten durch Kombinieren von Pixelwerten der mehreren Bilder erhalten werden.
Verfahren nach Anspruch 1, wobei die Bewegungsdaten ein überlagertes Bild angeben, das durch Überlagern der mehreren Bilder erzeugt wird.
Verfahren nach Anspruch 1, wobei die Bewegungsdaten eine Gruppe von Bildern angeben, die in den mehreren Bildern enthalten sind.
Verfahren nach Anspruch 1, wobei die Bewegungsdaten durch einen Durchschnittswert von einander entsprechenden Pixelwerten in den mehreren Bildern dargestellt werden.
Verfahren nach Anspruch 1, ferner umfassend Erhalten eines Videos des in Betrieb befindlichen Arbeitsfahrzeugs; Extrahieren der mehreren Bilder aus dem Video; und Erzeugen der Bewegungsdaten aus den extrahierten mehreren Bildern.
Verfahren nach Anspruch 6, wobei das Extrahieren der mehreren Bilder das Extrahieren der Bilder durch Überspringen eines Teils von aufeinanderfolgenden Einzelbildern, die in dem Video enthalten sind, enthält.
Verfahren nach Anspruch 6 oder 7, wobei das Erzeugen der Bewegungsdaten das Ändern eines Teils der extrahierten mehreren Bilder in eine Dunkelheit, die sich von den anderen Bildern unterscheidet, enthält.
Verfahren nach Anspruch 1, wobei das Erzeugen der Bewegungsdaten das Erzeugen von Graustufen der mehreren Bilder enthält.
Verfahren nach einem der Ansprüche 1 bis 9, weiterhin umfassend Aufzeichnen einer durch die Klassifizierung angegebenen Operationszeit des Arbeitsfahrzeugs; und Erzeugen von Verwaltungsdaten einschließlich der Klassifizierung und der Operationszeit.
Verfahren nach Anspruch 1, wobei das Klassifizierungsmodell ein neuronales Netzwerk enthält.
System, umfassend: ein trainiertes Klassifizierungsmodell; und einen Prozessor, der programmiert ist, um eine Bewegungsänderung eines Arbeitsfahrzeugs angebende Bewegungsdaten zu erhalten, die aus mehreren Bildern erzeugt werden, die das in Betrieb befindliche Arbeitsfahrzeug in Zeitreihen zeigen, und Bestimmen einer Operationsklassifizierung des Arbeitsfahrzeugs aus den Bewegungsdaten durch Durchführen einer Bildklassifizierung unter Verwendung des Klassifizierungsmodells.
System nach Anspruch 12, ferner umfassend eine Kamera, die ein Video des Arbeitsfahrzeugs aufnimmt, und den Prozessor, der programmiert ist, um das Video von der Kamera zu erhalten, die mehreren Bilder aus dem Video zu extrahieren und Bewegungsdaten aus den mehreren extrahierten Bildern zu erzeugen.
System nach Anspruch 12 oder 13, wobei der Prozessor programmiert ist, um eine in der Klassifizierung angegebene Operationszeit des Arbeitsfahrzeugs aufzuzeichnen und Verwaltungsdaten, die die Klassifizierung und die Operationszeit enthalten, zu erzeugen.
System nach einem der Ansprüche 12 bis 14, wobei das Klassifizierungsmodell ein neuronales Netzwerk enthält.
Erzeugungsverfahren für ein trainiertes Klassifizierungsmodell, umfassend: Erhalten von Trainingsdaten einschließlich Bewegungsdaten, die eine Bewegungsänderung eines Arbeitsfahrzeugs angeben, die aus mehreren Bildern erzeugt wurden, die das in Betrieb befindliche Arbeitsfahrzeug in Zeitreihen angeben, und einer Operationsklassifizierung des Arbeitsfahrzeugs, die den Bewegungsdaten zugeordnet ist; und Trainieren eines Klassifizierungsmodells mit den Trainingsdaten.
Erzeugungsverfahren nach Anspruch 16, ferner umfassend Erhalten eines Videos des in Betrieb befindlichen Arbeitsfahrzeugs; Extrahieren der mehreren Bilder aus dem Video; Erzeugen der Bewegungsdaten aus den extrahierten mehreren Bildern; und Zuordnen der Operationsklassifizierung des Arbeitsfahrzeugs zu den Bewegungsdaten.
Trainingsdaten zum Trainieren eines Klassifizierungsmodells, wobei die Trainingsdaten umfassen: Bewegungsdaten, die eine Bewegungsänderung eines Arbeitsfahrzeugs angeben, die aus mehreren Bildern erzeugt werden, die das in Betrieb befindliche Arbeitsfahrzeug in Zeitreihen angeben; und eine Operationsklassifizierung des Arbeitsfahrzeugs, die den Bewegungsdaten zugeordnet ist.
Trainingsdaten nach Anspruch 18, wobei die Bewegungsdaten ein überlagertes Bild angeben, das durch Überlagern der mehreren Bilder erzeugt wird, und das überlagerte Bild enthält: ein Originalbild und mehrere verarbeitete Bilder, die durch eines oder mehrere von Verkleinern, Vergrößern, Drehen, Translation, Links-Rechts-Umkehrung und Ändern der Farbe des Originalbildes erhalten werden.
Erzeugungsverfahren zum Trainieren von Daten zum Trainieren eines Klassifizierungsmodells, wobei das Erzeugungsverfahren umfasst: Erhalten mehrerer Bilder, die ein in Zeitreihen in Betrieb befindliches Arbeitsfahrzeug zeigen; Erzeugen von Bewegungsdaten, die eine Bewegungsänderung des Arbeitsfahrzeugs angeben, aus den mehreren Bildern; und Erhalten einer Operationsklassifizierung des Arbeitsfahrzeugs, die den Bewegungsdaten zugeordnet ist.
Erzeugungsverfahren nach Anspruch 20, ferner umfassend Erhalten eines Videos des Arbeitsfahrzeugs und wobei das Erhalten der mehreren Bilder das Extrahieren der mehreren Bilder aus dem Video enthält.
Erzeugungsverfahren für ein trainiertes Klassifizierungsmodell, wobei das Erzeugungsverfahren enthält: Erhalten von Bewegungsdaten, die eine Bewegungsänderung eines Arbeitsfahrzeugs angeben, die aus mehreren Bildern erzeugt werden, die das in Betrieb befindliche Arbeitsfahrzeug in Zeitreihen angeben; Bestimmen einer Operationsklassifizierung des Arbeitsfahrzeugs aus den Bewegungsdaten durch Durchführen einer Bildklassifizierung unter Verwendung eines trainierten ersten Klassifizierungsmodells; und Trainieren eines zweiten Klassifizierungsmodells mit Trainingsdaten einschließlich der Bewegungsdaten und der bestimmten Operationsklassifizierung des Arbeitsfahrzeugs.