DE202022101590U1

DE202022101590U1 - Ein System zur Klassifizierung von Fernerkundungsbildern unter Verwendung fusionierter Faltungsmerkmale mit maschinellem Lernen

Info

Publication number: DE202022101590U1
Application number: DE202022101590.2U
Authority: DE
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-04-12
Anticipated expiration: 2032-03-26

Abstract

Ein System zur Klassifizierung von Fernerkundungsbildern unter Verwendung von fusionierten Faltungsmerkmalen mit maschinellem Lernen, wobei das System umfasst:
eine Vorverarbeitungseinheit zur Skalierung der Eingabedaten in einen bestimmten Bereich nach Berechnung des normierten Wertes aller Eingabesätze und der Skalierung, wobei während der Vorverarbeitung die Pixeldaten und die Grundwahrheitsdaten aus den Rohdaten für das Spektralband gewonnen werden und die Skalierung und Bildgrößenänderung durchgeführt werden;
eine Merkmalsverarbeitungseinheit zum Extrahieren von Merkmalen aus den vorverarbeiteten Eingabedaten von Spektralband- und Spektralbildern, wobei eine Merkmalsfusion von zwei vortrainierten 3DConv. Net. Modelle, nämlich Inception V3 und VGG 16, für die Merkmalsextraktion verwendet wird, und wobei alle Merkmale auf niedriger, mittlerer und hoher Ebene extrahiert werden und ein Merkmalsdatensatz vorbereitet wird,
eine Klassifizierungsverarbeitungseinheit zum Durchführen einer auf maschinellem Lernen basierenden Klassifizierung und zum Erhalten einer effektiven Vorhersage der semantischen Kategorie einer Szene, wobei zwei auf maschinellem Lernen basierende Klassifizierer, nämlich ein Support Vector Machine Network (SVMNet) und ein Multi-Layer Perceptron Neural Network (MLPNNet), zur Klassifizierung verwendet werden;
eine Gittersuchverarbeitungseinheit zur Feinabstimmung der Hyperparameter, um eine maximale Genauigkeit zu erreichen, wobei die Gittersuche zur Hyperparameterabstimmung verwendet wird, um die besten Werte für das Modell zu finden, und dies die Gesamtleistung bestimmt; und
eine Validierungsverarbeitungseinheit zur Validierung des Systems unter Verwendung der K-fachen Kreuzvalidierungs-Lernmethode, wobei K = 10 ist, und wenn das Modell erfolgreich validiert wird, wird das trainierte Modell gespeichert und dann unter Verwendung einiger Eingabebilder getestet.

Description

BEREICH DER ERFINDUNG
Die vorliegende Offenlegung bezieht sich auf ein System zur Klassifizierung von Fernerkundungsbildern unter Verwendung fusionierter Faltungsmerkmale mit maschinellem Lernen.
HINTERGRUND DER ERFINDUNG
Der Bereich der Fernerkundung hat sich in den letzten Jahren weiterentwickelt, und eines der besten Beispiele dafür ist die hyperspektrale Fernerkundungstechnik. Das Hauptinteresse auf dem Gebiet der Fernerkundung gilt jetzt der bildbasierten Kategorisierung von Szenen mit hoher räumlicher Auflösung (HSRRS). Die Technik der hyperspektralen Fernerkundung kann die menschliche Wahrnehmung einer Oberfläche verbessern. Es gibt verschiedene Anwendungen, bei denen die hyperspektrale Bildgebung zum Einsatz kommt, z. B. bei der Analyse der Bodenbedeckung, der atmosphärischen Analyse, der Waldanalyse, der Kartierung und bei verschiedenen landwirtschaftlichen Analysen, und die hyperspektrale Bildgebung wird in großem Umfang auch bei militärischen Anwendungen zur Überwachung eingesetzt. Der Einsatz der hyperspektralen Bildgebungstechnik liefert mehr als genug Informationen über eine Oberfläche, um die Zielobjekte zu definieren, und diese Technik ist in der Lage, präzisere Daten zu sammeln, und das auch in größerer Tiefe.
Bei der Szenenklassifizierung mit Hyperspektralbildern ist die Extraktion von Unterscheidungsmerkmalen auf Szenenebene ein wichtiger Bestandteil, der die Genauigkeit der Szenenklassifizierung erhöht und die große Lücke zwischen einem Originalbild und seiner semantischen Kategorie schließt. Es wurden verschiedene Ansätze für diese Aufgabe entwickelt, aber einige dieser Ansätze hängen von den Merkmalen ab, die in einem HSRRS-Szenenbild mit komplexen Landbedeckungs-/Landnutzungsbedingungen nur schwer genau zu charakterisieren sind. Es werden verschiedene auf CNN (Convolutional Neural Networks) basierende Verfahren zur Merkmalsextraktion verwendet, die jedoch aufgrund der hohen Rechen- und Speicherkosten sehr teuer sind, was sie für den Einsatz in der Fernerkundung in Echtzeit ineffizient macht. Ein vortrainiertes Modell kann verwendet werden, um diese Nachteile zu mildern und die Merkmale effektiv zu erkunden. Daher ist es notwendig, ein System zu entwickeln, das Fernerkundungsbilder effizient klassifizieren kann, indem es eine Kombination aus einem vortrainierten CNN-Modell und maschinellem Lernen verwendet.
In Anbetracht der vorangegangenen Diskussion wird deutlich, dass ein System zur Klassifizierung von Fernerkundungsbildern unter Verwendung fusionierter Faltungsmerkmale mit maschinellem Lernen benötigt wird.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Offenlegung bezieht sich auf ein System zur Klassifizierung von Fernerkundungsbildern unter Verwendung fusionierter Faltungsmerkmale mit maschinellem Lernen. Die vorliegende Offenlegung zielt darauf ab, die räumlichen und spektralen Merkmale für die Klassifizierung von Fernerkundungsbildern zu identifizieren, wobei diese Merkmale effizient durch maschinelles Lernen und Deep-Learning-Algorithmen extrahiert werden. Das vorgeschlagene System verbessert die Klassifizierungsgenauigkeit des Hyperspectral Imaging (HSI) Bilddatensatzes, der im Spektralband und Spektralbild verfügbar ist. Das vorgeschlagene System ist ein hybrider Rahmen aus maschinellem Lernen und Deep Learning, der einen vortrainierten 3D-ConvNet-basierten Merkmalsextraktionsrahmen mit Machine-Learning-Klassifikatoren verwendet, um die einzigartigen Merkmale und Informationen in hyperspektralen Bildern zu extrahieren, wobei die vortrainierten Modelle Inception V3 und VGG16 verwendet werden, die zwei Arten von Merkmalen aus vollständig verbundenen Schichten sammeln. Die Klassifizierung erfolgt mittels maschinellem Lernen, wobei zwei Klassifizierer, nämlich ein Support Vector Machine Network (SVMNet) und ein Multi-Layer Perceptron Neural Network (MLPNNet), zusammen mit dem Grid Search Hyper-tuning (GSHT) verwendet werden. Die Bewertungsergebnisse des vorgeschlagenen Systems unter Verwendung von drei schwierigen Datensätzen, nämlich den Indian Pine, University of Pavia und AID-Datensätzen, haben eine verbesserte Klassifizierung gezeigt, wobei sich herausstellte, dass das vorgeschlagene System verschiedene State-of-the-Art-Ansätze übertraf und eine Gesamtgenauigkeit von 0.96, 0.85 bzw. 0.89 bei Verwendung der Indian Pine, University of Pavia und AID-Datensätze zeigte.
Die vorliegende Offenlegung zielt darauf ab, ein System zur Klassifizierung von Fernerkundungsbildern unter Verwendung verschmolzener Faltungsmerkmale mit maschinellem Lernen bereitzustellen. Das System umfasst: eine Vorverarbeitungseinheit zur Skalierung der Eingabedaten in einen bestimmten Bereich nach der Berechnung des normalisierten Wertes aller Eingabesätze und der Skalierung, wobei während der Vorverarbeitung die Pixeldaten und die Grundwahrheitsdaten aus den Rohdaten für das Spektralband erhalten werden und die Skalierung und Bildgrößenänderung durchgeführt werden; eine Merkmalsverarbeitungseinheit zum Extrahieren von Merkmalen aus den vorverarbeiteten Eingabedaten von Spektralband- und Spektralbildern, wobei eine Merkmalsfusion von zwei vortrainierten 3DConv. Net. Modelle, nämlich Inception V3 und VGG 16, für die Merkmalsextraktion verwendet wird, und wobei alle Merkmale auf niedriger, mittlerer und hoher Ebene extrahiert werden und ein Merkmalsdatensatz vorbereitet wird;eine Klassifizierungsverarbeitungseinheit zum Durchführen einer auf maschinellem Lernen basierenden Klassifizierung und zum Erhalten einer effektiven Vorhersage der semantischen Kategorie der Szene, wobei zwei auf maschinellem Lernen basierende Klassifizierer, nämlich ein Support Vector Machine Network (SVMNet) und ein Multi-Layer Perceptron Neural Network (MLPNNet), für die Klassifizierung verwendet werden; eine Gittersuchverarbeitungseinheit zur Feinabstimmung der Hyperparameter zum Erreichen einer maximalen Genauigkeit, wobei die Gittersuche für die Hyperparameterabstimmung verwendet wird, um die besten Werte für das Modell zu finden, und dies die Gesamtleistung bestimmt;und eine Validierungsverarbeitungseinheit zur Validierung des Systems unter Verwendung der K-fachen Kreuzvalidierungs-Lernmethode, wobei K = 10 ist, und wenn das Modell erfolgreich validiert ist, wird das trainierte Modell gespeichert und dann anhand einiger Eingabebilder getestet.
Ein Ziel der vorliegenden Offenlegung ist die Bereitstellung eines Systems zur Klassifizierung von Fernerkundungsbildern unter Verwendung fusionierter Faltungsmerkmale mit maschinellem Lernen.
Ein weiteres Ziel der vorliegenden Offenlegung ist die Identifizierung der räumlichen und spektralen Merkmale aus dem Fernerkundungsbild mittels Merkmalsextraktion.
Ein weiteres Ziel der vorliegenden Offenlegung ist die Verbesserung der Klassifizierungsgenauigkeit des Hyperspektralbild-Datensatzes durch den Einsatz eines vortrainierten CNN-basierten Merkmalsextraktionsrahmens zusammen mit der auf maschinellem Lernen basierenden Klassifizierung.
Ein weiteres Ziel der vorliegenden Offenlegung ist die Verwendung von auf maschinellem Lernen basierenden Klassifizierern zusammen mit der Gittersuch-Hyperabstimmung (GSHP), die die Genauigkeit durch Abstimmung der Hyperparameter weiter verbessert.
Ein weiteres Ziel der vorliegenden Offenlegung ist die Bewertung des vorgeschlagenen Systems anhand der drei schwierigen Datensätze Indian Pines, University of Pavia und AID Dataset.
Um die Vorteile und Merkmale der vorliegenden Offenbarung weiter zu verdeutlichen, wird eine genauere Beschreibung der Erfindung durch Bezugnahme auf bestimmte Ausführungsformen davon, die in den beigefügten Figuren dargestellt ist.Es wird davon ausgegangen, dass diese Figuren nur typische Ausführungsformen der Erfindung darstellen und daher nicht als Einschränkung ihres Umfangs zu betrachten sind. Die Erfindung wird mit zusätzlicher Spezifität und Detail mit den begleitenden Figuren beschrieben und erklärt werden.
Figurenliste
Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Offenbarung werden besser verstanden, wenn die folgende detaillierte Beschreibung mit Bezug auf die beigefügten Figuren gelesen wird, in denen gleiche Zeichen gleiche Teile in den Figuren darstellen, wobei:

1 ein Blockdiagramm eines Systems zur Klassifizierung von Fernerkundungsbildern unter Verwendung von fusionierten Faltungsmerkmalen mit maschinellem Lernen in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung zeigt; und
2A und 2B den Arbeitsablauf des vorgeschlagenen Systems zur Klassifizierung hyperspektraler Bilder und den Prozess der Merkmalsfusion von zwei vortrainierten 3D-Faltungsnetzwerkmodellen gemäß einer Ausführungsform der vorliegenden Offenbarung veranschaulichen.

Der Fachmann wird verstehen, dass die Elemente in den Figuren der Einfachheit halber dargestellt sind und nicht unbedingt maßstabsgetreu gezeichnet wurden. Die Flussdiagramme veranschaulichen beispielsweise das Verfahren anhand der wichtigsten Schritte, um das Verständnis der Aspekte der vorliegenden Offenbarung zu verbessern. Darüber hinaus kann es sein, dass ein oder mehrere Bauteile der Vorrichtung in den Figuren durch herkömmliche Symbole dargestellt sind, und dass die Figuren nur die spezifischen Details zeigen, die für das Verständnis der Ausführungsformen der vorliegenden Offenbarung relevant sind, um die Figuren nicht mit Details zu überfrachten, die für den Fachmann mit den hierin enthaltenen Beschreibungen leicht erkennbar sind.
DETAILLIERTE BESCHREIBUNG
Zum besseren Verständnis der Grundsätze der Erfindung wird nun auf die in den Figuren dargestellte Ausführungsform Bezug genommen und diese in einer speziellen Sprache beschrieben. Es versteht sich jedoch von selbst, dass damit keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, wobei solche Änderungen und weitere Modifikationen des dargestellten Systems und solche weiteren Anwendungen der darin dargestellten Prinzipien der Erfindung in Betracht gezogen werden, wie sie einem Fachmann auf dem Gebiet der Erfindung normalerweise einfallen würden.
Der Fachmann wird verstehen, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und nicht als einschränkend angesehen werden.
Wenn in dieser Beschreibung von „einem Aspekt“, „einem anderen Aspekt“ oder ähnlichem die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Offenbarung enthalten ist. Daher können sich die Ausdrücke „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Ausdrücke in dieser Beschreibung alle auf dieselbe Ausführungsform beziehen, müssen es aber nicht.
Die Ausdrücke „umfasst“, „enthaltend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Verfahren oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte umfasst, sondern auch andere Schritte enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem solchen Verfahren oder einer solchen Methode gehören. Ebenso schließen eine oder mehrere Vorrichtungen oder Teilsysteme oder Elemente oder Strukturen oder Komponenten, die mit „umfasst...a“ eingeleitet werden, nicht ohne weitere Einschränkungen die Existenz anderer Vorrichtungen oder anderer Teilsysteme oder anderer Elemente oder anderer Strukturen oder anderer Komponenten oder zusätzlicher Vorrichtungen oder zusätzlicher Teilsysteme oder zusätzlicher Elemente oder zusätzlicher Strukturen oder zusätzlicher Komponenten aus.
Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Erfindung gehört, allgemein verstanden wird. Das System, die Methoden und die Beispiele, die hier angegeben werden, dienen nur der Veranschaulichung und sind nicht als Einschränkung gedacht.
Ausführungsformen der vorliegenden Offenbarung werden im Folgenden unter Bezugnahme auf die beigefügten Figuren im Detail beschrieben.
1 zeigt ein Blockdiagramm eines Systems zur Klassifizierung von Fernerkundungsbildern unter Verwendung von fusionierten Faltungsmerkmalen mit maschinellem Lernen in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung.Das System 100 umfasst eine Vorverarbeitungseinheit 102 zur Skalierung der Eingabedaten in einen bestimmten Bereich nach der Berechnung des normierten Wertes aller Eingabesätze und der Skalierung, wobei während der Vorverarbeitung die Pixeldaten und die Grundwahrheitsdaten aus den Rohdaten für das Spektralband gewonnen werden und die Skalierung und Bildgrößenänderung durchgeführt warden.
In einer Ausführungsform wird eine Merkmalsverarbeitungseinheit 104 zum Extrahieren von Merkmalen aus den vorverarbeiteten Eingabedaten von Spektralband- und Spektralbildern verwendet, wobei eine Merkmalsfusion von zwei vortrainierten 3DConv. Net. Modelle, nämlich Inception V3 und VGG 16, zur Merkmalsextraktion verwendet werden, und wobei alle Merkmale auf niedriger, mittlerer und hoher Ebene extrahiert werden und ein Merkmalsdatensatz vorbereitet wird.
In einer Ausführungsform wird eine Klassifizierungsverarbeitungseinheit 106 verwendet, um eine auf maschinellem Lernen basierende Klassifizierung durchzuführen und eine effektive Vorhersage der semantischen Kategorie der Szene zu erhalten, wobei zwei auf maschinellem Lernen basierende Klassifizierer, nämlich Support Vector Machine Network (SVMNet) und Multi-Layer Perceptron Neural Network (MLPNNet), für die Klassifizierung verwendet warden.
In einer Ausführungsform wird eine Gittersuchverarbeitungseinheit 108 für die Feinabstimmung der Hyperparameter verwendet, um eine maximale Genauigkeit zu erreichen, wobei die Gittersuche für die Hyperparameterabstimmung eingesetzt wird, um die besten Werte für das Modell zu finden, und dies die Gesamtleistung bestimmt.
In einer Ausführungsform wird eine Validierungsverarbeitungseinheit 110 für die Validierung des Systems unter Verwendung der K-fachen Kreuzvalidierungs-Lernmethode verwendet, wobei K = 10 ist, und wenn das Modell erfolgreich validiert ist, wird das trainierte Modell gespeichert und dann anhand einiger Eingabebilder getestet.
In einer Ausführungsform können die Vorverarbeitungseinheit (102), die Merkmalsverarbeitungseinheit (104), die Klassifizierungseinheit (106), die Gittersuchverarbeitungseinheit (108) und die Validierungsverarbeitungseinheit (110) in programmierbaren Hardwarevorrichtungen wie Prozessoren, digitalen Signalprozessoren, zentralen Verarbeitungseinheiten, feldprogrammierbaren Gate-Arrays, programmierbarer Array-Logik, programmierbaren Logikvorrichtungen, Cloud-Verarbeitungssystemen oder ähnlichem implementiert werden.
In einer Ausführungsform werden hyperspektrale Bilder als Eingangsbilder verwendet, die von Indian Pines, der Universität Pavia und dem AID-Datensatz stammen, wobei die Datensätze Spektralbänder und Spektralbilder umfassen und der Datensatz im Verhältnis 70:30 aufgeteilt wird, wobei 70 % der Daten für das Training des Modells und 30 % des Datensatzes für den Test verwendet werden.
In einer Ausführungsform besteht die Kombination von zwei vortrainierten Modellen für die Merkmalsextraktion aus vier Schichten, nämlich Eingabe, Merkmal, Klassifizierung und Ausgabe, wobei eine Fusionsschicht die Eingabe- und Merkmalsebenen und die Merkmalsebene zu Merkmalen macht und sie in einer Hierarchie von Merkmalen auf niedriger bis hoher Ebene gruppiert, die die räumlichen und spektralen Merkmale der Eingabedaten definiert, wobei die Merkmalsextraktion auf niedriger Ebene unter Verwendung von Bildverarbeitungstechniken und die Merkmalsextraktion auf hoher Ebene unter Verwendung von maschinellen Lerntechniken durchgeführt wird.
In einer Ausführungsform können Merkmale auf niedriger Ebene als Bilddetails wie Linien oder Punkte definiert werden, die mit Hilfe von Faltungsfiltern wie SIFT oder HOG erkannt werden können, und die Merkmale auf hoher Ebene sind Objekte und Ereignisse, und um diese zu erkennen, werden die Merkmale auf hoher Ebene auf die Merkmale auf niedriger Ebene geschichtet, wobei die ersten Schichten Filter zur Erkennung von Linien, Punkten und Kurven entwickeln und die späteren Schichten die allgemeinen Objekte und Formen erkennen.
In einer Ausführungsform wird der Merkmalsentwicklungsprozess noch einmal wiederholt, wenn die Validierung des Modells nicht erfolgreich ist, wobei der Merkmalsentwicklungsprozess entweder mit dem Vorverarbeitungsschritt oder dem Klassifizierungsschritt beginnt.
In einer Ausführungsform wird das Testen des trainierten Modells durchgeführt, indem die Merkmalsdaten für den Testdatensatz initialisiert werden und dann das trainierte Modell von ihnen geladen wird, das die Ergebnisse vorhersagt, ob sein äquivalentes Etikett und dann die Konfusionsmatrix zwischen den tatsächlichen Etikettendaten und den vorhergesagten Etikettendaten gezeichnet wird, um die Wirksamkeit des vorgeschlagenen Systems zu überprüfen.
In einer Ausführungsform wird die Leistung der vom vorgeschlagenen System durchgeführten Klassifizierung anhand der Parameter der Konfusionsmatrix auf der Grundlage verschiedener Parameter bewertet, wobei die Parameter Genauigkeit, Matthews-Korrelationskoeffizient (MCC) und Kappa-Score unter Verwendung der Konfusionsmatrix berechnet werden.
2A und 2B veranschaulichen den Arbeitsablauf des vorgeschlagenen Systems für die Klassifizierung hyperspektraler Bilder und den Prozess der Merkmalsfusion von zwei vortrainierten 3D-Faltungsnetzwerkmodellen gemäß einer Ausführungsform der vorliegenden Offenbarung. 2A stellt den Arbeitsablauf des vorgeschlagenen Systems dar, und 2B zeigt den Prozess der Merkmalsfusion und der Klassifizierungsschicht.
Der Hyperspektraldatensatz (202) wird sowohl als Trainingsdatensatz (204) als auch als Testdatensatz (206) verwendet, wobei der Datensatz Spektralbänder und Spektralbilder enthält, wobei Spektralbänder n-dimensionale ID-Pixelvektoren und Spektralbilder 2D-Pixelvektoren im Bildformat sind. Der Datensatz wird aus den drei Datensätzen Indian Pine, University of Pavia und Aerial Image Dataset (AID) gewonnen. Indian Pine und University of Pavia bestehen aus 145 x 145 Pixeln und 220 Spektralreflexionsbändern mit Wellenlängen zwischen 0.4-2.5 µm und 16 Klassen des Testgeländes Indian Pines im nordwestlichen Indiana, das mit dem Sensor AVIRIS erfasst wurde.Der Datensatz der Universität Pavia umfasst einen Datensatz mit 610 x 340 Pixeln, 9 Klassen und 103 Spektralbändern. Der Luftbilddatensatz wird von der Universität Wuhan in Google Earth-Bildern gesammelt, wobei jede Szene im Datensatz 600 x 600 Pixel und eine räumliche Auflösung von 0.5 bis 8 m hat. Dieser Datensatz enthält 10.000 Bilder, die in 30 semantische Kategorien unterteilt sind, und in jeder Klasse befinden sich etwa 220 bis 420 Bilder, darunter Flughafen, unbewachsenes Land, Baseballfeld und Strand.
Sobald der Datensatz gesammelt ist, wird er in 70-30 Prozent aufgeteilt, wobei 70 % des Datensatzes für das Training und die restlichen 30 % für das Testen des trainierten Modells für die Klassifizierung verwendet werden.
Der erste Schritt des Modells ist die Initialisierung, bei der das Spektralband und die Bilder gesammelt und vorbereitet werden und die Daten aus Rohdatenwerten aus dem Standarddatensatz gekennzeichnet werden. Die Eingabedaten werden zunächst in einer Vorverarbeitungsphase (102) vorverarbeitet, in der die normalisierten Werte des gesamten Eingabesatzes berechnet werden und die Eingabedaten auf einen bestimmten Bereich skaliert werden.Nach der Durchführung der Vorverarbeitung (102) der Eingabedaten wird die Merkmalsextraktion (208) durchgeführt, um Merkmale aus den vorverarbeiteten Daten zu extrahieren und dann den trainierten Merkmalsdatensatz (210) vorzubereiten, und für die Extraktion von Merkmalen werden zwei vortrainierte Faltungsneuronale-Netz-Modelle verwendet, wobei es sich bei den Modellen um Inception V3 und VGG16 handelt und die Merkmalsfusion dieser beiden Modelle für die Merkmalsextraktion (208) verwendet wird, die in 2B zusammen mit dem Klassifizierungsprozess dargestellt ist. Das Modell der Merkmalsfusion besteht aus vier verschiedenen Schichten, nämlich Eingabe, Merkmal, Klassifizierung und Ausgabe. Im Prozess der Merkmalsfusion, wie in 2B dargestellt, werden die Eingabe-, Ausgabe- und Zwischeneigenschaften der Schichten des Modells extrahiert, und dann erhält die letzte Fusionsschicht des Modells alle Merkmale auf niedriger, mittlerer und hoher Ebene, und dann wird die Aktivierungsfunktion angewendet, um einen Merkmalsdatensatz zu erhalten, der schließlich für die Durchführung weiterer Operationen vorbereitet wird. Der vorbereitete Merkmalsdatensatz enthält extrahierte Merkmale wie Kanten, Kleckse, die Merkmale auf niedriger Ebene sind, und Objekte und Ereignisse, die Merkmale auf hoher Ebene sind, wobei die Merkmale auf hoher Ebene über die Merkmale auf niedriger Ebene geschichtet werden.
Nach der Merkmalsextraktion erfolgt die Klassifizierung der Bilder mit Hilfe von zwei auf maschinellen Lernmodellen (212) basierenden Klassifizierern, nämlich dem neuronalen Netzwerk Support Vector Machine (SVMNNet) und dem neuronalen Netzwerk Multi-layer Perceptron (MLPNNet), zusammen mit dem Grid Search Hyperparameters Tuning (GSHT) für die Abstimmung der Hyperparameter (214), das zur Maximierung der Klassifizierungsgenauigkeit mit Hilfe der K-Fold-Validierungs-Lernmethode (K = 10) verwendet wird. Während der Abstimmung der Hyperparameter wird der Bereich für die möglichen Werte aller Hyperparameter definiert und ihre Probenahme erfolgt mit Hilfe der CV-Funktion der Rastersuche. Danach wird die beste Punktzahl unter allen Hyperparametern ausgewertet und das Modell mit Hilfe der K-fold Validation Learning Method validiert.
In der Trainingsphase des Modells (216) werden die Parameter für die Klassifikatoren initialisiert und dann werden die Merkmalsdaten und die Beschriftungsdaten für den Trainingsdatensatz ebenfalls initialisiert und dann wird das Modell für den MLP-NNet-Algorithmus trainiert und dann wird die Validierung des Modells (218) mit Hilfe der K-Fold-Validierung durchgeführt und wenn das Modell erfolgreich validiert wird, dann wird es gespeichert, andernfalls wird der gesamte Prozess der Merkmalsentwicklung noch einmal wiederholt.Danach erhält man ein trainiertes Modell
Sobald das Modell trainiert ist, wird es mit einem Testmerkmal-Datensatz (220) getestet, und die Ergebnisse sind eine vorhergesagte Ausgabe (222), die nach der Durchführung der Klassifizierung des trainierten Modells (224) erhalten wird. Zur Überprüfung der Effizienz des Systems wird eine Konfusionsmatrix zwischen den tatsächlichen Etikettendaten und den vorhergesagten Etikettendaten erstellt. Auf der Grundlage der Konfusionsmatrix wird die Leistung der Klassifizierung bewertet.
In einer Ausführungsform wird die Bewertung des vorgeschlagenen Systems auf einem Laptop ausgeführt, der mit 16 GB Speicher i5-8500 CPU und 64-Bit Windows 10 mit Python als Programmiersprache ausgestattet ist. Die exakten verschiedenen Merkmale und die Klassifizierung werden durch die Verwendung der Anaconda-Distribution mit Keras, Tensorflow und Scikit Learn Toolbox durchgeführt.
In einer Ausführungsform zeigte der Vergleich der Ergebnisse der Genauigkeit des konventionellen Ansatzes, GSHT, und eines neuartigen Ansatzes mit PT-3DGSHT-Maschinenlernalgorithmus für drei Datensätze, dass die Genauigkeit des neuartigen Ansatzes höher ist als die des konventionellen Ansatzes, vor allem im Fall des Spektralbildes und des AID-Datensatzes. Es zeigt sich, dass von beiden Ansätzen des maschinellen Lernens das mehrschichtige neuronale Perzeptron-Netzwerk (MLPNNet) der beste Ansatz ist.
In einer Ausführungsform zeigen die Ergebnisse des Matthews-Korrelationskoeffizienten (MCC) und des Kappa-Scores deutlich, dass die Leistung im Falle des neuartigen Ansatzes besser ist als die des herkömmlichen Ansatzes.
Die Figuren und die vorangehende Beschreibung geben Beispiele für Ausführungsformen. Der Fachmann wird verstehen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ dazu können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. So kann beispielsweise die Reihenfolge der hier beschriebenen Prozesse geändert werden und ist nicht auf die hier beschriebene Weise beschränkt. Außerdem müssen die Handlungen eines Flussdiagramms nicht in der gezeigten Reihenfolge ausgeführt werden; auch müssen nicht unbedingt alle Handlungen durchgeführt werden. Auch können diejenigen Handlungen, die nicht von anderen Handlungen abhängig sind, parallel zu den anderen Handlungen ausgeführt werden. Der Umfang der Ausführungsformen ist durch diese spezifischen Beispiele keineswegs begrenzt. Zahlreiche Variationen sind möglich, unabhängig davon, ob sie in der Beschreibung explizit aufgeführt sind oder nicht, wie z. B. Unterschiede in der Struktur, den Abmessungen und der Verwendung von Materialien. Der Umfang der Ausführungsformen ist mindestens so groß wie in den folgenden Ansprüchen angegeben.
Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf bestimmte Ausführungsformen beschrieben. Die Vorteile, Vorzüge, Problemlösungen und Komponenten, die dazu führen können, dass ein Vorteil, ein Nutzen oder eine Lösung auftritt oder ausgeprägter wird, sind jedoch nicht als kritisches, erforderliches oder wesentliches Merkmal oder Komponente eines oder aller Ansprüche zu verstehen.
Bezugszeichenliste

100: Ein System zur Klassifizierung von Fernerkundungsbildern unter Verwendung fusionierter Faltungsmerkmale mit maschinellem Lernen
102: Eine Vorverarbeitungseinheit
104: Eine Merkmalsverarbeitungseinheit
106: Eine Verarbeitungseinheit zur Klassifizierung
108: Eine Verarbeitungseinheit für die Gittersuche
110: Eine Validierungsverarbeitungseinheit
200: Etiketten trainieren
202: Hyperspektraldatensatz
204: Trainingsdatensatz
206: Testdatensatz
208: Merkmalsextraktion
210: Trainieren des Merkmalsdatensatzes
212: Maschinelles Lernmodell
214: Abstimmung der Hyperparameter
216: Training des Modells
218: Validierung des Modells
220: Testmerkmal-Datensatz
222: Vorausgesagte Ausgabe
224: Klassifizierung des trainierten Modells
302: 3D ConvNet VGG 16 Merkmalsebene
304: 3D ConvNet Inception V3 Merkmalsebene
306: GSHT-(SVMNNet) und GSHT-(MLPNNet) Klassifizierungsschicht
308: Vorhergesagtes Etikett

Claims

Ein System zur Klassifizierung von Fernerkundungsbildern unter Verwendung von fusionierten Faltungsmerkmalen mit maschinellem Lernen, wobei das System umfasst: eine Vorverarbeitungseinheit zur Skalierung der Eingabedaten in einen bestimmten Bereich nach Berechnung des normierten Wertes aller Eingabesätze und der Skalierung, wobei während der Vorverarbeitung die Pixeldaten und die Grundwahrheitsdaten aus den Rohdaten für das Spektralband gewonnen werden und die Skalierung und Bildgrößenänderung durchgeführt werden; eine Merkmalsverarbeitungseinheit zum Extrahieren von Merkmalen aus den vorverarbeiteten Eingabedaten von Spektralband- und Spektralbildern, wobei eine Merkmalsfusion von zwei vortrainierten 3DConv. Net. Modelle, nämlich Inception V3 und VGG 16, für die Merkmalsextraktion verwendet wird, und wobei alle Merkmale auf niedriger, mittlerer und hoher Ebene extrahiert werden und ein Merkmalsdatensatz vorbereitet wird, eine Klassifizierungsverarbeitungseinheit zum Durchführen einer auf maschinellem Lernen basierenden Klassifizierung und zum Erhalten einer effektiven Vorhersage der semantischen Kategorie einer Szene, wobei zwei auf maschinellem Lernen basierende Klassifizierer, nämlich ein Support Vector Machine Network (SVMNet) und ein Multi-Layer Perceptron Neural Network (MLPNNet), zur Klassifizierung verwendet werden; eine Gittersuchverarbeitungseinheit zur Feinabstimmung der Hyperparameter, um eine maximale Genauigkeit zu erreichen, wobei die Gittersuche zur Hyperparameterabstimmung verwendet wird, um die besten Werte für das Modell zu finden, und dies die Gesamtleistung bestimmt; und eine Validierungsverarbeitungseinheit zur Validierung des Systems unter Verwendung der K-fachen Kreuzvalidierungs-Lernmethode, wobei K = 10 ist, und wenn das Modell erfolgreich validiert wird, wird das trainierte Modell gespeichert und dann unter Verwendung einiger Eingabebilder getestet.
System nach Anspruch 1, wobei Hyperspektralbilder als Eingangsbilder verwendet werden, die von Indian Pines, der Universität Pavia und dem AID-Datensatz stammen, wobei die Datensätze Spektralbänder und Spektralbilder umfassen und wobei der Datensatz in einem Verhältnis von 70:30 aufgeteilt wird, wobei 70 % der Daten zum Trainieren des Modells und 30 % des Datensatzes zum Testen verwendet werden.
Das System nach Anspruch 1, wobei die Kombination von zwei vortrainierten Modellen zur Merkmalsextraktion aus vier Schichten besteht, nämlich Eingabe, Merkmal, Klassifizierung und Ausgabe, wobei eine Fusionsschicht die Eingabe- und Merkmalsschichten und die Merkmalsschicht dazu bringt, Merkmale zu erhalten und sie in einer Hierarchie von Merkmalen auf niedriger bis hoher Ebene zu gruppieren, die die räumlichen und spektralen Merkmale der Eingabedaten definiert, wobei die Merkmalsextraktion auf niedriger Ebene unter Verwendung von Bildverarbeitungstechniken und die Merkmalsextraktion auf hoher Ebene unter Verwendung von maschinellen Lerntechniken durchgeführt wird.
System nach Anspruch 3, wobei Merkmale auf niedriger Ebene als Bilddetails wie Linien oder Punkte definiert werden können und sie unter Verwendung von Faltungsfiltern wie SIFT oder HOG erkannt werden können und die Merkmale auf hoher Ebene Objekte und Ereignisse sind und zu ihrer Erkennung Merkmale auf hoher Ebene auf die Merkmale auf niedriger Ebene geschichtet werden, wobei die anfänglichen Schichten Filter zur Erkennung von Linien, Punkten und Kurven entwickeln und die späteren Schichten die allgemeinen Objekte und Formen erkennen.
System nach Anspruch 1, wobei der Merkmalsentwicklungsprozess noch einmal wiederholt wird, wenn die Validierung des Modells nicht erfolgreich ist, wobei der Merkmalsentwicklungsprozess entweder mit dem Vorverarbeitungsschritt oder dem Klassifizierungsschritt beginnt.
Das System nach Anspruch 1, wobei das Testen des trainierten Modells durch Initialisieren der Merkmalsdaten für den Testdatensatz und anschließendes Laden des trainierten Modells erfolgt, das die Ergebnisse vorhersagt, ob seine äquivalente Kennzeichnung und dann die Konfusionsmatrix zwischen den tatsächlichen Kennzeichnungsdaten und den vorhergesagten Kennzeichnungsdaten zur Überprüfung der Wirksamkeit des vorgeschlagenen Systems aufgezeichnet werden.
System nach Anspruch 1, wobei die Leistung der vom vorgeschlagenen System durchgeführten Klassifizierung anhand der Parameter der Konfusionsmatrix auf der Grundlage verschiedener Parameter bewertet wird, wobei die Parameter Genauigkeit, Matthews-Korrelationskoeffizient (MCC) und Kappa-Score unter Verwendung der Konfusionsmatrix berechnet werden.