DE10048308A1 - Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten - Google Patents

Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten

Info

Publication number
DE10048308A1
DE10048308A1 DE10048308A DE10048308A DE10048308A1 DE 10048308 A1 DE10048308 A1 DE 10048308A1 DE 10048308 A DE10048308 A DE 10048308A DE 10048308 A DE10048308 A DE 10048308A DE 10048308 A1 DE10048308 A1 DE 10048308A1
Authority
DE
Germany
Prior art keywords
neural network
image data
data
feature data
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE10048308A
Other languages
English (en)
Other versions
DE10048308B4 (de
Inventor
Uwe Krogmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Diehl BGT Defence GmbH and Co KG
Original Assignee
Bodenseewerk Geratetechnik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bodenseewerk Geratetechnik GmbH filed Critical Bodenseewerk Geratetechnik GmbH
Priority to DE10048308A priority Critical patent/DE10048308B4/de
Publication of DE10048308A1 publication Critical patent/DE10048308A1/de
Application granted granted Critical
Publication of DE10048308B4 publication Critical patent/DE10048308B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Datenreduktion und Objektklassifikation von als Pixelmuster vorliegenden eingangsseitigen Bilddaten. Der Erfindung liegt die Aufgabe zu Grunde, ein einfaches Verfahren bzw. eine einfach und wirkungsvoll arbeitende Vorrichtung zur Datenreduktion von als Pixelmuster vorliegenden Bilddaten zu schaffen. Weiterhin soll die Klassifizierung von Objekten in einem Pixelmuster erleichtert werden. Das geschieht dadurch, daß die eingangsseitigen Bilddaten auf ein erstes neuronales Netz (10) aufgeschaltet werden, dessen verborgene Schicht (52) wesentlich weniger Prozessoreinheiten (54.1 bis 54.m) enthält als die Eingangsschicht (48), wobei die Prozessoreinheiten (54.1 bis 54.m) der zweiten Schicht eine entsprechend reduzierte Anzahl (m) von Merkmalsdaten liefert, die Merkmalsdaten auf ein zweites neuronales Netz (18) aufgeschaltet werden, dessen Schicht (56, 86) wesentlich mehr Prozessoreinheiten (58.1 bis 58.n) enthält als die Eingangsschicht (52; 80), wobei die Prozessoreinheiten (58.1 bis 58.n; 84.1 bis 84.n) der Schicht (86) rekonstruierte Bilddaten erzeugen, und die Gewichte der neuronalen Netze (14, 18) durch Trainieren so gewählt werden, daß die rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen. Die reduzierten Merkmalsdaten werden weiterhin auf ein drittes neuronales Netz (24) aufgeschaltet. Das dritte neuronale Netz (24) wird zur Klassifikation von Objekten aus den reduzierten ...

Description

Die Erfindung betrifft ein Verfahren zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten.
Die Erfindung betrifft weiterhin eine Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten.
Die Erfindung betrifft weiterhin ein Verfahren und eine Vorrichtung zur Datenreduktion solcher Bilddaten.
Bilddaten liegen üblicherweise zunächst als "Pixelmuster" vor. Das ist ein Raster von Bildpunkten, bei welchem jedem dieser Bildpunkte ein Grauwert, also eine Bildhelligkeit, und ggf. ein Farbwert zugeordnet ist. Typische Pixelmuster werden von einem Mosaikdetektor erzeugt, der aus einer zweidimensionalen Anordnung von Detektorelementen besteht. Der Mosaikdetektor kann auch im Infraroten arbeiten, so daß er ein Infrarotbild erfaßt. Die Signale der verschiedenen Detektorelemente werden digitalisiert, d. h. jedes Detektorelement liefert dann ein Datenwort von mehreren Bit. Solche Pixelmuster liefern daher sehr große Datenmengen.
Das Pixelmuster stellt Objekte dar, beispielsweise ein Flugzeug eines bestimmten Typs. Ein solches Objekt kann unter verschiedenen Aspektwinkeln und in verschiedenen Entfernungen beobachtet werden. Dementsprechend erscheint das Objekt in dem Pixelbild mit unterschiedlichen Konturen und je nach der Entfernung unterschiedlichen Abmessungen. Das menschliche Auge und das menschliche Gehirn sind in der Lage, ein solches Objekt trotzdem zu identifizieren, indem bestimmte charakteristische Merkmale des Objekts erkannt werden. Ein Flugzeug hat einen Rumpf und quer zu diesem sich erstreckende Tragflächen. Bei einem Kampfflugzeug ist der Rumpf kurz und die Tragflächen sind z. B. deltaförmig. Es bietet große Schwierigkeiten, eine solche Klassifizierung von Objekten aus einem Pixelbild durch Bildverarbeitung vorzunehmen. Man muß dazu aus dem Pixelbild Merkmale extrahieren, also z. B. Kanten und Begrenzungslinien durch Vergleich von Pixeln mit ihren Umgebungspixeln erkennen, was aufwendige Algorithmen erfordert. Aus so gewonnenen Merkmalen kann dann ggf. in einem nächsten Schritt eine Klassifizierung eines in dem Pixelbild dargestellten Objekts erfolgen. Erschwert wird dies auch durch die großen Datenmengen des Pixelbildes.
Die in Pixelmustern gespeicherte Information ist in hohem Maße redundant. Es sind daher Algorithmen zur Bildkompression bekannt. Diese Algortithmen nutzen z. B. die Tatsache aus, daß in dem Bild häufig Flächen mit gleichen Grau- oder Farbwerten enthalten sind. Jede dieser Flächen umfaßt eine Vielzahl von Pixeln. Man braucht dann nicht jedes Pixel einzeln zu speichern. Folgen in einer Zeile des Pixelmusters beispielsweise vierzig Mal Grauwerte -0- aufeinander, dann kann man dies in der Form "40×-0-" speichern und übertragen. Die Bildkompression erfolgt mit Hilfe von programmierten Algorithmen. Der Rechenaufwand und die Rechenzeit dafür ist erheblich.
Es ist weiter bekannt, Bilder statt durch ein Pixelmuster durch Ecken, Kanten, Kreise und sonstige Begrenzungskurven zu definieren und so zu speichern und zu übertragen. Das ist eine Alternative zu Pixelmustern, die weniger Speicherplatz erfordert. Eine solche "Vektorgraphik" wird insbesondere für technische Zeichnungen beim rechnergestützten Konstruieren benutzt.
Der Erfindung liegt die Aufgabe zu Grunde, aus Bilddaten, die als Pixelmuster vorliegen, auf einfache Weise Merkmalsdaten zu gewinnen, die wiederum eine Klassifizierung eines in dem Pixelmuster dargestellten Objektes dienen.
Erfindungsgemäß wird die erstgenannte Aufgabe dadurch gelöst, daß
  • a) die eingangsseitigen Bilddaten auf ein erstes neuronales Netz aufgeschaltet werden, wobei die Prozessoreinheiten einer Schicht eine Anzahl von Merkmalsdaten liefert,
  • b) die Merkmalsdaten auf ein zweites neuronales Netz aufgeschaltet werden, wobei die Prozessoreinheiten einer Schicht des zweiten neuronalen Netzes aus den Merkmalsdaten rekonstruierte Bilddaten erzeugen, und
  • c) die Gewichte der neuronalen Netze durch Trainieren so gewählt werden, daß die rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen.
Aus den Bilddaten des Pixelbildes werden durch das erste neuronale Netz "Merkmalsdaten gewonnen, indem der Ausgang jeder Prozessoreinheit der Eingangsschicht des ersten neuronalen Netzes auf jede Prozessoreinheit der zweiten Schicht dieses neuronalen Netzes aufgeschaltet wird. Aus den so erhaltenen Merkmalsdaten werden durch das zweite neuronale Netz rekonstruierte Bilddaten erzeugt. Die beiden neuronalen Netze werden nun so trainiert, daß die so rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen. Wenn das der Fall ist, dann ist sichergestellt, daß die "Merkmalsdaten" tatsächlich den gesamten Bildinhalt des eingangsseitigen Pixelbildes repräsentieren. Die Bedingung, daß die rekonstruierten Bilddaten den eingangsseitigen Bilddaten entsprechen stellt eine Art Rückführung dar.
Die so erhaltenen Merkmalsdaten haben keinen Bezug zu konkreten Bildelementen wie Kanten oder Begrenzungslinien.
Die so erhaltenen Merkmalsdaten können dann weiterhin auf ein drittes neuronales Netz aufgeschaltet werden. Das dritte neuronale Netz wird zur Klassifikation von Objekten aus den Merkmalsdaten programmiert. Das dritte neuronale Netz wird dann so trainiert, daß es bei Eingabe der reduzierten Merkmalsdaten an verschiedenen, der verschiedenen zu erwartenden Objekten zugeordneten Ausgängen - im Idealfall durch logisch "1" oder logisch "0" - signalisiert, ob das Pixelmuster ein Objekt vom Typ 1, ein Objekt vom Typ 2 usw. zeigt. Das Trainieren des dritten neuronalen Netzes erfolgt in der Weise, daß dem das eingangsseitige Pixelmuster erzeugenden Mosaikdetektor in einem Lernprozeß nacheinander die verschiedenen Typen von Objekten unter verschiedenen Aspektwinkeln "gezeigt" werden. Die Gewichte des dritten neuronalen Netzes werden dann nach einem Lernalgorithmus variiert, bis die jeweils richtigen Ausgangsdaten erhalten werden.
Die Erfindung gestattet eine Datenreduktion, wenn die Anzahl der Ausgänge des ersten neuronalen Netzes und dementsprechend die Anzahl der Eingänge des zweiten neuronalen Netzes wesentlich kleiner als die Anzahl der Eingänge des ersten neuronalen Netzes und der Ausgänge des zweiten neuronalen Netzes ist. Das ist wegen der Redundanz der Bildinformationen in der Pixelmatrix im allgemeinen möglich. Das erste neuronale Netz liefert dann eine wesentlich reduzierte Anzahl von Merkmalsdaten, die aber, weil sich daraus die Pixelmatrix weitestgehend rekonstruieren läßt, den gesamten Bildinhalt repräsentieren. Aus den so "automatisch" ohne Bezugnahme auf konkrete Bildinhalte wie Begrenzungslinien etc. erhaltenen, in ihrer Anzahl gegenüber den Bilddaten des Pixelbildes reduzierten Merkmalsdaten kann durch das dritte neuronale Netz mit geringerem Hardware- und Trainingsaufwand eine Klassifikation des Objekts erfolgen.
Diese Datenreduktion kann ausgenutzt werden, um die Bilddaten mit geringerem Aufwand an Speicherplatz zu speichern oder die Bilddaten mit geringerem Aufwand an Übertragungskapazität fernzuübertragen.
Die Erfindung verwendet dabei keinen Kompressions-Algorithmus der oben erwähnten Art. Es wird auch nicht versucht, irgendwelche Kanten oder sonstigen Begrenzungslinien in dem Bild zu erkennen. Es wird lediglich die Tatsache ausgenutzt, daß Pixelmuster den Bildinhalt generell redundant wiedergeben. Der Bildinhalt kann durch wesentlich weniger Parameter eindeutig wiedergegeben werden als das Pixelmuster Pixel enthält. Aus diesem Grund wird das erste neuronale Netz vorgesehen, das wesentlich mehr Eingänge als Ausgänge enthält. Die Anzahl der Ausgänge des ersten neuronalen Netzes bestimmt die - reduzierte - Anzahl der erhaltenen Merkmalsdaten. Ein zweites neuronales Netz enthält eine relativ geringe Anzahl von Eingängen, vorzugsweise gleich der Anzahl der Ausgänge des ersten neuronalen Netzes, und eine im Vergleich dazu große Anzahl von Ausgängen. Die neuronalen Netze werden dann in der beschriebenen Weise trainiert.
Die Erfindung betrifft auch eine Vorrichtung zur Durchführung des beschriebenen Verfahrens. Diese Vorrichtung ist Gegenstand der Patentansprüche 6 bis 10.
Ausführungsbeispiele der Erfindung sind nachstehend unter Bezugnahme auf die zugehörigen Zeichnungen näher erläutert.
Fig. 1 ist ein Blockdiagramm und zeigt den Grundaufbau einer Vorrichtung zur Datenreduktion von als Pixelmuster vorliegenden eingangsseitigen Bilddaten, wobei die durch die Datenreduktion erhaltenen Merkmalsdaten zur Klassifikation von Objekten benutzt werden,
Fig. 2 ist ein Blockdiagramm ähnlich Fig. 1, wobei die Merkmalsdaten fernübertragen werden,
Fig. 3 veranschaulicht die Struktur des ersten und des zweiten neuronalen Netzes, durch welche die Datenreduktion auf die Merkmalsdaten bzw. die Rekonstruktion der Bilddaten aus den Merkmalsdaten erfolgt,
Fig. 4 veranschaulicht die Struktur des ersten und des dritten neuronalen Netzes, durch welche die Datenreduktion auf die Merkmalsdaten bzw. die Klassifikation von Objekten erfolgt,
Fig. 5 veranschaulicht die Struktur des ersten und des zweiten neuronalen Netzes, Fig. 6 veranschaulicht das Trainieren des ersten und des zweiten neuronalen Netzes,
Fig. 7 veranschaulicht das Trainieren des dritten neuronalen Netzes für die Klassifikation.
In Fig. 1 ist mit 10 ein Bild bezeichnet, das durch eine Pixelmatrix dargestellt ist. Es kann sich dabei um ein "elektronisches Bild" handeln, das durch einen Mosaikdetektor mit einer zweidimensionalen Anordnung von Detektorelementen erzeugt wird. Das elekktronische Bild kann aber auch durch punkt- oder zeilenweises Abtasten einer Objektszene erhalten werden. Es ergibt sich dabei eine Vielzahl von Bilddaten in Form von Grau- und/oder Farbwerten der einzelnen Pixel, die durch Pfeile 12 dargestellt sind. Diese Bilddaten werden auf die Eingangsschicht eines ersten neuronalen Netzes 14 aufgeschaltet. Die Anzahl der Eingänge oder Prozessoreinheiten der Eingangsschicht des neuronalen Netzes 14 kann der Anzahl der von der Pixelmatrix gelieferten Bilddaten entsprechen. Es kann aber schon eingangsseitig eine Datenreduktion erfolgen, indem z. B. vier oder sechzehn benachbarte Pixel zusammengefaßt werden, wobei z. B. der Mittelwert der Grauwerte dieser Pixel auf das erste neuronale Netz 14 aufgeschaltet wird.
Das neuronale Netz 14 bewirkt eine Datenreduktion. Zu diesem Zweck weist das neuronale Netz 14 in einer zweiten Schicht wesentlich weniger Prozessoreinheiten auf als in seiner Eingangsschicht. Dementsprechend liefert das erste neuronale Netz 14 an seinen Ausgängen 16 eine wesentlich reduzierte Datenmenge als "Merkmalsdaten". Diese Merkmalsdaten werden auf ein zweites neuronales Netz 18 geschaltet. Das zweite neuronale Netz 18 hat eine Eingangsschicht mit Eingängen oder Prozessoreinheiten, deren Anzahl der Anzahl der Prozessoreinheiten in der verborgenen Schicht des ersten neuronalen Netzes 14, also der Anzahl der Merkmalsdaten entspricht. Das zweite neuronale Netz 18 hat eine verborgene Schicht mit Ausgängen, deren Anzahl wesentlich größer ist als die Anzahl der Eingänge oder der Prozessoreinheiten in der Eingangsschicht des zweiten neuronalen Netzes 18. Vorzugsweise entspricht die Anzahl der Ausgänge des zweiten neuronalen Netzes 18 der Anzahl der Eingänge oder Prozessoreinheiten der Eingangsschicht des ersten neuronalen Netzes 14, also der Anzahl der Bilddaten 12 der Pixelmatrix. Die Ausgänge des zweiten neuronalen Netzes 18 liefern Bilddaten, die durch Pfeile 20 dargestellt sind. Diese Bilddaten 20 liefern ein rekonstruiertes Bild 22 wieder in Form einer Pixelmatrix. Zunächst wird dieses rekonstruierte Bild 22 nicht dem eingangsseitigen Bild 10 entsprechen. Die Gewichte der neuronalen Netze 14 und 18 werden nun nach einem Lernalgorithmus so trainiert, daß das rekonstruierte Bild 22 dem eingangsseitigen Bild entspricht. Dann repräsentieren die Merkmalsdaten trotz ihrer reduzierten Anzahl den gesamten Bildinhalt des eingangsseitigen Bildes 10, da sich dieser Bildinhalt aus diesen Merkmalsdaten in dem rekonstruierten Bild 22 rekonstruieren ließ. Diese Rekonstruktion ist möglich, da, wie eingangs erläutert, die Darstellung von Bildern in einer Pixelmatrix üblicherweise redundant und eine Datenreduktion möglich ist.
Die beschriebene Datenreduktion der Bilddaten kann dazu dienen, den Bildinhalt mit geringem Aufwand an Speicherplatz zu speichern. Es werden nur die "Merkmalsdaten" gespeichert. Aus diesen Merkmalsdaten kann mittels des zweiten neuronalen Netzes 18 jederzeit die Pixelmatrix rekonstruiert werden. Die Datenreduktion kann aber auch dazu benutzt werden, den Bildinhalt fernzuübertragen. Auch dabei brauchen nur die Merkmalsdaten übertragen zu werden. Aus diesen fernübertragenen Merkmalsdaten können mittels des zweiten neuronalen Netzes die Bilddaten für die Pixelmatrix jederzeit rekonstruiert werden.
Die reduzierten Merkmalsdaten können aber vorzugsweise auch benutzt werden, um Objekte, die durch die Pixelmatrix dargestellt werden, zu klassifizieren. Zu diesem Zweck sind die Merkmalsdaten zusätzlich auf Eingänge oder die Eingangsschicht eines dritten neuronalen Netzes 24 aufgeschaltet. Das ist durch die Verbindung 26 und die Pfeile 28 dargestellt. Das dritte neuronale Netz 24 hat Ausgänge 30.1 bis 30.j, die je einem Typ von möglichen Objekt zugeordnet sind, das durch die Pixelmatrix dargestellt ist. Ein Ausgang 32 ist dem Hintergrund zugeordnet. Das dritte neuronale Netz 24 wird so trainiert, daß es aus den aufgeschalteten Merkmalsdaten Objekte erkennt und z. B. wenn die Pixelmatrix ein Objekt vom Typ "1" darstellt, am Ausgang 30.1 eine logische "1" und an den übrigen Ausgängen 30.2 bis 30.j eine logische "0" liefert.
Fig. 2 zeigt eine ähnliche Anordnung, bei welcher die Merkmalsdaten fernübertragen werden. Entsprechende Teile tragen die gleichen Bezugszeichen wie in Fig. 1.
Bei der Ausführung nach Fig. 2 werden wie in Fig. 1 durch Datenreduktion in dem neuronalen Netz Merkmalsdaten gewonnen, die hier durch einen Pfeil 34 dargestellt sind. Die Merkmalsdaten sind auf einen Sender 36 aufgeschaltet. Der Sender 36 übermittelt die Merkmalsdaten über eine Übertragungsstrecke 38 zu einem Empfänger 40. Die Datenübertragung kann je nach Anwendungsfall mittels irgendwelcher bekannter Mittel wie Draht, drahtlose Übertragung, Lichtleiter, Laser usw. erfolgen. Die Datenübertragung kann in irgendeiner bekannten Form wie analog, digital, elektrisch, optisch, verschlüsselt, unverschlüsselt usw. erfolgen, wieder je nach Anwendungsfall und dem benutzten Übertragungsmedium. Die Merkmalsdaten werden von dem Empfänger 40 auf das zweite neuronale Netz 18 aufgeschaltet. Das ist in Fig. 2 durch Pfeil 42 dargestellt. Das zweite neuronale Netz 18 rekonstruiert aus den Merkmalsdaten wie in dem Beispiel von Fig. 1 den Bildinhalt in Form einer Pixelmatrix.
Wie in Fig. 2 durch Pfeil 44 dargestellt ist, sind die Merkmalsdaten außerdem, wie in Fig. 1, auf ein drittes neuronales Netz 24B aufgeschaltet, welches eine Klassifikation des durch die Pixelmatrix dargestellten Objektes vornimmt. Der Typ des Objektes wird in einem von den Ausgängen 30.1 bis 30.j und 32 des dritten neuronalen Netzes angesteuerten Display 46 zusätzlich zu dem Bild der Pixelmatrix angezeigt.
Fig. 2 zeigt auch eine Alternative. Nach dieser Alternative ist das dritte neuronale Netz 24A senderseitig angeordnet. Das dritte neuronale Netz 24A wird dann unmittelbar von den Merkmalsdaten am Ausgang des ersten neuronalen Netzes 14 beaufschlagt. Das ist in Fig. 2 durch die gestrichelte Verbindung 44A angedeutet. Die von dem dritten neuronalen Netz 24A an den Ausgängen 30.1A bis 30.jA und 32A gelieferte Klassifikation wird, wie gestrichelt dargestellt, dem Sender 36 zugeführt und von diesem mit übertragen.
Fig. 3 zeigt eine vorteilhafte Struktur des ersten und des zweiten neuronalen Netzes 14 und 18.
Das neuronale Netz 14 enthält eine Eingangsschicht 48 mit einer Anzahl n von Prozessoreinheiten 50.1 bis 50.n und eine zweite Schicht 52 mit einer Anzahl m von Prozessoreinheiten 54.1, 54.2 . . . 54.m. Dabei ist m « n. Das neuronale Netz 14 liefert also m Ausgänge. Das sind die m Merkmalsdaten.
Bei der Ausführung nach Fig. 3 bildet die zweite Schicht 52 mit den m Prozessoreinheiten 54.1 . . . 54.m des ersten neuronalen Netzes 14 zugleich die Eingangsschicht des zweiten neuronalen Netzes 18. Das zweite neuronale Netz 18 weist in einer Schicht 56 wieder n Prozessoreinheiten auf. 58.1, 58.2 . . . 58.n auf. Die Ausgänge aller m Prozessoreinheiten 54.1 . . .54.m der zweiten Schicht 52 des ersten neuronalen Netzes 52 sind auf alle Eingänge der n Prozessoreinheiten 58.1 . . . 58.n der Schicht 56 des zweiten neuronalen Netzes geschaltet. Die Prozessoreinheiten 58.1 . . . 58.n liefern die n Bilddaten 20.
Fig. 4 zeigt die Strukturen des ersten und des dritten neuronalen Netzes 14 bzw. 18. Entsprechende Teile tragen die gleichen Bezugszeichen wie in Fig. 1 bis 3.
Die von dem ersten neuronalen Netz 14 an den Ausgängen der Prozessoreinheiten 54.1 bis 54.m gelieferten Merkmalsdaten liegen an der Eingangsschicht 60 des dritten neuronalen Netzes 24 mit m Prozessorelementen 62.1, 62.2 . . . 62.m an. Das dritte neuronale Netz ist ein dreischichtiges Netz mit einer Eingangsschicht 60, einer verborgenen Schicht 64 und einer Ausgangsschicht 66. Die Ausgangsschicht 66 enthält j + 1 Prozessoreinheiten 68.1, 68.2 . . . 68.j und 70. Jede der Prozessoreinheiten 68.1 bis 68.j ist einem bestimmten Typ von Objekt zugeordnet. Die Prozessoreinheit 70 entspricht den Hintergrund. Das neuronale Netz ist so trainiert, daß für ein Objekt vom Typ "i", das durch die eingangsseitige Pixelmatrix dargestellt wird, im Idealfall an dem zugehörigen Ausgang "i" eine logische "1" erscheint, während die übrigen Ausgänge logisch "0" liefern.
Fig. 5 zeigt die Struktur des ersten und des zweiten neuronalen Netzes 14 und 18 bei Fernübertragung der Merkmalsdaten entsprechend Fig. 2.
Das neuronale Netz 14 enthält hier eine Eingangsschicht 72 mit n Prozessoreinheiten 74.1, 74.2 . . . 74.n und eine zweite Schicht 76 von m Prozessereinheiten 78.1, 78,2 . . . 78.m. Dabei ist wieder m « n. Der Ausgang jeder Prozessoreinheit der Eingangsschicht 72 ist mit während des Lernprozesses variablen Gewichten auf jede Prozessoreinheit der Schicht 76 aufgeschaltet. Das ist durch Pfeile angedeutet. Die Prozessoreinheiten der Schicht 76 bilden die Summe der gewichteten Ausgänge der Prozessoreinheiten 74.1 bis 74.n, wie durch das Summenzeichen Σ angedeutet ist und liefern als Ausgang jeweils eine Funktion f dieser Summe. Das ist die übliche Funktion neuronaler Netze. In dem Lernprozeß werden die Gewichte nach einem Lernalgorithmus schrittweise verändert, bis ein bestimmtes Kriterium, hier z. B. die Übereinstimmung von eingangsseitiger Pixelmatrix und rekonstruierter Pixelmatrix erfüllt ist.
Die Ausgänge der Prozessoreinheiten der Schicht 76 liefern die m Merkmalsdaten. Die Merkmalsdaten sind wie in Fig. 2 auf einen Sender 36 aufgeschaltet. Der Sender 36 überträgt die Merkmalsdaten über den Übertragungsweg 38 auf einen Empfänger 40. Durch den Empfänger 40 werden die Merkmalsdaten hier auf eine Eingangsschicht 80 des zweiten neuronalen Netzes 18 mit m Prozessoreinheiten 82.1, 82.2 . . . 82.m aufgeschaltet. Der Ausgang jeder Prozessoreinheit 82.1 bis 82.m der Eingangsschicht ist wieder mit während des Lernprozesses variablen Gewichten auf jede von n Prozessoreinheiten 84.1, 84.2 . . . 84.n einer zweiten Schicht 86 aufgeschaltet. Die Prozessoreinheiten 84.1 bis 84.n liefern rekonstruierte Bilddaten an Ausgängen 20 des zweiten neuronalen Netzes 18.
Fig. 6 veranschaulicht den Lernprozeß des neuronalen Netzes zur Daten-Reduktion und Rekonstruktion von Fig. 3. Entsprechende Teile sind mit den gleichen Bezugszeichen versehen wie dort.
Auf die Prozessoreinheiten 50.1 bis 50.n der Eingangsschicht 48 werden nacheinander Vektoren b von Bilddaten aufgeschaltet. An den Prozessoreinheiten 58.1 bis 58.n der Ausgangsschicht 56 erscheint dann ein Vektor . Die Vektoren b und repräsentieren die Bilddaten des eingangsseitigen Pixelmusters bzw. des rekonstruierten Pixelmusters. Die Differenz, die in einem "Summierpunkt" 88 gebildet wird, steuert einen Lernvorgang, der durch eine Lernregel 90 bestimmt ist. Dieser Lernvorgang ist durch einen Pfeil 92 symbolisiert. Auf das neuronale Netz werden nacheinander eine Vielzahl von Bilddaten-Vektoren b aufgeschaltet und mit den rekonstruierten Bilddaten-Vektoren verglichen. Durch den Lernvorgang werden die Gewichte, mit denen die Ausgänge der Prozessorelemente 50.1 bis 50.n der Eingangsschicht 48 auf die Prozessorelemente 54.1 bis 54.m und die Ausgänge der Prozessorelemente 54.1 bis 54.m auf die Prozessorelemente 58.1 bis 58.n aufgeschaltet werden, schrittweise verändert, bis die Vektoren b und stets übereinstimmen. Dann liefern die m Ausgänge der Prozessorelemente 54.1 bis 54.m die Merkmalsvektoren, welche den gesamten Bildinhalt ohne oder mit verminderter Redundanz repräsentieren.
Fig. 7 veranschaulicht in ähnlicher Weise den Lernvorgang für das dritte neuronale Netz 24 zur Klassifikation von Objekten.
Das erste neuronale Netz 14, das in der im Zusammenhang mit Fig. 6 beschriebenen Weise trainiert ist liefert aus einem Vektor b der eingangsseitigen Bilddaten einen Merkmalsvektor m von Merkmalsdaten. Der Merkmalsvektor m ist auf das dritte neuronale Netz 24 aufgeschaltet, das nach Art von Fig. 4 aufgebaut ist. Das neuronale Netz 24 liefert einen "Klassifikationsvektor" k. Die Elemente des Klassifikationsvektors k sind die Ausgänge der Prozessorelemente 68.1 bis 68.j und 79. Dem neuronalen Netz 14 werden in dem Lernprozess nacheinander Bilddaten b verschiedener Objekte zugeführt. Jedem Typ von Objekt ist ein Element des Klassifikationsvektors k zugeordnet. Wenn das durch den Vektor b der Bilddaten dargestellte Objekt vom Typ "i" ist, dann sollte das diesem Typ "i" zugeordnete Element des Klassifikationsvektors "1" sein, während alle anderen Elemente "0" sind. Solche Klassifikationsvektoren werden zu jedem durch den Vektor b dargestellten Objekt an einem Eingang 94 als "Sollwerte" aufgeschaltet. Der von dem dritten neuronalen Netz aus dem Merkmalsvektor m gelieferte Klassifikationsvektor k wird zunächst nicht dem Sollwert entsprechen. Dieser Klassifikationsvektor k wird mit dem jeweiligen Sollwert verglichen. Die in einem "Summierpunkt" gebildete Differenz bildet den Eingang des durch eine Lernregel 98 definierten Lernprozesses. Im Verlaufe dieses Lernprozesses werden eingangsseitig eine Vielzahl von Objekten verschiedener Typen in Form von Vektoren b der Bilddaten vorgegeben und die erhaltenen Klassifikationsvektoren k mit den zugehörigen Sollwerten verglichen. Damit werden die Gewichte in dem neuronalen Netz schrittweise nach der Lernregel verändert, bis die durch die Pixelmatrix dargestellten und durch den Vektor b repräsentierten Typen von Objekten durch den Klassifikationsvektor korrekt identifiziert werden. Das ist in Fig. 7 durch einen Pfeil 100 dargestellt.

Claims (10)

1. Verfahren zur Objektidentifikation aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten, dadurch gekennzeichnet, daß
  • a) die eingangsseitigen Bilddaten auf ein erstes neuronales Netz (14) aufgeschaltet werden, wobei die Prozessoreinheiten (54.1 bis 54.m) einer Schicht eine entsprechend Anzahl (m) von Merkmalsdaten liefert,
  • b) die Merkmalsdaten auf ein zweites neuronales Netz (18) aufgeschaltet werden, wobei die Prozessoreinheiten (58.1 bis 58.n; 84.1 bis 84.n) einer Schicht (86) dieses Netzes (18) rekonstruierte Bilddaten erzeugen,
  • c) die Gewichte der neuronalen Netze (14, 18) durch Trainieren so gewählt werden, daß die rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
  • a) die Merkmalsdaten weiterhin auf ein drittes neuronales Netz (24) aufgeschaltet werden und
  • b) das dritte neuronale Netz (24) zur Klassifikation von Objekten aus den Merkmalsdaten trainiert wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die verborgene Schicht (52) des ersten neuronalen Netzes (14) zugleich als Eingangsschicht des zweiten neuronalen Netzes (18) benutzt wird.
4. Verfahren nach einem der Ansprüche 1 bis 3 dadurch gekennzeichnet, daß die Anzahl (m) der Ausgänge des ersten neuronalen Netzes (14) und dementsprechend die Anzahl (m) der Eingänge des zweiten neuronalen Netzes (18) wesentlich kleiner als die Anzahl (n) der Eingänge (12) des ersten neuronalen Netzes (14) und der Ausgänge (20) des zweiten neuronalen Netzes (18) gewählt wird.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die reduzierten Merkmalsdaten zwischen dem ersten und dem zweiten neuronalen Netz (14 bzw. 18) fernübertragen werden.
6. Vorrichtung zur Objektklassifikation aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten, dadurch gekennzeichnet, daß
  • a) die eingangsseitigen Bilddaten (12) auf ein erstes neuronales Netz (14) aufgeschaltet sind, wobei die Prozessoreinheiten (54.1 bis 54.m) einer Schicht (52) eine Anzahl (m) von Merkmalsdaten liefert,
  • b) die Merkmalsdaten auf ein zweites neuronales Netz (18) aufgeschaltet sind, wobei die Prozessoreinheiten (58.1 bis 58.n; 84.1 bis 84.n) einer Schicht (56; 86) dieses Netzes (18) rekonstruierte Bilddaten erzeugen,
  • c) die Gewichte der neuronalen Netze (14, 18) so gewählt sind, daß die rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen.
7. Vorrichtung nach Anspruch 6, dadurch gekennzeichnet, daß
  • a) die Merkmalsdaten weiterhin auf ein drittes neuronales Netz (24) aufgeschaltet sind und
  • b) das dritte neuronale Netz (24) zur Klassifikation von Objekten aus den Merkmalsdaten trainiert ist.
8. Vorrichtung nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß die Anzahl (m) der Ausgänge des ersten neuronalen Netzes (14) und dementsprechend die Anzahl (m) der Eingänge des zweiten neuronalen Netzes (18) wesentlich kleiner als die Anzahl (n) der Eingänge (12) des ersten neuronalen Netzes (14) und der Ausgänge (20) des zweiten neuronalen Netzes (18) ist.
9. Vorrichtung nach einem der Ansprüche 6 bis 8, dadurch gekennzeichnet, daß die verborgene Schicht (52) des ersten neuronalen Netzes (14) zugleich die Eingangsschicht des zweiten neuronalen Netzes (18) bildet
10. Vorrichtung nach Anspruch 6, gekennzeichnet durch Mittel (36, 38, 40) zur Fernübertragung der reduzierten Merkmalsdaten zwischen dem ersten und dem zweiten neuronalen Netz (14 bzw. 18).
DE10048308A 2000-09-29 2000-09-29 Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten Expired - Fee Related DE10048308B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE10048308A DE10048308B4 (de) 2000-09-29 2000-09-29 Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10048308A DE10048308B4 (de) 2000-09-29 2000-09-29 Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten

Publications (2)

Publication Number Publication Date
DE10048308A1 true DE10048308A1 (de) 2002-04-11
DE10048308B4 DE10048308B4 (de) 2010-04-29

Family

ID=7658111

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10048308A Expired - Fee Related DE10048308B4 (de) 2000-09-29 2000-09-29 Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten

Country Status (1)

Country Link
DE (1) DE10048308B4 (de)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1378855A2 (de) * 2002-07-05 2004-01-07 Honda Research Institute Europe GmbH Benutzung von Gruppendiversität zur automatischen Bestimmung von Merkmalen
WO2010114350A2 (es) * 2009-04-01 2010-10-07 Rfid Mexico S.A. De C.V. Sistema para diseñar y producir diseños personalizados para moldes de almacenamiento o transporte
CN105654103A (zh) * 2014-11-12 2016-06-08 联想(北京)有限公司 一种图像识别方法及电子设备
DE102018009054A1 (de) 2018-11-16 2020-05-20 Giesecke+Devrient Mobile Security Gmbh Ausführungsumgebung für eine künstliche Intelligenz
DE102020133626A1 (de) 2020-12-15 2022-06-15 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Erkennen von für ein neuronales Netz schwierig korrekt zu klassifizierenden Szenen, Assistenzeinrichtung und Kraftfahrzeug

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108242046B (zh) * 2016-12-27 2022-02-18 阿里巴巴集团控股有限公司 图片处理方法及相关设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5086479A (en) * 1989-06-30 1992-02-04 Hitachi, Ltd. Information processing system using neural network learning function
DE4207595A1 (de) * 1992-03-10 1993-09-16 Siemens Ag Verfahren zur vorklassifikation von hochdimensionalen merkmalsvektoren fuer zwecke der signalverarbeitung
DE19538004A1 (de) * 1995-03-31 1996-10-02 Fraunhofer Ges Forschung Verfahren zur Grobklassifizierung von Objekten
DE19636074C2 (de) * 1996-09-05 1999-08-12 Siemens Ag Lernfähiges Bildverarbeitungssystem zur Klassierung

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1378855A2 (de) * 2002-07-05 2004-01-07 Honda Research Institute Europe GmbH Benutzung von Gruppendiversität zur automatischen Bestimmung von Merkmalen
EP1378855A3 (de) * 2002-07-05 2006-05-10 Honda Research Institute Europe GmbH Benutzung von Gruppendiversität zur automatischen Bestimmung von Merkmalen
WO2010114350A2 (es) * 2009-04-01 2010-10-07 Rfid Mexico S.A. De C.V. Sistema para diseñar y producir diseños personalizados para moldes de almacenamiento o transporte
WO2010114350A3 (es) * 2009-04-01 2010-11-18 Rfid Mexico S.A. De C.V. Sistema para diseñar y producir diseños personalizados para moldes de almacenamiento o transporte
CN105654103A (zh) * 2014-11-12 2016-06-08 联想(北京)有限公司 一种图像识别方法及电子设备
CN105654103B (zh) * 2014-11-12 2020-03-24 联想(北京)有限公司 一种图像识别方法及电子设备
DE102018009054A1 (de) 2018-11-16 2020-05-20 Giesecke+Devrient Mobile Security Gmbh Ausführungsumgebung für eine künstliche Intelligenz
DE102020133626A1 (de) 2020-12-15 2022-06-15 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Erkennen von für ein neuronales Netz schwierig korrekt zu klassifizierenden Szenen, Assistenzeinrichtung und Kraftfahrzeug

Also Published As

Publication number Publication date
DE10048308B4 (de) 2010-04-29

Similar Documents

Publication Publication Date Title
DE69517401T2 (de) Nichtlineare Farbkorrekturvorrichtung und geeignetes Verfahren
DE69919464T2 (de) Elektronische Vorrichtung zur Bildausrichtung
DE69621862T2 (de) Skalainvarianz mittels Karhunem-Loeve-Transformation zur Gesichtserkennung
DE4217832C2 (de) Mustererkennungsgerät
DE102020131265A1 (de) Segmentieren von video-rahmen unter verwendung eines neuronalen netzes mit verringerter auflösung und von masken aus vorhergehenden rahmen
DE102018128531A1 (de) System und Verfahren zum Analysieren einer durch eine Punktwolke dargestellten dreidimensionalen Umgebung durch tiefes Lernen
DE102019100575A1 (de) Verfahren und system zum erzeugen eines bereichsbildes unter verwendung von daten mit geringer tiefe
DE3938645C1 (de)
DE102019127282A1 (de) System und Verfahren zum Analysieren einer dreidimensionalen Umgebung durch tiefes Lernen
DE69330021T2 (de) Verbessertes System zur Mustererkennung für Sonar und andere Anwendungen
DE102019209644A1 (de) Verfahren zum Trainieren eines neuronalen Netzes
DE19648016A1 (de) Verfahren zur fraktalen Bildkodierung und Anordnung zur Durchführung des Verfahrens
DE112020001369T5 (de) Gepulste synaptische elemente für gepulste neuronale netze
EP3843011A1 (de) System und verfahren zur qualitätszusicherung von datenbasierten modellen
DE68904356T2 (de) Bildverarbeitung.
DE102021201124A1 (de) Trainieren von bildklassifizierernetzen
DE10048308B4 (de) Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten
DE69517249T2 (de) Anordnung zur segmentierung eines diskreten datensatzes
EP1525442B1 (de) Verfahren zur analyse von farbabweichungen von bildern mit einem bildsensor
EP1359539A2 (de) Neurodynamisches Modell der Verarbeitung visueller Informationen
WO2021255211A1 (de) Videokonferenzverfahren und videokonferenzsystem
DE69702116T2 (de) Verfahren zur verarbeitung von datenströmen in einem neuronalen netzwerk und ein neuronales netzwerk
DE69032127T2 (de) Bildkompressionsverfahren durch autoorganisation von einem neuronalen netz
DE102019210167A1 (de) Robusteres Training für künstliche neuronale Netzwerke
EP0469315B1 (de) Verfahren zur visuellen Inspektion zwei- oder dreidimensionaler Bilder

Legal Events

Date Code Title Description
8127 New person/name/address of the applicant

Owner name: DIEHL BGT DEFENCE GMBH & CO. KG, 88662 UBERLINGEN,

8110 Request for examination paragraph 44
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20130403