DE10048308B4 - Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten - Google Patents

Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten Download PDF

Info

Publication number
DE10048308B4
DE10048308B4 DE10048308A DE10048308A DE10048308B4 DE 10048308 B4 DE10048308 B4 DE 10048308B4 DE 10048308 A DE10048308 A DE 10048308A DE 10048308 A DE10048308 A DE 10048308A DE 10048308 B4 DE10048308 B4 DE 10048308B4
Authority
DE
Germany
Prior art keywords
neural network
image data
data
outputs
inputs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10048308A
Other languages
English (en)
Other versions
DE10048308A1 (de
Inventor
Uwe Dr. Krogmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Diehl BGT Defence GmbH and Co KG
Original Assignee
Diehl BGT Defence GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Diehl BGT Defence GmbH and Co KG filed Critical Diehl BGT Defence GmbH and Co KG
Priority to DE10048308A priority Critical patent/DE10048308B4/de
Publication of DE10048308A1 publication Critical patent/DE10048308A1/de
Application granted granted Critical
Publication of DE10048308B4 publication Critical patent/DE10048308B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Verfahren zur Fernübertragung von aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten (12), wobei
a) die eingangsseitigen Bilddaten (12) auf ein erstes neuronales Netz (14) mit einer Anzahl von Eingängen und einer Anzahl Ausgängen (16) aufgeschaltet werden,
b) Prozessoreinheiten (54.1 bis 54.m, 78.1 bis 78.m) einer Schicht (52, 76) dieses ersten neuronalen Netzes (14) eine entsprechende Anzahl von gegenüber den Bilddaten (12) reduzierten Merkmalsdaten (34, 42) liefern,
c) die Merkmalsdaten (34, 42) zwischen dem ersten neuronalen Netz (14) und einem zweiten neuronalen Netz (18) mit einer Anzahl von Eingängen und einer Anzahl von Ausgängen fern übertragen werden, wobei die Anzahl der Ausgänge (16) des ersten neuronalen Netzes (14) und dementsprechend die Anzahl der Eingänge des zweiten neuronalen Netzes (18) wesentlich kleiner als die Anzahl der Eingänge des ersten neuronalen Netzes (14) und der Ausgänge des zweiten neuronalen Netzes (18) gewählt wird,
d) die Merkmalsdaten (34, 42) auf das...

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Fernübertragung von aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten.
  • Bilddaten liegen üblicherweise zunächst als ”Pixelmuster” vor. Das ist ein Raster von Bildpunkten, bei welchem jedem dieser Bildpunkte ein Grauwert, also eine Bildhelligkeit, und ggf. ein Farbwert zugeordnet ist. Typische Pixelmuster werden von einem Mosaikdetektor erzeugt, der aus einer zweidimensionalen Anordnung von Detektorelementen besteht. Der Mosaikdetektor kann auch im Infraroten arbeiten, so dass er ein Infrarotbild erfasst. Die Signale der verschiedenen Detektorelemente werden digitalisiert, d. h. jedes Detektorelement liefert dann ein Datenwort von mehreren Bit. Solche Pixelmuster liefern daher sehr große Datenmengen.
  • Das Pixelmuster stellt Objekte dar, beispielsweise ein Flugzeug eines bestimmten Typs. Ein solches Objekt kann unter verschiedenen Aspektwinkeln und in verschiedenen Entfernungen beobachtet werden. Dementsprechend erscheint das Objekt in dem Pixelbild mit unterschiedlichen Konturen und je nach der Entfernung unterschiedlichen Abmessungen. Das menschliche Auge und das menschliche Gehirn sind in der Lage, ein solches Objekt trotzdem zu identifizieren, indem bestimmte charakteristische Merkmale des Objekts erkannt werden. Ein Flugzeug hat einen Rumpf und quer zu diesem sich erstreckende Tragflächen. Bei einem Kampfflugzeug ist der Rumpf kurz und die Tragflächen sind z. B. deltaförmig. Es bietet große Schwierigkeiten, eine solche Klassifizierung von Objekten aus einem Pixelbild durch Bildverarbeitung vorzunehmen. Man muß dazu aus dem Pixelbild Merkmale extrahieren, also z. B. Kanten und Begrenzungslinien durch Vergleich von Pixeln mit ihren Umgebungspixeln erkennen, was aufwendige Algorithmen erfordert. Aus so gewonnenen Merkmalen kann dann ggf. in einem nächsten Schritt eine Klassifizierung eines in dem Pixelbild dargestellten Objekts erfolgen. Erschwert wird dies auch durch die großen Datenmengen des Pixelbildes.
  • Die in Pixelmustern gespeicherte Information ist in hohem Maße redundant. Es sind daher Algorithmen zur Bildkompression bekannt. Diese Algortithmen nutzen z. B. die Tatsache aus, daß in dem Bild häufig Flächen mit gleichen Grau- oder Farbwerten enthalten sind. Jede dieser Flächen umfaßt eine Vielzahl von Pixeln. Man braucht dann nicht jedes Pixel einzeln zu speichern. Folgen in einer Zeile des Pixelmusters beispielsweise vierzig Mal Grauwerte -0- aufeinander, dann kann man dies in der Form ”40x-0-” speichern und übertragen. Die Bildkompression erfolgt mit Hilfe von programmierten Algorithmen. Der Rechenaufwand und die Rechenzeit dafür ist erheblich.
  • Es ist weiter bekannt, Bilder statt durch ein Pixelmuster durch Ecken, Kanten, Kreise und sonstige Begrenzungskurven zu definieren und so zu speichern und zu übertragen. Das ist eine Alternative zu Pixelmustern, die weniger Speicherplatz erfordert. Eine solche „Vektorgraphik” wird insbesondere für technische Zeichnungen beim rechnergeschützten Konstruieren benutzt.
  • Die DE 42 07 595 A1 offenbart ein Verfahren zur Vorklassifikation von hochdimensionalen Merkmalsvektoren für Zwecke der Signalverarbeitung. Dabei wird in einem ersten Schritt zur Datenreduktion die Dimensionalität der Merkmalsvektoren verringert und in einem zweiten Schritt werden die niederdimensionalen Merkmalsvektoren in einzelne Cluster gruppiert.
  • Aus der DE 195 38 004 A1 ist ein Verfahren zur Grobklassifizierung von Objekten bekannt. In einer Lernphase wird eine Grobklasse für Objekte definiert. In der Klassifizierungsphase werden dann Objektdaten erfasst, wobei bei einem bestimmten Übereinstimmungsgrad der während der Lernphase eingelesenen Merkmalsdaten mit den erfassten Objektdaten das Objekt als zur Grobklasse gehörend erkannt wird.
  • Die DE 196 36 074 A1 zeigt ein lernfähiges Bildverarbeitungssystem zur Klassierung von zu prüfenden Teilen anhand von Merkmalssätzen. Hierzu weist das Bildverarbeitungssystem u. a. eine Merkmalsdatenbank zum Speichern extrahierter Bildmerkmale der in einer Lernphase erfassten Muster und eine Einheit zur Reduktion der Bildmerkmale auf die für die Klassierung relevanten Merkmale auf.
  • Die US 5 086 479 A betrifft ein Informationsverarbeitungssystem, welches auf Lernfunktionen neuronaler Netzwerke zurückgreift. Das System weist ein Computersystem und eine Mustererkennungsvorrichtung auf, die über eine Kommunikationsleitung miteinander verbunden sind.
  • Aufgabe der Erfindung ist es, ein Verfahren und eine Vorrichtung zur Fernübertragung von aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten anzugeben, die es ermöglichen, Bilddaten mit geringem Aufwand an Übertragungskapazität fern zu übertragen.
  • Erfindungsgemäß wird die erstgenannte Aufgabe dadurch gelöst, dass
    • a) die eingangsseitigen Bilddaten auf ein erstes neuronales Netz mit einer Anzahl von Eingängen und einer Anzahl Ausgängen aufgeschaltet werden,
    • b) Prozessoreinheiten einer Schicht dieses ersten neuronalen Netzes eine entsprechende Anzahl von gegenüber den Bilddaten reduzierten Merkmalsdaten liefern,
    • c) die Merkmalsdaten zwischen dem ersten neuronalen Netz und einem zweiten neuronalen Netz mit einer Anzahl von Eingängen und einer Anzahl von Ausgängen fern übertragen werden, wobei die Anzahl der Ausgänge des ersten neuronalen Netzes und dementsprechend die Anzahl der Eingänge des zweiten neuronalen Netzes wesentlich kleiner als die Anzahl der Eingänge des ersten neuronalen Netzes und der Ausgänge des zweiten neuronalen Netzes gewählt wird,
    • d) die Merkmalsdaten auf das zweite neuronale Netz aufgeschaltet werden,
    • e) Prozessoreinheiten einer Schicht dieses zweiten neuronalen Netzes rekonstruierte Bilddaten erzeugen,
    • f) die Gewichte der neuronalen Netze durch Trainieren so gewählt werden, dass die rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen.
  • Aus den Bilddaten des Pixelbildes werden durch das erste neuronale Netz ”Merkmalsdaten gewonnen, indem der Ausgang jeder Prozessoreinheit der Eingangsschicht des ersten neuronalen Netzes auf jede Prozessoreinheit der zweiten Schicht dieses neuronalen Netzes aufgeschaltet wird. Aus den so erhaltenen Merkmalsdaten werden durch das zweite neuronale Netz rekonstruierte Bilddaten erzeugt. Die beiden neuronalen Netze werden nun so trainiert, dass die so rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen. Wenn das der Fall ist, dann ist sichergestellt, dass die ”Merkmalsdaten” tatsächlich den gesamten Bildinhalt des eingangsseitigen Pixelbildes repräsentieren. Die Bedingung, dass die rekonstruierten Bilddaten den eingangsseitigen Bilddaten entsprechen stellt eine Art Rückführung dar.
  • Die so erhaltenen Merkmalsdaten haben keinen Bezug zu konkreten Bildelementen wie Kanten oder Begrenzungslinien.
  • Die so erhaltenen Merkmalsdaten können dann weiterhin auf ein drittes neuronales Netz aufgeschaltet werden. Das dritte neuronale Netz wird zur Klassifikation von Objekten aus den Merkmalsdaten programmiert. Das dritte neuronale Netz wird dann so trainiert, daß es bei Eingabe der reduzierten Merkmalsdaten an verschiedenen, der verschiedenen zu erwartenden Objekten zugeordneten Ausgängen – im Idealfall durch logisch ”1” oder logisch ”0” – signalisiert, ob das Pixelmuster ein Objekt vom Typ 1, ein Objekt vom Typ 2 usw. zeigt. Das Trainieren des dritten neuronalen Netzes erfolgt in der Weise, daß dem das eingangsseitige Pixelmuster erzeugenden Mosaikdetektor in einem Lernprozeß nacheinander die verschiedenen Typen von Objekten unter verschiedenen Aspektwinkeln ”gezeigt” werden. Die Gewichte des dritten neuronalen Netzes werden dann nach einem Lernalgorithmus variiert, bis die jeweils richtigen Ausgangsdaten erhalten werden.
  • Die Erfindung gestattet eine Datenreduktion, wenn die Anzahl der Ausgänge des ersten neuronalen Netzes und dementsprechend die Anzahl der Eingänge des zweiten neuronalen Netzes wesentlich kleiner als die Anzahl der Eingänge des ersten neuronalen Netzes und der Ausgänge des zweiten neuronalen Netzes ist. Das ist wegen der Redundanz der Bildinformationen in der Pixelmatrix im allgemeinen möglich. Das erste neuronale Netz liefert dann eine wesentlich reduzierte Anzahl von Merkmalsdaten, die aber, weil sich daraus die Pixelmatrix weitestgehend rekonstruieren läßt, den gesamten Bildinhalt repräsentieren. Aus den so ”automatisch” ohne Bezugnahme auf konkrete Bildinhalte wie Begrenzungslinien etc. erhaltenen, in ihrer Anzahl gegenüber den Bilddaten des Pixelbildes reduzierten Merkmalsdaten kann durch das dritte neuronale Netz mit geringerem Hardware- und Trainingsaufwand eine Klassifikation des Objekts erfolgen.
  • Diese Datenreduktion kann ausgenutzt werden, um die Bilddaten mit geringerem Aufwand an Speicherplatz zu speichern oder die Bilddaten mit geringerem Aufwand an Übertragungskapazität fernzuüertragen.
  • Die Erfindung verwendet dabei keinen Kompressions-Algorithmus der oben erwähnten Art. Es wird auch nicht versucht, irgendwelche Kanten oder sonstigen Begrenzungslinien in dem Bild zu erkennen. Es wird lediglich die Tatsache ausgenutzt, dass Pixelmuster den Bildinhalt generell redundant wiedergeben. Der Bildinhalt kann durch wesentlich weniger Parameter eindeutig wiedergegeben werden als das Pixelmuster Pixel enthält. Aus diesem Grund wird das erste neuronale Netz vorgesehen, das wesentlich mehr Eingänge als Ausgänge enthält. Die Anzahl der Ausgänge des ersten neuronalen Netzes bestimmt die – reduzierte – Anzahl der erhaltenen Merkmalsdaten. Ein zweites neuronales Netz enthält eine relativ geringe Anzahl von Eingängen, vorzugsweise gleich der Anzahl der Ausgänge des ersten neuronalen Netzes, und eine im Vergleich dazu große Anzahl von Ausgängen. Die neuronalen Netze werden dann in der beschriebenen Weise trainiert.
  • Die Erfindung betrifft auch eine Vorrichtung zur Durchführung des beschriebenen Verfahrens. Diese Vorrichtung ist Gegenstand der Patentansprüche 4 bis 6.
  • Ausführungsbeispiele der Erfindung sind nachstehend unter Bezugnahme auf die zugehörigen Zeichnungen näher erläutert.
  • 1 ist ein Blockdiagramm und zeigt den Grundaufbau einer Vorrichtung zur Datenreduktion von als Pixelmuster vorliegenden eingangsseitigen Bilddaten, wobei die durch die Datenreduktion erhaltenen Merkmalsdaten zur Klassifikation von Objekten benutzt werden.
  • 2 ist ein Blockdiagramm ähnlich 1, wobei die Merkmalsdaten fernübertragen werden.
  • 3 veranschaulicht die Struktur des ersten und des zweiten neuronalen Netzes, durch welche die Datenreduktion auf die Merkmalsdaten bzw. die Rekonstruktion der Bilddaten aus den Merkmalsdaten erfolgt.
  • 4 veranschaulicht die Struktur des ersten und des dritten neuronalen Netzes, durch welche die Datenreduktion auf die Merkmalsdaten bzw. die Klassifikation von Objekten erfolgt.
  • 5 veranschaulicht die Struktur des ersten und des zweiten neuronalen Netzes
  • 6 veranschaulicht das Trainieren des ersten und des zweiten neuronalen Netzes.
  • 7 veranschaulicht das Trainieren des dritten neuronalen Netzes für die Klassifikation.
  • In 1 ist mit 10 ein Bild bezeichnet, das durch eine Pixelmatrix dargestellt ist. Es kann sich dabei um ein ”elektronisches Bild” handeln, das durch einen Mosaikdetektor mit einer zweidimensionalen Anordnung von Detektorelementen erzeugt wird. Das elekktronische Bild kann aber auch durch punkt- oder zeilenweises Abtasten einer Objektszene erhalten werden. Es ergibt sich dabei eine Vielzahl von Bilddaten in Form von Grau- und/oder Farbwerten der einzelnen Pixel, die durch Pfeile 12 dargestellt sind. Diese Bilddaten werden auf die Eingangsschicht eines ersten neuronalen Netzes 14 aufgeschaltet. Die Anzahl der Eingänge oder Prozessoreinheiten der Eingangsschicht des neuronalen Netzes 14 kann der Anzahl der von der Pixelmatrix gelieferten Bilddaten entsprechen. Es kann aber schon eingangsseitig eine Datenreduktion erfolgen, indem z. B. vier oder sechzehn benachbarte Pixel zusammengefaßt werden, wobei z. B. der Mittelwert der Grauwerte dieser Pixel auf das erste neuronale Netz 14 aufgeschaltet wird.
  • Das neuronale Netz 14 bewirkt eine Datenreduktion. Zu diesem Zweck weist das neuronale Netz 14 in einer zweiten Schicht wesentlich weniger Prozessoreinheiten auf als in seiner Eingangsschicht. Dementsprechend liefert das erste neuronale Netz 14 an seinen Ausgängen 16 eine wesentlich reduzierte Datenmenge als ”Merkmalsdaten”. Diese Merkmalsdaten werden auf ein zweites neuronales Netz 18 geschaltet. Das zweite neuronale Netz 18 hat eine Eingangsschicht mit Eingängen oder Prozessoreinheiten, deren Anzahl der Anzahl der Prozessoreinheiten in der verborgenen Schicht des ersten neuronalen Netzes 14, also der Anzahl der Merkmalsdaten entspricht. Das zweite neuronale Netz 18 hat eine verborgene Schicht mit Ausgängen, deren Anzahl wesentlich größer ist als die Anzahl der Eingänge oder der Prozessoreinheiten in der Eingangsschicht des zweiten neuronalen Netzes 18. Vorzugsweise entspricht die Anzahl der Ausgänge des zweiten neuronalen Netzes 18 der Anzahl der Eingänge oder Prozessoreinheiten der Eingangsschicht des ersten neuronalen Netzes 14, also der Anzahl der Bilddaten 12 der Pixelmatrix. Die Ausgänge des zweiten neuronalen Netzes 18 liefern Bilddaten, die durch Pfeile 20 dargestellt sind. Diese Bilddaten 20 liefern ein rekonstruiertes Bild 22 wieder in Form einer Pixelmatrix. Zunächst wird dieses rekonstruierte Bild 22 nicht dem eingangsseitigen Bild 10 entsprechen. Die Gewichte der neuronalen Netze 14 und 18 werden nun nach einem Lernalgorithmus so trainiert, daß das rekonstruierte Bild 22 dem eingangsseitigen Bild entspricht. Dann repräsentieren die Merkmalsdaten trotz ihrer reduzierten Anzahl den gesamten Bildinhalt des eingangsseitigen Bildes 10, da sich dieser Bildinhalt aus diesen Merkmalsdaten in dem rekonstruierten Bild 22 rekonstruieren ließ. Diese Rekonstruktion ist möglich, da, wie eingangs erläutert, die Darstellung von Bildern in einer Pixelmatrix üblicherweise redundant und eine Datenreduktion möglich ist.
  • Die beschriebene Datenreduktion der Bilddaten kann dazu dienen, den Bildinhalt mit geringem Aufwand an Speicherplatz zu speichern. Es werden nur die ”Merkmalsdaten” gespeichert. Aus diesen Merkmalsdaten kann mittels des zweiten neuronalen Netzes 18 jederzeit die Pixelmatrix rekonstruiert werden. Die Datenreduktion kann aber auch dazu benutzt werden, den Bildinhalt fernzuübertragen. Auch dabei brauchen nur die Merkmalsdaten übertragen zu werden. Aus diesen fernübertragenen Merkmalsdaten können mittels des zweiten neuronalen Netzes die Bilddaten für die Pixelmatrix jederzeit rekonstruiert werden.
  • Die reduzierten Merkmalsdaten können aber vorzugsweise auch benutzt werden, um Objekte, die durch die Pixelmatrix dargestellt werden, zu klassifizieren. Zu diesem Zweck sind die Merkmalsdaten zusätzlich auf Eingänge oder die Eingangsschicht eines dritten neuronalen Netzes 24 aufgeschaltet. Das ist durch die Verbindung 26 und die Pfeile 28 dargestellt. Das dritte neuronale Netz 24 hat Ausgänge 30.1 bis 30.j, die je einem Typ von möglichen Objekt zugeordnet sind, das durch die Pixelmatrix dargestellt ist. Ein Ausgang 32 ist dem Hintergrund zugeordnet. Das dritte neuronale Netz 24 wird so trainiert, daß es aus den aufgeschalteten Merkmalsdaten Objekte erkennt und z. B. wenn die Pixelmatrix ein Objekt vom Typ ”1” darstellt, am Ausgang 30.1 eine logische ”1” und an den übrigen Ausgängen 30.2 bis 30.j eine logische ”0” liefert.
  • 2 zeigt eine ähnliche Anordnung, bei welcher die Merkmalsdaten fernübertragen werden. Entsprechende Teile tragen die gleichen Bezugszeichen wie in 1.
  • Bei der Ausführung nach 2 werden wie in 1 durch Datenreduktion in dem neuronalen Netz Merkmalsdaten gewonnen, die hier durch einen Pfeil 34 dargestellt sind. Die Merkmalsdaten sind auf einen Sender 36 aufgeschaltet. Der Sender 36 übermittelt die Merkmalsdaten über eine Übertragungsstrecke 38 zu einem Empfänger 40. Die Datenübertragung kann je nach Anwendungsfall mittels irgendwelcher bekannter Mittel wie Draht, drahtlose Übertragung, Lichtleiter, Laser usw. erfolgen. Die Datenübertragung kann in irgendeiner bekannten Form wie analog, digital, elektrisch, optisch, verschlüsselt, unverschlüsselt usw. erfolgen, wieder je nach Anwendungsfall und dem benutzten Übertragungsmedium. Die Merkmalsdaten werden von dem Empfänger 40 auf das zweite neuronale Netz 18 aufgeschaltet. Das ist in 2 durch Pfeil 42 dargestellt. Das zweite neuronale Netz 18 rekonstruiert aus den Merkmalsdaten wie in dem Beispiel von 1 den Bildinhalt in Form einer Pixelmatrix.
  • Wie in 2 durch Pfeil 44 dargestellt ist, sind die Merkmalsdaten außerdem, wie in 1, auf ein drittes neuronales Netz 24B aufgeschaltet, welches eine Klassifikation des durch die Pixelmatrix dargestellten Objektes vornimmt. Der Typ des Objektes wird in einem von den Ausgängen 30.1 bis 30.j und 32 des dritten neuronalen Netzes angesteuerten Display 46 zusätzlich zu dem Bild der Pixelmatrix angezeigt.
  • 2 zeigt auch eine Alternative. Nach dieser Alternative ist das dritte neuronale Netz 24A senderseitig angeordnet. Das dritte neuronale Netz 24A wird dann unmittelbar von den Merkmalsdaten am Ausgang des ersten neuronalen Netzes 14 beaufschlagt. Das ist in 2 durch die gestrichelte Verbindung 44A angedeutet. Die von dem dritten neuronalen Netz 24A an den Ausgängen 30.1A bis 30.jA und 32A gelieferte Klassifikation wird, wie gestrichelt dargestellt, dem Sender 36 zugeführt und von diesem mit übertragen.
  • 3 zeigt eine vorteilhafte Struktur des ersten und des zweiten neuronalen Netzes 14 und 18.
  • Das neuronale Netz 14 enthält eine Eingangsschicht 48 mit einer Anzahl n von Prozessoreinheiten 50.1 bis 50.n und eine zweite Schicht 52 mit einer Anzahl m von Prozessoreinheiten 54.1, 54.2 ... 54.m. Dabei ist m << n. Das neuronale Netz 14 liefert also m Ausgänge. Das sind die m Merkmalsdaten.
  • Bei der Ausführung nach 3 bildet die zweite Schicht 52 mit den m Prozessoreinheiten 54.1 ... 54,m des ersten neuronalen Netzes 14 zugleich die Eingangsschicht des zweiten neuronalen Netzes 18. Das zweite neuronale Netz 18 weist in einer Schicht 56 wieder n Prozessoreinheiten auf. 58.1, 58.2 ... 58.n auf. Die Ausgänge aller m Prozessoreinheiten 54.1 ... 54.m der zweiten Schicht 52 des ersten neuronalen Netzes 52 sind auf alle Eingänge der n Prozessoreinheiten 58.1 ... 58.n der Schicht 56 des zweiten neuronalen Netzes geschaltet. Die Prozessoreinheiten 58.1 ... 58.n liefern die n Bilddaten 20.
  • 4 zeigt die Strukturen des ersten und des dritten neuronalen Netzes 14 bzw. 18. Entsprechende Teile tragen die gleichen Bezugszeichen wie in 1 bis 3.
  • Die von dem ersten neuronalen Netz 14 an den Ausgängen der Prozessoreinheiten 54.1 bis 54.m gelieferten Merkmalsdaten liegen an der Eingangsschicht 60 des dritten neuronalen Netzes 24 mit m Prozessorelementen 62.1, 62.2 ... 62.m an. Das dritte neurinale Netz ist ein dreischichtiges Netz mit einer Eingangsschicht 60, einer verborgenen Schicht 64 und einer Ausgangsschicht 66. Die Ausgangsschicht 66 enthält j + 1 Prozessoreinheiten 68.1, 68.2 ... 68.j und 70. Jede der Prozessoreinheiten 68.1 bis 68.j ist einem bestimmten Typ von Objekt zugeordnet. Die Prozessoreinheit 70 entspricht den Hintergrund. Das neuronale Netz ist so trainiert, daß für ein Objekt vom Typ ”i”, das durch die eingangsseitige Pixelmatrix dargestellt wird, im Idealfall an dem zugehörigen Ausgang ”i” eine logische ”1” erscheint, während die übrigen Ausgänge logisch ”0” liefern.
  • 5 zeigt die Struktur des ersten und des zweiten neuronalen Netzes 14 und 18 bei Fernübertragung der Merkmalsdaten entsprechend 2.
  • Das neuronale Netz 14 enthält hier eine Eingangsschicht 72 mit n Prozessoreinheiten 74.1, 74.2 ... 74.n und eine zweite Schicht 76 von m Prozessereinheiten 78.1, 78,2 ... 78.m. Dabei ist wieder m << n. Der Ausgang jeder Prozessoreinheit der Eingangsschicht 72 ist mit während des Lernprozesses variablen Gewichten auf jede Prozessoreinheit der Schicht 76 aufgeschaltet. Das ist durch Pfeile angedeutet. Die Prozessoreinheiten der Schicht 76 bilden die Summe der gewichteten Ausgänge der Prozessoreinheiten 74.1 bis 74.n, wie durch das Summenzeichen F angedeutet ist und liefern als Ausgang jeweils eine Funktion f dieser Summe. Das ist die übliche Funktion neuronaler Netze. In dem Lernprozeß werden die Gewichte nach einem Lernalgorithmus schrittweise verändert, bis ein bestimmtes Kriterium, hier z. B. die Übereinstimmung von eingangsseitiger Pixelmatrix und rekonstruierter Pixelmatrix erfüllt ist.
  • Die Ausgänge der Prozessoreinheiten der Schicht 76 liefern die m Merkmalsdaten. Die Merkmalsdaten sind wie in 2 auf einen Sender 36 aufgeschaltet. Der Sender 36 überträgt die Merkmalsdaten über den Übertragungsweg 38 auf einen Empfänger 40. Durch den Empfänger 40 werden die Merkmalsdaten hier auf eine Eingangsschicht 80 des zweiten neuronalen Netzes 18 mit m Prozessoreinheiten 82.1, 82.2 ... 82.m aufgeschaltet. Der Ausgang jeder Prozessoreinheit 82.1 bis 82.m der Eingangsschicht ist wieder mit während des Lernprozesses variablen Gewichten auf jede von n Prozessoreinheiten 84.1, 84.2 ... 84.n einer zweiten Schicht 86 aufgeschaltet. Die Prozessoreinheiten 84.1 bis 84.n liefern rekonstruierte Bilddaten an Ausgängen 20 des zweiten neuronalen Netzes 18.
  • 6 veranschaulicht den Lernprozeß des neuronalen Netzes zur Daten-Reduktion und Rekonstruktion von 3. Entsprechende Teile sind mit den gleichen Bezugszeichen versehen wie dort.
  • Auf die Prozessoreinheiten 50.1 bis 50.n der Eingangsschicht 48 werden nacheinander Vektoren b von Bilddaten aufgeschaltet. An den Prozessoreinheiten 58.1 bis 58.n der Ausgangsschicht 56 erscheint dann ein Vektor
    Figure 00120001
    Die Vektoren b und
    Figure 00120002
    repräsentieren die Bilddaten des eingangsseitigen Pixelmusters bzw. des rekonstruierten Pixelmusters. Die Differenz, die in einem ”Summierpunkt” 88 gebildet wird, steuert einen Lernvorgang, der durch eine Lernregel 90 bestimmt ist. Dieser Lernvorgang ist durch einen Pfeil 92 symbolisiert. Auf das neuronale Netz werden nacheinander eine Vielzahl von Bilddaten-Vektoren b aufgeschaltet und mit den rekonstruierten Bilddaten-Vektoren verglichen. Durch den Lernvorgang werden die Gewichte, mit denen die Ausgänge der Prozessorelemente 50.1 bis 50.n der Eingangsschicht 48 auf die Prozessorelemente 54.1 bis 54.m und die Ausgänge der Prozessorelemente 54.1 bis 54.m auf die Prozessorelemente 58.1 bis 58.n aufgeschaltet werden, schrittweise verändert, bis die Vektoren b und
    Figure 00120003
    stets übereinstimmen. Dann liefern die m Ausgänge der Prozessorelemente 54.1 bis 54.m die Merkmalsvektoren, welche den gesamten Bildinhalt ohne oder mit verminderter Redundanz repräsentieren.
  • 7 veranschaulicht in ähnlicher Weise den Lernvorgang für das dritte neuronale Netz 24 zur Klassifikation von Objekten.
  • Das erste neuronale Netz 14, das in der im Zusammenhang mit 6 beschriebenen Weise trainiert ist liefert aus einem Vektor b der eingangsseitigen Bilddaten einen Merkmalsvektor m von Merkmalsdaten. Der Merkmalsvektor m ist auf das dritte neuronale Netz 24 aufgeschaltet, das nach Art von 4 aufgebaut ist. Das neuronale Netz 24 liefert einen ”Klassifikationsvektor” k. Die Elemente des Klassifikationsvektors k sind die Ausgänge der Prozessorelemente 68.1 bis 68.j und 79. Dem neuronalen Netz 14 werden in dem Lernprozess nacheinander Bilddaten b verschiedener Objekte zugeführt. Jedem Typ von Objekt ist ein Element des Klassifikationsvektors k zugeordnet. Wenn das durch den Vektor b der Bilddaten dargestellte Objekt vom Typ ”i” ist, dann sollte das diesem Typ ”i” zugeordnete Element des Klassifikationsvektors ”1” sein, während alle anderen Elemente ”0” sind. Solche Klassifikationsvektoren werden zu jedem durch den Vektor b dargestellten Objekt an einem Eingang 94 als ”Sollwerte” aufgeschaltet. Der von dem dritten neuronalen Netz aus dem Merkmalsvektor m gelieferte Klassifikationsvektor k wird zunächst nicht dem Sollwert entsprechen. Dieser Klassifikationsvektor k wird mit dem jeweiligen Sollwert verglichen. Die in einem ”Summierpunkt” gebildete Differenz bildet den Eingang des durch eine Lernregel 98 definierten Lernprozesses. Im Verlaufe dieses Lernprozesses werden eingangsseitig eine Vielzahl von Objekten verschiedener Typen in Form von Vektoren b der Bilddaten vorgegeben und die erhaltenen Klassifikationsvektoren k mit den zugehörigen Sollwerten verglichen. Damit werden die Gewichte in dem neuronalen Netz schrittweise nach der Lernregel verändert, bis die durch die Pixelmatrix dargestellten und durch den Vektor b repräsentierten Typen von Objekten durch den Klassifikationsvektor korrekt identifiziert werden. Das ist in 7 durch einen Pfeil 100 dargestellt.

Claims (6)

  1. Verfahren zur Fernübertragung von aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten (12), wobei a) die eingangsseitigen Bilddaten (12) auf ein erstes neuronales Netz (14) mit einer Anzahl von Eingängen und einer Anzahl Ausgängen (16) aufgeschaltet werden, b) Prozessoreinheiten (54.1 bis 54.m, 78.1 bis 78.m) einer Schicht (52, 76) dieses ersten neuronalen Netzes (14) eine entsprechende Anzahl von gegenüber den Bilddaten (12) reduzierten Merkmalsdaten (34, 42) liefern, c) die Merkmalsdaten (34, 42) zwischen dem ersten neuronalen Netz (14) und einem zweiten neuronalen Netz (18) mit einer Anzahl von Eingängen und einer Anzahl von Ausgängen fern übertragen werden, wobei die Anzahl der Ausgänge (16) des ersten neuronalen Netzes (14) und dementsprechend die Anzahl der Eingänge des zweiten neuronalen Netzes (18) wesentlich kleiner als die Anzahl der Eingänge des ersten neuronalen Netzes (14) und der Ausgänge des zweiten neuronalen Netzes (18) gewählt wird, d) die Merkmalsdaten (34, 42) auf das zweite neuronale Netz (18) aufgeschaltet werden, e) Prozessoreinheiten (58.1 bis 58.n, 84.1 bis 84.n) einer Schicht (56, 86) dieses zweiten neuronalen Netzes (18) rekonstruierte Bilddaten (20) erzeugen, f) die Gewichte der neuronalen Netze (14, 18) durch Trainieren so gewählt werden, dass die rekonstruierten Bilddaten (20) weitestgehend den eingangsseitigen Bilddaten (12) entsprechen.
  2. Verfahren nach Anspruch 1, wobei a) die Merkmalsdaten (34, 42) weiterhin auf ein drittes neuronales Netz (24) aufgeschaltet werden und b) das dritte neuronale Netz (24) zur Klassifikation von Objekten aus den Merkmalsdaten (34, 42) trainiert wird.
  3. Verfahren nach Anspruch 1 oder 2, wobei die verborgene Schicht (52) des ersten neuronalen Netzes (14) zugleich als Eingangsschicht des zweiten neuronalen Netzes (18) benutzt wird.
  4. Vorrichtung zur Fernübertragung von aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten (12) umfassend a) ein erstes neuronales Netz (14) i. mit einer Anzahl von Eingängen, auf die die eingangsseitigen Bilddaten (12) aufschaltbar sind, ii. mit einer Schicht (52, 76) mit Prozessoreinheiten (54.1 bis54.m, 78.1 bis 78.m), durch die eine Anzahl von gegenüber den Bilddaten (12) reduzierten Merkmalsdaten (34, 42) an einer Anzahl von Ausgängen (16) dieses ersten neuronalen Netzes (14) erzeugbar ist, b) ein zweites neuronales Netz (18) i. mit einer Anzahl von Eingängen, auf die die reduzierten Merkmalsdaten (34, 42) aufschaltbar sind, ii. mit einer Schicht (56, 86) mit Prozessoreinheiten (58.1 bis 58.n, 84.1 bis 84.n), durch die rekonstruierte Bilddaten (20) an einer Anzahl von Ausgängen dieses zweiten neuronalen Netzes (18) erzeugbar sind, wobei die Anzahl der Ausgänge (16) des ersten neuronalen Netzes (14) und dementsprechend die Anzahl der Eingänge des zweiten neuronalen Netzes (18) wesentlich kleiner als die Anzahl der Eingänge des ersten neuronalen Netzes (14) und der Ausgänge des zweiten neuronalen Netzes (18) ist, c) derart gewählte Gewichte für das erste und das zweite neuronale Netz (14, 18), dass die rekonstruierten Bilddaten (20) weitestgehend den eingangsseitigen Bilddaten (12) entsprechen, d) Mittel (36, 38, 40) zur Fernübertragung der reduzierten Merkmalsdaten (34, 42) zwischen dem ersten neuronalen Netz (14) und dem zweiten neuronalen Netz (18).
  5. Vorrichtung nach Anspruch 4 umfassend ein drittes neuronales Netz (24), auf welches die Merkmalsdaten (34, 42) aufschaltbar sind und welches zur Klassifikation von Objekten aus den Merkmalsdaten (34, 42) trainiert ist.
  6. Vorrichtung nach Anspruch 4 oder 5, wobei das erste neuronale Netz (14) eine verborgene Schicht (52) aufweist, die zugleich die Eingangsschicht des zweiten neuronalen Netzes (18) bildet.
DE10048308A 2000-09-29 2000-09-29 Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten Expired - Fee Related DE10048308B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE10048308A DE10048308B4 (de) 2000-09-29 2000-09-29 Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10048308A DE10048308B4 (de) 2000-09-29 2000-09-29 Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten

Publications (2)

Publication Number Publication Date
DE10048308A1 DE10048308A1 (de) 2002-04-11
DE10048308B4 true DE10048308B4 (de) 2010-04-29

Family

ID=7658111

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10048308A Expired - Fee Related DE10048308B4 (de) 2000-09-29 2000-09-29 Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten

Country Status (1)

Country Link
DE (1) DE10048308B4 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108242046A (zh) * 2016-12-27 2018-07-03 阿里巴巴集团控股有限公司 图片处理方法及相关设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1378855B1 (de) * 2002-07-05 2007-10-17 Honda Research Institute Europe GmbH Benutzung von Gruppendiversität zur automatischen Bestimmung von Merkmalen
US8068929B2 (en) * 2009-04-01 2011-11-29 RFID Mexico, S.A. DE C.V. System for designing and producing custom layouts for storage or transporting molds
CN105654103B (zh) * 2014-11-12 2020-03-24 联想(北京)有限公司 一种图像识别方法及电子设备
DE102018009054A1 (de) 2018-11-16 2020-05-20 Giesecke+Devrient Mobile Security Gmbh Ausführungsumgebung für eine künstliche Intelligenz
DE102020133626A1 (de) 2020-12-15 2022-06-15 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Erkennen von für ein neuronales Netz schwierig korrekt zu klassifizierenden Szenen, Assistenzeinrichtung und Kraftfahrzeug

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5086479A (en) * 1989-06-30 1992-02-04 Hitachi, Ltd. Information processing system using neural network learning function
DE4207595A1 (de) * 1992-03-10 1993-09-16 Siemens Ag Verfahren zur vorklassifikation von hochdimensionalen merkmalsvektoren fuer zwecke der signalverarbeitung
DE19538004A1 (de) * 1995-03-31 1996-10-02 Fraunhofer Ges Forschung Verfahren zur Grobklassifizierung von Objekten
DE19636074A1 (de) * 1996-09-05 1998-03-26 Siemens Ag Lernfähiges Bildverarbeitungssystem zur Klassierung

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5086479A (en) * 1989-06-30 1992-02-04 Hitachi, Ltd. Information processing system using neural network learning function
DE4207595A1 (de) * 1992-03-10 1993-09-16 Siemens Ag Verfahren zur vorklassifikation von hochdimensionalen merkmalsvektoren fuer zwecke der signalverarbeitung
DE19538004A1 (de) * 1995-03-31 1996-10-02 Fraunhofer Ges Forschung Verfahren zur Grobklassifizierung von Objekten
DE19636074A1 (de) * 1996-09-05 1998-03-26 Siemens Ag Lernfähiges Bildverarbeitungssystem zur Klassierung

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108242046A (zh) * 2016-12-27 2018-07-03 阿里巴巴集团控股有限公司 图片处理方法及相关设备
CN108242046B (zh) * 2016-12-27 2022-02-18 阿里巴巴集团控股有限公司 图片处理方法及相关设备

Also Published As

Publication number Publication date
DE10048308A1 (de) 2002-04-11

Similar Documents

Publication Publication Date Title
DE69621862T2 (de) Skalainvarianz mittels Karhunem-Loeve-Transformation zur Gesichtserkennung
DE69517401T2 (de) Nichtlineare Farbkorrekturvorrichtung und geeignetes Verfahren
DE69622961T2 (de) Verfahren und Vorrichtung zur Darstellung von Zeichen
DE4217832C2 (de) Mustererkennungsgerät
DE69622975T2 (de) Verfahren und Vorrichtung zur Halbtonerzeugung für Farbbilder in einem neuronalen Netz
DE69330021T2 (de) Verbessertes System zur Mustererkennung für Sonar und andere Anwendungen
DE3938645C1 (de)
DE112020001369T5 (de) Gepulste synaptische elemente für gepulste neuronale netze
DE102020107867A1 (de) Datenspeichervorrichtung, Datenverarbeitungssystem und Beschleunigungsvorrichtung dafür
EP0293703A2 (de) Verfahren zum Aufzeichnen von Quasihalbtonbildern und Vorrichtung zur Umwandlung von Bildpunkt-Tonwertdaten
DE19648016A1 (de) Verfahren zur fraktalen Bildkodierung und Anordnung zur Durchführung des Verfahrens
DE69815390T2 (de) Neuronale netzwerke
EP4081950A1 (de) System und verfahren zur qualitätszusicherung von datenbasierten modellen
DE69127495T2 (de) Erkennungseinheit und Gerät zur Erkennung und Beurteilung in dem die Einheit verwendet ist
DE68904356T2 (de) Bildverarbeitung.
DE3689101T2 (de) Mustererkennungsanlage.
DE10048308B4 (de) Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten
DE68926580T2 (de) Verfahren und Gerät zum Erzeugen beweglicher Bilder
DE69020727T2 (de) Fehlerhafte dichtekonturunterdrückung, die zufallsmodifizierte eingangssignale für den vergleich mit schwellenwerten benutzt.
DE69126052T2 (de) Neuronales Netzwerk
DE69323446T2 (de) Bilderzeugungseinrichtung und Bildsteuerverfahren zur Bildglättung oder Bildauflösungserhöhung durch Verwendung derselben
EP0956531B1 (de) Verfahren und vorrichtung zur transformation einer zur nachbildung eines technischen prozesses dienenden fuzzy-logik in ein neuronales netz
EP1359539A2 (de) Neurodynamisches Modell der Verarbeitung visueller Informationen
DE102020127441A1 (de) Vorrichtung und Verfahren für sensorische Substitution
EP0643353A1 (de) Vorrichtung und Verfahren zur Datenverarbeitung

Legal Events

Date Code Title Description
8127 New person/name/address of the applicant

Owner name: DIEHL BGT DEFENCE GMBH & CO. KG, 88662 UBERLINGEN,

8110 Request for examination paragraph 44
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20130403