DE10048308A1

DE10048308A1 - Verfahren und Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten

Info

Publication number: DE10048308A1
Application number: DE10048308A
Authority: DE
Inventors: Uwe Krogmann
Original assignee: Bodenseewerk Geratetechnik GmbH
Current assignee: Diehl BGT Defence GmbH and Co KG
Priority date: 2000-09-29
Filing date: 2000-09-29
Publication date: 2002-04-11
Anticipated expiration: 2020-09-30
Also published as: DE10048308B4

Abstract

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Datenreduktion und Objektklassifikation von als Pixelmuster vorliegenden eingangsseitigen Bilddaten. Der Erfindung liegt die Aufgabe zu Grunde, ein einfaches Verfahren bzw. eine einfach und wirkungsvoll arbeitende Vorrichtung zur Datenreduktion von als Pixelmuster vorliegenden Bilddaten zu schaffen. Weiterhin soll die Klassifizierung von Objekten in einem Pixelmuster erleichtert werden. Das geschieht dadurch, daß die eingangsseitigen Bilddaten auf ein erstes neuronales Netz (10) aufgeschaltet werden, dessen verborgene Schicht (52) wesentlich weniger Prozessoreinheiten (54.1 bis 54.m) enthält als die Eingangsschicht (48), wobei die Prozessoreinheiten (54.1 bis 54.m) der zweiten Schicht eine entsprechend reduzierte Anzahl (m) von Merkmalsdaten liefert, die Merkmalsdaten auf ein zweites neuronales Netz (18) aufgeschaltet werden, dessen Schicht (56, 86) wesentlich mehr Prozessoreinheiten (58.1 bis 58.n) enthält als die Eingangsschicht (52; 80), wobei die Prozessoreinheiten (58.1 bis 58.n; 84.1 bis 84.n) der Schicht (86) rekonstruierte Bilddaten erzeugen, und die Gewichte der neuronalen Netze (14, 18) durch Trainieren so gewählt werden, daß die rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen. Die reduzierten Merkmalsdaten werden weiterhin auf ein drittes neuronales Netz (24) aufgeschaltet. Das dritte neuronale Netz (24) wird zur Klassifikation von Objekten aus den reduzierten ...

Description

Die Erfindung betrifft ein Verfahren zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten.

Die Erfindung betrifft weiterhin eine Vorrichtung zum Klassifizieren von Objekten aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten.

Die Erfindung betrifft weiterhin ein Verfahren und eine Vorrichtung zur Datenreduktion solcher Bilddaten.

Bilddaten liegen üblicherweise zunächst als "Pixelmuster" vor. Das ist ein Raster von Bildpunkten, bei welchem jedem dieser Bildpunkte ein Grauwert, also eine Bildhelligkeit, und ggf. ein Farbwert zugeordnet ist. Typische Pixelmuster werden von einem Mosaikdetektor erzeugt, der aus einer zweidimensionalen Anordnung von Detektorelementen besteht. Der Mosaikdetektor kann auch im Infraroten arbeiten, so daß er ein Infrarotbild erfaßt. Die Signale der verschiedenen Detektorelemente werden digitalisiert, d. h. jedes Detektorelement liefert dann ein Datenwort von mehreren Bit. Solche Pixelmuster liefern daher sehr große Datenmengen.

Das Pixelmuster stellt Objekte dar, beispielsweise ein Flugzeug eines bestimmten Typs. Ein solches Objekt kann unter verschiedenen Aspektwinkeln und in verschiedenen Entfernungen beobachtet werden. Dementsprechend erscheint das Objekt in dem Pixelbild mit unterschiedlichen Konturen und je nach der Entfernung unterschiedlichen Abmessungen. Das menschliche Auge und das menschliche Gehirn sind in der Lage, ein solches Objekt trotzdem zu identifizieren, indem bestimmte charakteristische Merkmale des Objekts erkannt werden. Ein Flugzeug hat einen Rumpf und quer zu diesem sich erstreckende Tragflächen. Bei einem Kampfflugzeug ist der Rumpf kurz und die Tragflächen sind z. B. deltaförmig. Es bietet große Schwierigkeiten, eine solche Klassifizierung von Objekten aus einem Pixelbild durch Bildverarbeitung vorzunehmen. Man muß dazu aus dem Pixelbild Merkmale extrahieren, also z. B. Kanten und Begrenzungslinien durch Vergleich von Pixeln mit ihren Umgebungspixeln erkennen, was aufwendige Algorithmen erfordert. Aus so gewonnenen Merkmalen kann dann ggf. in einem nächsten Schritt eine Klassifizierung eines in dem Pixelbild dargestellten Objekts erfolgen. Erschwert wird dies auch durch die großen Datenmengen des Pixelbildes.

Die in Pixelmustern gespeicherte Information ist in hohem Maße redundant. Es sind daher Algorithmen zur Bildkompression bekannt. Diese Algortithmen nutzen z. B. die Tatsache aus, daß in dem Bild häufig Flächen mit gleichen Grau- oder Farbwerten enthalten sind. Jede dieser Flächen umfaßt eine Vielzahl von Pixeln. Man braucht dann nicht jedes Pixel einzeln zu speichern. Folgen in einer Zeile des Pixelmusters beispielsweise vierzig Mal Grauwerte -0- aufeinander, dann kann man dies in der Form "40×-0-" speichern und übertragen. Die Bildkompression erfolgt mit Hilfe von programmierten Algorithmen. Der Rechenaufwand und die Rechenzeit dafür ist erheblich.

Es ist weiter bekannt, Bilder statt durch ein Pixelmuster durch Ecken, Kanten, Kreise und sonstige Begrenzungskurven zu definieren und so zu speichern und zu übertragen. Das ist eine Alternative zu Pixelmustern, die weniger Speicherplatz erfordert. Eine solche "Vektorgraphik" wird insbesondere für technische Zeichnungen beim rechnergestützten Konstruieren benutzt.

Der Erfindung liegt die Aufgabe zu Grunde, aus Bilddaten, die als Pixelmuster vorliegen, auf einfache Weise Merkmalsdaten zu gewinnen, die wiederum eine Klassifizierung eines in dem Pixelmuster dargestellten Objektes dienen.

Erfindungsgemäß wird die erstgenannte Aufgabe dadurch gelöst, daß

a) die eingangsseitigen Bilddaten auf ein erstes neuronales Netz aufgeschaltet werden, wobei die Prozessoreinheiten einer Schicht eine Anzahl von Merkmalsdaten liefert,
b) die Merkmalsdaten auf ein zweites neuronales Netz aufgeschaltet werden, wobei die Prozessoreinheiten einer Schicht des zweiten neuronalen Netzes aus den Merkmalsdaten rekonstruierte Bilddaten erzeugen, und
c) die Gewichte der neuronalen Netze durch Trainieren so gewählt werden, daß die rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen.

Aus den Bilddaten des Pixelbildes werden durch das erste neuronale Netz "Merkmalsdaten gewonnen, indem der Ausgang jeder Prozessoreinheit der Eingangsschicht des ersten neuronalen Netzes auf jede Prozessoreinheit der zweiten Schicht dieses neuronalen Netzes aufgeschaltet wird. Aus den so erhaltenen Merkmalsdaten werden durch das zweite neuronale Netz rekonstruierte Bilddaten erzeugt. Die beiden neuronalen Netze werden nun so trainiert, daß die so rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen. Wenn das der Fall ist, dann ist sichergestellt, daß die "Merkmalsdaten" tatsächlich den gesamten Bildinhalt des eingangsseitigen Pixelbildes repräsentieren. Die Bedingung, daß die rekonstruierten Bilddaten den eingangsseitigen Bilddaten entsprechen stellt eine Art Rückführung dar.

Die so erhaltenen Merkmalsdaten haben keinen Bezug zu konkreten Bildelementen wie Kanten oder Begrenzungslinien.

Die so erhaltenen Merkmalsdaten können dann weiterhin auf ein drittes neuronales Netz aufgeschaltet werden. Das dritte neuronale Netz wird zur Klassifikation von Objekten aus den Merkmalsdaten programmiert. Das dritte neuronale Netz wird dann so trainiert, daß es bei Eingabe der reduzierten Merkmalsdaten an verschiedenen, der verschiedenen zu erwartenden Objekten zugeordneten Ausgängen - im Idealfall durch logisch "1" oder logisch "0" - signalisiert, ob das Pixelmuster ein Objekt vom Typ 1, ein Objekt vom Typ 2 usw. zeigt. Das Trainieren des dritten neuronalen Netzes erfolgt in der Weise, daß dem das eingangsseitige Pixelmuster erzeugenden Mosaikdetektor in einem Lernprozeß nacheinander die verschiedenen Typen von Objekten unter verschiedenen Aspektwinkeln "gezeigt" werden. Die Gewichte des dritten neuronalen Netzes werden dann nach einem Lernalgorithmus variiert, bis die jeweils richtigen Ausgangsdaten erhalten werden.

Die Erfindung gestattet eine Datenreduktion, wenn die Anzahl der Ausgänge des ersten neuronalen Netzes und dementsprechend die Anzahl der Eingänge des zweiten neuronalen Netzes wesentlich kleiner als die Anzahl der Eingänge des ersten neuronalen Netzes und der Ausgänge des zweiten neuronalen Netzes ist. Das ist wegen der Redundanz der Bildinformationen in der Pixelmatrix im allgemeinen möglich. Das erste neuronale Netz liefert dann eine wesentlich reduzierte Anzahl von Merkmalsdaten, die aber, weil sich daraus die Pixelmatrix weitestgehend rekonstruieren läßt, den gesamten Bildinhalt repräsentieren. Aus den so "automatisch" ohne Bezugnahme auf konkrete Bildinhalte wie Begrenzungslinien etc. erhaltenen, in ihrer Anzahl gegenüber den Bilddaten des Pixelbildes reduzierten Merkmalsdaten kann durch das dritte neuronale Netz mit geringerem Hardware- und Trainingsaufwand eine Klassifikation des Objekts erfolgen.

Diese Datenreduktion kann ausgenutzt werden, um die Bilddaten mit geringerem Aufwand an Speicherplatz zu speichern oder die Bilddaten mit geringerem Aufwand an Übertragungskapazität fernzuübertragen.

Die Erfindung verwendet dabei keinen Kompressions-Algorithmus der oben erwähnten Art. Es wird auch nicht versucht, irgendwelche Kanten oder sonstigen Begrenzungslinien in dem Bild zu erkennen. Es wird lediglich die Tatsache ausgenutzt, daß Pixelmuster den Bildinhalt generell redundant wiedergeben. Der Bildinhalt kann durch wesentlich weniger Parameter eindeutig wiedergegeben werden als das Pixelmuster Pixel enthält. Aus diesem Grund wird das erste neuronale Netz vorgesehen, das wesentlich mehr Eingänge als Ausgänge enthält. Die Anzahl der Ausgänge des ersten neuronalen Netzes bestimmt die - reduzierte - Anzahl der erhaltenen Merkmalsdaten. Ein zweites neuronales Netz enthält eine relativ geringe Anzahl von Eingängen, vorzugsweise gleich der Anzahl der Ausgänge des ersten neuronalen Netzes, und eine im Vergleich dazu große Anzahl von Ausgängen. Die neuronalen Netze werden dann in der beschriebenen Weise trainiert.

Die Erfindung betrifft auch eine Vorrichtung zur Durchführung des beschriebenen Verfahrens. Diese Vorrichtung ist Gegenstand der Patentansprüche 6 bis 10.

Ausführungsbeispiele der Erfindung sind nachstehend unter Bezugnahme auf die zugehörigen Zeichnungen näher erläutert.

Fig. 1 ist ein Blockdiagramm und zeigt den Grundaufbau einer Vorrichtung zur Datenreduktion von als Pixelmuster vorliegenden eingangsseitigen Bilddaten, wobei die durch die Datenreduktion erhaltenen Merkmalsdaten zur Klassifikation von Objekten benutzt werden,

Fig. 2 ist ein Blockdiagramm ähnlich Fig. 1, wobei die Merkmalsdaten fernübertragen werden,

Fig. 3 veranschaulicht die Struktur des ersten und des zweiten neuronalen Netzes, durch welche die Datenreduktion auf die Merkmalsdaten bzw. die Rekonstruktion der Bilddaten aus den Merkmalsdaten erfolgt,

Fig. 4 veranschaulicht die Struktur des ersten und des dritten neuronalen Netzes, durch welche die Datenreduktion auf die Merkmalsdaten bzw. die Klassifikation von Objekten erfolgt,

Fig. 5 veranschaulicht die Struktur des ersten und des zweiten neuronalen Netzes, Fig. 6 veranschaulicht das Trainieren des ersten und des zweiten neuronalen Netzes,

Fig. 7 veranschaulicht das Trainieren des dritten neuronalen Netzes für die Klassifikation.

In Fig. 1 ist mit 10 ein Bild bezeichnet, das durch eine Pixelmatrix dargestellt ist. Es kann sich dabei um ein "elektronisches Bild" handeln, das durch einen Mosaikdetektor mit einer zweidimensionalen Anordnung von Detektorelementen erzeugt wird. Das elekktronische Bild kann aber auch durch punkt- oder zeilenweises Abtasten einer Objektszene erhalten werden. Es ergibt sich dabei eine Vielzahl von Bilddaten in Form von Grau- und/oder Farbwerten der einzelnen Pixel, die durch Pfeile 12 dargestellt sind. Diese Bilddaten werden auf die Eingangsschicht eines ersten neuronalen Netzes 14 aufgeschaltet. Die Anzahl der Eingänge oder Prozessoreinheiten der Eingangsschicht des neuronalen Netzes 14 kann der Anzahl der von der Pixelmatrix gelieferten Bilddaten entsprechen. Es kann aber schon eingangsseitig eine Datenreduktion erfolgen, indem z. B. vier oder sechzehn benachbarte Pixel zusammengefaßt werden, wobei z. B. der Mittelwert der Grauwerte dieser Pixel auf das erste neuronale Netz 14 aufgeschaltet wird.

Das neuronale Netz 14 bewirkt eine Datenreduktion. Zu diesem Zweck weist das neuronale Netz 14 in einer zweiten Schicht wesentlich weniger Prozessoreinheiten auf als in seiner Eingangsschicht. Dementsprechend liefert das erste neuronale Netz 14 an seinen Ausgängen 16 eine wesentlich reduzierte Datenmenge als "Merkmalsdaten". Diese Merkmalsdaten werden auf ein zweites neuronales Netz 18 geschaltet. Das zweite neuronale Netz 18 hat eine Eingangsschicht mit Eingängen oder Prozessoreinheiten, deren Anzahl der Anzahl der Prozessoreinheiten in der verborgenen Schicht des ersten neuronalen Netzes 14, also der Anzahl der Merkmalsdaten entspricht. Das zweite neuronale Netz 18 hat eine verborgene Schicht mit Ausgängen, deren Anzahl wesentlich größer ist als die Anzahl der Eingänge oder der Prozessoreinheiten in der Eingangsschicht des zweiten neuronalen Netzes 18. Vorzugsweise entspricht die Anzahl der Ausgänge des zweiten neuronalen Netzes 18 der Anzahl der Eingänge oder Prozessoreinheiten der Eingangsschicht des ersten neuronalen Netzes 14, also der Anzahl der Bilddaten 12 der Pixelmatrix. Die Ausgänge des zweiten neuronalen Netzes 18 liefern Bilddaten, die durch Pfeile 20 dargestellt sind. Diese Bilddaten 20 liefern ein rekonstruiertes Bild 22 wieder in Form einer Pixelmatrix. Zunächst wird dieses rekonstruierte Bild 22 nicht dem eingangsseitigen Bild 10 entsprechen. Die Gewichte der neuronalen Netze 14 und 18 werden nun nach einem Lernalgorithmus so trainiert, daß das rekonstruierte Bild 22 dem eingangsseitigen Bild entspricht. Dann repräsentieren die Merkmalsdaten trotz ihrer reduzierten Anzahl den gesamten Bildinhalt des eingangsseitigen Bildes 10, da sich dieser Bildinhalt aus diesen Merkmalsdaten in dem rekonstruierten Bild 22 rekonstruieren ließ. Diese Rekonstruktion ist möglich, da, wie eingangs erläutert, die Darstellung von Bildern in einer Pixelmatrix üblicherweise redundant und eine Datenreduktion möglich ist.

Die beschriebene Datenreduktion der Bilddaten kann dazu dienen, den Bildinhalt mit geringem Aufwand an Speicherplatz zu speichern. Es werden nur die "Merkmalsdaten" gespeichert. Aus diesen Merkmalsdaten kann mittels des zweiten neuronalen Netzes 18 jederzeit die Pixelmatrix rekonstruiert werden. Die Datenreduktion kann aber auch dazu benutzt werden, den Bildinhalt fernzuübertragen. Auch dabei brauchen nur die Merkmalsdaten übertragen zu werden. Aus diesen fernübertragenen Merkmalsdaten können mittels des zweiten neuronalen Netzes die Bilddaten für die Pixelmatrix jederzeit rekonstruiert werden.

Die reduzierten Merkmalsdaten können aber vorzugsweise auch benutzt werden, um Objekte, die durch die Pixelmatrix dargestellt werden, zu klassifizieren. Zu diesem Zweck sind die Merkmalsdaten zusätzlich auf Eingänge oder die Eingangsschicht eines dritten neuronalen Netzes 24 aufgeschaltet. Das ist durch die Verbindung 26 und die Pfeile 28 dargestellt. Das dritte neuronale Netz 24 hat Ausgänge 30.1 bis 30.j, die je einem Typ von möglichen Objekt zugeordnet sind, das durch die Pixelmatrix dargestellt ist. Ein Ausgang 32 ist dem Hintergrund zugeordnet. Das dritte neuronale Netz 24 wird so trainiert, daß es aus den aufgeschalteten Merkmalsdaten Objekte erkennt und z. B. wenn die Pixelmatrix ein Objekt vom Typ "1" darstellt, am Ausgang 30.1 eine logische "1" und an den übrigen Ausgängen 30.2 bis 30.j eine logische "0" liefert.

Fig. 2 zeigt eine ähnliche Anordnung, bei welcher die Merkmalsdaten fernübertragen werden. Entsprechende Teile tragen die gleichen Bezugszeichen wie in Fig. 1.

Bei der Ausführung nach Fig. 2 werden wie in Fig. 1 durch Datenreduktion in dem neuronalen Netz Merkmalsdaten gewonnen, die hier durch einen Pfeil 34 dargestellt sind. Die Merkmalsdaten sind auf einen Sender 36 aufgeschaltet. Der Sender 36 übermittelt die Merkmalsdaten über eine Übertragungsstrecke 38 zu einem Empfänger 40. Die Datenübertragung kann je nach Anwendungsfall mittels irgendwelcher bekannter Mittel wie Draht, drahtlose Übertragung, Lichtleiter, Laser usw. erfolgen. Die Datenübertragung kann in irgendeiner bekannten Form wie analog, digital, elektrisch, optisch, verschlüsselt, unverschlüsselt usw. erfolgen, wieder je nach Anwendungsfall und dem benutzten Übertragungsmedium. Die Merkmalsdaten werden von dem Empfänger 40 auf das zweite neuronale Netz 18 aufgeschaltet. Das ist in Fig. 2 durch Pfeil 42 dargestellt. Das zweite neuronale Netz 18 rekonstruiert aus den Merkmalsdaten wie in dem Beispiel von Fig. 1 den Bildinhalt in Form einer Pixelmatrix.

Wie in Fig. 2 durch Pfeil 44 dargestellt ist, sind die Merkmalsdaten außerdem, wie in Fig. 1, auf ein drittes neuronales Netz 24B aufgeschaltet, welches eine Klassifikation des durch die Pixelmatrix dargestellten Objektes vornimmt. Der Typ des Objektes wird in einem von den Ausgängen 30.1 bis 30.j und 32 des dritten neuronalen Netzes angesteuerten Display 46 zusätzlich zu dem Bild der Pixelmatrix angezeigt.

Fig. 2 zeigt auch eine Alternative. Nach dieser Alternative ist das dritte neuronale Netz 24A senderseitig angeordnet. Das dritte neuronale Netz 24A wird dann unmittelbar von den Merkmalsdaten am Ausgang des ersten neuronalen Netzes 14 beaufschlagt. Das ist in Fig. 2 durch die gestrichelte Verbindung 44A angedeutet. Die von dem dritten neuronalen Netz 24A an den Ausgängen 30.1A bis 30.jA und 32A gelieferte Klassifikation wird, wie gestrichelt dargestellt, dem Sender 36 zugeführt und von diesem mit übertragen.

Fig. 3 zeigt eine vorteilhafte Struktur des ersten und des zweiten neuronalen Netzes 14 und 18.

Das neuronale Netz 14 enthält eine Eingangsschicht 48 mit einer Anzahl n von Prozessoreinheiten 50.1 bis 50.n und eine zweite Schicht 52 mit einer Anzahl m von Prozessoreinheiten 54.1, 54.2 . . . 54.m. Dabei ist m « n. Das neuronale Netz 14 liefert also m Ausgänge. Das sind die m Merkmalsdaten.

Bei der Ausführung nach Fig. 3 bildet die zweite Schicht 52 mit den m Prozessoreinheiten 54.1 . . . 54.m des ersten neuronalen Netzes 14 zugleich die Eingangsschicht des zweiten neuronalen Netzes 18. Das zweite neuronale Netz 18 weist in einer Schicht 56 wieder n Prozessoreinheiten auf. 58.1, 58.2 . . . 58.n auf. Die Ausgänge aller m Prozessoreinheiten 54.1 . . .54.m der zweiten Schicht 52 des ersten neuronalen Netzes 52 sind auf alle Eingänge der n Prozessoreinheiten 58.1 . . . 58.n der Schicht 56 des zweiten neuronalen Netzes geschaltet. Die Prozessoreinheiten 58.1 . . . 58.n liefern die n Bilddaten 20.

Fig. 4 zeigt die Strukturen des ersten und des dritten neuronalen Netzes 14 bzw. 18. Entsprechende Teile tragen die gleichen Bezugszeichen wie in Fig. 1 bis 3.

Die von dem ersten neuronalen Netz 14 an den Ausgängen der Prozessoreinheiten 54.1 bis 54.m gelieferten Merkmalsdaten liegen an der Eingangsschicht 60 des dritten neuronalen Netzes 24 mit m Prozessorelementen 62.1, 62.2 . . . 62.m an. Das dritte neuronale Netz ist ein dreischichtiges Netz mit einer Eingangsschicht 60, einer verborgenen Schicht 64 und einer Ausgangsschicht 66. Die Ausgangsschicht 66 enthält j + 1 Prozessoreinheiten 68.1, 68.2 . . . 68.j und 70. Jede der Prozessoreinheiten 68.1 bis 68.j ist einem bestimmten Typ von Objekt zugeordnet. Die Prozessoreinheit 70 entspricht den Hintergrund. Das neuronale Netz ist so trainiert, daß für ein Objekt vom Typ "i", das durch die eingangsseitige Pixelmatrix dargestellt wird, im Idealfall an dem zugehörigen Ausgang "i" eine logische "1" erscheint, während die übrigen Ausgänge logisch "0" liefern.

Fig. 5 zeigt die Struktur des ersten und des zweiten neuronalen Netzes 14 und 18 bei Fernübertragung der Merkmalsdaten entsprechend Fig. 2.

Das neuronale Netz 14 enthält hier eine Eingangsschicht 72 mit n Prozessoreinheiten 74.1, 74.2 . . . 74.n und eine zweite Schicht 76 von m Prozessereinheiten 78.1, 78,2 . . . 78.m. Dabei ist wieder m « n. Der Ausgang jeder Prozessoreinheit der Eingangsschicht 72 ist mit während des Lernprozesses variablen Gewichten auf jede Prozessoreinheit der Schicht 76 aufgeschaltet. Das ist durch Pfeile angedeutet. Die Prozessoreinheiten der Schicht 76 bilden die Summe der gewichteten Ausgänge der Prozessoreinheiten 74.1 bis 74.n, wie durch das Summenzeichen Σ angedeutet ist und liefern als Ausgang jeweils eine Funktion f dieser Summe. Das ist die übliche Funktion neuronaler Netze. In dem Lernprozeß werden die Gewichte nach einem Lernalgorithmus schrittweise verändert, bis ein bestimmtes Kriterium, hier z. B. die Übereinstimmung von eingangsseitiger Pixelmatrix und rekonstruierter Pixelmatrix erfüllt ist.

Die Ausgänge der Prozessoreinheiten der Schicht 76 liefern die m Merkmalsdaten. Die Merkmalsdaten sind wie in Fig. 2 auf einen Sender 36 aufgeschaltet. Der Sender 36 überträgt die Merkmalsdaten über den Übertragungsweg 38 auf einen Empfänger 40. Durch den Empfänger 40 werden die Merkmalsdaten hier auf eine Eingangsschicht 80 des zweiten neuronalen Netzes 18 mit m Prozessoreinheiten 82.1, 82.2 . . . 82.m aufgeschaltet. Der Ausgang jeder Prozessoreinheit 82.1 bis 82.m der Eingangsschicht ist wieder mit während des Lernprozesses variablen Gewichten auf jede von n Prozessoreinheiten 84.1, 84.2 . . . 84.n einer zweiten Schicht 86 aufgeschaltet. Die Prozessoreinheiten 84.1 bis 84.n liefern rekonstruierte Bilddaten an Ausgängen 20 des zweiten neuronalen Netzes 18.

Fig. 6 veranschaulicht den Lernprozeß des neuronalen Netzes zur Daten-Reduktion und Rekonstruktion von Fig. 3. Entsprechende Teile sind mit den gleichen Bezugszeichen versehen wie dort.

Auf die Prozessoreinheiten 50.1 bis 50.n der Eingangsschicht 48 werden nacheinander Vektoren b von Bilddaten aufgeschaltet. An den Prozessoreinheiten 58.1 bis 58.n der Ausgangsschicht 56 erscheint dann ein Vektor . Die Vektoren b und repräsentieren die Bilddaten des eingangsseitigen Pixelmusters bzw. des rekonstruierten Pixelmusters. Die Differenz, die in einem "Summierpunkt" 88 gebildet wird, steuert einen Lernvorgang, der durch eine Lernregel 90 bestimmt ist. Dieser Lernvorgang ist durch einen Pfeil 92 symbolisiert. Auf das neuronale Netz werden nacheinander eine Vielzahl von Bilddaten-Vektoren b aufgeschaltet und mit den rekonstruierten Bilddaten-Vektoren verglichen. Durch den Lernvorgang werden die Gewichte, mit denen die Ausgänge der Prozessorelemente 50.1 bis 50.n der Eingangsschicht 48 auf die Prozessorelemente 54.1 bis 54.m und die Ausgänge der Prozessorelemente 54.1 bis 54.m auf die Prozessorelemente 58.1 bis 58.n aufgeschaltet werden, schrittweise verändert, bis die Vektoren b und stets übereinstimmen. Dann liefern die m Ausgänge der Prozessorelemente 54.1 bis 54.m die Merkmalsvektoren, welche den gesamten Bildinhalt ohne oder mit verminderter Redundanz repräsentieren.

Fig. 7 veranschaulicht in ähnlicher Weise den Lernvorgang für das dritte neuronale Netz 24 zur Klassifikation von Objekten.

Das erste neuronale Netz 14, das in der im Zusammenhang mit Fig. 6 beschriebenen Weise trainiert ist liefert aus einem Vektor b der eingangsseitigen Bilddaten einen Merkmalsvektor m von Merkmalsdaten. Der Merkmalsvektor m ist auf das dritte neuronale Netz 24 aufgeschaltet, das nach Art von Fig. 4 aufgebaut ist. Das neuronale Netz 24 liefert einen "Klassifikationsvektor" k. Die Elemente des Klassifikationsvektors k sind die Ausgänge der Prozessorelemente 68.1 bis 68.j und 79. Dem neuronalen Netz 14 werden in dem Lernprozess nacheinander Bilddaten b verschiedener Objekte zugeführt. Jedem Typ von Objekt ist ein Element des Klassifikationsvektors k zugeordnet. Wenn das durch den Vektor b der Bilddaten dargestellte Objekt vom Typ "i" ist, dann sollte das diesem Typ "i" zugeordnete Element des Klassifikationsvektors "1" sein, während alle anderen Elemente "0" sind. Solche Klassifikationsvektoren werden zu jedem durch den Vektor b dargestellten Objekt an einem Eingang 94 als "Sollwerte" aufgeschaltet. Der von dem dritten neuronalen Netz aus dem Merkmalsvektor m gelieferte Klassifikationsvektor k wird zunächst nicht dem Sollwert entsprechen. Dieser Klassifikationsvektor k wird mit dem jeweiligen Sollwert verglichen. Die in einem "Summierpunkt" gebildete Differenz bildet den Eingang des durch eine Lernregel 98 definierten Lernprozesses. Im Verlaufe dieses Lernprozesses werden eingangsseitig eine Vielzahl von Objekten verschiedener Typen in Form von Vektoren b der Bilddaten vorgegeben und die erhaltenen Klassifikationsvektoren k mit den zugehörigen Sollwerten verglichen. Damit werden die Gewichte in dem neuronalen Netz schrittweise nach der Lernregel verändert, bis die durch die Pixelmatrix dargestellten und durch den Vektor b repräsentierten Typen von Objekten durch den Klassifikationsvektor korrekt identifiziert werden. Das ist in Fig. 7 durch einen Pfeil 100 dargestellt.

Claims

1. Verfahren zur Objektidentifikation aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten, dadurch gekennzeichnet, daß

a) die eingangsseitigen Bilddaten auf ein erstes neuronales Netz (14) aufgeschaltet werden, wobei die Prozessoreinheiten (54.1 bis 54.m) einer Schicht eine entsprechend Anzahl (m) von Merkmalsdaten liefert,
b) die Merkmalsdaten auf ein zweites neuronales Netz (18) aufgeschaltet werden, wobei die Prozessoreinheiten (58.1 bis 58.n; 84.1 bis 84.n) einer Schicht (86) dieses Netzes (18) rekonstruierte Bilddaten erzeugen,
c) die Gewichte der neuronalen Netze (14, 18) durch Trainieren so gewählt werden, daß die rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß

a) die Merkmalsdaten weiterhin auf ein drittes neuronales Netz (24) aufgeschaltet werden und
b) das dritte neuronale Netz (24) zur Klassifikation von Objekten aus den Merkmalsdaten trainiert wird.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die verborgene Schicht (52) des ersten neuronalen Netzes (14) zugleich als Eingangsschicht des zweiten neuronalen Netzes (18) benutzt wird.

4. Verfahren nach einem der Ansprüche 1 bis 3 dadurch gekennzeichnet, daß die Anzahl (m) der Ausgänge des ersten neuronalen Netzes (14) und dementsprechend die Anzahl (m) der Eingänge des zweiten neuronalen Netzes (18) wesentlich kleiner als die Anzahl (n) der Eingänge (12) des ersten neuronalen Netzes (14) und der Ausgänge (20) des zweiten neuronalen Netzes (18) gewählt wird.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die reduzierten Merkmalsdaten zwischen dem ersten und dem zweiten neuronalen Netz (14 bzw. 18) fernübertragen werden.

6. Vorrichtung zur Objektklassifikation aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten, dadurch gekennzeichnet, daß

a) die eingangsseitigen Bilddaten (12) auf ein erstes neuronales Netz (14) aufgeschaltet sind, wobei die Prozessoreinheiten (54.1 bis 54.m) einer Schicht (52) eine Anzahl (m) von Merkmalsdaten liefert,
b) die Merkmalsdaten auf ein zweites neuronales Netz (18) aufgeschaltet sind, wobei die Prozessoreinheiten (58.1 bis 58.n; 84.1 bis 84.n) einer Schicht (56; 86) dieses Netzes (18) rekonstruierte Bilddaten erzeugen,
c) die Gewichte der neuronalen Netze (14, 18) so gewählt sind, daß die rekonstruierten Bilddaten weitestgehend den eingangsseitigen Bilddaten entsprechen.

7. Vorrichtung nach Anspruch 6, dadurch gekennzeichnet, daß

a) die Merkmalsdaten weiterhin auf ein drittes neuronales Netz (24) aufgeschaltet sind und
b) das dritte neuronale Netz (24) zur Klassifikation von Objekten aus den Merkmalsdaten trainiert ist.

8. Vorrichtung nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß die Anzahl (m) der Ausgänge des ersten neuronalen Netzes (14) und dementsprechend die Anzahl (m) der Eingänge des zweiten neuronalen Netzes (18) wesentlich kleiner als die Anzahl (n) der Eingänge (12) des ersten neuronalen Netzes (14) und der Ausgänge (20) des zweiten neuronalen Netzes (18) ist.

9. Vorrichtung nach einem der Ansprüche 6 bis 8, dadurch gekennzeichnet, daß die verborgene Schicht (52) des ersten neuronalen Netzes (14) zugleich die Eingangsschicht des zweiten neuronalen Netzes (18) bildet

10. Vorrichtung nach Anspruch 6, gekennzeichnet durch Mittel (36, 38, 40) zur Fernübertragung der reduzierten Merkmalsdaten zwischen dem ersten und dem zweiten neuronalen Netz (14 bzw. 18).