-
Die
Erfindung betrifft ein Verfahren und eine Vorrichtung zur Fernübertragung
von aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten.
-
Bilddaten
liegen üblicherweise
zunächst
als ”Pixelmuster” vor. Das
ist ein Raster von Bildpunkten, bei welchem jedem dieser Bildpunkte
ein Grauwert, also eine Bildhelligkeit, und ggf. ein Farbwert zugeordnet
ist. Typische Pixelmuster werden von einem Mosaikdetektor erzeugt,
der aus einer zweidimensionalen Anordnung von Detektorelementen
besteht. Der Mosaikdetektor kann auch im Infraroten arbeiten, so
dass er ein Infrarotbild erfasst. Die Signale der verschiedenen
Detektorelemente werden digitalisiert, d. h. jedes Detektorelement
liefert dann ein Datenwort von mehreren Bit. Solche Pixelmuster
liefern daher sehr große
Datenmengen.
-
Das
Pixelmuster stellt Objekte dar, beispielsweise ein Flugzeug eines
bestimmten Typs. Ein solches Objekt kann unter verschiedenen Aspektwinkeln
und in verschiedenen Entfernungen beobachtet werden. Dementsprechend
erscheint das Objekt in dem Pixelbild mit unterschiedlichen Konturen
und je nach der Entfernung unterschiedlichen Abmessungen. Das menschliche
Auge und das menschliche Gehirn sind in der Lage, ein solches Objekt
trotzdem zu identifizieren, indem bestimmte charakteristische Merkmale
des Objekts erkannt werden. Ein Flugzeug hat einen Rumpf und quer
zu diesem sich erstreckende Tragflächen. Bei einem Kampfflugzeug
ist der Rumpf kurz und die Tragflächen sind z. B. deltaförmig. Es
bietet große
Schwierigkeiten, eine solche Klassifizierung von Objekten aus einem
Pixelbild durch Bildverarbeitung vorzunehmen. Man muß dazu aus
dem Pixelbild Merkmale extrahieren, also z. B. Kanten und Begrenzungslinien
durch Vergleich von Pixeln mit ihren Umgebungspixeln erkennen, was aufwendige
Algorithmen erfordert. Aus so gewonnenen Merkmalen kann dann ggf.
in einem nächsten Schritt
eine Klassifizierung eines in dem Pixelbild dargestellten Objekts
erfolgen. Erschwert wird dies auch durch die großen Datenmengen des Pixelbildes.
-
Die
in Pixelmustern gespeicherte Information ist in hohem Maße redundant.
Es sind daher Algorithmen zur Bildkompression bekannt. Diese Algortithmen
nutzen z. B. die Tatsache aus, daß in dem Bild häufig Flächen mit
gleichen Grau- oder Farbwerten enthalten sind. Jede dieser Flächen umfaßt eine
Vielzahl von Pixeln. Man braucht dann nicht jedes Pixel einzeln
zu speichern. Folgen in einer Zeile des Pixelmusters beispielsweise
vierzig Mal Grauwerte -0- aufeinander, dann kann man dies in der
Form ”40x-0-” speichern
und übertragen.
Die Bildkompression erfolgt mit Hilfe von programmierten Algorithmen.
Der Rechenaufwand und die Rechenzeit dafür ist erheblich.
-
Es
ist weiter bekannt, Bilder statt durch ein Pixelmuster durch Ecken,
Kanten, Kreise und sonstige Begrenzungskurven zu definieren und
so zu speichern und zu übertragen.
Das ist eine Alternative zu Pixelmustern, die weniger Speicherplatz
erfordert. Eine solche „Vektorgraphik” wird insbesondere
für technische
Zeichnungen beim rechnergeschützten Konstruieren
benutzt.
-
Die
DE 42 07 595 A1 offenbart
ein Verfahren zur Vorklassifikation von hochdimensionalen Merkmalsvektoren
für Zwecke
der Signalverarbeitung. Dabei wird in einem ersten Schritt zur Datenreduktion die
Dimensionalität
der Merkmalsvektoren verringert und in einem zweiten Schritt werden
die niederdimensionalen Merkmalsvektoren in einzelne Cluster gruppiert.
-
Aus
der
DE 195 38 004
A1 ist ein Verfahren zur Grobklassifizierung von Objekten
bekannt. In einer Lernphase wird eine Grobklasse für Objekte
definiert. In der Klassifizierungsphase werden dann Objektdaten
erfasst, wobei bei einem bestimmten Übereinstimmungsgrad der während der
Lernphase eingelesenen Merkmalsdaten mit den erfassten Objektdaten
das Objekt als zur Grobklasse gehörend erkannt wird.
-
Die
DE 196 36 074 A1 zeigt
ein lernfähiges Bildverarbeitungssystem
zur Klassierung von zu prüfenden
Teilen anhand von Merkmalssätzen.
Hierzu weist das Bildverarbeitungssystem u. a. eine Merkmalsdatenbank
zum Speichern extrahierter Bildmerkmale der in einer Lernphase erfassten
Muster und eine Einheit zur Reduktion der Bildmerkmale auf die für die Klassierung
relevanten Merkmale auf.
-
Die
US 5 086 479 A betrifft
ein Informationsverarbeitungssystem, welches auf Lernfunktionen neuronaler
Netzwerke zurückgreift.
Das System weist ein Computersystem und eine Mustererkennungsvorrichtung
auf, die über
eine Kommunikationsleitung miteinander verbunden sind.
-
Aufgabe
der Erfindung ist es, ein Verfahren und eine Vorrichtung zur Fernübertragung
von aus als Pixelmuster vorliegenden eingangsseitigen Bilddaten
anzugeben, die es ermöglichen,
Bilddaten mit geringem Aufwand an Übertragungskapazität fern zu übertragen.
-
Erfindungsgemäß wird die
erstgenannte Aufgabe dadurch gelöst,
dass
- a) die eingangsseitigen Bilddaten auf
ein erstes neuronales Netz mit einer Anzahl von Eingängen und
einer Anzahl Ausgängen
aufgeschaltet werden,
- b) Prozessoreinheiten einer Schicht dieses ersten neuronalen
Netzes eine entsprechende Anzahl von gegenüber den Bilddaten reduzierten
Merkmalsdaten liefern,
- c) die Merkmalsdaten zwischen dem ersten neuronalen Netz und
einem zweiten neuronalen Netz mit einer Anzahl von Eingängen und
einer Anzahl von Ausgängen
fern übertragen
werden, wobei die Anzahl der Ausgänge des ersten neuronalen Netzes
und dementsprechend die Anzahl der Eingänge des zweiten neuronalen
Netzes wesentlich kleiner als die Anzahl der Eingänge des
ersten neuronalen Netzes und der Ausgänge des zweiten neuronalen
Netzes gewählt
wird,
- d) die Merkmalsdaten auf das zweite neuronale Netz aufgeschaltet
werden,
- e) Prozessoreinheiten einer Schicht dieses zweiten neuronalen
Netzes rekonstruierte Bilddaten erzeugen,
- f) die Gewichte der neuronalen Netze durch Trainieren so gewählt werden,
dass die rekonstruierten Bilddaten weitestgehend den eingangsseitigen
Bilddaten entsprechen.
-
Aus
den Bilddaten des Pixelbildes werden durch das erste neuronale Netz ”Merkmalsdaten
gewonnen, indem der Ausgang jeder Prozessoreinheit der Eingangsschicht
des ersten neuronalen Netzes auf jede Prozessoreinheit der zweiten
Schicht dieses neuronalen Netzes aufgeschaltet wird. Aus den so erhaltenen
Merkmalsdaten werden durch das zweite neuronale Netz rekonstruierte
Bilddaten erzeugt. Die beiden neuronalen Netze werden nun so trainiert, dass
die so rekonstruierten Bilddaten weitestgehend den eingangsseitigen
Bilddaten entsprechen. Wenn das der Fall ist, dann ist sichergestellt,
dass die ”Merkmalsdaten” tatsächlich den
gesamten Bildinhalt des eingangsseitigen Pixelbildes repräsentieren.
Die Bedingung, dass die rekonstruierten Bilddaten den eingangsseitigen
Bilddaten entsprechen stellt eine Art Rückführung dar.
-
Die
so erhaltenen Merkmalsdaten haben keinen Bezug zu konkreten Bildelementen
wie Kanten oder Begrenzungslinien.
-
Die
so erhaltenen Merkmalsdaten können dann
weiterhin auf ein drittes neuronales Netz aufgeschaltet werden.
Das dritte neuronale Netz wird zur Klassifikation von Objekten aus
den Merkmalsdaten programmiert. Das dritte neuronale Netz wird dann so
trainiert, daß es
bei Eingabe der reduzierten Merkmalsdaten an verschiedenen, der
verschiedenen zu erwartenden Objekten zugeordneten Ausgängen – im Idealfall
durch logisch ”1” oder logisch ”0” – signalisiert,
ob das Pixelmuster ein Objekt vom Typ 1, ein Objekt vom Typ 2 usw.
zeigt. Das Trainieren des dritten neuronalen Netzes erfolgt in der
Weise, daß dem das
eingangsseitige Pixelmuster erzeugenden Mosaikdetektor in einem
Lernprozeß nacheinander
die verschiedenen Typen von Objekten unter verschiedenen Aspektwinkeln ”gezeigt” werden.
Die Gewichte des dritten neuronalen Netzes werden dann nach einem
Lernalgorithmus variiert, bis die jeweils richtigen Ausgangsdaten
erhalten werden.
-
Die
Erfindung gestattet eine Datenreduktion, wenn die Anzahl der Ausgänge des
ersten neuronalen Netzes und dementsprechend die Anzahl der Eingänge des
zweiten neuronalen Netzes wesentlich kleiner als die Anzahl der
Eingänge
des ersten neuronalen Netzes und der Ausgänge des zweiten neuronalen
Netzes ist. Das ist wegen der Redundanz der Bildinformationen in
der Pixelmatrix im allgemeinen möglich.
Das erste neuronale Netz liefert dann eine wesentlich reduzierte
Anzahl von Merkmalsdaten, die aber, weil sich daraus die Pixelmatrix
weitestgehend rekonstruieren läßt, den
gesamten Bildinhalt repräsentieren.
Aus den so ”automatisch” ohne Bezugnahme
auf konkrete Bildinhalte wie Begrenzungslinien etc. erhaltenen,
in ihrer Anzahl gegenüber
den Bilddaten des Pixelbildes reduzierten Merkmalsdaten kann durch
das dritte neuronale Netz mit geringerem Hardware- und Trainingsaufwand
eine Klassifikation des Objekts erfolgen.
-
Diese
Datenreduktion kann ausgenutzt werden, um die Bilddaten mit geringerem
Aufwand an Speicherplatz zu speichern oder die Bilddaten mit geringerem
Aufwand an Übertragungskapazität fernzuüertragen.
-
Die
Erfindung verwendet dabei keinen Kompressions-Algorithmus der oben
erwähnten
Art. Es wird auch nicht versucht, irgendwelche Kanten oder sonstigen
Begrenzungslinien in dem Bild zu erkennen. Es wird lediglich die
Tatsache ausgenutzt, dass Pixelmuster den Bildinhalt generell redundant
wiedergeben. Der Bildinhalt kann durch wesentlich weniger Parameter
eindeutig wiedergegeben werden als das Pixelmuster Pixel enthält. Aus
diesem Grund wird das erste neuronale Netz vorgesehen, das wesentlich
mehr Eingänge
als Ausgänge
enthält.
Die Anzahl der Ausgänge
des ersten neuronalen Netzes bestimmt die – reduzierte – Anzahl
der erhaltenen Merkmalsdaten. Ein zweites neuronales Netz enthält eine
relativ geringe Anzahl von Eingängen,
vorzugsweise gleich der Anzahl der Ausgänge des ersten neuronalen Netzes,
und eine im Vergleich dazu große
Anzahl von Ausgängen.
Die neuronalen Netze werden dann in der beschriebenen Weise trainiert.
-
Die
Erfindung betrifft auch eine Vorrichtung zur Durchführung des
beschriebenen Verfahrens. Diese Vorrichtung ist Gegenstand der Patentansprüche 4 bis
6.
-
Ausführungsbeispiele
der Erfindung sind nachstehend unter Bezugnahme auf die zugehörigen Zeichnungen
näher erläutert.
-
1 ist
ein Blockdiagramm und zeigt den Grundaufbau einer Vorrichtung zur
Datenreduktion von als Pixelmuster vorliegenden eingangsseitigen Bilddaten,
wobei die durch die Datenreduktion erhaltenen Merkmalsdaten zur
Klassifikation von Objekten benutzt werden.
-
2 ist
ein Blockdiagramm ähnlich 1, wobei
die Merkmalsdaten fernübertragen
werden.
-
3 veranschaulicht
die Struktur des ersten und des zweiten neuronalen Netzes, durch
welche die Datenreduktion auf die Merkmalsdaten bzw. die Rekonstruktion
der Bilddaten aus den Merkmalsdaten erfolgt.
-
4 veranschaulicht
die Struktur des ersten und des dritten neuronalen Netzes, durch
welche die Datenreduktion auf die Merkmalsdaten bzw. die Klassifikation
von Objekten erfolgt.
-
5 veranschaulicht
die Struktur des ersten und des zweiten neuronalen Netzes
-
6 veranschaulicht
das Trainieren des ersten und des zweiten neuronalen Netzes.
-
7 veranschaulicht
das Trainieren des dritten neuronalen Netzes für die Klassifikation.
-
In 1 ist
mit 10 ein Bild bezeichnet, das durch eine Pixelmatrix
dargestellt ist. Es kann sich dabei um ein ”elektronisches Bild” handeln,
das durch einen Mosaikdetektor mit einer zweidimensionalen Anordnung
von Detektorelementen erzeugt wird. Das elekktronische Bild kann
aber auch durch punkt- oder zeilenweises Abtasten einer Objektszene erhalten
werden. Es ergibt sich dabei eine Vielzahl von Bilddaten in Form
von Grau- und/oder Farbwerten der einzelnen Pixel, die durch Pfeile 12 dargestellt
sind. Diese Bilddaten werden auf die Eingangsschicht eines ersten
neuronalen Netzes 14 aufgeschaltet. Die Anzahl der Eingänge oder
Prozessoreinheiten der Eingangsschicht des neuronalen Netzes 14 kann
der Anzahl der von der Pixelmatrix gelieferten Bilddaten entsprechen.
Es kann aber schon eingangsseitig eine Datenreduktion erfolgen,
indem z. B. vier oder sechzehn benachbarte Pixel zusammengefaßt werden,
wobei z. B. der Mittelwert der Grauwerte dieser Pixel auf das erste
neuronale Netz 14 aufgeschaltet wird.
-
Das
neuronale Netz 14 bewirkt eine Datenreduktion. Zu diesem
Zweck weist das neuronale Netz 14 in einer zweiten Schicht
wesentlich weniger Prozessoreinheiten auf als in seiner Eingangsschicht. Dementsprechend
liefert das erste neuronale Netz 14 an seinen Ausgängen 16 eine
wesentlich reduzierte Datenmenge als ”Merkmalsdaten”. Diese Merkmalsdaten
werden auf ein zweites neuronales Netz 18 geschaltet. Das
zweite neuronale Netz 18 hat eine Eingangsschicht mit Eingängen oder
Prozessoreinheiten, deren Anzahl der Anzahl der Prozessoreinheiten
in der verborgenen Schicht des ersten neuronalen Netzes 14,
also der Anzahl der Merkmalsdaten entspricht. Das zweite neuronale
Netz 18 hat eine verborgene Schicht mit Ausgängen, deren Anzahl
wesentlich größer ist
als die Anzahl der Eingänge
oder der Prozessoreinheiten in der Eingangsschicht des zweiten neuronalen
Netzes 18. Vorzugsweise entspricht die Anzahl der Ausgänge des
zweiten neuronalen Netzes 18 der Anzahl der Eingänge oder
Prozessoreinheiten der Eingangsschicht des ersten neuronalen Netzes 14,
also der Anzahl der Bilddaten 12 der Pixelmatrix. Die Ausgänge des zweiten
neuronalen Netzes 18 liefern Bilddaten, die durch Pfeile 20 dargestellt
sind. Diese Bilddaten 20 liefern ein rekonstruiertes Bild 22 wieder
in Form einer Pixelmatrix. Zunächst
wird dieses rekonstruierte Bild 22 nicht dem eingangsseitigen
Bild 10 entsprechen. Die Gewichte der neuronalen Netze 14 und 18 werden
nun nach einem Lernalgorithmus so trainiert, daß das rekonstruierte Bild 22 dem
eingangsseitigen Bild entspricht. Dann repräsentieren die Merkmalsdaten
trotz ihrer reduzierten Anzahl den gesamten Bildinhalt des eingangsseitigen
Bildes 10, da sich dieser Bildinhalt aus diesen Merkmalsdaten
in dem rekonstruierten Bild 22 rekonstruieren ließ. Diese
Rekonstruktion ist möglich,
da, wie eingangs erläutert, die
Darstellung von Bildern in einer Pixelmatrix üblicherweise redundant und
eine Datenreduktion möglich
ist.
-
Die
beschriebene Datenreduktion der Bilddaten kann dazu dienen, den
Bildinhalt mit geringem Aufwand an Speicherplatz zu speichern. Es
werden nur die ”Merkmalsdaten” gespeichert.
Aus diesen Merkmalsdaten kann mittels des zweiten neuronalen Netzes 18 jederzeit
die Pixelmatrix rekonstruiert werden. Die Datenreduktion kann aber
auch dazu benutzt werden, den Bildinhalt fernzuübertragen. Auch dabei brauchen
nur die Merkmalsdaten übertragen zu
werden. Aus diesen fernübertragenen
Merkmalsdaten können
mittels des zweiten neuronalen Netzes die Bilddaten für die Pixelmatrix
jederzeit rekonstruiert werden.
-
Die
reduzierten Merkmalsdaten können
aber vorzugsweise auch benutzt werden, um Objekte, die durch die
Pixelmatrix dargestellt werden, zu klassifizieren. Zu diesem Zweck
sind die Merkmalsdaten zusätzlich
auf Eingänge
oder die Eingangsschicht eines dritten neuronalen Netzes 24 aufgeschaltet.
Das ist durch die Verbindung 26 und die Pfeile 28 dargestellt. Das
dritte neuronale Netz 24 hat Ausgänge 30.1 bis 30.j,
die je einem Typ von möglichen
Objekt zugeordnet sind, das durch die Pixelmatrix dargestellt ist.
Ein Ausgang 32 ist dem Hintergrund zugeordnet. Das dritte
neuronale Netz 24 wird so trainiert, daß es aus den aufgeschalteten
Merkmalsdaten Objekte erkennt und z. B. wenn die Pixelmatrix ein
Objekt vom Typ ”1” darstellt,
am Ausgang 30.1 eine logische ”1” und an den übrigen Ausgängen 30.2 bis 30.j eine
logische ”0” liefert.
-
2 zeigt
eine ähnliche
Anordnung, bei welcher die Merkmalsdaten fernübertragen werden. Entsprechende
Teile tragen die gleichen Bezugszeichen wie in 1.
-
Bei
der Ausführung
nach 2 werden wie in 1 durch
Datenreduktion in dem neuronalen Netz Merkmalsdaten gewonnen, die
hier durch einen Pfeil 34 dargestellt sind. Die Merkmalsdaten
sind auf einen Sender 36 aufgeschaltet. Der Sender 36 übermittelt
die Merkmalsdaten über
eine Übertragungsstrecke 38 zu
einem Empfänger 40.
Die Datenübertragung
kann je nach Anwendungsfall mittels irgendwelcher bekannter Mittel
wie Draht, drahtlose Übertragung,
Lichtleiter, Laser usw. erfolgen. Die Datenübertragung kann in irgendeiner
bekannten Form wie analog, digital, elektrisch, optisch, verschlüsselt, unverschlüsselt usw.
erfolgen, wieder je nach Anwendungsfall und dem benutzten Übertragungsmedium. Die
Merkmalsdaten werden von dem Empfänger 40 auf das zweite
neuronale Netz 18 aufgeschaltet. Das ist in 2 durch
Pfeil 42 dargestellt. Das zweite neuronale Netz 18 rekonstruiert
aus den Merkmalsdaten wie in dem Beispiel von 1 den
Bildinhalt in Form einer Pixelmatrix.
-
Wie
in 2 durch Pfeil 44 dargestellt ist, sind
die Merkmalsdaten außerdem,
wie in 1, auf ein drittes neuronales Netz 24B aufgeschaltet,
welches eine Klassifikation des durch die Pixelmatrix dargestellten
Objektes vornimmt. Der Typ des Objektes wird in einem von den Ausgängen 30.1 bis 30.j und 32 des
dritten neuronalen Netzes angesteuerten Display 46 zusätzlich zu
dem Bild der Pixelmatrix angezeigt.
-
2 zeigt
auch eine Alternative. Nach dieser Alternative ist das dritte neuronale
Netz 24A senderseitig angeordnet. Das dritte neuronale
Netz 24A wird dann unmittelbar von den Merkmalsdaten am Ausgang
des ersten neuronalen Netzes 14 beaufschlagt. Das ist in 2 durch
die gestrichelte Verbindung 44A angedeutet. Die von dem
dritten neuronalen Netz 24A an den Ausgängen 30.1A bis 30.jA und 32A gelieferte
Klassifikation wird, wie gestrichelt dargestellt, dem Sender 36 zugeführt und
von diesem mit übertragen.
-
3 zeigt
eine vorteilhafte Struktur des ersten und des zweiten neuronalen
Netzes 14 und 18.
-
Das
neuronale Netz 14 enthält
eine Eingangsschicht 48 mit einer Anzahl n von Prozessoreinheiten 50.1 bis 50.n und
eine zweite Schicht 52 mit einer Anzahl m von Prozessoreinheiten 54.1, 54.2 ... 54.m.
Dabei ist m << n. Das neuronale
Netz 14 liefert also m Ausgänge. Das sind die m Merkmalsdaten.
-
Bei
der Ausführung
nach 3 bildet die zweite Schicht 52 mit den
m Prozessoreinheiten 54.1 ... 54,m des ersten
neuronalen Netzes 14 zugleich die Eingangsschicht des zweiten
neuronalen Netzes 18. Das zweite neuronale Netz 18 weist
in einer Schicht 56 wieder n Prozessoreinheiten auf. 58.1, 58.2 ... 58.n auf.
Die Ausgänge
aller m Prozessoreinheiten 54.1 ... 54.m der zweiten
Schicht 52 des ersten neuronalen Netzes 52 sind
auf alle Eingänge
der n Prozessoreinheiten 58.1 ... 58.n der Schicht 56 des zweiten
neuronalen Netzes geschaltet. Die Prozessoreinheiten 58.1 ... 58.n liefern
die n Bilddaten 20.
-
4 zeigt
die Strukturen des ersten und des dritten neuronalen Netzes 14 bzw. 18.
Entsprechende Teile tragen die gleichen Bezugszeichen wie in 1 bis 3.
-
Die
von dem ersten neuronalen Netz 14 an den Ausgängen der
Prozessoreinheiten 54.1 bis 54.m gelieferten Merkmalsdaten
liegen an der Eingangsschicht 60 des dritten neuronalen
Netzes 24 mit m Prozessorelementen 62.1, 62.2 ... 62.m an. Das
dritte neurinale Netz ist ein dreischichtiges Netz mit einer Eingangsschicht 60,
einer verborgenen Schicht 64 und einer Ausgangsschicht 66.
Die Ausgangsschicht 66 enthält j + 1 Prozessoreinheiten 68.1, 68.2 ... 68.j und 70.
Jede der Prozessoreinheiten 68.1 bis 68.j ist
einem bestimmten Typ von Objekt zugeordnet. Die Prozessoreinheit 70 entspricht
den Hintergrund. Das neuronale Netz ist so trainiert, daß für ein Objekt
vom Typ ”i”, das durch
die eingangsseitige Pixelmatrix dargestellt wird, im Idealfall an
dem zugehörigen Ausgang ”i” eine logische ”1” erscheint, während die übrigen Ausgänge logisch ”0” liefern.
-
5 zeigt
die Struktur des ersten und des zweiten neuronalen Netzes 14 und 18 bei
Fernübertragung
der Merkmalsdaten entsprechend 2.
-
Das
neuronale Netz 14 enthält
hier eine Eingangsschicht 72 mit n Prozessoreinheiten 74.1, 74.2 ... 74.n und
eine zweite Schicht 76 von m Prozessereinheiten 78.1, 78,2 ... 78.m.
Dabei ist wieder m << n. Der Ausgang
jeder Prozessoreinheit der Eingangsschicht 72 ist mit während des
Lernprozesses variablen Gewichten auf jede Prozessoreinheit der Schicht 76 aufgeschaltet.
Das ist durch Pfeile angedeutet. Die Prozessoreinheiten der Schicht 76 bilden die
Summe der gewichteten Ausgänge
der Prozessoreinheiten 74.1 bis 74.n, wie durch
das Summenzeichen F angedeutet ist und liefern als Ausgang jeweils
eine Funktion f dieser Summe. Das ist die übliche Funktion neuronaler
Netze. In dem Lernprozeß werden
die Gewichte nach einem Lernalgorithmus schrittweise verändert, bis
ein bestimmtes Kriterium, hier z. B. die Übereinstimmung von eingangsseitiger Pixelmatrix
und rekonstruierter Pixelmatrix erfüllt ist.
-
Die
Ausgänge
der Prozessoreinheiten der Schicht 76 liefern die m Merkmalsdaten.
Die Merkmalsdaten sind wie in 2 auf einen
Sender 36 aufgeschaltet. Der Sender 36 überträgt die Merkmalsdaten über den Übertragungsweg 38 auf
einen Empfänger 40.
Durch den Empfänger 40 werden
die Merkmalsdaten hier auf eine Eingangsschicht 80 des zweiten
neuronalen Netzes 18 mit m Prozessoreinheiten 82.1, 82.2 ... 82.m aufgeschaltet.
Der Ausgang jeder Prozessoreinheit 82.1 bis 82.m der
Eingangsschicht ist wieder mit während
des Lernprozesses variablen Gewichten auf jede von n Prozessoreinheiten 84.1, 84.2 ... 84.n einer
zweiten Schicht 86 aufgeschaltet. Die Prozessoreinheiten 84.1 bis 84.n liefern rekonstruierte
Bilddaten an Ausgängen 20 des
zweiten neuronalen Netzes 18.
-
6 veranschaulicht
den Lernprozeß des neuronalen
Netzes zur Daten-Reduktion und Rekonstruktion von 3.
Entsprechende Teile sind mit den gleichen Bezugszeichen versehen
wie dort.
-
Auf
die Prozessoreinheiten
50.1 bis
50.n der Eingangsschicht
48 werden
nacheinander Vektoren
b von
Bilddaten aufgeschaltet. An den Prozessoreinheiten
58.1 bis
58.n der
Ausgangsschicht
56 erscheint dann ein Vektor
Die
Vektoren
b und
repräsentieren
die Bilddaten des eingangsseitigen Pixelmusters bzw. des rekonstruierten
Pixelmusters. Die Differenz, die in einem ”Summierpunkt”
88 gebildet wird,
steuert einen Lernvorgang, der durch eine Lernregel
90 bestimmt
ist. Dieser Lernvorgang ist durch einen Pfeil
92 symbolisiert.
Auf das neuronale Netz werden nacheinander eine Vielzahl von Bilddaten-Vektoren
b aufgeschaltet und mit den
rekonstruierten Bilddaten-Vektoren verglichen. Durch den Lernvorgang
werden die Gewichte, mit denen die Ausgänge der Prozessorelemente
50.1 bis
50.n der Eingangsschicht
48 auf
die Prozessorelemente
54.1 bis
54.m und die Ausgänge der
Prozessorelemente
54.1 bis
54.m auf die Prozessorelemente
58.1 bis
58.n aufgeschaltet
werden, schrittweise verändert, bis
die Vektoren
b und
stets übereinstimmen.
Dann liefern die m Ausgänge
der Prozessorelemente
54.1 bis
54.m die Merkmalsvektoren,
welche den gesamten Bildinhalt ohne oder mit verminderter Redundanz repräsentieren.
-
7 veranschaulicht
in ähnlicher
Weise den Lernvorgang für
das dritte neuronale Netz 24 zur Klassifikation von Objekten.
-
Das
erste neuronale Netz 14, das in der im Zusammenhang mit 6 beschriebenen
Weise trainiert ist liefert aus einem Vektor b der eingangsseitigen Bilddaten einen
Merkmalsvektor m von Merkmalsdaten.
Der Merkmalsvektor m ist auf
das dritte neuronale Netz 24 aufgeschaltet, das nach Art
von 4 aufgebaut ist. Das neuronale Netz 24 liefert
einen ”Klassifikationsvektor” k. Die Elemente des Klassifikationsvektors k sind die Ausgänge der
Prozessorelemente 68.1 bis 68.j und 79.
Dem neuronalen Netz 14 werden in dem Lernprozess nacheinander
Bilddaten b verschiedener Objekte
zugeführt.
Jedem Typ von Objekt ist ein Element des Klassifikationsvektors k zugeordnet. Wenn das durch
den Vektor b der Bilddaten
dargestellte Objekt vom Typ ”i” ist, dann
sollte das diesem Typ ”i” zugeordnete
Element des Klassifikationsvektors ”1” sein, während alle anderen Elemente ”0” sind.
Solche Klassifikationsvektoren werden zu jedem durch den Vektor b dargestellten Objekt an
einem Eingang 94 als ”Sollwerte” aufgeschaltet.
Der von dem dritten neuronalen Netz aus dem Merkmalsvektor m gelieferte Klassifikationsvektor k wird zunächst nicht dem Sollwert entsprechen.
Dieser Klassifikationsvektor k wird
mit dem jeweiligen Sollwert verglichen. Die in einem ”Summierpunkt” gebildete
Differenz bildet den Eingang des durch eine Lernregel 98 definierten
Lernprozesses. Im Verlaufe dieses Lernprozesses werden eingangsseitig
eine Vielzahl von Objekten verschiedener Typen in Form von Vektoren b der Bilddaten vorgegeben
und die erhaltenen Klassifikationsvektoren k mit den zugehörigen Sollwerten verglichen.
Damit werden die Gewichte in dem neuronalen Netz schrittweise nach
der Lernregel verändert,
bis die durch die Pixelmatrix dargestellten und durch den Vektor b repräsentierten Typen von Objekten
durch den Klassifikationsvektor korrekt identifiziert werden. Das
ist in 7 durch einen Pfeil 100 dargestellt.