EP1281157A1

EP1281157A1 - Verfahren und anordnung zum ermitteln eines objekts in einem bild

Info

Publication number: EP1281157A1
Application number: EP01940216A
Authority: EP
Inventors: Gustavo Deco; Bernd SCHÜRMANN
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2000-05-09
Filing date: 2001-05-07
Publication date: 2003-02-05
Also published as: WO2001086585A1; JP2003533785A; US20030133611A1; CN1440538A

Abstract

Zur Ermittlung eines Objekts in einem Bild werden hierarchisch Teil- und Unterteilbereiche ausgewählt, die mit unterschiedlicher Auflösung auf jeder hierarchischen Ebene aufgenommen werden und mit Merkmalen des zu erkennenden Objekts verglichen werden. Ist das Objekt mit ausreichender Sicherheit erkannt, so wird das zu erkennende Objekt als erkanntes Objekt ausgegeben. Ist dies nicht der Fall, so stehen wird entweder ein weiterer Unterteilbereich des aktuellen Teilbereichs ausgewählt und aus diesem Unterteilbereich werden Informationen mit einer wiederum erhöhten örtlichen Auflösung erfasst.

Description

VERFAHREN UND ANORDNUNG ZUM ERMITTELN EINES OBJEKTS IN EINEM BILD

Die Erfindung betrifft ein Verfahren zum Ermitteln eines Objekts in einem Bild sowie Anordnungen zum Ermitteln eines Objekts in einem Bild.

Ein solches Verfahren und eine solche Anordnung sind aus [1] bekannt.

Bei der aus [1] bekannten Vorgehensweise wird aus einem mittels einer Kamera aufgenommenen Bild, in dem ein zu erkennendes Objekt enthalten ist, Information jeweils in einem Teilbereich des Bildes erfasst. Für die erfasste Information wird eine Merkmalsextraktion durchgeführt und mittels eines bekannten Mustererkennungsverfahrens werden die extrahierten Merkmale aus dem Teilbereich mit zuvor extrahierten Merkmalen, die das zu erkennende Objekt beschreiben, verglichen.

Ist die Ähnlichkeit zwischen den extrahierten Merkmalen aus dem Teilbereich und den vorgegebenen Merkmalen, die das zu erkennende Objekt beschreiben, ausreichend groß, so wird das Verfahren beendet und das erkannte Objekt, für das die extrahierten Merkmale gebildet worden sind, wird als erkanntes Objekt ausgegeben.

Das Verfahren wird iterativ für verschiedene Teilbereiche des Bildes durchgeführt solange, bis das Objekt ermittelt worden ist oder bis ein vorgegebenes Abbruchkriterium erfüllt ist, beispielsweise eine vorgegebene Anzahl von Iterationen oder ein mit ausreichender Genauigkeit Erkennen des zu erkennenden Objekts. Nachteilig an dieser Vorgehensweise ist insbesondere der sehr große Rechenzeitbedarf zur Ermittlung eines Objekts in dem zu untersuchenden Bild. Dies ist insbesondere darauf zurückzuführen, dass alle Teilbereiche des Bildes auf gleiche Weise behandelt werden, das heißt die örtliche Auflösung für alle Teilbereiche des Bildes gleich ist im Rahmen des Verfahrens zur Objektermittlung.

Weiterhin ist aus [2] eine sogenannte zweidimensionale Gabor- Transformation als Wavelet-Transformation bekannt. Die zweidimensionalen Gabor-Transformationen sind Basisfunktionen, die mittels lokaler räumlicher Bandpassfilter, die die theoretische optimale Gesamtauflösung im Ortsbereich und im Frequenzbereich, das heißt im eindimensionalen Ortsbereich und im zweidimensionalen Frequenzbereich erzielt.

Aus [3] und [4] sind weitere Transformationen bekannt.

Der Erfindung liegt das Problem zugrunde, in einem Bild ein Objekt zu ermitteln, wobei das Ermitteln mit statistisch geringerem Rechenzeitbedarf durchgeführt werden kann. Weiterhin liegt der Erfindung das Problem zugrunde, eine lernfähige Anordnung derart zu trainieren, dass sie im Rahmen einer Ermittlung eines Objekts in einem Bild eingesetzt werden kann, so dass zum Ermitteln des Objekts in einem Bild unter Einsatz der trainierten lernfähigen Anordnung ein geringerer Rechenzeitbedarf erreicht wird als bei der bekannten Vorgehensweise.

Die Probleme werden durch die Verfahren, die Anordnungen, das Computerprogramm-Element sowie das Computerlesbare Speichermedium mit dem Merkmalen gemäß den unabhängigen Patentansprüchen gelöst. Bei einem Verfahren zum Ermitteln eines Objekts in einem Bild wird aus dem Bild Information mit einer ersten örtlichen Auflösung erfasst. Für die erfasste Information wird eine erste Merkmalsextraktion durchgeführt. Aus dem Bild wird aufgrund der ersten Merkmalsextraktion mindestens ein Teilbereich ausgewählt, in dem sich das Objekt befinden könnte. Aus dem ausgewählten Teilbereich wird weiterhin Information mit einer zweiten örtlichen Auflösung erfasst. Die zweite örtliche Auflösung ist größer als die erste örtliche Auflösung. Für die Information, die mit der zweiten örtlichen Auflösung erfasst worden ist, wird eine zweite Merkmalsextraktion durchgeführt und es wird geprüft, ob ein vorgegebenes Kriterium bezüglich der mittels der zweiten Merkmalsextraktion extrahierten Merkmale aus der Information erfüllt ist. Für den Fall, dass das vorgegebene Kriterium nicht erfüllt ist, wird iterativ Information aus zumindest einem Unterteilbereich des ausgewählten Teilbereichs erfasst, jeweils mit einer höheren örtlichen Auflösung und es wird geprüft, ob die mit der jeweils höheren örtlichen Auflösung erfasste Information das vorgegebene Kriterium erfüllt solange, bis das vorgegebene Kriterium erfüllt ist, oder es wird aus dem Bild ein weiterer Teilbereich ausgewählt und Information aus dem weiteren Teilbereich mit einer zweiten örtlichen Auflösung erfasst. Alternativ kann das Verfahren beendet werden.

Die Information kann beispielsweise im Rahmen der digitalen Bildverarbeitung Helligkeitsinformation und/oder Farbinformation sein, die Bildpunkten eines digitalisierten Bildes zugeordnet ist/sind.

Durch die Erfindung wird eine erhebliche Rechenzeiteinsparung im Rahmen der Ermittlung eines Objekts in einem Bild erreicht .

Anschaulich orientiert sich die Erfindung an der Erkenntnis, dass im Rahmen der visuellen Wahrnehmung eines Lebewesens wahrscheinlich eine hierarchische Vorgehensweise der Wahrnehmung einzelner Bereiche unterschiedlicher Größe mit unterschiedlicher örtlicher Auflösung üblicherweise zu dem Ziel führt, ein gesuchtes Objekt zu erkennen.

Anschaulich ist die Erfindung darin zu sehen, dass zur Ermittlung eines Objekts in einem Bild hierarchisch Teilbereiche und Unterteilbereiche ausgewählt werden, die jeweils mit unterschiedlicher Auflösung auf jeder hierarchischen Ebene aufgenommen werden und nach erfolgter Merkmalsextraktion mit Merkmalen des zu erkennenden Objekts verglichen werden. Ist das Objekt mit ausreichender Sicherheit erkannt, so wird das zu erkennende Objekt als erkanntes Objekt ausgegeben. Ist dies jedoch nicht der Fall, so stehen alternativ die Möglichkeiten zur Verfügung, entweder einen weiteren Unterteilbereich des aktuellen Teilbereichs auszuwählen und aus diesem Unterteilbereich Information mit einer wiederum erhöhten örtlichen Auflösung zu erfassen oder einen anderen Teilbereich auszuwählen und diesen wiederum nach dem zu erkennenden Objekt zu untersuchen.

Bei einem Verfahren zum Trainieren einer lernfähigen Anordnung, die zum Ermitteln eines Objekts in einem Bild verwendet werden kann, wird ein Bild, welches ein zu ermittelndes Objekt enthält, erfasst. Die Position des zu erkennenden Objekts innerhalb des Bildes und das Objekt selbst sind vorgegeben. Für das Objekt werden mehrere Merkmalsextraktionen durchgeführt, jeweils mit einer unterschiedlichen örtlichen Auflösung. Die lernfähige

Anordnung wird mit den extrahierten Merkmalen jeweils für eine unterschiedliche örtliche Auflösung trainiert.

Die im Erfindung kann sowohl mittels eines Computerprogramms, das heißt in Software, implementiert werden, als auch mittels einer speziellen elektronischen Schaltung, das heißt in Hardware . Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Die weiteren Ausgestaltungen betreffen sowohl die Verfahren, die Anordnungen, das Computerlesbares Speichermedium als auch das Computerprogramm-Element .

Als vorgegebenes Kriterium kann die Prüfung verwendet werden, ob die mit der jeweiligen örtlichen Auflösung erfasste Information ausreicht, um das Objekt mit ausreichender Genauigkeit zu ermitteln.

Das vorgegebene Kriterium kann weiterhin eine vorgegebene Anzahl von Iterationen sein, das heißt eine vorgegebene Anzahl maximaler Iterationen, in denen jeweils ein Unterteilbereich ausgewählt wird und mit einer erhöhten örtlichen Auflösung untersucht wird.

Weiterhin kann das vorgegebene Kriterium eine vorgegebene Anzahl zu untersuchender Teilbereiche bzw. maximal zu untersuchende Unterteilbereiche sein.

Die Merkmalsextraktion kann mittels einer Transformation mit jeweils unterschiedlicher örtlicher Auflösung erfolgen.

Als Transformation wird bevorzugt eine Wavelet-Transformation eingesetzt, vorzugsweise eine zweidimensionale Gabor- Transformation (2D-Gabor-Transformation) .

Durch Einsatz der zweidimensionalen Gabor-Transformation wird die Bildinformation in optimaler Weise sowohl im Ortsbereich als auch im Spektralbereich codiert, das heißt es wird ein optimaler Kompromiss im Rahmen der Reduktion von Redundanzinformation zwischen Ortsbereic s-Codierung und Frequenzbereichs-Codierung erreicht . Als Transformation kann jede Transformation eingesetzt werden, die insbesondere folgende Voraussetzungen erfüllt:

• das Aspektverhältnis der elliptischen gaussianisehen Einhüllenden sollte im wesentlichen 2:1 betragen; • die ebene Welle sollte ihre Ausbreitungsrichtung entlang der kürzeren Achse der elliptischen gaussianischen Einhüllenden aufweisen;

• weiterhin sollte die Halb-Amplituden-Bandbreite der Frequenzantwort ungefähr 1 bis 1,5 Oktaven entlang der optimalen Richtung aufweisen.

Weiterhin sollte der Mittelwert der Transformation den Wert Null aufweisen, um eine zulässige Funktionsbasis für die Wavelet-Transformation zu gewährleisten.

Alternativ können auch die in [3] und [4] beschriebenen Transformationen verwendet werden.

Die Transformation kann mittels eines neuronalen Netzes oder mehrerer neuronaler Netze erfolgen, vorzugsweise mittels eines rekurrenten neuronalen Netzes.

Durch Einsatz eines neuronalen Netzes wird insbesondere eine sehr schnelle und an das jeweils zu erkennende Objekt bzw. an die entsprechend erfasste Bildinformation anpassbare Transformationsanordnung eingesetzt.

In einer weiteren Ausgestaltung der Erfindung wird in dem Bild eine Mehrzahl von Teilbereichen ermittelt, wobei für jeden Teilbereich jeweils eine Wahrscheinlichkeit dafür ermittelt wird, dass der entsprechende Teilbereich das zu erkennende Objekt enthält. Das iterative Verfahren wird für Detailbereiche in der Reihenfolge entsprechend fallender Zugehörigkeitswahrscheinlichkeit des entsprechend zu ermittelnden Objekts durchgeführt. Durch diese Vorgehensweise wird eine weitere Reduktion des benötigten Rechenzeitbedarfs erreicht, da aus statistischer Sicht eine optimale Vorgehensweise zur Ermittlung des zu erkennenden Objekts angegeben wird.

Zur weiteren Reduktion des benötigten Rechenzeitbedarfs ist es in einer Weiterbildung der Erfindung vorgesehen, die Form eines ausgewählten Teilbereichs im wesentlichen der Form des zu ermittelnden Objekts anzupassen.

Auf diese Weise wird jeweils ein Teilbereich oder auch ein Unterteilbereich untersucht, der für sich schon im wesentlichen dem zu ermittelnden Objekt entspricht. Damit wird vermieden, dass ein Bildbereich untersucht wird, in dem sich das zu ermittelnde Objekt sicher nicht befindet, da der entsprechende Bildbereich dann ohnehin schon eine andere Form aufweist.

Als lernfähige Anordnung kann mindestens ein neuronales Netz verwendet werden.

Vorzugsweise sind die Neuronen des neuronalen Netzes topographisch angeordnet.

Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im weiteren näher erläutert.

Es zeigen

Figur 1 ein Blockdiagramm, in dem die Architektur der

Anordnung zum Ermitteln des Objekts gemäß einem Ausführungsbeispiel der Erfindung dargestellt ist;

Figur 2 ein Blockdiagramm, in dem der Aufbau des Moduls zur Durchführung der zweidimensionalen Gabor-

Transformation aus Figur 1 gemäß dem Ausführungsbeispiel der Erfindung im Detail dargestellt ist;

Figur 3 ein Blockdiagramm, in dem das Erkennungsmodul aus Figur 1 gemäß dem Ausführungsbeispiel im Detail dargestellt ist;

Figur 4 ein Blockdiagramm, in dem die Architektur der

Anordnung zum Ermitteln des Objekts gemäß einem Ausführungsbeispiel der Erfindung dargestellt ist, wobei die Ermittlung einer Prioritätskarte im Detail dargestellt ist;

Figuren 5a und 5b Skizzen eines Bildes mit unterschiedlichen Objekten, aus denen das zu ermittelnde Objekt zu ermitteln ist, wobei in Figur 5a die unterschiedlichen aufgenommenen Objekte dargestellt sind und in Figur 5b das Erkennungsergebnis bei unterschiedlichen örtlichen Auflösungen ermittelt worden ist;

Figur 6 ein Ablaufdiagramm, in dem die einzelnen Schritte des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung dargestellt sind.

Fig.l zeigt eine Skizze einer Anordnung 100, mit der das zu ermittelnde Objekt ermittelt wird.

Die Anordnung 100 weist ein visuelles Feld 101 auf.

Weiterhin ist eine Erfassungseinheit 102 vorgesehen, mit der Information aus dem Bild über das visuelle Feld 101 mit unterschiedlicher örtlicher Auflösung erfasst werden kann.

Die Erfassungseinheit 102 weist eine

Merkmalsextraktionseinheit 103 sowie eine Erkennungseinheit 104 auf. Fig.l zeigt in der Erfassungseinheit 102 eine Vielzahl von Merkmalsextraktionseinheiten 103, die jeweils Information aus dem Bild mit einer unterschiedlichen örtlichen Auflösung erfasst.

Von der Merkmalsextraktionseinheit 103 werden jeweils extrahierte Merkmale aus der erfassten Bildinformation dem Erkennungsmodul, das heißt der Erkennungseinheit 104 als Merkmalsvektor 105 zugeführt.

In der im weiteren näher erläuterten Erkennungseinheit 104 wird ein Mustervergleich des Merkmalsvektors 105 mit einem zuvor gebildeten Merkmalsvektor auf die im weiteren näher erläuterte Weise durchgeführt.

Das Erkennungsergebnis wird einer Steuerungseinheit 106 zugeführt, von der entschieden wird, welcher Teilbereich oder Unterteilbereich, wie im weiteren näher erläutert wird, des Bildes ausgewählt wird, und mit welcher örtlichen Auflösung der jeweilige Teilbereich oder Unterteilbereich untersucht wird. Die Steuerungseinheit 106 weist ferner eine Entscheidungseinheit auf, in der geprüft wird, ob ein vorgegebenes Kriterium hinsichtlich der extrahierten Merkmale erfüllt ist.

Durch Pfeile 107 ist symbolisch angedeutet, dass zwischen den einzelnen Erkennungseinheiten 104 zu einer Erfassung von Information in unterschiedlichen Erfassungsbereichen 108, 109, 110 mit jeweils unterschiedlicher örtlicher Auflösung abhängig von Steuersignalen der Steuerungseinheit 106 "umgeschaltet" wird.

Im weiteren wird die in Fig.2 im Detail dargestellte Merkmalsextraktionseinheit 103 näher erläutert. Werden die zweidimensionalen Gabor-Wavelets derart eingerichtet, dass der Frequenzbereich in einer logarithmischen Aufteilung angeordnet sind, so wird jede erfasste Frequenz als Oktave bezeichnet. Jede Oktave wird im weiteren als eine örtliche Auflösung bezeichnet.

Jede Einheit, die eine Wavelet-Transformation bei einer vorgegebenen örtlichen Auflösung durchführt, weist eine Anordnung von Neuronen auf, deren Erfassungsbereich einer zweidimensionalen Gabor-Funktion entspricht und von einer bestimmten Orientierung abhängig sind.

Die Ausgabe des entsprechenden Neurons ist ferner abhängig von der vorgegebenen örtlichen Auflösung und ist symmetrisch. Jede Merkmalsextraktionseinheit 103 weist ein rekurrentes neuronales Netz 200 auf, wie in Fig.2 dargestellt.

Es wird im weiteren von einem digitalisierten Bild 201 mit n*n Bildpunkten ausgegangen (gemäß diesem Ausführungsbeispiel n = 128, das heißt gemäß dem Ausführungsbeispiel weist das Bild 16384 Bildpunkte auf) .

Jedem Bildpunkt ist ein Helligkeitswert I?^¹^ zwischen „0*

(schwarz) und „255^λ (weiß) zugeordnet.

Der Helligkeitswert I°f^ig bezeichnet jeweils den

Helligkeitswert, der einem Bildpunkt zugeordnet ist, welcher Bildpunkt sich an der durch die Indizes i, j bezeichneten örtlichen Koordinaten innerhalb des Bildes 201 befindet.

Aus dem Bild 201, das heißt aus den Bildpunkten, die in dem jeweiligen Erfassungsbereich liegen, wird ein mittlerer Helligkeitswert DC,

der Helligkeitswerte I°- ^g der Bildpunkte des Bildes 201 ermittelt, die in dem Erfassungsbereich liegen und der mittlere Helligkeitswert DC wird durch eine

Kontrastkorrektureinheit 202 von den Helligkeitswerten I?J^lg jedes Bildpunktes abgezogen.

Ergebnis ist eine Menge von Helligkeitswerten, die kontrast- invariant sind. Die kontrast-invariante Beschreibung der

Helligkeitswerte der Bildpunkte in dem Erfassungsbereich wird gemäß folgender Vorschrift gebildet:

Die DC-freien Helligkeitswerte werden einer Neuronenschicht 203 zugeführt, deren Neuronen eine Extraktion einfacher Merkmale durchführt.

Die Neuronen in der Neuronenschicht 203 haben rezeptive

Felder, die eine zweidimensionale Gabor-Transformation gemäß folgender Vorschrift durchführen.

c^{os Θ+}y ^siⁿ ©)²+(-x sin Θ+y cos θ)²)

K^*

₅iωo(x cos Θ+y sin θ)

o:

wobei mit • (Dg eine Kreisfrequenz in Radianten pro Längeneinheit, und

• Θ die Orientierungsrichtung des Wavelets in Radianten bezeichnet wird.

Das Gabor-Wavelet ist bei

x = y = 0 (4)

o zentriert und mittels einer L -Norm normalisiert derart, dass gilt:

(Ψ, Ψ) = 1. (5)

Mit der Konstante K wird die Frequenzbandbreite bestimmt.

Gemäß diesem Ausführungsbeispiel wird

K = π (6)

verwendet, was einer Frequenzbandbreite einer Oktave entspricht.

Eine Familie einer diskreten 2D-Gabor-Wavelet G]pg_(x, y) kann ermittelt werden durch Diskretisierung der Frequenzen, Orientierungen und der Zentren der kontinuierlichen Wavelet- Funktion (3) gemäß folgender Vorschrift:

Gkpql / y) = a^"kΨ_Θl(a^~kx - pb, a^~ky - qb), (7)

mit

Ψ_Θl = ψ(x cos(lΘ₀) + y sin(lΘ₀),-x sin(lΘo) + y cos(lΘ₀)) (8)

und der Basis-Wavelet :

Gemäß dieser Vorschrift bezeichnet

Θg = — die Schrittgröße der jeweiligen Winkeldrehung, L

1 den Index der Rotation entsprechend der bevorzugten Orientierung Θ]_ = — , k die jeweilige Oktave, und p und q die Position des Zentrums des rezeptiven Felds (c_x pba und Cy = qba )

Für eine gegebene Oktave k ergeben sich die Maximalwerte von p und q gemäß

und

n

Q = dl! ba'

wobei mit |_xj die größte Integer-Zahl bezeichnet wird, die kleiner als x ist.

Im weiteren wird mit rj qi die Aktivierung eines Neurons in der Neuronenschicht 203 bezeichnet.

Die Aktivierung rj qi ist abhängig von einer bestimmten örtlichen Frequenz, die durch die Oktave k zu einer bevorzugten Orientierung, die durch den Rotationsindex 1 und zu einer Anregung an dem Zentrum, bestimmt durch die Indizes p und q abhängig ist. Die Aktivierung ηcpqi des Neurons in der jeweiligen

Neuronenschicht 203 ist definiert als die Faltung des entsprechenden rezeptiven Feldes und dem Bild, das heißt den

Helligkeitswerten der Bildpunkte, wodurch sich die Aktivierung rj qi eines Neurons gemäß folgender Vorschrift ergibt:

n n rpql = (^Gkpql' ^τ) = ∑ ∑ ^Gkpql(i' j) ^{• x}ij ^• 9ij # ⁽¹²⁾ i=lj=l

wobei mit gj_j ein Gewichtswert für den Bildpunkt (i, j) der

Erfassungseinheit mit der entsprechenden örtlichen Auflösung k bezeichnet wird.

Es ist anzumerken, dass die Aktivierung rjφq]_ eines Neurons eine komplexe Zahl ist, weshalb dem Ausführungsbeispiel zwei Neuronen zur Codierung eines Helligkeitswerts Ij_j eingesetzt wird, ein Neuron für den Realteil eines Helligkeitswerts Iij und ein Neuron für den Imaginärteil der transformierten Helligkeitsinformation Iij .

Die Neuronen 206 der Neuronenschicht 205, die das transformierte Helligkeitssignal 204 erfassen, erzeugen einen Neuronen-Ausgangswert 207.

Mittels des Neuronen-Ausgangssignals 207 wird in einer Bildrekonstruktions'-Einheit 208 ein rekonstruiertes Bild 209 gebildet.

Gemäß diesem Ausführungsbeispiel weist die

Bildrekonstruktions-Einheit 208 Neuronen auf, die eine Gabor- Wavelet-Transformation durchführen.

Zu diesem Zweck weist die Bildrekonstruktions-Einheit 208 Neuronen auf, die gemäß einer Feed-Forward-Struktur miteinander verbunden sind, die einem Gabor-rezeptiven Feld entsprechen.

In anderen Worten ausgedrückt bedeutet dies, dass die Bildrekonstruktion gemäß folgender Vorschrift erfolgt:

K P Q L-l !ij = ^CΣ Σ Σ Σ ^rkpql^Gkpql (i, ^j) # ⁽¹³⁾ k = 0p = 0q = 01 = 0

wobei mit K die maximale Auflösung bezeichnet wird.

Mit einer Konstante C wird die Dichte der verwendeten Wavelet-Basis bezeichnet. Aufgrund der Nicht-Orthogonalität der Gabor-Wavelet-Basisfunktionen wird durch die Vorschrift (13) und durch deren lineare Superposition nicht garantiert, dass ein Minimum eines Rekonstruktionsfehlers E, der gemäß folgender Vorschrift gebildet wird:

erreicht wird.

Eine Korrektur dieser Vorschrift (14) kann erhalten werden durch dynamische Optimierung des Rekonstruktionsfehlers E mittels einer Rückkopplungsverbindung.

Im weiteren wird ein rückgekoppelter Korrektur-Term r ^or ₁ ^r für jedes Neuron 206 der Neuronenschicht 205 gebildet.

Die Dynamik des rekurrenten neuronalen Netzes 200 wird derart bestimmt, dass ein dynamischer Rekonstruktionsfehler gemäß folgender Vorschrift gebildet wird:

(15)

Der dynamische Rekonstruktionsfehler des rekurrenten neuronalen Netzes 200 wird minimiert.

Dies wird erreicht durch dynamische Anpassung des Korrektur-

„corr

Ter s g^emäß folgender Vorschrift :

= corr ij^EijGkpqlC j) = η(G _pqι, E) ,

( 16 )

wobei

K P Q L-lj ^ E iD ij ^{" C} Σ Σ Σ Σ feql + ^rkpql pkpqlfc ^j) Ü7) k=0p = 0q=01 = 0

und mit η ein Änderungskoeffizient bezeichnet wird (gemäß dem Ausführungsbeispiel η = 0,1).

Die Konstante C wird gemäß folgender Vorschrift gebildet:

wobei mit max() der maximale Wert der jeweiligen Werte bezeichnet wird.

Diese oben beschriebene Dynamik kann auf folgende Weise anschaulich interpretiert werden. Wenn das Rekonstruktionsfehlersignal E rückgekoppelt und mit den gleichen Gabor-rezeptiven Feldern Gkpql, EJ gefaltet wird, dann konvergiert das gesamte dynamische System zu einem Attraktor, der dem Minimum des Rekonstruktionsfehlersignals 214 entspricht.

Das Rekonstruktionsfehlersignal 214 wird gebildet mittels einer Differenzeinheit 210. Der Differenzeinheit 210 wird das kontrastfreie Helligkeitssignal 211 sowie das rekonstruierte Helligkeitssignal 212 zugeführt. Durch Differenzbildung zwischen dem kontrastfreien Helligkeitswert 211 und dem jeweiligen rekonstruierten Helligkeitswert 212 wird jeweils ein Rekonstruktionsfehlerwert 213 gebildet, der dem rezeptiven Feld, das heißt dem Gabor-Filter zugeführt wird.

In einer Lernphase wird für jedes zu ermittelnde Objekt aus einer Menge zu ermittelnder, das heißt zu erkennender Objekte und für jede örtliche Auflösung in der oben beschriebenen Merkmalsextraktionseinheit 103 ein Trainingsverfahren gemäß Vorschrift (16) durchgeführt.

Dies erfolgt durch Extraktion der entsprechenden 2D-Gabor- Wavelet-Merkmale für jedes Objekt zu jeder örtlichen Auflösung.

Die Erkennungseinheit 104 speichert in ihren Gewichten der Neuronen die extrahierten Merkmalsvektoren 105 für jede örtliche Auflösung einzeln.

Somit werden unterschiedliche- Merkmalsextraktionseinheiten 103 entsprechend jeder örtlichen Auflösung für jedes zu ermittelnde Objekt trainiert, wie dies in Fig.l durch die verschiedenen Merkmalsextraktionseinheiten 103 angedeutet ist. Die Positionen der Zentren der rezeptiven Felder sind diskretisiert und ergeben sich für eine örtliche Auflösung des Grades k zu

c_x = pba^k (18)

und

c_y = qba^k. (19)

Dies bedeutet anschaulich, dass räumlich näher liegende Wavelets durch geringere Schritte getrennt sind und weiter entfernte Wavelets durch größere Schritte.

Gemäß diesem Ausführungsbeispiel überdecken die rezeptiven Felder bei jeder örtlichen Auflösung den gesamten Erfassungsbereich auf gleiche Weise, das heißt sie überlappen sich immer in der gleichen Weise.

Somit weist eine Merkmalsextraktionseinheit 103 der örtlichen Auflösung k

Gabor-Neuronen auf.

Die Gabor-Neuronen werden eindeutig mittels des Indexes kpql und der Aktivierung ^] ,ql bezeichnet, welche, wie oben beschrieben worden ist, durch die Faltung des entsprechenden rezeptiven Feldes mit den Helligkeitswerten I j der Bildpunkte des Erfassungsbereichs gegeben sind.

Durch die oben beschriebene Vorgehensweise wird mittels der vorzugsweise eingesetzten Merkmalsextraktionseinheit 103 durch die vorwärtsgerichteten Gabor-Verbindungen schnell eine ausreichend gute Menge von Wavelet-Basisfunktionen zum stark verbesserten Codieren der Helligkeitswerte ermittelt, welche durch die rekurrente dynamische Analyse des Rekonstruktionsfehlerwerts 213 gebildet wird, so dass eine geringere Anzahl von Iterationen erreicht wird, um das Minimum des Rekonstruktionsfehlerwerts 213 zu ermitteln.

Der rückgekoppelte Rekonstruktionsfehler E wird gemäß dem Ausführungsbeispiel verwendet, um die vorwärtsgerichtete Gabor-Repräsentation des Bildes 201 dynamisch zu verbessern in dem Sinne, dass das oben dargelegte Problem der Redundanz in der Beschreibung der Bildinformation aufgrund der Nicht- Orthogonalität der Gabor-Wavelets dynamisch korrigiert wird.

Die Redundanz der Gabor-Merkmalsbeschreibung ist deshalb dynamisch erheblich verringert worden durch Verbesserung der Rekonstruktion gemäß der internen Repräsentation der Bildinformation.

Durch diese Struktur wird deshalb eine nicht-lineare

Korrektur der üblichen linearen Darstellung eines Gabor- Filters erreicht, wodurch eine effizientere prädiktive Codierung der Bildinformation erzielt wird.

Die Anzahl benötigter Iterationen, um ein optimales prädiktives Codieren der Bildinformation zu erreichen, kann weiter dadurch reduziert werden, dass eine übervollständige Anzahl von Gabor-Neuronen zum Merkmalscodieren verwendet werden.

Eine somit übervollständige Basis erlaubt eine größere Anzahl von Basisvektoren als Eingangssignale. Für eine Merkmalsextraktionseinheit 103 der örtlichen Auflösung K werden gemäß dem Ausführungsbeispiel zur Rekonstruktion der internen Repräsentation der Gabor-Neuronen mit Wavelet-

Merkmalen entsprechend der Oktave mindestens die Anzahl der durch die örtliche Auflösung K vorgegebene Zahl ist, verwendet .

Gemäß dem Ausführungsbeispiel werden sechs Oktaven, das heißt sechs Merkmalsextraktionseinheiten 103 (N = 6) mit acht Orientierungen (L = 8), mit b = 1 und a = 2 eingesetzt, so dass bei Einsatz aller Grade der Auflösung

codierende Gabor-Neuronen verwendet werden,

Da gemäß dem Ausführungsbeispiel 16.384 Bildpunkte in dem Bild enthalten sind, werden 174.080 codierende Gabor-Neuronen zum Bilden der übervollständigen Basis eingesetzt.

Im weiteren werden die Neuronen der Neuronenschicht 205 im Detail erläutert (vgl. Fig.3) .

Es wird gemäß dem Ausführungsbeispiel angenommen, dass für jedes Neuron 206 (wobei ein Neuron 300 für einen Realteil und ein Neuron 301 für den Imaginärteil der Gabor-Transformation vorgesehen ist, wie oben erläutert wurde, das heißt zwei Neuronen für ein "logisches" Neuron) mit den entsprechenden Verbindungen zu der Merkmalsextraktionseinheit 103 jeweils als Gewichtsinformation, die die Beschreibung mittels Merkmalsvektoren eines Objekts zu einer bestimmten örtlichen Auflösung und einer bestimmten Position des Objekts in dem Erfassungsbereich gespeichert wird.

Die Neuronen 206 der Neuronenschicht 205 sind in Spalten organisiert angeordnet, so dass die Neuronen topographisch angeordnet sind. Die rezeptiven Felder der Erkennungsneuronen sind derart eingerichtet, dass nur ein beschränkter quadratischer Erfassungsbereich der Neuronen-Eingangswerte um einen bestimmten Zentrumsbereich übertragen wird.

Die Größe der quadratischen rezeptiven Felder der Erkennungsneuronen ist konstant und die Erkennungsneuronen sind derart eingerichtet, dass nur die Signale von Neuronen 206 der Neuronenschicht 205 berücksichtigt werden, die sich innerhalb des Erfassungsbereichs des jeweiligen Erkennungsneurons 301, 302 befindet.

Im Rahmen der Trainingsphase befindet sich das Zentrum des rezeptiven Feldes in dem Helligkeitszentrum des jeweiligen Objekts.

Translationsinvarianz wird erreicht, indem für jedes zu lernende, das heißt in der Anwendungsphase zu erkennende Objekt identischer Erkennungsneuronen, das heißt Neuronen, die sich die gleichen Gewichte teilen, aber unterschiedlicher Zentren aufweisen, über den gesamten Abfassungsbereich verteilt sind.

Rotationsinvarianz wird dadurch erreicht, dass an jeder Position die Summe der Wavelet-Koeffizienten entlang der unterschiedlichen Orientierungen gespeichert werden.

Zusammenfassend wird gemäß dem Ausführungsbeispiel während der Lernphase für jedes neu zu lernende Objekt eine eigene Anzahl von Erkennungsneuronen vorgesehen, die in ihren Gewichten die entsprechenden Wavelet-basierende interne Beschreibung des jeweiligen Objekts, das heißt der Merkmalsvektoren, die die Objekte beschreiben, speichern.

Für jede örtliche Auflösung wird ein Erkennungsneuron erzeugt, das der jeweiligen internen Beschreibung gemäß der entsprechenden Oktave, das heißt der entsprechenden örtlichen Auflösung entspricht und es wird das jeweilige Erkennungsneuron für alle Zentrenpositionen in dem gesamten Erfassungsbereich verteilt angeordnet.

Die Erkennungsneuronen sind lineare Neuronen, die als Ausgabewert einen linearen Korrelationskoeffizienten zwischen seinen Eingangsgewichten und dem Eingangssignal, die von den Neuronen 206 der Neuronenschicht gebildet werden, die sich in der Merkmalsextraktionseinheit 103 befinden.

Fig.3 zeigt für unterschiedliche Objekte 303, 304 die jeweiligen Erkennungsneuronen 305, 306, 307, 308, 309, 310, 311, 312. Anschaulich wird während der Trainingsphase jedes Objekt zu einer Zeit in dem Erfassungsbereich an einer vorgegebenen, frei vorgebbaren Position bereitgestellt.

Die Erkennungsneuronen speichern in ihren Gewichten die Wavelet-basierte Information. Für eine gegebenee PPoossiittion, das heißt einem Zentrum mit den Pixelkoordinaten \Cχ_f Cyj, sind zwei Erkennungsneuronen für jedes zu lernende Objekt vorgesehen, eines zum Speichern des Realteils der Wavelet- Beschreibung und eines zum Speichern des Imaginärteils der internen Wavelet-Beschreibung.

Die interne Beschreibung der Neuronen nach erfolgter

Konvergenz der rekurrenten Dynamik, wie sie oben beschrieben wurde, ist gemäß der folgenden zwei Tensoren gespeichert:

^wkpq = + ^rk(p+^rc_χ)(q+cy)l (2i;

und

wobei mit Re ( ) jeweils der Realteil und mit Im() jeweils der Imaginärteil bezeichnet wird und für die Indizes p und q gilt:

p, q e [- R, R], (23)

wobei mit R die Breite des rezeptiven Feldes in erfassten Bildpunkten bezeichnet wird.

Gemäß dem Ausführungsbeispiel wird R = 32 Bildpunkte gewählt.

Während der Trainingsphase wird das Zentrum (c_x, Cyj gebildet durch das Helligkeitszentrum des jeweiligen Objekts, welches gegeben ist gemäß :

n c_x = (24) n

und

Durch Bilden der Summe über alle Indizes 1 wird eine rotationsinvariante Beschreibung des entsprechenden Objekts erreicht.

Neuronen, die aufgrund einer Anregung in einem anderen Zentrum aktiviert werden, werden auf gleiche Weise gebildet, wobei die gleichen Gewichte zum Erkennen des gleichen Objekts an einer verschobenen Position innerhalb des Erfassungsbereichs verwendet werden.

Die Ausgabe eines Erkennungsneurons im Rahmen der Erkennungsphase ist gegeben durch einen

Korrelationskoeffizienten, der die Korrelation zwischen den Gewichten und der Ausgabe der Neuronen 206 der Neuronenschicht 205 beschreibt.

Gemäß dem Ausführungsbeispiel wird die Ausgabe eines Erkennungsneurons in der Erkennungseinheit 104 bei einer örtlichen Auflösung k, bezogen auf die Realteile der Neuronen 206 der Neuronenschicht 205 ) zzuu. der örtlichen Auflösung k und bezogen auf das Zentrum \z_x,, Zzy_y]) gegeben durch:

Die Ausgabe des entsprechenden Erkennungsneurons für den Imaginärteil ist gegeben durch:

Λ^zχ/^Zy] _

Mit (a) wird der Mittelwert und mit σ_a die Standardabweichung einer Variable a über den Erfassungsbereich, das heißt über alle Indizes p, q, bezeichnet.

Es ist anzumerken, dass die Neuronen bei jeder örtlichen Auflösung aktiviert werden abhängig von dem Erfassen des gleichen Objekts aber auch abhängig von den unterschiedlichen Positionen, da die gleichen Gewichte entsprechend des Objekts für unterschiedliche Positionen gespeichert sind. Gemäß dem Ausführungsbeispiel sind die Zentren der Erkennungsneuronen derart über den Erfassungsbereich angeordnet, dass sie den Erfassungsbereich vollständig überdecken und jeweils ein Neuron sich mit dem Erfassungsbereich eines weiteren Neurons halb überlappt, das heißt für n = 128 und R = 64 werden neun Zentren an folgenden Positionen angeordnet ((32, 32) (32, 64) (32, 96) (64, 32) (64, 64) (64, 96) (96, 32) (96, 64) (96, 96)).

Während der Erkennungsphase werden somit die unterschiedlichen Erkennungseinheiten 104 seriell durch die Steuerungseinheit 106 aktiviert, wie im weiteren beschrieben wird.

Nach der Aktivierung der entsprechenden Erkennungseinheit 104 wird geprüft, ob ein vorgegebenes Kriterium erfüllt ist oder nicht, wobei die Aktivierung der Erkennungsneuronen mit der größten Aktivierung entsprechend der Oktave ermittelt wird, die größer oder gleich ist der aktuellen Oktave, das heißt durch Berücksichtigen nur der aktivierten Erkennungseinheiten 104 zu der entsprechenden Zeit.

Anders ausgedrückt wird eine sogenannte Winner-takes-all- Strategie bei der Entscheidung, welches Erkennungsneuron ausgewählt wird, verwendet in einer Weise, dass das ausgewählte Erkennungsneuron, das einem bestimmten Zentrum und einem bestimmten Objekt zugeordnet ist, von der Steuerungseinheit 106 analysiert wird.

Wie im weiteren erläutert wird, kann von der Steuerungseinheit 106 weiterhin entschieden werden, ob die Identifikation des- entsprechenden Objekts ausreichend genau ist, oder eine ob genauere Analyse des Objekts durch Auswahl eines kleineren, detaillierteren Bereichs mit höherer örtlichen Auflösung erforderlich ist. Ist dies der Fall, so werden weitere Neuronen in den weiteren Merkmalsextraktionseinheiten 103 bzw. Erkennungseinheiten 104 aktiviert, so dass die örtliche Auflösung erhöht wird.

Wie in Fig. gezeigt ist, wird für den Erfassungsbereich bei gröbster örtlicher Auflösung eine Prioritätskarte von der Erkennungseinheit 104 gebildet, wobei durch die Prioritätskarte einzelne Teilbereiche des Bildbereichs angegeben werden und den entsprechenden Teilbereichen eine Wahrscheinlichkeit zugeordnet wird, mit der angegeben wird, wie wahrscheinlich es ist, dass sich das zu erkennende Objekt in dem Teilbereich befindet (vgl. Fig. ) .

Die Prioritätskarte ist in Fig.4 mit 400 symbolisiert. Ein Teilbereich 401 ist charakterisiert durch ein Zentrum 402 des Teilbereichs 401.

Die einzelnen Iterationen, in denen verschiedene Teilbereiche und Unterteilbereiche ausgewählt werden und mit jeweils höherer örtlicher Auflösung untersucht werden, wird im weiteren näher erläutert.

Gemäß dem Ausführungsbeispiel ist ein serieller Rückkopplungs-Mechanismus zur Maskierung der Erfassungsbereiche vorgesehen, wodurch sukzessive weitere

Erfassungseinheiten 102 und Merkmalsextraktionseinheiten 103 sowie Erkennungseinheiten 104 entsprechend der jeweils gewählten erhöhten Auflösung k aktiviert werden, das heißt die Steuerungseinheit 106 regelt die Positionierung und Größe des Erfassungsbereichs, in dem visuelle Information von dem System aufgenommen wird und weiterverarbeitet wird.

In einem ersten Schritt wird das gesamte Bild 201 verarbeitet, jedoch mit der gröbsten örtlichen Auflösung, das heißt es ist nur die erste Erkennungseinheit und Merkmalsextraktionseinheit mit k = N aktiviert. Bei dieser groben örtlichen Auflösung ist üblicherweise praktisch nur die Position des Objekts erkennbar und es wird eine sehr grobe Bestimmung der globalen Form eines Objekts bestimmt.

Abhängig von der jeweiligen Aufgabe wird von der Steuerungseinheit das Ergebnis der Erkennungseinheit als Prioritätskarte gespeichert und es wird ein Teilbereich des Bildes ausgewählt, in dem, wie im weiteren beschrieben wird, Bildinformation untersucht wird.

Die entsprechende Auswahl des Teilbereichs wird durch die gleichen Rückkopplungsverbindungen durch das aktivierte Wavelet-Modul rückgekoppelt.

Die Auswahl des Teilbereichs, das heißt der Angabe, welche Bildpunkte mit erhöhter örtlicher Auflösung näher untersucht werden, erfolgt abhängig von den Bildpunkten, die das Objekt der zuletzt aktivierten örtlichen Auflösung beschreiben.

Die entsprechenden Bildpunkte werden ausgewählt aufgrund der Bildpunkte, die eine gute Rekonstruktion, das heißt eine Rekonstruktion mit einem geringen Rekonstruktionsfehler, sowie durch Bildpunkte, die nicht einem gefilterten schwarzen Hintergrund entsprechen, ermöglicht.

In anderen Worten ist der Aufmerksamkeits-Mechanismus objektbasiert in dem Sinne, dass nur die Bereiche, in denen das Objekt liegt, seriell mit einer höheren örtlichen Auflösung weiter analysiert werden.

Dies bedeutet, dass die entsprechenden niedrigeren Oktaven seriell aktiviert werden, jedoch nur in dem ausgewählten Teilbereich.

Der Aufmerksamkeits-Mechanismus wird mathematisch mittels einer Matrix G^j beschrieben, deren Elemente den Wert „1* aufweisen, wenn die entsprechenden Bildpunkte berücksichtigt werden sollen und den Wert „0' aufweisen, wenn der entsprechende Bildpunkt nicht berücksichtigt werden soll.

Bei der gröbsten örtlichen Auflösung im Rahmen der

Objekterkennung (k = N) wird das gesamte Bild 201 analysiert, das heißt

gij = 1 Vi, j (28;

Die Prioritätskarte wird erzeugt und die Steuerungseinheit 106 entscheidet, welches Objekt in einem weiteren Schritt näher analysiert wird, so dass im Rahmen der nächsthöheren örtlichen Auflösung nur die Bildpunkte, die in dem Bildbereich, das heißt in dem ausgewählten Teilbereich, liegen, berücksichtigt werden.

Es werden gemäß dem Ausführungsbeispiel zwei weitere Bedingungen angenommen.

Die erste Bedingung ist, dass das rekonstruierte Bild Helligkeitswerte I j > 0 aufweist und die zweite Bedingung ist, dass der Rekonstruktionsfehler nicht größer als eine vorgegebene Schwelle ist, das heißt das gilt:

g jE j < α. (29)

Somit entscheidet die Steuerungseinheit 106, dass das Objekt näher analysiert wird bei einem Zentrum (c_x, Cy) in der Prioritätskarte, dann wird die Maske, gegeben durch die Matrix Gij gemäß folgenden Vorschriften aktualisiert:

Im allgemeinen wird die Aufmerksamkeits-Rückkopplung zwischen der örtlichen Auflösung k und der folgenden örtlichen Auflösung k - 1 (das heißt der erhöhten örtlichen

Aufmerksamkeit) für k > N nur durch die zwei oben erwähnten Bedingungen geregelt.

Ein neuer Matrixwert G j ist deshalb gemäß dem Ausführungsbeispiel für die Aktivierung der nächsten, erhöhten örtlichen Auflösung k - 1 definiert gemäß folgender Vorschrift definiert:

Im weiteren wird der Verlauf der verschiedenen Iterationen der Untersuchung der einzelnen Teilbereiche und Unterteilbereiche mit unterschiedlichen örtlichen Auflösungen für eine konkrete Objekterkennung beschrieben.

Im Rahmen dieses Beispiels sind vier Arten von Objekten vorgesehen, wie sie in Fig.5a gezeigt sind.

Ein erstes Objekt 501 weist eine globale Form eines H auf und hat als lokale Elemente Objektkomponenten der Form T, weshalb das erste Objekt Ht bezeichnet wird.

Das zweite Objekt 502 weist eine globale H-Form auf und als lokale Objektkomponenten ebenfalls H-förmige Komponenten, weshalb das zweite Objekt 502 mit Hh bezeichnet wird. Ein drittes Objekt 503 weist eine globale sowie auch eine lokale T-förmige Struktur auf, weshalb das dritte Objekt 503 mit Tt bezeichnet wird.

Ein viertes Objekt 504 weist eine globale T-Form und eine lokale H-Form der einzelnen Objektkomponenten auf, weshalb das vierte Objekt 504 mit Th bezeichnet wird.

Fig.5b zeigt die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das erste Objekt 501 (erkanntes Objekt bei erster örtlicher Auflösung 510, bei zweiter örtlicher Auflösung 511, bei dritter örtlicher Auflösung 512, bei vierter örtlicher Auflösung 513) .

Fig.5b zeigt die ferner die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das zweite Objekt 502 (erkanntes Objekt bei erster örtlicher Auflösung 520, bei zweiter örtlicher Auflösung 521, bei dritter örtlicher Auflösung 512, bei vierter örtlicher Auflösung 523) .

Fig.5b zeigt weiterhin die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das dritte Objekt 503 (erkanntes Objekt bei erster örtlicher Auflösung 530, bei zweiter örtlicher Auflösung 531, bei dritter örtlicher Auflösung 532, bei vierter örtlicher Auflösung 533) .

Fig.5b zeigt weiterhin die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das vierte Objekt 504 (erkanntes Objekt bei erster örtlicher Auflösung 540, bei • zweiter örtlicher Auflösung 541, bei dritter örtlicher Auflösung 542, bei vierter örtlicher Auflösung 543) . Wie aus Fig.5b ersichtlich, wird bei der höchsten örtlichen Auflösung das jeweilige Objekt schon mit einer sehr guten, zumindest ausreichenden Genauigkeit erkannt.

Unter Bezugnahme auf Fig.6 wird das Verfahren zur Ermittlung eines Objekts in einem Bild anschaulich noch einmal erläutert.

In einem ersten Schritt (Schritt 601) wird für die Bildpunkte, das heißt für die Helligkeitswerte der

Bildpunkte, des erfassten Bildes eine Merkmalsextraktion mit einer ersten örtlichen Auflösung j - 1 durchgeführt (Schritt 602) .

In einem weiteren Schritt wird aus dem Bild ein erster Teilbereich Tbi gebildet (Schritt 603) .

Für jeden gebildeten Teilbereich Tbi wird eine Wahrscheinlichkeit dafür ermittelt, dass sich das zu ermittelnde Objekt in dem entsprechenden Teilbereich Tbi befindet. Ergebnis ist eine Prioritätskarte, die die jeweiligen Zuordnungen Wahrscheinlichkeit und Teilbereich enthält (Schritt 604) .

Gemäß der gebildeten Prioritätskarte wird ein erster

Teilbereich Tbi mit i = 1 ausgewählt und es werden die Neuronen aktiviert, so dass der ausgewählte Teilbereich in Schritt 605 um dem Wert 1 inkrementiert wird, so dass der ausgewählte Teilbereich Tbi mit einer erhöhten örtlichen Auflösung untersucht wird (Schritte 606, 607) .

In einem Prüfschritt 608 wird geprüft, ob das Objekt mit ausreichender Sicherheit erkannt worden ist (Schritt 608) .

Ist dies der Fall, so wird das erkannte Objekt als erkanntes Objekt ausgegeben (Schritt 609) . Ist dies nicht der Fall, so wird in einem weiteren Prüfschritt (Schritt 610) überprüft, ob ein vorgegebenes Abbruchkriterium erfüllt ist, gemäß dem Ausführungsbeispiel, ob eine vorgegebene Anzahl von Iterationen erreicht ist.

Ist dies der Fall, so wird das Verfahren beendet (Schritt 611) .

Ist dies nicht der Fall, so wird in einem weiteren Prüfschritt überprüft (Schritt 612) , ob ein weiterer Unterteilbereich ausgewählt werden soll.

Soll ein weiterer Unterteilbereich, der mit einer erhöhten Auflösung untersucht werden soll, ausgewählt werden, so wird dieser entsprechende Unterteilbereich ausgewählt

(Schritt 613) und das Verfahren wird in Schritt 606 weitergeführt durch Inkrementierung der örtlichen Auflösung für den entsprechenden Unterteilbereich.

Ist dies jedoch nicht der Fall, so wird ein weiterer Teilbereich Tbi + 1 aus der Prioritätskarte ausgewählt (Schritt 614), und das Verfahren wird in einem weiteren Schritt (Schritt 605) weitergeführt.

In diesem Dokument sind folgende Veröffentlichungen zitiert:

[1] A. Treisman, Perceptual Grouping and Attention in Visual Search for Features and for Objects, Journal of Experimental Psychology: Human Perception and Performance, Vol. 8, S. 194 - 214, 1982

[2] J. Daugman, Complete Discrete 2D-Gabor-Transforms by Neural Networks for Image Analysis and Compression, IEEE-Transactions on Acoustics, Speed and Signal Processing, Vol. 36, S. 1169 - 1179, 1988

[3] D.J. Heeger, Nonlinear Model of Neural Responses in Cat Visual Cortex, Computational Models of Visual Processing, Edited by M. Landy and J.A. Movshon, Cambridge, MA, MIT Press, S. 119 - 133, 1991

[4] D.J. Heeger, Normalization of Cell Responses in Cat

Striate Cortex, Visual Neuro Science, Vol. 9, S. 181 - 197, 1992

Claims

Patentansprüche

1. Verfahren zum Ermitteln eines Objekts in einem Bild,

• bei dem Information aus dem Bild mit einer ersten örtlichen Auflösung erfasst wird,

• bei dem für die Information aus dem Bild eine erste Merkmalsextraktion durchgeführt wird,

• bei dem aus dem Bild mindestens ein Teilbereich, in dem sich das Objekt befinden könnte, aufgrund der Merkmalsextraktion ausgewählt wird,

• bei dem Information aus dem ausgewählten Teilbereich mit einer zweiten örtlichen Auflösung erfasst wird, wobei die zweite örtliche Auflösung größer ist als die erste örtliche Auflösung, • bei dem für die Information aus dem ausgewählten

Teilbereich eine zweite Merkmalsextraktion durchgeführt wird,

• bei dem geprüft wird, ob ein vorgegebenes Kriterium erfüllt ist, • bei dem das Verfahren beendet wird oder aus dem Bild ein weiterer Teilbereich ausgewählt wird und Information aus dem weiteren Teilbereich mit einer zweiten örtlichen Auflösung erfasst wird, wenn das vorgegebene Kriterium nicht erfüllt ist, • bei dem iterativ Information aus zumindest einem

Unterteilbereich des ausgewählten Teilbereich erfasst wird jeweils mit einer höheren örtlichen Auflösung und bei dem geprüft wird, ob die mit der jeweils höheren örtlichen Auflösung erfasste Information das vorgegebene Kriterium erfüllt, solange, bis das vorgegebene Kriterium erfüllt ist.

2. Verfahren nach Anspruch 1, bei dem das Kriterium ist, ob die mit der zweiten örtlichen Auflösung erfasste Information ausreicht-, um die Information mit ausreichender Genauigkeit zu erfassen

3. Verfahren nach Anspruch 1, bei dem das Kriterium eine vorgegebene Anzahl von Iterationen ist.

4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem die Merkmalsextraktionen mittels einer Transformation mit jeweils unterschiedlicher örtlicher Auflösung durchgeführt werden.

5. Verfahren nach Anspruch 4, bei dem als Transformation eine Wavelet-Transformation verwendet wird.

6. Verfahren nach Anspruch 5, bei dem als Wavelet-Transformation eine zweidimensionale Gabor-Transformation verwendet wird.

7. Verfahren nach einem der Ansprüche 4 bis 6, bei dem die Transformation mittels eines Neuronalen Netzes durchgeführt wird.

8. Verfahren nach Anspruch 7, bei dem die Transformation mittels eines rekurrenten Neuronalen Netzes durchgeführt wird.

9. Verfahren nach einem der Ansprüche 1 bis 8,

• bei dem in dem Bild eine Mehrzahl von Teilbereichen ermittelt, die jeweils mit einer ermittelten Wahrscheinlichkeit das zu erkennende Objekt enthalten, • bei dem das iterative Verfahren für die Teilbereiche in der Reihenfolge entsprechend fallender Wahrscheinlichkeit durchgeführt wird.

10. Verfahren nach einem der Ansprüche 1 bis 9, bei dem die Form eines ausgewählten Teilbereichs im wesentlichen der Form des zu erkennenden Objekts entspricht.

11. Verfahren zum Trainieren einer lernfähigen Anordnung, die zum Ermitteln eines Objekts in einem Bild verwendet werden soll, • bei dem ein Bild, das ein zu erkennendes Objekt enthält, erfasst wird, wobei die Position des zu erkennenden Objekts in dem Bild und das Objekt vorgegeben sind,

• bei dem für das Objekt mehrere Merkmalsextraktionen durchgeführt werden, jeweils mit einer unterschiedlichen örtlichen Auflösung,

• bei dem die Anordnung mit den extrahierten Merkmalen jeweils für eine örtliche Auflösung trainiert wird.

12. Verfahren nach Anspruch 11, bei dem als Anordnung mindestens ein Neuronales Netz verwendet wird.

13. Verfahren nach Anspruch 12, bei dem die Neuronen des Neuronalen Netzes topographisch angeordnet sind.

14. Anordnung zum Ermitteln eines Objekts in einem Bild, mit einem Prozessor, der derart eingerichtet ist, dass folgende Verfahrensschritte durchführbar sind: • Information aus dem Bild mit einer ersten örtlichen Auflösung wird erfasst,

• für die Information aus dem Bild wird eine erste Merkmalsextraktion durchgeführt,

• aus dem Bild wird mindestens ein Teilbereich, in dem sich das Objekt befinden könnte, aufgrund der

Merkmalsextraktion ausgewählt,

• Information aus dem ausgewählten Teilbereich wird mit einer zweiten örtlichen Auflösung erfasst, wobei die zweite örtliche Auflösung größer ist als die erste örtliche Auflösung,

• für die Information aus dem ausgewählten Teilbereich wird eine zweite Merkmalsextraktion durchgeführt, • es wird geprüft, ob ein vorgegebenes Kriterium erfüllt ist,

• das Verfahren wird beendet oder aus dem Bild wird ein weiterer Teilbereich ausgewählt und Information wird aus dem weiteren Teilbereich mit einer zweiten örtlichen

Auflösung erfasst, wenn das vorgegebene Kriterium nicht erfüllt ist,

• es wird iterativ Information aus zumindest einem Unterteilbereich des ausgewählten Teilbereich erfasst jeweils mit einer höheren örtlichen Auflösung und es wird geprüft, ob die mit der jeweils höheren örtlichen Auflösung erfasste Information das vorgegebene Kriterium erfüllt, solange, bis das vorgegebene Kriterium erfüllt ist.

15. Anordnung zum Ermitteln eines Objekts in einem Bild, mit

• einer Erfassungseinheit zum Erfassen von Information aus dem Bild mit mehreren unterschiedlichen örtlichen Auflösungen, • einer Merkmalsextraktionseinheit zum Extrahieren von Merkmalen für die von der Erfassungseinheit erfassten Information,

• einer Auswahleinheit zum Auswählen mindestens eines Teilbereichs aus dem Bild, in dem sich das Objekt befinden könnte, aufgrund der von der Merkmalsextraktionseinheit extrahierten Merkmale,

• einer Steuerungseinheit zum Steuern der Erfassungseinheit, welche Steuerungseinheit derart eingerichtet ist, dass Information aus dem ausgewählten Teilbereich mit einer zweiten örtlichen Auflösung erfasst wird, wobei die zweite örtliche Auflösung größer ist als die erste örtliche Auflösung,

• einer Entscheidungseinheit, in der geprüft wird, ob ein vorgegebenes Kriterium hinsichtlich der jeweils extrahierten Merkmale erfüllt ist,

• wobei die Steuerungseinheit weiter derart eingerichtet ist, dass - das Verfahren beendet wird oder aus dem Bild wird ein weiterer Teilbereich ausgewählt und Information wird aus dem weiteren Teilbereich mit einer zweiten örtlichen Auflösung erfasst wird, wenn das vorgegebene Kriterium nicht erfüllt ist,

- iterativ Information aus zumindest einem Unterteilbereich des ausgewählten Teilbereich erfasst wird jeweils mit einer höheren örtlichen Auflösung und dass geprüft wird, ob die mit der jeweils höheren örtlichen Auflösung erfasste Information das vorgegebene Kriterium erfüllt, solange, bis das vorgegebene Kriterium erfüllt ist.

16. Computerlesbares Speichermedium, in dem ein Computerprogramm zum Ermitteln eines Objekts in einem Bild gespeichert ist, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:

• Information aus dem Bild mit einer ersten örtlichen Auflösung wird erfasst, • für die Information aus dem Bild wird eine erste Merkmalsextraktion durchgeführt,

• aus dem Bild wird mindestens ein Teilbereich, in dem sich das Objekt befinden könnte, aufgrund der Merkmalsextraktion ausgewählt, • Information aus dem ausgewählten Teilbereich wird mit einer zweiten örtlichen Auflösung erfasst, wobei die zweite örtliche Auflösung größer ist als die erste örtliche Auflösung,

• für die Information aus dem ausgewählten Teilbereich wird eine zweite Merkmalsextraktion durchgeführt,

• es wird geprüft, ob ein vorgegebenes Kriterium erfüllt ist,

Auflösung erfasst, wenn das vorgegebene Kriterium nicht erfüllt ist, • es wird iterativ Information aus zumindest einem Unterteilbereich des ausgewählten Teilbereich erfasst jeweils mit einer höheren örtlichen Auflösung und es wird geprüft, ob die mit der jeweils höheren örtlichen Auflösung erfasste Information das vorgegebene Kriterium erfüllt, solange, bis das vorgegebene Kriterium erfüllt ist.

17. Computerprogramm-Element zum Ermitteln eines Objekts in einem Bild, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:

• Information aus dem Bild mit einer ersten örtlichen Auflösung wird erfasst,

• aus dem Bild wird mindestens ein Teilbereich, in dem sich das Objekt befinden könnte, aufgrund der Merkmalsextraktion ausgewählt,

• das Verfahren wird beendet oder aus dem Bild wird ein weiterer Teilbereich ausgewählt und Information wird aus dem weiteren Teilbereich mit einer zweiten örtlichen Auflösung erfasst, wenn das vorgegebene Kriterium nicht erfüllt ist,

• es wird iterativ Information aus zumindest einem Unterteilbereich des ausgewählten Teilbereich erfasst jeweils mit einer höheren örtlichen Auflösung und es wird geprüft, ob die mit der jeweils höheren örtlichen

Auflösung erfasste Information das vorgegebene Kriterium erfüllt, solange, bis das vorgegebene Kriterium erfüllt ist.