DE10126375A1

DE10126375A1 - Verfahren und System zur Erkennung von Objekten

Info

Publication number: DE10126375A1
Application number: DE10126375A
Authority: DE
Inventors: Robert Frischholz; Jan Ernst
Original assignee: BIOID AG
Current assignee: Bioid Ag Sachseln Ch
Priority date: 2001-05-30
Filing date: 2001-05-30
Publication date: 2002-12-12
Anticipated expiration: 2021-05-31
Also published as: DE10126375B4

Abstract

Die Erfindung betrifft ein System und ein Verfahren zur Erkennung von Objekten. Eine Folge von Bildern eines Objekts wird digital aufgenommen und jedes Bild wird in zugehörige Bildpunkte umgewandelt, wobei wenigstens zwei Bilder des Objekts aus unterschiedlichen Perspektiven aufgenommen werden. Die Bildpunkte der aufgenommenen Bilder werden transformiert, so daß sie in einem gemeinsamen Koordinatensystem zu liegen kommen, und die transformierten Bildpunkte werden aneinander überlagert, um eine unstrukturierte Gesamtpunktmenge zu bilden, welche dem Objekt entspricht. Merkmale des Objekts werden aus der Punktmenge unter Verwendung einer Filterfunktion extrahiert, wobei die Filterfunktion in Übereinstimmung mit der unstrukturierten Punktmenge abgetastet wird, und die extrahierten Merkmale zur Erkennung des Objekts verwendet werden.

Description

Die Erfindung betrifft ein Verfahren und ein System zum Erkennen von Objekten auf der Grundlage einer Folge von Bildern, die von dem Objekt mit einer digitalen Kamera aufge nommen werden. Insbesondere betrifft die Erfindung ein biometrisches Erkennungsverfahren und -system, das auf der Grundlage der Erkennung des menschlichen Gesichtes, und speziel ler der Iris des menschlichen Auges, arbeitet.

Das U.S. Patent 5,291,560 beschreibt z. B. die Identifikation einer Person gestützt auf die Er kennung der Iris des menschlichen Auges. Zunächst erfaßt das System über eine Videokamera ein digitalisiertes Bild des Auges einer Person, welche identifiziert werden soll. Dann wird die Iris isoliert und runde Begrenzungen an der Außenkante und der Innenkante der Iris definiert. Das System richtet ein Polarkoordinatensystem auf dem isolierten Bild der Iris ein, dessen Ursprung im Zentrum der Pupille liegt. Es definiert dann mehrere ringförmige Analysebänder innerhalb des Bildes der Iris, welche bestimmte Bereiche der Iris ausschließen, die häufig durch das Augenlied, Wimpern oder Reflexionen verdeckt sind. Der Bereich des Bildes der Iris, der innerhalb dieser ringförmigen Analysebänder liegt, wird dann analysiert und codiert, um einen Iriscode zur Speicherung und für den Vergleich mit einem Bezugscode zu erzeugen.

Das in dem U.S. Patent 5,291,560 beschriebene Verfahren funktioniert so lange gut, solange das digitale Bild des Auges ausreichend gut ist und insbesondere eine ausreichende Auflösung und Schärfe hat. Dem Fachmann auf dem Gebiet der Bildverarbeitung ist bekannt, daß die Problemstellung der Erkennung von Bildern eng verknüpft ist mit der richtigen Klassifikation der extrahierten Merkmale eines Bildes; d. h. aufgrund der extrahierten Merkmale muß eine geeignete Klassifikation des Bildinhaltes vorgenommen werden, um beispielsweise zu ent scheiden, ob das Bild mit den Merkmalen eines zuvor erfaßten Bildes übereinstimmt. Dies ist nur möglich, wenn die Ausgangsdaten, d. h. das digital aufgenommene Bild des Objekts, aus reichend präzise und detailliert sind und eine ausreichende Auflösung der gerasterten und quantisierten Einzelbilder ermöglichen.

Es gibt im Stand der Technik bereits verschiedene Vorschläge, wie aufgrund eines Einzelbil des oder einer Sequenz von digitalen Bildern mit unzureichender Auflösung ein Ausgangsbild abgeleitet werden kann, das eine höhere Auflösung für die weitere digitale Verarbeitung hat. Das U.S. Patent 6,188,804 schlägt z. B. ein Verfahren zum Verarbeiten eines abgetasteten Eingangsbildes, in dem Information bei verschiedenen Pixelpositionen fehlt, vor, bei dem in dem abgetasteten Bild gültige Pixelpositionen ermittelt werden und die Information an den gültigen Pixelpositionen mittels Faltung interpoliert wird, um bei nicht gültigen Pixelpositio nen Information zu rekonstruieren.

Die Erzeugung eines höher aufgelösten Bildes aus einer Sequenz von Einzelbildern ist bei spielsweise auch beschrieben in Dekeyser, F. et al. "Superresolution from Noisy Image Se quences Exploiting a 2D Parametric Motion Model", ICPR 2000, Band 3: Seiten 354 bis 357 und Bormann, S. et al., "Super-Resolution from Image Sequences - A Review", Midwest Symposium on Circuits and Systems, 1998. Das rekonstruierte, höher auflösende Bild liefert dann die Eingangsdaten für die Merkmalsextraktion und Klassifikation in einem Klassifikati onssystem.

Ein Klassifikationssystem besteht grundsätzlich aus drei Komponenten, die schematisch in Fig. 1 dargestellt sind. Fig. 1 zeigt ein allgemeines Schema eines Bilderkennungssystems als Blockschaltbild. In das Bilderkennungssystem werden Bilddaten eingegeben und in einer Bild-Digitalisierstufe 10 digitalisiert. Die digitalisierten Bilddaten gelangen in eine Vorverar beitungsstufe 11, in der beispielsweise die interessierenden Bildbereiche isoliert werden. Die vorverarbeiteten Bilddaten werden an eine Transformationsstufe 12 weitergegeben, um die Bilddaten beispielsweise aufgrund einer Spektralanalyse zu analysieren. Die transformierten Bilddaten werden in eine Merkmalsberechnungsstufe 14 eingegeben, in der Merkmale extra hiert werden, welche an einen Klassifikator 16 übergeben werden. Die digitalisierten Bildda ten werden nach der Vorverarbeitung 11 so transformiert 12, daß der nachfolgende Prozeß der Merkmalsberechnung 14 möglichst einfach gestaltet werden kann. Aus der Merkmalsberech nung ergeben sich Kennzahlen, die zu einer klassenweise diskriminierenden Kennzeichnung des Bildes von dem Klassifikator 16 korrekt zugewiesen werden müssen. Man wird verstehen, daß für eine optimale Auswertung und Klassifikation der eingehenden Bilddaten 10 eine Bildpunktmenge benötigt wird, die das abgebildete Objekt richtig und mit möglichst hoher Auflösung wiedergibt. Die aus dem Stand der Technik bekannten Verfahren zum Rekon struktion des Bildes mit hoher Auflösung durch Interpolation führt zwangsläufig dazu, daß ein Teil der ursprünglichen Information verloren geht. Dadurch kann der ursprüngliche In formationsgehalt der digitalen Bilder nur bis zu einer Grenze ausgenutzt werden.

Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zur Erkennung von Objekten aufgrund eines oder mehrerer digitaler Bilder des Objekts anzuge ben, mit dem der Informationsgehalt der berechneten Merkmale aus den digitalen Bilder er höht und die in den digitalen Bildern vorhandene Information optimal genutzt werden kann.

Diese Aufgabe wird durch ein Verfahren mit den Merkmalen von Anspruch 1 sowie durch ein System mit den Merkmalen von Anspruch 15 gelöst.

Die Erfindung gibt ein Verfahren und ein System zur Erkennung von Objekten an, das unter Verwendung von Bildsequenzen eine Merkmalsextraktion und Klassifikation ermöglicht, die mit Einzelbildern nicht erreichbar wäre. Als Eingabedaten wird eine Folge von Einzelbildern verwendet, die alle dasselbe Objekt von leicht veränderten Standorten aus zeigen, wobei die Erfindung diese zusätzliche, zeitliche Dimension für die Merkmalsberechnung und Klassifi kation auf eine Punktmenge in zwei Dimensionen zurückführt. Mit dem erfindungsgemäßen Verfahren wird das Problem eines Informationsverlustes oder einer zu geringen Auflösung eines Einzelbildes dadurch gelöst, daß nicht ein höher aufgelöstes Bild rekonstruiert und als Grundlage für die weitere Verarbeitung verwendet wird, sondern daß auf der Basis einer nor mierten Überlagerung der einzelnen Elemente einer Bildsequenz gearbeitet wird. Die Einzel bilder der Bildsequenz können mit einer digitalen Kamera oder einer Videokamera aufge nommen werden.

Die Erfindung schlägt gemäß Anspruch 1 ein Verfahren zur Erkennung von Objekten vor, bei dem eine Folge von Bildern eines Objekts digital aufgenommen und jedes Bild in zugehörige Bildpunkte umgewandelt wird, wobei wenigstens zwei Bilder des Objekts aus unterschiedli chen Perspektiven aufgenommen werden. Die Bildpunkte der aufgenommenen Bilder werden derart transformiert, daß sie in einen gemeinsamen Koordinatensystem zu liegen kommen. Die transformierten Bildpunkte werden in dem gemeinsamen Koordinatensystem einander überlagert, um eine unstrukturierte Gesamtpunktmenge zu bilden, welche dem Objekt, genau er einer normierten Ansicht des Objekts entspricht. Merkmale des Objekts werden aus der Punktmenge unter Verwendung einer Funktion extrahiert, die in Übereinstimmung mit der unstrukturierten Punktmenge abgetastet wird, und die extrahierten Merkmale werden zur Er kennung des Objekts verwendet werden. Die Funktion ist vorzugsweise eine Filterfunktion. Bei dem erfindungsgemäßen Verfahren wird somit für die weitere digitale Verarbeitung eine hochauflösende unstrukturierte zweidimensionale Punktmenge erzeugt, die aus den Bild punkten der ursprünglich aufgenommenen Bilder zusammengesetzt ist, um den Informations gehalt der berechneten Merkmale aus den digitalisierten Einzelbildern zu erhöhen, ohne daß eine Interpolation mit inhärentem Informationsverlust durchgeführt werden müßte. Aufgrund der unregelmäßigen Abstände der Einzelpunkte der unstrukturierten Bildpunktmenge muß die nachfolgende Abtastung entsprechend angepaßt werden.

Bei dem erfindungsgemäßen Verfahren wird die Gesamtpunktmenge vorzugsweise vorverar beitet, wobei die Bildpunkte danach eingeteilt werden, ob sie zu dem Objekt gehören oder nicht. Dies kann z. B. mittels Kantenextraktion erfolgen. Zur Extraktion der Grenzen des in teressierenden Bildinhaltes kann z. B. eine Hough-Transformation eingesetzt werden. Diese ist z. B. beschrieben in dem Vorlesungsmanuskript "Bildverarbeitung II" des Instituts für Nach richtentechnik und Theoretische Elektrotechnik, Jens-Rainer Ohm, S. 152-154, TU Berlin, 1999.

Die relativen Postitionsabweichungen der aufgenommenen Bilder, die sich durch die Auf nahme aus den verschiedenen Perspektiven ergeben, werden erfaßt, um die Bilder in das ge meinsame Koordinatensystem zu transformieren. Das gemeinsame Koordinatensystem kann beispielsweise das Koordinatensystem des ersten Bildes aus der Bildsequenz sein. Die Positi onsabweichungen können allgemein Folge einer affinen Transformation sein (Translation, Rotation, Skalierung). Zusätzlich können sich geringfügige Abweichungen in den Abmessun gen der aufgenommenen Bilder ergeben, die durch Normierung beispielsweise auf das erste Bild aus der Bildsequenz ebenfalls ausgeglichen werden sollten. Die Transformation der Bildpunkte der aufgenommenen Bilder in das gemeinsame Koordinatensystem erfolgt vor zugsweise mittels einer affinen Transformation, welche die Bildpunkte mit Sub-Pixel- Genauigkeit in das gemeinsame Koordinatensystem transformiert.

Im nächsten Verarbeitungsschritt werden die Merkmale des Objekts aus der vorverarbeiteten Bildpunktmenge extrahiert. Dies erfolgt vorzugsweise mittels Faltung der Bildpunktmenge mit der Filterfunktion, um verschiedene gesuchte Merkmale z. B. als Frequenzspektren oder auf andere Weise darzustellen. Für die Faltung werden die Bildpunkte der unstrukturierten Gesamtpunktmenge und die Filterfunktion in korrespondierenden Schritten abgetastet, welche dem Abstand der Bildpunkte der unstrukturierten Gesamtpunktmenge entsprechen und somit in der Regel unregelmäßig sein werden.

Zur Ermittlung der Abtastintervalle kann z. B. der Abstand der Bildpunkte der unstrukturierten Gesamtpunktmenge aufgrund der vorhergehenden, bekannten Transformationen der Bild punkte in das gemeinsame Koordinatensystem ermittelt wird.

Filterfunktionen, die für die Merkmalsextraktion geeignet sind, sind dem Fachmann auf dem Gebiet der Bildverarbeitung bekannt. Die Filterfunktion kann beispielsweise eine Fourier transformation oder ein zweidimensionales Gabor-Filter umfassen. Geeignete Verfahren zur Merkmalstransformation und -gewichtung sind beschrieben in dem genannten Vorlesungsma nuskript "Bildverarbeitung II", S. 151-160 und in einem weiteren Vorlesungsmanuskript "Bildsignalverarbeitung für Multimedia-Systeme" des Instituts für Nachrichtentechnik und Theoretische Elektrotechnik, Jens-Rainer Ohm, S. 171-188, TU Berlin, 1999. Darin findet sich auch eine Beschreibung der Gabor-Wavelets oder Gabor-Filter, die eine bevorzugte Filterfunktion für die Merkmalsextraktion in dem erfindungsgemäßen Verfahren sind.

Zur Unterscheidung verschiedener Bilder in bezug auf ausgewählte Merkmale werden die extrahierten Merkmale in Klassen eingeteilt werden. Hierzu können von dem Fachmann an sich bekannte Klassifikationsverfahren eingesetzt werden, wie sie z. B. in dem Vorlesungsma nuskript "Bildverarbeitung II", S. 161-179 beschrieben sind. Bevorzugte Klassifikatoren für die Realisierung der Erfindung sind der "Nächste Nachbar" (Nearest Neighbor) und Neuro nale Netze.

Erfindungsgemäß werden für die extrahierten Merkmale Kennzahlen oder -vektoren berech net und mit im voraus ermittelten und gespeicherten Merkmals-Kennzahlen für ein Referenz objekt verglichen, um eine Ähnlichkeit zwischen dem Objekt und dem Referenzobjekt zu ermitteln. Dieser Vergleich erfolgt mithilfe einer Klassifikation, deren Grundzüge unten mit weiteren Einzelheiten beschrieben ist.

Um Bilder zu lernen, welche in einer späteren Erkennungsaufgabe identifiziert werden sollen, wird vorzugsweise mehrmals eine Folge von Bildern wenigstens eines Referenzobjekts auf genommen, um Merkmale des Referenzobjekts zu lernen, wobei die gelernten Merkmale ge speichert werden. Gute Ergebnisse wurden z. B. mit einer fünffachen Wiederholung der Lern folge erzielt. Bei dem Lernvorgang ist unter anderem die richtige Wahl der Wiederholungs häufigkeit wichtig, damit ein Bild eindeutig und gleichzeitig mit ausreichender Toleranz ge lernt und später wieder erkannt wird.

In einer bevorzugten Ausführungsform der Erfindung wird abhängig von der Übereinstim mung des Objekts mit dem Referenzobjekt eine Zugangskontrolle gesteuert wird. Die Erken nung eines Gesichtes oder eines Gesichtsteiles, eines Fingerabdrucks oder dergleichen kann beispielsweise die Eingabe eines Paßwortes ersetzen, um Zugang zu einem Computersystem, einem geschützten Raum, einem Konto etc. zu erhalten. Das aufgezeichnete Bild kann mit weiteren Erkennungsmerkmalen, wie Sprache, Bewegung, Gestik, Mimik, kombiniert wer den, um die Zugangskontrolle noch sicherer zu gestalten.

Das erfindungsgemäße Verfahren eignet sich aufgrund der Erhöhung der Auflösung beson ders für die Erkennung kleiner Gegenstände, wie der Iris eines menschlichen Auges.

Die Erfindung sieht auch ein System zur Erkennung von Objekten vor, mit einer elektroni schen Kamera, die eine Folge von Bildern eines Objekts aus wenigstens zwei unterschiedli chen Perspektiven digital aufnimmt; und einer Recheneinrichtung, welche die digital aufge nommenen Bilder empfängt und folgende Merkmale aufweist: eine Einheit zur Umwandlung jedes Bildes in zugehörige Bildpunkte; eine Transformationseinheit zum Transformieren der Bildpunkte in ein gemeinsames Koordinatensystem und zum Überlagern der transformierten Bildpunkte in dem gemeinsamen Koordinatensystem derart, daß sie eine unstrukturierte Ge samtpunktmenge bilden, welche dem Objekt entspricht, eine Extraktionseinheit, welche Merkmale des Objekts aus der Punktmenge unter Verwendung einer Filterfunktion extrahiert, wobei die Filterfunktion in Übereinstimmung mit der unstrukturierten Punktmenge abgetastet wird, und ein Klassifikator, der die extrahierten Merkmale des Objekts zur Erkennung des Objekts in Klassen einteilt. Schließlich ist auch vorgesehen, die Erfindung in einem Compu terprogramm zu realisieren, das einen Programmcode zur Ausführung des oben beschriebenen Verfahrens auf der Grundlage einer Folge von digital aufgenommenen Bildern aufweist.

Zum besseren Verständnis der Erfindung werden im folgenden, ohne Anspruch auf Vollstän digkeit, einige Grundzüge der Hough-Transformation zur Merkmalsbeschreibung, der Gabor- Wavelets, die bevorzugt zur Merkmalsextraktion verwendet werden, und verschiedener Arten von Klassifikatoren beschrieben. Die folgenden Erläuterungen sind den genannten Vorle sungsmanuskripten entnommen, auf die ergänzend bezug genommen wird.

In der Regel wird ein einziges extrahiertes Merkmal nicht ausreichen, um den Inhalt eines visuellen Signals zu klassifizieren. Sehr häufig wird es daher notwendig sein, die Entschei dung aus einer Reihe von Merkmalen abzuleiten, die nicht nur in ihrer physikalischen Be deutung, sondern auch in ihren Wertebereichen z. T. signifikante Unterschiede aufweisen kön nen. Darüberhinaus können zwischen den einzelnen extrahierten Merkmalswerten lineare oder nichtlineare Abhängigkeiten auftreten, welche die nachfolgende Klassifikation erschwe ren können. Ziel ist es daher, die zur Verfügung stehenden Merkmale durch eine Merkmals transformation auf möglichst wenige voneinander unabhängige signifikante Werte zu reduzie ren, und diese in ihren Wertebereichen so anzupassen (zu normieren), daß die Kombination der Merkmale entsprechend ihrer Relevanz im nachfolgenden Klassifikationsschritt so einfach wie möglich wird.

Ziel von Merkmalstransformationen ist es, die in den unmittelbar extrahierten Merkmalswer ten vorhandenen gegenseitigen Abhängigkeiten zu analysieren, um auf dieser Grundlage zu einer möglichst kompakten (d. h. aus möglichst wenigen Werten bestehenden) Merkmalsbe schreibung zu kommen. Hierbei sind sowohl lineare Abhängigkeiten zu berücksichtigen, die sich weitgehend durch die zwischen den einzelnen Merkmalswerten bestimmbare Kovarianz funktion analysieren und mittels einer Eigenvektortransformation beseitigen lassen, als auch nichtlineare Abhängigkeiten, die sich durch Verwendung eines geeigneten parametrischen Modells in Verbindung mit einer generalisierten Hough-Transformation auflösen lassen.

Die Hough-Transformation wurde in ihrer ursprünglichen Form für eine parametrisierte Be schreibung von Geraden entwickelt, um z. B. für eine Schar von Konturpunkten bestimmen zu können, ob diese alle auf einer Geraden liegen. Ausgangspunkt hierfür ist die Geradenglei chung in Polarkoordinaten

ρ = m.cosα + n.sinα,

die eine Beziehung zwischen den (kartesischen) Punktkoordinaten (m, n) aller derjenigen Punkte angibt, die auf einer Geraden mit dem Abstand ρ und dem Winkel α zum Koordina tenursprung liegen. Die Transformation in den Hough-Raum (ρ, α) ergibt nun für jeden ein zelnen Punkt eine Kurve, welche angibt, auf welchen hypothetischen Geraden er liegen könnte. Schneiden sich nun die Kurven mehrerer Punkte in eine einzigen Punkt des Hough- Raumes, so liegen tatsächlich alle diese Punkte auf einer einzigen Geraden, welche durch die Parameter (ρ_S, α_S) des Schnittpunktes charakterisiert ist.

Heute wird die Hough-Transformation wesentlich universeller für viele Arten einer parametri sierbaren Beschreibung von Bildmerkmalen eingesetzt. Um z. B. nicht nur Geraden-, sondern auch Krümmungsverläufe von Konturkurven zu erfassen, wäre die Hinzuname zusätzlicher Parameter erforderlich, um die quadratischen, kubischen etc. Krümmungsterme zu charakteri sieren. Der Hough-Raum würde dann ebenfalls mehr als zwei Dimensionen erhalten. Eine Anwendung einer solchen generalisierten Hough-Transformation besteht auch in der Erfas sung parametrisierbarer Bewegungsverläufe. So läßt sich die Verschiebung von Bildpunkten nach dem 4-Parameter-Modell, welches Translation, Rotation ϑ und Größenänderung ϑ zwischen zwei Aufnahmezeitpunkten beschreiben kann, durch

charakterisieren.

Die Bestimmung von Bildmerkmalen erfordert eine Analyse der Abhängigkeiten (Richtungs orientierung, Schwankungen etc.) benachbarter Bildpunkthelligkeiten. Die gebräuchlichste Methoden zur Texturcharakterisierung basieren auf einer Frequenzanalyse. Für die Frequenz analyse sind insbesondere Verfahren gut geeignet, die auf einer Wavelet-Transformation oder einer anderen Filteranalyse basieren, da sie sich im Gegensatz zu linearen Transformationen auch problemlos auf beliebig geformte Bildsegmente (und nicht nur auf Gesamtbilder) an wenden lassen. Die Frequenztransformation führt auf eine diskrete Anzahl von Partitionen im 2D-Frequenzspektrum, durch deren Analyse eine Aussage über den Änderungsverlauf (hohe Frequenzen = schnelle Änderungen) der Textur in verschiedenen Richtungsorientierungen möglich ist. Sinnvoll ist hier eine Oktavband-Einteilung der Frequenzachsen, d. h. bei einer Skalierung (Größenänderung) der Textur um den Faktor 2 verschiebt sich die spektrale Ener gie in das nächsthöhere (doppelte Frequenz) oder nächsttiefere Band (halbe Frequenz). Die Richtungsorientierungen sollten hingegen gleichmäßige Winkellagen des Spektrums erfassen. Fig. 2 stellt zwei Beispiele solcher Frequenzeinteilungen (sog. frequency layouts) im 2D- Spektralbereich dar, wobei Fig. 2a. Zur Definition von Richtungsorientierungen und Skalie rungsstufen in der 2D-Frequenzebene und Fig. 2b Wavelet-Transformation mit 3 Rich tungsorientierungen und 3 Skalierungsstufen zeigen.

Die letzte Stufe der Bilderkennung ist die Entscheidung darüber, wie auf Grund der extra hierten und ggf. transformierten/gewichteten Merkmale eine geeignete Klassifikation des Bil dinhaltes erfolgen kann. Hierbei ist zumindest nach heutigem Stand der Technik davon aus zugehen, daß noch keine Systeme existieren, die vollkommen automatisch beliebige visuelle Inhalte erkennen könnten. Zunächst ist hierzu eine Wissensbasis notwendig, d. h. es ist zu spe zifizieren, bei Vorliegen welcher Merkmale es sich um welche Inhalte handelt, und wie diese Inhalte wiederum auf einer abstrakteren Ebene zu benennen sind. Ein Beispiel: Es soll er kannt werden, ob ein Bild ein menschliches Gesicht enthält, und wenn ja, um welche Person es sich handelt. Hierzu können z. B. als Merkmale die Farbe, die Form, das Vorhandensein eines Mundes, zweier Augen, einer Nase an bestimmten Positionen (die sich wiederum durch bestimmte Farb-, Textur- und Strukturmerkmale spezifizieren lassen) herangezogen werden. Sofern alle diese Vorgaben erfüllt sind, ist die Entscheidung relativ klar und sicher. Es kann jedoch vorkommen, daß z. B. ein Auge von Haaren verdeckt ist oder der Mund derart im Schatten liegt, daß er nicht lokalisiert werden kann. Dennoch handelt es sich aller Voraussicht nach um ein Gesicht, jedenfalls würde ein menschlicher Beobachter dies sofort erkennen, jedoch wird z. B. die Zuordnung einer bestimmten Person unsicher sein.

Bei den meisten Klassifikationsverfahren wird daher davon ausgegangen, daß für eine Stich probe von gegebenen Bildern die Merkmale extrahiert werden, jedoch a priori bekannt sei. welcher Klasse sie zuzuordnen sind. So würde man beispielsweise bei dem geschilderten Pro blem der Personenerkennung von jeder der zu erkennenden Personen eine bestimmte Anzahl von Aufnahmen anfertigen, und diese als Stichprobe verwenden. Die Erkennungssicherheit wird dabei maßgeblich dadurch bestimmt, wie weit die Klassen, also die typischen Merk malseigenschaften der einzelnen Personen, im Merkmalsraum voneinander entfernt sind. Hierbei spielt auch die Streuung, d. h. die Varianz innerhalb der einzelnen Klassen eine ent scheidende Rolle; diese ist naturgemäß gering, wenn die Streuung innerhalb der Stichprobe gering ist. Andererseits ergibt sich automatisch eine höhere Streuung, wenn die Stichprobe z. B. Bilder mit sehr unterschiedlichen Aufnahmebedingungen (Beleuchtung, Richtung etc.) enthält, was notwendig ist, wenn bei Verwendung des Klassifikators später ebenfalls Bilder unter ähnlich schwankenden Bedingungen erkannt werden sollen. Die optimale Klassentren nung, die an Hand der Stichprobe "trainiert" wird, ist das Grundproblem bei allen Methoden. Hierbei stehen Merkmalsvektoren mit K Merkmalen zur Verfügung, so daß die Klassifikation in einem K-dimensionalen Merkmalsraum vorgenommen wird. Das Klassentrennungspro blem wird am Beispiel eines Merkmalsraumes mit K = 2 Merkmalen und L = 2 Klassen in Fig. 3 veranschaulicht. Es sind in geeigneter Weise die Grenzen zwischen den einzelnen Klassen zu beschreiben, so daß die Zuordnung zur Klasse auf derjenigen Seite der Grenze erfolgen kann, auf der ein gegebener Merkmalsvektor liegt.

Im Stand der Technik sind hierfür sogenannte lineare Klassifikatoren bekannt. Der lineare Klassifikator bietet jedoch keine eindeutige Lösung für die Klassentrennung bei mehr als 2 Klassen. Hier kann jedoch auch eine Nearest-Neighbor-Klassifikation verwendet werden, wie sie z. B. in clusterbasierten Klassifikationsmethoden häufig eingesetzt wird. Weitere Klas sifikatoren sind die Maximum-a-Posteriori-Klassifikation behandeln, bei der für gegebene statistische Modelle der einzelnen Klassen der zu erwartende Klassifikationsfehler minimiert wird, und als wichtigen Vertreter nichtlinearer Klassifikationsmethoden die neuronalen Netze, die insbesondere für Aufgaben der Mustererkennung mittlerweile sehr häufig eingesetzt wer den.

Der lineare Klassifikator definiert jeweils unendlich ausgedehnte Entscheidungsgeraden oder -hyperebenen. Sofern mehr als 2 (L) Klassen vorliegen, sind 1 + 2 + . . . + L - 1 einzelne Entschei dungen zwischen jeweils 2 Klassen notwendig. Sofern nicht alle entstehenden Entschei dungsebenen parallel sind (was unwahrscheinlich ist), entstehen durch Überschneidungen Bereiche, in denen keine eindeutige Entscheidung möglich ist. Eine mögliche Lösung des Problems stellt die "stückweise lineare" Klassifikation dar, bei der die Ausdehnung der Ent scheidungsgeraden bzw. -ebenen begrenzt wird. Die richtige Einteilung der Klassen wird durch Definition zweier Entscheidungsgeraden mit begrenzten Gültigkeitsbereichen verbes sert wird. Beim Mehrklassenproblem besteht die Aufgabe darin, für die uneindeutigen Berei che eine Zuordnung zu einer der Klassen zu definieren, oder diese ggf. nochmals durch Ein führung einer neuen Entscheidungsfunktion zu trennen. Hier tritt nun allerdings das Problem bei der Realisierung der stückweise linearen Klassifikation hervor: Bei den bisherigen Be trachtungen zur Optimierung war es stets Voraussetzung, daß die Entscheidungsgrenze sich tatsächlich bis ins unendliche ausdehnt, nur so ist die Funktion differenzierbar, und der Opti mierungsansatz lösbar. Mit den stückweise linearen Entscheidungsfunktionen werden Unste tigkeiten eingeführt, die mit herkömmlichen algebraischen Methoden keine Optimierung mehr erlauben. Dies ließe sich nur umgehen, wenn die Stichprobe vorab in mehrere Untermengen eingeteilt wird, wofür aber eigentlich die Lagen der stückweise linearen Funktion schon vorab bekannt sein müßten. Eine sinnvolle Lösung zur Definition stückweise linearer Klassifkati onsfunktionen stellen die Cluster- oder Nearest-Neighbor-Methoden dar, bei denen nicht mehr die Lage einer Entscheidungsebene, sondern die Lage repräsentativer Punkte im Merkmals raum als Referenz benutzt werden. Die Einzelheiten der Nearest-Neighbor-Klassifikation, die eine bevorzugte Methode zur Realisierung der Erfindung darstellt ist, in dem genannten Vor lesungsmanuskript "Bildverarbeitung II", S. 168-174 beschrieben.

Mit künstlichen neuronalen Netzen (artificial neural network, ANK) schließlich läßt sich na hezu beliebiges nichtlineares Verhalten von Signalen erfassen; ANN-Systeme können sich durch Lernprozeduren an ein derartiges Verhalten anpassen. Die Bezeichnung "neuronale Netze" soll die Ähnlichkeit zur ebenfalls nichtlinearen Funktionsweise der Neuronen (Ner venknoten) im Nervensystem von Menschen und Tieren herausstellen: diese geben einen Reiz nur dann weiter, wenn die Summe der Eingangsreize eine bestimmte Schwelle über schreitet.

Die Erfindung ist im folgenden mit Bezug auf die Zeichnungen näher erläutert.

In den Figuren zeigen:

Fig. 1 ein schematisches Blockdiagramm des Grundaufbaus eines Systems zur Erkennung von Objekten aufgrund von digitalen Bilddaten, oder ein sogenanntes Klassifikations system, gemäß dem Stand der Technik und gemäß der Erfindung;

Fig. 2a ein schematisches Frequenz-Layout zur Definition von Richtungsorientierungen und Skalierungsstufen in der zweidimensionalen Frequenzebene für eine Wavelet- Transformation;

Fig. 2b die bekannte 2D-Wavelet-Transformation mit drei Richtungsorientierungen und drei Skalierungsstufen;

Fig. 3 ein Diagramm zur Veranschaulichung des Problems der Klassentrennung in einem Merkmalsraum mit zwei Merkmalen und zwei Klassen;

Fig. 4 eine schematische Darstellung von vier in Folge aufgenommenen Bildern und die Transformation und Überlagerung gemäß der Erfindung;

Fig. 5 ein Diagramm zur Erläuterung der Merkmalsextraktion mittels Faltung des Bildsignals mit einer Filterfunktion für ein regelmäßiges Bildpunktraster und für eine unstruktu rierte Bildpunktmenge; und

Fig. 6 eine unstrukturierte Bildpunktmenge, die auf der Grundlage einer Folge von mehreren digitalen Bildern gebildet wurde.

Fig. 1, die bereits beschrieben wurde, zeigt allgemein das Schema eines sogenannten Klassifi kators oder eines Systems zur Erkennung eines Objekts aufgrund digitaler Bilddaten, wobei der grundsätzliche Aufbau im Stand der Technik und in der Erfindung gleich sind. Erfin dungsgemäß werden Bilddaten in einer Bild-Digitalisierstufe 10 digitalisiert. Alternativ kön nen direkt digitale Daten, die z. B. mit einer digitalen Kamera aufgenommen werden, in das System eingegeben werden. Einer Folge von digitalem Bildern durchläuft eine Vorverarbei tungsstufe 11 und eine Transformationsstufe 12. Die Bilder werden vorzugsweise in kurzem zeitlichen Abstand mit geringen Abweichungen der Aufnahmeperspektive aufgenommen. Bei der Aufnahme von Bildern eines menschlichen Gesichts oder der Iris eines menschlichen Au ges wird in der Regel die natürliche Bewegung der aufgenommenen Person genügen, um die Perspektivänderungen herbeizuführen. In der Vorverarbeitungsstufe 12 werden die interessie renden Abschnitte der digitalen Bilder isoliert, z. B. mittels Kantenextraktion. Und in der Transformationsstufe 11 werden die digitalen Bilder der Folge normiert, in ein gemeinsames Koordinatensystem transformiert und überlagert, wie mit Bezug auf Fig. 4 noch näher be schrieben ist. Das überlagerte Bild stellt eine unstrukturierte Gesamtpunktmenge dar, aus der die interessierenden Bildbereiche isoliert werden. Diese werden an die Merkmalsberech nungsstufe 14 übergeben, welche verschiedene Merkmale des aufgenommenen Bildes extra hiert, wie genauer noch mit Bezug auf Fig. 5 beschrieben ist. Die extrahierten Merkmale wer den an die Klassifikationsstufe 16, oder den Klassifikator, übergeben, der eine Entscheidung darüber fällt, ob das aufgenommene Bild mit einem bekannten und gespeicherten Bild über einstimmt oder nicht, oder der in einer Trainingsphase neue Klassen einrichtet und neue Bil der lernt. Die Klassifikationsstufe 16 kann mit den aus dem Stand der Technik bekannten, oben beschriebenen Verfahren oder anderen Klassifikationsverfahren realisiert werden.

Die verschiedenen Komponenten des Systems können in Hardware, Software oder Firmware realisiert sein.

Die Fig. 2a, 2b und 3 dienen zur Erläuterung eines Merkmalsextraktionsverfahrens mittels Gabor-Wavelet-Transformation und zur Erläuterung des Klassifikationsproblems. Sie wurden bereits beschrieben.

Fig. 4 illustriert schematisch die ersten Schritte des erfindungsgemäßen Verfahrens, bei denen eine Folge von Bildern eines Objekts digital aufgenommen wird, die Bildpunkte der aufge nommenen Bilder so transformiert werden, daß sie in einem gemeinsamen Koordinatensystem zu liegen kommen, und die transformierten Bildpunkte überlagert werden.

Bei dem in Fig. 4 gezeigten Ausführungsbeispiel wurden vier Bilder 20, 21, 22, 23 zu Zeit punkten t₀, t₁, t₂ und t₃ aufgenommen, wobei die Bildpunkte der Bilder 20, 21, 22, 23 in Fig. 4 zur besseren Unterscheidung mit unterschiedlichen Symbolen gekennzeichnet sind. Die vier Bilder sind aus leicht unterschiedlichen Perspektiven aufgenommen, so daß sie eine unter schiedliche Skalierung haben und zueinander rotatorisch und translatorisch versetzt sein kön nen. Die aufgenommenen digitalen Bilder 20, 21, 22, 23 werden normiert, und in ein gemein sames Koordinatensystem transformiert, um die Abweichungen zwischen den Bildern auszu gleichen. Dadurch werden die Bildpunkte innerhalb der einzelnen Bilder verschoben und/oder gedreht sowie das Bild gegebenenfalls in seiner Größe verändert. Die Transformation erfolgt im Sub-Pixelbereich, so daß die Bildpunkte eines normierten Bildes bei jeder beliebigen Po sition, auch zwischen den ursprünglichen Pixeln, zu liegen kommen können. Die so transfor mierten Bilder werden einander überlagert, 30, 31, 32, 33, wodurch sich eine unstrukturierte Gesamtpunktmenge 33 ergibt, welche dem ursprünglich aufgenommenen Bild entspricht, je doch eine wesentlich höhere Bildpunktedichte als ein Einzelbild 20, 21, 22, 23 aufweist.

Bei dem erfindungsgemäßen Verfahren wird somit das Problem des Informationsverlustes durch Interpolation vermieden, indem nicht mit rekonstruierten, höher aufgelösten Bildern gerechnet wird, sondern auf der Basis von normierten Überlagerungen der einzelnen Ele mente einer Sequenz. Unter der Annahme, daß die Normierung und Verschiebung der Einzel bilder 20, 21, 22, 23 der Sequenz in invertierbaren Transformationen der zweidimensionalen Bilder resultieren, können die jeweiligen Bildparameter für jeden Zeitpunkt normiert werden, z. B. in das Koordinatensystem des ersten Bildes 20. Das erfindungsgemäße Verfahren sieht nun vor, daß die nachfolgenden Schritte der Vorverarbeitung und Merkmalsberechnung des digitalen Bildes nicht auf einem regulären Gitter, sondern auf dieser irregulären Punktmenge definiert werden.

Dies ist mit Bezug auf Fig. 5 näher erläutert.

Aus dem Stand der Technik ist bekannt, zur Merkmalsextraktion die einzelnen Bildpunkte eines digitalen Bildes mit einer Filterfunktion zu falten, um die Merkmale in Form von Fre quenzspektren zu extrahieren. Wenn eine regelmäßige Folge oder ein regelmäßiges Feld von Bildpunkten vorliegt, wie im Stand der Technik üblich, werden sowohl das digitale Bild als auch die Filterfunktion oder der Filterkernel in regelmäßigen Abständen abgetastet und multi pliziert, siehe Fig. 5a. Die gesuchten Merkmale ergeben sich dann z. B. als Frequenzspektren, die beispielsweise als Fließkomma-Vektor, dargestellt werden können.

Bei dem erfindungsgemäßen Verfahren können die Vorverarbeitung und die Merkmalsbe rechnung nicht auf ein diskretes, äquidistantes und rechtwinkliges Gitter zurückgreifen. Es mußte ein Weg gefunden werden, die zusätzliche zeitliche Dimension der Bildfolge zu inte grieren. Die Merkmalsberechnung durch Faltung gemäß der Erfindung erfolgt daher auf der irregulären Punktmenge und entsprechend wird erfindungsgemäß die Abtastung der Filterkur ve an die unregelmäßige Punktmenge angepaßt.

Fig. 5b zeigt schematisch eine Darstellung eines digitalen Bildes mit unregelmäßig verteilten Bildpunkten, wobei die Abtastung der Filterkurve in Intervallen erfolgt, welche dem unregel mäßigen Abstand der Bildpunkte entsprechen. Da, wie bereits erläutert, die Verteilung der Bildpunkte in der unstrukturierten Gesamtpunktmenge aufgrund der vorangegangenen Trans formation bekannt ist, können auf dieser Grundlage die Abtastschritte für die Bildpunktmenge sowie die Filterfunktion bestimmt werden. Die in Folge ermittelten Kennzahlen oder -vekto ren für die extrahierten Merkmale können dann wieder auf eine im Stand der Technik an sich bekannte Weise klassifiziert werden, um Bilder zu lernen oder zu erkennen.

Bei der bevorzugten Ausführungsform der Erfindung ist das zu erkennende Objekt die Iris des menschlichen Auges. Fig. 6 zeigt beispielhaft eine unstrukturierte Bildpunktmenge, die mit dem erfindungsgemäßen Verfahren auf der Grundlage einer Folge von digitalen Bildern eines menschlichen Auges aufgenommen wurde.

Um den Rechenaufwand zu begrenzen, werden bei dem erfindungsgemäßen Verfahren die erlaubten Transformationen der einzelnen Bilder zur Normierung und Überlagerung vorzugs weise auf affine Transformationen beschränkt. Nach der Überlagerung der normierten Bilder in einem gemeinsamen Koordinatensystem wird die sich ergebende Punktmenge vorzugswei se vorverarbeitet, um die Punkte in zwei Klassen einzuteilen: zur Iris gehörend und nicht zur Iris gehörend, um die nachfolgende Berechnung einzelner gesuchter Merkmale weiter zu re duzieren. Die anschließende Berechnung der Merkmale basiert vorzugsweise auf einer loka len Frequenzanalyse, beispielsweise mittels Fouriertransformation, oder einer Faltung mit einer geeigneten Filterkurve, wie eine Sinuskurve, Gabor-Wavelets, mit polartransformierten Frequenzmustern. Während für die Klassifikation der extrahierten Merkmale eine Vielzahl von Klassifikationsverfahren eingesetzt werden kann, wird erfindungsgemäß vorzugsweise eine Klassifikation mittels einem gewichteten Nächster-Nachbar-Verfahren durchgeführt.

Die in der vorstehenden Beschreibung, den Ansprüchen und den Zeichnungen offenbarten Merkmale können sowohl einzeln als auch in beliebiger Kombination für die Realisierung der Erfindung in den verschiedenen Ausgestaltungen von Bedeutung sein.

Claims

1. Verfahren zur Erkennung von Objekten, bei dem
eine Folge von Bildern (20, 21, 22, 23) eines Objekts digital aufgenommen und jedes Bild in zugehörige Bildpunkte umgewandelt wird, wobei wenigstens zwei Bilder des Objekts aus unterschiedlichen Perspektiven aufgenommen werden,
die Bildpunkte der aufgenommenen Bilder (20, 21, 22, 23) derart transformiert wer den, daß sie in einem gemeinsamen Koordinatensystem zu liegen kommen,
die transformierten Bildpunkte (30, 31, 32, 33) in dem gemeinsamen Koordinatensy stem einander überlagert werden, um eine unstrukturierte Gesamtpunktmenge (33) zu bilden, welche dem Objekt entspricht, und
Merkmale des Objekts aus der Punktmenge durch Merkmalsextraktion mit einer Funktion gewonnen werden, welche in Übereinstimmung mit der unstrukturierten Punktmenge abgetastet wird, und
die extrahierten Merkmale zur Erkennung des Objekts verwendet werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Gesamtpunkt menge einer normierten Wiedergabe des Objekts entspricht.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Funktion eine Filterfunktion ist.

4. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzei chnet, daß die Gesamtpunktmenge (33) vorverarbeitet wird, wobei die Bildpunkte danach eingeteilt werden, ob sie zu dem Objekt gehören oder nicht.

5. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzei chnet, daß relative Postitionsabweichungen der aufgenommenen Bilder erfaßt wer den, um die Bilder in das gemeinsame Koordinatensystem zu transformieren.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Bildpunkte der aufgenommenen Bilder mittels einer affinen Transformation in das gemeinsame Koor dinatensystem transformiert werden.

7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Bildpunkte der aufgenommenen Bilder mit sub-Pixel- Genauigkeit in das gemeinsame Koordinatensystem transformiert werden.

8. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Merkmale des Objekts mittels Faltung mit der Funk tion extrahiert werden.

9. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Funktion an Stellen abgetastet wird, welche den Bild punkten der unstrukturierten Gesamtpunktmenge (33) entsprechen.

10. Verfahren nach Anspruch 9 dadurch gekennzeichnet, daß der Abstand der Bildpunkte der unstrukturierten Gesamtpunktmenge (33) aufgrund der Transformatio nen der Bildpunkte in das gemeinsame Koordinatensystem ermittelt wird.

11. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Funktion eine Fouriertransformation oder ein zwei dimensionales Gabor-Filter umfaßt.

12. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die extrahierten Merkmale in Klassen eingeteilt werden.

13. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die extrahierten Merkmale mit im voraus ermittelten und gespeicherten Merkmalen verglichen werden, um eine Ähnlichkeit zwischen dem Ob jekt und einem Referenzobjekt zu ermitteln.

14. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß mehrmals eine Folge von Bildern (20, 21, 22, 23) wenig stens einer Referenz aufgenommen wird, um Merkmale des Referenzobjekts zu lernen, wobei die gelernten Merkmale gespeichert werden.

15. Verfahren nach Anspruch 13 und 14, dadurch gekennzeichnet, daß abhängig von der Übereinstimmung des Objekts mit dem Referenzobjekt eine Zugangskontrolle gesteuert wird.

16. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß das Objekt die Iris eines menschlichen Auges ist.

17. System zur Erkennung von Objekten, mit
einer elektronischen Kamera, die eine Folge von Bildern (20, 21, 22, 23) eines Objekts aus wenigstens zwei unterschiedlichen Perspektiven digital aufnimmt;
einer Recheneinrichtung, welche die digital aufgenommenen Bilder empfängt und folgende Merkmale aufweist:
eine Einheit (10) zur Umwandlung jedes Bildes in zugehörige Bildpunkte;
eine Transformationseinheit (12) zum Transformieren der Bildpunkte in ein gemein sames Koordinatensystem und zum Überlagern der transformierten Bildpunkte in dem gemeinsamen Koordinatensystem derart, daß sie eine unstrukturierte Gesamtpunkt menge (33) bilden, welche dem Objekt entspricht,
eine Extraktionseinheit (14), welche Merkmale des Objekts aus der Gesamtpunktmen ge (33) unter Verwendung einer Funktion extrahiert, welche in Übereinstimmung mit der unstrukturierten Punktmenge abgetastet wird, und
ein Klassifikator (16), der die extrahierten Merkmale des Objekts zur Erkennung des Objekts in Klassen einteilt.

18. Auf einem digitalen Rechner ausführbares Computerprogramm, das einen Pro grammcode zur Ausführung des Verfahrens nach einem der Ansprüche 1 bis 16 auf der Grundlage einer Folge von digital aufgenommenen Bildern (20, 21, 22, 23) eines Objekts aufweist.