DE69032326T2

DE69032326T2 - Dynamisches verfahren um gegenstände zu erkennen und bildverarbeitungsgerät dafür

Info

Publication number: DE69032326T2
Application number: DE69032326T
Authority: DE
Inventors: Peter Burt
Original assignee: Sarnoff Corp
Current assignee: Sarnoff Corp
Priority date: 1989-11-06
Filing date: 1990-11-05
Publication date: 1998-09-10
Anticipated expiration: 2010-11-06
Also published as: WO1991006921A1; EP0499627A1; JP3178719B2; ES2116284T3; DE69032326D1; EP0499627A4; JPH05501770A; US5063603A; EP0499627B1

Description

Die vorliegende Erfindung ist auf eine dynamische Bildverarbeitungstechnik für das Erkennen von Objekten einer gegebenen Klasse gerichtet, die in einer zeitlichen Abfolge aufeinanderfolgender Einzelbilder mit einer relativ hohen Auflösung aus Bilddaten grafisch wiedergegeben werden.
Techniken für das Erkennen von Musterformen von Gegenständen, die in Bilddaten grafisch wiedergegeben sind, sind im Stand der Technik bekannt. Weiterhin sind Techniken für das Unterscheiden zwischen sich bewegenden und stationären Gegenständen, die eine zuvor ausgewählte Winkelorientierung haben, oder von Objekten, die irgendein anderes, vorbestimmtes interessierendes Merkmal haben, ebenfalls im Stand der Technik bekannt.
In dieser Hinsicht wird nun beispielhaft auf das US-Patent 4,692,806, ausgegeben für Anderson et al. am 8. September 1 987, und auf das US-Patent 4,385,322, ausgegeben für Hubach et al. am 24. Mai 1983, bezug genommen.
Anderson et al. offenbaren eine Bilddatenreduktionstechnik, bei welcher ein Bild mit ursprünglich weitem Gesichtsfeld und hoher Auflösung, welches aus einer ersten gegebenen Anzahl von Pixeln besteht, so verarbeitet wird, daß ein Bild mit großem Gesichtsfeld und niedriger Auflösung abgeleitet wird, welches aus einer zweiten gegebenen Anzahl von Pixeln besteht, die kleiner ist als die erste gegebene Anzahl. Auf der Basis der Position eines erfaßten, interessierenden Merkmales, welches in dem abgeleiteten Bild mit niedriger Auflösung vorhanden ist, kann ein bewegbares Fenster, welches aus nicht mehr als der zweiten gegebenen Anzahl von Pixeln besteht, verwendet werden, um die Position dieses Teiles mit engem Gesichtsfeld aus dem ursprünglichen Bild mit hoher Auflösung zu erhalten, welcher das erfaßte interessierende Merkmal enthält. Anderson et al. verwenden bekannte, sogenannte Vielfachauflösungspyramidenprozessortechniken, um ihre Bilddatenreduktion durchzuführen. Ein Pyramidenprozessor wird auch offenbart in den Proceedings of the IEEE, Band 76, No. 3, Seiten 1006-1015, August 1988, P.T. Burt, "Smart Sensing with a Pyramid Vision Machine".
Während die Datenreduktionstechnik von Anderson et al. in einer zeitlichen Abfolge von aufeinanderfolgenden Einzelbildern relativ hoher Auflösung aus Bilddaten wiederholt arbeiten kann, ist die Erfassung des interessierenden Merkmals während jedes Vorganges ähnlich (d.h. während jedes wiederholten Vorganges wird entweder das interessierende Merkmal erfaßt oder nicht, unabhängig davon, ob das interessierende Merkmal in einer der vorhergehenden der wiederholt durchgeführten Vorgänge bzw. Operationen erfaßt worden ist.
Hubach et al. offenbaren eine Mustererkennungsmethode, die ebenfalls eine Datenreduktionstechnik verwendet. Zunächst wird eine Bezugsszene aufgezeichnet und in einem feinen Format gespeichert und dann in einem groben Format. Die gespeicherte Grobinformation der Bezugsszene wird in Realzeit mit Grobinformation von einer betrachteten Szene mit großem Gesichtsfeld verglichen, und es wird eine Korrelationszahl (Wahrscheinlichkeit), welche den Prozentsatz der Übereinstimmung anzeigt, verwendet, um die Position der besten Anpassung (falls eine solche vorhanden ist) zwischen der betrachteten Szene und der Bezugsszene zu bestimmen. Nur der enge Gesichtsfeldbereich der betrachteten Szene, welche sich in der Nähe der im groben Bereich übereinstimmenden Teile befindet, wird dann mit der gespeicherten Feininformation der Bezugsszene verglichen. Die Position der besten Anpassung wird exakt bestimmt entsprechend der höchsten Korrelationszahl (Wahrscheinlichkeit) der Zusammenpassung der betrachteten Szene mit der fein gespeicherten Information der Bezugsszene. Es ist darauf hinzuweisen, daß bei Hubach et al. die gespeicherten groben und feinen Bezugsinformationen fest bleiben.
Man betrachte den Fall, bei welchem das zu erkennende Objekt ein dreidimensionales, bewegliches Objekt ist, welches in einer zeitlichen Abfolge aufeinanderfolgender Einzelbilder aus Bilddaten grafisch wiedergegeben wird, wobei jedes der Bilder bzw. der Gegenstand in dem Bild aus einer zweidimensionalen Projektion des dreidimensionalen Objektes besteht. In einem solchen Fall hängen die Abmessungen und die Form der zweidimensionalen Projektion in jedem der entsprechenden Einzelbilder von dem Abstand des dreidimensionalen Objektes in einer Richtung senkrecht zu der Projektion desselben und von der Winkelausrichtung des dreidimensionalen Objektes bezüglich seiner Projektion in diesem Einzelbild ab. Wenn sich das dreidimensionale Objekt bewegt, verändern sich die Größe und Form seiner grafischen Wiedergabe von Einzelbild zu Einzelbild. Daher kann man über ein solches dreidimensionales, sich bewegendes Objekt viel weniger als eine vollständige Information aus irgendeinem einzelnen Einzelbild erhalten. Durch kumulatives Hinzufügen der Information, die man von allen vorhergehenden Einzelbildern der zeitlichen Abfolge erhalten hat, zu der von irgendeinem Einzelbild erhaltenen Information, wird es möglich, ausreichend Information zu sammeln, um gezielt die Identität eines solchen dreidimensionalen, beweglichen Objektes mit hoher Genauigkeit zu erkennen. Das dynamische Bildverarbeitungsverfahren der vorliegenden Erfindung richtet sich auf eine effiziente Lösung dieser Art von Erkennungsproblemen.
Gesichtspunkte der Erfindung sind in den Ansprüchen beschrieben, auf die das Augenmerk zu richten ist.
Insbesondere erkennt eine Ausführungsform des dynamischen Bildverarbeitungsverfahrens gemäß der vorligenden Erfindung Gegenstände bzw. Objekte einer gegebenen Klasse, die allesamt eine Gruppe von bekannten, ihnen innewohnenden Eigenschaften haben, die insgesamt genommen die Gegenstände dieser gegebenen Klasse von Gegenständen unterscheiden, die nicht aus dieser gegebenen Klasse sind. Das Verfahren spricht auf eine Einrichtung für das Steuern dieser Verarbeitung und für das Spezifizieren eines Satzes von Entscheidungskriterien an. Dieses Verfahren spricht auch auf gespeicherte Daten an, die anfänglich eine begrenzte Anzahl getrennter Merkmale definieren, die sich auf eine Gruppe von generischen Eigenschaften (Gattungseigenschaften) beziehen, wobei jedes der anfänglich gespeicherten Merkmale die Wahrscheinlichkeit hat, in einer Folge eines oder mehrerer aufeinanderfolgender Einzelbilder aus Bilddaten vorhanden zu sein, wenn ein Gegenstand der gegebenen Klasse in dieser Folge grafisch wiedergegeben wird. Die Ausführungsform des Verfahrens weist die folgenden Schritte auf:
Zunächst werden aufeinanderfolgende, relativ hoch aufgelöste Einzelbilder von Bilddaten in einer zeitlichen Abfolge in einem Pyramidenprozessor mit Mehrfachauflösung analysiert, der aus zumindest einer Ebene besteht, die eine niedrigere Auflösung hat als die hochaufgelösten Einzelbilder. Unter der Steuerung des gespeicherten Programmes und unter Ansprechen auf zumindest eines der getrennten Merkmale, die anfänglich durch die gespeicherten Daten definiert wurden, wird eine erste Bestimmung gemäß den Entscheidungskriterien durchgeführt, und zwar bezüglich einer ersten Wahrscheinlichkeit, mit welcher irgendeine der Ebenen mit niedrigerer Auflösung des Pyramidenprozessors mit mehrfacher Auflösung in einer Folge von einem oder mehreren relativ früh auftretenden Einzelbildern der zeitlichen Abfolge als Teil ihrer Bilddaten zumindest das erste der separaten Merkmale von Objekten der gegebenen Klasse umfassen könnte. Wenn diese erste Wahrscheinlichkeit zumindest gleich einem ersten vorbestimmten Grenzwert ist, werden Daten, die zumindest die relative Position dieses Teiles der Bilddaten innerhalb der früh auftretenden Einzelbilder der Folge definieren, zu den gespeicherten Daten hinzuaddiert, wodurch die gespeicherten Daten vergrößert bzw. vermehrt werden.
Dann wird unter der Steuerung des gespeicherten Programmes und unter Ansprechen auf die vermehrten gespeicherten Daten eine zweite Bestimmung entsprechend den Entscheidungskriterien bezüglich einer zweiten Wahrscheinlichkeit durchgeführt, nämlich daß auf irgendeiner der Ebenen des Pyramidenprozessors mit mehrfacher Auflösung von einer Folge von einem oder mehreren relativ später auftretenden Einzelbildern in der zeitlichen Abfolge verifiziert wird, daß der zuvor erwähnte Teil der Bilddaten zumindest ein zweites der separaten Merkmale zusätzlich zu dem ersten Merkmal aufweist. Wenn die zweite Wahrscheinlichkeit oberhalb eines zweiten vorbestimmten Grenzwertes liegt, so wird der zuvor erwähnte Teil der Bilddaten als eine grafische Wiedergabe eines Gegenstandes der gegebenen Klasse erkannt. Wenn jedoch die zweite Wahrscheinlichkeit unterhalb eines dritten vorbestimmten Grenzwertes ist, wobei der dritte vorbestimmte Grenzwert beträchtlich unterhalb des zweiten vorbestimmten Grenzwertes liegt, so wird der zuvor erwähnte Teil der Bilddaten als einer erkannt, den keine grafische Wiedergabe eines Objektes der gegebenen Klasse ist. In den Fällen, in welchen die zweite Wahrscheinlichkeit in dem Bereich zwischen den zweiten und den dritten Wahrscheinlichkeiten liegt, so werden die weiteren Daten, die durch den zuvor erwähnten Verifizierungsschritt definiert wurden, zu den gespeicherten Daten hinzugefügt, wodurch die gespeicherten Daten weiter vergrößert werden. Weiterhin wird für den Fall, daß die zweite Wahrscheinlichkeit in diesem Bereich liegt, der Verifizierungsschritt und die weitere Vergrößerung der gespeicherten Daten unter Ansprechen auf jenen für relativ zunehmend später auftretende Folgen eines oder mehrerer Einzelbilder in der zeitlichen Abfolge wiederholt, bis die durch einen derart wiederholten Schritt bestimmte Wahrscheinlichkeit entweder über diesen zweiten vorbestimmten Grenzwert ansteigt oder unter den dritten vorbestimmten Grenzwert fällt.
Für ein besseres Verständnis der vorliegenden Erfindung wird nun beispielhaft auf die beigefügten Zeichnungen bezug genommen, von denen:
Figur 1 ein Funktionsdiagramm ist, welches die Prinzipien der vorliegenden Erfindung veranschaulicht,
Figur 2 ein anschauliches Beispiel der vorliegenden Erfindung ist, welches eine bestimmte Ausführungsform der Abbildungseinrichtung gemäß Figur 1 verwendet,
Figur 3 ein Beispiel des Vorprozessors nach Figur 1 darstellt und
Figur 4 ein Beispiel für die gespeicherten Daten und die Objekterkennungseinrichtung nach Figur 1 list.
Ein menschlicher Betrachter hat keine Schwierigkeit, Gegenstände einer gegebenen Klasse (z. B. anderer Menschen) zu erkennen, die in einer komplexen Szene anwesend sind. In der Tat hat der Betrachter, obwohl er hunderte von verschiedenen Individuen kennt, keine Schwierigkeit, irgendeines von diesen, das in der betrachteten Szene anwesend ist, zu erkennen.
Alle Menschen besitzen eine Gruppe von bekannten Gattungseigenschaften, die als Ganzes genommen sie von anderen Objekten unterscheidet, die nicht menschlich sind. Es sind jedoch Unterschiede in den Eigenschaften des Gesichtes, die in erster Linie ein Individuum von dem anderen unterscheiden.
Das dynamische Bildverarbeitungsverfahren gemäß der vorliegenden Erfindung, welches in Figur 1 dargestellt ist, ahmt die Fähigkeit eines Menschen nach, Gegenstände einer gegebenen Klasse zu erkennen, die allesamt eine Gruppe von bekannten Gattungseigenschaften besitzen und die als Ganzes genommen Gegenstände bzw. Objekte dieser gegebenen Klasse von Objekten unterscheiden, die nicht aus der gegebenen Klasse sind. Weiterhin ist die dynamische Bildverarbeitung gemäß der vorliegenden Erfindung in der Lage, unter einer Vielzahl von vorher ausgewählten Mitgliedern der gegebenen Klasse zu unterscheiden, wobei jedes der zuvor ausgewählten Mitglieder individuell dadurch definiert ist, daß es einen eindeutigen Satz bekannter Eigenschaften aus zumindest einer Teilgruppe der bekannten Gattungseigenschaften hat.
Gemäß Figur 1 ist eine Abbildungseinrichtung 100 dargestellt, die ein Gesichtsfeld 102 hat. Die Abbildungseinrichtung 100 kann aus einem Aufbau für den Empfang von Strahlung bestehen, die von Objekten innerhalb eines Gesichtsfeldes 102 reflektiert wird, welche von einer externen Strahlungsquelle beleuchtet werden. Alternativ kann die Abbildungseinrichtung 100 aus einem Aufbau bestehen, der Einrichtungen zum Beleuchten von Gegenständen innerhalb des Gesichtsfeldes 102 mit Strahlung und Einrichtungen für das Empfangen reflektierter Echos von solchen Objekten einschließt (wobei diese Echos auch eine Information über den Objektabstand bereitstellen können). Weiterhin kann die Abbildungseinrichtung 100 auf Strahlung irgendeines gegebenen Wellenlängenabschnittes des elektromagnetischen, Ultraschall- und/oder irgendeines anderen Types von Wellenenergiespektren ansprechen. Innerhalb des Gesichtsfeldes 102 sind zwei bewegbare Gegenstände einer gegebenen Klasse 104 angeordnet (in Figur 1 als bewegbare Würfel wiedergegeben). Während beide Objekte alle Gattungseigenschaften eines Würfels besitzen, unterscheiden sie sich insbesondere voneinander dadurch, daß die Flächen des oberen Würfels mit einem "+" markiert sind, während die Flächen des unteren Würfels mit einem "o" markiert sind. Weiterhin sind in dem Gesichtsfeld 102 eine Vielzahl verschiedener stationärer Gegenstände 106 enthalten, die nicht aus der gegebenen Klasse 104 sind.
Die Abbildungseinrichtung 100 erzeugt eine zweidimensionale Projektion jedes der dreidimensionalen Würfel 104. Da die Würfel 104 beweg bar sind, verändert sich die Form und die Größe der Projektion jedes Würfels zu irgendeinem gegebenen Zeitpunkt mit der Orientierung und dem Abstand dieses Würfels bezüglich der Abbildungseinrichtung 100.
Der Ausgang bzw. die Ausgabe der Abbildungseinrichtung 100 liefert bzw. besteht aus einer zeitlichen Abfolge von aufeinanderfolgenden, relativ hoch aufgelösten Einzelbildern aus Bilddaten, wobei jedes der Einzelbilder in analoger Form grafisch eine zweidimensionale Projektion jedes der Würfel aus der Klasse 104 sowie der Objekte 106 in ihrer räumlichen Position innerhalb des Gesichtsfeldes zum Zeitpunkt des Auftretens dieses Einzelbildes in der zeitlichen Abfolge wiedergibt. Der Analog-Digital (A/D)-Wandler 108 wandelt die Bilddaten in jedem der aufeinanderfolgenden Einzelbilder in eine digitale Form für das Verarbeiten durch einen digitalen Prozessor um, der aus einem Vorprozessor 110, einem Pyramidenprozessor 112 mit mehrfacher Auflösung, einer Objekterkennungseinrichtung 114, einem gespeicherten Programm 116 und gespeicherten Daten 118 besteht.
In Figur 1 ist der digitale Prozessor als ein System von miteinander verbundenen Funktionsblöcken dargestellt, wobei jeder Block einem Teilsystem entspricht. In der Praxis kann ein digitales Prozessorsystem in Form von Software verwirklicht sein (d.h. einem programmierten Computersystem) und/oder in Form von Hardware (d.h. aus hartverdrahteten Elementen). Ein detailliertes Beispiel des Teilsystems des Vorprozessors 110 ist in Figur 3 dargestellt, und detaillierte Beispiele von Gegenstandserkennungseinrichtungen 114 und gespeicherten Daten 118 sind in Figur 4 dargestellt, wobei diese Figuren weiter unten noch diskutiert werden.
Das gespeicherte Programm 116 wendet Kontrolleingaben sowohl auf den Vorprozessor 110 als auch auf den Pyramidenprozessor 112 mit mehrfacher Auflösung, die Objekterkennungseinrichtung 114 und die gespeicherten Daten 118 an, um die Abfolge von Vorgängen bzw. Bearbeitungen dieser Teilsysteme dementsprechend zu steuern. Diese Abfolge von Vorgängen bzw. Operationen wird entsprechend der Information modifiziert, die von der Objekterkennungseinrichtung 114 an das gespeicherte Programm 116 zurückgeführt wird. Steuerungsinformation wird auch von der Objekterkennungseinrichtung 114 über sowohl die Abbildungseinrichtung 100, den Vorprozessor 110 als auch den Pyramidenprozessor 112 mit mehrfacher Auflösung zurückgeführt. Zusätzlich wendet die Objekterkennungseinrichtung 114 eine vergrößerte Datenspeicherung auf die gespeicherten Daten 118 an.
Die Bilddaten in digitaler Form werden als eine Signaleingabe an den Vorprozessor 110 gegeben. Der Vorprozessor 110 modifiziert entsprechend der ihm von der Objekterkennungseinrichtung 114 und dem gespeicherten Programm 116 eingegebenen Steuerinformation die Bilddaten, die ihm als Eingabe eingegeben werden, und übergibt dann diese modifizierten Bilddaten als Eingabe an den Pyramidenprozessor 112 mit mehrfacher Auflösung.
Der Pyramidenprozessor 112 mit mehrfacher Auflösung, der in der Lage ist, den Typ von Funktionen auszuführen, der durch das zuvor erwähnte Patent US-A-4,692,806 von Anderson et al. durchgeführt wird, kann entsprechend der Lehre des US-Patents 4,703,514, ausgegeben am 27. Oktober 1987 für Van der Wal und mit dem Titel "Programmierte Umsetzung einer Signalverarbeitungsvorrichtung mit mehrfacher Auflösung in Realzeit", strukturell umgesetzt werden.
Die Ausgangsdaten von dem Pyramidenprozessor 11 2 werden als erste Signaleingabe auf eine Objekterkennungseinrichtung 114 gegeben. Zusätzlich empfängt die Objekterkennungseinrichtung 114 zweite Signaleingabeinformationen unmittelbar von dem Vorprozessor 110. Weiterhin kann Information von der Abbildungseinrichtung 100 als eine Eingabe an die Objekterkennungseinrichtung 114 zurückgeführt werden. Auch die gespeicherten Daten 118 geben unter der Steuerung des gespeicherten Programms 11 6 ausgewählte gespeicherte Daten als eine Eingabe auf die Objekterkennungseinrichtung 114. Die Ausgangsinformation aus dem Objekterkennungsprogramm 114 wird als Eingabe auf eine Ausgangsverwendungseinrichtung 120 gegeben. In Figur 1 ist auch ein optional vorhandener Anzeigemonitor 122 dargestellt (mit gestrichelten Linien gezeigt), um das Bild aus der Abbildungseinrichtung 100 anzuzeigen. Der Anzeigemonitor 122 kann auch Information anzeigen, die von der Ausgabeverwendungseinrichtung 120 empfangen wurde (d.h. Beschriftungen und andere Zeichen, welche erkannte Gegenstände bzw. Objekte in dem Bild identifizieren).
Figur 1 ist eine verallgemeinerte Darstellung des Systems gemäß der vorliegenden Erfindung. Für ein besseres Verständnis der vorliegenden Erfindung wird jetzt ein spezielles, anschauliches Beispiel (dargestellt in Figur 2) beschrieben. In Figur 2 besteht die Erkennungseinrichtung 100 aus einer Farbfernsehkamera 200a und einer Entfernungsmeßeinrichtung 200b. Das Gesichtsfeld sowohl der Kamera 200a als auch der Entfernungsmeßeinrichtung 200b ist das Innere eines Raumes 201 mit einem Eingang 203. Irgendeines der drei speziellen Individuen, bestehend aus John 204a, Bill 204b und Mary 204c kann zu irgendeinem gegebenen Zeitpunkt in dem Raum 201 sein oder nicht. Drei Gegenstände, die aus einem am Ende stehenden Tisch 206a, einem Sofa 206b und einem hin und her beweglichen Fächer 208 bestehen, sind in dem Raum 201 dauerhaft angeordnet, wie in Figur 2 dargestellt. Zu dem Zeitpunkt, der in Figur 2 dargestellt ist, steht John 204a in dem Raum 102 relativ dicht an der Abbildungseinrichtung, die aus der Fernsehkamera 200a und der Meßeinrichtung 200b besteht; Bill 204b, der auf dem Sofa 206b sitzt, befindet sich in dem Raum 102 relativ weit weg von der Abbildungseinrichtung 100; und Mary 204c hat soeben den Raum 201 durch die Tür 203 verlassen, wie durch den Pfeil 205 angezeigt wird.
Im Falle der in Figur 2 anschaulich dargestellten Beispiele ist es der Zweck der Erfindung des Anmelders, (1) der Gattung nach jedes menschliche Wesen zu erkennen, das sich in dem Raum 201 befindet, (2) dann speziell erkennen, ob irgendeiner der gattungsmäßig erkannten Menschen John 204a, Bill 204b oder Mary 204c ist, und (3) daraufhin die Position jedes speziell erkannten Individuums in dem Raum 201 zu verfolgen.
Der Anschauung halber sei angenommen, daß der Vorprozessor 110 die in Figur 3 dargestellte Form annimmt und daß die Objekterkennungseinrichtung 114 und die gespeicherten Daten 118 die in 4 dargestellte Form annehmen. Aus Gründen der Klarheit sind in den Figuren 3 und 4 die entsprechenden Verbindungen des gespeicherten Programms 116 zu dem Vorprozessor 110, der Erkennungseinrichtung 114 und den gespeicherten Daten fortgelassen. Es versteht sich jedoch, daß die Abfolge der Bearbeitung jedes der Teilsysteme durch das gespeicherte Programm 116 gesteuert wird.
Wie in Figur 3 angezeigt, besteht der Vorprozessor 110 aus einem Farbfilter, Rahmen- und Abstandsspeichern 300, einer Transformationseinrichtung 302 für die Bildorientierung und einer Einrichtung 304 für bewegte Objekte. Wie in Figur 4 gezeigt, besteht die Objekterkennungseinrichtung 114 aus einer Größeneinstelleinrichtung 400, einer Transformationseinrichtung 401 für eine Schablonenausrichtung, einer Korrelationseinrichtung 402 für eine orientierte Musterform, eine Wahrscheinlichkeitsbestimmungseinrichtung 404, einem Fleischfarbtondetektor 406, Gattern 408, einer Fenstersteuereinrichtung 410 und einem Gatter 412. Wie weiterhin in Figur 4 gezeigt wird, bestehen die gespeicherten Daten 118 aus anfänglich gespeicherten Schablonen 118a mehrfacher Ansichten und in mehrfacher Auflösung, gespeicherten Positionen von stationären Gegenständen 118b und nachträglich gespeicherten Erkennungsverbesserungsdaten 118c.
Es sei angenommen, daß die anfänglich gespeicherten Schablonen 118a die zuvor aufgezeichneten Bilddaten einschließen, welche ein vollständiges Gesicht, Linksprofil- und Rechtsprofilansichten des Kopfes oder von ausgewählten Abschnitten sowohl von John 204a, Bill 204b und Mary 204c, und zwar bei einer Anzahl verschiedener Auflösungen. Während Schablonen mit niedrigerer Auflösung den gesamten Kopf oder das Gesicht des speziellen Individuums einschließen können, sind die Schablonen mit höherer Auflösung auf nur einen Abschnitt mit relativ hoher Information von dem Gesicht des Individuums beschränkt. Beispielsweise kann eine Schablone mit hoher Auflösung einen horizontalen Streifen quer über dem Gesicht des Individuums aufweisen, welcher seine bzw. ihre Ohren, Augen und Nasenrücken zeigt (d.h. sie enthält eine umfangreiche Erkennungsinformation, die verwendet werden kann, um eine Unterscheidung zwischen dem einen speziellen Individuum und einem anderen vorzunehmen). Zusätzlich weisen die Schablonen 118a, vorzugsweise nur bei niedriger Auflösung, eine oder mehrere Schablonen einer menschlichen Körperform, eines gattungsgemäßen Kopfes oder anderer Musterformen auf, die die Form von menschlichen Objekten von anderen Objekten grafisch unterscheidet.
Gemäß Figur 3 wird der Teil der Eingabe von dem A/D-Wandler 108, welcher der Realzeitausgabe von der Farbfernsehkamera 200a entspricht, und zwar in digitaler Form, zunächst durch den Farbfilterabschnitt des Blockes 300 der Farbe nach gefiltert, um den Luminanz(Y)-Teil von den Chrominanz(I, Q)-Teilen abzutrennen (unter der Annahme, daß der Ausgang der Farbfernsehkamera 200a in der Standard NTSC-Form vorliegt). Falls die getrennten Luminanz- und Chrominanzteile des Ausganges der Fernsehkamera 200a in digitaler Form unmittelbar auf den Block 300 angewendet werden (entweder als getrennte rote, grüne und blaue Signale oder als getrennte L, I, Q Signale), so kann der Farbfilterteil des Blockes 300 fortgelassen werden. Auf jeden Fall werden die einen oder mehreren aufeinanderfolgenden Einzel bilder der Luminanz- und der Chrominanzinformation zeitweise in dem Einzelbildspeicherabschnitt des Blockes 300 gespeichert.
Die Abstandsmeßeinrichtung 200b und die Farbfernsehkamera 200a tasten in vertikaler und horizontaler Richtung dasselbe Gesichtsfeld 102 ab, jedoch nicht notwendigerweise mit derselben Bildfrequenz. Die Abstandsmeßeinrichtung 200b kann so betrieben werden, daß sie das Zeitintervall zwischen dem übergang eines Infrarot-Pulses und dem Empfang eines Echos desselben mißt, wobei der Abstand durch die Länge dieses Intervalls bestimmt wird, wie beim Radar. Der Grund für die Verwendung von Infrarotstrahlung für die Abstandsmeßeinrichtung 200b anstelle von sichtbarer Lichtstrahlung liegt darin zu verhindern, daß die variable Intensität des Umgebungslichtes in dem Raum 201 die Empfindlichkeit der Entfernungsmeßeinrichtung 200b beeinflußt. Auf jeden Fall wird die Ausgangsinformation von der Abstandsmeßeinrichtung 200b in digitaler Form zeitweise in dem Abstandsspeicherabschnitt des Blockes 300 gespeichert.
Alternativ können Skalen und Abstandsinformationen über einen Musteranpaßvorgang erhalten werden, welcher die Skala bzw. den Maßstab einer gespeicherten Schablone oder das aktuelle Bild einstellt, um zwischen diesen die beste Übereinstimmung zu erhalten.
Unter der Annahme, daß die Abtastrate für die Fernsehinformation und für die Abstandsinformation dieselben sind, hat der Abstandsspeicher eine individuelle Abstandsspeicherposition, welche der Speicherposition jedes individuellen Fernsehpixels eines Fernsehbildspeichers entspricht. Daher sind während des synchronisierten Auslesens sowohl eines Fernsehbildspeichers als auch seines entsprechenden Abstandsspeichers die horizontalen (X) und die vertikalen (Y) Pixelkoordinaten aus den Ausleseadressen der Einzelbildspeicher erhältlich bzw. verfügbar, und die Abstands (Z)-Koordinate für jedes ausgelesene Pixel ist aus der in der Abstandsspeicherposition dieses Pixels gespeicherten Information verfügbar. Wie in Figur 3 angezeigt, besteht also eine der Ausgaben aus dem Block 300 aus den X-, Y- und Z-Pixelkoordinaten jedes aufeinanderfolgend ausgelesenen Pixels. Weiterhin führt, unter der Annahme, daß die Chrominanzinformation in dem Block 300 in der Standard I Q-Form gespeichert ist, das Auslesen eines Fernsehbildspeichers aus dem Block 300, was die entsprechenden I Q-Werte jedes aufeinanderfolgenden Auslesepixels bereitstellt.
Die einfache, wohlbekannte Technik für das Separieren sich bewegender Gegenstände von stationären Gegenständen besteht darin, entsprechende Pixel zweier aufeinanderfolgend auftretender Einzelbilder der Fernsehbildinformation voneinander zu substrahieren, wodurch man die Pixel stationärer Objekte im wesentlichen entfernt. Die Pixel des Differenzbildes entsprechen nur den sich bewegenden Gegenständen. Wenn die Pixel dieses Differenzbildes dann von den Pixeln des aktuellen Bildes subtrahiert werden, so enthält das Bild bzw. Einzelbild ausschließlich stationäre Objekte. Während die Einrichtung 304 für sich bewegende Objekte diese wohlbekannte, einfache Form annehmen kann, so wäre es für die Zwecke der vorliegenden Erfindung dennoch nicht die am meisten bevorzugte Realisierung der Einrichtung 304 für sich bewegende Objekte. Für die Zwecke der vorliegenden Erfindung ist es erwünscht, die Tatsache, daß Menschen bewegliche Gegenstände sind, als ein Merkmal für die Unterscheidung zwischen Menschen und Nichtmenschen zu verwenden. Während der hin und herbewegliche Fächer 208 ebenso wie der Tisch 206a am Ende und das Sofa 206b permanente Hintergrundgegenstände in dem Raum 201 sind, ist der hin und her bewegliche Fächer 208 auch ein sich bewegendes Objekt. Unter dem Blickwinkel der vorliegenden Erfindung wäre es wünschenswert, eine Realisierung einer Einrichtung 304 für sich bewegende Objekte bereitzustellen, in welcher sich bewegende Hintergrundobjekte, wie z. B. der hin und her bewegliche Fächer 208, als stationäre Objekte betrachtet werden, trotz der Tatsache, daß sie sich bewegen. Daher sollte eine Einrichtung 304 für sich bewegende Objekte zwischen sich bewegenden Vordergrundobiekten und allen Hintergrundobiekten unterscheiden (die als stationär angesehen werden).
Wie oben diskutiert, werden die Positionen von stationären Gegenständen in dem Abschnitt 118b der gespeicherten Daten 118 gespeichert. Als vorläufige Betriebsweise des Systems können, um die gespeicherten Daten in dem Abschnitt 118b der gespeicherten Daten 118 zu erhalten, die Farbfernseh kamera 200a und die Abstandsmeßeinrichtung 200b betrieben werden, wenn alle drei Individuen John 204a, Bill 204b und Mary 204c in dem Raum 201 nicht anwesend sind, um Bilder abzuleiten, die ausschließlich die permanenten, stationären Hintergrundobjekte enthalten, die alles sind, was während dieser vorläufigen Betätigung bzw. Bearbeitung in dem Raum 201 vorhanden ist. Die durch diese vorläufige Verarbeitung erhaltenen Bilder werden dann für die Speicherung in den gespeicherten Positionen des Abschnitts 118b für stationäre Objekte in den gespeicherten Daten 118 weitergeleitet, wobei für diesen Zweck die Einrichtung 304 für sich bewegende Gegenstände verwendet wird.
Eine noch mehr wünschenswerte bzw. bevorzugte Realisierung der Einrichtung 304 für sich bewegende Objekte geht von der Annahme aus, daß die von der Einrichtung 304 für sich bewegende Objekte übermittelte Information über stationäre Objekte für die Speicherung in dem Abschnitt 118b der gespeicherten Daten 118 auch für die Verwendung durch die Einrichtung 304 für sich bewegende Objekte selbst verfügbar ist. Während das System arbeitet, führt das Beseitigen des Hintergrundes durch Subtrahieren der Pixel desselben von den Pixeln des aktuellen Bildes, um die sich bewegenden (Vordergrund) Objekte zu erhalten, auch zum Subtrahieren des Hintergrundes von dem Vordergrund, wodurch das Vordergrundbild gestört wird. Eine weniger einfache, jedoch bessere Realisierung der Einrichtung 304 für sich bewegende Objekte vermeidet diese Störung bzw. Verzerrung, indem zunächst eine bedingte Subtraktion durchgeführt wird, bei welcher ein Pixel des Hintergrundes von dem entsprechenden Pixel in dem aktuellen Bild nur dann subtrahiert wird, wenn sie einen ausreichend dicht beieinander liegenden Wert haben. Wenn sie keinen dicht beieinander liegenden Wert haben, wird das entsprechende Pixel des aktuellen Bildes selbst verwendet. Wenn sie jedoch einen dicht beieinander liegenden Wert haben, so daß die Subtraktion durchgeführt wird, so wird versuchsweise der Wert Null für dieses Pixel eingesetzt. Wenn der versuchsweise eingesetzte Wert eines Pixels Null ist, so wird eine Abschätzung für den Wert dieses Pixels auf der Basis eines gewichteten Durchschnitts der Pixel berechnet, welche jenes Pixel in einem gegebenen Bereich um das Pixel herum umgeben. Wenn der gewichtete Durchschnitt oberhalb eines gegebenen Grenzwertes liegt, so wird der entsprechende Pixelwert des aktuellen Bildes ersetzt, anderenfalls wird der versuchsweise eingesetzte Wert von Null für dieses Pixel verwendet. Der Vorteil einer solchen verbesserten Einrichtung für sich bewegende Objekte liegt darin, daß sie sowohl die Verzerrung als auch das Rauschen minimal macht, ebenso wie falsche Subtraktionen, welche auftreten, wenn die Pixelwerte der Vordergrundpixel nahe bei denen des Hinterg rundes liegen (was dazu führen würde, daß ein Vordergrund bild voller "Löcher" wäre, und was für die anschließende Verarbeitung nicht geeignet wäre).
Unabhängig von seiner speziellen Realisierung stellt die Einrichtung 304 für sich bewegende Objekte einen Ausgang bzw. eine Ausgabe bereit, die diejenigen Pixels anzeigt, welche die sich bewegenden (Vordergrund) Objekte repräsentieren, und zwar für die Verwendung durch die Objekterkennungseinrichtung 114. Weiterhin kann die Information über sich bewegende Objekte zu dem Block 300 für eine Speicherung zurückgeführt werden oder kann wahlweise weitergegeben werden an den Pyramidenprozessor 112 mit mehrfacher Auflösung, entweder direkt oder, falls gewünscht, nach der weiteren Speicherung innerhalb des Blockes 300.
Die Bildorientierungs- und Transformationseinrichtung 302 verwendet standardmäßige Algorithmen für die Transformation der Orientierung, um Bilddaten um eine oder mehrere Achsen um einen kleinen, vorbestimmten Winkel in jeder Richtung eines einstellbaren Arbeitspunktes bezüglich dieser Achse zu drehen (d.h. das Bild wird in einer Zitterbewegung um den Arbeitspunkt vor und zurück bewegt). Der Block 402 der Objekterkennungseinrichtung 114 führt einen Steuereingangswert zu der Transformationseinrichtung 302 zurück und stellt damit den Wert des Arbeitspunktes für jede Achse dementsprechend ein. Die Bilddaten, wie sie durch den Block 300 von der Fernsehkamera 200a entweder vor oder nach der Speicherung in einem Bildspeicher hierfür empfangen werden, können dem Block 302 für eine Transformation ihrer Orientierung zugeführt werden. Die transformierten Bilddaten werden dann zu dem Block 300 zurückgegeben für die Speicherung in einem Bildspeicher desselben. Weiterhin kann der Block 302 mit einer Transformationseinrichtung 401 der Datenerkennungseinrichtung 114 für die Orientierung der Schablone verbunden sein.
Die in dem Block 300 gespeicherten Bilddaten werden vorzugsweise nach der Modifizierung durch eine Transformationseinrichtung 302 für die Bildorientierung und die Einrichtung 304 für sich bewegende Objekte aus einem Bildspeicher des Blockes 300 ausgelesen und als Eingabe auf den Pyramidenprozessor 112 mit mehrfacher Auflösung gegeben.
Gemäß Figur 4 ist eine beispielhafte Ausführungsform einer Objekterkennungseinrichtung 114 zusammen mit einer beispielhaften Ausführungsform der gespeicherten Daten 118 dargestellt. Wie in Figur 4 gezeigt, wird die Farbinformation (z. B. I und Q) von einem Vorprozessor 110 als eine erste Eingabe auf einen Fleischfarbendetektor 406 gegeben, und die X- und Y-Pixel koordinaten werden von dem Vorprozessor 110 als eine zweite Eingabe auf den Fleischfarbendetektor 406 gegeben. Der Fleischfarbendetektor 406 leitet als einen Ausgangswert die X- und Y-Pixelkoordinaten derjenigen Teile, sofern vorhanden, der Bildchrominanz ab, die einen Fleischfarbton haben. Vorzugsweise ist der Fleischfarbtondetektor 406 eine Einrichtung, welche den Wert von 1 gegenüber dem Wert von Q aufträgt und der nur dann einen Fleischtonausgangswert ableitet, wenn die entsprechenden Werte von I und Q, welche die verwendete Farbe definieren, innerhalb eines Rechteckes liegen, in welchem der Wert von I zwischen einem relativ kleinen, vorbestimmten positiven Wert und einem relativ großen, vorbestimmten positiven Wert liegt, und der Wert von Q gleich einem oder unterhalb eines relativ kleinen vorbestimmten Absolutwertes ist. Der Ausgang aus dem Detektor 406 für die X-Y-Pixelkoordinaten mit dem Fleischton wird sowohl als eine der drei Signaleingaben auf die Wahrscheinlichkeitsbestimmungseinrichtung 404 als auch auf Gatter 408 gegeben.
Information über sich bewegende Objekte, die von dem Vorprozessor 110 zugegeben werden und die X- und Y-Pixelkoordinaten von sich bewegenden Bilddaten definieren, werden direkt sowohl als eine zweite Signaleingabe auf die Wahrscheinlichkeitsbestimmungseinrichtung 404 als auch auf die Gatter 408 geführt.
Die Transformationseinrichtung 401 für die Orientierung einer Schablone, die im wesentlichen der oben beschriebenen Transformationseinrichtung 302 für die Bildorientierung ähnlich ist, ist in der Lage, gleichzeitig irgendeine Kombination von einer oder mehreren von drei Eingaben (als L, C bzw. R bezeichnet) aus dem Abschnitt 118a der gespeicherten Daten 118 zu empfangen. Zusätzlich werden Steuereingaben auf die Transformationseinrichtung 401 aus der Transformation 302 des Vorprozessors 110 und auch aus dem Korrelationswertausgang der Korrelationseinrichtung 402 gegeben. Der Ausgang bzw. Ausgabewert aus der Transformationseinrichtung 401 wird über eine Größeneinstelleinrichtung 400 aus den gespeicherten Daten 118 als eine erste von drei Eingaben in die Korrelationseinrichtung 402 gegeben. Zweite und dritte Eingaben aus den gespeicherten Daten 118 werden direkt aus den Abschnitten 118b und 118c aus den gespeicherten Daten 118 auf die Korrelationseinrichtung 402 gegeben. Weiterhin wird die Z-Pixelkoordinate als eine Steuereingabe auf die Größeneinstelleinrichtung 400 gegeben und die X- und Y-Pixelkoordinaten werden als Eingaben in die Korrelationseinrichtung 402 gegeben. Die Korrelationseinrichtung 402 empfängt eine zusätzliche Eingabe aus dem Ausgang des Pyramidenprozessors 112 mit mehrfacher Auflösung.
Die grundlegende Funktion der Korrelationseinrichtung 402 besteht darin, daß sie Bilddaten aus dem Pyramidenprozessor 11 2 mit mehrfacher Auflösung mit Schablonenbilddaten aus dem Abschnitt 118 der gespeicherten Daten 118 in einer in hohem Maße trennenden Art und Weise korreliert. Die Tatsache, daß die korrelierte Musterform ausgerichtet wird, erhöht die Genauigkeit der Korrelation. Weiterhin macht die Verfügbarkeit der Pixelpositionen von stationären Objekten aus dem Abschnitt 118b der gespeicherten Daten es möglich, daß die Korrelationseinrichtung 402 die Anwesenheit derartiger stationärer Objekte in den aus dem Pyramidenprozessor 112 ihr zugeführten Bilddaten aus der Betrachtung entfernt. Außerdem kann die Korrelationseinrichtung 402 Bildinformationen verwenden, die nicht notwendigerweise in der aktuellen Eingabe an sie aus dem Pyramidenprozessor 11 2 mit mehrfacher Auflösung enthalten sind, sondern aus einer früheren Verarbeitung oder einem früheren Betrieb des Objekterkennungssystems der vorliegenden Erfindung verfügbar sind, die in dem Abschnitt 118c der gespeicherten Daten 118 gespeichert sind. Eine genauere Erläuterung der Arbeitsweise der Korrelationseinrichtung 402 folgt weiter unten. Auf jeden Fall leitet die Korrelationseinrichtung 402 einen ersten Ausgangswert ab, der den aktuellen berechneten Korrelationswert zu diesem Zeitpunkt anzeigt, welcher als Dritte der drei Eingaben an die Wahrscheinlichkeitsbestimmungseinrichtung 404 gegeben wird und der auch zu jeder der Transformationseinrichtungen 302 und 401 zurückgeführt wird, wie oben beschrieben. Zusätzlich führt die Korrelationseinrichtung 402 einen zweiten Ausgangswert als das dritte der drei Signaleingänge den Gattern 408 zu. Dieser zweite Ausgangswert aus der Korrelationseinrichtung 402 besteht aus den X- und Y-Pixelkoordinaten des Bildbereiches, welcher der aktuellen größenangepaßten Schablone entspricht, die dann der Korrelationseinrichtung 402 zugeführt wird und welche als die Bezugsmusterform wirkt, mit welcher die Bilddaten aus dem Pyramidenprozessor 112 mit mehrfacher Auflösung korreliert werden.
Die Wahrscheinlichkeitsbestimmungseinrichtung 404 wird entsprechend den Entscheidungskriterien gesteuert, die ihr aus dem gespeicherten Programm 116 aktuell eingegeben sind. Gemäß diesen Entscheidungskriterien ordnet die Einrichtung 104 dem jeweiligen Korrelationswert, dem Fleischfarbton und den sich bewegenden Eingaben bestimmte Wichtungen zu. Solange die aus den gewichteten Werten der drei Eingaben berechnete Wahrscheinlichkeit unterhalb eines vorbestimmten Grenzwertes bleibt, der durch die aktuellen Entscheidungskriterien aus dem gespeicherten Programm 116 festgelegt wird, wird kein "Freigabe"- Ausgang aus der Wahrscheinlichkeitsbestimmungseinrichtung 404 abgeleitet. Wenn jedoch die berechnete Wahrscheinlichkeit über diesen vorbestimmten Grenzwert ansteigt (jedoch unter einem immer noch höheren Grenzwert liegt, der durch die aktuellen Entscheidungskriterien festgelegt wird), so leitet die Wahrscheinlichkeitsbestimmungseinrichtung 404 einen "Freigabe-1"-Ausgangswert ab. Die Wahrscheinlichkeitsbestimmungseinrichtung 404 leitet einen "Eingabe-2"-Ausgangswert bzw. -Ausgabe unter Ansprechen darauf ab, daß die berechnete Wahrscheinlichkeit über den zuvor erwähnten höheren Grenzwert ansteigt.
Die "Freigabe-1"-Ausgabe wird als eine Steuereingabe auf die Gatter 408 gegeben. In Reaktion darauf übermitteln die Gatter 408 als erste, zweite und dritte Eingaben in den Abschnitt 118c der gespeicherten Daten 118 die aktuellen korrelierten X-, Y-Pixelkoordinaten, die aktuellen Fleischton-X-Y-Pixelkoordinaten und die aktuellen Bewegungspixel X- und Y- Koordinaten, für eine Speicherung darin. Zusätzlich werden die korrelierten X- und Y-Pixelkoordinaten als eine Eingabe an die Fenstersteuereinrichtung 410 gegeben (die vorzugsweise entsprechend der Lehre von Anderson et al. arbeitet), und die Ausgabe aus der Fenstersteuereinrichtung 410 wird als eine Steuereingabe an den Pyramidenprozessor 11 2 zurückgeführt. Weiterhin führt unter Ansprechen darauf, daß die Wahrscheinlichkeitsbestimmungseinrichtung 404 eine Wahrscheinlichkeit in dem Bereich zwischen dem vorbestimmten und dem höheren Grenzwert der entsprechenden Freigabe-1- und der Freigabe-2-Ausgaben hiervon berechnet, die Wahrscheinlichkeitsbestimmungseinrichtung 404 ein Steuersignal an das gespeicherte Programm 116 zurück, um anzuzeigen, daß das gespeicherte Programm 116 einen neuen Arbeitszyklus des Systems auslösen sollte.
Das Auftreten der "Freigabe-2"-Ausgabe ist ein Anzeichen für die Tatsache, daß ein Gegenstand der abgebildeten Szene, wie z.B. John 204a oder Bill 204b als das in einer oder mehreren speziellen Schablonen gezeigte Objekt erkannt wurde, welche in dem Abschnitt 118a der gespeicherten Daten 118 gespeichert wurden. Die "Freigabe-2"-Ausgabe wird als eine Steuereingabe an das Gatter 412 gegeben. Unter Ansprechen darauf übermittelt das Gatter 412 ein Signal aus den gespeicherten Daten 118 an die Ausgabeverwendungseinrichtung 120. Dieses Signal (welches grafische und/oder alphanumerische Daten einschließen kann) identifiziert das erkannte Objekt und seine Position (d.h. die zugehörigen Pixelkoordinaten) in dem Bild. Die Ausgabeverwendungseinrichtung 120 weist Einrichtungen auf, die auf das übermittelte Identifikationssignal ansprechen, um gewisse vorbestimmte Funktionen durchzuführen. Beispielsweise kann die Ausgabeverwendungseinrichtung 120 die darin enthaltene Information aufzeichnen oder an eine zentrale Stelle übermitteln, zusammen mit dem Empfangszeitpunkt, und/oder eine Identifizierungsmarke oder -beschriftung für die Anzeige auf einem Anzeigemonitor 122 an einer Position desselben bereitzustellen, die in der unmittelbaren Nähe des dargestellten Bildes des bestimmten, erkannten Gegenstandes liegt.
Zum Zwecke der Veranschaulichung wird für die Beschreibung der Arbeitweise der vorliegenden Erfindung angenommen, daß die Schablonen in mehrfacher Betrachtung und mehrfacher Auflösung, die in dem Abschnitt 118a der gespeicherten Daten anfänglich gespeichert wurden, welche jeweils Schablonen einschließen, die John 204a, Bill 204b und Mary 204c zeigen, abgeleitet und dann als eine geordnete Daten basis in dem Abschnitt 118a gespeichert werden, und zwar in der oben beschriebenen Weise.
Ein Satz von Bildern für jedes der drei beteiligten Individuen wird in einer Übungsphase benutzt für die Verwendung beim Ableiten der in dem Abschnitt 118a der gespeicherten Daten 118 gespeicherten Schablonen. Jeder Satz schließt jeweils Teilsätze einer geraden bzw. Frontalansicht (d.h. das volle Gesicht), des linken Profils und des rechten Profils ein. Jeder Teilsatz kann eine beträchtliche Vielfalt von typischen (Gesichts-)Ausdrücken der in Rede stehenden Person einschließen. Jedoch bleiben einige variable Parameter während der Übungsphase fest. Diese Einschränkungen schließen eine gleichförmige Beleuchtung, einen festen Abstand von der Kamera und keinerlei Drehung und Verkippung des Kopfes aus der vorher festgelegten Position der Frontalansicht, des linken Profils oder des rechten Profils ein. Jedes der Bilder der Übungsphase wird in eine Laplace'sche Pyramide oder Bandpaßpyramide transformiert. Diese Pyramide kann aus der Ebene 1 aufgebaut sein, welche eine Pixelauflösung von 256 x 256 hat, bis herab zur Ebene 5, die eine Pixelauflösung von nur 16 x 16 hat. Dann wird ein 8 x 8 Abschnitt des 16 x 16 Bildes der Ebene 5, welches eine Skizze des Kopfes und Gesichtes umfaßt, als ein Icon oder Zeichen gespeichert, welches in die anfänglich gespeicherte Datenbasis des Abschnittes 118a der gespeicherten Daten 118 aufgenommen werden soll. Als nächstes können drei 8 x 8 Abschnitte aus dem Pyramidenbild der Ebene 4 mit 32 x 32 genommen werden. Diese können den oberen Teil des Kopfes, den Mittelteil des Gesichtes und den Kinnbereich abdecken. Dann können sie ebenfalls in die anfänglich gespeicherte Datenbasis aufgenommen werden. Schließlich werden fünf 8 x 8 Abschnitte des Pyramidenbildes der Ebene 3 mit 64 x 64 in die anfänglich gespeicherte Datenbasis aufgenommen. Diese zuletzt genannten Pyramidenbilder können Bereiche beider Augen, der Nase und der linken und rechten Seiten des Mundes abdecken. Insgesamt bilden also neun Icons den Übungssatz für jedes der Teilsatzbilder mit ursprünglich 256 x 256 Pixelauflösung für jede der beteiligten Personen (d.h. John, Bill und Mary).
In Zuordnung zu jedem lcon werden in die Datenbasis auch Daten aufgenommen, die seine horizontale und seine vertikale Versetzungsposition in dem speziellen Pyramidenebenenbild definieren, aus welchem es genommen wurde.
Zusätzlich zu den vorstehenden, anfänglich gespeicherten Icon-Schablonen kann der Abschnitt 118a der gespeicherten Daten 118 auch Schablonen aufweisen, die generell die Form von Menschen definieren. Derartige Gattungsschablonen sollten auf der Ebene 5 oder einer noch höheren Ebene des Pyramidenbildes liegen und nur die verallgemeinerte Form eines menschlichen Kopfes auf einem verallgemeinerten menschlichen Körper in einer oder mehreren Positionen (z. B. stehend oder sitzend) zeigen.
Eine zweite vorläufige Betriebsweise des oben beschriebenen Systems (das oben diskutiert wurde) ist die Speicherung in dem Abschnitt 118b der gespeicherten Daten 118, und zwar der Positionen der stationären (Hintergrund) Objekte (z. B. der Tisch 206a am Ende, das Sofa 206b und der sich hin und her bewegende Fächer 208) in dem Raum 201.
Fleischfarbe bzw. Fleischfarbton ist eine bekannte Gattungseigenschaft, welche die abgebildeten Objekte, die aus einer der beteiligten Personen bestehen und andere Typen von abgebildeten Objekten voneinander unterscheidet. Die Erfassung der Fleischfarbigkeit durch den Fleischfarbtondetektor 406, der von dem System verwendet wird, ist ein interessierendes Merkmal, welches sich auf diese Gattungseigenschaft aller beteiligter Individuen bezieht.
Eine andere Gattungseigenschaft von Menschen ist die, daß sie bewegbar sind, auch wenn sie sich nicht zu jedem gegebenen Zeitpunkt bewegen müssen. Weiterhin sind nicht alle Objekte Menschen. Nichtsdestotrotz wird die Ausgabe "sich bewegendes Objekt" aus der Einrichtung 304 für sich bewegende Objekte von dem System als ein weiteres Merkmal von Interesse verwendet, das sich auf eine Gattungseigenschaft der beteiligten Individuen bezieht.
Eine zusätzliche, unterscheidungsfähige Gattungseigenschaft von Menschen ist die Musterform des menschlichen Körpers. Die Gattungsschablonen, die oben beschrieben wurden und die anfänglich in dem Abschnitt 118a der gespeicherten Daten 118 gespeichert wurden, sind Merkmale von Interesse, die sich auf diese Gattungseigenschaft von Menschen beziehen.
Wenn die Einzelbild- und Abstandsspeicher des Blockes 300 entsprechend ihrer Adressierung für jedes aufeinanderfolgende Einzelbild der Kamera 200a und der Abstandsmeßeinrichtung 200b ausgelesen werden, sucht das System gleichzeitig nach dem Vorhandensein von irgendeinem dieser drei interessierenden Merkmale.
Die Bestimmung der X- und Y-Koordinaten jedes ausgelesenen Bildes eines interessierenden Merkmales eines sich bewegenden (Vordergrund) Objektes oder eines interessierenden Fleischfarbtonmerkmales erfolgt unmittelbar. Der Umfang mit den Identifizierungspixeln eines ausgelesenen Bildes als zu der Musterform eines menschlichen Körpers gehörend ist jedoch beträchtlich komplizierter. Zunächst hängt die Form des zweidimensionalen Bildmusters eines Menschen von der Ausrichtung des dreidimensionalen Menschens bezüglich der Kamera 200a ab. Zum zweiten hängt die Größe dieses zweidimensionalen, abgebildeten Musters sowohl vom Abstand des Menschen von der Kamera 200a und der zu diesem Zeitpunkt vorhandenen Größe des Gesichtsfeldes 102 ab (die einstellbar sein kann, wenn die Kamera 200a die Fähigkeit zum Zoomen hat). Im vorliegenden Fall wird angenommen, daß das Gesichtsfeld 102 fest bleibt. Die Größeneinstelleinrichtung 400, die oben beschrieben wurde, gleicht jeden Größenunterschied der Bilddaten entsprechend den darauf angewendeten als Abstand gemessenen Z-Pixelkoordinaten aus. Dies bedeutet, daß die Anzahl der Schablonen, die anfänglich in dem Abschnitt 118a der gespeicherten Daten 118 gespeichert werden müssen, beträchtlich vermindert wird.
Im Falle einer Erkennung eines gattungsgemäßen Objektes wird die Schablonentransformationseinrichtung 401 nicht verwendet. Die beiden Gattungsschablonen (Angehöriger der Gattung Mensch in einer stehenden bzw. einer sitzenden Position) werden jedoch anfänglich nacheinander in aufeinanderfolgenden Einzelbildern verwendet, um festzustellen, ob eine der beiden Schablonen, wenn überhaupt eine, den höheren Korrelationswert in irgendeinem gegebenen Fall liefert, woraufhin nur die Schablone berücksichtigt wird, welche den höheren Korrelationswert zeigt.
Das Bestimmen eines Korrelationswertes kann das Auslesen mehrerer Einzelbilder erfordern. Von Einzelbild zu Einzelbild wird die Transformationseinrichtung 302 für die Bildorientierung um einen anfänglichen Bearbeitungsnullpunkt vor und zurück zitternd bewegt (dithering). Da die Korrelationseinrichtung 402 orientierte Musterformen korreliert, wird der abgeleitete Korrelationswert für eine der beiden Zitterpositionen normalerweise beträchtlich höher sein als für die andere. Unter Ansprechen darauf wird der Arbeitspunkt der Transformationseinrichtung 302 schrittweise von Null in der Richtung versetzt, die durch den höheren Korrelationswert angegeben wird. Dieser Vorgang wird fortgesetzt, bis die durch die Zitterbewegung erzeugten Korrelationswerte eines bestimmten, versetzten Arbeitspunktes einander im wesentlichen gleich sind. Auf diese Weise wird ein Verkippen des Bildmusters der gattungsgemäßen menschlichen Körperform kompensiert.
Alternativ können andere im Stand der Technik wohlbekannte Techniken, einschließlich der einfachen Korrelation, der normalisierten Korrelation, des mittleren quadratischen Fehlers und des absoluten Fehlers verwendet werden, um die Übereinstimmung zwischen einem gegebenen Muster und gespeicherten Mustern zu bestimmen.
Wie oben erläutert, ist die anfängliche Eingabe aus dem Pyramidenprozessor 112 mit mehrfacher Auflösung, die an die Korrelationseinrichtung 402 gegeben wird, für den Fall des Erkennens eines Menschens seiner Gattung nach von kleiner Auflösung (d.h. auf einer hohen Ebene des Pyramidenprozessors). Anfänglich wird die Gesamtfläche eines Einzelbildes betrachtet. Gemäß der Foveationstechnik, die in dem zuvor erwähnten Patent von Anderson et al. gelehrt wird, schaltet die Fenstersteuereinrichtung 410 unter Ansprechen auf den Ausgang der Korrelationseinrichtung 402, die einen gegebenen Korrelationswert erreicht, den Ausgang von dem Pyramidenprozessor 112 zu der nächstniedrigeren Ebene (höhere Auflösung) des Pyramidenprozessors, während der Bereich des Einzelbildes, der aus dem Pyramidenprozessor 112 ausgegeben wird, nur auf einen lokalisierten Fensterbereich in der Nachbarschaft der korrelierten Musterform beschränkt wird, welche den zuvor erhaltenen Korrelationswert geliefert hat.
Die Korrelationseinrichtung 402 kann die jeweiligen Eingaben aus den Abschnitten 118b und 118c der gespeicherten Daten 118 verwenden, um ihre Arbeitsweise zu modifizieren, so daß ein Beitrag von Stellen oder stationären (Hintergrund) Objekten zu der Korrelation der Musterform ignoriert wird und so, daß die Wichtung des Korrelationswertes, die von der Korrelationseinrichtung 402 abgeleitet wird, entsprechend der schon erreichten und gespeicherten, ihr zugeführten Information für die Steigerung bzw. Verbesserung der Erkennung vergrößert wird.
Man nehme an, daß zu Beginn des Betriebs des Systems John und Bill in Figur 2 sich in dem Raum 201 an der dargestellten Position aufhalten, wobei John bewegungslos steht und von der Kamera weg schaut und Bill bewegungslos sitzt und der Kamera zugewandt ist. Weiterhin nehme man an, daß im Falle von John der Unterschied zwischen seinem Bild mit niedriger Auflösung aus dem Pyramidenprozessor 112 mit mehrfacher Auflösung und die gattungsgemäße Menschenschablone in stehender Position ausreichend ist, um eine Ausgabe "Freigabe-1" aus der Wahrscheinlichkeitsbestimmungseinrichtung 404 zu erzeugen (obwohl die Eingaben für Fleischfarbton und sich bewegende Objekte bezüglich John für die Wahrscheinlichkeitsbestimmungseinrichtung 404 vernachlässigbar sind), und daß dieser Korrelationswert ausreichend ist, um zu bewirken, daß die Fenstersteuereinrichtung 410 den Pyramidenprozessor 112 auf die nächsthöhere Pyramidenprozessorebene umschaltet. Im Falle von Bill sei angenommen, daß für die Fleischfarbtoneingabe die durch die Wahrscheinlichkeitsbestimmungseinrichtung 404 bestimmte Wahrscheinlichkeit ausreichend ist, um eine "Freigabe-1"-Ausgabe aus dieser hervorzurufen (obwohl der Korrelationswert und die Eingaben für sich bewegende Objekte in die Wahrscheinlichkeitseinrichtung 404 im Falle von Bill vernachlässigbar sind). Der Grund für den niedrigen Korrelationswert im Falle von Bill liegt darin, daß, da er auf dem Sofa sitzt, eine niedrige Auflösung seines Bildes aus dem Pyramidenprozessor 112 mit mehrfacher Auflösung kombiniert mit derjenigen des Sofas (das sich im wesentlichen im selben Abstand zu der Kamera befindet wie Bill), zu einer kombinierten Musterform führt, die von der Musterform eines gattungsgemäßen Menschen in sitzender Position sehr verschieden ist (und die in dieser niedrigen Auflösung mit der gespeicherten Position von Informationen über stationäre Objekte, die der Korrelationseinrichtung 402 zugeführt sind, nicht wirksam korrigiert werden kann).
Die "Freigabe-1"-Ausgabe aus der Einrichtung 404 öffnet die Gatter 408 und leitet die Pixelkoordinaten der jeweiligen Positionen von John und Bill als speichervergrößerte Erkennungsdaten in den Abschnitt 118c der gespeicherten Daten 118. Daher ist beim nächsten Arbeitszyklus des Systems der Korrelationswert an diesen entsprechenden Positionen stärker gewichtet. Weiterhin ist im Falle von John ein höher aufgelöstes Bild nur innerhalb einer lokalisierten Fensternachbarschaft der Position von John mit einem gattungsgemäßen Muster einer Menschenform in stehender Position korreliert. Dies führt zu einem hohen Korrelationswert bei hoher Auflösung und (einer daher genaueren) Bestimmung der Position von John. Weiterhin kann John zwischen den ersten und zweiten Arbeitszyklen des Systems seine Position geändert haben, so daß: (1) nunmehr eine Information über ein sich bewegendes Objekt als Eingabe für die Wahrscheinlich keitsbestimmungseinrichtung 404 vorhanden ist und (2) ein Fleischfarbton nunmehr abgebildet wird.
Dies erhöht die Wahrscheinlichkeit bis zu einem Punkt, bei welchem das System definitiv annimmt, daß Johns Bild zumindest das eines gattungsgemäßen Menschen ist. Unter Ansprechen darauf liefert die Wahrscheinlichkeitsbestimmungseinrichtung 404 ein Signal an das gespeicherte Programm 116 zurück, welches bewirkt, daß das gespeicherte Programm 116 während künftiger Zyklen die Folge der Arbeitsvorgänge des Systems in einer Art und Weise steuert, die erforderlich ist, um die spezielle beteiligte Person, falls eine solche vorhanden ist, zu bestimmen, welche durch diese gattungsgemäße menschliche Musterform dargestellt wird (die tatsächlich Johns Bild ist).
Im Falle von Bill führt der Arbeitszyklus des Systems zu einem höheren Korrelationswert oder korrelierten X- und Y-Pixeln in der Nähe von Bilis abgebildetem Kopf wegen der Speicherung der X- und Y-Pixelkoordinaten mit Fleischtonfarbe in dem Abschnitt 118c der gespeicherten Daten 118 während des ersten Arbeitszyklus des Systems. Es wird angenommen, daß der während des zweiten Arbeitszyklus des Systems erhaltene Korrelationswert ausreichend hoch ist, um zu bewirken, daß die Fenstersteuereinrichtung 410 den Ausgang des Pyramidenprozessors 112 mit mehrfacher Auflösung auf das nächstniedrigere (höhere Auflösung) Niveau des Pyramidenprozessors (nächsthöhere Ebene) für die Verwendung während des dritten Arbeitszyklus des Systems umschaltet. Weiterhin wird angenommen, daß bei dieser höheren Auflösung der Einfluß des Sofas 206b auf die korrelierte Bildmusterform in zufriedenstellender Weise von der auf die Korrelationseinrichtung 204 aus dem Abschnitt 118b der gespeicherten Daten 118 angewendeten Informationen über die stationären Objekte beseitigt werden kann. Daher liefert der resultierende Korrelationswert, den man aus dem dritten Arbeitszyklus des Systems erhält, zusammen mit der Information über den Fleischfarbton eine Wahrscheinlichkeit, die ausreichend hoch ist, um Bilis Bild als dasjenige eines Angehörigen der Gattung Mensch zu erkennen. Es ist daran zu erinnern, daß während jedes aufeinanderfolgenden Arbeitszyklus des Systems, währenddessen ein "Eingabe-1"-Ausgangswert aus der Einrichtung 404 abgeleitet wird, eine zusätzliche Vergrößerungsinformation für die Speicherung in dem Abschnitt 118c der gespeicherten Daten 118 übermittelt wird für die Verwendung während des nächsten Arbeitszyklus des Systems. Weiterhin liefert die Einrichtung 404, unter Ansprechen darauf, daß die Einrichtung 404 eine Wahrscheinlichkeit während irgendeines Zyklus ermittelt, welche anzeigt, daß ein Mensch sich in einer festgestellten Position auf dem Bild befindet, ein Signal an das gespeicherte Programm 116 zurück, um zu bewirken, daß das System während des nächsten Arbeitszyklus die Bestimmung startet, welches spezielle der beteiligten Individuen durch das so festgestellte menschliche Wesen repräsentiert wird, wenn es irgendeines von diesen ist.
Bei der Bestimmung der Identität irgendeiner der beteiligten Personen werden die oben beschriebenen und anfänglich gespeicherten Schablonen der vorderen Gesichtsansicht (C) des linken Profils (L) und des rechten Profils (R) für die betroffene Person aus dem Abschnitt 118a der gespeicherten Daten 118 als die jeweiligen Eingaben für die Transformationseinrichtung 401 zugeführt. Die Transformationseinrichtung 401 arbeitet in einer Art und Weise, die ähnlich der oben für die Transformationseinrichtung 302 beschriebenen ist, um eine Transformationsmischung der (C)-, (L)- und (R)-Schablonendaten, die seinen drei Eingängen zugeführt wurden, in einer Zitterbewegung bezüglich eines aktuellen Arbeitspunktes nach links und rechts vor und zurück zu bewegen, wobei der Arbeitspunkt immer zwischen aufeinanderfolgenden Einzelbildern in derjenigen Richtung verändert wird, welche den höchsten Korrelationswert der resultierenden Transformationsmischung seiner drei Eingaben liefert, bis ein Arbeitspunkt erreicht ist, für welchen die Zitterbewegung nach links und die Zitterbewegung nach rechts im wesentlichen den gleichen Korrelationswert liefern. Zusätzlich kann ein Signal aus der Transformationseinrichtung 302, welches den Arbeitspunkt der Transformationseinrichtung 302 anzeigt, als eine Eingabe an die Transformationseinrichtung 401 gegeben werden, um eine Feinabstimmung der Transformationsmischung der Transformationseinrichtung 401 entsprechend dem Betrag der Bildverkippung vorzunehmen, die durch die Transformationseinrichtung 302 kompensiert wird. Mit all dieser Information kann die Transformationseinrichtung 401 einen Ausgangswert für eine zusammengesetzte Schablone (z. B. eine Schablone von 3/4 des linken Gesichtes) ableiten, die als Eingabe an die Größeneinstelleinrichtung 400 übermittelt wird, die weitgehend Veränderungen des zweidimensionalen Abbildes des Kopfes einer beteiligten Person aufgrund der aktuellen Veränderungen in der Ausrichtung des Kopfes dieser Person im dreidimensionalen Raum kompensiert.
Nachdem die Position eines abgebildeten Menschens erkannt worden ist, verwendet die Korrelationseinrichtung 402 die anfänglich gespeicherten lcon-Schablonen mit mehreren Ansichten und mehrfacher Auflösung, die oben erläutert wurden und eine Datenbasis bilden, und zwar für den Zweck, um speziell zu erkennen, welche der drei beteiligten Personen (John, Bill oder Mary), wenn es irgendeine von diesen ist, durch diesen speziellen, in der Gattung erkannten Menschen wiedergegeben wird. Zu Beginn dieses speziellen Erkennungsprozesses liefern die Vergrößerungs- bzw. Zusatzdaten, die schon in dem Abschnitt 118c gespeichert sind, ein 16 x 16 Bildpixelfenster, welches die Position des der Gattung nach erkannten Menschens einschließt.
Für den folgenden Vorgang der speziellen Erkennung wird der Erläuterung halber angenommen, daß die Korrelationseinrichtung 402 selbst eine Zwischenspeichereinrichtung (temporäre Speichereinrichtung) aufweist, die verwendet wird, um die der Reihe nach abgeleiteten schrittweisen Steigerungen des Korrelationswertes für die beteiligte Person zu berechnen bzw. aufzusummieren (obwohl es sich versteht, daß der spezielle Erkennungsprozeß auch den Abschnitt 118c der gespeicherten Daten 118 für einen solchen Zweck verwenden könnte). Insbesondere wird das 16 x 16 Bildfenster auf der Ebene 5 von dem Pyramidenprozessor 112 mit dem anfänglich gespeicherten lcon auf der Ebene 5 in der Datenbasis für jede der drei beteiligten Personen verglichen, und der resultierende, normalisierte Korrelationswert (der hinsichtlich seines Wertes zwischen -1,0 und + 1,0 variieren kann) wird getrennt zeitweise für jede der beteiligten Personen gesteigert. Ähnliche Vergleiche werden dann für jede der drei beteiligten Personen auf der Auflösung der Ebene 4 für jedes der drei Icons der Ebene 4 in der Datenbasis vorgenommen und dann wiederum mit der Auflösung auf der Ebene 3 für jedes der fünf Icons in der Datenbasis auf der Ebene 3.
Wie oben erläutert, werden in der Datenbasis in Verbindung mit jedem darin gespeicherten Icon Daten gespeichert, die die horizontale Versetzungsposition und die vertikale Versetzungsposition des betreffenden Icons in dem speziellen Bild des Pyramidenniveaus definieren, aus welchem sie genommen wurden. Daher ist für jede beteiligte Person jedes der drei Icons in der Datenbasis mit der Auflösung auf der Ebene 4 und jedes der fünf Icons in der Datenbasis mit der Auflösung auf der Ebene 3 bekannt, und sie sind Teil der gespeicherten Information in dem Abschnitt 118a. Jeder dieser Vergleiche mit der Auflösung der Ebene 4 und der Ebene 3 und ihre entsprechenden Verschiebungen (Versätze) werden bei der Festlegung der Position eines 15 x 15 Zellbildfensters bei jedem der Vergleiche auf der Auflösung der Ebene 4 und der Ebene 3 für jede der beteiligten Personen berücksichtigt. Dies verbessert die Geschwindigkeit des Systems, indem unnötiges Absuchen in dem Bereich, wo die Icons wahrscheinlich nicht sind, verhindert wird.
Der Grund für die steigende Anzahl von Icons bei höherer Auflösung liegt darin, daß Icons mit höherer Auflösung eine größere Variabilität haben und damit kleinen Veränderungen in dem Ausdruck (Gesichtsausdruck) der abgebildeten Person während der Trainingsphase von Zeit zu Zeit mehr ausgesetzt sind. Wenn man eine größere Anzahl von Icons hat, so vermindert dies die Möglichkeit, daß ein bestimmter Übungssatz bzw. Trainingssatz wegen einer kleinen Veränderung in einem Hochfrequenzmerkmal herabgesetzt wird. Auf jeden Fall wird für dasjenige der drei Icons auf der Ebene 4 für jede der beteiligten Personen, welches den höchsten normalisierten Korrelationswert hat, der normalisierte Korrelationswert zu dem gespeicherten normalisierten Korrelationswert der Ebene 5 hinzuaddiert. In ähnlicher Weise werden die höchsten normalisierten Korrelationswerte der fünf Icons auf der Ebene 3 zu der Summe der normalisierten Korrelationswerte der Ebene 5 und des höchsten Wertes der Ebene 4 hinzuaddiert. Für jede der beteiligten Personen gibt es also eine Gesamtsumme der normalisierten Korrelationswerte, die in ihrem Wert zwischen -3,0 und +3,0 variieren kann. Wie auch immer dieser Wert ist, so wird er der Wahrscheinlichkeitsbestimmungseinrichtung 404 zugeführt, und wenn er zumindest gleich dem zweiten Grenzwert ist, so leitet die Wahrscheinlichkeitsbestimmungseinrichtung 404 eine "Freigabe-2"-Ausgabe ab, welche das Gatter 412 öffnet. Unter Ansprechen darauf leitet das Gatter 412 die Identität und die Pixelposition der speziell erkannten der drei beteiligten Personen (d.h. John, Bill oder Mary) an die Ausgangsverwendungseinrichtung 120. Wenn der höchste Korrelationswert unterhalb des Grenzwertes liegt, so wird angenommen, daß der der Gattung nach erkannte Mensch nicht eine der drei beteiligten Personen ist.
Bei der obigen Diskussion ist angenommen worden, daß keine der drei beteiligten Personen vorher bereits speziell erkannt worden ist. Wenn die dritte der beteiligten Personen speziell erkannt worden ist, arbeitet das System so, daß es kontinuierlich die Position dieses speziell erkannten Individuums verfolgt, wobei der Vorteil der Information über den sich bewegenden Gegenstand (Vordergrund), die der Wahrscheinlichkeitsbestimmungseinrichtung 404 zugeführt wird, und die Position (d.h. die zugeordneten Pixelkoordinaten) dieser speziell erkannten Person, die in dem Abschnitt 118c der gespeicherten Daten 118 gespeichert sind (welche kontinuierlich auf den neuesten Stand gebracht werden) in vollem Umfang ausgenutzt wird. Wenn also angenommen wird, daß Mary zuvor speziell erkannt worden ist, jedoch seitdem den Raum 201 durch den Eingang 203 verlassen hat (wie durch den Pfeil 205 i Figur 2 angezeigt wird), so wird der plötzliche Verlust ihres Bildes in dem Verfolgungsbetriebszustand des Systems erkannt.
Wenn weiterhin eine der beteiligten Personen von dem System schon speziell erkannt worden ist, so würde es für das System keinen Nutzen bringen, die Icons dieser Person in der Datenbasis in dem Versuch zu berücksichtigen, eine andere, der Gattung nach erkannte, abgebildete menschliche Person speziell zu erkennen. Daher kann der oben beschriebene, spezifische Erkennungsvorgang für eine zweite beteiligte Person beschleunigt werden, indem die zuvor gespeicherten Icons aller schon speziell erkannten, beteiligten Personen in dem aktuellen Bild außer Betracht gelassen werden. Einfach gesagt ist die dynamische Bildverarbeitungstechnik für das Erkennen von Objekten gemäß der vorliegenden Erfindung in ihrer Verwendung nicht auf das anschauliche Beispiel beschränkt, welches in allen Einzelheiten oben besprochen wurde (d.h. Erkennen (1) der Anwesenheit eines menschlichen Wesens innerhalb eines Raumes und (2) dann Erkennen, ob der der Gattung nach erkannte Mensch ein bestimmter aus einer Gruppe bekannter, beteiligter Personen ist). Ein weiteres Beispiel, auf welches die vorliegende Erfindung in vorteilhafter Weise angewendet werden könnte, wären komplizierte, automatisch gesteuerte Systeme, wie z.B. Fernsehüberwachungskameras, Robotersysteme und Zielführungssysteme. Ein weiteres Beispiel läge in der Verwendung einer Maschinensicht (bzw. einer sehenden Maschine) bei der Herstellung, wobei die vorliegende Erfindung insbesondere geeignet ist für das spezielle Erkennen jeweils verschiedener, vorbestimmter Komponenten, die automatisch montiert oder sortiert werden sollen.
Gemäß Figur 1 sind zusätzliche Merkmale der vorliegenden Erfindung dargestellt, die zuvor noch nicht diskutiert worden sind und die sowohl bei dem anschaulich dargestellten Beispiel als auch bei anderen Beispielen für den Betrieb bzw. die Benutzung der vorliegenden Erfindung verwendet werden können. Beispielsweise kann die Information, die durch die Gegenstandserkennungseinrichtung 114 abgeleitet wird, für das Steuern der Ausrichtung und/oder das Steuern des Veränderns (Zoomens) des Gesichtsfeldes der Abbildungseinrichtung 100 verwendet werden. In diesem Fall würde die Abbildungseinrichtung 100 Servomformation zurück zu der Gegenstandserkennungseinrichtung 114 liefern. Weiterhin könnte die Ausgabeverwendungseinrichtung 120 eine Aufzeichnungsausrüstung aufweisen, um die Gegenstandserkennungsinformation, die ihr von der Gegenstandserkennungseinrichtung 114 zugeführt wird, für eine spätere Verwendung aufzuzeichnen, oder eine solche Information könnte durch die Ausgabeverwendungseinrichtung 120 an einen Ort fernübertragen werden, der von demjenigen, an welchem die Gegenstandserkennungsinformation gewonnen wurde, entfernt liegt.
Die Ausführungsform der Erfindung, die in breitem Umfang in Figur 1 dargestellt ist, wird als die effizienteste Verwirklichung der vorliegenden Erfindung angesehen. Zunächst wird in der offenbarten Ausführungsform neue Bildinformation kontinuierlich in Realzeit gesammelt, während der Objekterkennungsvorgang stattfindet. Zum zweiten beinhaltet der Pyramidenprozessor mit Mehrfachauflösung ein steuerbar bewegbares Fenster, welches verwendet wird, um in effizienter Weise die Bilddaten, die betrachtet werden müssen, auf ein Minimum zu reduzieren.
Statt mit Bilddaten zu arbeiten, die in Realzeit erhalten werden, ist es auch möglich, alle Bilddaten eines Blockes aufzuzeichnen, die aus einer großen Anzahl von aufeinanderfolgenden Einzelbildern bestehen, bevor die Bilddaten in diesem Block von Bilddaten für Objekterkennungszwecke dynamisch verarbeitet werden. Weiterhin muß die Datenreduzierung nicht durch einen Pyramidenprozessor mit Mehrfachauflösung durchgeführt werden, da auch andere Datenreduktionstechniken im Stand der Technik existieren, die für Objekterkennungszwecke verwendet werden könnten.
In Figur 1 wird die Abbildungseinrichtung, welche reale dreidimensionale Objekte bzw. Gegenstände abbildet, für das Erhalten von Bilddaten verwendet. Es versteht sich jedoch, daß solche Bilddaten auch durch andere Einrichtungen erhalten werden könnten. Beispielsweise könnten die Bilddaten durch einen Computer erzeugt werden oder sie könnten durch belebte Zeichentricktechniken (animated cartoons) erhalten werden.
Das anschauliche Beispiel der Arbeitsweise des Gegenstandserkennungssystems der vorliegenden Erfindung, welches oben im Detail beschrieben worden ist, benutzt als interessierende Merkmale, die von der Wahrscheinlich keitsbestimmungseinrichtung 404 verwendet werden, (1) die Farbe (d.h. Fleischfarbton), (2) eine Musterform (das Muster einer Form bzw. die Form eines Musters) und (3) das sich Bewegen von Vordergrundgegenständen. Es versteht sich, daß andere interessierende Merkmale als Unterscheidungsmerkmale für Gegenstandserkennungszwecke verwendet werden können, und zwar zusätzlich zu oder anstelle der Farbe, der Musterform oder der Information über ein sich bewegendes Objekt.

Claims

1. Dynamisches Bildverarbeitungsverfahren für das Erkennen von Gegenständen (104) einer gegebenen Klasse, die grafisch in einer Zeitfolge von aufeinanderfolgenden Einzelbildern von Bilddaten mit relativ hoher Auflösung wiedergegeben werden, wobei das Verfahren anspricht auf (A) ein gespeichertes Programm (116) für das Steuern der Bildverarbeitung und für das Spezifizieren eines Satzes von Entscheidungskriterien, und (B) gespeicherte Daten (118);

wobei Gegenstände (104) der gegebenen Klasse allesamt eine Gruppe von bekannten, ihnen innewohnenden bzw. Gattungs-Eigenschaften haben, die als Ganzes genommen die Gegenstände der gegebenen Klasse von Gegenständen unterscheidet, die nicht der gegebenen Klasse angehören, und

wobei die gespeicherten Daten (118) anfänglich eine begrenzte Anzahl von getrennten Merkmalen definieren, die mit der Gruppe von Gattungseigenschaften zusammenhängen, wobei jedes der anfänglich gespeicherten Merkmale in einer Folge eines oder mehrere aufeinanderfolgender Einzelbilder von Bilddaten wahrscheinlich vorhanden ist, wenn ein Gegenstand (104) der gegebenen Klasse in dieser Folge grafisch wiedergegeben wird;

wobei das Verfahren die Schritte aufweist:

a) Durchführen einer ersten Bestimmung, und zwar unter der Steuerung des gespeicherten Programms (116) und unter Ansprechen auf zumindest ein erstes der erwähnten getrennten Merkmale, die anfänglich durch die gespeicherten Daten (118) definiert werden, entsprechend den Entscheidungskriterien bezüglich der ersten Wahrscheinlichkeit, daß eines oder mehrere der relativ frühzeitig auftretenden Einzelbilder der zeitlichen Folge als Teil der Bilddaten zumindest ein erstes der getrennten Merkmale der Gegenstände der gegebenen Klasse (104) aufweisen könnte,

b) unter Ansprechen darauf, daß die erste Wahrscheinlichkeit zumindest gleich einem ersten vorbestimmten Grenzwert ist, Hinzufügen von Daten, welche zumindest die relative Position des Teiles innerhalb der relativ früh auftretenden Einzelbilder definieren, zu den gespeicherten Daten und damit Vergrößern der gespeicherten Daten (18), wobei das Verfahren gekennzeichnet ist durch die weiteren Schritte:

c) Durchführen einer zweiten Bestimmung, und zwar unter der Steuerung des gespeicherten Programms (116) und unter Ansprechen auf die vergrößerten gespeicherten Daten, entsprechend den Entscheidungskriterien, bezüglich der zweiten Wahrscheinlichkeit, daß eines oder mehrere der relativ später auftretenden Einzelbilder der Zeitfolge diesen Teil als einen verifiziert, der zumindest ein zweites der getrennten Merkmale zusätzlich zu dem ersten Merkmal aufweist;

d) unter Ansprechen darauf, daß die zweite Wahrscheinlichkeit oberhalb eines zweiten vorbestimmten Grenzwertes liegt, Erkennen des Teiles als eine grafische Wiedergabe eines Objektes der gegebenen Klasse;

e) unter Ansprechen darauf, daß die zweite Wahrscheinlichkeit unterhalb eines dritten vorbestimmten Grenzwertes liegt, welcher beträchtlich unterhalb des zweiten vorbestimmten Grenzwertes liegt, Erkennen des Teiles als eines, welches keine grafische Wiedergabe eines Gegenstandes der gegebenen Klasse ist;

f) unter Ansprechen darauf, daß die zweite Wahrscheinlichkeit in einem Bereich zwischen den zweiten und dritten Grenzwerten liegt, Hinzufügen weiterer Daten, welche durch die Verifizierung des Schrittes c) definiert werden, zu den gespeicherten Daten (118) und damit weiteres Erhöhen bzw. Vergrößern der gespeicherten Daten, und

g) falls die zweite Wahrscheinlichkeit innerhalb dieses Bereiches liegt, rekursives Wiederholen der Schritte c) bis f) für relativ zunehmend später auftretende Folgen von einem oder mehreren Einzelbildern der Zeitfolge, bis die auf diese Weise in dem wiederholten Schritt d) bestimmte Wahrscheinlichkeit entweder oberhalb des zweiten vorbestimmten Grenzwertes oder unterhalb des dritten vorbestimmten Grenzwertes liegt.

2. Verfahren nach Anspruch 1, wobei das Verfahren weiterhin den Schritt aufweist:

Analysieren jedes der aufeinanderfolgenden, relativ hoch aufgelösten Einzelbilder von Bilddaten zu einer mehrfach aufgelösten Pyramide, welche zumindest eine Ebene aufweist, die eine niedrigere Auflösung hat als die hoch aufgelösten Einzelbilder vor dem Schritt (a);

wobei in Schritt (a) die erste Wahrscheinlichkeit die Wahrscheinlichkeit ist, mit welcher irgendeines der niedrigeren Auflösungsniveaus der Pyramide mit mehreren Auflösungen in einer Folge von einem oder mehreren relativ früh auftretenden Einzelbilder der Zeitfolge als Teil der Bilddaten desselben zumindest eines der getrennten Merkmale von Gegenständen der gegebenen Klasse aufweisen kann, und wobei in Schritt (c) die zweite Wahrscheinlichkeit die Wahrscheinlichkeit ist, daß auf irgendeinem der Niveaus der Pyramide mit mehreren Auflösungen in einer Folge von einem oder mehreren relativ spät auftretenden Einzelbildern der Zeitfolge bestätigt wird, daß der Teil zumindest ein zweites der getrennten Merkmale zusätzlich zu dem ersten Merkmal aufweist.

3. Verfahren nach Anspruch 2, wobei

die gegebene Klasse von Gegenständen (104) aus einer Mehrzahl von vorgewählten Teilen besteht, wobei jedes der vorgewählten Teile der gegebenen Klasse individuell dadurch definiert ist, daß es einen eindeutigen Satz bekannter Artenmerkmale zumindest jeweils einer Teilgruppe der bekannten, Gattungseigenschaften aufweist, und

für jedes Artenmerkmal eine der genannten Gattungseigenschaften der Teilgruppe die gespeicherten Daten (118) ein getrenntes Typmerkmal aufweist, das sich auf eine grafische Wiedergabe dieser Art der einen Gattungseigenschaft in einem bestimmten Pyramidenniveau der aufeinanderfolgenden Einzelbilder bezieht,

wobei das Verfahren die weiteren Schritte aufweist:

h) Vergleichen, und zwar unter der Steuerung des gespeicherten Programms (116) und unter Ansprechen darauf, daß der erwähnte Teil als eine grafische Wiedergabe eines Gegenstandes (104) der gegebenen Klasse erkannt worden ist, wiederum jedes gespeicherten Typmerkmals, welches sich auf jede unterschiedliche Art einer der ersten gegebenen, Gattungseigenschaften der Teilgruppe auf einem bestimmten Pyramidenniveau bezieht, mit jenem Teil, um zu bestimmen, welche der verglichenen Arten dem betreffenden Teil mit der höchsten Wahrscheinlichkeit entspricht, welche größer als eine vorbestimmte Grenzwertwahrscheinlichkeit ist, und

i) Wiederholen des Schrittes h) wiederum für jedes gespeicherte Typmerkmal, welches sich auf jede unterschiedliche Art von jeder anderen der gegebenen Gattungseigenschaften der Teilgruppe auf einem bestimmten Pyramidenniveau bezieht, um dadurch den eindeutigen Satz bekannter Artenmerkmale zu bestimmen, die grafisch durch den Teil und das vorgewählte individuelle Teil repräsentiert werden, welches durch den eindeutigen Satz definiert wird, falls irgendein solches vorhanden ist.

4. Verfahren nach Anspruch 1, 2 oder 3, wobei die grafische Wiedergabe von Gegenständen der gegebenen Klasse eine zweidimensionale Wiedergabe eines bewegbaren dreidimensionalen Gegenstandes aufweist, wobei die Position, Größe und/oder Form der zweidimensionalen Wiedergabe in einem Einzelbild des bewegbaren Objektes sich von einem Einzelbild zum anderen unterscheiden kann.

5. Verfahren nach Anspruch 4, wobei die Zeitfolge aufeinanderfolgender Einzelbilder zweidimensionale Wiedergaben von tatsächlich dreidimensionalen Gegenständen aufweist, die von einer Kamera betrachtet werden, wobei tatsächlich einer der betrachteten dreidimensionalen Gegenstände bewegbar ist.

6. Verfahren nach Anspruch 5, wobei die gegebene Klasse von Gegenständen aus Menschen besteht und die Gruppe von bekannten Eigenschaften Eigenschaften des menschlichen Gesichtes einschließt.

7. Verfahren nach Anspruch 1, 5 oder 6, welches den weiteren Schritt aufweist:

h) kontinuierliches Messen des Abstandes zwischen der Kamera, welche den bewegbaren Gegenstand betrachtet, und dem bewegbaren Gegenstand, um laufende Meßdaten dieses Abstandes zu erhalten, und

i) Verwenden der laufenden Meßdaten gemeinsam mit den vergrößerten gespeicherten Daten in der Vollendung des Schrittes c), um die zweite Bestimmung vorzunehmen.

8. Bildverarbeitungssystem für das dynamische Erkennen von Gegenständen (104) einer gegebenen Klasse, die grafisch in einer Zeitfolge aufeinanderfolgender, relativ hoch aufgelöster Einzelbilder von Bilddaten wiedergegeben werden, wobei die Gegenstände (104) der gegebenen Klasse allesamt eine erste Gruppe bekannter, ihnen innewohnender Eigenschaften (Gattungseigenschaften) besitzt, welche als Ganzes genommen die Gegenstände der gegebenen Klasse von Gegenständen (106) unterscheidet, die nicht der gegebenen Klasse angehören, und wobei jedes bekannte Mitglied der gegebenen Klasse eine zweite Gruppe von bekannten, spezifischen Eigenschaften aufweist, die als Ganzes genommen das bekannte Mitglied von anderen Mitgliedern der gegebenen Klasse unterscheidet, wobei das System aufweist:

eine erste Einrichtung (116) für das Speichern eines gespeicherten Programms zum Steuern der Bildverarbeitung und für das Spezifizieren eines Satzes von Entscheidungskriterien,

eine zweite Einrichtung (118) für das Speichern von Daten, welche einen Satz von Anfangsdaten einschließen, wobei die Anfangsdaten eine begrenzte Anzahl von getrennten Merkmalen definieren, die sich auf zumindest die erste Gruppe von Gattungseigenschaften beziehen, wobei jedes der anfänglich gespeicherten Merkmale wahrscheinlich in einer Folge von einem oder mehreren aufeinanderfolgenden Einzelbildern von Bilddaten vorhanden ist, falls ein Gegenstand der gegebenen Klasse grafisch in dieser Folge wiedergegeben wird,

eine dritte Einrichtung (114), die mit der ersten und der zweiten Einrichtung verbunden ist, um eine erste Bestimmung entsprechend den Entscheidungskriterien durchzuführen, und zwar bezüglich einer ersten Wahrscheinlichkeit, daß eines oder mehrere von relativ früh auftretenden Einzelbildern in der Zeitfolge als Teil der Bilddaten desselben zumindest eine erste der getrennten Eigenschaften der Gegenstände (104) der gegebenen Klasse aufweist, wobei unter Ansprechen darauf, daß die erste Wahrscheinlichkeit zumindest gleich einem ersten vorbestimmten Grenzwert ist, zusätzliche Daten in der zweiten Einrichtung (118) gespeichert werden, welche zumindest die relative Position des Teiles innerhalb der relativ früh auftretenden Einzelbilder der Folge definieren, und dadurch die in der zweiten Einrichtung (118) gespeicherten Daten vergrößert werden, und dadurch gekennzeichnet, daß eine zweite Bestimmung entsprechend den Entscheidungskriterien und unter Ansprechen auf die vergrößerten gespeicherten Daten vorgenommen wird, und zwar bezüglich einer zweiten Wahrscheinlichkeit, daß eines oder mehrere der relativ spät auftretenden Einzelbilder der Zeitfolge den betreffenden Teil als einen verifiziert, der zumindest ein zweites der getrennten Merkmale zusätzlich zu dem ersten Merkmal aufweist, wobei unter Ansprechen darauf, daß die zweite Wahrscheinlichkeit oberhalb eines zweiten vorbestimmten Grenzwertes liegt, der betreffende Teil als eine grafische Wiedergabe eines Objektes (104) der gegebenen Klasse erkannt wird, wobei unter Ansprechen darauf, daß die zweite Wahrscheinlichkeit unterhalb eines dritten vorbestimmten Grenzwertes liegt, der beträchtlich unterhalb des zweiten vorbestimmten Grenzwertes liegt, der Teil als einer erkannt wird, der nicht eine grafische Wiedergabe eines Gegenstandes (104) der gegebenen Klasse ist, und wobei unter Ansprechen darauf, daß die zweite Wahrscheinlichkeit in einem Bereich zwischen dem zweiten und dem dritten Grenzwert liegt, weitere zusätzliche Daten in der zweiten Einrichtung (118) gespeichert werden, welche durch die zweite Bestimmung definiert werden, um dadurch die in der zweiten Einrichtung (118) gespeicherten Daten weiter zu vergrößern, und, falls die zweite Wahrscheinlichkeit in dem Bereich liegt, rekursives Durchführen zusätzlicher Bestimmungen für relativ zunehmend später auftretende Folgen von einem oder mehreren Einzelbildern der Zeitfolge, bis durch die abschließende zusätzliche Bestimmung die bestimmte Wahrscheinlichkeit entweder über den zweiten vorbestimmten Grenzwert ansteigt oder unter den dritten vorbestimmten Grenzwert fällt.

9. System nach Anspruch 8, welches weiterhin aufweist:

eine Einrichtung (110, 112) für das Analysieren jedes der aufeinanderfolgenden, relativ hoch aufgelösten Einzelbilder von Bilddaten in eine Pyramide mit mehreren Auflösungen, die zumindest eine Ebene bzw. ein Niveau aufweist, welches eine niedrigere Auflösung als die der hoch aufgelösten Einzelbilder hat, und

wobei dritte Einrichtungen (114) mit der ersten Einrichtung (116), der zweiten Einrichtung (118) und der Analysiereinrichtung (110, 112) verbunden sind, um eine erste Bestimmung entsprechend den Entscheidungskriterien vorzunehmen, und zwar bezüglich einer ersten Wahrscheinlichkeit, mit welcher irgendeine der Ebenen mit niedrigerer Auflösung der Pyramide mit mehreren Auflösungen in einer Folge von einem oder mehreren relativ früh auftretenden Einzelbildern der Zeitfolge als Teil der Bilddaten zumindest ein erstes der getrennten Merkmale der Gegenstände (104) der erwähnten gegebenen Klasse aufweisen kann, wobei unter Ansprechen darauf, daß die erste Wahrscheinlichkeit zumindest gleich einem ersten vorbestimmten Grenzwert ist, zusätzliche Daten in der zweiten Einrichtung (118) gespeichert werden, welche zumindest die relative Position des betreffenden Teiles in den relativ früh auftretenden Einzelbildern der Folge definieren, und damit Erhöhen (des Umfanges) der Daten, die in der zweiten Einrichtung gespeichert werden, Durchführen einer zweiten Bestimmung entsprechend den erwähnten Entscheidungskriterien, und zwar bezüglich einer zweiten Wahrscheinlichkeit, daß in irgendeinem der Niveaus der Pyramide mit mehreren Auflösungen in einer Folge von einem oder mehreren relativ später auftretenden Einzelbildern der Zeitfolge der betreffende Teil als einer verifiziert wird, der zumindest ein zweites der getrennten Merkmale zusätzlich zu dem ersten Merkmal aufweist, wobei unter Ansprechen darauf, daß die zweite Wahrscheinlichkeit oberhalb eines zweiten vorbestimmten Grenzwertes liegt, der betreffende Teil als eine grafische Wiedergabe eines Gegenstandes (104) der gegebenen Klasse erkannt wird, wobei unter Ansprechen darauf, daß die zweite Wahrscheinlichkeit unterhalb eines dritten vorbestimmten Grenzwertes liegt, der beträchtlich unterhalb des zweiten vorbestimmten Grenzwertes liegt, der betreffende Teil als einer erkannt wird, der keine grafische Wiedergabe eines Gegenstandes (104) der gegebenen Klasse ist, wobei unter Ansprechen darauf, daß die zweite Wahrscheinlichkeit in einem Bereich zwischen dem zweiten und dem dritten Grenzwert liegt, in der zweiten Einrichtung (118) weitere zusätzliche Daten gespeichert werden, die durch die zweite Bestimmung definiert werden, um dadurch die (den Umfang der) in der zweiten Einrichtung (118) gespeicherten Daten weiter zu vergrößern, und, falls die zweite Wahrscheinlichkeit in dem Bereich liegt, zusätzliche Bestimmungen wiederholt vorgenommen werden für relativ immer später auftretende Folgen eines oder mehrerer Einzelbilder in der Zeitfolge, bis die durch die abschließende zusätzliche Bestimmung bestimmte Wahrscheinlichkeit entweder über den zweiten vorbestimmten Grenzwert ansteigt oder unter den dritten vorbestimmten Grenzwert fällt.

10. System nach Anspruch 8 oder 9, wobei die grafische Wiedergabe von Gegenständen der gegebenen Klasse zumindest eine zweidimensionale Wiedergabe eines bewegbaren Gegenstandes aufweist, wodurch die Position des bewegbaren Objektes in der zweidimensionalen Wiedergabe eines Einzelbildes von einem Einzelbild zu dem anderen variieren kann, und wobei das System weiterhin aufweist:

sich bewegende Gegenstandseinrichtungen (304), die auf die aufeinander folgenden Einzelbilder der Bilddaten ansprechen, um die jeweiligen Pixelpositionen in einem Einzelbild für diejenigen Pixel abzuleiten, die die grafische Wiedergabe von sich bewegenden Gegenständen zu definieren, und

wobei die dritte Einrichtung (114) mit der Einrichtung (304) für sich bewegende Gegenstände verbunden ist, um die jeweiligen Pixelpositionen der sich bewegenden Gegenstände als ein zusätzliches Merkmal bei der Durchführung der Wahrscheinlichkeitsbestimmungen zu verwenden, und um, unter Ansprechen darauf, daß die Wahrscheinlichkeit als in dem erwähnten Bereich liegend bestimmt wird, Speichern derselben als zusätzliche Daten in der zweiten Einrichtung.

11. System nach Anspruch 8, 9 oder 10, wobei die grafische Wiedergabe von Gegenständen der gegebenen Klasse eine zweidimensionale Wiedergabe eines Gegenstandes aufweist, der vorbestimmte Farbtoneigenschaften hat, und wobei das System aufweist:

eine Farberfassungseinrichtung (406), die auf die aufeinanderfolgenden Einzelbilder der Bilddaten anspricht, um die jeweiligen Pixelpositionen in einem Einzel bild von denjenigen Pixeln abzuleiten, welche die grafische Wiedergabe von Gegenständen definieren, welche die vorbestimmten Farbtoneigenschaften haben, und

wobei die dritte Einrichtung (114) mit der Farberfassungseinrichtung verbunden ist, um die entsprechenden Pixelpositionen der Gegenstände, welche die vorbestimmten Farbtoneigenschaften haben, als ein zusätzliches Merkmal bei der Durchführung der Wahrscheinlichkeitsbestimmungen zu verwenden, und um, unter Ansprechen darauf, daß die Wahrscheinlichkeit als in dem erwähnten Bereich liegend bestimmt wird, sie als zusätzliche Daten in der zweiten Einrichtung zu speichern.

12. System nach Anspruch 8, 9, 10 oder 11, wobei unter den Merkmalen, die durch die anfänglichen, in der zweiten Einrichtung (118) gespeicherten Daten vorbestimmte Musterformen sind, die zu der zweidimensionalen grafischen Wiedergabe der Gegenstände der gegebenen Klasse gehören, und wobei die dritte Einrichtung (114) aufweist:

eine Korrelationseinrichtung (402, 404) für das Korrelieren von Musterformen, die durch die Pixel definiert werden, welche jedes nachfolgende Einzelbild von Bilddaten mit einer bestimmten Auflösung enthalten, mit jedem der vorbestimmten Musterformen, und zum Verwenden der Korrelationswerte, die dadurch abgeleitet wurden, bei der Durchführung der Wahrscheinlichkeitsbestimmungen, und

eine Einrichtung, die darauf anspricht, daß die bestimmte Wahrscheinlichkeit in dem erwähnten Bereich liegt, um die Positionen der korrelierenden Pixel in der zweiten Einrichtung (118) zu speichern.

1 3. System nach Anspruch 12, wobei die Zeitfolge von aufeinanderfolgenden Einzelbildern aus der zweidimensionalen Wiedergabe von tatsächlich dreidimensionalen Gegenständen besteht, die von einer Abbildungseinrichtung betrachtet werden, welche eine Kamera (200a) aufweist, wobei zumindest einer der betrachteten, tatsächlich dreidimensionalen Gegenstände bewegbar ist.

14. System nach Anspruch 13, wobei die Abbildungseinrichtung weiterhin eine Abstandsmeßeinrichtung (200b) aufweist, die Größe der zweidimensionalen Wiedergabe eines tatsächlich dreidimensionalen, bewegbaren Gegenstandes entsprechend dem Abstand des tatsächlich dreidimensionalen, bewegbaren Gegenstandes von der Kamera variiert, und die Bilddaten für jedes Einzelbild Abstandsdaten (2) enthalten, die jeder der zweidimensionalen Pixelpositionen dieses Einzelbildes entsprechen, und wobei die dritte Einrichtung (114) weiterhin aufweist:

eine Größeneinstelleinrichtung (400), die auf die Abstandsdaten anspricht, um die Größe der vorbestimmten Musterformen, die durch die Korrelationseinrichtung (402, 404) entsprechend den Abstandsdaten korreliert sind, zu skalieren bzw. in der Größe anzupassen, wobei die Anzahl der skalierte Maße für jede vorbestimmte Musterform, welche anfänglich gespeichert werden muß, minimal gemacht wird.

15. System nach Anspruch 13 oder 14, wobei die Musterform einer zweidimensionalen Wiedergabe eines tatsächlich dreidimensionalen bewegbaren Gegenstandes entsprechend der Ausrichtung des tatsächlich dreidimensionalen, beweglichen Gegenstandes bezüglich der Kamera variiert, und wobei die dritte Einrichtung (114) weiterhin aufweist:

eine Ausrichtungs-Transformationseinrichtung (401), die auf den von der Anpaßeinrichtung abgeleiteten Korrelationswert anspricht, um kontinuierlich die Orientierung zumindest eines der beiden Musterformen zu variieren, die dann miteinander korreliert werden, bis der Korrelationswert maximal gemacht worden ist.

16. System nach Anspruch 15, wobei die anfänglich gespeicherten Musterformen eine Mehrzahl von gespeicherten Musterformen einschließen, von denen jede einer zweidimensionalen Wiedergabe desselben dreidimensionalen Gegenstandes der gegebenen Klasse in einer anderen, vorbestimmten Ausrichtung entspricht, und wobei die Orientierungs-Transformationseinrichtung aufweist:

eine Einrichtung zum Ableiten einer berechneten Musterform aus der Mehrzahl von gespeicherten Musterformen, welche eine Orientierung hat, die eine variable Mischung der jeweiligen verschiedenen Ausrichtungen der Mehrzahl von gespeicherten Musterformen ist, wobei diese Ableitungseinrichtung auf den Korrelationswert anspricht, der durch Korrelieren der berechneten Musterform mit einer Musterform abgeleitet wird, die aus den Bilddaten für das kontinuierliche Variieren der Mischung aus der Mehrzahl von gespeicherten Musterformen abgeleitet wurde, bis der Korrelationswert der beiden Musterformen, die dann miteinander korreliert werden, maximal gemacht worden ist.

17. System nach Anspruch 13, 14, 15 oder 16, wobei die Zeitfolge von aufeinanderfolgenden Einzelbildern auch zweidimensionale Wiedergaben von tatsächlich dreidimensionalen, stationären Gegenständen (106) aufweist, wobei alle Gegenstände (104) der gegebenen Klasse in der Szene beweg bar sind, wobei die zweite Einrichtung (118) die jeweiligen Pixelpositionen der Musterform der zweidimensionalen Wiedergabe jedes stationären Gegenstandes (106) in der Szene speichert, wie sie von der Kamera (200a) betrachtet wird, und wobei

die Korrelationseinrichtung (402, 404) auf die jeweiligen gespeicherten Pixelpositionen der Musterform der zweidimensionalen Wiedergabe jedes stationären Gegenstandes (106) anspricht, um auszuschließen, daß die in jedem Einzelbild vorhandene Musterform des stationären Objektes mit jeder der vorbestimmten Musterformen korreliert wird.