DE60313941T2

DE60313941T2 - Personendetektion durch Gesichtsdetektion und Bewegungsdetektion

Info

Publication number: DE60313941T2
Application number: DE60313941T
Authority: DE
Inventors: Young-Hoon Sung; Tae-Kyun Kim
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-12-06
Filing date: 2003-12-05
Publication date: 2008-01-17
Anticipated expiration: 2023-12-06
Also published as: US7486826B2; CN1963839A; CN1523533A; JP2004192646A; US20070258646A1; KR100455294B1; EP1426898B1; US7409091B2; JP4275516B2; KR20040049465A; CN100504910C; DE60313941D1; US20050094849A1; EP1426898A3; EP1426898A2

Description

Die vorliegende Erfindung betrifft Bewegungserfassung, und insbesondere ein Verfahren und eine Vorrichtung zur Bewegungserfassung unter Verwendung eines Bildes, das von einer digitalen Videokamera eingegeben ist.
Die koreanischen Patentveröffentlichungen Nr. 2000-50405 und 1997-60927 offenbaren Bewegungserfassungsverfahren. Die koreanische Patentveröffentlichung Nr. 2000-50405 offenbart ein Bewegungserfassungsverfahren unter Verwendung einer Sicherheitskamera ungeachtet der Umgebungshelligkeit. Bei diesem Verfahren wird jeder Bildframe abgetastet, eine Variation zwischen Pixeln in jedem abgetasteten Bildframe wird ermittelt, eine Variation zwischen Pixeln in einem vorhergehenden Bildframe wird mit einer Variation zwischen Pixeln in einem vorliegenden Bildframe verglichen und eine Differenz zwischen den beiden Variationen wird mit einem vorgegebenen Referenzwert verglichen. Die koreanische Patentveröffentlichung Nr. 1997-60927 offenbart ein selektives Verfahren und eine Vorrichtung zur Aufzeichnung, bei dem nur ein Bild von mit einer Kamera aufgenommenen Bildern aufgezeichnet wird, das ein anderes Bildsignal als ein Referenzbild aufweist. Da diese beiden Verfahren jedoch eine Veränderung in einem Pixelwert zwischen zwei aufeinanderfolgenden Bildern nutzen, wird eine Veränderung im Pixelwert auch aufgrund einer Rauschen ähnlichen Veränderung, wie einer Veränderung der Beleuchtung, als eine Bewegung erfasst.
Die koreanischen Patentveröffentlichungen Nr. 1998-82154 und 2000-61100 offenbaren ein Verfahren zur Steuerung des Benutzerzugangs zu einer bestimmten Dienstleistungsmaschine, die mit einem Sicherheitssystem verbunden ist. Die koreanische Patentveröffentlichung Nr. 1998-82154 offenbart ein Benutzeridentifikationssystem und einen Geldautomaten (ATM, Automatic Teller Machine), der dieses einsetzt. Das Be nutzeridentifikationssystem funktioniert in Verbindung mit dem ATM. Das Benutzeridentifikationssystem nimmt eine Gesichtsfigur über eine Überwachungskamera auf, die zum Aufzeichnen eines ATM-Benutzergesichtsbildes verwendet wird, analysiert die Gesichtsfigur, um zu bestimmten, ob ein Merkmal, das später bestätigt werden kann, in der Gesichtsfigur vorhanden ist und ermöglicht, dass ein Benutzerauftrag nur dann bearbeitet wird, wenn bestimmt ist, dass das bestätigbare Merkmal vorhanden ist. Die koreanische Patentveröffentlichung Nr. 2000-61100 offenbart ein Verfahren zum Erkennen eines Benutzergesichts in einem Buchungssystem. Bei diesem Verfahren wird bestimmt, ob die Augen und der Mund in einem Gesichtsbild deutlich erfasst sind, das durch Photographieren eines Benutzers erhalten ist. Wenn die Augen und der Mund nicht deutlich erfasst werden können, wenn zum Beispiel der Benutzer sein/ihr Gesicht mit der Hand verdeckt, einen Hut oder eine Maske trägt, oder kein eindeutiges Aussehen seines/ihres Gesichts zeigt, wird ein Vorgang des Buchungssystems unterbrochen, wodurch Wirtschaftskriminalität verhindert wird. Obwohl diese beiden Verfahren vorgesehen sind, um mögliche Gesetzesbrüche zu verhindern, sind sie jedoch dadurch nachteilig, dass ehrliche Leute, die Sonnenbrillen, Masken oder Hüte tragen, ohne dass sie die Absicht haben ein Gesetz zu brechen, auch abgewiesen werden können. US-Patent Nr. 5,164,992 betrifft ein System zur Identifizierung von Mitgliedern einer Zuschauergruppe.
In einem Aufsatz mit dem Titel "Edge Detection and Thinning in Time-Varying Image Sequences Using Spatio-Temporal Templates" stellt Leonardo C. Topa ein Verfahren zur Bewegungserfassung vor, das auf Extraktion von räumlich-zeitlichen Kanten in einer Bildsequenz beruht: ein dreidimensionaler Gradient der Bildsequenz wird zum Entwickeln eines Satzes von räumlich-zeitlichen Masken verwendet, dann werden diese Masken mit der Bildsequenz korreliert und auf diese Weise Bewegungsinformationen extrahiert.
Sung Uk Lee et al. stellen einen Ansatz zur Gesichtsmerkmalserfassung in Echtzeit in einer Druckschrift mit dem Titel "Real-Time Facial Feature Detection for Person Identification System" (IAPR Workshop an Machine Vision-Application, Tokyo, 11/2000) vor.
In einem Aufsatz mit dem Titel "Feature Reduction and Hierarchy of Classifiers for Fast Object Detection in Video Images" stellen Heisele B. et al. ein zweistufiges Verfahren zur Beschleunigung von Objekterfassungssystemen in Computervision vor, die eine Support-Vektor-Maschine (SCM) zur Klassifizierung verwenden.
Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren nach Anspruch 1 zur Verfügung gestellt.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird ein Verfahren zum Erfassen einer Person aus einem Bild, das durch eine Digitalkamera bereitgestellt wird, wie im Verfahren nach Anspruch 5 zur Verfügung gestellt.
Gemäß noch einem anderen Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Erfassen einer Bewegung aus einem Bild, das durch eine Digitalkamera bereitgestellt wird, wie in der Vorrichtung nach Anspruch 14 zur Verfügung gestellt.
Gemäß noch einem anderen Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Erfassen einer Person aus einem Bild, das durch eine Digitalkamera bereitgestellt wird, wie in der Vorrichtung nach Anspruch 18 zur Verfügung gestellt.
Die obigen und weitere Merkmale und Vorteile der vorliegenden Erfindung werden besser ersichtlich aus einer ausführlichen Beschreibung bevorzugter Ausführungsformen mit Bezug zu den begleitenden Zeich nungen, in denen:
1 ein Flussdiagramm eines Verfahrens zur Personendetektion (Personenerfassung) gemäß einer Ausführungsform der vorliegenden Erfindung ist;
2 ein Flussdiagramm einer Ausführungsform vom in 1 gezeigten Schritt S30 ist;
3 ein M-Gitter zeigt;
4 Gitter-Intervalle in horizontaler und vertikaler Richtung zeigt:
5A und 5B eine Vorgehensweise zur Veränderung eines Suchfensters darstellt, das einen Gesichtserfassungsbereich definiert, in dem eine Gesichtserfassung in einem Bild mit einem potentiellen Gesichtsbereich, der unter Verwendung einer Gabor-Wavelet-Transformation erfasst ist, und einem Umgebungsbereich durchgeführt wird;
6 ein Flussdiagramm einer Ausführungsform vom in 1 gezeigten Schritt S40 ist;
7 ein Flussdiagramm einer Ausführungsform vom in 6 gezeigten Schritt S404 ist;
8 ein Flussdiagramm einer Ausführungsform vom in 7 gezeigten Schritt S4040 ist;
9 ein Flussdiagramm eines Verfahrens zur Erfassung einer Bewegung in einem Sicherheitssystem gemäß einer Ausführungsform der vorliegenden Erfindung ist; und
10 ein Blockdiagramm einer Vorrichtung zur Personendetektion gemäß einer Ausführungsform der vorliegenden Erfindung ist.
Nachfolgend werden bevorzugte Ausführungsformen der vorliegenden Erfindung ausführlich mit Bezug zu den beigefügten Zeichnungen beschrieben.
Die vorliegende Erfindung ist auf ein Verfahren zur Bewegungserfassung unter Verwendung eines von einer digitalen Videokamera einge gebenen Bildes gerichtet. Es ist besonders bevorzugt, das Gesicht einer Person in dem Bild zu erfassen. Es ist ein Ziel der vorliegenden Erfindung, die Bewegung und die Figur der Person in dem Bild zu erfassen, selbst wenn das Gesicht nicht akkurat erfasst werden kann. Um diese Ziele zu erreichen, beinhaltet die vorliegende Erfindung Gesichtserfassung und Bewegungserfassung, die komplementär durchgeführt werden, wodurch ein Verfahren zur akkurateren und effizienteren Erfassung einer Person auf einem eingegebenen Bild zur Verfügung gestellt wird. Außerdem wird nur ein Bild gespeichert, aus dem ein Gesicht oder eine Bewegung erfasst wird, wodurch die Speichernutzungseffizienz merklich erhöht wird.
1 ist ein Flussdiagramm eines Verfahrens zur Personenerfassung unter Verwendung einer digitalen Videokamera gemäß einer Ausführungsform der vorliegenden Erfindung. Das Verfahren beinhaltet Initialisieren von Parametern (S10), Bestimmen eines Erfassungsmodus (S20), Erfassen eines Gesichts (S30) und Erfassen einer Bewegung (S40).
Insbesondere werden Parameter initialisiert, die zum Erfassen einer Person verwendet werden (S10). Die Parameter beinhalten einen Erfassungsmodus DETECT_MODE, die Anzahl an Gesichtserfassungsversuchen COUNT_FD, die Anzahl an Bewegungserfassungsversuchen COUNT_MD und die Anzahl an Bewegungserfassungserfolgen SUCCESS_MD. Hier gibt "FD" eine Gesichtserfassung an und "MD" gibt eine Bewegungserfassung an. In Schritt S10 werden alle Parameter zum Beispiel auf "0" initialisiert. Wenn der Erfassungsmodus DETECT_MODE "0" ist, arbeitet ein System, das das Verfahren anwendet, in einem Gesichtserfassungsmodus. Wenn der Erfassungsmodus DETECT_MODE "1" ist, arbeitet das Sicherheitssystem in einem Bewegungserfassungsmodus. Die Reihenfolge der Durchführung von Gesichtserfassung und Bewegungserfassung ist bei dem Verfahren nicht wesentlich. Zur Deutlichkeit der Beschreibung wird jedoch ein erster Erfassungsmodus DETECT_MODE auf "0" gesetzt, so dass die Gesichtserfassung als Erstes durchgeführt wird, wenn das System angeschaltet wird.
Nach Schritt S10 wird bestimmt, ob der Erfassungsmodus DETECT_MODE der Gesichtserfassungsmodus ist (S20). Wenn bestimmt ist, dass der Erfassungsmodus DETECT_MODE der Gesichtserfassungsmodus ist, wird die Gesichtserfassung durchgeführt (S30). Wenn bestimmt ist, dass der Erfassungsmodus DETECT_MODE nicht der Gesichtserfassungsmodus ist, wird die Bewegungserfassung durchgeführt (S40).
Wenn in Schritt 30 nach einer bestimmten Anzahl von Gesichtserfassungsversuchen kein Gesicht erfasst ist, wird der Bewegungserfassungsmodus gewählt und der Vorgang kehrt zurück zu Schritt S20. Außerdem beinhaltet Schritt 30 Erfassen eines potentiellen Gesichtsbereichs unter Verwendung einer Gabor-Wavelet-Transformation und Erfassen eines Gesichts unter Verwendung einer Supportvektor-Maschine (SVM) mit niedriger Auflösung und einer SVM mit hoher Auflösung. In Schritt S40 wird die Bewegungserfassung gleichzeitig bei einer vorgegebenen Anzahl an Bildframes durchgeführt und der Vorgang kehrt zurück zu Schritt S10, wenn mindestens eine vorgegebene Anzahl an Bewegungserfassungen in einem vorgegebenen Zeitraum erfolgreich war. 2 ist ein Flussdiagramm einer Ausführungsform von Schritt S30, wie er in 1 gezeigt ist. Die Ausführungsform von Schritt S30 beinhaltet Empfangen eines einzelnen Bildframes, Erfassen eines Gesichts aus dem Bildframe, Speichern des Bildframes, wenn das Gesicht erfasst ist, Wiederholen der Gesichtserfassung und Auswählen des Bewegungserfassungsmodus, wenn aus einer vorgegebenen Anzahl an Bildframes kein Gesicht erfasst ist (S300 bis S320).
In Schritt S30 wird eine Einzelgesichtserfassung an einem einzelnen Bildframe durchgeführt und die Anzahl an aufeinander folgenden Gesichtserfassungen ist auf einen vorgegebenen Schwellenwert TH1 beschränkt. Die Gesichtserfassung wird in Schritt 30 in drei Schritten durchgeführt: eine grobe Erfassung (S304), eine genauere Erfassung (S308) und eine detaillierte Erfassung (S312). Dementsprechend kann die benötigte Zeit für die Gesichtserfassung reduziert werden und gleichzeitig kann eine zufriedenstellende Gesichtserfassungsrate erhalten werden. Die Vorgehensweise der Gesichtserfassung (S30) wird ausführlich mit Bezug zu 2 beschrieben.
Es wird ein für die Gesichtserfassung photographierter einzelner Bildframe empfangen (S300). Es wird eine Einzelgesichtserfassung an einem einzelnen Bildframe durchgeführt.
Nach Schritt S300 wird die Anzahl an Gesichtserfassungsversuchen COUNT_FD um eins erhöht (S302). Der Schritt S302 ist vorgesehen, um die Anzahl an aufeinander folgenden Gesichtserfassungen auf den vorgegebenen Schwellenwert TH1 zu beschränken. Wenn eine Gesichtserfassung unter Verwendung eines neuen Bildframes versucht wird, nachdem ein Gesichtserfassungsversuch fehlgeschlagen ist, wird die Anzahl an Gesichtserfassungsversuchen COUNT_FD um 1 erhöht.
Nach Schritt S302 wird ein potentieller Gesichtsbereich erfasst (S304). Um einen potentiellen Gesichtsbereich zu erfassen, wird eine Modellgesichtsdatenbank durch Lernen einer Mehrzahl von Modellgesichtsfiguren erstellt. In Schritt S304 wird der Bildframe mit der Modellgesichtsdatenbank verglichen, um einen potentiellen Gesichtsbereich unter Verwendung einer Gabor-Wavelet-Transformation und insbesondere unter Verwendung einer Gabor-Wavelet-Transformation mit M-Gitter durchgeführt. Bei der Gabor-Wavelet-Transformation mit M-Gitter können Gitterintervalle zum Lernen der Modellgesichtsfiguren ausgehend von ei nem Zwischenaugenabstand und einem Abstand zwischen den Augen und dem Mund bestimmt werden. Schritt S304 unter Verwendung der Gabor-Wavelet-Transformation mit M-Gitter wird mit Bezug zu den 3 und 4 ausführlich beschrieben.
Zum Erfassen eines potentiellen Gesichtsbereichs aus einem kontinuierlichen Bildsignal, wurde viel Forschung und Entwicklung zur Farbe oder Form eines Gesichts in einem Bild unternommen. Obwohl eine Hautfarbe auf Pixelniveau einen Erfassungsraum merklich reduzieren kann, verändert sich eine menschliche Hautfarbe entsprechend einer Aufnahmeumgebung und der Richtung und Intensität einer Lichtquelle. Bei der vorliegenden Erfindung wird ein potentieller Gesichtsbereich unter Verwendung von Figurinformation erfasst, die durch Ähnlichkeitsübereinstimmung von Gabor-Filterergebnissen in einem M-Gitter ermittelt ist.
Wie in 3 gezeigt, ist ein M-Gitter aus einer bestimmten Anzahl an Gitterpunkten zusammengesetzt, zum Beispiel 20 Gitterpunkten, die die Form des Buchstabens "M" bilden. Die Gitterpunkte sind in vorgegebenen Intervallen in horizontaler und vertikaler Richtung angeordnet. Zum Beispiel können, wie in 4 gezeigt, horizontale Intervalle der Gitterpunkte auf 1/4 eines Zwischenaugenabstands gesetzt sein und vertikale Intervalle können auf 1/3 eines Abstands zwischen dem Mund und einer Linie, die die beiden Augen verbindet, gesetzt sein.
Die Erfassung eines potentiellen Gesichtsbereichs unter Verwendung einer Gabor-Wavelet-Transformation beinhaltet zwei Schritte. In einem Schritt werden Modellgesichtsbilder mit verschiedenen Veränderungen gelernt. Hier wird eine Modellgesichtsdatenbank durch Lernen unter Anwendung einer M-Gitterstruktur auf viele Bilder konstruiert. Im anderen Schritt werden Modellgesichter in der Modellgesichtsdatenbank mit dem empfangenen Bildframe unter Verwendung einer Ähnlichkeitsübereinstimmung mit einem M-Gitter verglichen. Hier wird selbst ein Bildbe reich ohne Gesicht als potentieller Gesichtsbereich erfasst, wenn bestimmt ist, dass es als Ergebnis der Durchführung einer M-Gitterübereinstimmung eine hohe Ähnlichkeit zu den Modellgesichtern aufweist.
Nach Schritt S304 wird bestimmt, ob der potentielle Gesichtsbereich unter Verwendung der Gabor-Wavelet-Transformation mit M-Gitter erfasst wurde (S306). Gemäß der Gabor-Wavelet-Transformation mit M-Gitter wird ein Teil, der als Gesicht in einem Bild angenommen werden kann, als potentieller Gesichtsbereich erfasst, ungeachtet dessen, ob der Teil tatsächlich ein Gesicht ist. Mit anderen Worten, ein bestimmter Teil, von dem bestimmt ist, dass er eine höchste Wahrscheinlichkeit aufweist, dass es in einem ganzen Bild ein Gesicht ist, wird als potentieller Gesichtsbereich erfasst. Daher kann, selbst wenn der potentielle Gesichtsbereich aus dem Bild erfasst ist, nicht davon ausgegangen werden, dass das Bild tatsächlich ein Gesicht enthält. Dementsprechend werden eine Gesichtserfassung mit niedriger Auflösung (S308) und eine Gesichtserfassung mit hoher Auflösung (S312) am erfassten potentiellen Gesichtsbereich vorgenommen, um ein Gesicht genauer zu erfassen. Wenn jedoch bestimmt ist, dass kein potentieller Gesichtsbereich erfasst ist, geht der Vorgang zu Schritt S318, in dem die Anzahl an Gesichtserfassungsversuchen COUNT_FD gleich oder größer als der vorgegebene Schwellenwert TH1 ist. Der Schritt S318 wird später ausführlich beschrieben.
In einer hierarchischen Struktur der groben, genaueren und detaillierten Erfassung, ist die oben beschriebene Gesichtserfassung mit der Gabor-Wavelet-Transformation die grobe Erfassung auf dem untersten Niveau. Diese grobe Erfassung ergibt keine akkurate Erfassung, sondern ist bei einer Veränderung in der Beleuchtung und anderem Rauschen robust und kann in einer kurzen Zeit ausgeführt werden. Wenn zum Beispiel das empfangene Bild eine Größe von 320 × 240 aufweist und ein Zielge sicht 40 bis 80 Pixel zwischen den beiden Augen aufweist, benötigt die grobe Erfassung ungefähr 170 ms in einem Pentium 4 Computer von 1,4 GHz.
Zur genaueren Erfassung eines Gesichts aus einem potentiellen Gesichtsbereich, das unter Verwendung der Gabor-Übereinstimmung mit M-Gitter erfasst ist, verwendet die vorliegende Erfindung eine Klassifizierung, die auf einer in PCA-Unterräumen trainierten SVM basiert. PCA ist eine Abkürzung für Hauptkomponentenanalyse (Principal Component Analysis), die später beschrieben wird. Die folgende Beschreibung betrifft ein SVM-basiertes Gesichtserfassungsverfahren, das in den Schritten S308 und S312 angewendet wird.
Gesichtsbilder sind in einem höher-dimensionalen Bildraum nicht statistisch verteilt und daher können sie in einem nieder-dimensionalen Unterraum dargestellt werden. In einer SVM-basierten Klassifikation verändert sich die Geschwindigkeit einer Gesichtserfassung in Abhängigkeit von der Anzahl an Supportvektoren (SVs). Es ist ein Ziel der vorliegenden Erfindung, die Klassifizierungsgeschwindigkeit zu erhöhen. Die Klassifizierungsgeschwindigkeit kann erhöht werden und die Klassifizierungsleistung kann zufriedenstellend bleiben, indem eine geeignete Anzahl an SVs ausgewählt wird. Die vorliegende Erfindung setzt PCA als geeignetes Verfahren zum Vermindern der Dimension eines Gesichtsraums ein. Eine weit verbreitete Gesichtserfassungstechnik ist ein Prozess, der PCA bei einem Gesichtsbild anwendet. PCA ist eine Technik zum Projizieren von Bilddaten auf einen nieder-dimensionalen Eigenvektorraum mit einem minimalen Verlust an Bildinformation, um die Information zu reduzieren. Wenn PCA zum Erkennen eines Gesichts verwendet wird, wird ein Hauptkomponentenvektor eines Gesichts aus einem eingegebenen Bild extrahiert und mit einem Hauptkomponentenvektor eines zuvor gelernten und in einer Datenbank gespeicherten Bildes verglichen.
Eine auf SVM mit niedriger Auflösung basierte Klassifikation erhöht die Klassifizierungsgeschwindigkeit. Ein Bild, das bei einer auf SVM mit niedriger Auflösung basierten Klassifikation als kein Gesicht bestimmt ist, ist eventuell kein Gesicht. Jedoch selbst wenn ein Bild in der auf SVM mit niedriger Auflösung basierten Klassifikation als ein Bild bestimmt ist, kann das Bild kein Gesicht sein. Unter diesem Hintergrund werden Bilder bei einer hohen Geschwindigkeit aus Bildern ohne Gesicht herausgefiltert, wobei eine auf SVM mit niedriger Auflösung basierte Klassifikation in Schritt S308 verwendet wird. Die gefilterten Bilder können Bilder ohne Gesicht beinhalten. Danach werden die gefilterten Bilder präziser aus Bildern ohne Gesicht herausgefiltert, wobei eine auf SVM mit hoher Auflösung basierte Klassifikation in Schritt S312 verwendet wird. Mit anderen Worten, nur Muster, die als Ergebnis einer ersten Klassifikation bei niedriger Auslösung als Gesicht klassifiziert sind, werden einer zweiten Klassifikation bei einer hohen Auflösung unterzogen. Dementsprechend kann die Menge an Bilddaten, die bei der Klassifikation in der zweiten Stufe zu verarbeiten ist, signifikant verringert werden.
Zum Beispiel wird eine SVM mit niedriger Auflösung, die mit 20 PCA-Merkmalen in 20 × 20-Gesichtsbildern gelernt hat, bei einem potentiellen Gesichtsbereich angewendet, der unter Verwendung einer Gabor-Wavelet-Transformation in Schritt 308 extrahiert ist. Danach wird in Schritt 312 eine SVM mit hoher Auflösung unter Verwendung eines Polynomkernels zweiter Ordnung verwendet, die unter Verwendung von 50 PCA-Merkmalen in 40 × 40-Gesichtsbildern gelernt hat.
Zur Durchführung einer SVM-basierten Gesichtserfassung ist es notwendig, eine Gesichtsdatenbank vorzusehen, die durch Lernen für ein System konstruiert ist. Die Gesichtsdatenbank wird durch Lernen unter Verwendung von Gesichtsbildern und Bildern ohne Gesicht konstruiert. Beim Lernen für eine SVM mit niedriger Auflösung werden die Bilder mit und ohne Gesicht auf eine bestimmte Größe umgewandelt, zum Beispiel 20 × 20. Hier beträgt die Anzahl an Vektoren 400. Nur eine vorgegebene Anzahl an Vektoren, zum Beispiel 20 Vektoren von den 400 Vektoren, werden als Merkmalsvektoren ausgewählt und es werden Eigenvektoren gebildet.
Danach werden eine Position und eine Skala eingestellt, um einen Bereich auszuwählen, aus dem ein Gesicht in einem Bild erfasst ist, und ein Gesicht wird unter Verwendung einer SVM mit niedriger Auflösung erfasst.
Die 5A und 5B stellen eine Vorgehensweise zum Verändern eines Suchfensters für eine Gesichtserfassung in einem Bild mit einem potentiellen Gesichtsbereich, der unter Verwendung einer Gabor-Wavelet-Transformation erfasst ist, und einem Umgebungsbereich dar. Bei einer Gesichtserfassung unter Verwendung der SVM mit niedriger Auflösung, werden ein Suchfensterreferenzpunkt und ein Bewegungsbereich des Suchfensterreferenzpunkts entsprechend der Position und Größe des potentiellen Gesichtsbereichs bestimmt. Mit Bezug zu 5A bezeichnet ein kleines schraffiertes Rechteck den potentiellen Gesichtsbereich und ein äußeres größeres Rechteck bezeichnet die Gesichtserfassungsfläche, in der eine Gesichtserfassung unter Verwendung einer SVM mit niedriger Auflösung durchzuführen ist. Zum Beispiel wird in 5A eine obere linke Ecke als erster Suchfensterreferenzpunkt gesetzt und das Suchfenster kann auf 80 × 80 gesetzt werden, wie es in 5B gezeigt ist. Danach werden Bilddaten im Suchfenster auf 20 × 20 umgewandelt. Die umgewandelten Bilddaten werden mit SV-Daten verglichen, die aus dem Lernen erhalten sind, um ein Gesicht zu erfassen. Anschließend wird das Suchfenster graduell erweitert und das Umwandeln und Vergleichen werden wiederholt. Wenn eine maximale Grenze des Suchfensters auf 160 × 160 gesetzt ist und das Suchfenster jedes Mal um 20 Pixel in Länge und Breite erweitert wird, wird das Suchfenster schrittweise von 80 × 80 auf 160 × 160 erweitert und Lernen und Vergleich werden fünf Mal wiederholt. Da eine Gesichtserfassung in einer Fläche durchgeführt werden muss, die durch das äußere größere Rechteck von 5A definiert ist, wird der Suchfensterreferenzpunkt nach rechts und nach unten verschoben, um das Suchfenster zu erweitern, wie es in 5B gezeigt ist. Eine Gesichtserfassung wird wiederholt, wenn das Suchfenster erweitert ist.
Eine Gesichtserfassung unter Verwendung einer SVM mit hoher Auflösung wird in Schritt S312 auf die selbe Weise durchgeführt wie die unter Verwendung einer SVM mit niedriger Auflösung in Schritt S308, mit der Ausnahme, dass die Anzahl an Umwandlungsvektoren und die Anzahl an Eigenvektoren zunimmt, so dass ein Gesicht präziser erfasst wird. Insbesondere ist es notwendig, eines durch Lernen für ein System konstruierte Gesichtsdatenbank bereitzustellen. Die Gesichtsdatenbank wird durch Lernen unter Verwendung von Gesichtsbildern und Bildern ohne Gesicht konstruiert. Beim Lernen für die SVM mit hoher Auflösung werden die Bilder mit und ohne Gesicht auf eine vorgegebene Größe umgewandelt, zum Beispiel 40 × 40. Hier beträgt die Anzahl an Vektoren 1600. Nur eine vorgegebene Anzahl von Vektoren, zum Beispiel 50 Vektoren von den 1600 Vektoren, werden als Merkmalsvektoren ausgewählt und Eigenvektoren gebildet.
Danach werden eine Position und eine Skala eingestellt, um einen Bereich auszuwählen, aus dem ein Gesicht in einem Bild erfasst ist, und ein Gesicht wird unter Verwendung einer SVM mit hoher Auflösung erfasst. Es werden ein Suchfensterreferenzpunkt und sein Bewegungsbereich auf die selbe Weise wie bei der Gesichtserfassung unter Verwendung der SVM mit niedriger Auflösung ausgewählt, wie es in den 5A und 5B gezeigt ist, mit der Ausnahme, dass sie in einer peripheren Zone eines Gesichtsbereichs ausgewählt werden, der unter Verwendung der SVM mit niedriger Auflösung erfasst ist.
Wie oben beschrieben beinhaltet ein Verfahren zum Erfassen eines Gesichts gemäß der vorliegenden Erfindung drei Schritte: Erfassen eines potentiellen Gesichtsbereichs (S304), Erfassen eines Gesichts unter Verwendung einer SVM mit niedriger Auflösung (S308) und Erfassen eines Gesichts unter Verwendung einer SVM mit hoher Auflösung (S312), wodurch die Zuverlässigkeit, Genauigkeit und Geschwindigkeit einer Gesichtserfassung erhöht werden.
Folglich wird schließlich nur bestimmt, dass ein Gesicht erfasst ist, wenn bestimmt ist, dass ein Gesicht als Ergebnis der Erfassung unter Verwendung der SVM mit hoher Auflösung (S314) erfasst ist. Wenn bestimmt wird, dass ein Gesicht in Schritt S314 bestimmt ist, obwohl der momentane Bildframe tatsächlich kein Gesicht enthält, nimmt die Fehlalarmrate (FAR) zu. Wenn bestimmt wird, dass ein Gesicht in Schritt S314 in Bezug auf den momentanen Bildframe erfasst ist, der tatsächlich ein Gesicht enthält, nimmt die Gesichtserfassungsrate (FDR) zu.
Wenn bestimmt wird, dass in Schritt S310 oder S314 kein Gesicht erfasst ist, wird in Schritt 318 bestimmt, ob die Anzahl an Gesichtserfassungsversuchen COUNT_FD gleich oder größer als ein vorgegebener Schwellenwert TH1 ist (der als erster Schwellenwert bezeichnet wird). Der erste Schwellenwert TH1 kann zum Beispiel auf 10 gesetzt werden.
In Schritt 318 wird basierend auf einer vorgegebenen Anzahl an Gesichtserfassungsversuchen und einer vorgegebenen Zeitspanne bestimmt, ob der Vorgang zu einer Bewegungserfassung geht. Ob ein sich einem Terminal näherndes Objekt eine Person ist, kann durch eine Gesichtserfassung nicht 100%ig bestimmt werden. Es ist schwierig ein Gesicht zu erkennen, wenn ein Benutzer eine Maske oder eine Sonnenbrille trägt oder mit dem Rücken zur Kamera gewandt steht, obwohl der Benutzer eine Bewegung vollführt. In dieser Situation wird kein Gesicht erfasst, aber es ist notwendig, das Bild mit einer Bewegung zu spei chern. Dementsprechend wird, wenn basierend auf einer Begrenzung der Anzahl an Gesichtserfassungsversuchen, aus einer vorgegebenen Anzahl an eingegebenen Bildframes bestimmt ist, dass kein Gesicht erfasst ist, wird die Gesichtserfassung gestoppt und eine Bewegungserfassung durchgeführt. Hier ist die Anzahl an Gesichtserfassungsversuchen COUNT_FD gleich der Anzahl an Gesichtserfassungsfehlschlägen. Schritt S318 ist vorgesehen, um die Anzahl an Versuchen zu begrenzen. Wenn eine Gesichtserfassung in einem Fehlschlag endet, d. h. wenn bestimmt ist, dass der potentielle Gesichtsbereich in Schritt S306 nicht erfasst ist, wenn bestimmt ist, dass das Gesicht als Folge einer Erfassung unter Verwendung von SVM mit niedriger Auflösung in Schritt S310 nicht erfasst ist, oder wenn bestimmt ist, dass das Gesicht als Folge einer Erfassung unter Verwendung von SVM mit niedriger Auflösung in Schritt S314 nicht erfasst ist, wird in Schritt S318 bestimmt, ob die Anzahl an Gesichtserfassungsversuchen COUNT_FD gleich oder größer ist als der erste Schwellenwert TH1. Wenn bestimmt ist, dass die Anzahl an Gesichtserfassungsversuchen COUNT_FD kleiner ist als der erste Schwellenwert TH1, geht der Vorgang zu Schritt S300. Wenn bestimmt ist, dass die Anzahl an Erfassungsversuchen COUNT_FD gleich oder größer ist als der erste Schwellenwert TH1, geht der Vorgang zu Schritt S320.
In Schritt S320 wird der Erfassungsmodus DETECT_MODE auf "1" gesetzt, so dass der Modus in einen Bewegungserfassungsmodus wechselt. Mit anderen Worten, wenn das Gesicht selbst nach der vorgegebenen Anzahl an Gesichtserfassungsversuchen (TH1) nicht erfasst ist, wird der Modus in den Bewegungserfassungsmodus gewechselt. Danach geht der Vorgang zu Schritt S20. Da der Erfassungsmodus DETECT_MODE auf "1" gesetzt ist, wird eine Bewegungserfassung gemäß dem Ergebnis der Bestimmung von Schritt S20 durchgeführt.
Wenn indessen bestimmt ist, dass das Gesicht als Ergebnis der Erfassung unter Verwendung der SVM mit hoher Auflösung in Schritt S314 erfasst ist, wird der momentane Bildframe gespeichert und die Anzahl an Gesichtserfassungsversuchen COUNT_FD wird in Schritt S316 auf "0" initialisiert. Dann geht der Vorgang zu Schritt S300. Mit anderen Worten, wenn das Gesicht erfasst ist, wird die Gesichtserfassung fortgesetzt.
6 ist ein Flussdiagramm einer Ausführungsform des in 1 gezeigten Schritt S40. Die Ausführungsform von Schritt S40 beinhaltet Empfangen einer vorgegebenen Anzahl an Bildframes, Erfassen einer Bewegung gemäß einem Algorithmus zur temporären Kantenerfassung, Übergehen zu einer Gesichtserfassung, wenn eine vorgegebene Anzahl an Bewegungserfassungen in einer vorgegebene Zeitspanne erfolgreich ist und kontinuierliches Fortsetzen der Bewegungserfassung, wenn dies nicht der Fall ist (S400 bis S414).
Bei der vorliegenden Erfindung wird eine Bewegung basierend auf einer temporären Kante erfasst, die durch Erweitern einer räumlichen Kante zu einer Zeitdomäne definiert ist. Bildframes, die in einer vorgegebenen Zeitspanne eingegeben sind, werden gruppiert und als Bewegungserfassungseinheit definiert. Eine zeitliche Variation bei diesen Bildframes wird zum Erfassen einer Bewegung ausgewertet.
In der Ausführungsform der vorliegenden Erfindung werden eine Reihe von Bildframes, zum Beispiel 10 Bildframes, die durch Photographieren eines Objekts, das sich dem Terminal nähert, aufgenommen sind, über eine vorgegebene Zeitspanne einer Einzelbewegungserfassung unterzogen. Mit anderen Worten, die Bewegungserfassung wird in Einheiten einer vorgegebenen Anzahl an Bildframes, zum Beispiel 10 Bildframes vorgenommen. Ein einzelner Bildframe enthält "n" Pixel mit einer vorgegebenen Auflösung. Dementsprechend wird, wenn eine Einzelbewegungserfassung vorgenommen wird, eine temporäre Variation in 10 Pi xelwerten eines interessierenden Pixels ausgewertet, um zu bestimmen, ob das interessierende Pixel ein Bewegungspixel ist. Die Auswertung wird an den "n" Pixeln wiederholt durchgeführt.
Bei der vorliegenden Erfindung ist eine Digitalkamera durch eine vorgegebene Anzahl an Bildframes pro Zeiteinheit gekennzeichnet. Wenn dementsprechend 30 Frames pro Sekunde aufgenommen werden, können annähernd drei Bewegungserfassungen pro Sekunde vorgenommen werden.
Eine in 1 gezeigte Ausführungsform von Schritt S40 wird nun ausführlich mit Bezug zu 6 beschrieben. Es wird eine vorgegebene Anzahl an Bildframes, zum Beispiel 10 Bildframes empfangen (S400). Danach wird die Anzahl an Bewegungserfassungsversuchen COUNT_MD um 1 erhöht (S402). Danach wird eine Bewegung in den Bildframes unter Verwendung eines Algorithmus zur temporären Kantenerfassung erfasst (S404).
Eine räumliche Kante ist eine Abgrenzung zwischen zwei Bereichen mit unterschiedlicher Helligkeit. Die räumliche Kante kann unter Verwendung einer Sobel-Maske, einer Prewitt-Maske, einer Laplace-Maske oder einer Canny-Maske erfasst werden. Im Falle einer Kantenerfassung unter Verwendung einer Laplace-Maske, kann das Konzept der räumlichen Kante auf das Konzept der temporären Kante erweitert werden, dementsprechend kann eine Bewegung in Bildframes unter Verwendung dieser temporären Kantenerfassung erfasst werden.
7 ist ein Flussdiagramm einer Ausführungsform von Schritt S404. Die Ausführungsform von Schritt 404 beinhaltet Erfassen von Pixeln durch Ermitteln von Nulldurchgängen der zeitabhängigen Laplacefunktion, Vergleichen einer lokalen Varianz an diesen Punkten mit einem vorgegebenen Wert und Berücksichtigung von Pixeln mit einer lokalen Varianz gleich oder größer als der vorgegebene Wert als Bewegungspixel (S4040 bis S4044).
Insbesondere werden Pixel, die unter Ermittlung von Nulldurchgängen der zeitabhängigen Laplacefunktion bestimmt sind, unter Verwendung einer vorgegebenen Anzahl an Bildframes in Schritt 4040 erfasst.
8 ist ein Flussdiagramm einer Ausführungsform von Schritt S4040, wie in 7 gezeigt. Unter der Annahme, dass 2m Bildframes empfangen wurden (wobei "m" eine positive ganze Zahl ist) und "n" Pixel in jedem Bildframe vorhanden sind, beinhaltet die Ausführungsform von Schritt S4040 Klassifizieren der 2 m Bildframes in zwei Gruppen: eine Gruppe f(t₁) bis f(t_2m–1), die andere Gruppe von f(t₂) bis f(t_2m), Ermitteln der zeitabhängigen Laplacefunktion für die beiden Gruppen und Bestimmen von Nulldurchgängen oder anderen als Nulldurchgängen der Laplacefunktion (S4040a bis S4040c). Hier bezeichnen f(t₁) bis f(t_2m) Pixelwerte eines momentanen interessierenden Pixels bei Verarbeitung der 2 m Bildframes. Die Schritte S4040a bis S4040c werden so oft wiederholt, wie es der Anzahl an Pixeln in jedem Bildframe entspricht, d. h. "n" Mal bei einer Einzelbewegungserfassung. Die Ausführungsform von Schritt S4040 wird nun ausführlich beschrieben.
Die Formeln (1) und (2) sind Beispiele einer Berechnung zum Erfassen einer räumlichen Kante unter Verwendung einer typischen 3 × 3 Laplace-Maske. ∇2f = 4z5 – (z2 + z4 + z6 + z8) (1) ∇2f = 8z5 – (z1 + z2 + z3 + z4 + z6 + z7 + z8 + z9) (2)
In Schritt S4040a wird jeder der Bildframes f(t₁) bis f(t_2m–1) in einer Gruppe mit einem vorgegebenen Gewicht multipliziert und dann ein Mittelwert gebildet, wodurch eine temporäre Laplacefunktion von f(t_m) ermittelt wird. Um eine temporäre Kante durch Erweitern der typischen 3 × 3 Laplace-Maske zu einer temporären Domäne zu erweitern, wird die Anzahl an Bildframes, die in einer Gruppe enthalten sind, auf 9 gesetzt. Wenn zum Beispiel m = 5 ist, wird jeder der 9 Bildframes f(t₁) bis f(t₉) mit dem vorgegebenen Gewicht multipliziert und dann ein Mittelwert gebildet, wodurch eine zeitabhängige Laplacefunktion von f(t₅) erhalten wird, das heißt, ∇²f(t₅). ∇²f(t₅) kann unter Verwendung der Formel (3) oder (4) berechnet werden. ∇2f(t5) = 4f(t5) – (f(t2) + f(t4) + f(t6) + f(t8)) (3) ∇2f(t5) = 8f(t5) – (f(t1) + f(t2) + f(t3) + f(t4) + f(t6) + f(t7) + f(t8) + f(t9)) (4)
Eine andere zeitabhängige Laplacefunktion von Pixelwerten ist notwendig, um ein Pixel mit einem Nulldurchgang der Laplacefunktion zu erfassen. Daher wird in Schritt S4040b jeder der Bildframes f(t₂) bis f(t_2m) in einer anderen Gruppe mit dem vorgegebenen Gewicht multipliziert und dann ein Mittelwert gebildet, wodurch eine zeitabhängige Laplacefunktion von f(t_m+1) ermittelt wird. Zur Verwendung der typischen 3 × 3 Laplace-Maske werden zum Beispiel jeder der 9 Bildframes f(t₂) bis f(t₁₀) mit dem vorgegebenen Gewicht multipliziert und dann ein Mittelwert gebildet, wodurch eine zeitabhängige Laplacefunktion von f(t₆) erhalten wird, das heißt, ∇²f(t₆). ∇²f(t₆) kann unter Verwendung der Formel (5) oder (6) berechnet werden. ∇2f(t6) = 4f(t6) – (f(t3) + f(t5) + f(t7) + f(t9)) (5) ∇2f(t6) = 8f(t6) – (f(t2) + f(t3) + f(t4) + f(t5) + f(t7) + f(t8) + f(t9) + f(t10)) (6)
In Schritt S4040c werden Nulldurchgänge und andere als Nulldurchgänge der Laplacefunktion bestimmt. Insbesondere, wenn ∇²f(t_m) negativ ist und ∇²f(t_m+1) positiv ist, oder wenn ∇²f(t_m) positiv ist und ∇²f(t_m+1) negativ ist, wird ein interessierendes Pixel als Nulldurchgangspixel bestimmt. Mit anderen Worten, wenn m = 5 ist, wird ein Nulldurchgangspixel in Abhängigkeit davon bestimmt, ob ein Nulldurchgang zwischen ∇²f(t₅) und ∇²f(t₆) erfolgt. Wenn bestimmt ist, dass ein Nulldurchgang erfolgt ist, wird ein interessierendes Pixel f(t_m) als Bewegungspixel erfasst.
In Schritt S4042 wird die zeitabhängige Varianz von Pixelwerten unter Verwendung der vorgegebenen Anzahl von Bildframes berechnet. Schritt S4042 kann nach oder parallel zu Schritt S4040 durchgeführt werden. Die Varianz σ kann unter Verwendung von Formel (7) berechnet werden.
Nach den Schritten S4040 und S4042 wird bestimmt, ob die Varianz, die für jedes der Pixel berechnet ist, die durch Ermitteln von Nulldurchgängen der Laplacefunktion erfasst sind, gleich oder größer als ein vorgegebener Schwellenwert ist, und wenn bestimmt ist, dass die Varianz gleich oder größer als der vorgegebene Schwellenwert ist, wird das Pixel in Schritt 4044 als Bewegungspixel bestimmt. Wenn bestimmt ist, dass die Varianz kleiner als der vorgegebene Schwellenwert ist, wird bestimmt, dass obwohl eine temporäre Veränderung in einem Pixel vorliegt, diese Veränderung eine Rauschen ähnliche Veränderung ist, die zum Beispiel durch Beleuchtung bedingt ist und keine tatsächliche Bewegung eines Objekts. Aufgrund von Schritt S4044 ist ein Verfahren zum Erfassen einer Bewegung gemäß der vorliegenden Erfindung ro bust bei Rauschen wie einer Veränderung in der Beleuchtung oder Umgebung.
Nach Schritt S404 wird in Schritt S406 bestimmt, ob eine Bewegung erfasst wurde. Schritt S406 kann so ausgeführt sein, dass er eine Bestimmung beinhaltet, ob die Anzahl an als Bewegungspixel in Schritt S404 bestimmter Pixel gleich oder größer ist als ein vorgegebener Wert und Bestimmung, dass eine Bewegung erfasst ist, wenn die Anzahl an Bewegungspixeln mindestens einen bestimmten Wert erreicht.
Wenn bestimmt ist, dass eine Bewegung erfasst wurde, wird in Schritt S408 die Anzahl an Bewegungserfassungserfolgen SUCCESS_MD um 1 erhöht und ein Bild gespeichert. Hier ist das gespeicherte Bild ein Bildframe f(t_m). Wenn m = 5 ist, wird ein Bildframe f(t₅) gespeichert.
Nach Schritt S408 wird in Schritt S410 bestimmt, ob Bedingungen, dass die Anzahl an Bewegungserfassungsversuchen COUNT_MD kleiner als ein Drittel eines Schwellenwerts TH3 ist, zum Beispiel 30 (COUNT_MD < 30) und die Anzahl an Bewegungserfassungserfolgen SUCCESS_MD gleich oder größer ist als ein zweiter Schwellenwert TH2, zum Beispiel 10 (SUCCESS_MD ≥ 10) erfüllt sind. Wenn bestimmt ist, dass die Bedingungen erfüllt sind, geht der Vorgang zu Schritt S10. Mit anderen Worten, wenn die Bedingungen erfüllt sind, ist der Zweck des Bewegungserfassungsmodus erreicht. Wenn eine vorgegebene Anzahl an Bewegungserfassungen innerhalb einer vorgegebenen Zeit erfolgreich durchgeführt wurden, wird bestimmt, dass die Bedingungen einer Gesichtserfassung erfüllt sind, und eine Gesichtserfassung wird durchgeführt, weil es ein Endzweck des Sicherheitssystems ist, ein Gesicht akkurat zu erfassen. In Schritt S10 werden alle Parameter initialisiert und dadurch der Vorgang im Gesichtserfassungsmodus durchgeführt.
Wenn bestimmt ist, dass in Schritt S406 keine Bewegung erfasst wurde oder wenn bestimmt ist, dass in Schritt S410 die Bedingungen nicht erfüllt sind, wird in Schritt S412 bestimmt, ob die Anzahl an Bewegungserfassungsversuchen COUNT_MD gleich oder größer ist als der dritte Schwellenwert TH3. Wenn bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen COUNT_MD kleiner ist als der dritte Schwellenwert TH3, geht der Vorgang zu Schritt S400.
Wenn jedoch bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen COUNT_MD gleich oder größer ist als der dritte Schwellenwert TH3, wird die Anzahl an Bewegungserfassungsversuchen COUNT_MD und die Anzahl an Bewegungserfassungserfolgen SUCCESS_MD in Schritt S414 initialisiert, und dann geht der Vorgang zu Schritt S400. Es ist ein Ziel der vorliegenden Erfindung, eine vorgegebene Anzahl an Bewegungserfassungen in einer "vorgegebenen Zeitspanne" erfolgreich durchzuführen. Wenn eine Bewegung eventuell nach einer langen Zeitspanne seit dem Beginn des Bewegungserfassungsmodus erfasst wird, wird angenommen, dass es keine Möglichkeit gibt, dass ein Gesicht erfasst werden kann. Wenn dementsprechend die vorgegebene Zeitspanne verstreicht, bevor eine vorgegebene Anzahl an Bewegungserfassungen erfolgreich durchgeführt ist, das heißt, wenn die Anzahl an Bewegungserfassungsversuchen COUNT_MD gleich oder größer ist als der dritte Schwellenwert TH3, werden Zählwerte für eine Bewegungserfassung initialisiert, um eine neue Bewegungserfassung durchzuführen.
Indessen ist es notwendig, eine Gesichtserfassung mitten in der Durchführung einer Bewegungserfassung vorzunehmen, um einen Benutzer effizient zu erfassen. Mit anderen Worten, es ist notwendig, eine Situation vorzubereiten, in der ein sich einem Terminal nähernder Benutzer sich für eine vorgegebene Zeitspanne nicht bewegt. Dementsprechend kann Schritt S40 so ausgeführt sein, dass er die Bewegungserfassung um eine bestimmte Zeit unterbricht und eine Gesichtserfassung durchführt.
Da die Laplacefunktion auf Rauschen empfindlich ist, kann der Schritt S404 ferner Durchführen einer Gauss-Filterung an den Bildframes beinhalten, um die Bildframes zu glätten, bevor die Laplacefunktion eines Pixelwerts in Schritt S4040 ermittelt wird.
9 ist ein Flussdiagramm eines Verfahrens zum Erfassen einer Bewegung in einem Sicherheitssystem gemäß einer Ausführungsform der vorliegenden Erfindung. Das Verfahren beinhaltet Empfangen einer vorgegebenen Anzahl an Bildframes, Erfassen einer Bewegung unter Verwendung eines Algorithmus zur temporären Kantenerfassung, Speichern eines Bildes, wenn innerhalb einer vorgegebenen Zeitspanne eine Bewegung erfasst ist und Fortsetzen der Bewegungserfassung, wenn innerhalb der vorgegebenen Zeitspanne keine Bewegung erfasst ist (S500 bis S506).
Insbesondere wird die vorgegebene Anzahl an Bildframes in Schritt S500 empfangen. Danach wird eine Bewegung unter Verwendung des Algorithmus zur temporären Kantenerfassung und der Varianz von Pixelwerten mit der Zeit in Schritt S502 erfasst. Schritt S502 kann so ausgeführt sein, dass er die in 7 gezeigten Schritte S4040 bis S4044 beinhaltet.
Insbesondere beinhaltet Schritt S502 Erfassen von Pixeln durch Ermitteln von Nulldurchgängen der zeitabhängigen Laplacefunktion unter Verwendung der vorgegebenen Anzahl an Bildframes (Schritt 4004). Unter der Annahme, dass 2m Bildframes empfangen sind und "n" Pixel in jedem Bildframe vorhanden sind, kann Schritt S4040 so ausgeführt sein, dass er die in 8 gezeigten Schritte S4040a bis S4040c beinhaltet.
Schritt S4040 beinhaltet Multiplizieren jedes Bildframes in einer Gruppe von Bildframes f(t₁) bis f(t_2m–1) mit einem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass ∇²f(t_m) ermittelt wird (S4040a), Multiplizieren jedes Bildframes in einer anderen Gruppe von Bildframes f(t₂) bis f(t_2m) mit dem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass ∇²f(t_m+1) ermittelt wird (S4040b) und Bestimmen eines interessierenden Pixels als ein Pixel mit Nulldurchgang, wenn ∇²f(t_m) negativ ist und ∇²f(t_m+1) positiv ist oder wenn ∇²f(t_m) positiv ist und ∇²f(t_m+1) negativ ist (S4040c). Hier bezeichnen f(t₁) bis f(t_2m) Pixelwerte eines momentanen interessierenden Pixels unter Bearbeitung. Die Schritte S4040a bis S4040c werden "n" Mal wiederholt.
Nach Schritt S4040 wird die zeitabhängige Varianz von Pixelwerten unter Verwendung der vorgegebenen Anzahl an Bildframes in Schritt S4042 berechnet. Das Verfahren zum Erfassen einer Bewegung kann ferner Durchführen einer Gauss-Filterung an den Bildframes zum Glätten der Bildframes vor Schritt S4040 beinhalten.
Nach Schritt S4042 wird bestimmt, ob die für jedes Pixel mit Nulldurchgang der Laplacefunktion berechnete Varianz gleich oder größer als ein vorgegebener Schwellenwert ist, und wenn bestimmt ist, dass die Varianz gleich oder größer als der vorgegebene Schwellenwert ist, wird das Pixel in Schritt S4044 als Bewegungspixel bestimmt. Wenn bestimmt ist, dass die Varianz kleiner als der vorgegebene Schwellenwert ist, wird bestimmt, dass obwohl eine zeitliche Veränderung in Pixeln vorliegt, diese Veränderung eine Rauschen ähnliche Veränderung bedingt durch die Beleuchtung ist und keine tatsächliche Bewegung eines Objekts. Aufgrund von Schritt S4044 ist ein Verfahren zum Erfassen einer Bewe gung gemäß der vorliegenden Erfindung bei Rauschen, wie einer Veränderung in Beleuchtung oder Umgebung, robust.
Nach Schritt S502 wird in Schritt S504 bestimmt, ob eine Bewegung erfasst wurde. Bevorzugt wird bestimmt, ob die Anzahl an Bewegungspixeln gleich oder größer als ein vorgegebener Wert ist, und es wird bestimmt, dass eine Bewegung erfasst wurde, wenn die Anzahl an Bewegungspixeln gleich oder größer als der vorgegebene Wert ist.
Wenn bestimmt ist, dass keine Bewegung erfasst wurde, geht der Vorgang zu Schritt S500, ohne das Bild zu speichern. Wenn bestimmt ist, dass eine Bewegung erfasst wurde, wird das Bild in Schritt S506 gespeichert und der Vorgang geht zu Schritt S500.
10 ist ein Blockdiagramm einer Vorrichtung 20 zum Erfassen einer Person gemäß einer Ausführungsform der vorliegenden Erfindung. Die Vorrichtung 20 beinhaltet eine Gesichtserfassungseinheit 200, die ein Gesicht aus einem Bild erfasst, das von einer digitalen Videokamera 10 eingegeben ist, eine Bewegungserfassungseinheit 210, die eine Bewegung erfasst, eine Steuereinheit 220, die eine Gesichtserfassung und eine Bewegungserfassung steuert, und eine Speichereinheit 230, die das Bild speichert.
Die Gesichtserfassungseinheit 200 führt eine Gesichtserfassung an einem eingegebenen Bild in Abhängigkeit von einem Erfassungsmodussignal 221 durch, das von der Steuereinheit 220 empfangen ist und gibt ein Gesichtserfassungsergebnissignal 222 aus, das einen Erfolg oder einen Fehlschlag der Gesichtserfassung angibt.
In Abhängigkeit vom Erfassungsmodussignal 221, das von der Steuereinheit 220 empfangen ist, empfängt die Bewegungserfassungseinheit 210 eine vorgegebene Anzahl an Bildframes auf einmal, führt eine Be wegungserfassung unter Verwendung eines Algorithmus zur temporären Kantenerfassung durch und gibt ein Bewegungserfassungsergebnissignal 223 aus, das einen Erfolg oder Fehlschlag der Bewegungserfassung angibt.
In Abhängigkeit von einem Bildspeicherbefehlssignal 224, das von der Steuereinheit 220 empfangen ist, speichert die Speichereinheit 230 ein Bild, das von der digitalen Videokamera 10 eingegeben ist.
Die Steuereinheit 220 initialisiert Parameter, die für eine Benutzererfassung verwendet werden, gibt das Erfassungsmodussignal 221 aus, das die Gesichtserfassungseinheit 200 oder die Bewegungserfassungseinheit 210 aktiviert, gibt das Bildspeicherbefehlssignal 224 in Abhängigkeit vom Gesichtserfassungsergebnissignal 222 oder dem Bewegungserfassungsergebnissignal 223 aus, zählt die Anzahl an Gesichtserfassungsversuchen in Abhängigkeit vom Gesichtserfassungsergebnissignal 222 und zählt die Anzahl an Bewegungserfassungsversuchen und die Anzahl an Bewegungserfassungserfolgen in Abhängigkeit vom Bewegungserfassungsergebnissignal 223. Die Steuereinheit 220 gibt das Erfassungsmodussignal 221 auf einem hohen Pegel, so dass die Bewegungserfassungseinheit 210 aktiviert wird, wenn die Anzahl an Gesichtserfassungsversuchen gleich oder größer ist als der erste Schwellenwert TH1, zum Beispiel 10, und gibt das Erfassungsmodussignal 221 auf einem niedrigen Pegel, um die Gesichtserfassungseinheit 200 zu aktivieren, wenn innerhalb einer vorgegebenen Zeitspanne die Anzahl an Bewegungserfassungserfolgen gleich oder größer ist als der dritte Schwellenwert TH3, zum Beispiel 10.
Die in 1 gezeigten Schritte S10 und S20 können von der Steuereinheit 220 durchgeführt werden. Der in 1 gezeigte Schritt S30 kann von der Gesichtserfassungseinheit 200, der Speichereinheit 230 und der Steuereinheit 240 durchgeführt werden. Der in 1 gezeigte Schritt S40 kann von der Bewegungserfassungseinheit 210, der Speichereinheit 230 und der Steuereinheit 240 durchgeführt werden.
Wie in 10 gezeigt, weist die Gesichtserfassungseinheit 200 einen Detektor 201 für einen potentiellen Gesichtsbereich, einen Gesichtsdetektor 202 mit niedriger Auflösung, einen Gesichtsdetektor 203 mit hoher Auflösung und einen Gesichtserfassungsergebnissignalgenerator 204 auf.
Der Detektor 201 für den potentiellen Gesichtsbereich erfasst einen potentiellen Gesichtsbereich aus einem Bild, das von der digitalen Videokamera 10 eingegeben ist, unter Verwendung einer Gabor-Wavelet-Transformation mit M-Gitter, gibt den erfassten potentiellen Gesichtsbereich aus und gibt das Ergebnis der Erfassung als erstes Gesichtserfassungsergebnis aus. Wenn zum Beispiel ein potentieller Gesichtsbereich erfasst ist, kann das erste Gesichtserfassungsergebnis auf einem hohen Pegel ausgegeben werden. Wenn jedoch kein potentieller Gesichtsbereich erfasst ist, kann das erste Gesichtserfassungsergebnis auf einem niedrigen Pegel ausgegeben werden. Die in 2 gezeigten Schritte S304 und S306 können vom Detektor 201 für den potentiellen Gesichtsbereich durchgeführt werden.
Der Gesichtsdetektor 202 mit niedriger Auflösung erfasst einen Gesichtsbereich aus einer vorgegebenen Fläche, die den vom Detektor 201 für den potentiellen Gesichtsbereich erfassten potentiellen Gesichtsbereich enthält, unter Verwendung einer SVM mit niedriger Auflösung, gibt den erfassten Gesichtsbereich aus und gibt das Ergebnis der Erfassung als zweites Gesichtserfassungsergebnis aus. Wenn zum Beispiel ein Gesichtsbereich mit niedriger Auflösung erfasst ist, kann das zweite Gesichtserfassungsergebnis auf einem hohen Pegel ausgegeben werden. Wenn jedoch kein Gesichtsbereich mit niedriger Auflösung erfasst ist, kann das zweite Gesichtserfassungsergebnis in einem niedrigen Pegel ausgegeben werden. Die in 2 gezeigten Schritte S308 und S310 können vom Gesichtsdetektor 202 mit niedriger Auflösung durchgeführt werden.
Der Gesichtsdetektor 203 mit hoher Auflösung erfasst ein Gesicht aus einer vorgegebenen Fläche, die den Gesichtsbereich mit niedriger Auflösung enthält, der vom Gesichtsdetektor 202 mit niedriger Auflösung erfasst wurde, unter Verwendung einer SVM mit hoher Auflösung und gibt das Ergebnis der Erfassung als drittes Gesichtserfassungsergebnis aus. Wenn zum Beispiel ein Gesicht mit hoher Auflösung erfasst ist, kann das dritte Gesichtserfassungsergebnis auf einem hohen Pegel ausgegeben werden. Wenn jedoch kein Gesicht mit hoher Auflösung erfasst ist, kann das dritte Gesichtserfassungsergebnis auf einem niedrigen Pegel ausgegeben werden. Die in 2 gezeigten Schritte S312 und S314 können vom Gesichtsdetektor 203 mit hoher Auflösung durchgeführt werden.
Der Gesichtserfassungsergebnissignalgenerator 204 erzeugt das Gesichtserfassungsergebnissignal 222 in Abhängigkeit vom ersten bis dritten Gesichtserfassungsergebnis. Der Gesichtserfassungsergebnissignalgenerator 204 kann so ausgeführt sein, dass er das Gesichtserfassungsergebnissignal 222 auf einem niedrigen Pegel erzeugt, wenn eines der ersten bis dritten Gesichtserfassungsergebnisse auf dem niedrigen Pegel ist. Zum Beispiel kann der Gesichtserfassungsergebnissignalgenerator 204 von einem UND-Gate implementiert sein, das das erste bis dritte Gesichtserfassungsergebnis durch ein Eingangsterminal empfängt.
Wie in 10 gezeigt ist, weist die Bewegungserfassungseinheit 210 einen Kantendetektor 210, einen Varianzkalkulator 212, einen Bewegungspixeldetektor 213 und einen Bewegungserfassungsergebnissignalgenerator 214 auf.
Der Kantendetektor 211 bestimmt ein Kantenpixel durch Ermitteln eines Nulldurchgangs der zeitabhängigen Laplacefunktion. Der in 7 gezeigte Schritt S4040 kann vom Kantendetektor 211 durchgeführt werden.
Der Varianzkalkulator 212 berechnet die Varianz von Pixelwerten in Zeitabhängigkeit. Der in 7 gezeigte Schritt S4042 kann vom Varianzkalkulator 212 durchgeführt werden.
Der Bewegungspixeldetektor 213 bestimmt das Kantenpixel als Bewegungspixel, wenn die vom Varianzkalkulator 212 berechnete Varianz gleich oder größer als ein vorgegebener Wert ist. Der in 7 gezeigte Schritt S4044 kann vom Bewegungspixeldetektor 213 durchgeführt werden.
Der Bewegungserfassungsergebnissignalgenerator 214 erzeugt das Bewegungserfassungsergebnissignal 223 entsprechend dazu, ob die Anzahl an Bewegungspixeln in einem Bildframe mindestens gleich einem vorgegebenen Wert ist. Zum Beispiel kann der Bewegungserfassungsergebnissignalgenerator 214 so ausgeführt sein, dass er das Bewegungserfassungsergebnissignal 223 auf einem hohen Pegel erzeugt, wenn die Anzahl an Bewegungspixeln mindestens den vorgegebenen Wert erreicht und das Bewegungserfassungsergebnissignal 223 auf einem niedrigen Pegel erzeugt, wenn die Anzahl an Bewegungspixeln kleiner als der vorgegebene Wert ist.
Wie oben beschrieben können bei einem Verfahren und einer Vorrichtung zum Erfassen von Personen gemäß der vorliegenden Erfindung eine Gesichtserfassung und eine Bewegungserfassung wiederholt oder komplementär durchgeführt werden, während ein System so betrieben wird, dass eine akkurate Erfassung, eine hohe Ausführungsgeschwin digkeit und hohe Speichernutzungseffizienz von aufgenommenen Bildern erreicht werden können. Außerdem kann eine tatsächliche Bewegung eines Objekts akkurat erfasst werden, ohne dass es durch Rauschen, wie eine Veränderung in der Beleuchtung oder Umgebung, beeinflusst wird.
Obwohl einige Ausführungsformen der vorliegenden Erfindung gezeigt und beschrieben wurden, versteht es sich für die Fachleute, dass verschiedene Veränderungen an diesen Elementen vorgenommen werden können, ohne den Rahmen der Erfindung zu verlassen, wobei der Rahmen in den beigefügten Ansprüchen und ihren Äquivalenten definiert ist.

Claims

Verfahren zum Erfassen einer Bewegung aus einem Bild, das von einer digitalen Videokamera bereitgestellt wird, wobei das Verfahren umfasst: d1) Empfangen einer vorgegebenen Anzahl 2m von Bildframes; d2) Erfassen einer Bewegung in den Bildframes; d3) Bestimmen, ob eine Bewegung erfasst worden ist; und d3y) wenn bestimmt ist, dass eine Bewegung erfasst worden ist, Speichern des Bildes, dadurch gekennzeichnet, dass Schritt d2) zum Erfassen einer Bewegung in den Bildframes einen Algorithmus zur temporären Kantenerfassung und Varianz von Pixelwerten mit der Zeit verwendet, und ferner die Schritte umfasst: d20) Erfassen von Pixeln mit Nulldurchgang durch Ermitteln von Nulldurchgängen einer zeitabhängigen Laplacefunktion ∇²f(t) unter Verwendung der vorgegebenen Anzahl an Bildframes f(t₁), ..., f(t_2m), wobei ein Nulldurchgang auftritt, wenn ein Vorzeichenwechsel zwischen temporären Laplacefunktionen eines momentanen Bildframes f(t_m) und eines nächsten Bildframes f(t_m+1) auftritt; d22) Berechnen der Varianz von Pixelwerten mit der Zeit unter Verwendung der vorgegebenen Anzahl an Bildframes; und d24) Bestimmen, ob die für jedes Pixel mit Nulldurchgang berechnete Varianz der Laplacefunktion gleich oder größer als ein vorgegebener Wert ist, und Bestimmen des Pixels als ein Bewegungspixel, wenn bestimmt ist, dass die Varianz gleich oder größer als der vorgegebene Wert ist.
Verfahren nach Anspruch 1, wobei, wenn 2m Bildframes empfangen werden und "n" Pixel in jedem Bildframe vorhanden sind, Schritt d20) umfasst: d200) Multiplizieren jedes f(t₁) bis f(t_2m–1) in einer Gruppe von Bildframes mit einem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass eine zeitabhängige Laplacefunktion von f(t_m) erhalten wird, ∇²f(t_m); und d202) Multiplizieren jedes f(t₂) bis f(t_2m) in einer anderen Gruppe von Bildframes mit einem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass eine zeitabhängige Laplacefunktion von f(t_m+1) erhalten wird, ∇²f(t_m+1); und d204) Bestimmen eines interessierenden Pixels als ein Pixel mit Nulldurchgang, wenn ∇²f(t_m) negativ ist und ∇²f(t_m+1) positiv ist oder wenn ∇²f(t_m) positiv ist und ∇²f(t_m+1) negativ ist, wobei f(t₁) bis f(t_2m) Pixelwerte der in Bearbeitung befindlichen interessierenden Pixel bezeichnen und die Schritte d200) bis d204) "n" Mal wiederholt werden.
Verfahren nach Anspruch 1 oder 2, wobei Schritt d3) umfasst: Bestimmen, ob die Anzahl an Pixeln, die in Schritt d2) als Bewegungspixel bestimmt wurden, gleich oder größer ist als ein vorgegebener Wert, und Bestimmen, dass eine Bewegung erfasst worden ist, wenn bestimmt ist, dass die Anzahl an Bewegungspixeln mindestens den vorgegebenen Wert erreicht.
Verfahren nach Anspruch 1, 2 oder 3 ferner umfassend: Durchführen einer Gauss-Filterung der empfangenen Bildframes zum Glätten der Bildframes vor Schritt d20).
Verfahren zum Erfassen einer Person aus einem Bild, das von einer digitalen Videokamera bereitgestellt wird, unter Verwendung von Bewegungserfassung, die durch das Verfahren nach einem der vorhergehenden Ansprüche durchgeführt wird, wobei das Verfahren umfasst: a) Initialisieren von Parametern, die für eine Benutzererfassung verwendet werden; b) Bestimmen eines aktuellen Modus; c) wenn bestimmt ist, dass der aktuelle Modus ein Erfassungsmodus ist, Durchführen einer Gesichtserfassung an jedem einer Mehrzahl von Bildframes, und, wenn selbst nach einer vorgegebenen Anzahl an Gesichtserfassungsversuchen kein Gesicht erfasst worden ist, Auswählen eines Bewegungserfassungsmodus und Rückkehr zu Schritt b); d) wenn bestimmt ist, dass der aktuelle Modus ein Bewegungserfassungsmodus ist, Durchführung von Bewegungserfassung an einer vorgegebenen Anzahl an Bildframes zu einem Zeitpunkt unter Verwendung des Verfahrens nach einem der vorhergehenden Ansprüche, und, wenn mindestens eine vorgegebene Anzahl an Bewegungserfassungen innerhalb einer vorgegebenen Zeitspanne erfolgreich durchgeführt wurde, Rückkehr zu Schritt a); d11) nach Empfangen einer vorgegebenen Anzahl an Bildframes d1) und vor Erfassen einer Bewegung in den Bildframes d2) Erhöhen der Anzahl an Bewegungserfassungsversuchen um 1; d3y1) wenn bestimmt ist, dass eine Bewegung erfasst worden ist, Erhöhen der Anzahl an Bewegungserfassungserfolgen um 1; d3y2) Bestimmen, ob Bedingungen, dass die Anzahl an Bewegungserfassungsversuchen kleiner als ein dritter Schwellenwert ist und die Anzahl an Bewegungserfassungserfolgen gleich oder größer ist als ein zweiter Schwellenwert, erfüllt sind, und Rückkehr zu Schritt a), wenn bestimmt ist, dass die Bedingungen erfüllt sind; d3n) wenn bestimmt ist, dass in Schritt d3) keine Bewegung erfasst worden ist, oder wenn bestimmt ist, dass die Bedingungen in Schritt d3y2) nicht erfüllt sind, Bestimmen, ob die Anzahl an Bewegungserfassungsversuchen gleich oder größer ist als der dritte Schwellenwert, und Rückkehr zu Schritt d1), wenn bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen kleiner ist als der dritte Schwellenwert; und d3n1) wenn bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen gleich oder größer ist als der dritte Schwellenwert, Initialisieren der Anzahl an Bewegungserfassungsversuchen und der Anzahl an Bewegungserfassungserfolgen und Rückkehr zu Schritt d1).
Verfahren nach Anspruch 5, wobei Schritt c) umfasst: Erfassen eines potentiellen Gesichtsbereichs unter Verwendung einer Gabor-Wavelet-Transformation.
Verfahren nach Anspruch 6, wobei Schritt c) umfasst: Erfassen eines Gesichts unter Verwendung einer Supportvektor-Maschine (SVM) mit geringer Auflösung und einer SVM mit hoher Auflösung.
Verfahren nach Anspruch 7, wobei Schritt c) umfasst: c1) Empfangen eines einzelnen Bildframes; c2) Erhöhen der Anzahl an Gesichtserfassungsversuchen um 1; c3) Erfassen des potentiellen Gesichtsbereichs durch Lernen einer Mehrzahl von Modellgesichtsfiguren basierend auf einer Gabor-Wavelet-Transformation mit M-Gitter und Bestimmen, ob ein potentieller Gesichtsbereich erfasst worden ist; c4) wenn bestimmt ist, dass ein potentieller Gesichtsbereich erfasst worden ist, Durchführen einer Gesichtserfassung unter Verwendung der SVM mit geringer Auflösung und Bestimmen, ob ein Gesicht erfasst worden ist; c5) wenn bestimmt ist, dass unter Verwendung der SVM mit geringer Auflösung ein Gesicht erfasst worden ist, Durchführen einer Gesichtserfassung unter Verwendung der SVM mit hoher Auflösung und Bestimmen, ob ein Gesicht erfasst worden ist; c6) wenn bestimmt ist, dass unter Verwendung der SVM mit hoher Auflösung ein Gesicht erfasst worden ist, Speichern des momentanen Bildframes, Initialisieren der Anzahl an Gesichtserfassungsversuchen und Rückkehr zu Schritt c1); c7) wenn bestimmt ist, dass in Schritt c3) kein potentieller Gesichtsbereich erfasst worden ist, oder wenn bestimmt ist, dass in Schritt c4) oder c5) kein Gesicht erfasst worden ist, Bestimmen, ob die Anzahl an Gesichtserfassungsversuchen gleich oder größer ist als ein erster Schwellenwert, und Rückkehr zu Schritt c1), wenn bestimmt ist, dass die Anzahl an Gesichtserfassungsversuchen kleiner als der erste Schwellenwert ist; und c8) wenn bestimmt ist, dass die Anzahl an Gesichtserfassungsversuchen gleich oder größer ist als der erste Schwellenwert, Auswahl des Bewegungserfassungsmodus und Rückkehr zu Schritt b).
Verfahren nach Anspruch 8, wobei in Schritt c3) M-Gitter-Intervalle zum Lernen der Modellgesichtsfiguren basierend auf einem Augenzwischenabstand und einem Abstand zwischen einem Mund und einer Verbindungslinie zweier Augen bestimmt werden.
Verfahren nach Anspruch 8 oder 9, wobei die Schritte c4) und c5) umfassen: Durchführung einer Gesichtserfassung unter Verwendung einer Klassifizierung basierend auf einer SVM, die in Hauptkomponentenanalyse(PCA)-Unterräumen trainiert wurde.
Verfahren nach Anspruch 10, wobei Schritt c4) umfasst: Auswählen eines Bereichs mit einer vorgegebenen Größe auf Basis einer vorgegebenen Position um den in Schritt c3) erfassten potentiellen Gesichtsbereich, Durchführen einer Gesichtserfassung im ausgewählten Bereich unter Verwendung der SVM mit geringer Auflösung und Wiederholen der Gesichtserfassung, während der ausgewählte Bereich so erweitert wird, dass ein vorgegebener Bereich einschließlich des potentiellen Gesichtsbereichs vollständig abgetastet wird.
Verfahren nach Anspruch 10 oder 11, wobei Schritt c5) umfasst: Auswählen eines Bereichs mit einer vorgegebenen Größe auf Basis einer vorgegebenen Position um das in Schritt c4) erfasste Gesicht, Durchführen einer Gesichtserfassung im ausgewählten Bereich unter Verwendung der SVM mit hoher Auflösung und Wiederholen der Gesichtserfassung, während der ausgewählte Bereich so erweitert wird, dass ein vorgegebener Bereich einschließlich des Gesichts vollständig abgetastet wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei Schritt d) Unterbrechen der Bewegungserfassung mit einer vorgegebenen Zeitspanne und dann Durchführen einer Gesichtserfassung umfasst.
Vorrichtung zum Erfassen einer Bewegung aus einem Bild, das von einer digitalen Videokamera bereitgestellt wird, wobei die Vorrichtung umfasst: ein Mittel zum Empfangen einer vorgegebenen Anzahl an Bildframes; ein Mittel zum Erfassen einer Bewegung in den Bildframes; ein Mittel zum Bestimmen, ob eine Bewegung erfasst worden ist; und ein Mittel zum Speichern des Bildes, wenn bestimmt ist, dass eine Bewegung erfasst worden ist, und dadurch gekennzeichnet, dass das Mittel zum Erfassen einer Bewegung in dem Bild ferner umfasst: ein Mittel zum Durchführen der Bewegungserfassung unter Verwendung eines Algorithmus zur temporären Kantenerfassung und Varianz von Pixelwerten mit der Zeit; ein Mittel zum Erfassen von Pixeln mit Nulldurchgang durch Ermitteln von Nulldurchgängen einer zeitabhängigen Laplacefunktion ∇²f(t) unter Verwendung der vorgegebenen Anzahl an Bildframes, wobei ein Nulldurchgang auftritt, wenn ein Vorzeichenwechsel zwischen temporären Laplacefunktionen eines momentanen Bildframes f(t_m) und eines nächsten Bildframes f(t_m+1) auftritt; ein Mittel zum Berechnen der Varianz von Pixelwerten mit der Zeit unter Verwendung der vorgegebenen Anzahl an Bildframes; und ein Mittel zum Bestimmen, ob die für jedes Pixel mit Nulldurchgang berechnete Varianz der Laplacefunktion gleich oder größer als ein vorgegebener Wert ist, und Bestimmen des Pixels als Bewegungspixel, wenn bestimmt ist, dass die Varianz gleich oder größer als der vorgegebene Wert ist.
Vorrichtung nach Anspruch 14, wobei das Mittel zum Erfassen von Pixeln durch Ermitteln von Nulldurchgängen der Laplacefunktion in Abhängigkeit von Pixelkoordinaten und der Zeit umfasst: ein Mittel zum Multiplizieren jedes f(t₁) bis f(t_2m–1) in einer Gruppe von Bildframes mit einem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass eine zeitabhängige Laplacefunktion von f(t_m) erhalten wird, ∇²f(t_m); ein Mittel zum Multiplizieren jedes f(t₂) bis f(t_2m) in einer anderen Gruppe von Bildframes mit einem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass eine zeitabhängige Laplacefunktion von f(t_m+1) erhalten wird, ∇²f(t_m+1); und ein Mittel zum Bestimmen eines interessierenden Pixels als Pixel mit Nulldurchgang, wenn ∇²f(t_m) negativ ist und ∇²f(t_m+1) positiv ist oder wenn ∇²f(t_m) positiv ist und ∇²f(t_m+1) negativ ist, wobei 2m Bildframes empfangen werden, "n" Pixel in jedem Bildframe vorhanden sind, f(t₁) bis f(t_2m) Pixelwerte der in Bearbeitung befindlichen interessierenden Pixel bezeichnen und Funktionen der obigen drei Mittel "n" Mal wiederholt werden.
Vorrichtung nach Anspruch 14 oder 15, wobei das Mittel zum Bestimmen, ob eine Bewegung erfasst worden ist, ein Mittel zum Bestimmen, ob die Anzahl an Pixeln, die als Bewegungspixel bestimmt sind, gleich oder größer ist als ein vorgegebener Wert, und Bestimmen, dass eine Bewegung erfasst worden ist, wenn bestimmt ist, dass die Anzahl an Bewegungspixeln gleich oder größer als der vorgegebene Wert ist, umfasst.
Vorrichtung nach Anspruch 14, 15 oder 16 ferner umfassend ein Mittel zum Durchführen einer Gauss-Filterung an den empfangenen Bildframes zum Glätten der Bildframes und Übertragen der geglätteten Bildframes an das Mittel zum Erfassen einer Bewegung im aufgenommenen Bild.
Vorrichtung zum Erfassen einer Person aus einem Bild, das von einer digitalen Videokamera, mit dem Bewegungserfassungsmittel der Vorrichtung von Anspruch 14 bereitgestellt wird, wobei die Vorrichtung umfasst: ein Mittel zum Initialisieren von Parametern, die zur Personenerfassung verwendet werden; ein Erfassungsmodusbestimmungsmittel zum Bestimmen eines aktuellen Modus; einen Gesichtserfassungsmodus zum Durchführen einer Gesichtserfassung an jedem einer Mehrzahl von Bildframes, wenn bestimmt ist, dass der aktu elle Modus ein Gesichtserfassungsmodus ist, und Auswählen eines Bewegungserfassungsmodus, wenn selbst nach einer vorgegebenen Anzahl an Gesichtserfassungsversuchen kein Gesicht erfasst worden ist; und ein Bewegungserfassungsmittel zum Durchführen einer Bewegungserfassung an einer vorgegebenen Anzahl an Bildframes zu einem Zeitpunkt, wenn bestimmt ist, dass der aktuelle Modus nicht der Gesichtserfassungsmodus ist, und Initialisieren der Parameter, wenn innerhalb einer vorgegebenen Zeitspanne mindestens eine vorgegebene Anzahl an Bewegungserfassungen erfolgreich durchgeführt ist, dadurch gekennzeichnet, dass das Bewegungserfassungsmittel eine Vorrichtung nach einem der Ansprüche 14 bis 17 umfasst und ferner umfasst: ein Mittel zum Erhöhen der Anzahl an Bewegungserfassungsversuchen um 1; ein Mittel zum Erhöhen der Anzahl an Bewegungserfassungserfolgen um 1, wenn bestimmt ist, dass eine Bewegung erfasst worden ist; ein Mittel zum Bestimmen, ob Bedingungen, dass die Anzahl an Bewegungserfassungsversuchen kleiner ist als ein dritter Schwellenwert und die Anzahl an Bewegungserfassungserfolgen gleich oder größer ist als ein zweiter Schwellenwert, erfüllt sind, Initialisieren der Parameter, wenn bestimmt ist, dass die Bedingungen erfüllt sind, und Behalten der Parameter, wenn bestimmt ist, dass die Bedingungen nicht erfüllt sind; ein Mittel zum Bestimmen, ob die Anzahl an Bewegungserfassungsversuchen gleich oder größer ist als der dritte Schwellenwert, wenn bestimmt ist, dass keine Bewegung erfasst worden ist, oder wenn bestimmt ist, dass die Bedingungen nicht erfüllt sind, und, wenn bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen kleiner ist als der dritte Schwellenwert, Behalten der Parameter, Empfangen einer vorgegebenen Anzahl an Bildframes und Durchführen einer Bewegungserfassung; und ein Mittel zum Initialisieren der Anzahl an Bewegungserfassungsversuchen und der Anzahl an Bewegungserfassungserfolgen, Empfangen einer vorgegebenen Anzahl an Bildframes und Durchführen einer Bewegungserfassung, wenn bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen gleich oder größer ist als der dritte Schwellenwert.
Vorrichtung nach Anspruch 18, wobei das Bewegungserfassungsmittel ein Mittel zum Erfassen eines potentiellen Gesichtsbereichs unter Verwendung einer Gabor-Wavelet-Transformation umfasst.
Vorrichtung nach Anspruch 19, wobei das Bewegungserfassungsmittel ein Mittel zum Erfassen eines Gesichts unter Verwendung einer Supportvektor-Maschine (SVM) mit geringer Auflösung und einer SVM mit hoher Auflösung umfasst.
Vorrichtung nach Anspruch 20, wobei das Bewegungserfassungsmittel umfasst: ein Mittel zum Empfangen eines einzelnen Bildframes; ein Mittel zum Erhöhen der Anzahl an Gesichtserfassungsversuchen um 1; ein Erfassungsmittel für einen potentiellen Gesichtsbereich zum Erfassen des potentiellen Gesichtsbereichs durch Lernen einer Mehrzahl von Modellgesichtsfiguren basierend auf einer Gabor-Wavelet-Transformation mit M-Gitter und Bestimmen, ob ein potentieller Gesichtsbereich erfasst worden ist; ein Gesichtserfassungsmittel mit geringer Auflösung zum Durchführen einer Gesichtserfassung unter Verwendung der SVM mit geringer Auflösung, wenn bestimmt ist, dass ein potentieller Gesichtsbereich erfasst worden ist, und Bestimmen, ob ein Gesicht erfasst worden ist; ein Gesichtserfassungsmittel mit hoher Auflösung zum Durchführen einer Gesichtserfassung unter Verwendung der SVM mit hoher Auflösung, wenn bestimmt ist, dass unter Verwendung der SVM mit geringer Auflösung ein Gesicht erfasst worden ist, und Bestimmen, ob ein Gesicht erfasst worden ist; ein Mittel zum Speichern des momentanen Bildframes, Initialisieren der Anzahl an Gesichtserfassungsversuchen und Beibehalten des Gesichtserfassungsmodus, wenn bestimmt ist, dass unter Verwendung der SVM mit hoher Auflösung ein Gesicht erfasst worden ist; ein Mittel zum Bestimmen, ob die Anzahl an Gesichtserfassungsversuchen gleich oder größer ist als ein erster Schwellenwert, wenn bestimmt ist, dass kein potentieller Gesichtsbereich erfasst worden ist, oder wenn bestimmt ist, dass unter Verwendung der SVM mit geringer Auflösung oder hoher Auflösung kein Gesicht erfasst worden ist, und Beibehalten des Gesichtserfassungsmodus, wenn bestimmt ist, dass die Anzahl an Gesichtserfassungsversuchen kleiner ist als der erste Schwellenwert; und ein Mittel zum Auswählen des Bewegungserfassungsmodus, wenn bestimmt ist, dass die Anzahl an Gesichtserfassungsversuchen gleich oder größer ist als der erste Schwellenwert.
Vorrichtung nach Anspruch 21, wobei das Erfassungsmittel für einen potentiellen Gesichtsbereich ein Mittel zum Bestimmen von M-Gitter-Intervallen zum Lernen der Modellgesichtsfiguren basierend auf einem Augenzwischenabstand und einem Abstand zwischen einem Mund und einer Verbindungslinie zweier Augen umfasst.
Vorrichtung nach Anspruch 21 oder 22, wobei das Gesichtserfassungsmittel mit geringer Auflösung und das Gesichtserfassungsmittel mit hoher Auflösung ein Mittel zum Durchführen einer Gesichtserfassung unter Verwendung einer Klassifizierung basierend auf einer SVM, die in Hauptkomponentenanalyse(PCA)-Unterräumen trainiert wurde, umfassen.
Vorrichtung nach Anspruch 23, wobei das Gesichtserfassungsmittel mit geringer Auflösung ein Mittel umfasst zum Auswählen eines Bereichs mit einer vorgegebenen Größe auf Basis einer vorgegebenen Position um den potentiellen Gesichtsbereich, der vom Erfassungsmittel für einen potentiellen Gesichtsbereich erfasst worden ist, Durchführen einer Gesichtserfassung am ausgewählten Bereich unter Verwendung der SVM mit geringer Auflösung und Wiederholen der Gesichtserfassung, während der ausgewählte Bereich so erweitert wird, dass ein vorgegebener Bereich einschließlich des potentiellen Gesichtsbereichs vollständig abgetastet wird.
Vorrichtung nach Anspruch 23 oder 24, wobei das Gesichtserfassungsmittel mit hoher Auflösung ein Mittel umfasst zum Auswählen eines Bereichs mit einer vorgegebenen Größe auf Basis einer vorgegebenen Position um den Gesichtsbereich, der vom Gesichtserfassungsmittel mit geringer Auflösung erfasst worden ist, Durchführen einer Gesichtserfassung am ausgewählten Bereich unter Verwendung der SVM mit hoher Auflösung und Wiederholen der Gesichtserfassung, während der ausgewählte Bereich so erweitert wird, dass ein vorgegebener Bereich einschließlich des vom Gesichtserfassungsmittel mit geringer Auflösung erfassten Gesichts vollständig abgetastet wird.
Vorrichtung nach einem der Ansprüche 14 bis 25, wobei das Bewegungserfassungsmittel ein Mittel zum Unterbrechen der Bewegungserfassung mit einer vorgegebenen Zeitspanne und dann Durchführen einer Gesichtserfassung umfasst.