DE60313941T2 - Personendetektion durch Gesichtsdetektion und Bewegungsdetektion - Google Patents

Personendetektion durch Gesichtsdetektion und Bewegungsdetektion Download PDF

Info

Publication number
DE60313941T2
DE60313941T2 DE60313941T DE60313941T DE60313941T2 DE 60313941 T2 DE60313941 T2 DE 60313941T2 DE 60313941 T DE60313941 T DE 60313941T DE 60313941 T DE60313941 T DE 60313941T DE 60313941 T2 DE60313941 T2 DE 60313941T2
Authority
DE
Germany
Prior art keywords
face
detection
determined
motion
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60313941T
Other languages
English (en)
Other versions
DE60313941D1 (de
Inventor
Young-Hoon Sung
Tae-Kyun Kim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Application granted granted Critical
Publication of DE60313941D1 publication Critical patent/DE60313941D1/de
Publication of DE60313941T2 publication Critical patent/DE60313941T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images

Description

  • Die vorliegende Erfindung betrifft Bewegungserfassung, und insbesondere ein Verfahren und eine Vorrichtung zur Bewegungserfassung unter Verwendung eines Bildes, das von einer digitalen Videokamera eingegeben ist.
  • Die koreanischen Patentveröffentlichungen Nr. 2000-50405 und 1997-60927 offenbaren Bewegungserfassungsverfahren. Die koreanische Patentveröffentlichung Nr. 2000-50405 offenbart ein Bewegungserfassungsverfahren unter Verwendung einer Sicherheitskamera ungeachtet der Umgebungshelligkeit. Bei diesem Verfahren wird jeder Bildframe abgetastet, eine Variation zwischen Pixeln in jedem abgetasteten Bildframe wird ermittelt, eine Variation zwischen Pixeln in einem vorhergehenden Bildframe wird mit einer Variation zwischen Pixeln in einem vorliegenden Bildframe verglichen und eine Differenz zwischen den beiden Variationen wird mit einem vorgegebenen Referenzwert verglichen. Die koreanische Patentveröffentlichung Nr. 1997-60927 offenbart ein selektives Verfahren und eine Vorrichtung zur Aufzeichnung, bei dem nur ein Bild von mit einer Kamera aufgenommenen Bildern aufgezeichnet wird, das ein anderes Bildsignal als ein Referenzbild aufweist. Da diese beiden Verfahren jedoch eine Veränderung in einem Pixelwert zwischen zwei aufeinanderfolgenden Bildern nutzen, wird eine Veränderung im Pixelwert auch aufgrund einer Rauschen ähnlichen Veränderung, wie einer Veränderung der Beleuchtung, als eine Bewegung erfasst.
  • Die koreanischen Patentveröffentlichungen Nr. 1998-82154 und 2000-61100 offenbaren ein Verfahren zur Steuerung des Benutzerzugangs zu einer bestimmten Dienstleistungsmaschine, die mit einem Sicherheitssystem verbunden ist. Die koreanische Patentveröffentlichung Nr. 1998-82154 offenbart ein Benutzeridentifikationssystem und einen Geldautomaten (ATM, Automatic Teller Machine), der dieses einsetzt. Das Be nutzeridentifikationssystem funktioniert in Verbindung mit dem ATM. Das Benutzeridentifikationssystem nimmt eine Gesichtsfigur über eine Überwachungskamera auf, die zum Aufzeichnen eines ATM-Benutzergesichtsbildes verwendet wird, analysiert die Gesichtsfigur, um zu bestimmten, ob ein Merkmal, das später bestätigt werden kann, in der Gesichtsfigur vorhanden ist und ermöglicht, dass ein Benutzerauftrag nur dann bearbeitet wird, wenn bestimmt ist, dass das bestätigbare Merkmal vorhanden ist. Die koreanische Patentveröffentlichung Nr. 2000-61100 offenbart ein Verfahren zum Erkennen eines Benutzergesichts in einem Buchungssystem. Bei diesem Verfahren wird bestimmt, ob die Augen und der Mund in einem Gesichtsbild deutlich erfasst sind, das durch Photographieren eines Benutzers erhalten ist. Wenn die Augen und der Mund nicht deutlich erfasst werden können, wenn zum Beispiel der Benutzer sein/ihr Gesicht mit der Hand verdeckt, einen Hut oder eine Maske trägt, oder kein eindeutiges Aussehen seines/ihres Gesichts zeigt, wird ein Vorgang des Buchungssystems unterbrochen, wodurch Wirtschaftskriminalität verhindert wird. Obwohl diese beiden Verfahren vorgesehen sind, um mögliche Gesetzesbrüche zu verhindern, sind sie jedoch dadurch nachteilig, dass ehrliche Leute, die Sonnenbrillen, Masken oder Hüte tragen, ohne dass sie die Absicht haben ein Gesetz zu brechen, auch abgewiesen werden können. US-Patent Nr. 5,164,992 betrifft ein System zur Identifizierung von Mitgliedern einer Zuschauergruppe.
  • In einem Aufsatz mit dem Titel "Edge Detection and Thinning in Time-Varying Image Sequences Using Spatio-Temporal Templates" stellt Leonardo C. Topa ein Verfahren zur Bewegungserfassung vor, das auf Extraktion von räumlich-zeitlichen Kanten in einer Bildsequenz beruht: ein dreidimensionaler Gradient der Bildsequenz wird zum Entwickeln eines Satzes von räumlich-zeitlichen Masken verwendet, dann werden diese Masken mit der Bildsequenz korreliert und auf diese Weise Bewegungsinformationen extrahiert.
  • Sung Uk Lee et al. stellen einen Ansatz zur Gesichtsmerkmalserfassung in Echtzeit in einer Druckschrift mit dem Titel "Real-Time Facial Feature Detection for Person Identification System" (IAPR Workshop an Machine Vision-Application, Tokyo, 11/2000) vor.
  • In einem Aufsatz mit dem Titel "Feature Reduction and Hierarchy of Classifiers for Fast Object Detection in Video Images" stellen Heisele B. et al. ein zweistufiges Verfahren zur Beschleunigung von Objekterfassungssystemen in Computervision vor, die eine Support-Vektor-Maschine (SCM) zur Klassifizierung verwenden.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren nach Anspruch 1 zur Verfügung gestellt.
  • Gemäß einem anderen Aspekt der vorliegenden Erfindung wird ein Verfahren zum Erfassen einer Person aus einem Bild, das durch eine Digitalkamera bereitgestellt wird, wie im Verfahren nach Anspruch 5 zur Verfügung gestellt.
  • Gemäß noch einem anderen Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Erfassen einer Bewegung aus einem Bild, das durch eine Digitalkamera bereitgestellt wird, wie in der Vorrichtung nach Anspruch 14 zur Verfügung gestellt.
  • Gemäß noch einem anderen Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Erfassen einer Person aus einem Bild, das durch eine Digitalkamera bereitgestellt wird, wie in der Vorrichtung nach Anspruch 18 zur Verfügung gestellt.
  • Die obigen und weitere Merkmale und Vorteile der vorliegenden Erfindung werden besser ersichtlich aus einer ausführlichen Beschreibung bevorzugter Ausführungsformen mit Bezug zu den begleitenden Zeich nungen, in denen:
  • 1 ein Flussdiagramm eines Verfahrens zur Personendetektion (Personenerfassung) gemäß einer Ausführungsform der vorliegenden Erfindung ist;
  • 2 ein Flussdiagramm einer Ausführungsform vom in 1 gezeigten Schritt S30 ist;
  • 3 ein M-Gitter zeigt;
  • 4 Gitter-Intervalle in horizontaler und vertikaler Richtung zeigt:
  • 5A und 5B eine Vorgehensweise zur Veränderung eines Suchfensters darstellt, das einen Gesichtserfassungsbereich definiert, in dem eine Gesichtserfassung in einem Bild mit einem potentiellen Gesichtsbereich, der unter Verwendung einer Gabor-Wavelet-Transformation erfasst ist, und einem Umgebungsbereich durchgeführt wird;
  • 6 ein Flussdiagramm einer Ausführungsform vom in 1 gezeigten Schritt S40 ist;
  • 7 ein Flussdiagramm einer Ausführungsform vom in 6 gezeigten Schritt S404 ist;
  • 8 ein Flussdiagramm einer Ausführungsform vom in 7 gezeigten Schritt S4040 ist;
  • 9 ein Flussdiagramm eines Verfahrens zur Erfassung einer Bewegung in einem Sicherheitssystem gemäß einer Ausführungsform der vorliegenden Erfindung ist; und
  • 10 ein Blockdiagramm einer Vorrichtung zur Personendetektion gemäß einer Ausführungsform der vorliegenden Erfindung ist.
  • Nachfolgend werden bevorzugte Ausführungsformen der vorliegenden Erfindung ausführlich mit Bezug zu den beigefügten Zeichnungen beschrieben.
  • Die vorliegende Erfindung ist auf ein Verfahren zur Bewegungserfassung unter Verwendung eines von einer digitalen Videokamera einge gebenen Bildes gerichtet. Es ist besonders bevorzugt, das Gesicht einer Person in dem Bild zu erfassen. Es ist ein Ziel der vorliegenden Erfindung, die Bewegung und die Figur der Person in dem Bild zu erfassen, selbst wenn das Gesicht nicht akkurat erfasst werden kann. Um diese Ziele zu erreichen, beinhaltet die vorliegende Erfindung Gesichtserfassung und Bewegungserfassung, die komplementär durchgeführt werden, wodurch ein Verfahren zur akkurateren und effizienteren Erfassung einer Person auf einem eingegebenen Bild zur Verfügung gestellt wird. Außerdem wird nur ein Bild gespeichert, aus dem ein Gesicht oder eine Bewegung erfasst wird, wodurch die Speichernutzungseffizienz merklich erhöht wird.
  • 1 ist ein Flussdiagramm eines Verfahrens zur Personenerfassung unter Verwendung einer digitalen Videokamera gemäß einer Ausführungsform der vorliegenden Erfindung. Das Verfahren beinhaltet Initialisieren von Parametern (S10), Bestimmen eines Erfassungsmodus (S20), Erfassen eines Gesichts (S30) und Erfassen einer Bewegung (S40).
  • Insbesondere werden Parameter initialisiert, die zum Erfassen einer Person verwendet werden (S10). Die Parameter beinhalten einen Erfassungsmodus DETECT_MODE, die Anzahl an Gesichtserfassungsversuchen COUNT_FD, die Anzahl an Bewegungserfassungsversuchen COUNT_MD und die Anzahl an Bewegungserfassungserfolgen SUCCESS_MD. Hier gibt "FD" eine Gesichtserfassung an und "MD" gibt eine Bewegungserfassung an. In Schritt S10 werden alle Parameter zum Beispiel auf "0" initialisiert. Wenn der Erfassungsmodus DETECT_MODE "0" ist, arbeitet ein System, das das Verfahren anwendet, in einem Gesichtserfassungsmodus. Wenn der Erfassungsmodus DETECT_MODE "1" ist, arbeitet das Sicherheitssystem in einem Bewegungserfassungsmodus. Die Reihenfolge der Durchführung von Gesichtserfassung und Bewegungserfassung ist bei dem Verfahren nicht wesentlich. Zur Deutlichkeit der Beschreibung wird jedoch ein erster Erfassungsmodus DETECT_MODE auf "0" gesetzt, so dass die Gesichtserfassung als Erstes durchgeführt wird, wenn das System angeschaltet wird.
  • Nach Schritt S10 wird bestimmt, ob der Erfassungsmodus DETECT_MODE der Gesichtserfassungsmodus ist (S20). Wenn bestimmt ist, dass der Erfassungsmodus DETECT_MODE der Gesichtserfassungsmodus ist, wird die Gesichtserfassung durchgeführt (S30). Wenn bestimmt ist, dass der Erfassungsmodus DETECT_MODE nicht der Gesichtserfassungsmodus ist, wird die Bewegungserfassung durchgeführt (S40).
  • Wenn in Schritt 30 nach einer bestimmten Anzahl von Gesichtserfassungsversuchen kein Gesicht erfasst ist, wird der Bewegungserfassungsmodus gewählt und der Vorgang kehrt zurück zu Schritt S20. Außerdem beinhaltet Schritt 30 Erfassen eines potentiellen Gesichtsbereichs unter Verwendung einer Gabor-Wavelet-Transformation und Erfassen eines Gesichts unter Verwendung einer Supportvektor-Maschine (SVM) mit niedriger Auflösung und einer SVM mit hoher Auflösung. In Schritt S40 wird die Bewegungserfassung gleichzeitig bei einer vorgegebenen Anzahl an Bildframes durchgeführt und der Vorgang kehrt zurück zu Schritt S10, wenn mindestens eine vorgegebene Anzahl an Bewegungserfassungen in einem vorgegebenen Zeitraum erfolgreich war. 2 ist ein Flussdiagramm einer Ausführungsform von Schritt S30, wie er in 1 gezeigt ist. Die Ausführungsform von Schritt S30 beinhaltet Empfangen eines einzelnen Bildframes, Erfassen eines Gesichts aus dem Bildframe, Speichern des Bildframes, wenn das Gesicht erfasst ist, Wiederholen der Gesichtserfassung und Auswählen des Bewegungserfassungsmodus, wenn aus einer vorgegebenen Anzahl an Bildframes kein Gesicht erfasst ist (S300 bis S320).
  • In Schritt S30 wird eine Einzelgesichtserfassung an einem einzelnen Bildframe durchgeführt und die Anzahl an aufeinander folgenden Gesichtserfassungen ist auf einen vorgegebenen Schwellenwert TH1 beschränkt. Die Gesichtserfassung wird in Schritt 30 in drei Schritten durchgeführt: eine grobe Erfassung (S304), eine genauere Erfassung (S308) und eine detaillierte Erfassung (S312). Dementsprechend kann die benötigte Zeit für die Gesichtserfassung reduziert werden und gleichzeitig kann eine zufriedenstellende Gesichtserfassungsrate erhalten werden. Die Vorgehensweise der Gesichtserfassung (S30) wird ausführlich mit Bezug zu 2 beschrieben.
  • Es wird ein für die Gesichtserfassung photographierter einzelner Bildframe empfangen (S300). Es wird eine Einzelgesichtserfassung an einem einzelnen Bildframe durchgeführt.
  • Nach Schritt S300 wird die Anzahl an Gesichtserfassungsversuchen COUNT_FD um eins erhöht (S302). Der Schritt S302 ist vorgesehen, um die Anzahl an aufeinander folgenden Gesichtserfassungen auf den vorgegebenen Schwellenwert TH1 zu beschränken. Wenn eine Gesichtserfassung unter Verwendung eines neuen Bildframes versucht wird, nachdem ein Gesichtserfassungsversuch fehlgeschlagen ist, wird die Anzahl an Gesichtserfassungsversuchen COUNT_FD um 1 erhöht.
  • Nach Schritt S302 wird ein potentieller Gesichtsbereich erfasst (S304). Um einen potentiellen Gesichtsbereich zu erfassen, wird eine Modellgesichtsdatenbank durch Lernen einer Mehrzahl von Modellgesichtsfiguren erstellt. In Schritt S304 wird der Bildframe mit der Modellgesichtsdatenbank verglichen, um einen potentiellen Gesichtsbereich unter Verwendung einer Gabor-Wavelet-Transformation und insbesondere unter Verwendung einer Gabor-Wavelet-Transformation mit M-Gitter durchgeführt. Bei der Gabor-Wavelet-Transformation mit M-Gitter können Gitterintervalle zum Lernen der Modellgesichtsfiguren ausgehend von ei nem Zwischenaugenabstand und einem Abstand zwischen den Augen und dem Mund bestimmt werden. Schritt S304 unter Verwendung der Gabor-Wavelet-Transformation mit M-Gitter wird mit Bezug zu den 3 und 4 ausführlich beschrieben.
  • Zum Erfassen eines potentiellen Gesichtsbereichs aus einem kontinuierlichen Bildsignal, wurde viel Forschung und Entwicklung zur Farbe oder Form eines Gesichts in einem Bild unternommen. Obwohl eine Hautfarbe auf Pixelniveau einen Erfassungsraum merklich reduzieren kann, verändert sich eine menschliche Hautfarbe entsprechend einer Aufnahmeumgebung und der Richtung und Intensität einer Lichtquelle. Bei der vorliegenden Erfindung wird ein potentieller Gesichtsbereich unter Verwendung von Figurinformation erfasst, die durch Ähnlichkeitsübereinstimmung von Gabor-Filterergebnissen in einem M-Gitter ermittelt ist.
  • Wie in 3 gezeigt, ist ein M-Gitter aus einer bestimmten Anzahl an Gitterpunkten zusammengesetzt, zum Beispiel 20 Gitterpunkten, die die Form des Buchstabens "M" bilden. Die Gitterpunkte sind in vorgegebenen Intervallen in horizontaler und vertikaler Richtung angeordnet. Zum Beispiel können, wie in 4 gezeigt, horizontale Intervalle der Gitterpunkte auf 1/4 eines Zwischenaugenabstands gesetzt sein und vertikale Intervalle können auf 1/3 eines Abstands zwischen dem Mund und einer Linie, die die beiden Augen verbindet, gesetzt sein.
  • Die Erfassung eines potentiellen Gesichtsbereichs unter Verwendung einer Gabor-Wavelet-Transformation beinhaltet zwei Schritte. In einem Schritt werden Modellgesichtsbilder mit verschiedenen Veränderungen gelernt. Hier wird eine Modellgesichtsdatenbank durch Lernen unter Anwendung einer M-Gitterstruktur auf viele Bilder konstruiert. Im anderen Schritt werden Modellgesichter in der Modellgesichtsdatenbank mit dem empfangenen Bildframe unter Verwendung einer Ähnlichkeitsübereinstimmung mit einem M-Gitter verglichen. Hier wird selbst ein Bildbe reich ohne Gesicht als potentieller Gesichtsbereich erfasst, wenn bestimmt ist, dass es als Ergebnis der Durchführung einer M-Gitterübereinstimmung eine hohe Ähnlichkeit zu den Modellgesichtern aufweist.
  • Nach Schritt S304 wird bestimmt, ob der potentielle Gesichtsbereich unter Verwendung der Gabor-Wavelet-Transformation mit M-Gitter erfasst wurde (S306). Gemäß der Gabor-Wavelet-Transformation mit M-Gitter wird ein Teil, der als Gesicht in einem Bild angenommen werden kann, als potentieller Gesichtsbereich erfasst, ungeachtet dessen, ob der Teil tatsächlich ein Gesicht ist. Mit anderen Worten, ein bestimmter Teil, von dem bestimmt ist, dass er eine höchste Wahrscheinlichkeit aufweist, dass es in einem ganzen Bild ein Gesicht ist, wird als potentieller Gesichtsbereich erfasst. Daher kann, selbst wenn der potentielle Gesichtsbereich aus dem Bild erfasst ist, nicht davon ausgegangen werden, dass das Bild tatsächlich ein Gesicht enthält. Dementsprechend werden eine Gesichtserfassung mit niedriger Auflösung (S308) und eine Gesichtserfassung mit hoher Auflösung (S312) am erfassten potentiellen Gesichtsbereich vorgenommen, um ein Gesicht genauer zu erfassen. Wenn jedoch bestimmt ist, dass kein potentieller Gesichtsbereich erfasst ist, geht der Vorgang zu Schritt S318, in dem die Anzahl an Gesichtserfassungsversuchen COUNT_FD gleich oder größer als der vorgegebene Schwellenwert TH1 ist. Der Schritt S318 wird später ausführlich beschrieben.
  • In einer hierarchischen Struktur der groben, genaueren und detaillierten Erfassung, ist die oben beschriebene Gesichtserfassung mit der Gabor-Wavelet-Transformation die grobe Erfassung auf dem untersten Niveau. Diese grobe Erfassung ergibt keine akkurate Erfassung, sondern ist bei einer Veränderung in der Beleuchtung und anderem Rauschen robust und kann in einer kurzen Zeit ausgeführt werden. Wenn zum Beispiel das empfangene Bild eine Größe von 320 × 240 aufweist und ein Zielge sicht 40 bis 80 Pixel zwischen den beiden Augen aufweist, benötigt die grobe Erfassung ungefähr 170 ms in einem Pentium 4 Computer von 1,4 GHz.
  • Zur genaueren Erfassung eines Gesichts aus einem potentiellen Gesichtsbereich, das unter Verwendung der Gabor-Übereinstimmung mit M-Gitter erfasst ist, verwendet die vorliegende Erfindung eine Klassifizierung, die auf einer in PCA-Unterräumen trainierten SVM basiert. PCA ist eine Abkürzung für Hauptkomponentenanalyse (Principal Component Analysis), die später beschrieben wird. Die folgende Beschreibung betrifft ein SVM-basiertes Gesichtserfassungsverfahren, das in den Schritten S308 und S312 angewendet wird.
  • Gesichtsbilder sind in einem höher-dimensionalen Bildraum nicht statistisch verteilt und daher können sie in einem nieder-dimensionalen Unterraum dargestellt werden. In einer SVM-basierten Klassifikation verändert sich die Geschwindigkeit einer Gesichtserfassung in Abhängigkeit von der Anzahl an Supportvektoren (SVs). Es ist ein Ziel der vorliegenden Erfindung, die Klassifizierungsgeschwindigkeit zu erhöhen. Die Klassifizierungsgeschwindigkeit kann erhöht werden und die Klassifizierungsleistung kann zufriedenstellend bleiben, indem eine geeignete Anzahl an SVs ausgewählt wird. Die vorliegende Erfindung setzt PCA als geeignetes Verfahren zum Vermindern der Dimension eines Gesichtsraums ein. Eine weit verbreitete Gesichtserfassungstechnik ist ein Prozess, der PCA bei einem Gesichtsbild anwendet. PCA ist eine Technik zum Projizieren von Bilddaten auf einen nieder-dimensionalen Eigenvektorraum mit einem minimalen Verlust an Bildinformation, um die Information zu reduzieren. Wenn PCA zum Erkennen eines Gesichts verwendet wird, wird ein Hauptkomponentenvektor eines Gesichts aus einem eingegebenen Bild extrahiert und mit einem Hauptkomponentenvektor eines zuvor gelernten und in einer Datenbank gespeicherten Bildes verglichen.
  • Eine auf SVM mit niedriger Auflösung basierte Klassifikation erhöht die Klassifizierungsgeschwindigkeit. Ein Bild, das bei einer auf SVM mit niedriger Auflösung basierten Klassifikation als kein Gesicht bestimmt ist, ist eventuell kein Gesicht. Jedoch selbst wenn ein Bild in der auf SVM mit niedriger Auflösung basierten Klassifikation als ein Bild bestimmt ist, kann das Bild kein Gesicht sein. Unter diesem Hintergrund werden Bilder bei einer hohen Geschwindigkeit aus Bildern ohne Gesicht herausgefiltert, wobei eine auf SVM mit niedriger Auflösung basierte Klassifikation in Schritt S308 verwendet wird. Die gefilterten Bilder können Bilder ohne Gesicht beinhalten. Danach werden die gefilterten Bilder präziser aus Bildern ohne Gesicht herausgefiltert, wobei eine auf SVM mit hoher Auflösung basierte Klassifikation in Schritt S312 verwendet wird. Mit anderen Worten, nur Muster, die als Ergebnis einer ersten Klassifikation bei niedriger Auslösung als Gesicht klassifiziert sind, werden einer zweiten Klassifikation bei einer hohen Auflösung unterzogen. Dementsprechend kann die Menge an Bilddaten, die bei der Klassifikation in der zweiten Stufe zu verarbeiten ist, signifikant verringert werden.
  • Zum Beispiel wird eine SVM mit niedriger Auflösung, die mit 20 PCA-Merkmalen in 20 × 20-Gesichtsbildern gelernt hat, bei einem potentiellen Gesichtsbereich angewendet, der unter Verwendung einer Gabor-Wavelet-Transformation in Schritt 308 extrahiert ist. Danach wird in Schritt 312 eine SVM mit hoher Auflösung unter Verwendung eines Polynomkernels zweiter Ordnung verwendet, die unter Verwendung von 50 PCA-Merkmalen in 40 × 40-Gesichtsbildern gelernt hat.
  • Zur Durchführung einer SVM-basierten Gesichtserfassung ist es notwendig, eine Gesichtsdatenbank vorzusehen, die durch Lernen für ein System konstruiert ist. Die Gesichtsdatenbank wird durch Lernen unter Verwendung von Gesichtsbildern und Bildern ohne Gesicht konstruiert. Beim Lernen für eine SVM mit niedriger Auflösung werden die Bilder mit und ohne Gesicht auf eine bestimmte Größe umgewandelt, zum Beispiel 20 × 20. Hier beträgt die Anzahl an Vektoren 400. Nur eine vorgegebene Anzahl an Vektoren, zum Beispiel 20 Vektoren von den 400 Vektoren, werden als Merkmalsvektoren ausgewählt und es werden Eigenvektoren gebildet.
  • Danach werden eine Position und eine Skala eingestellt, um einen Bereich auszuwählen, aus dem ein Gesicht in einem Bild erfasst ist, und ein Gesicht wird unter Verwendung einer SVM mit niedriger Auflösung erfasst.
  • Die 5A und 5B stellen eine Vorgehensweise zum Verändern eines Suchfensters für eine Gesichtserfassung in einem Bild mit einem potentiellen Gesichtsbereich, der unter Verwendung einer Gabor-Wavelet-Transformation erfasst ist, und einem Umgebungsbereich dar. Bei einer Gesichtserfassung unter Verwendung der SVM mit niedriger Auflösung, werden ein Suchfensterreferenzpunkt und ein Bewegungsbereich des Suchfensterreferenzpunkts entsprechend der Position und Größe des potentiellen Gesichtsbereichs bestimmt. Mit Bezug zu 5A bezeichnet ein kleines schraffiertes Rechteck den potentiellen Gesichtsbereich und ein äußeres größeres Rechteck bezeichnet die Gesichtserfassungsfläche, in der eine Gesichtserfassung unter Verwendung einer SVM mit niedriger Auflösung durchzuführen ist. Zum Beispiel wird in 5A eine obere linke Ecke als erster Suchfensterreferenzpunkt gesetzt und das Suchfenster kann auf 80 × 80 gesetzt werden, wie es in 5B gezeigt ist. Danach werden Bilddaten im Suchfenster auf 20 × 20 umgewandelt. Die umgewandelten Bilddaten werden mit SV-Daten verglichen, die aus dem Lernen erhalten sind, um ein Gesicht zu erfassen. Anschließend wird das Suchfenster graduell erweitert und das Umwandeln und Vergleichen werden wiederholt. Wenn eine maximale Grenze des Suchfensters auf 160 × 160 gesetzt ist und das Suchfenster jedes Mal um 20 Pixel in Länge und Breite erweitert wird, wird das Suchfenster schrittweise von 80 × 80 auf 160 × 160 erweitert und Lernen und Vergleich werden fünf Mal wiederholt. Da eine Gesichtserfassung in einer Fläche durchgeführt werden muss, die durch das äußere größere Rechteck von 5A definiert ist, wird der Suchfensterreferenzpunkt nach rechts und nach unten verschoben, um das Suchfenster zu erweitern, wie es in 5B gezeigt ist. Eine Gesichtserfassung wird wiederholt, wenn das Suchfenster erweitert ist.
  • Eine Gesichtserfassung unter Verwendung einer SVM mit hoher Auflösung wird in Schritt S312 auf die selbe Weise durchgeführt wie die unter Verwendung einer SVM mit niedriger Auflösung in Schritt S308, mit der Ausnahme, dass die Anzahl an Umwandlungsvektoren und die Anzahl an Eigenvektoren zunimmt, so dass ein Gesicht präziser erfasst wird. Insbesondere ist es notwendig, eines durch Lernen für ein System konstruierte Gesichtsdatenbank bereitzustellen. Die Gesichtsdatenbank wird durch Lernen unter Verwendung von Gesichtsbildern und Bildern ohne Gesicht konstruiert. Beim Lernen für die SVM mit hoher Auflösung werden die Bilder mit und ohne Gesicht auf eine vorgegebene Größe umgewandelt, zum Beispiel 40 × 40. Hier beträgt die Anzahl an Vektoren 1600. Nur eine vorgegebene Anzahl von Vektoren, zum Beispiel 50 Vektoren von den 1600 Vektoren, werden als Merkmalsvektoren ausgewählt und Eigenvektoren gebildet.
  • Danach werden eine Position und eine Skala eingestellt, um einen Bereich auszuwählen, aus dem ein Gesicht in einem Bild erfasst ist, und ein Gesicht wird unter Verwendung einer SVM mit hoher Auflösung erfasst. Es werden ein Suchfensterreferenzpunkt und sein Bewegungsbereich auf die selbe Weise wie bei der Gesichtserfassung unter Verwendung der SVM mit niedriger Auflösung ausgewählt, wie es in den 5A und 5B gezeigt ist, mit der Ausnahme, dass sie in einer peripheren Zone eines Gesichtsbereichs ausgewählt werden, der unter Verwendung der SVM mit niedriger Auflösung erfasst ist.
  • Wie oben beschrieben beinhaltet ein Verfahren zum Erfassen eines Gesichts gemäß der vorliegenden Erfindung drei Schritte: Erfassen eines potentiellen Gesichtsbereichs (S304), Erfassen eines Gesichts unter Verwendung einer SVM mit niedriger Auflösung (S308) und Erfassen eines Gesichts unter Verwendung einer SVM mit hoher Auflösung (S312), wodurch die Zuverlässigkeit, Genauigkeit und Geschwindigkeit einer Gesichtserfassung erhöht werden.
  • Folglich wird schließlich nur bestimmt, dass ein Gesicht erfasst ist, wenn bestimmt ist, dass ein Gesicht als Ergebnis der Erfassung unter Verwendung der SVM mit hoher Auflösung (S314) erfasst ist. Wenn bestimmt wird, dass ein Gesicht in Schritt S314 bestimmt ist, obwohl der momentane Bildframe tatsächlich kein Gesicht enthält, nimmt die Fehlalarmrate (FAR) zu. Wenn bestimmt wird, dass ein Gesicht in Schritt S314 in Bezug auf den momentanen Bildframe erfasst ist, der tatsächlich ein Gesicht enthält, nimmt die Gesichtserfassungsrate (FDR) zu.
  • Wenn bestimmt wird, dass in Schritt S310 oder S314 kein Gesicht erfasst ist, wird in Schritt 318 bestimmt, ob die Anzahl an Gesichtserfassungsversuchen COUNT_FD gleich oder größer als ein vorgegebener Schwellenwert TH1 ist (der als erster Schwellenwert bezeichnet wird). Der erste Schwellenwert TH1 kann zum Beispiel auf 10 gesetzt werden.
  • In Schritt 318 wird basierend auf einer vorgegebenen Anzahl an Gesichtserfassungsversuchen und einer vorgegebenen Zeitspanne bestimmt, ob der Vorgang zu einer Bewegungserfassung geht. Ob ein sich einem Terminal näherndes Objekt eine Person ist, kann durch eine Gesichtserfassung nicht 100%ig bestimmt werden. Es ist schwierig ein Gesicht zu erkennen, wenn ein Benutzer eine Maske oder eine Sonnenbrille trägt oder mit dem Rücken zur Kamera gewandt steht, obwohl der Benutzer eine Bewegung vollführt. In dieser Situation wird kein Gesicht erfasst, aber es ist notwendig, das Bild mit einer Bewegung zu spei chern. Dementsprechend wird, wenn basierend auf einer Begrenzung der Anzahl an Gesichtserfassungsversuchen, aus einer vorgegebenen Anzahl an eingegebenen Bildframes bestimmt ist, dass kein Gesicht erfasst ist, wird die Gesichtserfassung gestoppt und eine Bewegungserfassung durchgeführt. Hier ist die Anzahl an Gesichtserfassungsversuchen COUNT_FD gleich der Anzahl an Gesichtserfassungsfehlschlägen. Schritt S318 ist vorgesehen, um die Anzahl an Versuchen zu begrenzen. Wenn eine Gesichtserfassung in einem Fehlschlag endet, d. h. wenn bestimmt ist, dass der potentielle Gesichtsbereich in Schritt S306 nicht erfasst ist, wenn bestimmt ist, dass das Gesicht als Folge einer Erfassung unter Verwendung von SVM mit niedriger Auflösung in Schritt S310 nicht erfasst ist, oder wenn bestimmt ist, dass das Gesicht als Folge einer Erfassung unter Verwendung von SVM mit niedriger Auflösung in Schritt S314 nicht erfasst ist, wird in Schritt S318 bestimmt, ob die Anzahl an Gesichtserfassungsversuchen COUNT_FD gleich oder größer ist als der erste Schwellenwert TH1. Wenn bestimmt ist, dass die Anzahl an Gesichtserfassungsversuchen COUNT_FD kleiner ist als der erste Schwellenwert TH1, geht der Vorgang zu Schritt S300. Wenn bestimmt ist, dass die Anzahl an Erfassungsversuchen COUNT_FD gleich oder größer ist als der erste Schwellenwert TH1, geht der Vorgang zu Schritt S320.
  • In Schritt S320 wird der Erfassungsmodus DETECT_MODE auf "1" gesetzt, so dass der Modus in einen Bewegungserfassungsmodus wechselt. Mit anderen Worten, wenn das Gesicht selbst nach der vorgegebenen Anzahl an Gesichtserfassungsversuchen (TH1) nicht erfasst ist, wird der Modus in den Bewegungserfassungsmodus gewechselt. Danach geht der Vorgang zu Schritt S20. Da der Erfassungsmodus DETECT_MODE auf "1" gesetzt ist, wird eine Bewegungserfassung gemäß dem Ergebnis der Bestimmung von Schritt S20 durchgeführt.
  • Wenn indessen bestimmt ist, dass das Gesicht als Ergebnis der Erfassung unter Verwendung der SVM mit hoher Auflösung in Schritt S314 erfasst ist, wird der momentane Bildframe gespeichert und die Anzahl an Gesichtserfassungsversuchen COUNT_FD wird in Schritt S316 auf "0" initialisiert. Dann geht der Vorgang zu Schritt S300. Mit anderen Worten, wenn das Gesicht erfasst ist, wird die Gesichtserfassung fortgesetzt.
  • 6 ist ein Flussdiagramm einer Ausführungsform des in 1 gezeigten Schritt S40. Die Ausführungsform von Schritt S40 beinhaltet Empfangen einer vorgegebenen Anzahl an Bildframes, Erfassen einer Bewegung gemäß einem Algorithmus zur temporären Kantenerfassung, Übergehen zu einer Gesichtserfassung, wenn eine vorgegebene Anzahl an Bewegungserfassungen in einer vorgegebene Zeitspanne erfolgreich ist und kontinuierliches Fortsetzen der Bewegungserfassung, wenn dies nicht der Fall ist (S400 bis S414).
  • Bei der vorliegenden Erfindung wird eine Bewegung basierend auf einer temporären Kante erfasst, die durch Erweitern einer räumlichen Kante zu einer Zeitdomäne definiert ist. Bildframes, die in einer vorgegebenen Zeitspanne eingegeben sind, werden gruppiert und als Bewegungserfassungseinheit definiert. Eine zeitliche Variation bei diesen Bildframes wird zum Erfassen einer Bewegung ausgewertet.
  • In der Ausführungsform der vorliegenden Erfindung werden eine Reihe von Bildframes, zum Beispiel 10 Bildframes, die durch Photographieren eines Objekts, das sich dem Terminal nähert, aufgenommen sind, über eine vorgegebene Zeitspanne einer Einzelbewegungserfassung unterzogen. Mit anderen Worten, die Bewegungserfassung wird in Einheiten einer vorgegebenen Anzahl an Bildframes, zum Beispiel 10 Bildframes vorgenommen. Ein einzelner Bildframe enthält "n" Pixel mit einer vorgegebenen Auflösung. Dementsprechend wird, wenn eine Einzelbewegungserfassung vorgenommen wird, eine temporäre Variation in 10 Pi xelwerten eines interessierenden Pixels ausgewertet, um zu bestimmen, ob das interessierende Pixel ein Bewegungspixel ist. Die Auswertung wird an den "n" Pixeln wiederholt durchgeführt.
  • Bei der vorliegenden Erfindung ist eine Digitalkamera durch eine vorgegebene Anzahl an Bildframes pro Zeiteinheit gekennzeichnet. Wenn dementsprechend 30 Frames pro Sekunde aufgenommen werden, können annähernd drei Bewegungserfassungen pro Sekunde vorgenommen werden.
  • Eine in 1 gezeigte Ausführungsform von Schritt S40 wird nun ausführlich mit Bezug zu 6 beschrieben. Es wird eine vorgegebene Anzahl an Bildframes, zum Beispiel 10 Bildframes empfangen (S400). Danach wird die Anzahl an Bewegungserfassungsversuchen COUNT_MD um 1 erhöht (S402). Danach wird eine Bewegung in den Bildframes unter Verwendung eines Algorithmus zur temporären Kantenerfassung erfasst (S404).
  • Eine räumliche Kante ist eine Abgrenzung zwischen zwei Bereichen mit unterschiedlicher Helligkeit. Die räumliche Kante kann unter Verwendung einer Sobel-Maske, einer Prewitt-Maske, einer Laplace-Maske oder einer Canny-Maske erfasst werden. Im Falle einer Kantenerfassung unter Verwendung einer Laplace-Maske, kann das Konzept der räumlichen Kante auf das Konzept der temporären Kante erweitert werden, dementsprechend kann eine Bewegung in Bildframes unter Verwendung dieser temporären Kantenerfassung erfasst werden.
  • 7 ist ein Flussdiagramm einer Ausführungsform von Schritt S404. Die Ausführungsform von Schritt 404 beinhaltet Erfassen von Pixeln durch Ermitteln von Nulldurchgängen der zeitabhängigen Laplacefunktion, Vergleichen einer lokalen Varianz an diesen Punkten mit einem vorgegebenen Wert und Berücksichtigung von Pixeln mit einer lokalen Varianz gleich oder größer als der vorgegebene Wert als Bewegungspixel (S4040 bis S4044).
  • Insbesondere werden Pixel, die unter Ermittlung von Nulldurchgängen der zeitabhängigen Laplacefunktion bestimmt sind, unter Verwendung einer vorgegebenen Anzahl an Bildframes in Schritt 4040 erfasst.
  • 8 ist ein Flussdiagramm einer Ausführungsform von Schritt S4040, wie in 7 gezeigt. Unter der Annahme, dass 2m Bildframes empfangen wurden (wobei "m" eine positive ganze Zahl ist) und "n" Pixel in jedem Bildframe vorhanden sind, beinhaltet die Ausführungsform von Schritt S4040 Klassifizieren der 2 m Bildframes in zwei Gruppen: eine Gruppe f(t1) bis f(t2m–1), die andere Gruppe von f(t2) bis f(t2m), Ermitteln der zeitabhängigen Laplacefunktion für die beiden Gruppen und Bestimmen von Nulldurchgängen oder anderen als Nulldurchgängen der Laplacefunktion (S4040a bis S4040c). Hier bezeichnen f(t1) bis f(t2m) Pixelwerte eines momentanen interessierenden Pixels bei Verarbeitung der 2 m Bildframes. Die Schritte S4040a bis S4040c werden so oft wiederholt, wie es der Anzahl an Pixeln in jedem Bildframe entspricht, d. h. "n" Mal bei einer Einzelbewegungserfassung. Die Ausführungsform von Schritt S4040 wird nun ausführlich beschrieben.
  • Die Formeln (1) und (2) sind Beispiele einer Berechnung zum Erfassen einer räumlichen Kante unter Verwendung einer typischen 3 × 3 Laplace-Maske. 2f = 4z5 – (z2 + z4 + z6 + z8) (1) 2f = 8z5 – (z1 + z2 + z3 + z4 + z6 + z7 + z8 + z9) (2)
  • In Schritt S4040a wird jeder der Bildframes f(t1) bis f(t2m–1) in einer Gruppe mit einem vorgegebenen Gewicht multipliziert und dann ein Mittelwert gebildet, wodurch eine temporäre Laplacefunktion von f(tm) ermittelt wird. Um eine temporäre Kante durch Erweitern der typischen 3 × 3 Laplace-Maske zu einer temporären Domäne zu erweitern, wird die Anzahl an Bildframes, die in einer Gruppe enthalten sind, auf 9 gesetzt. Wenn zum Beispiel m = 5 ist, wird jeder der 9 Bildframes f(t1) bis f(t9) mit dem vorgegebenen Gewicht multipliziert und dann ein Mittelwert gebildet, wodurch eine zeitabhängige Laplacefunktion von f(t5) erhalten wird, das heißt, ∇2f(t5). ∇2f(t5) kann unter Verwendung der Formel (3) oder (4) berechnet werden. 2f(t5) = 4f(t5) – (f(t2) + f(t4) + f(t6) + f(t8)) (3) 2f(t5) = 8f(t5) – (f(t1) + f(t2) + f(t3) + f(t4) + f(t6) + f(t7) + f(t8) + f(t9)) (4)
  • Eine andere zeitabhängige Laplacefunktion von Pixelwerten ist notwendig, um ein Pixel mit einem Nulldurchgang der Laplacefunktion zu erfassen. Daher wird in Schritt S4040b jeder der Bildframes f(t2) bis f(t2m) in einer anderen Gruppe mit dem vorgegebenen Gewicht multipliziert und dann ein Mittelwert gebildet, wodurch eine zeitabhängige Laplacefunktion von f(tm+1) ermittelt wird. Zur Verwendung der typischen 3 × 3 Laplace-Maske werden zum Beispiel jeder der 9 Bildframes f(t2) bis f(t10) mit dem vorgegebenen Gewicht multipliziert und dann ein Mittelwert gebildet, wodurch eine zeitabhängige Laplacefunktion von f(t6) erhalten wird, das heißt, ∇2f(t6). ∇2f(t6) kann unter Verwendung der Formel (5) oder (6) berechnet werden. 2f(t6) = 4f(t6) – (f(t3) + f(t5) + f(t7) + f(t9)) (5) 2f(t6) = 8f(t6) – (f(t2) + f(t3) + f(t4) + f(t5) + f(t7) + f(t8) + f(t9) + f(t10)) (6)
  • In Schritt S4040c werden Nulldurchgänge und andere als Nulldurchgänge der Laplacefunktion bestimmt. Insbesondere, wenn ∇2f(tm) negativ ist und ∇2f(tm+1) positiv ist, oder wenn ∇2f(tm) positiv ist und ∇2f(tm+1) negativ ist, wird ein interessierendes Pixel als Nulldurchgangspixel bestimmt. Mit anderen Worten, wenn m = 5 ist, wird ein Nulldurchgangspixel in Abhängigkeit davon bestimmt, ob ein Nulldurchgang zwischen ∇2f(t5) und ∇2f(t6) erfolgt. Wenn bestimmt ist, dass ein Nulldurchgang erfolgt ist, wird ein interessierendes Pixel f(tm) als Bewegungspixel erfasst.
  • In Schritt S4042 wird die zeitabhängige Varianz von Pixelwerten unter Verwendung der vorgegebenen Anzahl von Bildframes berechnet. Schritt S4042 kann nach oder parallel zu Schritt S4040 durchgeführt werden. Die Varianz σ kann unter Verwendung von Formel (7) berechnet werden.
    Figure 00200001
  • Nach den Schritten S4040 und S4042 wird bestimmt, ob die Varianz, die für jedes der Pixel berechnet ist, die durch Ermitteln von Nulldurchgängen der Laplacefunktion erfasst sind, gleich oder größer als ein vorgegebener Schwellenwert ist, und wenn bestimmt ist, dass die Varianz gleich oder größer als der vorgegebene Schwellenwert ist, wird das Pixel in Schritt 4044 als Bewegungspixel bestimmt. Wenn bestimmt ist, dass die Varianz kleiner als der vorgegebene Schwellenwert ist, wird bestimmt, dass obwohl eine temporäre Veränderung in einem Pixel vorliegt, diese Veränderung eine Rauschen ähnliche Veränderung ist, die zum Beispiel durch Beleuchtung bedingt ist und keine tatsächliche Bewegung eines Objekts. Aufgrund von Schritt S4044 ist ein Verfahren zum Erfassen einer Bewegung gemäß der vorliegenden Erfindung ro bust bei Rauschen wie einer Veränderung in der Beleuchtung oder Umgebung.
  • Nach Schritt S404 wird in Schritt S406 bestimmt, ob eine Bewegung erfasst wurde. Schritt S406 kann so ausgeführt sein, dass er eine Bestimmung beinhaltet, ob die Anzahl an als Bewegungspixel in Schritt S404 bestimmter Pixel gleich oder größer ist als ein vorgegebener Wert und Bestimmung, dass eine Bewegung erfasst ist, wenn die Anzahl an Bewegungspixeln mindestens einen bestimmten Wert erreicht.
  • Wenn bestimmt ist, dass eine Bewegung erfasst wurde, wird in Schritt S408 die Anzahl an Bewegungserfassungserfolgen SUCCESS_MD um 1 erhöht und ein Bild gespeichert. Hier ist das gespeicherte Bild ein Bildframe f(tm). Wenn m = 5 ist, wird ein Bildframe f(t5) gespeichert.
  • Nach Schritt S408 wird in Schritt S410 bestimmt, ob Bedingungen, dass die Anzahl an Bewegungserfassungsversuchen COUNT_MD kleiner als ein Drittel eines Schwellenwerts TH3 ist, zum Beispiel 30 (COUNT_MD < 30) und die Anzahl an Bewegungserfassungserfolgen SUCCESS_MD gleich oder größer ist als ein zweiter Schwellenwert TH2, zum Beispiel 10 (SUCCESS_MD ≥ 10) erfüllt sind. Wenn bestimmt ist, dass die Bedingungen erfüllt sind, geht der Vorgang zu Schritt S10. Mit anderen Worten, wenn die Bedingungen erfüllt sind, ist der Zweck des Bewegungserfassungsmodus erreicht. Wenn eine vorgegebene Anzahl an Bewegungserfassungen innerhalb einer vorgegebenen Zeit erfolgreich durchgeführt wurden, wird bestimmt, dass die Bedingungen einer Gesichtserfassung erfüllt sind, und eine Gesichtserfassung wird durchgeführt, weil es ein Endzweck des Sicherheitssystems ist, ein Gesicht akkurat zu erfassen. In Schritt S10 werden alle Parameter initialisiert und dadurch der Vorgang im Gesichtserfassungsmodus durchgeführt.
  • Wenn bestimmt ist, dass in Schritt S406 keine Bewegung erfasst wurde oder wenn bestimmt ist, dass in Schritt S410 die Bedingungen nicht erfüllt sind, wird in Schritt S412 bestimmt, ob die Anzahl an Bewegungserfassungsversuchen COUNT_MD gleich oder größer ist als der dritte Schwellenwert TH3. Wenn bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen COUNT_MD kleiner ist als der dritte Schwellenwert TH3, geht der Vorgang zu Schritt S400.
  • Wenn jedoch bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen COUNT_MD gleich oder größer ist als der dritte Schwellenwert TH3, wird die Anzahl an Bewegungserfassungsversuchen COUNT_MD und die Anzahl an Bewegungserfassungserfolgen SUCCESS_MD in Schritt S414 initialisiert, und dann geht der Vorgang zu Schritt S400. Es ist ein Ziel der vorliegenden Erfindung, eine vorgegebene Anzahl an Bewegungserfassungen in einer "vorgegebenen Zeitspanne" erfolgreich durchzuführen. Wenn eine Bewegung eventuell nach einer langen Zeitspanne seit dem Beginn des Bewegungserfassungsmodus erfasst wird, wird angenommen, dass es keine Möglichkeit gibt, dass ein Gesicht erfasst werden kann. Wenn dementsprechend die vorgegebene Zeitspanne verstreicht, bevor eine vorgegebene Anzahl an Bewegungserfassungen erfolgreich durchgeführt ist, das heißt, wenn die Anzahl an Bewegungserfassungsversuchen COUNT_MD gleich oder größer ist als der dritte Schwellenwert TH3, werden Zählwerte für eine Bewegungserfassung initialisiert, um eine neue Bewegungserfassung durchzuführen.
  • Indessen ist es notwendig, eine Gesichtserfassung mitten in der Durchführung einer Bewegungserfassung vorzunehmen, um einen Benutzer effizient zu erfassen. Mit anderen Worten, es ist notwendig, eine Situation vorzubereiten, in der ein sich einem Terminal nähernder Benutzer sich für eine vorgegebene Zeitspanne nicht bewegt. Dementsprechend kann Schritt S40 so ausgeführt sein, dass er die Bewegungserfassung um eine bestimmte Zeit unterbricht und eine Gesichtserfassung durchführt.
  • Da die Laplacefunktion auf Rauschen empfindlich ist, kann der Schritt S404 ferner Durchführen einer Gauss-Filterung an den Bildframes beinhalten, um die Bildframes zu glätten, bevor die Laplacefunktion eines Pixelwerts in Schritt S4040 ermittelt wird.
  • 9 ist ein Flussdiagramm eines Verfahrens zum Erfassen einer Bewegung in einem Sicherheitssystem gemäß einer Ausführungsform der vorliegenden Erfindung. Das Verfahren beinhaltet Empfangen einer vorgegebenen Anzahl an Bildframes, Erfassen einer Bewegung unter Verwendung eines Algorithmus zur temporären Kantenerfassung, Speichern eines Bildes, wenn innerhalb einer vorgegebenen Zeitspanne eine Bewegung erfasst ist und Fortsetzen der Bewegungserfassung, wenn innerhalb der vorgegebenen Zeitspanne keine Bewegung erfasst ist (S500 bis S506).
  • Insbesondere wird die vorgegebene Anzahl an Bildframes in Schritt S500 empfangen. Danach wird eine Bewegung unter Verwendung des Algorithmus zur temporären Kantenerfassung und der Varianz von Pixelwerten mit der Zeit in Schritt S502 erfasst. Schritt S502 kann so ausgeführt sein, dass er die in 7 gezeigten Schritte S4040 bis S4044 beinhaltet.
  • Insbesondere beinhaltet Schritt S502 Erfassen von Pixeln durch Ermitteln von Nulldurchgängen der zeitabhängigen Laplacefunktion unter Verwendung der vorgegebenen Anzahl an Bildframes (Schritt 4004). Unter der Annahme, dass 2m Bildframes empfangen sind und "n" Pixel in jedem Bildframe vorhanden sind, kann Schritt S4040 so ausgeführt sein, dass er die in 8 gezeigten Schritte S4040a bis S4040c beinhaltet.
  • Schritt S4040 beinhaltet Multiplizieren jedes Bildframes in einer Gruppe von Bildframes f(t1) bis f(t2m–1) mit einem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass ∇2f(tm) ermittelt wird (S4040a), Multiplizieren jedes Bildframes in einer anderen Gruppe von Bildframes f(t2) bis f(t2m) mit dem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass ∇2f(tm+1) ermittelt wird (S4040b) und Bestimmen eines interessierenden Pixels als ein Pixel mit Nulldurchgang, wenn ∇2f(tm) negativ ist und ∇2f(tm+1) positiv ist oder wenn ∇2f(tm) positiv ist und ∇2f(tm+1) negativ ist (S4040c). Hier bezeichnen f(t1) bis f(t2m) Pixelwerte eines momentanen interessierenden Pixels unter Bearbeitung. Die Schritte S4040a bis S4040c werden "n" Mal wiederholt.
  • Nach Schritt S4040 wird die zeitabhängige Varianz von Pixelwerten unter Verwendung der vorgegebenen Anzahl an Bildframes in Schritt S4042 berechnet. Das Verfahren zum Erfassen einer Bewegung kann ferner Durchführen einer Gauss-Filterung an den Bildframes zum Glätten der Bildframes vor Schritt S4040 beinhalten.
  • Nach Schritt S4042 wird bestimmt, ob die für jedes Pixel mit Nulldurchgang der Laplacefunktion berechnete Varianz gleich oder größer als ein vorgegebener Schwellenwert ist, und wenn bestimmt ist, dass die Varianz gleich oder größer als der vorgegebene Schwellenwert ist, wird das Pixel in Schritt S4044 als Bewegungspixel bestimmt. Wenn bestimmt ist, dass die Varianz kleiner als der vorgegebene Schwellenwert ist, wird bestimmt, dass obwohl eine zeitliche Veränderung in Pixeln vorliegt, diese Veränderung eine Rauschen ähnliche Veränderung bedingt durch die Beleuchtung ist und keine tatsächliche Bewegung eines Objekts. Aufgrund von Schritt S4044 ist ein Verfahren zum Erfassen einer Bewe gung gemäß der vorliegenden Erfindung bei Rauschen, wie einer Veränderung in Beleuchtung oder Umgebung, robust.
  • Nach Schritt S502 wird in Schritt S504 bestimmt, ob eine Bewegung erfasst wurde. Bevorzugt wird bestimmt, ob die Anzahl an Bewegungspixeln gleich oder größer als ein vorgegebener Wert ist, und es wird bestimmt, dass eine Bewegung erfasst wurde, wenn die Anzahl an Bewegungspixeln gleich oder größer als der vorgegebene Wert ist.
  • Wenn bestimmt ist, dass keine Bewegung erfasst wurde, geht der Vorgang zu Schritt S500, ohne das Bild zu speichern. Wenn bestimmt ist, dass eine Bewegung erfasst wurde, wird das Bild in Schritt S506 gespeichert und der Vorgang geht zu Schritt S500.
  • 10 ist ein Blockdiagramm einer Vorrichtung 20 zum Erfassen einer Person gemäß einer Ausführungsform der vorliegenden Erfindung. Die Vorrichtung 20 beinhaltet eine Gesichtserfassungseinheit 200, die ein Gesicht aus einem Bild erfasst, das von einer digitalen Videokamera 10 eingegeben ist, eine Bewegungserfassungseinheit 210, die eine Bewegung erfasst, eine Steuereinheit 220, die eine Gesichtserfassung und eine Bewegungserfassung steuert, und eine Speichereinheit 230, die das Bild speichert.
  • Die Gesichtserfassungseinheit 200 führt eine Gesichtserfassung an einem eingegebenen Bild in Abhängigkeit von einem Erfassungsmodussignal 221 durch, das von der Steuereinheit 220 empfangen ist und gibt ein Gesichtserfassungsergebnissignal 222 aus, das einen Erfolg oder einen Fehlschlag der Gesichtserfassung angibt.
  • In Abhängigkeit vom Erfassungsmodussignal 221, das von der Steuereinheit 220 empfangen ist, empfängt die Bewegungserfassungseinheit 210 eine vorgegebene Anzahl an Bildframes auf einmal, führt eine Be wegungserfassung unter Verwendung eines Algorithmus zur temporären Kantenerfassung durch und gibt ein Bewegungserfassungsergebnissignal 223 aus, das einen Erfolg oder Fehlschlag der Bewegungserfassung angibt.
  • In Abhängigkeit von einem Bildspeicherbefehlssignal 224, das von der Steuereinheit 220 empfangen ist, speichert die Speichereinheit 230 ein Bild, das von der digitalen Videokamera 10 eingegeben ist.
  • Die Steuereinheit 220 initialisiert Parameter, die für eine Benutzererfassung verwendet werden, gibt das Erfassungsmodussignal 221 aus, das die Gesichtserfassungseinheit 200 oder die Bewegungserfassungseinheit 210 aktiviert, gibt das Bildspeicherbefehlssignal 224 in Abhängigkeit vom Gesichtserfassungsergebnissignal 222 oder dem Bewegungserfassungsergebnissignal 223 aus, zählt die Anzahl an Gesichtserfassungsversuchen in Abhängigkeit vom Gesichtserfassungsergebnissignal 222 und zählt die Anzahl an Bewegungserfassungsversuchen und die Anzahl an Bewegungserfassungserfolgen in Abhängigkeit vom Bewegungserfassungsergebnissignal 223. Die Steuereinheit 220 gibt das Erfassungsmodussignal 221 auf einem hohen Pegel, so dass die Bewegungserfassungseinheit 210 aktiviert wird, wenn die Anzahl an Gesichtserfassungsversuchen gleich oder größer ist als der erste Schwellenwert TH1, zum Beispiel 10, und gibt das Erfassungsmodussignal 221 auf einem niedrigen Pegel, um die Gesichtserfassungseinheit 200 zu aktivieren, wenn innerhalb einer vorgegebenen Zeitspanne die Anzahl an Bewegungserfassungserfolgen gleich oder größer ist als der dritte Schwellenwert TH3, zum Beispiel 10.
  • Die in 1 gezeigten Schritte S10 und S20 können von der Steuereinheit 220 durchgeführt werden. Der in 1 gezeigte Schritt S30 kann von der Gesichtserfassungseinheit 200, der Speichereinheit 230 und der Steuereinheit 240 durchgeführt werden. Der in 1 gezeigte Schritt S40 kann von der Bewegungserfassungseinheit 210, der Speichereinheit 230 und der Steuereinheit 240 durchgeführt werden.
  • Wie in 10 gezeigt, weist die Gesichtserfassungseinheit 200 einen Detektor 201 für einen potentiellen Gesichtsbereich, einen Gesichtsdetektor 202 mit niedriger Auflösung, einen Gesichtsdetektor 203 mit hoher Auflösung und einen Gesichtserfassungsergebnissignalgenerator 204 auf.
  • Der Detektor 201 für den potentiellen Gesichtsbereich erfasst einen potentiellen Gesichtsbereich aus einem Bild, das von der digitalen Videokamera 10 eingegeben ist, unter Verwendung einer Gabor-Wavelet-Transformation mit M-Gitter, gibt den erfassten potentiellen Gesichtsbereich aus und gibt das Ergebnis der Erfassung als erstes Gesichtserfassungsergebnis aus. Wenn zum Beispiel ein potentieller Gesichtsbereich erfasst ist, kann das erste Gesichtserfassungsergebnis auf einem hohen Pegel ausgegeben werden. Wenn jedoch kein potentieller Gesichtsbereich erfasst ist, kann das erste Gesichtserfassungsergebnis auf einem niedrigen Pegel ausgegeben werden. Die in 2 gezeigten Schritte S304 und S306 können vom Detektor 201 für den potentiellen Gesichtsbereich durchgeführt werden.
  • Der Gesichtsdetektor 202 mit niedriger Auflösung erfasst einen Gesichtsbereich aus einer vorgegebenen Fläche, die den vom Detektor 201 für den potentiellen Gesichtsbereich erfassten potentiellen Gesichtsbereich enthält, unter Verwendung einer SVM mit niedriger Auflösung, gibt den erfassten Gesichtsbereich aus und gibt das Ergebnis der Erfassung als zweites Gesichtserfassungsergebnis aus. Wenn zum Beispiel ein Gesichtsbereich mit niedriger Auflösung erfasst ist, kann das zweite Gesichtserfassungsergebnis auf einem hohen Pegel ausgegeben werden. Wenn jedoch kein Gesichtsbereich mit niedriger Auflösung erfasst ist, kann das zweite Gesichtserfassungsergebnis in einem niedrigen Pegel ausgegeben werden. Die in 2 gezeigten Schritte S308 und S310 können vom Gesichtsdetektor 202 mit niedriger Auflösung durchgeführt werden.
  • Der Gesichtsdetektor 203 mit hoher Auflösung erfasst ein Gesicht aus einer vorgegebenen Fläche, die den Gesichtsbereich mit niedriger Auflösung enthält, der vom Gesichtsdetektor 202 mit niedriger Auflösung erfasst wurde, unter Verwendung einer SVM mit hoher Auflösung und gibt das Ergebnis der Erfassung als drittes Gesichtserfassungsergebnis aus. Wenn zum Beispiel ein Gesicht mit hoher Auflösung erfasst ist, kann das dritte Gesichtserfassungsergebnis auf einem hohen Pegel ausgegeben werden. Wenn jedoch kein Gesicht mit hoher Auflösung erfasst ist, kann das dritte Gesichtserfassungsergebnis auf einem niedrigen Pegel ausgegeben werden. Die in 2 gezeigten Schritte S312 und S314 können vom Gesichtsdetektor 203 mit hoher Auflösung durchgeführt werden.
  • Der Gesichtserfassungsergebnissignalgenerator 204 erzeugt das Gesichtserfassungsergebnissignal 222 in Abhängigkeit vom ersten bis dritten Gesichtserfassungsergebnis. Der Gesichtserfassungsergebnissignalgenerator 204 kann so ausgeführt sein, dass er das Gesichtserfassungsergebnissignal 222 auf einem niedrigen Pegel erzeugt, wenn eines der ersten bis dritten Gesichtserfassungsergebnisse auf dem niedrigen Pegel ist. Zum Beispiel kann der Gesichtserfassungsergebnissignalgenerator 204 von einem UND-Gate implementiert sein, das das erste bis dritte Gesichtserfassungsergebnis durch ein Eingangsterminal empfängt.
  • Wie in 10 gezeigt ist, weist die Bewegungserfassungseinheit 210 einen Kantendetektor 210, einen Varianzkalkulator 212, einen Bewegungspixeldetektor 213 und einen Bewegungserfassungsergebnissignalgenerator 214 auf.
  • Der Kantendetektor 211 bestimmt ein Kantenpixel durch Ermitteln eines Nulldurchgangs der zeitabhängigen Laplacefunktion. Der in 7 gezeigte Schritt S4040 kann vom Kantendetektor 211 durchgeführt werden.
  • Der Varianzkalkulator 212 berechnet die Varianz von Pixelwerten in Zeitabhängigkeit. Der in 7 gezeigte Schritt S4042 kann vom Varianzkalkulator 212 durchgeführt werden.
  • Der Bewegungspixeldetektor 213 bestimmt das Kantenpixel als Bewegungspixel, wenn die vom Varianzkalkulator 212 berechnete Varianz gleich oder größer als ein vorgegebener Wert ist. Der in 7 gezeigte Schritt S4044 kann vom Bewegungspixeldetektor 213 durchgeführt werden.
  • Der Bewegungserfassungsergebnissignalgenerator 214 erzeugt das Bewegungserfassungsergebnissignal 223 entsprechend dazu, ob die Anzahl an Bewegungspixeln in einem Bildframe mindestens gleich einem vorgegebenen Wert ist. Zum Beispiel kann der Bewegungserfassungsergebnissignalgenerator 214 so ausgeführt sein, dass er das Bewegungserfassungsergebnissignal 223 auf einem hohen Pegel erzeugt, wenn die Anzahl an Bewegungspixeln mindestens den vorgegebenen Wert erreicht und das Bewegungserfassungsergebnissignal 223 auf einem niedrigen Pegel erzeugt, wenn die Anzahl an Bewegungspixeln kleiner als der vorgegebene Wert ist.
  • Wie oben beschrieben können bei einem Verfahren und einer Vorrichtung zum Erfassen von Personen gemäß der vorliegenden Erfindung eine Gesichtserfassung und eine Bewegungserfassung wiederholt oder komplementär durchgeführt werden, während ein System so betrieben wird, dass eine akkurate Erfassung, eine hohe Ausführungsgeschwin digkeit und hohe Speichernutzungseffizienz von aufgenommenen Bildern erreicht werden können. Außerdem kann eine tatsächliche Bewegung eines Objekts akkurat erfasst werden, ohne dass es durch Rauschen, wie eine Veränderung in der Beleuchtung oder Umgebung, beeinflusst wird.
  • Obwohl einige Ausführungsformen der vorliegenden Erfindung gezeigt und beschrieben wurden, versteht es sich für die Fachleute, dass verschiedene Veränderungen an diesen Elementen vorgenommen werden können, ohne den Rahmen der Erfindung zu verlassen, wobei der Rahmen in den beigefügten Ansprüchen und ihren Äquivalenten definiert ist.

Claims (26)

  1. Verfahren zum Erfassen einer Bewegung aus einem Bild, das von einer digitalen Videokamera bereitgestellt wird, wobei das Verfahren umfasst: d1) Empfangen einer vorgegebenen Anzahl 2m von Bildframes; d2) Erfassen einer Bewegung in den Bildframes; d3) Bestimmen, ob eine Bewegung erfasst worden ist; und d3y) wenn bestimmt ist, dass eine Bewegung erfasst worden ist, Speichern des Bildes, dadurch gekennzeichnet, dass Schritt d2) zum Erfassen einer Bewegung in den Bildframes einen Algorithmus zur temporären Kantenerfassung und Varianz von Pixelwerten mit der Zeit verwendet, und ferner die Schritte umfasst: d20) Erfassen von Pixeln mit Nulldurchgang durch Ermitteln von Nulldurchgängen einer zeitabhängigen Laplacefunktion ∇2f(t) unter Verwendung der vorgegebenen Anzahl an Bildframes f(t1), ..., f(t2m), wobei ein Nulldurchgang auftritt, wenn ein Vorzeichenwechsel zwischen temporären Laplacefunktionen eines momentanen Bildframes f(tm) und eines nächsten Bildframes f(tm+1) auftritt; d22) Berechnen der Varianz von Pixelwerten mit der Zeit unter Verwendung der vorgegebenen Anzahl an Bildframes; und d24) Bestimmen, ob die für jedes Pixel mit Nulldurchgang berechnete Varianz der Laplacefunktion gleich oder größer als ein vorgegebener Wert ist, und Bestimmen des Pixels als ein Bewegungspixel, wenn bestimmt ist, dass die Varianz gleich oder größer als der vorgegebene Wert ist.
  2. Verfahren nach Anspruch 1, wobei, wenn 2m Bildframes empfangen werden und "n" Pixel in jedem Bildframe vorhanden sind, Schritt d20) umfasst: d200) Multiplizieren jedes f(t1) bis f(t2m–1) in einer Gruppe von Bildframes mit einem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass eine zeitabhängige Laplacefunktion von f(tm) erhalten wird, ∇2f(tm); und d202) Multiplizieren jedes f(t2) bis f(t2m) in einer anderen Gruppe von Bildframes mit einem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass eine zeitabhängige Laplacefunktion von f(tm+1) erhalten wird, ∇2f(tm+1); und d204) Bestimmen eines interessierenden Pixels als ein Pixel mit Nulldurchgang, wenn ∇2f(tm) negativ ist und ∇2f(tm+1) positiv ist oder wenn ∇2f(tm) positiv ist und ∇2f(tm+1) negativ ist, wobei f(t1) bis f(t2m) Pixelwerte der in Bearbeitung befindlichen interessierenden Pixel bezeichnen und die Schritte d200) bis d204) "n" Mal wiederholt werden.
  3. Verfahren nach Anspruch 1 oder 2, wobei Schritt d3) umfasst: Bestimmen, ob die Anzahl an Pixeln, die in Schritt d2) als Bewegungspixel bestimmt wurden, gleich oder größer ist als ein vorgegebener Wert, und Bestimmen, dass eine Bewegung erfasst worden ist, wenn bestimmt ist, dass die Anzahl an Bewegungspixeln mindestens den vorgegebenen Wert erreicht.
  4. Verfahren nach Anspruch 1, 2 oder 3 ferner umfassend: Durchführen einer Gauss-Filterung der empfangenen Bildframes zum Glätten der Bildframes vor Schritt d20).
  5. Verfahren zum Erfassen einer Person aus einem Bild, das von einer digitalen Videokamera bereitgestellt wird, unter Verwendung von Bewegungserfassung, die durch das Verfahren nach einem der vorhergehenden Ansprüche durchgeführt wird, wobei das Verfahren umfasst: a) Initialisieren von Parametern, die für eine Benutzererfassung verwendet werden; b) Bestimmen eines aktuellen Modus; c) wenn bestimmt ist, dass der aktuelle Modus ein Erfassungsmodus ist, Durchführen einer Gesichtserfassung an jedem einer Mehrzahl von Bildframes, und, wenn selbst nach einer vorgegebenen Anzahl an Gesichtserfassungsversuchen kein Gesicht erfasst worden ist, Auswählen eines Bewegungserfassungsmodus und Rückkehr zu Schritt b); d) wenn bestimmt ist, dass der aktuelle Modus ein Bewegungserfassungsmodus ist, Durchführung von Bewegungserfassung an einer vorgegebenen Anzahl an Bildframes zu einem Zeitpunkt unter Verwendung des Verfahrens nach einem der vorhergehenden Ansprüche, und, wenn mindestens eine vorgegebene Anzahl an Bewegungserfassungen innerhalb einer vorgegebenen Zeitspanne erfolgreich durchgeführt wurde, Rückkehr zu Schritt a); d11) nach Empfangen einer vorgegebenen Anzahl an Bildframes d1) und vor Erfassen einer Bewegung in den Bildframes d2) Erhöhen der Anzahl an Bewegungserfassungsversuchen um 1; d3y1) wenn bestimmt ist, dass eine Bewegung erfasst worden ist, Erhöhen der Anzahl an Bewegungserfassungserfolgen um 1; d3y2) Bestimmen, ob Bedingungen, dass die Anzahl an Bewegungserfassungsversuchen kleiner als ein dritter Schwellenwert ist und die Anzahl an Bewegungserfassungserfolgen gleich oder größer ist als ein zweiter Schwellenwert, erfüllt sind, und Rückkehr zu Schritt a), wenn bestimmt ist, dass die Bedingungen erfüllt sind; d3n) wenn bestimmt ist, dass in Schritt d3) keine Bewegung erfasst worden ist, oder wenn bestimmt ist, dass die Bedingungen in Schritt d3y2) nicht erfüllt sind, Bestimmen, ob die Anzahl an Bewegungserfassungsversuchen gleich oder größer ist als der dritte Schwellenwert, und Rückkehr zu Schritt d1), wenn bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen kleiner ist als der dritte Schwellenwert; und d3n1) wenn bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen gleich oder größer ist als der dritte Schwellenwert, Initialisieren der Anzahl an Bewegungserfassungsversuchen und der Anzahl an Bewegungserfassungserfolgen und Rückkehr zu Schritt d1).
  6. Verfahren nach Anspruch 5, wobei Schritt c) umfasst: Erfassen eines potentiellen Gesichtsbereichs unter Verwendung einer Gabor-Wavelet-Transformation.
  7. Verfahren nach Anspruch 6, wobei Schritt c) umfasst: Erfassen eines Gesichts unter Verwendung einer Supportvektor-Maschine (SVM) mit geringer Auflösung und einer SVM mit hoher Auflösung.
  8. Verfahren nach Anspruch 7, wobei Schritt c) umfasst: c1) Empfangen eines einzelnen Bildframes; c2) Erhöhen der Anzahl an Gesichtserfassungsversuchen um 1; c3) Erfassen des potentiellen Gesichtsbereichs durch Lernen einer Mehrzahl von Modellgesichtsfiguren basierend auf einer Gabor-Wavelet-Transformation mit M-Gitter und Bestimmen, ob ein potentieller Gesichtsbereich erfasst worden ist; c4) wenn bestimmt ist, dass ein potentieller Gesichtsbereich erfasst worden ist, Durchführen einer Gesichtserfassung unter Verwendung der SVM mit geringer Auflösung und Bestimmen, ob ein Gesicht erfasst worden ist; c5) wenn bestimmt ist, dass unter Verwendung der SVM mit geringer Auflösung ein Gesicht erfasst worden ist, Durchführen einer Gesichtserfassung unter Verwendung der SVM mit hoher Auflösung und Bestimmen, ob ein Gesicht erfasst worden ist; c6) wenn bestimmt ist, dass unter Verwendung der SVM mit hoher Auflösung ein Gesicht erfasst worden ist, Speichern des momentanen Bildframes, Initialisieren der Anzahl an Gesichtserfassungsversuchen und Rückkehr zu Schritt c1); c7) wenn bestimmt ist, dass in Schritt c3) kein potentieller Gesichtsbereich erfasst worden ist, oder wenn bestimmt ist, dass in Schritt c4) oder c5) kein Gesicht erfasst worden ist, Bestimmen, ob die Anzahl an Gesichtserfassungsversuchen gleich oder größer ist als ein erster Schwellenwert, und Rückkehr zu Schritt c1), wenn bestimmt ist, dass die Anzahl an Gesichtserfassungsversuchen kleiner als der erste Schwellenwert ist; und c8) wenn bestimmt ist, dass die Anzahl an Gesichtserfassungsversuchen gleich oder größer ist als der erste Schwellenwert, Auswahl des Bewegungserfassungsmodus und Rückkehr zu Schritt b).
  9. Verfahren nach Anspruch 8, wobei in Schritt c3) M-Gitter-Intervalle zum Lernen der Modellgesichtsfiguren basierend auf einem Augenzwischenabstand und einem Abstand zwischen einem Mund und einer Verbindungslinie zweier Augen bestimmt werden.
  10. Verfahren nach Anspruch 8 oder 9, wobei die Schritte c4) und c5) umfassen: Durchführung einer Gesichtserfassung unter Verwendung einer Klassifizierung basierend auf einer SVM, die in Hauptkomponentenanalyse(PCA)-Unterräumen trainiert wurde.
  11. Verfahren nach Anspruch 10, wobei Schritt c4) umfasst: Auswählen eines Bereichs mit einer vorgegebenen Größe auf Basis einer vorgegebenen Position um den in Schritt c3) erfassten potentiellen Gesichtsbereich, Durchführen einer Gesichtserfassung im ausgewählten Bereich unter Verwendung der SVM mit geringer Auflösung und Wiederholen der Gesichtserfassung, während der ausgewählte Bereich so erweitert wird, dass ein vorgegebener Bereich einschließlich des potentiellen Gesichtsbereichs vollständig abgetastet wird.
  12. Verfahren nach Anspruch 10 oder 11, wobei Schritt c5) umfasst: Auswählen eines Bereichs mit einer vorgegebenen Größe auf Basis einer vorgegebenen Position um das in Schritt c4) erfasste Gesicht, Durchführen einer Gesichtserfassung im ausgewählten Bereich unter Verwendung der SVM mit hoher Auflösung und Wiederholen der Gesichtserfassung, während der ausgewählte Bereich so erweitert wird, dass ein vorgegebener Bereich einschließlich des Gesichts vollständig abgetastet wird.
  13. Verfahren nach einem der vorhergehenden Ansprüche, wobei Schritt d) Unterbrechen der Bewegungserfassung mit einer vorgegebenen Zeitspanne und dann Durchführen einer Gesichtserfassung umfasst.
  14. Vorrichtung zum Erfassen einer Bewegung aus einem Bild, das von einer digitalen Videokamera bereitgestellt wird, wobei die Vorrichtung umfasst: ein Mittel zum Empfangen einer vorgegebenen Anzahl an Bildframes; ein Mittel zum Erfassen einer Bewegung in den Bildframes; ein Mittel zum Bestimmen, ob eine Bewegung erfasst worden ist; und ein Mittel zum Speichern des Bildes, wenn bestimmt ist, dass eine Bewegung erfasst worden ist, und dadurch gekennzeichnet, dass das Mittel zum Erfassen einer Bewegung in dem Bild ferner umfasst: ein Mittel zum Durchführen der Bewegungserfassung unter Verwendung eines Algorithmus zur temporären Kantenerfassung und Varianz von Pixelwerten mit der Zeit; ein Mittel zum Erfassen von Pixeln mit Nulldurchgang durch Ermitteln von Nulldurchgängen einer zeitabhängigen Laplacefunktion ∇2f(t) unter Verwendung der vorgegebenen Anzahl an Bildframes, wobei ein Nulldurchgang auftritt, wenn ein Vorzeichenwechsel zwischen temporären Laplacefunktionen eines momentanen Bildframes f(tm) und eines nächsten Bildframes f(tm+1) auftritt; ein Mittel zum Berechnen der Varianz von Pixelwerten mit der Zeit unter Verwendung der vorgegebenen Anzahl an Bildframes; und ein Mittel zum Bestimmen, ob die für jedes Pixel mit Nulldurchgang berechnete Varianz der Laplacefunktion gleich oder größer als ein vorgegebener Wert ist, und Bestimmen des Pixels als Bewegungspixel, wenn bestimmt ist, dass die Varianz gleich oder größer als der vorgegebene Wert ist.
  15. Vorrichtung nach Anspruch 14, wobei das Mittel zum Erfassen von Pixeln durch Ermitteln von Nulldurchgängen der Laplacefunktion in Abhängigkeit von Pixelkoordinaten und der Zeit umfasst: ein Mittel zum Multiplizieren jedes f(t1) bis f(t2m–1) in einer Gruppe von Bildframes mit einem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass eine zeitabhängige Laplacefunktion von f(tm) erhalten wird, ∇2f(tm); ein Mittel zum Multiplizieren jedes f(t2) bis f(t2m) in einer anderen Gruppe von Bildframes mit einem vorgegebenen Gewicht und dann Mittelwertbildung der Multiplikationsergebnisse, so dass eine zeitabhängige Laplacefunktion von f(tm+1) erhalten wird, ∇2f(tm+1); und ein Mittel zum Bestimmen eines interessierenden Pixels als Pixel mit Nulldurchgang, wenn ∇2f(tm) negativ ist und ∇2f(tm+1) positiv ist oder wenn ∇2f(tm) positiv ist und ∇2f(tm+1) negativ ist, wobei 2m Bildframes empfangen werden, "n" Pixel in jedem Bildframe vorhanden sind, f(t1) bis f(t2m) Pixelwerte der in Bearbeitung befindlichen interessierenden Pixel bezeichnen und Funktionen der obigen drei Mittel "n" Mal wiederholt werden.
  16. Vorrichtung nach Anspruch 14 oder 15, wobei das Mittel zum Bestimmen, ob eine Bewegung erfasst worden ist, ein Mittel zum Bestimmen, ob die Anzahl an Pixeln, die als Bewegungspixel bestimmt sind, gleich oder größer ist als ein vorgegebener Wert, und Bestimmen, dass eine Bewegung erfasst worden ist, wenn bestimmt ist, dass die Anzahl an Bewegungspixeln gleich oder größer als der vorgegebene Wert ist, umfasst.
  17. Vorrichtung nach Anspruch 14, 15 oder 16 ferner umfassend ein Mittel zum Durchführen einer Gauss-Filterung an den empfangenen Bildframes zum Glätten der Bildframes und Übertragen der geglätteten Bildframes an das Mittel zum Erfassen einer Bewegung im aufgenommenen Bild.
  18. Vorrichtung zum Erfassen einer Person aus einem Bild, das von einer digitalen Videokamera, mit dem Bewegungserfassungsmittel der Vorrichtung von Anspruch 14 bereitgestellt wird, wobei die Vorrichtung umfasst: ein Mittel zum Initialisieren von Parametern, die zur Personenerfassung verwendet werden; ein Erfassungsmodusbestimmungsmittel zum Bestimmen eines aktuellen Modus; einen Gesichtserfassungsmodus zum Durchführen einer Gesichtserfassung an jedem einer Mehrzahl von Bildframes, wenn bestimmt ist, dass der aktu elle Modus ein Gesichtserfassungsmodus ist, und Auswählen eines Bewegungserfassungsmodus, wenn selbst nach einer vorgegebenen Anzahl an Gesichtserfassungsversuchen kein Gesicht erfasst worden ist; und ein Bewegungserfassungsmittel zum Durchführen einer Bewegungserfassung an einer vorgegebenen Anzahl an Bildframes zu einem Zeitpunkt, wenn bestimmt ist, dass der aktuelle Modus nicht der Gesichtserfassungsmodus ist, und Initialisieren der Parameter, wenn innerhalb einer vorgegebenen Zeitspanne mindestens eine vorgegebene Anzahl an Bewegungserfassungen erfolgreich durchgeführt ist, dadurch gekennzeichnet, dass das Bewegungserfassungsmittel eine Vorrichtung nach einem der Ansprüche 14 bis 17 umfasst und ferner umfasst: ein Mittel zum Erhöhen der Anzahl an Bewegungserfassungsversuchen um 1; ein Mittel zum Erhöhen der Anzahl an Bewegungserfassungserfolgen um 1, wenn bestimmt ist, dass eine Bewegung erfasst worden ist; ein Mittel zum Bestimmen, ob Bedingungen, dass die Anzahl an Bewegungserfassungsversuchen kleiner ist als ein dritter Schwellenwert und die Anzahl an Bewegungserfassungserfolgen gleich oder größer ist als ein zweiter Schwellenwert, erfüllt sind, Initialisieren der Parameter, wenn bestimmt ist, dass die Bedingungen erfüllt sind, und Behalten der Parameter, wenn bestimmt ist, dass die Bedingungen nicht erfüllt sind; ein Mittel zum Bestimmen, ob die Anzahl an Bewegungserfassungsversuchen gleich oder größer ist als der dritte Schwellenwert, wenn bestimmt ist, dass keine Bewegung erfasst worden ist, oder wenn bestimmt ist, dass die Bedingungen nicht erfüllt sind, und, wenn bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen kleiner ist als der dritte Schwellenwert, Behalten der Parameter, Empfangen einer vorgegebenen Anzahl an Bildframes und Durchführen einer Bewegungserfassung; und ein Mittel zum Initialisieren der Anzahl an Bewegungserfassungsversuchen und der Anzahl an Bewegungserfassungserfolgen, Empfangen einer vorgegebenen Anzahl an Bildframes und Durchführen einer Bewegungserfassung, wenn bestimmt ist, dass die Anzahl an Bewegungserfassungsversuchen gleich oder größer ist als der dritte Schwellenwert.
  19. Vorrichtung nach Anspruch 18, wobei das Bewegungserfassungsmittel ein Mittel zum Erfassen eines potentiellen Gesichtsbereichs unter Verwendung einer Gabor-Wavelet-Transformation umfasst.
  20. Vorrichtung nach Anspruch 19, wobei das Bewegungserfassungsmittel ein Mittel zum Erfassen eines Gesichts unter Verwendung einer Supportvektor-Maschine (SVM) mit geringer Auflösung und einer SVM mit hoher Auflösung umfasst.
  21. Vorrichtung nach Anspruch 20, wobei das Bewegungserfassungsmittel umfasst: ein Mittel zum Empfangen eines einzelnen Bildframes; ein Mittel zum Erhöhen der Anzahl an Gesichtserfassungsversuchen um 1; ein Erfassungsmittel für einen potentiellen Gesichtsbereich zum Erfassen des potentiellen Gesichtsbereichs durch Lernen einer Mehrzahl von Modellgesichtsfiguren basierend auf einer Gabor-Wavelet-Transformation mit M-Gitter und Bestimmen, ob ein potentieller Gesichtsbereich erfasst worden ist; ein Gesichtserfassungsmittel mit geringer Auflösung zum Durchführen einer Gesichtserfassung unter Verwendung der SVM mit geringer Auflösung, wenn bestimmt ist, dass ein potentieller Gesichtsbereich erfasst worden ist, und Bestimmen, ob ein Gesicht erfasst worden ist; ein Gesichtserfassungsmittel mit hoher Auflösung zum Durchführen einer Gesichtserfassung unter Verwendung der SVM mit hoher Auflösung, wenn bestimmt ist, dass unter Verwendung der SVM mit geringer Auflösung ein Gesicht erfasst worden ist, und Bestimmen, ob ein Gesicht erfasst worden ist; ein Mittel zum Speichern des momentanen Bildframes, Initialisieren der Anzahl an Gesichtserfassungsversuchen und Beibehalten des Gesichtserfassungsmodus, wenn bestimmt ist, dass unter Verwendung der SVM mit hoher Auflösung ein Gesicht erfasst worden ist; ein Mittel zum Bestimmen, ob die Anzahl an Gesichtserfassungsversuchen gleich oder größer ist als ein erster Schwellenwert, wenn bestimmt ist, dass kein potentieller Gesichtsbereich erfasst worden ist, oder wenn bestimmt ist, dass unter Verwendung der SVM mit geringer Auflösung oder hoher Auflösung kein Gesicht erfasst worden ist, und Beibehalten des Gesichtserfassungsmodus, wenn bestimmt ist, dass die Anzahl an Gesichtserfassungsversuchen kleiner ist als der erste Schwellenwert; und ein Mittel zum Auswählen des Bewegungserfassungsmodus, wenn bestimmt ist, dass die Anzahl an Gesichtserfassungsversuchen gleich oder größer ist als der erste Schwellenwert.
  22. Vorrichtung nach Anspruch 21, wobei das Erfassungsmittel für einen potentiellen Gesichtsbereich ein Mittel zum Bestimmen von M-Gitter-Intervallen zum Lernen der Modellgesichtsfiguren basierend auf einem Augenzwischenabstand und einem Abstand zwischen einem Mund und einer Verbindungslinie zweier Augen umfasst.
  23. Vorrichtung nach Anspruch 21 oder 22, wobei das Gesichtserfassungsmittel mit geringer Auflösung und das Gesichtserfassungsmittel mit hoher Auflösung ein Mittel zum Durchführen einer Gesichtserfassung unter Verwendung einer Klassifizierung basierend auf einer SVM, die in Hauptkomponentenanalyse(PCA)-Unterräumen trainiert wurde, umfassen.
  24. Vorrichtung nach Anspruch 23, wobei das Gesichtserfassungsmittel mit geringer Auflösung ein Mittel umfasst zum Auswählen eines Bereichs mit einer vorgegebenen Größe auf Basis einer vorgegebenen Position um den potentiellen Gesichtsbereich, der vom Erfassungsmittel für einen potentiellen Gesichtsbereich erfasst worden ist, Durchführen einer Gesichtserfassung am ausgewählten Bereich unter Verwendung der SVM mit geringer Auflösung und Wiederholen der Gesichtserfassung, während der ausgewählte Bereich so erweitert wird, dass ein vorgegebener Bereich einschließlich des potentiellen Gesichtsbereichs vollständig abgetastet wird.
  25. Vorrichtung nach Anspruch 23 oder 24, wobei das Gesichtserfassungsmittel mit hoher Auflösung ein Mittel umfasst zum Auswählen eines Bereichs mit einer vorgegebenen Größe auf Basis einer vorgegebenen Position um den Gesichtsbereich, der vom Gesichtserfassungsmittel mit geringer Auflösung erfasst worden ist, Durchführen einer Gesichtserfassung am ausgewählten Bereich unter Verwendung der SVM mit hoher Auflösung und Wiederholen der Gesichtserfassung, während der ausgewählte Bereich so erweitert wird, dass ein vorgegebener Bereich einschließlich des vom Gesichtserfassungsmittel mit geringer Auflösung erfassten Gesichts vollständig abgetastet wird.
  26. Vorrichtung nach einem der Ansprüche 14 bis 25, wobei das Bewegungserfassungsmittel ein Mittel zum Unterbrechen der Bewegungserfassung mit einer vorgegebenen Zeitspanne und dann Durchführen einer Gesichtserfassung umfasst.
DE60313941T 2002-12-06 2003-12-05 Personendetektion durch Gesichtsdetektion und Bewegungsdetektion Expired - Lifetime DE60313941T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2002-0077241A KR100455294B1 (ko) 2002-12-06 2002-12-06 감시 시스템에서의 사용자 검출 방법, 움직임 검출 방법및 사용자 검출 장치
KR2002077241 2002-12-06

Publications (2)

Publication Number Publication Date
DE60313941D1 DE60313941D1 (de) 2007-07-05
DE60313941T2 true DE60313941T2 (de) 2008-01-17

Family

ID=32310893

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60313941T Expired - Lifetime DE60313941T2 (de) 2002-12-06 2003-12-05 Personendetektion durch Gesichtsdetektion und Bewegungsdetektion

Country Status (6)

Country Link
US (2) US7409091B2 (de)
EP (1) EP1426898B1 (de)
JP (1) JP4275516B2 (de)
KR (1) KR100455294B1 (de)
CN (2) CN1523533A (de)
DE (1) DE60313941T2 (de)

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7359529B2 (en) * 2003-03-06 2008-04-15 Samsung Electronics Co., Ltd. Image-detectable monitoring system and method for using the same
JP4322537B2 (ja) * 2003-04-07 2009-09-02 株式会社豊田中央研究所 マスク着用判定装置
JP4121026B2 (ja) * 2004-01-21 2008-07-16 富士フイルム株式会社 撮像装置および方法並びにプログラム
GB2414616A (en) * 2004-05-28 2005-11-30 Sony Uk Ltd Comparing test image with a set of reference images
JP4320272B2 (ja) * 2004-03-31 2009-08-26 富士フイルム株式会社 特定領域検出方法、特定領域検出装置、およびプログラム
US7620242B2 (en) * 2004-04-06 2009-11-17 Fujifilm Corporation Particular-region detection method and apparatus, and program therefor
KR100552709B1 (ko) * 2004-05-21 2006-02-20 삼성전자주식회사 눈검출 장치 및 방법
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
WO2008091483A2 (en) 2007-01-23 2008-07-31 Euclid Discoveries, Llc Computer method and apparatus for processing image data
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
CA2575211C (en) 2004-07-30 2012-12-11 Euclid Discoveries, Llc Apparatus and method for processing video data
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
JP4686153B2 (ja) * 2004-09-10 2011-05-18 日立オムロンターミナルソリューションズ株式会社 情報処理装置、不正者検出方法および現金自動預け払い装置
US20080080744A1 (en) * 2004-09-17 2008-04-03 Mitsubishi Electric Corporation Face Identification Apparatus and Face Identification Method
EP1800238A4 (de) * 2004-09-21 2012-01-25 Euclid Discoveries Llc Vorrichtung und verfahren zum verarbeiten von videodaten
JP4459788B2 (ja) * 2004-11-16 2010-04-28 パナソニック株式会社 顔特徴照合装置、顔特徴照合方法、及びプログラム
US20060132856A1 (en) * 2004-11-26 2006-06-22 Fuji Photo Film Co., Ltd. Image forming method and image forming apparatus
US8406695B2 (en) * 2004-12-23 2013-03-26 Qualcomm Incorporated Joint interference cancellation of pilot, overhead and traffic channels
JP2008529414A (ja) * 2005-01-28 2008-07-31 ユークリッド・ディスカバリーズ・エルエルシー ビデオデータを処理する装置および方法
KR100698179B1 (ko) * 2005-02-21 2007-03-22 엘지전자 주식회사 영상기기 및 그의 운용 방법
CN101167363B (zh) * 2005-03-31 2010-07-07 欧几里得发现有限责任公司 处理视频数据的方法
KR100735549B1 (ko) * 2005-08-08 2007-07-04 삼성전자주식회사 영상의 피부색을 변환하는 영상 처리 방법 및 장치
JP2007072520A (ja) * 2005-09-02 2007-03-22 Sony Corp 映像処理装置
US8098885B2 (en) * 2005-11-02 2012-01-17 Microsoft Corporation Robust online face tracking
US8265349B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
US8265392B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Inter-mode region-of-interest video object segmentation
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
TWI325124B (en) * 2006-05-10 2010-05-21 Realtek Semiconductor Corp Motion detection method and related apparatus
JP4172507B2 (ja) * 2006-07-13 2008-10-29 ソニー株式会社 撮像装置、および撮像装置制御方法、並びにコンピュータ・プログラム
TWI324313B (en) * 2006-08-25 2010-05-01 Compal Electronics Inc Identification mathod
KR100882509B1 (ko) * 2006-09-20 2009-02-06 연세대학교 산학협력단 주성분 요소방법을 이용한 노인 움직임 영상 감시 장치 및방법
US7986336B2 (en) * 2006-11-27 2011-07-26 Eastman Kodak Company Image capture apparatus with indicator
EP2106663A2 (de) 2007-01-23 2009-10-07 Euclid Discoveries, LLC Objektarchivierungssysteme und -verfahren
US8243118B2 (en) 2007-01-23 2012-08-14 Euclid Discoveries, Llc Systems and methods for providing personal video services
KR20080073933A (ko) 2007-02-07 2008-08-12 삼성전자주식회사 객체 트래킹 방법 및 장치, 그리고 객체 포즈 정보 산출방법 및 장치
KR100851981B1 (ko) * 2007-02-14 2008-08-12 삼성전자주식회사 비디오 영상에서 실 객체 판별 방법 및 장치
JP4789825B2 (ja) * 2007-02-20 2011-10-12 キヤノン株式会社 撮像装置及びその制御方法
US20090016571A1 (en) * 2007-03-30 2009-01-15 Louis Tijerina Blur display for automotive night vision systems with enhanced form perception from low-resolution camera images
JP4315212B2 (ja) * 2007-05-02 2009-08-19 カシオ計算機株式会社 撮像装置、撮像制御プログラム及び撮像制御方法
US20090041311A1 (en) * 2007-08-09 2009-02-12 Jon Hundley Facial recognition based content blocking system
WO2009032255A2 (en) * 2007-09-04 2009-03-12 The Regents Of The University Of California Hierarchical motion vector processing method, software and devices
JP2009089174A (ja) * 2007-10-01 2009-04-23 Fujifilm Corp デジタルカメラおよびその撮影方法
KR101396326B1 (ko) 2007-10-12 2014-05-16 삼성전자주식회사 얼굴 검출을 위한 디지털 영상 처리 장치의 제어 방법 및이 방법을 채용한 디지털 영상 처리 장치
US8064697B2 (en) * 2007-10-12 2011-11-22 Microsoft Corporation Laplacian principal components analysis (LPCA)
KR100918436B1 (ko) * 2007-11-27 2009-09-24 계명대학교 산학협력단 비전 기반의 화재 감지 시스템 및 방법
CN100589114C (zh) * 2007-12-29 2010-02-10 北京中星微电子有限公司 图像中最大人脸的跟踪装置和方法
CA2711143C (en) 2007-12-31 2015-12-08 Ray Ganong Method, system, and computer program for identification and sharing of digital images with face signatures
US9721148B2 (en) 2007-12-31 2017-08-01 Applied Recognition Inc. Face detection and recognition
US9639740B2 (en) 2007-12-31 2017-05-02 Applied Recognition Inc. Face detection and recognition
EP2075400B1 (de) * 2007-12-31 2012-08-08 March Networks S.p.A. Videoüberwachungssystem
US8538171B2 (en) * 2008-03-28 2013-09-17 Honeywell International Inc. Method and system for object detection in images utilizing adaptive scanning
KR101299249B1 (ko) * 2008-08-29 2013-08-22 삼성테크윈 주식회사 디지털 촬영장치, 그 제어방법 및 제어방법을 실행시키기 위한 프로그램을 저장한 기록매체
CN101350906B (zh) * 2008-09-04 2012-06-27 北京中星微电子有限公司 图像矫正方法和图像矫正装置
US20100079508A1 (en) 2008-09-30 2010-04-01 Andrew Hodge Electronic devices with gaze detection capabilities
EP2345256B1 (de) 2008-10-07 2018-03-14 Euclid Discoveries, LLC Auf merkmalen basierende videokomprimierung
US8144945B2 (en) * 2008-12-04 2012-03-27 Nokia Corporation Method, apparatus and computer program product for providing an orientation independent face detector
JP5247480B2 (ja) * 2009-01-13 2013-07-24 キヤノン株式会社 オブジェクト識別装置及びオブジェクト識別方法
US8224042B2 (en) 2009-03-12 2012-07-17 Seiko Epson Corporation Automatic face recognition
KR101007281B1 (ko) * 2009-05-20 2011-01-13 한국전자통신연구원 원거리 얼굴 추적 장치 및 이를 이용한 얼굴 추적 방법
KR101038323B1 (ko) 2009-09-24 2011-06-01 주식회사 팬택 영상인식기법을 이용한 화면 프레임 제어장치
US8605956B2 (en) * 2009-11-18 2013-12-10 Google Inc. Automatically mining person models of celebrities for visual search applications
TW201120812A (en) * 2009-12-04 2011-06-16 Huper Lab Co Ltd Stabilization method for vibrating video frames
JP5476955B2 (ja) * 2009-12-04 2014-04-23 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
KR101694820B1 (ko) 2010-05-07 2017-01-23 삼성전자주식회사 사용자 위치 인식 방법 및 장치
US8600167B2 (en) 2010-05-21 2013-12-03 Hand Held Products, Inc. System for capturing a document in an image signal
US9047531B2 (en) 2010-05-21 2015-06-02 Hand Held Products, Inc. Interactive user interface for capturing a document in an image signal
CN102298702B (zh) * 2010-06-28 2015-08-05 北京中星微电子有限公司 一种人体姿态的检测方法及装置
JP5676956B2 (ja) * 2010-07-28 2015-02-25 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US9384408B2 (en) 2011-01-12 2016-07-05 Yahoo! Inc. Image analysis system and method using image recognition and text search
CN102214308B (zh) * 2011-05-17 2013-04-24 詹东晖 一种行人检测方法、系统
JP5530399B2 (ja) * 2011-05-23 2014-06-25 日本電信電話株式会社 画像処理方法、画像処理装置および画像処理プログラム
US9552376B2 (en) 2011-06-09 2017-01-24 MemoryWeb, LLC Method and apparatus for managing digital files
US8548207B2 (en) 2011-08-15 2013-10-01 Daon Holdings Limited Method of host-directed illumination and system for conducting host-directed illumination
US10089327B2 (en) 2011-08-18 2018-10-02 Qualcomm Incorporated Smart camera for sharing pictures automatically
US8635519B2 (en) 2011-08-26 2014-01-21 Luminate, Inc. System and method for sharing content based on positional tagging
KR101381439B1 (ko) * 2011-09-15 2014-04-04 가부시끼가이샤 도시바 얼굴 인식 장치 및 얼굴 인식 방법
US20130086112A1 (en) 2011-10-03 2013-04-04 James R. Everingham Image browsing system and method for a digital content platform
US8737678B2 (en) 2011-10-05 2014-05-27 Luminate, Inc. Platform for providing interactive applications on a digital content platform
USD736224S1 (en) 2011-10-10 2015-08-11 Yahoo! Inc. Portion of a display screen with a graphical user interface
USD737290S1 (en) 2011-10-10 2015-08-25 Yahoo! Inc. Portion of a display screen with a graphical user interface
US9202105B1 (en) 2012-01-13 2015-12-01 Amazon Technologies, Inc. Image analysis for user authentication
JP5306500B2 (ja) * 2012-02-29 2013-10-02 株式会社東芝 画像処理装置、画像処理方法及びプログラム
US8255495B1 (en) 2012-03-22 2012-08-28 Luminate, Inc. Digital image and content display systems and methods
US8234168B1 (en) 2012-04-19 2012-07-31 Luminate, Inc. Image content and quality assurance system and method
US8495489B1 (en) 2012-05-16 2013-07-23 Luminate, Inc. System and method for creating and displaying image annotations
CN102930287B (zh) * 2012-09-26 2015-09-02 上海理工大学 一种针对俯视行人的检测计数系统及方法
CN103996205B (zh) * 2013-02-15 2019-01-08 三星电子株式会社 一种电子设备和操作电子设备的方法
US10037467B2 (en) * 2013-09-26 2018-07-31 Nec Corporation Information processing system
US9471847B2 (en) * 2013-10-29 2016-10-18 Nec Corporation Efficient distance metric learning for fine-grained visual categorization
JP5888348B2 (ja) * 2014-01-23 2016-03-22 カシオ計算機株式会社 撮像装置、撮像制御方法、及びプログラム
US9621917B2 (en) 2014-03-10 2017-04-11 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
CN103971093A (zh) * 2014-04-22 2014-08-06 大连理工大学 基于多尺度lbp算法的疲劳检测方法
CN104008389A (zh) * 2014-06-16 2014-08-27 河南科技大学 结合Gabor小波和SVM进行物体识别的方法
US11256792B2 (en) 2014-08-28 2022-02-22 Facetec, Inc. Method and apparatus for creation and use of digital identification
US10803160B2 (en) 2014-08-28 2020-10-13 Facetec, Inc. Method to verify and identify blockchain with user question data
US10614204B2 (en) 2014-08-28 2020-04-07 Facetec, Inc. Facial recognition authentication system including path parameters
US10698995B2 (en) 2014-08-28 2020-06-30 Facetec, Inc. Method to verify identity using a previously collected biometric image/data
CA2902093C (en) 2014-08-28 2023-03-07 Kevin Alan Tussy Facial recognition authentication system including path parameters
US10915618B2 (en) 2014-08-28 2021-02-09 Facetec, Inc. Method to add remotely collected biometric images / templates to a database record of personal information
EP3035238A1 (de) 2014-12-19 2016-06-22 Tata Consultancy Services Limited Videoüberwachungssystem und verfahren zur betrugserkennung
US9804955B2 (en) * 2015-07-28 2017-10-31 TestPlant Europe Limited Method and apparatus for creating reference images for an automated test of software with a graphical user interface
US10200572B1 (en) 2016-03-03 2019-02-05 Amazon Technologies, Inc Motion detection
USD987653S1 (en) 2016-04-26 2023-05-30 Facetec, Inc. Display screen or portion thereof with graphical user interface
US10460300B2 (en) * 2016-06-01 2019-10-29 Multimedia Image Solution Limited Method of preventing fraud and theft during automated teller machine transactions and related system
US10297059B2 (en) 2016-12-21 2019-05-21 Motorola Solutions, Inc. Method and image processor for sending a combined image to human versus machine consumers
JP6907774B2 (ja) 2017-07-14 2021-07-21 オムロン株式会社 物体検出装置、物体検出方法、およびプログラム
US10915760B1 (en) 2017-08-22 2021-02-09 Objectvideo Labs, Llc Human detection using occupancy grid maps
US11068741B2 (en) * 2017-12-28 2021-07-20 Qualcomm Incorporated Multi-resolution feature description for object recognition
US11245707B2 (en) * 2018-03-31 2022-02-08 Ricoh Company, Ltd. Communication terminal, communication system, communication control method, and recording medium
CN109145716B (zh) * 2018-07-03 2019-04-16 南京思想机器信息科技有限公司 基于脸部识别的登机口检验平台
US10936178B2 (en) 2019-01-07 2021-03-02 MemoryWeb, LLC Systems and methods for analyzing and organizing digital photos and videos
RU2713615C1 (ru) * 2019-03-28 2020-02-05 Общество с ограниченной ответственностью "Арсенал 67" Система детектирования, поиска, распознавания и фиксации лица
CN110097673A (zh) * 2019-05-17 2019-08-06 北京深醒科技有限公司 一种基于红外摄像头下的门禁识别方法
CN110751120A (zh) * 2019-10-28 2020-02-04 杭州宇泛智能科技有限公司 一种检测方法、装置及电子设备
US11436445B2 (en) * 2020-04-06 2022-09-06 Qualcomm Incorporated Methods and apparatus for adaptive object classification
US11706546B2 (en) * 2021-06-01 2023-07-18 Sony Semiconductor Solutions Corporation Image sensor with integrated single object class detection deep neural network (DNN)
CN114154569B (zh) * 2021-11-25 2024-02-02 上海帜讯信息技术股份有限公司 噪音数据识别方法、装置、终端及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5164992A (en) * 1990-11-01 1992-11-17 Massachusetts Institute Of Technology Face recognition system
JPH0686295A (ja) * 1992-08-31 1994-03-25 Toshiba Corp 監視カメラ装置
KR100209793B1 (ko) * 1995-10-28 1999-07-15 전주범 특징점 기반 움직임 추정을 이용하여 비디오 신호를 부호화 및 복호화하는 장치
KR100200874B1 (ko) * 1996-01-17 1999-06-15 윤종용 움직임 검출에 의한 선택적 기록 장치 및 방법
US5767922A (en) * 1996-04-05 1998-06-16 Cornell Research Foundation, Inc. Apparatus and process for detecting scene breaks in a sequence of video frames
JP3613301B2 (ja) * 1996-06-20 2005-01-26 株式会社富士通ゼネラル 映像監視追跡装置
US5995115A (en) 1997-04-04 1999-11-30 Avid Technology, Inc. Computer system process and user interface for providing intelligent scissors for image composition
US6272231B1 (en) * 1998-11-06 2001-08-07 Eyematic Interfaces, Inc. Wavelet-based facial motion capture for avatar animation
KR100306355B1 (ko) * 1998-08-31 2001-11-30 안재인 사용자식별시스템및이를이용한현금인출기
US7050655B2 (en) * 1998-11-06 2006-05-23 Nevengineering, Inc. Method for generating an animated three-dimensional video head
KR100532990B1 (ko) * 1999-01-08 2005-12-02 엘지전자 주식회사 카메라의 움직임 검출 방법
KR100293897B1 (ko) * 1999-03-23 2001-06-15 박광소 은행거래시스템의 거래자 안면인식방법
US20030059124A1 (en) * 1999-04-16 2003-03-27 Viisage Technology, Inc. Real-time facial recognition and verification system
KR100364582B1 (ko) * 2000-04-28 2002-12-16 주식회사 네트웍코리아 다중 이동물체 추적/감시 시스템
EP1229734A1 (de) 2001-01-31 2002-08-07 GRETAG IMAGING Trading AG Automatische Farbfehlerkorrektur
KR20010044393A (ko) * 2001-02-16 2001-06-05 김영익 인간의 얼굴정보를 이용한 출입통제 및 보안 방법
US6917703B1 (en) * 2001-02-28 2005-07-12 Nevengineering, Inc. Method and apparatus for image analysis of a gabor-wavelet transformed image using a neural network
JP2002358523A (ja) * 2001-05-31 2002-12-13 Canon Inc パターン認識処理装置及びその方法、画像入力装置
US6834115B2 (en) * 2001-08-13 2004-12-21 Nevengineering, Inc. Method for optimizing off-line facial feature tracking
US7280696B2 (en) 2002-05-20 2007-10-09 Simmonds Precision Products, Inc. Video detection/verification system
US7245315B2 (en) * 2002-05-20 2007-07-17 Simmonds Precision Products, Inc. Distinguishing between fire and non-fire conditions using cameras
KR100513739B1 (ko) * 2002-08-23 2005-09-09 삼성전자주식회사 얼굴특징을 이용한 움직임 검출장치 및 이를 적용한감시시스템

Also Published As

Publication number Publication date
US7486826B2 (en) 2009-02-03
CN1963839A (zh) 2007-05-16
CN1523533A (zh) 2004-08-25
JP2004192646A (ja) 2004-07-08
US20070258646A1 (en) 2007-11-08
KR100455294B1 (ko) 2004-11-06
EP1426898B1 (de) 2007-05-23
US7409091B2 (en) 2008-08-05
JP4275516B2 (ja) 2009-06-10
KR20040049465A (ko) 2004-06-12
CN100504910C (zh) 2009-06-24
DE60313941D1 (de) 2007-07-05
US20050094849A1 (en) 2005-05-05
EP1426898A3 (de) 2005-10-12
EP1426898A2 (de) 2004-06-09

Similar Documents

Publication Publication Date Title
DE60313941T2 (de) Personendetektion durch Gesichtsdetektion und Bewegungsdetektion
DE69837233T2 (de) Verfahren und Gerät zur Bestimmung der Augenposition in einem Bild
DE602005001627T2 (de) Vorrichtung zur Extraktion von Fussgängern
EP1395945B1 (de) Verfahren zur faelschungserkennung bei der fingerabdruckerkennung unter verwendung einer texturklassifikation von grauwertdifferenzbildern
EP2467828B1 (de) Verfahren und system zur automatischen objekterkennung und anschliessenden objektverfolgung nach massgabe der objektform
EP1119822B1 (de) Verfahren und system zur personenerkennung mit modellbasierter gesichtsfindung
DE60037919T2 (de) Verfahren zum Wiederauffinden von Bildtexturen und Vorrichtung dafür
DE60030377T2 (de) Kennzeichenschilderkennung mit einer intelligenten Kamera
DE69922752T2 (de) Verfahren zum Detektieren eines menschlichen Gesichtes
DE60130742T2 (de) Mustererkennung mit hierarchischen Netzen
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
EP2584493B1 (de) Verfahren zur Unterscheidung zwischen einem realen Gesicht und einer zweidimensionalen Abbildung des Gesichts in einem biometrischen Erfassungsprozess
DE19634768A1 (de) Vorrichtung und Verfahren zur Erfassung eines Gesichts in einem Videobild
DE602004002837T2 (de) Objekterkennung
DE112018008131B4 (de) Zustandsbestimmungseinrichtung, zustandsbestimmungsverfahren und zustandsbestimmungsprogramm
DE102010016251A1 (de) Erkennungsverfahren für ein bewegliches Objekt und das der Erkennung des beweglichen Objekts zugrunde liegende Befehlseingabeverfahren
DE102006010607A1 (de) Wahrscheinlichkeitstheoretischer Verstärkungsbaum-Rahmen zum Lernen von Unterscheidungsmodellen
Xu et al. Real-time pedestrian detection based on edge factor and Histogram of Oriented Gradient
DE102007050568A1 (de) Verfahren und Einrichtung zur Objekterkennung in einem Bild
DE19831413A1 (de) Bildverarbeitungsverfahren und Vorrichtungen zur Erkennung von Objekten im Verkehr
DE102014226076A1 (de) Verfahren und Vorrichtung für die Erkennung von Passanten
EP2483834B1 (de) Verfahren und Vorrichtung zum Erkennen einer Fehldetektion eines Objekts in einem Bild
EP1021787B1 (de) Verfahren zum lokalisieren von objekten in standbildern mit anwendung auf die lokalisierung von gesichtern
WO2002025576A1 (de) System zur blickrichtungsdetektion aus bilddaten
EP0713592B1 (de) Verfahren zur erkennung der räumlichen lage und drehlage von in geeigneter weise markierten objekten in digitalen bildfolgen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition