DE19883010B4 - Verfahren und Vorrichtung zum Erkennen eines sich bewegenden Objekts in einer Abfolge von Farbvollbildern - Google Patents

Verfahren und Vorrichtung zum Erkennen eines sich bewegenden Objekts in einer Abfolge von Farbvollbildern Download PDF

Info

Publication number
DE19883010B4
DE19883010B4 DE19883010T DE19883010T DE19883010B4 DE 19883010 B4 DE19883010 B4 DE 19883010B4 DE 19883010 T DE19883010 T DE 19883010T DE 19883010 T DE19883010 T DE 19883010T DE 19883010 B4 DE19883010 B4 DE 19883010B4
Authority
DE
Germany
Prior art keywords
color
frame
pixel
normalized
transformed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19883010T
Other languages
English (en)
Other versions
DE19883010T1 (de
Inventor
Hyoung Gon Kim
Sang Chul Ahn
Nam Ho Kim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Korea Advanced Institute of Science and Technology KAIST
Korea Institute of Science and Technology KIST
Original Assignee
Korea Advanced Institute of Science and Technology KAIST
Korea Institute of Science and Technology KIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Korea Advanced Institute of Science and Technology KAIST, Korea Institute of Science and Technology KIST filed Critical Korea Advanced Institute of Science and Technology KAIST
Publication of DE19883010T1 publication Critical patent/DE19883010T1/de
Application granted granted Critical
Publication of DE19883010B4 publication Critical patent/DE19883010B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/543Motion estimation other than block-based using regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Color Television Systems (AREA)
  • Image Processing (AREA)
  • Processing Of Color Television Signals (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

Vorrichtung zum Erkennen eines sich bewegenden Objekts in einer Abfolge von Farbvollbildern, wobei das Farbvollbild über eine Vielzahl von Pixeln verfügt, von denen jedes drei Farbkomponenten aufweist, mit:
– einer Farbnormierungseinrichtung (100) zum Normieren von Farbkomponenten im Farbvollbild, um ein normiertes Farbvollbild zu erzeugen;
– einer Farbtransformationseinrichtung (200), die mit der Farbnormierungseinrichtung verbunden ist, um das normierte Farbvollbild einer Farbtransformation in ein erstes farbtransformiertes Vollbild zu unterziehen, das über Intensitätspegel in solcher Weise verfügt, dass dem sich bewegenden Objekt entsprechende Pixel hervorgehoben sind;
– einer Vollbild-Verzögerungseinrichtung (300), die mit der Farbtransformationseinrichtung verbunden ist, um das erste farbtransformierte Vollbild um ein Vollbild zu verzögern, das dann ein zweites farbtransformiertes Vollbild bildet; und
– einem mit der Farbtransformationseinrichtung und der Vollbild-Verzögerungseinrichtung verbundenen Bewegungsdetektor (400) zum Erkennen der Bewegung des sich bewegenden Objekts und zum weiteren Anheben der Intensitätspegel des ersten farbtransformierten Vollbilds auf Grundlage der erkannten Bewegung.

Description

  • Technisches Gebiet
  • Die Erfindung betrifft eine Vorrichtung und ein Verfahren zum Erkennen eines sich bewegenden Objekts in einem bewegten Bild, und spezieller betrifft sie eine Vorrichtung und ein Verfahren zum Erkennen eines Gesichtsbereichs in einem bewegten Bild unter Verwendung von Farb- und Bewegungsinformation für den Gesichtsbereich.
  • Hintergrundbildende Technik
  • Das Erkennen eines Gesichtsbereichs in einem bewegten Bild ist einer der Grundvoraussetzungsschritte bei der Gesichtserkennung. Bisher wurden herkömmliche Vorgehensweisen zum Erkennen eines Gesichtsbereichs nicht in großem Umfang verwendet, da derartige Vorgehensweisen durch Hintergrundbilder und die Größe und Ausrichtung des Gesichts beeinflusst werden.
  • Die Erkennung von Gesichtsbereichen kann unter Verwendung von Information betreffend die Form, die Farbe oder die Bewegung von Gesichtern ausgeführt werden.
  • Die Verwendung von Forminformation zum Erkennen eines Gesichtsbereichs kann dadurch erfolgen, dass die Änderung von Graupegeln gemessen wird und die Messwerte bei einer a-priori-Information für das Gesicht angewandt werden. Jedoch sollte die Vorgehensweise nur bei solchen Bildern angewandt werden, die eine Vorderaufnahme eines Gesichts enthalten, und das Erkennungsergebnis ist durch Hintergrundbilder sowie die Größe und die Ausrichtung des Gesichts stark beeinflusst.
  • Die Vorgehensweise des Verwendens von Farbinformation leidet unter rassebezogenen Abweichungen hinsichtlich der Gesichtsfarbe, da bei dieser Vorgehensweise ein Gesichtsbereich unter Verwendung der charakteristischen Farbe menschlicher Gesichter erkannt wird. Ferner benötigt die Vorgehensweise viel an Datenverarbeitung, da sie viel mehr Information verwendet, als sie bei der Vorgehensweise mit der Nutzung von Forminformation verwendet wird. Jedoch ist sie besser als die Vorgehensweise der Verwendung von Forminformation anwendbar, da in jüngerer Zeit eine Hardwaretechnik entwickelt wurde.
  • Auch Bewegungsinformation kann zum Erkennen von Gesichtsbereichen in bewegten Bildern verwendet werden, in denen sich ein Objekt, d. h. ein Gesicht, bewegt.
  • EP 0 735 509 A1 beschreibt ein Bildverarbeitungssystem zur Gesichtserkennung, bei dem empfangene Gesichtsbilddatensignale in ein HSV-Format umgewandelt werden und der Gesichtsbereich anfänglich an dem Bereich des Mundes und der Augen erkannt wird. Dabei werden nur die H und S Komponenten zur Erkennung des Gesichtsbereichs verwendet und die S und V Komponenten zur Erkennung des Mundes innerhalb des Gesichtsbereichs.
  • Die US 5,719,951 beschreibt ein Verfahren zur Bildverarbeitung, um innerhalb eines Bildes eine vorbestimmte Eigenschaft zu lokalisieren, wobei die Bilddaten extrahiert werden, um für jede Eigenschaft einen Eigenschaftsvektor zu berechnen, der die Position der Bilddaten des Merkmals in einem N-dimensionalen Raum darstellt, so dass der Raum durch eine Vielzahl von Referenzvektoren definiert wird.
  • Offenbarung der Erfindung
  • Daher ist es eine Hauptaufgabe der Erfindung, eine Vorrichtung und ein Verfahren zum Erkennen eines sich bewegenden Objekts zu schaffen, bei denen die Erkennung nicht durch Hintergrundbilder sowie die Größe und die Ausrichtung des sich bewegenden Objekts beeinflusst wird.
  • Es ist eine andere Aufgabe der Erfindung, eine Vorrichtung und ein Verfahren zum Erkennen eines sich bewegenden Objekts mit einem Gesichtsbereich zu schaffen, bei denen die Erkennung schneller als beim Stand der Technik ausgeführt werden kann.
  • Gemäß einer Erscheinungsform der Erfindung zum Lösen der vorstehend angegebenen Aufgabe ist eine Vorrichtung zum Erkennen eines sich bewegenden Objekts in einer Abfolge von Farbvollbildern geschaffen. Die Farbvollbilder verfügen über eine Vielzahl von Pixeln mit jeweils drei Farbkomponenten. Die Vorrichtung ist mit Folgendem versehen: einer Farbnormierungseinrichtung zum Normieren von Farbkomponenten in Farbvollbild, um ein normiertes Farbvollbild zu erzeugen; einer Farbtransformationseinrichtung, die mit der Farbnormierungseinrichtung verbunden ist, um das normierte Farbvollbild einer Farbtransformation in ein erstes farbtransformiertes Vollbild zu unterziehen, das über Intensitätspegel in solcher Weise verfügt, dass dem sich bewegenden Objekt entsprechende Pixel hervorgehoben sind; einer Vollbild-Verzögerungseinrichtung, die mit der Farbtransformationseinrichtung verbunden ist, um das erste farbtransformierte Vollbild um ein Vollbild zu verzögern, das dann ein zweites farbtransformiertes Vollbild bildet; und einem mit der Farbtransformationseinrichtung und der Vollbild-Verzögerungseinrichtung verbundenen Bewegungsdetektor zum Erkennen der Bewegung des sich bewegenden Objekts und zum weiteren Anheben der Intensitätspegel des ersten farbtransformierten Vollbilds auf Grundlage der erkannten Bewegung.
  • Kurze Beschreibung der Zeichnungen
  • Die Erfindung wird durch eine detaillierte Beschreibung der besten Art zum Ausführen derselben, wie nachfolgend angegeben, besser erkennbar werden. In der folgenden Beschreibung wird auf die beigefügten Zeichnungen Bezug genommen, in denen gleiche Bezugszahlen dazu verwendet sind, in den verschiedenen Ansichten gleiche Teile zu kennzeichnen.
  • 1 zeigt ein Blockdiagramm des Gesamtsystems zum Erkennen eines sich bewegenden Objekts in einem bewegten Farbbild gemäß der Erfindung;
  • 2 zeigt ein Blockdiagramm der Farbnormiereinrichtung 100 in 1;
  • 3a zeigt ein Histogramm normierter Farbkomponenten in einem typischen Gesichtspunkt.
  • 3b zeigt ein Histogramm normierter Farbkomponenten in Gesichtsbildern, die unter Verwendung einer zweidimensionalen Normalverteilung modelliert wurden.
  • 4 zeigt ein Blockdiagramm der Farbtransformationseinrichtung 200 in 1.
  • 5 zeigt Ergebnisse einer Farbtransformation unter Verwendung einer GFCD-Modellbildung eines typischen Gesichtsbilds.
  • 6 zeigt ein Blockdiagramm des Bewegungserkennungsblocks 400 in 1.
  • 7 zeigt Bewegungserkennungsergebnisse zweier aufeinanderfolgender Bilder mit einem rechteckigen Objekt.
  • 8 zeigt Bewegungserkennungsergebnisse zweier aufeinanderfolgender Bilder mit einem menschlichen Gesicht.
  • Beste Art zum Ausführen der Erfindung
  • 1 zeigt ein Blockdiagramm zum Veranschaulichen des Gesamtsystems zum Erkennen eines sich bewegenden Objekts in einem bewegten Farbbild gemäß der Erfindung. Das System verfügt über eine Farbnormiereinrichtung 100 zum Normieren von Farbkomponenten eines aktuellen Vollbilds im bewegten Farbbild; eine Farbtransformationseinrichtung 200 für Farbtransformation des normierten Vollbilds in ein farbtransformiertes Vollbild; eine Vollbild-Verzögerungseinrichtung 300 zum Zwischenspeichern des farbtransformierten Vollbilds von der Farbtransformationseinrichtung 200 zum Verzögern des farbtransformierten Vollbilds um ein Vollbild; und einen Bewegungsdetektor 400 zum Empfangen des farbtransformierten aktuellen und vorigen Vollbilds von der Farbtransformationseinrichtung 200 und der Vollbild-Verzögerungseinrichtung 300 und zum Erkennen der Bewegung des sich bewegenden Objekts. Das von der Farbtransformationseinrichtung erzeugte farbtransformierte Vollbild verfügt über solche Intensitätspegel, dass dem sich bewegenden Objekt entsprechende Pixel hervorgehoben sind. Der Bewegungsdetektor 400 verwendet die erkannte Bewegung der sich bewegenden Objekte, um die Intensitätspegel von Pixeln im sich bewegenden Objekt weiter anzuheben.
  • Unter Bezugnahme auf 2 wird nun der Betrieb der Farbtransformationseinrichtung 100 in 1 erläutert.
  • In einem Farbmodell für den RGB-Farbraum kann z. B. jede Farbinformation Q durch drei Farbkomponenten, nämlich Farbkomponenten R, G und B für Rot, Grün und Blau, mit verschiedenen Wellenlängen repräsentiert werden. Anders gesagt, kann die Farbinformation Q durch Q = (R, G, B) gegeben sein. Die Luminanz Y kann als Summe der drei Farbkomponenten definiert werden. Die Luminanz Y ist ein Maß für die sichtbare Strahlungsenergie, die die Helligkeitsempfindung auslöst. Um zu verhindern, dass die Helligkeit eines Bilds die Farbkomponenten desselben beeinflusst, müssen die Farbkomponenten jedes Pixels durch die Luminanz Y desselben normiert werden.
  • 2 zeigt ein Blockdiagramm der Farbtransformationseinrichtung 100. Die Farbtransformationseinrichtung 100 verfügt über eine Luminanz-Entnahmeeinrichtung 130 und zwei Normierungseinrichtungen 110 und 120. Die Luminanz-Entnahmeeinrichtung 130 wertet die Luminanz Y durch Aufsummieren der Farbkomponenten R, G und B für Rot, Grün und Blau für jedes Pixel eines Vollbilds aus, d. h. Y = R + G + B, und sie gibt sie aus. Dann empfängt der Normierer 110, z. B. ein Normierer für die rote Komponente, die Y-Werte, und er gibt eine normierte Farbkomponente R unter Verwendung der Luminanz Y und der Komponente R der roten Farbe aus, wobei r durch (R/Y)·255 gegeben ist. In ähnlicher Weise empfängt der Normierer 120, z. B. ein Normierer für die grüne Komponente, die Luminanz Y, und er gibt eine normierte Farbkomponente G aus, die durch g = (R/Y)·255 gegeben ist. Vorstehend ist angenommen, dass die Luminanz eine Tiefe von 3 Bits aufweist und das hellste Pixel über eine Luminanz von 255 verfügt. Durch Normierung kann jede Farbinformation Q durch zwei normierte Farbkomponenten r und g, d. h. Q = (r, g) repräsentiert werden, da die drei normierten Farbkomponenten r, g und b der Beziehung r + g + b = 255 genügen. Auf diese Weise kann das Farbmodell gemäß dem normierten Farbraum 2562/2 Farben repräsentieren, während das Farbmodell gemäß dem RGB- Farbraum 2563 Farben repräsentieren kann.
  • 3a zeigt ein Histogramm normierter Farbkomponenten für ein typisches Gesichtsbild. In 3a repräsentieren zwei horizontale Achsen die zwei normierten Farbkomponentenwerte r und g, und die vertikale Achse repräsentiert die Anzahl von Pixeln mit den normierten Farbkomponenten r und g in einem typischen Gesichtsbild. Die Verteilungen der normierten Farbkomponenten sind für alle Gesichtsbilder unabhängig vom Hintergrund und der Helligkeit ähnlich.
  • 3b zeigt das Histogramm normierter Farbkomponenten für ein Gesichtsbild, das durch eine zweidimensionale Normalverteilung modelliert wurde. Bei diesem Ausführungsbeispiel der Erfindung erfolgt die Modellbildung unter Verwendung einer zweidimensionalen Normalverteilung, wie in 3b dargestellt. Das Normalverteilungsmodell zur Farbverteilung in Gesichtsbildern wird als verallgemeinerte Gesichtsfarbenverteilung (GFCD = Generalized Face Color Distribution) bezeichnet. Der GFCD-Wert ist durch den Mittelwert m und die Varianz Σ2 definiert, anders gesagt, ist der GFCD-Wert durch GF(m, Σ2) repräsentiert. Sei dieser Repräsentation ist m = (/r, /g) der Mittelpunkt der zweidimensionalen Normalverteilung, wobei /r und /g die Mittelwerte der normierten Farbkomponenten für alle Pixel in einem Gesichtsbild sind. Σ2 repräsentiert die Kovarianzmatrix normierter Farbkomponenten in einem Gesichtsbild. Bei einem bevorzugten Ausführungsbeispiel kann der GFCD-Wert für Gesichtsbilder m = (105, 95) sein, und hinsichtlich Σ2 gilt σr = 20 und σg = 15. Unter Verwendung des GFCD-Modells kann ein eingegebenes Farbbild, das ein Gesicht enthält, in ein Graupegelbild transformiert werden, in dem Pixel mit Gesichtsfarbe hervorgehoben sind.
  • Durch Farbtransformation unter Verwendung eines Farbvertei lungsmodells werden normierte Farbkomponenten von Pixeln in Werte transformiert, die die Nähe der Farbkomponenten zum Mittelwert m = (/r, /g) der Normalverteilung im normierten Farbraum repräsentieren. Die Farbtransformation ist wie folgt definiert: f: R2→R1 Z(x, y) = GF(r(x, y), g(x, y)) (x, y)∈1 Gl. 1wobei (x, y) den Koordinaten eines Pixels im Gesichtsbild entspricht, g(x, y) und r(x, y) normierte Farbkomponenten des Pixels mit den Koordinaten (x, y) sind und GF() die verallgemeinerte Gesichtsfarbeverteilung-Funktion ist. Die Farbtransformation unter Verwendung der GFCD-Funktion erzeugt Werte, die proportional zur Nähe der Pixelfarbe in Bezug auf die Farbe eines menschlichen Gesichts sind.
  • Nun wird unter Bezugnahme auf die 4 und 5 der Betrieb der Farbtransformationseinrichtung 200 in 1 erläutert.
  • 4 zeigt ein Blockdiagramm dieser Farbtransformationseinrichtung 200. Die Farbtransformationseinrichtung 200 verfügt über Blöcke 210 und 220, zwei Normierungsblöcke 230 und 240 sowie einen Ausgangsblock 250. Der Block 210 empfängt die normierte Farbkomponente r von der Normierungseinrichtung 110, und er vergleicht diese mit dem Wert σr, der entsprechend einem speziellen GFCD-Modell vorab bestimmt wurde. Wenn sich die normierte Farbkomponente r innerhalb des Dreifachen von σr um /r herum befindet, gibt der Block 210 r' = |r – /r| aus. Andernfalls gibt der Block 210 einen sehr großen Wert aus, um Zr = 0 zu erzielen. Der Block 230 empfängt den Ausgangswert r' und gibt dadurch einen transformierten Wert Zr aus, dass er auf eine Nachschlagetabelle LUT Bezug nimmt, die eine eindimensionale normierte Gausszahl GF(0, σr 2) enthält. In ähnlicher Weise empfängt der Block 220 die normierte Farbkomponente g und vergleicht sie mit σg. Wenn sich die normierte Farbkomponente g innerhalb des Dreifachen von σg um /g herum befindet, gibt der Block 220 g' = |g – /g| aus. Andernfalls gibt der Block 220 einen sehr großen Wert aus, um Zg = 0 zu erzielen. Der Block 240 empfängt den Ausgangswert g', und er gibt einen transformierten Wert Zg dadurch aus, dass er auf eine Nachschlagetabelle LUT Bezug nimmt, die eine eindimensionale normierte Gausszahl GF(0, σg 2) enthält. Der Ausgangsblock 250 empfängt die Werte Zr und Zg, und er erstellt den Wert Z = (Zr·Zg)·255 und gibt diesen aus. 5 zeigt die Ergebnisse einer Farbtransformation unter Verwendung einer GFCD-Modellbildung für ein typisches Gesichtsbild. Wie es aus dem Ergebnisbild in 5 erkennbar ist, sind Gebiete mit der Farbe eines menschlichen Gesichts hervorgehoben.
  • Wenn irgendwelche Hintergrundbilder eine Farbe aufweisen, die der Farbe eines menschlichen Gesichts ähnlich ist, kann das obige Verfahren diese Hintergrundbilder genau so wie ein Gesichtsgebiet hervorheben. Um diese Schwierigkeit zu überwinden, verwendet das vorliegende Verfahren Bewegungsinformation für ein menschliches Gesicht. Im Allgemeinen bewegt sich nur das Gebiet mit einem menschlichen Gesicht, während Hintergrundbilder in Ruhe verbleiben. So kann das Gebiet mit einem menschlichen Gesicht hervorragend gegenüber Hintergrundbildern unterschieden werden, wenn Bewegungsinformation für das Gesichtsgebiet verwendet wird.
  • In der Technik sind zwei Verfahren zum Entnehmen von Bewegungsinformation aus zwei aufeinanderfolgenden Vollbildern gut bekannt. Es sind ein Bereichs-gestütztes Verfahren und ein Merkmalspunkt-gestütztes Verfahren. Die meisten Anwendungen in der Technik verwenden das Bereichs-gestützte Verfahren anstelle des Merkmalspunkt-gestützten Verfahrens, da das letztere im Allgemeinen eine Nachverarbeitung erfordert, die eine Interpolationstechnik verwendet.
  • Bei einem typischen Bereichs-gestützten Verfahren werden die Zwischenvollbilddifferenzen von Intensitätspegeln von einem speziellen Pixel benachbarten Pixeln aufsummiert, um die Bewegung des speziellen Pixels zu messen. Dieses Verfahren ist als Verfahren mit aufsummiertem Differenzmaß (ADN = Accumulated Difference Messure) bekannt. Da das ADM-Verfahren die Aufsummierung von Intensitätsdifferenzen benachbarter Pixel verwendet, erkennt es auf stabile Weise eine Bewegung gegenüber kleinen störenden Änderungen benachbarter Pixel. Jedoch werden durch den Mittelungseffekt Pixel mit kleinen Differenzen vernachlässigt, und die Messvorgänge werden durch die Bestimmung des Schwellenwerts stark beeinflusst.
  • So führt die Erfindung eine Bewegungserkennung vorzugsweise dadurch aus, dass Pixel gezählt werden, deren Zwischenvollbilddifferenzen in einem Fenster mit vorbestimmter Größe größer als ein Schwellenwert sind. Dieses Bewegungserkennungsmaß wird als Zählmaß für nicht übereinstimmende Pixel (UPC = Unmatching Pixel Count) bezeichnet, das wie folgt beschrieben werden kann:
    Figure 00110001
    wobei Th ein Schwellenwert ist, der dazu dient, zu bestimmen, ob die Intensitätswerte von Pixeln in zwei aufeinanderfolgenden Vollbildern übereinstimmen. Beim UPC-Verfahren ist, da auf pixelbezogene Weise Übereinstimmung geprüft wird und die Ergebnisse aufsummiert werden, der Mittelungseffekt verringert, so dass ein Überlappungsgebiet, das eine kleine Intensitätsänderung hervorruft, deutlich erfasst wird.
  • Um die Bewegung eines Farbbilds zu erkennen, kann die oben erläuterte Farbinformation verwendet werden. Der Fachmann erkennt, dass der Intensitätspegel jedes Pixels im farbtransformierten Bild, das unter Verwendung des Farbtransformationsverfahrens mit der GFCD-Modellbildung transformiert wurde, die Wahrscheinlichkeit repräsentiert, dass sich das Pixel in einem Gesichtsgebiet befindet. Die Farbinformation des farbtransformierten Bilds kann dadurch in Gl. 2 eingebaut werden, dass die Zählwerte mit dem Intensitätspegel des Pixels im farbtransformierten Bild gewichtet werden. Dieses neue Bewegungserkennungsmaß wird als gewichteter Zählwert mit nicht übereinstimmenden Pixeln (WUPC = Weighted Unmatching Pixel Count) bezeichnet. Der Wert WUPC(x, y, t) wird durch Ausführen einer Fuzzy-UND-Operation zwischen dem UPC(x, y, t) und dem Intensitätspegel des farbtransformierten Bilds Z(x, y, t) ermittelt. Das WUPC-Maß ist durch die folgende Gleichung gegeben:
    Figure 00120001
    wobei der Operator ⊗ der Fuzzy-UND-Operator ist. Dieses WUPC-Maß hebt die Bewegung von Pixeln mit einer Farbe hervor, die der Farbe eines menschlichen Gesichts ähnlich ist, während die Bewegung anderer Pixel, d. h. von Pixeln betreffend Hintergrundbilder, weniger hervorgehoben wird.
  • In Gl. 3 kann der Schwellenwert Th auf adaptive Weise dadurch erhalten werden, dass für jedes Pixel der transformierte Bildwert Z(x, y, t) verwendet wird. Anders gesagt, wird Th für Pixel in einem Gesichtsgebiet klein und für an dere Pixel groß. Auf diese Weise ist das WUPC-Maß hinsichtlich einer Bewegung von Pixeln in einem Gesichtsgebiet empfindlicher als hinsichtlicher der Bewegung anderer Pixel, so dass selbst eine kleine Bewegung eines Gesichtsgebiets erkannt werden kann. Bei einem bevorzugten Ausführungsbeispiel der Erfindung kann der Schwellenwert Th unter Verwendung der Sigmoidfunktion wie folgt erhalten werden:
    Die Steigung der Sigmoidfunktion wird steil, wenn Q abnimmt. So ist die Sigmoidfunktion
    Figure 00130001
    für kleine Q einer Stufenfunktion sehr ähnlich. Es ist zweckdienlich, die Sigmoidfunktion als Funktion zum Bestimmen des Schwellenwerts Th in 3 zu verwenden, da sie für einen großen Eingangswert einen kleinen Schwellenwert Th und für einen kleinen Eingangswert einen großen Schwellenwert Th ausgibt. Ferner ist die Sigmoidfunktion dahingehend nichtlinear, dass sie nicht abrupt auf maximale oder minimale Eingangswerte reagiert. Dieses Verfahren zum adaptiven Zählen nicht übereinstimmender Pixel wird als adaptives, gewichtetes Zählmaß für nicht übereinstimmende Pixel (AWUPC = Adaptive Weighted Unmatching Pixel Count) bezeichnet.
  • 6 zeigt ein Blockdiagramm des Bewegungserkennungsblocks 400 in 1. Dieser Bewegungserkennungsblock 400 verfügt über Zeilenpuffer 410 und 420 zum zeitweiligen Einspeichern farbtransformierter Bilder und zum Ausgeben von Intensitätspegeln der Pixel in einem Fenster vorbestimmter Größe; einen adaptiven Schwellenwertgenerator 440 zum Erzeugen eines Schwellenwerts Th auf den Intensitätspegel eines mittleren Pixels im Fenster hin; eine Erzeugungseinrichtung 430 für nicht übereinstimmende Pixel, der den Schwellenwert Th und das vorige und aktuelle Vollbild betreffend das farbtrans formierte Bild von den Zeilenpuffern 410 und 420 empfängt, um zu ermitteln, ob die Pixel im Fenster des aktuellen Vollbilds mit den Pixeln im Fenster des vorigen Vollbilds übereinstimmen, was durch Ermitteln des Werts U(x, y, t) für nicht übereinstimmende Pixel gemäß Gl. 3 erfolgt; einen Zähler 450 für nicht übereinstimmende Pixel zum Zählen der Pixel, die in der Erzeugungseinrichtung 430 für nicht übereinstimmende Pixel als nicht übereinstimmende Pixel ermittelt wurden; und ein Fuzzy-UND-Gatter 460 zum Ausführen einer Fuzzy-UND-Operation an den Ausgangssignalen des Zählers 450 für nicht übereinstimmende Pixel mit dem Intensitätspegel Z(x, y, t) des Pixels des farbtransformierten Bilds aus dem Zeilenpuffer 420. Dieser Zeilenpuffer 420 gibt den Intensitätspegel Z(i, j, t) in einem Fenster des vorliegenden Vollbilds aus, während der Zeilenpuffer 410 den Intensitätspegel Z(i, j, t – 1) in einem Fenster des vorigen Vollbilds des farbtransformierten Bilds ausgibt. Die Fenstergröße ist (2N + 1) × (2N + 1), so dass die Zeilenpuffer 410 und 420 Intensitätspegel für (2N + 1) × (2N + 1) Pixel ausgeben. Der Schwellenwertgenerator 440 empfängt den Intensitätspegel im mittleren Pixel Z(x, y, t) des Fensters des aktuellen Vollbilds, und er ermittelt den Schwellenwert Th gemäß der Gl. 4. Die Erzeugungseinrichtung 430 für nicht übereinstimmende Pixel empfängt die Ausgangssignale des Zeilenpuffers 410 und den Schwellenwert Th des Schwellenwertgenerators 440. Dann ermittelt die Erzeugungseinrichtung 430 für nicht übereinstimmende Pixel den Wert u(i, j, t) der Gl. 3 für das mittlere Pixel Z(x, y, t) des Fensters. Der Zähler 450 für nicht übereinstimmende Pixel empfängt die Ausgangssignale der Erzeugungseinrichtung 430 für nicht übereinstimmende Pixel, und er gibt die Anzahl nicht übereinstimmender Pixel aus. Das Fuzzy-UND-Gatter 460 gibt Farbbewegungsinformation dadurch aus, dass es zwischen dem Intensitätspegel des mittleren Pixels Z(x, y, t) vom Zeilenpuffer 420 und den Ausgangssignalen des Zählers 450 für nicht übereinstimmende Pixel eine Fuzzy-UND-Operation ausführt.
  • Gemäß den 7 und 8 werden die Bewegungserkennungsergebnisse gemäß der Erfindung mit solchen aus dem Stand der Technik verglichen. 7 zeigt Bewegungserkennungsergebnisse für zwei aufeinanderfolgende Bilder mit einem rechteckigen Objekt. 7a zeigt die ersten Bilder mit rechteckigem Objekt mit Hintergrundbildern. Pixel im rechteckigen Objekt der 7a verfügen über zufällige Graupegel von 200–230, während die Graupegel von Pixeln in den Hintergrundbildern Zufallswerte von 0–30 sind. 7b zeigt das zweite Bild, bei dem das rechteckige Objekt in der x- und der y-Richtung um 50 Pixel verschoben ist. 7c zeigt die Bewegungserkennungsergebnisse gemäß dem herkömmlichen ADM-Verfahren. Diejenigen Gebiete, in denen die Zwischenvollbilddifferenzen betreffend die Intensitätspegel groß sind, sind hervorgehoben. Jedoch sind diejenigen Gebiete nicht hervorgehoben, in denen die rechteckigen Objekte in den zwei aufeinanderfolgenden Bildern einander überlappen. So wird die Bewegung durch das herkömmliche ADM-Verfahren nicht gut erkannt, wenn die zwei Objekte in aufeinanderfolgenden Vollbildern einander überlappen. 7d zeigt ein Bewegungserkennungsergebnis gemäß dem UPC-Maß. In 7d sind diejenigen Gebiete, in denen die rechteckigen Objekte in den zwei aufeinanderfolgenden Bildern einander überlappen, ebenfalls hervorgehoben. Das UPC-Maß kann die Erkennung eines sich bewegenden Objekts besser als das ADM-Verfahren erkennen, da es Überlappungsgebiete eines sich bewegenden Objekts erkennen kann. 7e zeigt ein Bewegungserkennungsergebnis gemäß dem WUPC-Maß. Diejenigen Gebiete des sich bewegenden Objekts mit gewünschter Farbe im ersten Bild sind hervorgehoben. 7f zeigt die Bewegungserkennungsergebnisse unter Verwendung des AWUPC-Maßes gemäß der Erfindung. 8 zeigt Bewegungserkennungsergebnisse zweier aufeinanderfolgender Bilder mit einem menschlichen Gesicht. 8a zeigt ein GFCD-farbtransformiertes Bild der ersten Bilder eines menschlichen Gesichts mit Hintergrundbildern. 8b zeigt GFCD-farbtransformierte Bilder des zweiten Bilds, wobei das menschliche Gesicht leicht verschoben ist. 8c zeigt die Bewegungserkennungsergebnisse gemäß dem herkömmlichen ADM-Verfahren. Die Bewegung wird durch dieses herkömmliche ADM-Verfahren nicht gut erkannt, wie es in 8c dargestellt ist. 8d zeigt ein Bewegungserkennungsergebnis gemäß dem UPC-Maß. Die 8e und 8f zeigen Bewegungserkennungsergebnisse gemäß dem WUPC-Maß bzw. dem AWUPC-Maß gemäß der Erfindung.

Claims (12)

  1. Vorrichtung zum Erkennen eines sich bewegenden Objekts in einer Abfolge von Farbvollbildern, wobei das Farbvollbild über eine Vielzahl von Pixeln verfügt, von denen jedes drei Farbkomponenten aufweist, mit: – einer Farbnormierungseinrichtung (100) zum Normieren von Farbkomponenten im Farbvollbild, um ein normiertes Farbvollbild zu erzeugen; – einer Farbtransformationseinrichtung (200), die mit der Farbnormierungseinrichtung verbunden ist, um das normierte Farbvollbild einer Farbtransformation in ein erstes farbtransformiertes Vollbild zu unterziehen, das über Intensitätspegel in solcher Weise verfügt, dass dem sich bewegenden Objekt entsprechende Pixel hervorgehoben sind; – einer Vollbild-Verzögerungseinrichtung (300), die mit der Farbtransformationseinrichtung verbunden ist, um das erste farbtransformierte Vollbild um ein Vollbild zu verzögern, das dann ein zweites farbtransformiertes Vollbild bildet; und – einem mit der Farbtransformationseinrichtung und der Vollbild-Verzögerungseinrichtung verbundenen Bewegungsdetektor (400) zum Erkennen der Bewegung des sich bewegenden Objekts und zum weiteren Anheben der Intensitätspegel des ersten farbtransformierten Vollbilds auf Grundlage der erkannten Bewegung.
  2. Vorrichtung nach Anspruch 1, bei der jedes Pixel des ersten farbtransformierten Vollbilds einen Intensitätspegel aufweist, der proportional zur Nähe der normierten Farbkomponenten des Pixels zu den normierten Farbkomponenten des sich bewegenden Objekts ist.
  3. Vorrichtung nach Anspruch 2, bei der der Intensitätspegel jedes Pixels im ersten farbtransformierten Vollbild und die normierten Farbkomponenten des Pixels die folgende Beziehung einhalten: f: R2→R1 Z(x, y) = GF(r(x, y), g(x, y)) (x, y)∈1wobei (x, y) den Koordinaten eines Pixels im Gesichtsbild entspricht, g(x, y) und r(x, y) normierte Farbkomponenten des Pixels mit den Koordinaten (x, y) sind und GF() eine zweidimensionale Normalverteilungsfunktion ist.
  4. Vorrichtung nach Anspruch 1, bei der der Bewegungsdetektor (400) eine Einrichtung zum Erkennung der Bewegung jedes Pixels durch Zählen von diesem jeweiligen Pixel benachbarten Pixeln, deren Intensitätspegeldifferenzen zwischen dem ersten und zweiten farbtransformierten Vollbild größer als ein Schwellenwert sind, aufweist; und bei der die Intensitätspegel jedes Pixels dadurch weiter angehoben werden, dass der Intensitätspegel entsprechend der erkannten Bewegung des jeweiligen Pixels gewichtet wird.
  5. Vorrichtung nach Anspruch 4, bei der die Gewichtung dadurch vorgenommen wird, dass für den Intensitätspegel und die erkannte Bewegung für jedes jeweilige Pixel eine Fuzzy-UND-Operation ausgeführt wird.
  6. Vorrichtung nach Anspruch 4, bei der der Schwellenwert unter Verwendung einer Sigmoidfunktion wie folgt erhalten wird:
    Figure 00180001
    wobei Z(x, y, t) der Intensitätspegel eines Pixels ist und Q ein vorbestimmter Parameter ist.
  7. Verfahren zum Erkennen eines sich bewegenden Objekts in einer Abfolge von Farbvollbildern, wobei das Farbvollbild über eine Vielzahl von Pixeln verfügt, von denen jedes drei Farbkomponenten aufweist, mit den folgenden Schritten: – Normieren von Farbkomponenten des Farbvollbilds zum Erzeugen eines normierten Vollbilds; – Farbtransformieren des normierten Vollbilds in ein erstes farbtransformiertes Vollbild, das Intensitätspegel in solcher Weise aufweist, dass dem sich bewegenden Objekt entsprechende Pixel hervorgehoben sind; – Verzögern des ersten farbtransformierten Vollbilds um ein Vollbild, das ein zweites farbtransformiertes Vollbild bildet; und – Erkennen der Bewegung des sich bewegenden Objekts und weiteres Anheben der Intensitätspegel des ersten farbtransformierten Vollbilds auf Grundlage der erkannten Bewegung.
  8. Verfahren nach Anspruch 7, bei dem jedes Pixel des ersten farbtransformierten Vollbilds einen Intensitätspegel aufweist, der proportional zur Nähe der normierten Farbkomponenten des Pixels zu den normierten Farbkomponenten des sich bewegenden Objekts ist.
  9. Verfahren nach Anspruch 8, bei dem der Intensitätspegel jedes Pixels im ersten farbtransformierten Vollbild und die normierten Farbkomponenten des Pixels die folgende Beziehung einhalten: f: R2→R1 Z(x, y) = GF(r(x, y), g(x, y)) (x, y)∈1wobei (x, y) den Koordinaten eines Pixels im Gesichtsbild entspricht, g(x, y) und r(x, y) normierte Farbkomponenten des Pixels mit den Koordinaten (x, y) sind und GF() eine zweidimensionale Normalverteilungsfunktion ist.
  10. Verfahren nach Anspruch 7, bei dem der Bewegungserkennungsschritt einen Schritt zum Erkennen der Bewegung jedes Pixels durch Zählen von diesem jeweiligen Pixel benachbarten Pixeln, deren Intensitätspegeldifferenzen zwischen dem ersten und zweiten farbtransformierten Vollbild größer als ein Schwellenwert sind, aufweist; und bei dem die Intensitätspegel jedes Pixels dadurch weiter angehoben werden, dass der Intensitätspegel entsprechend der erkannten Bewegung des jeweiligen Pixels gewichtet wird.
  11. Verfahren nach Anspruch 10, bei dem die Gewichtung dadurch vorgenommen wird, dass für den Intensitätspegel und die erkannte Bewegung für jedes jeweilige Pixel eine Fuzzy-UND-Operation ausgeführt wird.
  12. Verfahren nach Anspruch 10, bei dem der Schwellenwert unter Verwendung einer Sigmoidfunktion wie folgt erhalten wird:
    Figure 00200001
    wobei Z(x, y, t) der Intensitätspegel eines Pixels ist und Q ein vorbestimmter Parameter ist.
DE19883010T 1998-08-07 1998-08-07 Verfahren und Vorrichtung zum Erkennen eines sich bewegenden Objekts in einer Abfolge von Farbvollbildern Expired - Fee Related DE19883010B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR1998/000243 WO2000008586A2 (en) 1998-08-07 1998-08-07 Apparatus and method for detecting a moving object in a sequence of color frame images

Publications (2)

Publication Number Publication Date
DE19883010T1 DE19883010T1 (de) 2001-09-27
DE19883010B4 true DE19883010B4 (de) 2008-06-26

Family

ID=19531098

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19883010T Expired - Fee Related DE19883010B4 (de) 1998-08-07 1998-08-07 Verfahren und Vorrichtung zum Erkennen eines sich bewegenden Objekts in einer Abfolge von Farbvollbildern

Country Status (4)

Country Link
US (1) US6999604B1 (de)
JP (1) JP3725784B2 (de)
DE (1) DE19883010B4 (de)
WO (1) WO2000008586A2 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002001336A2 (en) * 2000-06-27 2002-01-03 Trustees Of Boston College Automated visual tracking for computer access
JP4062924B2 (ja) * 2002-01-24 2008-03-19 コニカミノルタホールディングス株式会社 カラー画像処理方法及びカラー画像処理装置
EP1418530B1 (de) * 2002-10-08 2012-12-05 Sony France S.A. Verfahren und System zum adaptativen künstlichen Sehen
US7447374B1 (en) * 2003-01-06 2008-11-04 Apple Inc. Method and apparatus for an intuitive digital image processing system that enhances digital images
US7212651B2 (en) * 2003-06-17 2007-05-01 Mitsubishi Electric Research Laboratories, Inc. Detecting pedestrians using patterns of motion and appearance in videos
DE602005003917T2 (de) * 2005-02-03 2008-12-04 Sony Ericsson Mobile Communications Ab Verfahren und Vorrichtung zur Erzeugung von Bildern mit hoher Dynamik aus mehreren Belichtungen
US8150155B2 (en) * 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US8265349B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
US8265392B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Inter-mode region-of-interest video object segmentation
TWI328201B (en) * 2006-10-30 2010-08-01 Ind Tech Res Inst Method and system for object detection in an image plane
JP4924727B2 (ja) * 2010-02-16 2012-04-25 カシオ計算機株式会社 画像処理装置及び画像処理プログラム
JP5622461B2 (ja) * 2010-07-07 2014-11-12 オリンパス株式会社 画像処理装置、画像処理方法、および画像処理プログラム
KR102422128B1 (ko) * 2017-08-31 2022-07-20 한화테크윈 주식회사 영상 처리 시스템 및 그에 의한 영상 처리 방법
US11436839B2 (en) * 2018-11-02 2022-09-06 Toyota Research Institute, Inc. Systems and methods of detecting moving obstacles

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0735509A1 (de) * 1995-03-31 1996-10-02 Hitachi Europe Limited Bildverarbeitungsverfahren zur Ermittlung von Gesichtsmerkmalen
US5719951A (en) * 1990-07-17 1998-02-17 British Telecommunications Public Limited Company Normalized image feature processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0076260B1 (de) * 1981-04-10 1989-08-02 Ampex Corporation Gerät zur räumlichen transformation von bildern
US5204749A (en) * 1984-05-25 1993-04-20 Canon Kabushiki Kaisha Automatic follow-up focus detecting device and automatic follow-up device
US5164992A (en) * 1990-11-01 1992-11-17 Massachusetts Institute Of Technology Face recognition system
JPH0568241A (ja) * 1991-09-09 1993-03-19 Nippon Telegr & Teleph Corp <Ntt> テレビ電話用cif画像変換方式
US5909249A (en) * 1995-12-15 1999-06-01 General Instrument Corporation Reduction of noise visibility in a digital video system
EP0786907A3 (de) * 1997-01-24 2001-06-13 Texas Instruments Incorporated Videokodierer
US6148092A (en) * 1998-01-08 2000-11-14 Sharp Laboratories Of America, Inc System for detecting skin-tone regions within an image
US6493041B1 (en) * 1998-06-30 2002-12-10 Sun Microsystems, Inc. Method and apparatus for the detection of motion in video
US6292575B1 (en) * 1998-07-20 2001-09-18 Lau Technologies Real-time facial recognition and verification system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5719951A (en) * 1990-07-17 1998-02-17 British Telecommunications Public Limited Company Normalized image feature processing
EP0735509A1 (de) * 1995-03-31 1996-10-02 Hitachi Europe Limited Bildverarbeitungsverfahren zur Ermittlung von Gesichtsmerkmalen

Also Published As

Publication number Publication date
JP2002522830A (ja) 2002-07-23
WO2000008586A2 (en) 2000-02-17
JP3725784B2 (ja) 2005-12-14
DE19883010T1 (de) 2001-09-27
WO2000008586A3 (en) 2001-09-20
US6999604B1 (en) 2006-02-14

Similar Documents

Publication Publication Date Title
DE69906403T2 (de) Verfahren und Gerät zum Detektieren eines gesichtsähnlichen Gebiets
DE69828909T2 (de) Neue perzeptive lokale gradientenbasierte gratbestimmung
DE69734855T2 (de) Vorrichtung und Verfahren zur Extraktion eines Objektes in einem Bild
DE19883010B4 (de) Verfahren und Vorrichtung zum Erkennen eines sich bewegenden Objekts in einer Abfolge von Farbvollbildern
DE69024537T2 (de) Infrarot-Überwachungssystem
DE602005003926T2 (de) System und verfahren zum erkennen eines vorbeikommenden fahrzeugs aus dynamischem hintergrund unter verwendung robuster informationsfusion
DE60313941T2 (de) Personendetektion durch Gesichtsdetektion und Bewegungsdetektion
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
EP2467828B1 (de) Verfahren und system zur automatischen objekterkennung und anschliessenden objektverfolgung nach massgabe der objektform
DE69833999T2 (de) Verfahren zur automatischen erkennung menschlicher augen in digitalbildern
DE3856034T2 (de) Bildverarbeitungsgerät
DE60307583T2 (de) Auswertung der Schärfe eines Bildes der Iris eines Auges
DE10033599A1 (de) Positionserfassungsvorrichtung
DE69216207T2 (de) Farbeinstellung zur Glättung der Grenzen zwischen Farbbildern
DE102011056975A1 (de) Digitale Bildstabilisierung
EP0474304B1 (de) Schaltungsanordnung zum Erkennen eines menschlichen Gesichts
DE19618984B4 (de) Verfahren zur Bewegungsbewertung in Bilddaten sowie Vorrichtung zur Durchführung dieses Verfahrens
DE19636949A1 (de) Verfahren zur Detektion von Kanten in einem Bildsignal
DE102014114061A9 (de) Verfahren und Vorrichtung zum Verstärken der Form der Kanten zur visuellen Verbesserung des Rendering auf der Grundlage von Tiefenbildern eines dreidimensionalen Videostroms
DE4102587C2 (de) Verfahren und Vorrichtung zur binären Bildverarbeitung
DE69918609T2 (de) Automatisches Verfahren zur Erfassung von Änderungen zwischen zwei Bildern
DE10344397A1 (de) Vorrichtung und Verfahren zur Kantenhervorhebung bei der Bildverarbeitung
EP0414113A2 (de) Verfahren zur Bewegungskompensation in einem Bewegtbildcoder oder -decoder
DE10303724B4 (de) Dynamisches Zweipegel-Schwellwertverfahren digitaler Bilder
DE102004026782A1 (de) Verfahren und Vorrichtung zur rechnergestützten Bewegungsschätzung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern, computerlesbares Speichermedium und Computerprogramm-Element

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20140301