DE112011101927T5 - Semantisches Parsen von Objekten in Videos - Google Patents

Semantisches Parsen von Objekten in Videos Download PDF

Info

Publication number
DE112011101927T5
DE112011101927T5 DE112011101927T DE112011101927T DE112011101927T5 DE 112011101927 T5 DE112011101927 T5 DE 112011101927T5 DE 112011101927 T DE112011101927 T DE 112011101927T DE 112011101927 T DE112011101927 T DE 112011101927T DE 112011101927 T5 DE112011101927 T5 DE 112011101927T5
Authority
DE
Germany
Prior art keywords
resolution
version
image
region
numbers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112011101927T
Other languages
English (en)
Other versions
DE112011101927B4 (de
Inventor
Daniel Vaquero
Rogerio Schmidt Feris
Arun Hampapur
Lisa Marie Brown
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyndryl Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112011101927T5 publication Critical patent/DE112011101927T5/de
Application granted granted Critical
Publication of DE112011101927B4 publication Critical patent/DE112011101927B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Die Erfindung stellt ein verbessertes Verfahren zum Erkennen semantischer Attribute des menschlichen Körpers in der Computersicht bereit. Beim Erkennen semantischer Attribute des menschlichen Körpers in der Computersicht unterhält die Erfindung eine Liste semantischer Attribute, von denen jedes einem menschlichen Körperteil entspricht. Dann analysiert ein Computermodul Segmente eines Einzelbildes eines digitalen Videos, um jedes semantische Attribut durch Suchen eines wahrscheinlichsten Attributs für jedes Segment zu erkennen. Ein Grenzwert wird angewandt, um Kandidatensegmente des Einzelbildes für die weitere Analyse auszuwählen. Die Kandidatensegmente des Einzelbildes durchlaufen dann eine geometrische und eine Auflösungskontextanalyse, indem die physischen Aufbauprinzipien eines menschlichen Körpers angewandt werden und indem Versionen des Bildes mit zunehmend höherer Auflösung analysiert werden, um das Vorhandensein und die Genauigkeit der Teile und Attribute zu überprüfen. Ein Computermodul berechnet eine Auflösungskontextzahl für eine Version des Bildes mit niedrigerer Auflösung auf der Grundlage einer für eine Version des Bildes mit höherer Auflösung berechneten Zahl des gewichteten Mittels, indem Auftretensmerkmale, geometrische Merkmale und Auflösungskontextmerkmale ausgewertet werden, falls sie in der Version des Bildes mit höherer Auflösung verfügbar sind. Schließlich wird mittels dynamischer Programmierung ein Schritt für die optimale Konfiguration durchgeführt, um eine optimale Ausgabe mit semantischen Attributen und auch räumlichen Positionen menschlicher Körperteile im Einzelbild auszuwählen.

Description

  • GEBIET DER ERFINDUNG
  • Die Erfindung betrifft die Videoverarbeitung und Objektidentifikation, und genauer betrifft sie das Analysieren von Bildern von Objekten, um Attribute zu identifizieren.
  • HINTERGRUND
  • Die Lage von Objekten und deren Teile in Videos automatisch zu identifizieren, ist für viele Aufgaben wichtig. Zum Beispiel ist im Falle menschlicher Körperteile das automatische Identifizieren der Lage menschlicher Körperteile wichtig für Aufgaben wie beispielsweise die automatische Handlungserkennung, die Einschätzung menschlicher Posen usw. Mit dem Begriff „Körper-Parsen” (body parsing) wird die computergestützte Lokalisierung einzelner Körperteile in Videos beschrieben. Aktuelle Verfahren für das Körper-Parsen in Videos schätzen nur die Lage von Teilen wie Kopf, Beinen, Armen, usw. ab. Siehe z. B.: „Strike a Pose: Tracking People by Finding Stylized Poses", Ramanan et al., Computer Vision and Pattern Recognition (CVPR), San Diego, Kalifornien, Juni 2005; und „Pictorial Structures for Object Recognition", Felzenszwalb et al., International Journal of Computer Vision (IJCV), Januar 2005.
  • Die meisten bisherigen Verfahren führen in Wirklichkeit nur syntaktisches Objekt-Parsen durch, d. h., sie schätzen nur die Lage von Objektteilen (z. B. Armen, Beinen, Gesicht usw.) ab, ohne den Objektteilen zugehörige semantische Attribute wirksam abzuschätzen.
  • Im Hinblick auf das Vorhergehende besteht ein Bedarf nach einem Verfahren und einem System zum wirksamen Identifizieren semantischer Attribute von Objekten aus Bildern.
  • ZUSAMMENFASSUNG
  • Die Erfindung wird durch ein Verfahren, ein Computerprogrammprodukt, ein Computersystem und einen Prozess zum Abschätzen von Teilen und Attributen eines Objekts in Videos dargestellt. Das Verfahren, das Computerprogrammprodukt, das Computersystem und der Prozess weisen auf: Empfangen einer Videoeingabe; Erkennen eines Objektes aus der Videoeingabe und Herausschneiden eines Bildes des Objektes aus der Videoeingabe; Empfangen einer Vielzahl semantischer Attribute mit zugehörigen Teilen für das Objekt; Erzeugen und Speichern einer Vielzahl von Versionen des Bildes, wobei jede Version eine unterschiedliche Auflösung des Bildes des Objektes aufweist; Berechnen einer Auftretenszahl (appearance score) in jeder Region aus einer Vielzahl von Regionen in der Version mit der niedrigsten Auflösung der Versionen des Bildes des Objektes für die Vielzahl semantischer Attribute, wobei die Auftretenszahl für mindestens ein semantisches Attribut der Vielzahl semantischer Attribute für jede Region eine Wahrscheinlichkeit jedes semantischen Attributes des mindestens einen in dieser Region auftretenden semantischen Attributs bezeichnet; Analysieren von Versionen mit zunehmend höherer Auflösung als die Version mit der niedrigsten Auflösung, um eine Auflösungskontextzahl für jede Region in der Version mit der niedrigsten Auflösung zu berechnen, wobei die Auflösungskontextzahl in der Version mit der niedrigsten Auflösung ein Ausmaß angibt, in dem für jede Region in den Versionen mit zunehmend höherer Auflösung eine feinere räumliche Struktur vorhanden ist als in der Version mit der niedrigsten Auflösung; Ermitteln einer optimierten Konfiguration von Körperteilen und zugehörigen semantischen Attributen in der Version mit der niedrigsten Auflösung, wobei das Ermitteln die Auftretenszahlen und die Auflösungskontextzahlen in den Regionen in der Version mit der niedrigsten Auflösung verwendet; Anzeigen und/oder Speichern der optimierten Konfiguration von Körperteilen und zugehörigen semantischen Attributen.
  • KURZE BESCHREIBUNG DER MEHREREN ZEICHNUNGSANSICHTEN
  • Nachfolgend werden in lediglich beispielhafter Weise bevorzugte Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die folgenden Zeichnungen beschrieben, in denen:
  • 1 eine veranschaulichende Umgebung für ein System zum Erkennen semantischer Attribute eines menschlichen Körpers gemäß einer Ausführungsform der Erfindung zeigt;
  • 2 eine Nahansicht einer veranschaulichenden Umgebung zum Erkennen semantischer Attribute im menschlichen Körper in Videos gemäß einer Ausführungsform der Erfindung zeigt;
  • 3 ein Beispiel einer Eingabe und einer Ausgabe gemäß einer Ausführungsform der Erfindung veranschaulicht;
  • 4 einen veranschaulichenden Datenfluss zum Erkennen semantischer Attribute in einem Bild gemäß einer Ausführungsform der Erfindung zeigt;
  • 5 gemäß einer Ausführungsform der Erfindung Beispiele semantischer Attribute zeigt, die Körperteilen zugehörig sind;
  • 5A und 5B Beispiele des Anwendens semantischer Attribute auf ein Bild eines menschlichen Körpers gemäß einer Ausführungsform der Erfindung zeigen;
  • 5C Beispiele des Ermittelns von Auftretenszahlen gemäß einer Ausführungsform der Erfindung zeigt;
  • 5D Eingaben und Ausgaben für den Schritt des Berechnens von Auftretenszahlen gemäß einer Ausführungsform der Erfindung zeigt;
  • 6 und 6A Beispiele des Berechnens von Auflösungskontextzahlen gemäß einer Ausführungsform der Erfindung zeigen;
  • 6B Eingaben und Ausgaben für den Schritt des Berechnens von Auflösungskontextzahlen gemäß einer Ausführungsform der Erfindung zeigt;
  • 7A und 7B Beispiele für das Berechnen geometrischer Zahlen für eine optimale Konfiguration gemäß einer Ausführungsform der Erfindung zeigen;
  • 7C Eingaben und Ausgaben für den Schritt des Berechnens von geometrischen Zahlen gemäß einer Ausführungsform der Erfindung zeigt;
  • 8 Eingaben und Ausgaben für den Schritt des Berechnens einer Gesamtzahl gemäß einer Ausführungsform der Erfindung zeigt;
  • Es wird festgehalten, dass die Zeichnungen nicht maßstäblich sind. Die Zeichnungen sollen nur typische Aspekte der vorliegenden Erfindung abbilden und sind daher nicht als den Umfang der Erfindung einschränkend anzusehen. Während die Zeichnungen das Verarbeiten menschlicher Körper in Videos veranschaulichen, erstreckt sich die Erfindung auch auf das Verarbeiten anderer Objekte in Videos. In den Zeichnungen stehen gleiche Bezugszeichen für gleiche Elemente zwischen den Zeichnungen.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Die Erfindung betrifft die Videoverarbeitung und Objektidentifikation, und genauer betrifft sie das Analysieren von Bildern von Objekten, um Attribute zu identifizieren.
  • Aspekte der Erfindung stellen eine verbesserte Lösung für das Erkennen semantischer Attribute von Objekten in Videos bereit. Zum Beispiel stellen Aspekte der Erfindung die Entnahme von Attributen von Körperteilen bereit, um ein automatisches Suchen von Menschen in Videos auf der Grundlage einer Personenbeschreibung zu ermöglichen. In einem anderen Beispiel stellt die Erfindung die Entnahme von Attributen von Automobilen bereit, um ein automatisches Suchen von Automobilen in Videos auf der Grundlage einer Beschreibung des Automobils zu ermöglichen. Eine mögliche Abfrage könnte lauten: „Zeige alle Personen, die IBM im letzten Monat betreten haben, mit Bart, die Sonnenbrillen tragen, die ein rotes Jackett und blaue Hosen tragen” oder „Zeige alle blauen zweitürigen Toyotas mit Rautenradkappen, die letzte Woche den IBM Parkplatz befahren haben”.
  • Die Erfindung behandelt das Problem des semantischen Objekt-Parsens mit dem Ziel, sowohl die Lage von Teilen als auch semantische Attribute im selben Prozess wirksam abzuschätzen. Unter Verwendung des Parsens des menschlichen Körpers als Beispiel stellen Ausführungsformen der vorliegenden Erfindung im selben Prozess das Abschätzen semantischer Attribute menschlicher Körperteile sowie die Lokalisierung von Körperteilen bereit. Unter Überwindung der Ineffizienz und Ungenauigkeit der bisherigen Ansätze nutzt die Erfindung ein globales Optimierungsschema, um sowohl Teile als auch ihre entsprechenden Attribute gleichzeitig abzuschätzen.
  • Anders als bisherige Ansätze verwenden Ausführungsformen der vorliegenden Erfindung semantische Attribute wie „Bart”, „Schnurrbart” und „keine Gesichtsbehaarung” nicht nur, um den menschlichen Körperteil zu lokalisieren, sondern auch, um das Attribut des Körperteils zu identifizieren. Anstatt zum Beispiel nur einen Körperteil wie beispielsweise „Bein” zu identifizieren, verwendet die Erfindung semantische Attribute wie beispielsweise „schwarze Hosen”, „lange Röcke” und „kurze Hosen”, um sowohl einen Körperteil zu lokalisieren als auch seine Attribute zu identifizieren. Die Erfindung unterhält eine Datentabelle, die jedes semantische Attribut mit einem entsprechenden Körperteil verknüpft. Zum Beispiel entspricht das semantische Attribut „Bart” dem Körperteil „untere Gesichtsregion”.
  • Ausführungsformen der Erfindung beruhen auf drei Arten von Merkmalen: Auftretensmerkmalen, Auflösungskontextmerkmalen und geometrischen Merkmalen. Die Auftretensmerkmale beziehen sich auf Zahlen, die durch Vergleichen semantischer Attribute aus einer Bildbibliothek mit dem, was in einem Bild zu sein scheint, erhalten werden, um die Wahrscheinlichkeit einer Übereinstimmung zu ermitteln. Die Auflösungskontextmerkmale beziehen sich auf die Objektkonsistenz bei unterschiedlichen Bildauflösungen. Bei der Auflösungskontextzahl für eine bestimmte Region handelt es sich um den gewichteten Mittelwert aus dem Bild der Region mit höherer Auflösung. Eine Gesamtzahl wird für das Bild mit höherer Auflösung berechnet, indem die Auftretenszahlen, geometrische Zahlen und, falls ein Bild mit höherer Auflösung verfügbar ist, die Auflösungskontextzahlen aufaddiert werden. Die Auflösungskontextzahl wird aus einem Bild mit höherer Auflösung berechnet, indem die Gesamtzahl in einer gegebenen Region durch die Anzahl von Unterregionen dividiert wird, welche diese Region im analysierten Bild mit höherer Auflösung ausbilden. Die geometrischen Merkmale beziehen sich auf die Zahlen, die auf der Grundlage der räumlichen Beziehungen zwischen den zugrundeliegenden Teilen in einer wahrscheinlichen Konfiguration berechnet werden. Zum Beispiel entspricht ein potenzielles Attribut „Bart” einem „Gesicht” und ein „schwarzes Hemd” entspricht einem „Torso”. Mit den geometrischen Merkmalen wird die Genauigkeit der semantischen Kandidatenattribute getestet, indem das allgemeine Aufbauprinzip des menschlichen Körpers angewandt wird, gemäß dem sich ein „Gesicht” sowohl oberhalb eines „Torso” als auch in einem gewissen Abstand von einem „Torso” befindet.
  • Im Beispiel des Parsens des menschlichen Körpers werden bei Aspekten der Erfindung nicht nur die Lage menschlicher Körperteile, sondern auch deren semantische Attribute, wie beispielsweise Farbe, Typ der Gesichtsbehaarung, Vorhandensein einer Brille usw., abgeschätzt. In anderen Worten: Aspekte der Erfindung verwenden ein vereinheitlichtes Lernschema, um sowohl syntaktisches Parsen, d. h. eine Lageabschätzung, als auch semantisches Parsen, d. h. eine Entnahme semantischer Attribute durchzuführen, die den menschlichen Körperteil beschreiben. Die Erfindung erkennt sowohl Körperteile als auch Attribute im selben Prozess und identifiziert so die Attribute eines menschlichen Körpers gegenüber dem Stand der Technik genauer.
  • Bezüglich der Zeichnungen zeigt 1 eine veranschaulichende Umgebung zum Erkennen semantischer Attribute eines menschlichen Körpers gemäß einer Ausführungsform der Erfindung. Insoweit erfasst mindestens eine Kamera 42 einen Schauplatz oder einen Hintergrund 90. Oftmals kann der Hintergrund oder der Schauplatz 90 mindestens ein Objekt wie beispielsweise eine Person 92 enthalten. Eine digitale Videoeingabe 40 wird erhalten und an ein System 12 gesendet, das zum Beispiel ein Programm zur Erkennung semantischer Attribute 30, Daten 50, zuvor festgelegte oder spezifische semantische Attribute 52, eine Ausgabe 54 und/oder Ähnliches wie hierin beschrieben beinhaltet.
  • 2 zeigt eine Nahansicht einer veranschaulichenden Umgebung 10 zum Erkennen semantischer Attribute der Person 92 (1) im Video 40 gemäß einer Ausführungsform der Erfindung. Insofern beinhaltet die Umgebung 10 ein Computersystem 12, das den hierin beschriebenen Prozess durchführen kann, um semantische Attribute der Person 92 im Video 40 zu erkennen. Insbesondere ist das Computersystem 12 einschließlich einer Recheneinheit 14 gezeigt, die ein Programm zur Erkennung semantischer Attribute 30 enthält, das die Recheneinheit 14 in die Lage versetzt, semantische Attribute der Person 92 (1) im Video 40 durch Durchführen des hierin beschriebenen Prozesses zu erkennen.
  • Die Recheneinheit 14 ist einschließlich eines Prozessors 20, eines Speichers 22A, einer Eingabe/Ausgabe(E/A)-Schnittstelle 24 und eines Busses 26 gezeigt. Weiterhin ist die Recheneinheit 14 im Austausch von Daten mit einer externen E/A-Einheit/Ressource 28 und einer nichtflüchtigen computerlesbaren Speichereinheit 22B (z. B. eine Festplatte, eine Floppy Disk, ein Magnetband, ein optischer Speicher, wie beispielsweise eine Compact Disc (CD), oder eine Digital Video Disk (DVD)) gezeigt. Im Allgemeinen führt der Prozessor 20 Programmcode wie beispielsweise das Programm zur Erkennung semantischer Attribute 30 aus, das in einem Speichersystem wie beispielsweise dem Speicher 22A (z. B. einem dynamischen Speicher mit wahlfreiem Zugriff (DRAM), einem Nur-Lese-Speicher (ROM) usw.) und/oder der Speichereinheit 22B gespeichert ist. Während des Ausführens von Programmcode kann der Prozessor 20 Daten wie beispielsweise die Daten 36 auf den Speicher 22A, die Speichereinheit 22B und/oder die E/A-Schnittstelle 24 schreiben oder von diesen lesen. Ein Computerprogrammprodukt weist die Speichereinheit 22B auf, auf welcher der Programmcode zur nachfolgenden Ausführung durch den Prozessor 20 gespeichert ist, um ein Verfahren zum Abschätzen von Teilen und Attributen eines Objekts in Videos durchzuführen. Der Bus 26 stellt eine Datenübertragungsverbindung zwischen jeder der Komponenten in der Recheneinheit 14 bereit. Die E/A-Einheit 28 kann jede beliebige Einheit aufweisen, die Informationen zwischen einem Benutzer 16 und der Recheneinheit 14 und/oder der digitalen Videoeingabe 40 und der Recheneinheit 40 überträgt. Insofern kann die E/A-Einheit 28 eine Benutzer-E/A-Einheit aufweisen, um einem einzelnen Benutzer 16 ein Interagieren mit der Recheneinheit zu ermöglichen, und/oder sie kann eine Datenübertragungseinheit aufweisen, um einem Element wie beispielsweise die digitale Videoeingabe 40 einen Austausch von Daten mit der Recheneinheit 40 mittels jeden beliebigen Typs von Datenübertragungsverbindung zu ermöglichen. Die E/A-Einheit 28 steht für mindestens eine Eingabeeinheit (z. B. eine Tastatur, eine Maus usw.) und mindestens eine Ausgabeeinheit (z. B. einen Drucker, einen Plotter, einen Computerbildschirm, ein Magnetband, eine Wechselfestplatte, eine Floppy Disk).
  • In jedem Fall kann die Recheneinheit 14 jeden beliebigen universellen Herstellungsartikel zur Ausführung von Rechenvorgängen aufweisen, der in der Lage ist, darauf installierten Programmcode auszuführen. Es versteht sich jedoch, dass die Recheneinheit 14 und das Programm zur Erkennung semantischer Attribute 30 nur stellvertretend für vielfältige mögliche äquivalente Rechensysteme stehen, die den hierein beschriebenen Prozess durchführen können. Insofern kann in anderen Ausführungsformen die durch die Recheneinheit 14 und das Programm zur Erkennung semantischer Attribute 30 bereitgestellte Funktionalität durch einen Herstellungsartikel zur Ausführung von Rechenvorgängen realisiert werden, der eine beliebige Kombination aus universeller und/oder zweckbestimmter Hardware und/oder Programmcode beinhaltet. In jeder Ausführungsform können der Programmcode und die Hardware mittels Standardprogrammiertechniken bzw. technischen Standardvorgehensweisen erzeugt werden. Zu solchen Standardprogrammiertechniken und technischen Standardvorgehensweisen kann eine offene Architektur zählen, die eine Integration von Verarbeitung von verschiedenen Lagen erlaubt. Zu solch einer offenen Architektur kann Cloud Computing zählen. Somit offenbart die vorliegende Erfindung einen Prozess zum Unterstützen von Computerinfrastruktur, Integrieren, Beherbergen (hosting), Unterhalten und Einsetzen von computerlesbarem Code in das Computersystem 12, wobei der Code in Kombination mit dem Computersystem 12 in der Lage ist, ein Verfahren zum Abschätzen von Teilen und Attributen eines Objekts in Videos durchzuführen.
  • Gleichermaßen ist das Computersystem 12 nur veranschaulichend für vielfältige Typen von Computersystemen zum Realisieren von Aspekten der Erfindung. Zum Beispiel weist in einer Ausführungsform das Computersystem 12 zwei oder mehr Recheneinheiten auf, die über jeden beliebigen Typ von Datenübertragungsverbindung wie beispielsweise ein Netzwerk, ein gemeinsam genutzter Speicher oder Ähnliches Daten auszutauschen, um den hierein beschriebenen Prozess durchzuführen. Beim Durchführen des hierin beschriebenen Prozesses können weiterhin eine oder mehrere Recheneinheiten im Computersystem 12 mittels jedes beliebigen Typs von Datenübertragungsverbindungen mit einer oder mehreren anderen externen Recheneinheiten des Computersystems 12 Daten austauschen. In jedem Fall kann die Datenübertragungsverbindung jede beliebige Kombination vielfältiger Arten von kabelgebundenen und/oder kabellosen Verbindungen aufweisen; jede beliebige Kombination eines oder mehrerer Netzwerktypen aufweisen; und/oder jede beliebige Kombination vielfältiger Typen von Übermittlungstechniken und -protokollen verwenden.
  • Wie hierin erläutert, ermöglicht das Programm zur Erkennung semantischer Attribute 30 dem Computersystem 12, semantische Attribute von Objekten wie beispielsweise der Person 92 (1) im Video 40 zu erkennen. Insofern ist das Programm zur Erkennung semantischer Attribute 30 einschließlich eines Objekterkennungsmoduls 32, eines Auftretenszahlmoduls 34, eines Moduls für geometrische Zahlen 36, eines Auflösungskontextmoduls 37, eines Konfigurationsoptimierungsmoduls 38, eines Gesamtzahlberechnungsmoduls 39 und eines Moduls für strukturiertes Lernen 35 gezeigt. Die Funktionsweise jedes dieser Module wird hierin weiter erläutert. Es versteht sich jedoch, dass einige der verschiedenen in 2 gezeigten Module unabhängig, kombiniert und/oder im Speicher eines oder mehrerer separater Recheneinheiten realisiert werden können, die im Computersystem 12 enthalten sind. Weiterhin versteht es sich, dass unter Umständen einige der Module und/oder Teile der hierin erläuterten Funktionalität nicht realisiert sind oder zusätzliche Module und/oder Funktionalitäten als Teil des Computersystems 12 enthalten sind.
  • Aspekte der Erfindung stellen eine verbesserte Lösung für das Erkennen semantischer Attribute von Objekten wie beispielsweise der Person 92 (1) im Video 40 bereit. Insofern veranschaulicht 3 ein Beispiel der Eingabe 90 (1) und der Ausgabe 54 (1) gemäß einer Ausführungsform der Erfindung. Wie vorstehend beschrieben (1), handelt es sich bei der Eingabe 90 um einen Schauplatz mit mindestens einem Objekt, in diesem Beispiel einer Person. Die Ausgabe 54 enthält räumliche Lage von Körperteilen und Attribute in einem Bild. Zum Beispiel identifiziert die Erfindung eine Region 402 als die obere Gesichtsregion und identifiziert aus derselben Region ein Attribut „Kahlköpfigkeit” der Person. Bei einer Region 404 handelt es sich um die mittlere Gesichtsregion, und es wird ein Attribut „Sonnenbrille” identifiziert. Bei einer Region 406 handelt es sich um die untere Gesichtsregion, und es wird ein Attribut „Bart” identifiziert. Eine Region 408 wird als ein Arm identifiziert, und es wird ein Attribut „Tätowierung” identifiziert. Eine Region 410 wird als ein Bein identifiziert, und es wird ein Attribut „schwarze Hose” identifiziert. Darüber hinaus enthält die Ausgabe 54 wie hierin beschrieben eine Gesamtzahl und/oder ein gewichtetes Mittel der Auftretenszahlen, der geometrischen Zahlen und, falls verfügbar, der Auflösungskontextzahlen des Bildes.
  • Aspekte der Erfindung stellen eine verbesserte Lösung für das Erkennen semantischer Attribute von Objekten wie beispielsweise der Person 92 (1) im Video 40 bereit. Insofern zeigt 4 gemäß einer Ausführungsform der Erfindung einen veranschaulichenden Datenfluss zum Erkennen semantischer Attribute der Person 92 (1) auf einem Bild, indem die Module des Programms zur Erkennung semantischer Attribute 30 (2) verwendet werden. Zum Beispiel empfängt das System 12 bei D1 eine digitale Farbvideoeingabe 40. Die digitale Farbvideoeingabe 40 liegt üblicherweise im Rot-Grün-Blau-(RGB)Format vor, und zu jeder Zeitinstanz kommt ein Einzelbild (frame) der Videoeingabe mit einer Person 92 (1) am Objekterkennungsmodul 32 (2) an.
  • In S1 erkennt das Objekterkennungsmodul 32 (2) Objekte in einem Einzelbild der Videoeingabe und identifiziert dessen Objekttypen. Die Erkennung kann unter Verwendung eines Objektklassifizierers getestet werden, der das Bild des Objekts mit zuvor gespeicherten und kontinuierlich selbstlernenden, in einer Objektbibliothek gespeicherten Objekten vergleicht (siehe Paper N. Dalal and B. Triggs, „Histograms of Oriented Gradients for Human Detection", Proceedings of the IEEE Conference an Computer Vision and Pattern Recognition, San Diego, USA, Juni 2005, Band II, Seiten 886 bis 893). Sobald ein Objekt aus dem Bild identifiziert ist, wird der Bildbereich, der das Objekt abdeckt, herausgeschnitten. Die vorhandene Technologie unterstützt das Erzeugen von Versionen eines Bildes mit niedrigerer Auflösung. Aus dem herausgeschnittenen Bereich wird mindestens ein Bild des ursprünglichen ausgeschnittenen Bereichs mit niedrigerer Auflösung erstellt und zusammen mit dem ursprünglichen herausgeschnittenen Bild für die weitere Analyse gespeichert. In späteren Schritten wird das Bild des herausgeschnittenen Bereichs mit der niedrigsten Auflösung zuerst verarbeitet, und die Bilder werden in der Reihenfolge von niedrigerer Auflösung zu höherer Auflösung verarbeitet. Bilder mit höherer Auflösung werden mit dem Ziel verarbeitet, Auflösungskontextzahlen zu erhalten. Insbesondere analysiert das Auflösungskontextzahlmodul 37 (2) Bilder mit zunehmend höherer Auflösung von verschiedenen Regionen und Unterregionen des Bildes entsprechend verschiedener Teile und Unter-Teile des Objektes. Die Analyse eines Bildes mit höherer Auflösung beinhaltet wiederum ein Berechnen von Auftretenszahlen für semantische Attribute, ein Berechnen geometrischer Zahlen sowie ein Berechnen von Auflösungskontextzahlen für Unterregionen, die eine höhere Granularität aufweisen als die Regionen im Bild mit der niedrigsten Auflösung. Die Auflösung für das Bild mit der niedrigsten Auflösung kann zuvor festgelegt werden und beispielsweise als eine Konstante im Programm zur Erkennung semantischer Attribute 30 gespeichert oder über die E/A-Einheit 28 (2) als Eingabe bereitgestellt werden.
  • Bei D2 wird eine Liste semantischer Attribute und zugehöriger Bilder unterhalten. Über das Beschreiben eines semantischen Attributes hinaus entspricht jedes semantische Attribut einem Körperteil. Zum Beispiel entsprechen die semantischen Attribute „Sonnenbrille”, „Brille” und „keine Brille” alle dem Körperteil „mittlere Gesichtsregion”; die semantischen Attribute „Bart”, „Schnurrbart” und „keine Gesichtsbehaarung” entsprechen alle dem Körperteil „untere Gesichtsregion”. 5 zeigt gemäß einer Ausführungsform der Erfindung Beispiele semantischer Attribute, die Körperteilen zugehörig sind. Die Liste semantischer Attribute 52 (1) enthält sowohl die semantischen Attribute als auch deren entsprechende Körperteile.
  • In S2 analysiert das Auftretenszahlmodul 34 (2) ein gespeichertes Bild von S1 in Echtzeit oder in einem verzögerten Modus, indem die Wahrscheinlichkeit des Vorhandenseins der semantischen Attribute 52 (D2) in Regionen des Bildes ermittelt wird. Wie vorstehend angegeben, wird das Bild mit der niedrigsten Auflösung als Erstes analysiert. In dieser Stufe können semantische Attribute ausgewertet werden, deren Sichtbarkeit auf dem Bild mit der niedrigsten Auflösung wahrscheinlich ist, während andere semantische Attribute, die wahrscheinlich auf einem Bild mit höherer Auflösung sichtbar sind, in einem späteren Schritt ausgewertet werden können. Die Bilder der semantischen Attribute werden in einer Bibliothek für semantische Attribute gespeichert, die kontinuierlich selbstlernend ist.
  • In S2 verwenden Aspekte der Erfindung beim Ermitteln der Wahrscheinlichkeit des Vorhandenseins der semantischen Attribute in Regionen des Bildes ein in den Arbeiten von Viola et al. in „Robust Real-time Object Detection", Cambridge Research Laboratory Technical Report, Februar 2001, beschriebenes Verfahren. Das Verfahren wird weiterhin mit tatsächlichen Vertrauenswerten in den Arbeiten von Bo Wu et al. in „Fast Rotation Invariant Multi-View Face Detection Based an Real Adaboost", IEEE International Conference an Automatic Face and Gesture Recognition, 2004, beschrieben. Das Verfahren stellt Schritte bereit, um eine Auftretenszahl zu berechnen, welche für die Wahrscheinlichkeit steht, dass ein Attribut in einer Region vorhanden ist. Das Vorhandensein eines semantischen Attributs wird mittels eines Erkenners für semantische Attribute ermittelt. Bei einem Erkenner für ein semantisches Attribut handelt es sich um eine Funktion, die einer Region eines Bildes eine reelle Zahl innerhalb des Intervalls [0,1] zuordnet, wobei die Ausgabe die Wahrscheinlichkeit angibt, dass das semantische Attribut in der als Eingabe gegebenen Bildregion vorhanden ist. In der Erfindung kann der sich ergebende Wert einer Auftretenszahl in einem Bereich von 0 bis 1 liegen. In jeder Region des Bildes kann es mehrere Auftretenszahlen geben, welche die Wahrscheinlichkeit des Vorhandenseins mehrerer semantischer Attribute in derselben Region angeben.
  • 5A und 5B zeigen Beispiele des Anwendens semantischer Attribute auf ein Bild eines menschlichen Körpers gemäß einer Ausführungsform der Erfindung. Im Gegensatz zum Stand der Technik, bei dem nur Bildregionen 60, 62 und 64 als Kopf, Torso bzw. Beine identifiziert werden, entnehmen in 5A Ausführungsformen der Erfindung darüber hinaus aus Region 60 die Hautfarbe, aus Region 62 die Hemdfarbe und aus Region 64 die Hosenfarbe usw. Gleichermaßen wird in 5B nicht nur eine Region 66 als die obere Gesichtsregion identifiziert, sondern sie kann auch Attribute bereitstellen, die Haar, Kahlköpfigkeit oder das Vorhandensein eines Hutes beschreiben. Eine Region 68 wird nicht nur als die mittlere Gesichtsregion identifiziert, sondern kann auch Attribute bereitstellen, die Augen, Brille oder Sonnenbrille beschreiben. Eine Region 70 wird nicht nur als die untere Gesichtsregion identifiziert, sondern kann auch Attribute für Mund, Schnurrbart oder Bart bereitstellen. Darüber hinaus weist das Bild von 5A eine niedrigere Auflösung auf als 5B. Auf den ganzen Körper anwendbare Attributerkenner, wie beispielsweise Hautfarbe, Hemdfarbe und Hosenfarbe, werden auf das Bild mit niedrigerer Auflösung in 5A angewandt, wohingegen Attributerkenner, die für ein Gesicht spezifisch sind, wie beispielsweise Frisur, Vorhandensein von Brille und Schnurrbart, auf 5B angewandt werden.
  • Anschließend wendet in S2 (4) das Auftretenszahlmodul 34 (2) einen Grenzwert auf alle Auftretenszahlen an, die sich aus dem Anwenden von Erkennern für semantische Attribute auf das Bild ergeben haben. Auftretenszahlen unterhalb des Grenzwertes werden verworfen, während die verbleibenden Auftretenszahlen beibehalten werden. Der Grenzwert kann zuvor festgelegt werden und beispielsweise als eine Konstante im Programm zur Erkennung semantischer Attribute 30 gespeichert oder über die E/A-Einheit 28 (2) als Eingabe bereitgestellt werden. Nach Anwenden des Grenzwertes kann immer noch mehr als eine Auftretenszahl in einer Region des Bildes vorhanden sein. Jede Auftretenszahl in jeder Region des Bildes entspricht einem semantischen Attribut. Wie vorstehend beschrieben, entspricht jedes semantische Attribut einem Körperteil. Somit entspricht jede Auftretenszahl in einer Region des Bildes auch einem Körperteil. Dann wird jede Region mit Auftretenszahlen oberhalb des Grenzwertes mit den entsprechenden Körperteilen gekennzeichnet. Als Ergebnis enthält die Ausgabe des Auftretenszahlmoduls 34 Positionen von Regionen, die mit Auftretenszahlen markiert und mit semantischen Attributen und Körperteilnamen gekennzeichnet sind; z. B. beträgt für eine Region x die Auftretenszahl 0,6 und der Kennzeichner lautet „Bart/untere Gesichtsregion”, wobei es sich bei „Bart” um das semantische Attribut und bei „untere Gesichtsregion” um den Körperteil handelt.
  • 5C zeigt Beispiele für das Ermitteln von Auftretenszahlen gemäß einer Ausführungsform der Erfindung. Die Region 602 erhält drei Auftretenszahlen: Bart (0,1), Schnurrbart (0,1) und „keine Behaarung” (0,95). Der Grenzwert beträgt zum Beispiel 0,5. Als Ergebnis wird wie vorstehend beschrieben „keine Behaarung” als das Attribut für die Region 602 ausgewählt, da „keine Behaarung” eine Zahl erhält, die oberhalb des Grenzwertes von 0,5 liegt. Gleichermaßen erhält die Region 604 drei Auftretenszahlen: Bart (0,9), Schnurrbart (0,2) und „keine Behaarung” (0,1). Daher wird wie vorstehend beschrieben „Bart” als das Attribut für die Region 604 ausgewählt, da „Bart” eine Zahl erhält, die oberhalb des Grenzwertes von 0,5 liegt. Wie vorstehend beschrieben werden sowohl die Region 604 als auch die Region 602 mit einem Körperteil „untere Gesichtsregion” gekennzeichnet. Die Region 604 wird später unter Umständen zurückgewiesen, da sie gemäß der Bewertung durch das Konfigurationsoptimierungsmodul in S5 (4) eine niedrige geometrische Zahl sowie eine niedrige Auflösungskontextzahl aufweist.
  • Die Ausgabe von S2 (4) enthält Positionen von Regionen, die mit Attributen und Auftretenszahlen markiert und mit Körperteilnamen gekennzeichnet sind. 5D zeigt gemäß einer Ausführungsform der Erfindung Eingaben und Ausgaben für den Schritt, in dem Auftretenszahlen berechnet werden. Zum Berechnen von Auftretenszahlen verwendet das Auftretenszahlmodul 34 (2) Eingaben 610, wozu ein herausgeschnittenes Bild eines Objektes 612, eine Liste semantischer Attribute mit entsprechenden Teilen 52, eine Bildbibliothek semantischer Attribute 620 als Referenz und ein Auftretenszahl-Grenzwert 630 zählen. Die Ausgaben 690 enthalten Regionen im Bild mit semantischen Attributen, Teilenamen und Auftretenszahlen 650. Die Ausgabeauftretenszahlen liegen alle oberhalb des Auftretenszahl-Grenzwertes 630.
  • Um in S3 (4) Auflösungskontextzahlen für das in S2 verarbeitete Bild (z. B. Bild x) zu berechnen, muss das Auflösungskontextzahlmodul 37 (2) Bilder des Bildes x mit höherer Auflösung analysieren. Wie obenstehend beschrieben, werden die Bilder mit höherer Auflösung von S1 erzeugt und gespeichert. Die Hauptidee besteht darin, dass im Fall, dass ein Körperteil in einem Bild bei einer gegebenen Auflösung sichtbar ist, dieser Körperteil auch auf demselben Bild in einer höheren Auflösung sichtbar sein sollte. Zum Beispiel wird in einer bestimmten Region y dem semantischen Attribut „Bart” ein Wert von 0,9 zugewiesen und Region y folglich als „Bart/untere Gesichtsregion” gekennzeichnet. In einem Bild mit höherer Auflösung, sollte die Region y erwartungsgemäß Unter-Teile der unteren Gesichtsregion (z. B. Mund, Kinn usw.) zeigen. Geschieht dies nicht, ist es wahrscheinlich, dass der Körperteil „untere Gesichtsregion” in Region y in der Tat nicht vorhanden ist, und der Region y würde eine niedrige Auflösungskontextzahl zugewiesen.
  • 6 zeigt Beispiele des Ermittelns von Auflösungskontextzahlen gemäß einer Ausführungsform der Erfindung. Bei einem Bild mit niedrigerer Auflösung, Bild 700, erkennt das Auftretenszahlmodul 34 (2) in Region 702 einen Gesichtskörperteil, indem Erkenner für semantische Attribute, wie beispielsweise „Bart” oder „Sonnenbrille” oder „Gesichtshautfarbe” angewandt werden. Bild 750 stellt ein Bild von Region 702 mit höherer Auflösung dar. Da die Verfügbarkeit von Auflösungskontextzahlen für eine Region von der Verfügbarkeit eines Bildes mit höherer Auflösung für die Region abhängt, kann mit der Verfügbarkeit des Bildes 750 eine Auflösungskontextzahl für die Region 702 im Bild 700 erhalten werden. Im Bild 750 wird die Region 702 ausgewertet, um zu erkennen, ob das auf dem Bild 700 erkannte Gesicht zu erwartende Unter-Teile wie beispielsweise Augen, Nase und Mund enthält. Erkenner für relevante semantische Attribute wie beispielsweise „Bart” oder „Brille” oder auch „Augenfarbe” können auf das Bild 750 angewandt werden. Dementsprechend werden Auftretenszahlen im Bild 750 für die auf Regionen wie die Region 704 angewandten semantischen Attribute berechnet. Darüber hinaus werden für die identifizierten Regionen mit semantischen Attributen oberhalb eines zuvor festgelegten Grenzwertes geometrische Zahlen berechnet. Kurz gesagt: Die Schritte S2 bis S7 in 4 werden auf das Bild 750 angewandt, um eine Gesamtzahl und/oder eine Zahl eines gewichteten Mittels zu erzeugen, die Teil der Ausgabe 54 für das Bild 750 ist. Jedes Bild erzeugt bei seiner Analyse eine Ausgabe 54. Die Zahl des gewichteten Mittels aus Bild 750 wird zur Auflösungskontextzahl für die Region 702 im Bild 700.
  • 6A veranschaulicht weiterhin, wie das Auflösungskontextzahlmodul 37 zu einer Auflösungszahl gelangt. Bei der Verarbeitung von einem Bild mit niedrigerer Auflösung hin zu einem Bild mit höherer Auflösung handelt es sich bei Bild 670 mit einer Auflösung N um ein Bild mit einer niedrigeren Auflösung als Bild 690 mit einer Auflösung N + 1. In Region 675 im Bild 670 besitzt das Attribut „ein europäisches Gesicht” eine Auftretenszahl von 0,9. Mit dem Bild 690 wird die Region 675 bei einer höheren Auflösung untersucht. Der auf das Bild 690 angewandte Analyseprozess beinhaltet ein Berechnen von Auftretenszahlen durch Anwenden semantischer Attribute, ein Berechnen von Auflösungskontextzahlen, ein (in einem späteren Schritt beschriebenes) Berechnen geometrischer Zahlen, ein (in einem späteren Schritt beschriebenes) Durchführen einer Konfigurationsoptimierung und ein (in einem späteren Schritt beschriebenes) Berechnen einer Gesamtzahl. Wie obenstehend beschrieben, enthält die Ausgabe 54 eine Zahl eines gewichteten Mittels der Auftretenszahlen, Auflösungskontextzahlen und geometrischen Zahlen des Bildes, wie hierin beschrieben. Daher stellt die Zahl des gewichteten Mittels, die in diesem Fall 0,7 beträgt, aus der Ausgabe 54 für das Bild 690 die Auflösungskontextzahl der Region 675 im Bild 670 dar.
  • Um weiter zu veranschaulichen, warum die Region 675 im Bild 670 von 6A eine Auflösungskontextzahl von 0,7 besitzt, wird davon ausgegangen, dass es im Bild 690 drei Regionen gibt, die auf der Grundlage von auf das Bild 690 angewandten Erkennern semantischer Attribute erkannt wurden. Es wird angenommen, dass es sich bei diesen drei Regionen um eine Region x, eine Region y und eine Region z handelt. Es wird angenommen, dass die Auftretenszahlen für die Region x, die Region y und die Region z im Bild 690 die Werte 0,9 bzw. 0,8 bzw. 0,9 besitzen. Es wird angenommen, dass die geometrischen Zahlen für die Region x, die Region y und die Region z im Bild 690 die Werte 0,5 bzw. 0,6 bzw. 0,35 besitzen. Es wird angenommen, dass es ein Bild mit höherer Auflösung für die Region x, die Region y und die Region z gibt. Es wird angenommen, dass das Bild mit höherer Auflösung zwei Unterregionen aufweist: Region xx und Region xy. Es wird angenommen, dass die Region xx und die Region xy keine entsprechenden Bilder mit höherer Auflösung aufweisen. Es wird angenommen, dass die Region xx eine Auftretenszahl von 0,95 und die Region xy eine Auftretenszahl von 0,9 besitzt. Es wird angenommen, dass die geometrischen Zahlen für die Region xx und die Region xy Werte von 0,9 bzw. 0,8 besitzen. Da es für die Region xx und die Region xy keine entsprechenden Bilder mit höherer Auflösung gibt, besitzt die Auflösungskontextzahl für die Region xx und die Region xy den Wert 0. Es wird angenommen, dass der Gewichtungsfaktor für die Auftretenszahl, die geometrische Zahl und die Auflösungskontextzahl in allen Analysen des Beispiels 0,5 und 0,3 und 0,2 beträgt. Somit können die Zahlen für das der Region x in Bild 690 entsprechende Bild mit der höchsten Auflösung in Tabelle 1 wiedergegeben werden. Tabelle 1
    Region xx Region xy Gewichtung
    Auftretenszahl 0,95 0,9 0,5
    Geometrische Zahl 0,9 0,8 0,3
    Auflösungskontextzahl 0 0 0,2
  • Die Zahl des gewichteten Mittels für das der Region x in Bild 690 entsprechende Bild mit der höchsten Auflösung beträgt: (0,95·0,5 + 0,9·0,3 + 0·0,2 + 0,9·0,5 + 0,8·0,3 + 0·0,2)/2 = 0,7275
  • Die Summe wird durch 2 dividiert, da es bei der Berechnung zwei Regionen (Region xx und Region xy) gibt. Die Zahl des gewichteten Mittels von 0,7275 wird zur Auflösungskontextzahl für die Region x im Bild 690. Gleichermaßen wird angenommen, dass die Auflösungskontextzahlen bei der Analyse der Bilder mit höherer Auflösung für die Region y und die Region z die Werte 0,6 bzw. 0.5 besitzen.
  • Die nachstehend abgebildete Tabelle 2 zeigt Werte für die Region x, die Region y und die Region z. Tabelle 2
    Region x Region y Region z Gewichtung
    Auftretenszahl 0,9 0,8 0,9 0,5
    Geometrische Zahl 0,5 0,6 0,35 0,3
    Auflösungskontextzahl 0,7275 0,6 0,5 0,2
  • Somit beträgt die Zahl des gewichteten Mittels für das Bild 690: (0,9·0,5 + 0,5·0,3 + 0,7275·0,2 + 0,8·0,5 + 0,6·0,3 + 0,6·0,2 + 0,9·0,5 + 0,35·0,3 + 0,5·0,2)/3 ≈ 0,7
  • Da das Bild 690 das entsprechende Bild mit höherer Auflösung der Region 675 im Bild 670 darstellt, besitzt die Region 675 im Bild 670 eine Auflösungskontextzahl von 0,7.
  • Wie in 6A weiter verdeutlicht, hängt das Vorhandensein einer Auflösungskontextzahl für eine Region davon ab, ob für diese Region ein Bild mit höherer Auflösung für die Analyse verfügbar ist. Daher besitzt das Bild mit der höchsten Auflösung keine Auflösungskontextzahlen. Als Ergebnis wird die Zahl des gewichteten Mittels für die Ausgabe 54 für das Bild mit der höchsten Auflösung nur das gewichtete Mittel der Auftretenszahlen und geometrischen Zahlen enthalten. Wie durch 6A zudem verdeutlicht, stellt das Bild 690 eine Auflösungskontextzahl für die Region 675 im Bild 670 bereit. Andere Regionen im Bild 670 müssen eine ähnliche Analyse wie vorstehend beschrieben durchlaufen, um zu ihren entsprechenden Auflösungskontextzahlen zu gelangen.
  • Die Ausgabe von S3 (4) enthält Regionen im Bild mit der niedrigsten Auflösung mit semantischen Attributen, Teilenamen und Auflösungskontextzahlen. 6D zeigt gemäß einer Ausführungsform der Erfindung Eingaben und Ausgaben für den Auflösungskontextzahlen ermittelnden Schritt. Für das Berechnen von Auflösungszahlen verwendet das Auflösungszahlmodul 37 (2) Eingaben 830, die Bilder unterschiedlicher Auflösungen 860 und Regionen im Bild mit der niedrigsten Auflösung mit semantischen Attributen, Teilenamen und Auftretenszahlen 650 enthalten. Die Ausgaben 880 enthalten Regionen im Bild mit der niedrigsten Auflösung mit semantischen Attributen, Teilenamen und Auftretenszahlen 885. Beim Erlangen der endgültigen Ausgaben kann das Auflösungszahlmodul 37 Zwischenausgaben erzeugen, die Regionen in Bildern unterschiedlicher Auflösung mit semantischen Attributen, Teilenamen und Auflösungskontextzahlen enthalten.
  • In S4 (4) berechnet das Modul für geometrische Zahlen 36 (2) geometrische Zahlen, indem es die Abstände und Winkel zwischen einer bestimmten Konfiguration von analysierten Kandidatenregionen misst, und versucht, die Abstände und Winkel zwischen den Kandidatenregionen mit der geometrischen Konfiguration eines menschlichen Körpers in Übereinstimmung zu bringen. Je wahrscheinlicher zum Beispiel eine Konfiguration von Kandidatenregionen den natürlichen Abständen des menschlichen Körpers entspricht, desto höher ist die für jeden Teil in der Konfiguration vergebene geometrische Zahl. In einer Ausführungsform lautet der Algorithmus zum Berechnen der geometrischen Zahl wie folgt: Entnimm unter den in Schritt S2 (4) identifizierten semantischen Attributen Teilenamen aus den Attributen; für jeden Teil berechnet das Modul für geometrische Zahlen 36 die Abstände und Winkel von allen anderen Teilen oder nur einem Elternteil, wenn dynamische Programmierung für die Optimierung verwendet wird, und verwendet ein Standardklassifizierungsverfahren (z. B. einen Naiven Bayes-Klassifizierer unter http://en.wikipedia.org/wiki/Naive Bayes classifier), um einen Wert aus einem Bereich von 0 bis 1 darüber zu vergeben, in welchem Grad der Merkmalsvektor der Abstände und Winkel einer plausiblen Konfiguration des menschlichen Körpers entspricht. In Ausführungsformen werden Beispiele für das Berechnen geometrischer Zahlen wie folgt bereitgestellt:
  • Beispiele für die geometrische Zahl (Gi)
    • Die geometrische Zahl (Gi) für den Körperteil i (oder die Region i) kann als geometrische Zahl (GAi) auf der Grundlage von Winkeln und/oder als geometrische Zahl (GDi) auf der Grundlage von Abständen ausgedrückt werden.
    • In einer Ausführungsform ist Gi = (GAi + GDi)/2, wobei es sich um ein unverändertes arithmetisches Mittel handelt.
    • In einer Ausführungsform ist Gi = WAGAi + WDGDi, wobei es sich um ein gewichtetes arithmetisches Mittel handelt, bei dem es sich bei den Gewichtungen (WA, WD) um nichtnegative reelle Zahlen handelt, die der Bedingung WA + WD = 1 genügen, und wobei es sich bei den Gewichtungen (WA, WD) um Eingaben handelt, die in einem Beispiel auf der Grundlage solcher Faktoren wie die relative Genauigkeit und/oder das Gewicht von Referenzwerten von Winkeln und Abständen ausgewählt oder ermittelt werden können (siehe nachstehend), mittels derer die geometrischen Zahlen GAi und GDi berechnet werden.
    • In einer Ausführungsform ist Gi = (GAi·GDi)1/2, wobei es sich um ein geometrisches Mittel handelt.
    • In einer Ausführungsform ist Gi = GAi, wobei nur Winkel und keine Abstände verwendet werden.
    • In einer Ausführungsform ist Gi = GDi, wobei nur Abstände und keine Winkel verwendet werden.
  • Auf Winkeln beruhende geometrische Zahl (GAi)
    • Ai = {Ai1, Ai2, ..., AiN} bezeichne einen Satz von N wie obenstehend beschrieben ermittelten Winkeln zwischen Teil i (oder Region i) und jedem Paar der anderen Körperteile (oder Regionen).
    • ai = {ai1, ai2, ..., aiN} bezeichne einen Satz von N entsprechenden, in einer Bibliothek oder Datei gespeicherten Referenzwinkeln, wobei N ≥ 2.
    • δAi bezeichne eine Maßzahl einer Abweichung zwischen Ai und ai.
    • In einer Ausführungsform ist δAi = [{(Ai1 – ai1)2 + (Ai2 – ai2)2 + ... + (AiN – aiN)2}/N]1/2.
    • In einer Ausführungsform ist δAi = (|Ai1 – ai1| + |Ai2 – ai2| + ... + |AiN – aiN|)/N.
    • tA bezeichne einen spezifizierten oder eingegebenen Winkelgrenzwert, derart dass: GAi = 0, wenn δAi ≥ tA; und GAi = 1 – δAi/tA, wenn δAi < tA.
  • Somit gilt für GAi: 0 ≤ GAi ≤ 1. Insbesondere gilt: GAi = 1, wenn δAi = 0 (d. h., wenn alle ermittelten Winkel gleich allen entsprechenden Referenzwinkeln sind). Weiterhin gilt: GAi = 0, wenn δAi ≥ tA (d. h., wenn die Maßzahl der Abweichung zwischen Ai und ai unannehmbar groß ist).
  • Auf Abständen beruhende geometrische Zahl (GDi)
    • Di = {Di1, Di2, ..., DiM} bezeichne einen Satz von M Abständen zwischen Körperteil i (oder Region i) und jedem anderen Körperteil (oder jeder anderen Region), die wie obenstehend beschrieben ermittelt wurden.
    • di = {di1, di2, ..., diM} bezeichne einen Satz von M entsprechenden, in einer Bibliothek oder Datei gespeicherten Referenzabständen, wobei M ≥ 2.
    • δDi bezeichne eine Maßzahl einer Abweichung zwischen Di und di.
    • In einer Ausführungsform ist δDi = [{(Di1 – di1)2 + (Di2 – di2)2 + ... + (DiN – diM)2}/M]1/2.
    • In einer Ausführungsform ist δDi = (|Di1 – di1) + |Di2 – di2| + ... + |DiN – diM|)/M.
    • tD bezeichne einen spezifizierten oder eingegebenen Abstandsgrenzwert, derart dass: GDi = 0, wenn δDi ≥ tD; und GDi = 1 – δDi/tD, wenn δDi < tD.
  • Somit gilt für GDi: 0 ≤ GDi ≤ 1. Insbesondere gilt: GDi = 1, wenn δDi = 0 (d. h., wenn alle ermittelten Abstände gleich allen entsprechenden Referenzabständen sind). Weiterhin gilt: GDi = 0, wenn δDi ≥ tA (d. h., wenn die Maßzahl der Abweichung zwischen Di und di unannehmbar groß ist).
  • 7A und 7B zeigen Beispiele für das Ermitteln von geometrischen Zahlen für eine optimale Konfiguration gemäß einer Ausführungsform der Erfindung. In 7A sind viele in Abbildung 800 identifizierte Teile vorhanden, wobei jedes Quadrat für eine Region im Bild steht, die ein semantisches Attribut mit einem Teilenamen kennzeichnet. Bei vielen identifizierten Teilen gibt es viele mögliche Konfigurationen, um den menschlichen Körper auszubilden. Der tatsächliche menschliche Körper im Bild ist in 7A überlagert. Zum Beispiel kann in Region 801 ein Kopf erkannt werden. Zwei Arme werden in Regionen 803 und 805 sowie zwei Beine in Regionen 807 und 809 erkannt. 7B veranschaulicht einen Satz von Regionen in der Abbildung 802, die durch das Konfigurationsoptimierungsmodul 38 als Teil einer optimalen Konfiguration ausgewählt wurden. Die Funktionsweise des Konfigurationsoptimierungsmoduls 38 wird im nachfolgenden Schritt beschrieben. Wie in 7B gezeigt, wurden die Regionen 801, 803, 805, 807 und 809 als Teile der optimierten Konfiguration ausgewählt. Die geometrischen Zahlen für jede Region werden bei einer gegebenen Konfiguration berechnet, indem die Winkel und Abstände zu anderen Regionen gemessen werden. Zum Beispiel kann die geometrische Zahl der Region 801 aus dem Messen der Winkel und Abstände der Region 801 zu allen anderen Regionen berechnet werden, die zu einem bestimmten Konfigurationskandidaten gehören.
  • Die Ausgaben von S4 (4) enthalten eine Konfiguration von Kandidatenteilen, wobei jedem Teil (i) ein semantisches Attribut, eine Auftretenszahl Ai, eine Auflösungskontextzahl Ri und eine geometrischen Zahl Gi zugehörig sind. 7C zeigt gemäß einer Ausführungsform der Erfindung Eingaben und Ausgaben für den geometrische Zahlen ermittelnden Schritt. Zum Berechnen geometrischer Zahlen verwendet das Modul für geometrische Zahlen 36 (2) Eingaben 810, die eine Kandidatenkonfiguration von durch das Optimierungsmodul 815 analysierten Teilen (ein Satz von Teilen mit Auftretenszahlen und Auflösungszahlen) sowie eine Referenzbibliothek von Winkeln und Abständen zwischen Teilen 820 beinhalten können. Die Ausgaben 890 enthalten Kandidatenkonfigurationen von Teilen 850, wobei jedem Teil (i) ein semantisches Attribut, eine Auftretenszahl Ai, eine Auflösungskontextzahl Ri und eine geometrischen Zahl Gi zugehörig sind.
  • In S5 (4) verwendet das Konfigurationsoptimierungsmodul 38 (2) dynamische Programmierung, um eine optimale Konfiguration auf der Grundlage der Auftretenszahlen, geometrischen Zahlen und Auflösungskontextzahlen auszuwählen. Bei einem gegebenen Satz von Kandidaten kann es mehrere mögliche Konfigurationen geben, die als endgültige Abschätzung von Körperteilregion plus Attribute aus dem Bild gewählt werden können. Die optimale Konfiguration, bei der es sich um die Konfiguration mit den maximalen Auftretens-, geometrischen, und Auflösungszahlen handelt, wird mittels dynamischer Programmierung unter Verwendung des in „Pictorial Structures for Object Recognition", Felzenszwalb et al., International Journal of Computer Vision (IJCV), Januar 2005, vorgeschlagenen Algorithmus ausgewählt. Wenn eine optimale Konfiguration ausgewählt ist, sind den ausgewählten Regionen für die optimale Konfiguration bereits semantische Attribute zugehörig, und sie weisen wie vorstehend beschrieben Körperteilkennzeichner in den Regionen auf.
  • Daher können in S5 (4) viele mögliche Kandidatenkörperkonfigurationen aus den verfügbaren Regionen und deren zugehörigen Körperteilkennzeichnern und Attributen abgeleitet werden. Das Ziel von S5 liegt darin, die beste Konfiguration aus den vielen möglichen Körperkonfigurationen auszuwählen. Das Optimierungsmodul durchsucht diesen Raum von Konfigurationen mit dem Ziel, die Konfiguration mit der höchsten Zahl des gewichteten Mittels hinsichtlich Auftretenszahlen, Auflösungskontextzahlen und geometrischen Zahlen zu ermitteln. Als Beispiel kann das Konfigurationsoptimierungsmodul 38 die obenstehend beschriebene, in Verbindung mit den Tabellen 1 und 2 verwendete Formel verwenden, um eine Zahl des gewichteten Mittels für jede mögliche Konfiguration zu berechnen und die eine mit der höchsten Zahl des gewichteten Mittels als die Ausgabe auszuwählen.
  • Als Alternative zu zuvor festgelegten Gewichtungen für die drei Arten von Zahlen können beim Berechnen der Zahl des gewichteten Mittels die Gewichtungen dynamisch ermittelt werden. Um aus allen drei Typen von Zahlen eine optimierte Zahl des gewichteten Mittels zu berechnen, können in S6 (4) die optimalen Gewichtungen für die Zahlen ermittelt werden. Beim Ermitteln der optimalen Gewichtungen verwendet das Modul für strukturiertes Lernen 35 (2) in S6 (4) eine in „Large Margin Methods for Structured and Interdependent Output Variables", Tsochantaridis et al., Journal of Machine Learning Research (JMLR), September 2005, beschriebene Prozedur für maschinelles Lernen mit der Bezeichnung „Strukturiertes Lernen” („structured learning”). Die Grundidee beinhaltet, dem System viele Beispiele von Körperteilkonfigurationen einschließlich deren Attribute vorzulegen. Das Modul für strukturiertes Lernen optimiert dann die Gewichtungen so, dass jede Konfiguration im vorgelegten Beispielsatz eine höhere Gesamtzahl als unzulässige Konfigurationen besitzt, die keinen zulässigen menschlichen Körperanordnungen entsprechen. Strukturiertes Lernen wurde zudem von Tran et al. in „Configuration Estimates Improve Pedestrian Finding", National Information Processing Systems Foundation 2007, beschrieben. Es handelt sich dabei um ein Verfahren, das eine Reihe korrekter Beispiele verwendet, um geeignete Gewichtungen von Merkmalen relativ zueinander abzuschätzen, um eine Zahl zu erzeugen, die beim Bewerten von Konfigurationen wirkungsvoll ist.
  • In S7 (4) berechnet das Gesamtzahlberechnungsmodul 39 (2) eine optimierte Gesamtzahl auf der Grundlage der Auftretenszahlen, geometrischen Zahlen und Auflösungskontextzahlen aus den Regionen in der optimierten Konfiguration. Mit der Eingabe aus dem Modul für strukturiertes Lernen 35 (2) verwendet das Gesamtzahlberechnungsmodul 39 die den Auftretenszahlen, geometrischen Zahlen und Auflösungskontextzahlen verliehenen Gewichtungen, um die optimierte Gesamtzahl zu berechnen, die wiederum die Zahl des gewichteten Mittels der Auftretenszahlen, geometrischen Zahlen und Auflösungskontextzahlen erzeugt, indem die Gesamtzahl durch die Anzahl analysierter Regionen dividiert wird.
  • Daher setzt sich jede analysierte Konfiguration aus einem Satz von Teilen zusammen, wobei jedem Teil (i) ein Attribut und eine entsprechende Auftretenszahl Ai, Auflösungskontextzahl Ri und geometrischen Zahl Gi zugehörig ist. In S7 (4) verwendet das Gesamtzahlberechnungsmodul 39 (2) die folgende Formel, um die optimierte Gesamtzahl zu berechnen:
    Figure 00250001
    wobei Ai für Auftretenszahlen steht, Gi für geometrische Zahlen steht, Ri für Auflösungszahlen für jeden Teil i der Konfiguration steht, sowie W1, W2 und W3 den vom Modul für strukturiertes Lernen erhaltenen Gewichtungen entsprechen. W1, W2 und W3 werden in S6 durch das Modul für strukturiertes Lernen 35 (2) mithilfe des vorstehend beschriebenen Verfahrens bereitgestellt.
  • 8 zeigt Eingaben und Ausgaben für den Schritt des Berechnens einer Gesamtzahl gemäß einer Ausführungsform der Erfindung. Eingaben 840 für das Gesamtzahlberechnungsmodul 39 (2) beinhalten eine Kandidatenkonfiguration von Teilen 842, wobei jeder Teil (i) eine Auftretenszahl Ai, eine Auflösungszahl Ri und eine geometrische Zahl Gi sowie durch das Modul für strukturiertes Lernen bereitgestellte Gewichtungen 844 aufweist. Nachdem die Gesamtzahl berechnet wurde, kann die Zahl des gewichteten Mittels berechnet werden, indem die Gesamtzahl durch die Anzahl von Regionen auf dem analysierten Bild dividiert wird. Die Ausgaben 849 beinhalten eine Zahl 847, die das gewichtete Mittel von Ai, Ri und Gi darstellt.
  • Es versteht sich, dass der hierein verwendete Begriff „Programmcode” jeden Satz von Aussagen oder Anweisungen in jeder Sprache, jedem Code oder jeder Notation bedeutet, die oder der eine Recheneinheit mit der Fähigkeit zur Datenverarbeitung veranlassen kann, eine bestimmte Funktion entweder direkt oder nach einer Kombination des Folgenden durchzuführen: (a) Konvertierung in eine andere Sprache, einen anderen Code oder eine andere Notation; (b) Reproduktion in einer anderen materiellen Form; und/oder (c) Dekomprimierung. In dieser Hinsicht kann der Programmcode als jede Kombination eines oder mehrerer Typen von Computerprogrammen ausgebildet sein, wie beispielsweise eine Anwendung/ein Softwareprogramm, Komponenten-Software/eine Bibliothek von Funktionen, ein Betriebssystem, ein grundlegendes E/A-System (BIOS)/ein Treiber für eine bestimmte Rechen-, Speicher und/oder E/A-Einheit und Ähnliches.
  • Die vorangehende Beschreibung vielfältiger Aspekte der Erfindung wurde zum Zwecke der Veranschaulichung und Beschreibung vorgelegt. Sie ist nicht als erschöpfend oder die Erfindung auf genau die offenbarte Form beschränkend aufzufassen, und offensichtlich sind viele Modifikationen und Variationen möglich. Derartige Modifikationen und Variationen, die für den einzelnen Fachmann naheliegend sein können, sind im Umfang der Erfindung, wie sie in den begleitenden Ansprüchen festgelegt ist, enthalten.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • „Strike a Pose: Tracking People by Finding Stylized Poses”, Ramanan et al., Computer Vision and Pattern Recognition (CVPR), San Diego, Kalifornien, Juni 2005 [0002]
    • „Pictorial Structures for Object Recognition”, Felzenszwalb et al., International Journal of Computer Vision (IJCV), Januar 2005 [0002]
    • N. Dalal and B. Triggs, „Histograms of Oriented Gradients for Human Detection”, Proceedings of the IEEE Conference an Computer Vision and Pattern Recognition, San Diego, USA, Juni 2005, Band II, Seiten 886 bis 893 [0035]
    • Viola et al. in „Robust Real-time Object Detection”, Cambridge Research Laboratory Technical Report, Februar 2001 [0038]
    • Bo Wu et al. in „Fast Rotation Invariant Multi-View Face Detection Based an Real Adaboost”, IEEE International Conference an Automatic Face and Gesture Recognition, 2004 [0038]
    • http://en.wikipedia.org/wiki/Naive Bayes classifier [0054]
    • „Pictorial Structures for Object Recognition”, Felzenszwalb et al., International Journal of Computer Vision (IJCV), Januar 2005 [0059]
    • „Large Margin Methods for Structured and Interdependent Output Variables”, Tsochantaridis et al., Journal of Machine Learning Research (JMLR), September 2005 [0061]
    • Tran et al. in „Configuration Estimates Improve Pedestrian Finding”, National Information Processing Systems Foundation 2007 [0061]

Claims (24)

  1. Verfahren zum Ermitteln von Teilen und zugehörigen Attributen eines Objektes in Videos, wobei das Verfahren aufweist: Empfangen einer Videoeingabe; Erkennen eines Objektes aus der Videoeingabe und Herausschneiden eines Bildes des Objektes aus der Videoeingabe; Empfangen einer Vielzahl semantischer Attribute mit zugehörigen Teilen für das Objekt; Erzeugen und Speichern einer Vielzahl von Versionen des Bildes, wobei jede Version eine unterschiedliche Auflösung des Bildes des Objektes aufweist; Berechnen einer Auftretenszahl in jeder Region aus einer Vielzahl von Regionen in der Version mit der niedrigsten Auflösung der Versionen des Bildes des Objektes für die Vielzahl semantischer Attribute, wobei die Auftretenszahl für mindestens ein semantisches Attribut der Vielzahl semantischer Attribute für jede Region eine Wahrscheinlichkeit jedes semantischen Attributes des mindestens einen in dieser Region auftretenden semantischen Attributs bezeichnet; Analysieren von Versionen mit zunehmend höherer Auflösung als die Version mit der niedrigsten Auflösung, um eine Auflösungskontextzahl für jede Region in der Version mit der niedrigsten Auflösung zu berechnen, wobei die Auflösungskontextzahl in der Version mit der niedrigsten Auflösung ein angibt, in welchem Ausmaß für jede Region in den Versionen mit zunehmend höherer Auflösung eine feinere räumliche Struktur vorhanden ist als in der Version mit der niedrigsten Auflösung; Ermitteln einer optimierten Konfiguration von Körperteilen und zugehörigen semantischen Attributen in der Version mit der niedrigsten Auflösung, wobei das Ermitteln die Auftretenszahlen und die Auflösungskontextzahlen in den Regionen in der Version mit der niedrigsten Auflösung verwendet; Anzeigen und/oder Speichern der optimierten Konfiguration von Körperteilen und zugehörigen semantischen Attributen.
  2. Verfahren nach Anspruch 1, weiterhin aufweisend: Berechnen einer geometrischen Zahl für jede Region der Vielzahl von Regionen in der Version mit der niedrigsten Auflösung, wobei die geometrische Zahl eine Wahrscheinlichkeit berechnet, dass eine Region mit gespeicherten Referenzdaten für ein Referenzobjekt übereinstimmt, das dem erkannten Objekt im Hinblick auf Winkel und Abstände zwischen der Vielzahl von Regionen entspricht.
  3. Verfahren nach Anspruch 2, wobei die Auflösungskontextzahl für die Version des Bildes mit niedrigerer Auflösung als eine Zahl des gewichteten Mittels berechnet wird, die aus einer Vielzahl von Zahlen für eine Version mit einer nächsthöheren Auflösung der Versionen mit einer höheren Auflösung des Bildes berechnet wird.
  4. Verfahren nach Anspruch 3, wobei die Vielzahl von Zahlen für die Version des Bildes mit der nächsthöheren Auflösung Auftretenszahlen und geometrische Zahlen aufweist.
  5. Verfahren nach Anspruch 3, wobei die Vielzahl von Zahlen für die Version des Bildes mit der nächsthöheren Auflösung Auftretenszahlen, geometrische Zahlen und Auflösungskontextzahlen aufweist.
  6. Verfahren nach Anspruch 5, wobei die Zahl des gewichteten Mittels für die Version des Bildes mit der nächsthöheren Auflösung mithilfe der folgenden Formel dividiert durch l berechnet wird:
    Figure 00290001
    wobei l für die Anzahl von Regionen in der Version des Bildes mit der nächsthöheren Auflösung steht, es sich bei i um einen Regionenindex handelt, Σi eine Summation von i = 1 bis l = 1 bezeichnet, Ai für Auftretenszahlen in Region i steht, Gi für geometrische Zahlen in Region i steht, Ri für Auflösungskontextzahlen in Region i steht, sowie W1, W2 und W3 für den Auftretenszahlen, den geometrischen Zahlen bzw. den Auflösungskontextzahlen zugewiesene Gewichtungen stehen.
  7. Verfahren nach Anspruch 6, weiterhin aufweisend: Speichern und/oder Anzeigen von Ausgaben mindestens eines Ausschnitts des Bildes in mindestens einer Version der Versionen höherer Ebene des Bildes mit räumlichen Informationen zu semantischen Attributen und zugehörigen Teilen.
  8. Computerprogrammprodukt, das aufweist: ein computerlesbares Speichermedium mit auf dem Speichermedium enthaltenem computerlesbarem Programmcode, wobei der computerlesbare Programmcode Anweisungen enthält, die ein Verfahren zum Abschätzen von Teilen und Attributen eines Objektes in einem Video durchführen, wobei das Verfahren aufweist: Empfangen einer Videoeingabe; Erkennen eines Objektes aus der Videoeingabe und Herausschneiden eines Bildes des Objektes aus der Videoeingabe; Empfangen einer Vielzahl semantischer Attribute mit zugehörigen Teilen für das Objekt; Erzeugen und Speichern einer Vielzahl von Versionen des Bildes, wobei jede Version eine unterschiedliche Auflösung des Bildes des Objektes aufweist; Berechnen einer Auftretenszahl in jeder Region aus einer Vielzahl von Regionen in der Version mit der niedrigsten Auflösung der Versionen des Bildes des Objektes für die Vielzahl semantischer Attribute, wobei die Auftretenszahl für mindestens ein semantisches Attribut der Vielzahl semantischer Attribute für jede Region eine Wahrscheinlichkeit jedes semantischen Attributs des mindestens einen in dieser Region auftretenden semantischen Attributs bezeichnet; Analysieren von Versionen mit zunehmend höherer Auflösung als die Version mit der niedrigsten Auflösung, um eine Auflösungskontextzahl für jede Region in der Version mit der niedrigsten Auflösung zu berechnen, wobei die Auflösungskontextzahl in der Version mit der niedrigsten Auflösung angibt, in welchem Ausmaß für jede Region in den Versionen mit zunehmend höherer Auflösung eine feinere räumliche Struktur vorhanden ist als in der Version mit der niedrigsten Auflösung; Ermitteln einer optimierten Konfiguration von Körperteilen und zugehörigen semantischen Attributen in der Version mit der niedrigsten Auflösung, wobei das Ermitteln die Auftretenszahlen und die Auflösungskontextzahlen in den Regionen in der Version mit der niedrigsten Auflösung verwendet; Anzeigen und/oder Speichern der optimierten Konfiguration von Körperteilen und zugehörigen semantischen Attributen.
  9. Computerprogrammprodukt nach Anspruch 8, wobei das Verfahren weiterhin aufweist: Berechnen einer geometrischen Zahl für jede Region aus der Vielzahl von Regionen in der Version mit der niedrigsten Auflösung, wobei die geometrische Zahl eine Wahrscheinlichkeit berechnet, dass eine Region mit gespeicherten Referenzdaten für ein Referenzobjekt übereinstimmt, das dem erkannten Objekt im Hinblick auf Winkel und Abstände zwischen der Vielzahl von Regionen entspricht.
  10. Computerprogrammprodukt nach Anspruch 9, wobei die Auflösungskontextzahl für die Version des Bildes mit der niedrigeren Auflösung als eine Zahl des gewichteten Mittels berechnet wird, die aus einer Vielzahl von Zahlen für eine Version mit einer nächsthöheren Auflösung der Versionen des Bildes mit einer höheren Auflösung berechnet wird.
  11. Computerprogrammprodukt nach Anspruch 10, wobei die Vielzahl von Zahlen für die Version des Bildes mit der nächsthöheren Auflösung Auftretenszahlen und geometrische Zahlen aufweist.
  12. Computerprogrammprodukt nach Anspruch 10, wobei die Vielzahl von Zahlen für die Version des Bildes mit der nächsthöheren Auflösung Auftretenszahlen, geometrische Zahlen und Auflösungskontextzahlen aufweist.
  13. Computerprogrammprodukt nach Anspruch 12, wobei die Zahl des gewichteten Mittels für die Version des Bildes mit der nächsthöheren Auflösung mithilfe der folgenden Formel dividiert durch l berechnet wird:
    Figure 00310001
    wobei l für die Anzahl von Regionen in der Version des Bildes mit der nächsthöheren Auflösung steht, es sich bei i um einen Regionenindex handelt, Σi eine Summation von i = 1 bis i = l bezeichnet, Ai für Auftretenszahlen in Region i steht, Gi für geometrische Zahlen in Region i steht, Ri für Auflösungskontextzahlen in Region i steht, sowie W1, W2 und W3 für den Auftretenszahlen, den geometrischen Zahlen bzw. den Auflösungskontextzahlen zugewiesene Gewichtungen stehen.
  14. Computerprogrammprodukt nach Anspruch 13, wobei das Verfahren weiterhin aufweist: Speichern und/oder Anzeigen von Ausgaben mindestens eines Ausschnitts des Bildes in mindestens einer Version der Versionen höherer Ebene des Bildes mit räumlichen Informationen zu semantischen Attributen und zugehörigen Teilen.
  15. Computersystem, das einen Prozessor und eine mit dem Prozessor verbundene computerlesbare Speichereinheit aufweist, wobei die computerlesbare Speichereinheit Anweisungen enthält, die bei Ausführen durch den Prozessor ein Verfahren zum Abschätzen von Teilen und Attributen eines Objektes in Videos ausbilden, wobei das Verfahren aufweist: Empfangen einer Videoeingabe; Erkennen eines Objektes aus der Videoeingabe und Herausschneiden eines Bildes des Objektes aus der Videoeingabe; Empfangen einer Vielzahl semantischer Attribute mit zugehörigen Teilen für das Objekt; Erzeugen und Speichern einer Vielzahl von Versionen des Bildes, wobei jede Version eine unterschiedliche Auflösung des Bildes des Objektes aufweist; Berechnen einer Auftretenszahl in jeder Region aus einer Vielzahl von Regionen in der Version mit der niedrigsten Auflösung der Versionen des Bildes des Objektes für die Vielzahl semantischer Attribute, wobei die Auftretenszahl für mindestens ein semantisches Attribut der Vielzahl semantischer Attribute für jede Region eine Wahrscheinlichkeit jedes semantischen Attributs des mindestens einen in dieser Region auftretenden semantischen Attributs bezeichnet; Analysieren von Versionen mit zunehmend höherer Auflösung als die Version mit der niedrigsten Auflösung, um eine Auflösungskontextzahl für jede Region in der Version mit der niedrigsten Auflösung zu berechnen, wobei die Auflösungskontextzahl in der Version mit der niedrigsten Auflösung angibt, in welchem Ausmaß für jede Region in den Versionen mit zunehmend höherer Auflösung eine feinere räumliche Struktur vorhanden ist als in der Version mit der niedrigsten Auflösung; Ermitteln einer optimierten Konfiguration von Körperteilen und zugehörigen semantischen Attributen in der Version mit der niedrigsten Auflösung, wobei das Ermitteln die Auftretenszahlen und die Auflösungskontextzahlen in den Regionen in der Version mit der niedrigsten Auflösung verwendet; Anzeigen und/oder Speichern der optimierten Konfiguration von Körperteilen und zugehörigen semantischen Attributen.
  16. System nach Anspruch 15, wobei das Verfahren weiterhin aufweist: Berechnen einer geometrischen Zahl für jede Region aus der Vielzahl von Regionen in der Version mit der niedrigsten Auflösung, wobei die geometrische Zahl eine Wahrscheinlichkeit berechnet, dass eine Region mit gespeicherten Referenzdaten für ein Referenzobjekt übereinstimmt, das dem erkannten Objekt im Hinblick auf Winkel und Abstände zwischen der Vielzahl von Regionen entspricht.
  17. System nach Anspruch 16, wobei die Auflösungskontextzahl für die Version des Bildes mit der niedrigeren Auflösung als eine Zahl des gewichteten Mittels berechnet wird, die aus einer Vielzahl von Zahlen für eine Version mit einer nächsthöheren Auflösung der Versionen mit einer höheren Auflösung des Bildes berechnet wird.
  18. System nach Anspruch 17, wobei die Vielzahl von Zahlen für die Version des Bildes mit der nächsthöheren Auflösung Auftretenszahlen und geometrische Zahlen aufweist.
  19. System nach Anspruch 17, wobei die Vielzahl von Zahlen für die Version des Bildes mit der nächsthöheren Auflösung Auftretenszahlen, geometrische Zahlen und Auflösungskontextzahlen aufweist.
  20. System nach Anspruch 19, wobei die Zahl des gewichteten Mittels für die Version des Bildes mit der nächsthöheren Auflösung mithilfe der folgenden Formel dividiert durch l berechnet wird:
    Figure 00340001
    wobei l für die Anzahl von Regionen in der Version des Bildes mit der nächsthöheren Auflösung steht, es sich bei i um einen Regionenindex handelt, Σi eine Summation von i = 1 bis i = l bezeichnet, Ai für Auftretenszahlen in Region i steht, Gi für geometrische Zahlen in Region i steht, Ri für Auflösungskontextzahlen in Region i steht, sowie W1, W2 und W3 für den Auftretenszahlen, den geometrischen Zahlen bzw. den Auflösungskontextzahlen zugewiesene Gewichtungen stehen.
  21. System nach Anspruch 20, wobei das Verfahren weiterhin aufweist: Speichern und/oder Anzeigen von Ausgaben mindestens eines Ausschnitts des Bildes in mindestens einer Version der Versionen höherer Ebene des Bildes mit räumlichen Informationen zu semantischen Attributen und zugehörigen Teilen.
  22. Prozess zum Unterstützen von Computerinfrastruktur, wobei der Prozess ein Bereitstellen mindestens eines Unterstützungsdienstes für mindestens eines der Elemente Erstellen, Integrieren, Beherbergen, Unterhalten und Einsetzen von computerlesbarem Code in einem Computersystem aufweist, wobei der Code in Kombination mit dem Computersystem in der Lage ist, ein Verfahren zum Abschätzen von Teilen und Attributen eines Objektes in Videos durchzuführen, wobei das Verfahren aufweist: Empfangen einer Videoeingabe; Erkennen eines Objektes aus der Videoeingabe und Herausschneiden eines Bildes des Objektes aus der Videoeingabe; Empfangen einer Vielzahl semantischer Attribute mit zugehörigen Teilen für das Objekt; Erzeugen und Speichern einer Vielzahl von Versionen des Bildes, wobei jede Version eine unterschiedliche Auflösung des Bildes des Objektes aufweist; Berechnen einer Auftretenszahl in jeder Region aus einer Vielzahl von Regionen in der Version mit der niedrigsten Auflösung der Versionen des Bildes des Objektes für die Vielzahl semantischer Attribute, wobei die Auftretenszahl für mindestens ein semantisches Attribut der Vielzahl semantischer Attribute für jede Region eine Wahrscheinlichkeit jedes semantischen Attributs des mindestens einen in dieser Region auftretenden semantischen Attributs bezeichnet; Analysieren von Versionen mit zunehmend höherer Auflösung als die Version mit der niedrigsten Auflösung, um eine Auflösungskontextzahl für jede Region in der Version mit der niedrigsten Auflösung zu berechnen, wobei die Auflösungskontextzahl in der Version mit der niedrigsten Auflösung angibt, in welchem Ausmaß für jede Region in den Versionen mit zunehmend höherer Auflösung eine feinere räumliche Struktur vorhanden ist als in der Version mit der niedrigsten Auflösung; Ermitteln einer optimierten Konfiguration von Körperteilen und zugehörigen semantischen Attributen in der Version mit der niedrigsten Auflösung, wobei das Ermitteln die Auftretenszahlen und die Auflösungskontextzahlen in den Regionen in der Version mit der niedrigsten Auflösung verwendet; Anzeigen und/oder Speichern der optimierten Konfiguration von Körperteilen und zugehörigen semantischen Attributen.
  23. Prozess nach Anspruch 22, wobei das Verfahren weiterhin Folgendes umfasst: Berechnen einer geometrischen Zahl für jede Region der Vielzahl von Regionen in der Version mit der niedrigsten Auflösung, wobei die geometrische Zahl eine Wahrscheinlichkeit berechnet, dass eine Region mit gespeicherten Referenzdaten für ein Referenzobjekt übereinstimmt, das dem erkannten Objekt im Hinblick auf Winkel und Abstände zwischen der Vielzahl von Regionen entspricht.
  24. Prozess nach Anspruch 23, wobei die Auflösungskontextzahl für die Version des Bildes mit der niedrigeren Auflösung als eine Zahl des gewichteten Mittels berechnet wird, die aus einer Vielzahl von Zahlen für eine Version mit einer nächsthöheren Auflösung der Versionen mit einer höheren Auflösung des Bildes berechnet wird.
DE112011101927.0T 2010-07-28 2011-07-27 Semantisches Parsen von Objekten in Videos Active DE112011101927B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/845,095 2010-07-28
US12/845,095 US8532390B2 (en) 2010-07-28 2010-07-28 Semantic parsing of objects in video
PCT/EP2011/062925 WO2012013711A2 (en) 2010-07-28 2011-07-27 Semantic parsing of objects in video

Publications (2)

Publication Number Publication Date
DE112011101927T5 true DE112011101927T5 (de) 2013-09-05
DE112011101927B4 DE112011101927B4 (de) 2016-03-17

Family

ID=44629362

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112011101927.0T Active DE112011101927B4 (de) 2010-07-28 2011-07-27 Semantisches Parsen von Objekten in Videos

Country Status (8)

Country Link
US (6) US8532390B2 (de)
JP (1) JP5657113B2 (de)
KR (1) KR101507662B1 (de)
CN (1) CN103703472B (de)
DE (1) DE112011101927B4 (de)
GB (1) GB2495881B (de)
TW (1) TWI505200B (de)
WO (1) WO2012013711A2 (de)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2009243528B2 (en) * 2009-12-04 2013-08-01 Canon Kabushiki Kaisha Location-based signature selection for multi-camera object tracking
US9134399B2 (en) 2010-07-28 2015-09-15 International Business Machines Corporation Attribute-based person tracking across multiple cameras
US8532390B2 (en) 2010-07-28 2013-09-10 International Business Machines Corporation Semantic parsing of objects in video
US8515127B2 (en) 2010-07-28 2013-08-20 International Business Machines Corporation Multispectral detection of personal attributes for video surveillance
US10424342B2 (en) 2010-07-28 2019-09-24 International Business Machines Corporation Facilitating people search in video surveillance
TW201217920A (en) * 2010-10-22 2012-05-01 Hon Hai Prec Ind Co Ltd Avoiding clamped system, method, and electrically operated gate with the system
US20130236065A1 (en) * 2012-03-12 2013-09-12 Xianwang Wang Image semantic clothing attribute
US8254647B1 (en) * 2012-04-16 2012-08-28 Google Inc. Facial image quality assessment
US20140328570A1 (en) * 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
JP2016129269A (ja) * 2013-04-22 2016-07-14 パナソニック株式会社 画像・音声処理装置、集積回路、およびプログラム
US20140317009A1 (en) * 2013-04-22 2014-10-23 Pangea Connect, Inc Managing Online and Offline Interactions Between Recruiters and Job Seekers
GB2519348B (en) 2013-10-18 2021-04-14 Vision Semantics Ltd Visual data mining
US9600897B2 (en) * 2013-10-31 2017-03-21 Nec Corporation Trajectory features and distance metrics for hierarchical video segmentation
US20150317511A1 (en) * 2013-11-07 2015-11-05 Orbeus, Inc. System, method and apparatus for performing facial recognition
US20150142884A1 (en) * 2013-11-21 2015-05-21 Microsoft Corporation Image Sharing for Online Collaborations
US9668367B2 (en) 2014-02-04 2017-05-30 Microsoft Technology Licensing, Llc Wearable computing systems
KR102232797B1 (ko) 2014-03-03 2021-03-26 에스케이플래닛 주식회사 객체 식별 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체
CN104103075A (zh) * 2014-07-24 2014-10-15 北京邮电大学 一种多视角人体部件语义匹配方法和装置
KR101659657B1 (ko) * 2014-09-29 2016-09-23 동명대학교산학협력단 개선된 리얼 아다부스트 알고리즘에 근거한 새로운 멀티 뷰 얼굴감지방식
US10437835B2 (en) 2014-12-18 2019-10-08 International Business Machines Corporation Scoring attributes in a deep question answering system based on syntactic or semantic guidelines
US10049273B2 (en) * 2015-02-24 2018-08-14 Kabushiki Kaisha Toshiba Image recognition apparatus, image recognition system, and image recognition method
US10582125B1 (en) * 2015-06-01 2020-03-03 Amazon Technologies, Inc. Panoramic image generation from video
AU2015203591A1 (en) * 2015-06-26 2017-01-19 Canon Kabushiki Kaisha System and method for object matching
US10289727B2 (en) 2015-09-17 2019-05-14 International Business Machines Corporation Incorporation of semantic attributes within social media
JP2017092899A (ja) * 2015-11-17 2017-05-25 ソニー株式会社 画像処理装置、画像処理方法、及び、プログラム
CN106022208A (zh) * 2016-04-29 2016-10-12 北京天宇朗通通信设备股份有限公司 人体动作识别方法及装置
KR20180086048A (ko) * 2017-01-20 2018-07-30 한화에어로스페이스 주식회사 카메라 및 카메라의 영상 처리 방법
KR102650650B1 (ko) * 2017-01-20 2024-03-25 한화비전 주식회사 영상 관리 시스템 및 영상 관리 방법
CN107358573A (zh) * 2017-06-16 2017-11-17 广东欧珀移动通信有限公司 图像美颜处理方法和装置
US10460470B2 (en) * 2017-07-06 2019-10-29 Futurewei Technologies, Inc. Recognition and reconstruction of objects with partial appearance
US11210499B2 (en) * 2018-07-06 2021-12-28 Kepler Vision Technologies Bv Determining a social group to which customers belong from appearance and using artificial intelligence, machine learning, and computer vision, for estimating customer preferences and intent, and for improving customer services
DE102018212961A1 (de) * 2018-08-02 2020-02-06 Robert Bosch Gmbh Verfahren und Vorrichtung zur Analyse eines Bildes
CN110008802B (zh) 2018-12-04 2023-08-29 创新先进技术有限公司 从多个脸部中选择目标脸部及脸部识别比对方法、装置
KR102217547B1 (ko) 2019-05-14 2021-02-19 주식회사 아이에스피디 다중 인공지능 시맨틱 세그멘테이션 모델 결합에 의한 영상 처리 속도 및 정확도 개선 장치 및 방법
KR20200131424A (ko) 2019-05-14 2020-11-24 주식회사 아이에스피디 인공지능 영상인식 시맨틱 세그멘테이션을 이용한 영상 처리 장치 및 방법
US11669743B2 (en) * 2019-05-15 2023-06-06 Huawei Technologies Co., Ltd. Adaptive action recognizer for video
CN110458005B (zh) * 2019-07-02 2022-12-27 重庆邮电大学 一种基于多任务渐进配准网络的旋转不变人脸检测方法
US20210192905A1 (en) * 2019-12-23 2021-06-24 Evolon Technology, Llc Mitigating effects caused by repeated and/or sporadic movement of objects in a field of view
KR20220119219A (ko) 2021-02-19 2022-08-29 삼성전자주식회사 온디바이스 인공지능 서비스를 제공하는 전자 장치 및 방법

Family Cites Families (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US8604932B2 (en) 1992-05-05 2013-12-10 American Vehicular Sciences, LLC Driver fatigue monitoring system and method
JP3557659B2 (ja) * 1994-08-22 2004-08-25 コニカミノルタホールディングス株式会社 顔抽出方法
US5870138A (en) 1995-03-31 1999-02-09 Hitachi, Ltd. Facial image processing
JPH10222678A (ja) * 1997-02-05 1998-08-21 Toshiba Corp 物体検出装置および物体検出方法
JPH11250071A (ja) 1998-02-26 1999-09-17 Minolta Co Ltd 画像データベースの構築方法および画像データベース装置並びに画像情報記憶媒体
US6608930B1 (en) 1999-08-09 2003-08-19 Koninklijke Philips Electronics N.V. Method and system for analyzing video content using detected text in video frames
DE19962201A1 (de) 1999-09-06 2001-03-15 Holger Lausch Verfahren und Anordnung zur Erfassung und Analyse des Rezeptionsverhaltens von Personen
US6795567B1 (en) 1999-09-16 2004-09-21 Hewlett-Packard Development Company, L.P. Method for efficiently tracking object models in video sequences via dynamic ordering of features
DE19960372A1 (de) 1999-12-14 2001-06-21 Definiens Ag Verfahren zur Verarbeitung von Datenstrukturen
US7006950B1 (en) 2000-06-12 2006-02-28 Siemens Corporate Research, Inc. Statistical modeling and performance characterization of a real-time dual camera surveillance system
US20050162515A1 (en) 2000-10-24 2005-07-28 Objectvideo, Inc. Video surveillance system
US6973201B1 (en) * 2000-11-01 2005-12-06 Koninklijke Philips Electronics N.V. Person tagging in an image processing system utilizing a statistical model based on both appearance and geometric features
US6792136B1 (en) 2000-11-07 2004-09-14 Trw Inc. True color infrared photography and video
JP2002175538A (ja) 2000-12-08 2002-06-21 Mitsubishi Electric Corp 似顔絵生成装置及び似顔絵生成方法及び似顔絵生成プログラムを記録した記録媒体及び通信用端末及び通信用端末による通信方法
US6829384B2 (en) 2001-02-28 2004-12-07 Carnegie Mellon University Object finder for photographic images
US6920236B2 (en) 2001-03-26 2005-07-19 Mikos, Ltd. Dual band biometric identification system
EP1260934A3 (de) * 2001-05-22 2004-04-14 Matsushita Electric Industrial Co., Ltd. Vorrichtung und Verfahren zur Aufzeichnung von Überwachungsdaten
JP2003223414A (ja) 2001-11-21 2003-08-08 Matsushita Electric Ind Co Ltd 属性情報保護システムと装置とコンピュータプログラム
US20060165386A1 (en) 2002-01-08 2006-07-27 Cernium, Inc. Object selective video recording
JP2003219225A (ja) 2002-01-25 2003-07-31 Nippon Micro Systems Kk 動体画像監視装置
US7274803B1 (en) 2002-04-02 2007-09-25 Videomining Corporation Method and system for detecting conscious hand movement patterns and computer-generated visual feedback for facilitating human-computer interaction
US7406184B2 (en) 2002-07-03 2008-07-29 Equinox Corporation Method and apparatus for using thermal infrared for face recognition
US8351647B2 (en) 2002-07-29 2013-01-08 Videomining Corporation Automatic detection and aggregation of demographics and behavior of people
WO2004013810A1 (en) * 2002-07-31 2004-02-12 Koninklijke Philips Electronics N.V. System and method for segmenting
JP4151341B2 (ja) 2002-08-02 2008-09-17 日産自動車株式会社 顔状態検出装置
AU2003282943A1 (en) 2002-10-11 2004-05-04 Digimarc Corporation Systems and methods for recognition of individuals using multiple biometric searches
US7391900B2 (en) 2002-10-31 2008-06-24 Korea Institute Of Science And Technology Image processing method for removing glasses from color facial images
US7257569B2 (en) 2002-10-31 2007-08-14 International Business Machines Corporation System and method for determining community overlap
US7764808B2 (en) 2003-03-24 2010-07-27 Siemens Corporation System and method for vehicle detection and tracking
US7395316B2 (en) 2003-07-16 2008-07-01 Sap Aktiengesellschaft Establishing dynamic communication group by searching implicit information that is obtained through inference
JP2005078376A (ja) * 2003-08-29 2005-03-24 Sony Corp 対象物検出装置、対象物方法、及びロボット装置
US7450735B1 (en) 2003-10-16 2008-11-11 University Of Central Florida Research Foundation, Inc. Tracking across multiple cameras with disjoint views
US8421872B2 (en) 2004-02-20 2013-04-16 Google Inc. Image base inquiry system for search engines for mobile telephones with integrated camera
US7697026B2 (en) 2004-03-16 2010-04-13 3Vr Security, Inc. Pipeline architecture for analyzing multiple video streams
JP4683200B2 (ja) 2004-04-30 2011-05-11 花王株式会社 髪領域の自動抽出方法
GB2418310B (en) 2004-09-18 2007-06-27 Hewlett Packard Development Co Visual sensing for large-scale tracking
FR2875629B1 (fr) 2004-09-23 2007-07-13 Video & Network Concept Sarl Systeme d'indexation de video de surveillance
US20060184553A1 (en) 2005-02-15 2006-08-17 Matsushita Electric Industrial Co., Ltd. Distributed MPEG-7 based surveillance servers for digital surveillance applications
FR2884008A1 (fr) 2005-03-31 2006-10-06 France Telecom Systeme et procede de localisation de points d'interet dans une image d'objet mettant en oeuvre un reseau de neurones
WO2006131967A1 (ja) * 2005-06-08 2006-12-14 Fujitsu Limited 画像処理装置
US7720257B2 (en) 2005-06-16 2010-05-18 Honeywell International Inc. Object tracking system
KR100724932B1 (ko) 2005-08-02 2007-06-04 삼성전자주식회사 얼굴 검출 장치 및 방법
US7787011B2 (en) 2005-09-07 2010-08-31 Fuji Xerox Co., Ltd. System and method for analyzing and monitoring 3-D video streams from multiple cameras
US7526102B2 (en) 2005-09-13 2009-04-28 Verificon Corporation System and method for object tracking and activity analysis
US7599527B2 (en) 2005-09-28 2009-10-06 Facedouble, Inc. Digital image search system and method
JP2007148872A (ja) 2005-11-29 2007-06-14 Mitsubishi Electric Corp 画像認証装置
JP4658788B2 (ja) 2005-12-06 2011-03-23 株式会社日立国際電気 画像処理装置、画像処理方法およびプログラム
US7613360B2 (en) 2006-02-01 2009-11-03 Honeywell International Inc Multi-spectral fusion for video surveillance
US7822227B2 (en) 2006-02-07 2010-10-26 International Business Machines Corporation Method and system for tracking images
US7864989B2 (en) 2006-03-31 2011-01-04 Fujifilm Corporation Method and apparatus for adaptive context-aided human classification
US20070254307A1 (en) * 2006-04-28 2007-11-01 Verseon Method for Estimation of Location of Active Sites of Biopolymers Based on Virtual Library Screening
WO2007140609A1 (en) 2006-06-06 2007-12-13 Moreideas Inc. Method and system for image and video analysis, enhancement and display for communication
US10078693B2 (en) 2006-06-16 2018-09-18 International Business Machines Corporation People searches by multisensor event correlation
US20070291118A1 (en) 2006-06-16 2007-12-20 Shu Chiao-Fe Intelligent surveillance system and method for integrated event based surveillance
US8131011B2 (en) 2006-09-25 2012-03-06 University Of Southern California Human detection and tracking system
US7881505B2 (en) 2006-09-29 2011-02-01 Pittsburgh Pattern Recognition, Inc. Video retrieval system for human face content
US8004394B2 (en) * 2006-11-07 2011-08-23 Rosco Inc. Camera system for large vehicles
CN101201822B (zh) * 2006-12-11 2010-06-23 南京理工大学 基于内容的视频镜头检索方法
US20080159352A1 (en) * 2006-12-27 2008-07-03 Dhananjay Adhikari Temperature calculation based on non-uniform leakage power
JP5358083B2 (ja) 2007-11-01 2013-12-04 株式会社日立製作所 人物画像検索装置及び画像検索装置
WO2008103850A2 (en) 2007-02-21 2008-08-28 Pixel Velocity, Inc. Scalable system for wide area surveillance
US7995106B2 (en) 2007-03-05 2011-08-09 Fujifilm Corporation Imaging apparatus with human extraction and voice analysis and control method thereof
KR100795160B1 (ko) 2007-03-22 2008-01-16 주식회사 아트닉스 얼굴영역검출장치 및 검출방법
US20080252722A1 (en) 2007-04-11 2008-10-16 Yuan-Kai Wang System And Method Of Intelligent Surveillance And Analysis
EP2140341B1 (de) 2007-04-26 2012-04-25 Ford Global Technologies, LLC Emotives beratungssystem und verfahren
US7460149B1 (en) 2007-05-28 2008-12-02 Kd Secure, Llc Video data storage, search, and retrieval using meta-data and attribute data in a video surveillance system
US8432449B2 (en) 2007-08-13 2013-04-30 Fuji Xerox Co., Ltd. Hidden markov model for camera handoff
JP2011510521A (ja) 2007-09-12 2011-03-31 ディジセンサリー・テクノロジーズ・プロプライアタリー・リミテッド チップ上スマート・ネットワーク・カメラ・システム
US7986828B2 (en) 2007-10-10 2011-07-26 Honeywell International Inc. People detection in video and image data
JP5273998B2 (ja) * 2007-12-07 2013-08-28 キヤノン株式会社 撮像装置、その制御方法及びプログラム
WO2009117607A1 (en) 2008-03-19 2009-09-24 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for automatically classifying face images
JP4535164B2 (ja) * 2008-04-09 2010-09-01 ソニー株式会社 撮像装置、画像処理装置、これらにおける画像解析方法およびプログラム
JP2009271577A (ja) 2008-04-30 2009-11-19 Panasonic Corp 類似画像検索の結果表示装置及び類似画像検索の結果表示方法
TW200951884A (en) 2008-06-02 2009-12-16 Asia Optical Co Inc Monitoring systems and control methods thereof
TWI361093B (en) * 2008-08-05 2012-04-01 Ind Tech Res Inst Measuring object contour method and measuring object contour apparatus
FR2935498B1 (fr) 2008-08-27 2010-10-15 Eads Europ Aeronautic Defence Procede d'identification d'un objet dans une archive video.
US9342594B2 (en) 2008-10-29 2016-05-17 International Business Machines Corporation Indexing and searching according to attributes of a person
TW201020935A (en) * 2008-11-20 2010-06-01 Ind Tech Res Inst Recognition and constitution method and system for video-based two-dimensional objects
US20100150447A1 (en) 2008-12-12 2010-06-17 Honeywell International Inc. Description based video searching system and method
TWM381850U (en) 2010-01-29 2010-06-01 cai-zheng Xu Small anti-theft device for recording images of event
US8532390B2 (en) * 2010-07-28 2013-09-10 International Business Machines Corporation Semantic parsing of objects in video
US8254647B1 (en) 2012-04-16 2012-08-28 Google Inc. Facial image quality assessment

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
"Large Margin Methods for Structured and Interdependent Output Variables", Tsochantaridis et al., Journal of Machine Learning Research (JMLR), September 2005
"Pictorial Structures for Object Recognition", Felzenszwalb et al., International Journal of Computer Vision (IJCV), Januar 2005
"Strike a Pose: Tracking People by Finding Stylized Poses", Ramanan et al., Computer Vision and Pattern Recognition (CVPR), San Diego, Kalifornien, Juni 2005
Bo Wu et al. in "Fast Rotation Invariant Multi-View Face Detection Based an Real Adaboost", IEEE International Conference an Automatic Face and Gesture Recognition, 2004
http://en.wikipedia.org/wiki/Naive Bayes classifier
N. Dalal and B. Triggs, "Histograms of Oriented Gradients for Human Detection", Proceedings of the IEEE Conference an Computer Vision and Pattern Recognition, San Diego, USA, Juni 2005, Band II, Seiten 886 bis 893
Tran et al. in "Configuration Estimates Improve Pedestrian Finding", National Information Processing Systems Foundation 2007
Viola et al. in "Robust Real-time Object Detection", Cambridge Research Laboratory Technical Report, Februar 2001

Also Published As

Publication number Publication date
CN103703472A (zh) 2014-04-02
WO2012013711A2 (en) 2012-02-02
US20160132730A1 (en) 2016-05-12
US8774522B2 (en) 2014-07-08
JP2013533563A (ja) 2013-08-22
US20140185937A1 (en) 2014-07-03
TW201227535A (en) 2012-07-01
TWI505200B (zh) 2015-10-21
US9002117B2 (en) 2015-04-07
US20120027304A1 (en) 2012-02-02
US9245186B2 (en) 2016-01-26
GB2495881A (en) 2013-04-24
US20150131910A1 (en) 2015-05-14
US20130177249A1 (en) 2013-07-11
JP5657113B2 (ja) 2015-01-21
US20130308868A1 (en) 2013-11-21
US8588533B2 (en) 2013-11-19
US8532390B2 (en) 2013-09-10
WO2012013711A3 (en) 2013-02-21
GB201302234D0 (en) 2013-03-27
US9679201B2 (en) 2017-06-13
KR20130095727A (ko) 2013-08-28
CN103703472B (zh) 2016-12-07
KR101507662B1 (ko) 2015-03-31
GB2495881B (en) 2017-05-03
DE112011101927B4 (de) 2016-03-17

Similar Documents

Publication Publication Date Title
DE112011101927B4 (de) Semantisches Parsen von Objekten in Videos
DE69833999T2 (de) Verfahren zur automatischen erkennung menschlicher augen in digitalbildern
DE602004005984T2 (de) Gesichtsidentifikationsverifikation unter verwendung von vorder- und seitenansichten
DE60215743T2 (de) Verfahren und Rechnerprogrammprodukt zur Lagebestimmung von Gesichtsmerkmalen
DE112016001830T5 (de) Das Entdecken von Unternehmen aus Bildern
Ma et al. Contrast-based image attention analysis by using fuzzy growing
DE102018008161A1 (de) Detektieren von Objekten unter Nutzung eines schwach überwachten Modells
DE112011102043T5 (de) Objekterfassungsmetadaten
DE102019005851A1 (de) Objektdetektion in Bildern
DE112019005750T5 (de) Erlernen des Erzeugens synthetischer Datensätze zum Trainieren neuronalerNetze
DE112017002799T5 (de) Verfahren und system zum generieren multimodaler digitaler bilder
CN108229330A (zh) 人脸融合识别方法及装置、电子设备和存储介质
DE102017010210A1 (de) Bild-Matting mittels tiefem Lernen
DE112016004535T5 (de) Universelles Übereinstimmungsnetz
DE102017220896A1 (de) Verfahren und Vorrichtung zur Sicherheitskontrolle
DE112019000334T5 (de) Validieren der identität eines fernen benutzers durch vergleichen auf der grundlage von schwellenwerten
DE102019102866A1 (de) Identifizierung eines Herstellungsteils unter Verwendung von Computervision und Maschinenlernen
DE102016014798A1 (de) Genaues Vorhersagen einer Etikettrelevanz bei einer Bildabfrage
WO2021051547A1 (zh) 暴力行为检测方法及系统
CN106295591A (zh) 基于人脸图像的性别识别方法及装置
CN104134364B (zh) 具有自我学习能力的实时交通标记识别方法及系统
DE102018003475A1 (de) Formbasierte Grafiksuche
DE102019122402A1 (de) Das klassifizieren von zeitreihenbilddaten
CN111476310B (zh) 一种图像分类方法、装置及设备
JP2014164656A (ja) 画像処理方法およびプログラム

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R084 Declaration of willingness to licence
R020 Patent grant now final
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009000000

Ipc: G06V0010000000

R081 Change of applicant/patentee

Owner name: KYNDRYL, INC., NEW YORK, US

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, ARMONK, N.Y., US