DE102009060687A1 - Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten - Google Patents

Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten Download PDF

Info

Publication number
DE102009060687A1
DE102009060687A1 DE102009060687A DE102009060687A DE102009060687A1 DE 102009060687 A1 DE102009060687 A1 DE 102009060687A1 DE 102009060687 A DE102009060687 A DE 102009060687A DE 102009060687 A DE102009060687 A DE 102009060687A DE 102009060687 A1 DE102009060687 A1 DE 102009060687A1
Authority
DE
Germany
Prior art keywords
multimedia data
objects
context information
determined
role
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102009060687A
Other languages
English (en)
Inventor
Andreas Dr. Hutter
Thomas Riegel
Tobias Schwarze
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102009060687A priority Critical patent/DE102009060687A1/de
Priority to CN201080050024.8A priority patent/CN102667770B/zh
Priority to EP10776338A priority patent/EP2497037A1/de
Priority to US13/508,312 priority patent/US9020268B2/en
Priority to PCT/EP2010/066727 priority patent/WO2011054858A1/de
Publication of DE102009060687A1 publication Critical patent/DE102009060687A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Abstract

Die Erfindung beschreibt ein Verfahren zum rechnergestützten Annotieren von Multimediadaten (MD), die eine Sequenz digitalisierter Bilder umfasst. Das erfindungsgemäße Verfahren um fasst die Schritte des Durchführens einer Analyse der Multimediadaten (MD) zur Identifikation eines oder mehrerer Objekte (O1, O2, O3) in den Multimediadaten (MD) sowie der Zuordnung des oder der Objekte (O1, O2, O3) zu jeweils einer Rolle. Die Rollenzuordnung wird unter Verarbeitung von Kontextinformationen (KW) ermittelt, die ein Modell der Multimediadaten (MD) repräsentieren.

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum rechnergestützten Annotieren von Multimediadaten.
  • Bei Multimediadaten, die eine Sequenz digitalisierter Bilder umfassen, besteht das Problem, automatisch zu erkennen, was auf den einzelnen Bildern dargestellt ist, um die Multimediadaten anhand des Inhalts annotieren zu können. Insbesondere sollen die Multimediadaten dahingehend annotiert werden, welche Personen (d. h. deren Identität) in diesen dargestellt sind. Die Annotation kann weiterhin einen Kontext der dargestellten Objekte betreffen, wie z. B. wann wurden die Multimediadaten erstellt, in welchem Zusammenhang wurden diese erstellt, sind Außen- oder Innenaufnahmen dargestellt, usw.
  • In diesem Zusammenhang ist es bekannt, die Multimediadaten zunächst in einzelne Szenen, d. h. logisch oder semantisch zusammengehörige Bilder, zu zerlegen. Personen werden anhand von Gesichtserkennungssoftware automatisch detektiert. Die Unterscheidung von Personen wird auch dadurch ermöglicht, dass die Sprache der Personen analysiert wird, um anhand unterschiedlicher Sprachprofile Personen unterscheiden zu können. Eine Identifikation erkannter Personen erfolgt üblicherweise durch einen Vergleich mit in einer Datenbank gespeicherten Informationen, in welcher Referenzinformationen bezüglich Phonetik und/oder visueller Merkmale für jeweilige Personen hinterlegt sind. Ist eine in den Multimediadaten dargestellte Person in der Datenbank jedoch nicht hinterlegt, so ist eine Identifikation auf diese Weise nicht möglich.
  • Andere Verfahren nutzen zur Annotation der Multimediadaten eine Internet-Suche. Hierbei werden zunächst manuell annotierte Bilder für zu annotierende Personen gesucht. Anschließend werden die für die aufgefundenen Bilder ermittelten Eigenschaften mit denen der in den Multimediadaten dargestellten Personen verglichen. Im Falle einer Übereinstimmung kann durch Übertragung der manuellen Annotation aus dem Bild eine Annotierung der Multimediadaten mit einer bestimmten Person erfolgen.
  • Die aus dem Stand der Technik bekannten Vorgehensweisen erfordern in praktisch allen Fällen die Vornahme manueller Eingriffe, so dass die Annotation von Multimediadaten nicht automatisiert erfolgen kann.
  • Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren anzugeben, mit dem die Annotation von Multimediadaten rechnergestützt, d. h. automatisch, erfolgen kann. Eine weitere Aufgabe der Erfindung besteht darin, eine Vorrichtung anzugeben, welche die automatisierte, rechnergestützte Annotation von Multimediadaten ermöglicht.
  • Diese Aufgaben werden gelöst durch ein Verfahren gemäß den Merkmalen des Patentanspruchs 1 sowie eine Vorrichtung gemäß den Merkmalen des Patentanspruchs 13. Vorteilhafte Ausgestaltungen ergeben sich jeweils aus den abhängigen Patentansprüchen.
  • Die Erfindung schafft ein Verfahren zum rechnergestützten Annotieren von Multimediadaten, die eine Sequenz digitalisierter Bilder umfasst. Das erfindungsgemäße Verfahren umfasst die folgenden Schritte: Durchführen einer Analyse der Multimediadaten zur Detektion eines oder mehrerer Objekte in den Multimediadaten. Zuordnung des oder der Objekte zu jeweils einer Rolle, wobei die Rollenzuordnung unter Verarbeitung von Kontextinformationen ermöglicht wird, die ein Modell der Multimediadaten repräsentieren.
  • Unter einer Rolle wird in der nachfolgenden Beschreibung insbesondere die Funktion einer Person in den Multimediadaten verstanden. Die Funktion der Person bemisst sich z. B. nach einem Text, welcher der Person zugeordnet ist.
  • Unter einem Objekt wird in der vorliegenden Beschreibung insbesondere eine in den Multimediadaten dargestellte Person verstanden. Ein Objekt kann jedoch auch ein davon unterschiedlicher Gegenstand sein.
  • Der Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass das Verfahren zum Annotieren der Multimediadaten rechnergestützt und automatisiert erfolgen kann. Zwischen der Analyse der Multimediadaten und der Zuordnung der bei der Analyse ermittelten Objekte zu einer Rolle sind keine manuellen Arbeitsschritte erforderlich, wodurch das erfindungsgemäße Verfahren schnell und effizient arbeitet.
  • Insbesondere werden die Kontextinformationen aus einer, von den Multimediadaten unterschiedlichen, Informationsquelle ermittelt. Mit anderen Worten bedeutet dies, dass die Kontextinformationen nicht aus den Multimediadaten stammen oder diesen entnommen werden. Die Kontextinformationen umfassen beispielsweise Hintergrundinformationen zu den analysierten Multimediadaten, welche durch einen Dienstbetreiber oder auf andere Weise bereitgestellt werden.
  • Gemäß einer zweckmäßigen Ausgestaltung erfolgt als weiterer Schritt eine Zuordnung der Objekte zu Objektklassen, wobei eine Objektklasse als ähnlich identifizierte Objekte umfasst, so dass davon ausgegangen werden kann, dass es sich mit hoher Wahrscheinlichkeit um dasselbe Objekt handelt. Eine Objektklasse umfasst somit eine Gruppierung ähnlicher Objekte. Durch diesen Zwischenschritt kann die Zuordnung der Objekte zu einer Rolle auf einfachere und schnellere Weise vorgenommen werden.
  • Zur Kategorisierung zweier Objekte als ähnlich wird insbesondere ein Objekt-spezifisches Ähnlichkeitsmaß für die zwei Objekte ermittelt, das visuelle und/oder phonetische und/oder geometrische Eigenschaften der Objekte berücksichtigt. Objekte können beispielsweise durch ein Gesichts-Tracking oder eine Ähnlichkeitsprüfung basierend auf visuellen Merkmaelen als ähnlich erfasst werden. Phonetische Ähnlichkeiten der in den Multimediadaten ermittelten Objekte werden beispielsweise durch eine Sprachanalyse ausfindig gemacht.
  • Gemäß einer weiteren zweckmäßigen Ausgestaltung wird als weiterer Schritt für eine jeweilige Rolle eine Identität ermittelt. Die Identität eines Objekts, insbesondere einer Person, bezeichnet die das Objekt kennzeichnende und von anderen Objekten unterscheidende Eigentümlichkeit seines Wesens. Durch die Mehrstufigkeit des erfindungsgemäßen Verfahrens, der Objektbeobachtung zur Detektion der Objekte, der Zuordnung der Objekte zu wenigstens einer Objektklasse, der Zuordnung der Objektklasse oder -klassen zu einer Rolle und der Zuordnung einer jeweiligen Rolle zu einer Identität kann der Rechenaufwand des erfindungsgemäßen Verfahrens gering gehalten werden und die Zuverlässigkeit der Zuweisung der Identitäten zu den Objekten gesteigert werden. Insbesondere wird eine Konvergenz in schneller Zeit erreicht.
  • Gemäß einer weiteren bevorzugten Ausgestaltung erfolgt die Ermittlung der Identität auf Basis der ermittelten Rolle unter Verarbeitung der Kontextinformationen. Es ist ferner zweckmäßig, wenn eine ermittelte Identität dem betreffenden Objekt und/oder der betreffenden Objektklasse zugeordnet wird.
  • In einer weiteren zweckmäßigen Ausgestaltung umfassen die Kontextinformationen eine Information über in den Multimediadaten involvierte Identitäten. Diese stellen Rollen dar, zu denen die beobachteten, unbekannten Objekte zugeordnet werden sollen. Es ist möglich, dass eine Identität im Verlauf der Multimediadaten auch mehrere Rollen annehmen kann. Wenn sich die Rolle über die Zeit ändert, so wird die Identifikation erst über die Kombination aus Rolle und einem Zeitstempel eindeutig.
  • Die Kontextinformationen umfassen optional weiter statistisches oder prozedurales Wissen über einen Kontext der Multimediadaten. Letzteres kann beispielsweise der übliche Ablauf einer im Fernsehen ausgestrahlten Sendung sein, der z. B. einen Vorspann, ein darauffolgendes Interview mit einem Gast, einen eingespielten Bericht über den Gast oder ein von dem Gast beworbenes Produkt sein, usw., umfasst. Statistisches Wissen liegt beispielsweise vor, wenn die Häufigkeit des Auftretens eines Objekts in den Multimediadaten ermittelt wird. Aus dieser Information kann – bei entsprechendem Kontext – auf die Rolle bzw. Identität des Objekts geschlossen werden.
  • Weiterhin können die Kontextinformationen logische Einschränkungen umfassen. Treten beispielsweise zwei identifizierte Objekte in einer Bildsequenz gleichzeitig auf, so können diese nicht die gleiche Identität besitzen. Durch dieses Ausschlusskriterium kann die Anzahl möglicher Zuordnungen von Objekten zu Rollen bzw. Identitäten reduziert werden. Auch hierdurch kann die Konvergenz des Verfahrens beschleunigt werden.
  • In einer weiteren Ausgestaltung umfassen die Kontextinformationen Daten anderer Datenquellen, insbesondere von Datenbanken mit Informationen über die Multimediadaten. Diese Datenquellen können beispielsweise elektronische Programmzeitschriften oder Zusammenfassungen über eine Sendung sein, welche typischerweise in Datenbanken verfügbar ist.
  • Die Erfindung schafft weiter eine Vorrichtung zum rechnergestützten Annotieren von Multimediadaten, die eine Sequenz digitalisierter Bilder umfasst. Die Vorrichtung umfasst ein erstes Mittel zur Durchführung einer Analyse der Multimediadaten zur Detektion eines oder mehrerer Objekte in den Multimediadaten. Ferner umfasst die Vorrichtung ein zweites Mittel zur Zuordnung des oder der Objekte zu jeweils einer Rolle, durch das die Rollenzuordnung unter Verarbeitung von Kontextinformationen ermittelbar ist, wobei die Kontextinformationen ein Modell der Multimediadaten repräsentieren. Das Modell kann mehrere Teilmodelle umfassen.
  • Die erfindungsgemäße Vorrichtung weist die gleichen Vorteile auf, wie diese in Verbindung mit dem erfindungsgemäßen Verfahren beschrieben wurden.
  • In einer zweckmäßigen Ausgestaltung weist die erfindungsgemäße Vorrichtung weitere Mittel zur Durchführung des oben beschriebenen Verfahrens auf.
  • Die Erfindung wird nachfolgend näher anhand eines Ausführungsbeispiels in der Zeichnung erläutert. Es zeigen:
  • 1 den schematischen Ablauf des erfindungsgemäßen Verfahrens, und
  • 2 eine schematische Darstellung einer erfindungsgemäßen Vorrichtung zum rechnergestützten Annotieren von Multimediadaten.
  • 1 zeigt in schematischer Form das grundsätzliche Vorgehen zum rechnergestützten Annotieren von Multimediadaten MD. Die Multimediadaten MD umfassen eine Sequenz digitalisierter Bilder, z. B. einer Fernsehsendung. Eine Anzahl an logisch zusammengehörigen Bildern bildet eine Videosequenz aus, von denen in 1 beispielhaft drei Videosequenzen VS1, VS2, VS3 dargestellt sind. In jeder der Videosequenzen VS1, VS2, VS3 ist eine Anzahl an zunächst unbekannten Objekten O1, O2, O3 enthalten. Bei den beispielhaft in Videosequenz VS1 dargestellten drei Objekten O1, O2, O3 handelt es sich z. B. um in einer Sendung auftretende Personen.
  • Um eine Rollenverteilung der unbekannten Objekte O1, O2, O3 in einem bekannten semantischen Kontext ausfindig zu machen, wird ein, den Multimediadaten MD zugeordnetes Kontextwissen KW genutzt. Zunächst ist es zweckmäßig, wenn das Kontextwissen KW eine Information über die involvierten Identitäten in den Multimediadaten umfasst. Die involvierten Identitäten stellen Rollen dar, zu denen die beobachteten, unbekannten Objekte zugeordnet werden sollen. In einer Interview-Situation gibt es beispielsweise einen Interviewer und einen Interviewten. Die Zuordnung eines Objekts zu einer Rolle identifiziert das Objekt schlussendlich hinsichtlich seiner jeweiligen Identität.
  • Es ist ferner zweckmäßig, wenn das Kontextwissen KW statistisches Wissen des Kontextes umfasst. Dieses statistische Wissen beschreibt beispielsweise eine generell beobachtbare Häufigkeitsverteilung des Auftretens von Haupt- und Nebenakteuren in Berichterstattungen. So ist beispielsweise bekannt, dass in Interview-Situationen der Interviewte relativ am Häufigsten in einer Bildsequenz zu sehen ist. Eine Bildsequenz kann dabei z. B. einer Videosequenz der analysierten Multimediadaten entsprechen.
  • Das Kontextwissen KW kann ferner Informationen über logische Einschränkungen enthalten. Logische Einschränkungen geben beispielsweise einen ausschließenden Hinweis auf die Rollenzugehörigkeit eines Objekts. Treten zwei Objekte zeitgleich auf, so können diese nicht die gleiche Identität besitzen, sofern in der Videosequenz keine Spiegelung eines Objekts dargestellt ist.
  • Das Kontextwissen KW umfasst ferner vorzugsweise zusätzliche Informationsquellen hinsichtlich der zu ermittelnden Identitäten der in den Multimediadaten enthaltenen Objekte. Derartige Informationsquellen können beispielsweise eine Programmzeitschrift oder eine textuelle Kurzzusammenfassung sein, welche in Datenbanken bereitgestellt werden.
  • Die beliebige Kombination dieser Arten von Kontextwissen erlaubt die Zuordnung der in den Multimediadaten MD enthaltenen Objekte O1, O2, O3 zu Identitäten. Bei Personen bezeichnet Identität die ihn kennzeichnende und als Individuum von anderen Menschen unterscheidende Eigentümlichkeit seines Wesens. Insbesondere soll durch das Verfahren ausfindig gemacht werden, welche Person oder Personen in den Multimediadaten dargestellt sind.
  • Die Objektbeobachtung, d. h. die Durchführung einer Analyse der Multimediadaten in ihrer Gesamtheit oder bevorzugt jeweiliger einzelner Videosequenzen VS1, VS2, VS3, lässt alleine keine Ermittlung zu, zu welcher Rolle die in den Multimediadaten MD bzw. den jeweiligen Videosequenzen VS1, VS2, VS3 ermittelten Objekte 01, 02, 03 im Kontext gehört. Die Rollenzuordnung vereinfacht sich jedoch mit zunehmendem Wissen über die Objekte O1, O2, O3. Eine hierbei relevante Information ist z. B. die Häufigkeit, mit der die einzelnen Objekte O1, O2, O3 in den Multimediadaten MD bzw. den jeweiligen Videosequenzen VS1, VS2, VS3 auftreten.
  • Um die Rollenzuordnung zu ermöglichen, ist vorgesehen, einzelne Objekte O1, O2, O3 durch Beobachtung in einen geeigneten Zusammenhang zu bringen. Dies ist beispielsweise bei einer visuellen Ähnlichkeit der Objekte O1, O2, O3 in unterschiedlichen Videosequenzen VS1, VS2, VS3 möglich. Indem Objekte O1, O2, O3, die aufgrund ihrer visuellen Ähnlichkeiten die gleichen Objekte repräsentieren, in einem Verarbeitungsschritt TA1 zu Objektklassen OK, die unbekannten Identitäten eines Objekts entsprechen, zusammengefasst werden, wird die Zuordnung vorgenommen: Statt vielen einzelnen in einer Videosequenz VS1, VS2, VS3 detektierten Objekten O1, O2, O3 werden nur noch wenige Objektklassen OK einer Rolle zugeordnet.
  • Im Verarbeitungsschritt TA1 wird ein Clusterverfahren angewendet, mit dem eine Gruppierung ähnlicher Objekte der in den Multimediadaten oder jeweiligen Videosequenzen VS1, VS2, VS3 ermittelten Objekte 01, 02, 03 in Objektklassen erfolgt. Das Maß der Ähnlichkeit zweier Objekte O1, O2, O3 ist dabei objektspezifisch. Neben visuellen Eigenschaften kann das Maß der Ähnlichkeit beispielsweise durch geometrische Faktoren beschrieben sein. Vorzugsweise werden die in den Multimediadaten MD bzw. den Videosequenzen VS1, VS2, VS3 ermittelten Objekte chronologisch verarbeitet, um gewährleisten zu können, dass zwei zeitgleich ermittelte Objekte nicht der gleichen Objektklasse OK zugeordnet werden.
  • Ergebnis des Verarbeitungsschritts TA1 ist die Zuordnung der Objekte O1, O2, O3 zu den Objektklassen OK. Es ist in diesem Zusammenhang anzumerken, dass die Objektklassen OK nicht gegeben sein müssen, sondern während der Analyse der Multimediadaten MD bzw. jeweiliger Videosequenzen VS1, VS2, VS3 erzeugt werden.
  • In einem weiteren Verarbeitungsschritt TA2 werden den gefundenen Objektklassen OK zunächst Rollen und dann diesen Identitäten zugewiesen. Statistisches Hintergrundwissen aus dem Kontext der Multimediadaten MD bzw. einer jeweiligen Videosequenz VS1, VS2, VS3 bildet hierbei im Zusammenhang mit der gefundenen Objektklassenzuordnung und den Eigenschaften der Objektklassen eine starke Evidenz.
  • Dies soll am Beispiel des Szenarios eines Interviews verdeutlicht werden. Der Fokus von Interviews in Fernsehberichterstattungen in Talkshows liegt deutlich auf der Seite des Befragten (Interviewter oder Gast). Im Falle eines Interviews hat dies vor allem den Grund, dass der Zuschauer am Befragten interessiert ist, weniger jedoch am Interviewer. Folglich wird der Befragte bei der Einblendung im Videomaterial bevorzugt. Ferner ist die Fragestellung des Interviewers zeitlich gesehen im Schnitt kürzer als die Antwort des Befragten. Folglich ist der Befragte deutlich öfter und länger im Videomaterial vorhanden. Hieraus erfolgt eine deutlich höhere Präsenz des Gastes in den Multimediadaten bzw. einzelner Szenen in den Videosequenzen im Vergleich zu dem Moderator oder dem Interviewer.
  • Im Falle eines Interviews zwischen zwei Personen ist demnach allein die Häufigkeit des jeweiligen Auftretens ausreichend, um die Rollen der beiden Parteien (Objekte) zu identifizieren. Die Rollenzuordnung kann ohne jegliche Form von Wissen über die Parteien selber vorgenommen werden.
  • Welche Rollen (Interviewer oder Gast/Gäste) in den Multimediadaten MD vorhanden sind und welche Identitäten welche Rolle ausüben, kann aus den Kontextinformationen KW entnommen werden. Durch die Verarbeitung sämtlicher Informationen kann beispielsweise ausfindig gemacht werden, dass in der Videosequenz VS1 das Objekt O1 der Interviewte, das Objekt O2 der Interviewer und das Objekt O3 ein weiterer Gast der Sendung ist. In Verbindung mit dem Kontextwissen, welches beispielsweise den Moderator einer Sendung sowie die eingeladenen Gäste (Interviewte) ausweist, kann diesen Rollen eine Identität zugewiesen werden.
  • Eine bereits ermittelte Zuordnung einer Identität zu einer Objektklasse und damit allen darin enthaltenen Objekten kann die Zuordnung weiterer, noch nicht identifizierter Identitäten in den Multimediadaten oder jeweiligen Videosequenzen VS1, VS2, VS3 erleichtern. Wurde beispielsweise festgestellt, dass das Objekt O1 der Objektklasse OK1 und diese der Identität A zugeordnet wurde, so kann ein von O1 unterschiedliches Objekt nicht in der Objektklasse OK1 enthalten sein und damit der Identität A entsprechen. Wurde andererseits festgestellt, dass ein zunächst unbekanntes Objekt aufgrund seiner Ähnlichkeit ebenfalls in der Objektklasse OK1 enthalten ist, so muss dieses auch der Identität A entsprechen. Die Berücksichtigung bereits bekannten Wissens erleichtert hierdurch die weitere Zuordnung von Identitäten zu Objektklassen sowie Objekten.
  • Durch eine fortlaufende Verarbeitung der Multimediadaten bzw. der einzelnen Videosequenzen VS1, VS2, VS3 können dadurch rechnergestützt Multimediadaten annotiert werden.
  • Es hat sich in Versuchen herausgestellt, dass die Zuordnung unbekannter Objekte zu Objektklassen umso besser realisiert werden kann, wenn kleinere Abschnitte, d. h. einzelne Videosequenzen, der Multimediadaten getrennt untersucht werden. Beispielsweise werden aus einer Videoaufzeichnung des Interviews Szenen ausgesucht, welche anhand der vorhandenen Kontextinformationen verarbeitet werden. Hierbei lässt sich auf verhältnismäßig einfache Weise eine Zuordnung der Objekte zu den Rollen bzw. Identitäten vornehmen.
  • Eine zusätzliche Erweiterung des Verfahrens kann darin bestehen, dass auf Basis des (zeitlich lokalen) Clusterings in Kombination mit einem statistischen Modell der Häufigkeitsverteilungen in einer Videosequenz eine Klassifikation der Szenen in der Videosequenz (z. B. Interviewsituation) durchgeführt wird.
  • 2 zeigt eine erfindungsgemäße Vorrichtung R zur rechnergestützten Annotation von Multimediadaten, die eine Sequenz digitalisierter Bilder umfasst. Die Vorrichtung R umfasst ein erstes Mittel M1 zur Durchführung der Analyse der Multimediadaten zur Identifikation des oder der in den Multimediadaten dargestellten Objekte. Der Rechner R umfasst weiter ein zweites Mittel M2 zur Zuordnung des oder der Objekte O1, O2, O3 zu jeweils einer Rolle, durch das die Rollenzuordnung unter Verarbeitung von Kontextinformationen ermittelbar ist, wobei Kontextinformationen das Modell der Multimediadaten repräsentieren.
  • Die Vorrichtung R, das erste Mittel M1 und das zweite Mittel M2 sind in Hardware, Software oder in einer Kombination aus Hard- und Software realisierbar und ausführbar. So kann ein Prozessor mit Speicher in der Vorrichtung vorgesehen sein, der einzelne Verfahrensschritte des ersten und/oder zweiten Mittels, die beispielweise als Programmcode in dem Speicher abgelegt sind, ausführt und Ergebnisse in dem Speicher organisiert ablegt. Daneben können das erste Mittel und das zweite Mittel als dedizierte Hardwarekomponenten, beispielsweise als elektrische Schaltung, implementierbar und ausführbar sein. Ferner kann die Vorrichtung über Schnittstellen verfügen, um Parameter zur Steuerung und zur Verarbeitung, z. B. der Multimediadaten, erfassen und an andere Verarbeitungseinheiten übertragen zu können.

Claims (14)

  1. Verfahren zum rechnergestützten Annotieren von Multimediadaten (MD), die eine Sequenz digitalisierter Bilder umfasst, mit den folgenden Schritten: – Durchführung einer Analyse der Multimediadaten (MD) zur Detektion eines oder mehrerer Objekte (O1, O2, O3) in den Multimediadaten (MD), und – Zuordnung des oder der Objekte (O1, O2, O3) zu jeweils einer Rolle, wobei die Rollenzuordnung unter Verarbeitung von Kontextinformationen (KW) ermittelt wird, die ein Modell oder eine Menge von Modellen der Multimediadaten (MD) repräsentieren.
  2. Verfahren nach Anspruch 1, bei dem die Kontextinformationen (KW) aus einer, von den Multimediadaten (MD) unterschiedlichen, Informationsquelle ermittelt werden.
  3. Verfahren nach Anspruch 1 oder 2, bei dem als weiterer Schritt eine Zuordnung der Objekte (O1, O2, O3) zu Objektklassen (OK) erfolgt, wobei eine Objektklasse (OK) als ähnlich identifizierte Objekte (O1, O2, O3) umfasst.
  4. Verfahren nach Anspruch 3, bei dem zur Kategorisierung zweier Objekte (O1, O2, O3) als ähnlich ein Objektspezifisches Ähnlichkeitsmaß für die zwei Objekte (O1, O2, O3) ermittelt wird, das visuelle und/oder phonetische und/oder geometrische Eigenschaften der Objekte (O1, O2, O3) berücksichtigt.
  5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem als weiterer Schritt für eine jeweilige Rolle eine Identität ermittelt wird.
  6. Verfahren nach Anspruch 5, bei dem die Ermittlung der Identität einer ermittelten Rolle unter Verarbeitung der Kontextinformationen (KW) erfolgt.
  7. Verfahren nach Anspruch 5 oder 6, bei dem eine ermittelte Identität dem betreffenden Objekt (O1, O2, O3) und/oder der betreffenden Objektklasse (OK) zugeordnet wird.
  8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Kontextinformationen (KW) eine Information über in den Multimediadaten (MD) involvierte Identitäten umfassen.
  9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Kontextinformationen (KW) statistisches Wissen über einen Kontext der Multimediadaten (MD) umfassen.
  10. Verfahren nach Anspruch 9, bei dem die Häufigkeit des Auftretens eines Objekts (O1, O2, O3) in den Multimediadaten (MD) ermittelt wird.
  11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Kontextinformationen (KW) logische Einschränkungen umfassen.
  12. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Kontextinformationen (KW) Daten anderer Datenquellen, insbesondere von Datenbanken mit Informationen über die Multimediadaten (MD), umfassen.
  13. Vorrichtung zum rechnergestützten Annotieren von Multimediadaten (MD), die eine Sequenz digitalisierter Bilder umfasst, umfassend: – ein erstes Mittel (M1) zur Durchführung einer Analyse der Multimediadaten (MD) zur Identifikation eines oder mehrerer Objekte (O1, O2, O3) in den Multimediadaten (MD), – ein zweites Mittel (M2) zur Zuordnung des oder der Objekte (O1, O2, O3) zu jeweils einer Rolle, durch das die Rollenzuordnung unter Verarbeitung von Kontextinformationen (KW) ermittelbar ist, wobei Kontextinformationen (KW) ein Modell der Multimediadaten (MD) repräsentieren.
  14. Vorrichtung nach Anspruch 13, die weitere Mittel zur Durchführung des Verfahrens nach einem der Ansprüche 2 bis 12 aufweist.
DE102009060687A 2009-11-04 2009-12-29 Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten Withdrawn DE102009060687A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE102009060687A DE102009060687A1 (de) 2009-11-04 2009-12-29 Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten
CN201080050024.8A CN102667770B (zh) 2009-11-04 2010-11-03 用于计算机辅助地注解多媒体数据的方法和设备
EP10776338A EP2497037A1 (de) 2009-11-04 2010-11-03 Verfahren und vorrichtung zum rechnergestützten annotieren von multimediadaten
US13/508,312 US9020268B2 (en) 2009-11-04 2010-11-03 Method and apparatus for annotating multimedia data in a computer-aided manner
PCT/EP2010/066727 WO2011054858A1 (de) 2009-11-04 2010-11-03 Verfahren und vorrichtung zum rechnergestützten annotieren von multimediadaten

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102009051895 2009-11-04
DE102009051895.9 2009-11-04
DE102009060687A DE102009060687A1 (de) 2009-11-04 2009-12-29 Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten

Publications (1)

Publication Number Publication Date
DE102009060687A1 true DE102009060687A1 (de) 2011-05-05

Family

ID=43828931

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102009060687A Withdrawn DE102009060687A1 (de) 2009-11-04 2009-12-29 Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten

Country Status (5)

Country Link
US (1) US9020268B2 (de)
EP (1) EP2497037A1 (de)
CN (1) CN102667770B (de)
DE (1) DE102009060687A1 (de)
WO (1) WO2011054858A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020268B2 (en) 2009-11-04 2015-04-28 Siemens Aktiengsellschaft Method and apparatus for annotating multimedia data in a computer-aided manner

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2602739A1 (de) * 2011-12-07 2013-06-12 Siemens Aktiengesellschaft Vorrichtung und Verfahren zur automatischen Detektion eines Ereignisses in Sensordaten
US10387729B2 (en) * 2013-07-09 2019-08-20 Outward, Inc. Tagging virtualized content

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
US20040123231A1 (en) * 2002-12-20 2004-06-24 Adams Hugh W. System and method for annotating multi-modal characteristics in multimedia documents
US6906643B2 (en) * 2003-04-30 2005-06-14 Hewlett-Packard Development Company, L.P. Systems and methods of viewing, modifying, and interacting with “path-enhanced” multimedia
US20070061352A1 (en) 2003-12-03 2007-03-15 Koninklijke Philips Electronic, N.V. System & method for integrative analysis of intrinsic and extrinsic audio-visual
CN100538696C (zh) 2003-12-05 2009-09-09 皇家飞利浦电子股份有限公司 用于本征与非本征视听数据的综合分析的系统和方法
US7554576B2 (en) * 2005-06-20 2009-06-30 Ricoh Company, Ltd. Information capture and recording system for controlling capture devices
EP1938208A1 (de) 2005-09-30 2008-07-02 Philips Intellectual Property & Standards GmbH Gesichtsannotation in streaming-video
US7847815B2 (en) 2006-10-11 2010-12-07 Cisco Technology, Inc. Interaction based on facial recognition of conference participants
KR100827846B1 (ko) * 2007-10-18 2008-05-07 (주)올라웍스 동영상에 포함된 특정 인물을 검색하여 원하는 시점부터재생하기 위한 방법 및 시스템
KR101382499B1 (ko) * 2007-10-22 2014-04-21 삼성전자주식회사 영상 태깅 방법 및 이를 사용하는 영상 재생 장치.
US8175376B2 (en) * 2009-03-09 2012-05-08 Xerox Corporation Framework for image thumbnailing based on visual similarity
DE102009060687A1 (de) 2009-11-04 2011-05-05 Siemens Aktiengesellschaft Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020268B2 (en) 2009-11-04 2015-04-28 Siemens Aktiengsellschaft Method and apparatus for annotating multimedia data in a computer-aided manner

Also Published As

Publication number Publication date
WO2011054858A1 (de) 2011-05-12
CN102667770A (zh) 2012-09-12
US9020268B2 (en) 2015-04-28
EP2497037A1 (de) 2012-09-12
US20120219223A1 (en) 2012-08-30
CN102667770B (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
DE112016005059B4 (de) Unterkategorienbewusste faltende neuronale Netzwerke zur Objekterfassung
EP2089886B1 (de) Verfahren zur zeitlichen segmentierung eines videos in videobildfolgen und zur auswahl von keyframes für das auffinden von bildinhalten unter einbeziehung einer subshot-detektion
DE60037485T2 (de) Signalverarbeitungsverfahren und Videosignalprozessor zum Ermitteln und Analysieren eines Bild- und/oder Audiomusters
DE60317053T2 (de) Verfahren und Vorrichtung zur Darstellung einer Bildgruppe
DE102012218966B4 (de) Verfahren und System zum Kennzeichnen von durch Dinge im Internet der Dinge erzeugten Originaldaten
DE102012102797B4 (de) Kamerabasiertes Mobilfunkgerät zur Konvertierung eines Dokuments anhand von aufgenommenen Bildern in ein Format zur optimierten Anzeige auf dem kamerabasierten Mobilfunkgerät
DE112016001830T5 (de) Das Entdecken von Unternehmen aus Bildern
DE102017220896A1 (de) Verfahren und Vorrichtung zur Sicherheitskontrolle
DE102017008430A1 (de) Verfahren und Systeme zum Erzeugen von virtuelle Realität-Umgebungen aus elektronischen Dokumenten
DE112020004053T5 (de) Mischen, beachten bzw. teilnehmen und anpassen: videodomänenanpassung durch clipreihenfolgevorhersage und clipaufmerksamkeitsausrichtung
DE112017005651T5 (de) Vorrichtung zur Klassifizierung von Daten
DE112015005985T5 (de) Klassifizierung und speicherung von dokumenten
WO2017153354A1 (de) Verfahren und vorrichtung zum bewerten von blickabbildungen
DE112020005572T5 (de) Tiefe Gesichtserkennung basierend auf Clustern über unbezeichnete Gesichtsdaten
EP2756458A1 (de) Maschinelles lernverfahren zum maschinellen erlernen von erscheinungsformen von objekten in bildern
DE102014113817A1 (de) Vorrichtung und Verfahren zur Erkennung eines Objekts in Einem Bild
DE102022110889A1 (de) Halbüberwachtes training grober labels bei bildsegmentierung
DE102017124600A1 (de) Semantische Segmentierung eines Objekts in einem Bild
DE102009060687A1 (de) Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten
DE102018113621A1 (de) Verfahren zum Trainieren eines konvolutionellen neuronalen Netzwerks zum Verarbeiten von Bilddaten zur Anwendung in einem Fahrunterstützungssystem
DE112018007277T5 (de) Vorrichtung und verfahren zur automatischen fehlerschwellenwerterkennung für bilder
EP2273383A1 (de) Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher
EP1983450B1 (de) Verfahren und Vorrichtung zur Ermittlung und Bereitstellung von Information zu einem Bild
DE112021004347T5 (de) Aktion-objekt-erkennung in überladenen videoszenen unter verwendung von text
EP2315159A2 (de) Verfahren und Vorrichtung zum Erkennen und Klassifizieren von Dokumentteilen eines rechnerverfügbaren Dokuments durch schrittweises Lernen aus mehreren Trainingsmengen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20140701