-
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum rechnergestützten Annotieren von Multimediadaten.
-
Bei Multimediadaten, die eine Sequenz digitalisierter Bilder umfassen, besteht das Problem, automatisch zu erkennen, was auf den einzelnen Bildern dargestellt ist, um die Multimediadaten anhand des Inhalts annotieren zu können. Insbesondere sollen die Multimediadaten dahingehend annotiert werden, welche Personen (d. h. deren Identität) in diesen dargestellt sind. Die Annotation kann weiterhin einen Kontext der dargestellten Objekte betreffen, wie z. B. wann wurden die Multimediadaten erstellt, in welchem Zusammenhang wurden diese erstellt, sind Außen- oder Innenaufnahmen dargestellt, usw.
-
In diesem Zusammenhang ist es bekannt, die Multimediadaten zunächst in einzelne Szenen, d. h. logisch oder semantisch zusammengehörige Bilder, zu zerlegen. Personen werden anhand von Gesichtserkennungssoftware automatisch detektiert. Die Unterscheidung von Personen wird auch dadurch ermöglicht, dass die Sprache der Personen analysiert wird, um anhand unterschiedlicher Sprachprofile Personen unterscheiden zu können. Eine Identifikation erkannter Personen erfolgt üblicherweise durch einen Vergleich mit in einer Datenbank gespeicherten Informationen, in welcher Referenzinformationen bezüglich Phonetik und/oder visueller Merkmale für jeweilige Personen hinterlegt sind. Ist eine in den Multimediadaten dargestellte Person in der Datenbank jedoch nicht hinterlegt, so ist eine Identifikation auf diese Weise nicht möglich.
-
Andere Verfahren nutzen zur Annotation der Multimediadaten eine Internet-Suche. Hierbei werden zunächst manuell annotierte Bilder für zu annotierende Personen gesucht. Anschließend werden die für die aufgefundenen Bilder ermittelten Eigenschaften mit denen der in den Multimediadaten dargestellten Personen verglichen. Im Falle einer Übereinstimmung kann durch Übertragung der manuellen Annotation aus dem Bild eine Annotierung der Multimediadaten mit einer bestimmten Person erfolgen.
-
Die aus dem Stand der Technik bekannten Vorgehensweisen erfordern in praktisch allen Fällen die Vornahme manueller Eingriffe, so dass die Annotation von Multimediadaten nicht automatisiert erfolgen kann.
-
Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren anzugeben, mit dem die Annotation von Multimediadaten rechnergestützt, d. h. automatisch, erfolgen kann. Eine weitere Aufgabe der Erfindung besteht darin, eine Vorrichtung anzugeben, welche die automatisierte, rechnergestützte Annotation von Multimediadaten ermöglicht.
-
Diese Aufgaben werden gelöst durch ein Verfahren gemäß den Merkmalen des Patentanspruchs 1 sowie eine Vorrichtung gemäß den Merkmalen des Patentanspruchs 13. Vorteilhafte Ausgestaltungen ergeben sich jeweils aus den abhängigen Patentansprüchen.
-
Die Erfindung schafft ein Verfahren zum rechnergestützten Annotieren von Multimediadaten, die eine Sequenz digitalisierter Bilder umfasst. Das erfindungsgemäße Verfahren umfasst die folgenden Schritte: Durchführen einer Analyse der Multimediadaten zur Detektion eines oder mehrerer Objekte in den Multimediadaten. Zuordnung des oder der Objekte zu jeweils einer Rolle, wobei die Rollenzuordnung unter Verarbeitung von Kontextinformationen ermöglicht wird, die ein Modell der Multimediadaten repräsentieren.
-
Unter einer Rolle wird in der nachfolgenden Beschreibung insbesondere die Funktion einer Person in den Multimediadaten verstanden. Die Funktion der Person bemisst sich z. B. nach einem Text, welcher der Person zugeordnet ist.
-
Unter einem Objekt wird in der vorliegenden Beschreibung insbesondere eine in den Multimediadaten dargestellte Person verstanden. Ein Objekt kann jedoch auch ein davon unterschiedlicher Gegenstand sein.
-
Der Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass das Verfahren zum Annotieren der Multimediadaten rechnergestützt und automatisiert erfolgen kann. Zwischen der Analyse der Multimediadaten und der Zuordnung der bei der Analyse ermittelten Objekte zu einer Rolle sind keine manuellen Arbeitsschritte erforderlich, wodurch das erfindungsgemäße Verfahren schnell und effizient arbeitet.
-
Insbesondere werden die Kontextinformationen aus einer, von den Multimediadaten unterschiedlichen, Informationsquelle ermittelt. Mit anderen Worten bedeutet dies, dass die Kontextinformationen nicht aus den Multimediadaten stammen oder diesen entnommen werden. Die Kontextinformationen umfassen beispielsweise Hintergrundinformationen zu den analysierten Multimediadaten, welche durch einen Dienstbetreiber oder auf andere Weise bereitgestellt werden.
-
Gemäß einer zweckmäßigen Ausgestaltung erfolgt als weiterer Schritt eine Zuordnung der Objekte zu Objektklassen, wobei eine Objektklasse als ähnlich identifizierte Objekte umfasst, so dass davon ausgegangen werden kann, dass es sich mit hoher Wahrscheinlichkeit um dasselbe Objekt handelt. Eine Objektklasse umfasst somit eine Gruppierung ähnlicher Objekte. Durch diesen Zwischenschritt kann die Zuordnung der Objekte zu einer Rolle auf einfachere und schnellere Weise vorgenommen werden.
-
Zur Kategorisierung zweier Objekte als ähnlich wird insbesondere ein Objekt-spezifisches Ähnlichkeitsmaß für die zwei Objekte ermittelt, das visuelle und/oder phonetische und/oder geometrische Eigenschaften der Objekte berücksichtigt. Objekte können beispielsweise durch ein Gesichts-Tracking oder eine Ähnlichkeitsprüfung basierend auf visuellen Merkmaelen als ähnlich erfasst werden. Phonetische Ähnlichkeiten der in den Multimediadaten ermittelten Objekte werden beispielsweise durch eine Sprachanalyse ausfindig gemacht.
-
Gemäß einer weiteren zweckmäßigen Ausgestaltung wird als weiterer Schritt für eine jeweilige Rolle eine Identität ermittelt. Die Identität eines Objekts, insbesondere einer Person, bezeichnet die das Objekt kennzeichnende und von anderen Objekten unterscheidende Eigentümlichkeit seines Wesens. Durch die Mehrstufigkeit des erfindungsgemäßen Verfahrens, der Objektbeobachtung zur Detektion der Objekte, der Zuordnung der Objekte zu wenigstens einer Objektklasse, der Zuordnung der Objektklasse oder -klassen zu einer Rolle und der Zuordnung einer jeweiligen Rolle zu einer Identität kann der Rechenaufwand des erfindungsgemäßen Verfahrens gering gehalten werden und die Zuverlässigkeit der Zuweisung der Identitäten zu den Objekten gesteigert werden. Insbesondere wird eine Konvergenz in schneller Zeit erreicht.
-
Gemäß einer weiteren bevorzugten Ausgestaltung erfolgt die Ermittlung der Identität auf Basis der ermittelten Rolle unter Verarbeitung der Kontextinformationen. Es ist ferner zweckmäßig, wenn eine ermittelte Identität dem betreffenden Objekt und/oder der betreffenden Objektklasse zugeordnet wird.
-
In einer weiteren zweckmäßigen Ausgestaltung umfassen die Kontextinformationen eine Information über in den Multimediadaten involvierte Identitäten. Diese stellen Rollen dar, zu denen die beobachteten, unbekannten Objekte zugeordnet werden sollen. Es ist möglich, dass eine Identität im Verlauf der Multimediadaten auch mehrere Rollen annehmen kann. Wenn sich die Rolle über die Zeit ändert, so wird die Identifikation erst über die Kombination aus Rolle und einem Zeitstempel eindeutig.
-
Die Kontextinformationen umfassen optional weiter statistisches oder prozedurales Wissen über einen Kontext der Multimediadaten. Letzteres kann beispielsweise der übliche Ablauf einer im Fernsehen ausgestrahlten Sendung sein, der z. B. einen Vorspann, ein darauffolgendes Interview mit einem Gast, einen eingespielten Bericht über den Gast oder ein von dem Gast beworbenes Produkt sein, usw., umfasst. Statistisches Wissen liegt beispielsweise vor, wenn die Häufigkeit des Auftretens eines Objekts in den Multimediadaten ermittelt wird. Aus dieser Information kann – bei entsprechendem Kontext – auf die Rolle bzw. Identität des Objekts geschlossen werden.
-
Weiterhin können die Kontextinformationen logische Einschränkungen umfassen. Treten beispielsweise zwei identifizierte Objekte in einer Bildsequenz gleichzeitig auf, so können diese nicht die gleiche Identität besitzen. Durch dieses Ausschlusskriterium kann die Anzahl möglicher Zuordnungen von Objekten zu Rollen bzw. Identitäten reduziert werden. Auch hierdurch kann die Konvergenz des Verfahrens beschleunigt werden.
-
In einer weiteren Ausgestaltung umfassen die Kontextinformationen Daten anderer Datenquellen, insbesondere von Datenbanken mit Informationen über die Multimediadaten. Diese Datenquellen können beispielsweise elektronische Programmzeitschriften oder Zusammenfassungen über eine Sendung sein, welche typischerweise in Datenbanken verfügbar ist.
-
Die Erfindung schafft weiter eine Vorrichtung zum rechnergestützten Annotieren von Multimediadaten, die eine Sequenz digitalisierter Bilder umfasst. Die Vorrichtung umfasst ein erstes Mittel zur Durchführung einer Analyse der Multimediadaten zur Detektion eines oder mehrerer Objekte in den Multimediadaten. Ferner umfasst die Vorrichtung ein zweites Mittel zur Zuordnung des oder der Objekte zu jeweils einer Rolle, durch das die Rollenzuordnung unter Verarbeitung von Kontextinformationen ermittelbar ist, wobei die Kontextinformationen ein Modell der Multimediadaten repräsentieren. Das Modell kann mehrere Teilmodelle umfassen.
-
Die erfindungsgemäße Vorrichtung weist die gleichen Vorteile auf, wie diese in Verbindung mit dem erfindungsgemäßen Verfahren beschrieben wurden.
-
In einer zweckmäßigen Ausgestaltung weist die erfindungsgemäße Vorrichtung weitere Mittel zur Durchführung des oben beschriebenen Verfahrens auf.
-
Die Erfindung wird nachfolgend näher anhand eines Ausführungsbeispiels in der Zeichnung erläutert. Es zeigen:
-
1 den schematischen Ablauf des erfindungsgemäßen Verfahrens, und
-
2 eine schematische Darstellung einer erfindungsgemäßen Vorrichtung zum rechnergestützten Annotieren von Multimediadaten.
-
1 zeigt in schematischer Form das grundsätzliche Vorgehen zum rechnergestützten Annotieren von Multimediadaten MD. Die Multimediadaten MD umfassen eine Sequenz digitalisierter Bilder, z. B. einer Fernsehsendung. Eine Anzahl an logisch zusammengehörigen Bildern bildet eine Videosequenz aus, von denen in 1 beispielhaft drei Videosequenzen VS1, VS2, VS3 dargestellt sind. In jeder der Videosequenzen VS1, VS2, VS3 ist eine Anzahl an zunächst unbekannten Objekten O1, O2, O3 enthalten. Bei den beispielhaft in Videosequenz VS1 dargestellten drei Objekten O1, O2, O3 handelt es sich z. B. um in einer Sendung auftretende Personen.
-
Um eine Rollenverteilung der unbekannten Objekte O1, O2, O3 in einem bekannten semantischen Kontext ausfindig zu machen, wird ein, den Multimediadaten MD zugeordnetes Kontextwissen KW genutzt. Zunächst ist es zweckmäßig, wenn das Kontextwissen KW eine Information über die involvierten Identitäten in den Multimediadaten umfasst. Die involvierten Identitäten stellen Rollen dar, zu denen die beobachteten, unbekannten Objekte zugeordnet werden sollen. In einer Interview-Situation gibt es beispielsweise einen Interviewer und einen Interviewten. Die Zuordnung eines Objekts zu einer Rolle identifiziert das Objekt schlussendlich hinsichtlich seiner jeweiligen Identität.
-
Es ist ferner zweckmäßig, wenn das Kontextwissen KW statistisches Wissen des Kontextes umfasst. Dieses statistische Wissen beschreibt beispielsweise eine generell beobachtbare Häufigkeitsverteilung des Auftretens von Haupt- und Nebenakteuren in Berichterstattungen. So ist beispielsweise bekannt, dass in Interview-Situationen der Interviewte relativ am Häufigsten in einer Bildsequenz zu sehen ist. Eine Bildsequenz kann dabei z. B. einer Videosequenz der analysierten Multimediadaten entsprechen.
-
Das Kontextwissen KW kann ferner Informationen über logische Einschränkungen enthalten. Logische Einschränkungen geben beispielsweise einen ausschließenden Hinweis auf die Rollenzugehörigkeit eines Objekts. Treten zwei Objekte zeitgleich auf, so können diese nicht die gleiche Identität besitzen, sofern in der Videosequenz keine Spiegelung eines Objekts dargestellt ist.
-
Das Kontextwissen KW umfasst ferner vorzugsweise zusätzliche Informationsquellen hinsichtlich der zu ermittelnden Identitäten der in den Multimediadaten enthaltenen Objekte. Derartige Informationsquellen können beispielsweise eine Programmzeitschrift oder eine textuelle Kurzzusammenfassung sein, welche in Datenbanken bereitgestellt werden.
-
Die beliebige Kombination dieser Arten von Kontextwissen erlaubt die Zuordnung der in den Multimediadaten MD enthaltenen Objekte O1, O2, O3 zu Identitäten. Bei Personen bezeichnet Identität die ihn kennzeichnende und als Individuum von anderen Menschen unterscheidende Eigentümlichkeit seines Wesens. Insbesondere soll durch das Verfahren ausfindig gemacht werden, welche Person oder Personen in den Multimediadaten dargestellt sind.
-
Die Objektbeobachtung, d. h. die Durchführung einer Analyse der Multimediadaten in ihrer Gesamtheit oder bevorzugt jeweiliger einzelner Videosequenzen VS1, VS2, VS3, lässt alleine keine Ermittlung zu, zu welcher Rolle die in den Multimediadaten MD bzw. den jeweiligen Videosequenzen VS1, VS2, VS3 ermittelten Objekte 01, 02, 03 im Kontext gehört. Die Rollenzuordnung vereinfacht sich jedoch mit zunehmendem Wissen über die Objekte O1, O2, O3. Eine hierbei relevante Information ist z. B. die Häufigkeit, mit der die einzelnen Objekte O1, O2, O3 in den Multimediadaten MD bzw. den jeweiligen Videosequenzen VS1, VS2, VS3 auftreten.
-
Um die Rollenzuordnung zu ermöglichen, ist vorgesehen, einzelne Objekte O1, O2, O3 durch Beobachtung in einen geeigneten Zusammenhang zu bringen. Dies ist beispielsweise bei einer visuellen Ähnlichkeit der Objekte O1, O2, O3 in unterschiedlichen Videosequenzen VS1, VS2, VS3 möglich. Indem Objekte O1, O2, O3, die aufgrund ihrer visuellen Ähnlichkeiten die gleichen Objekte repräsentieren, in einem Verarbeitungsschritt TA1 zu Objektklassen OK, die unbekannten Identitäten eines Objekts entsprechen, zusammengefasst werden, wird die Zuordnung vorgenommen: Statt vielen einzelnen in einer Videosequenz VS1, VS2, VS3 detektierten Objekten O1, O2, O3 werden nur noch wenige Objektklassen OK einer Rolle zugeordnet.
-
Im Verarbeitungsschritt TA1 wird ein Clusterverfahren angewendet, mit dem eine Gruppierung ähnlicher Objekte der in den Multimediadaten oder jeweiligen Videosequenzen VS1, VS2, VS3 ermittelten Objekte 01, 02, 03 in Objektklassen erfolgt. Das Maß der Ähnlichkeit zweier Objekte O1, O2, O3 ist dabei objektspezifisch. Neben visuellen Eigenschaften kann das Maß der Ähnlichkeit beispielsweise durch geometrische Faktoren beschrieben sein. Vorzugsweise werden die in den Multimediadaten MD bzw. den Videosequenzen VS1, VS2, VS3 ermittelten Objekte chronologisch verarbeitet, um gewährleisten zu können, dass zwei zeitgleich ermittelte Objekte nicht der gleichen Objektklasse OK zugeordnet werden.
-
Ergebnis des Verarbeitungsschritts TA1 ist die Zuordnung der Objekte O1, O2, O3 zu den Objektklassen OK. Es ist in diesem Zusammenhang anzumerken, dass die Objektklassen OK nicht gegeben sein müssen, sondern während der Analyse der Multimediadaten MD bzw. jeweiliger Videosequenzen VS1, VS2, VS3 erzeugt werden.
-
In einem weiteren Verarbeitungsschritt TA2 werden den gefundenen Objektklassen OK zunächst Rollen und dann diesen Identitäten zugewiesen. Statistisches Hintergrundwissen aus dem Kontext der Multimediadaten MD bzw. einer jeweiligen Videosequenz VS1, VS2, VS3 bildet hierbei im Zusammenhang mit der gefundenen Objektklassenzuordnung und den Eigenschaften der Objektklassen eine starke Evidenz.
-
Dies soll am Beispiel des Szenarios eines Interviews verdeutlicht werden. Der Fokus von Interviews in Fernsehberichterstattungen in Talkshows liegt deutlich auf der Seite des Befragten (Interviewter oder Gast). Im Falle eines Interviews hat dies vor allem den Grund, dass der Zuschauer am Befragten interessiert ist, weniger jedoch am Interviewer. Folglich wird der Befragte bei der Einblendung im Videomaterial bevorzugt. Ferner ist die Fragestellung des Interviewers zeitlich gesehen im Schnitt kürzer als die Antwort des Befragten. Folglich ist der Befragte deutlich öfter und länger im Videomaterial vorhanden. Hieraus erfolgt eine deutlich höhere Präsenz des Gastes in den Multimediadaten bzw. einzelner Szenen in den Videosequenzen im Vergleich zu dem Moderator oder dem Interviewer.
-
Im Falle eines Interviews zwischen zwei Personen ist demnach allein die Häufigkeit des jeweiligen Auftretens ausreichend, um die Rollen der beiden Parteien (Objekte) zu identifizieren. Die Rollenzuordnung kann ohne jegliche Form von Wissen über die Parteien selber vorgenommen werden.
-
Welche Rollen (Interviewer oder Gast/Gäste) in den Multimediadaten MD vorhanden sind und welche Identitäten welche Rolle ausüben, kann aus den Kontextinformationen KW entnommen werden. Durch die Verarbeitung sämtlicher Informationen kann beispielsweise ausfindig gemacht werden, dass in der Videosequenz VS1 das Objekt O1 der Interviewte, das Objekt O2 der Interviewer und das Objekt O3 ein weiterer Gast der Sendung ist. In Verbindung mit dem Kontextwissen, welches beispielsweise den Moderator einer Sendung sowie die eingeladenen Gäste (Interviewte) ausweist, kann diesen Rollen eine Identität zugewiesen werden.
-
Eine bereits ermittelte Zuordnung einer Identität zu einer Objektklasse und damit allen darin enthaltenen Objekten kann die Zuordnung weiterer, noch nicht identifizierter Identitäten in den Multimediadaten oder jeweiligen Videosequenzen VS1, VS2, VS3 erleichtern. Wurde beispielsweise festgestellt, dass das Objekt O1 der Objektklasse OK1 und diese der Identität A zugeordnet wurde, so kann ein von O1 unterschiedliches Objekt nicht in der Objektklasse OK1 enthalten sein und damit der Identität A entsprechen. Wurde andererseits festgestellt, dass ein zunächst unbekanntes Objekt aufgrund seiner Ähnlichkeit ebenfalls in der Objektklasse OK1 enthalten ist, so muss dieses auch der Identität A entsprechen. Die Berücksichtigung bereits bekannten Wissens erleichtert hierdurch die weitere Zuordnung von Identitäten zu Objektklassen sowie Objekten.
-
Durch eine fortlaufende Verarbeitung der Multimediadaten bzw. der einzelnen Videosequenzen VS1, VS2, VS3 können dadurch rechnergestützt Multimediadaten annotiert werden.
-
Es hat sich in Versuchen herausgestellt, dass die Zuordnung unbekannter Objekte zu Objektklassen umso besser realisiert werden kann, wenn kleinere Abschnitte, d. h. einzelne Videosequenzen, der Multimediadaten getrennt untersucht werden. Beispielsweise werden aus einer Videoaufzeichnung des Interviews Szenen ausgesucht, welche anhand der vorhandenen Kontextinformationen verarbeitet werden. Hierbei lässt sich auf verhältnismäßig einfache Weise eine Zuordnung der Objekte zu den Rollen bzw. Identitäten vornehmen.
-
Eine zusätzliche Erweiterung des Verfahrens kann darin bestehen, dass auf Basis des (zeitlich lokalen) Clusterings in Kombination mit einem statistischen Modell der Häufigkeitsverteilungen in einer Videosequenz eine Klassifikation der Szenen in der Videosequenz (z. B. Interviewsituation) durchgeführt wird.
-
2 zeigt eine erfindungsgemäße Vorrichtung R zur rechnergestützten Annotation von Multimediadaten, die eine Sequenz digitalisierter Bilder umfasst. Die Vorrichtung R umfasst ein erstes Mittel M1 zur Durchführung der Analyse der Multimediadaten zur Identifikation des oder der in den Multimediadaten dargestellten Objekte. Der Rechner R umfasst weiter ein zweites Mittel M2 zur Zuordnung des oder der Objekte O1, O2, O3 zu jeweils einer Rolle, durch das die Rollenzuordnung unter Verarbeitung von Kontextinformationen ermittelbar ist, wobei Kontextinformationen das Modell der Multimediadaten repräsentieren.
-
Die Vorrichtung R, das erste Mittel M1 und das zweite Mittel M2 sind in Hardware, Software oder in einer Kombination aus Hard- und Software realisierbar und ausführbar. So kann ein Prozessor mit Speicher in der Vorrichtung vorgesehen sein, der einzelne Verfahrensschritte des ersten und/oder zweiten Mittels, die beispielweise als Programmcode in dem Speicher abgelegt sind, ausführt und Ergebnisse in dem Speicher organisiert ablegt. Daneben können das erste Mittel und das zweite Mittel als dedizierte Hardwarekomponenten, beispielsweise als elektrische Schaltung, implementierbar und ausführbar sein. Ferner kann die Vorrichtung über Schnittstellen verfügen, um Parameter zur Steuerung und zur Verarbeitung, z. B. der Multimediadaten, erfassen und an andere Verarbeitungseinheiten übertragen zu können.