DE102006027720A1

DE102006027720A1 - Verfahren zur automatischen Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen für eine inhaltsbasierte Suche in diesen Videos

Info

Publication number: DE102006027720A1
Application number: DE102006027720A
Authority: DE
Inventors: Harald Dr. rer. nat. Sack; Jörg Dipl.-Inform. Waitelonis
Original assignee: Friedrich Schiller Universtaet Jena FSU
Current assignee: SACK, HARALD, DR., DE; WAITELONIS, JOERG, DE
Priority date: 2006-06-12
Filing date: 2006-06-12
Publication date: 2007-12-13

Abstract

Bei einem Verfahren zur Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen (1) sollen die Videos aufwandgering für eine umfassende, zuverlässige und effiziente inhaltsbasierte Suchfunktion aufbereitet werden. Erfindungsgemäß werden die Vortragspräsentation (5) in einem darstellungsneutralen Format in einzelne zusammengehörige Abschnitte unterteilt und dann das Video automatisch anhand von ermittelten Zusatzinformationen annotiert. Die Zusatzinformation wird jeweils entweder unmittelbar während der Präsentation in einem Präsentationsrechner (8) oder nachträglich aus der Aufzeichnung (4) der Vortragspräsentation (5) gewonnen. Die Annotation wird dann aus den Abschnitten der Vortragspräsentation (5) generiert.

Description

Die Erfindung betrifft ein Verfahren zur automatischen Aufbereitung von aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen, die als Video vorliegen, um in diesen inhaltsbasiert, insbesondere nach Bild- bzw. Textzeichen und deren Verknüpfung, komfortabel und zuverlässig suchen zu können. Die Multimediapräsentationen können dabei aus einem oder mehreren synchronisierten Videos bestehen.
Der möglichst effiziente und korrekte Zugriff auf Inhalte von großen Multimediadatenbeständen, beispielsweise Multimediabibliotheken und -datenbanken, Systemen für das computergestützte Lernen (B-Learning) sowie das World Wide Web (WWW), stellt in der Praxis ein allgemeines Problem dar.
Mit der Erfindung ist es möglich, in kürzester Zeit und unabhängig vom Ort der Speicherung in Videos inhaltliche Information derselben zu recherchieren und für den Suchenden relevante Inhalte ausfindig zu machen. Ein spezielles Anwendungsgebiet sind Videoaufzeichnungen von Präsentationen, bei denen digital vorliegendes und aus Bild- und/oder Scriptinhalten generiertes Präsentationsmaterial verwendet wird (z. B. Lichtbildprojektionen mittels Beamer).
Digitale Bild- und Videotechnik wird immer vorteilhafter, weshalb analoge Einrichtungen zur Herstellung und Präsentation von Multimediadaten zunehmend durch digitale Geräte ersetzt werden. Dieser technologische Fortschritt und die Tatsache, dass das WWW als Plattform für die Verbreitung multimedialer Daten unaufhaltsam wachst, bringt neben allen Vorteilen auch viele Probleme mit sich. Solche Probleme sind zum Beispiel die Archivierung, Sammlung und Bereitstellung multimedialer Daten sowie das Wiederauffinden von Informationen, die in diesen unüberschaubar großen Mengen an multimedialen Daten enthalten sind. Auf Grund der fortschreitenden Entwicklung größerer, schnellerer und günstigerer Speichermedien ist weniger die Archivierung, sondern vor allem die Suche in den gespeicherten Datenbeständen als Problem zu sehen.
Bekannte Internetsuchmaschinen, wie z. B. Google-Video (http://video.google.com/), SingingFish (http://www.singingfish.com/), YouTube (http://www.youtube.com/) und andere basieren lediglich auf der schlüsselwortbasierten Suche nach bestimmten Videodateien und nicht auf der inhaltsbasierten Suche in denselben bzw. nach einzelnen Videosegmenten, so dass diese nicht nach Bild- und/oder Scriptinhalten recherchiert werden können. Es ist also nicht möglich, die gesuchte Information jeweils bis auf ein bestimmtes Videosegment und damit auf eine exakte zeitliche Position im Video zu lokalisieren.
Das Ermitteln inhaltsbasierter Informationen aus Videos erfolgt bekannter Weise entweder unter der Vorraussetzung zuvor durchgeführten manuellen Beschreiben der Videos (z. B. Untertitel), auf Basis von Spracherkennung oder durch visuelle Analyseverfahren.
Das manuelle Beschreiben bezeichnet das Annotieren des Inhaltes eines Videos oder eines Videosegments mit zusätzlichen textuellen Informationen von Hand. Diese Beschreibung (im Folgenden Annotation genannt) kann für eine exakte inhaltsbasierte Suche verwendet werden, erfordert aber, insbesondere bei größeren Videodaten, einen hohen und wirtschaftlich wenig vertretbaren manuellen und zeitintensiven Aufwand und ist deshalb für Recherchezwecke und Suchfunktionen von Videobeständen in der Praxis kaum relevant.
Verfahren mit manuellem Annotieren sind z. B. VideoAnnEx (J. R. Smith and B. Lugeon: A visual annotation tool for multimedia content description, in Proc. SPIE Photonics East, Internet Multimedia Management Systems, 2000), das Programm Ricoh Movie Tool (http://www.ricoh.co.jp/src/multimedia/MovieTool/), das Programm VIDETO (Video Description Tool) vom Zentrum für Graphische Datenverarbeitung e.V. (ZGDV, http://www.rostock.zgdv.de/ZGDV/Abteilungen/zr2/Produkte/videto/index_html_en), Microsoft MRAS (D. Bargeron, A. Gupta, J. Grudin, and E. Sanocki. "Annotations for Streaming Video an the Web: System Design and Usage Studies". Microsoft Research, Redmond, http://www.research.microsoft.com/research/coet/MRAS/WWW8/paper.htm) und US 2004/0237032A1.
Bei der Spracherkennung (z. B. J. Foote: An overview of audio information retrieval. Multimedia Syst, 7(1), 2-10, 1999; S. Repp and Ch. Meinel: Semantic indexing for recorded educational lecture vdeos, in 4th Annual IEEE Int. Conference an Pervasive Computing and Communications Workshops (PERCOMW'06), 2006; M. Witbrock and A. Hauptmann: Speech recognition and information retrieval: January 27, 2004; Z. Dongru and Z. Yingying: Video browsing and retrieval based an multimodal integration, in Proceedings of the IEEE/WIC International Conference an Web Intelligence, Halifax, Canada, 2003) ist der akustische Videoinhalt zu transliterieren und der daraus resultierende Text auszuwerten. Zum einen besteht diese Möglichkeit nur für Videos, die tatsächlich auswertbare Sprachdaten enthalten und zum anderen können die akustischen Videodaten auch aus zusätzlich zu den zu analysierenden Sprachdaten im Video vorhandenen anderen Informationen (Fremdstimmen, Musikbegleitung oder andere Geräusche) bestehen, wodurch die Spracherkennung erschwert bzw. gänzlich oder teilweise beeinträchtigt ist. Neben dem an sich nachteilig hohen Prozessaufwand für die Spracherkennung treten außer der sprachlichen Erkennbarkeit weitere Probleme auf. Beispielsweise kann nicht gewährleistet werden, dass das gesprochene Wort – wenn es schon richtig erkannt ist – auch tatsächlich dem relevanten Inhalt des Videos entspricht. Darüber hinaus versagt das Verfahren bei Videos mit Sprachinformationen in einer nicht vom System unterstützten fremden Sprache, bzw. es kommen zu den angemerkten Problemen der Spracherkennung selbst, vom Zusatzaufwand der Translation abgesehen, noch Übersetzungsfehler hinzu.
Darüber hinaus setzen Spracherkennungssysteme in der Regel aufwändige Vorbereitungs- und Trainingsphasen voraus, die den Aufwand weiter erhöhen und einer Automatisierbarkeit hinderlich sind. Die heuristische Natur der Spracherkennungsverfahren beeinträchtigt ihre Genauigkeit in hohem Maß.
Als Verfahren mit Spracherkennung zum Annotieren sind u. a. Automated Sync Technologies (http://www.automaticsync.com), iFinder (Fraunhofer Institut für Medienkommunikation, Skt. Augustin, http://www.imk.fhg.de/sixcms/media.php/130/ifinder_eng.pdf), US 6,317,710 B1 und DE 699 15 455 T2 bekannt. Diese Verfahren sind jedoch sehr langsam, ungenau und, wie bereits beschrieben, höchst aufwendig.
Außerdem gibt es Verfahren der visuellen Analyse, die zur Beschreibung des Inhaltes eines Videos visuelle Merkmale wie Farbe, Textur, Bewegung, Kontur oder den Ort von Objekten verwenden.
Insbesondere bei Videos mit sehr statischem Inhalt (z.B. Vorträge, Vorlesungen, etc.) kann eine visuelle Analyse der Bilder nur unzufriedenstellende Ergebnisse hervorbringen. Es handelt sich bei Aufnahmen von Vorträgen oder Nachrichten meist um eine Situation, bei der eine Person im Bild steht und während des gesamten Videoverlaufs spricht. Deshalb schränkt sich die Beschreibung der visuellen Merkmale auf ein Objekt 'Person', das sich beispielsweise vor einem blauen Hintergrund befindet, ein. Über den eigentlichen semantischen Inhalt des Videos können diese Verfahren keine Aussage machen. Beispiele für Verfahren mit Extraktion visueller Merkmale sind: IBM MARVEL, Multimedia Analysis and Retrieval System (http://www.research.ibm.com/marvel/details.html) und P. Tzouveli et al. "Intelligent Visual Descriptor Extraktion from Video Sequences" in 'Lecture Notes in Computer Science – Adaptive Multimedia Retrieval', Springer-Verlag.
Ferner ist auch bekannt (z. B. DE 601 02 730 T2 ), eine textbasierte Powerpoint-Präsentation mit einem Video zu annotieren. Dies dient allerdings keiner Recherchierbarkeit und einer Suchfunktion in einem Videodatenbestand, sondern lediglich zum besseren Verständnis der Präsentation, was nicht Gegenstand der vorgestellten Erfindung ist.
Der Erfindung liegt die Aufgabe zu Grunde, auch größere als Video vorliegende Multimediapräsentationen aus Bild- und/oder Scriptinhalten (im Folgenden Präsentationsmaterial) aufwandgering für eine umfassende, zuverlässige und effiziente inhaltsbasierte Suchfunktion aufzubereiten.
Die aufbereiteten Multimediapräsentationen sollen auch inhaltsbasierte Vergleiche dieser Videos, insbesondere in einem größeren Datenbestand, ermöglichen.
Erfindungsgemäß wird diese Aufgabe gelöst, indem

a) das Präsentationsmaterial in einem darstellungsneutralen Format, sofern noch nicht vorliegend, in einzelne zusammengehörige Abschnitte unterteilt wird,
b) eine Segmentierung der Multimediapräsentation und eine Zuordnung bestimmter Abschnitte des Präsentationsmaterials zu den Videosegmenten erfolgen, wobei für diese Zuordnung aus dem Vortrag der Präsentation eine Zuordnungsinformation gewonnen wird und
c) jedes Videosegment der Multimediapräsentation jeweils anhand der gewonnenen Zuordnungsinformation mit inhaltlichen Informationen des zugeordneten Abschnitts des Präsentationsmaterials in Form einer Datei annotiert wird.

Die Zusatzinformation wird jeweils entweder unmittelbar während der Präsentation durch den Präsentationsrechner in Form einer Tabelle bzw. Logdatei oder nachträglich aus der Aufzeichnung der Vortragspräsentation gewonnen.
Im letztgenannten Fall werden als Zuordnungsinformation aus dem Video (Aufzeichnung) der Präsentation durch Vergleiche von Frames aus aufeinanderfolgenden Zeitintervallen jeweils die Zeitpunkte von Bildänderungen im Video ermittelt. Für jedes der – durch die besagten Zeitpunkte der Bildänderungen bestimmten – Videosegmente vom Video der Präsentation werden mittels Bild- bzw. Textanalyse der Frames und der Abschnitte des Präsentationsmaterials ermittelt, welcher Abschnitt des Präsentationsmaterials in dem jeweiligen Videosegment vom Video der Präsentation angezeigt wird.
Die Annotation wird dann aus den Abschnitten der Vortragspräsentation generiert.
Mit diesen Verfahrensschritten zur Aufbereitung und Bereitstellung von Videos, denen jeweils eine aus Bild- und/oder Scriptinhalten generierte Multimediapräsentation zu Grunde liegt, wird eine inhaltsbasierte Suche in der Annotation der Videodateien ermöglicht, wobei die jeweils für die Abfrage relevanten Abschnitte des Videos zeitlich exakt bestimmt werden.
Die Annotation der Videodateien wird automatisch durchgeführt, d. h. im Gegensatz zu manuellen Verfahren aufwandgering. Gegenüber Verfahren, die auf einer Audio- /Sprachanalyse basieren, ist die vorgeschlagene Methode zuverlässig und ebenfalls weniger aufwendig.
Die besagte Annotation der Videodateien erfolgt dabei nach objektiv gegebenen und eindeutig erkennbaren inhaltsrelevanten Kriterien, wodurch im Vergleich zu Verfahren, die auf einer Audio-/Sprachanalyse basieren, keine fehlerbehaftete und prozessaufwendige semantische Analyse des Audioinhalts erforderlich ist, um die Videodateien korrekt und vollständig mit inhaltsbezogener Information zu annotieren. Folglich liefert auch eine Suche in den auf diese Weise annotierten Videos (selbst bei größeren Videodateien) mit wenig Aufwand schnell und gut auffindbare exakte Suchergebnisse, die auf den besagten tatsächlich gegebenen inhaltsrelevanten Kriterien beruhen.
Das Script- oder Präsentationsmaterial, das während der Produktion/Aufzeichnung eines Videos (z. B: vorgelesene Nachrichtentexte, vorgetragene Vorlesungsskripte, Tagesordnungslisten bei Besprechungen, Drehbücher bei Spielfilmen, etc.) verwendet wird, repräsentiert unmittelbar die semantischen Inhalte des produzierten Videos. Diese Information wird vorschlagsgemäß in Form der Annotation den entsprechenden Passagen des Videos zugeordnet.
Der Erfindung liegt also die Idee zu Grunde, bereits vorhandene beiläufige, für die Ermöglichung der inhaltsbasierten Suche bisher noch nicht verwendete, semantische Information über die Videos, die entweder nicht oder nur in besonderen Fällen mit höchstem Aufwand aus dem Video extrahiert werden kann, als Quelle für die Annotation zu verwenden.
In den Unteransprüchen sind vorteilhafte Ausgestaltungen der Verfahrensmerkmale dargestellt.
Die Multimediapräsentation kann aus mehreren Multimediaströmen bestehen. Falls statt des Videos bzw. zusätzlich zum Video der Präsentation andere bzw. weitere Zuordnungsinformationen vorliegen, so können auch diese zum Annotieren verwendet werden.
Das Video der Präsentation kann auch als Folge einzelner Bilder ersetzt werden (Slideshow). In diesem Fall liegen die Zuordnungsinformationen bereits in anderer Form vor. Es ist ebenfalls möglich, dass die Zuordnungsinformation für die Annotierung bereits vorliegt, beispielsweise als Scriptvorlage oder Tabelle.
Das Video der Präsentation, wie auch das zu annotierende Video, kann in einem beliebigen Format mit beliebiger Kodierung vorliegen. Beispielsweise kann als ursprüngliche Quelle für das Video der Präsentation auch ein nichtdigitales Signal (z. B. PAL oder VGA) gegeben sein.
Die Annotationselemente, die nach beliebigen Kriterien gewichtet werden können, sind in beliebiger Form anwendbar, z. B. Schlüsselwörter, Text, Farbanalysen, Bilder.
Alle Multimediaströme der Multimediapräsentation können als Informationsquelle für die Annotation dienen.
Die Erfindung soll nachstehend anhand von in der Zeichnung dargestellten Ausführungsbeispielen näher erläutert werden.
Es zeigen:
1: Prinzipdarstellung zur Erzeugung einer synchronisierten Multimediapräsentation mit Videoaufnahme eines Vortrags
2: Erzeugen einer Annotation unter Verwendung des Präsentationsrechners, auf dem eine Tabelle oder Logdatei erzeugt wurde
3: Erzeugen einer Annotation unter Verwendung der Videoaufzeichnung der Vortragspräsentation
4: Ablaufplan des Zuordnungsprozesses für das automatische Annotieren im Ausführungsbeispiel nach 3
5: Segmentierung der Videoaufzeichnung der Vortragspräsentation und Zuordnung der Videosegmente zu Abschnitten des Präsentationsmaterials der Vortragspräsentation
In 1 ist die Erzeugung einer synchronisierten Multimediapräsentation mit Videoaufnahme am Beispiel der Videoaufzeichnung einer Lehrveranstaltung allgemein dargestellt. Zunächst wird eine synchronisierte Multimediapräsentation 1, bestehend aus einer Videoaufzeichnung 2 eines Referenten 3 sowie aus einer Videoaufzeichnung 4 einer Vortragspräsentation 5 des Referenten 3, erzeugt (vgl. 1).
Zur Erstellung der Videoaufzeichnung 2 wird der Referent 3 von einer Videokamera 6 (symbolisiert durch Pfeil 7 in 1) aufgezeichnet, während er das von ihm vorgetragene Referat durch die auf einem Präsentationsrechner 8 vorhandene Vortragspräsentation 5 veranschaulicht, die beispielsweise als Microsoft PowerPoint-Präsentation vorliegen kann. Diese wird synchron zum Vortrag des Referenten 3 mittels eines Beamers 9 an eine Tafel 10 (Projektionsleinwand) projiziert und zusätzlich als Videoaufzeichnung 4 (symbolisiert durch Pfeil 11 in 1) aufgenommen.
Beide Videoaufzeichnungen (die Videoaufzeichnung 2 des Referenten 3 und die Videoaufzeichnung 4 der Vortragspräsentation 5) werden zeitlich synchronisiert, sodass beide gemeinsam in der synchronen Multimediapräsentation 1 live oder auch on-demand wiedergegeben werden können.
Das Annotieren dieser Videoaufzeichnungen (sowohl der Videoaufzeichnung 2 des Referenten 3 als auch der Videoaufzeichnung 4 der Vortragspräsentation 5) kann nun automatisch auf zwei unterschiedliche Weisen erfolgen. Beide setzen die Verwendung des Präsentationsmaterials (Datei) für die Vortragspräsentation 5 voraus:
1) Annotieren unter Verwendung des Präsentationsrechners 8 (vgl. 2):
Vorraussetzung ist, wie angemerkt, das Vorliegen des Präsentationsmaterials für die Vortragspräsentation 5 (im vorliegenden Beispiel die besagte und auf dem Präsentationsrechner 8 befindliche PowerPoint-Datei der Vortragspräsentation 5). Es erfolgt eine rechnergestützte Präsentation (über den Beamer 9 und die Tafel 10, vgl. 1), die als Videoaufzeichnungen 2 und 4 (symbolisierte Darstellung über die Pfeile 7 und 11) aufgenommen werden. Bei dieser rechnergestützten Präsentation wird die Zuordnungsinformation für die Annotierung während des Vorgangs des Präsentierens im Präsentationsrechner 8 (siehe nachstehend) erzeugt.
a) Zuordnungsprozess:
Parallel zur Präsentation des Referenten 3 wird eine Logdatei über den Präsentationsrechner 8 geführt, in der die Wechsel von einer Präsentationsseite zur nächsten zeitlich notiert werden. Diese gespeicherten Zeitmarken ermöglichen eine sehr einfache Zuordnung von Anfangs- und Endzeitpunkten zu den jeweiligen Folien der Vortragspräsentation 5. Daraus resultiert eine Zuordnungsliste (Tabelle oder Logdatei), welche die Zeitpunkte in der Videoaufzeichnung 4 und die jeweils korrespondieren Foliennummern der Vortragspräsentation 5 als Zuordnungsinformation 12 (vgl. 2) enthält.
b) Annotationsprozess:
In einem Annotationsprozess 13 (vgl. 2) wird jedes Datenpaar der Zuordnungsliste (Zeitpunkte und Nummern der jeweiligen angezeigten Folien) nacheinander bearbeitet, wobei für jedes Datenpaar unter Zuhilfenahme des Dateninhalts der Folie des Präsentationsmaterials der Vortragspräsentation 5 die Annotation für dieses spezielle Videosegment ermittelt wird. Die videosegmentbezogene Annotation besteht dabei aus einem Zeitstempel mit der Dauer des zugehörigen Videosegments, aus Schlüsselwörtern zum Dateninhalt, aus einer Textzusammenfassung sowie aus Links zu Bildern und Grafiken.
Die Annotationen der einzelnen Videosegmente werden mit Autoreninformationen zu einer Annotation 14 der gesamten Multimediapräsentation 1 (Videoaufzeichnung 2 und/oder Videoaufzeichnung 4) zusammengefasst (vgl. 2).
2) Annotieren unter Verwendung der Aufzeichnung der Vortragspräsentation 4 (vgl. 3):
Voraussetzung ist das Vorliegen des Präsentationsmaterials für die Vortragspräsentation 5 sowie die Videoaufzeichnung 4 dieser rechnergestützten Vortragspräsentation 5.
a) Zuordnungsprozess: (vgl. 4):
Aus der Videoaufzeichnung 4 der Vortragspräsentation 5 werden durch Vergleiche aufeinanderfolgender Frames die Zeitpunkte für einen Zuordnungsprozess 15 und eine Segmentierung (vgl. 5) der Videoaufzeichnung 4 ermittelt, an denen ein Folienwechsel stattgefunden hat. Frames 16 an diesen Stellen teilen die Videoaufzeichnung 4 in Videosegmente 17. Die Frames 16 dieser Folienwechsel werden bildtechnisch normiert, die übrigen Frames 18 (einige sind in 5 bezeichnet) können für eine Zuordnung 19 ignoriert oder gelöscht werden. Die normierten Frames 16 werden einer Textanalyse unterzogen. Der resultierende Text selbst ist jedoch nicht als Annotation für das korrespondierende Videosegment 17 geeignet. Es erfolgt die besagte Zuordnung 19 des ermittelten Textes zu einem bestimmten Abschnitt 20 des Präsentationsmaterials der Vortragspräsentation 5. Dafür wird das Präsentationsmaterial in ein neutrales Darstellungsformat 21 mit Text und/oder Bilddarstellung gebracht. Die zugeordneten Abschnitte 20 (z. B. Seiten oder Folien) repräsentieren dieses Darstellungsformat 21. Jedem Resultat beispielsweise der Textanalyse eines Frames 16 wird nun ein Abschnitt 20 des Präsentationsmaterials der Vortragspräsentation 5 zugeordnet. Dieser Abschnitt wird später als Annotation 13 des entsprechenden Videosegments 17 verwendet.
Alternativ zum besagten Textanalyseverfahren kann ein Bildvergleich durchgeführt werden (vgl. auch 4). Hierbei wird das Präsentationsmaterial der Vortragspräsentation 5 in einzelne normierte Abbildungen umgewandelt, die mit den normierten Frames 16, an denen ein Folienwechsel erkannt wurde, verglichen werden. Auch auf solche Weise kann die Zuordnung 19 ermittelt werden. Beide Vorgehensweisen (Text- und Bildanalyse) sind kombinierbar; hierbei wird das Gesamtverfahren besonders zuverlässig.
Aus dem Zuordnungsprozess resultiert (ähnlich dem Ausführungsbeispiel gemäß 2) eine Zuordnungsliste (Zuordnungsinformation 12), welche die Zeitpunkte in der Videoaufzeichnung 4 und die korrespondierenden Foliennummern des Präsentationsmaterials der Vortragspräsentation 5 enthält. 4 stellt den Verfahrensablauf zur Generierung dieser Zuordnungsinformation 12 für das Ausführungsbeispiel nach 3 schematisch dar.
b) Annotationsprozess:
Im Annotationsprozess 13 (vgl. 3) wird jedes Datenpaar der Zuordnungsliste (Zuordnungsinformation 12) wie im Ausführungsbeispiel gemäß 2 nacheinander bearbeitet. Für jedes Datenpaar wird unter Zuhilfenahme des Folieninhalts des Präsentationsmaterials der Vortragspräsentation 5 die Annotation für das Videosegment 17 ermittelt. Die videosegmentbezogene Annotation besteht wiederum aus einem Zeitstempel mit der Dauer des zugehörigen Videosegments, aus Schlüsselwörtern zum Dateninhalt, aus einer Textzusammenfassung sowie aus Links zu Bildern und Grafiken. Die Annotationen der einzelnen Videosegmente werden mit Autoreninformationen zu einer Annotation 14 der gesamten Multimediapräsentation 1 (Videoaufzeichnung 2 und/oder Videoaufzeichnung 4) zusammengefasst (vgl. 3).
In beiden Ausführungsbeispielen besteht die Annotation 14 aus einer XML-Datei im MPEG-7-Format. Sie kann zur inhaltsbasierten Suche verwendet werden, wie dies z. B. die Systeme in US 2002/0133826 A1 und US 6,925,474 B2 ermöglichen.
Wird während des Präsentierens eine PlugIn-fähige Präsentationssoftware (z. B. Microsoft PowerPoint) verwendet, lässt sich das Verfahren vereinfachen, indem die Zuordnungsinformation 12 in Form einer Tabelle oder Logdatei unmittelbar während der Präsentation von einem PlugIn erzeugt werden kann, ohne dass zwingend eine Analyse der Videoaufzeichnung 4 der Vortragspräsentation 5 durchgeführt werden muss. Der Zuordnungsprozess läuft dann auf dem Präsentationsrechner 8 ab (vgl. 2).

1: Multimediapräsentation, bestehend aus der Videoaufzeichnung 2
: sowie aus der Videoaufzeichnung 4
2: Videoaufzeichnung des Referenten 3
3: Referent
4: Videoaufzeichnung der Vortragspräsentation 5
5: Vortragspräsentation
6: Videokamera
7, 11: Pfeil
8: Präsentationsrechner
9: Beamer
10: Tafel
12: Zuordnungsinformation
13: Annotationsprozess
14: Annotation
15: Zuordnungsprozess
16, 18: Frame
17: Videosegment
19: Zuordnung
20: Abschnitt der Vortragspräsentation 5
21: Darstellungsformat

Claims

Verfahren zur automatischen Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen für eine inhaltsbasierte Suche in diesen Videos, wobei das Video mit Bild- und/oder Scriptinhalten annotiert wird, dadurch gekennzeichnet, dass das Präsentationsmaterial (5) in einem darstellungsneutralen Format, sofern noch nicht vorliegend, in einzelne zusammengehörige Abschnitte unterteilt wird, dass eine Segmentierung der Multimediapräsentation (1) und eine Zuordnung bestimmter Abschnitte des Präsentationsmaterials (5) zu den Videosegmenten (17) erfolgen, wobei für diese Zuordnung aus dem Vortrag der Präsentation eine Zuordnungsinformation (12) gewonnen wird und dass jedes Videosegment (17) der Multimediapräsentation (1) jeweils anhand der gewonnenen Zuordnungsinformation mit inhaltlichen Informationen des zugeordneten Abschnitts (20) des Präsentationsmaterials (5) in Form einer Datei annotiert wird (13, 14).
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Zuordnungsinformation (12) während der Präsentation in einem Präsentationsrechner (8) in Form einer Tabelle bzw. Logdatei erzeugt wird.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass als Zuordnungsinformation (12) aus dem Video (4) der Präsentation (5) durch Vergleiche von Frames aus aufeinanderfolgenden Zeitintervallen jeweils die Zeitpunkte von Bildänderungen im Video ermittelt werden und dass für jedes der – durch die besagten Zeitpunkte der Bildänderungen bestimmten – Videosegmente vom Video (4) der Präsentation (5) mittels Bild- bzw. Textanalyse der Frames (16, 18) und der Abschnitte des Präsentationsmaterials (5) ermittelt wird, welcher Abschnitt des Präsentationsmaterials (5) in dem jeweiligen Videosegment (17) vom Video (4) der Präsentation (5) angezeigt wird.
Verfahren gemäß Anspruch 3, dadurch gekennzeichnet, dass Frames (18), die nicht unmittelbar an einer Bildänderung beteiligt sind, für die Zuordnung (20) ignoriert bzw. gelöscht werden.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Zuordnung (20) der Videosegmente zu den Abschnitten des Präsentationsmaterials mit Bild- und/oder Textvergleichen durchgeführt wird.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Abgrenzung einzelner Abschnitte des Präsentationsmaterials (5) jeweils mit beliebig wählbaren Separatoren erfolgt.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Darstellung des Präsentationsmaterials (5) in einem beliebigen darstellungsunabhängigen Format (21) erfolgt.
Verfahren gemäß Anspruch 2, dadurch gekennzeichnet, dass im Fall von PlugIn-fähiger Präsentationssoftware die Zuordnungsinformation (12) zwecks Verfahrensvereinfachung bereits während des Präsentierens von einem PlugIn erzeugt wird.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Annotation (14) in einem beliebigen an sich bekannten Format (z. B. XML, MPEG-7 Standard) abgespeichert wird.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Multimediapräsentation (1) aus einem einzigen Multimediastrom besteht.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Multimediapräsentation (1) aus mehreren Multimediaströmen besteht.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass im Fall weiterer Zuordnungsinformationen zum Video diese zum Annotieren verwendet werden.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass als Video der Präsentation (4) die Folge einzelner Bilder gegeben ist (Slideshow) und dass die Zuordnungsinformation (12) durch die einzelnen Bilder bestimmt wird.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass als Elemente der Annotation (14) außer Bild- und/oder Scriptinhalte, wie Textzeichen und Schlüsselwörter, auch aus den Videos der Multimediapräsentation gewonnenen audiovisuelle Informationen Verwendung finden.