DE102006027720A1 - Verfahren zur automatischen Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen für eine inhaltsbasierte Suche in diesen Videos - Google Patents

Verfahren zur automatischen Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen für eine inhaltsbasierte Suche in diesen Videos Download PDF

Info

Publication number
DE102006027720A1
DE102006027720A1 DE102006027720A DE102006027720A DE102006027720A1 DE 102006027720 A1 DE102006027720 A1 DE 102006027720A1 DE 102006027720 A DE102006027720 A DE 102006027720A DE 102006027720 A DE102006027720 A DE 102006027720A DE 102006027720 A1 DE102006027720 A1 DE 102006027720A1
Authority
DE
Germany
Prior art keywords
presentation
video
multimedia
information
assignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102006027720A
Other languages
English (en)
Inventor
Harald Dr. rer. nat. Sack
Jörg Dipl.-Inform. Waitelonis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SACK, HARALD, DR., DE
WAITELONIS, JOERG, DE
Original Assignee
Friedrich Schiller Universtaet Jena FSU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Friedrich Schiller Universtaet Jena FSU filed Critical Friedrich Schiller Universtaet Jena FSU
Priority to DE102006027720A priority Critical patent/DE102006027720A1/de
Publication of DE102006027720A1 publication Critical patent/DE102006027720A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs

Abstract

Bei einem Verfahren zur Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen (1) sollen die Videos aufwandgering für eine umfassende, zuverlässige und effiziente inhaltsbasierte Suchfunktion aufbereitet werden. Erfindungsgemäß werden die Vortragspräsentation (5) in einem darstellungsneutralen Format in einzelne zusammengehörige Abschnitte unterteilt und dann das Video automatisch anhand von ermittelten Zusatzinformationen annotiert. Die Zusatzinformation wird jeweils entweder unmittelbar während der Präsentation in einem Präsentationsrechner (8) oder nachträglich aus der Aufzeichnung (4) der Vortragspräsentation (5) gewonnen. Die Annotation wird dann aus den Abschnitten der Vortragspräsentation (5) generiert.

Description

  • Die Erfindung betrifft ein Verfahren zur automatischen Aufbereitung von aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen, die als Video vorliegen, um in diesen inhaltsbasiert, insbesondere nach Bild- bzw. Textzeichen und deren Verknüpfung, komfortabel und zuverlässig suchen zu können. Die Multimediapräsentationen können dabei aus einem oder mehreren synchronisierten Videos bestehen.
  • Der möglichst effiziente und korrekte Zugriff auf Inhalte von großen Multimediadatenbeständen, beispielsweise Multimediabibliotheken und -datenbanken, Systemen für das computergestützte Lernen (B-Learning) sowie das World Wide Web (WWW), stellt in der Praxis ein allgemeines Problem dar.
  • Mit der Erfindung ist es möglich, in kürzester Zeit und unabhängig vom Ort der Speicherung in Videos inhaltliche Information derselben zu recherchieren und für den Suchenden relevante Inhalte ausfindig zu machen. Ein spezielles Anwendungsgebiet sind Videoaufzeichnungen von Präsentationen, bei denen digital vorliegendes und aus Bild- und/oder Scriptinhalten generiertes Präsentationsmaterial verwendet wird (z. B. Lichtbildprojektionen mittels Beamer).
  • Digitale Bild- und Videotechnik wird immer vorteilhafter, weshalb analoge Einrichtungen zur Herstellung und Präsentation von Multimediadaten zunehmend durch digitale Geräte ersetzt werden. Dieser technologische Fortschritt und die Tatsache, dass das WWW als Plattform für die Verbreitung multimedialer Daten unaufhaltsam wachst, bringt neben allen Vorteilen auch viele Probleme mit sich. Solche Probleme sind zum Beispiel die Archivierung, Sammlung und Bereitstellung multimedialer Daten sowie das Wiederauffinden von Informationen, die in diesen unüberschaubar großen Mengen an multimedialen Daten enthalten sind. Auf Grund der fortschreitenden Entwicklung größerer, schnellerer und günstigerer Speichermedien ist weniger die Archivierung, sondern vor allem die Suche in den gespeicherten Datenbeständen als Problem zu sehen.
  • Bekannte Internetsuchmaschinen, wie z. B. Google-Video (http://video.google.com/), SingingFish (http://www.singingfish.com/), YouTube (http://www.youtube.com/) und andere basieren lediglich auf der schlüsselwortbasierten Suche nach bestimmten Videodateien und nicht auf der inhaltsbasierten Suche in denselben bzw. nach einzelnen Videosegmenten, so dass diese nicht nach Bild- und/oder Scriptinhalten recherchiert werden können. Es ist also nicht möglich, die gesuchte Information jeweils bis auf ein bestimmtes Videosegment und damit auf eine exakte zeitliche Position im Video zu lokalisieren.
  • Das Ermitteln inhaltsbasierter Informationen aus Videos erfolgt bekannter Weise entweder unter der Vorraussetzung zuvor durchgeführten manuellen Beschreiben der Videos (z. B. Untertitel), auf Basis von Spracherkennung oder durch visuelle Analyseverfahren.
  • Das manuelle Beschreiben bezeichnet das Annotieren des Inhaltes eines Videos oder eines Videosegments mit zusätzlichen textuellen Informationen von Hand. Diese Beschreibung (im Folgenden Annotation genannt) kann für eine exakte inhaltsbasierte Suche verwendet werden, erfordert aber, insbesondere bei größeren Videodaten, einen hohen und wirtschaftlich wenig vertretbaren manuellen und zeitintensiven Aufwand und ist deshalb für Recherchezwecke und Suchfunktionen von Videobeständen in der Praxis kaum relevant.
  • Verfahren mit manuellem Annotieren sind z. B. VideoAnnEx (J. R. Smith and B. Lugeon: A visual annotation tool for multimedia content description, in Proc. SPIE Photonics East, Internet Multimedia Management Systems, 2000), das Programm Ricoh Movie Tool (http://www.ricoh.co.jp/src/multimedia/MovieTool/), das Programm VIDETO (Video Description Tool) vom Zentrum für Graphische Datenverarbeitung e.V. (ZGDV, http://www.rostock.zgdv.de/ZGDV/Abteilungen/zr2/Produkte/videto/index_html_en), Microsoft MRAS (D. Bargeron, A. Gupta, J. Grudin, and E. Sanocki. "Annotations for Streaming Video an the Web: System Design and Usage Studies". Microsoft Research, Redmond, http://www.research.microsoft.com/research/coet/MRAS/WWW8/paper.htm) und US 2004/0237032A1.
  • Bei der Spracherkennung (z. B. J. Foote: An overview of audio information retrieval. Multimedia Syst, 7(1), 2-10, 1999; S. Repp and Ch. Meinel: Semantic indexing for recorded educational lecture vdeos, in 4th Annual IEEE Int. Conference an Pervasive Computing and Communications Workshops (PERCOMW'06), 2006; M. Witbrock and A. Hauptmann: Speech recognition and information retrieval: January 27, 2004; Z. Dongru and Z. Yingying: Video browsing and retrieval based an multimodal integration, in Proceedings of the IEEE/WIC International Conference an Web Intelligence, Halifax, Canada, 2003) ist der akustische Videoinhalt zu transliterieren und der daraus resultierende Text auszuwerten. Zum einen besteht diese Möglichkeit nur für Videos, die tatsächlich auswertbare Sprachdaten enthalten und zum anderen können die akustischen Videodaten auch aus zusätzlich zu den zu analysierenden Sprachdaten im Video vorhandenen anderen Informationen (Fremdstimmen, Musikbegleitung oder andere Geräusche) bestehen, wodurch die Spracherkennung erschwert bzw. gänzlich oder teilweise beeinträchtigt ist. Neben dem an sich nachteilig hohen Prozessaufwand für die Spracherkennung treten außer der sprachlichen Erkennbarkeit weitere Probleme auf. Beispielsweise kann nicht gewährleistet werden, dass das gesprochene Wort – wenn es schon richtig erkannt ist – auch tatsächlich dem relevanten Inhalt des Videos entspricht. Darüber hinaus versagt das Verfahren bei Videos mit Sprachinformationen in einer nicht vom System unterstützten fremden Sprache, bzw. es kommen zu den angemerkten Problemen der Spracherkennung selbst, vom Zusatzaufwand der Translation abgesehen, noch Übersetzungsfehler hinzu.
  • Darüber hinaus setzen Spracherkennungssysteme in der Regel aufwändige Vorbereitungs- und Trainingsphasen voraus, die den Aufwand weiter erhöhen und einer Automatisierbarkeit hinderlich sind. Die heuristische Natur der Spracherkennungsverfahren beeinträchtigt ihre Genauigkeit in hohem Maß.
  • Als Verfahren mit Spracherkennung zum Annotieren sind u. a. Automated Sync Technologies (http://www.automaticsync.com), iFinder (Fraunhofer Institut für Medienkommunikation, Skt. Augustin, http://www.imk.fhg.de/sixcms/media.php/130/ifinder_eng.pdf), US 6,317,710 B1 und DE 699 15 455 T2 bekannt. Diese Verfahren sind jedoch sehr langsam, ungenau und, wie bereits beschrieben, höchst aufwendig.
  • Außerdem gibt es Verfahren der visuellen Analyse, die zur Beschreibung des Inhaltes eines Videos visuelle Merkmale wie Farbe, Textur, Bewegung, Kontur oder den Ort von Objekten verwenden.
  • Insbesondere bei Videos mit sehr statischem Inhalt (z.B. Vorträge, Vorlesungen, etc.) kann eine visuelle Analyse der Bilder nur unzufriedenstellende Ergebnisse hervorbringen. Es handelt sich bei Aufnahmen von Vorträgen oder Nachrichten meist um eine Situation, bei der eine Person im Bild steht und während des gesamten Videoverlaufs spricht. Deshalb schränkt sich die Beschreibung der visuellen Merkmale auf ein Objekt 'Person', das sich beispielsweise vor einem blauen Hintergrund befindet, ein. Über den eigentlichen semantischen Inhalt des Videos können diese Verfahren keine Aussage machen. Beispiele für Verfahren mit Extraktion visueller Merkmale sind: IBM MARVEL, Multimedia Analysis and Retrieval System (http://www.research.ibm.com/marvel/details.html) und P. Tzouveli et al. "Intelligent Visual Descriptor Extraktion from Video Sequences" in 'Lecture Notes in Computer Science – Adaptive Multimedia Retrieval', Springer-Verlag.
  • Ferner ist auch bekannt (z. B. DE 601 02 730 T2 ), eine textbasierte Powerpoint-Präsentation mit einem Video zu annotieren. Dies dient allerdings keiner Recherchierbarkeit und einer Suchfunktion in einem Videodatenbestand, sondern lediglich zum besseren Verständnis der Präsentation, was nicht Gegenstand der vorgestellten Erfindung ist.
  • Der Erfindung liegt die Aufgabe zu Grunde, auch größere als Video vorliegende Multimediapräsentationen aus Bild- und/oder Scriptinhalten (im Folgenden Präsentationsmaterial) aufwandgering für eine umfassende, zuverlässige und effiziente inhaltsbasierte Suchfunktion aufzubereiten.
  • Die aufbereiteten Multimediapräsentationen sollen auch inhaltsbasierte Vergleiche dieser Videos, insbesondere in einem größeren Datenbestand, ermöglichen.
  • Erfindungsgemäß wird diese Aufgabe gelöst, indem
    • a) das Präsentationsmaterial in einem darstellungsneutralen Format, sofern noch nicht vorliegend, in einzelne zusammengehörige Abschnitte unterteilt wird,
    • b) eine Segmentierung der Multimediapräsentation und eine Zuordnung bestimmter Abschnitte des Präsentationsmaterials zu den Videosegmenten erfolgen, wobei für diese Zuordnung aus dem Vortrag der Präsentation eine Zuordnungsinformation gewonnen wird und
    • c) jedes Videosegment der Multimediapräsentation jeweils anhand der gewonnenen Zuordnungsinformation mit inhaltlichen Informationen des zugeordneten Abschnitts des Präsentationsmaterials in Form einer Datei annotiert wird.
  • Die Zusatzinformation wird jeweils entweder unmittelbar während der Präsentation durch den Präsentationsrechner in Form einer Tabelle bzw. Logdatei oder nachträglich aus der Aufzeichnung der Vortragspräsentation gewonnen.
  • Im letztgenannten Fall werden als Zuordnungsinformation aus dem Video (Aufzeichnung) der Präsentation durch Vergleiche von Frames aus aufeinanderfolgenden Zeitintervallen jeweils die Zeitpunkte von Bildänderungen im Video ermittelt. Für jedes der – durch die besagten Zeitpunkte der Bildänderungen bestimmten – Videosegmente vom Video der Präsentation werden mittels Bild- bzw. Textanalyse der Frames und der Abschnitte des Präsentationsmaterials ermittelt, welcher Abschnitt des Präsentationsmaterials in dem jeweiligen Videosegment vom Video der Präsentation angezeigt wird.
  • Die Annotation wird dann aus den Abschnitten der Vortragspräsentation generiert.
  • Mit diesen Verfahrensschritten zur Aufbereitung und Bereitstellung von Videos, denen jeweils eine aus Bild- und/oder Scriptinhalten generierte Multimediapräsentation zu Grunde liegt, wird eine inhaltsbasierte Suche in der Annotation der Videodateien ermöglicht, wobei die jeweils für die Abfrage relevanten Abschnitte des Videos zeitlich exakt bestimmt werden.
  • Die Annotation der Videodateien wird automatisch durchgeführt, d. h. im Gegensatz zu manuellen Verfahren aufwandgering. Gegenüber Verfahren, die auf einer Audio- /Sprachanalyse basieren, ist die vorgeschlagene Methode zuverlässig und ebenfalls weniger aufwendig.
  • Die besagte Annotation der Videodateien erfolgt dabei nach objektiv gegebenen und eindeutig erkennbaren inhaltsrelevanten Kriterien, wodurch im Vergleich zu Verfahren, die auf einer Audio-/Sprachanalyse basieren, keine fehlerbehaftete und prozessaufwendige semantische Analyse des Audioinhalts erforderlich ist, um die Videodateien korrekt und vollständig mit inhaltsbezogener Information zu annotieren. Folglich liefert auch eine Suche in den auf diese Weise annotierten Videos (selbst bei größeren Videodateien) mit wenig Aufwand schnell und gut auffindbare exakte Suchergebnisse, die auf den besagten tatsächlich gegebenen inhaltsrelevanten Kriterien beruhen.
  • Das Script- oder Präsentationsmaterial, das während der Produktion/Aufzeichnung eines Videos (z. B: vorgelesene Nachrichtentexte, vorgetragene Vorlesungsskripte, Tagesordnungslisten bei Besprechungen, Drehbücher bei Spielfilmen, etc.) verwendet wird, repräsentiert unmittelbar die semantischen Inhalte des produzierten Videos. Diese Information wird vorschlagsgemäß in Form der Annotation den entsprechenden Passagen des Videos zugeordnet.
  • Der Erfindung liegt also die Idee zu Grunde, bereits vorhandene beiläufige, für die Ermöglichung der inhaltsbasierten Suche bisher noch nicht verwendete, semantische Information über die Videos, die entweder nicht oder nur in besonderen Fällen mit höchstem Aufwand aus dem Video extrahiert werden kann, als Quelle für die Annotation zu verwenden.
  • In den Unteransprüchen sind vorteilhafte Ausgestaltungen der Verfahrensmerkmale dargestellt.
  • Die Multimediapräsentation kann aus mehreren Multimediaströmen bestehen. Falls statt des Videos bzw. zusätzlich zum Video der Präsentation andere bzw. weitere Zuordnungsinformationen vorliegen, so können auch diese zum Annotieren verwendet werden.
  • Das Video der Präsentation kann auch als Folge einzelner Bilder ersetzt werden (Slideshow). In diesem Fall liegen die Zuordnungsinformationen bereits in anderer Form vor. Es ist ebenfalls möglich, dass die Zuordnungsinformation für die Annotierung bereits vorliegt, beispielsweise als Scriptvorlage oder Tabelle.
  • Das Video der Präsentation, wie auch das zu annotierende Video, kann in einem beliebigen Format mit beliebiger Kodierung vorliegen. Beispielsweise kann als ursprüngliche Quelle für das Video der Präsentation auch ein nichtdigitales Signal (z. B. PAL oder VGA) gegeben sein.
  • Die Annotationselemente, die nach beliebigen Kriterien gewichtet werden können, sind in beliebiger Form anwendbar, z. B. Schlüsselwörter, Text, Farbanalysen, Bilder.
  • Alle Multimediaströme der Multimediapräsentation können als Informationsquelle für die Annotation dienen.
  • Die Erfindung soll nachstehend anhand von in der Zeichnung dargestellten Ausführungsbeispielen näher erläutert werden.
  • Es zeigen:
  • 1: Prinzipdarstellung zur Erzeugung einer synchronisierten Multimediapräsentation mit Videoaufnahme eines Vortrags
  • 2: Erzeugen einer Annotation unter Verwendung des Präsentationsrechners, auf dem eine Tabelle oder Logdatei erzeugt wurde
  • 3: Erzeugen einer Annotation unter Verwendung der Videoaufzeichnung der Vortragspräsentation
  • 4: Ablaufplan des Zuordnungsprozesses für das automatische Annotieren im Ausführungsbeispiel nach 3
  • 5: Segmentierung der Videoaufzeichnung der Vortragspräsentation und Zuordnung der Videosegmente zu Abschnitten des Präsentationsmaterials der Vortragspräsentation
  • In 1 ist die Erzeugung einer synchronisierten Multimediapräsentation mit Videoaufnahme am Beispiel der Videoaufzeichnung einer Lehrveranstaltung allgemein dargestellt. Zunächst wird eine synchronisierte Multimediapräsentation 1, bestehend aus einer Videoaufzeichnung 2 eines Referenten 3 sowie aus einer Videoaufzeichnung 4 einer Vortragspräsentation 5 des Referenten 3, erzeugt (vgl. 1).
  • Zur Erstellung der Videoaufzeichnung 2 wird der Referent 3 von einer Videokamera 6 (symbolisiert durch Pfeil 7 in 1) aufgezeichnet, während er das von ihm vorgetragene Referat durch die auf einem Präsentationsrechner 8 vorhandene Vortragspräsentation 5 veranschaulicht, die beispielsweise als Microsoft PowerPoint-Präsentation vorliegen kann. Diese wird synchron zum Vortrag des Referenten 3 mittels eines Beamers 9 an eine Tafel 10 (Projektionsleinwand) projiziert und zusätzlich als Videoaufzeichnung 4 (symbolisiert durch Pfeil 11 in 1) aufgenommen.
  • Beide Videoaufzeichnungen (die Videoaufzeichnung 2 des Referenten 3 und die Videoaufzeichnung 4 der Vortragspräsentation 5) werden zeitlich synchronisiert, sodass beide gemeinsam in der synchronen Multimediapräsentation 1 live oder auch on-demand wiedergegeben werden können.
  • Das Annotieren dieser Videoaufzeichnungen (sowohl der Videoaufzeichnung 2 des Referenten 3 als auch der Videoaufzeichnung 4 der Vortragspräsentation 5) kann nun automatisch auf zwei unterschiedliche Weisen erfolgen. Beide setzen die Verwendung des Präsentationsmaterials (Datei) für die Vortragspräsentation 5 voraus:
  • 1) Annotieren unter Verwendung des Präsentationsrechners 8 (vgl. 2):
  • Vorraussetzung ist, wie angemerkt, das Vorliegen des Präsentationsmaterials für die Vortragspräsentation 5 (im vorliegenden Beispiel die besagte und auf dem Präsentationsrechner 8 befindliche PowerPoint-Datei der Vortragspräsentation 5). Es erfolgt eine rechnergestützte Präsentation (über den Beamer 9 und die Tafel 10, vgl. 1), die als Videoaufzeichnungen 2 und 4 (symbolisierte Darstellung über die Pfeile 7 und 11) aufgenommen werden. Bei dieser rechnergestützten Präsentation wird die Zuordnungsinformation für die Annotierung während des Vorgangs des Präsentierens im Präsentationsrechner 8 (siehe nachstehend) erzeugt.
  • a) Zuordnungsprozess:
  • Parallel zur Präsentation des Referenten 3 wird eine Logdatei über den Präsentationsrechner 8 geführt, in der die Wechsel von einer Präsentationsseite zur nächsten zeitlich notiert werden. Diese gespeicherten Zeitmarken ermöglichen eine sehr einfache Zuordnung von Anfangs- und Endzeitpunkten zu den jeweiligen Folien der Vortragspräsentation 5. Daraus resultiert eine Zuordnungsliste (Tabelle oder Logdatei), welche die Zeitpunkte in der Videoaufzeichnung 4 und die jeweils korrespondieren Foliennummern der Vortragspräsentation 5 als Zuordnungsinformation 12 (vgl. 2) enthält.
  • b) Annotationsprozess:
  • In einem Annotationsprozess 13 (vgl. 2) wird jedes Datenpaar der Zuordnungsliste (Zeitpunkte und Nummern der jeweiligen angezeigten Folien) nacheinander bearbeitet, wobei für jedes Datenpaar unter Zuhilfenahme des Dateninhalts der Folie des Präsentationsmaterials der Vortragspräsentation 5 die Annotation für dieses spezielle Videosegment ermittelt wird. Die videosegmentbezogene Annotation besteht dabei aus einem Zeitstempel mit der Dauer des zugehörigen Videosegments, aus Schlüsselwörtern zum Dateninhalt, aus einer Textzusammenfassung sowie aus Links zu Bildern und Grafiken.
  • Die Annotationen der einzelnen Videosegmente werden mit Autoreninformationen zu einer Annotation 14 der gesamten Multimediapräsentation 1 (Videoaufzeichnung 2 und/oder Videoaufzeichnung 4) zusammengefasst (vgl. 2).
  • 2) Annotieren unter Verwendung der Aufzeichnung der Vortragspräsentation 4 (vgl. 3):
  • Voraussetzung ist das Vorliegen des Präsentationsmaterials für die Vortragspräsentation 5 sowie die Videoaufzeichnung 4 dieser rechnergestützten Vortragspräsentation 5.
  • a) Zuordnungsprozess: (vgl. 4):
  • Aus der Videoaufzeichnung 4 der Vortragspräsentation 5 werden durch Vergleiche aufeinanderfolgender Frames die Zeitpunkte für einen Zuordnungsprozess 15 und eine Segmentierung (vgl. 5) der Videoaufzeichnung 4 ermittelt, an denen ein Folienwechsel stattgefunden hat. Frames 16 an diesen Stellen teilen die Videoaufzeichnung 4 in Videosegmente 17. Die Frames 16 dieser Folienwechsel werden bildtechnisch normiert, die übrigen Frames 18 (einige sind in 5 bezeichnet) können für eine Zuordnung 19 ignoriert oder gelöscht werden. Die normierten Frames 16 werden einer Textanalyse unterzogen. Der resultierende Text selbst ist jedoch nicht als Annotation für das korrespondierende Videosegment 17 geeignet. Es erfolgt die besagte Zuordnung 19 des ermittelten Textes zu einem bestimmten Abschnitt 20 des Präsentationsmaterials der Vortragspräsentation 5. Dafür wird das Präsentationsmaterial in ein neutrales Darstellungsformat 21 mit Text und/oder Bilddarstellung gebracht. Die zugeordneten Abschnitte 20 (z. B. Seiten oder Folien) repräsentieren dieses Darstellungsformat 21. Jedem Resultat beispielsweise der Textanalyse eines Frames 16 wird nun ein Abschnitt 20 des Präsentationsmaterials der Vortragspräsentation 5 zugeordnet. Dieser Abschnitt wird später als Annotation 13 des entsprechenden Videosegments 17 verwendet.
  • Alternativ zum besagten Textanalyseverfahren kann ein Bildvergleich durchgeführt werden (vgl. auch 4). Hierbei wird das Präsentationsmaterial der Vortragspräsentation 5 in einzelne normierte Abbildungen umgewandelt, die mit den normierten Frames 16, an denen ein Folienwechsel erkannt wurde, verglichen werden. Auch auf solche Weise kann die Zuordnung 19 ermittelt werden. Beide Vorgehensweisen (Text- und Bildanalyse) sind kombinierbar; hierbei wird das Gesamtverfahren besonders zuverlässig.
  • Aus dem Zuordnungsprozess resultiert (ähnlich dem Ausführungsbeispiel gemäß 2) eine Zuordnungsliste (Zuordnungsinformation 12), welche die Zeitpunkte in der Videoaufzeichnung 4 und die korrespondierenden Foliennummern des Präsentationsmaterials der Vortragspräsentation 5 enthält. 4 stellt den Verfahrensablauf zur Generierung dieser Zuordnungsinformation 12 für das Ausführungsbeispiel nach 3 schematisch dar.
  • b) Annotationsprozess:
  • Im Annotationsprozess 13 (vgl. 3) wird jedes Datenpaar der Zuordnungsliste (Zuordnungsinformation 12) wie im Ausführungsbeispiel gemäß 2 nacheinander bearbeitet. Für jedes Datenpaar wird unter Zuhilfenahme des Folieninhalts des Präsentationsmaterials der Vortragspräsentation 5 die Annotation für das Videosegment 17 ermittelt. Die videosegmentbezogene Annotation besteht wiederum aus einem Zeitstempel mit der Dauer des zugehörigen Videosegments, aus Schlüsselwörtern zum Dateninhalt, aus einer Textzusammenfassung sowie aus Links zu Bildern und Grafiken. Die Annotationen der einzelnen Videosegmente werden mit Autoreninformationen zu einer Annotation 14 der gesamten Multimediapräsentation 1 (Videoaufzeichnung 2 und/oder Videoaufzeichnung 4) zusammengefasst (vgl. 3).
  • In beiden Ausführungsbeispielen besteht die Annotation 14 aus einer XML-Datei im MPEG-7-Format. Sie kann zur inhaltsbasierten Suche verwendet werden, wie dies z. B. die Systeme in US 2002/0133826 A1 und US 6,925,474 B2 ermöglichen.
  • Wird während des Präsentierens eine PlugIn-fähige Präsentationssoftware (z. B. Microsoft PowerPoint) verwendet, lässt sich das Verfahren vereinfachen, indem die Zuordnungsinformation 12 in Form einer Tabelle oder Logdatei unmittelbar während der Präsentation von einem PlugIn erzeugt werden kann, ohne dass zwingend eine Analyse der Videoaufzeichnung 4 der Vortragspräsentation 5 durchgeführt werden muss. Der Zuordnungsprozess läuft dann auf dem Präsentationsrechner 8 ab (vgl. 2).
  • 1
    Multimediapräsentation, bestehend aus der Videoaufzeichnung 2
    sowie aus der Videoaufzeichnung 4
    2
    Videoaufzeichnung des Referenten 3
    3
    Referent
    4
    Videoaufzeichnung der Vortragspräsentation 5
    5
    Vortragspräsentation
    6
    Videokamera
    7, 11
    Pfeil
    8
    Präsentationsrechner
    9
    Beamer
    10
    Tafel
    12
    Zuordnungsinformation
    13
    Annotationsprozess
    14
    Annotation
    15
    Zuordnungsprozess
    16, 18
    Frame
    17
    Videosegment
    19
    Zuordnung
    20
    Abschnitt der Vortragspräsentation 5
    21
    Darstellungsformat

Claims (14)

  1. Verfahren zur automatischen Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen für eine inhaltsbasierte Suche in diesen Videos, wobei das Video mit Bild- und/oder Scriptinhalten annotiert wird, dadurch gekennzeichnet, dass das Präsentationsmaterial (5) in einem darstellungsneutralen Format, sofern noch nicht vorliegend, in einzelne zusammengehörige Abschnitte unterteilt wird, dass eine Segmentierung der Multimediapräsentation (1) und eine Zuordnung bestimmter Abschnitte des Präsentationsmaterials (5) zu den Videosegmenten (17) erfolgen, wobei für diese Zuordnung aus dem Vortrag der Präsentation eine Zuordnungsinformation (12) gewonnen wird und dass jedes Videosegment (17) der Multimediapräsentation (1) jeweils anhand der gewonnenen Zuordnungsinformation mit inhaltlichen Informationen des zugeordneten Abschnitts (20) des Präsentationsmaterials (5) in Form einer Datei annotiert wird (13, 14).
  2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Zuordnungsinformation (12) während der Präsentation in einem Präsentationsrechner (8) in Form einer Tabelle bzw. Logdatei erzeugt wird.
  3. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass als Zuordnungsinformation (12) aus dem Video (4) der Präsentation (5) durch Vergleiche von Frames aus aufeinanderfolgenden Zeitintervallen jeweils die Zeitpunkte von Bildänderungen im Video ermittelt werden und dass für jedes der – durch die besagten Zeitpunkte der Bildänderungen bestimmten – Videosegmente vom Video (4) der Präsentation (5) mittels Bild- bzw. Textanalyse der Frames (16, 18) und der Abschnitte des Präsentationsmaterials (5) ermittelt wird, welcher Abschnitt des Präsentationsmaterials (5) in dem jeweiligen Videosegment (17) vom Video (4) der Präsentation (5) angezeigt wird.
  4. Verfahren gemäß Anspruch 3, dadurch gekennzeichnet, dass Frames (18), die nicht unmittelbar an einer Bildänderung beteiligt sind, für die Zuordnung (20) ignoriert bzw. gelöscht werden.
  5. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Zuordnung (20) der Videosegmente zu den Abschnitten des Präsentationsmaterials mit Bild- und/oder Textvergleichen durchgeführt wird.
  6. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Abgrenzung einzelner Abschnitte des Präsentationsmaterials (5) jeweils mit beliebig wählbaren Separatoren erfolgt.
  7. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Darstellung des Präsentationsmaterials (5) in einem beliebigen darstellungsunabhängigen Format (21) erfolgt.
  8. Verfahren gemäß Anspruch 2, dadurch gekennzeichnet, dass im Fall von PlugIn-fähiger Präsentationssoftware die Zuordnungsinformation (12) zwecks Verfahrensvereinfachung bereits während des Präsentierens von einem PlugIn erzeugt wird.
  9. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Annotation (14) in einem beliebigen an sich bekannten Format (z. B. XML, MPEG-7 Standard) abgespeichert wird.
  10. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Multimediapräsentation (1) aus einem einzigen Multimediastrom besteht.
  11. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass die Multimediapräsentation (1) aus mehreren Multimediaströmen besteht.
  12. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass im Fall weiterer Zuordnungsinformationen zum Video diese zum Annotieren verwendet werden.
  13. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass als Video der Präsentation (4) die Folge einzelner Bilder gegeben ist (Slideshow) und dass die Zuordnungsinformation (12) durch die einzelnen Bilder bestimmt wird.
  14. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass als Elemente der Annotation (14) außer Bild- und/oder Scriptinhalte, wie Textzeichen und Schlüsselwörter, auch aus den Videos der Multimediapräsentation gewonnenen audiovisuelle Informationen Verwendung finden.
DE102006027720A 2006-06-12 2006-06-12 Verfahren zur automatischen Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen für eine inhaltsbasierte Suche in diesen Videos Withdrawn DE102006027720A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102006027720A DE102006027720A1 (de) 2006-06-12 2006-06-12 Verfahren zur automatischen Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen für eine inhaltsbasierte Suche in diesen Videos

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102006027720A DE102006027720A1 (de) 2006-06-12 2006-06-12 Verfahren zur automatischen Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen für eine inhaltsbasierte Suche in diesen Videos

Publications (1)

Publication Number Publication Date
DE102006027720A1 true DE102006027720A1 (de) 2007-12-13

Family

ID=38663862

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102006027720A Withdrawn DE102006027720A1 (de) 2006-06-12 2006-06-12 Verfahren zur automatischen Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen für eine inhaltsbasierte Suche in diesen Videos

Country Status (1)

Country Link
DE (1) DE102006027720A1 (de)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2138940A1 (de) * 2008-06-23 2009-12-30 Alcatel Lucent System und Verfahren zur automatischen Generierung einer zusätzlicher Datenschicht
EP2345034A1 (de) * 2008-10-08 2011-07-20 Jérémie Salvatore De Villiers System und verfahren für die automatische individuelle anpassung von audio- und videomedien
US11355155B1 (en) 2021-05-11 2022-06-07 CLIPr Co. System and method to summarize one or more videos based on user priorities
US11425181B1 (en) 2021-05-11 2022-08-23 CLIPr Co. System and method to ingest one or more video streams across a web platform
US11445273B1 (en) 2021-05-11 2022-09-13 CLIPr Co. System and method for creating a video summary based on video relevancy
US11610402B2 (en) 2021-05-11 2023-03-21 CLIPr Co. System and method for crowdsourcing a video summary for creating an enhanced video summary

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0860786A2 (de) * 1997-02-24 1998-08-26 International Business Machines Corporation System und Verfahren zum hierarchischen Zusammenstellen und Einordnen eines Satzes von Objekten in einem Abfragekontext
DE29915313U1 (de) * 1999-09-01 2000-03-16 Inst Den Wissenschaftlichen Fi Werkanlage zur digitalen Filmsequenzerschließung
DE10163469A1 (de) * 2001-12-21 2003-03-20 Siemens Ag Zugriffsystem für diagnostische Bilder
EP0840241B1 (de) * 1996-11-01 2004-02-18 International Business Machines Corporation Verfahren zur Ortsanzeige aktiver Videoverbindungen
DE10333530A1 (de) * 2003-07-23 2005-03-17 Siemens Ag Automatische Indexierung von digitalen Bildarchiven zur inhaltsbasierten, kontextsensitiven Suche

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0840241B1 (de) * 1996-11-01 2004-02-18 International Business Machines Corporation Verfahren zur Ortsanzeige aktiver Videoverbindungen
EP0860786A2 (de) * 1997-02-24 1998-08-26 International Business Machines Corporation System und Verfahren zum hierarchischen Zusammenstellen und Einordnen eines Satzes von Objekten in einem Abfragekontext
DE29915313U1 (de) * 1999-09-01 2000-03-16 Inst Den Wissenschaftlichen Fi Werkanlage zur digitalen Filmsequenzerschließung
DE10163469A1 (de) * 2001-12-21 2003-03-20 Siemens Ag Zugriffsystem für diagnostische Bilder
DE10333530A1 (de) * 2003-07-23 2005-03-17 Siemens Ag Automatische Indexierung von digitalen Bildarchiven zur inhaltsbasierten, kontextsensitiven Suche

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2138940A1 (de) * 2008-06-23 2009-12-30 Alcatel Lucent System und Verfahren zur automatischen Generierung einer zusätzlicher Datenschicht
EP2345034A1 (de) * 2008-10-08 2011-07-20 Jérémie Salvatore De Villiers System und verfahren für die automatische individuelle anpassung von audio- und videomedien
EP2345034A4 (de) * 2008-10-08 2013-03-06 De Villiers Jeremie Salvatore System und verfahren für die automatische individuelle anpassung von audio- und videomedien
US11355155B1 (en) 2021-05-11 2022-06-07 CLIPr Co. System and method to summarize one or more videos based on user priorities
US11425181B1 (en) 2021-05-11 2022-08-23 CLIPr Co. System and method to ingest one or more video streams across a web platform
US11445273B1 (en) 2021-05-11 2022-09-13 CLIPr Co. System and method for creating a video summary based on video relevancy
US11610402B2 (en) 2021-05-11 2023-03-21 CLIPr Co. System and method for crowdsourcing a video summary for creating an enhanced video summary

Similar Documents

Publication Publication Date Title
DE69926481T2 (de) Vorrichtung und verfahren für aufnahme, entwurf und wiedergabe synchronisierter audio- und videodaten unter verwendung von spracherkennung und drehbüchern
US10810436B2 (en) System and method for machine-assisted segmentation of video collections
CN109275046B (zh) 一种基于双视频采集的教学数据标注方法
US9788060B2 (en) Methods and systems for aggregation and organization of multimedia data acquired from a plurality of sources
CN113691836B (zh) 视频模板生成方法、视频生成方法、装置和电子设备
KR101205388B1 (ko) 강의 동영상과 강의노트 동기화를 통해 동영상 프레임을 슬라이드 주요 제목으로 색인하는 방법
Haubold et al. Augmented segmentation and visualization for presentation videos
DE102006027720A1 (de) Verfahren zur automatischen Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen für eine inhaltsbasierte Suche in diesen Videos
US9525896B2 (en) Automatic summarizing of media content
Perniss Collecting and analyzing sign language data: Video requirements and use of annotation software
Thompson Building a specialised audiovisual corpus
US10127824B2 (en) System and methods to create multi-faceted index instructional videos
CN115580758A (zh) 视频内容生成方法及装置、电子设备、存储介质
Toklu et al. Videoabstract: a hybrid approach to generate semantically meaningful video summaries
Knoll et al. Management and analysis of large-scale video surveys using the software vPrism™
CN113992973A (zh) 视频摘要生成方法、装置、电子设备和存储介质
CN113779345A (zh) 一种教学材料生成方法、装置、计算机设备和存储介质
US11854430B2 (en) Learning platform with live broadcast events
Löffler et al. iFinder: An MPEG-7-based retrieval system for distributed multimedia content
EP2273383A1 (de) Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher
BE1023431B1 (nl) Automatische identificatie en verwerking van audiovisuele media
Ross et al. Digital tools in media studies: Analysis and research. An overview
Messina et al. Creating rich metadata in the TV broadcast archives environment: The Prestospace project
Hürst et al. Searching in recorded lectures
Pereira et al. A multimedia information system to support the discourse analysis of video recordings of television programs

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
R081 Change of applicant/patentee

Owner name: SACK, HARALD, DR., DE

Free format text: FORMER OWNER: FRIEDRICH-SCHILLER-UNIVERSITAET JENA, 07743 JENA, DE

Effective date: 20111110

Owner name: WAITELONIS, JOERG, DE

Free format text: FORMER OWNER: FRIEDRICH-SCHILLER-UNIVERSITAET JENA, 07743 JENA, DE

Effective date: 20111110

R005 Application deemed withdrawn due to failure to request examination

Effective date: 20130613