-
Ausführungsbeispiele
der vorliegenden Erfindung beziehen sich auf eine Vorrichtung und
auf ein Verfahren zum Bereitstellen einer Fernsehsequenz und insbesondere
auf eine automatisierte Generierung von Diensten und Sendeabläufen
für analoges und digitales Fernsehen und für Fernsehen übers
Internet (IPTV = Internet Protokoll Television).
-
Derzeit
steht eine große Bandbreite an interaktiven Fernsehdiensten
zur Verfügung. Die Anwendungsarten können mit
unterschiedlichen Taxonomien kategorisiert werden: lokalindividuelle
interaktive Anwendungen ohne Rückkanal (Informationsdienste),
vollständig-individuelle interaktive Anwendungen mit Rückkanal
(Homeshopping) oder masseninteraktiven Anwendungen (Abstimmungsanwendungen). Eine
alternative Kategorisierung wäre beispielsweise: zum Fernsehrundfunk
gehörige Anwendungen (Quizanwendungen parallel zu Fernseh-Quizshows), von
Fernsehrundfunk unabhängigen Anwendungen (TV-Betreiberdienstportale)
oder Fernsehrundfunk-Übertragungsanwendungen (mobile Nachrichtenübermittlungsanwendungen
wie z. B. Chat-Anwendungen).
-
Besonders
interessant sind mobile Nachrichtenübermittlungsdienste
in Verbindung mit Interaktiven-Rundfunk-Erstellungsdienste wie z.
B. die Fernsehshow „Mess TV” des norwegischen
Fernsehens, die SMS- oder MMS-Mitteilungen (SMS = Kurzmitteilungsdienst;
MMS = Multimedia-Mitteilungsdienst) einzubinden, die über
Mobiltelefone direkt an jedermanns Fernsehbildschirm gesendet werden
bzw. gesendet wurden, um mit Moderatoren zu sprechen. Ferner werden
MMS-Mitteilungen auf dem Bildschirm gezeigt, um die Zuschauer stärker
in die Fernsehshow einzubeziehen. Es las sen sich weitere interaktive
Fernsehsendungen finden, die auf SMS- und MMS-Kommunikation beruhen.
-
Es
besteht somit ein Bedarf nach neuartigen Anreicherungsstrategien
von interaktiven Fernsehdiensten unter Nutzung mobiler Nachrichtenübermittlung
mit kollaborativen und inhaltsbasierten Filterverfahren zu zeigen.
-
Im
Stand der Technik findet sich einige Ansätze, die diesem
Bedarf jedoch nur teilweise gerecht werden. In
WO/2002/032144 wird eine Vorrichtung und
ein Verfahren zum Codieren, Übertragen und dem Empfang
von Bild- und Videoinhalten offenbart, wobei jedoch keine automatisierte
und inhaltsbasierte Erzeugung der Bild- und Videoinhalten erfolgt.
In
US 2008155624 ,
JP 2007209023 ,
JP 2007142729 und in
GB 2444284 sind Vorrichtungen
und Verfahren offenbart, die zwar einen ähnlichen Zweck
verfolgen, jedoch keine inhaltsbasierten Verfahren anwenden. Der
Fokus liegt vielmehr auf dem Bereitstellen von Empfehlungen von
Inhalten für Redakteure, die dann die Abfolgen der Sendeinhalte
bestimmen können. Die automatisierte Erstellung der Abfolgen
mit einer ggf. möglichen manuellen Korrektur erfolgt nicht. Oder
es wird eine Analyse von Programmzusatzinformationen vorgenommen,
um dem Nutzer einen verbesserten elektronischen Programmführer
(EPG) anzubieten, so dass die Nutzer sich selbst das Programm zusammenstellen
können.
-
Ausgehend
von diesem Stand der Technik liegt der vorliegenden Erfindung die
Aufgabe zugrunde, eine Vorrichtung und ein Verfahren für
eine automatisierte Bereitstellung einer Fernsehsequenz zu schaffen.
-
Diese
Aufgabe wird durch eine Vorrichtung nach Anspruch 1, ein Verfahren
nach Anspruch 22 und ein Computerprogramm nach Anspruch 23 gelöst.
-
Der
vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass ein automatisiertes
Bereitstellen einer Fernsehsequenz dadurch möglich ist,
dass eine Datenbankschnittstelle auf wenigstens eine Datenbank unter
Nutzung eines Suchbegriffs oder eines Medienbeispiels oder allgemeiner
einer Suchanfrage (Suchbegriffe und Medienbeispiele sind Beispiele
für Suchanfragen) zugreift und ferner ein Suchanfrageempfänger
ausgebildet ist, um die Datenbankschnittstelle anzusteuern. Über
die Datenbankschnittstelle wird für den Suchbegriff oder
das Medienbeispiel wenigstens ein Audioinhalt und wenigstens ein
davon getrennter Bildinhalt gewonnen, wobei der Audioinhalt mit
dem Bildinhalt in einem Fernsequenzaufbereitungsmodul kombiniert
wird, um die Fernsehsequenz zu erzeugen. Die Fernsehsequenz basiert
somit auf den Audioinhalt und den Bildinhalt und wird über
eine Ausgangsschnittstelle zu einem Fernsehsequenzverteiler ausgegeben.
-
Ein
typisches Ausführungsbeispiel der vorliegenden Erfindung
beschreibt beispielsweise einen interaktiven Fernsehdienst, der
ein Fernsehprogramm auf der Basis einfacher Suchbegriffe oder Schlüsselwörter
(keywords) erstellt, indem Multimedia-Daten, die unter Verwendung
der Schlüsselwörter mittels semantischen Indexierens
abgefragt oder gewonnen werden können, zeitlich plant werden. Das
zeitliche Planen bezieht sich dabei beispielsweise auf das zeitliche
Aneinanderfügen der einzelnen Inhalte, so dass sich die
Fernsehsequenz ergibt. Der Vorgang dieses Dienstes kann in drei
Schritte unterteilt werden:
- – Steuerung
interaktiver Dienste
- – Multimedia-Datenbeschaffung
- – Fernsehprogrammerstellung
-
Das
Initiieren (anfängliche Starten) des Dienstes kann mit
einem Satz spezieller Schlüsselwörter bewirkt
werden, die durch einen Administrator des Fernsehdienstes ausgewählt
werden. Die Steuerung interaktiver Dienste wird ermöglicht,
indem eine laufend aktualisierte Schlüsselwortliste verwendet wird,
die durch die Fernsehzuschauer über SMS und Mobiltelefon
oder andere mögliche Rückkanäle erstellt
wird. Außerdem können für weitere Schritte auch über
MMS oder Telefonanrufe empfangene Bilder oder empfangener Audioinhalt
der Zuschauer verwendet werden.
-
Die
Schlüsselwörter werden im Rahmen eines Themenprogramms
als Anfrage innerhalb von Multimedia-Datenbanken (Beschaffungssysteme) verwendet,
wobei die entsprechende Anfrage anhand von Schlüsselwörtern
zum Sammeln von Multimedia-Daten führt. Das Themenprogramm
stellt somit automatisch passend zu einem Thema Multimedia-Material
(Bild- und Audiomaterial) zusammen.
-
Die
Datenbanken oder Datenquellen können beispielsweise Musik-,
Bild- oder Videoinhaltsdatenbanken umfassen, die mit inhaltsbasierten
semantischen Beschreibungen angereichert sind, die mittels automatischer
Klassifikationsalgorithmen oder Verschlagwortungsalgorithmen erhalten
werden. Ferner können kollaborative Bild-Communities wie „Flickr” und
die kollaborative Wissensdatenbank „Wikipedia” mit
den erwähnten Schlüsselwörtern abgefragt
werden, um Bilder und Textinformationen einzuholen. Bei einer Anwendung
eines Sprache-Zu-Text-Erkennungssystems können je nach
gesprochenem Audioinhalt neue Schlüsselwörter
erzeugt werden. Außerdem können die Bilder und
der Audioinhalt des Zuschauers bei inhaltsbasierten Bild- und Audiosuchsystemen
dazu verwendet werden, zusätzliche Multimedia-Elemente
einzuholen.
-
Der
dritte Schritt ist der komplizierteste, und konzentriert sich auf
die Generierung von Fernsehdiensten, einschließlich der
zeitlichen Planung von Multimedia-Daten sowie der Aufbereitung (preparation)
des Inhalts. Aufbereitung bedeutet z. B. einen Entwurf für
visuelle und auditive Übergänge oder Textüberlagerungen
mit zusätzlichen Informationen zu erstellen. Input-Material
für die zeitliche Planung sind Bilder, Videos, Musik oder
sonstiger Audioinhalt, Textinformationen und Metadaten mit möglichen
Zuschaueridentifizierungen der Anwender, die für einen individuellen
Multimedia-Inhalt verantwortlich sind (da sie beispielswei se die
Schlüsselwörter geliefert hatten). Zur möglichen
Aufbereitung von Inhalt ist zunächst z. B. eine Text-Zu-Sprache-Umwandlung
von Textinformationen erforderlich.
-
Für
die zeitliche Planung von Musik, Videos und Bildern können
die ursprünglichen Schlüsselwörter dazu
verwendet werden, Medienelemente mit ähnlichen Schlüsselwörtern
gleichzeitig zu zeigen. Ein anspruchsvollerer Ansatz ist die inhaltsbasierte Klassifikation
spezieller semantischer Konzepte wie z. B. Stimmung für
alle Multimedia-Daten, bei dem die einzelnen Elemente gemäß ihrer
Stimmungsklassifikation arrangiert werden. Ferner wird ein automatischer
inhaltsbasierter Musiksegmentierungsalgorithmus dazu verwendet,
Refrain-, und Strophenteile eines Songs zu finden. Diese Informationen
werden dazu verwendet, die Stimmungswahrscheinlichkeiten in einzelnen
Segmenten von Songs zu analysieren, um die Songstruktur präzise
wiederzugeben sowie zum Zweck einer besseren Anpassung von geeigneten
Bildern. Die Segmentinformationen können auch dazu verwendet
werden, dieselben Bilder in jedem Refrain der Musik zu wiederholen.
Auf der Basis des beschriebenen Arbeitsablaufs wird eine Sequenz
von Medienelementen zusammengestellt.
-
Der
nächste Schritt konzentriert sich auf die Vorbereitung
der genauen zeitlichen Planung und auf Übergangseffekte.
Zur ausführlichen zeitlichen Planung kann ein Audioanalysealgorithmus
zur Taktschlagerfassung angewendet werden, um die einzelnen Taktschlagzeiten
zum Positionieren der Bilderübergänge zu diesen
spezifischen Zeitpunkten zu finden. Die Arten von Bildübergangseffekten
werden im Einklang mit vordefinierten Stimmungsprofilen behandelt. Übergänge
im ruhigen und melancholischen Stimmungsbereich werden üblicherweise übergeblendet
oder langsam ein- und ausgeblendet. In einem aggressiven und euphorischen
Bereich können harte Schnitte oder schnelle Ein- und Ausblendungen verwendet
werden. Die Aufbereitung von Inhalt umfasst auch einen Vorgang eines
Erfassens menschlicher Gesichter auf Bildern und ein entsprechendes Verarbeiten
dieser Bilder auf vordefi nierte Weise, z. B. Beseitigen derartiger
Bilder oder Überlagern der Gesichtsbereiche mit einem Schleier,
um Persönlichkeitsrechte zu schützen. Im Gegensatz
dazu können die Gesichtsbereiche bei Animationen und Zoom-Aufnahmen
explizit erscheinen.
-
Der
letzte Schritt bei der Aufbereitung des Programms kann beispielsweise
darin bestehen, Textinformationen in das Video einzuarbeiten, die
z. B. zusätzliche Informationen von Wikipedia oder Anwendernamen
von Besitzern eingeholter Multimedia-Elemente (z. B. bezüglich
einer CreativeCommons-Lizenz und der Attributbedingung) oder Werbung
umfassen können.
-
Die
verschiedenen Aspekte der Ausführungsbeispiele können
auch wie folgt beschrieben werden.
-
Ausführungsbeispiele
der vorliegenden Erfindung umfassen ein Verfahren und eine Vorrichtung,
die eine automatisierte und teilautomatisierte Erzeugung von Sendeabläufen
und eine automatisierte graphische und auditive Aufbereitung von
Inhalten für das Fernsehen und IPTV ermöglichen.
-
Die
Photo-, Video-, Audio- und Textinhalte, die in Ausführungsbeispielen
genutzt werden, können beispielsweise über eine
inhaltsbasierte Suche anhand von Bild/Audio/Videobeispielen in verfügbaren
Informationsquellen zusammengestellt werden. Ferner ist es möglich,
die Photo-, Video- und Audiotextinhalte über eine stichwort-basierte
Suche, beispielsweise unter Nutzung von Suchanfragen, in verfügbaren
Informationsquellen (Datenbanken) zusammenzustellen. Die stichwort-basierte
Suche kann zum Beispiel inhaltsbasiertes Analysieren und automatische
semantische Verschlagwortung (Indexierung) von Audiomaterial oder
Videomaterial umfassen.
-
Außerdem
umfassen Ausführungsbeispiele die Nutzung von dynamisch
zur Verfügung gestellten Inhalten (beispielsweise von Zuschauern
oder Nutzern) als dynamische Steuerinformation für die
Anpassung der Sendeabläufe sowie die Generierung von speziellen
Audio/Video-Inhalten auf der Basis der Zuschauer oder Nutzerinhalte.
Insbesondere um die Interaktion mit den Nutzern oder Zuschauern
zu verbessern, umfassen Ausführungsbeispiele das automatisierte
Registrieren und Verwalten von Nutzern, die dann beispielsweise
bei dem zuvor erwähnten Zurverfügungstellung von
Inhalten wieder erkannt werden können.
-
Neben
den zuvor erwähnten dynamischen Steuerinformationen, die
beispielsweise ebenfalls über die von den Zuschauern oder
Nutzern zur Verfügung gestellten Inhalten erzeugt werden
können, können auch statische Steuerinformationen
genutzt werden. Die statischen Steuerinformationen umfassen beispielsweise
anfängliche Mediendaten (Audio-, Bild-, Video- und Textinformationen),
Datenquellen, Stichworte oder ausgewählte Nutzer oder Zuschauer
oder Gruppen von registrierten Nutzern oder Zuschauern. Somit können
alle abgespeicherten Informationen (auch die registrierten Nutzer
oder Namen der Datenbanken) als statischen Steuerinformationen genutzt
werden. Den spezifischen Initialen statischen Steuerinformationen
können ferner bestimmte Services (Dienste) zugeordnet werden,
so dass ein individueller Sendungscharakter erzeugt wird. Beispielsweise
können feste Radioprogramme als Audiomaterial definiert
werden, zu dem automatisch Bildinhalte zusammengestellt werden oder
es können nur Bilder aus einer definierten Bildersammlung
genutzt werden.
-
Weitere
Ausführungsbeispiele umfassen die Nutzung der Fernsehsequenz
für das digitale Fernsehen in allen Ausbreitungsformen
(z. B. über Kabel oder Satellit oder als IPTV übers
Internet) als auch für kontinuierliche Videostreams (Videodatenstrom)
in Live und/oder vorproduzierender Form. Ausführungsbeispiele
liefern somit die Möglichkeit, Audio-, Photo- und Videoabfolgen
sowie passende Kombinationen daraus zu erstellen. Ferner können
passende Kombinationen mit Hilfe von Verfahren zur automatisierten
inhaltsbasierten Audio-, Bild- und Videoklassifikation und -suche
hergestellt werden.
-
Ferner
umfassen Ausführungsbeispiele eine inhaltsbasierte zeitliche
Segmentierung von Video- und Audiomaterial und die Nutzung dieser
Informationen zur Aufbereitung der Abfolgen (z. B. die Aufbereitung
der Übergänge bei crossmedialen Anordnungen).
Als Beispiel wäre dabei zu erwähnen, dass entsprechend
zu einer gegebenen Musik (z. B. eine ruhige oder melancholische
Musik) entsprechendes Bildmaterial zur Verfügung gestellt
wird, wobei ein Wechseln einer Musik mit einem Wechsel in dem Bildmaterial
einhergehen kann.
-
Außerdem
umfassen Ausführungsbeispiele das automatische inhaltsbasierte
Arrangieren von musikalischen Audioinhalten unter Verwendung von Informationen
aus der inhaltsbasierten zeitlichen Segmentierung anhand von Streaming-Bild-Inhalten, sowie
das automatische inhaltsbasierte Arrangieren von Bild- und Videoinhalten
unter Verwendung von Informationen aus der inhaltsbasierten zeitlichen Segmentierung
von musikalischen Audio-Streaming-Inhalten.
-
Ferner
umfassen Ausführungsbeispiele eine automatisierte visuelle
und auditive Aufbereitung der Medienabfolgen, die insbesondere in
Verbindung mit der Aufbereitung der Übergänge
(zwischen einzelnen Elementen) und den cross-medialen Anordnungen
erfolgen kann.
-
Weitere
Ausführungsbeispiele umfassen eine mögliche nachträgliche
manuelle Korrektur der vorgeschlagenen und erzeugten Sendeabläufe.
-
Ebenfalls
umfasst sind die Herstellung von Senderabläufen unter Benutzung
von lokal verfügbaren, collaborativ erstellten Datenquellen
(wie z. B. FLICKR.COM oder die Enzyklopädie
WIKIPEDIA) als auch öffentlich oder kommerziell
verfügbaren, streaming-basierten sowie dynamisch von Zu schauern
oder Nutzern zur Verfügung gestellten Audio-, Bild-, Video-
und Textinformationen.
-
Bei
weiteren Ausführungsbeispielen werden Photo-, Video- und
Audioinhalte unter Hilfe von Steuerinformationen gesucht, (z. B.
durch einen Suchbegriff, der eine bestimmte Region oder ein Land
bezeichnet) oder zusammengestellt und dann ggf. in Verbindung mit
einer Kartendarstellung in die Sendeabfolge integriert.
-
Um
beispielsweise Textinhalte, die aus dem Internet oder der WIKIPEDIA
Enzyklopädie erhalten werden, in die Sendeinhalte zu integrieren,
werden bei Ausführungsbeispielen eine Text-Zu-Sprache-Generierung
durchgeführt, um so die Textinformation in einen Audioinhalt
zu konvertieren. Die entsprechenden textuellen Informationsquellen
können allgemeine Datenbanken sein oder auch das Internet.
-
Wie
bereits erwähnt, umfassen Ausführungsbeispiele
ebenfalls die Nutzung von Suchbegriffen, die automatisch aus gesprochenen
oder gesungenen Audioinhalten gewonnen werden und genutzt werden,
um weitere dazu in Verbindung stehenden Mediendaten aus Datenbanken
abzufragen. Zum Beispiel können die Audioinhalte eines
Radiomoderators derart untersucht werden, dass dessen Inhalt mit
Bildquellen oder Bilddaten entsprechend ergänzt wird.
-
Die
Suchbegriffe können ferner aus Audio-, Bild- und Videoinhalten
durch eine Klassifikation von semantischen Inhalten oder Metadaten
oder durch eine Spracherkennung (Sprache-Zu-Text-Modul) gewonnen
werden. Die Audio-, Bild- und Videoinhalten können auch
Inhaltsdaten aufweisen, die für die Klassifikation genutzt
werden können.
-
Weitere
Ausführungsbeispiele umfassen eine Einblendung oder Einspielung
von kontextabhängigen Zusatzinformationen, die beispielsweise Werbeeinblendungen
oder Textinformationen umfassen können. Bezugnehmend auf
das oben erwähnte Bei spiel der Geoinformation können
so entsprechende Werbeinformationen, z. B: von Reiseveranstaltern in
die betreffende Region übertragen werden. Die Textinformationen
können beispielsweise Fakten über Städte,
Regionen oder anderen Inhalten des Programms sein.
-
Bei
weiteren Ausführungsbeispielen können Bild- oder
Bewegtbildinhalte mit Audioinhalten derart passend arrangiert oder
kombiniert werden, so dass sie eine gemeinsame Eigenschaft aufweisen,
wie beispielsweise gleiche oder ähnliche Stimmung oder Genre.
Dies kann durch eine automatische inhaltsbasierte Klassifizierung
der visuellen und auditiven Inhalte geschehen (z. B. Sonnenuntergangs-
oder Sonnenaufgangsstimmung zu entsprechenden melancholischen Klängen).
Das Arrangieren von Bild- und/oder Videoinhalten zu kontinuierlichen
oder Streaming-Audioinhalten geschieht somit automatisch und inhaltsbasiert.
-
Weitere
Ausführungsbeispiele umfassen die Generierung von kontinuierlichen
Bild- und Videostreamings durch eine automatische Inhalts- und Metadaten-basierte
Nutzung einer Photo/Video-Zusammenfassung aus einer Photosammlung
oder aus einzelnen oder aus vielen Videos mit einer anschließenden
Nutzung beim Arrangieren von Audioinhalten zu kontinuierlichen Bild-
oder Videoinhalten. Ebenso kann das Arrangieren von Audioinhalten
zu kontinuierlichen oder Streaming Bild- oder Videoinhalten ebenfalls
automatisch und inhaltsbasiert geschehen.
-
Beispielsweise
wird ein kontinuierlichen Audiostrom und eine Vielzahl von Bildinhalten
gewonnen, um die Fernsehsequenz durch ein Einblenden der Vielzahl
von Bildinhalten in den kontinuierlichen Audiostrom zu erhalten.
Oder anders herum wird bei einem weiteren Ausführungsbeispiel
eine Bildsequenz und eine Vielzahl von Audioinhalten zu gewinnen,
um die Fernsehsequenz durch ein Einblenden der Vielzahl von Audioinhalten
in die Bildsequenz zu erhalten.
-
Außerdem
umfassen Ausführungsbeispiele die Erstellung eines Themen-Sendungs-Services
mit beispielsweise textuellen Informationen, wobei das Thema beispielsweise
durch die von Nutzern oder Zuschauern als dynamische Steuerinformation
erhaltene Suchbegriffe oder in Form von statischen Steuerinformationen
definiert wird. Das so definierte Thema dient dazu, um aus einer
Bilddatenbank Bilder zu akquirieren, die dann durch ein automatisches
Arrangieren zu Audioinhalten kombiniert zusammengestellt werden
und mit passenden Audioinhalten zu einer Abfolge arrangiert werden.
Optional kann dabei wiederum eine visuelle und auditive Aufbereitung
der Medienabfolgen geschehen, die insbesondere über eine
Aufbereitung der Übergänge in den cross-medialen
Anordnungen umfasst.
-
Außerdem
umfassen Ausführungsbeispiele wie auch bereits festgestellt
die Nutzung einer Technologie zur Detektion von Gesichtern auf Bildern
und in Videos, um diese Inhalte gezielt auszuwählen oder zu
ignorieren (Schutz der Privatsphäre) oder die Gesichtsbereiche
hervorzuheben oder die Gesichtsbereiche zu verfälschen.
-
Ausführungsbeispiel
sind somit dahingehend vorteilhaft, dass die gezeigten Anreicherungsstrategien
und Servicekonzepte mit einer Fokussierung auf Gemeinsamkeiten,
zur Generierung von Fernsehsendungen so wenig Produktions- und Instandhaltungsaufwand
benötigen wie möglich. Das findet wiederum zu
enormen Kosteneinsparungen.
-
Bevorzugte
Ausführungsbeispiele der vorliegenden Erfindung werden
nachfolgend bezugnehmend auf die beiliegenden Zeichnungen näher
erläutert. Es zeigen:
-
1 eine
schematische Darstellung einer Vorrichtung zum Bereitstellen einer
Fernsehsequenz nach Ausführungsbeispielen der vorliegenden
Erfindung;
-
2 eine
schematische Darstellung mit weiteren Details gemäß weiterer
Ausführungsbeispiele;
-
3 ein
Flussdiagramm für eine automatische Generierung von Sendeabläufen
(Fernsehsequenz) gemäß Ausführungsbeispielen;
-
4a ein
Beispielresultat für eine inhaltsbasierte Bildabfrage mit
visuell ähnlichen Bildern;
-
4b ein
Beispielresultat von einem Algorithmus zu einer Liedstruktursegmentierung;
-
5 eine
Darstellung für eine Serverarchitektur, um interaktives
Fernsehen zu bereichern;
-
6a eine
Darstellung für eine interaktive Erzeugung einer Spielliste;
und
-
6b ein
Flusschart für einen thematischen AV-Generator.
-
Bevor
im Folgenden die vorliegende Erfindung anhand der Zeichnungen näher
erläutert wird, wird darauf hingewiesen, dass gleiche Elemente
in den Figuren mit den gleichen oder ähnlichen Bezugszeichen
versehen sind, und dass eine wiederholte Beschreibung dieser Elemente
weggelassen wird.
-
1 zeigt
ein erstes Ausführungsbeispiel für eine Vorrichtung 100 zum
Bereitstellen einer Fernsehsequenz 104. Die Vorrichtung 100 weist
eine Datenbankschnittstelle 110 zum Zugreifen auf wenigstens
eine Datenbank 200 unter Nutzung eines Suchbegriffs oder
Medienbeispiels 113 (oder einer allgemeinen Suchanfrage
oder eines BAVT-Suchbegriffs) auf. Ferner weist die Vorrichtung 100 einen
Suchanfrageempfänger 130 auf, der ausgebildet
ist, um die Datenbankschnittstelle 110 anzusteuern, um über
die Datenbankschnittstelle 110 für den Suchbegriff 113 wenigstens
einen Audioinhalt 122 und wenigstens einen davon getrennten
Bildinhalt 124 aus einer Datenbank 200 durch ein
Anfrage 121 zu gewinnen. Abgesehen von Suchbegriffen können
nämlich auch Medienbeispiele wie z. B. spezielles Bild-
oder Audiomaterial an eine Datenbank als Anfrage geschickt werden,
wobei die Datenbank als Antwort ähnliches Material (z.
B. Bild- und Audiomaterial in dem gleichen Genre) zurücksendet.
Ferner weist die Vorrichtung 100 ein Fernsehsequenzaufbereitungsmodul 140 zum
Kombinieren des getrennten Audioinhalts 122 und des Bildinhalts 124 auf,
um die Fernsequenz 104 basierend auf den Audioinhalt 122 und
den Bildinhalt 124 zu erzeugen. Schließlich weist
die Vorrichtung 100 eine Ausgangsschnittstelle 150 zum
Ausgeben der Fernsehsequenz 104 zu einem Fernsehsequenzverteiler 300 auf.
-
Der
Suchanfrageempfänger 130 kann optional mehrere
Eingänge aufweisen, um so Suchbegriffe, die sowohl statische
Steuerinformationen als auch dynamische Steuerinformationen umfassen,
zu empfangen. Ferner kann die Datenbank 200 mehrere Teile
oder voneinander getrennte Datenbanken aufweisen, so dass Audio-Daten 122 und
Bilddaten 124 von verschiedenen Datenbanken abgerufen werden.
Die Datenbankschnittstelle 110 kann dazu Abfragen 121 an
verschiedene Datenbanken 200 senden, wozu die Datenbankschnittstelle 110 beispielsweise
ein Interface zu dem Internet oder zu einem Telefonnetz (mobil oder
Festnetz) aufweist.
-
Die 2 zeigt
ein Ausführungsbeispiel, welches weitere optionale Komponenten
aufweist. Die Datenbank 200 weist optional drei Datenquellen auf,
wobei eine erste Datenquelle 210 eine öffentlich und
kommerziell verfügbare Bild/Audio/Video/Textdatenquelle
(BAVT = Bild/Audio/Video/Text = Bild und/oder Audio und/oder Video
und/oder Text) ist, eine zweite Datenquelle 220 ferner
optional eine Quelle für einen Audio/Videostrom darstellt
und eine dritte Datenquelle 230 eine Quelle für
lokale BAVT-Daten ist. Die Anfrage 121 kann dabei beispielsweise
Suchbegriffe für eine spezielle BAVT-Information aufweisen
und die Antwort der die Antwort der ersten Datenquelle 210 kann
dann – sofern vorhanden – angefragte BAVT-Daten
umfassen.
-
Die
Suchbegriffe 113 sind in dem Ausführungsbeispiel
der 2 in statische Steuerinformationen 113a und
dynamische Steuerinformationen 113b unterteilt. Die statischen
Steuerinformationen 113a umfassen beispielsweise Anfangsinhalte
(initiale Inhalte) oder dramaturgische Informationen. Die dynamischen
Steuerinformationen 113b können beispielsweise
von Zuschauern oder Nutzern eingegeben werden und BAVT-Informationen
(Material) umfassen und werden optional mittels MMS/SMS/E-Mail/Web-Formular
der Vorrichtung 100 zugeführt. Der Fernsehsequenzverteiler 300 umfasst
bei dem Ausführungsbeispiel der 2 zunächst
eine Einrichtung zur manuellen Korrektur 310, die die Fernsehsequenz 104 in
eine korrigierte Fernsehsequenz 105 umwandelt, die wiederum
in einer Einrichtung zur Aufbereitung von Übergängen
und Animationen 320 eingegeben wird, um schließlich daraus
den Sendeablauf 106 zu generieren.
-
Die
Vorrichtung 100 erzeugt somit automatisierte Abläufe
und Darstellungen und kann optional Methoden der inhaltsbasierten
Merkmalsextraktion sowie Klassifikation und Suche von Audio-, Bild-
und Videoinhalten nutzen.
-
3 zeigt
ein Ausführungsbeispiel für die automatische Generierung
von Sendeabläufen (der Fernsehsequenz 104), wobei
das Verfahren drei Bestandteile aufweist. Ein erster Bestandteil
ist dabei eine interaktive Kontrolle (der Suchanfrageempfänger 130 in
der 1 kann ein Teil davon sein), deren Anfangszustand
beispielsweise von einem Administrator durch Eingabe spezieller
Suchbegriffe eingestellt wird. Die Suchbegriffe, die von dem Administrator
zunächst eingestellt werden, können dann beispielsweise
durch Zuschauer oder Nutzer ständig verändert
oder erweitert werden. Beispielsweise können Nutzer über
SMS, Handy, Web-Formular, etc. weitere Suchbegriffe der interaktiven
Kontrolle zuführen. Optional ist es ferner möglich,
dass zu sätzliches BAVT-Material der interaktiven Kontrolle,
beispielsweise durch die Nutzer oder Zuschauer zugeführt wird.
-
Die
interaktive Kontrolle steuert dann eine Datenbeschaffung oder ein
Datenbeschaffungsmodul (z. B. die Datenbankschnittstelle 110 in 1), welches
beispielsweise eine Anfrage an Datenbanken 200 unter Nutzung
der Suchbegriffe 113 – sowohl der speziellen Suchbegriffe
des Administrators als auch der durch die Nutzer generierten Suchbegriffe – schickt.
Die Datenbanken 200 liefern als Antwort auf die Anfrage
BAVT-Material, welches von dem Datenbeschaffungsmodul beispielsweise
zunächst zwischengespeichert wird. Das Datenbeschaffungsmodul
kann auch sprachbasierter Suchbegriffe, die beispielsweise von einem
Nutzer über ein Mobiltelefon der interaktiven Kontrolle
zugeführt wurden, an ein Sprache-Zu-Text-Modul 114 weiterleiten,
welches unter Nutzung des sprachbasierten Suchbegriffs zusätzliche
Suchbegriffe in Form einer Textnachricht generiert und diese an
die Datenbanken 200 weiterleitet. Die Datenbank 200 schickt
wiederum basierend auf diese zusätzlichen Suchbegriffe
zusätzliches BAVT-Material an das Datenbeschaffungsmodul
zurück.
-
Das
BAVT-Material kann beispielsweise Musik, Bilder oder Videos aber
Textinformationen umfassen, die ihrerseits beispielsweise durch
Metadaten angereichert sein können und die eine Klassifizierung
hinsichtlich ihres Inhalts bieten. Beispiele für Datenbanken 200 sind
bildbasierte Datenbanken wie beispielsweise FLICKR oder auch textbasierte
Datenbanken wie beispielsweise die WIKIPEDIA Enzyklopädie umfassen.
-
Nach
der Datenbeschaffung erfolgt die Erzeugung des TV-Programms in dem
Fernsehsequenzaufbereitungsmodul 140, welches zum einen
die einzelnen Inhalte aneinander ordnet und zum anderen eine Vorbearbeitung
des Inhalts vornimmt. Das Fernsehsequenzaufbereitungsmodul 140 erstellt
beispielsweise Übergänge zwischen verschiedenen
Bildern oder verschiedenen Audiosequenzen. Optional ist es ebenfalls
möglich, dass die Datenbeschaffung textbasierter Daten
(wie beispielsweise von der WIKIPEDIA Enzyklopädie)
zunächst in ein Text-Zu-Sprache-Modul 112 sendet,
welches aus den textbasierten Dateninhalten ein Audiosignal erzeugt,
welches wiederum an das Fernsehsequenzaufbereitungsmodul 140 weitergeleitet
wird.
-
Bei
dem Aneinanderordnen von BAVT-Material in dem Fernsehsequenzaufbereitungsmodul 140 kann
beispielsweise BAVT-Material, welches zu ähnlichen Suchbegriffen
gefunden wurde, gruppiert werden und zeitlich nacheinander ausgegeben
werden. Optional ist es möglich, die Klassifizierung, die
beispielsweise über die Metadaten möglich ist,
zu nutzen, um z. B. BAVT-Material nach einem bestimmten Inhalt oder
einer Stimmung zu sortieren. Bei Musik kann ferner eine Chor- und
Vers-Unterteilung (Segmentierung) durchgeführt und dazu
passend mit Bildmaterial angereichert werden, ggf. durch Wiederholung
von Bildmaterial bei Wiederholungen von Chor. Dieses Kombinieren
von Bild- und Audioinhalten kann weiterhin so verfeinert werden,
dass bei der Segmentierung eine Audioanalyse durchgeführt
wird, um beispielsweise Takte oder einen Rhythmus zu detektieren.
Damit wird es ferner möglich entsprechend zu dem Takt oder
Rhythmus Bilder ein- oder auszublenden.
-
Die Übergänge
zwischen verschiedenen BAVT-Daten können entsprechend dem
Stimmungsprofil durchgeführt werden, so dass beispielsweise bei
einer ruhigen Stimmung weiche Übergänge gewählt
werden (langsames Ein- und Ausblenden von Bilder) und bei einer
aggressiven Stimmung harte Übergänge gewählt
werden. Schließlich kann das Fernsehsequenzaufbereitungsmodul 140 auch
eine Bearbeitung von menschlichen Gesichtern durchführen,
um beispielsweise die menschlichen Gesichter unkenntlich zu machen,
damit deren Privatsphäre gesichert bleibt. Als letzten
Schritt kann optional Textinformation in die Videos eingepasst werden.
Die Textinformation kann beispielsweise den Namen des Besitzers
des entsprechenden Materials oder aber auch Werbung oder weiteres
Informationsmaterial (beispielsweise von WIKIPEDIA)
aufweisen.
-
Datenquellen
können in zwei Gruppen eingeteilt werden. Erstens die Multimedia-Daten,
die durch die Zuschauer bereitgestellt werden, um die aktuelle Sendung
zu steuern. Diese Informationen können Bilder, Textmitteilungen
oder Sprachmitteilungen sein, die über Mobiltelefone oder
alternative über zur Verfügung stehende Rückkanäle
gesendet werden. Die Multimedia-Elemente können direkt
als ein Teil der Fernsehsendung oder als Keim-Medienelemente (seed
media items) innerhalb eines nachstehend beschriebenen Ähnlichkeitssuchvorganges
verwendet werden. Die zweite Gruppe von Datenquellen bedeutet ein
Integrieren von vom Anwender erstellten Daten von Internet-Plattformen
wie z. B. Flickr, Wikipedia oder blip.tv, die eine große
Bandbreite an öffentlich zugänglichen Multimedia-Informationen bieten.
-
Kollaborative
Filterverfahren können beispielsweise angewendet werden,
um TV-Inhaltsempfehlungen durch eine interaktive Rückkopplung
einer Vielzahl von Nutzern zu verbessern. Deshalb ist es vorteilhaft,
wenn Anwender der interaktiven Fernsehdienste z. B. bezüglich
der Art ihres Inputs in die Fernsehdienste überwacht werden,
so dass Anwenderprofils errichtet werden kann. Die Profile von Anwendern,
die an einem aktuellen interaktiven Fernsehdienst beteiligt sind,
können verglichen werden, um die Relevantesten herauszufiltern.
-
Auf
dem Gebiet der Bildanalyse sind zwei grundlegende Ansätze
relevant. Erstens ist dies eine inhaltsbasierte Bildsuche bzw. -wiedergewinnung (CBIR – Content-Based
Image Retrieval), wobei Bildbeispiele als Anfrage an eine Bilddatenbank
verwendet werden. Daraufhin werden ähnliche Bilder auf
der Basis von grundlegenden Merkmalen (wie z. B. Farbhistogrammen
oder Raumfrequenzinformationen) zurückgibt.
-
Die 4a zeigt
ein typisches Ergebnis des CBIR-Algorithmus für eine inhaltsbasierte
Bildabfrage bei einer Datenbank unter Nutzung eines Beispielbildes
z. B. 124a. Als Resultat liefert die Datenbank 200 beispielsweise
fünf Bilder 124a, 124b, 124c, 124d und 124e,
wobei die Bilder 124 visuell ähnliche Motive (verschiedene
Sonnenuntergänge) zeigen. Dementsprechend können
die visuell ähnlichen Bilder, wie sie beispielsweise in
der 4a gezeigt sind, genutzt werden, um eine entsprechende
musikalische Stimmung (ruhig oder melancholisch) bildlich zu begleiten.
Ob eine Musik eher ruhig oder aggressiv ist, kann beispielsweise
anhand einer Untersuchung des Taktes/Rhythmus (als Teil der Segmentierung)
geschehen.
-
Der
zweite Ansatz beruht auf einer Klassifikation von Bildinhalten.
Dieser Ansatz fasst verschiedene Mustererkennungs- und -klassifikationstechniken
(z. B. Naturszenenklassifikation oder Objekterkennung) zusammen.
Die Ergebnisse bestehen aus semantischen Beschreibungen des gesamten
Bildes, z. B. Landschaft, Stadt, Menschen, oder Beschreibungen von
Teilen des Bildes, z. B. Gras, Wald, Strand, Meer, oder spezifischen
Kommentaren zu konkreten Objekten, z. B. Auto, Pferd oder Eiffelturm.
-
Semantische
Audioanalyse bezieht sich auf die Anreicherung von digitalisierten
Audioaufzeichnungen mit deskriptiven Metadatenmarkierungen, die
eine verbesserte Datenbanksuche oder Weiterverarbeitung ermöglichen.
Heutzutage ist eine Metadatenbeschreibung von Audio meist durch
eine katalogorientierte Klassifikation gegeben. Ungünstigerweise
ist diese Markierung gemäß vordefinierten Kategorien
umständlich und zeitaufwändig. Eine automatische
Generierung von inhaltsbasierten Metadaten verspricht eine kosteneffiziente,
skalierbare Markierung, um robuste und effiziente Ergebnisse für
realitätsnahe Anwendungen zu liefern. Bezüglich
einer Audiowiedergewinnung anhand einer Schlüsselwortsuche
sind die interessantesten Eigenschaften eines Musikstücks
sein Genre und seine Stimmung. Die in Anwenderstu dien ermittelten
anerkanntesten musikalischen Stile und Stimmungscharakteristika
können unter Verwendung von Datengewinnungs- und Statistikverfahren
in einem überwachten Mustererkennungssystem automatisch
klassifiziert werden. Andere nützliche Eigenschaften wie
z. B. das Tempo, die Taktart und das Beat-Schema können
auf zuverlässige Weise ermittelt werden. Der Algorithmus
zur Analyse zeitbezogener Informationen kann zur automatischen Generierung
von Bildsequenzen im Einklang mit begleitender Musik genutzt werden.
Ferner stellt eine Segmentierung der Songstruktur eine wichtige
Voraussetzung dar, um Veränderungen des Genres oder der
Stimmung innerhalb eines Songs zu berücksichtigen.
-
4b zeigt
das Resultat einer Struktursegmentierung für ein Lied,
wobei Segmente ein Label C tragen, wenn sie als Refrain (Chor) identifiziert
wurden. Insgesamt sind in der 4b neun
Segmente 122a bis 122i gezeigt, wobei das zweite
Segment 122b, das vierte Segment 122d, und das
achte Segment 122h als ein Refrain identifiziert wurden.
Die verbleibenden Segmente, das heißt das erste Segment 122a,
das dritte Segment 122c, das fünfte bis siebte
Segment 122e–g und das neunte Segment 122i weisen
keinen Refrain auf, wobei jedoch diese Segmente entsprechen des
Rhythmus ebenfalls eine andere Klassifizierung aufweisen können.
Die oben erwähnte Klassifizierung hinsichtlich des Rhythmus kann
beispielsweise durch ein Analysieren der Längen der Segmente
geschehen (z. B. längerer Abschnitte deuten eher auf ruhige
Musik hin).
-
Eine
effiziente Art und Weise, zusätzliche Musikinhalte in einem
Stream (Fernsehsequenz 104) einzubetten, ist für
den Fall, dass keine semantischen Markierungen zur Verfügung
stehen, die inhaltsbasierte Musikabfrage von ähnlicher
Musik. Die Bestimmung von Ähnlichkeitsbeziehungen zwischen einem
Anfragesong und einem größeren Songkatalog kann
relevante Spiellisten (Playlists) liefern. Während das
System durch eine Modellierung von Anwenderpräferenzen
und eine Integration von Rückkopplungen bezüglich
der Relevanz (Re levance-Feedback) erweiterten wird, konnten die
Empfehlungsqualität deutlich verbessert werden. Die Rückkopplung
kann beispielsweise genutzt werden, um derartige Playlists sukzessiv
anzupassen.
-
Die
Anwendung inhaltsbasierter Musikidentifizierung über einen
Anruf (z. B. eines Mobiltelefons), bei dem das Mobiltelefon beispielsweise
nahe an einen Lautsprecher gehalten wird, bietet weitere Möglichkeiten
der Interaktion.
-
Zusätzlich
zu einer reinen Bild- oder reinen Audioanalyse kann noch eine multimodale
Analyse vorgenommen werden, wobei ein multimodaler oder modusübergreifender
Analysevorgang Audio- und visuelle Medien umfasst. Eine typische
multimodale Analyseanwendung ist ein Musikabspielgerät,
das Fotos für Visualisierungen verwendet. Der Kombinationsaspekt
der Modalität könnten die Musik-und-Bild-Stimmung
oder emotionale Wirkungen sein. Die Musikvisualisierung kann auch
mit Anwendertests ausgewertet werden, um die Anwenderwahrnehmung
zu messen. Die emotionsbasierte Kombination von Musik und Fotos
kann mit einer Visualisierung durch konventionelle Media Player und/oder
einer Diashow mit zufälligen Fotos verglichen werden. Der
Anwendertest offenbart ein intensiviertes Anwendererlebnis und eine
stärkere Akzeptanz der stimmungsbasierten Kombination von
Musik und Fotos. Deshalb sollte eine modusübergreifende Anwendung
von Multimedia-Elementen auf die Produktion von Fernsehsendungen
angewendet werden, die das beste Anwendererlebnis mit sich bringt, statt
Audio- und visuelle Daten einzeln zu verarbeiten.
-
Die
Anreicherung des interaktiven TV-Dienstes kann verwirklicht werden,
indem Serverkomponenten in einer digitalen TV-Playout-Umgebung entwickelt
werden. Der Kern der Architektur ist ein Streaming-orientierter
Datenaustausch zwischen Kernmodulen, z. B. ein MPEG-2-Transport-Stream-Multiplexer,
ein Videocodierer und Objektkarussell-Generierungseinrichtungen.
Ferner steuert ein Inhalts-, Zeitplanungs- und Administrationsserver
das gesamte System und die Interaktion zwischen den Komponenten.
-
5 zeigt
ein weiteres Ausführungsbeispiel, bei dem der Suchanfrageempfänger 130 beispielsweise
vier Module und das Fernsehsequenzaufbereitungsmodul 140 zwei
Untermodule aufweist. Im Detail weist bei diesem Ausführungsbeispiel
der Suchanfrageempfänger 130 ein Nachrichteneingangsmodul 132,
ein Nutzerverwaltungsmodul 134, ein Filtermodul für
registrierte Nutzer 136 und ein Medienakquirierungsmodul 138 auf.
Das Fernsehsequenzaufbereitungsmodul 140 umfasst als Untermodule
zunächst ein inhaltsbasiertes Medienanalysemodul 142 und
ein Medienanordnungs- und Vorbereitungsmodul oder Medienprozessierungsmodul 144.
Medienprozessierung umfasst beispielsweise ein Scheduling (zeitliches
planen oder aneinander ordnen) und eine Vorverarbeitung. Ferner
weist der Fernsehsequenzverteiler 300 einen digitalen TV-VideoEncoder 330 und
einen digitalen TV-Multiplexer 340 auf.
-
Über
das Nachrichteneingangsmodul 132 können somit
Nutzer Nachrichten an die Vorrichtung 100 senden, wobei
die Nachrichten beispielsweise mittels SMS, MMS, E-Mail oder Web-Formular
versandt werden können. Die Nachrichten können
beispielsweise Suchbegriffe 113 aufweisen, die dann an das
Medienakquirierungsmodul 138 gesendet werden. Gleichzeitig
kann das Nutzermanagementmodul 134 die eingegangenen Nachrichten
bezüglich der Absender analysieren und feststellen, ob
die Nachricht beispielsweise von einem registrierten Nutzer stammen.
Optional kann das Filtermodul 136 die Nachricht danach
gewichten, ob der Nutzer oder der Absender der Nachricht ein registrierter
Nutzer ist oder nicht. Für registrierte Nutzer kann beispielsweise
der Suchbegriff 113 direkt genutzt werden, um eine Akquirierung
der Mediendaten mittels des Medienakquirierungsmodul 138 durchzuführen.
Für nichtregistrierte Nutzer kann beispielsweise eine Mindestanzahl
von Nutzern erforderlich sein, bevor der Suchbegriff 113 für
eine Medienakquirierung akzeptiert wird. Alternativ können
nichtregistrierte Nutzer lediglich an Abstimmungen (Voting) teilnehmen – nicht
jedoch eigene Suchbegriffe 113 generieren.
-
Nachdem
die Mediendaten durch das Akquirierungsmodul 138 von einer
Datenbank abgefragt wurden (in dem Ausführungsbeispiel
der 5 nicht gezeigt) erfolgt in dem inhaltsbasierten
Medienanalysemodul 142 die oben beschriebene Untersuchung hinsichtlich
des Inhalts der Mediendaten, wobei die Mediendaten sowohl Bildinhalte 124 als
auch Audioinhalte 122 umfassen können. In dem
Modul zum Erstellen der Senderabläufe 144 (Medienprozessierungsmodul)
erfolgt dann eine entsprechende Anpassung sowohl der Audio- und
Videodaten und insbesondere eine Aufbereitung der entsprechenden Übergänge
zwischen verschiedenen Daten. Die so erhaltene Fernsequenz 104 wird
dann in den digitalen TV-Encoder 330 eingegeben, der ein
interaktives TV-Programm erzeugt, welches anschließend
in einen digitalen TV-Multiplexer 340 eingegeben wird. Das
so erhaltene interaktive TV-Programm kann mit anderen TV-Programmen
aus anderen Quellen (beispielsweise ein Programm 1 bis ein TV-Programm
n kombiniert und beispielsweise in ein digitales TV-Netzwerk (z.
B. Kabel) eingespeist werden.
-
Somit
sind bei Ausführungsbeispiele für die Anreicherung
von TV-Programmen oder TV-Diensten spezielle Module zur Medienakquirierung,
Multimedia-Analyse und zum kollaborativen Filtern integriert, welche
wie folgt zusammengefasst werden können. Die gezeigte Verarbeitungskette
zeigt einen abstrakten Arbeitsablauf für interaktive TV-Generierungsdienste,
die die Handhabung von Nutzer-Mitteilungen, die über Mobiltelefone
oder andere Rückkanäle wie z. B. Email übermittelt
werden, umfasst. Die Mitteilungen können wie oben beschrieben
gefiltert werden, damit registrierte Anwender das kollaborative Filtermodul,
das nach übergreifenden Interessen bezüglich anderer
registrierter Anwender sucht, in Gang setzen bzw. beeinflussen können.
Bei dem nächsten Schritt wird eine Medienakquirierung vorgenommen,
falls sie für den ausgewählten Dienst benötigt wird.
Danach verarbeitet das inhaltsbasierte Analysemodul Audio-, Bild-
und Videodaten in Bezug auf semantische Indizes und Ähnlichkeit.
Das letzte Modul der Anreicherungskette übernimmt die zeitliche
Planung und Aufbereitung von Multimedia-Elementen ebenfalls unter
Verwendung von inhaltsbasierten Analyseverfahren. Der Arbeitsablauf
kann je nach der Art der Anwendung unterschiedlich sein.
-
Die
Anreicherungsstrategien für interaktive Fernsehdienste
können wie folgt beschrieben werden. Auf der Basis der
vorab definierten Systemarchitektur und der gezeigten inhaltsbasierten
und kollaborativen Filterverfahren sind viele Strategien zur Anreicherung
von interaktiven Diensten (Erstellung der Fernsehsequenz 104)
möglich.
-
Beispielsweise
können Textmitteilungen von Anwendern nach Schlüsselwörtern
analysiert werden, um passende Multimedia-Elemente in Multimedia-Datenbanken
zu finden, die mit vom Anwender oder automatisch erstellten Kommentaren
versehen sind, um diesen Inhalt in die Sendung zu integrieren.
-
Es
können ebenfalls Multimedia-Mitteilungen von Anwendern
als Anfrage bei inhaltsbasierten Wiedergewinnungssystemen (Abfragesystem
oder sogenannte retrieval systems) verwendet werden, um ähnliche
Multimedia-Elemente für die Fernsehsequenz zu erhalten.
-
Ferner
kann der Audioinhalt oder gesprochene Sprache von Anwendern nach
Schlüsselwörtern oder passenden Musikstücken
analysiert werden. Die Schlüsselwörter und Songtitel
können beispielsweise dazu verwendet werden, um Multimedia-Elemente
abzufragen.
-
Eine
Anwendergruppe könnte beispielsweise ferngesteuert eine
intelligente Playliste erzeugen, um Videoclips oder Musik anhand
von Nutzerrückkopplung bezüglich der Relevanz
gesteuert zu steuern.
-
Die
so zusammengetragenen Medien (BAVT-Material) kann automatisch modusübergreifend
zeitlich geplant und aufbereitet werden, um den Nutzern/Zuschauern
ein optimales Ergebnis zu bieten.
-
Im
Anschluss an die beschriebenen Anreicherungsstrategien sind mehrere
konkrete Dienstszenarios möglich. Beispielhaft werden die
Dienste: Intelligent Playlist Generator (IPG, Intelligente Spiellisten-Erstellungseinrichtung)
und Theme Broadcast Generator (TBG, Themensendungserstellungseinrichtung
oder thematischer AV-Generator) ausführlich beschrieben.
-
Die 6a zeigt
ein Flussdiagramm zur Erzeugung einer Spielliste und deren Anpassung.
Dabei wird in einem ersten Schritt 610 zunächst
von einem Nutzer (z. B. ein registrierter Nutzer) ein Lied eingereicht
oder bereitgestellt, welches beispielsweise einen Startwert in der
Spielliste 620 darstellt. Basierend auf diesem Lied erstellt
die Vorrichtung beispielsweise eine Liste ähnlicher Titel,
die dann abgespielt werden können. In einem weiteren Schritt 630 erfolgt
eine Rückkopplung durch andere Nutzer, die beispielsweise über
eine Abstimmung oder Voting die entsprechend gefundenen Titel bewerten
und somit eine Rangfolge in der Spielliste erzeugen. Durch ein ständiges
Ersetzen der am schlechtest bewerteten Titel kann somit eine Spielliste
sukzessiv verbessert und adaptiert werden.
-
Der
IPG-Dienst beschreibt an dem Beispiel der Musik einen interaktiven
Dienst für eine dynamische Playlist-Erstellung. Das grundlegende
Konzept kann auch als Diashow oder in Kombination als Musik/Diashow-Dienst
auf den Bildbereich angewendet werden.
-
Das
oben schematisch gezeigte Konzept des IPG-Dienstes kann wie folgt
weiter konkretisiert werden. Um den Dienst zu beginnen, stellt ein
Anwender oder der Administrator der Dienste einen so genannten Keimsong
(seed song) ein, der durch einen Musikgewinnungsalgorithmus verwendet
wird. Der Musikgewinnungsalgorithmus durchsucht eine Musikdatenbank,
um eine erste Playliste von ähnlichen Songs zu erhalten.
Im weiteren Verlauf des Dienstes wird die Playliste länger
und verändert sich. Die Bereitstellung (submission) eines
derartigen Songs kann anhand des Songtitels über eine Textmitteilung-
oder über eine Mobiltelefon-Musikidentifikation gehandhabt
werden. Der identifizierte Song wird an den IPG geliefert. Nach
der Initialisierung des Dienstes können Anwender eine Rückmeldung über aktuell
gespielte Songs abgeben (z. B. ein Abstimmen). Ein Relevanz-Feedback-Algorithmus
profitiert von der kontinuierlichen Anwenderrückmeldung
und passt die Playliste an. Im schlimmsten Fall einer massenhaften
Ablehnung wird der derzeit gespielte Song angehalten, und es wird
ein alternativer Song gewählt. Die Abstimmungsergebnisse
können auf dem Bildschirm gezeigt werden, um das Anwendererlebnis
zu erweitern. Neben dem Abstimmungsansatz können zusätzliche
Songs zum Zweck einer direkteren Steuerung der IPG anhand mehrerer
Keimsongs und Playlist-Aggregationsalgorithmen unterbreitet werden.
Dieses Verfahren kann auf einen Dienst, der einem Multiplayer-Spiel ähnelt,
ausgedehnt werden: „Finde und unterbreite verschiedene
Songs eines speziellen Musikgenres, bis die IPG dein Genre spielt”.
Alternativ dazu kann das kollaborative Filtermodul dazu befähigt
werden, bereits vorhandene Musikpräferenzen von registrierten
Anwendern mit einzubeziehen.
-
Bezüglich
der Musik/Diashow-Version dieses Dienstes werden zusätzliche
Techniken zum Verschmelzen von Audio- und visuellem Inhalt, z. B. Stimmungsklassifikation,
angewendet. Ferner wird eine Audio-Beat-Analyse angewendet, um Bilder
genau bei Musik-Beats zu wechseln. Es wird eine Segmentierung der
Songstruktur angewendet, um dieselben Bilder innerhalb jedes Refrains
eines Songs zu wiederholen.
-
Im
Prinzip ist der Abstimmungsansatz für eine Masseninteraktion
denkbar, während der Unterbreitungsansatz (d. h. jeder
Nutzer kann selbst Material bereitstellen) bei einer begrenzten
Anzahl von Anwendern verwendet werden sollte.
-
Die 6b zeigt
ein Flussdiagramm für einen thematischen AV-Generator (TBG),
der eine Sendung automatisch generiert und bei dem wiederum in einem
ersten Schritt 710 ein Nutzer beispielsweise einen Suchbegriff
einreicht. In einem zweiten Schritt 720 wird der Suchbegriff
verwendet, um beispielsweise eine Datenbank abzufragen, wobei in
einem dritten Schritt 730 multimediale Daten erworben werden,
und in einem vierten Schritt 740 optional wissensbasierte
Datenbanken abgefragt werden. Die wissensbasierte Datenbankabfrage
liefert somit einen Text, der in einem sechsten Schritt 760 in
Sprache konvertiert werden kann und für ein mediales Aneinanderordnen
zur Verfügung steht. In einem fünften Schritt 750 werden
zum einen die multimedialen Daten mit den zu Sprache konvertierten
Textinformationen kombiniert und aneinander angeordnet, wobei die Übergänge
in einem siebten Schritt 770 entsprechend angepasst werden
können. In einem achten Schritt 780 können
die multimedialen Daten mit relevanten Nutzerinformationsdaten versehen
werden. Das so erhaltene Material wird schließlich in einem letzten
Schritt 790 ausgegeben bzw. dem Fernsehsequenzverteiler 300 zur
Verfügung gestellt.
-
Der
TBG-Dienst beschreibt somit einen interaktiven Fernsehdienst, der
eine Fernsehsendung auf der Basis eines verfügbaren Multimedia-Inhalts,
der anhand einer Schlüsselwortsuche zusammengestellt wird,
beruht. Der Dienst kann auch wie folgt detailliert beschrieben werden.
Anfängliche werden Schlüsselwörter für
ein spezielles Thema, z. B. „Neuseeland”, bereitgestellt.
Die anfänglichen Schlüsselwörter können
seitens eines vorab registrierten Anwenders über eine Textmitteilung
oder einen Dienstadministrator eingestellt werden. Unter Einschluss
dieser Schlüsselwörter wird eine Multimedia-Suche
auf verschiedenen Multimedia- Plattformen, z. B. Flickr.com, durchgeführt,
um einen anfänglichen Inhalt für die TBG zu gewinnen.
Neben dem Multimedia-Inhalt werden Wissensdatenbanken wie Wikipedia.org nach
Textinhalt durchsucht, der mit einer Text-Zu-Sprache-Synthese als
Audioinhalt verwendet werden kann. Zusätzlicher Musikinhalt
kann z. B. anhand einer Stimmungsklassifikation der eingeholten
Bilder und einer stimmungsbasierten Suche in markierten oder semantischen
indizierten Musikdatenbanken ausgewählt werden.
-
Durch
Kombinieren und zeitliches Planen eingeholter und generierter Multimedia-Daten
kann eine Themensendung ohne jegliche Produktionskosten, mit Ausnahme
möglicher Lizenzgebühren, generiert werden. Der
letzte Schritt konzentriert sich auf den Entwurf von Übergangseffekten,
z. B. zwischen Bildern. Deshalb können auch die oben beschriebene
Stimmungsklassifikation sowie vordefinierte Übergänge
bei Stimmungsprofilen angewendet werden, z. B. ruhig und melancholisch,
die sich für sanfte Überblendungen eignen.
-
Während
der anfänglich eingeholte Inhalt gesendet wird, können
Anwender Textmitteilungen mit zusätzlichen, zum Thema passenden
Schlüsselwörtern senden, für das Beispiel „Neuseeland” z.
B. „Milford Sound, Queens Town, Abel Tasman”.
Diese interaktiv bereitgestellten Schlüsselwörter
reichern die ursprüngliche Themensendung um zusätzlichen
Multimedia-Inhalt an, der dynamisch integriert wird. Um Anwender
zu ermutigen, an dem TBG-Dienst teilzunehmen, können in
der Sendung Spitznamen oder Bilder des Anwenders zusammen mit dem
Inhalt, für den der Anwender verantwortlich ist, gezeigt
werden.
-
Ausführungsbeispiele
der vorliegenden Erfindung sind somit insbesondere anwendbar für
die automatisierte Generierung von TV-Sendeinhalten, die beispielsweise
in lokalen TV-Kabelnetzen oder Kabelkopfstationen, die ein lokales
TV-Programm anbieten, genutzt werden. Besonders interessant sind
dabei Anwendungen in Bereiche, wo in kurzer Zeit bei begrenzten
finanziellen Ressourcen ein abwechslungsreiches TV-Angebot zur Verfügung
gestellt werden soll, jedoch kaum Ressourcen für eine Inhaltspflege
zur Verfügung stehen. Das angebotene TV-Programm kann beispielsweise
zur Unterhaltung, aber auch zu Informationszwecken genutzt werden.
-
Für
lokale Fernsehangebote eröffnen sich durch die Ausführungsbeispiele
auch Möglichkeiten, ungenutzte Sendezeiten mit lokal interessanten
Inhalten und ggf. von Nutzern generierten Inhalten zu füllen,
in den beispielsweise Photoaufnahmen von lokalen Veranstaltungen
und ggf. Musik von lokalen Künstlern oder passend zur Musik
eines regionalen Radiosenders Bildmaterial durch das automatische Verfahren
entsprechend der Stimmung arrangiert werden.
-
Weitere
Anwendungen ergeben sich beispielsweise auch bei der Produktion
von Inhalten für das mobile Fernsehen, bei dem aktuell
auch Radioprogramme als Fernsehen übertragen werden und einfach
Bilder von CD-Cover im Videobild angezeigt werden. Hier könnten
automatisch zur Musik ggf. rhythmisch und stimmungsgemäß passende
Bilder aus einem Bilderpool (Datenbank) angezeigt werden. Durch
die Abwechslung der Inhalte und die automatische Auswahl kann ein
deutlicher Mehrwert mit wenig Aufwand erreicht werden. Ausführungsbeispiele umfassen
ebenso die Möglichkeit lokale Communities mit Hilfe der
zuvor genannten Mittel zu fördern.
-
Die
Einbindung in diesem Bereich kann als Modul realisiert werden, welche
beispielsweise Content-Management-Systeme für das sogenannte Play-Out
von mobilem Fernsehen entwickeln und einreichen.
-
Ausführungsbeispiele
umfassen ebenfalls das Erstellen eines Videostreams und das anschließende Übertragung
des Videostreams an eine Vielzahl von Nutzern/Zuschauern, ohne dass
die Nutzer notwendigerweise auf die Erstellung des Videostreams
Einfluss nehmen (d. h. nicht interaktiv). Das kann beispielsweise
für eine regional abgrenzte Region geschehen (z. B. eine
Stadt oder eine Versorgungsregion eines Kabelproviders).
-
Die
erfolgreichsten interaktiven TV-Anwendungen umfassen Fernsehdienste
unter Nutzung Mobiler Nachrichtendienste wie beispielsweise SMS-Chats.
Ausführungsbeispiele liefern darüber hinaus neuartige
Ansätze zur Anreicherung von mobilen Nachrichtenmitteilungsdiensten
unter Verwendung von inhaltsbasierten und kollaborativen Filterverfahren.
Als Beispiel ist ein Inhalts- und Playout-Server offenbart, der
zum Integrieren von interaktiven Fernsehdiensten in digitale TV-Netze
verwendet werden kann. Ferner sind Developed-Content-basierte Analysealgorithmen
beschrieben, die in der Lage sind, die Anwendererfahrung von mobilen Mitteilungsübermittlungsdiensten
anzureichern sowie Gelegenheiten für neuartige Dienste
mit geringeren Dienstproduktionskosten anzubieten. Die neuen Ansätze
konzentrieren sich auf eine automatisierte Akquirierung von Multimedia-Inhalt
sowie auf eine intelligente zeitliche Inhaltsplanung und – aufbereitung.
-
Zusammenfassend
können Ausführungsbeispiele wie folgt charakterisiert
werden. Sie umfassen eine Anreicherung von interaktiven Fernsehdiensten mit
kollaborativen und inhaltsbasierten Filterverfahren. Es ist ein
Ansatz zur Anreicherung von mobilen Nachrichtenübermittlungsdiensten
beschrieben, der inhaltsbasierte und kollaborative Filterverfahren
aufweist. Die Inhalts- und Playout-Systemarchitektur ist beschrieben.
Die inhaltsbasierten Analysealgorithmen und ihre mögliche
Verwendung bei Anreicherungskomponenten sind offenbart. Es wurden
zwei Dienstkonzepte detailliert beschrieben, um die Anwendung der
inhaltsbasierten Algorithmen bei einem Prozess einer Generierung
von interaktiven Fernsehsendungen zu erläutern. Unter Zusammenfassung der
Ergebnisse wurde ein Basissystem für prototypische interaktive
Dienste verwirklicht.
-
Somit
beschreiben Ausführungsbeispiele insbesondere ein kollaboratives
und ein inhaltsbasiertes Filtern sowie ein Anreichern von interaktiven Fernsehdiensten.
-
Insbesondere
wird darauf hingewiesen, dass abhängig von den Gegebenheiten
das erfindungsgemäße Schema auch in Software implementiert
sein kann. Die Implementierung kann auf einem digitalen Speichermedium,
insbesondere einer Diskette oder einer CD mit elektronisch auslesbaren
Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem
zusammenwirken können, dass das entsprechende Verfahren
ausgeführt wird. Allgemein besteht die Erfindung somit
auch in einem Computerprogrammprodukt mit auf einem maschinenlesbaren
Träger gespeicherten Programmcode zur Durchführung
des erfindungsgemäßen Verfahrens, wenn das Computerprogrammprodukt
auf einem Rechner abläuft. In anderen Worten ausgedrückt kann
die Erfindung somit als ein Computerprogramm mit einem Programmcode
zur Durchführung des Verfahrens realisiert werden, wenn
das Computerprogramm auf einem Computer abläuft.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- - WO 2002/032144 [0005]
- - US 2008155624 [0005]
- - JP 2007209023 [0005]
- - JP 2007142729 [0005]
- - GB 2444284 [0005]
-
Zitierte Nicht-Patentliteratur
-
- - FLICKR.COM [0027]
- - Enzyklopädie WIKIPEDIA [0027]
- - WIKIPEDIA Enzyklopädie [0056]
- - WIKIPEDIA Enzyklopädie [0057]
- - WIKIPEDIA [0059]
- - Flickr.com [0088]
- - Wikipedia.org [0088]