DE602004003497T2

DE602004003497T2 - System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen

Info

Publication number: DE602004003497T2
Application number: DE602004003497T
Authority: DE
Inventors: Lalitha Briarcliff Manor AGNIHOTRI; Nevenka Briarcliff Manor DIMITROVA
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-06-30
Filing date: 2004-06-28
Publication date: 2007-09-13
Anticipated expiration: 2024-06-29
Also published as: US7738778B2; KR20060027377A; US20060165379A1; KR101150748B1; WO2005001715A1; DE602004003497D1; ES2277260T3; EP1642212A1; ATE347143T1; EP1642212B1; JP2007519053A

Description

Die vorliegende Erfindung betrifft im Allgemeinen die Zusammenfassung von Video- oder Bewegungsbildern, und insbesondere ein System und ein Verfahren zur Bereitstellung einer Multimedia-Zusammenfassung (Bild/Ton/Text) einer Nachrichtensendung, um es einem Benutzer zu ermöglichen, die Sendung besser zu überfliegen und über ihr Ansehen zu entscheiden.
Die Menge an Videoinhalten erweitert sich mit einer immer zunehmenden Geschwindigkeit. Gleichzeitig nimmt die verfügbare Zeit für Seher, die gesamten erwünschten Videoinhalte zu konsumieren oder auf andere Weise zu sehen, ab. Durch die gesteigerte Menge an Videoinhalten in Kopplung mit der abnehmenden Zeit, die zum Sehen der Videoinhalte verfügbar ist, wird es für Seher zunehmend problematisch, alle potentiell erwünschten Inhalte vollständig zu sehen. Demgemäß sind Seher hinsichtlich der Videoinhalte, die sie zum Ansehen auswählen, zunehmend wählerisch. Um den Benutzerforderungen entgegenzukommen, wurden Techniken entwickelt, um eine Zusammenfassung des Videos bereitzustellen, die auf irgendeine Weise für das gesamte Video kennzeichnend ist. Der typische Zweck zur Erzeugung einer Videozusammenfassung ist, eine kompakte Darstellung des ursprünglichen Videos für ein anschließendes Ansehen zu erhalten.
Auf dem Gebiet der automatisierten Berichtsegmentierung und -identifizierung werden ständig Fortschritte gemacht, wie durch den BNE (Broadcast News Editor) und den BNN (Broadcast News Navigator) der MITRE Corporation (Andrew Merlino, Daryl Morey, und Mark Maybury, MITRE Corporation, Bedford MA, Broadcast News Navigation using Story Segmentation, ACM Multimedia Conference Proceeding, 1997, Seite 381 bis 389) bewiesen wird. Unter Verwendung des BNE werden Nachrichtensendungen automatisch in einzelne Berichtsegmente unterteilt, und wird die erste Zeile des Untertiteltexts, der dem Segment zugehörig ist, als eine Zusammenfassung jedes Berichts verwendet. Für jedes Berichtsegment werden Schlüsselworte aus dem Untertiteltext oder dem Ton bestimmt, die mit den Suchbegriffen übereinstimmen. Der Benutzer wählt auf Basis der Häufigkeit des Auftretens von übereinstimmenden Schlüsselworten Berichte von Interesse aus. Ähnliche Such- und Abruftechniken werden in der Technik alltäglich. Zum Beispiel können herkömmliche Textsuchtechniken auf einen computerbasierten Fernsehprogrammführer angewendet werden, damit eine Person nach einem bestimmten Sendungstitel, einem bestimmten Darsteller, Sendungen einer bestimmten Art, und dergleichen suchen kann.
Das Dokument US-A-2002/0,157,095 offenbart ein System, das fähig ist, eine Inhaltszusammenfassung eines Multimedia-Stroms zu erzeugen, wobei unter Berücksichtigung eines Präferenzprofils eines Benutzers Wichtigkeitsgrade für Inhaltssegmente bestimmt werden.
Ein Nachteil der herkömmlichen Such- und Abruftechniken ist der Bedarf an einer ausdrücklichen Suchaufgabe, und die entsprechende Auswahl unter Alternativen auf Basis der ausdrücklichen Suche. Häufig hat ein Benutzer jedoch kein ausdrückliches Suchthema im Sinn. In einem typischen Kanalsurf-Szenario überfliegt ein Benutzer zufällig eine Vielzahl von Kanälen hinsichtlich irgendeines aus einer Anzahl von Themen, die von Interesse sein könnten, anstatt spezifisch nach einem bestimmten Thema zu suchen. Das heißt, ein Benutzer kann ohne ein bestimmtes Thema im Sinn ein zufälliges Überfliegen beginnen und einen der vielen überflogenen Kanäle auf Basis des Themas auswählen, das zum Zeitpunkt des Überfliegens auf jenem Kanal geboten wurde. In einem anderen Szenario kann ein Benutzer das Fernsehgerät im Hintergrund überwachen, während er eine andere Tätigkeit wie etwa Lesen oder Kochen durchführt. Wenn ein Thema von Interesse auftaucht, lenkt der Benutzer den Mittelpunkt seines Interesses auf das Fernsehgerät um, und führt dann seine Aufmerksamkeit zur anderen Tätigkeit zurück, wenn ein weniger interessantes Thema geboten wird.
Demgemäß ist eine Technik zur automatischen Erzeugung einer Multimedia-Zusammenfassung, die Bild-, Ton- und Textabschnitte eines Videostroms (Nachrichtensendung) zusammenfasst, ohne dass ein Benutzer ausdrücklich Schlüsselworte verwendet muss, um nach bestimmten Nachrichtenthemen zu suchen, höchst wünschenswert.
Die vorliegende Erfindung überwindet die Mängel des Stands der Technik. Im Allgemeinen zielt die vorliegende Erfindung auf ein System und ein Verfahren zur Erzeugung einer Multimedia-Zusammenfassung von einem oder mehreren Eingangs-Videoströmen ab, die einem Benutzer gestattet, die Videosequenzen besser zu überfliegen und/oder über ihr vollständiges Ansehen zu entscheiden. Die Multimedia-Zusammenfassung wird, zum Teil auf Basis von Systemspezifikationen, Benutzerspezifikationen und Netz- und Einrichtungsbeschränkungen, automatisch aufgebaut. In einer bestimmten Anwendung der Erfindung stellen die Videosequenzen Nachrichtensendungen dar.
Ein Merkmal der Erfindung ist die Erzeugung einer Multimedia-Zusammenfassung eines Eingangs-Videostroms, der zur Verwendung mit einer breiten Vielfalt von Einrichtungen geeignet ist, die von bandbreitebegrenzten Einrichtungen wie etwa Minicomputern und Mobiltelefonen bis zu nicht bandbreitebegrenzten Einrichtungen wie etwa Personalcomputern und Multimedia-Arbeitsstationen reichen.
Ein anderes Merkmal der Erfindung ist die Schaffung von Flexibilität in der Weise, in der die Multimedia-Zusammenfassung aufgebaut ist. Das heißt, die Erfindung gestattet dem Benutzer, die Multimedia-Zusammenfassung so zuzuschneiden, dass sie den Sehpräferenzen des bestimmten Benutzers entspricht. Genauer kann ein Benutzer einen oder mehrere Parameter bereitstellen, die zum Beispiel bestimmen, ob die Multimedia-Zusammenfassung umfassend oder schnell sein soll; ob die Multimedia-Zusammenfassung nur eine Zusammenfassung eines einzelnen Hauptartikels oder eine Zusammenfassung der wichtigsten Hauptartikel enthalten soll; ob die Zusammenfassung nur Text, nur Ton oder nur Bilder oder Kombinationen davon enthalten soll. Der Benutzer kann auch einen oder mehrere Schlüsselwortparameter bereitstellen, die durch das Zusammenfassungssystem verwendet werden, um passende Teile des Texts, des Tons und der Bilder zur Aufnahme in die Multimedia-Zusammenfassung aus dem Eingangs-Videostrom auszuwählen.
Nach einem Gesichtspunkt der Erfindung umfasst ein Verfahren zur Erzeugung einer Multimedia-Zusammenfassung einer Nachrichtensendung die folgenden Handlungen: Eines aus Empfangen und Abrufen eines Multimedia-Stroms, der Bild-, Ton- und Textinformationen umfasst; Teilen des Multimedia-Stroms in einen Bildsubstrom, einen Tonsubstrom und einen Textsubstrom; Identifizieren von Bild-, Ton- und Textschlüsselelementen aus dem Bild-, dem Ton- bzw. dem Textsubstrom; Berechnen eines Wichtigkeitswerts für die identifizierten Bild-, Ton- und Textschlüsselelemente, die im Identifizierungsschritt identifiziert wurden; erstes Filtern der identifizierten Bild-, Ton- und Textschlüsselelemente, um jene Schlüsselelemente auszuschließen, deren zugehöriger Wichtigkeitswert geringer als eine vordefinierte Bild-, Ton- bzw. Textwichtigkeitsschwelle ist; und zweites Filtern der Schlüsselelemente, die vom Filterungsschritt zurückbleiben, gemäß einem Benutzerprofil, drittes Filtern der Schlüsselelemente, die vom zweiten Filterungsschritt zurückbleiben, gemäß Netz- und Benutzereinrichtungsbeschränkungen; und Ausgeben einer Multimedia-Zusammenfassung von den Schlüsselelementen, die vom dritten Filterungsschritt zurückbleiben.
Obwohl diese Erfindung für Nachrichtensendungen besonders gut geeignet ist, gestatten die Grundsätze dieser Erfindung einem Benutzer ebenso, auch eine Multimedia-Zusammenfassung von anderen Arten von Sendungen zu erhalten. Zum Beispiel ist die Erfindung auf Multimedia-Zusammenfassungen von Filmvideos anwendbar, um einem Benutzer zu gestatten, den Film besser zu überfliegen und über sein vollständiges Ansehen zu entscheiden.
Die Erfindung umfasst auch einen Herstellungsgegenstand zur Ausführung des Verfahrens. Andere Merkmale und Vorteile der Erfindung werden durch die folgende ausführliche Beschreibung, die Zeichnungen und die beiliegenden Ansprüche, die in Verbindung mit den beiliegenden Zeichnungen herangezogen werden, offensichtlich werden. Es zeigen:
1 ein schematisches Diagramm eines Überblicks über eine beispielhafte Ausführungsform eines Multimedia-Zusammenfassungssystems gemäß der vorliegenden Erfindung;
2 ein Ablaufdiagramm eines Verfahrens zur Zusammenfassung gemäß der vorliegenden Erfindung;
3 einen beispielhaften Videostrom einer typischen Nachrichtensendung;
4 ein Ablaufdiagramm eines Verfahrens zur Identifizierung von Schlüsselelementen gemäß der vorliegenden Erfindung;
5 ein beispielhaftes Blockdiagramm des Vorgangs der Merkmalextraktion und der Erlangung von Merkmalen aus einem Eingangs-Multimedia-Strom; und
6 ein Diagramm, das veranschaulicht, wie die Zeitelemente, die den Tonsubstrom bilden, gruppiert werden können, um Segmente zu bilden; und
7a bis c Diagramme, die verschiedene Weisen zur Identifizierung von Schlüsselelementen veranschaulichen.
Die vorliegende Erfindung zielt auf ein System und ein Verfahren zur Zusammenfassung eines oder mehrerer Eingangs-Videoströme über drei Ausführungsarten (Bild, Ton, Text) ab.
Es versteht sich, dass die beispielhaften Systemmodule und Verfahren, die hierin beschrieben sind, in verschiedensten Formen von Hardware, Software, Firmware, Spezialprozessoren, oder einer Kombination davon ausgeführt sein können. Vorzugsweise ist die vorliegende Erfindung in Software als Anwendungsprogramm ausgeführt, das greifbar an einer oder mehreren Programmspeichereinrichtungen verkörpert ist. Das Anwendungsprogramm kann durch jede beliebige Maschine, Einrichtung oder Plattform ausgeführt werden, die eine geeignete Architektur umfasst. Es versteht sich ferner, dass sich die tatsächlichen Verbindungen zwischen den Systembestandteilen infolge der bevorzugten Ausführung einiger der aufbauenden Systemmodule und Verfahren, die in den beiliegenden Figuren dargestellt sind, in Software abhängig von der Weise, in der die vorliegende Erfindung programmiert ist, unterscheiden können. Angesichts der hierin gegebenen Lehren wird ein Durchschnittsfachmann fähig sein, diese und ähnliche Ausführungen oder Gestaltungen der vorliegenden Erfindung ins Auge zu fassen oder praktisch auszuführen.
Die vorliegende Erfindung beinhaltet ein Computerprogrammerzeugnis, bei dem es sich um ein Speichermedium (Speichermedien) handelt, das darauf/darin gespeicherte Befehle aufweist, die verwendet werden können, um einen Computer zur Ausführung irgendeines der Vorgänge der vorliegenden Erfindung zu programmieren. Das Computerprogrammprodukt kann auch Daten, z.B. Eingabedaten, enthalten, die irgendeinem der Vorgänge der vorliegenden Erfindung entsprechen. Das Speichermedium kann, jedoch ohne Beschränkung darauf, jede beliebige Art von Platte einschließlich Floppy Disks, optischer Platten, DVDs, CD-ROMs, Mikrolaufwerke, und magnetooptischer Platten, ROMs, RAMs, EPROMs, EEPROMs, DRAMs, VRAMs, Flash-Speicher-Einrichtungen, magnetische oder optische Karten, Nanosysteme (einschließlich Molekularspeicher-ICs), oder jede beliebige Art von Medium oder Einrichtung, das bzw. die zur Speicherung von Befehlen und/oder Daten geeignet ist, umfassen.
Auf einem beliebigen computerlesbaren Medium (Medien) gespeichert, enthält die vorliegende Erfindung Software, um sowohl die Hardware eines Allzweck/Spezialcomputers oder Mikroprozessors zu steuern, als auch dem Computer oder dem Mikroprozessor zu ermöglichen, mit einem menschlichen Benutzer oder einem anderen Mechanismus, der die Ergebnisse der vorliegenden Erfindung benutzt, in Wechselwirkung zu treten. Eine derartige Software kann, jedoch ohne Beschränkung darauf, Einrichtungstreiber, Betriebssysteme, und Benutzeranwendungen beinhalten.
Letztendlich umfasst ein derartiges computerlesbares Medium wie oben beschrieben Software, um die vorliegende Erfindung durchzuführen.
Die Systemarchitektur
Unter Bezugnahme auf 1 ist ein schematischer Überblick über eine Ausführungsform eines Multimedia-Zusammenfassungssystems 100 gemäß der vorliegenden Erfindung gezeigt. Das Multimedia-Zusammenfassungssystem 100 wird nur als nicht beschränkendes Beispiel im Kontext eines Zusammenfassungssystems 100 zur Zusammenfassung von Nachrichtenberichten gezeigt werden, obwohl einem Durchschnittsfachmann die Erweitung der hierin gezeigten Grundsätze auf andere Multimedia-Anwendungen offensichtlich sein werden.
In der Ausführungsform, die in 1 gezeigt ist, erhält das Multimedia-Zusammenfassungssystem 100 einen Multimedia-Strom 101 als Eingang von einem Sendekanalwähler 110, zum Beispiel einem Fernsehkanalwähler oder einem Satellitenempfänger. Das System 100 kann auch einen vorgespeicherten Multimedia-Strom 102 von einem Videospeicherraum abrufen. Das System 100 kann auch einen Eingang in Form eines Videostroms wie etwa von einem Server in einem Netz erhalten. Die Multimedia-Eingangsströme 101, 102 können in digitaler oder in analoger Form sein, und die Sendung kann jede beliebige Form von Medium sein, das verwendet wird, um die Ströme 101, 102 zu übermitteln, einschließlich Punkt-zu-Punkt-Kommunikationen. In der Ausführungsform, die in 1 gezeigt ist, entsprechen die Eingangs-Multimedia-Ströme 101, 102 nur als nicht beschränkendes Beispiel Nachrichtensendungen, und enthalten sie mehrere Nachrichtenberichte mit eingestreuten Ankündigungen oder Werbespots. Die Nachrichtensendung könnte zum Beispiel ein besonderes Nachrichtenprogramm wie etwa CNN Headline News, NBC Nightly News usw. darstellen.
In der Ausführungsform, die in 1 gezeigt ist, umfasst das Multimedia-Zusammenfassungssystem 100 ein Ausführungsarten-Erkennungs-und-Teilungs(Modality Recognition and Division, MRAD)-Modul 103, um die Eingangs-Multimedia-Ströme 101, 102 in drei Ausführungsarten zu teilen, die nachstehend als Bildsubstrom 303, Tonsubstrom 305 und Textsubstrom 307 bezeichnet werden. Das MRAD-Modul 103 umfasst ein Berichtsegmentidentifizierungs(Story Segment Identifier, SSI)-Modul 103a, ein Tonidentifizierungs(Audio Identifer, AI)-Modul 103b und ein Textidentifizierungs(Text Identifier, TI)-Modul 103c, um die Eingangs-Multimedia-Ströme 101, 102 zu verarbeiten und den Bild- 303, den Ton- 305 bzw. den Textsubstrom 307 auszugeben. Die Subströme 303, 305, 307 werden vom MRAD-Modul 103 an ein Schlüsselelementidentifizierungs(Key Element Identifier, KEI)-Modul 105 ausgegeben, um Schlüsselelemente aus dem Inneren der jeweiligen Subströme 303, 305, 307 zu identifizieren. Das KEI-Modul 105 umfasst ein Merkmalextraktions(Feature Extraction, FE)-Modul 107 und ein Wichtigkeitswert(Importance Value, IV)-Modul 109. Die Funktionalität des KEI-Moduls 105 ist nachstehend in Verbindung mit 4 bis 7 ausführlicher beschrieben. Der Ausgang des KEI-Moduls 105 ist mit dem Eingang des Schlüsselelementfilter(Key Element Filter, KEF)-Moduls 111 gekoppelt, das die durch das KEI-Modul 105 identifizierten Schlüsselelemente auf eine nachstehend zu beschreibende Weise filtert. Die überlebenden Schlüsselelemente, die vom KEF 111 ausgegeben werden, werden einem Benutzerprofilfilter (User Profile Filter, UPF) 113 als Eingang bereitgestellt, das die überlebenden Schlüsselelemente gemäß einer vorbestimmten Benutzerpräferenz weiter filtert. Wie gezeigt, ist das UPF-Modul 113 mit einer oder mehreren Speichereinrichtungen (d.h., einer Benutzerpräferenzdatenbank 117) zur Speicherung der vorbestimmten Benutzerpräferenzen gekoppelt. Der Ausgang des UPF-Moduls 113 ist mit dem Eingang des Netz- und Einrichtungsbeschränkungs(Network and Device Constraint, NADC)-Moduls 115 gekoppelt, das die überlebenden Schlüsselelemente, die vom UPF-Modul 113 ausgegeben werden, gemäß den vorherrschenden Netzbedingungen und Benutzereinrichtungsbeschränkungen weiter filtern kann. Das NADC-Modul 115 gibt die Multimedia-Zusammenfassung 120 der Erfindung aus. Typischerweise wird die Multimedia-Zusammenfassung von einem entfernten Benutzer über eine Kundeneinrichtung 124 angefordert werden, die über ein Netz 122 wie etwa das Internet, Intranet oder jedes beliebige andere geeignete Netz an das Zusammenfassungssystem 100 angeschaltet ist. Die Kundeneinrichtung 124 kann jede beliebige elektronische Einrichtung sein, die dazu betriebsfähig ist, sich mit dem Netz 122 zu verbinden und darüber Daten zu übertragen. Zum Beispiel kann die Kundeneinrichtung 124 eine verdrahtete Einrichtung (z.B. einen Personalcomputer, eine Arbeitsstation, oder ein Faxgerät) oder eine drahtlose Einrichtung (z.B. einen Laptop, einen Minicomputer (PDA), ein Mobiltelefon, einen Pager, ein intelligentes Telefon, eine anziehbare Rechen- und Kommunikationseinrichtung oder einen Kommunikator) beinhalten.
Der Betrieb
Nun wird unter Bezugnahme auf 1 bis 3 eine Überblicksbesprechung des Multimedia-Zusammenfassungsverfahrens der vorliegenden Erfindung bereitgestellt. Danach werden weiter unten ausführlichere Beschreibungen von verschiedenen Handlungen in Verbindung mit dem beschriebenen Verfahren bereitgestellt werden.
2 ist ein Ablaufdiagramm, das ein Verfahren zur Zusammenfassung gemäß einer Ausführungsform der vorliegenden Erfindung bereitstellt:
Der Vorgang beginnt bei Handlung 205.
Bei Handlung 210 ruft das Multimedia-Zusammenfassungssystem 100 einen oder mehrere Multimedia-Ströme 101, 102 (z.B. Nachrichtensendungen) als Eingang ab und/oder empfängt es diese.
Bei Handlung 215 wird der abgerufene/empfangene Eingangs-Multimedia-Strom 101 gemäß drei Ausführungsarten (d.h., Bild, Ton und Text) geteilt.
3a bis 3d veranschaulichen beispielhaft, wie ein Eingangs-Multimedia-Strom (z.B. der Strom 101) gemäß den drei Ausführungsarten geteilt werden kann. 3a ist eine allgemeine Darstellung eines Eingangs-Multimedia-Stroms 101 (z.B. einer Nachrichtensendung 101), der darüber hinweg verteilte Bild-, Ton- und Textbestandteile umfasst. Wie oben erwähnt, könnte die Nachrichtensendung zum Beispiel ein bestimmtes Nachrichtenprogramm wie etwa CNN Headline News, NBC Nightly News, usw. darstellen.
3b bis 3d veranschaulichen, wie der Eingangs-Multimedia-Strom 101 gemäß den drei Ausführungsarten geteilt werden kann.
Unter erster Bezugnahme auf 3b ist gemäß der Bildausführungsart ein Bildsubstrom 303 gezeigt, der den Eingangs-Multimedia-Strom 101 so verarbeitet darstellt, dass er eine Nachrichtenberichtsegmentierung hervorhebt. Der Bildsubstrom 303 von 3b ist so gezeigt, wie er vom Berichtsegmentidentifizierungs(SSI)-Submodul 103a des MRAD-Moduls 103 ausgegeben wird. Der beispielhafte Bildsubstrom 303 ist durch das SSI-Submodul 103a in mehrere Bildrahmen (z.B. die Rahmen 1 bis 2500) geteilt, wovon zur Erleichterung der Erklärung nur 40 gezeigt sind. Die Teilung beruht auf dem typischen Aufbau einer Nachrichtensendung. Das heißt, die typische Nachrichtensendung folgt einem üblichen Format, das zur Berichtsegmentierung besonders gut geeignet ist. Zum Beispiel könnte sich ein erster oder Hauptbericht auf politische Ereignisse in Washington beziehen, und könnte sich ein zweiter Nachrichtenbericht auf einen Arbeiterstreik oder einen Brand eines Gebäudes beziehen. Zum Beispiel erscheint wie in 3b gezeigt nach einem Einleitungsrahmen 301 (Rahmen 1) typischerweise ein Nachrichtensprecher oder Moderator (Moderatorrahmen 2 bis 4) und stellt einen ersten Bericht 321 (Rahmen 5 bis 24) vor. Die Moderatorrahmen 2 bis 4 und die Nachrichtenberichtsegmentrahmen 5 bis 24 werden gesammelt als erster Nachrichtenbericht 311, 321 bezeichnet. Nach dem Nachrichtenbericht erscheint der Moderator erneut 312 (Moderatorrahmen 25 bis 29), um den zweiten Bericht 322 (Rahmen 30 bis 39) vorzustellen, was gesammelt als zweiter Nachrichtenbericht 312, 322 bezeichnet wird. Die Abfolge von Moderator-Bericht-Moderator, mit eingestreuten Werbespots, wiederholt sich bis zum Ende der Nachrichtensendung, z.B. Rahmen 2500. Das wiederholte Erscheinen des Moderators 311, 312, ..., typischerweise an der gleichen abgestuften Stelle, dient dazu, den Beginn jedes Berichtssegments und das Ende des vorherigen Nachrichtensegments oder Werbespots deutlich zu identifizieren. Da Standards wie etwa MPEG-7 entwickelt werden, um Videoinhalte zu beschreiben, kann auch erwartet werden, dass Videoströme deutliche Markierungen enthalten werden, die den Beginn und das Ende von unabhängigen Segmenten im Strom identifizieren.
Eine Weise zur Identifizierung von Nachrichtenberichtsegmenten ist in der am 6. Dezember 2000 an Elenbaas, J H; Dimitrova, N; Mcgee, T; Simpson, M; Martino, J; Abdel-Mottaleb, M; Garrett, M; Ramsey, C; Desai, R. ausgestellten EP-Patentschrift Nr. 1 057 129 A1, "Personalized Video Classification and Retrieval System" beschrieben, deren gesamte Offenbarung durch Nennung als hierin aufgenommen betrachtet wird.
Unter nun erfolgender Bezugnahme auf 3c ist der Tonsubstrom 305 gezeigt. Die Tonidentifizierung im Eingangs-Multimedia-Strom 101 ist insofern verhältnismäßig unkompliziert, als das Tonidentifizierungs-Submodul 103b eine Tongrenze, in der beispielhaften Ausführungsform z.B. 20 ms, vorwählt, und den Eingangs-Multimedia-Strom 101 vom Anfang bis zum Ende in mehrere ZEIT-Rahmen 304 von 20 ms teilt, um den Tonsubstrom 305 aufzubauen.
Unter erneuter Bezugnahme auf 1 wird der Eingangs-Multimedia-Strom 101 vom MRAD-Modul 103 erhalten und durch das Tonidentifizierungs(AI)-Submodul 103b verarbeitet, um den Tonsubstrom 305 auszugeben.
Unter nun erfolgender Bezugnahme auf 3d ist der Textsubstrom 307 gezeigt. Die Textidentifizierung ist insofern verhältnismäßig unkompliziert, als die Textidentifizierungseinrichtung einen Rahmen 308 an Wortgrenzen definiert, die im Text-Substrom 307 identifiziert werden.
Unter erneuter Bezugnahme auf 1 wird der Eingangs-Multimedia-Strom 101 durch das MRAD-Modul 103 erhalten und durch das Textidentifizierungs(TI)-Submodul 103c verarbeitet, um den Textsubstrom 307 auszugeben. Der Bild- 303, der Ton- 305, und der Textsubstrom 307, die vom MRAD-Modul 103 ausgegeben werden, werden danach dem Schlüsselelementidentifizierungs-KEI-Modul 105 bereitgestellt.
Bei Handlung 220 wird durch das KEI-Modul 105 eine Schlüsselelementidentifizierungsanalyse an den Eingangs-Subströmen 303, 305, 307 vorgenommen, um in jedem jeweiligen Substrom Schlüsselelemente zu identifizieren. Ein Schlüsselelement kann allgemein als ein "Segment" eines Substroms 303, 305, 307 definiert werden, das ein vorbestimmtes Kriterium erfüllt oder übertrifft, wie nachstehend näher beschrieben werden wird.
Bei Handlung 225 werden jene Schlüsselelemente, die bei Handlung 220 identifiziert wurden, weiter gefiltert, wodurch nur jene Schlüsselelemente, deren berechneter Wichtigkeitswert bei Handlung 220 ein vorbestimmtes Kriterium erfüllt oder übertrifft, zurückbehalten werden. Das Schlüsselelementfilter(KEF)-Modul 111 von 1 führt diesen Filterungsvorgang durch.
Bei Handlung 230 bestimmt das Benutzerprofilfilter(UPF)-Modul 113 von 1 zuerst, ob der Benutzer vorher ein Benutzerprofil bereitgestellt hat, das aus einer Anzahl von Benutzerzuschnittsparametern besteht, die vorzugsweise in der Benutzerpräferenzdatenbank 117 gespeichert sind. Wenn ein Benutzerprofil vorhanden ist, wird dieses bei Handlung 232 verwendet, um die überlebenden Schlüsselelemente von Handlung 225 weiter zu filtern.
Das Benutzerprofil kann aus einer Anzahl von Zuschnittsparametern (Präferenzparametern), die durch den Benutzer bereitgestellt werden, bestehen. Die Parameter können entweder zur Laufzeit bereitgestellt werden oder vorzugsweise vom UPF 109 aus der Benutzerpräferenzdatenbank 117 abgerufen werden, um besondere Zuschnittspräferenzen des Benutzers hinsichtlich der Darstellung der Multimedia-Zusammenfassung 120 anzugeben. Falls die Zuschnittsparameter aus der Benutzerpräferenzdatenbank 117 abgerufen werden, werden Benutzer des Systems ihre Präferenzen mit dem System 100 typischerweise während eines Konfigurationsstadiums speichern. Die Zuschnittsparameter bestimmen in einem gewissen Maß, wie die Multimedia-Zusammenfassung 120 zugeschnitten werden soll, um den besonderen Sehpräferenzen des Benutzers zu entsprechen.
Die durch einen Benutzer bereitgestellten Zuschnittsparameter können zum Beispiel beinhalten:

• ob die Multimedia-Zusammenfassung 120 umfassend oder schnell sein soll;
• ob die Multimedia-Zusammenfassung 120 nur Text, Ton, Standbilder, Video oder Kombinationen davon beinhalten soll.
• Aufgaben, die durchgeführt werden sollen, wie etwa das Überfliegen hinsichtlich neuer Videos oder das Wiederaufrufen eines bereits gesehenen Films;
• den Ort, an dem die Zusammenfassung 120 gesehen werden soll (z.B. den Kontext);
• die Tageszeit, die Woche, das Monat oder das Jahr, wenn die Multimedia-Zusammenfassung 120 gesehen wird.
• Ein oder mehrere "Schlüsselwort"zuschnittsparameter können durch den Benutzer bereitgestellt werden, um bestimmte Punkte von Interesse für den Benutzer (z.B. Personen, Orte oder Dinge) zu identifizieren. Als ein Beispiel kann ein Benutzer die Schlüsselworte "Politik" und "Baseball" bestimmen, die durch das Videozusammenfassungssystem 100 verwendet werden, um Nachrichtenberichtsegmente ausfindig zu machen, die die ausgewählten Schlüsselworte betonen.

Nur beispielhaft kann dann, wenn ein Benutzer bevorzugt, dass die Multimedia-Zusammenfassung 120 nur auf eine Tonzusammenfassung beschränkt wird, das am höchsten bewertete Tonsegment aus dem Tonsubstrom 305 gewählt und dem Benutzer geboten werden. Als weiteres Beispiel werden dann, wenn der Benutzer bevorzugt, eine schnelle Multimedia-Zusammenfassung 120 (z.B. eine zweiminütige Nachrichtenzusammenfassung) zu sehen, die Nachrichtenberichte, an denen der Benutzer interessiert ist, gemäß der Benutzerprofilpräferenz gewählt, und aus jedem ausgewählten Nachrichtenbericht nur die am höchsten bewerteten Bild-, Ton- und Textsegmente aus den jeweiligen Bild- 303, Ton- 305 und Textsubströmen ausgewählt, um eine zeitbeschränkte Multimedia-Zusammenfassung 120 aufzubauen.
Bei Handlung 235 werden jene Schlüsselelemente, die die vorherige Handlung der Benutzerprofilfilterung überleben, nun durch Berücksichtigung von Netz- und Einrichtungsbeschränkungen weiter gefiltert. Im Besonderen berücksichtigt das Netz- und Einrichtungsbeschränkungs(Network and Device Constraint, NADC)-Modul 115 jegliche Netzbandbreitenbeschränkungen des Netzes, über das die Multimedia-Zusammenfassung 120 übertragen werden soll, und berücksichtigt es zusätzlich jene Beschränkungen, die mit der Sichteinrichtung des Benutzers verbunden sind. Wie beschrieben werden wird, werden die überlebenden Schlüsselelemente von Schritt 230 gemäß jedweden bekannten Netz- und Einrichtungsbeschränkungen abgeändert.
Im typischen Fall, bei dem die Multimedia-Zusammenfassung 120 über ein Netz wie etwa das Internet übertragen wird, werden die Einrichtungsbeschränkungen und die verfügbare Übertragungsbandbreite die Qualität und die Menge der Multimedia-Zusammenfassung 120, die übertragen werden soll, in einem gewissen Maß vorschreiben. Aufgrund der inhärenten Bandbreitenanforderungen von Video wird die Multimedia-Zusammenfassung 120 typischerweise in der Qualität und/oder in der Menge des Bildanteils der Multimedia-Zusammenfassung 120 beschränkt sein. Im Vergleich dazu werden der Ton- und der Textanteil einer Multimedia-Zusammenfassung 120 nicht an ähnlichen Beschränkungen leiden.
Drahtlose Netze stellen eine typische bandbreitebegrenzte Anwendung dar. Derartige bandbreitebegrenzte Bedingungen können aufgrund entweder der direkten technologischen Beschränkungen, die durch die Verwendung eines Datenkanals mit niedriger Bandbreite vorgeschrieben werden, oder der indirekten Beschränkungen, die Kanälen mit verhältnismäßig hoher Bandbreite durch hohe gleichzeitige Benutzerlasten auferlegt werden, bestehen. Es ist ins Auge gefasst, dass die Netzbandbreite in einer transparenten Weise in Echtzeit überwacht werden kann, um den gegenwärtigen Zustand des Netzes zu bestimmen. Die Multimedia-Zusammenfassung kann gemäß einer vorherrschenden Netzbedingung abgeändert werden. Zum Beispiel kann die Multimedia-Zusammenfassung 120 im Fall einer überfüllten Netzbedingung durch Begrenzen der Bildqualität jedes überlebenden Schlüsselelements von Handlung 235 beschränkt werden.
Im Hinblick auf Einrichtungsbeschränkungsüberlegungen sind zellular verbundene PDAs und Webtelefone Beispiele für Einrichtungen, die charakteristisch hinsichtlich der Verarbeitungsleistung, den Anzeigefähigkeiten, des Speichers, den Betriebssystemen und dergleichen beschränkt sind. Als Ergebnis dieser Beschränkungen weisen diese Einrichtungen unterschiedliche Fähigkeiten auf, um Videodaten zu empfangen, zu verarbeiten, und darzustellen. Die Multimedia-Zusammenfassung 120 kann durch Begrenzen der Videoauflösung, der Bitrate und so weiter so eingestellt werden, dass sie sich den Einrichtungsbeschränkungen anpasst.
Wenn die Benutzereinrichtung nur fähig ist, Text zu liefern, werden für jeden der Nachrichtenberichte die am höchsten gereihten Textsegmente gewählt und an die Einrichtung gesendet.
Bei Handlung 240 wird die Multimedia-Zusammenfassung 120, die aus jenen Schlüsselelementen besteht, die Handlung 235 überleben, an den Benutzer ausgegeben.
Diese Besprechung beschließt den Überblick über das Videozusammenfassungssystem und -verfahren. Nun wird eine ausführlichere Beschreibung des Betriebs von verschiedenen Gesichtspunkten des Verfahrens bereitgestellt werden.
Im Vorhergehenden wurde unter Bezugnahme auf das Ablaufdiagramm von 2 eine Hauptbeschreibung einer Ausführungsform des Verfahrens der Erfindung bereitgestellt, die unter anderen Handlung 220 enthält, welche auf die Identifizierung von Schlüsselelementen aus dem jeweiligen Bild- 303, Ton- 305 und Textstrom 307 abzielt. Nun wird unter Bezugnahme auf 3 bis 6 eine ausführlichere Beschreibung von Handlung 220, der Schlüsselelementidentifizierung, beschrieben werden.
Unter Bezugnahme auf 4, die ein ausführliches Ablaufdiagramm der Handlungen ist, die Handlung 220 des Ablaufdiagramms von 2 bilden, und auch unter Bezugnahme auf 5, die ein Diagramm ist, das den Vorgang der Merkmalextraktion nur als nicht beschränkendes Beispiel näher veranschaulicht, wird beschrieben, dass dieser Vorgang die Extraktion und die Erlangung von Merkmalen, in jeder der drei Ausführungsarten, aus dem jeweiligen Substrom 303, 305, 307 umfasst.
Handlung 220.a – Die Merkmalextraktion
Bei Handlung 220.a wird eine Merkmalextraktion durchgeführt, wodurch aus jedem Rahmen in jedem des jeweiligen Bild- 303, Ton- 305 und Textsubstroms 307 Merkmale mit niedrigem 510, mittlerem 710 und hohem Grad 910 extrahiert werden. Was den beispielhaften Bildsubstrom 303 betrifft, wird die Merkmalextraktion in jedem der 2500 Bildrahmen, die den Bildsubstrom 303 aufbauen, und wovon zur Erleichterung der Erklärung 40 gezeigt sind, durchgeführt. In der gleichen Weise wird hinsichtlich des Tonsubstroms 305 eine Merkmalextraktion in jedem der 8000 Tonrahmen (3c), die den Tonsubstrom 305 aufbauen, und wovon zur Erleichterung der Erklärung 12 gezeigt sind, durchgeführt. In der gleichen Weise wird hinsichtlich des Textsubrahmens 307 eine Merkmalextraktion in jedem der 6500 Textrahmen (3d), die den Textsubstrom 307 aufbauen, und wovon zur Erleichterung der Erklärung 5 gezeigt sind, durchgeführt.
Nun werden einige Beispiele von Merkmalen mit niedrigem, mittlerem, und hohem Grad, die in jedem der jeweiligen Subströme (Bild, Ton, Text) aus den Rahmen extrahiert werden können, beschrieben.
Nur als nicht beschränkendes Beispiel kann der Bildsubstrom die folgenden Bildbetriebsartmerkmale mit niedrigem 503, mittlerem 505, und hohem Grad 507 enthalten:
Bildbetriebsartmerkmale mit niedrigem Grad 503 können unter anderem einen Bewegungswert (die globale Bewegung für den Rahmen oder das Bildsegment), die Gesamtanzahl von Rändern in einem Rahmen und die dominante Farbe beinhalten.
Bildbetriebsartmerkmale mit mittlerem Grad 703 werden aus den extrahierten Bildbetriebsartmerkmalen mit niedrigem Grad 503 erlangt und können unter anderem Familienhistogramme, eine Kamerabewegung, Rahmeneinzelheiten, ein Gesicht, das Vorhandensein von überlegtem Text, und andere Objektfeststeller beinhalten.
Bildbetriebsartmerkmale mit hohem Grad 903 werden aus den erlangten Bildbetriebsartmerkmalen mit mittlerem Grad erlangt und können unter anderem verschiedene Bildrahmenklassifizierungen wie etwa einen Moderatorrahmen, einen Berichtrahmen, einen Innenrahmen, einen Außenrahmen, einen natürlichen Rahmen, einen Grafikrahmen, einen Landschaftsrahmen und einen Stadtbildrahmen beinhalten.
Nur als nicht beschränkendes Beispiel kann der Tonsubstrom 305 die folgenden Tonbetriebsartmerkmale mit niedrigem 505, mittlerem 705, und hohem Grad 905 beinhalten:
Tonbetriebsartmerkmale mit niedrigem Grad 505 können zum Beispiel MFCC, LPC, die Durchschnittsenergie, die Bandbreite, die Tonhöhe usw. beinhalten.
Tonbetriebsartmerkmale mit mittlerem Grad 705 werden aus den extrahierten Tonbetriebsartmerkmalen mit niedrigem Grad 505 erlangt und können zum Beispiel eine Klassifizierung des Tons in Sprache, Musik, Stille, Rauschen, Sprache + Sprache, Sprache + Rauschen, und Sprache + Musik beinhalten.
Tonbetriebsartmerkmale mit hohem Grad 905 werden von den vorher erlangten Tonbetriebsartmerkmalen mit mittlerem Grad 705 erlangt und können unter anderem den Beifall einer Menschenmenge, Sprechen, Lachen, Explosionen, Sirenen und so weiter beinhalten. Sie könnten auch eine Sprache-zu-Text-Übertragung beinhalten.
Nur als nicht beschränkendes Beispiel kann der Textsubstrom 307 die folgenden Textbetriebsartmerkmale mit niedrigem 507, mittlerem 707 und hohem Grad 907 beinhalten:
Textbetriebsartmerkmale mit niedrigem Grad 507 können zum Beispiel das Vorhandensein von Schlüsselworten, Stichworten, Namen, Orten usw. beinhalten.
Textbetriebsartmerkmale mit mittlerem Grad 707 werden von den Textbetriebsartmerkmalen mit niedrigem Grad 507 erlangt und können zum Beispiel Themen, Kategorien, oder wichtige Hauptworte beinhalten.
Textbetriebsartmerkmale mit hohem Grad 907 werden von den erlangten Textbetriebsartmerkmalen mit mittlerem Grad 707 erlangt und können unter anderem Frage/Antwort-Passagen, eine Schlussfolgerung, wer spricht, d.h., ein Nachrichtenreporter, ein Moderator, ein Gast und so weiter, beinhalten.
5 ist ein Diagramm, das den Vorgang der Merkmalextraktion, der die Extraktion und Erlangung von Merkmalen in jeder der drei Ausführungsarten aus den jeweiligen Subströmen 303, 305, 307 umfasst, nur als nicht beschränkendes Beispiel näher veranschaulicht. Wie gezeigt werden Bildmerkmale 510 mit niedrigem Grad wie etwa Ränder, Formen, Farbe 503 aus dem Bildsubstrom 303 extrahiert. Eines oder mehrere der ex-trahierten Bildmerkmale mit niedrigem Grad 503 können dann verwendet werden, um eines oder mehrere Merkmale mit mittlerem Grad 703 wie etwa Videotext, Gesichter, Familienhistogramme 703 zu erlangen. Die Merkmale mit mittlerem Grad 703 können dann wiederum verwendet werden, um eines oder mehrere Merkmale mit hohem Grad 903 wie etwa den Moderatorrahmen, den Berichtrahmen, den Innenrahmen usw. zu erlangen.
Unter Bezugnahme auf das Bildmerkmal mit mittlerem Grad "Familienhistogramme", das als ein Element von 703 gezeigt ist, ist die Erlangung und Verwendung dieses Merkmals insofern von besonderer Bedeutung, als es verwendet wird, um den Bildsubstrom 303 in "Segmente" zu segmentieren, wie nachstehend näher beschrieben werden wird. Die Farbe ist ein dominantes Merkmal im Bild und hilft beim Segmentieren von Bildern von einem Wahrnehmungsblickpunkt. Zusätzlich bildet sich die Dauer eines Familienhistogramms, wie beschrieben werden wird, ebenfalls direkt am berechneten "Wichtigkeitswert" eines Bildsegments ab.
Der Vorgang der Erlangung von Familienhistogrammen aus den extrahierten Bildmerkmalen mit niedrigem Grad des Bildsubstroms 303 umfasst eine Analyse jedes Bildrahmens des Bildsubstroms 303. Die Analyse wird durchgeführt, um die Farbinformation jedes Bildrahmens in Farbquantisierungsplätze zu quantisieren. Ein einfaches 9-Platz-Quantisierungsfarbhistogramm wurde experimentell als ausreichend bestimmt, um die Schlüsselelemente zu identifizieren. In einer Abänderung dieses Ansatzes kann abhängig von der Anwendung ein komplexeres 256-Platz-Farbhistogramm verwendet werden. Der Ansatz des einfachen 9-Platz-Quantisierungsfarbhistogramms nimmt an, dass für jedes Familiensegment, das in einem Nachrichtenberichtsegment enthalten ist, von Rahmen zu Rahmen nur geringfügige Unterschiede in der Farbveränderung vorhanden sein werden. Dies ist wahr, da für ein Schlüsselelement von Rahmen zu Rahmen eine wesentliche Rahmenähnlichkeit angenommen wird, während von einem Rahmen zum nächsten merkliche Farbveränderungen auftreten werden, wenn eine Szenenveränderung auftritt, die das Ende eines Familiensegments und den Beginn eines anderen angibt. Der Ansatz des Farbhistogramms stellt die merklichen Farbveränderungen (d.h. ein Merkmal mit niedrigem Grad) durch einen scharfen Kontrast in den Farbhistogrammwerten von einem Rahmen zum nächsten fest.
Um den Grad an Ähnlichkeit zwischen Bildrahmen zu finden, wurden Versuche mit mehreren Histogrammunterschiedsmaßen vorgenommen. Bei der Handlung der Berechnung des Familienhistogramms wird das Histogramm für jeden Bildrahmen berechnet und dann eine Suche der vorher berechneten Familienhistogramme vorgenommen, um die engste Familienhistogrammübereinstimmung zu finden. Der Vergleich zwischen dem gegenwärtigen Histogramm, H_C, und den vorherigen Histogrammen, H_P, kann unter Verwendung eines der folgenden Verfahren zur Berechnung des Histogrammunterschieds D berechnet werden.

(1) Der Histogrammunterschied unter Verwendung des Abstandsmaßes L1 wird unter Verwendung der folgenden Formel berechnet:
Hier ist N die Gesamtanzahl der verwendeten Farbplätze (in unserem Fall 9). Die Werte, die unter Verwendung dieser Formel erhalten werden, reichen von 0 bis zum Doppelten der Höchstanzahl der Pixel in entsprechenden Bildern. Da wir den Prozentsatz der Ähnlichkeit erhalten möchten, normalisieren wir den Wert durch Dividieren durch die Gesamtanzahl der Pixel. Die normalisierten Werte liegen zwischen 0 und 1, wobei Werte nahe an 0 bedeuten, dass die Bilder ähnlich sind, und jene nahe an 1 bedeuten, dass die Bilder unähnlich sind.
(2) Der Histogrammunterschied unter Verwendung des Abstandsmaßes L2 wird unter Verwendung der folgenden Formel berechnet:
In der gleichen Weise wie bei Fall (1) normalisieren wir die Werte von D.
(3) Der Histogrammschnittpunkt wird unter Verwendung der folgenden Formel berechnet:
Die Werte, die unter Verwendung dieser Formel erhalten wurden, reichen von 0 bis 1. Die Werte nahe an 0 bedeuten, dass die Bilder unähnlich sind, und Werte nahe an 1 bedeuten, dass die Bilder ähnlich sind. Um Histogramme mit der gleichen Auslegung der Ähnlichkeit zu vergleichen, verwenden wir D = 1-1 als ein Abstandsmaß.
(4) Die Chi-Quadrat-Prüfung für zwei Bildhistogramme wird unter Verwendung der folgenden Formel berechnet:
In diesem Fall reichen die Werte von 0 bis zur Anzahl der Farbplätze, N, weshalb wird mit N, d.h., D = χ²/N, normalisieren.
(5) Der platzweise Histogrammschnittpunkt wird unter Verwendung der folgenden Formel berechnet:
In der gleichen Weise wie beim Histogrammschnittpunkt bedeuten niedrigere Werte Unähnlichkeit und höhere Werte, dass die Bilder ähnlich sind. Um mit den früheren Messungen im Einklang zu stehen, wird der Abstand unter Verwendung von D = 1 – B/N berechnet.

Farbindizierungsverfahren, die Histogramminformationen verwenden, sind in der Technik bekannt (siehe zum Beispiel die Veröffentlichung von M. Stricker und M. Orengo mit dem Titel "Similarity of color images), In proc. Of IS&T/SPIE Conference on Storage and Retrieval for Image and Video Database II, Vol. SPIE 2420, 1995).
Handlung 220.b – Die Zuteilung von Merkmalwichtigkeitswerten
Bei Handlung 220.b wird den Merkmalen mit mittlerem 710 und hohem Grad 910, die bei Handlung 220.a in jedem Rahmen aus jedem der jeweiligen Subströme 303, 305, 307 extrahiert wurden, nun ein entsprechender Merkmalwichtigkeitswert zugeteilt. Es können diskrete und/oder fortlaufende Merkmalanalyseverfahren eingesetzt werden, um diese Merkmalwichtigkeitswerte zuzuteilen. Im diskreten Fall gibt das Merkmalanalyseverfahren einen diskreten Wichtigkeitswert aus, der das Vorhandensein oder das Fehlen des Vorhandenseins eines Merkmals (d.h., Wichtigkeitswert = 1 für vorhanden/0 für Merkmal nicht vorhanden) oder (Wichtigkeitswert = 1 für Aufnahme in die Multimedia-Zusammenfassung 120 erwünscht, 0 für nicht in der Zusammenfassung 120 erwünscht, und 0,5 für dazwischen) angibt. Da es wünschenswert ist, in der Multimedia-Zusammenfassung 120 über "Gesichter" zu verfügen, kann als ein Beispiel ein Merkmalwichtigkeitswert von 1 zugeteilt werden, wenn ein oder zwei Gesichter vorhanden sind, ein Wert von 0 zugeteilt werden, wenn keine Gesichter vorhanden sind, und ein Wert von 0,5 zugeteilt werden, falls mehr als zwei Gesichter vorhanden sind. Ein anderes diskretes Beispiel kann sein, eine 0 für das Vorhandensein eines Moderators und eine 1 für das Vorhandensein eines Berichtabschnitts zuzuteilen. Ein anderes diskretes Beispiel kann sein, eine 0 für einen Rahmen zuzuteilen, wenn er zu einem Familienhistogramm gehört, dessen Dauer geringer als n % der Gesamtdauer des Nachrichtenberichts ist, und anderenfalls einen Wert von 1 zuzuteilen. Hier könnte n auf 10 usw. gesetzt werden.
Im Hinblick auf den Tonsubstrom 305 kann es erwünscht sein, in der Multimedia-Zusammenfassung 120 über Sprache zu verfügen, weshalb ein Wichtigkeitswert für das Vorhandensein von Sprache auf 1, für Rauschen und Stille auf 0, und für {Musik, Sprache + Musik, Sprache + Sprache, Sprache + Rauschen) auf 0,5 gesetzt werden könnte.
Im Hinblick auf den Textsubstrom 307 könnte der Wichtigkeitswert auf 1 gesetzt werden, wenn ein Name oder ein bedeutendes Schlüsselwort vorhanden ist, und andernfalls auf 0 gesetzt werden.
In einem fortlaufenden Fall könnte der Wichtigkeitswert im Fall eines Familienhistogramms auf die Dauer des Segments, zu dem ein Rahmen gehört, geteilt durch die Gesamtdauer des Nachrichtenberichts gesetzt werden.
Alternativ können die Merkmalanalyseverfahren im fortlaufenden Fall eine Wahrscheinlichkeitsverteilung einsetzen, um extrahierten Merkmalen Wichtigkeitswerte zuzuteilen. Die Wahrscheinlichkeitsverteilung gibt die Wahrscheinlichkeit des Vorhandenseins des Merkmals in der Zusammenfassung an. Die Merkmalanalyseverfahren, die bei diesem Ansatz verwendet werden, können einen Wahrscheinlichkeitswert ausgeben, der von 0 bis 1 reicht, was einen Grad des Vertrauens hinsichtlich des Vorhandenseins eines Merkmals angibt.
Die Wahrscheinlichkeitsverteilung zur Erlangung von Wichtigkeitswerten im fortlaufenden Fall kann aus einer normalen Gaußschen Verteilung erlangt werden. Alternativ könnten die Wichtigkeitswerte auch als Poisson-, Rayleigh-, oder Bernoulli-Verteilung abgebildet werden. Gleichung (6) veranschaulicht beispielhaft eine Weise zur Berechnung des Merkmalwerts für den Rahmen als normale Gaußsche Verteilung.
wobei S die Wahrscheinlichkeit des Vorhandenseins des Merkmals in der Zusammenfassung ist,
θ allgemein ein beliebiges der Merkmale darstellt; und
θ₁ der Durchschnitt des Merkmalwerts ist; und
θ₂ die erwartete Abweichung ist.
Als ein Beispiel werden dann, wenn "Gesichter" ein zu berücksichtigendes Bildmerkmal mit mittlerem Grad darstellt, d.h., in der Gleichung (6) als θ dargestellt ist, sehr kleine und sehr große Gesichter selten erscheinen. Am häufigsten ist ein "Gesicht", wann immer ein solches im Videostrom auftaucht, typischerweise mit einer Höhe von im Wesentlichen 50 % der Bildschirmhöhe vorhanden. In diesem Fall ist θ₁ gleich 0,5 (der Mittelwert) und θ₂ zum Beispiel gleich 0,2. Es wird bemerkt, dass ein Ansatz der Schätzung der maximalen Wahrscheinlichkeit verwendet werden kann, um die Parameter θ₁ und θ₂ zu bestimmen.
Es wird bemerkt, dass jedes der Merkmale den Wichtigkeitswert eines Schlüsselelements für die mögliche Wahl in die Multimedia-Zusammenfassung 120 möglicherweise erhöhen oder verringern kann.
220.c – Die Berechnung der Wichtigkeitswerte pro Rahmen in jeder Ausführungsart
Bei Handlung 220.c werden auf Basis der Merkmalwichtigkeitswerte, die bei Handlung 220.b berechnet wurden, Rahmenwichtigkeitswerte berechnet. Zur Bestimmung der Rahmenwichtigkeitswerte kann, wie beschrieben werden wird, entweder der Ansatz einer gewichteten Summe oder das Aufrufen der Wichtigkeitswerte der extrahierten Merkmale benutzt werden.
Tabelle 1, 2 und 3 veranschaulichen nur als nicht beschränkendes Beispiel die Merkmalwichtigkeitswerte, die bei Handlung 220.b für jedes der extrahierten Merkmale, welche bei Handlung 220.a in jeder der jeweiligen Ausführungsarten (Bild, Ton, Text) identifiziert worden waren, berechnet wurden. Die Wichtigkeitswerte werden verwendet, um den Wichtigkeitswert pro Rahmen zu berechen. Die Tabellenspaltenüberschriften stellen früher extrahierte und erlangte Merkmale mit niedrigem, mittlerem und hohem Grad wie etwa Ränder, Farbe, Gesichter, Stille, Innenrahmen und so weiter dar. Tabelle 1. Bildmerkmalwahrscheinlichkeiten
Tabelle 2. Tonmerkmalwahrscheinlichkeiten
Tabelle 3. Textmerkmalwahrscheinlichkeiten
Die Tabellenwerte werden auf eine zu beschreibende Weise kombiniert, um ein Maß davon bereitzustellen, wie viel ein Rahmen "wert" ist. Der "Wert" eines Rahmens ist ein Maß der Bedeutung für die mögliche Aufnahme in die Multimedia-Zusammenfassung 120. Der "Wert" eines Rahmens kann auf jede beliebige Anzahl von Weisen einschließlich deterministisch, statistisch und über bedingte Wahrscheinlichkeiten berechnet werden.
Die deterministische Berechnung des "Werts" eines Rahmens
In einer Ausführungsform kann der "Wert" eines Rahmens als eine deterministische lineare Funktion von Videomerkmalen mit niedrigem, mittlerem und hohem Grad berechnet werden, wobei die Berechnung als: Schlüssel_Element_Wichtigkeit = Σ wifi Gleichung(7)erfolgt,
wobei f_i ein Wert eines bestimmten Merkmals mit niedrigem, mittlerem, oder hohem Grad ist; und
w_i ein Gewicht für diesen Wert ist.
Die Merkmale f_i könnten Merkmale mit niedrigem Grad wie etwa der Bewegungswert (globale Bewegung für den Rahmen oder das Bildsegment), die Gesamtanzahl der Ränder, die dominante Farbe, und Merkmale mit mittlerem Grad wie etwa die Familienwichtigkeit, die Kamerabewegung, Rahmeneinzelheiten, die Gesichtsgröße, die Kastengröße des überlegten Texts sein. Ein Merkmal mit hohem Grad kann eine Klassifizierung wie etwa Moderator/Bericht, Innen/Außenszenen, natürlich/Grafik, und Landschaft/Stadtbild sein. Die Merkmalliste ist nicht erschöpfend und nur als Beispiel für die Arten von Merkmalen bereitgestellt, die in die Wichtigkeitswertberechnung aufgenommen werden können.
Es wird bemerkt, dass die Gewichte, w_i, die mit jedem Merkmal verbunden sind, im Voraus durch das Zusammenfassungssystem 100 bestimmt werden können, oder alternativ gemäß einer Benutzerpräferenz bestimmt werden können. Falls ein Benutzer in der Multimedia-Zusammenfassung 120 Musik hören möchte, kann ein Gewichtswert für Musik auf 1 gesetzt werden. Als anderes Beispiel wird dem Fehlen von Videotext in einem Rahmen die Wichtigkeit von 1 gegeben, wenn der Benutzer bevorzugt, in der Zusammenfassung keinen Videotext zu sehen, und so weiter.
Es wird angenommen, dass die Wichtigkeitswerte für jede der Ausführungsarten unter Verwendung entweder einer einzelnen wahrscheinlichkeitstheoretischen oder einer deterministischen Funktion auf irgendeine Weise kombiniert werden, um einen Schlüsselelementwichtigkeitswert pro Rahmen auszugeben, was zu einer Liste wie der in Tabelle 4 gezeigten nichtbeschränkenden beispielhaften Liste führt. Tabelle 4. Wichtigkeitswert (pro Rahmen) für verschiedene Ausführungsarten
In noch einer anderen Ausführungsform kann der "Wert" eines Rahmens durch Finden der bedingten Wahrscheinlichkeit unter Verwendung einer Bayesschen Überzeugungsnetzwerkmusterklassifizierung berechnet werden. Die Bayessche Überzeugungsnetzwerkmusterklassifizierung ist in der Technik bekannt. Siehe zum Beispiel "Bayesian Belief Network Pattern Classification (2nd Edition)" von Richard O. Duda, Peter E. Hart, David G. Stork, deren gesamte Offenbarung durch Nennung als hierin zur Gänze aufgenommen betrachtet wird.
220.d – Die Segmenterzeugung
Nachdem bei 220.c die Rahmenwichtigkeitswerte für jeden Rahmen in jeder Ausführungsart zusammengestellt wurden, werden die Rahmenwichtigkeitswerte bei Handlung 220.d verwendet, um die Rahmen für jede Ausführungsart zu Segmenten zu kombinieren oder zu gruppieren.
Die Erzeugung von Bildsegmenters
Um aus den jeweiligen Bildrahmen (d.h., Rahmen 1, Rahmen 2, ..., Rahmen N), die den Bildsubstrom 303 aufbauen, Bildsegmente zu erzeugen, wird entweder eine Familienhistogrammberechnung oder eine Schussänderungsfeststellung durchgeführt. Eine Weise zur Kombination von Rahmen zu Segmenten erfolgt durch die Verwendung der Schussänderungsfeststellung. Die Schussänderungsfeststellung ist wohlbekannt und in US 6,125,229 , 26 September 2000, auch als EP 0 916 120 A2 , 19. Mai 1999, ausgegeben an Dimitrova, N; Mcgee, T; Elenbaas, J H, Visual Indexing System, deren gesamte Offenbarung durch Nennung als hierin aufgenommen betrachtet wird, offenbart. Eine andere Weise zur Erzeugung von Bildsegmenten aus den jeweiligen Bildrahmen des Bildsubstroms 303 erfolgt wie oben besprochen durch die Verwendung von Familienhistogrammen.
Die Erzeugung von Tonsegmenten
Um aus den jeweiligen ZEIT-Rahmen (d.h., ZEIT 1, ZEIT 2, und so weiter), die den Tonsubstrom 305 aufbauen, Tonsegmente zu erzeugen, können die Segmentgrenzen die Grenzen von unterschiedlichen Klassifizierungen sein. Das heißt, eine Tonklassifizierungseinrichtung klassifiziert Ton in Sprache (1), Musik (2), Stille (3), Rauschen (4), Sprache + Sprache (5), Sprache + Rauschen (6), und Sprache + Musik (7). 6 ist ein Diagramm, das beispielhaft veranschaulicht, wie die Zeitelemente, die den Tonsubstrom 305 von 3 bilden, gruppiert werden können, um Segmente zu bilden. Das Diagramm stellt die Tonklassifizierung den Zeitrahmen (Zeitrahmen [x]) gegenüber. Wie gezeigt werden die anfänglichen Rahmen (Rahmen 1 bis 20.000) größtenteils als Musikrahmen (2) klassifiziert. Danach werden anschließende Rahmen größtenteils als Rauschrahmen (4) klassifiziert, worauf Sprach-und-Musik-Rahmen (7) folgen.
Die Einzelheiten der Tonklassifizierung sind in "Classification of general audio data for content-based retrieval", Pattern Recognition Letters Vol. 22, Nummer 5, Seite 533 bis 544 (2001), Dongge Li, Ishwar K. Sethi, Nevanka Dimitrova, durch Nennung als hierin zur Gänze aufgenommen betrachtet, näher beschrieben.
Die Erzeugung von Textsegmenten
Um Textsegmente zu erzeugen, könnten die Segmentgrenzen auf Basis der Interpunktion, die im Untertitelabschnitt der Eingangsvideosequenz 101, 102 bereitgestellt ist, als Satzgrenzen definiert werden.
220.e – Die Bestimmung des Segmentwichtigkeitswerts
Die Bestimmung des Segmentwichtigkeitswerts kann auf eine Weise durch Mitteln der Rahmenwichtigkeitswerte der Rahmen, die jedes Segment bilden, durchgeführt werden, um eine einzelne Reihung oder ein Ergebnis zu erzeugen. Eine andere Weise der Berechnung einer Segmentwichtigkeitswertbestimmung ist, den höchsten Rahmenwichtigkeitswert im Segment zu nehmen und ihn dem gesamten Segment zuzuteilen.
220.f – Die Segmentreihung
Bei Handlung 220.e wird für jedes Segment, das bei Schritt 220.d in jeder der jeweiligen Ausführungsarten identifiziert wurde, eine Segmentreihung (ein Ergebnis) berechnet. Zusätzlich werden die gereihten Segmente auf Basis der berechneten Reihung oder des Ergebnisses in der Reihenfolge der Wichtigkeit sortiert.
Tabelle 6 veranschaulicht beispielhaft, wie die Bildsegmente (Spalte 1) und ihre zugehörigen Segmentwichtigkeitswerte (Spalte 2) gereiht werden. Tabelle 7 und 8 zeigen einen ähnlichen Aufbau für die Ton- bzw. die Textausführungsart. Tabelle 6. Reihung der Wichtigkeit der Bildsegmente
Tabelle 7. Reihung der Wichtigkeit der Tonsegmente
Tabelle 8. Reihung der Wichtigkeit der Textsegmente
220.g – Die Schlüsselelementidentifizierung
Bei Handlung 220.f werden auf Basis der Segmentreihungen von Handlung 220.e Schlüsselelemente identifiziert.
7a bis c veranschaulichen beispielhaft mehrere Weisen zur Identifizierung von Schlüsselelementen. Beispielhaft sind 7a bis c Diagramme von (Rahmenwichtigkeitswert pro) in Bezug auf (Segment), die jede beliebige der oben besprochenen Ausführungsarten, d.h., Tabelle 6, 7 oder 8, darstellen könnten.
7a ist ein Diagramm, das ein erstes Verfahren zur Identifizierung von Schlüsselelementen veranschaulicht. Schlüsselelemente werden durch Auswahl eines jeden Segments, das über einer vorbestimmten Schwelle erscheint, identifiziert.
7b ist ein Diagramm, das ein zweites Verfahren zur Identifizierung von Schlüsselelementen veranschaulicht. Schlüsselelemente werden durch Auswählen der lokalen Höchstwerte, d.h., "A", "B", "C", die über einer vorbestimmten Schwelle, Th, erscheinen, identifiziert.
7c ist ein Diagramm, das ein drittes Verfahren zur Identifizierung von Schlüsselelementen veranschaulicht. Schlüsselelemente werden durch Auswählen der ersten N lokalen Höchstwerte ohne Berücksichtigung eines Schwellenkriteriums identifiziert.
Es wird bemerkt, dass der oben beschriebene und unter Bezugnahme auf 7a bis c veranschaulichte Vorgang der Identifizierung von Schlüsselelementen gemäß einem Benutzersehprofil weiter abgeändert werden kann. Es ist wohlbekannt, dass Empfehlungssysteme im Allgemeinen tätig sind, indem sie bestimmten Nutzern auf Basis von Informationen, die über die Benutzer bekannt sind, Posten empfehlen. Typischerweise entwickeln derartige Systeme Profile von Kunden, die auf den früheren Seh- oder Kaufge wohnheiten des Kunden beruhen. Im vorliegenden Kontext kann ein Sehprofil eines Benutzers erzeugt und vorzugsweise zusammen mit anderen oben besprochenen Benutzerprofildaten in der Benutzerpräferenzdatenbank 117 gespeichert werden. Das Benutzersehprofil kann dann verwendet werden, um eine Abbildungsfunktion zur Abbildung des wie in 7a bis c veranschaulichten, vorher beschriebenen Diagramms von (Wichtigkeitswert) in Bezug auf (Segment) auf einer zweiten Funktion, die die Sehpräferenzen des Kunden berücksichtigt, zu erzeugen. Dieser Vorgang ist optional und kann für eine beliebige oder alle Ausführungsarten ausgeführt werden.
Es ist offensichtlich, dass angesichts der obigen Lehren zahlreiche Abwandlungen und Veränderungen der vorliegenden Erfindung möglich sind. Es versteht sich daher, dass die Erfindung innerhalb des Rahmens der beiliegenden Ansprüche anders als hierin spezifisch beschrieben praktisch umgesetzt werden kann.
Legende der Zeichnungen
1

SSI

Berichtsegmentidentifizierungs-Modul

AI

Tonidentifizierungs-Modul

TI'

Textidentifizierungs-Modul

MRAD

Ausführungsarten-Erkennungs-und-Teilungs-Modul

FE

Merkmalextraktions-Modul

IV

Wichtigkeitswert-Modul

KEI

Schlüsselelementidentifizierungs-Modul

KEF

Schlüsselelementfilter-Modul

UPF

Benutzerprofilfilter

NADC

Netz- und Einrichtungsbeschränkungs-Modul

3B

MSEC

Millisekunden

Claims

Verfahren zur Zusammenfassung zumindest eines Multimedia-Stroms (101, 102), wobei das Verfahren Folgendes umfasst: a.) eines aus Empfangen und Abrufen des zumindest einen Multimedia-Stroms (101, 102), der Bild-, Ton- und Textinformationen umfasst; b.) Teilen des zumindest einen Multimedia-Stroms (101, 102) in einen Bildsubstrom (303), einen Tonsubstrom (305) und einen Textsubstrom (307); c.) Identifizieren von Bild-, Ton- und Textschlüsselelementen aus dem Bild- (303), dem Ton- (305), bzw. dem Textsubstrom (307); d.) Berechnen eines Wichtigkeitswerts für die identifizierten Bild-, Ton- und Textschlüsselelemente, die in Schritt (c) identifiziert wurden; e.) erstes Filtern der identifizierten Bild-, Ton- und Textschlüsselelemente, um jene Schlüsselelemente auszuschließen, deren Wichtigkeitswert geringer als eine vordefinierte Bild-, Ton-, bzw. Textwichtigkeitsschwelle ist; und f.) zweites Filtern der zurückbleibenden Schlüsselelemente von Schritt (e) gemäß einem Benutzerprofil; g.) drittes Filtern der zurückbleibenden Schlüsselelemente von Schritt (f) gemäß Netz- und Benutzereinrichtungsbeschränkungen; und h.) Ausgeben einer Multimedia-Zusammenfassung (120) von den Schlüsselelementen, die von Schritt (g) zurückbleiben.
Verfahren nach Anspruch 1, wobei der zumindest eine Multimedia-Strom (101, 102) einer aus einem analogen und einem digitalen Multimedia-Strom ist.
Verfahren nach Anspruch 1, wobei der Schritt des Teilens des zumindest einen Multimedia-Stroms (101, 102) in einen Bildsubstrom (303) ferner den Schritt des Identifizierens und Gruppierens des zumindest einen Multimedia-Stroms (101, 102) in mehrere Nachrichtenberichte (330) umfasst, wobei jeder identifizierte Nachrichtenbericht (330) aus einem Moderatorabschnitt (311, 312) und einem Berichtabschnitt (321, 322) besteht.
Verfahren nach Anspruch 1, wobei der Schritt des Teilens des zumindest einen Multimedia-Stroms (101, 102) in einen Tonsubstrom (305) ferner das Teilen des zumindest einen Multimedia-Stroms (101, 102) in mehrere gleich große Rahmen (306) mit einer festen Zeitdauer umfasst.
Verfahren nach Anspruch 1, wobei der Schritt des Teilens des zumindest einen Multimedia-Stroms (101, 102) in einen Textsubstrom (307) ferner das Teilen des zumindest einen Multimedia-Stroms (101, 102) in mehrere Rahmen (308) umfasst, wobei jeder Rahmen der mehreren Rahmen an einer Wortgrenze definiert ist.
Verfahren nach Anspruch 1, wobei die Handlung des Identifizierens von Bild-, Ton- und Textelementen aus dem Bild- (303), Ton- (305) und Textsubstrom (307) ferner die folgenden Handlungen umfasst: 1.) Identifizieren von Merkmalen mit niedrigem (510), mittlerem (710) und hohem Grad (910) aus den mehreren Rahmen, die den Bild- (303), den Ton- (305) und den Textsubstrom (307) umfassen; 2.) Bestimmen eines Wichtigkeitswerts für jedes der extrahierten Merkmale mit niedrigem (510), mittlerem (710) und hohem Grad (910) von der Identifizierungshandlung; 3.) Berechnen eines Rahmenwichtigkeitswerts für jeden der mehreren Rahmen, die den Bild- (303), den Ton- (305) und den Textsubstrom (307) umfassen, als Funktion der Wichtigkeitswerte der Merkmalwichtigkeitswerte, die bei der Bestimmungshandlung bestimmt wurden; 4.) Kombinieren der Rahmen in jedem aus dem Bild- (303), dem Ton- (305) und dem Textsubstrom (307) zu Segmenten; 5.) Berechnen eines Wichtigkeitswerts pro Segment für jedes Segment von der Kombinierungshandlung; 6.) Reihen der Segmente auf Basis der berechneten Wichtigkeitswerte im Berechnungsschritt; und 7.) Identifizieren von Schlüsselelementen auf Basis der gereihten Segmente.
Verfahren nach Anspruch 6, wobei die Handlung (3) des Berechnens eines Rahmenwichtigkeitswerts für jedes der extrahierten Merkmale mit niedrigem (510), mittlerem (710) und hohem Grad (910) ferner das Berechnen des Wichtigkeitswerts durch eines aus einem deterministischen Mittel, einem statistischen Mittel und einem Mittel der bedingten Wahrscheinlichkeit umfasst.
Verfahren nach Anspruch 7, wobei das wahrscheinlichkeitstheoretische Mittel das Berechnen des Rahmenwichtigkeitswerts als eines aus einer Gaußschen, einer Poisson-, einer Rayleigh- und einer Bernoulli-Verteilung umfasst.
Verfahren nach Anspruch 8, wobei die Gaußsche Verteilung zur Berechnung des Rahmenwichtigkeitswerts als
berechnet wird, wobei θ eines der Merkmale ist; θ₁ der Durchschnitt des Merkmalwerts ist; und θ₂ die erwartete Abweichung ist.
Verfahren nach Anspruch 7, wobei das deterministische Mittel das Berechnen des Rahmenwichtigkeitswerts als Rahmenwichtigkeit = Σ wifi umfasst, wobei f_i Merkmale mit niedrigem, mittlerem, oder hohem Grad darstellt; und w_i Gewichtungsfaktoren zur Gewichtung der Merkmale darstellt.
Verfahren nach Anspruch 6, wobei der Schritt (4) des Kombinierens der Rahmen zu Bildsegmenten ferner das Kombinieren der Rahmen durch eines aus einem Familienhistogrammmittel und einem Schussänderungsfeststellmittel umfasst.
Verfahren nach Anspruch 6, wobei der Schritt (4) des Kombinierens der Rahmen zu Tonsegmenten ferner die folgenden Schritte umfasst: Kategorisieren jedes Rahmens aus dem Tonsubstrom (305) als eines aus einem Sprachrahmen, einem Musikrahmen, einem Stillerahmen, einem Rauschrahmen, einem Sprach+Sprach-Rahmen, einem Sprach+Rausch-Rahmen und einem Sprach+Musik-Rahmen; und Gruppieren aufeinanderfolgender Rahmen, die die gleiche Kategorisierung aufweisen.
Verfahren nach Anspruch 6, wobei die Handlung Schritt (4) des Kombinierens der Rahmen zu Textsegmenten ferner das Kombinieren der Rahmen auf Basis der Interpunktion, die im Textsubstrom (307) enthalten ist, umfasst.
Verfahren nach Anspruch 6, wobei der Schritt (5) des Berechnens eines Wichtigkeitswerts pro Segment ferner das Mitteln der Rahmenwichtigkeitswerte für jene Rahmen umfasst, die das Segment umfassen.
Verfahren nach Anspruch 6, wobei der Schritt (5) des Berechnens eines Wichtigkeitswerts pro Segment ferner das Verwenden des höchsten Rahmenwichtigkeitswerts in diesem Segment umfasst.
Verfahren nach Anspruch 6, wobei der Schritt (7) des Identifizierens von Schlüsselelementen auf Basis der Reihungen ferner das Identifizieren von Schlüsselelementen umfasst, deren Segmentreihung eine vorbestimmte Segmentreihungsschwelle überschreitet.
Verfahren nach Anspruch 6, wobei der Schritt (7) des Identifizierens von Schlüsselelementen auf Basis der Reihungen ferner das Identifizieren von Schlüssel elementen umfasst, deren Segmentreihung sowohl eine vorbestimmte Segmentreihungsschwelle überschreitet als auch einen lokalen Höchstwert bildet.
Verfahren nach Anspruch 6, wobei der Schritt (7) des Identifizierens von Schlüsselelementen auf Basis der Reihungen ferner das Identifizieren von Schlüsselelementen umfasst, deren Segmentreihung einen lokalen Höchstwert bildet.
System (100) zur Zusammenfassung zumindest eines Multimedia-Stroms (101, 102), umfassend ein Ausführungsarten-Erkennungs-und-Teilungs(Modality Recognition and Division, MRAD)-Modul (103), das ein Berichtsegmentidentifizierungs(Story Segment Identifier, SSI)-Modul (103a), ein Tonidentifizierungs(Audio Identifier, AI)-Modul (103b) und ein Textidentifizierungs(Text Identifer, TI)-Modul (103c) umfasst, wobei das MRAD-Modul (103) kommunikativ mit einer ersten externen Quelle (110) gekoppelt ist, um den zumindest einen Multimedia-Strom (101, 102) zu erhalten, wobei das MRAD-Modul (103) kommunikativ mit einer zweiten externen Quelle (112) gekoppelt ist, um den zumindest einen Multimedia-Strom (101, 102) zu erhalten, wobei das MRAD-Modul (103) den zumindest einen Multimedia-Strom (101, 103) in einen Bild- (303), einen Ton- (305) und einen Textsubstrom (307) teilt und den Bild- (303), den Ton- (305) und den Textsubstrom (307) an ein Schlüsselelementidentifizierungs(Key Element Identifier, KEI)-Modul (105) ausgibt, wobei das KEI-Modul (105) ein Merkmalextraktions(Feature Extraction, FE)-Modul (107) und ein Wichtigkeitswert(Importance Value, IV)-Modul (109) umfasst, um Schlüsselwerte aus dem Bild- (303), dem Ton- (305) und dem Textsubstrom (307) zu identifizieren und ihnen Wichtigkeitswerte zuzuteilen, wobei das KEI-Modul (105) kommunikativ mit einem Schlüsselelementfilter(Key Element Filter, KEF)-Modul (111) gekoppelt ist, um die identifizierten Schlüsselelemente zu erhalten und jene Schüsselelemente zu filtern, die ein vorbestimmtes Schwellenkriterium überschreiten, wobei das KEF-Modul (111) kommunikativ mit einem Benutzerprofilfilter (User Profile Filter, UPF) (113) gekoppelt ist, um die gefilterten Schlüsselelemente zu erhalten und die gefilterten Schlüsselelemente gemäß einem Benutzerprofil weiter zu filtern, wobei das UPF-Modul (113) kommunikativ mit einem Netz- und Einrichtungsbeschränkungs(Network and Device Constraint, NADC)-Modul (115) gekoppelt ist, wobei das NADC-Modul (115) die weiter gefilterten Schlüsselelemente erhält und die weiter gefilterten Schlüsselelemente gemäß Netz- und/oder Benutzereinrichtungsbeschränkungen weiter filtert, wobei das NADC-Modul (115) eine Multimedia-Zusammenfassung (120) des zumindest einen Multimedia-Stroms (101, 102) ausgibt.
System nach Anspruch 19, ferner umfassend eine Benutzerpräferenzdatenbank (117), die kommunikativ mit dem UPF-Modul (113) gekoppelt ist, um Benutzerprofile zuspeichern.
System nach Anspruch 19, wobei die erste externe Quelle (110) ein Sendekanalwähler ist.
System nach Anspruch 19, wobei die erste externe Quelle (110) eine Videostrom-Quelle ist.
System nach Anspruch 19, wobei der zumindest eine Multimedia-Strom (101, 102) eines aus einem analogen und einem digitalen Multimedia-Strom ist.
System nach Anspruch 19, wobei das NADC-Modul (115) kommunikativ mit einem externen Netz (122) verbunden ist, das mit einer Benutzereinrichtung gekoppelt ist.
System nach Anspruch 19, wobei das Netz (122) das Internet ist.
Herstellungsgegenstand zur Zusammenfassung zumindest eines Multimedia-Stroms (101, 102), umfassend: ein computerlesbares Medium, das ein darauf verkörpertes computerlesbares Codemittel aufweist, wobei das computerlesbare Programmcodemittel Folgendes umfasst: eine Handlung eines aus dem Empfangen und dem Abrufen des zumindest einen Multimedia-Stroms (101, 102), der Bild-, Ton- und Textinformationen umfasst; eine Handlung des Teilens des zumindest einen Multimedia-Stroms (101, 102) in einen Bildsubstrom (303), einen Tonsubstrom (305) und einen Textsubstrom (307); eine Handlung des Identifizierens von Bild-, Ton- und Textschlüsselelementen aus dem Bild- (303), dem Ton- (305) bzw. dem Textsubstrom (307); eine Handlung des Berechnens eines Wichtigkeitswerts für die identifizierten Bild-, Ton- und Textschlüsselelemente, die bei der Identifizierungshandlung identifiziert wurden; eine Handlung des ersten Filterns der identifizierten Bild-, Ton- und Textschlüsselelemente, um jene Schlüsselelemente auszuschließen, deren zugehöriger Wichtigkeitswert geringer als eine vordefinierte Bild-, Ton- bzw. Textwichtigkeitsschwelle ist; und eine Handlung des zweiten Filterns der zurückbleibenden Schlüsselelelente von der ersten Filterungshandlung gemäß einem Benutzerprofil; eine Handlung des dritten Filterns der zurückbleibenden Schlüsselelemente von der zweiten Filterungshandlung gemäß Netz- und Benutzereinrichtungsbeschränkungen; und eine Handlung des Ausgebens einer Multimedia-Zusammenfassung (120) von den Schlüsselelementen, die von der dritten Filterungshandlung zurückbleiben.
Herstellungsgegenstand nach Anspruch 26, wobei die Handlung des Identifizierens von Bild-, Ton- und Textschlüsselelementen aus dem Bild- (303), Ton- (305) bzw. Textsubstrom (307) ferner Folgendes umfasst: eine Handlung des Identifizierens von Merkmalen mit niedrigem (510), mittlerem (710) und hohem Grad (910) aus den mehreren Rahmen, die den Bild- (303), den Ton- (305) und den Textsubstrom (307) bilden; eine Handlung des Bestimmens eines Wichtigkeitswerts für jedes der Merkmale mit niedrigem (510), mittlerem (710) und hohem Grad (910) von der Identifizierungshandlung; eine Handlung des Berechnens eines Rahmenwichtigkeitswerts für jeden der mehreren Rahmen, die den Bild- (303), den Ton- (305) und den Textsubstrom (307) bilden, als eine Funktion der Wichtigkeitswerte der Merkmalwichtigkeitswerte, die im Bestimmungsschritt bestimmt wurden; eine Handlung des Kombinierens der Rahmen zu Segmenten in jedem des Bild- (303), des Ton- (305) und des Textsubstroms (307); eine Handlung des Berechnens eines Wichtigkeitswerts pro Segment für jedes Segment von der Kombinierungshandlung; eine Handlung des Reihens der Segmente auf Basis der Wichtigkeitswerte, die bei der Berechnungshandlung berechnet wurden; und eine Handlung des Identifizierens von Schlüsselelementen auf Basis der gereihten Segmente.