DE602004003497T2 - System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen - Google Patents

System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen Download PDF

Info

Publication number
DE602004003497T2
DE602004003497T2 DE602004003497T DE602004003497T DE602004003497T2 DE 602004003497 T2 DE602004003497 T2 DE 602004003497T2 DE 602004003497 T DE602004003497 T DE 602004003497T DE 602004003497 T DE602004003497 T DE 602004003497T DE 602004003497 T2 DE602004003497 T2 DE 602004003497T2
Authority
DE
Germany
Prior art keywords
stream
text
image
key elements
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE602004003497T
Other languages
English (en)
Other versions
DE602004003497D1 (de
Inventor
Lalitha Briarcliff Manor AGNIHOTRI
Nevenka Briarcliff Manor DIMITROVA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE602004003497D1 publication Critical patent/DE602004003497D1/de
Application granted granted Critical
Publication of DE602004003497T2 publication Critical patent/DE602004003497T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234354Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering signal-to-noise ratio parameters, e.g. requantization
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2402Monitoring of the downstream path of the transmission network, e.g. bandwidth available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26208Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints
    • H04N21/26216Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints involving the channel capacity, e.g. network bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4755End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user preferences, e.g. favourite actors or genre
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6131Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via a mobile phone network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6582Data stored in the client, e.g. viewing habits, hardware capabilities, credit card number
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8453Structuring of content, e.g. decomposing content into time segments by locking or enabling a set of features, e.g. optional functionalities in an executable program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/165Centralised control of user terminal ; Registering at central
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • H04N7/17309Transmission or handling of upstream communications
    • H04N7/17318Direct or substantially direct transmission and handling of requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • H04N7/17309Transmission or handling of upstream communications
    • H04N7/17336Handling of requests in head-ends
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computer Graphics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

  • Die vorliegende Erfindung betrifft im Allgemeinen die Zusammenfassung von Video- oder Bewegungsbildern, und insbesondere ein System und ein Verfahren zur Bereitstellung einer Multimedia-Zusammenfassung (Bild/Ton/Text) einer Nachrichtensendung, um es einem Benutzer zu ermöglichen, die Sendung besser zu überfliegen und über ihr Ansehen zu entscheiden.
  • Die Menge an Videoinhalten erweitert sich mit einer immer zunehmenden Geschwindigkeit. Gleichzeitig nimmt die verfügbare Zeit für Seher, die gesamten erwünschten Videoinhalte zu konsumieren oder auf andere Weise zu sehen, ab. Durch die gesteigerte Menge an Videoinhalten in Kopplung mit der abnehmenden Zeit, die zum Sehen der Videoinhalte verfügbar ist, wird es für Seher zunehmend problematisch, alle potentiell erwünschten Inhalte vollständig zu sehen. Demgemäß sind Seher hinsichtlich der Videoinhalte, die sie zum Ansehen auswählen, zunehmend wählerisch. Um den Benutzerforderungen entgegenzukommen, wurden Techniken entwickelt, um eine Zusammenfassung des Videos bereitzustellen, die auf irgendeine Weise für das gesamte Video kennzeichnend ist. Der typische Zweck zur Erzeugung einer Videozusammenfassung ist, eine kompakte Darstellung des ursprünglichen Videos für ein anschließendes Ansehen zu erhalten.
  • Auf dem Gebiet der automatisierten Berichtsegmentierung und -identifizierung werden ständig Fortschritte gemacht, wie durch den BNE (Broadcast News Editor) und den BNN (Broadcast News Navigator) der MITRE Corporation (Andrew Merlino, Daryl Morey, und Mark Maybury, MITRE Corporation, Bedford MA, Broadcast News Navigation using Story Segmentation, ACM Multimedia Conference Proceeding, 1997, Seite 381 bis 389) bewiesen wird. Unter Verwendung des BNE werden Nachrichtensendungen automatisch in einzelne Berichtsegmente unterteilt, und wird die erste Zeile des Untertiteltexts, der dem Segment zugehörig ist, als eine Zusammenfassung jedes Berichts verwendet. Für jedes Berichtsegment werden Schlüsselworte aus dem Untertiteltext oder dem Ton bestimmt, die mit den Suchbegriffen übereinstimmen. Der Benutzer wählt auf Basis der Häufigkeit des Auftretens von übereinstimmenden Schlüsselworten Berichte von Interesse aus. Ähnliche Such- und Abruftechniken werden in der Technik alltäglich. Zum Beispiel können herkömmliche Textsuchtechniken auf einen computerbasierten Fernsehprogrammführer angewendet werden, damit eine Person nach einem bestimmten Sendungstitel, einem bestimmten Darsteller, Sendungen einer bestimmten Art, und dergleichen suchen kann.
  • Das Dokument US-A-2002/0,157,095 offenbart ein System, das fähig ist, eine Inhaltszusammenfassung eines Multimedia-Stroms zu erzeugen, wobei unter Berücksichtigung eines Präferenzprofils eines Benutzers Wichtigkeitsgrade für Inhaltssegmente bestimmt werden.
  • Ein Nachteil der herkömmlichen Such- und Abruftechniken ist der Bedarf an einer ausdrücklichen Suchaufgabe, und die entsprechende Auswahl unter Alternativen auf Basis der ausdrücklichen Suche. Häufig hat ein Benutzer jedoch kein ausdrückliches Suchthema im Sinn. In einem typischen Kanalsurf-Szenario überfliegt ein Benutzer zufällig eine Vielzahl von Kanälen hinsichtlich irgendeines aus einer Anzahl von Themen, die von Interesse sein könnten, anstatt spezifisch nach einem bestimmten Thema zu suchen. Das heißt, ein Benutzer kann ohne ein bestimmtes Thema im Sinn ein zufälliges Überfliegen beginnen und einen der vielen überflogenen Kanäle auf Basis des Themas auswählen, das zum Zeitpunkt des Überfliegens auf jenem Kanal geboten wurde. In einem anderen Szenario kann ein Benutzer das Fernsehgerät im Hintergrund überwachen, während er eine andere Tätigkeit wie etwa Lesen oder Kochen durchführt. Wenn ein Thema von Interesse auftaucht, lenkt der Benutzer den Mittelpunkt seines Interesses auf das Fernsehgerät um, und führt dann seine Aufmerksamkeit zur anderen Tätigkeit zurück, wenn ein weniger interessantes Thema geboten wird.
  • Demgemäß ist eine Technik zur automatischen Erzeugung einer Multimedia-Zusammenfassung, die Bild-, Ton- und Textabschnitte eines Videostroms (Nachrichtensendung) zusammenfasst, ohne dass ein Benutzer ausdrücklich Schlüsselworte verwendet muss, um nach bestimmten Nachrichtenthemen zu suchen, höchst wünschenswert.
  • Die vorliegende Erfindung überwindet die Mängel des Stands der Technik. Im Allgemeinen zielt die vorliegende Erfindung auf ein System und ein Verfahren zur Erzeugung einer Multimedia-Zusammenfassung von einem oder mehreren Eingangs-Videoströmen ab, die einem Benutzer gestattet, die Videosequenzen besser zu überfliegen und/oder über ihr vollständiges Ansehen zu entscheiden. Die Multimedia-Zusammenfassung wird, zum Teil auf Basis von Systemspezifikationen, Benutzerspezifikationen und Netz- und Einrichtungsbeschränkungen, automatisch aufgebaut. In einer bestimmten Anwendung der Erfindung stellen die Videosequenzen Nachrichtensendungen dar.
  • Ein Merkmal der Erfindung ist die Erzeugung einer Multimedia-Zusammenfassung eines Eingangs-Videostroms, der zur Verwendung mit einer breiten Vielfalt von Einrichtungen geeignet ist, die von bandbreitebegrenzten Einrichtungen wie etwa Minicomputern und Mobiltelefonen bis zu nicht bandbreitebegrenzten Einrichtungen wie etwa Personalcomputern und Multimedia-Arbeitsstationen reichen.
  • Ein anderes Merkmal der Erfindung ist die Schaffung von Flexibilität in der Weise, in der die Multimedia-Zusammenfassung aufgebaut ist. Das heißt, die Erfindung gestattet dem Benutzer, die Multimedia-Zusammenfassung so zuzuschneiden, dass sie den Sehpräferenzen des bestimmten Benutzers entspricht. Genauer kann ein Benutzer einen oder mehrere Parameter bereitstellen, die zum Beispiel bestimmen, ob die Multimedia-Zusammenfassung umfassend oder schnell sein soll; ob die Multimedia-Zusammenfassung nur eine Zusammenfassung eines einzelnen Hauptartikels oder eine Zusammenfassung der wichtigsten Hauptartikel enthalten soll; ob die Zusammenfassung nur Text, nur Ton oder nur Bilder oder Kombinationen davon enthalten soll. Der Benutzer kann auch einen oder mehrere Schlüsselwortparameter bereitstellen, die durch das Zusammenfassungssystem verwendet werden, um passende Teile des Texts, des Tons und der Bilder zur Aufnahme in die Multimedia-Zusammenfassung aus dem Eingangs-Videostrom auszuwählen.
  • Nach einem Gesichtspunkt der Erfindung umfasst ein Verfahren zur Erzeugung einer Multimedia-Zusammenfassung einer Nachrichtensendung die folgenden Handlungen: Eines aus Empfangen und Abrufen eines Multimedia-Stroms, der Bild-, Ton- und Textinformationen umfasst; Teilen des Multimedia-Stroms in einen Bildsubstrom, einen Tonsubstrom und einen Textsubstrom; Identifizieren von Bild-, Ton- und Textschlüsselelementen aus dem Bild-, dem Ton- bzw. dem Textsubstrom; Berechnen eines Wichtigkeitswerts für die identifizierten Bild-, Ton- und Textschlüsselelemente, die im Identifizierungsschritt identifiziert wurden; erstes Filtern der identifizierten Bild-, Ton- und Textschlüsselelemente, um jene Schlüsselelemente auszuschließen, deren zugehöriger Wichtigkeitswert geringer als eine vordefinierte Bild-, Ton- bzw. Textwichtigkeitsschwelle ist; und zweites Filtern der Schlüsselelemente, die vom Filterungsschritt zurückbleiben, gemäß einem Benutzerprofil, drittes Filtern der Schlüsselelemente, die vom zweiten Filterungsschritt zurückbleiben, gemäß Netz- und Benutzereinrichtungsbeschränkungen; und Ausgeben einer Multimedia-Zusammenfassung von den Schlüsselelementen, die vom dritten Filterungsschritt zurückbleiben.
  • Obwohl diese Erfindung für Nachrichtensendungen besonders gut geeignet ist, gestatten die Grundsätze dieser Erfindung einem Benutzer ebenso, auch eine Multimedia-Zusammenfassung von anderen Arten von Sendungen zu erhalten. Zum Beispiel ist die Erfindung auf Multimedia-Zusammenfassungen von Filmvideos anwendbar, um einem Benutzer zu gestatten, den Film besser zu überfliegen und über sein vollständiges Ansehen zu entscheiden.
  • Die Erfindung umfasst auch einen Herstellungsgegenstand zur Ausführung des Verfahrens. Andere Merkmale und Vorteile der Erfindung werden durch die folgende ausführliche Beschreibung, die Zeichnungen und die beiliegenden Ansprüche, die in Verbindung mit den beiliegenden Zeichnungen herangezogen werden, offensichtlich werden. Es zeigen:
  • 1 ein schematisches Diagramm eines Überblicks über eine beispielhafte Ausführungsform eines Multimedia-Zusammenfassungssystems gemäß der vorliegenden Erfindung;
  • 2 ein Ablaufdiagramm eines Verfahrens zur Zusammenfassung gemäß der vorliegenden Erfindung;
  • 3 einen beispielhaften Videostrom einer typischen Nachrichtensendung;
  • 4 ein Ablaufdiagramm eines Verfahrens zur Identifizierung von Schlüsselelementen gemäß der vorliegenden Erfindung;
  • 5 ein beispielhaftes Blockdiagramm des Vorgangs der Merkmalextraktion und der Erlangung von Merkmalen aus einem Eingangs-Multimedia-Strom; und
  • 6 ein Diagramm, das veranschaulicht, wie die Zeitelemente, die den Tonsubstrom bilden, gruppiert werden können, um Segmente zu bilden; und
  • 7a bis c Diagramme, die verschiedene Weisen zur Identifizierung von Schlüsselelementen veranschaulichen.
  • Die vorliegende Erfindung zielt auf ein System und ein Verfahren zur Zusammenfassung eines oder mehrerer Eingangs-Videoströme über drei Ausführungsarten (Bild, Ton, Text) ab.
  • Es versteht sich, dass die beispielhaften Systemmodule und Verfahren, die hierin beschrieben sind, in verschiedensten Formen von Hardware, Software, Firmware, Spezialprozessoren, oder einer Kombination davon ausgeführt sein können. Vorzugsweise ist die vorliegende Erfindung in Software als Anwendungsprogramm ausgeführt, das greifbar an einer oder mehreren Programmspeichereinrichtungen verkörpert ist. Das Anwendungsprogramm kann durch jede beliebige Maschine, Einrichtung oder Plattform ausgeführt werden, die eine geeignete Architektur umfasst. Es versteht sich ferner, dass sich die tatsächlichen Verbindungen zwischen den Systembestandteilen infolge der bevorzugten Ausführung einiger der aufbauenden Systemmodule und Verfahren, die in den beiliegenden Figuren dargestellt sind, in Software abhängig von der Weise, in der die vorliegende Erfindung programmiert ist, unterscheiden können. Angesichts der hierin gegebenen Lehren wird ein Durchschnittsfachmann fähig sein, diese und ähnliche Ausführungen oder Gestaltungen der vorliegenden Erfindung ins Auge zu fassen oder praktisch auszuführen.
  • Die vorliegende Erfindung beinhaltet ein Computerprogrammerzeugnis, bei dem es sich um ein Speichermedium (Speichermedien) handelt, das darauf/darin gespeicherte Befehle aufweist, die verwendet werden können, um einen Computer zur Ausführung irgendeines der Vorgänge der vorliegenden Erfindung zu programmieren. Das Computerprogrammprodukt kann auch Daten, z.B. Eingabedaten, enthalten, die irgendeinem der Vorgänge der vorliegenden Erfindung entsprechen. Das Speichermedium kann, jedoch ohne Beschränkung darauf, jede beliebige Art von Platte einschließlich Floppy Disks, optischer Platten, DVDs, CD-ROMs, Mikrolaufwerke, und magnetooptischer Platten, ROMs, RAMs, EPROMs, EEPROMs, DRAMs, VRAMs, Flash-Speicher-Einrichtungen, magnetische oder optische Karten, Nanosysteme (einschließlich Molekularspeicher-ICs), oder jede beliebige Art von Medium oder Einrichtung, das bzw. die zur Speicherung von Befehlen und/oder Daten geeignet ist, umfassen.
  • Auf einem beliebigen computerlesbaren Medium (Medien) gespeichert, enthält die vorliegende Erfindung Software, um sowohl die Hardware eines Allzweck/Spezialcomputers oder Mikroprozessors zu steuern, als auch dem Computer oder dem Mikroprozessor zu ermöglichen, mit einem menschlichen Benutzer oder einem anderen Mechanismus, der die Ergebnisse der vorliegenden Erfindung benutzt, in Wechselwirkung zu treten. Eine derartige Software kann, jedoch ohne Beschränkung darauf, Einrichtungstreiber, Betriebssysteme, und Benutzeranwendungen beinhalten.
  • Letztendlich umfasst ein derartiges computerlesbares Medium wie oben beschrieben Software, um die vorliegende Erfindung durchzuführen.
  • Die Systemarchitektur
  • Unter Bezugnahme auf 1 ist ein schematischer Überblick über eine Ausführungsform eines Multimedia-Zusammenfassungssystems 100 gemäß der vorliegenden Erfindung gezeigt. Das Multimedia-Zusammenfassungssystem 100 wird nur als nicht beschränkendes Beispiel im Kontext eines Zusammenfassungssystems 100 zur Zusammenfassung von Nachrichtenberichten gezeigt werden, obwohl einem Durchschnittsfachmann die Erweitung der hierin gezeigten Grundsätze auf andere Multimedia-Anwendungen offensichtlich sein werden.
  • In der Ausführungsform, die in 1 gezeigt ist, erhält das Multimedia-Zusammenfassungssystem 100 einen Multimedia-Strom 101 als Eingang von einem Sendekanalwähler 110, zum Beispiel einem Fernsehkanalwähler oder einem Satellitenempfänger. Das System 100 kann auch einen vorgespeicherten Multimedia-Strom 102 von einem Videospeicherraum abrufen. Das System 100 kann auch einen Eingang in Form eines Videostroms wie etwa von einem Server in einem Netz erhalten. Die Multimedia-Eingangsströme 101, 102 können in digitaler oder in analoger Form sein, und die Sendung kann jede beliebige Form von Medium sein, das verwendet wird, um die Ströme 101, 102 zu übermitteln, einschließlich Punkt-zu-Punkt-Kommunikationen. In der Ausführungsform, die in 1 gezeigt ist, entsprechen die Eingangs-Multimedia-Ströme 101, 102 nur als nicht beschränkendes Beispiel Nachrichtensendungen, und enthalten sie mehrere Nachrichtenberichte mit eingestreuten Ankündigungen oder Werbespots. Die Nachrichtensendung könnte zum Beispiel ein besonderes Nachrichtenprogramm wie etwa CNN Headline News, NBC Nightly News usw. darstellen.
  • In der Ausführungsform, die in 1 gezeigt ist, umfasst das Multimedia-Zusammenfassungssystem 100 ein Ausführungsarten-Erkennungs-und-Teilungs(Modality Recognition and Division, MRAD)-Modul 103, um die Eingangs-Multimedia-Ströme 101, 102 in drei Ausführungsarten zu teilen, die nachstehend als Bildsubstrom 303, Tonsubstrom 305 und Textsubstrom 307 bezeichnet werden. Das MRAD-Modul 103 umfasst ein Berichtsegmentidentifizierungs(Story Segment Identifier, SSI)-Modul 103a, ein Tonidentifizierungs(Audio Identifer, AI)-Modul 103b und ein Textidentifizierungs(Text Identifier, TI)-Modul 103c, um die Eingangs-Multimedia-Ströme 101, 102 zu verarbeiten und den Bild- 303, den Ton- 305 bzw. den Textsubstrom 307 auszugeben. Die Subströme 303, 305, 307 werden vom MRAD-Modul 103 an ein Schlüsselelementidentifizierungs(Key Element Identifier, KEI)-Modul 105 ausgegeben, um Schlüsselelemente aus dem Inneren der jeweiligen Subströme 303, 305, 307 zu identifizieren. Das KEI-Modul 105 umfasst ein Merkmalextraktions(Feature Extraction, FE)-Modul 107 und ein Wichtigkeitswert(Importance Value, IV)-Modul 109. Die Funktionalität des KEI-Moduls 105 ist nachstehend in Verbindung mit 4 bis 7 ausführlicher beschrieben. Der Ausgang des KEI-Moduls 105 ist mit dem Eingang des Schlüsselelementfilter(Key Element Filter, KEF)-Moduls 111 gekoppelt, das die durch das KEI-Modul 105 identifizierten Schlüsselelemente auf eine nachstehend zu beschreibende Weise filtert. Die überlebenden Schlüsselelemente, die vom KEF 111 ausgegeben werden, werden einem Benutzerprofilfilter (User Profile Filter, UPF) 113 als Eingang bereitgestellt, das die überlebenden Schlüsselelemente gemäß einer vorbestimmten Benutzerpräferenz weiter filtert. Wie gezeigt, ist das UPF-Modul 113 mit einer oder mehreren Speichereinrichtungen (d.h., einer Benutzerpräferenzdatenbank 117) zur Speicherung der vorbestimmten Benutzerpräferenzen gekoppelt. Der Ausgang des UPF-Moduls 113 ist mit dem Eingang des Netz- und Einrichtungsbeschränkungs(Network and Device Constraint, NADC)-Moduls 115 gekoppelt, das die überlebenden Schlüsselelemente, die vom UPF-Modul 113 ausgegeben werden, gemäß den vorherrschenden Netzbedingungen und Benutzereinrichtungsbeschränkungen weiter filtern kann. Das NADC-Modul 115 gibt die Multimedia-Zusammenfassung 120 der Erfindung aus. Typischerweise wird die Multimedia-Zusammenfassung von einem entfernten Benutzer über eine Kundeneinrichtung 124 angefordert werden, die über ein Netz 122 wie etwa das Internet, Intranet oder jedes beliebige andere geeignete Netz an das Zusammenfassungssystem 100 angeschaltet ist. Die Kundeneinrichtung 124 kann jede beliebige elektronische Einrichtung sein, die dazu betriebsfähig ist, sich mit dem Netz 122 zu verbinden und darüber Daten zu übertragen. Zum Beispiel kann die Kundeneinrichtung 124 eine verdrahtete Einrichtung (z.B. einen Personalcomputer, eine Arbeitsstation, oder ein Faxgerät) oder eine drahtlose Einrichtung (z.B. einen Laptop, einen Minicomputer (PDA), ein Mobiltelefon, einen Pager, ein intelligentes Telefon, eine anziehbare Rechen- und Kommunikationseinrichtung oder einen Kommunikator) beinhalten.
  • Der Betrieb
  • Nun wird unter Bezugnahme auf 1 bis 3 eine Überblicksbesprechung des Multimedia-Zusammenfassungsverfahrens der vorliegenden Erfindung bereitgestellt. Danach werden weiter unten ausführlichere Beschreibungen von verschiedenen Handlungen in Verbindung mit dem beschriebenen Verfahren bereitgestellt werden.
  • 2 ist ein Ablaufdiagramm, das ein Verfahren zur Zusammenfassung gemäß einer Ausführungsform der vorliegenden Erfindung bereitstellt:
    Der Vorgang beginnt bei Handlung 205.
    Bei Handlung 210 ruft das Multimedia-Zusammenfassungssystem 100 einen oder mehrere Multimedia-Ströme 101, 102 (z.B. Nachrichtensendungen) als Eingang ab und/oder empfängt es diese.
    Bei Handlung 215 wird der abgerufene/empfangene Eingangs-Multimedia-Strom 101 gemäß drei Ausführungsarten (d.h., Bild, Ton und Text) geteilt.
  • 3a bis 3d veranschaulichen beispielhaft, wie ein Eingangs-Multimedia-Strom (z.B. der Strom 101) gemäß den drei Ausführungsarten geteilt werden kann. 3a ist eine allgemeine Darstellung eines Eingangs-Multimedia-Stroms 101 (z.B. einer Nachrichtensendung 101), der darüber hinweg verteilte Bild-, Ton- und Textbestandteile umfasst. Wie oben erwähnt, könnte die Nachrichtensendung zum Beispiel ein bestimmtes Nachrichtenprogramm wie etwa CNN Headline News, NBC Nightly News, usw. darstellen.
  • 3b bis 3d veranschaulichen, wie der Eingangs-Multimedia-Strom 101 gemäß den drei Ausführungsarten geteilt werden kann.
  • Unter erster Bezugnahme auf 3b ist gemäß der Bildausführungsart ein Bildsubstrom 303 gezeigt, der den Eingangs-Multimedia-Strom 101 so verarbeitet darstellt, dass er eine Nachrichtenberichtsegmentierung hervorhebt. Der Bildsubstrom 303 von 3b ist so gezeigt, wie er vom Berichtsegmentidentifizierungs(SSI)-Submodul 103a des MRAD-Moduls 103 ausgegeben wird. Der beispielhafte Bildsubstrom 303 ist durch das SSI-Submodul 103a in mehrere Bildrahmen (z.B. die Rahmen 1 bis 2500) geteilt, wovon zur Erleichterung der Erklärung nur 40 gezeigt sind. Die Teilung beruht auf dem typischen Aufbau einer Nachrichtensendung. Das heißt, die typische Nachrichtensendung folgt einem üblichen Format, das zur Berichtsegmentierung besonders gut geeignet ist. Zum Beispiel könnte sich ein erster oder Hauptbericht auf politische Ereignisse in Washington beziehen, und könnte sich ein zweiter Nachrichtenbericht auf einen Arbeiterstreik oder einen Brand eines Gebäudes beziehen. Zum Beispiel erscheint wie in 3b gezeigt nach einem Einleitungsrahmen 301 (Rahmen 1) typischerweise ein Nachrichtensprecher oder Moderator (Moderatorrahmen 2 bis 4) und stellt einen ersten Bericht 321 (Rahmen 5 bis 24) vor. Die Moderatorrahmen 2 bis 4 und die Nachrichtenberichtsegmentrahmen 5 bis 24 werden gesammelt als erster Nachrichtenbericht 311, 321 bezeichnet. Nach dem Nachrichtenbericht erscheint der Moderator erneut 312 (Moderatorrahmen 25 bis 29), um den zweiten Bericht 322 (Rahmen 30 bis 39) vorzustellen, was gesammelt als zweiter Nachrichtenbericht 312, 322 bezeichnet wird. Die Abfolge von Moderator-Bericht-Moderator, mit eingestreuten Werbespots, wiederholt sich bis zum Ende der Nachrichtensendung, z.B. Rahmen 2500. Das wiederholte Erscheinen des Moderators 311, 312, ..., typischerweise an der gleichen abgestuften Stelle, dient dazu, den Beginn jedes Berichtssegments und das Ende des vorherigen Nachrichtensegments oder Werbespots deutlich zu identifizieren. Da Standards wie etwa MPEG-7 entwickelt werden, um Videoinhalte zu beschreiben, kann auch erwartet werden, dass Videoströme deutliche Markierungen enthalten werden, die den Beginn und das Ende von unabhängigen Segmenten im Strom identifizieren.
  • Eine Weise zur Identifizierung von Nachrichtenberichtsegmenten ist in der am 6. Dezember 2000 an Elenbaas, J H; Dimitrova, N; Mcgee, T; Simpson, M; Martino, J; Abdel-Mottaleb, M; Garrett, M; Ramsey, C; Desai, R. ausgestellten EP-Patentschrift Nr. 1 057 129 A1, "Personalized Video Classification and Retrieval System" beschrieben, deren gesamte Offenbarung durch Nennung als hierin aufgenommen betrachtet wird.
  • Unter nun erfolgender Bezugnahme auf 3c ist der Tonsubstrom 305 gezeigt. Die Tonidentifizierung im Eingangs-Multimedia-Strom 101 ist insofern verhältnismäßig unkompliziert, als das Tonidentifizierungs-Submodul 103b eine Tongrenze, in der beispielhaften Ausführungsform z.B. 20 ms, vorwählt, und den Eingangs-Multimedia-Strom 101 vom Anfang bis zum Ende in mehrere ZEIT-Rahmen 304 von 20 ms teilt, um den Tonsubstrom 305 aufzubauen.
  • Unter erneuter Bezugnahme auf 1 wird der Eingangs-Multimedia-Strom 101 vom MRAD-Modul 103 erhalten und durch das Tonidentifizierungs(AI)-Submodul 103b verarbeitet, um den Tonsubstrom 305 auszugeben.
  • Unter nun erfolgender Bezugnahme auf 3d ist der Textsubstrom 307 gezeigt. Die Textidentifizierung ist insofern verhältnismäßig unkompliziert, als die Textidentifizierungseinrichtung einen Rahmen 308 an Wortgrenzen definiert, die im Text-Substrom 307 identifiziert werden.
  • Unter erneuter Bezugnahme auf 1 wird der Eingangs-Multimedia-Strom 101 durch das MRAD-Modul 103 erhalten und durch das Textidentifizierungs(TI)-Submodul 103c verarbeitet, um den Textsubstrom 307 auszugeben. Der Bild- 303, der Ton- 305, und der Textsubstrom 307, die vom MRAD-Modul 103 ausgegeben werden, werden danach dem Schlüsselelementidentifizierungs-KEI-Modul 105 bereitgestellt.
  • Bei Handlung 220 wird durch das KEI-Modul 105 eine Schlüsselelementidentifizierungsanalyse an den Eingangs-Subströmen 303, 305, 307 vorgenommen, um in jedem jeweiligen Substrom Schlüsselelemente zu identifizieren. Ein Schlüsselelement kann allgemein als ein "Segment" eines Substroms 303, 305, 307 definiert werden, das ein vorbestimmtes Kriterium erfüllt oder übertrifft, wie nachstehend näher beschrieben werden wird.
  • Bei Handlung 225 werden jene Schlüsselelemente, die bei Handlung 220 identifiziert wurden, weiter gefiltert, wodurch nur jene Schlüsselelemente, deren berechneter Wichtigkeitswert bei Handlung 220 ein vorbestimmtes Kriterium erfüllt oder übertrifft, zurückbehalten werden. Das Schlüsselelementfilter(KEF)-Modul 111 von 1 führt diesen Filterungsvorgang durch.
  • Bei Handlung 230 bestimmt das Benutzerprofilfilter(UPF)-Modul 113 von 1 zuerst, ob der Benutzer vorher ein Benutzerprofil bereitgestellt hat, das aus einer Anzahl von Benutzerzuschnittsparametern besteht, die vorzugsweise in der Benutzerpräferenzdatenbank 117 gespeichert sind. Wenn ein Benutzerprofil vorhanden ist, wird dieses bei Handlung 232 verwendet, um die überlebenden Schlüsselelemente von Handlung 225 weiter zu filtern.
  • Das Benutzerprofil kann aus einer Anzahl von Zuschnittsparametern (Präferenzparametern), die durch den Benutzer bereitgestellt werden, bestehen. Die Parameter können entweder zur Laufzeit bereitgestellt werden oder vorzugsweise vom UPF 109 aus der Benutzerpräferenzdatenbank 117 abgerufen werden, um besondere Zuschnittspräferenzen des Benutzers hinsichtlich der Darstellung der Multimedia-Zusammenfassung 120 anzugeben. Falls die Zuschnittsparameter aus der Benutzerpräferenzdatenbank 117 abgerufen werden, werden Benutzer des Systems ihre Präferenzen mit dem System 100 typischerweise während eines Konfigurationsstadiums speichern. Die Zuschnittsparameter bestimmen in einem gewissen Maß, wie die Multimedia-Zusammenfassung 120 zugeschnitten werden soll, um den besonderen Sehpräferenzen des Benutzers zu entsprechen.
  • Die durch einen Benutzer bereitgestellten Zuschnittsparameter können zum Beispiel beinhalten:
    • • ob die Multimedia-Zusammenfassung 120 umfassend oder schnell sein soll;
    • • ob die Multimedia-Zusammenfassung 120 nur Text, Ton, Standbilder, Video oder Kombinationen davon beinhalten soll.
    • • Aufgaben, die durchgeführt werden sollen, wie etwa das Überfliegen hinsichtlich neuer Videos oder das Wiederaufrufen eines bereits gesehenen Films;
    • • den Ort, an dem die Zusammenfassung 120 gesehen werden soll (z.B. den Kontext);
    • • die Tageszeit, die Woche, das Monat oder das Jahr, wenn die Multimedia-Zusammenfassung 120 gesehen wird.
    • • Ein oder mehrere "Schlüsselwort"zuschnittsparameter können durch den Benutzer bereitgestellt werden, um bestimmte Punkte von Interesse für den Benutzer (z.B. Personen, Orte oder Dinge) zu identifizieren. Als ein Beispiel kann ein Benutzer die Schlüsselworte "Politik" und "Baseball" bestimmen, die durch das Videozusammenfassungssystem 100 verwendet werden, um Nachrichtenberichtsegmente ausfindig zu machen, die die ausgewählten Schlüsselworte betonen.
  • Nur beispielhaft kann dann, wenn ein Benutzer bevorzugt, dass die Multimedia-Zusammenfassung 120 nur auf eine Tonzusammenfassung beschränkt wird, das am höchsten bewertete Tonsegment aus dem Tonsubstrom 305 gewählt und dem Benutzer geboten werden. Als weiteres Beispiel werden dann, wenn der Benutzer bevorzugt, eine schnelle Multimedia-Zusammenfassung 120 (z.B. eine zweiminütige Nachrichtenzusammenfassung) zu sehen, die Nachrichtenberichte, an denen der Benutzer interessiert ist, gemäß der Benutzerprofilpräferenz gewählt, und aus jedem ausgewählten Nachrichtenbericht nur die am höchsten bewerteten Bild-, Ton- und Textsegmente aus den jeweiligen Bild- 303, Ton- 305 und Textsubströmen ausgewählt, um eine zeitbeschränkte Multimedia-Zusammenfassung 120 aufzubauen.
  • Bei Handlung 235 werden jene Schlüsselelemente, die die vorherige Handlung der Benutzerprofilfilterung überleben, nun durch Berücksichtigung von Netz- und Einrichtungsbeschränkungen weiter gefiltert. Im Besonderen berücksichtigt das Netz- und Einrichtungsbeschränkungs(Network and Device Constraint, NADC)-Modul 115 jegliche Netzbandbreitenbeschränkungen des Netzes, über das die Multimedia-Zusammenfassung 120 übertragen werden soll, und berücksichtigt es zusätzlich jene Beschränkungen, die mit der Sichteinrichtung des Benutzers verbunden sind. Wie beschrieben werden wird, werden die überlebenden Schlüsselelemente von Schritt 230 gemäß jedweden bekannten Netz- und Einrichtungsbeschränkungen abgeändert.
  • Im typischen Fall, bei dem die Multimedia-Zusammenfassung 120 über ein Netz wie etwa das Internet übertragen wird, werden die Einrichtungsbeschränkungen und die verfügbare Übertragungsbandbreite die Qualität und die Menge der Multimedia-Zusammenfassung 120, die übertragen werden soll, in einem gewissen Maß vorschreiben. Aufgrund der inhärenten Bandbreitenanforderungen von Video wird die Multimedia-Zusammenfassung 120 typischerweise in der Qualität und/oder in der Menge des Bildanteils der Multimedia-Zusammenfassung 120 beschränkt sein. Im Vergleich dazu werden der Ton- und der Textanteil einer Multimedia-Zusammenfassung 120 nicht an ähnlichen Beschränkungen leiden.
  • Drahtlose Netze stellen eine typische bandbreitebegrenzte Anwendung dar. Derartige bandbreitebegrenzte Bedingungen können aufgrund entweder der direkten technologischen Beschränkungen, die durch die Verwendung eines Datenkanals mit niedriger Bandbreite vorgeschrieben werden, oder der indirekten Beschränkungen, die Kanälen mit verhältnismäßig hoher Bandbreite durch hohe gleichzeitige Benutzerlasten auferlegt werden, bestehen. Es ist ins Auge gefasst, dass die Netzbandbreite in einer transparenten Weise in Echtzeit überwacht werden kann, um den gegenwärtigen Zustand des Netzes zu bestimmen. Die Multimedia-Zusammenfassung kann gemäß einer vorherrschenden Netzbedingung abgeändert werden. Zum Beispiel kann die Multimedia-Zusammenfassung 120 im Fall einer überfüllten Netzbedingung durch Begrenzen der Bildqualität jedes überlebenden Schlüsselelements von Handlung 235 beschränkt werden.
  • Im Hinblick auf Einrichtungsbeschränkungsüberlegungen sind zellular verbundene PDAs und Webtelefone Beispiele für Einrichtungen, die charakteristisch hinsichtlich der Verarbeitungsleistung, den Anzeigefähigkeiten, des Speichers, den Betriebssystemen und dergleichen beschränkt sind. Als Ergebnis dieser Beschränkungen weisen diese Einrichtungen unterschiedliche Fähigkeiten auf, um Videodaten zu empfangen, zu verarbeiten, und darzustellen. Die Multimedia-Zusammenfassung 120 kann durch Begrenzen der Videoauflösung, der Bitrate und so weiter so eingestellt werden, dass sie sich den Einrichtungsbeschränkungen anpasst.
  • Wenn die Benutzereinrichtung nur fähig ist, Text zu liefern, werden für jeden der Nachrichtenberichte die am höchsten gereihten Textsegmente gewählt und an die Einrichtung gesendet.
  • Bei Handlung 240 wird die Multimedia-Zusammenfassung 120, die aus jenen Schlüsselelementen besteht, die Handlung 235 überleben, an den Benutzer ausgegeben.
  • Diese Besprechung beschließt den Überblick über das Videozusammenfassungssystem und -verfahren. Nun wird eine ausführlichere Beschreibung des Betriebs von verschiedenen Gesichtspunkten des Verfahrens bereitgestellt werden.
  • Im Vorhergehenden wurde unter Bezugnahme auf das Ablaufdiagramm von 2 eine Hauptbeschreibung einer Ausführungsform des Verfahrens der Erfindung bereitgestellt, die unter anderen Handlung 220 enthält, welche auf die Identifizierung von Schlüsselelementen aus dem jeweiligen Bild- 303, Ton- 305 und Textstrom 307 abzielt. Nun wird unter Bezugnahme auf 3 bis 6 eine ausführlichere Beschreibung von Handlung 220, der Schlüsselelementidentifizierung, beschrieben werden.
  • Unter Bezugnahme auf 4, die ein ausführliches Ablaufdiagramm der Handlungen ist, die Handlung 220 des Ablaufdiagramms von 2 bilden, und auch unter Bezugnahme auf 5, die ein Diagramm ist, das den Vorgang der Merkmalextraktion nur als nicht beschränkendes Beispiel näher veranschaulicht, wird beschrieben, dass dieser Vorgang die Extraktion und die Erlangung von Merkmalen, in jeder der drei Ausführungsarten, aus dem jeweiligen Substrom 303, 305, 307 umfasst.
  • Handlung 220.a – Die Merkmalextraktion
  • Bei Handlung 220.a wird eine Merkmalextraktion durchgeführt, wodurch aus jedem Rahmen in jedem des jeweiligen Bild- 303, Ton- 305 und Textsubstroms 307 Merkmale mit niedrigem 510, mittlerem 710 und hohem Grad 910 extrahiert werden. Was den beispielhaften Bildsubstrom 303 betrifft, wird die Merkmalextraktion in jedem der 2500 Bildrahmen, die den Bildsubstrom 303 aufbauen, und wovon zur Erleichterung der Erklärung 40 gezeigt sind, durchgeführt. In der gleichen Weise wird hinsichtlich des Tonsubstroms 305 eine Merkmalextraktion in jedem der 8000 Tonrahmen (3c), die den Tonsubstrom 305 aufbauen, und wovon zur Erleichterung der Erklärung 12 gezeigt sind, durchgeführt. In der gleichen Weise wird hinsichtlich des Textsubrahmens 307 eine Merkmalextraktion in jedem der 6500 Textrahmen (3d), die den Textsubstrom 307 aufbauen, und wovon zur Erleichterung der Erklärung 5 gezeigt sind, durchgeführt.
  • Nun werden einige Beispiele von Merkmalen mit niedrigem, mittlerem, und hohem Grad, die in jedem der jeweiligen Subströme (Bild, Ton, Text) aus den Rahmen extrahiert werden können, beschrieben.
  • Nur als nicht beschränkendes Beispiel kann der Bildsubstrom die folgenden Bildbetriebsartmerkmale mit niedrigem 503, mittlerem 505, und hohem Grad 507 enthalten:
    Bildbetriebsartmerkmale mit niedrigem Grad 503 können unter anderem einen Bewegungswert (die globale Bewegung für den Rahmen oder das Bildsegment), die Gesamtanzahl von Rändern in einem Rahmen und die dominante Farbe beinhalten.
    Bildbetriebsartmerkmale mit mittlerem Grad 703 werden aus den extrahierten Bildbetriebsartmerkmalen mit niedrigem Grad 503 erlangt und können unter anderem Familienhistogramme, eine Kamerabewegung, Rahmeneinzelheiten, ein Gesicht, das Vorhandensein von überlegtem Text, und andere Objektfeststeller beinhalten.
    Bildbetriebsartmerkmale mit hohem Grad 903 werden aus den erlangten Bildbetriebsartmerkmalen mit mittlerem Grad erlangt und können unter anderem verschiedene Bildrahmenklassifizierungen wie etwa einen Moderatorrahmen, einen Berichtrahmen, einen Innenrahmen, einen Außenrahmen, einen natürlichen Rahmen, einen Grafikrahmen, einen Landschaftsrahmen und einen Stadtbildrahmen beinhalten.
  • Nur als nicht beschränkendes Beispiel kann der Tonsubstrom 305 die folgenden Tonbetriebsartmerkmale mit niedrigem 505, mittlerem 705, und hohem Grad 905 beinhalten:
    Tonbetriebsartmerkmale mit niedrigem Grad 505 können zum Beispiel MFCC, LPC, die Durchschnittsenergie, die Bandbreite, die Tonhöhe usw. beinhalten.
    Tonbetriebsartmerkmale mit mittlerem Grad 705 werden aus den extrahierten Tonbetriebsartmerkmalen mit niedrigem Grad 505 erlangt und können zum Beispiel eine Klassifizierung des Tons in Sprache, Musik, Stille, Rauschen, Sprache + Sprache, Sprache + Rauschen, und Sprache + Musik beinhalten.
    Tonbetriebsartmerkmale mit hohem Grad 905 werden von den vorher erlangten Tonbetriebsartmerkmalen mit mittlerem Grad 705 erlangt und können unter anderem den Beifall einer Menschenmenge, Sprechen, Lachen, Explosionen, Sirenen und so weiter beinhalten. Sie könnten auch eine Sprache-zu-Text-Übertragung beinhalten.
  • Nur als nicht beschränkendes Beispiel kann der Textsubstrom 307 die folgenden Textbetriebsartmerkmale mit niedrigem 507, mittlerem 707 und hohem Grad 907 beinhalten:
    Textbetriebsartmerkmale mit niedrigem Grad 507 können zum Beispiel das Vorhandensein von Schlüsselworten, Stichworten, Namen, Orten usw. beinhalten.
    Textbetriebsartmerkmale mit mittlerem Grad 707 werden von den Textbetriebsartmerkmalen mit niedrigem Grad 507 erlangt und können zum Beispiel Themen, Kategorien, oder wichtige Hauptworte beinhalten.
    Textbetriebsartmerkmale mit hohem Grad 907 werden von den erlangten Textbetriebsartmerkmalen mit mittlerem Grad 707 erlangt und können unter anderem Frage/Antwort-Passagen, eine Schlussfolgerung, wer spricht, d.h., ein Nachrichtenreporter, ein Moderator, ein Gast und so weiter, beinhalten.
  • 5 ist ein Diagramm, das den Vorgang der Merkmalextraktion, der die Extraktion und Erlangung von Merkmalen in jeder der drei Ausführungsarten aus den jeweiligen Subströmen 303, 305, 307 umfasst, nur als nicht beschränkendes Beispiel näher veranschaulicht. Wie gezeigt werden Bildmerkmale 510 mit niedrigem Grad wie etwa Ränder, Formen, Farbe 503 aus dem Bildsubstrom 303 extrahiert. Eines oder mehrere der ex-trahierten Bildmerkmale mit niedrigem Grad 503 können dann verwendet werden, um eines oder mehrere Merkmale mit mittlerem Grad 703 wie etwa Videotext, Gesichter, Familienhistogramme 703 zu erlangen. Die Merkmale mit mittlerem Grad 703 können dann wiederum verwendet werden, um eines oder mehrere Merkmale mit hohem Grad 903 wie etwa den Moderatorrahmen, den Berichtrahmen, den Innenrahmen usw. zu erlangen.
  • Unter Bezugnahme auf das Bildmerkmal mit mittlerem Grad "Familienhistogramme", das als ein Element von 703 gezeigt ist, ist die Erlangung und Verwendung dieses Merkmals insofern von besonderer Bedeutung, als es verwendet wird, um den Bildsubstrom 303 in "Segmente" zu segmentieren, wie nachstehend näher beschrieben werden wird. Die Farbe ist ein dominantes Merkmal im Bild und hilft beim Segmentieren von Bildern von einem Wahrnehmungsblickpunkt. Zusätzlich bildet sich die Dauer eines Familienhistogramms, wie beschrieben werden wird, ebenfalls direkt am berechneten "Wichtigkeitswert" eines Bildsegments ab.
  • Der Vorgang der Erlangung von Familienhistogrammen aus den extrahierten Bildmerkmalen mit niedrigem Grad des Bildsubstroms 303 umfasst eine Analyse jedes Bildrahmens des Bildsubstroms 303. Die Analyse wird durchgeführt, um die Farbinformation jedes Bildrahmens in Farbquantisierungsplätze zu quantisieren. Ein einfaches 9-Platz-Quantisierungsfarbhistogramm wurde experimentell als ausreichend bestimmt, um die Schlüsselelemente zu identifizieren. In einer Abänderung dieses Ansatzes kann abhängig von der Anwendung ein komplexeres 256-Platz-Farbhistogramm verwendet werden. Der Ansatz des einfachen 9-Platz-Quantisierungsfarbhistogramms nimmt an, dass für jedes Familiensegment, das in einem Nachrichtenberichtsegment enthalten ist, von Rahmen zu Rahmen nur geringfügige Unterschiede in der Farbveränderung vorhanden sein werden. Dies ist wahr, da für ein Schlüsselelement von Rahmen zu Rahmen eine wesentliche Rahmenähnlichkeit angenommen wird, während von einem Rahmen zum nächsten merkliche Farbveränderungen auftreten werden, wenn eine Szenenveränderung auftritt, die das Ende eines Familiensegments und den Beginn eines anderen angibt. Der Ansatz des Farbhistogramms stellt die merklichen Farbveränderungen (d.h. ein Merkmal mit niedrigem Grad) durch einen scharfen Kontrast in den Farbhistogrammwerten von einem Rahmen zum nächsten fest.
  • Um den Grad an Ähnlichkeit zwischen Bildrahmen zu finden, wurden Versuche mit mehreren Histogrammunterschiedsmaßen vorgenommen. Bei der Handlung der Berechnung des Familienhistogramms wird das Histogramm für jeden Bildrahmen berechnet und dann eine Suche der vorher berechneten Familienhistogramme vorgenommen, um die engste Familienhistogrammübereinstimmung zu finden. Der Vergleich zwischen dem gegenwärtigen Histogramm, HC, und den vorherigen Histogrammen, HP, kann unter Verwendung eines der folgenden Verfahren zur Berechnung des Histogrammunterschieds D berechnet werden.
    • (1) Der Histogrammunterschied unter Verwendung des Abstandsmaßes L1 wird unter Verwendung der folgenden Formel berechnet:
      Figure 00160001
      Hier ist N die Gesamtanzahl der verwendeten Farbplätze (in unserem Fall 9). Die Werte, die unter Verwendung dieser Formel erhalten werden, reichen von 0 bis zum Doppelten der Höchstanzahl der Pixel in entsprechenden Bildern. Da wir den Prozentsatz der Ähnlichkeit erhalten möchten, normalisieren wir den Wert durch Dividieren durch die Gesamtanzahl der Pixel. Die normalisierten Werte liegen zwischen 0 und 1, wobei Werte nahe an 0 bedeuten, dass die Bilder ähnlich sind, und jene nahe an 1 bedeuten, dass die Bilder unähnlich sind.
    • (2) Der Histogrammunterschied unter Verwendung des Abstandsmaßes L2 wird unter Verwendung der folgenden Formel berechnet:
      Figure 00170001
      In der gleichen Weise wie bei Fall (1) normalisieren wir die Werte von D.
    • (3) Der Histogrammschnittpunkt wird unter Verwendung der folgenden Formel berechnet:
      Figure 00170002
      Die Werte, die unter Verwendung dieser Formel erhalten wurden, reichen von 0 bis 1. Die Werte nahe an 0 bedeuten, dass die Bilder unähnlich sind, und Werte nahe an 1 bedeuten, dass die Bilder ähnlich sind. Um Histogramme mit der gleichen Auslegung der Ähnlichkeit zu vergleichen, verwenden wir D = 1-1 als ein Abstandsmaß.
    • (4) Die Chi-Quadrat-Prüfung für zwei Bildhistogramme wird unter Verwendung der folgenden Formel berechnet:
      Figure 00180001
      In diesem Fall reichen die Werte von 0 bis zur Anzahl der Farbplätze, N, weshalb wird mit N, d.h., D = χ2/N, normalisieren.
    • (5) Der platzweise Histogrammschnittpunkt wird unter Verwendung der folgenden Formel berechnet:
      Figure 00180002
      In der gleichen Weise wie beim Histogrammschnittpunkt bedeuten niedrigere Werte Unähnlichkeit und höhere Werte, dass die Bilder ähnlich sind. Um mit den früheren Messungen im Einklang zu stehen, wird der Abstand unter Verwendung von D = 1 – B/N berechnet.
  • Farbindizierungsverfahren, die Histogramminformationen verwenden, sind in der Technik bekannt (siehe zum Beispiel die Veröffentlichung von M. Stricker und M. Orengo mit dem Titel "Similarity of color images), In proc. Of IS&T/SPIE Conference on Storage and Retrieval for Image and Video Database II, Vol. SPIE 2420, 1995).
  • Handlung 220.b – Die Zuteilung von Merkmalwichtigkeitswerten
  • Bei Handlung 220.b wird den Merkmalen mit mittlerem 710 und hohem Grad 910, die bei Handlung 220.a in jedem Rahmen aus jedem der jeweiligen Subströme 303, 305, 307 extrahiert wurden, nun ein entsprechender Merkmalwichtigkeitswert zugeteilt. Es können diskrete und/oder fortlaufende Merkmalanalyseverfahren eingesetzt werden, um diese Merkmalwichtigkeitswerte zuzuteilen. Im diskreten Fall gibt das Merkmalanalyseverfahren einen diskreten Wichtigkeitswert aus, der das Vorhandensein oder das Fehlen des Vorhandenseins eines Merkmals (d.h., Wichtigkeitswert = 1 für vorhanden/0 für Merkmal nicht vorhanden) oder (Wichtigkeitswert = 1 für Aufnahme in die Multimedia-Zusammenfassung 120 erwünscht, 0 für nicht in der Zusammenfassung 120 erwünscht, und 0,5 für dazwischen) angibt. Da es wünschenswert ist, in der Multimedia-Zusammenfassung 120 über "Gesichter" zu verfügen, kann als ein Beispiel ein Merkmalwichtigkeitswert von 1 zugeteilt werden, wenn ein oder zwei Gesichter vorhanden sind, ein Wert von 0 zugeteilt werden, wenn keine Gesichter vorhanden sind, und ein Wert von 0,5 zugeteilt werden, falls mehr als zwei Gesichter vorhanden sind. Ein anderes diskretes Beispiel kann sein, eine 0 für das Vorhandensein eines Moderators und eine 1 für das Vorhandensein eines Berichtabschnitts zuzuteilen. Ein anderes diskretes Beispiel kann sein, eine 0 für einen Rahmen zuzuteilen, wenn er zu einem Familienhistogramm gehört, dessen Dauer geringer als n % der Gesamtdauer des Nachrichtenberichts ist, und anderenfalls einen Wert von 1 zuzuteilen. Hier könnte n auf 10 usw. gesetzt werden.
  • Im Hinblick auf den Tonsubstrom 305 kann es erwünscht sein, in der Multimedia-Zusammenfassung 120 über Sprache zu verfügen, weshalb ein Wichtigkeitswert für das Vorhandensein von Sprache auf 1, für Rauschen und Stille auf 0, und für {Musik, Sprache + Musik, Sprache + Sprache, Sprache + Rauschen) auf 0,5 gesetzt werden könnte.
  • Im Hinblick auf den Textsubstrom 307 könnte der Wichtigkeitswert auf 1 gesetzt werden, wenn ein Name oder ein bedeutendes Schlüsselwort vorhanden ist, und andernfalls auf 0 gesetzt werden.
  • In einem fortlaufenden Fall könnte der Wichtigkeitswert im Fall eines Familienhistogramms auf die Dauer des Segments, zu dem ein Rahmen gehört, geteilt durch die Gesamtdauer des Nachrichtenberichts gesetzt werden.
  • Alternativ können die Merkmalanalyseverfahren im fortlaufenden Fall eine Wahrscheinlichkeitsverteilung einsetzen, um extrahierten Merkmalen Wichtigkeitswerte zuzuteilen. Die Wahrscheinlichkeitsverteilung gibt die Wahrscheinlichkeit des Vorhandenseins des Merkmals in der Zusammenfassung an. Die Merkmalanalyseverfahren, die bei diesem Ansatz verwendet werden, können einen Wahrscheinlichkeitswert ausgeben, der von 0 bis 1 reicht, was einen Grad des Vertrauens hinsichtlich des Vorhandenseins eines Merkmals angibt.
  • Die Wahrscheinlichkeitsverteilung zur Erlangung von Wichtigkeitswerten im fortlaufenden Fall kann aus einer normalen Gaußschen Verteilung erlangt werden. Alternativ könnten die Wichtigkeitswerte auch als Poisson-, Rayleigh-, oder Bernoulli-Verteilung abgebildet werden. Gleichung (6) veranschaulicht beispielhaft eine Weise zur Berechnung des Merkmalwerts für den Rahmen als normale Gaußsche Verteilung.
    Figure 00200001
    wobei S die Wahrscheinlichkeit des Vorhandenseins des Merkmals in der Zusammenfassung ist,
    θ allgemein ein beliebiges der Merkmale darstellt; und
    θ1 der Durchschnitt des Merkmalwerts ist; und
    θ2 die erwartete Abweichung ist.
  • Als ein Beispiel werden dann, wenn "Gesichter" ein zu berücksichtigendes Bildmerkmal mit mittlerem Grad darstellt, d.h., in der Gleichung (6) als θ dargestellt ist, sehr kleine und sehr große Gesichter selten erscheinen. Am häufigsten ist ein "Gesicht", wann immer ein solches im Videostrom auftaucht, typischerweise mit einer Höhe von im Wesentlichen 50 % der Bildschirmhöhe vorhanden. In diesem Fall ist θ1 gleich 0,5 (der Mittelwert) und θ2 zum Beispiel gleich 0,2. Es wird bemerkt, dass ein Ansatz der Schätzung der maximalen Wahrscheinlichkeit verwendet werden kann, um die Parameter θ1 und θ2 zu bestimmen.
  • Es wird bemerkt, dass jedes der Merkmale den Wichtigkeitswert eines Schlüsselelements für die mögliche Wahl in die Multimedia-Zusammenfassung 120 möglicherweise erhöhen oder verringern kann.
  • 220.c – Die Berechnung der Wichtigkeitswerte pro Rahmen in jeder Ausführungsart
  • Bei Handlung 220.c werden auf Basis der Merkmalwichtigkeitswerte, die bei Handlung 220.b berechnet wurden, Rahmenwichtigkeitswerte berechnet. Zur Bestimmung der Rahmenwichtigkeitswerte kann, wie beschrieben werden wird, entweder der Ansatz einer gewichteten Summe oder das Aufrufen der Wichtigkeitswerte der extrahierten Merkmale benutzt werden.
  • Tabelle 1, 2 und 3 veranschaulichen nur als nicht beschränkendes Beispiel die Merkmalwichtigkeitswerte, die bei Handlung 220.b für jedes der extrahierten Merkmale, welche bei Handlung 220.a in jeder der jeweiligen Ausführungsarten (Bild, Ton, Text) identifiziert worden waren, berechnet wurden. Die Wichtigkeitswerte werden verwendet, um den Wichtigkeitswert pro Rahmen zu berechen. Die Tabellenspaltenüberschriften stellen früher extrahierte und erlangte Merkmale mit niedrigem, mittlerem und hohem Grad wie etwa Ränder, Farbe, Gesichter, Stille, Innenrahmen und so weiter dar. Tabelle 1. Bildmerkmalwahrscheinlichkeiten
    Figure 00210001
    Tabelle 2. Tonmerkmalwahrscheinlichkeiten
    Figure 00210002
    Tabelle 3. Textmerkmalwahrscheinlichkeiten
    Figure 00210003
  • Die Tabellenwerte werden auf eine zu beschreibende Weise kombiniert, um ein Maß davon bereitzustellen, wie viel ein Rahmen "wert" ist. Der "Wert" eines Rahmens ist ein Maß der Bedeutung für die mögliche Aufnahme in die Multimedia-Zusammenfassung 120. Der "Wert" eines Rahmens kann auf jede beliebige Anzahl von Weisen einschließlich deterministisch, statistisch und über bedingte Wahrscheinlichkeiten berechnet werden.
  • Die deterministische Berechnung des "Werts" eines Rahmens
  • In einer Ausführungsform kann der "Wert" eines Rahmens als eine deterministische lineare Funktion von Videomerkmalen mit niedrigem, mittlerem und hohem Grad berechnet werden, wobei die Berechnung als: Schlüssel_Element_Wichtigkeit = Σ wifi Gleichung(7)erfolgt,
    wobei fi ein Wert eines bestimmten Merkmals mit niedrigem, mittlerem, oder hohem Grad ist; und
    wi ein Gewicht für diesen Wert ist.
  • Die Merkmale fi könnten Merkmale mit niedrigem Grad wie etwa der Bewegungswert (globale Bewegung für den Rahmen oder das Bildsegment), die Gesamtanzahl der Ränder, die dominante Farbe, und Merkmale mit mittlerem Grad wie etwa die Familienwichtigkeit, die Kamerabewegung, Rahmeneinzelheiten, die Gesichtsgröße, die Kastengröße des überlegten Texts sein. Ein Merkmal mit hohem Grad kann eine Klassifizierung wie etwa Moderator/Bericht, Innen/Außenszenen, natürlich/Grafik, und Landschaft/Stadtbild sein. Die Merkmalliste ist nicht erschöpfend und nur als Beispiel für die Arten von Merkmalen bereitgestellt, die in die Wichtigkeitswertberechnung aufgenommen werden können.
  • Es wird bemerkt, dass die Gewichte, wi, die mit jedem Merkmal verbunden sind, im Voraus durch das Zusammenfassungssystem 100 bestimmt werden können, oder alternativ gemäß einer Benutzerpräferenz bestimmt werden können. Falls ein Benutzer in der Multimedia-Zusammenfassung 120 Musik hören möchte, kann ein Gewichtswert für Musik auf 1 gesetzt werden. Als anderes Beispiel wird dem Fehlen von Videotext in einem Rahmen die Wichtigkeit von 1 gegeben, wenn der Benutzer bevorzugt, in der Zusammenfassung keinen Videotext zu sehen, und so weiter.
  • Es wird angenommen, dass die Wichtigkeitswerte für jede der Ausführungsarten unter Verwendung entweder einer einzelnen wahrscheinlichkeitstheoretischen oder einer deterministischen Funktion auf irgendeine Weise kombiniert werden, um einen Schlüsselelementwichtigkeitswert pro Rahmen auszugeben, was zu einer Liste wie der in Tabelle 4 gezeigten nichtbeschränkenden beispielhaften Liste führt. Tabelle 4. Wichtigkeitswert (pro Rahmen) für verschiedene Ausführungsarten
    Figure 00230001
  • In noch einer anderen Ausführungsform kann der "Wert" eines Rahmens durch Finden der bedingten Wahrscheinlichkeit unter Verwendung einer Bayesschen Überzeugungsnetzwerkmusterklassifizierung berechnet werden. Die Bayessche Überzeugungsnetzwerkmusterklassifizierung ist in der Technik bekannt. Siehe zum Beispiel "Bayesian Belief Network Pattern Classification (2nd Edition)" von Richard O. Duda, Peter E. Hart, David G. Stork, deren gesamte Offenbarung durch Nennung als hierin zur Gänze aufgenommen betrachtet wird.
  • 220.d – Die Segmenterzeugung
  • Nachdem bei 220.c die Rahmenwichtigkeitswerte für jeden Rahmen in jeder Ausführungsart zusammengestellt wurden, werden die Rahmenwichtigkeitswerte bei Handlung 220.d verwendet, um die Rahmen für jede Ausführungsart zu Segmenten zu kombinieren oder zu gruppieren.
  • Die Erzeugung von Bildsegmenters
  • Um aus den jeweiligen Bildrahmen (d.h., Rahmen 1, Rahmen 2, ..., Rahmen N), die den Bildsubstrom 303 aufbauen, Bildsegmente zu erzeugen, wird entweder eine Familienhistogrammberechnung oder eine Schussänderungsfeststellung durchgeführt. Eine Weise zur Kombination von Rahmen zu Segmenten erfolgt durch die Verwendung der Schussänderungsfeststellung. Die Schussänderungsfeststellung ist wohlbekannt und in US 6,125,229 , 26 September 2000, auch als EP 0 916 120 A2 , 19. Mai 1999, ausgegeben an Dimitrova, N; Mcgee, T; Elenbaas, J H, Visual Indexing System, deren gesamte Offenbarung durch Nennung als hierin aufgenommen betrachtet wird, offenbart. Eine andere Weise zur Erzeugung von Bildsegmenten aus den jeweiligen Bildrahmen des Bildsubstroms 303 erfolgt wie oben besprochen durch die Verwendung von Familienhistogrammen.
  • Die Erzeugung von Tonsegmenten
  • Um aus den jeweiligen ZEIT-Rahmen (d.h., ZEIT 1, ZEIT 2, und so weiter), die den Tonsubstrom 305 aufbauen, Tonsegmente zu erzeugen, können die Segmentgrenzen die Grenzen von unterschiedlichen Klassifizierungen sein. Das heißt, eine Tonklassifizierungseinrichtung klassifiziert Ton in Sprache (1), Musik (2), Stille (3), Rauschen (4), Sprache + Sprache (5), Sprache + Rauschen (6), und Sprache + Musik (7). 6 ist ein Diagramm, das beispielhaft veranschaulicht, wie die Zeitelemente, die den Tonsubstrom 305 von 3 bilden, gruppiert werden können, um Segmente zu bilden. Das Diagramm stellt die Tonklassifizierung den Zeitrahmen (Zeitrahmen [x]) gegenüber. Wie gezeigt werden die anfänglichen Rahmen (Rahmen 1 bis 20.000) größtenteils als Musikrahmen (2) klassifiziert. Danach werden anschließende Rahmen größtenteils als Rauschrahmen (4) klassifiziert, worauf Sprach-und-Musik-Rahmen (7) folgen.
  • Die Einzelheiten der Tonklassifizierung sind in "Classification of general audio data for content-based retrieval", Pattern Recognition Letters Vol. 22, Nummer 5, Seite 533 bis 544 (2001), Dongge Li, Ishwar K. Sethi, Nevanka Dimitrova, durch Nennung als hierin zur Gänze aufgenommen betrachtet, näher beschrieben.
  • Die Erzeugung von Textsegmenten
  • Um Textsegmente zu erzeugen, könnten die Segmentgrenzen auf Basis der Interpunktion, die im Untertitelabschnitt der Eingangsvideosequenz 101, 102 bereitgestellt ist, als Satzgrenzen definiert werden.
  • 220.e – Die Bestimmung des Segmentwichtigkeitswerts
  • Die Bestimmung des Segmentwichtigkeitswerts kann auf eine Weise durch Mitteln der Rahmenwichtigkeitswerte der Rahmen, die jedes Segment bilden, durchgeführt werden, um eine einzelne Reihung oder ein Ergebnis zu erzeugen. Eine andere Weise der Berechnung einer Segmentwichtigkeitswertbestimmung ist, den höchsten Rahmenwichtigkeitswert im Segment zu nehmen und ihn dem gesamten Segment zuzuteilen.
  • 220.f – Die Segmentreihung
  • Bei Handlung 220.e wird für jedes Segment, das bei Schritt 220.d in jeder der jeweiligen Ausführungsarten identifiziert wurde, eine Segmentreihung (ein Ergebnis) berechnet. Zusätzlich werden die gereihten Segmente auf Basis der berechneten Reihung oder des Ergebnisses in der Reihenfolge der Wichtigkeit sortiert.
  • Tabelle 6 veranschaulicht beispielhaft, wie die Bildsegmente (Spalte 1) und ihre zugehörigen Segmentwichtigkeitswerte (Spalte 2) gereiht werden. Tabelle 7 und 8 zeigen einen ähnlichen Aufbau für die Ton- bzw. die Textausführungsart. Tabelle 6. Reihung der Wichtigkeit der Bildsegmente
    Figure 00250001
    Tabelle 7. Reihung der Wichtigkeit der Tonsegmente
    Figure 00250002
    Tabelle 8. Reihung der Wichtigkeit der Textsegmente
    Figure 00260001
  • 220.g – Die Schlüsselelementidentifizierung
  • Bei Handlung 220.f werden auf Basis der Segmentreihungen von Handlung 220.e Schlüsselelemente identifiziert.
  • 7a bis c veranschaulichen beispielhaft mehrere Weisen zur Identifizierung von Schlüsselelementen. Beispielhaft sind 7a bis c Diagramme von (Rahmenwichtigkeitswert pro) in Bezug auf (Segment), die jede beliebige der oben besprochenen Ausführungsarten, d.h., Tabelle 6, 7 oder 8, darstellen könnten.
  • 7a ist ein Diagramm, das ein erstes Verfahren zur Identifizierung von Schlüsselelementen veranschaulicht. Schlüsselelemente werden durch Auswahl eines jeden Segments, das über einer vorbestimmten Schwelle erscheint, identifiziert.
  • 7b ist ein Diagramm, das ein zweites Verfahren zur Identifizierung von Schlüsselelementen veranschaulicht. Schlüsselelemente werden durch Auswählen der lokalen Höchstwerte, d.h., "A", "B", "C", die über einer vorbestimmten Schwelle, Th, erscheinen, identifiziert.
  • 7c ist ein Diagramm, das ein drittes Verfahren zur Identifizierung von Schlüsselelementen veranschaulicht. Schlüsselelemente werden durch Auswählen der ersten N lokalen Höchstwerte ohne Berücksichtigung eines Schwellenkriteriums identifiziert.
  • Es wird bemerkt, dass der oben beschriebene und unter Bezugnahme auf 7a bis c veranschaulichte Vorgang der Identifizierung von Schlüsselelementen gemäß einem Benutzersehprofil weiter abgeändert werden kann. Es ist wohlbekannt, dass Empfehlungssysteme im Allgemeinen tätig sind, indem sie bestimmten Nutzern auf Basis von Informationen, die über die Benutzer bekannt sind, Posten empfehlen. Typischerweise entwickeln derartige Systeme Profile von Kunden, die auf den früheren Seh- oder Kaufge wohnheiten des Kunden beruhen. Im vorliegenden Kontext kann ein Sehprofil eines Benutzers erzeugt und vorzugsweise zusammen mit anderen oben besprochenen Benutzerprofildaten in der Benutzerpräferenzdatenbank 117 gespeichert werden. Das Benutzersehprofil kann dann verwendet werden, um eine Abbildungsfunktion zur Abbildung des wie in 7a bis c veranschaulichten, vorher beschriebenen Diagramms von (Wichtigkeitswert) in Bezug auf (Segment) auf einer zweiten Funktion, die die Sehpräferenzen des Kunden berücksichtigt, zu erzeugen. Dieser Vorgang ist optional und kann für eine beliebige oder alle Ausführungsarten ausgeführt werden.
  • Es ist offensichtlich, dass angesichts der obigen Lehren zahlreiche Abwandlungen und Veränderungen der vorliegenden Erfindung möglich sind. Es versteht sich daher, dass die Erfindung innerhalb des Rahmens der beiliegenden Ansprüche anders als hierin spezifisch beschrieben praktisch umgesetzt werden kann.
  • Legende der Zeichnungen
  • 1
    • SSI
      Berichtsegmentidentifizierungs-Modul
      AI
      Tonidentifizierungs-Modul
      TI'
      Textidentifizierungs-Modul
      MRAD
      Ausführungsarten-Erkennungs-und-Teilungs-Modul
      FE
      Merkmalextraktions-Modul
      IV
      Wichtigkeitswert-Modul
      KEI
      Schlüsselelementidentifizierungs-Modul
      KEF
      Schlüsselelementfilter-Modul
      UPF
      Benutzerprofilfilter
      NADC
      Netz- und Einrichtungsbeschränkungs-Modul
  • 3B
    • MSEC
      Millisekunden

Claims (27)

  1. Verfahren zur Zusammenfassung zumindest eines Multimedia-Stroms (101, 102), wobei das Verfahren Folgendes umfasst: a.) eines aus Empfangen und Abrufen des zumindest einen Multimedia-Stroms (101, 102), der Bild-, Ton- und Textinformationen umfasst; b.) Teilen des zumindest einen Multimedia-Stroms (101, 102) in einen Bildsubstrom (303), einen Tonsubstrom (305) und einen Textsubstrom (307); c.) Identifizieren von Bild-, Ton- und Textschlüsselelementen aus dem Bild- (303), dem Ton- (305), bzw. dem Textsubstrom (307); d.) Berechnen eines Wichtigkeitswerts für die identifizierten Bild-, Ton- und Textschlüsselelemente, die in Schritt (c) identifiziert wurden; e.) erstes Filtern der identifizierten Bild-, Ton- und Textschlüsselelemente, um jene Schlüsselelemente auszuschließen, deren Wichtigkeitswert geringer als eine vordefinierte Bild-, Ton-, bzw. Textwichtigkeitsschwelle ist; und f.) zweites Filtern der zurückbleibenden Schlüsselelemente von Schritt (e) gemäß einem Benutzerprofil; g.) drittes Filtern der zurückbleibenden Schlüsselelemente von Schritt (f) gemäß Netz- und Benutzereinrichtungsbeschränkungen; und h.) Ausgeben einer Multimedia-Zusammenfassung (120) von den Schlüsselelementen, die von Schritt (g) zurückbleiben.
  2. Verfahren nach Anspruch 1, wobei der zumindest eine Multimedia-Strom (101, 102) einer aus einem analogen und einem digitalen Multimedia-Strom ist.
  3. Verfahren nach Anspruch 1, wobei der Schritt des Teilens des zumindest einen Multimedia-Stroms (101, 102) in einen Bildsubstrom (303) ferner den Schritt des Identifizierens und Gruppierens des zumindest einen Multimedia-Stroms (101, 102) in mehrere Nachrichtenberichte (330) umfasst, wobei jeder identifizierte Nachrichtenbericht (330) aus einem Moderatorabschnitt (311, 312) und einem Berichtabschnitt (321, 322) besteht.
  4. Verfahren nach Anspruch 1, wobei der Schritt des Teilens des zumindest einen Multimedia-Stroms (101, 102) in einen Tonsubstrom (305) ferner das Teilen des zumindest einen Multimedia-Stroms (101, 102) in mehrere gleich große Rahmen (306) mit einer festen Zeitdauer umfasst.
  5. Verfahren nach Anspruch 1, wobei der Schritt des Teilens des zumindest einen Multimedia-Stroms (101, 102) in einen Textsubstrom (307) ferner das Teilen des zumindest einen Multimedia-Stroms (101, 102) in mehrere Rahmen (308) umfasst, wobei jeder Rahmen der mehreren Rahmen an einer Wortgrenze definiert ist.
  6. Verfahren nach Anspruch 1, wobei die Handlung des Identifizierens von Bild-, Ton- und Textelementen aus dem Bild- (303), Ton- (305) und Textsubstrom (307) ferner die folgenden Handlungen umfasst: 1.) Identifizieren von Merkmalen mit niedrigem (510), mittlerem (710) und hohem Grad (910) aus den mehreren Rahmen, die den Bild- (303), den Ton- (305) und den Textsubstrom (307) umfassen; 2.) Bestimmen eines Wichtigkeitswerts für jedes der extrahierten Merkmale mit niedrigem (510), mittlerem (710) und hohem Grad (910) von der Identifizierungshandlung; 3.) Berechnen eines Rahmenwichtigkeitswerts für jeden der mehreren Rahmen, die den Bild- (303), den Ton- (305) und den Textsubstrom (307) umfassen, als Funktion der Wichtigkeitswerte der Merkmalwichtigkeitswerte, die bei der Bestimmungshandlung bestimmt wurden; 4.) Kombinieren der Rahmen in jedem aus dem Bild- (303), dem Ton- (305) und dem Textsubstrom (307) zu Segmenten; 5.) Berechnen eines Wichtigkeitswerts pro Segment für jedes Segment von der Kombinierungshandlung; 6.) Reihen der Segmente auf Basis der berechneten Wichtigkeitswerte im Berechnungsschritt; und 7.) Identifizieren von Schlüsselelementen auf Basis der gereihten Segmente.
  7. Verfahren nach Anspruch 6, wobei die Handlung (3) des Berechnens eines Rahmenwichtigkeitswerts für jedes der extrahierten Merkmale mit niedrigem (510), mittlerem (710) und hohem Grad (910) ferner das Berechnen des Wichtigkeitswerts durch eines aus einem deterministischen Mittel, einem statistischen Mittel und einem Mittel der bedingten Wahrscheinlichkeit umfasst.
  8. Verfahren nach Anspruch 7, wobei das wahrscheinlichkeitstheoretische Mittel das Berechnen des Rahmenwichtigkeitswerts als eines aus einer Gaußschen, einer Poisson-, einer Rayleigh- und einer Bernoulli-Verteilung umfasst.
  9. Verfahren nach Anspruch 8, wobei die Gaußsche Verteilung zur Berechnung des Rahmenwichtigkeitswerts als
    Figure 00310001
    berechnet wird, wobei θ eines der Merkmale ist; θ1 der Durchschnitt des Merkmalwerts ist; und θ2 die erwartete Abweichung ist.
  10. Verfahren nach Anspruch 7, wobei das deterministische Mittel das Berechnen des Rahmenwichtigkeitswerts als Rahmenwichtigkeit = Σ wifi umfasst, wobei fi Merkmale mit niedrigem, mittlerem, oder hohem Grad darstellt; und wi Gewichtungsfaktoren zur Gewichtung der Merkmale darstellt.
  11. Verfahren nach Anspruch 6, wobei der Schritt (4) des Kombinierens der Rahmen zu Bildsegmenten ferner das Kombinieren der Rahmen durch eines aus einem Familienhistogrammmittel und einem Schussänderungsfeststellmittel umfasst.
  12. Verfahren nach Anspruch 6, wobei der Schritt (4) des Kombinierens der Rahmen zu Tonsegmenten ferner die folgenden Schritte umfasst: Kategorisieren jedes Rahmens aus dem Tonsubstrom (305) als eines aus einem Sprachrahmen, einem Musikrahmen, einem Stillerahmen, einem Rauschrahmen, einem Sprach+Sprach-Rahmen, einem Sprach+Rausch-Rahmen und einem Sprach+Musik-Rahmen; und Gruppieren aufeinanderfolgender Rahmen, die die gleiche Kategorisierung aufweisen.
  13. Verfahren nach Anspruch 6, wobei die Handlung Schritt (4) des Kombinierens der Rahmen zu Textsegmenten ferner das Kombinieren der Rahmen auf Basis der Interpunktion, die im Textsubstrom (307) enthalten ist, umfasst.
  14. Verfahren nach Anspruch 6, wobei der Schritt (5) des Berechnens eines Wichtigkeitswerts pro Segment ferner das Mitteln der Rahmenwichtigkeitswerte für jene Rahmen umfasst, die das Segment umfassen.
  15. Verfahren nach Anspruch 6, wobei der Schritt (5) des Berechnens eines Wichtigkeitswerts pro Segment ferner das Verwenden des höchsten Rahmenwichtigkeitswerts in diesem Segment umfasst.
  16. Verfahren nach Anspruch 6, wobei der Schritt (7) des Identifizierens von Schlüsselelementen auf Basis der Reihungen ferner das Identifizieren von Schlüsselelementen umfasst, deren Segmentreihung eine vorbestimmte Segmentreihungsschwelle überschreitet.
  17. Verfahren nach Anspruch 6, wobei der Schritt (7) des Identifizierens von Schlüsselelementen auf Basis der Reihungen ferner das Identifizieren von Schlüssel elementen umfasst, deren Segmentreihung sowohl eine vorbestimmte Segmentreihungsschwelle überschreitet als auch einen lokalen Höchstwert bildet.
  18. Verfahren nach Anspruch 6, wobei der Schritt (7) des Identifizierens von Schlüsselelementen auf Basis der Reihungen ferner das Identifizieren von Schlüsselelementen umfasst, deren Segmentreihung einen lokalen Höchstwert bildet.
  19. System (100) zur Zusammenfassung zumindest eines Multimedia-Stroms (101, 102), umfassend ein Ausführungsarten-Erkennungs-und-Teilungs(Modality Recognition and Division, MRAD)-Modul (103), das ein Berichtsegmentidentifizierungs(Story Segment Identifier, SSI)-Modul (103a), ein Tonidentifizierungs(Audio Identifier, AI)-Modul (103b) und ein Textidentifizierungs(Text Identifer, TI)-Modul (103c) umfasst, wobei das MRAD-Modul (103) kommunikativ mit einer ersten externen Quelle (110) gekoppelt ist, um den zumindest einen Multimedia-Strom (101, 102) zu erhalten, wobei das MRAD-Modul (103) kommunikativ mit einer zweiten externen Quelle (112) gekoppelt ist, um den zumindest einen Multimedia-Strom (101, 102) zu erhalten, wobei das MRAD-Modul (103) den zumindest einen Multimedia-Strom (101, 103) in einen Bild- (303), einen Ton- (305) und einen Textsubstrom (307) teilt und den Bild- (303), den Ton- (305) und den Textsubstrom (307) an ein Schlüsselelementidentifizierungs(Key Element Identifier, KEI)-Modul (105) ausgibt, wobei das KEI-Modul (105) ein Merkmalextraktions(Feature Extraction, FE)-Modul (107) und ein Wichtigkeitswert(Importance Value, IV)-Modul (109) umfasst, um Schlüsselwerte aus dem Bild- (303), dem Ton- (305) und dem Textsubstrom (307) zu identifizieren und ihnen Wichtigkeitswerte zuzuteilen, wobei das KEI-Modul (105) kommunikativ mit einem Schlüsselelementfilter(Key Element Filter, KEF)-Modul (111) gekoppelt ist, um die identifizierten Schlüsselelemente zu erhalten und jene Schüsselelemente zu filtern, die ein vorbestimmtes Schwellenkriterium überschreiten, wobei das KEF-Modul (111) kommunikativ mit einem Benutzerprofilfilter (User Profile Filter, UPF) (113) gekoppelt ist, um die gefilterten Schlüsselelemente zu erhalten und die gefilterten Schlüsselelemente gemäß einem Benutzerprofil weiter zu filtern, wobei das UPF-Modul (113) kommunikativ mit einem Netz- und Einrichtungsbeschränkungs(Network and Device Constraint, NADC)-Modul (115) gekoppelt ist, wobei das NADC-Modul (115) die weiter gefilterten Schlüsselelemente erhält und die weiter gefilterten Schlüsselelemente gemäß Netz- und/oder Benutzereinrichtungsbeschränkungen weiter filtert, wobei das NADC-Modul (115) eine Multimedia-Zusammenfassung (120) des zumindest einen Multimedia-Stroms (101, 102) ausgibt.
  20. System nach Anspruch 19, ferner umfassend eine Benutzerpräferenzdatenbank (117), die kommunikativ mit dem UPF-Modul (113) gekoppelt ist, um Benutzerprofile zuspeichern.
  21. System nach Anspruch 19, wobei die erste externe Quelle (110) ein Sendekanalwähler ist.
  22. System nach Anspruch 19, wobei die erste externe Quelle (110) eine Videostrom-Quelle ist.
  23. System nach Anspruch 19, wobei der zumindest eine Multimedia-Strom (101, 102) eines aus einem analogen und einem digitalen Multimedia-Strom ist.
  24. System nach Anspruch 19, wobei das NADC-Modul (115) kommunikativ mit einem externen Netz (122) verbunden ist, das mit einer Benutzereinrichtung gekoppelt ist.
  25. System nach Anspruch 19, wobei das Netz (122) das Internet ist.
  26. Herstellungsgegenstand zur Zusammenfassung zumindest eines Multimedia-Stroms (101, 102), umfassend: ein computerlesbares Medium, das ein darauf verkörpertes computerlesbares Codemittel aufweist, wobei das computerlesbare Programmcodemittel Folgendes umfasst: eine Handlung eines aus dem Empfangen und dem Abrufen des zumindest einen Multimedia-Stroms (101, 102), der Bild-, Ton- und Textinformationen umfasst; eine Handlung des Teilens des zumindest einen Multimedia-Stroms (101, 102) in einen Bildsubstrom (303), einen Tonsubstrom (305) und einen Textsubstrom (307); eine Handlung des Identifizierens von Bild-, Ton- und Textschlüsselelementen aus dem Bild- (303), dem Ton- (305) bzw. dem Textsubstrom (307); eine Handlung des Berechnens eines Wichtigkeitswerts für die identifizierten Bild-, Ton- und Textschlüsselelemente, die bei der Identifizierungshandlung identifiziert wurden; eine Handlung des ersten Filterns der identifizierten Bild-, Ton- und Textschlüsselelemente, um jene Schlüsselelemente auszuschließen, deren zugehöriger Wichtigkeitswert geringer als eine vordefinierte Bild-, Ton- bzw. Textwichtigkeitsschwelle ist; und eine Handlung des zweiten Filterns der zurückbleibenden Schlüsselelelente von der ersten Filterungshandlung gemäß einem Benutzerprofil; eine Handlung des dritten Filterns der zurückbleibenden Schlüsselelemente von der zweiten Filterungshandlung gemäß Netz- und Benutzereinrichtungsbeschränkungen; und eine Handlung des Ausgebens einer Multimedia-Zusammenfassung (120) von den Schlüsselelementen, die von der dritten Filterungshandlung zurückbleiben.
  27. Herstellungsgegenstand nach Anspruch 26, wobei die Handlung des Identifizierens von Bild-, Ton- und Textschlüsselelementen aus dem Bild- (303), Ton- (305) bzw. Textsubstrom (307) ferner Folgendes umfasst: eine Handlung des Identifizierens von Merkmalen mit niedrigem (510), mittlerem (710) und hohem Grad (910) aus den mehreren Rahmen, die den Bild- (303), den Ton- (305) und den Textsubstrom (307) bilden; eine Handlung des Bestimmens eines Wichtigkeitswerts für jedes der Merkmale mit niedrigem (510), mittlerem (710) und hohem Grad (910) von der Identifizierungshandlung; eine Handlung des Berechnens eines Rahmenwichtigkeitswerts für jeden der mehreren Rahmen, die den Bild- (303), den Ton- (305) und den Textsubstrom (307) bilden, als eine Funktion der Wichtigkeitswerte der Merkmalwichtigkeitswerte, die im Bestimmungsschritt bestimmt wurden; eine Handlung des Kombinierens der Rahmen zu Segmenten in jedem des Bild- (303), des Ton- (305) und des Textsubstroms (307); eine Handlung des Berechnens eines Wichtigkeitswerts pro Segment für jedes Segment von der Kombinierungshandlung; eine Handlung des Reihens der Segmente auf Basis der Wichtigkeitswerte, die bei der Berechnungshandlung berechnet wurden; und eine Handlung des Identifizierens von Schlüsselelementen auf Basis der gereihten Segmente.
DE602004003497T 2003-06-30 2004-06-28 System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen Expired - Fee Related DE602004003497T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US48376503P 2003-06-30 2003-06-30
US483765P 2003-06-30
PCT/IB2004/051033 WO2005001715A1 (en) 2003-06-30 2004-06-28 System and method for generating a multimedia summary of multimedia streams

Publications (2)

Publication Number Publication Date
DE602004003497D1 DE602004003497D1 (de) 2007-01-11
DE602004003497T2 true DE602004003497T2 (de) 2007-09-13

Family

ID=33552073

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004003497T Expired - Fee Related DE602004003497T2 (de) 2003-06-30 2004-06-28 System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen

Country Status (8)

Country Link
US (1) US7738778B2 (de)
EP (1) EP1642212B1 (de)
JP (1) JP2007519053A (de)
KR (1) KR101150748B1 (de)
AT (1) ATE347143T1 (de)
DE (1) DE602004003497T2 (de)
ES (1) ES2277260T3 (de)
WO (1) WO2005001715A1 (de)

Families Citing this family (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6769128B1 (en) 1995-06-07 2004-07-27 United Video Properties, Inc. Electronic television program guide schedule system and method with data feed access
CN1555191A (zh) 1997-07-21 2004-12-15 E�ǵ¹�˾ 显示和记录控制接口的系统和方法
CN1867068A (zh) 1998-07-14 2006-11-22 联合视频制品公司 交互式电视节目导视系统及其方法
US6898762B2 (en) 1998-08-21 2005-05-24 United Video Properties, Inc. Client-server electronic program guide
US9477665B2 (en) * 1999-05-05 2016-10-25 Virtual Creative Artists, LLC Revenue-generating electronic multi-media exchange and process of operating same
KR100971697B1 (ko) 2000-10-11 2010-07-22 유나이티드 비디오 프로퍼티즈, 인크. 데이터의 기억 장치를 주문형 매체 배달 시스템의 서버에 제공하기 위한 시스템 및 방법
US7493646B2 (en) 2003-01-30 2009-02-17 United Video Properties, Inc. Interactive television systems with digital video recording and adjustable reminders
JP2005277531A (ja) * 2004-03-23 2005-10-06 Seiko Epson Corp 動画像処理装置
KR101385087B1 (ko) * 2004-08-10 2014-04-14 소니 주식회사 정보 신호 처리 방법, 정보 신호 처리 장치 및 컴퓨터프로그램 기록 매체
US8266019B2 (en) * 2004-12-22 2012-09-11 Hewlett-Packard Development Company, L.P. Optimizing retrieval of object-associated information
US20060152504A1 (en) * 2005-01-11 2006-07-13 Levy James A Sequential retrieval, sampling, and modulated rendering of database or data net information using data stream from audio-visual media
DE102005016866A1 (de) * 2005-04-12 2006-10-19 Siemens Ag Verfahren sowie Vorrichtung zum Synchronisieren von inhaltsbezogenen ersten Datensegmenten einer ersten Datendatei und inhaltsbezogenen zweiten Datensegmenten einer zweiten Datendatei
JP4556752B2 (ja) * 2005-04-18 2010-10-06 株式会社日立製作所 コマーシャル視聴制御機能を有する録画再生装置
US7684566B2 (en) * 2005-05-27 2010-03-23 Microsoft Corporation Encryption scheme for streamed multimedia content protected by rights management system
US8321690B2 (en) 2005-08-11 2012-11-27 Microsoft Corporation Protecting digital media of various content types
JP4739346B2 (ja) * 2005-10-13 2011-08-03 パイオニア株式会社 要約データ生成装置、表示装置、操作装置、要約データ生成方法およびプログラム
KR100703801B1 (ko) * 2005-10-21 2007-04-06 삼성전자주식회사 Av 태스크 계산 방법, av 태스크 계산을 위한 요약정보 제공 방법 및 이를 위한 장치
US7761293B2 (en) * 2006-03-06 2010-07-20 Tran Bao Q Spoken mobile engine
JP2007274556A (ja) * 2006-03-31 2007-10-18 Toshiba Corp コンテンツデータ送信装置
US8392183B2 (en) * 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
US20080222120A1 (en) * 2007-03-08 2008-09-11 Nikolaos Georgis System and method for video recommendation based on video frame features
KR100785927B1 (ko) 2006-06-02 2007-12-17 삼성전자주식회사 데이터 요약 생성 방법 및 장치
US8094997B2 (en) * 2006-06-28 2012-01-10 Cyberlink Corp. Systems and method for embedding scene processing information in a multimedia source using an importance value
CN101485123B (zh) * 2006-07-04 2014-08-20 皇家飞利浦电子股份有限公司 内容替换的方法
JP2009543411A (ja) * 2006-07-04 2009-12-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ置換の方法
JP4835321B2 (ja) * 2006-08-21 2011-12-14 ソニー株式会社 番組提供方法、番組提供方法のプログラム、番組提供方法のプログラムを記録した記録媒体及び番組提供装置
KR100803747B1 (ko) * 2006-08-23 2008-02-15 삼성전자주식회사 요약 클립 생성 시스템 및 이를 이용한 요약 클립 생성방법
US20080051029A1 (en) * 2006-08-25 2008-02-28 Bradley James Witteman Phone-based broadcast audio identification
US20080049704A1 (en) * 2006-08-25 2008-02-28 Skyclix, Inc. Phone-based broadcast audio identification
EP1919216A1 (de) * 2006-10-30 2008-05-07 British Telecommunications Public Limited Company Personalisierte Media-Presentation
US8090694B2 (en) 2006-11-02 2012-01-03 At&T Intellectual Property I, L.P. Index of locally recorded content
US7801888B2 (en) 2007-03-09 2010-09-21 Microsoft Corporation Media content search results ranked by popularity
US10528629B2 (en) * 2007-04-03 2020-01-07 Oath Inc. Systems and methods for providing syndicated content
US20090019492A1 (en) 2007-07-11 2009-01-15 United Video Properties, Inc. Systems and methods for mirroring and transcoding media content
US20090060469A1 (en) * 2007-08-31 2009-03-05 United Video Properties, Inc. Systems and methods for recording popular media in an interactive media delivery system
JP2009124510A (ja) * 2007-11-15 2009-06-04 Canon Inc 表示制御装置及びその方法、プログラム、記録媒体
JP5343861B2 (ja) * 2007-12-27 2013-11-13 日本電気株式会社 テキスト分割装置とテキスト分割方法およびプログラム
FR2926695B1 (fr) * 2008-01-21 2013-08-09 Alcatel Lucent Procede de preparation de contenus de programmes audiovisuels, et systeme associe
DE102008018679B4 (de) * 2008-04-14 2010-11-25 Siemens Aktiengesellschaft Vorrichtung zum Filtern und Übertragen dynamischer Daten und Verfahren zum Filtern und Übertragen dynamischer Daten
US8655953B2 (en) * 2008-07-18 2014-02-18 Porto Technology, Llc System and method for playback positioning of distributed media co-viewers
US8812311B2 (en) * 2008-10-27 2014-08-19 Frank Elmo Weber Character-based automated shot summarization
US10063934B2 (en) 2008-11-25 2018-08-28 Rovi Technologies Corporation Reducing unicast session duration with restart TV
KR101264070B1 (ko) * 2009-03-25 2013-05-13 후지쯔 가부시끼가이샤 재생 제어 프로그램을 기록한 컴퓨터 판독 가능한 매체, 재생 제어 방법 및 재생 장치
US9014546B2 (en) 2009-09-23 2015-04-21 Rovi Guides, Inc. Systems and methods for automatically detecting users within detection regions of media devices
KR101786051B1 (ko) * 2009-11-13 2017-10-16 삼성전자 주식회사 데이터 제공 방법 및 장치와 데이터 수신 방법 및 장치
US8495105B2 (en) * 2009-12-22 2013-07-23 International Business Machines Corporation Consolidating input messages for social activity summarization
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US20110191141A1 (en) * 2010-02-04 2011-08-04 Thompson Michael L Method for Conducting Consumer Research
JP2011205217A (ja) * 2010-03-24 2011-10-13 Sony Corp 情報処理装置、情報処理方法、プログラム
US20120183271A1 (en) * 2011-01-17 2012-07-19 Qualcomm Incorporated Pressure-based video recording
US9137573B2 (en) 2011-06-06 2015-09-15 Netgear, Inc. Systems and methods for managing media content based on segment-based assignment of content ratings
CN102982804B (zh) 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
US9015109B2 (en) 2011-11-01 2015-04-21 Lemi Technology, Llc Systems, methods, and computer readable media for maintaining recommendations in a media recommendation system
US8903911B2 (en) * 2011-12-05 2014-12-02 International Business Machines Corporation Using text summaries of images to conduct bandwidth sensitive status updates
US8805418B2 (en) 2011-12-23 2014-08-12 United Video Properties, Inc. Methods and systems for performing actions based on location-based rules
EP2739061A1 (de) * 2012-11-30 2014-06-04 Alcatel Lucent Adaptive Videozusammenfassung mit mehrere Auflösungen und adaptive Bereitstellung
US20140181668A1 (en) 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
US20140201103A1 (en) * 2013-01-14 2014-07-17 National Cheng Kung University System for research and development information assisting in investment, and a method, a computer program, and a readable and recordable media for computer thereof
US9807474B2 (en) 2013-11-15 2017-10-31 At&T Intellectual Property I, Lp Method and apparatus for generating information associated with a lapsed presentation of media content
US9286938B1 (en) 2014-01-02 2016-03-15 Google Inc. Generating and providing different length versions of a video
US9940099B2 (en) * 2014-01-03 2018-04-10 Oath Inc. Systems and methods for content processing
US10664687B2 (en) 2014-06-12 2020-05-26 Microsoft Technology Licensing, Llc Rule-based video importance analysis
US20160041998A1 (en) * 2014-08-05 2016-02-11 NFL Enterprises LLC Apparatus and Methods for Personalized Video Delivery
WO2016032019A1 (ko) * 2014-08-27 2016-03-03 삼성전자주식회사 음원의 하이라이트 구간을 추출하는 전자 장치 및 방법
US10331398B2 (en) 2015-05-14 2019-06-25 International Business Machines Corporation Reading device usability
US10090020B1 (en) * 2015-06-30 2018-10-02 Amazon Technologies, Inc. Content summarization
US10158983B2 (en) 2015-07-22 2018-12-18 At&T Intellectual Property I, L.P. Providing a summary of media content to a communication device
EP4270214A3 (de) 2015-09-01 2023-12-13 Dream It Get IT Limited Abruf von medieneinheit und zugehörige verfahren
US9965680B2 (en) 2016-03-22 2018-05-08 Sensormatic Electronics, LLC Method and system for conveying data from monitored scene via surveillance cameras
US10733231B2 (en) * 2016-03-22 2020-08-04 Sensormatic Electronics, LLC Method and system for modeling image of interest to users
US10140259B2 (en) 2016-04-28 2018-11-27 Wipro Limited Method and system for dynamically generating multimedia content file
US10440431B1 (en) * 2016-11-28 2019-10-08 Amazon Technologies, Inc. Adaptive and automatic video scripting
US10783315B2 (en) * 2016-12-15 2020-09-22 Microsoft Technology Licensing, Llc Contextually sensitive summary
US10423409B2 (en) * 2017-04-21 2019-09-24 Semmle Limited Weighting static analysis alerts
US10587919B2 (en) 2017-09-29 2020-03-10 International Business Machines Corporation Cognitive digital video filtering based on user preferences
US11363352B2 (en) 2017-09-29 2022-06-14 International Business Machines Corporation Video content relationship mapping
WO2019077846A1 (ja) * 2017-10-17 2019-04-25 ソニーモバイルコミュニケーションズ株式会社 情報処理装置、情報処理方法、及びプログラム
KR102542788B1 (ko) * 2018-01-08 2023-06-14 삼성전자주식회사 전자장치, 그 제어방법 및 컴퓨터프로그램제품
CN108650558B (zh) * 2018-05-30 2021-01-15 互影科技(北京)有限公司 基于交互视频的视频前情提要的生成方法及装置
US20210144418A1 (en) * 2018-08-10 2021-05-13 Microsoft Technology Licensing, Llc Providing video recommendation
US20200186852A1 (en) * 2018-12-07 2020-06-11 Arris Enterprises Llc Methods and Systems for Switching Between Summary, Time-shifted, or Live Content
KR102124825B1 (ko) * 2018-12-27 2020-06-19 주식회사 산타 자동적으로 영상을 트리밍하는 방법 및 그를 이용한 서버
KR20200107757A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치
US11102523B2 (en) 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
US11039177B2 (en) * 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US10708633B1 (en) 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets
TWI716033B (zh) * 2019-07-15 2021-01-11 李姿慧 影像配樂智能系統
CN111163366B (zh) * 2019-12-30 2022-01-18 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端
US11308331B2 (en) * 2019-12-31 2022-04-19 Wipro Limited Multimedia content summarization method and system thereof
US11315568B2 (en) 2020-06-09 2022-04-26 International Business Machines Corporation Summarizing multi-modal conversations in a multi-user messaging application
US11675822B2 (en) * 2020-07-27 2023-06-13 International Business Machines Corporation Computer generated data analysis and learning to derive multimedia factoids
US11314970B1 (en) * 2020-11-19 2022-04-26 Adobe Inc. Reinforcement learning techniques for automated video summarization
CN113052149B (zh) * 2021-05-20 2021-08-13 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质
CN113660541B (zh) * 2021-07-16 2023-10-13 北京百度网讯科技有限公司 新闻视频的摘要生成方法及装置
US20230068502A1 (en) * 2021-08-30 2023-03-02 Disney Enterprises, Inc. Multi-Modal Content Based Automated Feature Recognition

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5798785A (en) * 1992-12-09 1998-08-25 Discovery Communications, Inc. Terminal for suggesting programs offered on a television program delivery system
US6125229A (en) 1997-06-02 2000-09-26 Philips Electronics North America Corporation Visual indexing system
US6100941A (en) * 1998-07-28 2000-08-08 U.S. Philips Corporation Apparatus and method for locating a commercial disposed within a video data stream
WO2000039707A1 (en) * 1998-12-23 2000-07-06 Koninklijke Philips Electronics N.V. Personalized video classification and retrieval system
JP2002259720A (ja) * 2001-03-02 2002-09-13 Internatl Business Mach Corp <Ibm> コンテンツ要約システム、映像要約システム、ユーザ端末、要約映像生成方法、要約映像受信方法、およびプログラム
US20030107592A1 (en) 2001-12-11 2003-06-12 Koninklijke Philips Electronics N.V. System and method for retrieving information related to persons in video programs

Also Published As

Publication number Publication date
EP1642212B1 (de) 2006-11-29
KR20060027377A (ko) 2006-03-27
JP2007519053A (ja) 2007-07-12
ATE347143T1 (de) 2006-12-15
US7738778B2 (en) 2010-06-15
WO2005001715A1 (en) 2005-01-06
EP1642212A1 (de) 2006-04-05
US20060165379A1 (en) 2006-07-27
ES2277260T3 (es) 2007-07-01
DE602004003497D1 (de) 2007-01-11
KR101150748B1 (ko) 2012-06-08

Similar Documents

Publication Publication Date Title
DE602004003497T2 (de) System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen
DE69930747T2 (de) Elektronischer client-server rprogrammführer
DE69617072T2 (de) Verfahren und Vorrichtung zur Erfassung von Wechselstellen in bewegten Bildern
KR100711948B1 (ko) 개인화된 비디오 분류 및 검색 시스템
DE69713419T2 (de) Kontext-basiertes Erkennungssystem für interaktives Fernsehen und Telefonie
DE60307224T2 (de) Computergestütztes verfahren zur entdeckung von mustern in unbekannten hochdimensionalen daten
DE60216547T2 (de) Videostrukturierung durch wahrscheinlichkeitstheoretische Zusammenführung von Videosegmenten
EP2089886B1 (de) Verfahren zur zeitlichen segmentierung eines videos in videobildfolgen und zur auswahl von keyframes für das auffinden von bildinhalten unter einbeziehung einer subshot-detektion
DE60313283T2 (de) Verfahren zur zusammenfassung von unbekanntem videoinhalt
DE69731988T2 (de) Verfahren und Gerät zur Anzeige von Bildern und Daten
US7356830B1 (en) Method and apparatus for linking a video segment to another segment or information source
DE69613949T2 (de) Vorrichtung zum Detektieren von Schnitten in einer Videosequenz
DE102008056603A1 (de) Verfahren und Vorrichtungen zur Messung von Markenexposition in Medienstreams und zur Festlegung von Interessenbereichen in zugeordneten Videoframes
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
DE112016001594T5 (de) Verfahren, systeme und medien zum aggregieren und präsentieren von relevantem inhalt für ein bestimmtes videospiel
DE60119012T2 (de) Verfahren um Überblendung in einer MPEG-Umgebung zu detektieren
US20030117428A1 (en) Visual summary of audio-visual program features
DE112020005726B4 (de) Segmentieren von videos auf der grundlage eines gewichteten wissensgraphen
DE102011107992A1 (de) System und Verfahren zum Anmelden zu Ereignissen auf der Grundlage von Schlagwörtern
KR20040066850A (ko) 타겟 주제에 관한 정보를 검색하는 시스템 및 방법
WO2003041410A1 (en) Method and system for information alerts
KR20020072111A (ko) 비디오 텍스트 합성 키 프레임 추출방법
DE60319710T2 (de) Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
DE69918533T2 (de) Verfahren zur detektion von übergängen in abgetastenen digitalen videosequenzen
EP2701115A1 (de) Verfahren und System zur Live-Video-Beratung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee