DE112016003694T5 - System und Verfahren zum Erkennen von Werbung in Multimedia-Assets - Google Patents

System und Verfahren zum Erkennen von Werbung in Multimedia-Assets Download PDF

Info

Publication number
DE112016003694T5
DE112016003694T5 DE112016003694.9T DE112016003694T DE112016003694T5 DE 112016003694 T5 DE112016003694 T5 DE 112016003694T5 DE 112016003694 T DE112016003694 T DE 112016003694T DE 112016003694 T5 DE112016003694 T5 DE 112016003694T5
Authority
DE
Germany
Prior art keywords
audio
multimedia
data
signatures
asset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112016003694.9T
Other languages
English (en)
Inventor
Benedito J. Fonseca JR.
Faisal Ishtiaq
Anthony J. Braskich
Venugopal Vasudevan
Isselmou Ould Dellahy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANDREW WIRELESS SYSTEMS UK LIMITED, GB
Andrew Wireless Systems Uk Ltd Gb
Original Assignee
Arris Enterprises LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Arris Enterprises LLC filed Critical Arris Enterprises LLC
Publication of DE112016003694T5 publication Critical patent/DE112016003694T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/278Content descriptor database or directory service for end-user access
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4821End-user interface for program selection using a grid, e.g. sorted out by channel and broadcast time

Abstract

Es werden Systeme und Verfahren zum Bestimmen der Position von Werbungen in einem Multimedia-Asset beschrieben. Ein Verfahren umfasst das Erhalten einer Audiosignatur, die einem Zeitabschnitt eines Multimedia-Assets entspricht, das Feststellen einer Übereinstimmung zwischen der erhaltenen Audiosignatur und einer oder mehreren gespeicherten Audiosignaturen, das Vergleichen von Programmdaten des Multimedia-Assets der erhaltenen Audiosignatur und der übereinstimmenden Audiosignaturen und das Bestimmen, ob der Zeitabschnitt des Multimedia-Assets eine Werbung enthält, basierend auf dem Vergleich der Programmdaten der Multimedia-Assets der erhaltenen Audiosignatur und der einen oder mehreren übereinstimmenden Audiosignaturen. Ein weiteres Verfahren umfasst das Feststellen von Übereinstimmungen zwischen einer Mehrzahl von erhaltenen Audiosignaturen und einer Mehrzahl von gespeicherten Audiosignaturen und das Bestimmen, ob aufeinanderfolgende Zeitabschnitte des Multimedia-Assets eine Werbung enthalten, basierend auf einer Anzahl von aufeinanderfolgenden übereinstimmenden Audiosignaturen der mehrzähligen gespeicherten Signaturen.

Description

  • Für vorliegende Anmeldung wird die Priorität der vorläufigen US-Anmeldung Nr. 62/204,637 vom 13. August 2015 in Anspruch genommen, auf deren Inhalt hiermit verwiesen wird.
  • TECHNISCHES GEBIET
  • Vorliegende Erfindung betrifft das Gebiet der Multimedia-Identifikation und Erkennung und betrifft insbesondere Systeme und Verfahren zum Identifizieren oder Erkennen von Werbung in audiovisuellen Multimedia wie beispielsweise Fernsehprogramme.
  • HINTERGRUND
  • Normalerweise enthält audiovisueller Multimedia-Inhalt wie Fernsehprogramme oder Videostreams eingebettete Werbung. Damit Werbung zum Beispiel entfernt oder ausgetauscht werden kann, ist es unter Umständen wünschenswert, die Position von Werbungen in dem Multimedia-Inhalt zu bestimmen. Es können Marker (manchmal auch als „Bumpers“ bezeichnet) verwendet werden, um den Anfang und das Ende von Werbungen in einem bestimmten Multimedia-Inhalt zu identifizieren bzw. zu kennzeichnen. Jedoch werden solche Marker häufig nicht verwendet. Da die Position der Werbungen und deren Länge oft variieren, bedarf es bisweilen einer überdurchschnittlichen menschlichen Beteiligung, um die Position von Werbungen zu identifizieren.
  • ÜBERSICHT
  • Vorliegende Erfindung beschreibt Systeme und Verfahren zum Bestimmen der Position von Werbungen in Multimedia-Assets.
  • Ein Beispiel-Verfahren umfasst das Erhalten einer Audiosignatur, die einem Zeitabschnitt eines Multimedia-Asset entspricht, das Feststellen einer Übereinstimmung zwischen der erhaltenen Audiosignatur und einer oder mehreren gespeicherten Audiosignaturen, das Vergleichen von Programmdaten der Multimedia-Assets der erhaltenen Audiosignaturen und der einen oder mehreren übereinstimmenden Audiosignaturen und das Bestimmen, ob der Zeitabschnitt des Multimedia-Assets Werbung enthält, basierend auf dem Vergleich der Programmdaten der Multimedia-Assets der erhaltenen Audiosignatur und der einen oder mehreren übereinstimmenden Audiosignaturen.
  • Ein weiteres Beispielverfahren umfasst das Erhalten einer Mehrzahl von Audiosignaturen, die aufeinanderfolgenden Zeitabschnitten des Multimedia-Assets entsprechen, das Feststellen von Übereinstimmungen zwischen den erhaltenen Audiosignaturen und einer Mehrzahl von gespeicherten Audiosignaturen und das Bestimmen, ob die aufeinanderfolgenden Zeitabschnitte des Multimedia-Assets Werbung enthalten, basierend auf der Anzahl von aufeinanderfolgenden übereinstimmenden Audiosignaturen der mehrzähligen gespeicherten Audiosignaturen.
  • Ein Beispiel-System umfasst einen Empfänger, einen Computerspeicher und einen Prozessor. Der Empfänger ist für den Empfang von Audio- und Videodaten von einem Multimedia-Stream geschaltet. Der Computerspeicher enthält eine Datenbank von einer oder mehreren gespeicherten Audiosignaturen. Die gespeicherten Audiosignaturen entsprechen Zeitabschnitten einer Mehrzahl von Multimedia-Assets. Der Prozessor steht mit dem Empfänger und dem Computerspeicher in Verbindung. Der Prozessor ist programmiert für das Erhalten einer Audiosignatur, die einem Zeitabschnitt eines Multimedia-Assets in dem Multimedia-Stream entspricht, für das Feststellen einer Übereinstimmung zwischen der erhaltenen Audiosignatur und der einen oder mehreren gespeicherten Audiosignaturen, für das Vergleichen der Programmdaten der Multimedia-Assets der erhaltenen Audiosignatur und der einen oder mehreren übereinstimmenden Audiosignaturen und für das Bestimmen, ob der Zeitabschnitt des Multimedia-Assets Werbung enthält, basierend auf dem Vergleich der Programmdaten des Multimedia-Assets der erhaltenen Audiosignatur und der einen oder mehreren übereinstimmenden Audiosignaturen. Zusätzlich zu dem vorgenannten System kann ein nichttransitorisches computerlesbares Medium Computerbefehle enthalten, die den Computer zum Ausführen der vorstehenden Schritte veranlassen.
  • Figurenliste
  • Weitere Details der Beispiel-Implementierungen werden nachstehend im Zusammenhang mit den anliegenden Zeichnungen erläutert. Darin zeigt:
    • 1: ein Blockdiagramm eines Systems zum Erkennen von Werbungen;
    • 2: ein Blockdiagramm eines Datenverarbeitungs-Servers des Systems von 1;
    • 3: ein Flussdiagramm mit den Schritten eines Verfahrens zum Erkennen von Werbungen;
    • 4: ein Beispiel eines Prozesses zum Generieren einer Datenbank von Audiosignaturen;
    • 5, 6 und 7: ein Beispiel eines Prozesses zum Bestimmen, ob ein Teil eines Multimedia-Assets Werbung enthält;
    • 8, 9, 10 und 11: ein Beispiel eines Prozesses zum Identifizieren des Anfangs einer Werbung in einem Multimedia-Asset;
    • 12: ein Flussdiagramm mit Schritten eines Verfahrens zum Identifizieren des Anfangs einer Werbung in einem Multimedia-Asset.
  • DETAILBESCHREIBUNG
  • Aus Gründen der Einfachheit und zur Veranschaulichung werden die Prinzipien der Ausführungsformen hauptsächlich unter Bezugnahme auf Beispiele derselben beschrieben. Die nachstehende Beschreibung enthält zahlreiche Details, um die Ausführungsformen hinreichend verständlich zu machen. Der Fachmann wird jedoch erkennen, dass die Ausführungsformen ohne eine Einschränkung auf diese speziellen Details praktisch umgesetzt werden können. In einigen Fällen wurden hinlänglich bekannte Verfahren und Strukturen nicht im Einzelnen beschrieben, um die Ausführungsformen nicht unnötig zu verschleiern.
  • Die nachstehend beschriebenen Beispiel-Systeme und Beispiel-Verfahren erkennen die Position von Werbungen in Multimedia-Assets wie beispielsweise Fernsehprogramme. Diese Beispiele bieten Vorteile gegenüber konventionellen Systemen, indem sie eine geringere und in manchen Fällen unwesentliche oder überhaupt keine menschliche Beteiligung erfordern, um Werbung zu identifizieren und katalogisieren. Ferner bieten diese Beispiele Vorteile gegenüber konventionellen Systemen, indem sie keine Verwendung von Markern (wie beispielsweise Frames, die einem Bumper-Segment oder Audiotönen oder Signalen entsprechen) erfordern, um die Position oder den Anfang oder das Ende von Werbungen in Multimedia-Assets zu identifizieren. Im Vergleich zu konventionellen Systemen bieten diese Beispiele eine größere Genauigkeit beim Erkennen von Werbung. Durch das Identifizieren der Position von Werbungen in Multimedia-Assets können die Beispiel-Systeme und Beispiel-Verfahren vorliegend verwendet werden, um während einer späteren Betrachtung von gespeicherten Multimedia-Assets ein automatisches Entfernen von Werbungen oder ein automatisches Ersetzen von Werbungen zu ermöglichen.
  • 1 zeigt eine Ausführungsform eines Systems 100 zum Erkennen von Werbungen. Das System 100 kann Teil eines Kommunikationsnetzes sein, das als Sendenetz, ATSC-, IPTV- oder IP-Video-Bereitstellungsnetz genutzt werden kann, das Dateien und Multimedia-Inhalt transportiert oder bereitstellt, wobei Multicast- bzw. Mehrfachübertragungen eingeschlossen sind. Die Netzwerkumgebung kann ein Edge Serving Office (ESO) 110 umfassen, welches eine Kopfstation oder Zentrale eines Mehrdiensteanbieters (MSO = Multiple Service Provider) wie beispielsweise einer Kabel-, Satelliten- oder Telefongesellschaft sein kann. Das ESO 110 kann verschiedene Kommunikationseinrichtungen wie beispielsweise eine oder mehrere Modulations/Demodulations-Einrichtungen (nicht gezeigt), einen Content-Server (nicht gezeigt) und weitere Kommunikationseinrichtungen (nicht gezeigt) enthalten, die einem Benutzer Video-, Daten- und/oder Sprachdienste bereitstellen.
  • Die Kommunikationseinrichtungen an dem ESO 110 sind geeignet für die Kommunikation mit einem Home Gateway 120 unter Nutzung einer Kabelleitungs-Netzverbindung 112. In einer Ausführungsform umfasst das Home Gateway 120 die Funktion einer Set-Top-Box (STB). Die Kombination der STB und des Home Gateway kann als Set-Top-Gateway bezeichnet werden. Es wird jedoch auch eine STB in Erwägung gezogen, die von dem Home Gateway gegebenenfalls getrennt ist. In diesem Fall sorgt das Home Gateway für die Netzverbindung, und die STB stellt die Mediafunktionen bereit. Wenn die STB getrennt von dem Home Gateway 120 vorgesehen ist, kann die STB parallel zu dem Home Gateway mit der Netzverbindung 112 verbunden sein oder kann mit dem Home Gateway 120 verbunden sein, um über das Home Gateway IPTV-Pakete von dem ESO 110 zu empfangen.
  • Die Kommunikationseinrichtungen an dem ESO 110 können betrieben werden, um über das Home Gateway 120 mit einem oder mehreren Benutzergeräten bzw. Endgeräten zu kommunizieren. Die Benutzergeräte können kundenseitige Endgeräte (CPE = Customer Premises Equipment) wie ein Vorrichtungs-Server mit direkt angeschlossenem Speicher (NAS = Network Attached Storage) 122, ein digitaler Fernsehempfänger (DTV-Receiver = Digital Television Receiver) 124, ein Funkempfänger 126, ein Digital Video Disc-Player (DVD-Spieler) 128 mit einer Einrichtung für Video-Streaming, ein Mobilgerät 130, ein Computer 132 oder ein Thermostat 134 oder ein anderes Gerät des Internets der Dinge (loT = Internet of Things) sein (z.B. eine Vorrichtung, eine Überwachungskamera, ein Beleuchtungskörper etc.), das über das Home Gateway mit dem Internet verbunden ist. Diese CPE-Geräte können sich in den oder in der Nähe der Räumlichkeiten eines Benutzers befinden. In dem Beispiel-System ist das CPE-Gerät 130 ein Mobilgerät, das über eine Möglichkeit zur drahtlosen Telekommunikation verfügt, wenngleich dieses als „Customer Premise“-Device bzw. Teilnehmergerät bezeichnet wird. In 1 sind zu Darstellungszwecken nur bestimmte CPE-Geräte 122, 124, 126, 128, 130, 132 und 134 gezeigt, wobei jedoch mehr oder weniger Geräte über das Home Gateway 120 mit dem ESO 110 verbunden sein können.
  • Es wird weiterhin auf 1 Bezug genommen. Die Kommunikationseinrichtungen an dem ESO 110 können über ein Verkehrsnetz mit einem oder mehreren der CPE-Geräte 122, 124, 126, 128, 130, 132 und 134 kommunizieren. Beispiele eines ESO-to-Premises-Verkehrsnetzes umfassen ein oder mehrere Hybrid-Fiber Coaxial Networks (HFC-Netze) und/oder RF over Glass Networks (RFoG-Netze). Ein Beispiel-HFC-Netz kann als Netzverbindung 112 eine Kombination eines Lichtwellenleiters und Koaxialkabels 112 nutzen, um Daten an die Kommunikationseinrichtungen an dem ESO 110 zu senden und um Daten von den Kommunikationseinrichtungen an dem ESO 110 zu empfangen. Ein oder mehrere RFoG-Netze können mit vorhandenen HFC-Netzen bereitgestellt werden. RFoG-Netze umfassen in charakteristischer Weise einen All-Fiber Service von dem ESO 110 zu einem Field Node oder dem Home Gateway 120, das sich normalerweise in den oder in der Nähe der Räumlichkeiten des Nutzers befindet. Ein Koaxialkabel kann verwendet werden, um die optischen Netzeinheiten (ONUs = Optical Network Units) eines RFoG-Netzes mit einem oder mehreren Benutzergeräten 122, 124, 126, 128, 130, 132 und 134 zu verbinden. Zusätzlich können beliebige drahtgebundene oder drahtlose Netze genutzt werden, unter anderem Passive Optical Networks (PON), Gigabite Passive Optical Networks (GPON), Digital Subsrciber Line (DSL), Wi-MAX oder Ethernet.
  • In diesem Beispiel können das NAS-Gerät 122, der DTV-Empfänger 124 und der Funkempfänger 126 über eine physische Verbindung mit dem Home Gateway 120 verbunden sein. Das Mobilgerät 130 kann über eine Kurzstrecken-Funkfrequenz-(RF)-Verbindung, eine magnetische oder optische Verbindung (z.B. 802.11 WiFi, Bluetooth, Zigbee Radio Frequency for Consumer Electronics (RF4CE), Near Field Communication (NFC) oder Infrarot (IR)) mit dem Gateway 120 verbunden sein, und der Computer 132, der Thermostat 134 und der DVD-Spieler 128 können über eine verdrahtete Verbindung wie ein Universal Serial Bus (USB)-Kabel, ein FireWire-Kabel, eine Ethernet-Verbindung und/oder über eine Kurzstrecken-RF-Verbindung, eine magnetische oder optische Drahtlosverbindung mit dem Home Gateway 120 verbunden sein. Jede dieser Verbindungen kann als separater Kommunikationskanal betrachtet werden.
  • Das ESO 110 umfasst ein Network Gateway 114, das einen Zugang zwischen einem Netz und einem Datenverarbeitungsserver 116 und wahlweise zu anderen Netzen wie dem Internet ermöglicht, und ein Telecommunications Gateway 118, das einen Telekommunikationszugang zu CPE-Geräten wie dem Mobilgerät 130 ermöglicht, das über die Kurzstrecken-RF-Verbindung, die magnetische oder optische Verbindung ebenfalls mit dem Home Gateway 120 verbunden ist. Das ESO 110 kann Datenquellen (nicht gezeigt) enthalten, die über eine Standard-Kabelfernsehverbindung oder als IPTV- oder IP-Video-Bereitstellungsnetz Content an die CPE-Geräte liefern. Diese Datenquellen können zum Beispiel Server sein, die in der gleichen Weise wie die Datenverarbeitungsserver 116 mit dem Network Gateway 114 verbunden sind.
  • Ein Beispiel eines Datenverarbeitungsservers 116 ist in 2 dargestellt und wird nachstehend erläutert. Allgemein hat ein Datenverarbeitungsserver 116 einen Empfänger 150, einen Computerspeicher 170 und einen Prozessor 190. Weitere Details den Server 116 betreffend sind nachstehend angegeben.
  • Der Empfänger 150 akzeptiert den Eingang eines Multimedia-Inhalts für den Server 116. Der Empfänger 150 ist zum Empfangen der Audio- und Videodaten von dem Multimedia-Stream von dem Network Gateway 114 geschaltet. Während Multimedia-Asset gestreamt wird (z.B. während einer Rundfunksendung), können die Audio- und Video-Teile des Assets für die Verarbeitung durch den Server 116 mit dem Empfänger 150 erfasst werden. Der Empfänger 150 kann bestimmte zusätzliche Daten erwerben oder erfassen, zum Beispiel Programmdaten für das Multimedia-Asset. Für die Form des Empfängers 150 gibt es keine Einschränkungen. Der Empfänger 150 kann eine physische Verbindung aufweisen und kann über eine Kommunikation per Kabel oder Lichtwellenleiter den Multimedia-Stream von dem Network Gateway 114 empfangen. Alternativ kann der Empfänger 150 ein Drahtlos-Empfänger sein, der den Multimedia-Stream über eine drahtlose Kommunikation empfängt. Der Empfänger 150 kann einen oder mehrere Tuner aufweisen, die eine Abstimmung des Multimedia-Stream auf verschiedene Sendekanäle ermöglicht, um Multimedia-Inhalt von mehreren verschiedenen Programmen zu empfangen.
  • Der Speicher 170 speichert Daten zur Nutzung bei der Erkennung von Werbung. In einem Beispiel enthält der Speicher 170 eine Datenbank von Audiosignaturen von dem interessierenden Multimedia-Inhalt. Während ein Multimedia-Asset von dem Empfänger 150 empfangen wird, kann der Audio-Teil des Assets in Zeitabschnitte einer vorgegebenen Länge unterteilt werden. Für jeden Zeitabschnitt des Multimedia-Assets können Audiosignaturen generiert werden, und zwar entweder, wenn das Asset gestreamt wird oder einige Zeit danach. Diese Audiosignaturen können in der Datenbank in dem Speicher 170 gespeichert werden, um sie bei der Identifizierung von Werbungen in anderen Multimedia-Assets zu verwenden. Die Datenbank kann ausreichend groß sein, so dass die Speichergröße und die Speicherdauer im Wesentlichen unbegrenzt sind (z.B. eine Petabyte-Datenbank), oder kann eine rollende Datenbank von Audiosignaturen sein. In einem Beispiel werden Audiosignaturen für jedes Media-Asset (z.B. sämtliche Fernsehprogramme auf allen Kanälen) nach ihrem ursprünglichen Streaming zehn Tage lang gespeichert. Beispiel-Verfahren zum Generieren von Audiosignaturen werden nachstehend ausführlicher beschrieben. Computerspeicher, die für die Verwendung als Speicher 170 geeignet sind, sind unter anderem ein oder mehrere eines Random Access Memory (RAM) EEPROM, von Magnetmedien, optischen Medien etc.
  • Der Prozessor 190 steht in Verbindung mit dem Empfänger 150 und dem Speicher 170. Der Prozessor 190 ist dafür programmiert zu bestimmen, ob ein Multimedia-Asset, das von dem Empfänger 150 erworben wird, eine Werbung enthält. Diese Bestimmung erfolgt unter Nutzung durch den Empfänger 150 erworbenen Audiodaten und der in dem Speicher 170 gespeicherten Audiosignaturen. Der Prozessor 190 ist nicht auf die Form einer einzigen Verarbeitungskomponente beschränkt, sondern kann eine Kombination von Hardware- und Softwaremodulen umfassen, um die nachstehenden Vorgänge durchzuführen. Ähnlich muss sich der Prozessor 190 nicht auf Verarbeitungselemente an einem einzigen Ort beziehen, sondern kann sich auf mehrere separate Verarbeitungselemente beziehen, die durch eine oder mehrere Netzwerkverbindungen (wie beispielsweise in dem nachstehend beschriebenen verteilten System) verbunden sind.
  • In dem Beispiel, das in den 1 und 2 gezeigt ist, sind die Hardware-Komponenten, die der Erkennung von Werbungen zugeordnet sind, am Headend (Kabelgesellschaft) des Systems 100, d.h. in dem ESO 110, und speziell in dem Datenverarbeitungsserver 116 vorgesehen. Es versteht sich jedoch, dass dieselben Komponenten am Teilnehmerende, z.B. in dem Home Gateway 120 und/oder in einem STB, vorgesehen sein könnten. Darüber hinaus könnten die Hardwarekomponenten zum Detektieren oder Erkennen von Werbungen zwischen dem Headend und dem Teilnehmerende verteilt sein. Es könnten zum Beispiel bestimmte Verarbeitungsfunktionen wie die Generierung von Audiosignaturen an dem Home Gateway 102 und/oder dem STB und andere Verarbeitungsfunktionen wie das Speichern und Vergleichen der Audiosignaturen an dem ESO 110 ausgeführt werden. In einem solchen Beispiel können die Netzverbindung 112 und das Network Gateway 114 die Kommunikation von Audiosignaturen und Informationen über Werbung zwischen dem Home Gateway 120 und dem ESO 110 erleichtern.
  • 3 zeigt ein Verfahren 200 zum Erkennen von Werbungen. Allgemein umfasst das Verfahren 200 das Erhalten einer Audiosignatur, das Ermitteln einer übereinstimmenden Audiosignatur, das Vergleichen von Programmdaten der Audiosignaturen und das Bestimmen des Vorliegens einer Werbung. Weitere Details des Verfahrens 200 sind nachstehend angegeben und werden gegebenenfalls unter Bezugnahme auf die Komponenten des Systems 100 beschrieben.
  • In Schritt 210 wir eine Audiosignatur erhalten. Die Audiosignatur entspricht einem Zeitabschnitt eines Multimedia-Assets von Interesse. Die Länge des Zeitabschnitts kann vorgegeben sein. In einem Beispiel wird während des Empfangs eines Multimedia-Assets von dem Empfänger 150 der Audio-Teil des Assets in Zeitabschnitte einer vorgegebenen Länge unterteilt, z.B. 10-Sekunden-Abschnitte. Es versteht sich, dass auch andere Zeitabschnitte verwendet werden können.
  • Die Audiosignatur kann eine vollständige Audiodatei für den Audio-Teil des Multimedia-Assets während des Zeitabschnitts sein oder kann eine verarbeitete oder komprimierte Version des Audio-Teils des Multimedia-Assets während des Zeitabschnitts sein. In einem Beispiel erstellt der Prozessor 190 die Audiosignatur durch die Anwendung einer Audio-Fingerabdruckfunktion bei einer Audiodatei, die das Audio des Multimedia-Assets während des Zeitabschnitts darstellt. Geeignete Audio-Fingerabdruckfunktionen zur Verwendung bei der Generierung von Audiosignaturen erschließen sich aus der vorliegenden Beschreibung und umfassen zum Beispiel das Echoprint Music Identification System oder eine andere Funktion, die das Audiosegment durch seine Frequenzkomponenten kennzeichnet. Zum Bilden der Audiosignatur kann eine Komprimierung angewendet werden, um die Größe der Audiosignatur zu begrenzen und dabei ausreichende Merkmale der zugrundeliegenden Audiodaten beizubehalten, so dass eine einmalige oder annähernd einmalige Identifizierung der Audiosignatur möglich ist. Dementsprechend kann eine Beispiel-Fingerabdruckfunktion eine Frequenztransformationsoperation durchführen, zum Beispiel und ohne Beschränkung hierauf eine schnelle Fourier-Transformation (FFT), eine diskrete Kosinustransformation (DCT) oder eine Hadamard-Transformation, und kann anschließend das Ergebnis komprimieren, um einen Deskriptor für die abgetasteten Segmente zu erhalten. Der Deskriptor kann einer Hashfunktion unterzogen werden, um in einer Hashtabelle eine Position zu identifizieren, die dem Deskriptor entspricht. Alternativ können die Deskriptoren in einem Binärbaum gespeichert werden, basierend auf Merkmalen des Deskriptors, oder in einer Datenbank eines anderen Typs, die schnell durchsucht werden kann. Der Deskriptor kann mit einer Electronic Programm Guide (EPG)-Information gespeichert werden, die das Multimedia-Asset und das Zeitfenster angibt, aus dem das darunterliegende Audiosegment extrahiert wurde.
  • In Schritt 220 wird eine Übereinstimmung zwischen Audiosignaturen festgestellt. Dies geschieht, indem die in Schritt 210 erhaltene Audiosignatur mit einer Datenbank von vorher erhaltenen, in dem Speicher 170 gespeicherten Audiosignaturen verglichen wird. Wenn die Deskriptoren gestreut und in einer Hashtabelle gespeichert werden, können andere ähnliche Deskriptoren in derselben Binärdatei gestreut und alle Deskriptoren in der Binärdatei als übereinstimmende Deskriptoren behandelt werden. Die vorher erhaltenen Audiosignaturen entsprechen den Zeitabschnitten anderer Multimedia-Assets, wobei die Zeitabschnitte gleich lang sind wie die Zeitabschnitte der in Schritt 210 erhaltenen Audiosignatur.
  • Die Datenbank von Audiosignaturen kann Audiosignaturen enthalten, die allen Teilen eines Multimedia-Stream entsprechen, einschließlich sämtlicher Multimedia-Assets, die in einem bestimmten Zeitintervall empfangen wurden, zum Beispiel in den vorhergehenden zehn Tagen. In einem Beispiel, das in 4 gezeigt ist, enthält die Datenbank Audiosignaturen für alle Fernsehprogramme (z.B. Assets A1, A2, B1, B2, C1, C2), die sämtlichen Fernsehkanälen (z.B. den Kanälen A, B, C) über sämtliche Stunden des Tages entnommen wurden. Eine solche Datenbank enthält Audiosignaturen für Teile von Fernsehprogrammen und Audiosignaturen für Werbungen, die in Fernsehprogrammen positioniert sind. Diese Signaturen können in Verbindung mit den EPG-Daten in der Datenbank gespeichert werden, was nachstehend näher erläutert wird.
  • Der Vergleich der Audiosignaturen kann in Echtzeit erfolgen, während ein Multimedia-Asset gestreamt wird und/oder während Audiosignaturen erhalten werden, oder der Vergleich kann mit zuvor erhaltenen Audiosignaturen, die in der Datenbank gespeichert sind, erfolgen. Um alle Übereinstimmungen zu identifizieren, kann der Vergleich zwischen den erhaltenen Audiosignaturen und jeder (anderen) gespeicherten Audiosignatur in der Datenbank durchgeführt werden. Eine Übereinstimmung in Audiosignaturen kann festgestellt werden, wenn die Zeit- und Frequenzspitzen einer Audiosignatur den Zeit- und Frequenzspitzen anderer Audiosignaturen ausreichend ähnlich oder mit diesen identisch sind.
  • In Schritt 230 können die Programmdaten der übereinstimmenden Audiosignaturen verglichen werden. In einem Beispiel empfängt der Empfänger 150 Programmdaten (EPG-Daten) des Multimedia-Assets zusätzlich zu den Audio- und Videodaten des Multimedia-Assets. In einer Implementierung werden diese Programmdaten in Verbindung mit Audiosignaturen, die dem korrespondierenden Audiosegment entsprechen, das aus dem Multimedia-Asset extrahiert wurde, in dem Speicher 170 gespeichert. Der Prozessor 190 kann dann die Programmdaten übereinstimmender Audiosignaturen vergleichen, um Unterschiede festzustellen.
  • Die Programmdaten können Metadaten oder beschreibende Daten des Assets enthalten. Kategorien von Informationen, die in den von dem Empfänger 150 empfangenen Programmdaten enthalten sein können, sind unter anderem zum Beispiel das Genre des Assets, der Titel des Assets, der Episodentitel für das Asset, eine Beschreibung des Assets, ein Kanal oder ein Dienst, auf welchem oder über welchen das Asset gesendet oder gestreamt wird, und eine Zeit (einschließlich Datum), zu der das Asset gesendet oder gestreamt wird.
  • In Schritt 240 wird bestimmt, ob das Multimedia-Asset eine Werbung enthält. Indem die Programmdaten von Assets mit übereinstimmenden Audiosignaturen verglichen werden, können Unterschiede in den Programmdaten identifiziert werden. In einem Beispiel bestimmt der Prozessor 190 basierend auf den Unterschieden zwischen den Programmdaten der erhaltenen Audiosignatur und übereinstimmenden Audiosignaturen, ob der Zeitabschnitt, dem die erhaltene Audiosignatur entspricht, eine Werbung enthält. Spezielle Beispiele dieser Bestimmung werden nachstehend ausführlicher erläutert.
  • Um ein Beispiel zu nennen: Es versteht sich, dass dieselbe Werbung in mehreren verschiedenen Multimedia-Assets gestreamt werden kann, wie zum Beispiel derselbe Werbespot, der während der verschiedenen Fernsehprogramme gezeigt wird. Wenn also übereinstimmende Audiosignaturen in einer Anzahl von Multimedia-Assets mit unterschiedlichen Titeln erscheinen, kann bestimmt werden, dass die erhaltene Audiosignatur einem Zeitabschnitt entspricht, der eine Werbung enthält.
  • Um ein weiteres Beispiel zu nennen: Es versteht sich, dass dieselbe Werbung auf verschiedenen Kanälen gestreamt werden kann. Wenn also in Multimedia-Assets, die auf verschiedenen Kanälen gestreamt werden, übereinstimmende Audiosignaturen vorkommen, kann bestimmt werden, dass die erhaltene Audiosignatur einem Zeitabschnitt entspricht, der eine Werbung enthält. Eine solche Bestimmung kann auch auf Assets beschränkt werden, die verschiedene Titel haben oder verschiedenen Genres angehören, um eine Verwechslung in Situationen zu vermeiden, in denen dasselbe Fernsehprogramm oder dasselbe Segment auf verschiedenen Kanälen gesendet wird (wie beispielsweise während der Fernsehnachrichtensendungen).
  • Werbungen, die in Multimedia-Assets erscheinen, sind in ihrer Länge allgemein begrenzt, zum Beispiel auf dreißig oder sechzig Sekunden. Angesichts dieser Begrenzung können mehrere aufeinanderfolgende Audiosignaturen von jeweiligen Multimedia-Assets als Gruppe verglichen werden, um zu bestimmen, ob sie eine Werbung enthalten. Zum Beispiel kann eine Mehrzahl von Audiosignaturen, die aufeinanderfolgenden Zeitabschnitten eines Multimedia-Assets entsprechen, in der vorstehenden Weise erhalten werden. Es können dann zwischen den Serien von aufeinanderfolgenden Audiosignaturen und gespeicherten Audiosignaturen Übereinstimmungen festgestellt werden. Die Bestimmung einer vorhandenen Werbung kann basierend auf der Länge der Zeit erfolgen, die durch übereinstimmende Audiosignaturen abgedeckt wird. Wenn die Serie von übereinstimmenden Audiosignaturen unter einer vorgegebenen Anzahl liegt, kann bestimmt werden, dass die aufeinanderfolgenden Zeitabschnitte, denen die übereinstimmenden Audiosignaturen entsprechen, eine Werbung enthalten. Wenn umgekehrt die Serie von übereinstimmenden Audiosignaturen über einer vorgegebenen Anzahl liegt, kann bestimmt werden, dass die aufeinanderfolgenden Zeitabschnitte, denen die übereinstimmenden Audiosignaturen entsprechen, keine Werbung enthalten, dass diese aber stattdessen demselben Programm entsprechen können, das von mehreren Quellen gesendet wird. Die vorgegebene Anzahl von Audiosignaturen kann basierend auf der Länge der Zeit gewählt werden, die durch die Audiosignaturen abgedeckt wird, und basierend auf der Länge einer typischen Werbung. Zum Beispiel kann bei Audiosegmenten, die einem 10-Sekunden-lntervall entsprechen, die vorgegebene Anzahl drei oder sechs betragen, wobei die Länge der Werbespots der typischen Länge von dreißig oder sechzig Sekunden entspricht.
  • Während das Verfahren 200 angewendet werden kann, um die Position einer Werbung in einem Multimedia-Asset zu identifizieren, liefert dieses Verfahren nicht notwendigerweise Informationen bezüglich der Position, an welcher die Werbung anfängt oder endet. Daher ist es gegebenenfalls zweckmäßig, weitere Schritte durchzuführen, um den Anfang und das Ende einer Werbung zu identifizieren. Beispiele einer solchen Identifizierung werden nachstehend erläutert.
  • Zum Identifizieren des Anfangs und des Endes von Werbespots können zusätzlich zu den Audiodaten Videodaten verwendet werden. Demensprechend kann der Empfänger 150 zusätzlich zur Erfassung von Audiodaten eines Multimedia-Assets auch Videodaten des Multimedia-Assets erfassen. In einer Implementierung enthalten die Videodaten eine Mehrzahl von Bildern (oder Frames). Diese Videodaten können in einer ähnlichen Weise wie die Audiodaten verarbeitet und gespeichert werden. Die eigentlichen Bilder, aus denen das Video besteht, können gespeichert werden, oder die Bilder können vor dem Speichern verarbeitet und komprimiert werden. In einem Beispiel verarbeitet der Prozessor 190 die Bilder, um eine Datei der räumlichen Verteilung von Farben in dem Bild (Color-Layout Breakdown) zu erstellen, die dann gespeichert wird. Eine solche Verarbeitung kann gewählt werden, um die Größe der gespeicherten Videodaten zu begrenzen und dabei ausreichende Merkmale der grundlegenden Videodaten beizubehalten, so dass eine einmalige oder annähernd einmalige Identifikation der Videodaten ermöglicht wird. Die verarbeiteten Bilder können in einer Datenbank in dem Speicher 170 gespeichert werden (ähnlich wie die Audiosignaturen). Eine Speicherung in einem separaten Speicher ist ebenfalls möglich. Wie bei den Audiosignaturen können die Videodaten in Verbindung mit Programmdaten des Multimedia-Assets gespeichert werden, von welchem die Videodaten erfasst wurden.
  • In einer weiteren Implementierung kann das System Bildsegmente erfassen, die leere Frames darstellen. Diese leeren Frames werden normalerweise vor und nach jeder Werbung gesendet. Das System kann einen Zeitindex der leeren Frames für jedes Multimedia-Asset speichern. Dieser Zeitindex kann dann mit den Zeitdaten korreliert werden, die mit den Audiosignaturen gespeichert sind, um die übereinstimmenden Segmente durch zwei Gruppen von leeren Frames abzugrenzen. Die Gruppen von leeren Frames, die die Werbung abgrenzen, sind jedoch vorzugsweise auf jene beschränkt, die durch einen Zeitabschnitt getrennt sind, welcher der Länge einer Werbung entspricht, da Werbungen interne leere Frames enthalten können.
  • Wenn bestimmt wird, dass ein Zeitabschnitt des Multimedia-Assets eine Werbung enthält, werden Videodaten für die Zeitabschnitte der übereinstimmenden Audiosignaturen miteinander ausgerichtet. Mit anderen Worten: eine Reihe von verarbeiteten Bildern (oder Frames) der Videodaten für den Zeitabschnitt der erhaltenen Audiosignatur wird in einer Sequenz neben einer Reihe von verarbeiteten Bildern (oder Frames) der Videodaten für die Zeitabschnitte übereinstimmender Audiosignaturen platziert.
  • Nach dem Ausrichten der Videodaten muss man nur zurückgehen, um den Anfang der Werbung zu identifizieren. Zum Beispiel werden Videodaten für Zeitperioden, die den übereinstimmenden Audiosignaturen vorangehen, miteinander verglichen. Sobald der Anfang einer Werbung erreicht ist, beginnen die Videodaten und/oder Audiodaten sich zu unterscheiden, was auf die Unterschiede in den Multimedia-Assets zurückzuführen ist, in denen die Werbung positioniert ist. Der Anfang der Werbung kann somit identifiziert werden, wenn die Video- und/oder Audiodaten in dem Zeitabschnitt, der einer der übereinstimmenden Audiosignaturen vorangeht, beginnen, sich von den Video- und/oder Audiodaten in dem Zeitabschnitt, der einer weiteren der übereinstimmenden Audiosignaturen vorangeht, in ausreichendem Maß zu unterscheiden. Das Ende der Werbung lässt sich im Wesentlichen durch die Anwendung des gleichen Verfahrens identifizieren. Es kann zweckmäßig sein, nicht komprimierte Bilddaten von zwei Multimedia-Assets miteinander zu vergleichen, da derselbe Frame in zwei Daten-Streams unter Umständen unterschiedlich komprimiert sein kann.
  • Die 5 bis 7 zeigen ein Beispiel des Bestimmens der Position von Werbungen in einem Multimedia-Stream. Wie in 5 gezeigt ist, ist ein Programmschema für Kanal 1, Kanal 2, Kanal 3 und Kanal 4 dargestellt. In jedem Kanal sind verschiedene Assets gezeigt. In dem in 5 gezeigten Beispiel wird für eine 10-Sekunden-Zeitspanne eines Multimedia-Assets auf Kanal 2 eine Audiosignatur erhalten. Eine übereinstimmende Audiosignatur wird in einer Wiederholung des Assets gefunden (eine solche Wiederholung wird identifiziert oder erkannt, indem zum Beispiel Programmdaten verwendet werden, die von einem Electronic Program Guide („EPG“) bezogen werden). Wie erwartet, stimmen die Audiosignaturen von innerhalb eines Programmsegments mit entsprechenden Audiosignaturen in Wiederholungen desselben Programms auf demselben Kanal überein. Eine einzige übereinstimmende Audiosignatur kann jedoch unter Umständen nicht ausreichen, um eine übereinstimmende Werbung oder ein übereinstimmendes Programm zu identifizieren. Eine Werbung kann basierend auf Audiosignaturen identifiziert werden, die weniger als die Länge einer Werbung (z.B. 30, 60 oder 90 Sekunden) abdecken, wenn festgestellt wird, dass eine geringere Anzahl von Segmenten übereinstimmt (z.B. Segmente, die 20 Sekunden abdecken) und dass die den Segmenten zugeordnete EPG-Information verschieden ist.
  • 6 zeigt, wie Programmsegmente anhand des Erscheinungsmusters einer Audiosignatur bestimmt werden können. In 6 ist dasselbe Programmschema für Kanal 1, Kanal 2, Kanal 3 und Kanal 4 mit verschiedenen Assets in jedem Kanal dargestellt. In dem Beispiel, das in 6 gezeigt ist, werden fünf Audiosignaturen für aufeinanderfolgende 10-Sekunden-Zeitspannen eines Multimedia-Assets auf Kanal 2 erhalten. In einer Wiederholung des Assets wird eine übereinstimmende Serie von Audiosignaturen gefunden. Wie erwartet, stimmen aufeinanderfolgende Signaturen von innerhalb eines Programmsegments mit entsprechenden aufeinanderfolgenden Signaturen innerhalb übereinstimmender Assets überein. Es kann demzufolge bestimmt werden, dass die Audiosignaturen keine Werbung enthalten. Diese Bestimmung kann beispielsweise erfolgen, indem die EPG-Daten der Multimedia-Assets verglichen werden, oder indem die Anzahl von aufeinanderfolgenden übereinstimmenden Segmenten größer ist als eine Werbezeit, zum Beispiel 60 oder 90 Sekunden.
  • 7 zeigt, wie Werbungssegmente anhand des Erscheinungsmusters einer Signatur bestimmt werden können. In 7 ist dasselbe Programmschema für Kanal 1, Kanal 2, Kanal 3 und Kanal 4 mit verschiedenen Assets in jedem Kanal dargestellt. In dem Beispiel, das in 5 gezeigt ist, wird eine Audiosignatur für eine 10-Sekunden-Zeitspanne eines Multimedia-Assets auf Kanal 2 erhalten. Übereinstimmende Audiosignaturen werden in mehreren Assets auf den Kanälen 1, 3 und 4 gefunden, die sich von dem Asset auf Kanal 2 unterscheidende EPG-Beschreibungen aufweisen. Es kann demzufolge bestimmt werden, dass die Audiosignatur eine Werbung enthält, weil sie mit Signaturen in anderen Kanälen in verschiedenen Assets übereinstimmt. Wenn darüber hinaus einige wenige aufeinanderfolgende Audiosignaturpaare vorhanden sind, kann bestimmt werden, dass die Audiosignatur eine Werbung enthält, und zwar wegen der Begrenzung der Länge der Werbung.
  • Anhand der Beispiele, die in den 5 bis 7 gezeigt sind, kann eine Audiosignatur als ein Segment eines Fernsehprogramms enthaltend klassifiziert werden, wenn sich Signaturübereinstimmungen nur in Assets mit dem gleichen Titel ergeben, d.h. Assets, die demselben Programm entsprechen, oder wenn sich Signaturübereinstimmungen bei vielen aufeinanderfolgenden Signaturen ergeben. Umgekehrt kann eine Audiosignatur als eine Werbung enthaltend klassifiziert werden, wenn sich Signaturübereinstimmungen in verschiedenen Assets mit verschiedenen Titeln oder in verschiedenen Kanälen ergeben und/oder wenn sich Signaturübereinstimmungen bei einer geringeren Anzahl von aufeinanderfolgenden Signaturen ergeben. Es versteht sich, dass diese Beispiele einer Unterscheidung eines Fernsehprogramm-Segments von einer Werbung lediglich der Erläuterung dienen und keine Einschränkung darstellen.
  • Im Gegenteil, die Unterscheidung eines Fernsehprogramm-Segments von einer Werbung kann auch auf andere Vergleiche zwischen Programmdaten gestützt werden, wie sich das aus der vorliegenden Beschreibung erschließen lässt.
  • Die 8 bis 11 zeigen ein Beispielverfahren zum Identifizieren des Anfangs einer Werbung in einem Multimedia-Asset. In diesem Beispiel wurde bereits festgestellt, dass die Audiosignatur eines Medien-Assets eine Werbung enthält. Zu diesem Zweck wurde eines der vorstehenden Verfahren angewendet. Wenn der Zeitabschnitt des Multimedia-Assets als eine Werbung enthaltend klassifiziert wurde, erfolgt eine Videoframe-Ausrichtung, um die Frames des interessierenden Segments mit den Video-Frames des Segments des Assets auszurichten, dessen Signatur eine Übereinstimmung ergeben hat. Auf diese Ausrichtung folgt ein Vergleich von aufeinanderfolgenden Frames vor den Segmenten miteinander, bis eine geringe Ähnlichkeit festgestellt wird. Ähnlich werden aufeinanderfolgende Frames nach den Segmenten verglichen, bis eine geringe Ähnlichkeit festgestellt wird. Wenn eine geringe Ähnlichkeit festgestellt wird, ist davon auszugehen, dass die letzten übereinstimmenden Gruppen von Video-Frames auf beiden Seiten des interessierenden Segments den Anfang und das Ende der Werbung bilden.
  • Wie in 8 gezeigt ist, wird zum Bestimmen, ob ein Segment als „Ad“ (Advertisment), d.h. eine Werbung, klassifiziert wird, ein Audiosegment mit einem Audiosegment eines der übereinstimmenden Assets verglichen. „Ad-C“ repräsentiert ein 10-Sekunden-Audioschnipsel mit einer Audiosignatur „XYZ“. In dem Beispiel, das in 8 gezeigt ist, wird eine Übereinstimmung mit einer Signatur „XYZ“ in einer Datenbank von Audiosignaturen festgestellt, die einem zuvor analysierten Multimedia-Asset entsprechen.
  • Wie 9 zeigt, wird eine Gruppe von Video-Frames, die dem 10-Sekunden-Audioschnipsel entspricht, mit einer Gruppe von Video-Frames des übereinstimmenden Audiosegments verglichen. Beide Gruppen von Video-Frames werden miteinander ausgerichtet. In einem Beispiel werden die Gruppen von Video-Frames ausgerichtet, indem Zeitverschiebungen hinzugefügt werden, bis eine maximale Ähnlichkeitsmetrik gefunden ist.
  • Wie in 10 gezeigt ist, werden die umliegenden Video-Frames verglichen, sobald in den Gruppen von Video-Frames, die den übereinstimmenden Audiosignaturen entsprechen, eine Ausrichtung erreicht wurde. In einem Beispiel wird eine Ähnlichkeit zwischen Frames vor der ausgerichteten Gruppe von Video-Frames berechnet. Video-Frames in dem vorangehenden Zeitabschnitt werden verglichen, indem man in der Zeit zurückgeht, bis die Ähnlichkeit der Video-Frames gering ist. An diesem Punkt wird die letzte Gruppe von ähnlichen Frames als der erste Frame der Werbung identifiziert bzw. gekennzeichnet.
  • Wie in 11 gezeigt ist, wird eine Ähnlichkeit zwischen Frames nach den ausgerichteten Gruppen von Video-Frames berechnet. Es werden Video-Frames in dem darauffolgenden Zeitabschnitt verglichen, indem man in der Zeit nach vorne geht, bis die Ähnlichkeit der Video-Frames gering ist. An diesem Punkt wird die letzte Gruppe von ähnlichen Frames als der letzte Frame der Werbung identifiziert bzw. gekennzeichnet.
  • 12 zeigt ein Flussdiagramm, das ein Beispiel-Verfahren 300 zum Identifizieren des Anfangs einer Werbung in einem Multimedia-Asset darstellt. Allgemein umfasst das Verfahren 300 das Bestimmen einer vorhandenen Werbung, das Ausrichten der Video-Frames der Werbung, das Berechnen der Ähnlichkeit von vorangehenden Video-Frames und das Identifizieren des Anfangs der Werbung. Weitere Details des Verfahrens 300 werden nachstehend beschrieben.
  • In Schritt 310 wird bestimmt, ob eine Audiosignatur einer Zeitdauer eines Multimedia-Assets entspricht, das eine Werbung enthält. Eine solche Bestimmung kann erfolgen, indem die Audiosignatur mit einer oder mehreren übereinstimmenden Audiosignaturen anderer Multimedia-Assets verglichen wird, indem eines der vorstehenden Beispiele angewendet wird, die in der Anmeldung angeführt sind.
  • In Schritt 320 werden Video-Frames der interessierenden Audiosignatur und der einen oder mehreren übereinstimmenden Audiosignaturen ausgerichtet. Dabei können die Video-Frames in einer nicht komprimierten (d.h. ursprünglichen) Form oder als komprimierte Frames ausgerichtet werden. In einem Beispiel, das in 12 gezeigt ist, sind die Video-Frames vor der Ausrichtung gegebenenfalls komprimiert worden. Abhängig von den Verfahren, die zur Komprimierung angewendet werden, kann es zweckmäßig sein, komprimierte Video-Frames vor der Ausrichtung zu dekomprimieren. Zum Ausrichten der Video-Frames werden Chrominanz-Informationen und insbesondere Farblayout-Informationen (z.B. Informationen über die Position von Farben oder Farbspektren in dem Frame) einer Folge von Video-Frames, die der interessierenden Audiosignatur zugeordnet sind, mit entsprechenden Informationen von einer Folge von Frames verglichen, die dem einen oder mehreren übereinstimmenden Audiosignalen entsprechen. Es kann von Vorteil sein, nur die Chrominanz-Informationen zu vergleichen, da in einem Frame normalerweise weniger Chrominanz-Informationen als Luminanz-Informationen vorhanden sind, speziell wenn der Frame das Format 4:2:0 hat. In einer Implementierung wird die Chrominanz-Information ferner unterabgetastet, um die Farblayout-Informationen bereitzustellen. Eine der Sequenzen von Video-Frames kann zeitversetzt werden, bis die Farblayout-Informationen der Sequenz von Video-Frames, die der interessierenden Audiosignatur zugeordnet sind, mit den entsprechenden Informationen der Sequenz von Video-Frames von dem einen oder den mehreren übereinstimmenden Audiosignalen übereinstimmt.
  • In Schritt 330 werden vorhergehende Video-Frames überprüft. Sobald die Video-Frames der Werbung ausgerichtet sind, kann man davon ausgehen, dass die Sequenzen von Video-Frames weiterhin übereinstimmen, solange der Inhalt identisch bleibt, oder mit anderen Worten: solange beide Sequenzen derselben Werbung entsprechen. Um den Anfang der Werbung zu identifizieren, werden also Video-Frames, die der Sequenz von Video-Frames vorangehen, die den übereinstimmenden Audiosignaturen entsprechen, miteinander verglichen, und es werden eine Ähnlichkeit oder Unähnlichkeit berechnet. Abhängig von den Verfahren, die zur Komprimierung angewendet werden, kann dieser Vergleich mit komprimierten Video-Frames durchgeführt werden oder kann mit nicht komprimierten Video-Frames durchgeführt werden, um Ungenauigkeiten zu vermeiden, die darauf zurückzuführen sind, dass derselbe Video-Frame in zwei verschiedenen Daten-Streams unterschiedlich komprimiert ist. Die Ähnlichkeit oder Unähnlichkeit können basierend auf Unterschieden in den Farblayout-Informationen der jeweiligen Sequenz von Video-Frames berechnet werden.
  • In Schritt 340 wird der Anfang der Werbung identifiziert. Wenn die Ähnlichkeit der Sequenzen von Video-Frames unter ein vorgegebenes Maß fällt, oder wenn umgekehrt die Unähnlichkeit ein vorgegebenes Maß übersteigt, kann bestimmt werden, dass der Inhalt in den jeweiligen Sequenzen von Video-Frames nicht mehr ausreichend ähnlich ist. Ausgehend davon kann weiter bestimmt werden, dass der Anfang der Werbung identifiziert bzw. gefunden wurde. Indem das erste Paar von ähnlichen Frames identifiziert wurde, kann der Anfang der Werbung identifiziert werden.
  • Während sich das Verfahren 300 auf das Identifizieren des Anfangs einer Werbung bezieht, versteht es sich, dass praktisch die gleichen Schritte angewendet werden können, um das Ende einer Werbung zu identifizieren. Die Schritte 310 und 320 können dabei dieselben bleiben, und in Schritt 330 können Video-Frames, die der Sequenz von Video-Frames folgen, die den übereinstimmenden Audiosignaturen entsprechen, miteinander verglichen werden.
  • Sobald eine Werbung erkannt wurde, wie vorstehend beschrieben, können Metadaten generiert und in Verbindung mit der Audiosignatur der Werbung, die als eine Werbung enthaltend identifiziert wurde, gespeichert werden. Solche Metadaten können nützlich und zum Beispiel hilfreich sein bei der Identifizierung von Wiederholungen der Werbung in anderen Multimedia-Assets oder beim Auffinden von verwandten Werbungen in künftigen Multimedia-Assets. In einem Beispiel können Audio-, Video- oder Textdaten von Teilen des Media-Assets (z.B. des Fernsehprogramms), die die bestimmte Werbung umgeben, erfasst und gespeichert werden, um Metadaten für die Werbung bereitzustellen. In einem weiteren Beispiel können geschlossene Captions (geschlossene Untertitel) des als Werbung erkannten Segments erfasst und gespeichert werden, um Metadaten für die Werbung bereitzustellen. In einem noch weiteren Beispiel können andere Schlüsselbegriffe, unter anderem der Name des Werbetreibenden, aus der Werbung extrahiert und als Metadaten für die Werbung verwendet werden.
  • Die vorstehenden Beispiele wurden im Zusammenhang mit bestimmten Geräten, Vorrichtungen, Systemen und/oder Verfahren beschrieben. Es versteht sich jedoch, dass diese Beschreibung lediglich als Beispiel dient und keine Einschränkung darstellt. Bestimmte Ausführungsformen können zum Beispiel in einem nichttransitorischen computerlesbaren Speichermedium implementiert sein, zur Anwendung durch ein oder in Verbindung mit einem Befehlsausführungssystem, einer Vorrichtung, einem System oder einer Maschine. Das computerlesbare Speichermedium enthält Befehle zum Steuern eines Computersystems, so dass dieses ein durch die bestimmten Ausführungsformen beschriebenes Verfahren durchführt. Bei Ausführung der Befehle durch einen oder mehrere Prozessoren können diese Befehle wirksam sein, um umzusetzen, was in bestimmten Ausführungsformen beschrieben ist.
  • Wird der Begriff „umfassen“ oder Ableitungen desselben in den Ansprüchen verwendet, geschieht dies in einem nicht ausschließlichen Sinn, das heißt, es soll nicht ausgeschlossen werden, dass in einer beanspruchten Struktur oder in einem beanspruchten Verfahren andere oder weitere Elemente oder Schritte vorhanden sind. Wenn in der Beschreibung und in den anliegenden Ansprüchen die Begriffe „ein/e/r/s“ und „der/die/das“ verwendet werden, ist dabei auch die Pluralform umfasst, sofern nicht ausdrücklich das Gegenteil angegeben ist. Desgleichen hat „in“ in der Beschreibung und in den anliegenden Ansprüchen unter anderem die Bedeutung von „bei“, sofern der Kontext nicht ausdrücklich etwas anderes vorgibt.
  • Die vorstehend beschriebenen Ausführungsformen, die zusammen mit Beispielen für eine mögliche praktische Umsetzung von Aspekten der vorliegenden Erfindung erläutert wurden, sollen die Flexibilität und die Vorteile der in den Ansprüchen angegebenen bestimmen Ausführungsformen darstellen und sollen nicht als die einzigen Ausführungsformen betrachtet werden. Wie der Fachmann erkennen wird, können auf der Grundlage der vorliegenden Beschreibung und der anliegenden Ansprüche andere Anordnungen, Ausführungsformen, Implementierungen und Äquivalente verwendet werden, ohne den Rahmen der Erfindung zu verlassen, der durch die anliegenden Ansprüche definiert wird. Die Beschreibung und die Figuren dienen daher lediglich Darstellungszwecken und stellen keine Einschränkung der Erfindung dar. Sämtliche Modifikationen fallen in den Schutzbereich der Ansprüche. Sofern Vorteile, Problemlösungen und ein Element oder Elemente dazu führen, dass ein Vorteil, eine Problemlösung oder ein Element oder Elemente deutlicher ausgeprägt erscheinen, sind diese nicht als entscheidende, notwendige oder wesentliche Merkmale oder Elemente eines der Ansprüche oder sämtlicher Ansprüche auszulegen. Die Erfindung wird allein durch die anliegenden Ansprüche definiert, einschließlich jeglicher Änderungen, die während der Anhängigkeit der Anmeldung durchgeführt werden, und sämtlicher Äquivalente von solchen Ansprüchen in der erteilten Form.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62204637 [0001]

Claims (22)

  1. Verfahren, umfassend: das Erhalten einer Audiosignatur, die einem Zeitabschnitt eines Multimedia-Assets entspricht; das Feststellen einer Übereinstimmung zwischen der erhaltenen Audiosignatur und einer oder mehreren gespeicherten Audiosignaturen, wobei die gespeicherten Audiosignaturen Zeitabschnitten einer Mehrzahl von anderen Multimedia-Assets entsprechen; das Vergleichen von Programmdaten der Multimedia-Assets der erhaltenen Audiosignatur und der einen oder mehreren übereinstimmenden Audiosignaturen; und das Bestimmen, ob der Zeitabschnitt des Multimedia-Assets eine Werbung enthält, basierend auf dem Vergleich der Programmdaten des Multimedia-Assets der erhaltenen Audiosignatur und der einen oder mehreren übereinstimmenden Audiosignaturen.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Erhaltens umfasst: das Anwenden einer Audio-Fingerabdruckfunktion bei einer Audiodatei, die das Audio des Multimedia-Assets darstellt, während der Zeitspanne, um die Audiosignatur zu erstellen.
  3. Verfahren nach Anspruch 1, wobei das Multimedia-Asset ein Fernsehprogramm umfasst.
  4. Verfahren nach Anspruch 1, wobei der Schritt des Feststellens umfasst: das Generieren einer Datenbank, die eine oder mehrere gespeicherte Audiosignaturen enthält; und das Vergleichen der erhaltenen Audiosignatur mit einer oder mehreren gespeicherten Audiosignaturen in der Datenbank, um die Übereinstimmung festzustellen.
  5. Verfahren nach Anspruch 1, wobei die Programmdaten eine oder mehrere Kategorien von Daten umfassen, die ausgewählt werden aus einer Gruppe, die aus Genre-Daten, Asset-Titeldaten, Episodentitel-Daten, Assetbeschreibungs-Daten, Kanal-Daten und Zeitdaten besteht.
  6. Verfahren nach Anspruch 1, wobei der Schritt des Bestimmens umfasst: das Bestimmen, dass die Zeitspanne des Multimedia-Assets eine Werbung enthält, wenn die Asset-Titeldaten des Multimedia-Assets der erhaltenen Audiosignatur von Asset-Titeldaten des Multimedia-Assets der einen oder mehreren übereinstimmenden Audiosignaturen abweichen.
  7. Verfahren nach Anspruch 1, wobei der Schritt des Bestimmens umfasst: das Bestimmen, dass die Zeitspanne des Multimedia-Assets eine Werbung enthält, wenn Kanal-Daten des Multimedia-Assets der erhaltenen Audiosignatur von Kanal-Daten des Multimedia-Assets der einen oder mehreren übereinstimmenden Audiosignaturen abweichen.
  8. Verfahren nach Anspruch 1, ferner umfassend: das Ausrichten der Videodaten für den Zeitabschnitt der erhaltenen Audiosignatur mit Videodaten für die Zeitabschnitte der einen oder mehreren übereinstimmenden Audiosignaturen; das Vergleichen von Videodaten für einen Zeitabschnitt, der dem Zeitabschnitt der erhaltenen Audiosignatur vorangeht, mit Videodaten für eine oder mehrere Zeitabschnitte, die den jeweiligen Zeitabschnitten der einen oder mehreren übereinstimmenden Audiosignaturen vorangehen; und das Identifizieren eines Anfangs der Werbung, wenn sich die Videodaten für den Zeitabschnitt, der dem Zeitabschnitt der erhaltenen Audiosignatur vorangeht, in ausreichendem Maß von den Videodaten für den Zeitabschnitt unterscheiden, der einer oder mehreren Zeitabschnitten vorangeht, die den jeweiligen Zeitabschnitten der einen oder mehreren übereinstimmenden Audiosignaturen vorangehen, wenn bestimmt wird, dass der Zeitabschnitt des Multimedia-Assets eine Werbung enthält.
  9. Verfahren, umfassend: das Erhalten einer Mehrzahl von Audiosignaturen, die aufeinanderfolgenden Zeitabschnitten der Multimedia-Assets entsprechen; das Feststellen von Übereinstimmungen zwischen den erhaltenen Audiosignaturen und einer Mehrzahl von gespeicherten Audiosignaturen, wobei die gespeicherten Audiosignaturen aufeinanderfolgenden Zeitabschnitten einer Mehrzahl von anderen Multimedia-Assets entsprechen; und das Bestimmen, ob die aufeinanderfolgenden Zeitabschnitte des Multimedia-Assets eine Werbung enthalten, basierend auf einer Anzahl von aufeinanderfolgenden übereinstimmenden Audiosignaturen der Mehrzahl von gespeicherten Audiosignaturen.
  10. Verfahren nach Anspruch 9, wobei der Schritt des Erhaltens umfasst: das Anwenden einer Audio-Fingerabdruckfunktion bei aufeinanderfolgenden Segmenten einer Audiodatei, die das Audio des Multimedia-Assets darstellt, während aufeinanderfolgender Zeitabschnitte, um die mehrzähligen Audiosignaturen zu erstellen.
  11. Verfahren nach Anspruch 9, wobei das Multimedia-Asset ein Fernsehprogramm umfasst.
  12. Verfahren nach Anspruch 9, wobei der Schritt des Feststellens umfasst: das Generieren einer Datenbank, die die mehrzähligen gespeicherten Audiodateien enthält; und das Vergleichen der erhaltenen Audiosignaturen mit den mehrzähligen gespeicherten Audiosignaturen in der Datenbank, um Übereinstimmungen festzustellen.
  13. Verfahren nach Anspruch 9, wobei der Schritt des Bestimmens umfasst: das Bestimmen, dass die aufeinanderfolgenden Zeitabschnitte des Multimedia-Assets eine Werbung enthalten, wenn eine Anzahl der mehrzähligen übereinstimmenden Audiosignaturen größer ist als eine erste vorgegebene Anzahl und kleiner als eine zweite vorgegebene Anzahl.
  14. Verfahren nach Anspruch 9, ferner umfassend: das Ausrichten von Videodaten für den Zeitabschnitt der erhaltenen Audiosignaturen mit Videodaten für die Zeitabschnitte der einen oder mehreren übereinstimmenden Audiosignaturen; das Vergleichen von Videodaten für einen Zeitabschnitt, der dem Zeitabschnitt der erhaltenen Audiosignatur vorangeht, mit Videodaten für einen oder mehrere Zeitabschnitte, die jeweiligen Zeitabschnitten der einen oder mehreren übereinstimmenden Audiosignaturen vorangehen; und das Identifizieren eines Anfangs der Werbung, wenn sich die Videodaten für den Zeitabschnitt, der dem Zeitabschnitt der erhaltenen Audiosignatur vorangeht, in ausreichendem Maß von den Videodaten für den Zeitabschnitt unterscheiden, der einem oder mehreren Zeitabschnitten vorangeht, die jeweiligen Zeitabschnitten der einen oder mehreren übereinstimmenden Audiosignaturen vorangehen, wenn bestimmt wird, dass der Zeitabschnitt des Multimedia-Assets eine Werbung enthält.
  15. System, umfassend: einen Empfänger, der für den Empfang von Audio- und Videodaten von einem Multimedia-Stream geschaltet ist; einen Computerspeicher, der eine Datenbank von einer oder mehreren gespeicherten Audiosignaturen enthält, wobei die gespeicherten Audiosignaturen Zeitabschnitten einer Mehrzahl von Multimedia-Assets entsprechen; und einen Prozessor, der mit dem Empfänger und dem Computerspeicher in Verbindung steht, wobei der Prozessor programmiert ist für: das Erhalten einer Audiosignatur, die einem Zeitabschnitt eines Multimedia-Assets in dem Multimedia-Stream entspricht; das Feststellen einer Übereinstimmung zwischen der erhaltenen Audiosignatur und der einen oder mehreren gespeicherten Audiosignaturen; das Vergleichen von Programmdaten der Multimedia-Assets der erhaltenen Audiosignatur und der einen oder mehreren übereinstimmenden Audiosignaturen; und das Bestimmen, ob der Zeitabschnitt des Multimedia-Assets eine Werbung enthält, basierend auf dem Vergleich der Programmdaten der Multimedia-Assets der erhaltenen Audiosignatur und der einen oder mehreren übereinstimmenden Audiosignaturen.
  16. System nach Anspruch 15, wobei der Prozessor programmiert ist für die Anwendung einer Audio-Fingerabdruckfunktion bei Audiodaten des Multimedia-Assets während des Zeitabschnitts, um die Audiosignatur zu erstellen.
  17. System nach Anspruch 15, wobei das Multimedia-Asset ein Fernsehprogramm umfasst.
  18. System nach Anspruch 15, wobei die Programmdaten eine oder mehrere Kategorien von Daten umfassen, die ausgewählt sind aus einer Gruppe, die aus Genre-Daten, Assettitel-Daten, Episodentitel-Daten, Assetbeschreibungs-Daten, Kanal-Daten und Zeitdaten besteht.
  19. System nach Anspruch 15, wobei der Prozessor programmiert ist für das Bestimmen, dass der Zeitabschnitt des Multimedia-Assets eine Werbung enthält, wenn die Assettitel-Daten des Multimedia-Assets der erhaltenen Audiosignatur von Assettitel-Daten des Multimedia-Assets der einen oder mehreren übereinstimmenden Audiosignaturen abweichen.
  20. System nach Anspruch 15, wobei der Prozessor programmiert ist für das Bestimmen, dass der Zeitabschnitt des Multimedia-Assets eine Werbung enthält, wenn die Kanal-Daten des Multimedia-Assets der erhaltenen Audiosignatur von Kanal-Daten des Multimedia-Assets der einen oder mehreren übereinstimmenden Audiosignaturen abweicht.
  21. System nach Anspruch 15, wobei der Prozessor ferner dafür programmiert ist: die Videodaten für den Zeitabschnitt der erhaltenen Audiosignatur mit Videodaten für die Zeitabschnitte der einen oder mehreren übereinstimmenden Audiosignaturen auszurichten; die Videodaten für einen Zeitabschnitt, der dem Zeitabschnitt der erhaltenen Videosignatur vorangeht, mit Videodaten für einen oder mehrere Zeitabschnitte, die jeweiligen Zeitabschnitten der einen oder mehreren übereinstimmenden Audiosignaturen vorangehen, zu vergleichen; und einen Anfang der Werbung zu identifizieren, wenn sich die Videodaten für den Zeitabschnitt, der dem Zeitabschnitt der erhaltenen Audiosignatur vorangeht, in ausreichendem Maß von den Videodaten für den Zeitabschnitt unterscheiden, der einem oder mehreren Zeitabschnitten vorangeht, die jeweiligen Zeitabschnitten der einen oder mehreren übereinstimmenden Audiosignaturen vorangehen, wenn der Prozessor bestimmt, dass der Zeitabschnitt des Multimedia-Assets eine Werbung enthält.
  22. Nicht-Transitorisches computerlesbares Medium, enthaltend Computerbefehle, die einen Computer veranlassen: eine Audiosignatur zu erhalten, die einem Zeitabschnitt eines Multimedia-Assets entspricht; eine Übereinstimmung zwischen der erhaltenen Audiosignatur und einer oder mehreren gespeicherten Audiosignaturen festzustellen, wobei die gespeicherten Audiosignaturen Zeitabschnitten einer Mehrzahl von anderen Multimedia-Assets entsprechen; Programmdaten der Multimedia-Assets der erhaltenen Audiosignatur und der einen oder mehreren übereinstimmenden Audiosignaturen zu vergleichen; und zu bestimmen, ob der Zeitabschnitt des Multimedia-Assets eine Werbung enthält, basierend auf dem Vergleich der Programmdaten der Multimedia-Assets der erhaltenen Audiosignatur und der einen oder mehreren übereinstimmenden Audiosignaturen.
DE112016003694.9T 2015-08-13 2016-08-12 System und Verfahren zum Erkennen von Werbung in Multimedia-Assets Pending DE112016003694T5 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562204637P 2015-08-13 2015-08-13
US62/204,637 2015-08-13
US15/235,990 2016-08-12
US15/235,990 US11317168B2 (en) 2015-08-13 2016-08-12 System and method for detecting advertisements in multimedia assets
PCT/US2016/046841 WO2017027824A1 (en) 2015-08-13 2016-08-12 System and method for detecting advertisements in multimedia assets

Publications (1)

Publication Number Publication Date
DE112016003694T5 true DE112016003694T5 (de) 2018-04-26

Family

ID=56894245

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112016003694.9T Pending DE112016003694T5 (de) 2015-08-13 2016-08-12 System und Verfahren zum Erkennen von Werbung in Multimedia-Assets

Country Status (4)

Country Link
US (1) US11317168B2 (de)
DE (1) DE112016003694T5 (de)
GB (1) GB2558095B (de)
WO (1) WO2017027824A1 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9930406B2 (en) 2016-02-29 2018-03-27 Gracenote, Inc. Media channel identification with video multi-match detection and disambiguation based on audio fingerprint
US10063918B2 (en) 2016-02-29 2018-08-28 Gracenote, Inc. Media channel identification with multi-match detection and disambiguation based on single-match
US9924222B2 (en) 2016-02-29 2018-03-20 Gracenote, Inc. Media channel identification with multi-match detection and disambiguation based on location
CN109246410B (zh) * 2017-05-31 2021-04-02 江苏慧光电子科技有限公司 全息影像的成像方法和数据生成方法及装置
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
US10365885B1 (en) * 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
US11166054B2 (en) 2018-04-06 2021-11-02 The Nielsen Company (Us), Llc Methods and apparatus for identification of local commercial insertion opportunities
US11074457B2 (en) * 2019-04-17 2021-07-27 International Business Machines Corporation Identifying advertisements embedded in videos
CN110415723B (zh) * 2019-07-30 2021-12-03 广州酷狗计算机科技有限公司 音频分段的方法、装置、服务器及计算机可读存储介质
US11082730B2 (en) * 2019-09-30 2021-08-03 The Nielsen Company (Us), Llc Methods and apparatus for affiliate interrupt detection
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
US20230308467A1 (en) * 2022-03-24 2023-09-28 At&T Intellectual Property I, L.P. Home Gateway Monitoring for Vulnerable Home Internet of Things Devices

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5197998A (en) * 1996-11-01 1998-05-29 Jerry Iggulden Method and apparatus for automatically identifying and selectively altering segments of a television broadcast signal in real-time
US20040194130A1 (en) 2003-03-07 2004-09-30 Richard Konig Method and system for advertisement detection and subsitution
US20050149968A1 (en) 2003-03-07 2005-07-07 Richard Konig Ending advertisement insertion
US20070250856A1 (en) 2006-04-02 2007-10-25 Jennifer Leavens Distinguishing National and Local Broadcast Advertising and Other Content
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US20110078020A1 (en) * 2009-09-30 2011-03-31 Lajoie Dan Systems and methods for identifying popular audio assets
WO2011041008A1 (en) 2009-10-01 2011-04-07 Richard Anthony Remington Method for removing advertising content
US8949872B2 (en) 2011-12-20 2015-02-03 Yahoo! Inc. Audio fingerprint for content identification
US20130198773A1 (en) 2012-01-27 2013-08-01 Xumo Llc System and method of augmenting linear broadcast advertising
US10212490B2 (en) 2013-03-15 2019-02-19 DISH Technologies L.L.C. Pre-distribution identification of broadcast television content using audio fingerprints
US9661380B2 (en) 2013-03-15 2017-05-23 Echostar Technologies L.L.C. Television content management with integrated third party interface
US9094453B2 (en) * 2013-11-06 2015-07-28 Google Technology Holdings LLC Method and apparatus for associating mobile devices using audio signature detection

Also Published As

Publication number Publication date
GB201801973D0 (en) 2018-03-28
US20220217450A1 (en) 2022-07-07
US20170048596A1 (en) 2017-02-16
GB2558095B (en) 2020-04-01
GB2558095A (en) 2018-07-04
WO2017027824A1 (en) 2017-02-16
GB2558095A8 (en) 2018-09-12
US11317168B2 (en) 2022-04-26

Similar Documents

Publication Publication Date Title
DE112016003694T5 (de) System und Verfahren zum Erkennen von Werbung in Multimedia-Assets
DE60029746T2 (de) Automatische signaturbasierte erkennung, erlernung und extrahierung von werbung und anderen videoinhalten
DE60302651T2 (de) Schnelles hash-basiertes metadatenretrieval für multimediaobjekte
DE602004008936T2 (de) Verfahren und einrichtung zur erzeugung und erkennung von fingerabdrücken zur synchronisierung von audio und video
DE69435093T2 (de) Zuschauerermittlungssystem
DE60318451T2 (de) Automatische Zusammenfassung für eine Vorschlagsmaschine von Fernsehprogrammen beruhend auf Verbraucherpräferenzen
DE112013003835B4 (de) Verfahren und Vorrichtung zum Verarbeiten eines digitalen Dienstsignals
US10108718B2 (en) System and method for detecting repeating content, including commercials, in a video data stream
EP2247061B1 (de) Verfahren und Vorrichtung zum berechtigungsabhängigen Zugriff auf Multimediainhalte sowie die Vorrichtung umfassendes System
DE10129635A1 (de) Verfahren und System zur automatischen Überwachung der Servicequalität der Verteilung und des Abspielens von digitalem Videomaterial
CN102890950A (zh) 媒体自动剪辑装置、方法、媒体播送方法与其播送系统
DE112019005906T5 (de) Überwachung flexibler werbung
DE60225010T2 (de) Verfahren und vorrichtung zur verbesserten erfassung und überwachung von ereignisinformationstabellenteilen
BE1027349A1 (de) Ein Verfahren, eine Vorrichtung, ein Speichermedium und ein Endgerät zum Erzeugen eines Videotitelbildes
US10149022B2 (en) Method and system of auto-tagging brands of television advertisements
CN107169004B (zh) 一种特征数据库更新方法及装置
WO2008034722A2 (de) Vorrichtung und verfahren zum individuellen wechsel zwischen sendungen
DE10320889B3 (de) Verfahren und Vorrichtung zum Erzeugen und Senden eines Fernsehprogrammes über Ip-basierte Medien, im speziellen das Internet
DE602004000869T2 (de) Methode zur Initialisierung eines digitalen Dekoders und Dekoder der diese Methode implementiert
WO2007113264A1 (de) Vorrichtung und verfahren zur aufzeichnung und zeitversetzten wiedergabe von sendungen
WO2015193790A1 (en) Synchronizing broadcast timeline metadata
US11985394B2 (en) System and method for detecting advertisements in multimedia assets
EP0889431B1 (de) Verfahren zur Erkennung unikater Bildfolgen
DE60310411T2 (de) Verfahren und Vorrichtung zur Übertragung von Daten, die mit übertragenen Informationen verknüpft sind
WO2007141122A1 (de) Verfahren zur vervollständigung einer elektronischen programmzeitschrift

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R081 Change of applicant/patentee

Owner name: ARRIS INTERNATIONAL IP LTD, SALTAIRE, GB

Free format text: FORMER OWNER: ARRIS ENTERPRISES LLC, SUWANEE, GA., US

Owner name: ANDREW WIRELESS SYSTEMS UK LIMITED, GB

Free format text: FORMER OWNER: ARRIS ENTERPRISES LLC, SUWANEE, GA., US

Owner name: ANDREW WIRELESS SYSTEMS UK LIMITED,, GB

Free format text: FORMER OWNER: ARRIS ENTERPRISES LLC, SUWANEE, GA., US

R081 Change of applicant/patentee

Owner name: ANDREW WIRELESS SYSTEMS UK LIMITED, GB

Free format text: FORMER OWNER: ARRIS INTERNATIONAL IP LTD, SALTAIRE, WEST YORKSHIRE, GB

Owner name: ANDREW WIRELESS SYSTEMS UK LIMITED,, GB

Free format text: FORMER OWNER: ARRIS INTERNATIONAL IP LTD, SALTAIRE, WEST YORKSHIRE, GB