DE202012100189U1

DE202012100189U1 - Detektion von kreativen Werken auf Ausstrahlungsmedien

Info

Publication number: DE202012100189U1
Application number: DE202012100189U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2011-09-27
Filing date: 2012-01-19
Publication date: 2013-01-18
Anticipated expiration: 2022-01-20
Also published as: US20130080159A1; US9877071B1; US8433577B2

Abstract

Einrichtung, umfassend: mindestens einen Prozessor; mindestens ein kommunikativ mit dem mindestens einen Prozessor gekoppeltes nichtflüchtiges computerlesbares Medium, wobei auf dem mindestens einen nichtflüchtigen computerlesbaren Medium computerausführbare Anweisungen gespeichert sind, umfassend: eine Ausstrahlungsmedien-Empfangskomponente, die dafür ausgelegt ist, eine Menge von Medienströmen über eine Menge von Kanälen zu empfangen; und eine Identifikationskomponente, die dafür ausgelegt ist, Identifikationsinformationen für ein Audiosegment in der Menge von Medienströmen gleichzeitig mit dem Empfang der Menge von Medienströmen durch die Ausstrahlungsmedienkomponente zu bestimmen.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung betrifft allgemein die Bereitstellung von Identifikationsinformationen für Audioteile eines Ausstrahlungsmedienstroms.
STAND DER TECHNIK
Kreative Werke, wie etwa Musik oder andere wiedererkennbare Audioaufzeichnungen, werden oft in Ausstrahlungsmedien verwendet, wie zum Beispiel als Hintergrundmusik in Fernsehshows oder Werbung. Zuschauer finden solches Hintergrundaudio oft interessant. Oft wird solches Hintergrundaudio in kleinen Stückchen präsentiert, und bis ein Zuschauer bestimmt, dass er mehr über das Audio wissen möchte, hat es aufgehört zu spielen oder ist zur Zeit dem Zuschauer nicht identifizierbar. Zum Beispiel kann Musik im Hintergrund einer Fernsehshow laufen und der Zuschauer findet ein Interesse daran, sie zu kaufen, weiß aber nicht, wie das Lied heißt. In einem anderen Beispiel kann ein Benutzer ein Lied in einer kommerziellen Werbung hören und erinnert sich, dass er es vor vielen Jahren gehört hat, kommt aber nicht auf den Namen des Liedes. Ein weiteres Beispiel kann ein Schauspieler sein, der etwas aussagt, an das der Zuschauer eine vage Erinnerung hat, dass es Teil eines berühmten Zitats, eines Gedichts, einer Rede, eines Buchs, einer Zeile aus einer Show/einem Spielfilm oder eines anderen literarischen Werks ist, aber der Zuschauer weiß den Namen eines solchen Werks nicht.
Um bestimmtes Audio zu identifizieren, würde ein Benutzer konventionell eine Musikerkennungsanwendung verwenden, die von einem tragbaren Datenverarbeitungsgerät (z. B. Mobiltelefon) aus ausführbar ist, um ein Stückchen des interessierenden Audios aufzuzeichnen, und das Stückchen zu seiner Identifikation zu einem entfernten Musikdatenbankserver übermitteln. Dieser konventionelle Ansatz hat jedoch mehrere Nachteile. Das Zugreifen auf das Mobiltelefon und/oder die Musikanwendung kann zu lange dauern. Bis der Zuschauer bereit ist, das Stückchen aufzuzeichnen, läuft folglich das Audio möglicherweise nicht mehr. Außerdem können viele Zuschauer (z. B. in der Größenordnung von Hunderten oder sogar Tausenden) gleichzeitig versuchen, Audio zu identifizieren. Wenn zum Beispiel ein Lied während einer Super-Bowl-Halbzeitshow gespielt wird, können viele Zuschauer zur selben Zeit versuchen, das Lied zu identifizieren. Dies kann zu einem sehr hohen Volumen von Abfragen führen, die ungleiche Stückchen umfassen, die beträchtliche Bandbreite und Verarbeitungsressourcen verbrauchen können. Angesichts eines solchen Volumens können aufgrund der Menge von Informationen, die erfasst, übertragen und verarbeitet werden muss, um eine Identifikation zu bestimmen, Verzögerungen beim Bereitstellen von Medienidentifikationsinformationen für entsprechende Zuschauer entstehen. Zusätzlich können entsprechend erfasste Audiostückchen beträchtliches Rauschen mit unterschiedlichen Pegeln enthalten, das den Verarbeitungsoverhead vergrößern und/oder zu Fehlidentifikation führen kann.
KURZFASSUNG
Es wird hier eine vereinfachte Kurzfassung angegeben, um dabei zu helfen, ein grundlegendes oder allgemeines Verständnis verschiedener Aspekte beispielhafter nichteinschränkender Ausführungsformen, die in der ausführlicheren Beschreibung und den beigefügten Zeichnungen folgen, zu ermöglichen. Diese Kurzfassung ist jedoch nicht als extensive oder erschöpfende Übersicht gedacht. Stattdessen ist der Zweck dieser Kurzfassung, bestimmte Konzepte in Bezug auf bestimmte beispielhafte nichteinschränkende Ausführungsformen in vereinfachter Form darzustellen, als Auftakt für eine folgende ausführlichere Beschreibung der verschiedenen Ausführungsformen in der Offenbarung.
Gemäß einer Implementierung empfängt eine Ausstrahlungsmedien-Empfangskomponente mehrere Medienströme über eine Menge von Kanälen, und während die mehreren Medienströme empfangen werden, bestimmt eine Identifikationskomponente gleichzeitig Identifikationsinformationen, die mit Audiosegmenten in den mehreren Medienströmen assoziiert sind.
Gemäß einer anderen nichteinschränkenden Implementierung werden mehrere Medienströme über eine Menge von Kanälen empfangen. Es wird der Ort eines Audiosegments in den mehreren Medienströmen bestimmt. Es werden Identifikationsinformationen für das Audiosegment bestimmt; und Metadaten werden mit einer Teilmenge der mehreren Medienströme assoziiert. Die Metadaten geben den Ort des Audiosegments in den mehreren Medienströmen an und umfassen Identifikationsinformationen für das Audiosegment.
Weiterhin sieht eine nichteinschränkende Implementierung das Übertragen einer Abfrage an einen Audioidentifikationsserver vor, um Identifikationsinformationen zu bestimmen, die mit einem Audioteil mindestens eines Medienstroms auf mindestens einem Kanal assoziiert sind. Die Abfrage umfasst Ortsinformationen, die den Ort eines Audioteils in dem mindestens einen Medienstrom identifizieren. Es wird eine Antwort von dem Audioidentifikationsserver empfangen, die Identifikationsinformationen umfasst, die mindestens einem mit dem Audioteil assoziierten Audiosegment entsprechen.
Diese und andere Implementierungen und Ausführungsformen werden nachfolgend ausführlicher beschrieben.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 zeigt ein Blockdiagramm eines beispielhaften nichteinschränkenden Serversystems, das Identifikationsinformationen für Audiosegmente von Ausstrahlungsmedienströmen bestimmt.
2 zeigt ein Blockdiagramm einer beispielhaften nichteinschränkenden Identifikationskomponente, die Identifikationsinformationen für ein Audiosegment bestimmt.
3 zeigt ein Blockdiagramm einer beispielhaften nichteinschränkenden Audio-Kennzeichnung-Komponente, die Metadaten mit Audiosegmenten eines Medienstroms assoziiert.
4 zeigt ein Blockdiagramm einer beispielhaften nichteinschränkenden Fingerabdruckkomponente, die einen Fingerabdruck für ein Audiosegment erzeugt.
5 ist ein Blockdiagramm eines beispielhaften nichteinschränkenden Systems, das Identifikationsinformationen für Audiosegmente von Ausstrahlungsmedienströmen bereitstellt.
6 zeigt ein beispielhaftes nichteinschränkendes Client-System, das Identifikationsinformationen für Audiosegmente von Ausstrahlungsmedienströmen bestimmt.
7 ist ein beispielhaftes nichteinschränkendes Flussdiagramm zum Bestimmen von Identifikationsinformationen für Audiosegmente von Ausstrahlungsmedienströmen.
8 ist ein beispielhaftes nichteinschränkendes Flussdiagramm zum Identifizieren von Audiosegmenten.
9 ist ein beispielhaftes nichteinschränkendes Flussdiagramm zum Bestimmen von Identifikationsinformationen für ein Audiosegment.
10 ist ein beispielhaftes nichteinschränkendes Flussdiagramm zum Antworten auf eine Abfrage nach Identifikationsinformationen.
11 ist ein beispielhaftes nichteinschränkendes Flussdiagramm zum Abfragen nach Identifikationsinformationen.
12 ist ein Blockdiagramm, das eine beispielhafte nichteinschränkende vernetzte Umgebung darstellt, in der die verschiedenen Ausführungsformen implementiert werden können.
13 ist ein Blockdiagramm, das ein beispielhaftes nichteinschränkendes Datenverarbeitungssystem oder eine beispielhafte nichteinschränkende Betriebsumgebung darstellt, worin die verschiedenen Ausführungsformen implementiert werden können.
AUSFÜHRLICHE BESCHREIBUNG
ÜBERSICHT
Verschiedene Aspekte oder Merkmale der vorliegenden Offenbarung werden mit Bezug auf die Zeichnungen beschrieben, in denen durchweg gleiche Bezugszahlen verwendet werden, um gleiche Elemente zu bezeichnen. In der vorliegenden Beschreibung werden zahlreiche Einzelheiten dargelegt, um ein umfassendes Verständnis der vorliegenden Offenbarung zu gewährleisten. Es versteht sich jedoch, dass bestimmte Aspekte der vorliegenden Offenbarung ohne diese spezifischen Einzelheiten oder mit anderen Verfahren, Komponenten, Materialien usw. ausgeübt werden können. In anderen Fällen werden wohlbekannte Strukturen und Einrichtungen in Blockdiagrammform gezeigt, um die Beschreibung der vorliegenden Offenbarung zu erleichtern.
Gemäß verschiedenen offenbarten Aspekten werden Identifikationsinformationen für kreative Werke bereitgestellt, die in Audioteilen von Ausstrahlungsmedienströmen enthalten sind. Kreative Werke (z. B. Musik, Lieder, Reden, Aussagen oder andere wiedererkennbare Audioaufzeichnungen) werden oft in Ausstrahlungsmedien verwendet, wie zum Beispiel in Fernsehshows oder Werbung. Vielmals kann ein Zuschauer eine Audioaufzeichnung interessant finden oder sie als zuvor gehört wiedererkennen. Zum Beispiel kann Musik im Hintergrund einer Fernsehshow, die der Zuschauer mag, gespielt werden und er ist daran interessiert, sie zu kaufen, kennt aber nicht die Identität des Lieds. In einem anderen Beispiel kann ein Benutzer Musik in einer kommerziellen Werbung wiedererkennen, die er vor vielen Jahren gehört hat, kommt aber nicht auf den Namen des Lieds. Ein weiteres Beispiel kann ein Schauspieler sein, der etwas aussagt, wofür der Zuschauer eine vage Erinnerung hat, dass es Teil eines berühmten Zitats, eines Gedichts, einer Rede, eines Buchs, einer Zeile aus einer Show/einem Spielfilm oder eines anderen literarischen Werks ist, aber der Zuschauer weiß den Namen eines solchen Werks nicht.
Bei einer oder mehreren Ausführungsformen betreffen die offenbarten Aspekte das Bereitstellen von Identifikationsinformationen in Bezug auf kreative Werke, die in einem Audioteil eines Ausstrahlungsmedienstroms enthalten sind. Ein Ausstrahlungsmedienstrom kann zum Beispiel eine Fernsehpräsentation, eine Werbung, ein Webcast, eine Radiopräsentation, eine Videokonferenz oder eine beliebige andere Art von Medium sein, das in einem Strom von einer Übertragungseinrichtung über drahtlose oder kabelgebundene Kommunikationsmedien übertragen wird. Die Identifikationsinformationen können eine beliebige Art von kreativem Werk betreffen, wie zum Beispiel eine Musikaufzeichnung, die Sprache und/oder Instrumentalwerk umfasst, oder ein literarisches Werk, wie zum Beispiel ein Zitat, ein Gedicht, eine Rede, ein Script oder ein Buch.
Dementsprechend werden nachfolgend mehrere nichteinschränkende Ausführungsformen beschrieben, die einen oder mehrere mit konventionellen Audioidentifikationssystemen assoziierte Nachteile überwinden.
EIN BEISPIELHAFTER AUDIO-IDENTIFIKATIONSSERVER
Nunmehr mit Bezug auf die Zeichnungen stellen 1–4 Einzelheiten bezüglich eines Audioidentifikationsservers 110 und seiner Interaktion mit Client-Geräten 160 dar. Unter anfänglicher Bezugnahme auf 1 ist ein System 100 abgebildet, das Identifikationsinformationen für kreative Werke bereitstellt, die in Audioteilen eines Ausstrahlungsmedienstroms enthalten sind. Das System 100 umfasst einen Audioidentifikationsserver 110, der Identifikationsinformationen für kreative Werke bestimmt, die in Audioteilen von Ausstrahlungsmedienströmen enthalten sind, und die Identifikationsinformationen Client-Geräten 160 bereitstellt.
Der Audioidentifikationsserver 110 umfasst einen Speicher, der computerausführbare Komponenten speichert, und einen Prozessor, der in dem Speicher gespeicherte computerausführbare Komponenten ausführt, wofür ein nichteinschränkendes Beispiel mit Bezug auf 13 zu finden ist. Bei einer Implementierung kann der Audioidentifikationsserver 110 in ein Ausstrahlungssystem (z. B. das eines Kabelfernsehanbieters, Satellitenfernsehanbieters, Internetdienstanbieters, Anbieters von digitalem Teilnehmeranschluss, Mobiltelekommunikationsanbieters, Zellularanbieters, Radioanbieters oder einer beliebigen anderen Art von System, das Ausstrahlungsmedienströme über verdrahtete oder drahtlose Medien bereitstellt) integriert sein, das Client-Geräten 160 Ausstrahlungsmedienströme bereitstellt. Die Medienströme, die zu Client-Geräten 160 ausgestrahlt werden, können dementsprechend Audioidentifikationsinformationen umfassen, oder der Audioidentifikationsserver 110 kann solche Identifikationsinformationen auf Anforderung (z. B. von einem Client-Gerät) bereitstellen.
In einem anderen Beispiel kann der Audioidentifikationsserver 110 (z. B. als ein Drittdienst) Clients in Verbindung mit der Ausstrahlung von Medienströmen Audioidentifikation bereitstellen. Der Dienst kann Audioidentifikation direkt den Client-Geräten 160 oder einem Anbieter der Ausstrahlungsmedienströme bereitstellen.
Der Audioidentifikationsserver 110 umfasst eine Ausstrahlungsmedien-Empfangskomponente 130, die mehrere Ausstrahlungsmedienströme über Kanäle 150 empfängt, die durch verdrahtete oder drahtlose Netzwerke übertragen werden. Zum Beispiel kann ein Ausstrahlungsmedienstrom eine Fernsehpräsentation, eine Werbung, ein Webcast, eine Radiopräsentation, eine Videokonferenz oder eine beliebige andere geeignete Art von Medium sein, das in einem Strom ausgestrahlt wird. Die Kanäle 150 umfassen eine beliebige Anzahl von Kanälen 1 bis N, wobei N eine ganze Zahl ist, die die Anzahl der Kanäle angibt.
Der Audioidentifikationsserver 110 umfasst eine Bibliothek 140 gespeicherter Datensätze, die Informationen zum Vergleichen und Identifizieren von kreativen Werken enthalten. Die Bibliothek 140 kann auf einer beliebigen geeigneten Art von Speicherungseinrichtung gespeichert werden, wofür nichteinschränkende Beispiele mit Bezug auf 12 und 13 dargestellt sind.
Zusätzlich umfasst der Audioidentifikationsserver 110 eine Identifikationskomponente 120, die Identifikationsinformationen für Audiosegmente in einem Ausstrahlungsmedienstrom bestimmt. Der Audioidentifikationsserver 110 kann auch eine Client-Schnittstellenkomponente 170 umfassen, die Abfragen nach Identifikationsinformationen von Client-Geräten 160 verarbeiten kann. Obwohl nur zwei Client-Geräte 160 abgebildet sind, versteht sich, dass eine beliebige geeignete Anzahl von Client-Geräten 160 gleichzeitig mit dem Audioidentifikationsserver 110 in Interaktion treten kann.
Der Audioidentifikationsserver 110 empfängt mehrere Ausstrahlungsmedienströme und bestimmt im Wesentlichen in Echtzeit proaktiv Identifikationsinformationen für Audiosegmente in den Ausstrahlungsmedienströmen und assoziiert diese Identifikationsinformationen mit den Ausstrahlungsmedienströmen. Bei einer nichteinschränkenden Implementierung empfängt der Audioidentifikationsserver 110 M Kabelkanäle (M ist eine ganze Zahl). Der Audioidentifikationsserver 110 kann proaktiv gleichzeitig Identifikationsinformationen für Audiosegmente in den jeweiligen M Kanälen bestimmen. Wenn ein Zuschauer Identifikationsinformationen für ein kreatives Werk anfordert, das er gerade auf einem Kanal gehört hat, kann der Audioidentifikationsserver 110, der über bestimmte Identifikationsinformationen für das kreative Werk verfügt, diese dem Zuschauer über das Client-Gerät 160 unmittelbar bereitstellen und somit eine Verzögerung bei der Bereitstellung solcher Identifikationsinformationen im Vergleich zu konventionellen Systemen verringern.
Bei einer beispielhaften Implementierung muss das Client-Gerät 160 darüber hinaus nicht wie bei konventionellen Systemen ein Audiostückchen oder einen Fingerabdruck (englisch: fingerprint) an den Audioidentifikationsserver senden. Gemäß der vorliegenden Implementierung gibt ein Client-Gerät lediglich eine Anforderung von Informationen, die mit einem Medienstrom assoziiert sind, statt ein Stückchen eines gewünschten kreativen Werks sammeln zu müssen. Zum Beispiel kann das Client-Gerät 160 eine Anforderung geben, die einen Ort in dem Medienstrom angibt, an dem der Zuschauer am Empfangen von Identifikationsinformationen interessiert ist, wie später ausführlicher beschrieben werden wird.
Wenn mehrere Zuschauer Identifikationsinformationen für das kreative Werk anfordern, muss der Audioidentifikationsserver 110 ferner nicht redundant (sehr oft, wenn nicht hunderte oder tausende von Malen) einen mit dem Analysieren von jeweiligen eingesendeten Audiostückchen oder Fingerabdrücken assoziierten Bestimmungsprozess ausführen, so wie es konventionell je Zuschauer erfolgt. Durch direktes Extrahieren von Audio aus dem Ausstrahlungsmedienstrom kann die Qualität des extrahierten Audio im Vergleich zu durch ein Mikrofon an einem Client-Gerät 160 aufgezeichnetem Audio höher sein.
Aus dem obigen Beispiel wird ohne Weiteres ersichtlich, dass am Client-, Netzwerk- und Serverende die Betriebsmittelauslastung (z. B. in Bezug auf Verarbeitung, Kommunikationsbandbreite, Speicherung, ...) im Vergleich zu konventionellen Methoden zur Identifikation kreativer Werke wesentlich verringert ist.
Der Audioidentifikationsserver 110 kann zusätzlich zu dem proaktiven Bestimmen von Identifikationsinformationen die Identifikationsinformationen auf Client-Geräten schieben. Auf diese Weise ist das Client-Gerät 160 in der Lage, unmittelbar auf eine Zuschaueranforderung von Identifikationsinformationen zu reagieren. Zum Beispiel können die Identifikationsinformationen im Hintergrund jeweiliger Medienströme auf die Client-Geräte 160 geschoben werden. Die Identifikationsinformationen können als Funktion von Benutzeranforderungen solcher Informationen maskiert oder unmaskiert sein. Die Identifikationsinformationen können gleichzeitig mit dem Medienstrom, vor oder nach der Wiedergabe des Medienstroms angezeigt werden. Die Identifikationsinformationen können als Funktion von historischen, demografischen oder anderen Metriken, die mit Benutzerbetrachtung oder Präferenzen assoziiert sind, gefiltert werden.
1 zeigt, dass die Bibliothek 140 in dem Audioidentifikationsserver 110 enthalten ist, um dadurch eine Verzögerung zu verringern, die mit der Kommunikation assoziiert ist, wenn sich die Bibliothek 140 entfernt befände. Es versteht sich jedoch, dass sich die Bibliothek 140 gegebenenfalls entfernt von dem Audioidentifikationsserver 110 befinden kann, obwohl weiterhin viele der hier beschriebenen Vorteile bereitgestellt werden.
Mit Bezug auf 2 ist die Identifikationskomponente 120 ausführlicher dargestellt. Die Identifikationskomponente 120 vergleicht Audiosegmente mit Aufzeichnungen in der Bibliothek 140 und kennzeichnet die Ausstrahlungsmedienströme mit Identifikationsinformationen, die mit den Audiosegmenten assoziiert sind. Die Identifikationskomponente 120 umfasst die Audio-Kennzeichnung-Komponente 210, die Metadaten mit Audiosegmenten in den Ausstrahlungsmedienströmen assoziiert. Die Identifikationskomponente 120 umfasst eine Fingerabdruckkomponente 220, die digitale Fingerabdrücke von Audiosegmenten der Ausstrahlungsmedienströme erzeugt. Eine Vergleichskomponente 230 vergleicht digitale Fingerabdrücke mit Datensätzen in der Bibliothek 140.
Mit Bezug auf 3 ist eine nichteinschränkende Implementierung einer Audio-Kennzeichnung-Komponente 210 dargestellt. Die Audio-Kennzeichnung-Komponente 210 deduziert oder bestimmt distinkte Audiosegmente in den Ausstrahlungsmedienströmen in Verbindung mit dem Kennzeichnen von durchsuchbaren Identifikationsinformationen kreativer Werke. Ein distinktes Audiosegment, das gekennzeichnet ist, kann zum Beispiel ein Segment des Ausstrahlungsmedienstroms sein, in dem ein Lied im Hintergrund läuft, oder eine Zeile oder Reihe von Zeilen, die von einem Schauspieler gesprochen werden. Es versteht sich, dass sich Audiosegmente überlappen können und somit eine Hierarchie von Tags verwendet werden kann, um die akkurate Identifikation von Audiosegmenten oder Teilen davon zu ermöglichen. Die Audio-Kennzeichnung-Komponente 210 umfasst eine Audiosegmentkomponente 310, die Audiosegmente in den Medienströmen deduziert oder bestimmt. Ferner umfasst die Audio-Kennzeichnung-Komponente 210 eine Metadatenkomponente 320, die Metadaten mit den Medienströmen assoziiert. Die Metadaten können ein riesiges Array von Informationen in Verbindung mit der Identifikation von kreativen Werken bereitstellen – weitere Einzelheiten hinsichtlich der Metadaten werden nachfolgend gegeben.
Die Audiosegmentkomponente 310 überwacht die ankommenden Ausstrahlungsmedienströme von der Ausstrahlungsmedien-Empfangskomponente 130 und deduziert oder bestimmt distinkte Audiosegmente. Zum Beispiel kann die Audiosegmentkomponente 310 einen Klassifikationsalgorithmus verwenden, um zu bestimmen, welche Audiosegmente still sind, gesprochene Sprache umfassen, Gesang umfassen, Musik umfassen oder keine gesprochene Sprache, kein Gesang oder keine Musik enthalten. Diese Klassen sind nichteinschränkende Beispiele für mögliche Klassen für Audiosegmente, und für Durchschnittsfachleute ist erkennbar, dass eine beliebige Anzahl von Klassen verschiedener Typen verwendet werden kann.
Die Audiosegmentkomponente 310 stellt dann eine Angabe der Klassenbestimmungen bereit und wo sie in dem Ausstrahlungsmedienstrom auftreten. Zum Beispiel kann die Angabe für ein Audiosegment einen oder mehrere Kategorisierungstypen von Audio in dem Segment gemäß der obigen Bestimmung und einem Ort des Auftretens in den Ausstrahlungsmedienströmen umfassen. Der Ort identifiziert den Ausstrahlungsmedienstrom und kann außerdem einen Zeitstempel oder Zähler umfassen, um die Angaben zu erleichtern, wo das Audiosegment beginnt und endet. Wie oben erwähnt, können sich Audiosegmente überlappen. Zum Beispiel kann es sein, dass Hintergrundmusik während eines Gesprächs zwischen Schauspielern gespielt wird. Ein Audiosegment kann die gesamte Hintergrundmusik umfassen. Dagegen kann ein anderes überlappendes Segment einen Teil des Dialogs eines Schauspielers umfassen. Die bereitgestellten Identifikationsinformationen können das überlappende Audio unterscheiden, die Existenz von Überlappung identifizieren usw.
Die Metadatenkomponente 320 assoziiert Daten, die durch die Audiosegmentkomponente bestimmt oder deduziert werden, mit den Ausstrahlungsmedienströmen als Metadaten, die auch in Identifikationsinformationen eingeschlossen sein können. Zum Beispiel können die Klassifikationen für ein Audiosegment und der Anfangs- und Endpunkt des Audiosegments in dem Medienstrom in mit dem Ausstrahlungsmedienstrom assoziierten Metadaten eingeschlossen sein.
Mit Bezug auf 4 ist ein nichteinschränkendes Beispiel für eine Fingerabdruckkomponente 220 dargestellt. Die Fingerabdruckkomponente 220 erzeugt digitale Fingerabdrücke von Audiosegmenten, die verwendet werden, um jeweilige Audiosegmente mit Datensätzen in der Bibliothek 140 zu vergleichen. Die Fingerabdruckkomponente 220 umfasst eine Segmentextrahiererkomponente 410, die Audiosegmente aus Ausstrahlungsmedienströmen extrahiert. Wieder mit Bezug auf 1 gewährleistet die Identifikationskomponente 120, dass ein Benutzer oder Administrator Präferenzen für Arten von Audiosegmenten einstellt, für die Identifikationsinformationen zu bestimmen sind. Wieder mit Bezug auf 4 kann die Segmentextrahiererkomponente 410 Extraktion von Audiosegmenten auf der Basis der eingestellten Präferenzen auf nur die Arten begrenzen, die erlaubt sind. Wenn zum Beispiel der Audioidentifikationsserver 110 wie in 1 abgebildet nur für Musikaufzeichnungen zu verwenden ist, kann eine entsprechende Präferenz eingestellt werden, so dass Audiosegmente, die keine Musikaufzeichnungen enthalten, nicht extrahiert werden.
Die Fingerabdruckkomponente 220 umfasst eine Rauschfilterkomponente 420, die Rauschen aus einem extrahierten Audiosegment filtern kann. Bei einer nichteinschränkenden Implementierung können bei einem als Musik kategorisierten Audiosegment Vordergrundsprache von einem Schauspieler oder Explosionen aus Spezialeffekten herausgefiltert werden, um Hintergrundmusik und Gesang zu verstärken. Auf der Basis der Art von Audiosegment können verschiedene Audiofilter angewandt werden, um eine Art von Audio zu verstärken, in die das Audiosegment klassifiziert wird. Audiofilter können eine beliebige Art von Filter umfassen, das Timbre, Oberschwingungsgehalt, Tonhöhe oder Signalkurve eines Audiosignals modifiziert, wofür nichteinschränkende Beispiele ein Tiefpassfilter, Hochpassfilter, Bandpassfilter, Bandsperrfilter, Allpassfilter, Analogfilter, Digitalfilter, nichtlineares Filter, Anti-Popping-Filter, Netzbrummfilter usw. wären. Es versteht sich, dass das Durchführen von Rauschfilterung an einem extrahierten Audiosegment optional sein kann. Zum Beispiel kann es Benutzer- oder Administrator-Präferenzeinstellungen geben, die angeben, ob Rauschfilterung an bestimmten Arten von Audio auszuführen ist, oder die Rauschfilterkomponente kann ganz weggelassen werden.
Die Fingerabdruckkomponente 220 stellt außerdem eine Fingerabdruckgeneratorkomponente 430 bereit, die digitale Fingerabdrücke für extrahierte Audiosegmente erzeugt. Die Fingerabdruckkomponente kann auch Spracherkennung verwenden, um Sprache in einem Audiosegment (entweder gesprochen oder Gesang) in Text umzusetzen. Der digitale Fingerabdruck und/oder der Text werden von der Vergleichskomponente 230 verwendet, um Datensätze in der Bibliothek zu identifizieren, die mit dem Audiosegment übereinstimmen.
Die Vergleichskomponente 230 verwendet einen Such- oder Klassifikationsalgorithmus unter Verwendung des digitalen Fingerabdrucks und/oder von Text zum Identifizieren eines oder mehrerer Datensätze in der Bibliothek 140, die eine Übereinstimmung sind. Die Vergleichskomponente 230 sieht außerdem die Verwendung eines Einstufungsalgorithmus vor, um Einstufungen für den einen oder die mehreren übereinstimmenden Datensätze zu bestimmen, zum Beispiel dementsprechend, wie gut der Datensatz mit dem Audiosegment übereingestimmt hat. Bei einer nichteinschränkenden Implementierung kann eine Einstufung auf der Basis eines Konfidenzmaßes der Übereinstimmung des Datensatzes mit dem Audiosegment basieren. Ferner kann die Vergleichskomponente 230 eine Konfidenzschwelle verwenden, wobei Datensätze, die unter die Konfidenzschwelle fallen, nicht als eine Übereinstimmung betrachtet werden.
Die Audio-Kennzeichnung-Komponente 210 assoziiert dann Metadaten mit dem Medienstrom, wodurch Identifikationsinformationen aus dem einen oder den mehreren Datensätzen angegeben werden, die mit dem Audiosegment übereinstimmen. Ferner können die als Metadaten assoziierten Identifikationsinformationen die bestimmte Einstufung umfassen. Zusätzlich kann die Audio-Kennzeichnung-Komponente 210 Kaufinformationen identifizieren und mit den Identifikationsinformationen assoziieren, die einen Kaufmechanismus für das kreative Werk angeben. Es versteht sich, dass die Kaufinformationen in der Bibliothek 140 enthalten sein können oder eine Komponente, z. B. die Audio-Kennzeichnung-Komponente 210 nach Kaufinformationen zum Beispiel über das Internet suchen kann. Zum Beispiel kann die Angabe ein auswählbarer Link für sofortigen Kauf des kreativen Werks oder ein auswählbarer Link zu einem Shopping-Portal bzw. einer Schnittstelle sein, wo das kreative Werk gekauft werden kann. Wenn zum Beispiel das kreative Werk als ein Lied identifiziert wird, können Kaufinformationen für das Lied und/oder das Album assoziiert werden. In einem anderen Fall kann das kreative Werk als ein Spielfilm identifiziert werden, aus dem das Audiosegment eine Zeile verwendet hat, und es können Kaufinformationen für den Spielfilm assoziiert werden. Um zusätzliche Klarheit zu gewährleisten, kann zum Beispiel ein Zuschauer eine Fernsehshow ansehen, in der ein Schauspieler eine Zeile aus einem Spielfilm zitiert, und der Zuschauer kann an dem Kauf des Spielfilms oder von Artikeln in Bezug auf den Spielfilm interessiert sein. Als ein anderes Beispiel können, wenn das kreative Werk ein Buch ist, aus dem eine Zeile zitiert wurde, Kaufinformationen für das Buch assoziiert werden.
Die Bibliothek 140 umfasst Datensätze für kreative Werke. Die Datensätze umfassen Daten, die zum Vergleichen des aus dem Audiosegment erzeugten digitalen Fingerabdrucks und/oder Texts verwendet werden können. Zum Beispiel kann der Datensatz einen digitalen Fingerabdruck des kreativen Werks umfassen. Zusätzlich umfasst der Datensatz Identifikationsinformationen für das kreative Werk. In einem nichteinschränkenden Beispiel können die Identifikationsinformationen eine beliebige Art von Metadaten umfassen, die konventionell bekannt und in Verbindung mit dieser Art von kreativem Werk verwendet wird. Zum Beispiel kann eine Musikaufzeichnung Metadaten umfassen, die Titel, Interpret, Album, Jahr, Stück-Genre, Länge, Komponist, Texte, Altersklassifikation, Albumkunst usw. umfassen. Für Fachleute ist ohne Weiteres erkennbar, dass auf der Basis der Art des kreativen Werks wohlbekannte Metadatentypen existieren, die konventionell assoziiert werden. Die Identifikationsinformationen sind jedoch nicht nur auf diese wohlbekannten Metadatentypen beschränkt. Es kann jede Art von mit dem kreativen Werk assoziierten Metadaten zu den Identifikationsinformationen hinzugefügt werden. Zum Beispiel können die oben offenbarten Kaufinformationen sowie Informationen, die einen Ort eines Audiosegments in einem Ausstrahlungsmedienstrom identifizieren, als Metadaten eingeschlossen werden.
Darüber hinaus kann die Bibliothek 140 periodisch manuell oder automatisch aktualisiert werden, um Datensatzzusätze, -löschungen oder -änderungen widerzuspiegeln. Zum Beispiel kann ein Administrator manuell Justierungen an Datensätzen in der Bibliothek 140 vornehmen. Zusätzlich oder als Alternative kann die Bibliothek 140 automatisch durch einen Dienst aktualisiert werden, zum Beispiel einen Subskriptionsdienst für Musik- oder Veröffentlichungsinformationen.
Das Client-Gerät 160 kann eine beliebige Art von Gerät sein, das Ausstrahlungsmedienströme empfängt, zum Beispiel ein Mobiltelefon, ein Personal Data Assistant, ein Laptop-Computer, ein Tablet-Computer, ein Desktop-Computer, ein Serversystem, eine Kabel-Set-Top-Box, eine Satelliten-Set-Top-Box, ein Kabelmodem, ein Fernsehapparat, eine Medienerweiterungseinrichtung, eine Videorekordereinrichtung, eine Blue-Ray-Einrichtung, eine DVD-Einrichtung (Digital Versatile Disc oder Digital Video Disc), eine Compact-Disc-Einrichtung, ein Videospielsystem, ein Audio-/Videoempfänger, eine Radioeinrichtung, ein tragbares Musikwiedergabegerät, ein Navigationssystem, eine Autostereoanlage usw. In einem Beispiel fragt das Client-Gerät 160 Identifikationsinformationen für Audioteile von Ausstrahlungsmedienströmen ab. In einem anderen Beispiel empfängt das Client-Gerät 160 Identifikationsinformationen für Audiosegmente von Ausstrahlungsmedienströmen, ohne eine spezifische Abfrage nach diesen Informationen eingeleitet zu haben (z. B. können Identifikationsinformationen auf das Client-Gerät geschoben werden).
Als ein anderes Beispiel kann sich das Client-Gerät 160 einschreiben, Identifikationsinformationen für ausgewählte Ausstrahlungsmedienströme und/oder Kanäle zu empfangen, wie etwa durch Benutzerpräferenzeinstellungen. In einem anderen Beispiel können Identifikationsinformationen für alle durch das Client-Gerät 160 empfangenen Ausstrahlungsmedienströme geschoben werden, wobei es sich nur um einen Teil der in dem Audioidentifikationsserver 110 empfangenen Ausstrahlungsmedienströme handeln kann. In diesem Szenario können bestimmte Client-Geräte 160 nur bestimmte Ausstrahlungsmedienströme empfangen, zum Beispiel auf der Basis bezahlter Subskriptionen oder auf der Basis der Art von Einrichtung.
Bei einer Ausführungsform empfängt die Client-Schnittstellenkomponente 170 eine Abfrage von dem Client-Gerät 160, um mit einem Audioteil eines Ausstrahlungsmedienstroms assoziierte Identifikationsinformationen bereitzustellen. Zum Beispiel kann eine Zuschauerin an dem Client-Gerät 160 eine Show ansehen und ein Lied hören, das sie gerne identifiziert bekäme. Die Zuschauerin leitet dann eine Anforderung von mit dem Audioteil des Ausstrahlungsmedienstroms, in dem sie das Lied gehört hat, assoziierten Identifikationsinformationen ein. Das Client-Gerät 160 sendet eine Abfrage an die Client-Schnittstellenkomponente 170, die Informationen über den Audioteil des Ausstrahlungsmedienstroms bereitstellt. Zum Beispiel können diese Informationen eine Kennung für den Ausstrahlungsmedienstrom, wie etwa eine Kanalkennung, umfassen und ferner eine Kennung umfassen, wo sich der Audioteil in dem Ausstrahlungsmedienstrom befindet. Diese Ortskennung kann einen Zeitstempel oder Zählerwert umfassen, der mit dem Ausstrahlungsmedienstrom assoziiert ist. Darüber hinaus kann der Zeitstempel oder Zählerwert einen einzelnen Punkt in dem Strom oder eine Zeit oder einen Zählerbereich angeben. Mit diesen Informationen über den in der Abfrage empfangenen Audioteil untersucht die Client-Schnittstellenkomponente 170 die mit dem Ausstrahlungsmedienstrom assoziierten Metadaten durch die Identifikationskomponente 120, um Identifikationsinformationen bereitzustellen, die mit kreativen Werken assoziiert sind, die sich in Audiosegmenten an oder nahe dem in der Abfrage bereitgestellten Zeitstempel oder Zählerwert befinden.
Unter Berücksichtigung des Umstands, dass die Zuschauerin ihre Anforderung mit einer bestimmten Verzögerung von dem Zeitpunkt an, an dem sie das kreative Werk gehört hat, einleiten kann, kann das Client-Gerät 160 dies in dem in der Abfrage gesendeten Bereich berücksichtigen, um zum Beispiel einen vorbestimmten Zeitpuffer oder Zählerwert zum Kompensieren der Verzögerung einzuschließen. Zum Beispiel kann bei dem Client-Gerät der Zeitbereich 30 Sekunden starten, bevor die Zuschauerin die Anforderung eingeleitet hat. Ferner kann die Client-Schnittstellenkomponente 170 zusätzlich oder als Alternative zu der Bereitstellung dieser Kompensation durch das Client-Gerät den Zeit- oder Zählerbereich, für den sie Identifikationsinformationen bereitstellt, um einen vorbestimmten Betrag vergrößern. Zum Beispiel kann das Client-Gerät 160 einfach einen Zeitstempel oder Zählerwert bereitstellen, der ein Zeitpunkt ist, an dem die Zuschauerin die Anforderung gestellt hat, und die Client-Schnittstellenkomponente 170 kann Identifikationsinformationen für kreative Werke innerhalb eines vorbestimmten Bereichs vor oder nach dem Zeitstempel in der Abfrage bereitstellen. Die Client-Schnittstellenkomponente 170 reagiert auf die Abfrage durch Bereitstellen von Identifikationsinformationen, die mit kreativen Werken assoziiert sind, die sich in Audiosegmenten an oder nahe dem in der Abfrage bereitgestellten Zeitstempel oder Zählerwert/Bereich befinden.
BEISPIELHAFTES CLIENT-GERÄT, DAS MIT DEM AUDIOIDENTIFIKATIONSSERVER IN INTERAKTION TRITT
Mit Bezug auf 5 ist ein System 500 abgebildet, das Identifikationsinformationen für kreative Werke bereitstellt, die in Audioteilen eines Ausstrahlungsmedienstroms enthalten sind. Insbesondere stellt 5 zusätzliche Einzelheiten hinsichtlich des Client-Gerätes 160 und ihrer Interaktionen mit dem Audioidentifikationsserver 110 bereit. Das System 500 umfasst den Audioidentifikationsserver 110 wie oben besprochen, der Identifikationsinformationen für kreative Werke bestimmen kann, die in Audioteilen von Ausstrahlungsmedienströmen enthalten sind, und die Identifikationsinformationen des Client-Gerätes 160 bereitstellen kann.
Das Client-Gerät 160 umfasst eine Ausstrahlungsmedien-Empfangskomponente 520, die der oben in 1 abgebildeten Ausstrahlungsmedien-Empfangskomponente 130 ähnlich sein kann, um Ausstrahlungsmedienströme über Kanäle 150 zu empfangen. Es versteht sich, dass die in dem Client-Gerät 160 empfangenen Ausstrahlungsmedienströme und Kanäle nur ein Teil der in dem Audioidentifikationsserver 110 empfangenen Ausstrahlungsmedienströme und Kanäle sein können. Das Client-Gerät 160 umfasst außerdem eine Abfragekomponente 510, die den Authentifikationsserver 110 nach Identifikationsinformationen anfragt, die mit einem Audioteil eines Ausstrahlungsmedienstroms assoziiert sind. Diese Abfrage kann auf der Basis einer Präferenzeinstellung in dem Client-Gerät 160 automatisch eingeleitet werden oder kann zum Beispiel auf eine Anforderung hin eingeleitet werden, die durch einen das Client-Gerät verwendenden Zuschauer bereitgestellt wird. Bei einer nichteinschränkenden Implementierung stellt das Client-Gerät 160 Präferenzeinstellungen bereit, die es einer Zuschauerin erlauben, bestimmte Ausstrahlungsmedienströme oder Kanäle zu spezifizieren, für die sie gerne automatisch Identifikationsinformationen empfangen würde. Zusätzlich kann die automatisch erzeugte Abfrage assoziierte Präferenzeinstellungen aufweisen, die das Spezifizieren eines Intervalls erlauben, in dem die Abfrage erzeugt wird, und einen Zeit- oder Zählerbereich in der Abfrage mindestens der Größe des Intervalls. Auf diese Weise wird die Abfrage dazu führen, dass Identifikationsinformationen für den Zeitraum seit der Erzeugung der letzten Abfrage bereitgestellt werden.
Bei einer anderen nichteinschränkenden Implementierung kann der Zuschauer die Abfrage manuell durch eine Eingabeeinrichtung einleiten, wofür nichteinschränkende Beispiele nachfolgend in Verbindung mit 13 beschrieben werden. Die Abfragekomponente 510 empfängt ferner Identifikationsinformationen von dem Audioidentifikationsserver 110 als Reaktion auf die Abfrage. Das Client-Gerät 160 gibt ferner die empfangenen Identifikationsinformationen aus, zeigt z. B. die empfangenen Identifikationsinformationen auf einer Anzeigeeinrichtung an, die mit Bezug auf 12 und 13 zu finden ist. Die Anzeigeeinrichtung kann in dem Client-Gerät 160 enthalten oder mit dem Client-Gerät 160 fernverbunden sein. Ferner können bei einer nichteinschränkenden Implementierung die angezeigten Identifikationsinformationen auf der Anzeige nach Audiosegment und/oder Einstufung organisiert werden. Die Identifikationsinformationen können auf viele verschiedene geeignete Weisen organisiert und angezeigt werden, die alle in den Schutzumfang der vorliegenden Erfindung fallen sollen.
Das Client-Gerät 160 sieht ferner das Senden eines Stückchens Audioaufzeichnung, das mit dem Audioteil assoziiert ist, als Teil der Abfrage vor. Zum Beispiel kann bei einer Implementierung, bei der der Audioidentifikationsserver 110 nicht proaktiv Identifikationsinformationen für eine Art von Audio bestimmt, ein Audiostückchen in die Abfrage von dem Client-Gerät 160 eingeschlossen werden. Um Verzögerung bei dem Einleiten einer Anforderung von Identifikationsinformationen durch den Benutzer zu kompensieren, kann das Client-Gerät 160 kontinuierlich eine vorbestimmte Menge von aufgezeichnetem Audio, das mit einem Ausstrahlungsmedienstrom assoziiert ist, Puffern und diesen Puffer von aufgezeichnetem Audio mit der Abfrage senden. Der Audioidentifikationsserver 110 verwendet dann diesen Puffer von aufgezeichnetem Audio, um Identifikationsinformationen zu bestimmen, zum Beispiel auf die Weise, auf die er für empfangene Ausstrahlungsmedienströme durchführt. Statt eines manuellen Prozesses, bei dem ein Benutzer versucht, unter Verwendung seines Telefons ein Stückchen zu erfassen, wird dementsprechend bei einer Ausführungsform ein automatisierter Prozess verwendet, bei dem das Client-Gerät kontinuierlich Audio aus dem Medienstrom puffert, so dass das Client-Gerät bereit ist, ein relevantes Stückchen zu senden, wenn der Benutzer eine Abfrage einleitet.
BEISPIELHAFTES CLIENT-GERÄT MIT EINGEBAUTEM AUDIOIDENTIFIKATIONS SERVER
Mit Bezug auf 6 ist ein System 600 abgebildet, das Identifikationsinformationen für kreative Werke bereitstellt, die in Audioteilen eines Ausstrahlungsmedienstroms enthalten sind. Das System 600 kann ein Client-Gerät 610 umfassen, das Identifikationsinformationen für kreative Werke bestimmen kann, die in Audioteilen von Ausstrahlungsmedienströmen enthalten sind.
Das Client-Gerät 610 umfasst eine Ausstrahlungsmedien-Empfangskomponente 620, die der oben in 1 abgebildeten Ausstrahlungsmedien-Empfangskomponente 130 ähnlich sein kann, um Ausstrahlungsmedienströme 150 zu empfangen. Es versteht sich, dass die in dem Client-Gerät 610 empfangenen Ausstrahlungsmedienströme und Kanäle dieselben wie die in dem Audioidentifikationsserver 110 empfangenen Ausstrahlungsmedienströme und Kanäle, eine Teilmenge davon oder von diesen verschieden sein können. Zusätzlich umfasst das Client-Gerät 610 eine Identifikationskomponente 120 wie oben besprochen und eine Bibliothek 630 zum Bestimmen von Identifikationsinformationen für kreative Werke, die in Audioteilen von Ausstrahlungsmedienströmen enthalten sind. Durch Integrieren der Identifikationskomponente 120 und der Bibliothek 630 in das Client-Gerät 610 ist das Client-Gerät 610 nicht von einer externen Ressource abhängig, um Identifikationsinformationen für Ausstrahlungsmedienströme, die das Client-Gerät empfängt, zu bestimmen. Die Bibliothek 630 kann dieselbe wie die in 1 abgebildete Bibliothek 140, eine Teilmenge davon oder von dieser verschieden sein und kann ähnlich periodisch aktualisiert werden. Das Client-Gerät 610 zeigt ferner auf der Basis von Zuschaueranforderungen die Identifikationsinformationen auf einer Anzeigeeinrichtung an, die mit Bezug auf 12 und 13 zu finden ist.
Das Client-Gerät 610 kann eine beliebige Art von Gerät sein, das Ausstrahlungsmedienströme empfängt, zum Beispiel ein Mobiltelefon, ein Personal Data Assistant, ein Laptop-Computer, ein Tablet-Computer, ein Desktop-Computer, ein Serversystem, eine Kabel-Set-Top-Box, eine Satelliten-Set-Top-Box, ein Kabelmodem, ein Fernsehapparat, eine Medienerweiterungseinrichtung, eine Videorekordereinrichtung, eine Blue-Ray-Einrichtung, eine DVD-Einrichtung (Digital Versatile Disc oder Digital Video Disc), eine Compact-Disc-Einrichtung, ein Videospielsystem, ein Audio-/Videoempfänger, eine Radioeinrichtung, ein tragbares Musikwiedergabegerät, ein Navigationssystem, eine Autostereoanlage usw.
7–11 zeigen verschiedene Methodologien gemäß bestimmten offenbarten Aspekten. Obwohl der Einfachheit der Erläuterung halber die Methodologien als eine Reihe von Schritten gezeigt und beschrieben werden, versteht sich und ist erkennbar, dass die offenbarten Aspekte nicht durch die Reihenfolge von Schritten beschränkt werden, da bestimmte Schritte in einer anderen Reihenfolge und/oder gleichzeitig mit anderen Schritten als dem hier gezeigten und beschriebenen stattfinden können. Zum Beispiel ist für Fachleute verständlich und erkennbar, dass eine Methodologie als Alternative als eine Reihe von miteinander in Beziehung stehenden Zuständen oder Ereignissen dargestellt werden kann, wie etwa in einem Zustandsdiagramm. Darüber hinaus müssen nicht alle dargestellten Schritte erforderlich sein, um eine Methodologie gemäß bestimmten offenbarten Aspekten zu implementieren. Zusätzlich versteht sich ferner, dass die im Folgenden und in der gesamten vorliegenden Beschreibung offenbarten Methodologien auf einem Herstellungsartikel gespeichert werden können, um das Transportieren und Transferieren solcher Methodologien auf Computer zu erleichtern.
Mit Bezug auf 7 ist ein beispielhaftes Verfahren 700 zum Bestimmen von Identifikationsinformationen für Audiosegmente von Ausstrahlungsmedienströmen abgebildet. Bei der Bezugszahl 710 werden mehrere Ausstrahlungsmedienströme (z. B. durch eine Ausstrahlungsmedien-Empfangskomponente) z. B. im Wesentlichen gleichzeitig empfangen. Bei der Bezugszahl 720 werden Identifikationsinformationen wie oben besprochen (z. B. durch eine Identifikationskomponente 120) für Audiosegmente in den Ausstrahlungsmedienströmen bestimmt. Bei der Bezugszahl 730 werden Metadaten (z. B. durch eine Identifikationskomponente 120) mit den Strömen assoziiert, die die Identifikationsinformationen in Bezug auf Audiosegmente in den Strömen umfassen. Es wird angemerkt, dass Operationen des Verfahrens 700 im Wesentlichen in Echtzeit und gleichzeitig über mehrere Ausstrahlungsmedienströme ausgeführt werden können, damit dadurch Identifikationsinformationen für Zuschaueranforderungen mit minimaler Verzögerung ohne Weiteres verfügbar sind.
Mit Bezug auf 8 ist ein beispielhaftes Verfahren 800 zum Identifizieren von Audiosegmenten eines Ausstrahlungsmedienstroms abgebildet. Bei 810 werden Audiosegmente eines Ausstrahlungsmediums identifiziert (z. B. durch eine Audiosegmentkomponente 310 in der Audio-Kennzeichnung-Komponente 210). Zum Beispiel kann ein Ausstrahlungsmedienstrom überwacht werden, um distinkte Audiosegmente zu deduzieren. Zum Beispiel kann ein Klassifikationsalgorithmus verwendet werden, um zu bestimmen, welche Audiosegmente still sind, gesprochene Sprache umfassen, Gesang umfassen, Musik umfassen, keine gesprochene Sprache, keinen Gesang oder keine Musik enthalten. Diese Klassen sind nichteinschränkende Bespiele für mögliche Klassen von Audiosegmenten und es versteht sich, dass eine beliebige geeignete Anzahl von Klassen unterschiedlicher Arten verwendet werden kann. Es kann eine Angabe der Klassenbestimmungen bereitgestellt werden, und wo in dem Ausstrahlungsmedienstrom sie auftreten. Die Angabe für ein Audiosegment kann zum Beispiel eine oder mehrere Kategorisierungsarten von Audio in dem Segment gemäß der obigen Bestimmung und einen Ort des Auftretens in den Ausstrahlungsmedienströmen umfassen. Der Ort kann den Ausstrahlungsmedienstrom identifizieren und ferner einen Zeitstempel oder Zähler umfassen, der einen Bereich umfassen kann, der angibt, wo das Audiosegment beginnt und aufhört. Darüber hinaus können sich Audiosegmente überlappen. Bei 820 werden Metadaten in Bezug auf ein Audiosegment (z. B. durch eine Metadatenkomponente 320) mit einem Ausstrahlungsmedienstrom assoziiert, in dem das Audiosegment enthalten ist. Zum Beispiel werden die Kategorisierungsarten für ein Audiosegment und der Anfangs- und Endpunkt des Audiosegments in dem Medienstrom als Metadaten mit dem Ausstrahlungsmedienstrom assoziiert, wobei die Metadaten auch in Identifikationsinformationen eingeschlossen werden können. Zum Beispiel können die Identifikationsinformationen die Kategorisierungsarten und Anfangs- und Endpunkt eines Audiosegments zusammen mit kreative Werke in dem Audiosegment identifizierenden Metadaten umfassen.
Mit Bezug auf 9 ist ein beispielhaftes Verfahren 900 zum Erzeugen eines digitalen Fingerabdrucks eines extrahierten Audiosegments gezeigt. Bei 910 wird ein Audiosegment aus einem Ausstrahlungsmedienstrom extrahiert (z. B. durch eine Segmentextrahiererkomponente). Bei 920 wird Rauschen (z. B. durch eine Rauschfilterkomponente) aus einem extrahierten Audiosegment herausgefiltert. Es versteht sich, dass das Durchführen von Rauschfilterung an einem extrahierten Audiosegment optional sein kann. Zum Beispiel kann es Präferenzeinstellungen geben, die auf der Basis der Art von Audio angeben, ob Rauschfilterung durchgeführt werden soll, oder die Rauschfilterung kann ganz weggelassen werden. Bei 930 wird ein digitaler Fingerabdruck (z. B. durch eine Fingerabdruckgeneratorkomponente) für das extrahierte Audiosegment erzeugt. Es kann auch Spracherkennung verwendet werden, um Sprache in einem Audiosegment (entweder gesprochen oder Gesang) in Text umzusetzen. Der Text kann (z. B. durch eine Fingerabdruckkomponente) mit dem digitalen Fingerabdruck assoziiert werden. Bei 940 wird der digitale Fingerabdruck und/oder der Text verwendet, um Datensätze in der Bibliothek zu identifizieren, die mit dem Audiosegment übereinstimmen. Es werden Such- und/oder Klassifikationsalgorithmen (z. B. von einer Vergleichskomponente) unter Verwendung des digitalen Fingerabdrucks und/oder Texts verwendet, um einen oder mehrere Datensätze in einer Bibliothek zu identifizieren, die eine Übereinstimmung sind. Ferner kann ein Einstufungsalgorithmus verwendet werden, um Einstufungen für den einen oder die mehreren übereinstimmenden Datensätze abhängig davon zu bestimmen, wie gut der Datensatz mit dem Audiosegment übereingestimmt hat. Eine Einstufung kann auf der Basis eines Konfidenzmaßes der Übereinstimmung des Datensatzes mit dem Audiosegment basieren. Ferner kann eine Konfidenzschwelle verwendet werden, um zu bestimmen, welche Datensätze nicht als eine Übereinstimmung betrachtet werden.
Bei 950 werden Metadaten (z. B. durch eine Metadatenkomponente) mit dem Medienstrom assoziiert, die Identifikationsinformationen aus dem einen oder den mehreren Datensätzen angeben, die mit dem Audiosegment übereinstimmen. Die Identifikationsinformationen können eine bestimmte Einstufung umfassen. Zusätzlich können Kaufinformationen in die Identifikationsinformationen aufgenommen werden, die einen Kaufmechanismus für das kreative Werk angeben. In einem Beispiel ist die Angabe ein ausführbarer Link für einen unmittelbaren Kauf des kreativen Werks oder ein ausführbarer Link zu einem Shoppingportal bzw. einer Schnittstelle, wo das kreative Werk gekauft werden kann. Wenn zum Beispiel kreatives Werk als ein Lied identifiziert wird, können Kaufinformationen für das Lied und/oder das Album assoziiert werden. In einem anderen Fall kann das kreative Werk als ein Spielfilm identifiziert werden, aus dem das Audiosegment eine Zeile enthielt, und es können Kaufinformationen für den Spielfilm und/oder das Script sowie verwandte Produkte wie Filmmusik, Poster, Spielzeug usw. assoziiert werden. In einem anderen Beispiel können, wenn das kreative Werk ein Buch ist, aus dem Text in dem Audiosegment zitiert wurde, Kaufinformationen für das Buch assoziiert werden.
Mit Bezug auf 10 ist ein beispielhaftes Verfahren 1000 zum Verarbeiten einer Abfrage nach Identifikationsinformationen abgebildet. Bei 1010 wird eine Abfrage (z. B. von einem Client-Gerät) empfangen, um (z. B. durch eine Client-Schnittstellenkomponente) Identifikationsinformationen bereitzustellen, die mit einem Audioteil eines Ausstrahlungsmedienstroms assoziiert sind. Die Abfrage umfasst Informationen über den Audioteil des Ausstrahlungsmedienstroms. Zum Beispiel können diese Informationen eine Kennung für den Ausstrahlungsmedienstrom, wie etwa eine Kanalkennung, umfassen und ferner eine Kennung umfassen, wo sich der Audioteil in dem Ausstrahlungsmedienstrom befindet. In einem Beispiel umfasst die Ortskennung einen Zeitstempel oder Zählerwert, der mit dem Ausstrahlungsmedienstrom assoziiert ist. Darüber hinaus kann der Zeitstempel oder Zählerwert ein einzelner Punkt in dem Strom sein oder ein Zeit- oder Zählerbereich. Bei 1020 werden die Informationen über den Audioteil verwendet, um Metadaten zu untersuchen, die mit dem Ausstrahlungsmedienstrom assoziiert sind, um Identifikationsinformationen zu bestimmen, die mit kreativen Werken assoziiert sind, die sich in Audiosegmenten an oder nahe dem in der Anforderung (z. B. durch eine Client-Schnittstellenkomponente) bereitgestellten Zeitstempel oder Zählerwert/Bereich befinden. Unter Berücksichtigung des Umstandes, dass der Zuschauer seine Anforderung mit einer bestimmten Verzögerung von dem Zeitpunkt, an dem er das kreative Werk gehört hat, einleiten kann, kann der in der Abfrage gesendete Bereich einen vorbestimmten Zeitpuffer oder Zählerwert umfassen, um die Verzögerung zu kompensieren. Zusätzlich oder als Alternative zu der Bereitstellung dieser Kompensation durch die Abfrage kann die Operation bei 1020 (z. B. durch eine Client-Schnittstellenkomponente) den Zeit- oder Zählerbereich, für den sie Identifikationsinformationen bereitstellt, um einen vorbestimmten Betrag vergrößern. Bei 1030 wird (z. B. ein Client-Gerät) eine Antwort auf die Abfrage bereitgestellt, die Identifikationsinformationen umfasst, die mit kreativen Werken assoziiert sind, die sich in Audiosegmenten an oder nahe dem in der Abfrage (z. B. durch eine Client-Schnittstellenkomponente) bereitgestellten Zeitstempel oder Zählerwert/Bereich befinden.
Mit Bezug auf 11 ist ein beispielhaftes Verfahren 1100 zum Senden einer Abfrage nach Identifikationsinformationen abgebildet. Bei 1110 wird eine Anforderung (z. B. von einer Eingabeeinrichtung) empfangen, wie zum Beispiel von einem Zuschauer, um Identifikationsinformationen bereitzustellen, die mit einem Audioteil eines Ausstrahlungsmedienstroms assoziiert sind. Bei 1120 wird eine Abfrage (z. B. durch ein Client-Gerät) zu einem Audioidentifikationsserver gesendet, um die angeforderten Identifikationsinformationen bereitzustellen. Die Abfrage umfasst Informationen über den Audioteil des Ausstrahlungsmedienstroms. Zum Beispiel können diese Informationen eine Kennung für den Ausstrahlungsmedienstrom, wie etwa eine Kanalkennung, umfassen und ferner eine Kennung umfassen, wo sich der Audioteil in dem Ausstrahlungsmedienstrom befindet. In einem Beispiel umfasst die Ortskennung einen Zeitstempel oder Zählerwert, der mit dem Ausstrahlungsmedienstrom assoziiert ist. Darüber hinaus kann der Zeitstempel oder Zählerwert einen einzelnen Punkt in dem Strom oder einen Zeit- oder Zählerbereich umfassen. Unter Berücksichtigung des Umstandes, dass der Zuschauer seine Anforderung mit einer bestimmten Verzögerung von dem Zeitpunkt an, an dem er das kreative Werk gehört hat, einleiten kann, kann der in der Abfrage gesendete Bereich einen vorbestimmten Zeitpuffer oder Zählerwert umfassen, um die Verzögerung zu kompensieren. Bei 1130 wird (z. B. durch ein Client-Gerät von einem Audioidentifikationsserver) eine Antwort auf die Abfrage empfangen, die Identifikationsinformationen umfasst, die mit kreativen Werken assoziiert sind, die sich in Audiosegmenten an oder bei dem in der Abfrage bereitgestellten Zeitstempel oder Zählerwert/Bereich befinden. Wie oben besprochen, können die Identifikationsinformationen auch Kaufinformationen umfassen.
BEISPIELHAFTE VERNETZTE UND VERTEILTE UMGEBUNGEN
Für Durchschnittsfachleute ist erkennbar, dass die verschiedenen hier beschriebenen Ausführungsformen in Verbindung mit einer beliebigen Computer- oder anderen Client- oder Servergerät implementiert werden können, die als Teil eines Computernetz-Werks oder in einer verteilten Datenverarbeitungsumgebung eingesetzt werden kann und mit einer beliebigen Art von Datenlager verbunden sein kann, in dem Medien gefunden werden können. In dieser Hinsicht können die verschiedenen hier beschriebenen Ausführungsformen in einem beliebigen Computersystem oder einer beliebigen Umgebung mit einer beliebigen Anzahl von Speicher- oder Speicherungseinheiten und einer beliebigen Anzahl von Anwendungen und Prozessen, die über eine beliebige Anzahl von Speicherungseinheiten stattfinden, implementiert werden. Dies umfasst, aber ohne Beschränkung darauf, eine Umgebung mit Servercomputern und Client-Computern, die in einer Netzwerkumgebung oder einer Datenverarbeitungsumgebung mit entfernter oder lokaler Speicherung eingesetzt werden.
Verteilte Datenverarbeitung gewährleistet gemeinsame Benutzung von Computerressourcen und Diensten durch kommunikativen Austausch zwischen Datenverarbeitungseinrichtungen und Systemen. Diese Ressourcen und Dienste umfassen den Austausch von Informationen, Cache-Speicherung und Disc-Speicherung für Objekte wie Dateien. Diese Ressourcen und Dienste können auch die gemeinsame Benutzung von Verarbeitungsleistung über mehrere Verarbeitungseinheiten zum Lastausgleich, Expansion von Ressourcen, Spezialisierung der Verarbeitung und dergleichen umfassen. Verteilte Datenverarbeitung nutzt Netzwerkkollektivität aus, erlaubt es Clients, ihre kollektive Leistung zu verstärken, um dem gesamten Unternehmen zu nutzen. In dieser Hinsicht können vielfältige Einrichtungen Anwendungen, Objekte oder Ressourcen aufweisen, die an den verschiedenen Ausführungsformen der vorliegenden Offenbarung teilnehmen.
12 zeigt ein schematisches Diagramm einer beispielhaften vernetzten oder verteilten Datenverarbeitungsumgebung. Die verteilte Datenverarbeitungsumgebung umfasst Datenverarbeitungsobjekte 1210, 1212 usw. und Datenverarbeitungsobjekte oder -einrichtungen 1220, 1222, 1224, 1226, 1228 usw., die Programme, Methoden, Datenspeicher, programmierbare Logik usw. umfassen können, wie durch die Anwendungen 1230, 1232, 1234, 1236, 1238 repräsentiert. Es versteht sich, dass die Datenverarbeitungsobjekte 1210, 1212 usw. und die Datenverarbeitungsobjekte oder -einrichtungen 1220, 1222, 1224, 1226, 1228 usw. verschiedene Einrichtungen umfassen können, wie zum Beispiel PDAs (Personal Digital Assistants), Audio-/Videoeinrichtungen, Mobiltelefone, MP3-Player, Personal Computer, Laptops, Tablets usw.
Jedes Datenverarbeitungsobjekt 1210, 1212 usw. und die Datenverarbeitungsobjekte oder -einrichtungen 1220, 1222, 1224, 1226, 1228 usw. können mittels des Kommunikationsnetzwerks 1240 entweder direkt oder indirekt mit einem oder mehreren anderen Datenverarbeitungsobjekten 1210, 1212 usw. und Datenverarbeitungsobjekten oder -einrichtungen 1220, 1222, 1224, 1226, 1228 usw. kommunizieren. Obwohl es in 12 als ein einziges Element dargestellt ist, kann das Netzwerk 1240 andere Datenverarbeitungsobjekte und Datenverarbeitungseinrichtungen umfassen, die dem System von 12 Dienste bereitstellen und/oder können mehrere verbundene Netzwerke repräsentieren, die nicht gezeigt sind. Jedes Datenverarbeitungsobjekt 1210, 1212 usw. oder die Datenverarbeitungsobjekte oder -einrichtungen 1220, 1222, 1224, 1226, 1228 usw. können auch eine Anwendung enthalten, wie zum Beispiel die Anwendungen 1230, 1232, 1234, 1236, 1238, die eine API oder ein anderes Objekt, Software, Firmware und/oder Hardware benutzen könnten, die für Kommunikation mit oder Implementierung von verschiedenen Ausführungsformen der vorliegenden Offenbarung geeignet sind.
Es gibt vielfältige Systeme, Komponenten und Netzwerkkonfigurationen, die verteilte Datenverarbeitungsumgebungen unterstützen. Zum Beispiel können Datenverarbeitungssysteme durch verdrahtete oder drahtlose Systeme, durch lokale Netzwerke oder großflächig verteilte Netzwerke miteinander verbunden sein. Zur Zeit sind viele Netzwerke mit dem Internet gekoppelt, das eine Infrastruktur für großflächig verteilte Datenverarbeitung bereitstellt und viele verschiedene Netzwerke umschließt, obwohl jede beliebige geeignete Netzwerkinfrastruktur für beispielhafte Übermittlungen verwendet werden kann, die in Bezug auf die in verschiedenen Ausführungsformen hier beschriebenen Systeme erfolgen.
Somit kann eine Vielfalt von Netzwerktopologien und Netzwerkinfrastrukturen benutzt werden, wie zum Beispiel Client/Server, Peer-to-Peer oder hybride Architekturen. Der „Client” ist Mitglied einer Klasse oder Gruppe, die die Dienste einer anderen Klasse oder Gruppe verwendet. Ein Client kann ein Computerprozess sein, z. B. grob gesagt eine Menge von Anweisungen oder Aufgaben, die einen Dienst anfordert, der durch ein anderes Programm oder einen anderen Prozess bereitgestellt wird. Ein Client-Prozess kann den angeforderten Dienst benutzen, ohne alle Arbeitsdetails über das andere Programm oder den Dienst selbst zu „kennen”.
In einer Client/Server-Architektur, insbesondere einem vernetzten System, kann ein Client ein Computer sein, der auf gemeinsam benutzte Netzwerkbetriebsmittel zugreift, die durch einen anderen Computer, z. B. einen Server, bereitgestellt werden. In der Darstellung von 12 können als nichteinschränkendes Beispiel die Datenverarbeitungsobjekte oder -einrichtungen 1220, 1222, 1224, 1226, 1228 usw. als Clients betrachtet werden, und die Datenverarbeitungsobjekte 1210, 1212 usw. können als Server betrachtet werden, wobei die Datenverarbeitungsobjekte 1210, 1212 usw. Datendienste bereitstellen, wie etwa das Empfangen von Daten von Client-Datenverarbeitungsobjekten oder -einrichtungen 1220, 1222, 1224, 1226, 1228 usw., Speichern von Daten, Verarbeiten von Daten, Senden von Daten zu Client-Datenverarbeitungsobjekten oder -einrichtungen 1220, 1222, 1224, 1226, 1228 usw., obwohl abhängig von den Umständen jeder Computer als ein Client, ein Server oder beides angesehen werden kann. Beliebige dieser Datenverarbeitungseinrichtungen können Daten verarbeiten oder Transaktionsdienste oder Aufgaben anfordern, die die Techniken für Systeme wie hier beschrieben für eine oder mehrere Ausführungsformen implizieren können.
Ein Server ist typischerweise ein entferntes Computersystem, das über ein entferntes oder lokales Netzwerk, wie etwa das Internet oder drahtlose Netzwerkinfrastrukturen, zugänglich ist. Der Client-Prozess kann in einem ersten Computersystem aktiv sein und der Serverprozess kann in einem zweiten Computersystem aktiv sein, die über ein Kommunikationsmedium miteinander kommunizieren, um dadurch verteilte Funktionalität bereitzustellen und es mehreren Clients zu erlauben, die Informationssammelfähigkeiten des Servers zu nutzen. Beliebige gemäß den hier beschriebenen Techniken benutzte Softwareobjekte können selbstständig oder über mehrere Datenverarbeitungseinrichtungen oder -objekte verteilt bereitgestellt werden.
In einer Netzwerkumgebung, in der das Kommunikationsnetzwerk bzw. der Bus 1240 zum Beispiel das Internet ist, können die Datenverarbeitungsobjekte 1210, 1212 usw. Web-Server, Dateiserver, Medienserver usw. sein, mit denen die Client-Datenverarbeitungsobjekte oder -einrichtungen 1220, 1222, 1224, 1226, 1228 usw. über eine beliebige Anzahl bekannter Protokolle, wie etwa das HTTP (Hypertext Transfer Protocol) kommunizieren. Die Objekte 1210, 1212 usw. können auch als Client-Datenverarbeitungsobjekte oder -einrichtungen 1220, 1222, 1224, 1226, 1228 usw. dienen, sowie es für eine verteilte Datenverarbeitungsumgebung charakteristisch sein kann.
EINE BEISPIELHAFTE DATENVERARBEITUNGSEINRICHTUNG
Wie erwähnt können die hier beschriebenen Techniken vorteilhafterweise auf eine beliebige geeignete Einrichtung angewandt werden. Es versteht sich deshalb, dass in der Hand gehaltene, tragbare oder andere Datenverarbeitungseinrichtungen und Datenverarbeitungsobjekte aller Arten für die Verwendung in Verbindung mit den verschiedenen Ausführungsformen in Betracht gezogen werden. Dementsprechend ist der nachfolgende nachfolgend in 13 beschriebene Computer lediglich ein Beispiel für eine Datenverarbeitungseinrichtung. Zusätzlich kann ein geeigneter Server einen oder mehrere Aspekte des nachfolgenden Computers umfassen, wie etwa einen Medienserver oder andere Medienverwaltungs-Serverkomponenten.
Obwohl es nicht erforderlich ist, können Ausführungsformen teilweise über ein Betriebssystem zur Verwendung durch einen Entwickler von Diensten für eine Einrichtung oder ein Objekt implementiert werden und/oder in Anwendungssoftware enthalten sein, die wirkt, um einen oder mehrere funktionale Aspekte der hier beschriebenen verschiedenen Ausführungsformen auszuführen. Software kann im allgemeinen Kontext von computerausführbaren Anweisungen beschrieben werden, wie zum Beispiel Programmmodulen, die durch einen oder mehrere Computer, wie etwa Client-Workstations, Server oder andere Einrichtungen ausgeführt werden. Für Fachleute ist erkennbar, dass Computersysteme vielfältige Konfigurationen und Protokolle aufweisen, die zum Übermitteln von Daten verwendet werden können, und somit keine konkrete Konfiguration oder kein konkretes Protokoll als Beschränkungen zu betrachten ist.
13 zeigt ferner ein Beispiel für eine geeignete Datenverarbeitungssystemumgebung 1300, in der ein oder mehrere Aspekte der hier beschriebenen Ausführungsformen implementiert werden können, obwohl, wie oben klargestellt wurde, die Datenverarbeitungssystemumgebung 1300 nur ein Beispiel für eine geeignete Datenverarbeitungsumgebung ist und nicht beabsichtigt ist, irgendeine Beschränkung hinsichtlich des Umfangs der Benutzung oder Funktionalität nahezulegen. Auch ist die Datenverarbeitungsumgebung 1300 nicht so zu interpretieren, als dass irgendeine Abhängigkeit oder Anforderung in Bezug auf eine beliebige Kombination von Komponenten, die in der beispielhaften Betriebsumgebung 1300 dargestellt sind, besteht.
Mit Bezug auf 13 ist eine beispielhafte Datenverarbeitungseinrichtung zum Implementieren einer oder mehrerer Ausführungsformen in Form eines Computers 1310 abgebildet. Komponenten des Computers 1310 können, aber ohne Beschränkung darauf, eine Verarbeitungseinheit 1320, einen Systemspeicher 1330 und einen Systembus 1322, der verschiedene Systemkomponenten, einschließlich des Systemspeichers, mit der Verarbeitungseinheit 1320 koppelt, umfassen.
Der Computer 1310 umfasst typischerweise vielfältige computerlesbare Medien und kann ein beliebiges verfügbares Medium sein, auf das der Computer 1310 zugreifen kann. Der Systemspeicher 1330 kann Computerspeichermedien in Form von flüchtigem und/oder nichtflüchtigem Speicher, wie etwa Nurlesespeicher (ROM) und/oder Direktzugriffsspeicher (RAM), umfassen. Beispielsweise und nicht als Beschränkung kann der Speicher 1330 auch ein Betriebssystem, Anwendungsprogramme, andere Programmmodule und Programmdaten umfassen.
Ein Benutzer kann in den Computer 1310 Befehle und Informationen durch Eingabeeinrichtungen 1340 eingeben, wofür nichteinschränkende Beispiele eine Tastatur, ein Tastenfeld, eine Zeigeeinrichtung, eine Maus, ein Stift, ein Touchpad, ein Touchscreen, ein Trackball, ein Bewegungsdetektor, eine Kamera, ein Mikrofon, ein Joystick, ein Gamepad, ein Scanner oder eine beliebige andere Einrichtung, die es dem Benutzer erlaubt, mit dem Computer 1310 in Interaktion zu treten, wären. Außerdem ist über eine Schnittstelle, wie etwa die Ausgabeschnittstelle 1350 ein Monitor oder eine andere Art von Anzeigeeinrichtung mit dem Systembus 1322 verbunden. Zusätzlich zu einem Monitor können Computer auch andere Peripherieausgabegeräte umfassen, wie etwa Lautsprecher und einen Drucker, die durch die Ausgabeschnittstelle 1350 verbunden werden können.
Der Computer 1310 kann in einer vernetzten oder verteilten Umgebung arbeiten, die logische Verbindungen mit einem oder mehreren anderen entfernten Computer, wie etwa dem entfernten Computer 1370, verwenden. Der entfernte Computer 1370 kann ein Personal Computer, ein Server, ein Router, ein Netzwerk-PC, eine Peer-Einrichtung oder ein anderer üblicher Netzwerkknoten sein oder eine beliebige andere entfernte Medienverbrauchs- oder -übertragungseinrichtung, und kann beliebige oder alle der oben relativ zu dem Computer 1310 beschriebenen Elemente umfassen. Die in 13 abgebildeten logischen Verbindungen umfassen ein Netzwerk 1372, wie etwa ein lokales Netzwerk (LAN) oder ein großflächiges Netzwerk (WAN), können aber auch andere Netzwerke/Busse, z. B. zellenbasierte Netzwerke, umfassen.
Wie oben erwähnt können, obwohl beispielhafte Ausführungsformen in Verbindung mit verschiedenen Datenverarbeitungseinrichtungen und Netzwerkarchitekturen beschrieben wurden, die zugrundeliegenden Konzepte auf ein beliebiges Netzwerksystem und eine beliebige Datenverarbeitungseinrichtung oder ein beliebiges System angewandt werden, worin es erwünscht ist, Medien auf flexible Weise zu publizieren oder zu konsumieren.
Außerdem gibt es mehrere Arten der Implementierung derselben oder ähnlicher Funktionalität, z. B. eine geeignete API, ein Toolkit, einen Treibercode, ein Betriebssystem, ein Steuerelement, ein selbstständiges oder herunterladbares Softwareobjekt usw., die es Anwendungen und Diensten ermöglichen, die hier beschriebenen Techniken auszunutzen. Somit werden hier Ausführungsformen vom Standpunkt der API (oder eines anderen Softwareobjekts) in Betracht gezogen, sowie von einem Software- oder Hardwareobjekt, das einen oder mehrere hier beschriebene Aspekte implementiert. Verschiedene hier beschriebene Ausführungsformen können somit Aspekte aufweisen, die ganz in Hardware, teilweise in Hardware und teilweise in Software und auch ganz in Software vorliegen.
Das Wort „beispielhaft” wird hier so benutzt, dass es als ein Beispiel, eine Instanz oder Veranschaulichung dienend bedeutet. Um Zweifel zu vermeiden, werden die hier offenbarten Aspekte nicht durch solche Beispiele beschränkt. Zusätzlich ist jeder Aspekt oder Ausgestaltung, der bzw. die hier als „beispielhaft” beschrieben wird, nicht unbedingt als gegenüber anderen Aspekten oder Ausgestaltungen bevorzugt oder vorteilhaft aufzufassen, und soll auch nicht äquivalente beispielhafte Strukturen und Techniken, die Durchschnittsfachleuten bekannt sind, ausschließen. Soweit die Ausdrücke „einschließen”, „aufweisen”, „enthalten” und andere ähnliche Wörter entweder in der ausführlichen Beschreibung oder in den Ansprüchen verwendet werden, sollen zur Vermeidung von Zweifeln diese Ausdrücke auf ähnliche Weise wie der Ausdruck „umfassend” als ein offenes Verbindungswort einschließend sein, ohne irgendwelche zusätzlichen oder anderen Elemente auszuschließen.
Datenverarbeitungseinrichtungen umfassen typischerweise vielfältige Medien, die computerlesbare Speichermedien und/oder Kommunikationsmedien umfassen können, wobei diese beiden Begriffe hier folgendermaßen voneinander verschieden verwendet werden. Computerlesbare Speichermedien können beliebige verfügbare Speichermedien sein, auf die der Computer zugreifen kann, die typischerweise von nichtflüchtiger Beschaffenheit sind und sowohl flüchtige als auch nichtflüchtige Medien, entfernbare und nichtentfernbare Medien umfassen können. Als Beispiel und nicht als Beschränkung können computerlesbare Speichermedien in Verbindung mit einem beliebigen Verfahren oder beliebiger Technologie zur Speicherung von Informationen, wie etwa computerlesbaren Anweisungen, Programmmodulen, strukturierten Daten oder unstrukturierten Daten, implementiert werden. Computerlesbare Speichermedien können, aber ohne Beschränkung darauf, Folgendes umfassen: RAM, ROM, EEPROM, Flash-Speicher oder andere Speichertechnologien, CD-ROM, DVD (Digital Versatile Disk) oder andere optische Datenträgerspeicherung, magnetische Kassetten, Magnetband, magnetische Datenträgerspeicherung oder andere magnetische Speicherungseinrichtungen, andere greifbare und/oder nichtflüchtige Medien, die zum Speichern gewünschter Informationen verwendet werden können. Auf computerlesbare Speicherungsmedien können eine oder mehrere lokale oder entfernte Datenverarbeitungseinrichtungen, z. B. über Zugriffsanforderungen, Abfragen oder andere Datenabrufprotokolle für vielfältige Operationen mit Bezug auf die durch das Medium gespeicherten Informationen zugreifen.
Andererseits realisieren Kommunikationsmedien typischerweise computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere strukturierte oder unstrukturierte Daten in einem Datensignal, wie etwa einem modulierten Datensignal, z. B. einer Trägerwelle oder einem anderen Transportmechanismus und umfassen beliebige Informationsablieferungs- oder -transportmedien. Der Ausdruck „moduliertes Datensignal” oder Signale bezieht sich auf ein Signal, bei dem eine oder mehrere seiner Kenngrößen auf eine solche Weise eingestellt oder geändert werden, dass Informationen in einem oder mehreren Signalen codiert werden. Beispielsweise und nicht als Beschränkung umfassen Kommunikationsmedien verdrahtete Medien, wie etwa verdrahtete Netzwerk- oder direkt verdrahtete Verbindung und drahtlose Medien wie akustische, HF-, Infrarot- und andere drahtlose Medien.
Wie erwähnt, können die verschiedenen hier beschriebenen Techniken in Verbindung mit Hardware oder Software je nach Fall mit einer Kombination von beidem implementiert werden. Im vorliegenden Gebrauch sollen die Ausdrücke „Komponente”, „System” und dergleichen ähnlich eine computerbezogene Einrichtung, entweder Hardware, eine Kombination von Hardware und Software, Software oder Software in Ausführung bedeuten. Eine Komponente kann zum Beispiel, aber ohne Beschränkung darauf, ein Prozess sein, der auf einem Prozessor abläuft, ein Prozessor, ein Objekt, eine ausführbare Datei, ein Ausführungs-Thread, ein Programm und/oder ein Computer. Zur Veranschaulichung kann sowohl eine auf Computer laufende Anwendung als auch der Computer eine Komponente sein. Eine oder mehrere Komponenten können in einem Prozess und/oder Ausführungs-Thread residieren und eine Komponente kann auf einen Computer lokalisiert und/oder zwischen zwei oder mehr Computer verteilt werden. Ferner kann eine „Einrichtung” in Form speziell entworfener Hardware vorliegen; als verallgemeinerte Hardware, die durch die Ausführung von Software darauf, die es der Hardware ermöglicht, spezifische Funktionen (z. B. Codierung und/oder Decodierung) auszuführen, spezialisiert wird; auf einem computerlesbaren Medium gespeicherte Software; oder als Kombination davon.
Die obenerwähnten Systeme wurden mit Bezug auf Interaktion zwischen mehreren Komponenten beschrieben. Es versteht sich, dass solche Systeme und Komponenten diese Komponenten oder spezifizierte Subkomponenten, einen Teil der spezifizierten Komponenten oder Subkomponenten und/oder zusätzliche Komponenten und gemäß verschiedenen Permutationen und Kombinationen von obigem umfassen können. Subkomponenten können auch als Komponenten implementiert werden, die kommunikativ mit anderen Komponenten gekoppelt sind, statt in übergeordneten Komponenten (hierarchisch) enthalten zu sein. Zusätzlich ist anzumerken, dass eine oder mehrere Komponenten zu einer einzigen Komponente kombiniert werden können, die aggregierte Funktionalität bereitstellt, oder in mehrere getrennte Subkomponenten aufgeteilt werden können, und dass eine beliebige oder mehrere mittlere Schichten, wie etwa eine Verwaltungsschicht, vorgesehen sein können, um solche Subkomponenten kommunikativ zu koppeln, um integrierte Funktionalität bereitzustellen. Jegliche hier beschriebenen Komponenten können auch mit einer oder mehreren anderen Komponenten in Interaktion treten, die hier nicht spezifisch beschrieben werden, aber Fachleuten im Allgemeinen bekannt sind.
Um die zahlreichen hier beschriebenen Schlussfolgerungen (z. B. Schlussfolgern auf Audiosegmenten) bereitzustellen oder bei diesen zu helfen, können hier beschriebene Komponenten die Daten, zu denen sie Zugang erhalten, vollständig oder eine Teilmenge davon untersuchen und können Argumente über Zustände des Systems, der Umgebung usw. aus einer Menge von über Ereignisse und/oder Daten erfassten Beobachtungen bereitstellen oder deduzieren. Eine Schlussfolgerung kann verwendet werden, um einen spezifischen Kontext oder eine spezifische Aktion zu identifizieren, oder kann zum Beispiel eine Wahrscheinlichkeitsverteilung über Zustände erzeugen. Die Schlussfolgerung kann probabilistisch sein – das heißt, Berechnung einer Wahrscheinlichkeitsverteilung über interessierende Zustände auf der Basis einer Betrachtung von Daten und Ereignissen. Die Schlussfolgerung kann sich auch auf Techniken beziehen, die zum Zusammenstellen von Ereignissen höherer Ebenen aus einer Menge von Ereignissen und/oder Daten verwendet werden.
Eine solche Schlussfolgerung kann zu der Konstruktion neuer Ereignisse oder Aktionen aus einer Menge von beobachteten Ereignissen und/oder gespeicherten Ereignisdaten führen, gleichgültig, ob die Ereignisse in enger zeitlicher Nähe korreliert sind oder nicht und ob die Ereignisse und Daten von einem oder mehreren Ereignis- und Datenquellen kommen. Es können verschiedene Methoden und/oder Systeme zur Klassifikation (explizit und/oder implizit trainiert) in Verbindung mit dem Durchführen automatischer und/oder deduzierter Aktion in Verbindung mit dem beanspruchten Gegenstand verwendet werden (z. B. Unterstützungs-Vektormaschinen, neuronale Netzwerke, Expertensysteme, Bayesian-Believe-Netzwerke, Fuzzy-Logic, Datenfusions-Engines usw.).
Ein Klassifizierer kann einen Eingangsattributvektor x = (x1, x2, x3, x4, xn) auf eine Konfidenz abbilden, dass die Eingabe zu einer Klasse gehört, gemäß f(x) = Konfidenz(Klasse). Eine solche Klassifikation kann eine probabilistische und/oder auf Statistik basierende Analyse verwenden (wobei z. B. in die Analysehilfseinrichtungen und Kosten einfaktoriert wird), um eine Aktion, deren automatische Ausführung ein Benutzer wünscht, zu prognostizieren oder zu deduzieren. Eine Unterstützungs-Vektormaschine (SVM, englisch: support vector machine) ist ein Beispiel für einen Klassifizierer, der verwendet werden kann. Die SVM arbeitet durch Finden einer Hyperfläche im Raum möglicher Eingaben, wobei die Hyperfläche versucht, die Triggerungskriterien von den Nicht-Triggerungsereignissen aufzuteilen. Intuitiv wird dadurch die Klassifikation zum Testen von Daten korrekt, die Trainingsdaten nahe, aber nicht mit diesen identisch sind. Andere gerichtete und ungerichtete Modellklassifikationsansätze wären z. B. naive Bayes, Bayessche Netzwerke, Entscheidungsbäume, neuronale Netzwerke, Fuzzy-Logic-Modelle, und probabilistische Klassifikationsmodelle, die verschiedene Muster von Unabhängigkeit bereitstellen, können verwendet werden. Die Klassifikation im vorliegenden Gebrauch ist auch einschließlich statistischer Regression, die zum Entwickeln von Modellen der Priorität benutzt wird.
Im Hinblick auf die oben beschriebenen beispielhaften Systeme werden Methodologien, die gemäß dem beschriebenen Gegenstand implementiert werden können, besser mit Bezug auf die Flussdiagramme der verschiedenen Figuren verständlich. Obwohl die Methodologien der Einfachheit der Erläuterung halber als eine Reihe von Blöcken gezeigt und beschrieben werden, ist verständlich und erkennbar, dass der beanspruchte Gegenstand nicht durch die Reihenfolge der Blöcke beschränkt wird, da bestimmte Blöcke in einer anderen Reihenfolge und/oder gleichzeitig mit anderen Blöcken als hier abgebildet und beschrieben auftreten können. Wenn ein nichtsequentieller oder abgezweigter Fluss über ein Flussdiagramm dargestellt wird, versteht sich, dass verschiedene andere Zweige, Flusspfade und Reihenfolgen der Blöcke implementiert werden können, die dasselbe oder ein ähnliches Ergebnis erzielen. Darüber hinaus müssen nicht alle dargestellten Blöcke erforderlich sein, um die im Folgenden beschriebenen Methodologien zu implementieren.
Zusätzlich zu den verschiedenen hier beschriebenen Ausführungsformen versteht sich, dass andere ähnliche Ausführungsformen verwendet oder Modifikationen und Zusätze an der beschriebenen Ausführungsform bzw. den beschriebenen Ausführungsformen vorgenommen werden können, um dieselbe oder eine äquivalente Funktion der entsprechenden Ausführungsform(en) durchzuführen, ohne davon abzuweichen. Weiterhin können sich mehrere Verarbeitungschips oder mehrere Einrichtungen die Durchführung einer oder mehrerer hier beschriebenen Funktionen teilen und ähnlich kann Speicherung über mehrere Einrichtungen hinweg bewirkt werden. Folglich ist die Erfindung nicht auf irgendeine einzige Ausführungsform beschränkt, sondern kann stattdessen bezüglich Allgemeinheit, Gedanken und Schutzumfang gemäß den angefügten Ansprüchen aufgefasst werden.

Claims

Einrichtung, umfassend: mindestens einen Prozessor; mindestens ein kommunikativ mit dem mindestens einen Prozessor gekoppeltes nichtflüchtiges computerlesbares Medium, wobei auf dem mindestens einen nichtflüchtigen computerlesbaren Medium computerausführbare Anweisungen gespeichert sind, umfassend: eine Ausstrahlungsmedien-Empfangskomponente, die dafür ausgelegt ist, eine Menge von Medienströmen über eine Menge von Kanälen zu empfangen; und eine Identifikationskomponente, die dafür ausgelegt ist, Identifikationsinformationen für ein Audiosegment in der Menge von Medienströmen gleichzeitig mit dem Empfang der Menge von Medienströmen durch die Ausstrahlungsmedienkomponente zu bestimmen.
Einrichtung nach Anspruch 1, wobei die Identifikationskomponente eine Audio-Kennzeichnung-Komponente umfasst, die dafür ausgelegt ist, Metadaten mit einer Teilmenge der Medienströme zu assoziieren, wobei die Metadaten den Ort des Audiosegments in der Menge von Medienströmen und die Identifikationsinformationen für das Audiosegment identifizieren.
Einrichtung nach Anspruch 1, wobei die Identifikationskomponente eine Audiosegment-Kategorisierungskomponente umfasst, die dafür ausgelegt ist, das Audiosegment als Musik und/oder Dialog umfassend zu kategorisieren.
Einrichtung nach Anspruch 1, wobei die Identifikationskomponente eine Fingerabdruckkomponente umfasst, die dafür ausgelegt ist, einen Fingerabdruck für das Audiosegment zu erzeugen.
Einrichtung nach Anspruch 4, wobei die Identifikationskomponente eine Vergleichskomponente umfasst, die dafür ausgelegt ist, einen Algorithmus zu verwenden, um den Fingerabdruck mit einem Datensatz in einer Audiobibliothek zu vergleichen.
Einrichtung nach Anspruch 4, wobei die Fingerabdruckkomponente eine Rauschfilterkomponente umfasst, die dafür ausgelegt ist, Teile des Audiosegments, die für die Bestimmung von Identifikationsinformationen für das Audiosegment nicht relevant sind, zu entfernen.
Einrichtung nach Anspruch 1, wobei die Identifikationsinformationen eine Identifikation einer Musikaufzeichnung umfassen.
Einrichtung nach Anspruch 1, wobei die Identifikationsinformationen eine Identifikation eines literarischen Werks umfassen.
Einrichtung nach Anspruch 1, die ferner eine Client-Schnittstellenkomponente umfasst, die für Folgendes ausgelegt ist: Empfangen einer Anforderung von einem Client-Gerät, einen Audioteil eines Medienstroms zu identifizieren, wobei die Anforderung Ortsinformationen des Audioteils in dem Medienstrom umfasst; und dem Client-Gerät mit Identifikationsinformationen antworten, die mindestens einem Audiosegment mindestens teilweise in dem Audioteil entsprechen.
Einrichtung nach Anspruch 1, wobei die Identifikationskomponente ferner dafür ausgelegt ist, eine Präferenzeinstellung anzunehmen, die die Bestimmung von Identifikationsinformationen auf eine ausgewählte oder mehrere Arten von kreativen Werken begrenzt.
Einrichtung nach Anspruch 1, wobei die Identifikationskomponente ferner dafür ausgelegt ist, gleichzeitig Identifikation für mehrere Audiosegmente zu bestimmen.
Einrichtung nach Anspruch 1, wobei die Identifikationskomponente ferner dafür ausgelegt ist, Kaufinformationen mit den Identifikationsinformationen zu assoziieren, wobei die Kaufinformationen ein in den Identifikationsinformationen identifiziertes kreatives Werk betreffen.
Einrichtung, umfassend: mindestens einen Prozessor; mindestens ein kommunikativ mit dem mindestens einen Prozessor gekoppeltes nichtflüchtiges computerlesbares Medium, wobei auf dem mindestens einen nichtflüchtigen computerlesbaren Medium computerausführbare Anweisungen gespeichert sind, umfassend: eine Ausstrahlungsmedien-Empfangskomponente, die dafür ausgelegt ist, mindestens einen Medienstrom auf mindestens einem Kanal zu empfangen; und eine Abfragekomponente, die für Folgendes ausgelegt ist: Senden einer Abfrage zu einem Audioidentifikationsserver, um Identifikationsinformationen zu bestimmen, die mit einem Audioteil des mindestens einen Medienstroms assoziiert sind, wobei die Abfrage Ortsinformationen umfasst, die einen Ort des Audioteils in dem mindestens einen Medienstrom identifizieren; und Empfangen einer Antwort von dem Audioidentifikationsserver, die Identifikationsinformationen umfasst, die mindestens einem mit dem Audioteil assoziierten Audiosegment entsprechen.
Einrichtung nach Anspruch 13, wobei die Abfragekomponente ferner dafür ausgelegt ist, eine Anforderung zu empfangen, die mit dem Audioteil des mindestens einen Medienstroms assoziierten Identifikationsinformationen bereitzustellen.
Einrichtung nach Anspruch 13, wobei die Identifikationsinformationen eine Indikation umfassen, wie gut die Identifikation mit dem Audiosegment übereinstimmt.
Einrichtung nach Anspruch 13, wobei die Ortsinformationen eine Kanalkennung und einen Zeitstempel umfassen.
Einrichtung nach Anspruch 16, wobei der Zeitstempel einen Zeitbereich umfasst.
Einrichtung nach Anspruch 13, die ferner eine Anzeige umfasst, die dafür ausgelegt ist, mit den Identifikationsinformationen empfangene Kaufinformationen anzuzeigen, wobei die Kaufinformationen ein in den Identifikationsinformationen identifiziertes kreatives Werk betreffen.
Einrichtung, umfassend: Mittel zum Empfangen einer Menge von Medienströmen über eine Menge von Kanälen; und Mittel zum Bestimmen von Identifikationsinformationen für ein Audiosegment in der Menge von Medienströmen gleichzeitig mit dem Empfangen der Menge von Medienströmen durch das Mittel zum Empfangen der Menge von Medienströmen.