DE60215495T2 - Verfahren und system zur automatischen erkennung ähnlicher oder identischer segmente in audioaufzeichnungen - Google Patents

Verfahren und system zur automatischen erkennung ähnlicher oder identischer segmente in audioaufzeichnungen Download PDF

Info

Publication number
DE60215495T2
DE60215495T2 DE60215495T DE60215495T DE60215495T2 DE 60215495 T2 DE60215495 T2 DE 60215495T2 DE 60215495 T DE60215495 T DE 60215495T DE 60215495 T DE60215495 T DE 60215495T DE 60215495 T2 DE60215495 T2 DE 60215495T2
Authority
DE
Germany
Prior art keywords
time
energy density
segment
frequency energy
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60215495T
Other languages
English (en)
Other versions
DE60215495D1 (de
Inventor
Uwe Fischer
Stefan Hoffmann
Werner Kriechbaum
Gerhard Stenzel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE60215495D1 publication Critical patent/DE60215495D1/de
Application granted granted Critical
Publication of DE60215495T2 publication Critical patent/DE60215495T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00086Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00086Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
    • G11B20/00094Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving measures which result in a restriction to authorised record carriers
    • G11B20/00123Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving measures which result in a restriction to authorised record carriers the record carrier being identified by recognising some of its unique characteristics, e.g. a unique defect pattern serving as a physical signature of the record carrier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/261Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued
    • G10H2250/275Gaussian window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Time Recorders, Dirve Recorders, Access Control (AREA)

Description

  • Gebiet der Erfindung
  • Die Erfindung betrifft im Allgemeinen das Gebiet der digitalen Tonverarbeitung und insbesondere ein Verfahren und ein System zur computerunterstützten Kennzeichnung ähnlicher oder identischer Segmente in mindestens zwei verschiedenen Audioströmen.
  • Grundlagen der Erfindung
  • In den letzten Jahren wurde eine immer größere Menge von Audiodaten aufgezeichnet, verarbeitet, verteilt und auf digitalen Medien archiviert, wobei zahlreiche Codierungs- und Komprimierungsformate verwendet wurden wie beispielsweise WAVE, AIFF, MPEG, RealAudio usw. Formatumwandlungs- oder Resampling-Verfahren (transcoding or resampling techniques), die zum Umschalten von einem Codierungsformat in ein anderes verwendet werden, erzeugen so gut wie nie eine Aufzeichnung, die mit einer direkten Aufzeichnung im Zielformat identisch ist. Ein ähnlicher Effekt findet bei den meisten Komprimierungsschemas statt, wo Änderungen am Komprimierungsfaktor oder anderen Parametern zu einer neuen Codierung und einem Bitstrom führen, der wenig Ähnlichkeit mit dem ursprünglichen Bitstrom hat. Beide Effekte machen es ziemlich schwierig, die Gleichheit einer Tonaufzeichnung und einer anderen Tonaufzeichnung festzustellen, d.h. die Gleichheit der beiden ursprünglich erzeugten Tonaufzeichnungen, wenn die beiden Aufzeichnungen in zwei verschiedenen Formaten gespeichert werden. Die Festlegung einer möglichen Gleichheit von verschiedenen Tonaufzeichnungen ist daher bei der Audioproduktion, -archivierung und beim Schutz des Urheberrechts dringend erforderlich.
  • Während der Herstellung einer digitalen Tonaufzeichnung entstehen im Laufe von Verarbeitungszwischenschritten normalerweise zahlreiche verschiedene Versionen in verschiedenen Codierungsformaten und werden über eine Vielfalt verschiedener Computersysteme verteilt. In den meisten Fällen gibt es weder einen Querverweis auf diese Aufzeichnungen noch werden sie in einer Datenbank protokolliert, und oftmals muss durch Anhören der Aufzeichnungen festgestellt werden, ob zwei Versionen identisch sind. Eine automatische Prozedur würde diese Aufgabe folglich erheblich erleichtern.
  • Ein ähnliches Problem besteht in Tonarchiven, die sich mit Material befassen, das in einer Vielfalt von Musiktitel-Zusammenstellungen (compilations) (wie z.B. Jazz oder Popsongs) oder auf einer Vielfalt von Datenträgern (wie z.B. die berühmten Aufzeichnungen von Toscanini mit dem NBC Symphonieorchester) ausgegeben wurden. Oftmals wird die Archivnummer des ursprünglichen Originals (master) einer solchen Aufzeichnung nicht dokumentiert, und in den meisten Fällen kann nur durch Anhören der Tonaufzeichnungen entschieden werden, ob eine Spur aus einer Musiktitel-Zusammenstellung mit einer Aufzeichnung desselben Stücks auf einem anderen Tonträger identisch ist.
  • Außerdem ist der Schutz des Urheberrechts ein Schlüsselproblem für die Audioindustrie und gewinnt mit der Erfindung einer neuen Technologie, die die Erzeugung und Vermarktung von Kopien von Tonaufzeichnungen zu einer einfachen Aufgabe macht, sogar zunehmend an Bedeutung. Obwohl Mechanismen zur Verhinderung unberechtigter Kopien eine Seite des Problems lösen, ist es außerdem erforderlich, Prozesse einzurichten, um unberechtigte Kopien von ungeschütztem Vorläufermaterial (legacy material) zu erkennen. Beispielsweise ist das Überspielen (ripping) einer CD und das Verteilen des Inhaltes der einzelnen Spuren in komprimiertem Format an unberechtigte Benutzer heutzutage der häufigste Verstoß gegen das Urheberrecht. Es gibt noch andere Verletzungen des Urheberrechts, die durch die Suche nach identischen Tonaufzeichnungen nicht erkannt werden können. Ein Beispiel ist die Erzeugung eines "neuen" Stückes durch Ausschneiden von Segmenten aus bestehenden Aufzeichnungen und Zusammensetzen derselben. Um eine solche Wiederverwendung aufzudecken, muss ein Verfahren nicht ähnliche Aufzeichnungen, sondern ähnliche Segmente von Aufzeichnungen erkennen können, ohne die Segmentgrenzen im Voraus zu kennen.
  • Eine weitere Form einer möglicherweise unberechtigten Wiederverwendung ist das Übernehmen einer charakteristischen Stimme aus einer Tonaufzeichnung, entweder unverändert oder z.B. bezüglich der Frequenz neu bearbeitet. Das Auffinden solcher bearbeiteter Teile ist nicht nur für die Erkennung möglicher Verletzungen des Urheberrechts von Bedeutung, sondern auch ein wertvolles Hilfsmittel für die musikalische Analyse von historischem und traditionellem Material.
  • Stand der Technik
  • Die meisten der gegenwärtig verfügbaren, verbreiteten Verfahren zum Identifizieren von Tonaufzeichnungen beruhen auf Wasserzeichen (water-marking) (eine aktuelle Übersicht über Verfahren nach dem Stand der Technik finden Sie in S. Katzenbeisser und F. Petitcolas (Hrsg.), Information Hiding: Techniques for steganography and digital water-marking, Boston 2000): Sie versuchen, die Tonaufzeichnung durch Einfügen von unhörbaren Daten zu verändern, die widerstandsfähig gegen Formatumwandlung sind und daher nicht auf bereits auf dem Markt erhältliches Material angewandt werden können. Außerdem werden viele der heutigen Audioproduktionen aus einer Menge von Aufzeichnungen einzelner Spuren oder Stimmen zusammengesetzt, die oftmals mit einer höheren Zeit- und Frequenzauflösung als die endgültige Aufzeichnung erzeugt werden. Die Verwendung von Wasserzeichen zum Identifizieren dieser Zwischendaten erfordert Wasserzeichen, die kein hörbares Artefakt durch Störungen erzeugen, wenn die Spuren für den endgültigen Audiostrom gemischt werden. Daher dürfte es wünschenswerter sein, solches Material durch charakteristische Merkmale und nicht durch Wasserzeichen zu identifizieren.
  • Ein Verfahren ohne Eingriff in die Aufzeichnung zur Kennzeichnung von identischen Tonaufzeichnungen verwendet globale Merkmale des Leistungsspektrums als Signatur für die Tonaufzeichnung. Hierbei wird auf EP-A-1113432 Bezug genommen. Wie alle globalen frequenzbasierten Verfahren kann dieses Verfahren nicht zwischen abgewandelten Aufzeichnungen desselben Materials unterscheiden, d.h., eine aufsteigend gespielte Tonleiter führt zu derselben Signatur wie die gleiche, absteigend gespielte Tonleiter. Eine weitere Begrenzung von diesem und ähnlichen globalen Verfahren ist ihre Empfindlichkeit gegenüber lokalen Änderungen der Tondaten, wie Ein- oder Ausblendungen.
  • US-A-5 918 223 beschreibt ein Verfahren zur inhaltsbasierten Analyse, Speicherung, zum Abruf und zur Segmentierung von Tondaten unter Verwendung von Merkmalvektoren, die aus statistischen Messungen des Audiosignals und seines Leistungsspektrums erzeugt werden.
  • WO01/04870 beschreibt ein Verfahren zur automatischen Erkennung von musikalischen Kompositionen und Klangsignalen durch Entnehmen von Merkmalen in der Frequenzdomäne des Audiosignals.
  • Paul D. et al (Dokument XP-002200570) beschreiben die Verwendung von Gabor-Transformationen (Gabor transforms) für eine verknüpfte Zeit-Frequenz-Analyse. Dong-Gyu Sim et al. (Dokument XP 010368634) beschreiben die Anwendung des Hausdorff-Abstands (Hausdorff distance) in einem Signalvergleichsalgorithmus (signal matching algorithm).
  • Zusammenfassung der Erfindung
  • Eine Aufgabe der vorliegenden Erfindung ist daher die Bereitstellung eines Verfahrens und Systems zur verbesserten Erkennung von identischen oder ähnlichen Tonaufzeichnungen oder von Segmenten von Tonaufzeichnungen.
  • Eine andere Aufgabe ist die Bereitstellung eines solchen Verfahrens und Systems, die die Erkennung nicht von ähnlichen Aufzeichnungen, sondern von ähnlichen Segmenten von Aufzeichnungen ermöglichen, ohne die Segmentgrenzen im voraus zu kennen.
  • Eine andere Aufgabe ist die Bereitstellung eines solchen Verfahrens und Systems, die eine automatisierte Erkennung identischer Kopien von Tonaufzeichnungen oder Segmenten von Tonaufzeichnungen ermöglichen.
  • Eine andere Aufgabe ist das Ermöglichen einer widerstandsfähigen Kennzeichnung von Tonmaterial auch bei vorhandenen lokalen Änderungen und Verzerrungen.
  • Noch eine andere Aufgabe ist das Ermöglichen der Festlegung von Ähnlichkeit oder Gleichheit eines in zwei verschiedenen Formaten, insbesondere in zwei verschiedenen Komprimierungsformaten, gespeicherten Audiostroms.
  • Die obigen Aufgaben werden durch die Merkmale der unabhängigen Ansprüche erfüllt. Vorteilhafte Ausführungsformen werden in den Unteransprüchen dargelegt.
  • Das der Erfindung zugrundeliegende Konzept ist die Bereitstellung eines Kennzeichnungsmechanismus auf der Grundlage einer Zeit-Frequenz-Analyse (time-frequency analysis) des Tonmaterials. Der Kennzeichnungsmechanismus berechnet eine charakteristische Signatur aus einer Tonaufzeichnung und verwendet diese Signatur zum Berechnen eines Abstandes zwischen verschiedenen Tonaufzeichnungen und damit zum Auswählen identischer Aufzeichnungen. Die Erfindung ermöglicht die automatisierte Erkennung identischer Kopien von Tonaufzeichnungen. Diese Technologie kann zum Einrichten automatisierter Prozesse zum Auffinden von möglichen unberechtigten Kopien verwendet werden und ermöglicht daher eine bessere Geltendmachung von Urheberrechten in der Audioindustrie.
  • Es wird hervorgehoben, dass der vorgeschlagene Mechanismus den Stand der Technik durch die Verwendung lokaler anstelle globaler Merkmale verbessert.
  • Insbesondere ermöglicht die Erfindung die Erkennung von Gleichheit oder Ähnlichkeit von Audioströmen oder -segmenten davon selbst dann, wenn sie in verschiedenen Formaten bereitgestellt werden und/oder auf verschiedenen physischen Datenträgern gespeichert werden. Dabei ermöglicht sie die Feststellung, ob ein Audiosegment aus einer Musiktitel-Zusammenstellung (compilation) mit einer Aufzeichnung des gleichen Audiosegmentes auf einem anderen Tonträger identisch ist.
  • Außerdem kann das Verfahren gemäß der Erfindung automatisch und möglicherweise sogar transparent für einen oder mehrere Benutzer ausgeführt werden.
  • Aus den oben genannten Gründen ermöglicht der vorgeschlagene Mechanismus eine automatisierte Erkennung identischer Kopien von Tonaufzeichnungen. Diese Technologie kann zum Einrichten automatisierter Prozesse zum Auffinden möglicher unberechtigter Kopien verwendet werden und ermöglicht daher eine bessere Geltendmachung von Urheberrechten in der Audioindustrie.
  • Kurze Beschreibung der Zeichnungen
  • Im Folgenden wird die vorliegende Erfindung mit Hilfe von Ausführungsformen, aus denen weitere Merkmale und Vorteile der Erfindung hervorgehen, ausführlicher beschrieben, wobei
  • 1 eine schematische Darstellung ist, die die Berechnung einer Audiosignatur gemäß der Erfindung zeigt, wobei die Blöcke 20 und 50 zusätzliche Komponenten darstellen;
  • 2 ein Flussdiagramm ist, das die Schritte der Vorverarbeitung einer Originalaufzeichnung gemäß der Erfindung zeigt;
  • 3 ein typisches Leistungsspektrum einer Aufzeichnung des Präludiums XIV von J.S. Bachs Wohltemperiertes Klavier ist, wobei ein Satz ähnlicher Elemente (confusion set) für die maximale Leistung ein Element enthält, wohingegen ein Satz ähnlicher Elemente für den zweithöchsten Spitzenwert zwei Elemente enthält;
  • 4 ein Segment eines Gabor-Energiedichtesektors (Gabor Energy Densitiy Slice) für eine Frequenz von 497 Hz und einer Skalierung 1000 ist, der für das in 3 dargestellte Musikstück berechnet wurde;
  • 5 ein Flussdiagramm ist, das die Schritte für die Quantisierung eines Zeit-Frequenz-Energiedichtesektors gemäß der Erfindung zeigt;
  • 6 eine Histogrammdarstellung des Gabor-Energiedichtesektors für das in 4 gezeigte Segment mit der Frequenz 497 Hz und der Skalierung 1000 ist;
  • 7 eine kumulierte Histogrammdarstellung des Gabor-Energiedichtesektors für das in 4 gezeigte Segment mit der Frequenz 497 Hz und der Skalierung 1000 ist;
  • 8 unbearbeitete Daten einer 497-Hz-Signatur zeigt, die für das Beispiel von 4 berechnet wurde, mit unvermischten Folgen (unmerged runs) für die Originalprobe (sample master), wobei Anfang und Ende in Abtasteinheiten (sample units) dargestellt werden;
  • 9 gemischte Daten zeigt, die aus 8 für die 497-Hz-Signatur abgeleitet werden, jedoch für eine Originalprobe;
  • 10 ein Flussdiagramm ist, das die Berechnung des Abstandes zwischen zwei Audiosignaturen gemäß der Erfindung darstellt;
  • 11 ein anderes Flussdiagramm ist, das die Berechnung eines Hausdorff-Abstandes gemäß der Erfindung darstellt;
  • 12 eine Grafik des Hausdorff-Abstandes zwischen der 497-Hz-Signatur des WAVE-Originals und einer komprimierten MPEG3-Version mit 8 kBit/s derselben Aufzeichnung als Funktion der Verschiebung zwischen der Original- und der Testsignatur ist;
  • 13 einen Satz von Ellipsen als ein typisches Ergebnis eines Schnittvorgangs (slicing operation) gemäß der Erfindung zeigt;
  • 14 beispielhafte Schablonen (templates) zeigt, die zum Auffinden jener Segmente in Punktmustern von Kandidatenaufzeichnungen verwendet werden, die ähnlich oder identisch mit jenen in der Schablone sind; und
  • 15 einen anderen Satz von Ellipsen zeigt, für die eine Schablone wie die in 14 gezeigte mit den beiden Segmenten mit den hierin gezeigten ausgefüllten Ellipsen übereinstimmt.
  • Ausführliche Beschreibung der Ausführungsformen
  • Mit Bezugnahme auf 1 muss analoges Material vor der Berechnung der Audiosignatur 60 durch ein geeignetes Mittel digitalisiert werden.
  • Die im Folgenden beschriebene Audiosignatur wird aus einer Tonaufzeichnung 10 berechnet, indem die folgenden Schritte auf das digitale Audiosignal angewandt werden:
  • Vorverarbeitungsfilter (preprocessing filter)
  • In Abhängigkeit vom Typ des Materials und vom Typ der gewünschten Ähnlichkeit können die Tondaten durch ein zusätzliches Filter vorverarbeitet werden, 20. Beispiele für solche Filter sind die Entfernung von Bandrauschen (tage noise) aus analogen Aufzeichnungen, psycho-physische Filter zum Modellieren der Verarbeitung durch das Ohr und das Hörzentrum eines menschlichen Beobachters oder eine Vordergrund-/Hintergrundtrennung zum Auskoppeln (single out) von Soloinstrumenten. Fachleute werden erkennen, dass einige der möglichen Vorverarbeitungsfilter besser so realisiert werden, dass sie auf die Zeit-Frequenz-Dichte (time-frequency density) statt auf das digitale Audiosignal einwirken.
  • Zeit-Frequenz-Energiedichte
  • Schätzen, 30, der Zeit-Frequenz-Energiedichte der Tonaufzeichnung. Die Zeit-Frequenz-Energiedichte px(t, v) eines Signals x ist definiert durch
    Figure 00110001
    d.h. durch das Merkmal, dass das Integral der Dichte über der Zeit t und der Frequenz v gleich dem Energiegehalt des Signals ist. Es gibt eine Vielfalt von Verfahren zum Schätzen der Zeit-Energiedichte, die bekanntesten sind das Leistungsspektrum, abgeleitet von einer gefensterten Fourier-Transformation, und die Wigner-Ville-Verteilung (Wigner-Ville distribution).
  • Dichtesektor
  • Eine oder mehrere Dichtesektoren werden ermittelt, 40, indem der Schnittpunkt der Energiedichte mit einer Ebene berechnet wird. während jede Ausrichtung der Dichteebene in Bezug auf die Zeit-, die Frequenz- und die Energieachsen der Energiedichte einen gültigen Dichtesektor erzeugt und zum Ermitteln einer Signatur verwendet werden kann, werden einige Ausrichtungen bevorzugt, und nicht alle Ausrichtungen liefern Daten, die für die Identifizierung einer Aufzeichnung brauchbar sind: Jede Schnittebene, die senkrecht zur Zeitachse ist, enthält nur die Energiedichte der Aufzeichnung zu einem spezifischen Zeitpunkt. Da die gleichwertige Zeit in einer Aufzeichnung, die durch Ausschneiden eines Stücks der Aufzeichnung bearbeitet wurde, kaum zu ermitteln ist, sind solche Sektoren normalerweise nicht gut geeignet, um die Gleichheit von zwei Aufzeichnungen festzustellen. Eine Schnittebene, die senkrecht zur Energieachse ist, erzeugt eine Annäherung der Zeit-Frequenz-Entwicklung der Aufzeichnung, und eine Schnittebene, die senkrecht zur Frequenzachse ist, stellt die Entwicklung einer spezifischen Frequenz über der Zeit dar. Für viele Annäherungen der Zeit-Frequenz-Energiedichte können Dichtesektoren, die senkrecht zur Frequenzachse sind, ohne Bestimmung der vollständigen Energiedichte berechnet werden. Sowohl die Ausrichtung senkrecht zur Energieachse als auch die Ausrichtung senkrecht zur Frequenzachse erfassen genügend Daten, um die Ermittlung identischer Aufzeichnungen zu ermöglichen. Die tatsächliche Wahl der Ausrichtung hängt vom Berechnungsaufwand, den man für eine Ermittlung in Kauf nehmen möchte, und von der gewünschten Robustheit der Signatur gegenüber Verzerrung (distortion resistance) ab.
  • Quantisierter Dichtesektor (Quantized Densitiy Slice)
  • Der Dichtesektor wird durch Anwenden einer geeigneten Quantisierung transformiert, 50. Die tatsächliche Wahl des Quantisierungsalgorithmus hängt von der Ausrichtung des Sektors und der gewünschten Genauigkeit der Signatur ab. Beispiele für Quantisierungsverfahren werden in der ausführlichen Beschreibung der Ausführungsformen angegeben. Es sei darauf hingewiesen, dass die Gleichheitstransformation (identity transformation) eines Sektors zu einer gültigen Quantisierung führt, und daher ist dies ein wahlweise auszuführender Schritt.
  • Zwei Signaturen können verglichen werden, indem der Abstand zwischen ihrer optimalen Ausrichtung gemessen wird. Im Allgemeinen hängt die Wahl der verwendeten Maßzahl von der Ausrichtung der quantisierten Dichtesektoren in Bezug auf die Zeit-, die Frequenz- und die Energieachse der Energiedichte ab. Beispiele für solche Abstandsmessungen werden in der Beschreibung der beiden Verfahren angegeben. Es wird eine Entscheidungsregel mit einem Trennungswert in Abhängigkeit von der Maßzahl verwendet, um identische von nichtidentischen Aufzeichnungen zu unterscheiden.
  • Im Folgenden werden zwei verschiedene Verfahren ausführlicher beschrieben.
  • 1. Erstes Verfahren
  • Das erste Verfahren, das keinen Teil der Erfindung bildet, beschreibt den speziellen Fall von Dichtesektoren, die senkrecht zur Frequenzachse der Energiedichteverteilung sind, und einer Maßzahl, die zum Ermitteln identischer Aufzeichnungen gewählt wurde. Die Energiedichteverteilung wird aus der Gabor-Transformation (auch als Kurzzeit-Fourier-Transformation (short time Fourier transform) mit einem Gauss'schen Fenster bekannt) des Signals abgeleitet. Das Verfahren vergleicht eine Tonaufzeichnung mit bekannter Identität, die in der folgenden Beschreibung als "Originalaufzeichnung" bezeichnet wird, mit einem Satz von anderen Tonaufzeichnungen, die als "Kandidatenaufzeichnungen" ("candidate recordings") bezeichnet werden. Es ermittelt alle Kandidaten, die Teilfolgen (subsequences) des Originals sind, die durch Anwendung von Ausblendungen oder Schnitten auf den Anfang oder das Ende der Aufzeichnung erzeugt wurden, setzt aber ansonsten voraus, dass die Kandidaten keinen Transformationen unterworfen wurden, wie z.B. einer Frequenzverschiebung (frequency shifting) oder einem Time Warping.
  • 1.1 Vorverarbeitung des Originals
  • Die Originalaufzeichnung wird vorverarbeitet, um die Schnittebenen (slicing planes) für die Energiedichteverteilung auszuwählen, wie in dem in 2 dargestellten Flussdiagramm beschrieben wird. Das Leistungsspektrum (3) des Signals wird berechnet, 100, die dem Maximum des Leistungsspektrums entsprechende Frequenz ausgewählt, 110, und der Satz ähnlicher Elemente des Maximums mit dieser Frequenz initialisiert. Die Energie der nächstprominenten Maxima 120 des Leistungsspektrums wird mit der Energie des Maximums verglichen, 130, und die Frequenzen dieser Maxima werden zum Satz ähnlicher Elemente hinzugefügt, 140, bis das Verhältnis zwischen dem Maximum des Leistungsspektrums und der Energie an der Position eines sekundären Spitzenwerts unter einen Schwellenwert "ihres" fällt. Dem Satz ähnlicher Elemente liegt zugrunde, dass die Reihenfolge der Spitzenwerte und daher die Frequenz des Maximums des Leistungsspektrums für Spitzenwerte mit fast identischen Energiewerten wahrscheinlich durch unterschiedliche Codierungs- oder Komprimierungsalgorithmen verzerrt wird. Der vom ersten Verfahren verwendete Wert von "ihres" ist 1,02. Wie aus 3 zu erkennen ist, besteht der als Beispiel in der Beschreibung des ersten Verfahrens verwendete Satz ähnlicher Elemente der Originalaufzeichnung nur aus der Frequenz 497 Hz. Als Schnittebene(n) für die Energiedichten werden die Elemente aus dem Satz ähnlicher Elemente verwendet, und die während der Vorverarbeitung berechneten Werte werden entweder gespeichert oder an ein Modul weitergeleitet, das die Zeit-Frequenz-Energiedichte berechnet.
  • 1.2. Berechnung der Zeit-Frequenz-Energiedichte
  • Für die Originalaufzeichnung und alle Kandidaten werden die Zeit-Energie-Dichten für alle Elemente des Satzes ähnlicher Elemente des spektralen Maximums berechnet. Im ersten Verfahren beruht eine Zeit-Energie-Dichte S auf der Gabor-Transformation,
    Figure 00150001
    d.h., eine Kurzzeit-Fourier-Transformation mit dem Gauss'schen Fenster
    Figure 00150002
    wird verwendet. Da die Gabor-Transformation für einzelne Frequenzen berechnet werden kann, ist kein expliziter Schnittvorgang notwendig, und nur die Energiedichten für die Frequenzen aus dem Satz ähnlicher Elemente werden berechnet. Ein Segment der Zeit-Frequenz-Energiedichte des linken Kanals der Originalaufzeichnung im Beispiel wird für die Frequenz von 497 Hz und einen Skalierungsparameter von 1000 in 4 gezeigt. Die Sektoren der Zeit-Frequenz-Energiedichte werden gespeichert und an das Quantisierungsmodul weitergeleitet.
  • 1.3 Quantisierung des Zeit-Frequenz-Sektors
  • Ein Zeit-Frequenz- (TF-) Energiedichtesektor wird quantisiert, wie in dem in 5 gezeigten Flussdiagramm beschrieben wird. Nachdem ein TF-Energiesektor gelesen wurde, 200, werden die Leistungswerte auf 1 normiert, 210, indem sie durch das Maximum des Sektors dividiert werden. Aus dem normierten Sektor wird ein Histogramm berechnet, 220, und dieses kumuliert, 230. Die Kategorienbreite (bin-width) für das im ersten Verfahren verwendete Histogramm ist 0,01. Aus dem kumulierten Histogramm wird ein Schnittwert ausgewählt, indem der minimale Index "Perc" ermittelt wird, 240, für den der Wert des kumulierten Histogramms größer als ein konstanter Schnitt ist. Der im ersten Verfahren verwendete konstante Schnitt ist 0,95. Im normierten Sektor werden alle Leistungswerte, die größer als das Produkt aus "Perc" und der Kategorienbreite des Histogramms sind, ausgewählt, 250, und für alle Folgen solcher Werte werden die Anfangszeit, die Endzeit, die Summe der Leistungswerte und die maximale Leistung der Folge ermittelt, 260. Folgen, die durch so gut wie keine Lücken zwischen den Abtastpunkten getrennt sind, werden gemischt, und für die gemischten Folgen werden die Anfangszeit, die Endzeit, die mittlere Zeit, die mittlere Leistung und die maximale Leistung berechnet. Der Satz dieser Daten bildet die Signatur einer Tonaufzeichnung für die Frequenz der Schnittebene und wird in einer Datenbank gespeichert, 270.
  • 1.4. Vergleich von quantisierten Zeit-Frequenz-Sektoren
  • Die erste Ausführungsform verwendet den Hausdorff-Abstand zum Vergleichen zweier Signaturen. Für zwei endliche Punktsätze A und B wird der Hausdorff-Abstand definiert als
    H (A, B) = max (h (A, B), h (B, A))
    mit
    Figure 00170001
  • Die im ersten Verfahren verwendete Norm ist die Norm L1.
  • Um die Ähnlichkeit zwischen einer Originalsignatur und einer Testsignatur festzustellen, wird bei dem ersten Verfahren die Hausdorff-Abstände zwischen der Originalsignatur und einem Satz von zeitversetzten Kopien der Testsignatur berechnet, wobei der Abstand der besten Ausrichtung zwischen Original- und Testsignatur ermittelt wird. Fachleute werden erkennen, dass das in 10 gezeigte Flussdiagramm für diese Prozedur lediglich das Funktionsprinzip beschreibt und dass zahlreiche Verfahren für Realisierungen vorgeschlagen wurden, die weniger Vorgänge zur Berechnung der Ausrichtung zwischen einem Punktsatz und einem umgewandelten Punktsatz benötigen (siehe beispielsweise D. Huttenlocher et al., Comparing images using the Hausdorff distance, IEEE PAMI, 15, 850 bis 863, 1993). Die verwendete Abstandsmessung beruht auf der Annahme, dass die Original- und die Testaufzeichnung bis auf geringfügige Ein- und Ausblendungen identisch sind. Um eine schwerwiegendere Bearbeitung zu erkennen, müssen andere Maßzahlen und/oder andere Verschiebungsvektoren (shift vectors) verwendet werden.
  • Mit Bezugnahme auf 10 liest das Vergleichsmodul nun in einem ersten Schritt 300 die Signaturen aus der Original- und der Testaufzeichnung. Ein Verschiebungsvektor wird berechnet, 310, der vom ersten Verfahren geprüfte Bereich der Verschiebungen ist [–2*d, 2*d], wobei d der Hausdorff-Abstand zwischen der Original- und der nichtverschobenen Testaufzeichnung ist. Der Verschiebungsvektor ist der lineare Raum für dieses Intervall mit einer Schrittweite von 10 ms. Für jede Verschiebung wird der Hausdorff-Abstand zwischen der Originalsignatur und der verschobenen Testsignatur berechnet, 320, und im Abstandsvektor "Dist" gespeichert, 340. Der Abstand zwischen Original und Schablone ist das Minimum von "Dist", d.h. der Abstand der optimalen Ausrichtung zwischen Original- und Testsignatur.
  • Ein Fluss für die Berechnung des Hausdorff-Abstands wird in 11 gezeigt. Sowohl aus der Original- als auch aus der Testsignatur wird der "Mitten"-Wert ausgewählt und in einem Vektor gespeichert, 400. Für alle Elemente aus dem Originalvektor M, 410, wird der Abstand zu allen Elementen aus dem Testvektor T berechnet und in einem Abstandsvektor gespeichert, 420. Das maximale Element dieses Abstandsvektors wird auf den Abstand "d1" gesetzt, 430. Im nächsten Schritt wird für alle Elemente aus dem Testvektor T, 440, der Abstand zu allen Elementen aus dem Originalvektor M berechnet und in einem Abstandsvektor gespeichert, 450. Das maximale Element dieses Abstandsvektors wird auf den Abstand "d2" gesetzt, 460. Der Hausdorff-Abstand zwischen der Originalsignatur und der Testsignatur wird auf das Maximum von d1 und d2 gesetzt, 470.
  • Die Entscheidung, ob Original- und Schablonenaufzeichnung gleich sind, beruht auf einem Schwellenwert für den Hausdorff-Abstand. Jedes Mal, wenn der Abstand zwischen Original und Test kleiner als der oder gleich dem Schwellenwert ist, werden beide Aufzeichnungen als gleich betrachtet, andernfalls werden sie als verschieden angesehen. Der im ersten Verfahren verwendete Schwellenwert ist 500.
  • 2. Zweites Verfahren
  • Das zweite Verfahren einer Ausführungsform der Erfindung beschreibt die Anwendung dieser Erfindung im speziellen Fall von Dichtesektoren, die senkrecht zur Leistungsachse der Energiedichteverteilung sind. Die Ausführungsform vergleicht eine oder mehrere Tonaufzeichnungen ("Kandidatenaufzeichnung") mit einer Schablone ("Originalaufzeichnung"), die das zu erkennende Motiv oder die zu erkennende Phrase enthält. Normalerweise ist die Schablone ein Zeitintervall einer Aufzeichnung, die durch ein ähnliches Mittel verarbeitet wird, wie in diesem Verfahren beschrieben wird.
  • Wie im ersten Verfahren ist die verwendete Zeit-Frequenz-Transformation die Gabor-Transformation. Die Zeit-Frequenz-Dichte einer "Kandidatenaufzeichnung" wird unter Verwendung von logarithmisch gestaffelten Frequenzen aus einem geeigneten Intervall berechnet, z.B. aus dem Frequenzbereich eines Klaviers. Diese logarithmische Skala kann auf solche Weise umgesetzt werden, dass die Frequenz des Maximums der Energiedichte einem Wert der Skala entspricht. Die so berechnete Zeit-Frequenz-Energiedichte wird mit einer Ebene geschnitten, die senkrecht zur Energieachse ist. Das Ergebnis eines solchen Schnittvorgangs ist ein Satz von Ellipsen, wie sie in 13 gezeigt werden. Diese Ellipsen sind durch ein Triplett gekennzeichnet, das aus den Zeit- und Frequenzkoordinaten des Schnittpunktes der Hauptachse der Ellipsen und der maximalen oder integralen Energie der von der Ellipse eingeschlossenen Dichte besteht. Standardverfahren, wie sie in der ersten Ausführungsform beschrieben werden, können zum Auffinden jener Segmente in den Punktmustern der Kandidatenaufzeichnungen verwendet werden, die ähnlich oder identisch mit jenen in der Schablone sind. Eine Schablone wie die in 14 gezeigte vergleicht die beiden Segmente mit gefüllten Ellipsen in 15. Die dritte Koordinate des Tripletts kann als Gewichtungsfaktor (weighting factor) verwendet werden, um die Spezifität der Ausrichtung zu erhöhen, d.h., indem Übereinstimmungen zurückgewiesen werden, wenn die Sätze ähnlicher Elemente der Energien von ausgerichteten Ellipsen verschieden sind.
  • Es sei darauf hingewiesen, dass Grate (ridges) (R. Carmon et al., Practical Time-Frequency Analysis, Academic Press New York 1998) als Alternative zu sich aus Schnittvorgängen ergebenden Ellipsen verwendet werden können.

Claims (13)

  1. Computerunterstütztes Verfahren zur Feststellung von Gleichheit oder Ähnlichkeit zwischen einem ersten Tonsegment eines ersten Audiostroms und mindestens einem zweiten Tonsegment eines mindestens zweiten Audiostroms, wobei das Verfahren die folgenden Schritte umfasst: Digitalisieren des mindestens ersten Tonsegments und des mindestens zweiten Tonsegments der Audioströme; Berechnen der Zeit-Frequenz-Energiedichte des ersten Tonsegments und des mindestens zweiten Tonsegments; Berechnen einer charakteristischen Signatur in Form von mindestens eines Zeit-Frequenz-Energiedichtesektors für das erste Tonsegment und das mindestens zweite Tonsegment, indem die Zeit-Frequenz-Energiedichte mit einer Ebene geschnitten wird; Ausrichten der mindestens zwei charakteristischen Signaturen; Vergleichen der mindestens zwei ausgerichteten charakteristischen Signaturen und Berechnen eines Abstands zwischen den ausgerichteten charakteristischen Signaturen; und Feststellen von Gleichheit oder Ähnlichkeit zwischen den mindestens zwei Tonsegmenten auf der Grundlage des ermittelten Abstands.
  2. Verfahren nach Anspruch 1, wobei der Zeit-Frequenz-Energiedichtesektor berechnet wird, indem die Zeit-Frequenz-Energiedichte mit einer Ebene geschnitten wird, die senkrecht zur Zeitachse oder zur Frequenzachse oder zur Energieachse ist.
  3. Verfahren nach einem der Ansprüche 1 oder 2, wobei der Zeit-Frequenz-Energiedichtesektor quantisiert wird.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Zeit-Frequenz-Energiedichte auf einer Gabor-Transformation beruht, die für einzelne Frequenzen berechnet wird.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Hausdorff-Abstand berechnet wird, um die mindestens zwei charakteristischen Signaturen zu vergleichen.
  6. Verfahren nach Anspruch 5, wobei ein Schwellenwert für den Hausdorff-Abstand verwendet wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Entscheidungsregel mit einem Trennungswert zur Feststellung von Gleichheit oder Ähnlichkeit verwendet wird.
  8. System zur Feststellung von Gleichheit oder Ähnlichkeit zwischen einem ersten Tonsegment eines ersten Audiostroms und mindestens einem zweiten Tonsegment eines mindestens zweiten Audiostroms, wobei das System Folgendes umfasst: ein Mittel zum Digitalisieren des mindestens ersten Tonsegments und des mindestens zweiten Tonsegments der Audioströme; ein Mittel zum Berechnen der Zeit-Frequenz-Energiedichte des ersten Tonsegments und des mindestens zweiten Tonsegments; ein erstes Verarbeitungsmittel zum Berechnen einer charakteristischen Signatur in Form von mindestens eines Zeit-Frequenz-Energiedichtesektors für das erste Tonsegment und das mindestens zweite Tonsegment, indem die Zeit-Frequenz-Energiedichte mit einer Ebene geschnitten wird; ein zweites Verarbeitungsmittel zum Ausrichten der mindestens zwei charakteristischen Signaturen; ein drittes Verarbeitungsmittel zum Vergleichen der mindestens zwei ausgerichteten charakteristischen Signaturen und zum Berechnen eines Abstands zwischen den ausgerichteten charakteristischen Signaturen; und ein viertes Verarbeitungsmittel zum Feststellen von Gleichheit oder Ähnlichkeit zwischen den mindestens zwei Tonsegmenten auf der Grundlage des ermittelten Abstands.
  9. System nach Anspruch 8, das außerdem ein Mittel zum Berechnen des Zeit-Frequenz-Energiedichtesektors umfasst, indem die Zeit-Frequenz-Energiedichte mit einer Ebene geschnitten wird, die senkrecht zur Zeitachse oder zur Frequenzachse oder zur Energieachse ist.
  10. System nach Anspruch 8 oder 9, das außerdem ein Verarbeitungsmittel zur Quantisierung des Zeit-Frequenz-Energiedichtesektors umfasst.
  11. System nach einem der Ansprüche 8 bis 10, das außerdem ein Mittel zum Berechnen einer Gabor-Transformation für einzelne Frequenzen umfasst.
  12. System nach einem der Ansprüche 8 bis 11, das außerdem ein Verarbeitungsmittel zum Berechnen des Hausdorff-Abstands zum Vergleichen der mindestens zwei charakteristischen Signaturen umfasst.
  13. System nach einem der Ansprüche 8 bis 12, das ein Verarbeitungsmittel zum Anwenden einer Entscheidungsregel mit einem Trennungswert zum Feststellen von Gleichheit oder Ähnlichkeit umfasst.
DE60215495T 2001-03-14 2002-02-19 Verfahren und system zur automatischen erkennung ähnlicher oder identischer segmente in audioaufzeichnungen Expired - Lifetime DE60215495T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01106232 2001-03-14
EP01106232 2001-03-14
PCT/EP2002/001719 WO2002073593A1 (en) 2001-03-14 2002-02-19 A method and system for the automatic detection of similar or identical segments in audio recordings

Publications (2)

Publication Number Publication Date
DE60215495D1 DE60215495D1 (de) 2006-11-30
DE60215495T2 true DE60215495T2 (de) 2007-05-24

Family

ID=8176771

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60215495T Expired - Lifetime DE60215495T2 (de) 2001-03-14 2002-02-19 Verfahren und system zur automatischen erkennung ähnlicher oder identischer segmente in audioaufzeichnungen

Country Status (6)

Country Link
US (1) US20040093202A1 (de)
EP (1) EP1393299B1 (de)
AT (1) ATE343195T1 (de)
DE (1) DE60215495T2 (de)
TW (1) TW582022B (de)
WO (1) WO2002073593A1 (de)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644282B2 (en) 1998-05-28 2010-01-05 Verance Corporation Pre-processed information embedding system
US6737957B1 (en) 2000-02-16 2004-05-18 Verance Corporation Remote control signaling using audio watermarks
CA2480509C (en) * 2002-03-28 2011-06-07 Martin Dunsmuir Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
EP2782337A3 (de) 2002-10-15 2014-11-26 Verance Corporation Media-Überwchung, Verwaltung und Informationssystem
CN1742492B (zh) 2003-02-14 2011-07-20 汤姆森特许公司 媒体内容的基于音频和视频的媒体服务的自动同步
US20060239501A1 (en) 2005-04-26 2006-10-26 Verance Corporation Security enhancements of digital watermarks for multi-media content
WO2005041109A2 (en) 2003-10-17 2005-05-06 Nielsen Media Research, Inc. Methods and apparatus for identifiying audio/video content using temporal signal characteristics
US8150683B2 (en) * 2003-11-04 2012-04-03 Stmicroelectronics Asia Pacific Pte., Ltd. Apparatus, method, and computer program for comparing audio signals
US8229751B2 (en) 2004-02-26 2012-07-24 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals
EP1774348B1 (de) * 2004-06-24 2018-08-08 Shazam Investments Limited Verfahren zur charakterisierung der überlappung zweier mediensegmente
DE602005018776D1 (de) 2004-07-01 2010-02-25 Nippon Telegraph & Telephone System für detektionssektion mit einem bestimmten akustischen signal, verfahren und programm dafür
US8020004B2 (en) 2005-07-01 2011-09-13 Verance Corporation Forensic marking using a common customization function
US8781967B2 (en) 2005-07-07 2014-07-15 Verance Corporation Watermarking in an encrypted domain
WO2007130312A2 (en) * 2006-04-29 2007-11-15 724 Solutions Software Inc. Channel selection/translation based on user-preference
US8327024B2 (en) * 2006-04-29 2012-12-04 724 Solutions Software, Inc. System and method for SMS/IP interoperability
US7805532B2 (en) * 2006-04-29 2010-09-28 724 Software Solutions, Inc. Platform for interoperability
US7912894B2 (en) * 2007-05-15 2011-03-22 Adams Phillip M Computerized, copy-detection and discrimination apparatus and method
US8849432B2 (en) * 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
US8185815B1 (en) * 2007-06-29 2012-05-22 Ambrosia Software, Inc. Live preview
US8259938B2 (en) * 2008-06-24 2012-09-04 Verance Corporation Efficient and secure forensic marking in compressed
WO2010085189A1 (en) * 2009-01-26 2010-07-29 Telefonaktiebolaget L M Ericsson (Publ) Aligning scheme for audio signals
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US8855101B2 (en) 2010-03-09 2014-10-07 The Nielsen Company (Us), Llc Methods, systems, and apparatus to synchronize actions of audio source monitors
US8838977B2 (en) 2010-09-16 2014-09-16 Verance Corporation Watermark extraction and content screening in a networked environment
CN102956238B (zh) 2011-08-19 2016-02-10 杜比实验室特许公司 用于在音频帧序列中检测重复模式的方法及设备
US8923548B2 (en) 2011-11-03 2014-12-30 Verance Corporation Extraction of embedded watermarks from a host content using a plurality of tentative watermarks
US9323902B2 (en) 2011-12-13 2016-04-26 Verance Corporation Conditional access using embedded watermarks
US9571606B2 (en) 2012-08-31 2017-02-14 Verance Corporation Social media viewing system
US9106964B2 (en) 2012-09-13 2015-08-11 Verance Corporation Enhanced content distribution using advertisements
US8869222B2 (en) 2012-09-13 2014-10-21 Verance Corporation Second screen content
US9262793B2 (en) 2013-03-14 2016-02-16 Verance Corporation Transactional video marking system
US9251549B2 (en) 2013-07-23 2016-02-02 Verance Corporation Watermark extractor enhancements based on payload ranking
US10585941B2 (en) * 2013-07-30 2020-03-10 Ace Metrix, Inc. Audio object search and analysis system
US9208334B2 (en) 2013-10-25 2015-12-08 Verance Corporation Content management using multiple abstraction layers
WO2015138798A1 (en) 2014-03-13 2015-09-17 Verance Corporation Interactive content acquisition using embedded codes
US9641892B2 (en) 2014-07-15 2017-05-02 The Nielsen Company (Us), Llc Frequency band selection and processing techniques for media source detection
US11094335B1 (en) * 2016-07-22 2021-08-17 Educational Testing Service Systems and methods for automatic detection of plagiarized spoken responses
CN108447501B (zh) * 2018-03-27 2020-08-18 中南大学 一种云存储环境下基于音频字的盗版视频检测方法与系统
WO2020055141A1 (en) 2018-09-12 2020-03-19 Samsung Electronics Co., Ltd. Method and device for detecting duplicate content
US11437038B2 (en) 2020-12-11 2022-09-06 International Business Machines Corporation Recognition and restructuring of previously presented materials
US11295583B1 (en) 2021-05-04 2022-04-05 Bank Of America Corporation Quantum computing-based video alert system
CN114359590A (zh) * 2021-12-06 2022-04-15 支付宝(杭州)信息技术有限公司 Nft图像作品侵权检测方法、装置、及计算机存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
US5754704A (en) * 1995-03-10 1998-05-19 Interated Systems, Inc. Method and apparatus for compressing and decompressing three-dimensional digital data using fractal transform
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
GR1003625B (el) * 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
CA2310769C (en) * 1999-10-27 2013-05-28 Nielsen Media Research, Inc. Audio signature extraction and correlation
US6332116B1 (en) * 2000-04-19 2001-12-18 National Instruments Corporation System and method for analyzing signals of rotating machines
US7031980B2 (en) * 2000-11-02 2006-04-18 Hewlett-Packard Development Company, L.P. Music similarity function based on signal analysis

Also Published As

Publication number Publication date
US20040093202A1 (en) 2004-05-13
DE60215495D1 (de) 2006-11-30
EP1393299B1 (de) 2006-10-18
EP1393299A1 (de) 2004-03-03
TW582022B (en) 2004-04-01
ATE343195T1 (de) 2006-11-15
WO2002073593A1 (en) 2002-09-19

Similar Documents

Publication Publication Date Title
DE60215495T2 (de) Verfahren und system zur automatischen erkennung ähnlicher oder identischer segmente in audioaufzeichnungen
DE10134471C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
EP1368805B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE60204039T2 (de) Vorrichtung zur kodierung und dekodierung von audiosignalen
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
DE102004036154B3 (de) Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
DE69907498T2 (de) Verfahren zur schnellen erfassung der tonhöhe
DE10117870B4 (de) Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer Datenbank
EP1523719A2 (de) Vorrichtung und verfahren zum charakterisieren eines informationssignals
DE60216085T2 (de) Erzeugung und detektion eines gegen wiederabtastung robusten wasserzeichens
DE10030404A1 (de) Verfahren zur Identifikation von einem Fingerabdruck und Vorrichtung zur Identifikation von einem Fingerabdruck
WO2005122136A1 (de) Vorrichtung und verfahren zum bestimmen eines akkordtyps, der einem testsignal zugrunde liegt
DE112019005226T5 (de) Datenverarabeitungsverfahren, Datenverarbeitungsvorrichtung und Datenverarbeitungsprogramm
DE10157454B4 (de) Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments
DE69813912T2 (de) Digitaler audiokodierer mit verschiedenen genauigkeiten
Rosenzweig et al. Detecting Stable Regions in Frequency Trajectories for Tonal Analysis of Traditional Georgian Vocal Music.
DE10117871C1 (de) Verfahren und Vorrichtung zum Extrahieren einer Signalkennung, Verfahren und Vorrichtung zum Erzeugen einer Datenbank aus Signalkennungen und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
EP1671315B1 (de) Vorrichtung und verfahren zum charakterisieren eines tonsignals
DE112020002116T5 (de) Informationsverarbeitungsvorrichtung und Verfahren und Programm
EP1743324B1 (de) Vorrichtung und verfahren zum analysieren eines informationssignals
Sankaran Analysis of audio fingerprinting techniques
DE102006014507A1 (de) Verfahren und Vorrichtung zur Klassifikation und Beurteilung von Musikinstrumenten
MX2008004572A (en) Neural network classifier for seperating audio sources from a monophonic audio signal

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)