DE60215495T2

DE60215495T2 - Verfahren und system zur automatischen erkennung ähnlicher oder identischer segmente in audioaufzeichnungen

Info

Publication number: DE60215495T2
Application number: DE60215495T
Authority: DE
Inventors: Uwe Fischer; Stefan Hoffmann; Werner Kriechbaum; Gerhard Stenzel
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-03-14
Filing date: 2002-02-19
Publication date: 2007-05-24
Anticipated expiration: 2022-02-20
Also published as: US20040093202A1; DE60215495D1; EP1393299B1; EP1393299A1; TW582022B; ATE343195T1; WO2002073593A1

Description

Gebiet der Erfindung
Die Erfindung betrifft im Allgemeinen das Gebiet der digitalen Tonverarbeitung und insbesondere ein Verfahren und ein System zur computerunterstützten Kennzeichnung ähnlicher oder identischer Segmente in mindestens zwei verschiedenen Audioströmen.
Grundlagen der Erfindung
In den letzten Jahren wurde eine immer größere Menge von Audiodaten aufgezeichnet, verarbeitet, verteilt und auf digitalen Medien archiviert, wobei zahlreiche Codierungs- und Komprimierungsformate verwendet wurden wie beispielsweise WAVE, AIFF, MPEG, RealAudio usw. Formatumwandlungs- oder Resampling-Verfahren (transcoding or resampling techniques), die zum Umschalten von einem Codierungsformat in ein anderes verwendet werden, erzeugen so gut wie nie eine Aufzeichnung, die mit einer direkten Aufzeichnung im Zielformat identisch ist. Ein ähnlicher Effekt findet bei den meisten Komprimierungsschemas statt, wo Änderungen am Komprimierungsfaktor oder anderen Parametern zu einer neuen Codierung und einem Bitstrom führen, der wenig Ähnlichkeit mit dem ursprünglichen Bitstrom hat. Beide Effekte machen es ziemlich schwierig, die Gleichheit einer Tonaufzeichnung und einer anderen Tonaufzeichnung festzustellen, d.h. die Gleichheit der beiden ursprünglich erzeugten Tonaufzeichnungen, wenn die beiden Aufzeichnungen in zwei verschiedenen Formaten gespeichert werden. Die Festlegung einer möglichen Gleichheit von verschiedenen Tonaufzeichnungen ist daher bei der Audioproduktion, -archivierung und beim Schutz des Urheberrechts dringend erforderlich.
Während der Herstellung einer digitalen Tonaufzeichnung entstehen im Laufe von Verarbeitungszwischenschritten normalerweise zahlreiche verschiedene Versionen in verschiedenen Codierungsformaten und werden über eine Vielfalt verschiedener Computersysteme verteilt. In den meisten Fällen gibt es weder einen Querverweis auf diese Aufzeichnungen noch werden sie in einer Datenbank protokolliert, und oftmals muss durch Anhören der Aufzeichnungen festgestellt werden, ob zwei Versionen identisch sind. Eine automatische Prozedur würde diese Aufgabe folglich erheblich erleichtern.
Ein ähnliches Problem besteht in Tonarchiven, die sich mit Material befassen, das in einer Vielfalt von Musiktitel-Zusammenstellungen (compilations) (wie z.B. Jazz oder Popsongs) oder auf einer Vielfalt von Datenträgern (wie z.B. die berühmten Aufzeichnungen von Toscanini mit dem NBC Symphonieorchester) ausgegeben wurden. Oftmals wird die Archivnummer des ursprünglichen Originals (master) einer solchen Aufzeichnung nicht dokumentiert, und in den meisten Fällen kann nur durch Anhören der Tonaufzeichnungen entschieden werden, ob eine Spur aus einer Musiktitel-Zusammenstellung mit einer Aufzeichnung desselben Stücks auf einem anderen Tonträger identisch ist.
Außerdem ist der Schutz des Urheberrechts ein Schlüsselproblem für die Audioindustrie und gewinnt mit der Erfindung einer neuen Technologie, die die Erzeugung und Vermarktung von Kopien von Tonaufzeichnungen zu einer einfachen Aufgabe macht, sogar zunehmend an Bedeutung. Obwohl Mechanismen zur Verhinderung unberechtigter Kopien eine Seite des Problems lösen, ist es außerdem erforderlich, Prozesse einzurichten, um unberechtigte Kopien von ungeschütztem Vorläufermaterial (legacy material) zu erkennen. Beispielsweise ist das Überspielen (ripping) einer CD und das Verteilen des Inhaltes der einzelnen Spuren in komprimiertem Format an unberechtigte Benutzer heutzutage der häufigste Verstoß gegen das Urheberrecht. Es gibt noch andere Verletzungen des Urheberrechts, die durch die Suche nach identischen Tonaufzeichnungen nicht erkannt werden können. Ein Beispiel ist die Erzeugung eines "neuen" Stückes durch Ausschneiden von Segmenten aus bestehenden Aufzeichnungen und Zusammensetzen derselben. Um eine solche Wiederverwendung aufzudecken, muss ein Verfahren nicht ähnliche Aufzeichnungen, sondern ähnliche Segmente von Aufzeichnungen erkennen können, ohne die Segmentgrenzen im Voraus zu kennen.
Eine weitere Form einer möglicherweise unberechtigten Wiederverwendung ist das Übernehmen einer charakteristischen Stimme aus einer Tonaufzeichnung, entweder unverändert oder z.B. bezüglich der Frequenz neu bearbeitet. Das Auffinden solcher bearbeiteter Teile ist nicht nur für die Erkennung möglicher Verletzungen des Urheberrechts von Bedeutung, sondern auch ein wertvolles Hilfsmittel für die musikalische Analyse von historischem und traditionellem Material.
Stand der Technik
Die meisten der gegenwärtig verfügbaren, verbreiteten Verfahren zum Identifizieren von Tonaufzeichnungen beruhen auf Wasserzeichen (water-marking) (eine aktuelle Übersicht über Verfahren nach dem Stand der Technik finden Sie in S. Katzenbeisser und F. Petitcolas (Hrsg.), Information Hiding: Techniques for steganography and digital water-marking, Boston 2000): Sie versuchen, die Tonaufzeichnung durch Einfügen von unhörbaren Daten zu verändern, die widerstandsfähig gegen Formatumwandlung sind und daher nicht auf bereits auf dem Markt erhältliches Material angewandt werden können. Außerdem werden viele der heutigen Audioproduktionen aus einer Menge von Aufzeichnungen einzelner Spuren oder Stimmen zusammengesetzt, die oftmals mit einer höheren Zeit- und Frequenzauflösung als die endgültige Aufzeichnung erzeugt werden. Die Verwendung von Wasserzeichen zum Identifizieren dieser Zwischendaten erfordert Wasserzeichen, die kein hörbares Artefakt durch Störungen erzeugen, wenn die Spuren für den endgültigen Audiostrom gemischt werden. Daher dürfte es wünschenswerter sein, solches Material durch charakteristische Merkmale und nicht durch Wasserzeichen zu identifizieren.
Ein Verfahren ohne Eingriff in die Aufzeichnung zur Kennzeichnung von identischen Tonaufzeichnungen verwendet globale Merkmale des Leistungsspektrums als Signatur für die Tonaufzeichnung. Hierbei wird auf EP-A-1113432 Bezug genommen. Wie alle globalen frequenzbasierten Verfahren kann dieses Verfahren nicht zwischen abgewandelten Aufzeichnungen desselben Materials unterscheiden, d.h., eine aufsteigend gespielte Tonleiter führt zu derselben Signatur wie die gleiche, absteigend gespielte Tonleiter. Eine weitere Begrenzung von diesem und ähnlichen globalen Verfahren ist ihre Empfindlichkeit gegenüber lokalen Änderungen der Tondaten, wie Ein- oder Ausblendungen.
US-A-5 918 223 beschreibt ein Verfahren zur inhaltsbasierten Analyse, Speicherung, zum Abruf und zur Segmentierung von Tondaten unter Verwendung von Merkmalvektoren, die aus statistischen Messungen des Audiosignals und seines Leistungsspektrums erzeugt werden.
WO01/04870 beschreibt ein Verfahren zur automatischen Erkennung von musikalischen Kompositionen und Klangsignalen durch Entnehmen von Merkmalen in der Frequenzdomäne des Audiosignals.
Paul D. et al (Dokument XP-002200570) beschreiben die Verwendung von Gabor-Transformationen (Gabor transforms) für eine verknüpfte Zeit-Frequenz-Analyse. Dong-Gyu Sim et al. (Dokument XP 010368634) beschreiben die Anwendung des Hausdorff-Abstands (Hausdorff distance) in einem Signalvergleichsalgorithmus (signal matching algorithm).
Zusammenfassung der Erfindung
Eine Aufgabe der vorliegenden Erfindung ist daher die Bereitstellung eines Verfahrens und Systems zur verbesserten Erkennung von identischen oder ähnlichen Tonaufzeichnungen oder von Segmenten von Tonaufzeichnungen.
Eine andere Aufgabe ist die Bereitstellung eines solchen Verfahrens und Systems, die die Erkennung nicht von ähnlichen Aufzeichnungen, sondern von ähnlichen Segmenten von Aufzeichnungen ermöglichen, ohne die Segmentgrenzen im voraus zu kennen.
Eine andere Aufgabe ist die Bereitstellung eines solchen Verfahrens und Systems, die eine automatisierte Erkennung identischer Kopien von Tonaufzeichnungen oder Segmenten von Tonaufzeichnungen ermöglichen.
Eine andere Aufgabe ist das Ermöglichen einer widerstandsfähigen Kennzeichnung von Tonmaterial auch bei vorhandenen lokalen Änderungen und Verzerrungen.
Noch eine andere Aufgabe ist das Ermöglichen der Festlegung von Ähnlichkeit oder Gleichheit eines in zwei verschiedenen Formaten, insbesondere in zwei verschiedenen Komprimierungsformaten, gespeicherten Audiostroms.
Die obigen Aufgaben werden durch die Merkmale der unabhängigen Ansprüche erfüllt. Vorteilhafte Ausführungsformen werden in den Unteransprüchen dargelegt.
Das der Erfindung zugrundeliegende Konzept ist die Bereitstellung eines Kennzeichnungsmechanismus auf der Grundlage einer Zeit-Frequenz-Analyse (time-frequency analysis) des Tonmaterials. Der Kennzeichnungsmechanismus berechnet eine charakteristische Signatur aus einer Tonaufzeichnung und verwendet diese Signatur zum Berechnen eines Abstandes zwischen verschiedenen Tonaufzeichnungen und damit zum Auswählen identischer Aufzeichnungen. Die Erfindung ermöglicht die automatisierte Erkennung identischer Kopien von Tonaufzeichnungen. Diese Technologie kann zum Einrichten automatisierter Prozesse zum Auffinden von möglichen unberechtigten Kopien verwendet werden und ermöglicht daher eine bessere Geltendmachung von Urheberrechten in der Audioindustrie.
Es wird hervorgehoben, dass der vorgeschlagene Mechanismus den Stand der Technik durch die Verwendung lokaler anstelle globaler Merkmale verbessert.
Insbesondere ermöglicht die Erfindung die Erkennung von Gleichheit oder Ähnlichkeit von Audioströmen oder -segmenten davon selbst dann, wenn sie in verschiedenen Formaten bereitgestellt werden und/oder auf verschiedenen physischen Datenträgern gespeichert werden. Dabei ermöglicht sie die Feststellung, ob ein Audiosegment aus einer Musiktitel-Zusammenstellung (compilation) mit einer Aufzeichnung des gleichen Audiosegmentes auf einem anderen Tonträger identisch ist.
Außerdem kann das Verfahren gemäß der Erfindung automatisch und möglicherweise sogar transparent für einen oder mehrere Benutzer ausgeführt werden.
Aus den oben genannten Gründen ermöglicht der vorgeschlagene Mechanismus eine automatisierte Erkennung identischer Kopien von Tonaufzeichnungen. Diese Technologie kann zum Einrichten automatisierter Prozesse zum Auffinden möglicher unberechtigter Kopien verwendet werden und ermöglicht daher eine bessere Geltendmachung von Urheberrechten in der Audioindustrie.
Kurze Beschreibung der Zeichnungen
Im Folgenden wird die vorliegende Erfindung mit Hilfe von Ausführungsformen, aus denen weitere Merkmale und Vorteile der Erfindung hervorgehen, ausführlicher beschrieben, wobei
1 eine schematische Darstellung ist, die die Berechnung einer Audiosignatur gemäß der Erfindung zeigt, wobei die Blöcke 20 und 50 zusätzliche Komponenten darstellen;
2 ein Flussdiagramm ist, das die Schritte der Vorverarbeitung einer Originalaufzeichnung gemäß der Erfindung zeigt;
3 ein typisches Leistungsspektrum einer Aufzeichnung des Präludiums XIV von J.S. Bachs Wohltemperiertes Klavier ist, wobei ein Satz ähnlicher Elemente (confusion set) für die maximale Leistung ein Element enthält, wohingegen ein Satz ähnlicher Elemente für den zweithöchsten Spitzenwert zwei Elemente enthält;
4 ein Segment eines Gabor-Energiedichtesektors (Gabor Energy Densitiy Slice) für eine Frequenz von 497 Hz und einer Skalierung 1000 ist, der für das in 3 dargestellte Musikstück berechnet wurde;
5 ein Flussdiagramm ist, das die Schritte für die Quantisierung eines Zeit-Frequenz-Energiedichtesektors gemäß der Erfindung zeigt;
6 eine Histogrammdarstellung des Gabor-Energiedichtesektors für das in 4 gezeigte Segment mit der Frequenz 497 Hz und der Skalierung 1000 ist;
7 eine kumulierte Histogrammdarstellung des Gabor-Energiedichtesektors für das in 4 gezeigte Segment mit der Frequenz 497 Hz und der Skalierung 1000 ist;
8 unbearbeitete Daten einer 497-Hz-Signatur zeigt, die für das Beispiel von 4 berechnet wurde, mit unvermischten Folgen (unmerged runs) für die Originalprobe (sample master), wobei Anfang und Ende in Abtasteinheiten (sample units) dargestellt werden;
9 gemischte Daten zeigt, die aus 8 für die 497-Hz-Signatur abgeleitet werden, jedoch für eine Originalprobe;
10 ein Flussdiagramm ist, das die Berechnung des Abstandes zwischen zwei Audiosignaturen gemäß der Erfindung darstellt;
11 ein anderes Flussdiagramm ist, das die Berechnung eines Hausdorff-Abstandes gemäß der Erfindung darstellt;
12 eine Grafik des Hausdorff-Abstandes zwischen der 497-Hz-Signatur des WAVE-Originals und einer komprimierten MPEG3-Version mit 8 kBit/s derselben Aufzeichnung als Funktion der Verschiebung zwischen der Original- und der Testsignatur ist;
13 einen Satz von Ellipsen als ein typisches Ergebnis eines Schnittvorgangs (slicing operation) gemäß der Erfindung zeigt;
14 beispielhafte Schablonen (templates) zeigt, die zum Auffinden jener Segmente in Punktmustern von Kandidatenaufzeichnungen verwendet werden, die ähnlich oder identisch mit jenen in der Schablone sind; und
15 einen anderen Satz von Ellipsen zeigt, für die eine Schablone wie die in 14 gezeigte mit den beiden Segmenten mit den hierin gezeigten ausgefüllten Ellipsen übereinstimmt.
Ausführliche Beschreibung der Ausführungsformen
Mit Bezugnahme auf 1 muss analoges Material vor der Berechnung der Audiosignatur 60 durch ein geeignetes Mittel digitalisiert werden.
Die im Folgenden beschriebene Audiosignatur wird aus einer Tonaufzeichnung 10 berechnet, indem die folgenden Schritte auf das digitale Audiosignal angewandt werden:
Vorverarbeitungsfilter (preprocessing filter)
In Abhängigkeit vom Typ des Materials und vom Typ der gewünschten Ähnlichkeit können die Tondaten durch ein zusätzliches Filter vorverarbeitet werden, 20. Beispiele für solche Filter sind die Entfernung von Bandrauschen (tage noise) aus analogen Aufzeichnungen, psycho-physische Filter zum Modellieren der Verarbeitung durch das Ohr und das Hörzentrum eines menschlichen Beobachters oder eine Vordergrund-/Hintergrundtrennung zum Auskoppeln (single out) von Soloinstrumenten. Fachleute werden erkennen, dass einige der möglichen Vorverarbeitungsfilter besser so realisiert werden, dass sie auf die Zeit-Frequenz-Dichte (time-frequency density) statt auf das digitale Audiosignal einwirken.
Zeit-Frequenz-Energiedichte
Schätzen, 30, der Zeit-Frequenz-Energiedichte der Tonaufzeichnung. Die Zeit-Frequenz-Energiedichte p_x(t, v) eines Signals x ist definiert durch
d.h. durch das Merkmal, dass das Integral der Dichte über der Zeit t und der Frequenz v gleich dem Energiegehalt des Signals ist. Es gibt eine Vielfalt von Verfahren zum Schätzen der Zeit-Energiedichte, die bekanntesten sind das Leistungsspektrum, abgeleitet von einer gefensterten Fourier-Transformation, und die Wigner-Ville-Verteilung (Wigner-Ville distribution).
Dichtesektor
Eine oder mehrere Dichtesektoren werden ermittelt, 40, indem der Schnittpunkt der Energiedichte mit einer Ebene berechnet wird. während jede Ausrichtung der Dichteebene in Bezug auf die Zeit-, die Frequenz- und die Energieachsen der Energiedichte einen gültigen Dichtesektor erzeugt und zum Ermitteln einer Signatur verwendet werden kann, werden einige Ausrichtungen bevorzugt, und nicht alle Ausrichtungen liefern Daten, die für die Identifizierung einer Aufzeichnung brauchbar sind: Jede Schnittebene, die senkrecht zur Zeitachse ist, enthält nur die Energiedichte der Aufzeichnung zu einem spezifischen Zeitpunkt. Da die gleichwertige Zeit in einer Aufzeichnung, die durch Ausschneiden eines Stücks der Aufzeichnung bearbeitet wurde, kaum zu ermitteln ist, sind solche Sektoren normalerweise nicht gut geeignet, um die Gleichheit von zwei Aufzeichnungen festzustellen. Eine Schnittebene, die senkrecht zur Energieachse ist, erzeugt eine Annäherung der Zeit-Frequenz-Entwicklung der Aufzeichnung, und eine Schnittebene, die senkrecht zur Frequenzachse ist, stellt die Entwicklung einer spezifischen Frequenz über der Zeit dar. Für viele Annäherungen der Zeit-Frequenz-Energiedichte können Dichtesektoren, die senkrecht zur Frequenzachse sind, ohne Bestimmung der vollständigen Energiedichte berechnet werden. Sowohl die Ausrichtung senkrecht zur Energieachse als auch die Ausrichtung senkrecht zur Frequenzachse erfassen genügend Daten, um die Ermittlung identischer Aufzeichnungen zu ermöglichen. Die tatsächliche Wahl der Ausrichtung hängt vom Berechnungsaufwand, den man für eine Ermittlung in Kauf nehmen möchte, und von der gewünschten Robustheit der Signatur gegenüber Verzerrung (distortion resistance) ab.
Quantisierter Dichtesektor (Quantized Densitiy Slice)
Der Dichtesektor wird durch Anwenden einer geeigneten Quantisierung transformiert, 50. Die tatsächliche Wahl des Quantisierungsalgorithmus hängt von der Ausrichtung des Sektors und der gewünschten Genauigkeit der Signatur ab. Beispiele für Quantisierungsverfahren werden in der ausführlichen Beschreibung der Ausführungsformen angegeben. Es sei darauf hingewiesen, dass die Gleichheitstransformation (identity transformation) eines Sektors zu einer gültigen Quantisierung führt, und daher ist dies ein wahlweise auszuführender Schritt.
Zwei Signaturen können verglichen werden, indem der Abstand zwischen ihrer optimalen Ausrichtung gemessen wird. Im Allgemeinen hängt die Wahl der verwendeten Maßzahl von der Ausrichtung der quantisierten Dichtesektoren in Bezug auf die Zeit-, die Frequenz- und die Energieachse der Energiedichte ab. Beispiele für solche Abstandsmessungen werden in der Beschreibung der beiden Verfahren angegeben. Es wird eine Entscheidungsregel mit einem Trennungswert in Abhängigkeit von der Maßzahl verwendet, um identische von nichtidentischen Aufzeichnungen zu unterscheiden.
Im Folgenden werden zwei verschiedene Verfahren ausführlicher beschrieben.
1. Erstes Verfahren
Das erste Verfahren, das keinen Teil der Erfindung bildet, beschreibt den speziellen Fall von Dichtesektoren, die senkrecht zur Frequenzachse der Energiedichteverteilung sind, und einer Maßzahl, die zum Ermitteln identischer Aufzeichnungen gewählt wurde. Die Energiedichteverteilung wird aus der Gabor-Transformation (auch als Kurzzeit-Fourier-Transformation (short time Fourier transform) mit einem Gauss'schen Fenster bekannt) des Signals abgeleitet. Das Verfahren vergleicht eine Tonaufzeichnung mit bekannter Identität, die in der folgenden Beschreibung als "Originalaufzeichnung" bezeichnet wird, mit einem Satz von anderen Tonaufzeichnungen, die als "Kandidatenaufzeichnungen" ("candidate recordings") bezeichnet werden. Es ermittelt alle Kandidaten, die Teilfolgen (subsequences) des Originals sind, die durch Anwendung von Ausblendungen oder Schnitten auf den Anfang oder das Ende der Aufzeichnung erzeugt wurden, setzt aber ansonsten voraus, dass die Kandidaten keinen Transformationen unterworfen wurden, wie z.B. einer Frequenzverschiebung (frequency shifting) oder einem Time Warping.
1.1 Vorverarbeitung des Originals
Die Originalaufzeichnung wird vorverarbeitet, um die Schnittebenen (slicing planes) für die Energiedichteverteilung auszuwählen, wie in dem in 2 dargestellten Flussdiagramm beschrieben wird. Das Leistungsspektrum (3) des Signals wird berechnet, 100, die dem Maximum des Leistungsspektrums entsprechende Frequenz ausgewählt, 110, und der Satz ähnlicher Elemente des Maximums mit dieser Frequenz initialisiert. Die Energie der nächstprominenten Maxima 120 des Leistungsspektrums wird mit der Energie des Maximums verglichen, 130, und die Frequenzen dieser Maxima werden zum Satz ähnlicher Elemente hinzugefügt, 140, bis das Verhältnis zwischen dem Maximum des Leistungsspektrums und der Energie an der Position eines sekundären Spitzenwerts unter einen Schwellenwert "ihres" fällt. Dem Satz ähnlicher Elemente liegt zugrunde, dass die Reihenfolge der Spitzenwerte und daher die Frequenz des Maximums des Leistungsspektrums für Spitzenwerte mit fast identischen Energiewerten wahrscheinlich durch unterschiedliche Codierungs- oder Komprimierungsalgorithmen verzerrt wird. Der vom ersten Verfahren verwendete Wert von "ihres" ist 1,02. Wie aus 3 zu erkennen ist, besteht der als Beispiel in der Beschreibung des ersten Verfahrens verwendete Satz ähnlicher Elemente der Originalaufzeichnung nur aus der Frequenz 497 Hz. Als Schnittebene(n) für die Energiedichten werden die Elemente aus dem Satz ähnlicher Elemente verwendet, und die während der Vorverarbeitung berechneten Werte werden entweder gespeichert oder an ein Modul weitergeleitet, das die Zeit-Frequenz-Energiedichte berechnet.
1.2. Berechnung der Zeit-Frequenz-Energiedichte
Für die Originalaufzeichnung und alle Kandidaten werden die Zeit-Energie-Dichten für alle Elemente des Satzes ähnlicher Elemente des spektralen Maximums berechnet. Im ersten Verfahren beruht eine Zeit-Energie-Dichte S auf der Gabor-Transformation,
d.h., eine Kurzzeit-Fourier-Transformation mit dem Gauss'schen Fenster
wird verwendet. Da die Gabor-Transformation für einzelne Frequenzen berechnet werden kann, ist kein expliziter Schnittvorgang notwendig, und nur die Energiedichten für die Frequenzen aus dem Satz ähnlicher Elemente werden berechnet. Ein Segment der Zeit-Frequenz-Energiedichte des linken Kanals der Originalaufzeichnung im Beispiel wird für die Frequenz von 497 Hz und einen Skalierungsparameter von 1000 in 4 gezeigt. Die Sektoren der Zeit-Frequenz-Energiedichte werden gespeichert und an das Quantisierungsmodul weitergeleitet.
1.3 Quantisierung des Zeit-Frequenz-Sektors
Ein Zeit-Frequenz- (TF-) Energiedichtesektor wird quantisiert, wie in dem in 5 gezeigten Flussdiagramm beschrieben wird. Nachdem ein TF-Energiesektor gelesen wurde, 200, werden die Leistungswerte auf 1 normiert, 210, indem sie durch das Maximum des Sektors dividiert werden. Aus dem normierten Sektor wird ein Histogramm berechnet, 220, und dieses kumuliert, 230. Die Kategorienbreite (bin-width) für das im ersten Verfahren verwendete Histogramm ist 0,01. Aus dem kumulierten Histogramm wird ein Schnittwert ausgewählt, indem der minimale Index "Perc" ermittelt wird, 240, für den der Wert des kumulierten Histogramms größer als ein konstanter Schnitt ist. Der im ersten Verfahren verwendete konstante Schnitt ist 0,95. Im normierten Sektor werden alle Leistungswerte, die größer als das Produkt aus "Perc" und der Kategorienbreite des Histogramms sind, ausgewählt, 250, und für alle Folgen solcher Werte werden die Anfangszeit, die Endzeit, die Summe der Leistungswerte und die maximale Leistung der Folge ermittelt, 260. Folgen, die durch so gut wie keine Lücken zwischen den Abtastpunkten getrennt sind, werden gemischt, und für die gemischten Folgen werden die Anfangszeit, die Endzeit, die mittlere Zeit, die mittlere Leistung und die maximale Leistung berechnet. Der Satz dieser Daten bildet die Signatur einer Tonaufzeichnung für die Frequenz der Schnittebene und wird in einer Datenbank gespeichert, 270.
1.4. Vergleich von quantisierten Zeit-Frequenz-Sektoren
Die erste Ausführungsform verwendet den Hausdorff-Abstand zum Vergleichen zweier Signaturen. Für zwei endliche Punktsätze A und B wird der Hausdorff-Abstand definiert als
H (A, B) = max (h (A, B), h (B, A))
mit
Die im ersten Verfahren verwendete Norm ist die Norm L1.
Um die Ähnlichkeit zwischen einer Originalsignatur und einer Testsignatur festzustellen, wird bei dem ersten Verfahren die Hausdorff-Abstände zwischen der Originalsignatur und einem Satz von zeitversetzten Kopien der Testsignatur berechnet, wobei der Abstand der besten Ausrichtung zwischen Original- und Testsignatur ermittelt wird. Fachleute werden erkennen, dass das in 10 gezeigte Flussdiagramm für diese Prozedur lediglich das Funktionsprinzip beschreibt und dass zahlreiche Verfahren für Realisierungen vorgeschlagen wurden, die weniger Vorgänge zur Berechnung der Ausrichtung zwischen einem Punktsatz und einem umgewandelten Punktsatz benötigen (siehe beispielsweise D. Huttenlocher et al., Comparing images using the Hausdorff distance, IEEE PAMI, 15, 850 bis 863, 1993). Die verwendete Abstandsmessung beruht auf der Annahme, dass die Original- und die Testaufzeichnung bis auf geringfügige Ein- und Ausblendungen identisch sind. Um eine schwerwiegendere Bearbeitung zu erkennen, müssen andere Maßzahlen und/oder andere Verschiebungsvektoren (shift vectors) verwendet werden.
Mit Bezugnahme auf 10 liest das Vergleichsmodul nun in einem ersten Schritt 300 die Signaturen aus der Original- und der Testaufzeichnung. Ein Verschiebungsvektor wird berechnet, 310, der vom ersten Verfahren geprüfte Bereich der Verschiebungen ist [–2*d, 2*d], wobei d der Hausdorff-Abstand zwischen der Original- und der nichtverschobenen Testaufzeichnung ist. Der Verschiebungsvektor ist der lineare Raum für dieses Intervall mit einer Schrittweite von 10 ms. Für jede Verschiebung wird der Hausdorff-Abstand zwischen der Originalsignatur und der verschobenen Testsignatur berechnet, 320, und im Abstandsvektor "Dist" gespeichert, 340. Der Abstand zwischen Original und Schablone ist das Minimum von "Dist", d.h. der Abstand der optimalen Ausrichtung zwischen Original- und Testsignatur.
Ein Fluss für die Berechnung des Hausdorff-Abstands wird in 11 gezeigt. Sowohl aus der Original- als auch aus der Testsignatur wird der "Mitten"-Wert ausgewählt und in einem Vektor gespeichert, 400. Für alle Elemente aus dem Originalvektor M, 410, wird der Abstand zu allen Elementen aus dem Testvektor T berechnet und in einem Abstandsvektor gespeichert, 420. Das maximale Element dieses Abstandsvektors wird auf den Abstand "d1" gesetzt, 430. Im nächsten Schritt wird für alle Elemente aus dem Testvektor T, 440, der Abstand zu allen Elementen aus dem Originalvektor M berechnet und in einem Abstandsvektor gespeichert, 450. Das maximale Element dieses Abstandsvektors wird auf den Abstand "d2" gesetzt, 460. Der Hausdorff-Abstand zwischen der Originalsignatur und der Testsignatur wird auf das Maximum von d1 und d2 gesetzt, 470.
Die Entscheidung, ob Original- und Schablonenaufzeichnung gleich sind, beruht auf einem Schwellenwert für den Hausdorff-Abstand. Jedes Mal, wenn der Abstand zwischen Original und Test kleiner als der oder gleich dem Schwellenwert ist, werden beide Aufzeichnungen als gleich betrachtet, andernfalls werden sie als verschieden angesehen. Der im ersten Verfahren verwendete Schwellenwert ist 500.
2. Zweites Verfahren
Das zweite Verfahren einer Ausführungsform der Erfindung beschreibt die Anwendung dieser Erfindung im speziellen Fall von Dichtesektoren, die senkrecht zur Leistungsachse der Energiedichteverteilung sind. Die Ausführungsform vergleicht eine oder mehrere Tonaufzeichnungen ("Kandidatenaufzeichnung") mit einer Schablone ("Originalaufzeichnung"), die das zu erkennende Motiv oder die zu erkennende Phrase enthält. Normalerweise ist die Schablone ein Zeitintervall einer Aufzeichnung, die durch ein ähnliches Mittel verarbeitet wird, wie in diesem Verfahren beschrieben wird.
Wie im ersten Verfahren ist die verwendete Zeit-Frequenz-Transformation die Gabor-Transformation. Die Zeit-Frequenz-Dichte einer "Kandidatenaufzeichnung" wird unter Verwendung von logarithmisch gestaffelten Frequenzen aus einem geeigneten Intervall berechnet, z.B. aus dem Frequenzbereich eines Klaviers. Diese logarithmische Skala kann auf solche Weise umgesetzt werden, dass die Frequenz des Maximums der Energiedichte einem Wert der Skala entspricht. Die so berechnete Zeit-Frequenz-Energiedichte wird mit einer Ebene geschnitten, die senkrecht zur Energieachse ist. Das Ergebnis eines solchen Schnittvorgangs ist ein Satz von Ellipsen, wie sie in 13 gezeigt werden. Diese Ellipsen sind durch ein Triplett gekennzeichnet, das aus den Zeit- und Frequenzkoordinaten des Schnittpunktes der Hauptachse der Ellipsen und der maximalen oder integralen Energie der von der Ellipse eingeschlossenen Dichte besteht. Standardverfahren, wie sie in der ersten Ausführungsform beschrieben werden, können zum Auffinden jener Segmente in den Punktmustern der Kandidatenaufzeichnungen verwendet werden, die ähnlich oder identisch mit jenen in der Schablone sind. Eine Schablone wie die in 14 gezeigte vergleicht die beiden Segmente mit gefüllten Ellipsen in 15. Die dritte Koordinate des Tripletts kann als Gewichtungsfaktor (weighting factor) verwendet werden, um die Spezifität der Ausrichtung zu erhöhen, d.h., indem Übereinstimmungen zurückgewiesen werden, wenn die Sätze ähnlicher Elemente der Energien von ausgerichteten Ellipsen verschieden sind.
Es sei darauf hingewiesen, dass Grate (ridges) (R. Carmon et al., Practical Time-Frequency Analysis, Academic Press New York 1998) als Alternative zu sich aus Schnittvorgängen ergebenden Ellipsen verwendet werden können.

Claims

Computerunterstütztes Verfahren zur Feststellung von Gleichheit oder Ähnlichkeit zwischen einem ersten Tonsegment eines ersten Audiostroms und mindestens einem zweiten Tonsegment eines mindestens zweiten Audiostroms, wobei das Verfahren die folgenden Schritte umfasst: Digitalisieren des mindestens ersten Tonsegments und des mindestens zweiten Tonsegments der Audioströme; Berechnen der Zeit-Frequenz-Energiedichte des ersten Tonsegments und des mindestens zweiten Tonsegments; Berechnen einer charakteristischen Signatur in Form von mindestens eines Zeit-Frequenz-Energiedichtesektors für das erste Tonsegment und das mindestens zweite Tonsegment, indem die Zeit-Frequenz-Energiedichte mit einer Ebene geschnitten wird; Ausrichten der mindestens zwei charakteristischen Signaturen; Vergleichen der mindestens zwei ausgerichteten charakteristischen Signaturen und Berechnen eines Abstands zwischen den ausgerichteten charakteristischen Signaturen; und Feststellen von Gleichheit oder Ähnlichkeit zwischen den mindestens zwei Tonsegmenten auf der Grundlage des ermittelten Abstands.
Verfahren nach Anspruch 1, wobei der Zeit-Frequenz-Energiedichtesektor berechnet wird, indem die Zeit-Frequenz-Energiedichte mit einer Ebene geschnitten wird, die senkrecht zur Zeitachse oder zur Frequenzachse oder zur Energieachse ist.
Verfahren nach einem der Ansprüche 1 oder 2, wobei der Zeit-Frequenz-Energiedichtesektor quantisiert wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Zeit-Frequenz-Energiedichte auf einer Gabor-Transformation beruht, die für einzelne Frequenzen berechnet wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Hausdorff-Abstand berechnet wird, um die mindestens zwei charakteristischen Signaturen zu vergleichen.
Verfahren nach Anspruch 5, wobei ein Schwellenwert für den Hausdorff-Abstand verwendet wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Entscheidungsregel mit einem Trennungswert zur Feststellung von Gleichheit oder Ähnlichkeit verwendet wird.
System zur Feststellung von Gleichheit oder Ähnlichkeit zwischen einem ersten Tonsegment eines ersten Audiostroms und mindestens einem zweiten Tonsegment eines mindestens zweiten Audiostroms, wobei das System Folgendes umfasst: ein Mittel zum Digitalisieren des mindestens ersten Tonsegments und des mindestens zweiten Tonsegments der Audioströme; ein Mittel zum Berechnen der Zeit-Frequenz-Energiedichte des ersten Tonsegments und des mindestens zweiten Tonsegments; ein erstes Verarbeitungsmittel zum Berechnen einer charakteristischen Signatur in Form von mindestens eines Zeit-Frequenz-Energiedichtesektors für das erste Tonsegment und das mindestens zweite Tonsegment, indem die Zeit-Frequenz-Energiedichte mit einer Ebene geschnitten wird; ein zweites Verarbeitungsmittel zum Ausrichten der mindestens zwei charakteristischen Signaturen; ein drittes Verarbeitungsmittel zum Vergleichen der mindestens zwei ausgerichteten charakteristischen Signaturen und zum Berechnen eines Abstands zwischen den ausgerichteten charakteristischen Signaturen; und ein viertes Verarbeitungsmittel zum Feststellen von Gleichheit oder Ähnlichkeit zwischen den mindestens zwei Tonsegmenten auf der Grundlage des ermittelten Abstands.
System nach Anspruch 8, das außerdem ein Mittel zum Berechnen des Zeit-Frequenz-Energiedichtesektors umfasst, indem die Zeit-Frequenz-Energiedichte mit einer Ebene geschnitten wird, die senkrecht zur Zeitachse oder zur Frequenzachse oder zur Energieachse ist.
System nach Anspruch 8 oder 9, das außerdem ein Verarbeitungsmittel zur Quantisierung des Zeit-Frequenz-Energiedichtesektors umfasst.
System nach einem der Ansprüche 8 bis 10, das außerdem ein Mittel zum Berechnen einer Gabor-Transformation für einzelne Frequenzen umfasst.
System nach einem der Ansprüche 8 bis 11, das außerdem ein Verarbeitungsmittel zum Berechnen des Hausdorff-Abstands zum Vergleichen der mindestens zwei charakteristischen Signaturen umfasst.
System nach einem der Ansprüche 8 bis 12, das ein Verarbeitungsmittel zum Anwenden einer Entscheidungsregel mit einem Trennungswert zum Feststellen von Gleichheit oder Ähnlichkeit umfasst.