-
Gebiet der
Erfindung
-
Die
Erfindung betrifft im Allgemeinen das Gebiet der digitalen Tonverarbeitung
und insbesondere ein Verfahren und ein System zur computerunterstützten Kennzeichnung ähnlicher
oder identischer Segmente in mindestens zwei verschiedenen Audioströmen.
-
Grundlagen
der Erfindung
-
In
den letzten Jahren wurde eine immer größere Menge von Audiodaten aufgezeichnet,
verarbeitet, verteilt und auf digitalen Medien archiviert, wobei
zahlreiche Codierungs- und Komprimierungsformate verwendet wurden
wie beispielsweise WAVE, AIFF, MPEG, RealAudio usw. Formatumwandlungs- oder
Resampling-Verfahren (transcoding or resampling techniques), die
zum Umschalten von einem Codierungsformat in ein anderes verwendet
werden, erzeugen so gut wie nie eine Aufzeichnung, die mit einer
direkten Aufzeichnung im Zielformat identisch ist. Ein ähnlicher
Effekt findet bei den meisten Komprimierungsschemas statt, wo Änderungen
am Komprimierungsfaktor oder anderen Parametern zu einer neuen Codierung
und einem Bitstrom führen,
der wenig Ähnlichkeit
mit dem ursprünglichen
Bitstrom hat. Beide Effekte machen es ziemlich schwierig, die Gleichheit
einer Tonaufzeichnung und einer anderen Tonaufzeichnung festzustellen,
d.h. die Gleichheit der beiden ursprünglich erzeugten Tonaufzeichnungen,
wenn die beiden Aufzeichnungen in zwei verschiedenen Formaten gespeichert
werden. Die Festlegung einer möglichen
Gleichheit von verschiedenen Tonaufzeichnungen ist daher bei der
Audioproduktion, -archivierung und beim Schutz des Urheberrechts
dringend erforderlich.
-
Während der
Herstellung einer digitalen Tonaufzeichnung entstehen im Laufe von
Verarbeitungszwischenschritten normalerweise zahlreiche verschiedene
Versionen in verschiedenen Codierungsformaten und werden über eine
Vielfalt verschiedener Computersysteme verteilt. In den meisten
Fällen gibt
es weder einen Querverweis auf diese Aufzeichnungen noch werden
sie in einer Datenbank protokolliert, und oftmals muss durch Anhören der
Aufzeichnungen festgestellt werden, ob zwei Versionen identisch
sind. Eine automatische Prozedur würde diese Aufgabe folglich
erheblich erleichtern.
-
Ein ähnliches
Problem besteht in Tonarchiven, die sich mit Material befassen,
das in einer Vielfalt von Musiktitel-Zusammenstellungen (compilations) (wie
z.B. Jazz oder Popsongs) oder auf einer Vielfalt von Datenträgern (wie
z.B. die berühmten Aufzeichnungen
von Toscanini mit dem NBC Symphonieorchester) ausgegeben wurden.
Oftmals wird die Archivnummer des ursprünglichen Originals (master)
einer solchen Aufzeichnung nicht dokumentiert, und in den meisten
Fällen
kann nur durch Anhören
der Tonaufzeichnungen entschieden werden, ob eine Spur aus einer
Musiktitel-Zusammenstellung
mit einer Aufzeichnung desselben Stücks auf einem anderen Tonträger identisch
ist.
-
Außerdem ist
der Schutz des Urheberrechts ein Schlüsselproblem für die Audioindustrie
und gewinnt mit der Erfindung einer neuen Technologie, die die Erzeugung
und Vermarktung von Kopien von Tonaufzeichnungen zu einer einfachen
Aufgabe macht, sogar zunehmend an Bedeutung. Obwohl Mechanismen
zur Verhinderung unberechtigter Kopien eine Seite des Problems lösen, ist
es außerdem
erforderlich, Prozesse einzurichten, um unberechtigte Kopien von
ungeschütztem
Vorläufermaterial
(legacy material) zu erkennen. Beispielsweise ist das Überspielen (ripping)
einer CD und das Verteilen des Inhaltes der einzelnen Spuren in
komprimiertem Format an unberechtigte Benutzer heutzutage der häufigste
Verstoß gegen
das Urheberrecht. Es gibt noch andere Verletzungen des Urheberrechts,
die durch die Suche nach identischen Tonaufzeichnungen nicht erkannt
werden können.
Ein Beispiel ist die Erzeugung eines "neuen" Stückes
durch Ausschneiden von Segmenten aus bestehenden Aufzeichnungen
und Zusammensetzen derselben. Um eine solche Wiederverwendung aufzudecken,
muss ein Verfahren nicht ähnliche
Aufzeichnungen, sondern ähnliche
Segmente von Aufzeichnungen erkennen können, ohne die Segmentgrenzen
im Voraus zu kennen.
-
Eine
weitere Form einer möglicherweise
unberechtigten Wiederverwendung ist das Übernehmen einer charakteristischen
Stimme aus einer Tonaufzeichnung, entweder unverändert oder z.B. bezüglich der
Frequenz neu bearbeitet. Das Auffinden solcher bearbeiteter Teile
ist nicht nur für
die Erkennung möglicher
Verletzungen des Urheberrechts von Bedeutung, sondern auch ein wertvolles
Hilfsmittel für
die musikalische Analyse von historischem und traditionellem Material.
-
Stand der Technik
-
Die
meisten der gegenwärtig
verfügbaren, verbreiteten
Verfahren zum Identifizieren von Tonaufzeichnungen beruhen auf Wasserzeichen
(water-marking) (eine aktuelle Übersicht über Verfahren nach
dem Stand der Technik finden Sie in S. Katzenbeisser und F. Petitcolas
(Hrsg.), Information Hiding: Techniques for steganography and digital
water-marking, Boston 2000): Sie versuchen, die Tonaufzeichnung
durch Einfügen
von unhörbaren
Daten zu verändern,
die widerstandsfähig
gegen Formatumwandlung sind und daher nicht auf bereits auf dem
Markt erhältliches
Material angewandt werden können.
Außerdem
werden viele der heutigen Audioproduktionen aus einer Menge von
Aufzeichnungen einzelner Spuren oder Stimmen zusammengesetzt, die
oftmals mit einer höheren
Zeit- und Frequenzauflösung
als die endgültige
Aufzeichnung erzeugt werden. Die Verwendung von Wasserzeichen zum
Identifizieren dieser Zwischendaten erfordert Wasserzeichen, die kein
hörbares
Artefakt durch Störungen
erzeugen, wenn die Spuren für
den endgültigen
Audiostrom gemischt werden. Daher dürfte es wünschenswerter sein, solches
Material durch charakteristische Merkmale und nicht durch Wasserzeichen
zu identifizieren.
-
Ein
Verfahren ohne Eingriff in die Aufzeichnung zur Kennzeichnung von
identischen Tonaufzeichnungen verwendet globale Merkmale des Leistungsspektrums
als Signatur für
die Tonaufzeichnung. Hierbei wird auf EP-A-1113432 Bezug genommen.
Wie alle globalen frequenzbasierten Verfahren kann dieses Verfahren
nicht zwischen abgewandelten Aufzeichnungen desselben Materials
unterscheiden, d.h., eine aufsteigend gespielte Tonleiter führt zu derselben
Signatur wie die gleiche, absteigend gespielte Tonleiter. Eine weitere Begrenzung
von diesem und ähnlichen
globalen Verfahren ist ihre Empfindlichkeit gegenüber lokalen Änderungen
der Tondaten, wie Ein- oder Ausblendungen.
-
US-A-5
918 223 beschreibt ein Verfahren zur inhaltsbasierten Analyse, Speicherung,
zum Abruf und zur Segmentierung von Tondaten unter Verwendung von
Merkmalvektoren, die aus statistischen Messungen des Audiosignals
und seines Leistungsspektrums erzeugt werden.
-
WO01/04870
beschreibt ein Verfahren zur automatischen Erkennung von musikalischen
Kompositionen und Klangsignalen durch Entnehmen von Merkmalen in
der Frequenzdomäne
des Audiosignals.
-
Paul
D. et al (Dokument XP-002200570) beschreiben die Verwendung von
Gabor-Transformationen (Gabor transforms) für eine verknüpfte Zeit-Frequenz-Analyse.
Dong-Gyu Sim et al. (Dokument XP 010368634) beschreiben die Anwendung
des Hausdorff-Abstands (Hausdorff distance) in einem Signalvergleichsalgorithmus
(signal matching algorithm).
-
Zusammenfassung
der Erfindung
-
Eine
Aufgabe der vorliegenden Erfindung ist daher die Bereitstellung
eines Verfahrens und Systems zur verbesserten Erkennung von identischen oder ähnlichen
Tonaufzeichnungen oder von Segmenten von Tonaufzeichnungen.
-
Eine
andere Aufgabe ist die Bereitstellung eines solchen Verfahrens und
Systems, die die Erkennung nicht von ähnlichen Aufzeichnungen, sondern von ähnlichen
Segmenten von Aufzeichnungen ermöglichen,
ohne die Segmentgrenzen im voraus zu kennen.
-
Eine
andere Aufgabe ist die Bereitstellung eines solchen Verfahrens und
Systems, die eine automatisierte Erkennung identischer Kopien von
Tonaufzeichnungen oder Segmenten von Tonaufzeichnungen ermöglichen.
-
Eine
andere Aufgabe ist das Ermöglichen
einer widerstandsfähigen
Kennzeichnung von Tonmaterial auch bei vorhandenen lokalen Änderungen
und Verzerrungen.
-
Noch
eine andere Aufgabe ist das Ermöglichen
der Festlegung von Ähnlichkeit
oder Gleichheit eines in zwei verschiedenen Formaten, insbesondere
in zwei verschiedenen Komprimierungsformaten, gespeicherten Audiostroms.
-
Die
obigen Aufgaben werden durch die Merkmale der unabhängigen Ansprüche erfüllt. Vorteilhafte
Ausführungsformen
werden in den Unteransprüchen
dargelegt.
-
Das
der Erfindung zugrundeliegende Konzept ist die Bereitstellung eines
Kennzeichnungsmechanismus auf der Grundlage einer Zeit-Frequenz-Analyse
(time-frequency analysis) des Tonmaterials. Der Kennzeichnungsmechanismus
berechnet eine charakteristische Signatur aus einer Tonaufzeichnung
und verwendet diese Signatur zum Berechnen eines Abstandes zwischen
verschiedenen Tonaufzeichnungen und damit zum Auswählen identischer
Aufzeichnungen. Die Erfindung ermöglicht die automatisierte Erkennung
identischer Kopien von Tonaufzeichnungen. Diese Technologie kann zum
Einrichten automatisierter Prozesse zum Auffinden von möglichen unberechtigten
Kopien verwendet werden und ermöglicht
daher eine bessere Geltendmachung von Urheberrechten in der Audioindustrie.
-
Es
wird hervorgehoben, dass der vorgeschlagene Mechanismus den Stand
der Technik durch die Verwendung lokaler anstelle globaler Merkmale
verbessert.
-
Insbesondere
ermöglicht
die Erfindung die Erkennung von Gleichheit oder Ähnlichkeit von Audioströmen oder
-segmenten davon selbst dann, wenn sie in verschiedenen Formaten
bereitgestellt werden und/oder auf verschiedenen physischen Datenträgern gespeichert
werden. Dabei ermöglicht
sie die Feststellung, ob ein Audiosegment aus einer Musiktitel-Zusammenstellung
(compilation) mit einer Aufzeichnung des gleichen Audiosegmentes
auf einem anderen Tonträger
identisch ist.
-
Außerdem kann
das Verfahren gemäß der Erfindung
automatisch und möglicherweise
sogar transparent für
einen oder mehrere Benutzer ausgeführt werden.
-
Aus
den oben genannten Gründen
ermöglicht
der vorgeschlagene Mechanismus eine automatisierte Erkennung identischer
Kopien von Tonaufzeichnungen. Diese Technologie kann zum Einrichten
automatisierter Prozesse zum Auffinden möglicher unberechtigter Kopien
verwendet werden und ermöglicht
daher eine bessere Geltendmachung von Urheberrechten in der Audioindustrie.
-
Kurze Beschreibung der
Zeichnungen
-
Im
Folgenden wird die vorliegende Erfindung mit Hilfe von Ausführungsformen,
aus denen weitere Merkmale und Vorteile der Erfindung hervorgehen, ausführlicher
beschrieben, wobei
-
1 eine
schematische Darstellung ist, die die Berechnung einer Audiosignatur
gemäß der Erfindung
zeigt, wobei die Blöcke 20 und 50 zusätzliche Komponenten
darstellen;
-
2 ein
Flussdiagramm ist, das die Schritte der Vorverarbeitung einer Originalaufzeichnung
gemäß der Erfindung
zeigt;
-
3 ein
typisches Leistungsspektrum einer Aufzeichnung des Präludiums
XIV von J.S. Bachs Wohltemperiertes Klavier ist, wobei ein Satz ähnlicher
Elemente (confusion set) für
die maximale Leistung ein Element enthält, wohingegen ein Satz ähnlicher
Elemente für
den zweithöchsten
Spitzenwert zwei Elemente enthält;
-
4 ein
Segment eines Gabor-Energiedichtesektors (Gabor Energy Densitiy
Slice) für
eine Frequenz von 497 Hz und einer Skalierung 1000 ist, der für das in 3 dargestellte
Musikstück
berechnet wurde;
-
5 ein
Flussdiagramm ist, das die Schritte für die Quantisierung eines Zeit-Frequenz-Energiedichtesektors
gemäß der Erfindung
zeigt;
-
6 eine
Histogrammdarstellung des Gabor-Energiedichtesektors
für das
in 4 gezeigte Segment mit der Frequenz 497 Hz und
der Skalierung 1000 ist;
-
7 eine
kumulierte Histogrammdarstellung des Gabor-Energiedichtesektors für das in 4 gezeigte
Segment mit der Frequenz 497 Hz und der Skalierung 1000 ist;
-
8 unbearbeitete
Daten einer 497-Hz-Signatur zeigt, die für das Beispiel von 4 berechnet wurde,
mit unvermischten Folgen (unmerged runs) für die Originalprobe (sample
master), wobei Anfang und Ende in Abtasteinheiten (sample units)
dargestellt werden;
-
9 gemischte
Daten zeigt, die aus 8 für die 497-Hz-Signatur abgeleitet
werden, jedoch für eine
Originalprobe;
-
10 ein
Flussdiagramm ist, das die Berechnung des Abstandes zwischen zwei
Audiosignaturen gemäß der Erfindung
darstellt;
-
11 ein
anderes Flussdiagramm ist, das die Berechnung eines Hausdorff-Abstandes
gemäß der Erfindung
darstellt;
-
12 eine
Grafik des Hausdorff-Abstandes zwischen der 497-Hz-Signatur des WAVE-Originals und einer
komprimierten MPEG3-Version mit 8 kBit/s derselben Aufzeichnung
als Funktion der Verschiebung zwischen der Original- und der Testsignatur
ist;
-
13 einen
Satz von Ellipsen als ein typisches Ergebnis eines Schnittvorgangs
(slicing operation) gemäß der Erfindung
zeigt;
-
14 beispielhafte
Schablonen (templates) zeigt, die zum Auffinden jener Segmente in Punktmustern
von Kandidatenaufzeichnungen verwendet werden, die ähnlich oder
identisch mit jenen in der Schablone sind; und
-
15 einen
anderen Satz von Ellipsen zeigt, für die eine Schablone wie die
in 14 gezeigte mit den beiden Segmenten mit den hierin
gezeigten ausgefüllten
Ellipsen übereinstimmt.
-
Ausführliche
Beschreibung der Ausführungsformen
-
Mit
Bezugnahme auf 1 muss analoges Material vor
der Berechnung der Audiosignatur 60 durch ein geeignetes
Mittel digitalisiert werden.
-
Die
im Folgenden beschriebene Audiosignatur wird aus einer Tonaufzeichnung 10 berechnet,
indem die folgenden Schritte auf das digitale Audiosignal angewandt
werden:
-
Vorverarbeitungsfilter
(preprocessing filter)
-
In
Abhängigkeit
vom Typ des Materials und vom Typ der gewünschten Ähnlichkeit können die Tondaten
durch ein zusätzliches
Filter vorverarbeitet werden, 20. Beispiele für solche
Filter sind die Entfernung von Bandrauschen (tage noise) aus analogen Aufzeichnungen,
psycho-physische Filter zum Modellieren der Verarbeitung durch das
Ohr und das Hörzentrum
eines menschlichen Beobachters oder eine Vordergrund-/Hintergrundtrennung
zum Auskoppeln (single out) von Soloinstrumenten. Fachleute werden
erkennen, dass einige der möglichen
Vorverarbeitungsfilter besser so realisiert werden, dass sie auf
die Zeit-Frequenz-Dichte (time-frequency density) statt auf das
digitale Audiosignal einwirken.
-
Zeit-Frequenz-Energiedichte
-
Schätzen,
30,
der Zeit-Frequenz-Energiedichte der Tonaufzeichnung. Die Zeit-Frequenz-Energiedichte
p
x(t, v) eines Signals x ist definiert durch
d.h. durch das Merkmal, dass
das Integral der Dichte über
der Zeit t und der Frequenz v gleich dem Energiegehalt des Signals
ist. Es gibt eine Vielfalt von Verfahren zum Schätzen der Zeit-Energiedichte,
die bekanntesten sind das Leistungsspektrum, abgeleitet von einer
gefensterten Fourier-Transformation,
und die Wigner-Ville-Verteilung (Wigner-Ville distribution).
-
Dichtesektor
-
Eine
oder mehrere Dichtesektoren werden ermittelt, 40, indem
der Schnittpunkt der Energiedichte mit einer Ebene berechnet wird.
während
jede Ausrichtung der Dichteebene in Bezug auf die Zeit-, die Frequenz-
und die Energieachsen der Energiedichte einen gültigen Dichtesektor erzeugt
und zum Ermitteln einer Signatur verwendet werden kann, werden einige
Ausrichtungen bevorzugt, und nicht alle Ausrichtungen liefern Daten,
die für
die Identifizierung einer Aufzeichnung brauchbar sind: Jede Schnittebene,
die senkrecht zur Zeitachse ist, enthält nur die Energiedichte der
Aufzeichnung zu einem spezifischen Zeitpunkt. Da die gleichwertige
Zeit in einer Aufzeichnung, die durch Ausschneiden eines Stücks der
Aufzeichnung bearbeitet wurde, kaum zu ermitteln ist, sind solche
Sektoren normalerweise nicht gut geeignet, um die Gleichheit von
zwei Aufzeichnungen festzustellen. Eine Schnittebene, die senkrecht
zur Energieachse ist, erzeugt eine Annäherung der Zeit-Frequenz-Entwicklung
der Aufzeichnung, und eine Schnittebene, die senkrecht zur Frequenzachse
ist, stellt die Entwicklung einer spezifischen Frequenz über der
Zeit dar. Für
viele Annäherungen
der Zeit-Frequenz-Energiedichte können Dichtesektoren, die senkrecht
zur Frequenzachse sind, ohne Bestimmung der vollständigen Energiedichte
berechnet werden. Sowohl die Ausrichtung senkrecht zur Energieachse
als auch die Ausrichtung senkrecht zur Frequenzachse erfassen genügend Daten,
um die Ermittlung identischer Aufzeichnungen zu ermöglichen.
Die tatsächliche
Wahl der Ausrichtung hängt
vom Berechnungsaufwand, den man für eine Ermittlung in Kauf nehmen
möchte,
und von der gewünschten
Robustheit der Signatur gegenüber Verzerrung
(distortion resistance) ab.
-
Quantisierter Dichtesektor
(Quantized Densitiy Slice)
-
Der
Dichtesektor wird durch Anwenden einer geeigneten Quantisierung
transformiert, 50. Die tatsächliche Wahl des Quantisierungsalgorithmus
hängt von
der Ausrichtung des Sektors und der gewünschten Genauigkeit der Signatur
ab. Beispiele für
Quantisierungsverfahren werden in der ausführlichen Beschreibung der Ausführungsformen
angegeben. Es sei darauf hingewiesen, dass die Gleichheitstransformation
(identity transformation) eines Sektors zu einer gültigen Quantisierung
führt,
und daher ist dies ein wahlweise auszuführender Schritt.
-
Zwei
Signaturen können
verglichen werden, indem der Abstand zwischen ihrer optimalen Ausrichtung
gemessen wird. Im Allgemeinen hängt
die Wahl der verwendeten Maßzahl
von der Ausrichtung der quantisierten Dichtesektoren in Bezug auf
die Zeit-, die Frequenz- und die Energieachse der Energiedichte
ab. Beispiele für
solche Abstandsmessungen werden in der Beschreibung der beiden Verfahren angegeben.
Es wird eine Entscheidungsregel mit einem Trennungswert in Abhängigkeit
von der Maßzahl
verwendet, um identische von nichtidentischen Aufzeichnungen zu
unterscheiden.
-
Im
Folgenden werden zwei verschiedene Verfahren ausführlicher
beschrieben.
-
1. Erstes Verfahren
-
Das
erste Verfahren, das keinen Teil der Erfindung bildet, beschreibt
den speziellen Fall von Dichtesektoren, die senkrecht zur Frequenzachse der
Energiedichteverteilung sind, und einer Maßzahl, die zum Ermitteln identischer
Aufzeichnungen gewählt
wurde. Die Energiedichteverteilung wird aus der Gabor-Transformation
(auch als Kurzzeit-Fourier-Transformation
(short time Fourier transform) mit einem Gauss'schen Fenster bekannt) des Signals abgeleitet.
Das Verfahren vergleicht eine Tonaufzeichnung mit bekannter Identität, die in
der folgenden Beschreibung als "Originalaufzeichnung" bezeichnet wird,
mit einem Satz von anderen Tonaufzeichnungen, die als "Kandidatenaufzeichnungen" ("candidate recordings") bezeichnet werden.
Es ermittelt alle Kandidaten, die Teilfolgen (subsequences) des
Originals sind, die durch Anwendung von Ausblendungen oder Schnitten
auf den Anfang oder das Ende der Aufzeichnung erzeugt wurden, setzt
aber ansonsten voraus, dass die Kandidaten keinen Transformationen
unterworfen wurden, wie z.B. einer Frequenzverschiebung (frequency
shifting) oder einem Time Warping.
-
1.1 Vorverarbeitung des
Originals
-
Die
Originalaufzeichnung wird vorverarbeitet, um die Schnittebenen (slicing
planes) für
die Energiedichteverteilung auszuwählen, wie in dem in 2 dargestellten
Flussdiagramm beschrieben wird. Das Leistungsspektrum (3)
des Signals wird berechnet, 100, die dem Maximum des Leistungsspektrums
entsprechende Frequenz ausgewählt, 110,
und der Satz ähnlicher
Elemente des Maximums mit dieser Frequenz initialisiert. Die Energie der
nächstprominenten
Maxima 120 des Leistungsspektrums wird mit der Energie
des Maximums verglichen, 130, und die Frequenzen dieser
Maxima werden zum Satz ähnlicher
Elemente hinzugefügt, 140,
bis das Verhältnis
zwischen dem Maximum des Leistungsspektrums und der Energie an der
Position eines sekundären
Spitzenwerts unter einen Schwellenwert "ihres" fällt.
Dem Satz ähnlicher
Elemente liegt zugrunde, dass die Reihenfolge der Spitzenwerte und
daher die Frequenz des Maximums des Leistungsspektrums für Spitzenwerte
mit fast identischen Energiewerten wahrscheinlich durch unterschiedliche
Codierungs- oder Komprimierungsalgorithmen verzerrt wird. Der vom
ersten Verfahren verwendete Wert von "ihres" ist 1,02. Wie aus 3 zu
erkennen ist, besteht der als Beispiel in der Beschreibung des ersten
Verfahrens verwendete Satz ähnlicher
Elemente der Originalaufzeichnung nur aus der Frequenz 497 Hz. Als
Schnittebene(n) für
die Energiedichten werden die Elemente aus dem Satz ähnlicher Elemente
verwendet, und die während
der Vorverarbeitung berechneten Werte werden entweder gespeichert
oder an ein Modul weitergeleitet, das die Zeit-Frequenz-Energiedichte
berechnet.
-
1.2. Berechnung der Zeit-Frequenz-Energiedichte
-
Für die Originalaufzeichnung
und alle Kandidaten werden die Zeit-Energie-Dichten für alle Elemente
des Satzes ähnlicher
Elemente des spektralen Maximums berechnet. Im ersten Verfahren
beruht eine Zeit-Energie-Dichte S auf der Gabor-Transformation,
d.h., eine Kurzzeit-Fourier-Transformation
mit dem Gauss'schen
Fenster
wird verwendet. Da die Gabor-Transformation
für einzelne
Frequenzen berechnet werden kann, ist kein expliziter Schnittvorgang
notwendig, und nur die Energiedichten für die Frequenzen aus dem Satz ähnlicher
Elemente werden berechnet. Ein Segment der Zeit-Frequenz-Energiedichte
des linken Kanals der Originalaufzeichnung im Beispiel wird für die Frequenz
von 497 Hz und einen Skalierungsparameter von 1000 in
4 gezeigt.
Die Sektoren der Zeit-Frequenz-Energiedichte werden gespeichert
und an das Quantisierungsmodul weitergeleitet.
-
1.3
Quantisierung des Zeit-Frequenz-Sektors
-
Ein
Zeit-Frequenz- (TF-) Energiedichtesektor wird quantisiert, wie in
dem in 5 gezeigten Flussdiagramm beschrieben wird. Nachdem
ein TF-Energiesektor gelesen wurde, 200, werden die Leistungswerte
auf 1 normiert, 210, indem sie durch das Maximum des Sektors
dividiert werden. Aus dem normierten Sektor wird ein Histogramm
berechnet, 220, und dieses kumuliert, 230. Die
Kategorienbreite (bin-width) für
das im ersten Verfahren verwendete Histogramm ist 0,01. Aus dem
kumulierten Histogramm wird ein Schnittwert ausgewählt, indem
der minimale Index "Perc" ermittelt wird, 240,
für den
der Wert des kumulierten Histogramms größer als ein konstanter Schnitt
ist. Der im ersten Verfahren verwendete konstante Schnitt ist 0,95.
Im normierten Sektor werden alle Leistungswerte, die größer als das
Produkt aus "Perc" und der Kategorienbreite
des Histogramms sind, ausgewählt, 250,
und für
alle Folgen solcher Werte werden die Anfangszeit, die Endzeit, die
Summe der Leistungswerte und die maximale Leistung der Folge ermittelt, 260.
Folgen, die durch so gut wie keine Lücken zwischen den Abtastpunkten getrennt
sind, werden gemischt, und für
die gemischten Folgen werden die Anfangszeit, die Endzeit, die mittlere
Zeit, die mittlere Leistung und die maximale Leistung berechnet.
Der Satz dieser Daten bildet die Signatur einer Tonaufzeichnung
für die
Frequenz der Schnittebene und wird in einer Datenbank gespeichert, 270.
-
1.4. Vergleich von quantisierten
Zeit-Frequenz-Sektoren
-
Die
erste Ausführungsform
verwendet den Hausdorff-Abstand zum Vergleichen zweier Signaturen.
Für zwei
endliche Punktsätze
A und B wird der Hausdorff-Abstand definiert als
H (A, B) =
max (h (A, B), h (B, A))
mit
-
Die
im ersten Verfahren verwendete Norm ist die Norm L1.
-
Um
die Ähnlichkeit
zwischen einer Originalsignatur und einer Testsignatur festzustellen,
wird bei dem ersten Verfahren die Hausdorff-Abstände zwischen der Originalsignatur
und einem Satz von zeitversetzten Kopien der Testsignatur berechnet,
wobei der Abstand der besten Ausrichtung zwischen Original- und Testsignatur
ermittelt wird. Fachleute werden erkennen, dass das in 10 gezeigte
Flussdiagramm für
diese Prozedur lediglich das Funktionsprinzip beschreibt und dass
zahlreiche Verfahren für Realisierungen
vorgeschlagen wurden, die weniger Vorgänge zur Berechnung der Ausrichtung
zwischen einem Punktsatz und einem umgewandelten Punktsatz benötigen (siehe
beispielsweise D. Huttenlocher et al., Comparing images using the
Hausdorff distance, IEEE PAMI, 15, 850 bis 863, 1993). Die verwendete
Abstandsmessung beruht auf der Annahme, dass die Original- und die
Testaufzeichnung bis auf geringfügige
Ein- und Ausblendungen
identisch sind. Um eine schwerwiegendere Bearbeitung zu erkennen,
müssen
andere Maßzahlen
und/oder andere Verschiebungsvektoren (shift vectors) verwendet werden.
-
Mit
Bezugnahme auf 10 liest das Vergleichsmodul
nun in einem ersten Schritt 300 die Signaturen aus der
Original- und der Testaufzeichnung. Ein Verschiebungsvektor wird
berechnet, 310, der vom ersten Verfahren geprüfte Bereich
der Verschiebungen ist [–2*d,
2*d], wobei d der Hausdorff-Abstand zwischen der Original- und der
nichtverschobenen Testaufzeichnung ist. Der Verschiebungsvektor ist
der lineare Raum für
dieses Intervall mit einer Schrittweite von 10 ms. Für jede Verschiebung
wird der Hausdorff-Abstand zwischen der Originalsignatur und der
verschobenen Testsignatur berechnet, 320, und im Abstandsvektor "Dist" gespeichert, 340.
Der Abstand zwischen Original und Schablone ist das Minimum von "Dist", d.h. der Abstand
der optimalen Ausrichtung zwischen Original- und Testsignatur.
-
Ein
Fluss für
die Berechnung des Hausdorff-Abstands wird in 11 gezeigt.
Sowohl aus der Original- als auch aus der Testsignatur wird der "Mitten"-Wert ausgewählt und
in einem Vektor gespeichert, 400. Für alle Elemente aus dem Originalvektor
M, 410, wird der Abstand zu allen Elementen aus dem Testvektor
T berechnet und in einem Abstandsvektor gespeichert, 420.
Das maximale Element dieses Abstandsvektors wird auf den Abstand "d1" gesetzt, 430.
Im nächsten
Schritt wird für
alle Elemente aus dem Testvektor T, 440, der Abstand zu allen
Elementen aus dem Originalvektor M berechnet und in einem Abstandsvektor
gespeichert, 450. Das maximale Element dieses Abstandsvektors
wird auf den Abstand "d2" gesetzt, 460.
Der Hausdorff-Abstand zwischen der Originalsignatur und der Testsignatur
wird auf das Maximum von d1 und d2 gesetzt, 470.
-
Die
Entscheidung, ob Original- und Schablonenaufzeichnung gleich sind,
beruht auf einem Schwellenwert für
den Hausdorff-Abstand.
Jedes Mal, wenn der Abstand zwischen Original und Test kleiner als
der oder gleich dem Schwellenwert ist, werden beide Aufzeichnungen
als gleich betrachtet, andernfalls werden sie als verschieden angesehen. Der
im ersten Verfahren verwendete Schwellenwert ist 500.
-
2. Zweites
Verfahren
-
Das
zweite Verfahren einer Ausführungsform der
Erfindung beschreibt die Anwendung dieser Erfindung im speziellen
Fall von Dichtesektoren, die senkrecht zur Leistungsachse der Energiedichteverteilung
sind. Die Ausführungsform
vergleicht eine oder mehrere Tonaufzeichnungen ("Kandidatenaufzeichnung") mit einer Schablone
("Originalaufzeichnung"), die das zu erkennende
Motiv oder die zu erkennende Phrase enthält. Normalerweise ist die Schablone
ein Zeitintervall einer Aufzeichnung, die durch ein ähnliches
Mittel verarbeitet wird, wie in diesem Verfahren beschrieben wird.
-
Wie
im ersten Verfahren ist die verwendete Zeit-Frequenz-Transformation die
Gabor-Transformation. Die Zeit-Frequenz-Dichte einer "Kandidatenaufzeichnung" wird unter Verwendung
von logarithmisch gestaffelten Frequenzen aus einem geeigneten Intervall
berechnet, z.B. aus dem Frequenzbereich eines Klaviers. Diese logarithmische
Skala kann auf solche Weise umgesetzt werden, dass die Frequenz
des Maximums der Energiedichte einem Wert der Skala entspricht.
Die so berechnete Zeit-Frequenz-Energiedichte wird mit einer Ebene geschnitten,
die senkrecht zur Energieachse ist. Das Ergebnis eines solchen Schnittvorgangs
ist ein Satz von Ellipsen, wie sie in 13 gezeigt
werden. Diese Ellipsen sind durch ein Triplett gekennzeichnet, das aus
den Zeit- und Frequenzkoordinaten des Schnittpunktes der Hauptachse
der Ellipsen und der maximalen oder integralen Energie der von der
Ellipse eingeschlossenen Dichte besteht. Standardverfahren, wie
sie in der ersten Ausführungsform
beschrieben werden, können
zum Auffinden jener Segmente in den Punktmustern der Kandidatenaufzeichnungen verwendet
werden, die ähnlich
oder identisch mit jenen in der Schablone sind. Eine Schablone wie
die in 14 gezeigte vergleicht die beiden
Segmente mit gefüllten
Ellipsen in 15. Die dritte Koordinate des Tripletts
kann als Gewichtungsfaktor (weighting factor) verwendet werden,
um die Spezifität
der Ausrichtung zu erhöhen,
d.h., indem Übereinstimmungen
zurückgewiesen
werden, wenn die Sätze ähnlicher
Elemente der Energien von ausgerichteten Ellipsen verschieden sind.
-
Es
sei darauf hingewiesen, dass Grate (ridges) (R. Carmon et al., Practical
Time-Frequency Analysis, Academic Press New York 1998) als Alternative
zu sich aus Schnittvorgängen
ergebenden Ellipsen verwendet werden können.