-
Die
vorliegende Erfindung bezieht sich auf das Gebiet der Verarbeitung
von Musiksignalen und insbesondere auf das Umsetzen eines Musiksignals in
eine Noten-basierte Beschreibung.
-
Konzepte,
mit denen Lieder durch Vorgabe einer Tonfolge referenziert werden,
sind für
viele Anwender nützlich.
Wer kennt nicht die Situation, daß man die Melodie eines Liedes
vor sich her singt, sich aber außer der Melodie nicht an den
Titel des Liedes erinnern kann. Wünschenswert wäre, eine
Melodiesequenz vorzusingen oder mit einem Musikinstrument vorzuspielen,
und mit diesen Informationen die Melodiesequenz in einer Musikdatenbank
zu referenzieren, wenn die Melodiesequenz in der Musikdatenbank
enthalten ist.
-
Eine
standardmäßige Noten-basierte
Beschreibung von Musiksignalen ist das MIDI-Format (MIDI = Music
Interface Description). Eine MIDI-Datei umfaßt eine Noten-basierte Beschreibung
derart, daß der
Tonanfang und das Tonende eines Tons bzw. der Tonanfang und die
Dauer des Tons als Funktion der Zeit aufgezeichnet sind. MIDI-Dateien
können beispielsweise
in elektronischen Keyboards eingelesen werden und „abgespielt" werden. Selbstverständlich existieren
auch Soundkarten zum Abspielen eines MIDI-Files über die mit der Soundkarte
eines Computers verbundenen Lautsprecher. Daraus ist zu sehen, daß das Umformen
einer Noten-basierten Beschreibung, welches in seiner ursprünglichsten
Form durch einen Intrumentalisten „manuell" durchgeführt wird, der ein durch Noten
aufgezeichnetes Lied mittels eines Musikinstru ments spielt, auch ohne
weiteres automatisch durchgeführt
werden kann.
-
Das
Gegenteil ist jedoch ungleich aufwendiger. Die Umformung eines Musiksignals,
das eine gesungene Melodiesequenz, eine gespielte Melodiesequenz,
eine von einem Lautsprecher aufgezeichnete Melodiesequenz oder eine
in Form einer Datei vorhandene digitalisierte und optional komprimierte
Melodiesequenz ist, in eine Noten-basierte Beschreibung in Form
einer MIDI-Datei oder in eine konventionelle Notenschrift ist mit
großen
Einschränkungen verbunden.
-
In
der Dissertation „Using
Contour as a Mid-Level Representation of Melody" von A. Lindsay, Massachusetts Institute
of Technology, September 1996, ist ein Verfahren zum Umformen eines
gesungenen Musiksignals in eine Folge von Noten beschrieben. Ein
Lied muß unter
Verwendung von Stoppkonsonanten vorgetragen werden, d. h. als eine
Folge von „da", „da", „da". Anschließend wird
die Leistungsverteilung des von dem Sänger erzeugten Musiksignals über der
Zeit betrachtet. Aufgrund der Stoppkonsonanten ist zwischen dem
Ende eines Tons und dem Beginn des darauffolgenden Tons ein deutlicher
Leistungseinbruch in einem Leistungs-Zeit-Diagramm zu erkennen. Auf der Basis
der Leistungseinbrüche
wird eine Segmentierung des Musiksignals durchgeführt, so
daß in
jedem Segment eine Note vorhanden ist. Eine Frequenzanalyse liefert
die Höhe
des gesungenen Tons in jedem Segment, wobei die Folge von Frequenzen
auch als Pitch-Contourlinie
bezeichnet wird.
-
Das
Verfahren ist dahingehend nachteilig, daß es auf eine gesungene Eingabe
beschränkt
ist. Als Vorgabe muß die
Melodie durch einen Stoppkonsonanten und einen Vokalpart gesungen
werden, in der Form „da" „da" „da", damit eine Segmentierung des
aufgezeichneten Musiksignals vorgenommen werden kann. Dies schließt bereits
eine Anwendung des Verfahrens auf Orchesterstücke aus, in denen ein dominantes
Instrument gebundenen Noten, d. h. nicht durch Pausen getrennte
Noten, spielt.
-
Nach
einer Segmentierung berechnet das bekannte Verfahren Intervalle
jeweils zwei aufeinanderfolgender Pitch-Werte, d. h. Tonhöhenwerte,
in der Pitchwertfolge. Dieser Intervallwert wird als Abstandsmaß angenommen.
Die sich ergebende Pitchfolge wird dann mit in einer Datenbank gespeicherten Referenzfolgen
verglichen, wobei das Minimum einer Summe quadrierter Differenzbeträge über alle
Referenzfolgen als Lösung,
d. h. als in der Datenbank referenzierte Notenfolge, angenommen
wird.
-
Ein
weiterer Nachteil dieses Verfahrens besteht darin, daß ein Pitch-Tracker
eingesetzt wird, welcher Oktav-Sprungfehler
aufweist, die nachträglich
kompensiert werden müssen.
Ferner muß der Pitch-Tracker
fein abgestimmt werden, um gültige Werte
zu liefern. Das Verfahren nutzt lediglich die Intervallabstände zweier
aufeinanderfolgender Pitch-Werte. Eine Grobquantisierung der Intervalle wird
durchgeführt,
wobei diese Grobquantisierung lediglich grobe Schritte aufweist,
die als „sehr
groß", „groß", „gleichbleibend" eingeteilt sind.
Durch diese Grobquantisierung gehen die absoluten Tonangaben in
Hertz verloren, wodurch eine feinere Bestimmung der Melodie nicht
mehr möglich
ist.
-
Um
eine Musikerkennung durchführen
zu können,
ist es wünschenswert,
aus einer gespielten Tonfolge eine Notenbasierte Beschreibung beispielsweise
in Form eines MIDI-Files
oder in Form einer konventionellen Notenschrift zu bestimmen, wobei jede
Note durch Tonanfang, Tonlänge
und Tonhöhe gegeben
ist.
-
Ferner
ist zu bedenken, daß die
Eingabe nicht immer exakt ist. Insbesondere für eine kommerzielle Nutzung
muß davon
ausgegangen werden, daß die
gesungene Notenfolge sowohl hinsichtlich der Tonhöhe als auch
hinsichtlich des Tonrhythmus und der Tonfolge unvollständig sein
kann. Wenn die Notenfolge mit einem Instrument vorgespielt werden soll,
so muß davon
ausgegangen werden, daß das Instrument
unter Umständen
verstimmt ist, auf einen anderen Frequenzgrundton gestimmt ist (beispielsweise
nicht auf den Kammerton A von 440 Hz sondern auf das „A" bei 435 Hz). Ferner
kann das Instrument in einer eigenen Tonart gestimmt sein, wie z.
B. die B-Klarinette oder das Es-Saxophon. Die Melodietonfolge kann
auch bei instrumentaler Darbietung unvollständig sein, indem Töne weggelassen
sind (Delete), indem Töne
eingestreut sind (Insert), oder indem andere (falsche) Töne gespielt
werden (Replace). Ebenso kann das Tempo variiert sein. Weiterhin
ist zu berücksichtigen,
daß jedes
Instrument eine eigene Klangfarbe aufweist, so daß ein von
einem Instrument gespielter Ton eine Mischung aus Grundton und anderen
Frequenzanteilen, den sogenannten Obertönen, ist.
-
Die
DE 34 157 92 C2 offenbart
eine Einrichtung zur Sichtanzeige von Musiknoten. Unter Verwendung
einer ersten Anzahl von Abtastwerten eines in diskreten Abtastwerten
vorliegenden Musiksignals wird eine erste FFT durchgeführt, um
unter Verwendung des Leistungsspektrums eine Tonhöhenanalyse
durchzuführen.
Durch die Tonhöhenanalyse
wird der maximale Spektralwert in dem durch die Anzahl von Abtastwerten
für die
FFT definierten Zeitraum bestimmt. Anschließend wird mit einer anschließenden Gruppe
von Abtastwerten eine weitere FFT durchgeführt und wieder eine Tonhöhenanalyse
unter Berücksichtigung
des Leistungsspektrums durchgeführt.
Dieses Prozedere wird für
mehrere aufeinander folgende zeitliche Abschnitte wiederholt, um
für jeden Abschnitt
einen dominierenden Ton zu erhalten. Dann wird ermittelt, ob der
Ton anhaltend ist oder nicht, indem zwei aufeinander folgende Ergebnisse der
Tonhöhenanalyse
verglichen werden. Bei diesem Vergleich wird ermittelt, ob die Tonhöhe gemäß dem vorangehenden
Ergebnis gleich derjenigen gemäß dem nachfolgenden
Ergebnis ist, und ob der Unterschied zwischen den bei diesen beiden
aufeinander folgenden Analysen erzielten Pegeln innerhalb eines vorbestimmten
Pegelbereichs liegt. Ferner wird überprüft, ob die gerade erfaßte Tonhöhe gleich
einer zuvor erfaßten
Tonhöhe
ist. Ferner wird die Frequenz des bei der Tonhöhenanalyse ermittelten Grundtons dahingehend überprüft, ob die
Frequenzdifferenz zwischen den beiden aufeinander folgenden Analysen
Innerhalb eines vorbestimmten Frequenzbereichs liegt. Auf der Basis
dieser Vorgehensweise wird die Tonlänge, also ob ein Ton ein anhaltender Ton
ist, und die Tonhöhe
ermittelt und schließlich
in Notenschrift dargestellt.
-
Die
Aufgabe der vorliegenden Erfindung besteht darin, ein robusteres
Verfahren und eine robustere Vorrichtung zum Überführen eines Musiksignals in
eine Noten-basierte Beschreibung zu schaffen.
-
Diese
Aufgabe wird durch ein Verfahren gemäß Patentanspruch 1 oder durch
eine Vorrichtung gemäß Patentanspruch
31 gelöst.
-
Eine
weitere Aufgabe der vorliegenden Erfindung besteht darin, ein robusteres
Verfahren und eine robustere Vorrichtung zum Referenzieren eines Musiksignals
in einer Datenbank, die eine Noten-basierte Beschreibung einer Mehrzahl
von Datenbank-Musiksignalen aufweist, zu schaffen.
-
Diese
Aufgabe wird durch ein Verfahren nach Patentanspruch 23 oder durch
eine Vorrichtung nach Patentanspruch 32 gelöst.
-
Der
vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß für eine effiziente
und robuste Überführung eines
Musiksignals in eine Noten-basierte Beschreibung eine Ein schränkung dahingehend
nicht akzeptabel ist, daß eine
gesungene oder gespielte Notenfolge durch Stoppkonsonanten dargeboten
werden muß,
die dazu führen,
daß die
Leistungs-Zeit-Darstellung
des Musiksignals scharfe Leistungseinbrüche aufweist, welche dazu verwendet
werden können,
eine Segmentierung des Musiksignals durchzuführen, um einzelne Töne der Melodiefolge
voneinander abgrenzen zu können.
-
Erfindungsgemäß wird aus
dem vorgesungenen oder vorgespielten oder in einer sonstigen Form
vorliegenden Musiksignal eine Noten-basierte Beschreibung dadurch
gewonnen, daß zunächst eine
Frequenz-Zeit-Darstellung des Musiksignals erzeugt wird, wobei die
Frequenz-Zeit-Darstellung Koordinatentupel aufweist, wobei ein Koordinatentupel einen
Frequenzwert und einen Zeitwert aufweist, wobei der Zeitwert die
Zeit des Auftretens des zugeordneten Frequenz in dem Musiksignal
angibt. Anschließend
wird eine Fitfunktion als Funktion der Zeit berechnet, deren Verlauf
durch die Koordinatentupel der Frequenz-Zeit-Darstellung bestimmt
ist. Aus der Fitfunktion werden zumindest zwei benachbarte Extremwerte
ermittelt. Die zeitliche Segmentierung der Frequenz-Zeit-Darstellung,
um Töne
einer Melodiefolge voneinander abgrenzen zu können, wird auf der Basis der
ermittelten Extremwerte durchgeführt,
wobei ein Segment durch die zumindest zwei benachbarten Extremwerte
der Fitfunktion begrenzt ist, wobei die zeitliche Länge des
Segments auf eine zeitliche Länge
einer Note für
das Segment hinweist. Damit wird ein Notenrhythmus erhalten. Die
Notenhöhen
werden schließlich
unter Verwendung lediglich von Koordinaten-Tupeln in jedem Segment bestimmt, so
daß für jedes
Segment ein Ton ermittelt wird, wobei die Töne in den aufeinanderfolgenden
Segmenten auf die Melodiefolge hinweisen.
-
Ein
Vorteil der vorliegenden Erfindung besteht darin, daß eine Segmentierung
des Musiksignals unabhängig
davon erreicht wird, ob das Musiksignal von einem Instrument gespielt
wird oder vorgesungen wird. Erfindungsgemäß ist es nicht mehr erforderlich,
daß ein
zu verarbeitendes Musik signal einen Leistungs-Zeit-Verlauf hat,
der scharfe Einbrüche
aufweisen muß,
um die Segmentierung vornehmen zu können. Die Eingabeart ist bei
dem erfindungsgemäßen Verfahren
somit nicht mehr beschränkt.
Während
das erfindungsgemäße Verfahren bei
monophonen Musiksignalen, wie sie durch eine einzelne Stimme oder
durch ein einzelnes Instrument erzeugt werden, am besten funktioniert,
ist es auch für
eine polyphone Darbietung geeignet, wenn in der polyphonen Darbietung
ein Instrument bzw. eine Stimme vorherrschend ist.
-
Aufgrund
der Tatsache, daß die
zeitliche Segmentierung der Noten der Melodiefolge, die das Musiksignal
darstellt, nicht mehr durch Leistungsbetrachtungen durchgeführt wird,
sondern durch Berechnen einer Fitfunktion unter Verwendung einer Frequenz-Zeit-Darstellung,
ist eine kontinuierliche Eingabe möglich, wie sie einem natürlichen
Gesang oder einem natürlichen
Instrumentenspiel am ehesten entspricht.
-
Bei
einem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung wird eine Instrumenten-spezifische Nachbearbeitung
der Frequenz-Zeit-Darstellung durchgeführt, um die Frequenz-Zeit-Darstellung
unter Kenntnis der Charakteristika eines bestimmten Instruments
nachzubearbeiten, um eine genauere Pitch-Contour-Linie und damit eine
genauere Tonhöhenbestimmung
zu erreichen.
-
Ein
Vorteil der vorliegenden Erfindung besteht darin, daß das Musiksignal
von jedem beliebigen Harmonic-Sustained Musikinstrument vorgetragen
werden kann, wobei zu den Harmonic-Sustained-Musikinstrumenten die
Blechinstrumente, die Holzblasinstrumente oder auch die Saiteninstrumente,
wie z. B. Zupfinstrumente, Streichinstrumente oder Anschlaginstrumente,
zählen.
Aus der Frequenz-Zeit-Verteilung wird unabhängig von der Klangfarbe des
Instrumentes der gespielte Grundton, der durch eine Note einer Notenschrift
vorgegeben ist, extrahiert.
-
Das
erfindungsgemäße Konzept
zeichnet sich somit dadurch aus, daß die Melodiesequenz, d. h.
das Musiksignal, von einem beliebigen Musikinstrument vorgetragen
werden kann. Das erfindungsgemäße Konzept
ist robust gegenüber
verstimmten Instrumenten, „schiefen" Tonlagen beim Singen
oder Pfeifen von ungeübten
Sängern
und unterschiedlich vorgetragenen Tempi im zu bearbeitenden Liedausschnitt.
-
Ferner
kann das Verfahren in seiner bevorzugten Ausführungsform, bei der eine Hough-Transformation
zur Erzeugung der Frequenz-Zeit-Darstellung des Musiksignals eingesetzt
wird, Rechenzeit-effizient implementiert werden, wodurch – eine hohe
Ausführungsgeschwindigkeit
erreicht werden kann.
-
Ein
weiterer Vorteil des erfindungsgemäßen Konzepts besteht darin,
daß zur
Referenzierung eines gesungenen oder gespielten Musiksignals aufgrund
der Tatsache, daß eine
Noten-basierte Beschreibung, die eine Rhythmus-Darstellung und eine Darstellung
der Notenhöhen
liefert, eine Referenzierung in einer Datenbank vorgenommen werden
kann, in der eine Vielzahl von Musiksignalen abgespeichert sind.
Insbesondere aufgrund der großen
Verbreitung des MIDI-Standards existiert ein reicher Schatz an MIDI-Dateien
für eine
große
Anzahl von Musikstücken.
-
Ein
weiterer Vorteil des erfindungsgemäßen Konzepts besteht darin,
daß auf
der Basis der erzeugten Noten-basierten Beschreibung mit den Methoden
der DNA-Sequenzierung Musikdatenbanken beispielsweise im MIDI-Format
mit leistungskräftigen DNA-Sequenzierungs-Algorithmen,
wie z. B. dem Boyer-Moore-Algorithmus,
unter Verwendung von Replace/Insert/Delete-Operationen durchsucht
werden können.
Diese Form des zeitlich sequentiell ablaufenden Vergleichs unter
gleichzeitiger gesteuerter Manipulation des Musiksignals liefert
ferner die benötigte
Robustheit gegenüber
ungenauen Musiksignalen, wie sie durch ungeübte Instrumentalisten oder ungeübte Sänger erzeugt
werden können.
Dieser Punkt ist wesentlich für
einen hohen Verbreitungsgrad eines Musikerkennungssystems, da die
Anzahl geübter
Instrumentalisten und geübter
Sänger
unter der Bevölkerung
naturgemäß eher gering
ist.
-
Bevorzugte
Ausführungsbeispiele
der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die
beiliegenden Zeichnungen näher
erläutert.
Es zeigen:
-
1 ein
Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Überführen eines
Musiksignals in eine Noten-basierte Darstellung;
-
2 ein
Blockschaltbild einer bevorzugten Vorrichtung zum Erzeugen einer
Frequenz-Zeit-Darstellung aus einem Musiksignal, bei der zur Flankendetektion
eine Hough-Transformation eingesetzt wird;
-
3 ein
Blockschaltbild einer bevorzugten Vorrichtung zum Erzeugen einer
segmentierten Zeit-Frequenz-Darstellung
aus der durch 2 gelieferten Frequenz-Zeit-Darstellung;
-
4 eine
erfindungsgemäße Vorrichtung zum
Ermitteln einer Folge von Notenhöhen
auf der Basis der von 3 ermittelten segmentierten Zeit-Frequenz-Darstellung;
-
5 eine
bevorzugte Vorrichtung zum Ermitteln eines Noten-Rhythmus auf der
Basis der segmentierten Zeit-Frequenz-Darstellung von 3;
-
6 eine
schematische Darstellung einer Design-Rule-Überprüfungseinrichtung,
um unter Kenntnis der Notenhöhen
und des Notenrhythmus zu überprüfen, ob
die ermittelten Werte nach kompositorischen Regeln sinnvoll sind;
-
7 ein
Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Referenzieren
eines Musiksignal in einer Datenbank; und
-
8 ein
Frequenz-Zeit-Diagramm der ersten 13 Sekunden des Klarinettenquintetts
A-Dur von W. A. Mozart, KV 581, Larghetto, Jack Bryner, Klarinette,
Aufnahme: 12/1969, London, Philips 420 710-2 einschließlich Fitfunktion
und Notenhöhen.
-
1 zeigt
ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Überführen eines Musiksignals
in eine Noten-basierte Darstellung. Ein Musiksignal, das gesungen,
gespielt oder in Form von digitalen zeitlichen Abtastwerten vorliegt,
wird in eine Einrichtung 10 zum Erzeugen einer Frequenz-Zeit-Darstellung
des Musiksignals eingespeist, wobei die Frequenz-Zeit-Darstellung
Koordinatentupel aufweist, wobei ein Koordinatentupel einen Frequenzwert
und einen Zeitwert umfaßt,
wobei der Zeitwert die Zeit des Auftretens der zugeordneten Frequenz
in dem Musiksignal angibt. Die Frequenz-Zeit-Darstellung wird in
eine Einrichtung 12 zum Berechnen einer Fitfunktion als
Funktion der Zeit eingespeist, deren Verlauf durch die Koordinatentupel
der Frequenz-Zeit-Darstellung bestimmt ist. Aus der Fitfunktion
werden mittels einer Einrichtung 14 benachbarte Extrema
ermittelt, welche dann von einer Einrichtung 16 zum Segmentieren
der Frequenz-Zeit-Darstellung verwendet werden, um eine Segmentierung
durchzuführen,
die auf einen Notenrhythmus hinweist, der an einem Ausgang 18 ausgegeben
wird. Die Segmentierungsinformationen werden ferner von einer Einrichtung 20 verwendet,
die zur Bestimmung der Tonhöhe
pro Segment vorgesehen ist. Die Einrichtung 20 verwendet
zur Bestimmung der Tonhöhe
pro Segment lediglich die Koordinaten-Tupel in einem Segment, um
für die
aufeinanderfolgenden Segmente aufeinanderfolgende Notenhöhen an einem
Ausgang 22 auszugeben. Die Daten am Ausgang 18,
also die Rhythmusinformationen, und die Daten an dem Ausgang 2-2,
also die Ton- bzw. Notenhöheninformationen,
bilden zusammen eine Noten-basierte Darstellung, aus der eine MIDI-Datei
oder mittels einer graphischen Schnittstelle auch eine Notenschrift
erzeugt werden kann.
-
Im
nachfolgenden wird anhand von 2 auf eine
bevorzugte Ausführungsform
zum Erzeugen einer Frequenz-Zeit-Darstellung
des Musiksignals eingegangen. Ein Musiksignal, das beispielsweise als
Folge von PCM-Samples vorliegt, wie sie durch Aufzeichnen eines
gesungenen oder gespielten Musiksignals und anschließendes Abtasten
und Analog/Digital-Wandeln
erzeugt werden, wird in einen Audio-I/O-Handler 10a eingespeist.
Alternativ kann das Musiksignal in digitalem Format auch direkt
von der Festplatte eines Computers oder von der Soundkarte eines
Computers kommen. Sobald der Audio-I/O-Handler 10a eine
Ende-Datei-Marke erkennt, schließt er die Audiodatei und lädt je nach
Bedarf das nächste
zu bearbeitende Audiofile oder terminiert den Einlesevorgang. Die
stromförmig
vorliegenden PCM-Samples (PCM = Pulse Code Modulation) werden nacheinander
an eine Vorverarbeitungseinrichtung 10b übermittelt,
in der der Datenstrom auf eine einheitliche Abtastrate umgewandelt
wird. Es wird bevorzugt, in der Lage zu sein, mehrere Abtastraten zu
verarbeiten, wobei die Abtastrate des Signals bekannt sein soll,
um aus der Abtastrate Parameter für die nachfolgende Signalflankendetektionseinheit 10c zu
ermitteln.
-
Die
Vorverarbeitungseinrichtung 10b umfaßt ferner eine Pegelanpassungseinheit,
die allgemein eine Normierung der Lautstärke des Musiksignals durchführt, da
die Lautstärkeinformation
des Musiksignals in der Frequenz-Zeit-Darstellung nicht benötigt wird.
Damit die Lautstärkeinformationen
die Bestimmung der Frequenz-Zeit-Koordinatentupel nicht beeinflussen,
wird eine Lautstärkenormierung
folgendermaßen
vorgenommen. Die Vorverarbeitungseinheit zur Normierung des Pegels
des Musiksignals umfaßt
einen Look-Ahead-Buffer
und bestimmt daraus die mittlere Lautstärke des Signals. Das Signal wird
dann mit einem Skalierungsfaktor multipliziert. Der Skalierungsfaktor
ist das Produkt aus einem Gewichtungsfaktor und dem Quotienten aus
Vollausschlag und mittlerer Signallautstärke. Die Länge des Look-Ahead-Buffers ist
variabel.
-
Die
Flankendetektionseinrichtung 10c ist angeordnet, um aus
dem Musiksignal Signalflanken spezifizierter Länge zu extrahieren. Die Einrichtung 10c führt vorzugsweise
eine Hough-Transformation durch.
-
Die
Hough-Transformation ist in dem U.S.-Patent Nr. 3,069,654 von Paul
V. C. Hough beschrieben. Die Hough-Transformation dient zur Erkennung von
komplexen Strukturen und insbesondere zur automatischen Erkennung
von komplexen Linien in Photographien oder anderen Bilddarstellungen. In
ihrer Anwendung gemäß der vorliegenden
Erfindung wird die Hough-Transformation dazu verwendet, um aus dem
Zeitsignal Signalflanken mit spezifizierten zeitlichen Längen zu
extrahieren. Eine Signalflanke wird zunächst durch ihre zeitliche Länge spezifiziert.
Im Idealfall einer Sinuswelle wäre
eine Signalflanke durch die ansteigende Flanke der Sinusfunktion
von 0 bis 90° definiert.
Alternativ könnte
die Signalflanke auch durch den Anstieg der Sinus-Funktion von –90° bis +90° spezifiziert
sein.
-
Liegt
das Zeitsignal als Folge von zeitlichen Abtastwerten vor, so entspricht
die zeitliche Länge
einer Signalflanke unter Berücksichtigung
der Abtastfrequenz, mit der die Samples erzeugt worden sind, einer
bestimmten Anzahl von Abtastwerten. Die Länge einer Signalflanke kann
somit ohne weiteres durch Angabe der Anzahl der Abtastwerte, die
die Signalflanke umfassen soll, spezifiziert werden.
-
Darüber hinaus
wird es bevorzugt, eine Signalflanke nur dann als Signalflanke zu
detektieren, wenn dieselbe stetig ist und einen monotonen Verlauf hat,
also im Falle einer positiven Signalflanke einen monoton steigenden
Verlauf hat. Selbstverständlich können auch
negative Signalflanken, also monoton fallende Signalflanken detektiert
werden.
-
Ein
weiteres Kriterium zur Klassifizierung von Signalflanken besteht
darin, daß eine
Signalflanke nur dann als Signalflanke detektiert wird, wenn sie einen
bestimmten Pegelbereich überstreicht.
Um Rauschstörungen
auszublenden, wird es bevorzugt, für eine Signalflanke einen minimalen
Pegelbereich oder Amplitudenbereich vorzugeben, wobei monoton steigende
Signalflanken unterhalb dieses Bereichs nicht als Signalflanken
detektiert werden.
-
Die
Signalflankendetektionseinheit 12 liefert somit eine Signalflanke
und den Zeitpunkt des Auftretens der Signalflanke. Hierbei ist es
unerheblich, ob als Zeitpunkt der Signalflanke der Zeitpunkt des
ersten Abtastwerts der Signalflanke, der Zeitpunkt des letzten Abtastwerts
der Signalflanke oder der Zeitpunkt irgendeines Abtastwerts innerhalb
der Signalflanke genommen wird, so lange aufeinanderfolgende Signalflanken
gleich behandelt werden.
-
Dem
Flankendetektor 10c ist eine Frequenzberechnungseinheit 10d nachgeschaltet.
Die Frequenzberechnungseinheit 10d ist ausgebildet, um zwei
zeitlich aufeinander folgende gleiche oder innerhalb eines Toleranzwerts
gleiche Signalflanken zu suchen und dann die Differenz der Auftrittszeiten
der Signalflanken zu bilden. Der Kehrwert der Differenz entspricht
der Frequenz, die durch die beiden Signalflanken bestimmt ist. Wenn
ein einfacher Sinuston betrachtet wird, so ist eine Periode des
Sinustons durch den zeitlichen Abstand zwei aufeinanderfolgender
gleich langer z. B. positiver Signalflanken gegeben.
-
Es
sei darauf hingewiesen, daß die Hough-Transformation
eine hohe Auflösung
beim Detektieren von Signalflanken in dem Musiksignal aufweist,
so daß durch
die Frequenzberechnungseinheit 10d eine Frequenz-Zeit-Darstellung
des Musiksignals erhalten werden kann, die mit hoher Auflösung die
zu einem bestimmten Zeitpunkt vorhandenen Frequenzen aufweist. Eine
solche Frequenz-Zeit-Darstellung ist in 8 gezeigt.
Die Frequenz-Zeit-Darstellung hat als Abszisse eine Zeitachse, entlang
der die absolute Zeit in Sekunden aufgetragen ist, und hat als Ordinate
eine Frequenzachse, in der bei der in 8 gewählten Darstellung
die Frequenz in Hz aufgetragen ist. Sämtliche Bildpunkte in 8 stellen
Zeit-Frequenz-Koordinatentupel
dar, wie sie erhalten werden, wenn die ersten 13 Sekunden des Werks
von W. A. Mozart, Köchel-Verzeichnis Nr. 581,
einer Hough-Transformation unterzogen werden. In den ersten etwa
5,5 Sekunden dieses Stückes
findet sich ein relativ polyphoner Orchesterpart mit einer großen Bandbreite
von relativ gleichmäßig auftretenden
Frequenzen zwischen etwa 600 und etwa 950 Hz. Dann, etwa ab 5,5
Sekunden, setzt eine dominante Klarinettenstimme ein, die die Tonfolge H1,
C2, Cis2, D2, H1 und A1 spielt. Die Orchestermusik tritt gegenüber der
Klarinette in den Hintergrund, was sich in der Frequenz-Zeit-Darstellung
von 8 dadurch bemerkbar macht, daß die hauptsächliche Verteilung
von Frequenz-Zeit-Koordinatentupeln innerhalb eines begrenzten Bandes 800 liegt,
das auch als Pitch-Contour-Streifenband
bezeichnet wird. Eine Häufung
von Koordinatentupeln um einen Frequenzwert deutet darauf hin, daß das Musiksignal
einen relativ monophonen Anteil hat, wobei zu beachten ist, daß übliche Blech/Holzblasinstrumente
neben dem Grundton eine Vielzahl von Obertönen erzeugen, wie z. B. die
Oktave, die nächste
Quint, etc. Auch diese Obertöne
werden mittels der Hough-Transformation und anschließender Frequenzberechnung
durch die Einheit 10d ermittelt und tragen zu dem verbreiterten Pitch-Contour-Streifenband
bei. Auch das Vibrato eines Musikinstruments, das sich durch eine
schnelle Frequenzänderung über der
Zeit des gespielten Tons auszeichnet, trägt zu einer Verbreiterung des Pitch-Contour-Streifenbands
bei. Wird eine Folge von Sinustönen
erzeugt, so würde
das Pitch-Contour-Streifenband zu einer Pitch-Contour-Linie degenerieren.
-
Der
Frequenzberechnungseinheit 10d ist eine Einrichtung 10e zur
Ermittlung von Häufungsgebieten
nachgeschaltet. In der Einrichtung 10e zur Ermittlung der
Häufungsgebiete
werden die charakteristischen Verteilungspunktwolken (Cluster),
die sich bei der Bearbeitung von Audiodateien als stationäres Merkmal
ergeben, herausgearbeitet. Hierzu kann eine Elimination aller isolierten
Frequenz-Zeit-Tupel durchgeführt
werden, welche einen vorgegebenen Mindestabstand zum nächsten räumlichen
Nachbarn überschreiten.
So wird eine solche Verarbeitung dazu führen, daß nahezu sämtliche Koordinatentupel oberhalb
des Pitch-Contour-Streifenbands 800 eliminiert werden,
wodurch am Beispiel von 8 in dem Bereich von 6 bis 12
Sekunden lediglich das Pitch-Contour-Streifenband und einige Häufungsgebiete
unterhalb des Pitch-Contour-Streifenbands verbleiben.
-
Das
Pitch-Contour-Streifenband 800 besteht somit aus Clustern
bestimmter Frequenzbreite und zeitlicher Länge, wobei diese Cluster von
den gespielten Tönen
hervorgerufen werden.
-
Die
durch die Einrichtung 10e erzeugte Frequenz-Zeit-Darstellung, in der
die isolierten Koordinatentupel bereits eliminiert sind, wird vorzugsweise zur
Weiterverarbeitung anhand der Vorrichtung, die in 3 gezeigt
ist, verwendet. Alternativ könnte
jedoch auf die Elimination von Tupeln außerhalb des Pitch-Contour-Streifenbands
verzichtet werden, um ein Segmentieren der Zeit-Frequenz-Darstellung
zu erreichen. Dies könnte
jedoch dazu führen,
daß die zu
berechnende Fitfunktion „irre
geführt" wird, und Extremwerte
liefert, die nicht Tongrenzen zugeordnet sind, sondern die aufgrund
der außerhalb
des Pitch-Contour-Streifenbands liegende Koordinatentupel vorhanden
sind.
-
Bei
einem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung wird, wie es in 3 gezeigt
ist, eine instrumentenspezifische Nachbearbeitung 10f durchgeführt, um
aus dem Pitch-Contour-Streifenband 800 wenn möglich eine
einzige Pitch-Contour-Linie zu erzeugen. Hierzu wird das Pitch-Contour-Streifenband
einer instrumentenspezifischen Fallanalyse unterzogen. Bestimmte
Instrumente, wie z. B. Oboe oder Waldhorn, weisen charakteristische
Pitch-Contour-Streifenbänder auf.
Bei der Oboe treten beispielsweise zwei parallele Streifenbänder auf,
da durch das Doppelrohrblatt des Oboen-Mundstücks die Luftsäule zu zwei
Longitudinalschwingungen unterschiedlicher Frequenz angeregt wird,
und die Schwingungsform zwischen diesen beiden Modi oszilliert.
Die Einrichtung 10f zur instrumentenspezifischen Nachbearbeitung
untersucht die Frequenz-Zeit-Darstellung auf das Vorliegen charakteristischer
Merkmale, und schaltet, wenn diese Merkmale festgestellt wurden,
ein instrumentenspezifisches Nachbehandlungsverfahren ein, welches auf
beispielsweise in einer Datenbank gespeicherte Spezialitäten verschiedener
Instrumente eingeht. Eine Möglichkeit
würde beispielsweise
sein, von den zwei parallelen Streifenbändern der Oboe entweder das
obere oder das untere zu nehmen, oder, je nach Bedarf, einen Mittelwert
oder Medianwert zwischen beiden Streifenbändern der weiteren Verarbeitung zugrunde
zu legen. Prinzipiell ist es möglich,
für einzelne
Instrumente eigene Charakteristika im Frequenz-Zeit-Diagramm festzustellen, da jedes
Instrument eine typische Klangfarbe aufweist, die durch die Zusammensetzung
der Oberwellen und dem zeitlichen Verlauf der Grundfrequenz und
der Oberwellen bestimmt ist.
-
Idealerweise
wird am Ausgang der Einrichtung 10f eine Pitch-Contour-Linie,
also ein sehr schmales Pitch-Contour-Streifenband erhalten. Im Falle eines
polyphonen Klanggemisches mit dominanter monophoner Stimme, wie
z. B. der Klarinettenstimme in der rechten Hälfte von 8,
wird jedoch trotz instrumentenspezifischer Nachverarbeitung keine
Pitch-Contour-Linie erreichbar sein, da auch die Hintergrundinstrumente
Töne spielen,
die zu einer Verbreiterung führen.
-
Im
Falle einer monophonen Singstimme oder eines einzelnen Instruments
ohne Hintergrundorchester liegt jedoch nach der instrumentenspezifischen
Nachbearbeitung durch die Einrichtung 10f eine schmale
Pitch-Contour-Linie vor.
-
An
dieser Stelle sei darauf hingewiesen, daß die Frequenz-Zeit-Darstellung,
wie sie beispielsweise hinter der Einheit 10d von 2 vorliegt,
alternativ auch durch ein Frequenztransformationsverfahren erzeugt
werden kann, wie es beispielsweise eine schnelle Fourier-Transformation
ist. Durch eine Fourier-Transformation wird aus einem Block von
zeitlichen Abtastwertes des Musiksignals ein Kurzzeitspektrum erzeugt.
Problematisch bei der Fourier-Transformation ist jedoch die Tatsache
der geringen Zeitauflösung,
wenn ein Block mit vielen Abtastwerten in den Frequenzbereich transformiert
wird. Ein Block mit vielen Abtastwerten ist jedoch erforderlich,
um eine gute Frequenzauflösung
zu erreichen. Wird dagegen, um eine hohe Zeitauflösung zu
erreichen, ein Block mit wenigen Abtastwerten verwendet, so wird
eine geringere Frequenzauflösung
erreicht. Daraus wird ersichtlich, daß bei einer Fourier-Transformation
entweder eine hohe Frequenzauflösung
oder eine hohe Zeitauflösung
erreicht werden kann. Eine hohe Frequenz- und eine hohe Zeitauflösung schließen sich,
wenn die Fourier-Transformation
verwendet wird, gegenseitig aus. Wenn dagegen eine Flankendetektion
mittels der Hough-Transformation und eine Frequenzberechnung, um
die Frequenz-Zeit-Darstellung
zu erhalten, durchgeführt
wird, ist sowohl eine hohe Frequenzauflösung als auch eine hohe Zeitauflösung zu
erreichen. Um einen Frequenzwert bestimmen zu können, benötigt die Vorgehensweise mit
der Hough-Transformation lediglich z. B. zwei ansteigende Signalflanken
und daher lediglich zwei Periodendauern. Im Gegensatz zur Fourier-Transformation wird
die Frequenz jedoch mit hoher Auflösung bestimmt, wobei gleichzeitig
eine hohe Zeitauflösung erreicht
wird. Aus diesem Grund wird die Hough-Transformation zur Erzeugen
der Frequenz-Zeit-Darstellung gegenüber einer Fourier-Transformation
bevorzugt.
-
Um
einerseits die Tonhöhe
eines Tons zu bestimmen, und um andererseits den Rhythmus eines Musiksignals
ermitteln zu können,
muß aus
der Pitch-Contour-Linie bestimmt werden, wann ein Ton beginnt und
wann derselbe endet. Hierzu wird erfindungsgemäß eine Fitfunktion verwendet,
wobei bei einem bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung eine Polynomfitfunktion mit einem Grad
n verwendet wird.
-
Obgleich
andere Fitfunktionen auf der Basis von beispielsweise Sinusfunktionen
oder Exponentialfunktionen möglich
sind, wird gemäß der vorliegenden
Erfindung eine Polynomfitfunktion mit einem Grad n bevorzugt. Wenn
eine Polynomfitfunktion verwendet wird, geben die Abstände zwischen
zwei Minima der Polynomfitfunktion einen Hinweis auf die zeitliche
Segmentierung des Musiksignals, d. h. auf die Folge von Noten des
Musiksignals. Eine solche Polynomfitfunktion 820 ist in 8 eingezeichnet.
Es ist zu sehen, daß die
Polynomfitfunktion 820 zu Anfang des Musiksignals und nach
etwa 2,8 Sekunden zwei Polynomfitnullstellen 830, 832 aufweist,
welche die beiden polyphonen Häufungsgebiete
am Beginn des Mozart-Stücks „einleiten". Dann geht das Mozart-Stück in eine
monophone Gestalt über,
da die Klarinette dominant gegenüber
den begleitenden Streichern hervortritt und die Tonfolge h1 (Achtel),
c2 (Achtel), cis2 (Achtel), d2 (punktierte Achtel), h1 (Sechzehntel)
und a1 (Viertel) spielt. Entlang der Zeitachse sind die Minima der
Polynomfitfunktion durch die kleinen Pfeile (z. B. 834) markiert.
Obgleich es bei einem bevorzugten Ausführungsbeispiel der vorliegenden
Erfindung bevorzugt wird, nicht unmittelbar das zeitliche Auftreten
der Minima zur Segmentierung zu verwenden, sondern noch eine Skalierung
mit einer vorher berechneten Skalierungskennlinie durchzuführen, führt auch
bereits eine Segmentierung ohne Verwendung der Skalierungskennlinie zu
brauchbaren Ergebnissen, wie es aus 8 zu sehen
ist.
-
Die
Koeffizienten der Polynomfitfunktion, welche einen hohen Grad im
Bereich von über
30 aufweisen kann, werden mit Methoden der Ausgleichsrechnung unter
Verwendung der Frequenz-Zeit-Koordinatentupel, die in 8 gezeigt sind,
berechnet. Bei dem in 8 gezeigten Beispiel werden hierzu
sämtliche
Koordinatentupel verwendet. Die Polynomfitfunktion wird so in die
Frequenz-Zeit-Darstellung gelegt, daß die Polynomfitfunktion in
einem bestimmten Abschnitt des Stücks, in 8 die ersten
13 Sekunden, optimal in die Koordinaten-Tupel gelegt wird, so daß der Abstand
der Tupel zur Polynomfitfunktion insgesamt gerechnet minimal wird.
Dadurch können „Scheinminima" entstehen, wie beispielsweise
das Minima der Polynomfitfunktion bei etwa 10,6 Sekunden. Dieses
Minima rührt
daher, daß unter
dem Pitch-Contour-Streifenband Cluster sind, die bevorzugterweise
durch die Einrichtung 10e zur Ermittlung der Häufungsgebiete (2)
beseitigt werden.
-
Nachdem
die Koeffizienten der Polynomfitfunktion berechnet worden sind,
können
mittels einer Einrichtung 10h die Minima der Polynomfitfunktion bestimmt
werden. Da die Polynomfitfunktion analytisch vorliegt, ist eine
einfache Differenzierung und Nullstellensuche ohne weiteres möglich. Für andere Polynomfitfunktionen
können
numerische Verfahren zum Ableiten und Nullstellensuchen eingesetzt
werden.
-
Wie
es bereits ausgeführt
worden ist, wird durch die Einrichtung 16 eine Segmentierung
der Zeit-Frequenz-Darstellung
auf der Basis der ermittelten Minima vorgenommen.
-
Im
nachfolgenden wird darauf eingegangen, wie der Grad der Polynomfitfunktion,
deren Koeffizienten durch die Einrichtung 12 berechnet
werden, gemäß einem
bevorzugten Ausführungsbeispiel
bestimmt wird. Hierzu wird eine Standardtonfolge mit festgelegten
Standardlängen
zur Kalibrierung der erfindungsgemäßen Vorrichtung vorgespielt.
Daraufhin wird für
Polynome verschiedener Grade eine Koeffizientenberechnung und Minimaermittlung
durchgeführt.
Der Grad wird dann so gewählt,
daß die
Summe der Differenzen zweier aufeinanderfolgender Minima des Polynoms
von der gemessenen Tonlänge, d.
h. durch Segmentierung bestimmten Tonlänge, der vorgespielten Standardreferenztöne minimiert
wird. Ein zu ge ringer Grad des Polynoms führt dazu, daß das Polynom
zu grob vorgeht und den einzelnen Tönen nicht folgen kann, während ein
zu hoher Grad des Polynoms dazu führen kann, daß die Polynomfitfunktion
zu stark „zappelt". Bei dem in 8 gezeigten
Beispiel wurde ein Polynom fünfzigster
Ordnung gewählt.
Diese Polynomfitfunktion wird dann für einen nachfolgenden Betrieb
zugrunde gelegt, so daß die
Einrichtung zum Berechnen der Fitfunktion (12 in 1)
vorzugsweise lediglich die Koeffizienten der Polynomfitfunktion
und nicht zusätzlich
den Grad der Polynomfitfunktion berechnen muß, um eine Rechenzeitersparnis
zu erreichen.
-
Der
Kalibrierungslauf unter Verwendung der Tonfolge aus Standardreferenztönen vorgegebener Länge kann
ferner dazu verwendet werden, um eine Skalierungskennlinie zu ermitteln,
die in die Einrichtung 16 zum Segmentieren eingespeist
werden kann (30), um den zeitlichen Abstand der Minima der Polynomfitfunktion
zu skalieren. Wie es aus 8 ersichtlich ist, liegt das
Minima der Polynomfitfunktion nicht unmittelbar am Beginn des Haufens,
der den Ton h1 darstellt, also nicht unmittelbar bei etwa 5,5 Sekunden,
sondern etwa bei 5,8 Sekunden. Wenn eine Polynomfitfunktion höherer Ordnung
gewählt wird,
würde das
Minima mehr zum Rand des Haufens hin bewegt werden. Dies würde jedoch
unter Umständen
dazu führen,
daß die
Polynomfitfunktion zu stark zappelt und zu viele Scheinminima erzeugt.
Daher wird es bevorzugt, die Skalierungskennlinie zu erzeugen, die
für jeden
berechneten Minimaabstand einen Skalierungsfaktor bereit hält. Je nach
Quantelung der vorgespielten Standardreferenztöne kann eine Skalierungskennlinie
mit frei wählbarer
Auflösung
erzeugt werden. Es sei darauf hingewiesen, daß diese Kalibrierungs- bzw.
Skalierungskennlinie lediglich einmal vor Inbetriebnahme der Vorrichtung erzeugt
werden muß,
um dann während
eines Betriebs der Vorrichtung zum Überführen eines Musiksignals in
eine Noten-basierte Beschreibung verwendet werden zu können.
-
Die
zeitliche Segmentierung der Einrichtung 16 erfolgt somit
durch den Polynomfit n-ter Ordnung, wobei der Grad vor Inbetriebnahme
der Vorrichtung so gewählt
wird, daß die
Summe der Differenzen zweier aufeinanderfolgender Minima des Polynoms von
den gemessenen Tonlängen
von Standardreferenztönen
minimiert wird. Aus der mittleren Abweichung wird die Skalierungskennlinie
bestimmt, die den Bezug zwischen der mit dem erfindungsgemäßen Verfahren
gemessenen Tonlänge
und der tatsächlichen
Tonlänge
herstellt. Obgleich ohne Skalierung bereits brauchbare Ergebnisse
erhalten werden, wie es 8 deutlich macht, kann durch
die Skalierungskennlinie die Genauigkeit des Verfahrens noch verbessert
werden.
-
Im
nachfolgenden wird auf 4 Bezug genommen, um einen bevorzugten
Aufbau der Einrichtung 20 zum Bestimmen der Tonhöhe pro Segment darzustellen.
Die durch die Einrichtung 16 von 3 segmentierte
Zeit-Frequenz-Darstellung wird in eine Einrichtung 20a eingespeist,
um einen Mittelwert aller Frequenz-Tupel oder aber einen Medianwert
aller Koordinatentupel pro Segment zu bilden. Die besten Ergebnisse
ergeben sich, wenn lediglich die Koordinatentupel innerhalb der
Pitch-Contour-Linie verwendet werden. In der Einrichtung 20a wird
somit für
jeden Cluster, dessen Intervallgrenzen durch die Einrichtung 16 zum
Segmentieren (3) bestimmt worden sind, ein
Pitchwert, d. h. ein Tonhöhenwert, gebildet.
Das Musiksignal liegt am Ausgang der Einrichtung 20a somit
bereits als eine Folge von absoluten Pitchhöhen vor. Prinzipiell könnte diese
Folge von absoluten Pitchhöhen
bereits als Notenfolge bzw. Noten-basierte Darstellung verwendet
werden.
-
Um
jedoch eine robustere Notenberechnung zu erhalten, und um von der
Stimmung der verschiedenen Instrumente etc. unabhängig zu
werden, wird anhand der Folge von Pitchwerten am Ausgang der Einrichtung 20a die
absolute Stimmung, die durch die Angabe der Frequenzverhältnisse
zweier benachbarter Halbtonstufen und den Referenzkammerton spezifiziert ist,
bestimmt. Hierzu wird aus den absoluten Pitchwerten der Tonfolge
ein Tonkoordinatensystem durch die Einrichtung 20b berechnet.
Sämtliche
Töne des
Musiksignals werden genommen, und es werden sämtliche Töne von den anderen Tönen jeweils
subtrahiert, um möglichst
sämtliche
Halbtöne
der Tonleiter, die dem Musiksignal zugrunde liegt, zu erhalten. Beispielsweise
sind die Intervallkombinationspaare für eine Notenfolge der Länge im einzelnen:
Note 1 minus Note 2, Note 1 minus Note 3, Note 1 minus Note 4, Note
1 minus Note 5, Note 2 minus Note 3, Note 2 minus Note 4, Note 2
minus Note 5, Note 3 minus Note 4, Note 3 minus Note 5, Note 4 minus
Note 5.
-
Der
Satz von Intervallwerten bildet ein Tonkoordinatensystem. Dieses
wird nunmehr in eine Einrichtung 20c eingespeist, die eine
Ausgleichsrechnung durchführt
und das durch die Einrichtung 20b berechnete Tonkoordinatensystem
mit Tonkoordinatensystemen vergleicht, die in einer Stimmungen-Datenbank 40 gespeichert
sind. Die Stimmung kann gleichschwebend (Unterteilung einer Oktave
in 12 gleich große
Halbtonintervalle), enharmonisch, natürlich harmonisch, pythagoräisch, mitteltönig, nach Huygens,
zwölfteilig
mit natürlicher
harmonischer Basis nach Kepler, Euler, Mattheson, Kirnberger I +
II, Malcolm, mit modifizierten Quinten nach Silbermann, Werckmeister
III, IV; V, VI, Neidhardt I, II, III sein. Ebenso kann die Stimmung
instrumentenspezifisch sein, bedingt durch die Bauart des Instruments,
d. h. beispielsweise durch die Anordnung der Klappen und Tasten
etc. Die Einrichtung 20c bestimmt mittels der Methoden
der Ausgleichsrechnung die absoluten Halbtonstufen, indem durch
Variationsrechnung die Stimmung angenommen wird, die die Gesamtsumme der
Residuen der Abstände
der Halbtonstufen von den Pitchwerten minimiert. Die absoluten Tonstufen werden
dadurch bestimmt, daß die
Halbtonstufen parallel in Schritten von 1 Hz geändert werden und diejenigen
Halbtonstufen als absolut angenommen werden, die die Gesamtsumme
der Residuen der Abstände
der Halbtonstufen von den Pitchwerten minimieren. Für jeden
Pitchwert ergibt sich dann ein Abweichungswert von der nächstliegenden
Halbtonstufe. Extremausreißer
sind dadurch bestimmbar, wobei diese Werte ausgeschlossen werden
können,
indem iterativ ohne die Ausreißer
die Stimmung neu berechnet wird. Am Ausgang der Einrichtung 20c liegt
somit für
jeden Pitchwert eines Segments eine nächstliegende Halbtonstufe der
dem Musiksignal zugrunde liegenden Stimmung vor. Durch eine Einrichtung 20d zum
Quantisieren wird der Pitchwert durch die nächstliegende Halbtonstufe ersetzt,
so daß am
Ausgang der Einrichtung 20d eine Folge von Notenhöhen sowie
Informationen über
die Stimmung, die dem Musiksignal zugrunde liegt, und den Referenzkammerton
vorliegen. Diese Informationen am Ausgang der Einrichtung 20c könnten nunmehr
ohne weiteres. dazu verwendet werden, um Notenschrift zu erzeugen,
oder um eine MIDI-Datei
zu schreiben.
-
Es
sei darauf hingewiesen, daß die
Quantisierungseinrichtung 20d bevorzugt wird, um unabhängig von
dem Instrument, das das Musiksignal liefert, zu werden. Wie es nachfolgend
anhand von 7 dargestellt werden wird, ist
die Einrichtung 20d vorzugsweise ferner ausgestaltet, um
nicht nur die absoluten quantisierten Pitchwerte auszugeben, sondern
um auch die Intervallhalbtonsprünge
zwei aufeinanderfolgender Noten zu bestimmen und diese Folge von
Halbtonsprüngen
dann als Suchfolge für
einen bezugnehmend auf 7 beschriebenen DNA-Sequenzer
zu verwenden. Da das vorgespielte oder vorgesungene Musiksignal
in eine andere Tonart transponiert sein kann, abhängig auch
von der Grundstimmung des Instruments (z. B. B-Klarinette, Es-Saxophon),
wird für
die bezugnehmend auf 7 beschriebene Referenzierung
nicht die Folge von absoluten Tonhöhen verwendet, sondern die
Folge von Differenzen, da die Differenzfrequenzen von der absoluten
Tonhöhe
unabhängig
sind.
-
Im
nachfolgenden wird anhand von 5 auf eine
bevorzugte Ausgestaltung der Einrichtung 16 zum Segmentieren
der Frequenz-Zeit-Darstellung Bezug genommen, um den Notenrhythmus
zu erzeugen. So könnten
zwar bereits die Segmentierungsin formationen als Rhythmusinformationen
verwendet werden, da durch dieselben die Dauer eines Tons gegeben
ist. Es wird jedoch bevorzugt, die segmentierte Zeit-Frequenz-Darstellung bzw.
die aus derselben durch Abstand zwei benachbarter Minima bestimmten
Tonlängen
mittels einer Einrichtung 16a in normierte Tonlängen zu
transformieren. Diese Normierung wird mittels einer Subjective-Duration-Kennlinie aus der
Tonlänge
berechnet. So zeigen psychoakustische Forschungen, daß beispielsweise
eine 1/8-Pause länger
als eine 1/8-Note dauert. Solche Informationen gehen in die Subjective-Duration-Kennlinie
ein, um die normierten Tonlängen
und damit auch die normierten Pausen zu erhalten. Die normierten Tonlängen werden
dann in eine Einrichtung 16b zur Histogrammierung eingespeist.
Die Einrichtung 16b liefert eine Statistik darüber, welche
Tonlängen
auftreten bzw. um welche Tonlängen
Häufungen
stattfinden. Auf der Basis des Tonlängenhistogramms wird durch
eine Einrichtung 16c eine Grundnotenlänge festgelegt, indem die Unterteilung
der Grundnotenlänge
so vorgenommen wird, daß die
Notenlängen als
ganzzahlige Vielfache dieser Grundnotenlänge angebbar sind. So kann
man zu Sechzehntel-, Achtel-, Viertel-, Halb- oder Vollnoten gelangen.
Die Einrichtung 16c basiert darauf, daß in üblichen Musiksignalen keineswegs
beliebige Tonlängen
vorgegeben sind, sondern die verwendeten Notenlängen üblicherweise in einem festen
Verhältnis
zueinander stehen.
-
Nachdem
die Grundnotenlänge
festgelegt worden ist und damit auch die zeitliche Länge von Sechzehntel-,
Achtel-, Viertel-, Halb- oder Vollnoten werden die durch die Einrichtung 16a berechneten normierten
Tonlängen
in einer Einrichtung 16d dahingehend quantisiert, daß jede normierte
Tonlänge durch
die nächstliegende
durch die Grundnotenlänge bestimmte
Tonlänge
ersetzt wird. Damit liegt eine Folge von quantisierten normierten
Tonlängen
vor, welche vorzugsweise in einen Rhythmus-Fitter/Takt-Modul 16e eingespeist
wird. Der Rhythmus-Fitter bestimmt die Taktart, indem er berechnet, ob
mehrere Noten zusammengefaßt
jeweils Gruppen von Drei viertelnoten, Vierviertelnoten, etc. bilden.
Als Taktart wird diejenige angenommen, bei der ein über die
Anzahl der Noten normiertes Maximum an richtigen Einträgen vorliegt.
-
Damit
liegen Notenhöheninformationen
und Notenrhythmusinformationen an den Ausgängen 22 (4)
und 18 (5) vor. Diese Informationen
können
in einer Einrichtung 60 zur Design-Rule-Überprüfung zusammengeführt werden.
Die Einrichtung 60 überprüft, ob die
gespielten Tonfolgen nach kompositorischen Regeln der Melodieführung aufgebaut
sind. Noten in der Folge, die nicht in das Schema passen, werden
markiert, damit diese markierten Noten von dem DNA-Sequenzer, der anhand
von 7 dargestellt. wird, gesondert behandelt werden.
Die Einrichtung 16 sucht nach sinnvollen Konstrukten und
ist ausgebildet, um beispielsweise zu erkennen, ob bestimmte Notenfolgen
unspielbar sind bzw. üblicherweise
nicht auftreten.
-
Im
nachfolgenden wird auf 7 Bezug genommen, um ein Verfahren
zum Referenzieren eines Musiksignals in einer Datenbank gemäß einem
weiteren Aspekt der vorliegenden Erfindung darzustellen. Das Musiksignal
liegt am Eingang beispielsweise als Datei 70 vor. Durch
eine Einrichtung 72 zum Überführen des Musiksignals in eine
Noten-basierte Beschreibung, die gemäß den 1 bis 6 erfindungsgemäß aufgebaut
ist, werden Notenrhythmus-Informationen und/oder Notenhöhen-Informationen
erzeugt, die eine Suchfolge 74 für einen DNA-Sequenzer 76 bilden.
Die Folge von Noten, die durch die Suchfolge 74 dargestellt
ist, wird nunmehr entweder hinsichtlich des Notenrhythmus und/oder hinsichtlich
der Notenhöhen
mit einer Vielzahl von Noten-basierten Beschreibungen für verschiedene Stücke (Track_1
bis Track_n) verglichen, die in einer Notendatenbank 78 abgespeichert
sein können.
Der DNA-Sequenzer, der eine Einrichtung zum Vergleichen des Musiksignals
mit einer Noten-basierten Beschreibung der Datenbank 78 darstellt,
prüft eine Übereinstimmung
bzw. Ähnlichkeit.
Somit kann eine Aussage hinsichtlich des Musiksignals auf der Basis des
Vergleichs ge troffen werden. Der DNA-Sequenzer 76 ist vorzugsweise
mit einer Musik-Datenbank verbunden, in der die verschiedenen Stücke (Track_1
bis Track_n), deren Noten-basierte Beschreibungen in der Notendatenbank
gespeichert sind, als Audiodatei abgelegt sind. Selbstverständlich können die
Notendatenbank 78 und die Datenbank 80 eine einzige
Datenbank sein. Alternativ könnte auch
auf die Datenbank 80 verzichtet werden, wenn der Notendatenbank
Metainformationen über
die Stücke,
deren Noten-basierten Beschreibungen abgespeichert sind, umfassen,
wie z. B. Autor, Name des Stücks,
Musikverlag, Pressung, etc.
-
Allgemein
wird durch die in 7 gezeigte Varrichtung eine
Referenzierung eines Lieds erreicht, bei dem ein Audiofileabschnitt,
in dem eine gesungene oder mit einem Musikinstrument gespielte Tonfolge
aufgezeichnet ist, in eine Folge von Noten überführt wird, wobei diese Folge
von Noten als Suchkriterium mit gespeicherten Notenfolgen in der
Notendatenbank verglichen wird und das Lied aus der Notendatenbank
referenziert wird, bei dem die größte Übereinstimmung zwischen Noteneingabefolge
und Notenfolge in der Datenbank vorliegt. Als Noten-basierte Beschreibung
wird die MIDI-Beschreibung bevorzugt, da MIDI-Dateien für riesige
Mengen von Musikstücken
bereits existieren. Alternativ könnte
die in 7 gezeigte Vorrichtung auch aufgebaut sein, um die
Noten-basierte Beschreibung selbst zu erzeugen, wenn die Datenbank
zunächst
in einem Lern-Modus betrieben wird, der durch einen gestrichelten
Pfeil 82 angedeutet ist. Im Lern-Modus (82) würde die
Einrichtung 72 zunächst
für eine
Vielzahl von Musiksignalen eine Notenbasierte Beschreibung erzeugen und
in der Notendatenbank 78 abspeichern. Erst wenn die Notendatenbank
ausreichend gefüllt
ist, würde
die Verbindung 82 unterbrochen werden, um eine Referenzierung
eines Musiksignals durchzuführen.
Nachdem MIDI-Dateien bereits für
viele Stücke vorliegen,
wird es jedoch bevorzugt, auf bereits vorhandene Notendatenbanken
zurückzugreifen.
-
Insbesondere
sucht der DNA-Sequenzer 76 die ähnlichste Melodietonfolge in
der Notendatenbank, indem er die Melodietonfolge durch die Operationen
Replace/Insert/Delete variiert. Jede Elementaroperation ist mit
einem Kostenmaß verbunden. Optimal
ist, wenn alle Noten ohne spezielle Operationen übereinstimmen. Suboptimal ist
es dagegen, wenn n von m Werte übereinstimmen.
Dadurch wird gewissermaßen
automatisch ein Ranking der Melodiefolgen eingeführt, und die Ähnlichkeit
des Musiksignals 70 zu einem Datenbank-Musiksignal Track_1 ... Track_n kann
quantitativ angegeben werden. Es wird bevorzugt, die Ähnlichkeit
von beispielsweise den besten fünf
Kandidaten aus der Notendatenbank als absteigende Liste auszugeben.
-
In
der Rhythmusdatenbank werden die Noten als Sechzehntel-, Achtel-,
Viertel-, Halb- und Vollton abgelegt. Der DNA-Sequenzer sucht die ähnlichste Rhythmusfolge in
der Rhythmusdatenbank, indem er die Rhythmusfolge durch die Operationen Replace/Insert/Delete
variiert. Jede Elementaroperation ist ebenfalls wieder mit einem
Kostenmaß verbunden.
Optimal ist, wenn alle Notenlängen übereinstimmen,
suboptimal ist es, wenn n von m Werte übereinstimmen. Dadurch wird
wieder ein Ranking der Rhythmusfolgen eingeführt, und die Ähnlichkeit der
Rhythmusfolgen kann in einer absteigenden Liste ausgegeben werden.
-
Der
DNA-Sequenzer umfaßt
bei einem bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung ferner eine Melodie/Rhythmus-Abgleicheinheit,
die feststellt, welche Folgen sowohl von der Pitchfolge als auch
von der Rhythmusfolge zusammen passen. Die Melodie/Rhythmus-Abgleicheinheit sucht
die größtmögliche Übereinstimmung
beider Folgen, indem die Zahl der Matches als Referenzkriterium
angenommen wird. Optimal ist es, wenn alle Werte übereinstimmen,
suboptimal ist es, wenn n von m Werte übereinstimmen. Dadurch wird
wieder ein Ranking eingeführt,
und die Ähnlichkeit
der Melodie/Rhythmusfolgen kann wieder in einer absteigenden Liste
ausgegeben werden.
-
Der
DNA-Sequenzer kann ferner angeordnet sein, um von dem Design-Rule-Checker 60 (6) markierte
Noten entweder zu ignorieren bzw. mit einer geringeren Gewichtung
zu versehen, damit das Ergebnis nicht durch Ausreißer unnötig verfälscht wird.