DE602004009676T2 - Verfahren zur Musikklassifikation - Google Patents

Verfahren zur Musikklassifikation Download PDF

Info

Publication number
DE602004009676T2
DE602004009676T2 DE602004009676T DE602004009676T DE602004009676T2 DE 602004009676 T2 DE602004009676 T2 DE 602004009676T2 DE 602004009676 T DE602004009676 T DE 602004009676T DE 602004009676 T DE602004009676 T DE 602004009676T DE 602004009676 T2 DE602004009676 T2 DE 602004009676T2
Authority
DE
Germany
Prior art keywords
music
piece
classified
values
mood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602004009676T
Other languages
English (en)
Other versions
DE602004009676D1 (de
Inventor
Thomas Kemp
Marta Tolos
Chris Shi-Chai London Liu
Robert London Tingey
Kazuto c/o SONY Design Centre Europe London Mugura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Deutschland GmbH filed Critical Sony Deutschland GmbH
Publication of DE602004009676D1 publication Critical patent/DE602004009676D1/de
Application granted granted Critical
Publication of DE602004009676T2 publication Critical patent/DE602004009676T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set

Description

  • Die Erfindung bezieht sich auf ein Verfahren zum Klassifizieren von Musik. Die Erfindung bezieht sich insbesondere auf ein Verfahren zur automatischen Musikstimmungserfassung.
  • In den letzten Jahren sind so genannte mobile Musikabspielgeräte entstanden, die auf Grund ihrer immer weiter zunehmenden Speicherkapazitäten, die die Speicherung einer sehr großen Anzahl von Speicherelementen ermöglichen, in der Lage sind, die vergleichsweise große Menge an Musik oder eine vergleichsweise große Anzahl an Musikstücken zu bieten. Diese mobilen Musikabspielgeräte sind jedoch manchmal unzweckmäßig in Bezug auf die Auswahl- und Klassifizierungsprozesse in Bezug auf die gespeicherten Musikstücke. Manchmal wird der vom Benutzer eines solchen mobilen Musikabspielgeräts durchzuführende Klassifizierungs- und/oder Auswahlprozess für Musikstücke schwierig.
  • Daher ist es eine Aufgabe der Erfindung, ein Verfahren zum Klassifizieren von Musik zu schaffen, das in der Lage ist, eine Klassifizierung von nicht klassifizierten Musikstücken in einer leichten Weise zuverlässig zu schaffen.
  • Die Aufgabe wird durch ein Verfahren zum Klassifizieren von Musik gemäß einer Lösung gemäß dem unabhängigen Anspruch 1 erreicht. Bevorzugte Ausführungsformen des erfindungsgemäßen Verfahrens zum Klassifizieren von Musik liegen innerhalb des Schutzbereichs der abhängigen Unteransprüche. Die Aufgabe wird ferner durch ein System zum Klassifizieren von Musik, durch ein jeweiliges Computerprogrammprodukt sowie durch ein computerlesbares Speichermedium gemäß den Ansprüchen 41 bzw. 42 erreicht.
  • Das erfindungsgemäße Verfahren zum Klassifizieren von Musik gemäß einer ersten Lösung der Aufgabe umfasst die Schritte
    • (a) Bereitstellen von Musikklassifikationsdaten, die eine diskrete und endliche Menge einer endlichen Anzahl von Musikklassen beschreiben,
    • (b) Bereitstellen eines nicht klassifizierten Musikstücks, das klassifiziert werden soll, und
    • (c) Ableiten für jede der Musikklassen der Menge von Musikklassen eines jeweiligen Gish-Abstandswertes in Bezug auf das nicht klassifizierte Musikstück, das klassifiziert werden soll, wodurch eine diskrete und endliche Menge einer endlichen Anzahl von Gish-Abstandswerten erhalten wird, wobei die endliche Menge einer endlichen Anzahl von Gish-Abstandswerten die Beziehung des nicht klassifizierten Musikstücks, das klassifiziert werden soll, zu der diskreten und endlichen Menge einer endlichen Anzahl (n) von Musikklassen beschreibt.
  • Außerdem kann ein weiterer Schritt (d) enthalten sein, gemäß dem innerhalb der Menge von Gish-Abstandswerten mindestens ein minimaler Gish-Abstandswert bestimmt wird und dadurch die eindeutige minimierende Musikklasse innerhalb der Menge von Musikklassen bestimmt wird, die dem minimalen Gish-Abstandswert entspricht.
  • Ferner kann ein Schritt (e) zum Auswählen der minimierenden Musikklasse als charakteristische Klasse für das zu klassifizierende, nicht klassifizierte Musikstück enthalten sein.
  • Daher ist es eine Schlüsselidee der Erfindung, jeweilige Gish-Abstandswerte in Bezug auf das nicht klassifizierte Musikstück aus den bereitgestellten Musikklassen abzuleiten und aus der dadurch gesammelten Menge von Gish-Abstandswerten zu erhalten.
  • Außerdem kann der minimale Gish-Abstandswert und dadurch die eindeutige charakteristische Klasse, die das nicht klassifizierte Musikstück in Form einer Musikklasse charakterisiert, die die Gish-Abstandswerte minimiert, vorzugsweise erhalten werden.
  • Gemäß einer bevorzugten Ausführungsform der Erfindung werden die Gish-Abstandswerte gemäß der Gleichung (1) berechnet.
    Figure 00020001
    mit j = 1, ..., n. In Gleichung (1) bezeichnet s das nicht klassifizierte, zu klassifizierende Musikstück oder einen Teil hiervon. Der Ausdruck + bezeichnet eine Verknüpfungsoperation der entsprechenden Musikstücke oder von Teilen hiervon. Der Ausdruck cj für j = 1, ..., n bezeichnet die jeweilige Musikklasse oder einen Repräsentanten oder einen Teil eines Repräsentanten hiervon. Der Ausdruck m(·) bezeichnet ein entsprechendes Modell oder eine entsprechende Modellaufbauoperation in Bezug auf das jeweilige Musikstück. Der Ausdruck L(x|y) gibt die Wahrscheinlichkeit dafür an, dass ein Musikstück x, eine Datenmenge x oder ein Teil x hiervon beobachtet wird, wenn ein Modell y gegeben ist.
  • Es ist bevorzugt, Gaußsche Dichtemodelle als Modelle m(·) zu verwenden.
  • Vorzugsweise wird nur eine einzige Gaußsche Dichte mit voller Kovarianz verwendet.
  • Außerdem oder alternativ können Mehrfachzufallsvariablen-Modelle als Modelle m(·) verwendet werden.
  • Gemäß einer bevorzugten und vorteilhaften Ausführungsform der Erfindung ist oder umfasst der Schritt (a) zum Bereitstellen der Musikklassifikationsdaten ein bzw. einen Prozess zum Empfangen und/oder Erzeugen der Musikklassifikationsdaten oder eines Teils hiervon oder ist bzw. umfasst einen Teil des Prozesses.
  • Zusätzlich oder als Alternative kann der Schritt (b) zum Bereitstellen eines zu klassifizierenden, nicht klassifizierten Musikstücks einen Prozess zum Empfangen des zu klassifizierenden, nicht klassifizierten Musikstücks oder eines Teils hiervon oder einen Teil des Prozesses, insbesondere von einer externen Quelle, umfassen.
  • Die Musikklassifikationsdaten und/oder die Modelle m(·) können auf vollständigen Liedern oder vollständigen Musikstücken oder auf charakteristischen Teilen hiervon basieren.
  • Es ist ein weiterer Vorteil, dass der Schritt (c) zum Ableiten der Gish-Abstandswerte und/oder der Schritt (d) zum Erfassen des minimalen Gish-Abstandswerts einen Prozess zum Vergleichen des zu klassifizierenden, nicht klassifizierten Musikstücks oder des jeweiligen Teils hiervon in Bezug auf mehrere oder in Bezug auf die Gesamtheit von Musikklassen aufbauen oder enthalten, um dadurch das nicht klassifizierte Musikstück oder den jeweiligen Teil hiervon innerhalb eines Stimmungsraums, der durch die Musikklassifikationsdaten definiert ist und insbesondere durch die Musikklassen definiert ist, zu lokalisieren.
  • Gemäß einer weiteren vorteilhaften Ausführungsform der Erfindung umfasst das erfindungsgemäße Verfahren zum Klassifizieren von Musik einen Schritt (f) des Bereitstellens von Liedklassifikationsdaten, die die Beziehung des zu klassifizierenden, nicht klassifizierten Musikstücks zu den Musikklassen oder dem jeweiligen Teil hiervon beschreiben, um dadurch das nicht klassifizierte Musikstück oder den jeweiligen Teil hiervon in Bezug auf die Musikklassen zu klassifizieren.
  • Gemäß einer weiteren bevorzugten Ausführungsform der Erfindung können die Musikstücke und/oder die Teile hiervon abgetastet werden.
  • In diesem Fall kann eine Abtastfrequenz von etwa 22 kHz verwendet werden.
  • Ferner können die Musikstücke und/oder die Teile hiervon in Rahmen zerschnitten werden.
  • In diesem Fall kann eine Rahmenlänge von etwa 32 ms verwendet werden.
  • Außerdem oder alternativ kann eine Rahmenrate von etwa 50 Hz verwendet werden.
  • Außerdem oder alternativ kann jeder Rahmen vor der Berechnung von jeweiligen FFTs einer Hamming-Fensterrasterung unterzogen werden.
  • Gemäß einer weiteren bevorzugten und vorteilhaften Ausführungsform kann von den jeweiligen FFTs das jeweilige Leistungsspektrum abgeleitet werden und die jeweiligen Leistungsspektralvektoren können als Basis für die Berechnung von Merkmalsvektoren verwendet werden.
  • In diesem Fall können die Merkmalsvektoren Melscale-deformiert werden.
  • Vorzugsweise können 30 Melscale-Koeffizienten verwendet werden.
  • Ferner können die Melscale-Koeffizienten logarithmiert werden.
  • In diesem Fall können die logarithmierten Melscale-Koeffizienten einer inversen diskreten Fourier-Transformation unterzogen werden.
  • Aus der inversen diskreten Fourier-Transformation der logarithmierten Melscale-Koeffizienten kann eine Menge von – insbesondere 13 – Cepstral-Koeffizienten pro Rahmen abgeleitet werden.
  • Aus der Menge von Cepstral-Koeffizienten pro Rahmen kann ein oder können beliebige mehrere des spektralen Schwerpunkts, des spektralen Flusses und der spektralen Dämpfung berechnet werden.
  • Varianzen des spektralen Schwerpunkts, des spektralen Flusses und/oder der spektralen Dämpfung können berechnet werden.
  • In diesem Fall können die Varianzen des spektralen Schwerpunkts, des spektralen Flusses und/oder der spektralen Dämpfung über ein Fenster von Q benachbarten Rahmen berechnet werden, wobei insbesondere Q im Bereich von 5 bis 20 liegt.
  • Vorteilhafterweise werden die Varianzen als Parameter genommen.
  • Gemäß einer weiteren bevorzugten Ausführungsform werden auf der Basis der Menge von Gish-Abstandswerten Musikklassifikationsdaten für das zu klassifizierende Musikstück oder für den Teil hiervon abgeleitet, insbesondere in Form eines n-Tupels von mindestens drei Zahlen.
  • Eine weitere vorteilhafte Ausführungsform des ersten erfindungsgemäßen Verfahrens umfasst die Schritte des (f) Erhaltens/Bereitstellens von Musikklassifikationsdaten in Form eines n-Tupels von mindestens drei Zahlen, die die Stimmung des Musikstücks oder des Teils hiervon darstellen, für ein gegebenes zu klassifizierendes Musikstück, und des (g) Bestimmens eines Paars von zweidimensionalen Koordinatenwerten, die die Stimmung des Musikstücks oder des Teils hiervon darstellen, aus dem n-Tupel von Zahlen der Musikklassifikationsdaten.
  • Außerdem oder alternativ können kartesische Koordinaten und/oder Polarkoordinaten als zweidimensionale Koordinatenwerte verwendet werden.
  • Weitere Tripel von Zahlen können als n-Tupel von Zahlen verwendet werden.
  • Vorzugsweise werden die Tripel von Zahlen durch drei Stimmungswerte für das Musikstück oder den Teil hiervon gebildet.
  • In diesem Fall werden die Stimmungswerte gewählt, um die Stimmungen "glücklich", "traurig" bzw. "aggressiv" in Bezug auf das Musikstück (s) oder den Teil hiervon zu klassifizieren.
  • In einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens werden die kartesischen Koordinaten als zweidimensionale Koordinatenwerte bestimmt gemäß:
    Figure 00060001
    • – wobei x, y den ersten bzw. den zweiten kartesischen Koordinatenwert bezeichnen und
    • – wobei j, s, a die erste, die zweite bzw. die dritte Zahl der Musikklassifikationsdaten für das Musikstück oder den Teil hiervon insbesondere in normierter Form und ferner insbesondere in Bezug auf die Stimmungen "glücklich", "traurig" bzw. "aggressiv" bezeichnen.
  • Gemäß einer weiteren Ausführungsform des erfindungsgemäßen Verfahrens werden Polarkoordinaten als zweidimensionale Koordinatenwerte bestimmt gemäß
    Figure 00060002
    Figure 00070001
    • – wobei r, ϕ den polaren Radial- bzw. Winkel-Koordinatenwert bezeichnen und
    • – wobei x, y die zweidimensionalen kartesischen Koordinatenwerte insbesondere gemäß den Gleichungen (1a), (1b) bezeichnen.
  • Aus zweidimensionalen Koordinatenwerten, insbesondere in normierter Form, kann eine Farbe oder können Farbwerte, die eine Farbe beschreiben, erzeugt werden, welche die Stimmung des Musikstücks oder des Teils hiervon beschreiben.
  • In diesem Fall kann die Farbe und/oder können die Farbewerte gemäß dem HSV-System bestimmt werden.
  • Insbesondere können die Farbe und/oder der Farbwert gemäß dem HSV-System bestimmt werden durch h = ϕ (3a) s = r (3b) v = 1,0 (3c)
    • – wobei h, s, v den Farbton bzw. die Sättigung bzw. den Wert der HSV-Farbwerte bezeichnen und
    • – wobei r, ϕ den zweidimensionalen polaren Radial- bzw. Winkel-Koordinatenwert insbesondere gemäß den Gleichungen (2a), (2b) bezeichnen.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein System zum Klassifizieren von Musik geschaffen, das ausgelegt und/oder beschaffen ist und das Mittel umfasst, um das Verfahren zum Klassifizieren von Musik gemäß der Erfindung und dessen Schritte zu verwirklichen.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein Computerprogrammprodukt geschaffen, das Computerprogrammmittel umfasst, die beschaffen und/oder ausgelegt sind, um das Verfahren zum Klassifizieren von Musik gemäß der Erfindung oder die Schritte zum Klassifizieren von Musik gemäß der Erfindung zu verwirklichen, wenn es auf einem Digitalsignal-Verarbeitungsmittel oder auf einem Computer ausgeführt wird.
  • Ein noch weiterer Aspekt der Erfindung besteht darin, ein computerlesbares Speichermedium zu schaffen, das das erfindungsgemäße Computerprogrammprodukt umfasst.
  • Im Folgenden werden diese und weitere Aspekte der Erfindung klarer, indem auf die folgenden Bemerkungen Bezug genommen wird:
    Die Erfindung bezieht sich insbesondere auf ein Verfahren und auf eine Vorrichtung zur automatischen Musikstimmungserfassung.
  • Mit dem Aufkommen von mobilen Musikabspielgeräten, die eine riesige Speicherkapazität für sehr viele Musikstücke bieten, jedoch einen Formfaktor und eine Größe aufweisen, die nicht den Einschluss eines Bildschirms oder einer Tastatur ermöglichen, wird das Problem der Musikauswahl immer wichtiger. In vielen Begutachtungen haben Benutzer eine Vorliebe gezeigt, ihre Stimmung oder die Stimmung von Musik als Auswahlkriterium für die Auswahl von Musik zu verwenden. Stimmung in Musik ist jedoch ein Konzept, das bisher eine manuelle Kennzeichnung erforderte, die äußerst lästig und aufwändig ist, wenn sie in einem großen Maßstab durchgeführt wird. Wir schlagen ein System vor, das automatisch die Stimmung in einem beliebigen Musikstück bestimmen und der Musik automatisch ein Stimmungsetikett zuweisen kann.
  • Die meisten Versuche, die Stimmung von Musik automatisch abzuleiten, waren auf symbolische Daten begrenzt (z. B. MIDI-Darstellungen von Musik). Die meiste Musik steht jedoch nicht in symbolischer Form zur Verfügung und folglich ist die Verwendbarkeit dieser Methoden sehr begrenzt. Dan Liu, Lie Lu und Hong-Jiang Zhang von Microsoft Research haben das einzige (nach unserer Kenntnis) solche System erzeugt, das klassische Musik verarbeitet. Ihr System im Vergleich zu unserem verwendet jedoch das Thayer-Stimmungsmodell und verwendet eine hierarchische Struktur, die es unmöglich macht, dass der Benutzer das bereits trainierte System anpasst, und es auch sehr schwierig macht, neue Stimmungskategorien einzuführen (1).
  • Es besteht derzeit keine schnelle und zuverlässige Weise zum Auswählen eines Liedes aus einer großen Sammlung (Datenbank) von Liedern. Hierarchische Listenauswahlbasis-Verfahren auf der Basis des graphischen Auswahl- und Klick-Paradigmas erfordern mehrere Basisoperationen und sind beschwerlich, während die Sprachbefehlsauswahl direkt und leicht ist, jedoch unter hohen Spracherkennungs-Fehlerraten leidet. Außerdem besteht in vielen Fällen ein starkes Benutzerinteresse am Untersuchen einer gegebenen Datenbank für neue Musikerfahrung, was mit irgendeinem Auswahlparadigma, bei dem ein bekanntes Musikstück ausgewählt wird, nicht verwirklicht werden kann.
  • Es ist das Ziel der Erfindung, eine leichte und intuitive Weise zum Durchstöbern einer Musikdatenbank und zum Auswählen von Liedern aus dieser ohne den Bedarf für eine aufwändige und zeitraubende manuelle Metadatenerzeugung für die Lieder in der Datenbank zu erleichtern.
  • Das System, das die Musikstimmung automatisch bestimmen kann, kann in drei Untersysteme zerlegt werden: Auswahl der Lernmenge, Erzeugung der Stimmungsmodelle und die Bestimmung einer Stimmung für eine gegebene Musik, die von den im Voraus berechneten Stimmungsmodellen Gebrauch macht. Der erfindungsgemäße Hauptschritt liegt im dritten Untersystem mit einigen zusätzlichen relevanten und neuen Erweiterungen im ersten Untersystem.
  • Im ersten Untersystem wird eine Lernmenge, die die Stimmung darstellt, ausgewählt. In der leichtesten Form kann dies durch Auswählen einiger Musikstücke für jede gewünschte Stimmungskategorie durchgeführt werden. Wenn beispielsweise drei Musikkategorien (glücklich, aggressiv, traurig) erwünscht sind, kann dies durch Auswählen einer Anzahl (z. B. N = 10) von Liedern für jede der drei Kategorien durchgeführt werden: 10 glückliche Lieder, 10 traurige Lieder und 10 aggressive. Im leichtesten Schema ist dies alles, was notwendig ist. Wenn jedoch das ganze Lied als Repräsentant für eine gegebene Stimmung genommen wird, kann dies irreführend sein. Viele Lieder werden beispielsweise als aggressiv kategorisiert, obwohl Teile von ihnen – in vielen Fällen der Beginn – eher traurig sind, aber nur der Hauptteil dies ist (Refrainteil oder repräsentativster Teil hinsichtlich der mittleren Ähnlichkeit zum Rest des Liedes oder der Teil, der die Stimmen enthält). Daher ist es vorteilhaft, nur einen Teil aus den Liedern zu extrahieren, um das Stimmungsmodell zu erzeugen, anstatt das ganze Lied zu nehmen. Wenn jedoch ein solches Schema verwirklicht wird, ist es wichtig, dasselbe Schema im dritten Untersystem zu verwenden, in dem das unbekannte Lied mit den Stimmungsmodellen verglichen wird: daher kann nur ein automatisches Mittel für die Extraktion des relevanten Teils des Liedes verwendet werden. Insbesondere wurde ein System, das den relevanten Teil von Musik extrahiert, in einer früheren Patentanmeldung von SSG beschrieben und die Lehre dieser Erfindung kann für diesen Zweck verwendet werden. In einem weiteren Aspekt sollte beachtet werden, dass die Auswahl der Musikstücke für jede der Emotionen schließlich die Weise bestimmt, in der sich das gesamte System verhält, und daher kann auf diese Auswahl durch den Benutzer für die Anpassung des Systems an seinen persönlichen Geschmack zugegriffen werden. In einem solchen Szenario kann ein Benutzer z. B. ein Lied zu irgendeiner der Kategorien hinzufügen und das System trainiert dann die Modelle erneut. Dies ermöglicht dem Benutzer, seine eigenen Stimmungswahrnehmungen im System zu verwirklichen (Benutzeranpassung), ohne den Bedarf, die Architektur des Systems in irgendeiner Weise zu ändern.
  • Das zweite der drei Untersysteme berechnet Stimmungsmodelle aus den vorher identifizierten Mengen von Fragmenten von Musik (die in Abhängigkeit von dem im ersten Untersystem verwendeten exakten Verfahren Teile von oder ganze Musikstücke sein könnten, die vom Systementwickler oder vom Benutzer handverlesen wurden). Die Musik wird abgetastet – eine Abtastfrequenz von 22 kHz hat sich als ausreichend erwiesen, so dass, wenn der Speicher verkleinert werden sollte, die Abtastrate eines Stereostücks von 44,1 kHz auf 22 kHz verringert werden kann und die Stereokanäle in einen Monokanal kombiniert werden können – und in Rahmen mit einer Länge von 32 ms mit einer Rahmenrate von 50 zerschnitten. Andere Rahmenraten und Rahmenlängen könnten natürlich verwendet werden. Jeder Rahmen wird einer Hamming-Fensterrasterung unterzogen und die FFT wird berechnet. Aus der FFT wird das Leistungsspektrum abgeleitet. Diese Leistungsspektralvektoren dienen als Basis für die Berechnung der Merkmalsvektoren. Wie bei der Spracherkennung werden sie zuerst in 30 Melscale-Koeffizienten Melscale-deformiert (siehe die relevante Literatur), logarithmiert und die inverse DFT-Transformation wird berechnet, was zu einer Menge von 13 Cepstral-Koeffizienten pro Rahmen führt. Zweitens werden der spektrale Schwerpunkt, der spektrale Fluss und die spektrale Dämpfung berechnet und ihre Varianz über ein Fenster von Q benachbarten Rahmen wird als Parameter genommen, wobei typische Werte von Q im Bereich von 5 bis 20 liegen. Der spektrale Schwerpunkt, der spektrale Fluss und die spektrale Dämpfung werden alle in (2) erläutert.
  • Für jede der Klassen (traurig, glücklich usw.) werden die so berechneten Parametervektoren genommen und eine einzige Gauß-Dichte mit voller Kovarianz wird in einem Stil maximaler Wahrscheinlichkeit daraus berechnet. Die resultierende Normalverteilung dient als Stimmungsmodell für das dritte der drei Untersysteme des Stimmungsidentifikators.
  • Das dritte der drei Untersysteme nimmt die Menge der Stimmungsmodelle (die jeweils Mehrfachzufallsvariablen-Gauß-Dichten sind) und ein unbekanntes Musikstück und berechnet die Stimmung des unbekannten Musikstücks durch Vergleichen der Ähnlichkeit von jedem der Stimmungsmodelle mit einem Stimmungsmodell, das vom unbekannten Musikstück abgeleitet wird. Um dies zu erreichen, wird das unbekannte Musikstück zuerst als Trainingssatzmusik in den ersten zwei Untersystemen behandelt: falls anwendbar, wird der relevanteste Teil von ihm im ersten Untersystem extrahiert, dann wird die Vorverarbeitung im zweiten Untersystem durchgeführt und eine Mehrfachzufallsvariablen-Gauß-Dichte wird im dritten Untersystem berechnet. Das Ergebnis ist eine Mehrfachzufallsvariablen-Gauß-Dichte für das unbekannte Lied. Unter Verwendung dieses Modells und der im Voraus berechneten Stimmungsmodelle wird der Abstand zwischen dem unbekannten Modell und einem Stimmungsmodell unter Verwendung des so genannten Gish-Abstandes D berechnet:
    Figure 00110001
  • Wobei der Ausdruck L(sX|m(sX)) für X = 1,2 die Wahrscheinlichkeit, dass eine Datenfolge sX für ein gegebenes Mehrfachzufallsvariablen-Gauß-Dichtemodell m(sX) für sX beobachtet wird, bedeutet. Der Ausdruck m(s1 + s2) bedeutet ein Modell, das für die Verknüpfung von Liedern oder Musik- oder Tonstücken s1 und s2 erzeugt wird. Der Ausdruck s1 + s2 bedeutet die Verknüpfung der Lieder oder Musik- oder Tonstücke s1 und s2. Wenn die Gleichung (2) für einzige Gaußsche Normaldichten m oder einzige Gaußsche Normaldichtemodelle m wie bisher vorgeschlagen berechnet wird, dann gibt es einen effizienten Ansatz, bei dem kein Bedarf besteht, die Lieder oder Musik- oder Tonstücke s1 und s2 zu speichern, wenn s1 das unbekannte Lied ist und s2 die Verknüpfung aller relevanten Abschnitte oder Lieder der Trainingssatzlieder für die aktuelle Stimmung ist. Es ist natürlich möglich, andere Modelle zu verwenden, um die Terme in Gleichung (2) zu berechnen. In diesem Fall ist jedoch die Auswertung der Formel signifikant schwerer.
  • Nachdem Gleichung (2) für alle Stimmungsmodelle ausgewertet wurde, wird der niedrigste der drei resultierenden Abstände ausgewählt und das Stimmungsmodell, das diesen niedrigsten Abstand verursacht hat, wird als Versuchsstimmung des Musikstücks ausgewählt. Es ist auch möglich und sehr nützlich, einen normierten Vektor aus den Abständen zu den Stimmungsmodellen aufzubauen. Aus z. B. drei Stimmungen ergeben die resultierenden dreidimensionalen Vektoren eine Koordinate in einem "Stimmungsraum", der zum Navigieren und Lokalisieren eines Liedes unter Verwendung von einer oder mehreren Stimmungsachsen verwendet werden kann. Der resultierende Raum ist sehr ungleichmäßig belegt, die individuellen Dimensionen sind weit von der Unabhängigkeit entfernt und daher ist es vorteilhaft, eine die Varianz normierende und diagonalisierende Transformation (eine PCA- oder Karhunen-Loewe-Transformation) im Zielraum unter Verwendung einer großen Testmenge von Liedern zum Berechnen der Transformation zu berechnen. Nach der Koordinatentransformation kann der resultierende Raum für die Navigation im Stimmungsraum von Musik angemessen verwendet werden. Dennoch muss daran gedacht werden, dass der euklidische Abstand selbst im transformierten Raum keine Metrik ist, da er auf Grund der Eigenschaften des Gish-Abstandes von Gleichung (2) nicht immer die Dreiecksungleichung erfüllt.
  • Die vorgeschlagene Erfindung ermöglicht die automatische Erzeugung von Musikstimmungskennzeichen mit einer sehr hohen Qualität in relativ geringer Zeit und mit mäßigen Rechenressourcen. Das System kann erweitert werden, um sich auf nur Teile der Musik zu konzentrieren und eine Personalisierung für individuelle Konzepte von Stimmung ist leicht, so dass individuelle Unterschiede in der Wahrnehmung von irgendeinem gegebenen Musikstück bewältigt werden können. Ein Stimmungsraum kann automatisch konstruiert werden, der ermöglicht, Lieder innerhalb des Stimmungsraums zu lokalisieren, und der folglich für die Musikauswahl verwendet werden kann.
  • Problem:
  • Die Übersetzung von bereitgestellten Liedstimmungsdaten – mindestens drei insbesondere unbegrenzte Zahlen ohne Vorzeichen für jedes Lied – in eine lineare visuelle Schnittstelle.
  • Umriss der Lösung:
  • Aus der "Bibliothek" (der Sammlung von Liedern) werden drei "Stimmungs"-Werte für jedes Lied importiert: die Werte werden intern als "glücklich", "traurig" & "aggressiv" bezeichnet. Diese Werte werden auf der Basis der maximalen & minimalen Werte in der Bibliothek normiert, so dass jeder einen Wert von [0,0 – 1,0] aufweist, und in einer Datenbank gespeichert.
  • Jedes Lied wird dann durch Umsetzung der drei "Stimmungs"-Werte zuerst in kartesische Koordinaten und dann von den kartesischen Koordinaten in Polarkoordinaten auf eine Farbe abgebildet.
  • Die Umsetzung von Lied-"Stimmungs"-Werten in kartesische Koordinaten wird unter Verwendung der folgenden Formeln
    Figure 00130001
    und
    Figure 00130002
    durchgeführt, wobei: "x" die horizontale Koordinate ist, "y" die vertikale Koordinate ist, "j" der "glückliche" Liedwert ist, "s" der "traurige" Liedwert ist, "a" der "aggressive" Liedwert ist.
  • Die Umsetzung von kartesischen in Polarkoordinaten wird unter Verwendung der folgenden (Standard-)Formeln
    Figure 00130003
    und
    Figure 00130004
    durchgeführt, wobei "r" radial ist, "ϕ" der Winkel in Radiant ist, "x" die horizontale Koordinate ist, "y" die vertikale Koordinate ist.
  • Der radiale Wert wird über die Bibliothek in den Bereich [0,0 – 1,0] normiert. Diese normierte Polarkoordinate wird dann unter Verwendung des HSV-Farbsystems auf eine Farbe abgebildet. Das HSV-Farbsystem definiert eine Farbe durch 3 Werte: diese Werte sind Farbton [0,0 – 1,0], Sättigung [0,0 – 1,0] & Wert [0,0 – 1,0].
  • Die Farbwerte werden durch die folgende Formel h = ϕ, s = r und v = 1,0 bestimmt, wobei "h" der Farbton ist, "s" die Sättigung ist, "v" der Wert ist, "r" radial ist "ϕ" der Winkel in Radiant ist.
  • Zusammenfassung:
  • Durch Abbilden der drei "Stimmungs"-Werte von Liedern in zwei Dimensionen, dann in einen Farbraum, ist es möglich, in der Liedbibliothek durch den Farbton (d. h. Lied-"Stimmung) und die Sättigung (d. h. die Lied-"Stimmungs"-Stärke) zu navigieren. Eine gesättigtere Farbe gibt ein Lied mit einer starken Stärke einer speziellen "Stimmung" an. Es ermöglicht auch, dass der Benutzer in der Bibliothek in einer einfachen Weise unter Verwendung einer Schnittstelle navigiert, die nur 2 Eingangswerte verwendet.
  • Diese und weitere Aspekte der Erfindung werden weiter erörtert, indem auf die begleitende Fig. Bezug genommen wird.
  • 1 ist ein Ablaufplan, der einige wesentliche Merkmale einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zum Klassifizieren von Musik beschreibt.
  • 2, 3 sind zweidimensionale und farbige Darstellungen zum Erläutern der Grundidee der zweidimensionalen und Farbabbildung.
  • Die schematisch beschriebene Ausführungsform des erfindungsgemäßen Verfahrens zum Klassifizieren von Musik von 1 umfasst erste bis fünfte aufeinander folgende Verarbeitungsschritte (a) bis (e).
  • Im ersten Schritt (a) werden Musikklassifikationsdaten MCD bereitgestellt. Diese Musikklassifikationsdaten können – zumindest teilweise – durch eine Menge Γ von Musikklassen c1, ..., cn gegeben werden. Im einfachsten Fall können diese Musikklassen c1, ..., cn Mustermusikstücke sein, von denen jedes ein Beispiel für eine eindeutige Musikstimmung oder Musikklasse ist. Die Musikklassifikationsdaten können auch auf einem gründlichen Auswertungs- und Klassifizierungsprozess in Bezug auf die Musterstücke oder in Bezug auf die gegebenen Klassen c1, ..., cn basieren. Diese gründliche Auswertung wurde bereits vorstehend beschrieben.
  • Im folgenden zweiten Schritt (b) wird ein nicht klassifiziertes Musikstück s, das durch das erfindungsgemäße Verfahren zum Klassifizieren von Musik klassifiziert werden muss, bereitgestellt.
  • Auf der Basis dieses nicht klassifizierten Musikstücks s wird im folgenden dritten Schritt (c) eine Menge Γ von Gish-Abstandswerten Dj: = D(s, cj) für j = 1, n abgeleitet: Γ: = {D1, ..., Dn}.
  • Im folgenden vierten Schritt (d) wird der minimale Gish-Abstandswert Djmin als Minimum der Menge Γ erfasst: Djmin: = min{D1, ..., Dn}.
  • Schließlich wird im fünften Schritt (e) die eindeutige Musikklasse cjmin erfasst und als charakterisierende Klasse cs für das nicht klassifizierte, zu klassifizierende Musikstück s ausgewählt. cjmin ist die eindeutige Klasse aus der Menge Γ von Musikklassen c1, ..., cn, für die der minimale Gish-Abstandswert Djmin erhalten wird. Das nicht klassifizierte Musikstück s kann als nächster Nachbar der eindeutigen klassifizierenden Musikklasse cjmin bezeichnet werden, oder umgekehrt. Es kann auch möglich sein, dass das nicht klassifizierte Musikstück s durch eine Teilmenge von Γ, die eine gewisse Anzahl von nächsten Nachbarn enthält, auf der Basis einer jeweiligen Schwellenwertbedingung für die erfassten Gish-Abstandswerte klassifiziert wird. In einem solchen Fall kann die Charakterisierung auf der Basis von mehreren Musikklassen besser durchdacht sein und kann eine bessere Information und Klassifizierung für das zu klassifizierende Musikstück s enthalten.
  • 2 und 3 sind zweidimensionale und farbige Darstellungen für die Erklärung der Grundidee der zweidimensionalen und Farbabbildung.
  • cj
    Musikklasse j = 1, ..., n
    cjmin
    minimierende Musikklasse
    cs
    charakteristische Klasse
    Dj
    Gish-Abstandswert j = 1, ..., n
    Djmin
    minimaler Gish-Abstandswert
    MCD
    Musikklassifikationsdaten
    s
    zu klassifizierendes, nicht klassifiziertes Musikstück
    SCD
    Liedklassifikationsdaten
    Γ
    Menge von Musikklassen
    Δ
    Menge von Gish-Abstandswerten

Claims (42)

  1. Verfahren zum Klassifizieren von Musik, mit den folgenden Schritten: (a) Bereitstellen von Musikklassifikationsdaten (MCD), die eine diskrete und endliche Menge (Γ) einer endlichen Anzahl (n) von Musikklassen (c1, ..., cn) beschreiben, (b) Bereitstellen eines nicht klassifizierten Musikstücks (s), das klassifiziert werden soll, (c) Ableiten für jede der Musikklassen (c1, ..., cn) der Menge (Γ) von Musikklassen eines jeweiligen Gish-Abstandswertes (D1, ..., Dn) in Bezug auf das nicht klassifizierte Musikstück (s), das klassifiziert werden soll, um dadurch eine diskrete und endliche Menge (Δ) einer endlichen Anzahl (n) von Gish-Abstandswerten (D1, ..., Dn) zu erhalten, wobei die endliche Menge (Δ) einer endlichen Anzahl (n) von Gish-Abstandswerten (D1, ..., Dn) die Beziehung des nicht klassifizierten Musikstücks (s), das klassifiziert werden soll, zu der diskreten und endlichen Menge (Γ) einer endlichen Anzahl (n) von Musikklassen (c1, ..., cn) beschreibt.
  2. Verfahren nach Anspruch 1, ferner mit dem folgenden Schritt: (d) Erfassen wenigstens eines minimalen Gish-Abstandswertes (Djmin) in der Menge (Γ) von Gish-Abstandswerten (D1, ..., Dn) und dadurch insbesondere Bestimmen der eindeutigen minimierenden Musikklasse (cjmin) in der Menge (Γ) von Musikklassen (c1, ..., cn), die dem minimalen Gish-Abstandswert (Djmin) entspricht.
  3. Verfahren nach Anspruch 2, ferner mit dem folgenden Schritt: (e) Auswählen der minimierenden Musikklasse (cjmin) als eine charakteristische Klasse (cs) für das nicht klassifizierte Musikstück (s), das klassifiziert werden soll.
  4. Verfahren nach einem der vorhergehenden Ansprüche, – wobei die Gish-Abstandswerte (D1, ..., Dn) gemäß der folgenden Gleichung (1) berechnet werden:
    Figure 00180001
    mit j = 1, ..., n, – wobei s das nicht klassifizierte, zu klassifizierende Musikstück oder einen Teil hiervon bezeichnet, – wobei "+" eine Verknüpfungsoperation entsprechender Musikstücke bezeichnet, – wobei cj für j = 1, ..., n die jeweilige Musikklasse oder einen Repräsentanten oder einen Teil eines Repräsentanten hiervon bezeichnet, – wobei m(.) ein entsprechendes Modell oder eine entsprechende Modellaufbauoperation in Bezug auf das jeweilige Musikstück bezeichnet und – wobei L(x|y) die Wahrscheinlichkeit dafür angibt, dass ein Musikstück, eine Datenmenge x oder ein Teil x hiervon beobachtet wird, wenn ein Modell y gegeben ist.
  5. Verfahren nach Anspruch 4, wobei als Modelle m(.) Gaußsche Dichtemodelle verwendet werden.
  6. Verfahren nach Anspruch 4 oder 5, wobei nur eine einzige Gaußsche Dichte mit voller Kovarianz verwendet wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche 4 bis 6, wobei als Modelle m(.) Mehrfachzufallsvariablen-Modelle verwendet werden.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt (a) des Bereitstellens von Musikklassifikationsdaten (MCD) ein Prozess ist oder einen Prozess umfasst, bei dem die Musikklassifikationsdaten (MCD) oder ein Teil hiervon empfangen und/oder erzeugt werden, oder ein Teil dieses Prozesses ist oder einen Teil dieses Prozesses enthält.
  9. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt (b) des Bereitstellens eines nicht klassifizierten Musikstücks (s), das klassifiziert werden soll, einen Prozess zum Empfangen des nicht klas sifizierten, zu klassifizierenden Musikstücks (s) oder eines Teils hiervon insbesondere von einer externen Quelle oder einen Teil dieses Prozesses enthält.
  10. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Musikklassifikationsdaten (MCD) und/oder die Modelle m(.) auf vollständigen Songs oder Musikstücken oder charakteristischen Teilen hiervon basieren.
  11. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt (c) des Ableitens der Gish-Abstandswerte (D1, ..., Dn) und/oder der Schritt (d) des Erfassens des minimalen Gish-Abstandswerts (Djmin) einen Prozess aufbauen oder enthalten, bei dem das nicht klassifizierte, zu klassifizierende Musikstück (s) oder der jeweilige Teil hiervon mit mehreren oder mit allen Musikklassen (c1, ..., cn) verglichen wird, um dadurch das nicht klassifizierte Musikstück (s) oder die jeweiligen Teile hiervon in einem durch die Musikklassifikationsdaten (MCD) und insbesondere durch die Musikklassen (c1, ..., cn) definierten Stimmungsraum zu lokalisieren.
  12. Verfahren nach einem der vorhergehenden Ansprüche, mit einem Schritt (f) des Bereitstellens von Song-Klassifikationsdaten (SCD), die die Beziehung des nicht klassifizierten Musikstücks (s), das klassifiziert werden soll, zu den Musikklassen (c1, ..., cn) oder zu dem jeweiligen Teil hiervon beschreiben, um dadurch das nicht klassifizierte Musikstück (s) oder den jeweiligen Teil hiervon in Bezug auf die Musikklassen (c1, ..., cn) zu klassifizieren.
  13. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Musikstücke und/oder die Teile hiervon abgetastet werden.
  14. Verfahren nach Anspruch 13, wobei eine Abtastfrequenz von etwa 22 kHz verwendet wird.
  15. Verfahren nach einem der vorhergehenden Ansprüche 13 und 14, wobei die Musikstücke und/oder die Teile hiervon in Rahmen zerschnitten werden.
  16. Verfahren nach Anspruch 15, wobei eine Rahmenlänge von etwa 32 ms verwendet wird.
  17. Verfahren nach einem der vorhergehenden Ansprüche 15 und 16, wobei eine Rahmenrate von etwa 50 Hz verwendet wird.
  18. Verfahren nach einem der vorhergehenden Ansprüche 15 bis 17, wobei jeder Rahmen vor der Berechnung der jeweiligen FFTs einer Hamming-Fensterrasterung unterzogen wird.
  19. Verfahren nach einem der vorhergehenden Ansprüche, – wobei aus den jeweiligen FFTs das entsprechende Leistungsspektrum abgeleitet wird; und – wobei die entsprechenden Leistungsspektralvektoren als eine Grundlage für die Berechnung von Merkmalsvektoren verwendet werden.
  20. Verfahren nach Anspruch 19, wobei die Merkmalsvektoren Melscale-deformiert sind.
  21. Verfahren nach Anspruch 20, wobei 30 Melscale-Koeffizienten verwendet werden.
  22. Verfahren nach Anspruch 21, wobei die Melscale-Koeffizienten logarithmiert werden.
  23. Verfahren nach Anspruch 22, wobei die logarithmierten Melscale-Koeffizienten einer inversen diskreten Fourier-Transformation unterworfen werden.
  24. Verfahren nach Anspruch 23, wobei aus der inversen diskreten Fourier-Transformation der logarithmierten Melscale-Koeffizienten eine Menge von – insbesondere 13 – Cepstral-Koeffizienten pro Rahmen abgeleitet wird.
  25. Verfahren nach Anspruch 24, wobei aus der Menge von Cepstral-Koeffizienten pro Rahmen der spektrale Schwerpunkt und/oder der spektrale Fluss und/oder die spektrale Dämpfung berechnet werden.
  26. Verfahren nach Anspruch 25, wobei Varianzen des spektralen Schwerpunkts und/oder des spektralen Flusses und/oder der spektralen Dämpfung berechnet werden.
  27. Verfahren nach Anspruch 26, – wobei die Varianzen des spektralen Schwerpunkts und/oder des spektralen Flusses und/oder der spektralen Dämpfung über ein Fenster von Q benachbarten Rahmen berechnet werden – wobei Q insbesondere im Bereich von 5 bis 20 liegt.
  28. Verfahren nach einem der vorhergehenden Ansprüche 26 oder 27, wobei die Varianzen als Parameter genommen werden.
  29. Verfahren nach einem der vorhergehenden Ansprüche, wobei auf der Grundlage der Menge (Δ) von Gish-Abstandswerten (D1, ..., Dn) Musikklassifikationsdaten (MCD) für das zu klassifizierende Musikstück (s) oder für einen Teil hiervon abgeleitet werden, insbesondere in Form eines n-Tupels aus wenigstens drei Zahlen.
  30. Verfahren nach Anspruch 29, ferner mit den folgenden Schritten: (f) für ein gegebenes zu klassifizierendes Musikstück (s) Erhalten/Bereitstellen von Musikklassifikationsdaten (MCD) in Form eines n-Tupels aus wenigstens drei Zahlen, die für die Stimmung des Musikstücks (s) oder eines Teils hiervon repräsentativ sind, (g) aus dem n-Tupel von Zahlen der Musikklassifikationsdaten (MCD) Bestimmen eines Paars zweidimensionaler Koordinatenwerte (x, y; r, ϕ), die die Stimmung des Musikstücks (s) oder eines Teils hiervon repräsentieren.
  31. Verfahren nach Anspruch 30, wobei als zweidimensionale Koordinatenwerte (x, y; r, ϕ) kartesische Koordinaten (x, y) und/oder Polarkoordinaten (r, ϕ) verwendet werden.
  32. Verfahren nach einem der vorhergehenden Ansprüche 30 bis 31, wobei als die n-Tupel von Zahlen Tripel (j, s, a) von Zahlen verwendet werden.
  33. Verfahren nach Anspruch 32, wobei die Tripel (j, s, a) von Zahlen durch drei Stimmungswerte (j, s, a) für das Musikstück (s) oder den Teil hiervon gebildet werden.
  34. Verfahren nach Anspruch 33, wobei die Stimmungswerte (j, s, a) gewählt werden, um die Stimmungen "glücklich", "traurig" bzw. "aggressiv" in Bezug auf das Musikstück (s) oder den Teil hiervon zu klassifizieren.
  35. Verfahren nach einem der vorhergehenden Ansprüche 30 bis 34, – wobei als zweidimensionale Koordinatenwerte kartesische Koordinaten (x, y) folgendermaßen bestimmt werden:
    Figure 00220001
    – wobei x, y den ersten bzw. den zweiten kartesischen Koordinatenwert bezeichnen und – wobei j, s und a die erste, die zweite bzw. die dritte Zahl der Musikklassifikationsdaten (MCD) für das Musikstück (s) oder den Teil hiervon insbesondere in normierter Form und ferner insbesondere in Bezug auf die Stimmungen "glücklich", "traurig" bzw. "aggressiv" bezeichnen.
  36. Verfahren nach einem der vorhergehenden Ansprüche 30 bis 35, – wobei als zweidimensionale Koordinaten Polarkoordinaten (r, ϕ) folgendermaßen bestimmt werden:
    Figure 00220002
    Figure 00220003
    – wobei r, 0 den polaren Radial- bzw. Winkel-Koordinatenwert bezeichnen und – wobei x, y die zweidimensionalen kartesischen Koordinatenwerte insbesondere gemäß den Gleichungen (1a), (1b) bezeichnen.
  37. Verfahren nach einem der vorhergehenden Ansprüche 30 bis 36, wobei aus den zweidimensionalen Koordinatenwerten (x, y; r, ϕ) insbesondere in normierter Form ein oder mehrere Farbwerte (h, s, v), die eine Farbe beschreiben, erzeugt werden, wobei die Farbwerte die Stimmung des Musikstücks (s) oder des Teils hiervon beschreiben.
  38. Verfahren nach Anspruch 37, wobei die Farbe und/oder die Farbwerte (h, s, v) in Übereinstimmung mit dem HSV-System bestimmt werden.
  39. Verfahren nach einem der vorhergehenden Ansprüche 37 und 38, – wobei die Farbe und/oder die Farbwerte (h, s, v) gemäß dem HSV-System folgendermaßen bestimmt werden: h = ϕ (3a) s = r (3b) v = 1,0 (3c)– wobei h, s, v den Farbton bzw. die Sättigung bzw. den Wert der HSV-Farbwerte bezeichnen und – wobei r, ϕ den zweidimensionalen polaren Radial- bzw. Winkel-Koordinatenwert insbesondere gemäß den Gleichungen (2a), (2b) bezeichnen.
  40. System zum Klassifizieren von Musik, mit Mitteln, die so beschaffen sind, dass sie jeden der Schritte des Verfahrens zum Klassifizieren von Musik nach einem der Ansprüche 1 bis 39 ausführen.
  41. Computerprogrammprodukt, mit Computermitteln, die so beschaffen sind, dass sie jeden der Schritte des Verfahrens zum Klassifizieren von Musik nach einem der Ansprüche 1 bis 39 ausführen, wenn es auf einem digitalen Signalverarbeitungsmittel oder einem Computer ausgeführt werden.
  42. Computerlesbares Speichermedium, das ein Computerprogrammprodukt nach Anspruch 41 enthält.
DE602004009676T 2004-07-09 2004-07-09 Verfahren zur Musikklassifikation Active DE602004009676T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP04016229A EP1615204B1 (de) 2004-07-09 2004-07-09 Verfahren zur Musikklassifikation

Publications (2)

Publication Number Publication Date
DE602004009676D1 DE602004009676D1 (de) 2007-12-06
DE602004009676T2 true DE602004009676T2 (de) 2008-08-07

Family

ID=34925687

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004009676T Active DE602004009676T2 (de) 2004-07-09 2004-07-09 Verfahren zur Musikklassifikation

Country Status (6)

Country Link
US (1) US7858868B2 (de)
EP (1) EP1615204B1 (de)
JP (1) JP4825800B2 (de)
CN (1) CN1985302B (de)
DE (1) DE602004009676T2 (de)
WO (1) WO2006005533A2 (de)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60319710T2 (de) 2003-11-12 2009-03-12 Sony Deutschland Gmbh Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
WO2006062064A1 (ja) * 2004-12-10 2006-06-15 Matsushita Electric Industrial Co., Ltd. 楽曲処理装置
US20070061309A1 (en) * 2005-08-05 2007-03-15 Realnetworks, Inc. System and method for color-based searching of media content
KR100822376B1 (ko) * 2006-02-23 2008-04-17 삼성전자주식회사 곡명을 이용한 음악 주제 분류 방법 및 시스템
EP1975866A1 (de) 2007-03-31 2008-10-01 Sony Deutschland Gmbh Verfahren und System zum Empfehlen von Inhaltselementen
KR101540598B1 (ko) 2007-10-02 2015-07-30 코닌클리케 필립스 엔.브이. 콘텐트 아이템들의 컬렉션 중 적어도 하나의 아이템을 선택하는 방법
EP2083416A1 (de) * 2008-01-23 2009-07-29 Sony Corporation Verfahren zur Bestimmung von Animationsparametern und Animationsanzeigevorrichtung
EP2101501A1 (de) * 2008-03-10 2009-09-16 Sony Corporation Verfahren zur Empfehlung von Audioinhalten
DE102008022125A1 (de) * 2008-05-05 2009-11-19 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen
EP2159719B1 (de) 2008-08-27 2013-01-09 Sony Corporation Verfahren zur grafischen Darstellung von Musikstücken
JP5098896B2 (ja) * 2008-08-28 2012-12-12 ソニー株式会社 再生装置および再生方法
US20120233164A1 (en) * 2008-09-05 2012-09-13 Sourcetone, Llc Music classification system and method
US8452586B2 (en) * 2008-12-02 2013-05-28 Soundhound, Inc. Identifying music from peaks of a reference sound fingerprint
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
US8606733B2 (en) * 2009-12-07 2013-12-10 Xerox Corporation System and method for classification and selection of color palettes
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
CN102129456B (zh) * 2011-03-09 2012-07-04 天津大学 去相关稀疏映射音乐流派有监督自动分类方法
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
WO2013019997A1 (en) * 2011-08-02 2013-02-07 Emotiv Lifesciences Inc. Methods for modeling neurological development and diagnosing a neurological impairment of a patient
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US10225328B2 (en) 2013-03-14 2019-03-05 Aperture Investments, Llc Music selection and organization using audio fingerprints
US11271993B2 (en) 2013-03-14 2022-03-08 Aperture Investments, Llc Streaming music categorization using rhythm, texture and pitch
US10061476B2 (en) 2013-03-14 2018-08-28 Aperture Investments, Llc Systems and methods for identifying, searching, organizing, selecting and distributing content based on mood
US9875304B2 (en) 2013-03-14 2018-01-23 Aperture Investments, Llc Music selection and organization using audio fingerprints
US9639871B2 (en) 2013-03-14 2017-05-02 Apperture Investments, Llc Methods and apparatuses for assigning moods to content and searching for moods to select content
US10623480B2 (en) 2013-03-14 2020-04-14 Aperture Investments, Llc Music categorization using rhythm, texture and pitch
US10242097B2 (en) 2013-03-14 2019-03-26 Aperture Investments, Llc Music selection and organization using rhythm, texture and pitch
US9383965B1 (en) * 2013-08-16 2016-07-05 Amazon Technologies, Inc. Media library analyzer
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US20220147562A1 (en) 2014-03-27 2022-05-12 Aperture Investments, Llc Music streaming, playlist creation and streaming architecture
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
CN104778216B (zh) 2015-03-20 2017-05-17 广东欧珀移动通信有限公司 一种预设风格歌曲处理的方法及装置
US9880723B2 (en) * 2015-03-27 2018-01-30 Spkdrm Llc Graphical user interface using color spectrum to map sentiments
CN110155075A (zh) * 2018-06-01 2019-08-23 腾讯大地通途(北京)科技有限公司 氛围设备控制方法及相关装置
US11615772B2 (en) * 2020-01-31 2023-03-28 Obeebo Labs Ltd. Systems, devices, and methods for musical catalog amplification services
CN111462762B (zh) * 2020-03-25 2023-02-24 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质
US11900914B2 (en) * 2021-06-07 2024-02-13 Meta Platforms, Inc. User self-personalized text-to-speech voice generation
WO2022265132A1 (ko) * 2021-06-17 2022-12-22 견두헌 색혼합 방식으로 장르를 표현하는 음악장르 분류 장치 및 그 방법
CN116304721A (zh) * 2023-05-24 2023-06-23 北京希嘉创智数据技术有限公司 基于数据类别的大数据治理中数据标准制定方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5510572A (en) * 1992-01-12 1996-04-23 Casio Computer Co., Ltd. Apparatus for analyzing and harmonizing melody using results of melody analysis
JP3964979B2 (ja) * 1998-03-18 2007-08-22 株式会社ビデオリサーチ 楽曲識別方法及び楽曲識別システム
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
JP2001297093A (ja) * 2000-04-14 2001-10-26 Alpine Electronics Inc 音楽配給システムおよびサーバ装置
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
JP2003058147A (ja) * 2001-08-10 2003-02-28 Sony Corp 音楽コンテンツ自動分類装置及び自動分類方法
DE60319710T2 (de) 2003-11-12 2009-03-12 Sony Deutschland Gmbh Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale

Also Published As

Publication number Publication date
CN1985302A (zh) 2007-06-20
WO2006005533A2 (en) 2006-01-19
EP1615204B1 (de) 2007-10-24
EP1615204A1 (de) 2006-01-11
US20090031882A1 (en) 2009-02-05
WO2006005533A3 (en) 2006-04-06
DE602004009676D1 (de) 2007-12-06
US7858868B2 (en) 2010-12-28
JP4825800B2 (ja) 2011-11-30
CN1985302B (zh) 2010-12-22
JP2008506141A (ja) 2008-02-28

Similar Documents

Publication Publication Date Title
DE602004009676T2 (de) Verfahren zur Musikklassifikation
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE60122352T2 (de) Augenverfolgung für kontextabhängige spracherkennung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60115653T2 (de) Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE112020000548T5 (de) Audiovisuelle quellentrennung und -lokalisierung unter verwendung von generative adversarial networks
DE10232916B4 (de) Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
DE60110315T2 (de) Trainieren von akustischen Modellen zur Widerstandsfähigkeit gegen Rauschen
DE102018006962A1 (de) Regelfestlegung für Black-Box-Maschinenlernmodelle
DE10134471C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE3236832A1 (de) Verfahren und geraet zur sprachanalyse
DE102019000294A1 (de) Erstellen unternehmensspezifischer Wissensgraphen
WO2002073592A2 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE112013006650T5 (de) Multi-Layer System zur Symbol-Speicher basierten Kompression von Mustern
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE102021125855A1 (de) Selbstlernende sprachsteuerung durch künstliche intelligenz auf grundlage eines benutzerverhaltens während einer interaktion
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
DE102021124445A1 (de) Metamerkmal-trainingsmodelle für maschinenlernalgorithmen
DE102017104094B4 (de) Sprachverarbeitungssystem und sprachverarbeitungsverfahren
DE102020215954A1 (de) Dialogsystem und verfahren zum steuern desselben

Legal Events

Date Code Title Description
8381 Inventor (new situation)

Inventor name: KEMP, THOMAS, 70327 STUTTGART, DE

Inventor name: TINGEY, ROBERT, LONDON, EC3A 8EE, GB

Inventor name: MUGURA, KAZUTO C/O SONY DESIGN CENTRE EUROPE, , GB

Inventor name: LIU, CHRIS SHI-CHAI, LONDON, EC3A 8EE, GB

Inventor name: TOLOS, MARTA, 70327 STUTTGART, DE

8364 No opposition during term of opposition