DE102004022659B3 - Apparatus for characterizing a sound signal - Google Patents
Apparatus for characterizing a sound signal Download PDFInfo
- Publication number
- DE102004022659B3 DE102004022659B3 DE200410022659 DE102004022659A DE102004022659B3 DE 102004022659 B3 DE102004022659 B3 DE 102004022659B3 DE 200410022659 DE200410022659 DE 200410022659 DE 102004022659 A DE102004022659 A DE 102004022659A DE 102004022659 B3 DE102004022659 B3 DE 102004022659B3
- Authority
- DE
- Germany
- Prior art keywords
- sound
- subsequence
- common period
- period length
- combined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/071—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
Zum Charakterisieren eines Tonsignals wird eine Folge von quantisierten Einsatzzeitpunkten für jede von wenigstens zwei Tonquellen über der Zeit auf der Basis eines Quantisierungsrasters bereitgestellt. Hierauf wird eine gemeinsame Periodenlänge, die den wenigstens zwei Tonquellen zugrunde liegt, unter Verwendung der Folgen von Einsatzzeitpunkten ermittelt. Hierauf wird die Folge von Einsatzzeitpunkten in jeweilige Unterfolgen aufgeteilt, wobei eine Länge einer Unterfolge gleich der gemeinsamen Periodenlänge ist. Schließlich werden die Unterfolgen für die erste Tonquelle in eine erste zusammengefasste Unterfolge und für die zweite Tonquelle in eine zweite zusammengefasste Unterfolge zusammengefasst, und zwar z. B. unter Verwendung eines Pattern-Histogramms, um durch die erste zusammengefasste Unterfolge und durch die zweite zusammengefasste Unterfolge das Tonsignal zu charakterisieren, z. B. hinsichtlich Rhythmik, Geschwindigkeit oder Genre.To characterize a sound signal, a sequence of quantized use times for each of at least two sound sources over time is provided based on a quantization grid. Then a common period length, which is the basis for the at least two sound sources, determined using the consequences of use times. Then the sequence of deployment times is divided into respective subsequences, where a length of a subsequence is equal to the common period length. Finally, the subsequences for the first sound source are combined into a first combined subsequence and for the second sound source into a second combined subsequence, namely z. B. using a pattern histogram to characterize the audio signal through the first combined subsequence and the second combined subsequence, e.g. B. in terms of rhythm, speed or genre.
Description
Die vorliegende Erfindung bezieht sich auf die Analyse von Tonsignalen und insbesondere auf die Analyse von Tonsignalen zu Zwecken der Klassifikation und Identifikation von Tonsignalen, um die Tonsignale zu Charakterisieren.The The present invention relates to the analysis of audio signals and in particular to the analysis of sound signals for the purposes of Classification and identification of sound signals to the sound signals to characterize.
Die fortschreitende Entwicklung digitaler Distributionsmedien für multimediale Inhalte führt zu einer großen Vielfalt angebotener Daten. Für den menschlichen Nutzer ist die Grenze des Überschaubaren dabei längst überschritten. So gewinnt die inhaltliche Beschreibung der Daten durch Metadaten zunehmend an Bedeutung. Grundsätzlich besteht das Ziel, nicht nur Text-Dateien sondern auch z. B. Musikdateien, Videodateien oder sonstige Informationssignaldateien durchsuchbar zu machen, wobei derselbe Komfort wie bei gängigen Textdatenbanken angestrebt wird. Ein Ansatz hierfür ist der bekannte MPEG 7-Standard.The progressive development of digital distribution media for multimedia Contents leads to a big one Diversity of offered data. For the human user is the limit of the manageable long exceeded. Thus, the content description of the data by metadata increasingly gains in importance. in principle the goal is not only text files but also z. Music files, Video files or other information signal files searchable with the same comfort as usual text databases becomes. An approach for this is the well-known MPEG 7 standard.
Insbesondere bei der Analyse von Audiosignalen, also Signalen, die Musik und/oder Sprache umfassen, ist die Extraktion von Fingerabdrücken von großer Bedeutung.Especially in the analysis of audio signals, ie signals, the music and / or Language is the extraction of fingerprints from greater Importance.
Angestrebt wird ferner, Audiodaten mit Metadaten „anzureichern", um für z. B. ein Musikstück auf der Basis eines Fingerabdrucks Metadaten wiederzugewinnen. Der „Fingerabdruck" soll einerseits aussagekräftig sein, und andererseits möglichst kurz und prägnant sein. „Fingerabdruck" bezeichnet somit ein aus einem Musik-Signal generiertes komp rimiertes Informationssignal, welches nicht die Metadaten enthält, sondern zur Referenzierung auf die Metadaten z.B. durch Suche in einer Datenbank dient, z.B. in einem System zur Identifikation von Audiomaterial („AudioID").The aim is further "enriching" audio data with metadata in order, for example, to a piece of music to recover metadata based on a fingerprint. The "fingerprint" should on the one hand meaningful be, and on the other hand as possible short and concise be. "Fingerprint" means thus a compressed information signal generated from a music signal, which does not contain the metadata but for referencing to the metadata e.g. by searching in a database, e.g. in a system for the identification of Audio material ("AudioID").
Normalerweise bestehen Musikdaten aus der Überlagerung von Teilsignalen von Einzelquellen. Während es bei einer Popmusik typischerweise relativ wenige Einzelquellen gibt, nämlich den Sänger, die Gitarre, die Bassgitarre, das Schlagzeug und ein Keyboard, so kann die Anzahl von Quellen für ein Orchesterstück sehr groß werden. Ein Orchesterstück und ein Popmusikstück beispielsweise bestehen aus einer Überlagerung der von den einzelnen Instrumenten abgegebenen Töne. Ein Orchesterstück bzw. irgendein Musikstück stellt somit eine Überlagerung von Teilsignalen von einzelnen Quellen dar, wobei die Teilsignale die von den einzelnen Instrumenten des Orchesters bzw. Popmusikensembles erzeugten Töne sind, und wobei die einzelnen Instrumente Einzelquellen sind.Usually consist of music data from the overlay of sub-signals from single sources. While listening to a pop music typically there are relatively few individual sources, namely the Singers who Guitar, bass guitar, drums and a keyboard, so can the number of sources for an orchestral piece get very tall. An orchestral piece and a pop piece of music For example, consist of a superposition of the individual Instruments emitted tones. An orchestral piece or any piece of music thus provides a superposition of Partial signals from individual sources, the sub-signals the from the individual instruments of the orchestra or pop music ensemble generated sounds and the individual instruments are single sources.
Alternativ können auch Gruppen von ursprünglichen Quellen als Einzelquellen aufgefasst werden, so dass einem Signal wenigstens zwei Einzelquellen zugewiesen werden können.alternative can also groups of original ones Sources are understood as single sources, giving a signal at least two individual sources can be assigned.
Eine Analyse eines allgemeinen Informationssignals wird nachfolgend lediglich beispielhaft anhand eines Orchestersignals dargestellt. Die Analyse eines Orchestersignals kann auf vielerlei Arten und Weisen durchgeführt werden. So kann der Wunsch bestehen, die einzelnen Instrumente zu erkennen und aus dem Gesamtsignal die Einzelsignale der Instrumente zu extrahieren und gegebenenfalls in eine Notenschrift umzusetzen, wobei die Notenschrift als „Metadaten" fungieren würde. Weitere Möglichkeiten der Analyse bestehen darin, einen dominanten Rhythmus zu extrahieren, wobei eine Rhythmusextraktion auf der Basis der Schlaginstrumente besser vonstatten geht als auf der Basis der eher Ton-gebenden Instrumente, die auch als harmonisch-ausgehaltene oder „harmonic sustained" Instrumente bezeichnet werden. Während Schlaginstrumente typischerweise Pauken, Schlagzeuge, Rasseln oder sonstige Percussion-Instrumente umfassen, gehören zu den harmonisch ausgehaltenen Instrumenten alle sonstigen Instrumente, wie beispielsweise Geigen, Blasinstrumente, etc.A Analysis of a general information signal will be hereinafter merely exemplified by an orchestral signal. The analysis of a Orchestra signal can be performed in many ways. So there may be a desire to recognize the individual instruments and to extract the individual signals of the instruments from the total signal and if necessary to convert it into a musical notation, the musical notation would act as "metadata" Possibilities of Analysis is to extract a dominant rhythm being a rhythm extraction based on the percussion instruments better than on the basis of the more sound-giving instruments, which are also referred to as harmonic-sustained or "harmonic sustained" instruments become. While Percussion instruments typically timpani, drums, rattles or otherwise Including percussion instruments are among the most harmoniously endured All other instruments, such as violins, wind instruments, Etc.
Weiterhin werden zu den Schlaginstrumenten alle jene akustischen oder synthetischen Klangerzeuger gezählt, die aufgrund ihrer Klangeigenschaften zur Rhythmussektion beitragen (z.B. Rhythmusgitarre).Farther Become the percussion instruments all those acoustic or synthetic sound generators counted which contribute to the rhythm section due to their sound characteristics (e.g., rhythm guitar).
So wäre es beispielsweise zur Rhythmusextraktion eines Musikstücks wünschenswert, aus dem gesamten Musikstück lediglich perkussive Anteile zu extrahieren und eine Rhythmuserkennung dann auf der Basis dieser percussiven Anteile durchzuführen, ohne dass die Rhythmuserkennung durch Signale von den harmonisch ausgehaltenen Instrumenten „gestört" wird.So would it be for example, for rhythm extraction of a piece of music desirable from the entire piece of music only to extract percussive parts and a rhythm detection then to carry out on the basis of these percussive shares, without that the rhythm recognition by signals of the harmoniously endured Instruments "disturbed" is.
In der Technik existieren verschiedene Möglichkeiten, um automatisch verschiedene Muster aus Musikstücken zu extrahieren bzw. die Anwesenheit von Mustern zu detektieren. In Coyle, E. J., Shmulevich, I., „A System for Machine Recognition of Music Patterns", IEEE Int. Conf. on Acoustic, Speech, and Signal Processing, 1998, http://www2.mdanderson.org/app/ilya/Publications/icassp98mp r.pdf, wird nach melodischen Themen gesucht. Hierzu wird ein Thema vorgegeben. Dann wird gesucht, wo es auftritt.In There are various ways of using the technique automatically different patterns of music pieces to extract or to detect the presence of patterns. In Coyle, E.J., Shmulevich, I., "A System for Machine Recognition of Music Patterns ", IEEE Int. Conf. on Acoustic, Speech, and Signal Processing, 1998, http://www2.mdanderson.org/app/ilya/Publications/icassp98mp r.pdf, is looking for melodic themes. For this purpose, a topic is given. Then it is searched where it occurs.
In Schroeter, T., Doraisamy, S., Rüger, S., „From Raw Polyphonic Audio to Locating Recurring Themes", ISMIR, 2000, http//ismir2000.ismir.net/posters/shroeter ruger.pdf, wird nach melodischen Themen in einer transkribierten Darstellung des Musiksignals gesucht. Wieder wird das Thema vorgegeben, und es wird gesucht, wo es auftritt.In Schroeter, T., Doraisamy, S., Rüger, S., "From Raw Polyphonic Audio to Locating Recurring Themes", ISMIR, 2000, http://ismir2000.ismir.net/poster/shroeter_ruger.pdf, is becoming melodic Searching for topics in a transcribed representation of the musical signal. and it is searched where it occurs.
Entsprechend der üblichen Struktur abendländischer Musik treten melodische Fragmente im Gegensatz zur rhythmischen Struktur meistens nicht periodisch auf. Aus diesem Grund beschränken sich viele Verfahren zur Suche melodischer Fragmente auf das individuelle Auffinden ihres Vorkommens. Im Gegensatz hierzu gilt im Bereich der rhythmischen Analyse das Interesse bevorzugt im Auffinden periodischer Strukturen.Corresponding the usual Structure occidental Music is accompanied by melodic fragments as opposed to rhythmic ones Structure mostly not periodic. That's why many limit themselves Method for searching melodic fragments for individual finding their occurrence. In contrast, in the field of rhythmic analysis the interest is preferred in finding periodic structures.
In Meudic, B., „Musical Pattern Extraction: from Repetition to Musical Structure", in Proc. CMMR, 2003, http://www.ircam.fr/equipes/repmus/RMPapers/ CMMR-meudic2003.pdf werden melodische Pattern mit Hilfe einer Selbstähnlichkeitsmatrix identifiziert.In Meudic, B., "Musical Pattern Extraction: from Repetition to Musical Structure ", in Proc. CMMR, 2003, http://www.ircam.fr/equipes/repmus/RMPapers/ CMMR-meudic2003.pdf melodic patterns are identified using a self-similarity matrix.
In Meek, Colin, Birmingham, W. P., "Thematic Extractor", ISMIR, 2001, http://ismir2001.ismir.net/pdf/meek.pdf, wird nach melodischen Themen gesucht. Insbesondere werden Sequenzen gesucht, wobei die Länge einer Sequenz von zwei Noten bis zu einer vorgegebenen Anzahl sein kann.In Meek, Colin, Birmingham, W.P., "Thematic Extractor ", ISMIR, 2001, http://ismir2001.ismir.net/pdf/meek.pdf, becomes melodic Topics searched. In particular, sequences are searched, the Length of one Sequence of two notes can be up to a predetermined number.
In Smith, L., Medina, R. "Discovering Themes by Exact Pattern Matching", 2001, http://citeseer.ist.psu. edu/498226.html wird nach melodischen Themen mit einer Selbst-Ähnlichkeits-Matrix gesucht.In Smith, L., Medina, R. "Discovering Themes by Exact Pattern Matching ", 2001, http://citeseer.ist.psu. edu / 498226.html turns to melodic themes with a self-similarity matrix searched.
In Lartillot, O., "Perception-Based Musical Pattern Discovery", in Proc. IFMC, 2003, http://www.ircam.fr/equipes/repmus/lartillot/cmmr/cmmr.pdf wird ebenfalls nach melodischen Themen gesucht.In Lartillot, O., "Perception-Based Musical Pattern Discovery ", in proc. IFMC, 2003, http://www.ircam.fr/equipes/repmus/lartillot/cmmr/cmmr.pdf is also looking for melodic themes.
In Brown, J. C., "Determination of the Meter of Musical Scores by Autocorrelation", J. of the Acoust, Soc. Of America, vol. 94, no. 4, 1993 wird aus einer symbolischen Darstellung des Musiksignals, nämlich auf der Basis einer MIDI-Darstellung mit Hilfe einer Periodizitätenfunktion (Autokorrelationsfunktion) die Taktart des zugrunde liegenden Musikstücks ermittelt.In Brown, J.C., "Determination of the Meter of Musical Scores by Autocorrelation ", J. of the Acoust, Soc. Of America, vol. 94, no. 4, 1993 becomes symbolic Presentation of the music signal, namely based on a MIDI representation using a periodicity function (Autocorrelation function) determines the time signature of the underlying piece of music.
Ähnlich wird in Meudic, B., „Automatic Meter Extraction from MIDI files", Proc. JIM, 2002, http://www.ircam. fr/equipes/repmus/RMPapers/ JIM-benoit2002.pdf vorgegangen, wo auf der Schätzung von Periodizitäten eine Tempo- und Taktschätzung aus Audiosignalen vorgenommen wird.Similarly in Meudic, B., "Automatic Meter Extraction from MIDI files ", Proc. JIM, 2002, http://www.ircam. fr / equipes / repmus / RMPapers / JIM-benoit2002.pdf proceeded where on the estimate of periodicities a speed and timing estimate is made of audio signals.
Verfahren zur Identifikation melodischer Themen eignen sich nur sehr bedingt zur Identifikation von in einem Tonsignal vorliegenden Periodizitäten, da, wie es ausgeführt worden ist, musikalische Themen zwar wiederkehrend sind, jedoch nicht so sehr eine Grund-Periodizität in einem Musikstück beschreiben, sondern eher, wenn überhaupt übergeordnete Periodizitätinformationen in sich haben. Auf jeden Fall sind Verfahren zur Identifikation melodischer Themen sehr aufwendig, da bei der Suche von melodischen Themen die verschiedenen Variationen der Themen berücksichtigt werden müssen. So ist es aus der Musikwelt bekannt, dass Themen normalerweise variiert werden, nämlich beispielsweise durch Transposition, Spiegelung, etc.method to identify melodic themes are only very limited for the identification of periodicities present in a sound signal, as stated though musical themes are repetitive, however not so much describing a basic periodicity in a piece of music, but rather, if any, higher Periodizitätinformationen to have in oneself. In any case, methods of identification melodic themes very elaborate, as in the search for melodic Topics considering the different variations of the topics Need to become. So it is known from the music world that topics usually varies be, namely for example, by transposition, mirroring, etc.
Die WO 02/11123 A2 offenbart Systeme und Verfahren zum Erkennen von Ton- und Musiksignalen trotz hohen Rauschens und hoher Verzerrungen. Hierzu werden Referenzzeitpunkte und zugeordnete Fingerabdrücke des Signals berechnet. Die Referenzzeitpunkte treten an reproduzierbaren Positionen innerhalb einer Datei auf, während Fingerabdrücke Merkmale des Signals bei oder nahe den Referenzzeitpunkten darstellen. Um eine Signalerkennung durchzuführen, werden die Referenzzeitpunkte und Fingerabdrücke dazu verwendet, übereinstimmende Fingerabdrücke aus einer Datenbank zu finden. Die Datenbank liefert ferner eine Dateiidentifikation, nach der dann das unbekannte Stück identifiziert wird.The WO 02/11123 A2 discloses systems and methods for detecting Sound and music signals despite high noise and high distortion. For this are reference times and associated fingerprints of the Calculated signal. The reference times occur at reproducible Positions within a file while fingerprint features of the signal at or near the reference times. Around to perform a signal recognition, the reference times and fingerprints are used to match fingerprints to find from a database. The database also provides a File identification, after which the unknown piece is identified becomes.
Die
Die Aufgabe der vorliegenden Erfindung besteht darin, ein effizientes und zuverlässiges Konzept zum Charakterisieren eines Tonsignals zu schaffen.The The object of the present invention is to provide an efficient and reliable Concept for characterizing a sound signal.
Diese Aufgabe wird durch eine Vorrichtung zum Charakterisieren eines Tonsignals gemäß Patentanspruch 1 gelöst.These The object is achieved by a device for characterizing a sound signal according to claim 1 solved.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass ein effizient berechenbares und im Hinblick auf viele Informationen aussagekräftiges Charakteristikum eines Tonsignals auf der Basis einer Folge von Einsatzzeitpunkten durch Periodenlängenbestimmung, Aufteilung in Unterfolgen und Zusammenfassung in eine zusammengefasste Unterfolge als Charakteristikum ermittelbar ist.Of the The present invention is based on the finding that an efficient predictable and meaningful in terms of much information a sound signal based on a sequence of deployment times by period length determination, Division into subsequences and summary into one summarized Subsequence can be determined as a characteristic.
Ferner wird vorzugsweise nicht nur eine einzige Folge von Einsatzzeitpunkten eines einzigen Instruments, also einer einzigen Tonquelle entlang der Zeit betrachtet, sondern es werden wenigstens zwei Folgen von Einsatzzeitpunkten zweier unterschiedlicher Tonquellen, die parallel in dem Musikstück vorkommen, betrachtet. Nachdem typischerweise davon ausgegangen werden kann, dass allen Tonquellen bzw. wenigstens einem Untersatz von Tonquellen, wie beispielsweise den perkussiven Tonquellen in einem Musikstück, die selbe Periodenlänge zugrunde liegt, wird unter Verwendung der Folgen von Einsatzzeitpunkten der zwei Tonquellen eine gemeinsame Periodenlänge ermittelt, die den wenigstens zwei Tonquellen zugrunde liegt. Erfindungsgemäß wird dann jede Folge von Einsatzzeitpunkten in jeweilige Unterfolgen unterteilt, wo bei eine Länge einer Unterfolge gleich der gemeinsamen Periodenlänge ist.Further, preferably not only one Considered succession of use times of a single instrument, so a single sound source along the time, but at least two episodes of use times of two different sound sources that occur in parallel in the piece of music considered. Since it can typically be assumed that all sound sources or at least one subset of sound sources, such as the percussive sound sources in a piece of music, are based on the same period length, a common period length is determined using the sequences of application times of the two sound sources based on at least two sound sources. According to the invention, each sequence of deployment times is then subdivided into respective subsequences, where at a length of a subsequence is equal to the common period length.
Die Charakteristika-Extraktion findet dann auf der Basis einer Zusammenfassung der Unterfolgen für die erste Tonquelle in eine erste zusammengefasste Unterfolge und auf der Basis einer Zusammenfassung der Unterfolgen für die zweite Tonquelle in eine zweite zusammengefasste Unterfolge statt, wobei die zusammengefassten Unterfolgen als Charakteristikum für das Tonsignal dienen und zur weiteren Verarbeitung verwendet werden können, wie beispielsweise zur Extraktion von semantisch bedeutungsvollen Informationen über das gesamte Musikstück, wie beispielsweise Genre, Tempo, Taktart, Ähnlichkeit zu anderen Musikstücken etc.The Characteristic extraction then takes place on the basis of a summary the subsequences for the first sound source into a first combined suborder and based on a summary of the subsequences for the second Sound source in a second combined suborder instead, where the summarized subsequences as a characteristic for the sound signal serve and can be used for further processing, such as for example, to extract semantically meaningful information about the entire piece of music, such as genre, tempo, time signature, similarity to other pieces of music etc.
Die zusammengefasste Unterfolge für die erste Tonquelle und die zusammengefasste Unterfolge für die zweite Tonquelle bilden somit ein Drum-Pattern des Tonsignals, wenn die beiden Tonquellen, die anhand der Folge von Einsatzzeitpunkten berücksichtigt worden sind, perkussive Tonquellen sind, wie beispielsweise Trommeln, sonstige Schlagzeug-Instrumente oder beliebige andere perkussive Instrumente, die sich dadurch auszeichnen, dass nicht ihre Tonhöhe, also ihr Pitch entscheidet, sondern dass ihr charakteristisches Spektrum bzw. das Ansteigen und Abfallen eines ausgegebenen Tons und nicht die Tonhöhe von höherer musikalischer Bedeutung sind.The combined subsequence for the first sound source and the combined subsequence for the second Sound source thus form a drum pattern of the sound signal when the both sound sources, taking into account the sequence of application times are percussive sound sources, such as drums, other percussion instruments or any other percussive Instruments that are characterized by not their pitch, so their pitch decides, but that their characteristic spectrum or the rise and fall of an output sound and not the pitch from higher musical meaning.
Die erfindungsgemäße Vorgehensweise dient somit zur automatischen Extraktion von vorzugsweise Drum-Patterns aus einer vorzugsweise transkribierten, also z. B. Noten-Darstellung eines Musiksignals. Diese Darstellung kann im MIDI-Format vorliegen oder automatisch aus einem Audiosignal mittels Methoden der digitalen Signalverarbeitung ermittelt werden, wie beispielsweise mit der Independent Component Analysis (ICA) oder bestimmten Variationen derselben, wie beispielsweise der nicht-negativen Independent Component Analysis, oder allgemein mit Konzepten, die unter dem Stichwort „Blind Source Separation" (BSS) bekannt sind.The inventive approach is used thus for the automatic extraction of preferably drum patterns from a preferably transcribed, so z. B. note representation a music signal. This representation may be in MIDI format or automatically from an audio signal using digital methods Signal processing can be determined, such as with the Independent Component Analysis (ICA) or specific variations same, such as the non-negative Independent Component Analysis, or more generally with concepts, which are under the keyword "Blind Source Separation "(BSS) are known.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird zur Extraktion eines Drum-Patterns zunächst eine Erkennung der Noteneinsätze, also Startzeitpunkte, je unterschiedlichem Instrument und je Pitch bei tonalen Instrumenten vorgenommen. Alternativ kann ein Auslesen einer Notendarstellung stattfinden, wobei dieses Auslesen in einem Einlesen eines MIDI-Files bestehen kann oder in einem Abtasten und Bildverarbeiten einer Notenschrift oder auch in der Entgegennahme von manuell eingetippten Noten bestehen kann.at a preferred embodiment of The present invention is for the extraction of a drum pattern first a Recognition of the stakes, So start times, each instrument and each pitch made with tonal instruments. Alternatively, a read held a score, this reading in one Reading in a MIDI file can consist of or in a scanning and Image processing of a musical notation or in the acceptance of manually typed notes.
Hierauf wird bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ein Raster ermittelt, gemäß dem die Noteneinsatzzeiten quantisiert werden, woraufhin dann die Noteneinsatzzeiten quantisiert werden.hereupon in a preferred embodiment the present invention determines a grid, according to which the Note assignment times are then quantized, then the note times are quantized become.
Hierauf wird die Länge des Drum-Patterns als Länge eines musikalischen Taktes, als ganzzahliges Vielfaches der Länge eines musikalischen Taktes oder als ganzzahliges Vielfaches der Länge einer musikalischen Zählzeit ermittelt.hereupon becomes the length of the drum pattern as a length a musical measure, as an integer multiple of the length of a musical measure or as an integer multiple of the length of a musical beat determined.
Hierauf wird eine Ermittlung einer Häufigkeit des Auftretens eines bestimmten Instruments pro metrischer Position mit einem Pattern-Histogramm durchgeführt.hereupon is a determination of a frequency of the Occurrence of a particular instrument per metric position performed with a pattern histogram.
Dann wird eine Auswahl der relevanten Einträge vorgenommen, um schließlich eine Form des Drum-Patterns als bevorzugtes Charakteristikum für das Tonsignal zu erhalten. Alternativ kann das Pattern-Histogramm als solches verarbeitet werden. Das Pattern-Histogramm ist ebenfalls eine komprimierte Darstellung der musikalischen Ereignisse, d.h. des Notenbildes, und enthält Informationen über den Grad der Variation und bevorzugte Zählzeiten, wobei eine Flachheit des Histogramms auf eine starke Variation hinweist, während ein sehr „gebirgiges" Histogramm auf ein eher stationäres Signal im Sinne einer Selbst-Ähnlichkeit hinweist.Then a selection of the relevant entries is made, finally a Shape of the drum pattern as a preferred characteristic for the audio signal to obtain. Alternatively, the pattern histogram as such are processed. The pattern histogram is also a compressed representation the musical events, i. of the score, and contains information about the degree the variation and preferred beats, where flatness of the histogram indicates a strong variation, while a very "mountainous" histogram on one rather stationary Signal in the sense of self-similarity points.
Zur Verbesserung der Aussagefähigkeit des Histogramms wird es bevorzugt, zunächst eine Vorverarbeitung durchzuführen, um ein Signal in charakteristische untereinander ähnliche Regionen des Signals zu unterteilen und ein Drum-Pattern nur für untereinander ähnliche Regionen im Signal zu extrahieren und für andere charakteristische Regionen im Signal ein anderes Drum-Pattern zu ermitteln.to Improvement of the informative value of the histogram, it is preferred to first perform a preprocessing to a signal in characteristic mutually similar regions of the signal to subdivide and a drum pattern only for mutually similar Extract regions in the signal and for others characteristic Regions in the signal to determine a different drum pattern.
Die vorliegende Erfindung ist dahin gehend vorteilhaft, dass eine robuste und effiziente Art und Weise zur Berechnung einer Charakteristik eines Tonsignals erhalten wird, insbesondere aufgrund der durchgeführten Unterteilung, die gemäß der ebenfalls mit statistischen Methoden ermittelbaren Periodenlänge sehr robust und für alle Signale gleichermaßen durchführbar ist. Des weiteren ist das erfindungsgemäße Konzept dahin gehend skalierbar, dass die Aussagefähigkeit und Genauigkeit des Konzepts jedoch zum Preis einer höheren Rechenzeit ohne weiteres dadurch gesteigert werden kann, dass immer mehr Folgen von Auftrittszeitpunkten von immer mehr verschiedenen Tonquellen, also Instrumenten, in die Bestimmung der gemeinsamen Periodenlänge und in die Bestimmung des Drum-Patterns mit einbezogen werden, so dass die Berechnung der zusammengefassten Unterfolgen immer aufwendiger wird.The present invention is advantageous in that a robust and efficient way of calculating a characteristic of a sound signal is obtained, in particular due to the subdivision carried out, which is very robust and equally feasible for all signals according to the period length which can also be determined by statistical methods. Furthermore, this is invented The concept according to the invention is scalable to the extent that the informative value and accuracy of the concept can be increased at the price of a higher computing time without further ado that more and more sequences of occurrence times of more and more different sound sources, ie instruments, in the determination of the common period length and in the Determination of the drum pattern can be included, so that the calculation of the summarized subsequences becomes more and more complex.
Eine alternative Skalierbarkeit besteht jedoch ebenfalls darin, eine bestimmte Anzahl von zusammengefassten Unterfolgen für eine bestimmte Anzahl von Tonquellen zu berechnen, um dann je nach Weiterverarbeitungsinteresse die erhaltenen zusammengefassten Unterfolgen nachzubearbeiten und damit im Hinblick auf ihre Aussagekraft je nach Bedarf zu reduzieren. Histogrammeinträge unter einem bestimmten Schwellwert können z. B. ignoriert werden. Histogrammeinträge können aber auch an sich quantisiert werden oder nur allgemein je nach Schwellwertentscheidung dahin gehend binarisiert werden, dass ein Histogramm lediglich noch die Aussage enthält, dass in der zusammengefassten Unterfolge zu einem bestimmten Zeitpunkt ein Histogrammeintrag ist oder nicht.A However, alternative scalability is also a certain number of combined subsequences for a given number from sound sources, depending on the processing interest to rework the obtained summarized subsequences and so as to reduce their significance as needed. histogram entries below a certain threshold z. B. be ignored. histogram entries can but also quantized per se or only generally depending on the threshold decision to be binarized that a histogram only contains the statement that in the summarized suborder at a given time a histogram entry is or not.
Das erfindungsgemäße Konzept ist aufgrund der Tatsache, dass viele Unterfolgen zu einer zusammengefassten Unterfolge „verschmolzen" werden, ein robustes Verfahren, das jedoch dennoch effizient ausführbar ist, da keine numerisch intensiven Verarbeitungsschritte benötigt werden.The inventive concept is due to the fact that many subsequences to one summarized Subsequent "fused", a robust Method, which, however, is still efficiently executable since no numeric intensive processing steps are needed.
Insbesondere spielen perkussive Instrumente ohne Pitch, die im Folgenden auch Drums genannt werden, eine wesentliche Rolle besonders in populärer Musik. Viele Informationen über Rhythmus und musikalisches Genre stecken in den von Drums gespielten „Noten", welche z. B. bei einer intelligenten und intuitiven Suche in Musikarchiven verwendet werden könnten, um Klassifikationen bzw. wenigstens Vorklassifikationen durchführen zu können.Especially play percussive instruments without pitch, which in the following also Drums, an essential role especially in popular music. Lots of information about Rhythm and musical genre are in the "notes" played by drums, which, for example, in an intelligent and intuitive search can be used in music archives could to carry out classifications or at least pre-classifications can.
Die von Drums gespielten Noten bilden häufig wiederkehrende Muster, die auch als Drum-Pattern bezeichnet werden. Ein Drum-Pattern kann als komprimierte Darstellung der gespielten Noten dienen, indem aus einem längeren Notenbild ein Notenbild der Länge eines Drum-Patterns extrahiert wird. Dadurch können aus Drum-Pattern semantisch bedeutungsvolle Informationen über das gesamte Musikstück extrahiert werden, wie beispielsweise Genre, Tempo, Taktart, Ähnlichkeit zu anderen Musikstücken, etc.The notes played by drums often form recurring patterns, which are also called drum pattern. A drum pattern can serve as a compressed representation of the notes played, by from a longer one Score picture a score of length a drum pattern is extracted. This can turn drum patterns into semantic meaningful information about the entire piece of music such as genre, tempo, time signature, similarity to other pieces of music, Etc.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:preferred embodiments The present invention will be described below with reference to FIG the accompanying drawings explained in detail. Show it:
Die
mehreren Folgen von vorzugsweise quantisierten Einsatzzeitpunkten
werden von der Einrichtung
Die
gemeinsame Tonperiodenlänge
wird hierauf einer Einrichtung
Wenn
beispielsweise
Die
Sätze von
Unterfolgen für
die Tonquellen werden dann einer Einrichtung
Nachfolgend
wird auf verschiedene Ausführungsbeispiele
zur Bestimmung der gemeinsamen Periodenlänge im Schritt
Wie
es ausgeführt
worden ist, kann das Pattern-Histogramm, wie es in
Bei
einem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung wird das in
Erfindungsgemäß wird also ein musikalisches „Ergebnis" oder Score aus perkussiven Instrumenten, die nicht oder nicht signifikant durch eine Tonhöhe charakterisiert werden, erzeugt. Ein musikalisches Ereignis wird als Auftreten eines Tons eines Musikinstruments definiert. Vorzugsweise werden nur perkussive Instrumente ohne einen wesentlichen Pitch betrachtet. Ereignisse werden in dem Audiosignal erfasst und in Instrumentenklassen klassifiziert, wobei die zeitlichen Positionen der Ereignisse auf einem Quantisierungsraster, das auch als Tatum-Grid bezeichnet wird, quantisiert werden. Ferner wird das musikalische Maß bzw. die Länge eines Taktes in Millisekunden oder aber eine Anzahl von Quantisierungsintervallen berechnet, wobei ferner auch vorzugsweise Auftakte identifiziert werden. Die Identifikation von rhythmischen Strukturen auf der Basis der Frequenz des Auftretens musikalischer Ereignisse an bestimmten Positionen im Drum-Pattern ermöglicht eine robuste Identifikation des Tempos und gibt wertvolle Hinweise für die Positi onierung der Taktlinien, wenn ferner musikalisches Hintergrundwissen eingesetzt wird.Thus, according to the invention a musical "result" or score from percussive Instruments that are not or not significantly characterized by a pitch be generated. A musical event is called the occurrence of a Sounds of a musical instrument defined. Preferably only percussive Instruments considered without a significant pitch. Events are detected in the audio signal and classified into instrument classes, where the temporal positions of the events on a quantization grid, which is also referred to as a Tatum grid, are quantized. Further will the musical measure or the length of a clock in milliseconds or a number of quantization intervals furthermore preferably also identifies upbeats become. The identification of rhythmic structures on the base the frequency of the occurrence of musical events at certain Positions in the drum pattern allows a robust identification of the tempo and gives valuable hints for the Positioning of the timing lines, if also used musical background knowledge becomes.
Es sei darauf hingewiesen, dass der musikalische Score bzw. das Charakteristikum vorzugsweise die rhythmischen Informationen, wie beispielsweise Startzeit und Dauer umfasst. Obgleich die Schätzung dieser metrischen Informationen, nämliche einer Zeitsignatur, nicht unbedingt für die automatische Synthese der transkribierten Musik nötig ist, wird sie dennoch für die Erzeugung eines gültigen musikalischen Scores und für die Reproduktion durch menschliche Reproduzenten benötigt. Daher kann ein automatischer Transkriptionsprozess in zwei Aufgaben aufgeteilt werden, nämlich die Erfassung und Klassifizierung der musikalischen Ereignisse, also Noten, und die Erzeugung eines musikalischen Scores aus den erfassten Noten, also des Drum-Patterns, wie es vorstehend bereits erläutert worden ist. Hierzu wird vorzugsweise die metrische Struktur der Musik geschätzt, wobei auch eine Quantisierung der zeitlichen Positionen der erfassten Noten sowie eine Erkennung von Auftakten und eine Bestimmung der Position der Taktlinien vorgenommen werden kann. Insbesondere wird die Extraktion des musikalischen Scores für perkussive Instrumente ohne eine signifikante Pitch-Information aus polyphonen musikalischen Audiosignalen beschrieben. Die Erfassung und Klassifizierung der Ereignisse wird vorzugsweise mit dem Verfahren der unabhängigen Subspace-Analyse durchgeführt.It it should be noted that the musical score or the characteristic preferably the rhythmic information, such as Start time and duration includes. Although the estimation of this metric information, same a time signature, not necessarily for automatic synthesis the transcribed music needed is she still for the generation of a valid musical scores and for the reproduction needed by human reproducers. Therefore An automatic transcription process can be divided into two tasks be, namely the recording and classification of musical events, thus notes, and the production of a musical score from the recorded notes, so the drum pattern, as already above explained has been. For this purpose, preferably the metric structure of the music estimated, where also a quantization of the temporal positions of the detected Notes as well as a recognition of the beginning and a determination of the position the timing lines can be made. In particular, the extraction the musical score for percussive instruments without significant pitch information described from polyphonic musical audio signals. The capture and Classification of events is preferably done with the procedure the independent one Subspace analysis performed.
Eine Erweiterung der ICA stellt die Independent Subspace Analysis (ISA) dar. Hier werden die Komponenten unterteilt in unabhängige Unterräume oder Subspaces, deren Komponenten nicht statistisch unabhängig sein müssen. Durch eine Transformation des Musiksignals wird eine mehrdimensionale Dar stellung des Mischsignals ermittelt und der letzten Annahme für die ICA entsprochen. Verschiedene Verfahren zur Berechnung der unabhängigen Komponenten wurden in den letzten Jahren entwickelt. Einschlägige Literaturstellen, die sich zum Teil auch mit der Analyse von Audiosignalen beschäftigen, sind folgende:A Extension of the ICA provides the Independent Subspace Analysis (ISA) Here the components are divided into independent subspaces or Subspaces whose components are not statistically independent have to. Through a transformation of the music signal becomes a multidimensional Representation of the mixed signal determined and the last assumption for the ICA met. Various methods for calculating the independent components have been developed in recent years. Relevant references that partly dealing with the analysis of audio signals the following:
- 1. J. Karhunen, „Neural approaches to independent component analysis and source separation", Proceedings of the European Symposium on Artificial Neural Networks, S. 249-266, Bruges, 1996.1. J. Karhunen, "Neural Approaches to independent component analysis and source separation ", Proceedings of the European Symposium on Artificial Neural Networks, pp. 249-266, Bruges, 1996.
- 2. M.A. Casey and A. Westner, „Separation of Mixed Audio Sources by Independent Subspace Analysis", Proceedings of the International Computer Music Conference, Berlin, 2000.2. M.A. Casey and A. Westner, "Separation of Mixed Audio Sources by Independent Subspace Analysis ", Proceedings of the International Computer Music Conference, Berlin, 2000.
- 3. J.-F. Cardoso, „Multidimensional independent component analysis", Proceedings of ICASSP'98, Seattle, 1998.3rd J.-F. Cardoso, "Multidimensional independent component analysis ", Proceedings of ICASSP'98, Seattle, 1998th
- 4. A. Hyvärinen, P.O. Hoyer and M. Inki, „Topographic Independent analysis", Neural Computation, 13(7), S. 1525-1558, 2001.4. A. Hyvärinen, P.O. Hoyer and M. Inki, "Topographic Independent analysis ", Neural Computation, 13 (7), pp. 1525-1558, 2001.
- 5. S. Dubnov, „Extracting Sound Objects by Independent Subspace Analysis" Proceedings of AES 22nd International Conference on Virtual, Synthetic and Entertainment Audio, Helsinki, 2002.5. S. Dubnov, "Extracting Sound Objects by Independent Subspace Analysis" Proceedings of AES 22 nd International Conference on Virtual, Synthetic and Entertainment Audio, Helsinki., 2002
- 6. J.-F. Cardoso and A. Souloumiac, „Blind beamforming for non Gaussian signals" IEE Proceedings, Bd. 140, Nr. 6, S. 362-370, 1993.6. J.-F. Cardoso and A. Souloumiac, "Blind beamforming for non Gaussian signals "IEE Proceedings, Vol. 140, No. 6, pp. 362-370, 1993.
Ein Ereignis wird als Auftreten einer Note eines musikalischen Instruments definiert. Der Auftrittszeitpunkt einer Note ist also der Zeitpunkt, zu dem die Note in dem musikalischen Stück auftritt. Das Audiosignal wird in Teile segmentiert, wobei ein Segment des Audiosignals ähnliche rhythmische Eigenschaften hat. Dies wird unter Verwendung eines Abstandsmaßes zwischen kurzen Rahmen des Audiosignals durchgeführt, das durch einen Vektor von Audiomerkmalen auf niedriger Ebene dargestellt wird. Das Tatum-Grid und höhere metrische Ebenen werden aus den segmentierten Teilen separat ermittelt. Es wird angenommen, dass sich die metrische Struktur innerhalb eines segmentierten Teils des Audiosignals nicht verändert. Die erfassten Ereignisse sind vorzugsweise mit dem abgeschätzten Tatum-Grid ausgerichtet. Dieser Prozess entspricht in etwa der bekannten Quantisierungsfunktion in üblichen MIDI-Sequenzer-Softwareprogrammen für die Musikproduktion. Die Taktlänge wird aus der quantisierten Ereignisliste abgeschätzt, und wiederkehrende rhythmische Strukturen werden identifiziert. Die Kenntnis über die rhythmischen Strukturen wird für die Korrektur des geschätzten Tempos verwendet und für die Identifikation der Position der Taktlinien unter Verwendung musikalischen Hintergrundwissens.An event is defined as the occurrence of a note of a musical instrument. The appearance time of a note is thus the time at which the note occurs in the musical piece. The audio signal is segmented into parts, with a segment of the audio signal having similar rhythmic properties. This is done using a distance measure between short frames of the audio signal represented by a vector of low-level audio features. The tatum grid and higher metric levels are determined separately from the segmented parts. It is assumed that the metric structure does not change within a segmented portion of the audio signal. The detected events are preferably aligned with the estimated tatum grid. This process is similar to the well-known quantization function in common MIDI sequencer software programs for music production. The bar length is taken from the quanti estimated event list, and recurring rhythmic structures are identified. The knowledge about the rhythmic structures is used for the correction of the estimated tempo and for the identification of the position of the timing lines using musical background knowledge.
Nachfolgend
wird auf bevorzugte Ausgestaltungen verschiedener erfindungsgemäßer Elemente eingegangen.
Vorzugsweise führt
die Einrichtung
Im allgemeinen Fall entspricht der Abstand zwischen zwei Rasterpunkten dem größten Notenwert, der benötigt wird, um durch Bildung ganzzahliger Vielfacher dieses Notenwerts alle vorkommenden Notenwerte bzw. zeitlichen Periodendauern darzustellen. Der Rasterabstand ist damit der größte gemeinsame Teiler aller vorkommenden Notendauern/Periodenlängen etc.in the general case, the distance between two grid points the largest note value, the needed is to order by forming integer multiples of this note value to represent all occurring note values or temporal periods. The grid spacing is thus the largest common divisor of all occurring note durations / period lengths etc.
Nachfolgend werden zwei alternative Lösungsansätze zur Bestimmung des Tatum-Grids dargestellt. Zunächst, als erster Lösungsansatz, wird das Tatum-Grid unter Verwendung einer 2-Wege-Mismatch-Prozedur (TWM) dargestellt. Eine Serie von Versuchswerten für die Tatum-Periode, also für den Abstand von zwei Rasterpunkten, wird aus einem Histogramm für ein Inter-Onset-Intervall (IOI) abgeleitet. Die Berechnung des IOI ist nicht auf aufeinanderfolgende Onsets begrenzt, sondern auf praktisch alle Paare von Onsets in einem zeitlichen Rahmen. Tatum-Kandidaten werden als ganzzahlige Bruchteile des häufigsten IOI berechnet. Der Kandidat wird ausgewählt, der am besten die harmonische Struktur des IOI gemäß der 2-Wege-Mismatch-Fehlerfunktion vorhersagt. Die geschätzte Tatum-Periode wird nachfolgend durch Berechnung der Fehlerfunktion zwischen dem Comb-Grid, das von der Ta tum-Periode abgeleitet wird und den Onset-Zeiten des Signals berechnet. Es wird also das Histogramm des IOI erzeugt und mittels eines FIR-Tiefpassfilters geglättet. Tatum-Kandidaten werden also durch Aufteilen des IOI entsprechend den Spitzen in dem IOI-Histogramm durch einen Satz von Werten zwischen z. B. 1 und 4 erhalten. Ein roher Schätzwert für die Tatum-Periode wird aus dem IOI-Histogramm nach dem Anwenden der TWM abgeleitet. Anschließend werden die Phase des Tatum-Grids und ein exakter Schätzwert der Tatum-Periode mittels der TWM zwischen den Noteneinsatzzeiten und mehreren Tatum-Grids mit Perioden nahe der vorher geschätzten Tatum-Periode berechnet.following are two alternative approaches to Determination of the Tatum grid shown. First, as a first solution, The tatum grid is constructed using a 2-way mismatch procedure (TWM). A series of experimental values for the Tatum period, So for the Spacing of two grid points, will be a histogram for an inter-onset interval (IOI) derived. The calculation of the IOI is not on consecutive Onsets limited, but on virtually all pairs of onsets in a time frame. Tatum candidates are considered integer fractions the most common IOI calculated. The candidate is selected, the best the harmonic structure of the IOI according to the 2-way mismatch error function predicts. The estimated Tatum period is subsequently calculated by calculating the error function between the comb grid, which is derived from the tum period and the onset times of the signal. So it becomes the histogram of the IOI generated and smoothed by means of an FIR low-pass filter. Become Tatum candidates that is, by splitting the IOI according to the peaks in the IOI histogram by a set of values between e.g. B. 1 and 4 received. One raw estimate for the Tatum period is taken from the IOI histogram after applying the Derived TWM. Subsequently become the phase of the Tatum grid and an exact estimate of the Tatum period by means of the TWM between the notes times and several date grids calculated with periods close to the previously estimated tatum period.
Das zweite Verfahren verfeinert und stellt das Tatum-Grid durch Berechnen der besten Übereinstimmung zwischen den Noteneinsatzvektor und dem Tatum-Grid dar, und zwar unter Verwendung eines Korrelationskoeffizienten Rxy zwischen dem Noteneinsatzvektor x und dem Tatum y.The second method refines and presents the tatum grid by computing the best match between the note insert vector and the tatum grid, using a correlation coefficient R xy between the note insert vector x and the tatum y.
Um kleinen Tempovariationen zu folgen, wird das Tatum-Grid für benachbarte Rahmen mit z. B. einer Länge von 2, 5 Sek. geschätzt. Die Übergänge zwischen den Tatum-Grids von benachbarten Rahmen werden durch Tiefpassfiltern des IOI-Vektors der Tatum-Grid-Punkte geglättet, und das Tatum-Grid wird aus dem geglätteten IOI-Vektor wieder hergestellt. Anschließend wird jedes Ereignis seiner nahe liegendsten Grid-Position zugeordnet. Damit wird gewissermaßen eine Quantisierung durchgeführt.Around To follow small tempo variations, the tatum grid becomes adjacent Frame with z. B. a length estimated by 2, 5 sec. The transitions between the tatum grids of adjacent frames are filtered by low pass filtering of the IOI vector smoothed the tatum grid points, and the tatum grid is restored from the smoothed IOI vector. Subsequently Each event is assigned to its closest grid position. This will, so to speak a quantization performed.
Der Score kann dann als Matrix Tik, i = 1, ... n und j = 1, ..., m geschrieben werden, wobei n die Anzahl von erfassten Instrumenten bezeichnet, und wobei m gleich der Anzahl von Tatum-Grid-Elementen ist, also gleich der Anzahl von Spalten der Matrix. Die Intensität der erfassten Ereignisse kann entweder entfernt werden oder verwendet werden, was zu einer Boolschen Matrix führt oder zu einer Matrix mit Intensitätswerten führt.The score can then be written as a matrix T ik , i = 1,... N and j = 1,..., M, where n denotes the number of instruments acquired, and m is equal to the number of tatum grid Is equal to the number of columns in the matrix. The intensity of the detected events can either be removed or used, resulting in a Boolean matrix or resulting in a matrix of intensity values.
Nachfolgend
wird auf spezielle Ausführungsformen
der Einrichtung
Vorzugsweise werden als Periodizitätsfunktionen die Autokorrelationsfunktion (ACF) oder die mittlere Betrags-Differenz-Funktion (RMDF) verwendet, wie sie in den nachfolgenden Gleichungen dargestellt sind.The periodic functions used are preferably the autocorrelation function (ACF) or the mean absolute difference function (RMDF), as shown in the following equations are placed.
Die AMDF wird auch für die Abschätzung der Fundamentalfrequenz für Musik- und Sprachsignale und für die Abschätzung des musikalischen Maßes eingesetzt.The AMDF will also be available for the estimate the fundamental frequency for Music and voice signals and for the estimate of musical measure.
Im
allgemeinen Fall misst eine Periodizitätsfunktion die Ähnlichkeit
bzw. Unähnlichkeit
zwischen dem Signal und seiner zeitlich verschiedenen Version. Verschiedene Ähnlichkeitsmaße sind
bekannt. So gibt es beispielsweise die Hamming-Distanz (HD), welche
eine Unähnlichkeit
zwischen zwei Boolschen Vektoren B1 und
B2 gemäß nachfolgender
Gleichung berechnet.
Eine
geeignete Erweiterung für
den Vergleich der rhythmischen Strukturen ergibt sich aus der unterschiedlichen
Gewichtung ähnlicher
Treffer und Ruhepausen. Die Ähnlichkeit
B zwischen zwei Abschnitten eines Scores T1 und
T2 wird dann durch gewichtete Summation
der Boolschen Operationen, wie sie nachfolgend dargestellt sind,
berechnet.
In der vorstehenden Gleichung werden die Gewichte a, b und c ursprünglich auf a = 1, b = 0, 5 und c = 0 gesetzt. a gewichtet das Auftreten gemeinsamer Noten, b gewichtet das Auftreten gemeinsamer pausen und c gewichtet das Auftretens eines Unterschieds, d. h. in einem Score tritt eine Note auf und in dem anderen Score tritt keine Note auf. Das Ähnlichkeitsmaß M wird durch Summation der Elemente von B erhalten, wie es nachfolgend dargelegt ist.In From the above equation, the weights a, b and c are originally on a = 1, b = 0, 5 and c = 0 set. a weights the occurrence of common Grades, b weighted the occurrence of common breaks and c weighted the occurrence of a difference, d. H. one score occurs Note on and no note occurs in the other score. The similarity measure becomes M obtained by summing the elements of B, as follows is set forth.
Dieses Ähnlichkeitsmaß ähnelt der Hamming-Distanz dahin gehend, dass Differenzen zwischen Matrixelementen auf ähnliche Art und Weise berücksichtigt werden. Nachfolgend wird als Distanzmaß eine modifizierte Hamming-Distanz (MHD) eingesetzt. Zusätzlich kann der Einfluss distinkter Instrumente mittels eines Gewichtungsvektors νi, i = 1, ..., n gesteuert werden, der entweder unter Verwendung eines musikalischen Vorauswissens, z. B. indem mehr Wichtigkeit auf kleine Trommeln (Snare-Drums) oder auf tiefe Instrumente gelegt werden, oder abhängig von der Frequenz und Regelmäßigkeit des Auftretens der Instrumente gesteuert werden: This similarity measure is similar to the Hamming distance in that differences between matrix elements are similarly accounted for. Subsequently, a modified Hamming distance (MHD) is used as the distance measure. In addition, the influence of distinct instruments can be controlled by means of a weighting vector ν i , i = 1,..., N, determined either by using musical foresight, e.g. By placing more importance on small drums (snare drums) or on deep instruments, or depending on the frequency and regularity of the appearance of the instruments:
Zusätzlich können die Ähnlichkeitsmaße für Boolsche Matrizen durch Gewichten von B mit dem Mittelwert aus T1 und T2 erweitert werden, um Intensitätswerte zu berücksichtigen. Abstände bzw. Unähnlichkeiten werden als negative Ähnlichkeiten aufgefasst. Die Periodizitätsfunktion P = f (M, l) wird durch Berechnen des Ähnlichkeitsmaßes M zwischen dem Score T und einer verschobenen Version desselben berechnet, wobei eine Verschiebung l zugrunde liegt. Die Zeitsignatur wird durch Vergleichen von P mit einer Anzahl von Metrikmodellen bestimmt. Die implementierten Metrikmodelle Q bestehen aus einem Zug aus Spikes bei typischen Akzentpositionen für unterschiedliche Zeitsignaturen und Mikrozeiten. Eine Mikrozeit ist das ganzzahlige Verhältnis zwischen der Dauer einer musikalischen Zählzeit, d.h. des Notenwerts, der das musikalische Tempo bestimmt (z. B. Viertelnote), und der Dauer einer Tatum-Periode.In addition, the similarity measures for Boolean matrices can be extended by weighting B with the average of T 1 and T 2 to account for intensity values. Distances or dissimilarities are regarded as negative similarities. The periodicity function P = f (M, l) is calculated by calculating the similarity measure M between the score T and a shifted version thereof, based on a displacement l. The time signature is determined by comparing P with a number of metric models. The implemented metric models Q consist of a train of spikes with typical accent positions for different time signatures and micro times. A micro-time is the integer ratio between the duration of a musical beat, that is, the note value that determines the musical tempo (eg, quarter-note), and the duration of a tatum period.
Die beste Übereinstimmung zwischen P und Q wird erhalten, wenn der Korrelationskoeffizient sein Maximum annimmt. Im gegenwärtigen Zustand des Systems werden 13 Metrikmodelle für sieben unterschiedliche Zeitsignaturen implementiert.The best match between P and Q is obtained when the correlation coefficient assumes its maximum. In the present State of the system will be 13 metric models for seven different time signatures implemented.
Wiederkehrende Strukturen werden erfasst, um Auftakte z. B. zu erfassen, und um eine robust Temposchätzung zu erhalten. Für die Erfassung von Drum-Patterns wird ein Score T aus der Länge eines Takts b durch Summation der Matrixelemente T mit ähnlicher metrischer Position gemäß folgender Gleichung erhalten: Recurring structures are recorded in order to get started. B. to capture, and to obtain a robust pace estimation. For the acquisition of drum patterns, a score T is obtained from the length of a stroke b by summation of the matrix elements T with a similar metric position according to the following equation:
In der vorstehenden Gleichung bezeichnen b eine geschätzte Taktlänge und p die Anzahl von Takten in T. Nachfolgend wird T' als Score-Histogramm bzw. Pattern-Histogramm bezeichnet. Drum-Patterns werden aus dem Score-Histogramm T' durch eine Suche nach Score-Elementen T'i,j mit großen Histogrammwerten erhalten. Pattern einer Länge von mehr als einem Takt werden mittels einer Wiederholung der oben beschriebenen Prozedur für ganzzahlige Werte der gemessenen Länge wiedergewonnen. Die Patternlänge mit den meisten Treffern, und zwar bezogen auf die Patternlänge selbst, wird ausgewählt, um ein maximal repräsentatives Pattern als weiteres oder alternatives Charakteristikum für das Tonsignal zu erhalten.In the above equation, b denotes an estimated clock length and p denotes the number of clocks in T. Hereinafter, T 'is referred to as a score histogram or a pattern histogram. Drum patterns are obtained from the score histogram T 'by searching for score elements T' i, j with large histogram values. Patterns longer than one clock are retrieved by repeating the procedure described above for integer values of the measured length. The pattern length with the most hits, relative to the pattern length itself, is selected to obtain a maximum representative pattern as a further or alternative characteristic for the sound signal.
Vorzugsweise werden die identifizierten rhythmischen Pattern unter Verwendung eines Satzes von Regeln interpretiert, die aus musikalischer Kenntnis abgeleitet werden. Vorzugsweise werden äquidistante Ereignisse des Auftretens von einzelnen Instrumenten identifiziert und Bezug nehmend auf die Instrumentenklasse evaluiert. Dies führt zu einer Identifikation von Spielstilen, die häufig in populärer Musik auftreten. Ein Beispiel ist die sehr häufige Verwendung der kleinen Trommel (Snare-Drum) oder von Tambourinen oder von „Hand Claps" (Händeklatschen) in dem zweiten und vierten Schlag in einem Vier-Viertel-Takt. Dieses Konzept, das als Backbeat bezeichnet wird, dient als Indikator für die Position der Taktlinien. Wenn ein Backbeat-Pattern vorhanden ist, startet ein Takt zwischen zwei Anschlägen der kleinen Trommel.Preferably, the identified rhythmic patterns are interpreted using a set of rules derived from musical Knowledge derived. Preferably, equidistant events of occurrence of individual instruments are identified and evaluated with reference to the instrument class. This leads to an identification of playing styles that often occur in popular music. An example is the very frequent use of the snare-drum or tambourines, or hand claps in the second and fourth beat in a four-fourth beat. This concept, called backbeat, serves as an indicator of the position of the bar lines If a backbeat pattern is present, a bar starts between two stops on the small drum.
Ein weiterer Hinweis für die Positionierung der Taktlinien besteht in dem Auftreten von Kick-Drum-Ereignissen, also Ereignissen einer typischerweise per Fuß betätigten großen Trommel.One further note for the positioning of the timing lines is the occurrence of kick-drum events, that is, events of a typically foot-operated big drum.
Es wird angenommen, dass der Start eines musikalischen Maßes durch die metrische Position markiert wird, wo die meisten Kick-Drum-Noten auftreten.It It is believed that the start of a musical measure by the metric position is marked where most kick drum notes occur.
Eine
bevorzugte Anwendung des Charakteristikums, wie es durch die Einrichtung
Hierzu wird eine Klassifikation von verschiedenen Spielstilen (Playing Style) durchgeführt, die jeweils einzelnen Instrumenten zugeordnet sind. So besteht ein Spielstil beispielsweise darin, dass Ereignisse nur auf jeder Viertelnote auftreten. Ein zugeordnetes Instrument für diesen Spielstil ist die Kick-Drum, also die große mit dem Fuß betätigte Trommel des Schlagzeugs. Dieser Spielstil wird mit FS abgekürzt.For this becomes a classification of different playing styles (Playing Style), each associated with individual instruments. This is how it is Playing style, for example, in that events only on every quarter note occur. An associated instrument for this style of play is the kick-drum, So the big one drum operated by foot the drums. This style of playing is abbreviated FS.
Ein alternativer Spielstil besteht beispielsweise darin, dass Ereignisse in jeder zweiten und vierten Viertelnote eines Vier-Viertel-Takts auftreten. Dies wird hauptsächlich von der kleinen Trommel (Snare-Drum) und Tambourinen, also den Hand-Claps gespielt. Dieser Spielstil wird als BS abgekürzt. Beispielhafte weitere Spielstile bestehen darin, dass Noten oft auf der ersten und der dritten Note eines Triplets auftreten. Dies wird als SP abgekürzt und oft bei einem Hi-Hat oder bei einem Becken (Cymbal) beobachtet.One For example, alternate play style is that events every second and fourth quarter note of a four-fourth measure occur. This is mainly from the small drum (snare drum) and tambourines, so the hand claps played. This style of play is abbreviated as BS. Exemplary others Playing styles are that notes often on the first and the third note of a triplet occur. This is abbreviated as SP and often seen in a hi-hat or a cymbal.
Es sind also Spielstile für verschiedene Musikinstrumente spezifisch. Beispielsweise ist das erste Merkmal FS ein Boolscher Wert und wahr, wenn Kick-Drum-Ereignisse nur auf jeder Viertelnote auftreten. Lediglich für bestimmte Werte werden keine Boolschen Variablen berechnet, sondern werden bestimmte Zahlen ermittelt, wie beispielsweise für die Relation zwischen der Anzahl von Off-Beat-Ereignissen und die Anzahl von On-Beat-Ereignissen, wie sie beispielsweise von einem Hi-Hat, einem Shaker oder einem Tamburin gespielt werden.It So are game styles for different musical instruments specific. For example, that is first feature FS a boolean value and true if kick-drum events only occur on every quarter note. Only for certain values no boolean Variables are calculated but certain numbers are determined such as for the relation between the number of off-beat events and the Number of on-beat events, such as those of one Hi-hat, a shaker or a tambourine.
Typische Kombinationen von Drum-Instrumenten werden in einen der verschiedenen Drum-Set-Typen klassifiziert, wie beispielsweise Rock, Jazz, Latin, Disco und Techno, um ein weiteres Merkmal für die Genre-Klassifikation zu erhalten. Die Klassifikation des Drum-Sets wird nicht unter Verwendung der Instrumententöne abgeleitet, sondern durch allgemeine Untersuchung des Auftretens von Drum-Instrumenten in verschiedenen Stücken, die zu den einzelnen Genres gehören. So zeichnet sich der Drum-Set-Typ Rock beispielsweise dadurch aus, dass eine Kick-Drum, eine Snare-Drum, ein Hi-Hat und ein Becken vorkommt. Dagegen kommt im Type „Latin" ein Bongo, ein Conga, Claves und Shaker vor.typical Combinations of drum instruments become one of the different drum set types classified, such as rock, jazz, Latin, disco and techno, to another feature for to get the genre classification. The classification of the drum set is not derived using the instrument tones, but by general investigation of the occurrence of drum instruments in different pieces, which belong to the individual genres. For example, the drum set type Rock is characterized by the fact that a kick drum, a snare drum, a hi-hat and a pelvis. In contrast, comes in the type "Latin" a bongo, a conga, Claves and shakers in front.
Ein weiterer Satz von Merkmalen wird aus den rhythmischen Merkmalen des Drum-Scores bzw. Drum-Patterns abgeleitet. Diese Merkmale umfassen musikalisches Tempo, Zeitsignatur, Mikrozeit, etc. Zusätzlich wird ein Maß für die Variation des Auftretens von Kick-Drum-Noten durch Zählen der Anzahl von unterschiedlichen IOI, die in dem Drum-Pattern auftreten, erhalten.One another set of features becomes from the rhythmic features derived from the drum score or drum pattern. These features include musical Tempo, time signature, micro time, etc. In addition, a measure of the variation the occurrence of kick drum notes by counting the number of different ones IOI that occur in the drum pattern received.
Die Klassifikation des musikalischen Genres unter Verwendung des Drum-Patterns wird unter Verwendung eines Regelbasierten Entscheidungsnetzwerks ausgeführt. Mögliche Genre-Kandidaten werden belohnt, wenn sie eine gegenwärtig untersuchte Hypothese erfüllen, und werden „bestraft", wenn sie Aspekte einer gegenwärtig untersuchten Hypothese nicht erfüllen. Dieser Prozess resultiert in der Auswahl günstiger Merkmalskombinationen für jedes Genre. Die Regeln für eine vernünftige Entscheidung werden aus Beobachtungen re präsentativer Stücke und aus musikalischer Kenntnis an sich abgeleitet. Werte für Belohnung bzw. Bestrafung werden unter Berücksichtigung der Robustheit des Extraktionskonzepts empirisch eingestellt. Die resultierende Entscheidung für ein bestimmtes musikalisches Genre wird für den Genre-Kandidaten getroffen, der die maximale Anzahl von Belohnungen hat. So wird beispielsweise das Genre Disco erkannt, wenn ein Drum-Set-Typ Disco ist, wenn das Tempo im Bereich zwischen 115 und 132 bpm ist, wenn eine Zeitsignatur 4/4 Bit beträgt und die Mikrozeit gleich 2 ist. Ferner ist ein weiteres Merkmal für das Genre Disco, dass ein Spielstil FS z. B. vorhanden ist, und dass z. B. noch ein weiterer Spielstil vorhanden ist, nämlich das Ereignisse auf jeder Off-Beat-Position auftreten. Ähnliche Kriterien können für andere Genres, wie beispielsweise Hip-Hop, Soul/Funk, Drum and Bass, Jazz/Swing, Rock/Pop, Heavy Metal, Latin, Walzer, Polka/Punk oder Techno aufgestellt werden.The classification of the musical genre using the drum pattern is performed using a rule-based decision network. Potential genre candidates will be rewarded if they fulfill a hypothesis currently under investigation, and will be "punished" if they do not fulfill aspects of a currently investigated hypothesis, which will result in the selection of favorable feature combinations for each genre derived from observations of representative pieces and from musical knowledge itself, values for reward and punishment are empirically adjusted taking into account the robustness of the extraction concept: the resulting decision for a particular musical genre is hit for the genre candidate who has the maximum number of rewards. For example, the disco genre is recognized when a drum set type is disco, when the tempo is in the range of 115 to 132 bpm, when a time signature is 4/4 bit and the micro time is equal to 2. Further, another feature of the genre Disco is that a play style FS z. B. is present, and that z. B. yet another style of play is present, namely the events occur on each off-beat position. Similar criteria can be applied to other genres such as hip-hop, soul / funk, drum and bass, jazz / swing, rock / pop, heavy metal, Latin, waltz, polka / punk or techno.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Charakterisieren eines Tonsignals in Hardware oder in Software implementiert werden. Die Implementierung kann auf einen digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.Depending on the circumstances, the inventive method for characterizing a Sound signals can be implemented in hardware or in software. The Implementation can be on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals done so interact with a programmable computer system can that the procedure is carried out becomes. Generally, the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for execution of the procedure when the computer program product on a machine expires. In other words Thus, the invention can be thought of as a computer program with a program code to carry out the process can be realized when the computer program is up a computer expires.
Claims (18)
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200410022659 DE102004022659B3 (en) | 2004-05-07 | 2004-05-07 | Apparatus for characterizing a sound signal |
EP05735854A EP1671315B1 (en) | 2004-05-07 | 2005-04-27 | Process and device for characterising an audio signal |
JP2007511960A JP4926044B2 (en) | 2004-05-07 | 2005-04-27 | Apparatus and method for describing characteristics of sound signals |
DE502005000658T DE502005000658D1 (en) | 2004-05-07 | 2005-04-27 | DEVICE AND METHOD FOR CHARACTERIZING A SOUND SIGNAL |
PCT/EP2005/004517 WO2005114650A1 (en) | 2004-05-07 | 2005-04-27 | Process and device for characterising an audio signal |
US11/124,306 US7273978B2 (en) | 2004-05-07 | 2005-05-05 | Device and method for characterizing a tone signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200410022659 DE102004022659B3 (en) | 2004-05-07 | 2004-05-07 | Apparatus for characterizing a sound signal |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102004022659B3 true DE102004022659B3 (en) | 2005-10-13 |
Family
ID=34965834
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE200410022659 Expired - Fee Related DE102004022659B3 (en) | 2004-05-07 | 2004-05-07 | Apparatus for characterizing a sound signal |
DE502005000658T Active DE502005000658D1 (en) | 2004-05-07 | 2005-04-27 | DEVICE AND METHOD FOR CHARACTERIZING A SOUND SIGNAL |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE502005000658T Active DE502005000658D1 (en) | 2004-05-07 | 2005-04-27 | DEVICE AND METHOD FOR CHARACTERIZING A SOUND SIGNAL |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1671315B1 (en) |
JP (1) | JP4926044B2 (en) |
DE (2) | DE102004022659B3 (en) |
WO (1) | WO2005114650A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108257588A (en) * | 2018-01-22 | 2018-07-06 | 姜峰 | One kind is set a song to music method and device |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6854350B2 (en) * | 2017-08-03 | 2021-04-07 | AlphaTheta株式会社 | Music analysis device and music analysis program |
JP6920445B2 (en) * | 2017-08-29 | 2021-08-18 | AlphaTheta株式会社 | Music analysis device and music analysis program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002011123A2 (en) * | 2000-07-31 | 2002-02-07 | Shazam Entertainment Limited | Method for search in an audio database |
DE10157454A1 (en) * | 2001-11-23 | 2003-06-12 | Fraunhofer Ges Forschung | Method and device for generating an identifier for an audio signal, method and device for setting up an instrument database and method and device for determining the type of an instrument |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6201176B1 (en) * | 1998-05-07 | 2001-03-13 | Canon Kabushiki Kaisha | System and method for querying a music database |
JP2004029274A (en) * | 2002-06-25 | 2004-01-29 | Fuji Xerox Co Ltd | Device and method for evaluating signal pattern, and signal pattern evaluation program |
-
2004
- 2004-05-07 DE DE200410022659 patent/DE102004022659B3/en not_active Expired - Fee Related
-
2005
- 2005-04-27 EP EP05735854A patent/EP1671315B1/en not_active Expired - Fee Related
- 2005-04-27 DE DE502005000658T patent/DE502005000658D1/en active Active
- 2005-04-27 WO PCT/EP2005/004517 patent/WO2005114650A1/en active IP Right Grant
- 2005-04-27 JP JP2007511960A patent/JP4926044B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002011123A2 (en) * | 2000-07-31 | 2002-02-07 | Shazam Entertainment Limited | Method for search in an audio database |
DE10157454A1 (en) * | 2001-11-23 | 2003-06-12 | Fraunhofer Ges Forschung | Method and device for generating an identifier for an audio signal, method and device for setting up an instrument database and method and device for determining the type of an instrument |
Non-Patent Citations (11)
Title |
---|
Brown,J.C., "Determination of the Meter of Musical Scores by Autocorrelation", J. of the Acoust, Soc. Of America, vol.94, no.4, 1993 |
Coyle,E.J., Shmulevich,I., "A System for Machine Recognition of Music Patterns", IEEE Int. Conf. on Acoustic, Speech, and Signal Processing, 1998, http://www2.mdanderson.org/app/ilya/Publications/ icassp98mpr.pdf |
Coyle,E.J., Shmulevich,I., "A System for Machine Recognition of Music Patterns", IEEE Int. Conf. onAcoustic, Speech, and Signal Processing, 1998, http://www2.mdanderson.org/app/ilya/Publications/ icassp98mpr.pdf * |
edu/498226.html |
Lartillot,O., "Perception-Based Musical Pattern Discovery", in Proc. IFMC, 2003, http://www.ircam. fr/equipes/repmus/lartillot/cmmr/cmmr.pdf |
Meek,Colin, Birmingham,W.P., "Thematic Extractor", ISMIR,2001,http://ismir2001.ismir.net/pdf/meek.pdf Smith,L., Medina,R., "Discovering Themes by Exact Pattern Matching", 2001, http://citeseer.ist.psu. |
Meek,Colin, Birmingham,W.P., "Thematic Extractor",ISMIR,2001,http://ismir2001.ismir.net/pdf/meek.pdfSmith,L., Medina,R., "Discovering Themes by Exact Pattern Matching", 2001, http://citeseer.ist.psu. * |
Meudic,B., "Automatic Meter Extraction from MIDI files", Proc. JIM, 2002, http://www.ircam.fr/ equipes/repmus/RMPapers/JIM-benoit2002.pdf * |
Meudic,B., "Musical Pattern Extraction: from Repe- tition to Musical Structure", in Proc. CMMR, 2003, http://www.ircam.fr/equipes/repmus/RMPapers/CMMR- meudic2003.pdf |
Meudic,B., "Musical Pattern Extraction: from Repe-tition to Musical Structure", in Proc. CMMR, 2003,http://www.ircam.fr/equipes/repmus/RMPapers/CMMR- meudic2003.pdf * |
Schroeter,T., Doraisamy,S., Rüger,S., "From Raw Polyphonic Audio to Locating Recurring Themes", ISMIR, 2000, http://ismir2000.ismir.net/posters/ shroeter ruger.pdf * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108257588A (en) * | 2018-01-22 | 2018-07-06 | 姜峰 | One kind is set a song to music method and device |
Also Published As
Publication number | Publication date |
---|---|
JP4926044B2 (en) | 2012-05-09 |
WO2005114650A1 (en) | 2005-12-01 |
EP1671315A1 (en) | 2006-06-21 |
EP1671315B1 (en) | 2007-05-02 |
JP2007536586A (en) | 2007-12-13 |
DE502005000658D1 (en) | 2007-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7273978B2 (en) | Device and method for characterizing a tone signal | |
EP1797552B1 (en) | Method and device for the extraction of a melody on which an audio signal is based | |
Mitrović et al. | Features for content-based audio retrieval | |
EP1606798B1 (en) | Device and method for analysing an audio information signal | |
EP1371055B1 (en) | Device for the analysis of an audio signal with regard to the rhythm information in the audio signal using an auto-correlation function | |
EP2351017B1 (en) | Method for recognizing note patterns in pieces of music | |
WO2006039995A1 (en) | Method and device for harmonic processing of a melodic line | |
EP2099024A1 (en) | Method for acoustic object-oriented analysis and note object-oriented processing of polyphonic sound recordings | |
DE10123366C1 (en) | Device for analyzing an audio signal for rhythm information | |
DE60315880T2 (en) | DATA GENERATION APPARATUS AND METHOD FOR MUSIC COMPOSITIONS | |
WO2005122135A1 (en) | Device and method for converting an information signal into a spectral representation with variable resolution | |
EP1787283A1 (en) | Extraction of a melody on which an audio signal is based | |
DE102004028693B4 (en) | Apparatus and method for determining a chord type underlying a test signal | |
EP1671315B1 (en) | Process and device for characterising an audio signal | |
Brent | Cepstral analysis tools for percussive timbre identification | |
EP1377924B1 (en) | Method and device for extracting a signal identifier, method and device for creating a database from signal identifiers and method and device for referencing a search time signal | |
Bader | Neural coincidence detection strategies during perception of multi-pitch musical tones | |
EP1743324B1 (en) | Device and method for analysing an information signal | |
EP2420998B1 (en) | Playing analysis device for an instrument with keys | |
Kühl et al. | Retrieving and recreating musical form | |
Paulus | Acoustic modelling of drum sounds with hidden markov models for music transcription | |
Tjahyanto et al. | Gamelan instrument sound recognition using spectral and facial features of the first harmonic frequency | |
Wang et al. | The analysis and comparison of vital acoustic features in content-based classification of music genre | |
PrivoSnik et al. | A system for automatic transcription of music based on multiple-agents architecture | |
Stoller et al. | Impact of Frame Size and Instrumentation on Chroma-Based Automatic Chord Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of the examined application without publication of unexamined application | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |