EP1368805B1 - Method and device for characterising a signal and method and device for producing an indexed signal - Google Patents
Method and device for characterising a signal and method and device for producing an indexed signal Download PDFInfo
- Publication number
- EP1368805B1 EP1368805B1 EP02718164A EP02718164A EP1368805B1 EP 1368805 B1 EP1368805 B1 EP 1368805B1 EP 02718164 A EP02718164 A EP 02718164A EP 02718164 A EP02718164 A EP 02718164A EP 1368805 B1 EP1368805 B1 EP 1368805B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- tonality
- measure
- spectral components
- quotient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/081—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/011—Files or data streams containing coded musical information, e.g. for transmission
- G10H2240/046—File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
- G10H2240/061—MP3, i.e. MPEG-1 or MPEG-2 Audio Layer III, lossy audio compression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/135—Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/541—Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
- G10H2250/571—Waveform compression, adapted for music synthesisers, sound banks or wavetables
- G10H2250/601—Compressed representations of spectral envelopes, e.g. LPC [linear predictive coding], LAR [log area ratios], LSP [line spectral pairs], reflection coefficients
Definitions
- the present invention relates to characterization of audio signals with regard to their content and in particular on a concept for classifying or indexing Audio pieces in terms of their content, for researchability to enable such multimedia data.
- U.S. Patent No. 5,918,223 discloses a method for the Content-based analysis, storage, recovery and Segmentation of audio information.
- An analysis of audio data generates a set of numerical values, also called Feature vector is referred to, and used for this can determine the similarity between individual audio pieces that typically in a multimedia database or on the World Wide Web are stored, classified and ranked.
- the analysis also enables the description of user-defined Classes of audio pieces based on an analysis of a set of audio pieces that all members of a Are user-defined class.
- the system is able individual sections of sound within a longer piece of sound find what enables audio recording to automatically segmented into a series of shorter audio segments becomes.
- MFCCs Mel Frequency Cepstral Coefficients
- the database system is able to measure the distance in an n-dimensional Space between two n-dimensional vectors quantify. It is also possible to have classes of audio pieces to generate by specifying a set of audio pieces who belongs in a class. Example classes are twittering birds, Rock music, etc.
- the user is enabled to the audio track database using specific ones Search procedures. The result of a search is one List of sound files ordered by their distance from that specified n-dimensional vector are listed.
- the User can search the database for similarity characteristics, with regard to acoustic or psychoacoustic Characteristics, in terms of subjective characteristics or in terms of special noises, e.g. Bee buzz, search.
- Audio pieces suggested such as Animal sounds, bell sounds, Crowd sounds, laughter, machine noises, Music instruments, male language, female language, Telephone noises or water noises.
- U.S. Patent No. 5,510,572 discloses an apparatus for Analyze and harmonize a tune using results of a melody analysis.
- a melody in the form of a Sequence of notes played by a keyboard is read in and broken down into melody segments, a melody segment, i.e. a phrase, e.g. B. four bars of the melody includes.
- a tonality analysis is done with each phrase, to determine the key of the melody in that phrase. To do this, the pitch of a note in the phrase is determined and then a pitch difference between the current one considered note and the previous note. Further becomes a pitch difference between the current note and the following note. Because of the pitch differences becomes a previous coupling coefficient and a subsequent coupling coefficient determined.
- the coupling coefficient for the current grade then results from the previous coupling coefficient and the following Coupling coefficient and the note length. This process will repeated for each note of the melody in the phrase to the Key of the melody or a candidate for the key of the Determine melody.
- the key of the phrase is used to a grade type classifier for interpretation to control the meaning of each note in a phrase.
- the key information, which were obtained by the tonality analysis is also used to create a transpose module to control the one in a reference key in a database stored chord progression in the by tonality analysis transposed certain key for a considered melody phrase.
- Document US-B1-6185527 discloses a classification and an indexing of audio data based on a tonality determination.
- the object of the present invention is an improved Concept for characterizing or indexing a To create signal that has audio content.
- This task is accomplished through a characterization process of a signal according to claim 1, by a method for Generating an indexed signal according to claim 11, by a device for characterizing a signal Claim 14 or by a device for generating a indexed signal according to claim 15 solved.
- the present invention is based on the finding that when selecting the characteristic for characterization or indexing of a signal especially for robustness Distortions of the signal must be taken into account.
- the usefulness of characteristics or combinations of characteristics depends on how strongly by irrelevant changes such as B. by a MP3 coding, can be changed.
- the tonality of a signal i. H. the property of a signal, a rather flat spectrum with pronounced lines or rather a spectrum with the same height Having lines that are more robust to distortion is more common Is like Distortion caused by a lossy coding method, such as. MP3.
- the essence of the signal is taken its spectral appearance, and related to the individual spectral lines or groups of Spectral lines.
- the tonality also provides great flexibility with regard to the computing effort to be carried out in order to to determine the tonality measure.
- the tonality measure can be taken from the Tonality of all spectral components of a piece derived or from the tonality of groups of spectral components, etc.
- tonalities of successive short-term spectra of the signal under investigation either individually or weighted or statistically evaluated be used.
- the tonality depends on the present Registration based on the audio content. Is the audio content or the signal under consideration with the audio content has noisy, so it has a different tonality than a less noisy signal.
- a noise-like signal typically has a lower one Tonality value as a less noisy, i.e. H. more tonal, Signal. The latter signal has a higher tonality value.
- the tonality i.e. H. the noise or tonality of a signal
- H. the noise or tonality of a signal
- a concept based on a tonality measure Characterizing or indexing signals therefore provides a robust recognition, which shows that the tonality essence of a signal is not beyond recognition is changed if the signal is distorted.
- Distortion is, for example, a transmission of the signal from a loudspeaker via an air transmission channel to a microphone.
- the robustness property of the tonality feature is significant with regard to lossy compression methods.
- the tonality measure of a signal through lossy data compression such as according to one of the MPEG standards not or hardly being affected. It also provides a distinguishing feature based on the tonality of the signal a sufficiently good one Essence for the signal so that two different from each other Audio signals also have sufficiently different tonality measures deliver. The content of the audio signal is therefore strong correlates with the tonality measure.
- the main advantage of the present invention is thus in that the tonality measure of the signal compared to disturbed, d. H. distorted, signals is robust. This robustness exists in particular against filtering, i. H. equalization, Dynamic compression, lossy data reduction, such as. MPEG-1/2 Layer 3, an analog transmission, etc. It also provides the tonality property of a signal has a high correlation to the content of the signal.
- Fig. 1 shows a basic block diagram of an inventive Device for characterizing a signal that a Represents audio content.
- the device includes an entrance 10, in which the signal to be characterized are entered can, the signal to be characterized compared to a original signal, for example a lossy one Has undergone audio coding.
- the one to be characterized Signal is in a device 12 for determining a measure for the tonality of the signal.
- the measure of that Tonality for the signal is via a connecting line 14 a device 16 for making a statement about the content of the signal supplied.
- the device 16 is designed to this statement based on the transmitted by the device 12 Measure of the tonality of the signal and delivers this statement about the content of the signal at an output 18 of the system.
- FIG. 2 shows an inventive device for generating an indexed signal that has audio content.
- the Signal for example an audio piece as it is generated in the recording studio has been stored on a compact disc, is via an input 20 in the device shown in Fig. 2 fed.
- a device 22 that is basically the same how the device 12 of FIG. 12 can be constructed, determines a measure of the tonality of the signal to be indexed and delivers this measure via a connecting line 24 to a device 26 for recording the measurement as an index for the signal.
- the output 28 of the device shown in FIG. 2 to generate an indexed signal, the Signal fed in at input 20 together with a tonality index be issued.
- the one in FIG Device shown be designed so that at the output 28 a table entry is generated, the tonality index linked to an identification mark, the identification mark clearly assigned to the signal to be indexed is.
- the device shown in Fig. 2 provides one Index for the signal, where the index is assigned to the signal and indicates the audio content of the signal.
- the database When a plurality of signals by the one shown in Fig. 2 Device is processed, gradually creates a database from indices for audio pieces, for example for the pattern recognition system outlined in FIG. 5 can be used can.
- the database optionally contains the Audio pieces themselves Tonality properties can be easily searched to identify a piece by the device shown in FIG. 1 and classify them, in terms of tonality or in terms of similarities to others Pieces or distances between two pieces.
- the device shown in Fig. 2 provides one possibility to create pieces with an associated meta description, d. H. the tonality index. Therefore it is possible Records e.g. to index according to given tonality indices and search so that according to the present invention an efficient search and find of Multimedia pieces is possible.
- Various can be used to calculate the tonality measure of a piece Procedures are applied.
- Fig. 3 is a time signal to be characterized by means of a device 30 are implemented in the spectral range, to a block from a block of temporal samples of generating spectral coefficients.
- a separate tonality value can be determined in order for example using a yes / no determination, whether a spectral component is tonal or not.
- the Tonality values can be determined by the device 32 then by means of a device 34 the tonality measure for the Signal calculated in a variety of different ways become.
- Pieces can be classified as similar if their tonality measures only about a difference less than one differentiate predetermined threshold while pieces other than can be classified differently if their tonality indices differ by a difference that is greater than is a dissimilarity threshold.
- Two tonality measures can be used to determine the tonality distance other sizes are used between two pieces, such as B. the difference between two absolute values, the square a difference, the quotient between two tonality measures less one, the correlation between two tonality measures, the distance metric between two tonality measures, the n-dimensional Are vectors, etc.
- the signal to be characterized does not necessarily have to be a time signal, but that it is the same can also be an MP3-encoded signal, for example, which consists of a sequence of Huffman code words consisting of quantized spectral values have been generated.
- the quantized spectral values were from the original Spectral values generated by quantization, the quantization was chosen such that the quantization introduced quantization noise below the psychoacoustic Masking threshold is.
- directly the encoded MP3 data stream can be used, for example the spectral values using an MP3 decoder calculate (device 40 in Fig. 4). It is not necessary before the determination of the tonality an implementation in the time domain and then again implement a conversion into the spectral range, but it can be inside the MP3 decoder calculated spectral values can be taken directly to the Tonality per spectral component or as shown in FIG.
- the measure for spectral flatness (SFM) is calculated using the following equation.
- X (n) stands for the square of one Spectral component with the index n, while N for the total number is the spectral coefficient of a spectrum.
- the SFM is equal to the quotient from the geometric mean of the spectral components to arithmetic mean of the spectral components.
- the geometric mean is always smaller or at most equal to the arithmetic mean so that the SFM has a range of values between 0 and 1.
- a value indicates close to 0 to a tonal signal and a value close to 1 to a closer noise-like signal with a flat spectral curve.
- the SFM is in "Digital Coding of Waveforms", Englewood Cliffs, NJ, Prentice-Hall, N. Jayant, P. Noll, 1984 and was originally used as a measure of the maximum to be achieved Coding gain defined from a redundancy reduction.
- the SFM can then be determined by a device 44 of the tonality measure the tonality measure can be determined.
- Another way to determine the tonality of the spectral values, performed by a device 32 of FIG. 3 can be determined by determining peaks in the Power density spectrum of the audio signal as found in MPEG-1 audio ISO / IEC 11172-3, Annex D1 "Psychoacoustic Model 1" is.
- the level of a spectral component determined.
- the levels of two become the one spectral component surrounding spectral components determined.
- a Classification of the spectral component as tonal then takes place instead when the level of the spectral component is a predetermined Factor is greater than a level of a surrounding Spectral component.
- the predetermined threshold is in the state of technology adopted as 7dB, being for the present invention however, any other predetermined thresholds are used can be. This allows for each spectral component whether it is tonal or not.
- the measure of tonality can then by means 34 of FIG. 3 under Use of the tonality values for the individual components and the energy of the spectral components can be specified.
- Another way to determine the tonality of a Spectral component consists in evaluating the temporal Predictability, d. H. Predictability, the spectral component.
- MPEG-1 Audio ISO / IEC 11172-3, Annex D2 "Psychoacoustic Model 2".
- General will a current block of samples of the to be characterized Signal converted into a spectral representation to a to get current block of spectral components.
- hereupon become the spectral components of the current block of spectral components using information from samples of the signal to be characterized that corresponds to the current Go ahead block, so using historical information, predicted. This will result in a prediction error from which a tonality measure is then derived can.
- U.S. Patent No. 5,918,203 Another possibility for determining the tonality is in U.S. Patent No. 5,918,203.
- the amounts or squares of amounts of the spectral components initially logarithmic compressed and then using a filter with differentiating Characteristic filtered to differentiate a block of to get filtered spectral components.
- the amounts of Spectral components first with a filter with differentiating Characteristic filtered to get a counter and then with a filter with an integrating characteristic filtered to get a denominator.
- the quotient of one differentially filtered amount of a spectral component and the integrally filtered amount of the same spectral component then gives the tonality value for this spectral component.
- Tonality value is calculated per spectral component
- it will preferred in view of a lower computing effort for example always the amount squares of two neighboring ones Add spectral components and then for each result the addition of a tonality value by one of the above Calculate procedure.
- Any kind of additive grouping of amount squares or amounts of spectral components can be used to set tonality values for more than one Calculate spectral component.
- Another way to determine the tonality of a Spectral component is the level of a spectral component with an average of levels of spectral components to compare in a frequency band.
- the band is chosen narrow.
- the band could also be chosen broadly, or also according to psychoacoustic Aspects. As a result, the influence can be brief Performance drops in the spectrum can be reduced.
- the tonality of an audio signal was determined based on its spectral components, this can also in the time domain, i.e. using the samples of the Audio signal happen. This could be an LPC analysis of the signal be performed to gain a prediction for the Estimate signal.
- the prediction gain is inversely proportional to the SFM and is also a measure of tonality of the audio signal.
- the tonality measure is a multidimensional vector of tonality values.
- the short-term spectrum in four adjacent and preferably not overlapping areas or frequency bands are divided, with a tonality value for example for each frequency band by the device 34 of FIG. 3 or by the device 44 of Fig. 4 is determined.
- This is for a short-term spectrum of the signal to be characterized is a 4-dimensional one Preserve tonality vector.
- a tonality measure which is a 16-dimensional vector or generally an n x m-dimensional Is vector, where n is the number of tonality components per frame or block of samples, while m for the number of blocks or short-term spectra under consideration stands.
- the tonality measure would then, as stated, a 16-dimensional vector.
- the tonality can thus consist of parts of the whole Spectrum can be calculated. So it is possible to Tonality / noiseiness of a sub-spectrum or several Determine sub-spectra and thus a finer characterization to achieve the spectrum and thus the audio signal.
- short-term statistics from tonality values such as e.g. Mean, variance and central moments of higher order, can be calculated as a measure of tonality.
- mean mean
- central moments of higher order can be calculated as a measure of tonality.
- Tonality vectors or linearly filtered tonality values are used, for example as a linear filter IIR filters or FIR filters can be used.
- Pattern recognition system between two operating modes, namely training mode 50 and classification mode 52.
- data is "trained", i.e. H. the System added and then recorded in a database 54.
- Fig. 1 Device In classification mode an attempt is made to characterize one Signal with the entries in the database 54 to compare and order.
- the invention shown in Fig. 1 Device can be in classification mode 52 be used when there are tonality indices of other pieces, with which the tonality index of the current piece can be compared to a statement about the piece too to meet.
- the device shown in Fig. 2, however, is advantageous used in training mode 50 of Fig. 5 to the Database to be filled gradually.
- the pattern recognition system comprises a device 56 for signal preprocessing, a downstream device 58 for Feature extraction, a device 60 for feature processing, a device 62 for cluster generation, and means 64 for performing a classification to for example, as a result of classification mode 52 such a statement about the content of the signal to be characterized to meet that signal with the signal xy that is in a Previous training mode has been trained identically is.
- Block 56 together with block 58, forms a feature extractor, while block 60 represents a feature processor.
- Block 56 sets an input signal to a uniform one Target format, such as B. the number of channels, the sampling rate, the resolution (in bits per sample) etc. This is insofar as it makes sense and is necessary because there are no requirements about the source from which the input signal originates should.
- the feature 58 for feature extraction is used to do the usual large amount of information at the exit of the facility 56 to a small amount of information.
- the too investigating signals usually have a high data rate, so a high number of samples per time period.
- the restriction on a small amount of information must take place that the essence of the original signal, that is, the peculiarity the same, is not lost.
- characteristic properties as general for example loudness, fundamental frequency, etc. and / or, according to the present invention, tonality features or the SFM, extracted from the signal.
- the tonality characteristics thus obtained are said to be the essence of the signal under investigation include.
- the previously calculated feature vectors can are processed.
- the processing is simple Standardization of the vectors.
- Possible processing of characteristics are linear transformations, such as the Karhunen-Loeve transformation (KLT) or linear discriminant analysis (LDA), which are known in the art. More in particular nonlinear transformations are also available Feature processing applicable.
- KLT Karhunen-Loeve transformation
- LDA linear discriminant analysis
- the class generator is used to process the feature vectors to combine into classes. These classes correspond a compact representation of the associated signal.
- the Classifier 64 is finally used to generate a feature vector a predefined class or a predefined Assign signal.
- the table presents detection rates using a database (54) of FIG. 5 with a total of 305 pieces of music, of which the first 180 seconds each as reference data were trained.
- the detection rate gives the percentage Number of correctly recognized pieces depending on the signal influence on.
- the second column represents the detection rate if loudness is used as a characteristic.
- the loudness was calculated in four spectral bands, then logarithmizing the loudness values, and then a difference of logarithmic loudness values for corresponding spectral bands in succession carried out. The result obtained was used as a feature vector used for loudness.
- the SFM was used as the feature vector for four bands used.
- tonality according to the invention as a classification feature for a 100% recognition rate of MP-3 encoded pieces when a snippet of 30 seconds is considered while the detection rates are both in the inventive feature as well as in the Decrease loudness as a characteristic if shorter sections (e.g. 15 s) of the signal to be examined is used for detection become.
- FIG Device used to do the shown in FIG Train detection system.
- the in Fig. 2 device shown can be used for any Multimedia records meta descriptions, d. H. Generating indexes so that it is possible to view records regarding their Search for tonality values or records from a database to output that have a certain tonality vector or are similar to a certain tonality vector.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Communication Control (AREA)
- Auxiliary Devices For Music (AREA)
- Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
Description
Die vorliegende Erfindung bezieht sich auf das Charakterisieren von Audiosignalen hinsichtlich ihres Inhalts und insbesondere auf ein Konzept zum Klassifizieren bzw. Indexieren von Audiostücken hinsichtlich ihres Inhalts, um eine Recherchierbarkeit solcher Multimediadaten zu ermöglichen.The present invention relates to characterization of audio signals with regard to their content and in particular on a concept for classifying or indexing Audio pieces in terms of their content, for researchability to enable such multimedia data.
In den letzen Jahren ist die Verfügbarkeit multimedialen Datenmaterials, d. h. von Audiodaten, stark gestiegen. Diese Entwicklung wurde durch eine Reihe von technischen Faktoren bedingt. Diese technischen Faktoren umfassen beispielsweise die breite Verfügbarkeit des Internets, die breite Verfügbarkeit leistungsfähiger Rechner sowie die breite Verfügbarkeit leistungsfähiger Verfahren zur Datenkompression, d. h. Quellcodierung, von Audiodaten. Als Beispiel hierfür ist MPEG 1/2 Layer 3 genannt, das auch als MP3 bezeichnet wird.In the past few years, the availability of multimedia data, d. H. of audio data, has risen sharply. This Development has been due to a number of technical factors conditionally. These technical factors include, for example the wide availability of the Internet, the wide availability powerful calculator and wide availability powerful data compression techniques, d. H. Source coding, of audio data. An example of this is MPEG 1/2 Layer 3 called, which is also called MP3.
Die riesigen Mengen audiovisueller Daten, die beispielsweise auf dem Internet weltweit verfügbar sind, verlangen nach Konzepten, die es ermöglichen, diese Daten nach inhaltlichen Kriterien zu beurteilen, zu katalogisieren oder zu verwalten. Es besteht der Bedarf, multimediale Daten gezielt durch Angabe sinnvoller Kriterien zu suchen und zu finden.The huge amounts of audiovisual data, for example available on the Internet worldwide, require concepts which make this data possible according to content criteria assess, catalog or manage. It there is a need to provide targeted multimedia data to search for and find useful criteria.
Dies erfordert den Einsatz sogenannter "inhaltsbasierter" Techniken, die aus den audiovisuellen Daten sogenannte Merkmale, die in der Technik auch als "Features" bezeichnet werden, extrahieren, die wichtige charakteristische Inhalts-Eigenschaften des interessierenden Signals darstellen. Basierend auf solchen Merkmalen bzw. Kombinationen solcher Merkmale können Ähnlichkeitsbeziehungen bzw. Gemeinsamkeiten zwischen den Audiosignalen hergeleitet werden. Dieser Vorgang erfolgt im allgemeinen durch Vergleich bzw. In-Beziehungsetzen der extrahierten Merkmalswerte aus verschiedenen Signalen, welche hier auch als "Stücke" bezeichnet werden sollen.This requires the use of so-called "content-based" Techniques based on so-called characteristics from the audiovisual data, which are also called "features" in technology, extract the important characteristic content properties of the signal of interest. Based on such features or combinations of such features can similarity relationships or similarities between the audio signals are derived. This is done generally by comparing or relating the extracted Characteristic values from different signals, which are also to be referred to here as "pieces".
Das US-Patent Nr. 5,918,223 offenbart ein Verfahren für die Inhalts-basierte Analyse, Speicherung, Wiedergewinnung und Segmentierung von Audioinformationen. Eine Analyse von Audiodaten erzeugt einen Satz von numerischen Werten, der auch als Merkmalsvektor bezeichnet wird, und der dazu verwendet werden kann, um die Ähnlichkeit zwischen einzelnen Audiostücken, die typischerweise in einer Multimediadatenbank oder im World Wide Web gespeichert sind, zu klassifizieren und rangmäßig zu ordnen.U.S. Patent No. 5,918,223 discloses a method for the Content-based analysis, storage, recovery and Segmentation of audio information. An analysis of audio data generates a set of numerical values, also called Feature vector is referred to, and used for this can determine the similarity between individual audio pieces that typically in a multimedia database or on the World Wide Web are stored, classified and ranked.
Die Analyse ermöglicht ferner die Beschreibung von benutzerdefinierten Klassen von Audiostücken basierend auf einer Analyse eines Satzes von Audiostücken, die alle Mitglieder einer Benutzer-definierten Klasse sind. Das System ist in der Lage, einzelne Tonabschnitte innerhalb eines längeren Tonstücks zu finden, was es ermöglicht, daß die Audioaufzeichnung automatisch in eine Serie von kürzeren Audiosegmenten segmentiert wird.The analysis also enables the description of user-defined Classes of audio pieces based on an analysis of a set of audio pieces that all members of a Are user-defined class. The system is able individual sections of sound within a longer piece of sound find what enables audio recording to automatically segmented into a series of shorter audio segments becomes.
Als Merkmale zur Charakterisierung bzw. Klassifizierung von Audiostücken hinsichtlich ihres Inhalts wird die Lautheit eines Stückes, der Baß-Gehalt eines Stückes, die Tonhöhe, die Tonhelligkeit ("Brightness"), die Bandbreite und die sogenannten Mel-Frequenz-Cepstral-Koeffizienten (MFCCs) bei periodischen Intervallen in dem Audiostück verwendet. Die Werte pro Block oder Frame werden gespeichert und einer ersten Ableitung unterzogen. Hierauf werden spezifische statistische Größen berechnet, wie z.B. der Mittelwert oder die Standardabweichung, und zwar von jedem dieser Merkmale einschließlich der ersten Ableitungen derselben, um eine Variation über der Zeit zu beschreiben. Dieser Satz von statistischen Größen bildet den Merkmalsvektor. Der Merkmalsvektor des Audiostücks wird in einer Datenbank in Zuordnung zu der Ursprungsdatei gespeichert, wobei ein Benutzer auf die Datenbank zugreifen kann, um entsprechende Audiostücke abzurufen.As characteristics for the characterization or classification of Audio pieces regarding their content becomes the loudness of a Piece, the bass content of a piece, the pitch, the Brightness, the bandwidth and the so-called Mel Frequency Cepstral Coefficients (MFCCs) for periodic Intervals used in the audio piece. The values per Block or frame are saved and a first derivative subjected. Specific statistical values are then calculated, such as. the mean or standard deviation, from each of these features including the first Derivatives of these to describe a variation over time. This set of statistical quantities forms the Feature vector. The feature vector of the audio piece is in one Database stored in association with the original file, where a user can access the database for appropriate Retrieve audio tracks.
Das Datenbanksystem ist in der Lage, den Abstand in einem n-dimensionalen Raum zwischen zwei n-dimensionalen Vektoren zu quantifizieren. Es ist ferner möglich, Klassen von Audiostükken zu erzeugen, indem ein Satz von Audiostücken spezifiziert wird, der in eine Klasse gehört. Beispielsklassen sind Vogelgezwitscher, Rockmusik usw. Der Benutzer wird in die Lage versetzt, die Audiostück-Datenbank unter Verwendung spezifischer Verfahren zu durchsuchen. Das Ergebnis einer Suche ist eine Liste von Tondateien, die geordnet nach ihrem Abstand von dem spezifizierten n-dimensionalen Vektor aufgelistet sind. Der Benutzer kann die Datenbank hinsichtlich Ännlichkeits-Merkmalen, hinsichtlich akustischer bzw. psychoakustischer Merkmale, hinsichtlich subjektiver Merkmale oder hinsichtlich spezieller Geräusche, wie z.B. Bienensummen, durchsuchen.The database system is able to measure the distance in an n-dimensional Space between two n-dimensional vectors quantify. It is also possible to have classes of audio pieces to generate by specifying a set of audio pieces who belongs in a class. Example classes are twittering birds, Rock music, etc. The user is enabled to the audio track database using specific ones Search procedures. The result of a search is one List of sound files ordered by their distance from that specified n-dimensional vector are listed. The User can search the database for similarity characteristics, with regard to acoustic or psychoacoustic Characteristics, in terms of subjective characteristics or in terms of special noises, e.g. Bee buzz, search.
Die Fachveröffentlichung "Multimedia Content Analysis using both audio and visual clue", Yao
Wang u.a., IEEE Signal Processing Magazine, November 2000,
Seiten 12 bis 36, offenbart ein ähnliches Konzept, um Multimediastücke
zu charakterisieren. Als Merkmale zum Klassifizieren
des Inhalts eines Multimediastückes werden Zeitbereichsmerkmale
oder Frequenzbereichsmerkmale vorgeschlagen. Diese umfassen
die Lautstärke, die Tonhöhe als Grundfrequenz einer Audiosignalform,
spektrale Merkmale, wie z. B. der Energieinhalt eines
Bandes bezogen auf den Gesamtenergiegehalt, Grenzfrequenzen
im Spektralverlauf etc. Neben Kurzzeitmerkmalen, die die
genannten Größen pro Block von Abtastwerten des Audiosignals
betreffen, werden auch Langzeitgrößen vorgeschlagen, die sich
auf einen längeren Zeitraum des Audiostücks beziehen.The specialist publication "Multimedia Content Analysis using both audio and visual clue", Yao
Wang et al., IEEE Signal Processing Magazine, November 2000,
Zur Charakterisierung von Audiostücken werden verschiedene Kategorien vorgeschlagen, wie z.B. Tiergeräusche, Glockengeräusche, Geräusche einer Menschenmenge, Gelächter, Maschinengeräusche, Musikinstrumente, männliche Sprache, weibliche Sprache, Telefongeräusche oder Wassergeräusche.Different categories are used to characterize audio pieces suggested, such as Animal sounds, bell sounds, Crowd sounds, laughter, machine noises, Musical instruments, male language, female language, Telephone noises or water noises.
Problematisch bei der Auswahl der verwendeten Merkmale ist, daß der Rechenaufwand zum Extrahieren eines Merkmals moderat sein soll, um eine zügige Charakterisierung zu erreichen, daß jedoch gleichzeitig das Merkmal für das Audiostück charakteristisch sein soll, derart, daß zwei unterschiedliche Stücke auch voneinander unterscheidbare Merkmale aufweisen.The problem with the selection of the features used is that the computational effort to extract a feature is moderate to be able to achieve a rapid characterization that however at the same time the characteristic of the audio piece is characteristic should be such that two different pieces also have distinguishable features.
Weiterhin problematisch ist die Robustheit des Merkmals. So wird bei den genannten Konzepten nicht auf Robustheitskriterien eingegangen. Wird ein Audiostück unmittelbar nach seiner Generierung im Tonstudio charakterisiert und mit einem Index versehen, der den Merkmalsvektor des Stücks darstellt und gewissermaßen die Essenz des Stücks bildet, so ist die Wahrscheinlichkeit relativ hoch, dieses Stück wiederzuerkennen, wenn dieselbe, unverzerrte Version dieses Stückes demselben Verfahren unterzogen wird, also dieselben Merkmale extrahiert werden und der Merkmalsvektor dann in der Datenbank mit einer Vielzahl von Merkmalsvektoren verschiedener Stücke verglichen wird.The robustness of the feature is also problematic. So is not based on robustness criteria for the concepts mentioned received. If an audio piece is immediately after its Generation characterized in the recording studio and with an index provided, which represents the feature vector of the piece and to a certain extent forms the essence of the piece, so is the probability relatively high to recognize this piece, if the same, undistorted version of this piece the same Process is subjected to, i.e. extracted the same characteristics be and the feature vector in the database with a Comparing a large number of feature vectors of different pieces becomes.
Problematisch wird es jedoch dann, wenn ein Audiostück vor seiner Charakterisierung verzerrt wird, so daß das zu charakterisierende Signal nicht mehr identisch zum ursprünglichen Signal ist, jedoch denselben Inhalt hat. Ein Mensch, der beispielsweise ein Lied kennt, wird dieses Lied auch wiedererkennen, wenn es verrauscht ist, wenn es lauter oder leiser ist oder wenn es in einer anderen Tonhöhe gespielt wird als ursprünglich aufgenommen. Eine weitere Verzerrung könnte beispielsweise durch eine verlustbehaftete Datenkompression erreicht worden sein, beispielsweise mittels eines Codierverfahrens gemäß einem MPEG-Standard, wie z.B. MP3 oder AAC.However, it becomes problematic when an audio piece is in front its characterization is distorted so that what is to be characterized Signal no longer identical to the original one Signal, but has the same content. A person who, for example knows a song, will recognize that song, if it is noisy, if it is louder or quieter or if it is played at a different pitch than originally added. Another distortion, for example achieved through lossy data compression have been, for example by means of a coding method according to an MPEG standard, e.g. MP3 or AAC.
Führt eine Verzerrung bzw. Datenkompression dazu, daß das Merkmal durch die Verzerrung bzw. Datenkompression ebenfalls stark beeinträchtigt wird, würde dies bedeuten, daß die Essenz verloren geht, während der Inhalt des Stücks für einen Menschen immer noch erkennbar ist.Does a distortion or data compression mean that the Characteristic due to the distortion or data compression as well severely compromised, this would mean that the essence is lost while the content of the piece for a human is still recognizable.
Das US-Patent Nr. 5,510,572 offenbart eine Vorrichtung zum Analysieren und Harmonisieren einer Melodie unter Verwendung von Resultaten einer Melodieanalyse. Eine Melodie in Form einer Folge von Noten, wie sie von einem Keyboard gespielt wird, wird eingelesen und in Melodiesegmente zerlegt, wobei ein Melodiesegment, d.h. eine Phrase, z. B. vier Takte der Melodie umfaßt. Eine Tonalitätsanalyse wird mit jeder Phrase durchgeführt, um die Tonart der Melodie in dieser Phrase zu bestimmen. Hierzu wird die Tonhöhe einer Note in der Phrase bestimmt und daraufhin eine Tonhöhendifferenz zwischen der gegenwärtig betrachteten Note und der vorhergehenden Note bestimmt. Ferner wird eine Tonhöhendifferenz zwischen der gegenwärtigen Note und der nachfolgenden Note bestimmt. Aufgrund der Tonhöhendifferenzen wird ein vorhergehender Kopplungskoeffizient und ein anschließender Kopplungskoeffizient ermittelt. Der Kopplungskoeffizient für die aktuelle Note ergibt sich dann aus dem vorhergehenden Kopplungskoeffizient und dem nachfolgenden Kopplungskoeffizient und der Notenlänge. Dieser Prozess wird für jede Note der Melodie in der Phrase wiederholt, um die Tonart der Melodie bzw. einen Kandidaten für die Tonart der Melodie zu bestimmen. Die Tonart der Phrase wird verwendet, um eine Notentypklassifizierungseinrichtung zum Interpretieren der Bedeutung jeder Note in einer Phrase anzusteuern. Die Tonart-Information, die durch die Tonalitätsanalyse erhalten worden ist, wird ferner dazu verwendet, um ein Transponiermodul anzusteuern, das eine in einer Referenztonart in einer Datenbank abgelegte Akkordfolge in die durch die Tonalitätsanalyse bestimmte Tonart für eine betrachtete Melodiephrase transponiert.U.S. Patent No. 5,510,572 discloses an apparatus for Analyze and harmonize a tune using results of a melody analysis. A melody in the form of a Sequence of notes played by a keyboard, is read in and broken down into melody segments, a melody segment, i.e. a phrase, e.g. B. four bars of the melody includes. A tonality analysis is done with each phrase, to determine the key of the melody in that phrase. To do this, the pitch of a note in the phrase is determined and then a pitch difference between the current one considered note and the previous note. Further becomes a pitch difference between the current note and the following note. Because of the pitch differences becomes a previous coupling coefficient and a subsequent coupling coefficient determined. The coupling coefficient for the current grade then results from the previous coupling coefficient and the following Coupling coefficient and the note length. This process will repeated for each note of the melody in the phrase to the Key of the melody or a candidate for the key of the Determine melody. The key of the phrase is used to a grade type classifier for interpretation to control the meaning of each note in a phrase. The key information, which were obtained by the tonality analysis is also used to create a transpose module to control the one in a reference key in a database stored chord progression in the by tonality analysis transposed certain key for a considered melody phrase.
Das Dokument US-B1-6185527 offenbart eine klassifikation und eine Indexierung von Audiodaten anhand einer Tonalitätsbestimmung.Document US-B1-6185527 discloses a classification and an indexing of audio data based on a tonality determination.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein verbessertes Konzept zum Charakterisieren bzw. Indexieren eines Signals, das einen Audioinhalt aufweist, zu schaffen.The object of the present invention is an improved Concept for characterizing or indexing a To create signal that has audio content.
Diese Aufgabe wird durch ein Verfahren zum Charakterisieren
eines Signals nach Patentanspruch 1, durch ein Verfahren zum
Erzeugen eines indexierten Signals nach Patentanspruch 11,
durch eine Vorrichtung zum Charakterisieren eines Signals nach
Patentanspruch 14 oder durch eine Vorrichtung zum Erzeugen eines
indexierten Signals nach Patentanspruch 15 gelöst.This task is accomplished through a characterization process
of a signal according to claim 1, by a method for
Generating an indexed signal according to claim 11,
by a device for characterizing a
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß bei der Auswahl des Merkmals zum Charakterisieren bzw. Indexieren eines Signals besonders auf die Robustheit gegenüber Verzerrungen des Signals geachtet werden muß. Die Nützlichkeit von Merkmalen bzw. Merkmalskombinationen hängt davon ab, wie stark sie durch irrelevante Veränderungen, wie z. B. durch eine MP3-Codierung, verändert werden.The present invention is based on the finding that when selecting the characteristic for characterization or indexing of a signal especially for robustness Distortions of the signal must be taken into account. The usefulness of characteristics or combinations of characteristics depends on how strongly by irrelevant changes such as B. by a MP3 coding, can be changed.
Erfindungsgemäß wird als Merkmal zum Charakterisieren bzw. Indexieren von Signalen die Tonalität des Signals verwendet. Es hat sich herausgestellt, daß die Tonalität eines Signals, d. h. die Eigenschaft eines Signals, ein eher unflaches Spektrum mit ausgeprägten Linien oder eher ein Spektrum mit gleich hohen Linien zu haben, robust gegenüber Verzerrungen üblicher Art ist, wie z.B. Verzerrungen durch ein verlustbehaftetes Codierverfahren, wie z.B. MP3. Als Essenz des Signals wird gewissermaßen sein spektrales Erscheinungsbild genommen, und zwar bezogen auf die einzelnen Spektrallinien bzw. Gruppen von Spektrallinien. Die Tonalität liefert ferner eine hohe Flexibilität hinsichtlich des zu betreibenden Rechenaufwands, um das Tonalitätsmaß zu bestimmen. Das Tonalitätsmaß kann aus der Tonalität sämtlicher Spektralkomponenten eines Stücks abgeleitet werden, oder aber aus der Tonalität von Gruppen von Spektralkomponenten, usw. Darüber hinaus können Tonalitäten von aufeinander folgenden Kurzzeitspektren des untersuchten Signals entweder einzeln oder gewichtet oder statistisch ausgewertet verwendet werden.According to the invention is used as a characteristic for characterizing or indexing of signals uses the tonality of the signal. It it has been found that the tonality of a signal, i. H. the property of a signal, a rather flat spectrum with pronounced lines or rather a spectrum with the same height Having lines that are more robust to distortion is more common Is like Distortion caused by a lossy coding method, such as. MP3. In essence, the essence of the signal is taken its spectral appearance, and related to the individual spectral lines or groups of Spectral lines. The tonality also provides great flexibility with regard to the computing effort to be carried out in order to to determine the tonality measure. The tonality measure can be taken from the Tonality of all spectral components of a piece derived or from the tonality of groups of spectral components, etc. In addition, tonalities of successive short-term spectra of the signal under investigation either individually or weighted or statistically evaluated be used.
Mit anderen Worten hängt die Tonalität im Sinne der vorliegenden Anmeldung von dem Audioinhalt ab. Ist der Audioinhalt bzw. das betrachtete Signal mit dem Audioinhalt rauschartig, so hat es eine andere Tonalität als ein weniger rauschartiges Signal. Ein rauschartiges Signal hat typischerweise einen niedrigeren Tonalitätswert als ein weniger rauschartiges, d. h. mehr tonales, Signal. Das letztere Signal hat einen höheren Tonalitätswert.In other words, the tonality depends on the present Registration based on the audio content. Is the audio content or the signal under consideration with the audio content has noisy, so it has a different tonality than a less noisy signal. A noise-like signal typically has a lower one Tonality value as a less noisy, i.e. H. more tonal, Signal. The latter signal has a higher tonality value.
Die Tonalität, d. h. die Rausch- bzw. Tonartigkeit eines Signals, ist eine vom Inhalt des Audiosignals abhängige Größe, die weitestgehend unbeeinflußt von verschiedenen Verzerrungsarten ist. Ein auf einem Tonalitätsmaß aufbauendes Konzept zum Charakterisieren bzw. Indexieren von Signalen liefert daher eine robuste Wiedererkennung, was sich dahingehend äußert, daß die Tonalitäts-Essenz eines Signals nicht bis zur Unkenntlichkeit verändert wird, wenn das Signal verzerrt wird.The tonality, i.e. H. the noise or tonality of a signal, is a quantity dependent on the content of the audio signal, which are largely unaffected by different types of distortion is. A concept based on a tonality measure Characterizing or indexing signals therefore provides a robust recognition, which shows that the tonality essence of a signal is not beyond recognition is changed if the signal is distorted.
Eine Verzerrung ist beispielsweise eine Übertragung des Signals von einem Lautsprecher über einen Luftübertragungskanal zu einem Mikrofon.Distortion is, for example, a transmission of the signal from a loudspeaker via an air transmission channel to a microphone.
Bedeutsam ist die Robustheitseigenschaft des Tonalitätsmerkmals im Hinblick auf verlustbehaftete Kompressionsverfahren. The robustness property of the tonality feature is significant with regard to lossy compression methods.
Es hat sich herausgestellt, daß das Tonalitätsmaß eines Signals durch eine verlustbehaftete Datenkompression wie beispielsweise nach einem der MPEG-Standards nicht oder nur kaum beeinflußt wird. Darüber hinaus liefert ein Erkennungsmerkmal auf der Basis der Tonalität des Signals eine ausreichend gute Essenz für das Signal, so daß zwei voneinander unterschiedliche Audiosignale auch ausreichend unterschiedliche Tonalitätsmaße liefern. Der Inhalt des Audiosignals ist somit stark mit dem Tonalitätsmaß korreliert.It has been found that the tonality measure of a signal through lossy data compression such as according to one of the MPEG standards not or hardly being affected. It also provides a distinguishing feature based on the tonality of the signal a sufficiently good one Essence for the signal so that two different from each other Audio signals also have sufficiently different tonality measures deliver. The content of the audio signal is therefore strong correlates with the tonality measure.
Der wesentliche Vorteil der vorliegenden Erfindung besteht somit darin, daß das Tonalitätsmaß des Signals gegenüber gestörten, d. h. verzerrten, Signalen robust ist. Diese Robustheit besteht insbesondere gegenüber einer Filterung, d. h. Equalisierung, Dynamikkompression, einer verlustbehafteten Datenreduktion, wie z.B. MPEG-1/2 Layer 3, einer analogen Übertragung, etc. Darüber hinaus liefert die Tonalitätseigenschaft eines Signals eine hohe Korrelation zum Inhalt des Signals.The main advantage of the present invention is thus in that the tonality measure of the signal compared to disturbed, d. H. distorted, signals is robust. This robustness exists in particular against filtering, i. H. equalization, Dynamic compression, lossy data reduction, such as. MPEG-1/2 Layer 3, an analog transmission, etc. It also provides the tonality property of a signal has a high correlation to the content of the signal.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
- Fig. 1
- ein Prinzipblockschaltbild einer erfindungsgemäßen Vorrichtung zum Charakterisieren eines Signals;
- Fig. 2
- ein Prinzipblockschaltbild einer erfindungsgemäßen Vorrichtung zum Indexieren eines Signals;
- Fig. 3
- ein Prinzipblockschaltbild einer Vorrichtung zum Berechnen des Tonalitätsmaßes aus der Tonalität pro Spektralkomponente;
- Fig. 4
- ein Prinzipblockschaltbild zum Bestimmen des Tonalitätsmaßes aus der Spectral Flatness Measure (SFM); und
- Fig. 5
- ein Prinzipblockschaltbild eines Mustererkennungssystems, in dem das Tonalitätsmaß als Merkmal (Feature) verwendet werden kann.
- Fig. 1
- a basic block diagram of an inventive device for characterizing a signal;
- Fig. 2
- a basic block diagram of an inventive device for indexing a signal;
- Fig. 3
- a basic block diagram of a device for calculating the tonality measure from the tonality per spectral component;
- Fig. 4
- a basic block diagram for determining the tonality measure from the Spectral Flatness Measure (SFM); and
- Fig. 5
- a block diagram of a pattern recognition system in which the tonality measure can be used as a feature.
Fig. 1 zeigt ein Prinzipblockschaltbild einer erfindungsgemäßen
Vorrichtung zum Charakterisieren eines Signals, das einen
Audioinhalt darstellt. Die Vorrichtung umfaßt einen Eingang
10, in dem das zu charakterisierende Signal eingegeben werden
kann, wobei das zu charakterisierende Signal gegenüber einem
ursprünglichen Signal beispielsweise einer verlustbehafteten
Audiocodierung unterzogen worden ist. Das zu charakterisierende
Signal wird in eine Einrichtung 12 zum Ermitteln eines Maßes
für die Tonalität des Signals eingespeist. Das Maß für die
Tonalität für das Signal wird über eine Verbindungsleitung 14
einer Einrichtung 16 zum Treffen einer Aussage über den Inhalt
des Signals zugeführt. Die Einrichtung 16 ist ausgebildet, um
diese Aussage aufgrund des von der Einrichtung 12 übermittelten
Maßes für die Tonalität des Signals zu treffen und liefert
diese Aussage über den Inhalt des Signals an einem Ausgang 18
des Systems.Fig. 1 shows a basic block diagram of an inventive
Device for characterizing a signal that a
Represents audio content. The device includes an
Fig. 2 zeigt eine erfindungsgemäße Vorrichtung zum Erzeugen
eines indexierten Signals, das einen Audioinhalt aufweist. Das
Signal, beispielsweise ein Audiostück, wie es im Tonstudio erzeugt
worden ist und auf einer Compact Disc gespeichert ist,
wird über einen Eingang 20 in die in Fig. 2 gezeigte Vorrichtung
eingespeist. Eine Einrichtung 22, die grundsätzlich genauso
wie die Einrichtung 12 von Fig. 12 aufgebaut sein kann,
ermittelt ein Maß für die Tonalität des zu indexierenden Signals
und liefert dieses Maß über eine Verbindungsleitung 24
zu einer Einrichtung 26 zum Aufzeichnen des Maßes als Index
für das Signal. An einem Ausgang der Einrichtung 26, der
gleichzeitig der Ausgang 28 der in Fig. 2 gezeigten Vorrichtung
zum Erzeugen eines indexierten Signals ist, kann dann das
am Eingang 20 eingespeiste Signal zusammen mit einem Tonalitätsindex
ausgegeben werden. Alternativ könnte die in Fig. 2
gezeigte Vorrichtung so ausgestaltet sein, daß an dem Ausgang
28 ein Tabelleneintrag erzeugt wird, der den Tonalitätsindex
mit einer Identifikationsmarke verknüpft, wobei die Identifikationsmarke
dem zu indexierenden Signal eindeutig zugeordnet
ist. Allgemein liefert die in Fig. 2 gezeigte Vorrichtung einen
Index für das Signal, wobei der Index dem Signal zugeordnet
ist und auf den Audioinhalt des Signals hinweist.2 shows an inventive device for generating
an indexed signal that has audio content. The
Signal, for example an audio piece as it is generated in the recording studio
has been stored on a compact disc,
is via an
Wenn eine Vielzahl von Signalen durch die in Fig. 2 gezeigte Vorrichtung verarbeitet wird, entsteht nach und nach eine Datenbank aus Indizes für Audiostücke, die beispielsweise für das in Fig. 5 skizzierte Mustererkennungssystem verwendet werden kann. Die Datenbank enthält neben den Indizes optional die Audiostücke selbst. Damit können die Stücke hinsichtlich ihrer Tonalitätseigenschaften ohne weiteres durchsucht werden, um ein Stück durch die in Fig. 1 gezeigte Vorrichtung zu identifizieren und zu klassifizieren, und zwar hinsichtlich der Tonalitätseigenschaft bzw. hinsichtlich von Ähnlichkeiten zu anderen Stücken bzw. Abständen zwischen zwei Stücken. Allgemein liefert die in Fig. 2 gezeigte Vorrichtung jedoch eine Möglichkeit zur Erzeugung von Stücken mit einer zugehörigen Meta-Beschreibung, d. h. dem Tonalitätsindex. Daher ist es möglich, Datensätze z.B. nach vorgegebenen Tonalitätsindizes zu indexieren und zu durchsuchen, so daß gemäß der vorliegenden Erfindung gewissermaßen ein effizientes Suchen und Auffinden von Multimediastücken möglich ist.When a plurality of signals by the one shown in Fig. 2 Device is processed, gradually creates a database from indices for audio pieces, for example for the pattern recognition system outlined in FIG. 5 can be used can. In addition to the indices, the database optionally contains the Audio pieces themselves Tonality properties can be easily searched to identify a piece by the device shown in FIG. 1 and classify them, in terms of tonality or in terms of similarities to others Pieces or distances between two pieces. Generally however, the device shown in Fig. 2 provides one possibility to create pieces with an associated meta description, d. H. the tonality index. Therefore it is possible Records e.g. to index according to given tonality indices and search so that according to the present invention an efficient search and find of Multimedia pieces is possible.
Zur Berechnung des Tonalitätsmaßes eines Stückes können verschiedene
Verfahren angewendet werden. Wie es in Fig. 3 gezeigt
ist, kann ein zu charakterisierendes Zeitsignal mittels
einer Einrichtung 30 in den Spektralbereich umgesetzt werden,
um aus einem Block von zeitlichen Abtastwerten einen Block
von Spektralkoeffizienten zu erzeugen. Wie später ausgeführt
wird, kann für jeden Spektralkoeffizienten bzw. für jede Spektralkomponente
ein eigener Tonalitätswert bestimmt werden, um
beispielsweise mittels einer Ja/Nein-Bestimmung zu klassifizieren,
ob eine Spektralkomponente tonal ist oder nicht. Unter
Verwendung der Tonalitätswerte für die Spektralkomponenten und
der Energie bzw. Leistung der Spektralkomponenten, wobei die
Tonalitätswerte durch die Einrichtung 32 bestimmt werden, kann
dann mittels einer Einrichtung 34 das Tonalitätsmaß für das
Signal auf eine Vielzahl von verschiedenen Arten berechnet
werden.Various can be used to calculate the tonality measure of a piece
Procedures are applied. As shown in Fig. 3
is a time signal to be characterized by means of
a
Aufgrund der Tatsache, daß beispielsweise durch das in Fig. 3 beschriebene Konzept ein quantitatives Tonalitätsmaß erhalten wird, ist es auch möglich, Abstände bzw. Ähnlichkeiten zwischen zwei Tonalitäts-indexierten Stücken anzugeben, wobei Stücke als ähnlich klassifiziert werden können, wenn ihre Tonalitätsmaße sich nur über eine Differenz kleiner als eine vorbestimmte Schwelle unterscheiden, während andere Stücke als unähnlich klassifiziert werden können, wenn sich ihre Tonalitätsindizes durch eine Differenz unterscheiden, die größer als eine Unähnlichkeitsschwelle ist. Neben der Differenz zwischen zwei Tonalitätsmaßen können zur Bestimmung des Tonalitätsabstandes zwischen zwei Stücken weitere Größen verwendet werden, wie z. B. die Differenz zwischen zwei Absolutwerten, das Quadrat einer Differenz, der Quotient zwischen zwei Tonalitätsmaßen weniger Eins, die Korrelation zwischen zwei Tonalitätsmaßen, die Distanzmetrik zwischen zwei Tonalitätsmaßen, die n-dimensionale Vektoren sind, etc.Due to the fact that, for example, in FIG concept described receive a quantitative tonality measure , it is also possible to see distances or similarities between specify two tonality-indexed pieces, where Pieces can be classified as similar if their tonality measures only about a difference less than one differentiate predetermined threshold while pieces other than can be classified differently if their tonality indices differ by a difference that is greater than is a dissimilarity threshold. In addition to the difference between Two tonality measures can be used to determine the tonality distance other sizes are used between two pieces, such as B. the difference between two absolute values, the square a difference, the quotient between two tonality measures less one, the correlation between two tonality measures, the distance metric between two tonality measures, the n-dimensional Are vectors, etc.
Es sei darauf hingewiesen, daß das zu charakterisierende Signal nicht unbedingt ein Zeitsignal sein muß, sondern daß dasselbe auch ein beispielsweise MP3-codiertes Signal sein kann, das aus einer Folge von Huffman-Codewörtern besteht, die aus quantisierten Spektralwerten erzeugt worden sind.It should be noted that the signal to be characterized does not necessarily have to be a time signal, but that it is the same can also be an MP3-encoded signal, for example, which consists of a sequence of Huffman code words consisting of quantized spectral values have been generated.
Die quantisierten Spektralwerte wurden aus den ursprünglichen
Spektralwerten durch Quantisierung erzeugt, wobei die Quantisierung
derart gewählt wurde, daß das durch die Quantisierung
eingeführte Quantisierungsrauschen unterhalb der psychoakustischen
Maskierungsschwelle liegt. In einem solchen Fall kann,
wie es beispielsweise anhand von Fig. 4 dargestellt ist, direkt
der codierte MP3-Datenstrom verwendet werden, um beispielsweise
mittels einer MP3-Decodierers die Spektralwerte zu
berechnen (Einrichtung 40 in Fig. 4). Es ist nicht nötig, vor
der Bestimmung der Tonalität eine Umsetzung in den Zeitbereich
und dann wieder eine Umsetzung in den Spektralbereich vorzunehmen,
sondern es können die innerhalb des MP3-Decodierers
berechneten Spektralwerte unmittelbar genommen werden, um die
Tonalität pro Spektralkomponente oder, wie es in Fig. 4 gezeigt
ist, das SFM (SFM = Spectral Flatness Measure = Maß für
die spektrale Flachheit) durch die Einrichtung 42 zu berechnen.
Wenn zur Bestimmung der Tonalität daher Spektralkomponenten
verwendet werden, und wenn das zu charakterisierende Signal
ein MP3-Datenstrom ist, so ist die Einrichtung 40 wie ein
Decodierer aufgebaut, jedoch ohne die inverse Filterbank.The quantized spectral values were from the original
Spectral values generated by quantization, the quantization
was chosen such that the quantization
introduced quantization noise below the psychoacoustic
Masking threshold is. In such a case,
as shown, for example, with reference to FIG. 4, directly
the encoded MP3 data stream can be used, for example
the spectral values using an MP3 decoder
calculate (
Das Maß für die spektrale Flachheit (SFM) wird durch folgende Gleichung berechnet. The measure for spectral flatness (SFM) is calculated using the following equation.
In dieser Gleichung steht X(n) für das Betragsquadrat einer Spektralkomponente mit dem Index n, während N für die Gesamtanzahl der Spektralkoeffizienten eines Spektrums steht. Aus der Gleichung ist zu sehen, daß das SFM gleich dem Quotienten aus dem geometrischen Mittel der Spektralkomponenten zum arithmetischen Mittel der Spektralkomponenten ist. Wie bekannt ist, ist das geometrische Mittel immer kleiner oder höchstens gleich dem arithmetischen Mittel, so daß das SFM einen Wertebereich hat, der zwischen 0 und 1 liegt. Dabei deutet ein Wert nahe 0 auf ein tonales Signal und ein Wert nahe 1 auf ein eher rauschartiges Signal mit einem flachen Spektralverlauf hin. Es sei darauf hingewiesen, daß das arithmetische Mittel und das geometrische Mittel nur gleich sind, wenn alle X(n) identisch sind, was einem völlig atonalen, d. h. rauschartigen oder impulsartigen Signal entspricht. Ist dagegen im Extremfall lediglich eine Spektralkomponente betragsmäßig sehr groß, während andere Spektralkomponenten X(n) betragsmäßig sehr klein sind, so wird das SFM einen Wert nahe 0 haben, was auf ein sehr tonales Signal hinweist.In this equation, X (n) stands for the square of one Spectral component with the index n, while N for the total number is the spectral coefficient of a spectrum. Out The equation shows that the SFM is equal to the quotient from the geometric mean of the spectral components to arithmetic mean of the spectral components. As known the geometric mean is always smaller or at most equal to the arithmetic mean so that the SFM has a range of values between 0 and 1. A value indicates close to 0 to a tonal signal and a value close to 1 to a closer noise-like signal with a flat spectral curve. It it should be noted that the arithmetic mean and the Geometric averages are only the same if all X (n) are identical are what is completely atonal, d. H. intoxicated or impulsive Signal corresponds. In the extreme case, however, is only a spectral component very large in amount, while other spectral components X (n) are very small in amount are, the SFM will have a value close to 0, indicating a indicates very tonal signal.
Das SFM ist in "Digital Coding of Waveforms", Englewood Cliffs, NJ, Prentice-Hall, N. Jayant, P. Noll, 1984, beschrieben und wurde ursprünglich als Maß für den maximal zu erreichenden Codiergewinn aus einer Redundanzreduktion definiert.The SFM is in "Digital Coding of Waveforms", Englewood Cliffs, NJ, Prentice-Hall, N. Jayant, P. Noll, 1984 and was originally used as a measure of the maximum to be achieved Coding gain defined from a redundancy reduction.
Aus dem SFM kann dann durch eine Einrichtung 44 zum Bestimmen
des Tonalitätsmaßes das Tonalitätsmaß ermittelt werden.The SFM can then be determined by a
Eine weitere Möglichkeit zum Bestimmen der Tonalität der Spektralwerte,
die durch eine Einrichtung 32 von Fig. 3 durchgeführt
werden kann, besteht in der Bestimmung von Spitzen im
Leistungsdichtespektrum des Audiosignals, wie es in MPEG-1 Audio
ISO/IEC 11172-3, Annex D1 "Psychoacoustic Model 1", beschrieben
ist. Hierbei wird der Pegel einer Spektralkomponente
ermittelt. Daraufhin werden die Pegel von zwei die eine Spektralkomponente
umgebenden Spektralkomponenten bestimmt. Eine
Klassifizierung der Spektralkomponente als tonal findet dann
statt, wenn der Pegel der Spektralkomponente um einen vorbestimmten
Faktor größer ist als ein Pegel einer umgebenden
Spektralkomponente. Die vorbestimmte Schwelle wird im Stand
der Technik als 7dB angenommen, wobei für die vorliegende Erfindung
jedoch beliebige andere vorbestimmte Schwellen verwendet
werden können. Dadurch kann für jede Spektralkomponente
angegeben werden, ob diese tonal ist oder nicht. Das Tonalitätsmaß
kann dann durch die Einrichtung 34 von Fig. 3 unter
Verwendung der Tonalitätswerte für die einzelnen Komponenten
sowie der Energie der Spektralkomponenten angegeben werden.Another way to determine the tonality of the spectral values,
performed by a
Eine weitere Möglichkeit zur Bestimmung der Tonalität einer Spektralkomponente besteht in der Auswertung der zeitlichen Prädizierbarkeit, d. h. Vorhersagbarkeit, der Spektralkomponente. Hierbei wird wieder auf MPEG-1 Audio ISO/IEC 11172-3, Annex D2 "Psychoacoustic Model 2", verwiesen. Allgemein wird ein aktueller Block von Abtastwerten des zu charakterisierenden Signals in eine spektrale Darstellung umgesetzt, um einen aktuellen Block von Spektralkomponenten zu erhalten. Hierauf werden die Spektralkomponenten des aktuellen Blocks von Spektralkomponenten unter Verwendung von Informationen aus Abtastwerten des zu charakterisierenden Signals, die dem aktuellen Block vorausgehen, also unter Verwendung von Vergangenheitsinformationen, prädiziert. Daraufhin wird ein Prädiktionsfehler bestimmt, aus dem dann ein Tonalitätsmaß abgeleitet werden kann.Another way to determine the tonality of a Spectral component consists in evaluating the temporal Predictability, d. H. Predictability, the spectral component. Here again MPEG-1 Audio ISO / IEC 11172-3, Annex D2 "Psychoacoustic Model 2". General will a current block of samples of the to be characterized Signal converted into a spectral representation to a to get current block of spectral components. hereupon become the spectral components of the current block of spectral components using information from samples of the signal to be characterized that corresponds to the current Go ahead block, so using historical information, predicted. This will result in a prediction error from which a tonality measure is then derived can.
Eine weitere Möglichkeit zur Bestimmung der Tonalität ist in dem US-Patent Nr. 5,918,203 beschrieben. Wieder wird eine positive reellwertige Darstellung des Spektrums des zu charakterisierenden Signals verwendet. Diese Darstellung kann die Beträge, die Betragsquadrate etc. der Spektralkomponten umfassen. Bei einem Ausführungsbeispiel werden die Beträge oder Betragsquadrate der Spektralkomponenten zunächst logarithmisch komprimiert und dann mit einem Filter mit differenzierender Charakteristik gefiltert, um einen Block von differenzierend gefilterten Spektralkomponenten zu erhalten. Another possibility for determining the tonality is in U.S. Patent No. 5,918,203. Another positive one real-value representation of the spectrum of the to be characterized Signal used. This representation can show the amounts include the amount squares etc. of the spectral components. In one embodiment, the amounts or squares of amounts of the spectral components initially logarithmic compressed and then using a filter with differentiating Characteristic filtered to differentiate a block of to get filtered spectral components.
Bei einem anderen Ausführungsbeispiel werden die Beträge der Spektralkomponenten zunächst mit einem Filter mit differenzierender Charakteristik gefiltert, um einen Zähler zu erhalten, und dann mit einem Filter mit integrierender Charakteristik gefiltert, um einen Nenner zu erhalten. Der Quotient aus einem differenzierend gefilterten Betrag einer Spektralkomponente und dem integrierend gefilterten Betrag derselben Spektralkomponente ergibt dann den Tonalitätswert für diese Spektralkomponente.In another embodiment, the amounts of Spectral components first with a filter with differentiating Characteristic filtered to get a counter and then with a filter with an integrating characteristic filtered to get a denominator. The quotient of one differentially filtered amount of a spectral component and the integrally filtered amount of the same spectral component then gives the tonality value for this spectral component.
Durch diese beiden Vorgehensweisen werden langsame Änderungen zwischen benachbarten Beträgen von Spektralkomponenten unterdrückt, während abrupte Änderungen zwischen benachbarten Beträgen von Spektralkomponenten im Spektrum hervorgehoben werden. Langsame Änderungen zwischen benachbarten Beträgen von Spektralkomponenten deuten auf atonale Signalkomponenten hin, während abrupte Änderungen auf tonale Signalkomponenten hinweisen. Die logarithmisch komprimierten und differenzierend gefilterten Spektralkomponenten bzw. die Quotienten können dann wiederum dazu verwendet werden, um ein Tonalitätsmaß für das betrachtete Spektrum zu berechnen.Both of these approaches make slow changes suppressed between neighboring amounts of spectral components, during abrupt changes between neighboring amounts of spectral components in the spectrum. Slow changes between neighboring amounts of Spectral components indicate atonal signal components, while abrupt changes indicate tonal signal components. The logarithmically compressed and differentiating filtered spectral components or the quotients then in turn be used to measure a tonality to calculate the considered spectrum.
Obgleich im vorherigen Text davon gesprochen wurde, daß ein Tonalitätswert pro Spektralkomponente berechnet wird, wird es im Hinblick auf einen geringeren Rechenaufwand bevorzugt, beispielsweise immer die Betragsquadrate zweier benachbarter Spektralkomponenten zu addieren und dann für jedes Ergebnis der Addition einen Tonalitätswert durch eines der genannten Verfahren zu berechnen. Jede Art einer additiven Gruppierung von Betragsquadraten bzw. Beträgen von Spektralkomponenten kann verwendet werden, um Tonalitätswerte für mehr als eine Spektralkomponente zu berechnen.Although in the previous text it was said that a Tonality value is calculated per spectral component, it will preferred in view of a lower computing effort, for example always the amount squares of two neighboring ones Add spectral components and then for each result the addition of a tonality value by one of the above Calculate procedure. Any kind of additive grouping of amount squares or amounts of spectral components can be used to set tonality values for more than one Calculate spectral component.
Eine weitere Möglichkeit zur Bestimmung der Tonalität einer Spektralkomponente besteht darin, den Pegel einer Spektralkomponente mit einem Mittelwert von Pegeln von Spektralkomponenten in einem Frequenzband zu vergleichen. Die Breite des Frequenzbands, in dem die eine Spektralkomponente liegt, deren Pegel mit dem Mittelwert z. B. der Beträge oder Betragsquadrate der Spektralkomponenten verglichen wird, kann je nach Anforderung gewählt werden. Eine Möglichkeit besteht beispielsweise darin, daß das Band schmal gewählt wird. Alternativ könnte das Band auch breit gewählt werden, oder auch nach psychoakustischen Gesichtspunkten. Dadurch kann der Einfluß kurzzeitiger Leistungseinbrüche im Spektrum vermindert werden.Another way to determine the tonality of a Spectral component is the level of a spectral component with an average of levels of spectral components to compare in a frequency band. The width of the frequency band, in which the one spectral component lies, the Level with the mean z. B. the amounts or amount squares the spectral components can be compared depending on the requirement to get voted. For example, there is one possibility in that the band is chosen narrow. alternative the band could also be chosen broadly, or also according to psychoacoustic Aspects. As a result, the influence can be brief Performance drops in the spectrum can be reduced.
Obgleich im vorhergehenden die Tonalität eines Audiosignals anhand seiner Spektralkomponenten bestimmt wurde, kann dies auch im Zeitbereich, also unter Verwendung der Abtastwerte des Audiosignals geschehen. Hierzu könnte eine LPC-Analyse des Signals durchgeführt werden, um einen Prädiktionsgewinn für das Signal abzuschätzen. Der Prädiktionsgewinn ist umgekehrt proportional zu dem SFM und ist ebenfalls ein Maß für die Tonalität des Audiosignals.Although the tonality of an audio signal was determined based on its spectral components, this can also in the time domain, i.e. using the samples of the Audio signal happen. This could be an LPC analysis of the signal be performed to gain a prediction for the Estimate signal. The prediction gain is inversely proportional to the SFM and is also a measure of tonality of the audio signal.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung
wird nicht nur ein Wert pro Kurzzeitspektrum angegeben,
sondern das Tonalitätsmaß ist ein mehrdimensionaler Vektor
von Tonalitätswerten. So kann beispielsweise das Kurzzeitspektrum
in vier aneinander angrenzende und vorzugsweise nicht
überlappende Bereiche bzw. Frequenzbänder aufgeteilt werden,
wobei für jedes Frequenzband ein Tonalitätswert beispielsweise
durch die Einrichtung 34 von Fig. 3 oder durch die Einrichtung
44 von Fig. 4 ermittelt wird. Damit wird für ein Kurzzeitspektrum
des zu charakterisierenden Signals ein 4-dimensionaler
Tonalitätsvektor erhalten. Um eine bessere Charakterisierung
zu erlauben, würde es ferner bevorzugt, beispielsweise vier
aufeinanderfolgende Kurzzeitspektren wie oben beschrieben zu
bearbeiten, so daß sich insgesamt ein Tonalitätsmaß ergibt,
das ein 16-dimensionaler Vektor oder allgemein ein n x m-dimensionaler
Vektor ist, wobei n für die Anzahl der Tonalitätskomponenten
pro Frame oder Block von Abtastwerten steht,
während m für die Anzahl von betrachteten Blöcken bzw. Kurzzeitspektren
steht. Das Tonalitätsmaß wäre dann, wie ausgeführt,
ein 16-dimensionaler Vektor. Um den zeitlichen Verlauf
des zu charakterisierenden Signals besser zu berücksichtigen,
wird es ferner bevorzugt, mehrere derartige beispielsweise 16-dimensionale
Vektoren zu errechnen und dann statistisch zu
verarbeiten, um beispielsweise Varianz, Mittelwert oder Zentralmomente
höherer Ordnung aus sämtlichen n x m-dimensionalen
Tonalitätsvektoren eines Stücks mit einer bestimmten
Länge zu berechnen, um dieses Stück dadurch zu indexieren.In a preferred embodiment of the present invention
not only one value is given per short-term spectrum,
but the tonality measure is a multidimensional vector
of tonality values. For example, the short-term spectrum
in four adjacent and preferably not
overlapping areas or frequency bands are divided,
with a tonality value for example for each frequency band
by the
Allgemein gesagt kann die Tonalität somit aus Teilen des gesamten Spektrums berechnet werden. Damit ist es möglich, die Tonalität/Rauschartigkeit eines Teilspektrums bzw. mehrerer Teilspektren zu bestimmen und somit eine feinere Charakterisierung des Spektrums und somit des Audiosignals zu erzielen.Generally speaking, the tonality can thus consist of parts of the whole Spectrum can be calculated. So it is possible to Tonality / noiseiness of a sub-spectrum or several Determine sub-spectra and thus a finer characterization to achieve the spectrum and thus the audio signal.
Ferner können Kurzzeitstatistiken aus Tonalitätswerten, wie z.B. Mittelwert, Varianz und Zentralmomente höherer Ordnung, als Tonalitätsmaß berechnet werden. Diese werden mittels statistischer Techniken anhand einer zeitlichen Folge von Tonalitätswerten bzw. Tonalitätsvektoren ermittelt und liefern damit eine Essenz über einen längeren Abschnitt eines Stückes.Furthermore, short-term statistics from tonality values, such as e.g. Mean, variance and central moments of higher order, can be calculated as a measure of tonality. These are calculated using statistical Techniques based on a temporal sequence of tonality values or tonality vectors are determined and thus deliver an essence over a longer section of a piece.
Darüber hinaus können auch Differenzen von zeitlich aufeinanderfolgenden Tonalitätsvektoren oder linear gefilterte Tonalitätswerte verwendet werden, wobei als lineare Filter beispielsweise IIR-Filter oder FIR-Filter eingesetzt werden können. In addition, there can also be differences of consecutive times Tonality vectors or linearly filtered tonality values are used, for example as a linear filter IIR filters or FIR filters can be used.
Auch bei der Berechnung des SFM (Block 42 in Fig. 4) wird es aus Rechenzeitersparnisgründen bevorzugt, beispielsweise zwei frequenzmäßig benachbarte Betragsquadrate zu addieren oder zu mitteln und die SFM-Berechnung auf dieser vergröberten positiven und reellwertigen Spektraldarstellung durchzuführen. Dies führt ferner zu einer größeren Robustheit gegenüber schmalbandigen Frequenzeinbrüchen sowie zu einem geringeren Rechenaufwand.It also becomes when calculating the SFM (block 42 in FIG. 4) preferred in order to save computing time, for example two to add or add adjacent squares of frequencies average and the SFM calculation on this coarsened positive and real-value spectral display. This also leads to greater robustness compared to narrowband Frequency drops and less computing effort.
Im nachfolgenden wird auf Fig. 5 eingegangen, die eine schematische
Übersicht über ein Mustererkennungssystem zeigt, bei
dem die vorliegende Erfindung vorteilhaft eingesetzt werden
kann. Prinzipiell unterscheidet man bei einem in Fig. 5 gezeigten
Mustererkennungssystem zwischen zwei Betriebsmodi,
nämlich dem Trainingsmodus 50 und dem Klassifikationsmodus 52.5, which is a schematic
Overview of a pattern recognition system shows at
which the present invention can be used advantageously
can. A distinction is made in principle with one shown in FIG. 5
Pattern recognition system between two operating modes,
namely training
In dem Trainings-Modus werden Daten "eintrainiert", d. h. dem
System zugefügt und anschließend in einer Datenbank 54 aufgenommen.In the training mode, data is "trained", i.e. H. the
System added and then recorded in a
Im Klassifikations-Modus wird versucht, ein zu charakterisierendes
Signal mit den in der Datenbank 54 vorhandenen Einträgen
zu vergleichen und zu ordnen. Die in Fig. 1 gezeigte erfindungsgemäße
Vorrichtung kann im Klassifikationsmodus 52
verwendet werden, wenn Tonalitätsindizes anderer Stücke vorliegen,
mit denen der Tonalitätsindex des aktuellen Stücks
verglichen werden kann, um eine Aussage über das Stück zu
treffen. Die in Fig. 2 gezeigte Vorrichtung wird dagegen vorteilhaft
im Trainings-Modus 50 von Fig. 5 eingesetzt, um die
Datenbank nach und nach zu füllen.In classification mode an attempt is made to characterize one
Signal with the entries in the
Das Mustererkennungssystem umfaßt eine Einrichtung 56 zur Signalvorverarbeitung,
eine nachgeschaltete Einrichtung 58 zur
Merkmalsextraktion, eine Einrichtung 60 zur Merkmalsverarbeitung,
eine Einrichtung 62 für eine Cluster-Generierung, und
eine Einrichtung 64 zum Durchführen einer Klassifikation, um
beispielsweise als Ergebnis des Klassifikations-Modus 52 eine
solche Aussage über den Inhalt des zu charakterisierenden Signals
zu treffen, daß das Signal mit dem Signal xy, das in einem
früheren Trainings-Modus eintrainiert worden ist, identisch
ist.The pattern recognition system comprises a
Im nachfolgenden wird auf die Funktionalität der einzelnen Blöcke von Fig. 5 eingegangen.Below is the functionality of each Blocks of Fig. 5 received.
Der Block 56 bildet zusammen mit dem Block 58 einen Merkmals-Extraktor,
während der Block 60 einen Merkmalsprozessor darstellt.
Der Block 56 setzt ein Eingangssignal auf ein einheitliches
Zielformat um, wie z. B. die Anzahl der Kanäle, die Abtastrate,
die Auflösung (in Bits pro Abtastwert) usw. Dies ist
insofern sinnvoll und notwendig, da keine Voraussetzungen über
die Quelle, aus der das Eingangssignal stammt, gemacht werden
sollten.
Die Einrichtung 58 zur Merkmalsextraktion dient dazu, die üblicherweise
große Informationsmenge am Ausgang der Einrichtung
56 auf eine kleine Informationsmenge einzuschränken. Die zu
untersuchenden Signale haben meist eine hohe Datenrate, also
eine hohe Anzahl von Abtastwerten pro Zeitabschnitt. Die Einschränkung
auf eine kleine Informationsmenge muß so stattfinden,
daß die Essenz des ursprünglichen Signals, also die Eigenheit
desselben, nicht verloren geht. In der Einrichtung 58
werden vorgegebene charakteristische Eigenschaften, wie allgemein
beispielsweise Lautheit, Grundfrequenz, usw. und/oder,
gemäß der vorliegenden Erfindung, Tonalitätsmerkmale bzw. das
SFM, aus dem Signal extrahiert. Die so gewonnenen Tonalitätsmerkmale
sollen sozusagen die Essenz des untersuchten Signals
beinhalten. The
In dem Block 60 können die zuvor errechneten Merkmalsvektoren
verarbeitet werden. Eine einfache Verarbeitung besteht in der
Normierung der Vektoren. Mögliche Merkmalsverarbeitungen sind
lineare Transformationen, wie beispielsweise die Karhunen-Loeve-Transformation
(KLT) oder die lineare Diskriminanz-Analyse
(LDA), die in der Technik bekannt sind. Weitere insbesondere
auch nichtlineare Transformationen sind ebenfalls zur
Merkmalsverarbeitung anwendbar.In
Der Klassengenerator dient dazu, die verarbeiteten Merkmalsvektoren
zu Klassen zusammenzufassen. Diese Klassen entsprechen
einer kompakten Darstellung des zugehörigen Signals. Der
Klassifikator 64 dient schließlich dazu, einen erzeugten Merkmalsvektor
einer vordefinierten Klasse bzw. einem vordefinierten
Signal zuzuordnen.The class generator is used to process the feature vectors
to combine into classes. These classes correspond
a compact representation of the associated signal. The
Die nachfolgende Tabelle stellt eine Übersicht über Erkennungsraten
unter verschiedenen Bedingungen dar.
(Lautheit als Merkmal)
(SFM als Merkmal)
(Loudness as a characteristic)
(SFM as a characteristic)
Die Tabelle stellt Erkennungsraten unter Verwendung einer Datenbank (54) von Fig. 5 mit insgesamt 305 Musikstücken dar, von denen jeweils die ersten 180 Sekunden als Referenzdaten eintrainiert wurden. Die Erkennungsrate gibt prozentual die Anzahl der richtig erkannten Stücke in Abhängigkeit des Signaleinflusses an. Die zweite Spalte stellt die Erkennungsrate dar, wenn die Lautheit als Merkmal verwendet wird. Insbesondere wurde die Lautheit in vier Spektralbändern berechnet, dann eine Logarithmierung der Lautheitswerte durchgeführt, und dann eine Differenzbildung von logarithmierten Lautheitswerten für zeitlich aufeinanderfolgende entsprechende Spektralbänder durchgeführt. Das dadurch erhaltene Ergebnis wurde als Merkmalsvektor für die Lautheit verwendet.The table presents detection rates using a database (54) of FIG. 5 with a total of 305 pieces of music, of which the first 180 seconds each as reference data were trained. The detection rate gives the percentage Number of correctly recognized pieces depending on the signal influence on. The second column represents the detection rate if loudness is used as a characteristic. In particular the loudness was calculated in four spectral bands, then logarithmizing the loudness values, and then a difference of logarithmic loudness values for corresponding spectral bands in succession carried out. The result obtained was used as a feature vector used for loudness.
In der letzten Spalte wurde das SFM für vier Bänder als Merkmalsvektor verwendet.In the last column, the SFM was used as the feature vector for four bands used.
Es ist zu sehen, daß die erfindungsgemäße Verwendung der Tonalität als Klassifikationsmerkmal zu einer 100%igen Erkennungsrate von MP-3-codierten Stücken führt, wenn ein Ausschnitt von 30 Sekunden betrachtet wird, während die Erkennungsraten sowohl bei dem erfindungsgemäßen Merkmal als auch bei der Lautheit als Merkmal abnehmen, wenn kürzere Ausschnitte (z. B. 15 s) des zu untersuchenden Signals zur Erkennung verwendet werden.It can be seen that the use of tonality according to the invention as a classification feature for a 100% recognition rate of MP-3 encoded pieces when a snippet of 30 seconds is considered while the detection rates are both in the inventive feature as well as in the Decrease loudness as a characteristic if shorter sections (e.g. 15 s) of the signal to be examined is used for detection become.
Wie es bereits ausgeführt worden ist, kann die in Fig. 2 gezeigte Vorrichtung verwendet werden, um das in Fig. 5 gezeigte Erkennungssystem zu trainieren. Allgemein kann jedoch die in Fig. 2 gezeigte Vorrichtung verwendet werden, um für jegliche Multimediadatensätze Metabeschreibungen, d. h. Indizes zu erzeugen, so daß es möglich ist, Datensätze hinsichtlich ihrer Tonalitätswerte zu durchsuchen bzw. aus einer Datenbank Datensätze auszugeben, die einen bestimmten Tonalitätsvektor haben bzw. zu einem bestimmten Tonalitätsvektor ähnlich sind.As has already been stated, the one shown in FIG Device used to do the shown in FIG Train detection system. In general, however, the in Fig. 2 device shown can be used for any Multimedia records meta descriptions, d. H. Generating indexes so that it is possible to view records regarding their Search for tonality values or records from a database to output that have a certain tonality vector or are similar to a certain tonality vector.
Claims (15)
- Method for characterizing a signal, which represents an audio content, comprising:determining (12) a measure for a tonality of the signal, wherein the tonality depends on the audio content, and wherein the tonality for a noisy signal differs from the tonality for a tone-like signal, wherein the step (12) of determining a measure for the tonality comprises:calculating (40) a block of positive and real-valued spectral components for the signal to be characterized;forming (42) a quotient with the geometric mean value of a plurality of spectral components of the block of spectral components as numerator and the arithmetic mean value of the plurality of spectral components in the denominator, wherein the quotient serves as measure for the tonality, wherein a quotient with a value near 0 indicates a tonal signal, and wherein a quotient near 1 indicates an atonal signal with flat spectral curve; andmaking (16) a statement about the audio content of the signal based on the measure for the tonality of the signal.
- Method according to claim 1, wherein the step (16) of making a statement comprises:comparing (64) the measure for the tonality of the signal with a plurality of known tonality measures for a plurality of known signals, which represent different audio contents;determining that the audio content of the signal to be characterized corresponds to the content of a known signal, when the tonality measure of the signal to be characterized has a lower than predetermined deviation from the tonality measure, which is associated with the known signal.
- Method according to claim 2, further comprising:outputting a title, an author or other metainformation for the signal to be characterized, when a correspondence is determined.
- Method according to claim 1, wherein the measure for the tonality is a quantitative quantity, wherein the method further comprises:calculating a tonality distance between the determined measure for the tonality of the signal and a known tonality measure for a known signal; andindicating a similarity measure for the signal to be characterized, wherein the similarity measure depends on the tonality distance and represents the similarity of the content of the known signal to the content of the signal to be characterized.
- Method according to one of the previous claims,
wherein the signal to be characterized is derived by encoding from an original signal,
wherein the encoding comprises a block-wise conversion of the original signal into the frequency domain and a quantizing of spectral values of the original signal controlled by the psychoacoustic model. - Method according to one of claims 1 to 4,
wherein the signal to be characterized is provided by outputting an original signal via a speaker and by recording via a microphone. - Method according to claim 1, wherein at least two spectral components adjacent in frequency are grouped, thereupon not the individual spectral components but the grouped spectral components will be further processed.
- Method according to one of the previous claims,
wherein in the step (12) of determining a short-time spectrum of the signal to be characterized is divided into n bands, wherein a tonality value is determined for every band,
wherein further for m successive short-time spectra of the signal to be characterized n tonality values are determined each, and
wherein a tonality vector is formed with a dimension, which is equal to m x n, wherein m and n are greater or equal to 1. - Method according to claim 8, wherein the measure for the tonality is the tonality vector or a statistic quantity from a plurality of timely successive tonality vectors of the signal to be characterized, wherein the statistic quantity is a mean value, a variance or a central moment higher order or a combination of the above-mentioned statistic quantities.
- Method according to claim 8, wherein the measure for the tonality is derived from a difference of a plurality of tonality vectors or a linear filtering of a plurality of tonality vectors.
- Method for generating an indexed signal, which comprises an audio content, comprising:determining (22) a measure for a tonality of the signal, wherein the tonality depends on the audio content, and wherein the tonality for a noisy signal differs from the tonality for a tone-like signal, wherein the step (12) of determining a measure for the tonality comprises:calculating (40) a block of positive and real-valued spectral components for the signal to be characterized;forming (42) a quotient with the geometric mean value of a plurality of spectral components of the block of spectral components as numerator and the arithmetic mean value of the plurality of spectral components in the denominator, wherein the quotient serves as a measure for the tonality, wherein a quotient with a value near 0 indicates a tonal signal, and wherein a quotient near 1 indicates an atonal signal with flat spectral curve; andrecording (26) the measure for the tonality as index in association to the signal, wherein the index refers to the audio content of the signal.
- Method according to claim 11, wherein the step of determining (22) a measure for the tonality comprises:calculating tonality values for different spectral components or groups of spectral components of the signal; andprocessing the tonality quantities (60) to obtain the measure for the tonality; andassociating (62) the signal with a signal class depending on the measure for the tonality.
- Method according to claim 11, which is performed for a plurality of signals, to obtain a data bank (54) of references to the plurality of signals together with associated indices which refer to tonality properties of the signals.
- Apparatus for characterizing a signal, which represents an audio content, comprising:means for determining (12) a measure for a tonality of the signal, wherein the tonality depends on the audio content, and wherein the tonality for a noisy signal differs from the tonality for a tone-like signal, wherein the means for determining is configured to:calculate a block of positive and real-valued spectral components for the signal to be characterized (40); andform a quotient with the geometric mean value of a plurality of spectral components of the block of spectral components as numerator and the arithmetic mean value of the plurality of spectral components in the denominator (42), wherein the quotient serves as a measure for the tonality, wherein a quotient with a value near 0 indicates a tonal signal, and wherein a quotient near 1 indicates an atonal signal with flat spectral curve; andmeans for making (16) a statement about the audio content of the signal based on the measure for the tonality of the signal.
- Apparatus for generating an indexed signal, which comprises an audio content, comprising:means for determining (22) a measure for a tonality of the signal, wherein the tonality depends on the audio content, and wherein the tonality for a noisy signal differs from the tonality for a tone-like signal, wherein the means for determining is configured to:calculate a block of positive and real-valued spectral components for the signal to be characterized (40); andform a quotient with the geometric mean value of a plurality of spectral components of the block of spectral components as numerator and the arithmetic mean value of the plurality of spectral components in the denominator (42), wherein the quotient serves as a measure for the tonality, wherein a quotient with a value near 0 indicates a tonal signal, and wherein a quotient near 1 indicates an atonal signal with flat spectral curve; andmeans for recording (26) the measure for the tonality as index in association to the signal, wherein the index refers to the audio content of the signal.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10109648A DE10109648C2 (en) | 2001-02-28 | 2001-02-28 | Method and device for characterizing a signal and method and device for generating an indexed signal |
DE10109648 | 2001-02-28 | ||
PCT/EP2002/002005 WO2002073592A2 (en) | 2001-02-28 | 2002-02-26 | Method and device for characterising a signal and method and device for producing an indexed signal |
Publications (2)
Publication Number | Publication Date |
---|---|
EP1368805A2 EP1368805A2 (en) | 2003-12-10 |
EP1368805B1 true EP1368805B1 (en) | 2004-08-18 |
Family
ID=7675809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP02718164A Expired - Lifetime EP1368805B1 (en) | 2001-02-28 | 2002-02-26 | Method and device for characterising a signal and method and device for producing an indexed signal |
Country Status (9)
Country | Link |
---|---|
US (1) | US7081581B2 (en) |
EP (1) | EP1368805B1 (en) |
JP (1) | JP4067969B2 (en) |
AT (1) | ATE274225T1 (en) |
AU (1) | AU2002249245A1 (en) |
DE (2) | DE10109648C2 (en) |
DK (1) | DK1368805T3 (en) |
ES (1) | ES2227453T3 (en) |
WO (1) | WO2002073592A2 (en) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7277766B1 (en) | 2000-10-24 | 2007-10-02 | Moodlogic, Inc. | Method and system for analyzing digital audio files |
US7890374B1 (en) | 2000-10-24 | 2011-02-15 | Rovi Technologies Corporation | System and method for presenting music to consumers |
DE10134471C2 (en) * | 2001-02-28 | 2003-05-22 | Fraunhofer Ges Forschung | Method and device for characterizing a signal and method and device for generating an indexed signal |
DE10157454B4 (en) * | 2001-11-23 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | A method and apparatus for generating an identifier for an audio signal, method and apparatus for building an instrument database, and method and apparatus for determining the type of instrument |
US7027983B2 (en) * | 2001-12-31 | 2006-04-11 | Nellymoser, Inc. | System and method for generating an identification signal for electronic devices |
DE10232916B4 (en) * | 2002-07-19 | 2008-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for characterizing an information signal |
AU2003281641A1 (en) * | 2002-07-22 | 2004-02-09 | Koninklijke Philips Electronics N.V. | Determining type of signal encoder |
US20040194612A1 (en) * | 2003-04-04 | 2004-10-07 | International Business Machines Corporation | Method, system and program product for automatically categorizing computer audio files |
KR101008022B1 (en) * | 2004-02-10 | 2011-01-14 | 삼성전자주식회사 | Voiced sound and unvoiced sound detection method and apparatus |
JP2006018023A (en) * | 2004-07-01 | 2006-01-19 | Fujitsu Ltd | Audio signal coding device, and coding program |
DE102004036154B3 (en) * | 2004-07-26 | 2005-12-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for robust classification of audio signals and method for setting up and operating an audio signal database and computer program |
DE102004047069A1 (en) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Device and method for changing a segmentation of an audio piece |
DE102004047032A1 (en) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for designating different segment classes |
EP1816639B1 (en) * | 2004-12-10 | 2013-09-25 | Panasonic Corporation | Musical composition processing device |
US7567899B2 (en) * | 2004-12-30 | 2009-07-28 | All Media Guide, Llc | Methods and apparatus for audio recognition |
JP4940588B2 (en) * | 2005-07-27 | 2012-05-30 | ソニー株式会社 | Beat extraction apparatus and method, music synchronization image display apparatus and method, tempo value detection apparatus and method, rhythm tracking apparatus and method, music synchronization display apparatus and method |
US8068719B2 (en) | 2006-04-21 | 2011-11-29 | Cyberlink Corp. | Systems and methods for detecting exciting scenes in sports video |
JP4597919B2 (en) * | 2006-07-03 | 2010-12-15 | 日本電信電話株式会社 | Acoustic signal feature extraction method, extraction device, extraction program, recording medium recording the program, acoustic signal search method, search device, search program using the features, and recording medium recording the program |
US8450592B2 (en) * | 2006-09-18 | 2013-05-28 | Circle Consult Aps | Method and a system for providing sound generation instructions |
US7873634B2 (en) * | 2007-03-12 | 2011-01-18 | Hitlab Ulc. | Method and a system for automatic evaluation of digital files |
US8990073B2 (en) | 2007-06-22 | 2015-03-24 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
US8412340B2 (en) * | 2007-07-13 | 2013-04-02 | Advanced Bionics, Llc | Tonality-based optimization of sound sensation for a cochlear implant patient |
US8401845B2 (en) | 2008-03-05 | 2013-03-19 | Voiceage Corporation | System and method for enhancing a decoded tonal sound signal |
US7923624B2 (en) * | 2008-06-19 | 2011-04-12 | Solar Age Technologies | Solar concentrator system |
CN101847412B (en) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | Method and device for classifying audio signals |
US8620967B2 (en) * | 2009-06-11 | 2013-12-31 | Rovi Technologies Corporation | Managing metadata for occurrences of a recording |
US20110041154A1 (en) * | 2009-08-14 | 2011-02-17 | All Media Guide, Llc | Content Recognition and Synchronization on a Television or Consumer Electronics Device |
US20110078020A1 (en) * | 2009-09-30 | 2011-03-31 | Lajoie Dan | Systems and methods for identifying popular audio assets |
US8161071B2 (en) | 2009-09-30 | 2012-04-17 | United Video Properties, Inc. | Systems and methods for audio asset storage and management |
US8677400B2 (en) * | 2009-09-30 | 2014-03-18 | United Video Properties, Inc. | Systems and methods for identifying audio content using an interactive media guidance application |
US8886531B2 (en) | 2010-01-13 | 2014-11-11 | Rovi Technologies Corporation | Apparatus and method for generating an audio fingerprint and using a two-stage query |
US20110173185A1 (en) * | 2010-01-13 | 2011-07-14 | Rovi Technologies Corporation | Multi-stage lookup for rolling audio recognition |
US8812310B2 (en) * | 2010-08-22 | 2014-08-19 | King Saud University | Environment recognition of audio input |
JP5851455B2 (en) * | 2013-08-06 | 2016-02-03 | 日本電信電話株式会社 | Common signal containing section presence / absence judging device, method, and program |
KR102137537B1 (en) | 2015-06-30 | 2020-07-27 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | Method and device for associating noises and for analyzing |
US9743138B2 (en) | 2015-07-31 | 2017-08-22 | Mutr Llc | Method for sound recognition task trigger |
CN105741835B (en) * | 2016-03-18 | 2019-04-16 | 腾讯科技(深圳)有限公司 | A kind of audio-frequency information processing method and terminal |
CN109584904B (en) * | 2018-12-24 | 2022-10-28 | 厦门大学 | Video-song audio-song name recognition modeling method applied to basic music video-song education |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5210820A (en) * | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
US5510572A (en) * | 1992-01-12 | 1996-04-23 | Casio Computer Co., Ltd. | Apparatus for analyzing and harmonizing melody using results of melody analysis |
JPH06110945A (en) * | 1992-09-29 | 1994-04-22 | Fujitsu Ltd | Music data base preparing device and retrieving device for the same |
DE19505435C1 (en) * | 1995-02-17 | 1995-12-07 | Fraunhofer Ges Forschung | Tonality evaluation system for audio signal |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
-
2001
- 2001-02-28 DE DE10109648A patent/DE10109648C2/en not_active Expired - Fee Related
-
2002
- 2002-02-26 ES ES02718164T patent/ES2227453T3/en not_active Expired - Lifetime
- 2002-02-26 DE DE50200869T patent/DE50200869D1/en not_active Expired - Lifetime
- 2002-02-26 DK DK02718164T patent/DK1368805T3/en active
- 2002-02-26 JP JP2002572563A patent/JP4067969B2/en not_active Expired - Fee Related
- 2002-02-26 AU AU2002249245A patent/AU2002249245A1/en not_active Abandoned
- 2002-02-26 AT AT02718164T patent/ATE274225T1/en active
- 2002-02-26 WO PCT/EP2002/002005 patent/WO2002073592A2/en active IP Right Grant
- 2002-02-26 US US10/469,468 patent/US7081581B2/en not_active Expired - Lifetime
- 2002-02-26 EP EP02718164A patent/EP1368805B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE10109648A1 (en) | 2002-09-12 |
WO2002073592A3 (en) | 2003-10-02 |
DK1368805T3 (en) | 2004-11-22 |
JP2004530153A (en) | 2004-09-30 |
JP4067969B2 (en) | 2008-03-26 |
ES2227453T3 (en) | 2005-04-01 |
ATE274225T1 (en) | 2004-09-15 |
DE10109648C2 (en) | 2003-01-30 |
AU2002249245A1 (en) | 2002-09-24 |
US20040074378A1 (en) | 2004-04-22 |
WO2002073592A2 (en) | 2002-09-19 |
EP1368805A2 (en) | 2003-12-10 |
DE50200869D1 (en) | 2004-09-23 |
US7081581B2 (en) | 2006-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1368805B1 (en) | Method and device for characterising a signal and method and device for producing an indexed signal | |
EP1407446B1 (en) | Method and device for characterising a signal and for producing an indexed signal | |
EP1405222B9 (en) | Method and device for producing a fingerprint and method and device for identifying an audio signal | |
EP1787284B1 (en) | Device and method for robustly classifying audio signals, method for establishing and operating audio signal database and a computer program | |
DE10232916B4 (en) | Apparatus and method for characterizing an information signal | |
DE60203436T2 (en) | Method and system for detecting, indexing and searching for acoustic signals | |
DE60215495T2 (en) | METHOD AND SYSTEM FOR AUTOMATED DETECTION OF SIMILAR OR IDENTICAL SEGMENTS IN AUDIO RECORDS | |
EP1371055B1 (en) | Device for the analysis of an audio signal with regard to the rhythm information in the audio signal using an auto-correlation function | |
DE10117870A1 (en) | Method and device for converting a music signal into a note-based description and method and device for referencing a music signal in a database | |
EP1388145B1 (en) | Device and method for analysing an audio signal in view of obtaining rhythm information | |
DE10157454B4 (en) | A method and apparatus for generating an identifier for an audio signal, method and apparatus for building an instrument database, and method and apparatus for determining the type of instrument | |
DE102004028693B4 (en) | Apparatus and method for determining a chord type underlying a test signal | |
EP1377924B1 (en) | Method and device for extracting a signal identifier, method and device for creating a database from signal identifiers and method and device for referencing a search time signal | |
EP1247275B1 (en) | Device and method for determining a coding block raster of a decoded signal | |
Thiruvengatanadhan | Music genre classification using mfcc and aann | |
EP1743324B1 (en) | Device and method for analysing an information signal | |
DE3935308C1 (en) | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
AX | Request for extension of the european patent |
Extension state: AL LT LV MK RO SI |
|
17P | Request for examination filed |
Effective date: 20030822 |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
RIN1 | Information on inventor provided before grant (corrected) |
Inventor name: HELLMUTH, OLIVER Inventor name: ALLAMANCHE, ERIC Inventor name: FROEBA, BERNHARD Inventor name: HERRE, JUERGEN |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED. Effective date: 20040818 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040818 Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040818 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: GERMAN |
|
REF | Corresponds to: |
Ref document number: 50200869 Country of ref document: DE Date of ref document: 20040923 Kind code of ref document: P |
|
GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) |
Effective date: 20040913 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20041118 Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20041118 |
|
REG | Reference to a national code |
Ref country code: DK Ref legal event code: T3 |
|
LTIE | Lt: invalidation of european patent or patent extension |
Effective date: 20040818 |
|
ET | Fr: translation filed | ||
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050226 Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050226 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050228 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FG2A Ref document number: 2227453 Country of ref document: ES Kind code of ref document: T3 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed |
Effective date: 20050519 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PUE Owner name: M2ANY GMBH Free format text: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWANDTEN FORSCHUNG E.V.#HANSASTRASSE 27 C#80686 MUENCHEN (DE) -TRANSFER TO- M2ANY GMBH#LICHTENBERGSTRASSE 8#85748 GARCHING (DE) |
|
NLS | Nl: assignments of ep-patents |
Owner name: M2ANY GMBH Effective date: 20060131 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: 732E |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: TP |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: PC2A |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050118 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 15 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 16 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 17 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: NL Payment date: 20190224 Year of fee payment: 18 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IE Payment date: 20190222 Year of fee payment: 18 Ref country code: GB Payment date: 20190225 Year of fee payment: 18 Ref country code: CH Payment date: 20190222 Year of fee payment: 18 Ref country code: DE Payment date: 20181204 Year of fee payment: 18 Ref country code: ES Payment date: 20190315 Year of fee payment: 18 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: BE Payment date: 20190222 Year of fee payment: 18 Ref country code: AT Payment date: 20190222 Year of fee payment: 18 Ref country code: FR Payment date: 20190224 Year of fee payment: 18 Ref country code: DK Payment date: 20190222 Year of fee payment: 18 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 50200869 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: DK Ref legal event code: EBP Effective date: 20200229 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: MM Effective date: 20200301 |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: MM01 Ref document number: 274225 Country of ref document: AT Kind code of ref document: T Effective date: 20200226 |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20200226 |
|
REG | Reference to a national code |
Ref country code: BE Ref legal event code: MM Effective date: 20200229 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200229 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200229 Ref country code: AT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200226 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200301 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200226 Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200901 Ref country code: DK Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200229 Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200226 Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200229 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200229 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FD2A Effective date: 20210707 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: ES Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20200227 |