DE10109648A1 - Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals - Google Patents

Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals

Info

Publication number
DE10109648A1
DE10109648A1 DE10109648A DE10109648A DE10109648A1 DE 10109648 A1 DE10109648 A1 DE 10109648A1 DE 10109648 A DE10109648 A DE 10109648A DE 10109648 A DE10109648 A DE 10109648A DE 10109648 A1 DE10109648 A1 DE 10109648A1
Authority
DE
Germany
Prior art keywords
tonality
signal
measure
spectral
spectral components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE10109648A
Other languages
English (en)
Other versions
DE10109648C2 (de
Inventor
Eric Allamanche
Juergen Herre
Oliver Hellmuth
Bernhard Froeba
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
M2any GmbH
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to DE10109648A priority Critical patent/DE10109648C2/de
Priority to DE10134471A priority patent/DE10134471C2/de
Priority to ES02718164T priority patent/ES2227453T3/es
Priority to AT02718164T priority patent/ATE274225T1/de
Priority to AU2002249245A priority patent/AU2002249245A1/en
Priority to PCT/EP2002/002005 priority patent/WO2002073592A2/de
Priority to EP02718164A priority patent/EP1368805B1/de
Priority to US10/469,468 priority patent/US7081581B2/en
Priority to DK02718164T priority patent/DK1368805T3/da
Priority to DE50200869T priority patent/DE50200869D1/de
Priority to JP2002572563A priority patent/JP4067969B2/ja
Publication of DE10109648A1 publication Critical patent/DE10109648A1/de
Application granted granted Critical
Publication of DE10109648C2 publication Critical patent/DE10109648C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/081Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/061MP3, i.e. MPEG-1 or MPEG-2 Audio Layer III, lossy audio compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/135Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/571Waveform compression, adapted for music synthesisers, sound banks or wavetables
    • G10H2250/601Compressed representations of spectral envelopes, e.g. LPC [linear predictive coding], LAR [log area ratios], LSP [line spectral pairs], reflection coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Communication Control (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)

Abstract

Bei einem Verfahren zum Charakterisieren eines Signals, das einen Audioinhalt darstellt, wird ein Maß für eine Tonalität des Signals ermittelt, woraufhin eine Aussage über den Audioinhalt des Signals aufgrund des Maßes für die Tonalität des Signals getroffen wird. Das Maß für die Tonalität des Signals zur Inhaltsanalyse ist gegenüber einer Signalverzerrung, wie z. B. durch MP3-Codierung, robust und hat eine hohe Korrelation zu dem Inhalt des untersuchten Signals.

Description

Die vorliegende Erfindung bezieht sich auf das Charakterisie­ ren von Audiosignalen hinsichtlich ihres Inhalts und insbeson­ dere auf ein Konzept zum Klassifizieren bzw. Indexieren von Audiostücken hinsichtlich ihres Inhalts, um eine Recherchier­ barkeit solcher Multimediadaten zu ermöglichen.
In den letzen Jahren ist die Verfügbarkeit multimedialen Da­ tenmaterials, d. h. von Audiodaten, stark gestiegen. Diese Entwicklung wurde durch eine Reihe von technischen Faktoren bedingt. Diese technischen Faktoren umfassen beispielsweise die breite Verfügbarkeit des Internets, die breite Verfügbar­ keit leistungsfähiger Rechner sowie die breite Verfügbarkeit leistungsfähiger Verfahren zur Datenkompression, d. h. Quellcodierung, von Audiodaten. Als Beispiel hierfür ist MPEG 1/2 Layer 3 genannt, das auch als MP3 bezeichnet wird.
Die riesigen Mengen audiovisueller Daten, die beispielsweise auf dem Internet weltweit verfügbar sind, verlangen nach Kon­ zepten, die es ermöglichen, diese Daten nach inhaltlichen Kri­ terien zu beurteilen, zu katalogisieren oder zu verwalten. Es besteht der Bedarf, multimediale Daten gezielt durch Angabe sinnvoller Kriterien zu suchen und zu finden.
Dies erfordert den Einsatz sogenannter "inhaltsbasierter" Techniken, die aus den audiovisuellen Daten sogenannte Merkma­ le, die in der Technik auch als "Features" bezeichnet werden, extrahieren, die wichtige charakteristische Inhalts- Eigenschaften des interessierenden Signals darstellen. Basierend auf solchen Merkmalen bzw. Kombinationen solcher Merkmale können Ähnlichkeitsbeziehungen bzw. Gemeinsamkeiten zwischen den Audiosignalen hergeleitet werden. Dieser Vorgang erfolgt im allgemeinen durch Vergleich bzw. In-Beziehungsetzen der ex­ trahierten Merkmalswerte aus verschiedenen Signalen, welche hier auch als "Stücke" bezeichnet werden sollen.
Das US-Patent Nr. 5,918,223 offenbart ein Verfahren für die Inhalts-basierte Analyse, Speicherung, Wiedergewinnung und Segmentierung von Audioinformationen. Eine Analyse von Audio­ daten erzeugt einen Satz von numerischen Werten, der auch als Merkmalsvektor bezeichnet wird, und der dazu verwendet werden kann, um die Ähnlichkeit zwischen einzelnen Audiostücken, die typischerweise in einer Multimediadatenbank oder im World Wide Web gespeichert sind, zu klassifizieren und rangmäßig zu ord­ nen.
Die Analyse ermöglicht ferner die Beschreibung von benutzer- definierten Klassen von Audiostücken basierend auf einer Ana­ lyse eines Satzes von Audiostücken, die alle Mitglieder einer Benutzer-definierten Klasse sind. Das System ist in der Lage, einzelne Tonabschnitte innerhalb eines längeren Tonstücks zu finden, was es ermöglicht, daß die Audioaufzeichnung automa­ tisch in eine Serie von kürzeren Audiosegmenten segmentiert wird.
Als Merkmale zur Charakterisierung bzw. Klassifizierung von Audiostücken hinsichtlich ihres Inhalts wird die Lautheit ei­ nes Stückes, der Baß-Gehalt eines Stückes, die Tonhöhe, die Tonhelligkeit ("Brightness"), die Bandbreite und die sogenann­ ten Mel-Frequenz-Cepstral-Koeffizienten (MFCCs) bei periodi­ schen Intervallen in dem Audiostück verwendet. Die Werte pro Block oder Frame werden gespeichert und einer ersten Ableitung unterzogen. Hierauf werden spezifische statistische Größen be­ rechnet, wie z. B. der Mittelwert oder die Standardabweichung, und zwar von jedem dieser Merkmale einschließlich der ersten Ableitungen derselben, um eine Variation über der Zeit zu be­ schreiben. Dieser Satz von statistischen Größen bildet den Merkmalsvektor. Der Merkmalsvektor des Audiostücks wird in ei­ ner Datenbank in Zuordnung zu der Ursprungsdatei gespeichert, wobei ein Benutzer auf die Datenbank zugreifen kann, um ent­ sprechende Audiostücke abzurufen.
Das Datenbanksystem ist in der Lage, den Abstand in einem n- dimensionalen Raum zwischen zwei n-dimensionalen Vektoren zu quantifizieren. Es ist ferner möglich, Klassen von Audiostüc­ ken zu erzeugen, indem ein Satz von Audiostücken spezifiziert wird, der in eine Klasse gehört. Beispielsklassen sind Vogel­ gezwitscher, Rockmusik usw. Der Benutzer wird in die Lage ver­ setzt, die Audiostück-Datenbank unter Verwendung spezifischer Verfahren zu durchsuchen. Das Ergebnis einer Suche ist eine Liste von Tondateien, die geordnet nach ihrem Abstand von dem spezifizierten n-dimensionalen Vektor aufgelistet sind. Der Benutzer kann die Datenbank hinsichtlich Ännlichkeits- Merkmalen, hinsichtlich akustischer bzw. psychoakustischer Merkmale, hinsichtlich subjektiver Merkmale oder hinsichtlich spezieller Geräusche, wie z. B. Bienensummen, durchsuchen.
Die Fachveröffentlichung "Multimedia Content Analysis", Yao Wang u. a., IEEE Signal Processing Magazine, November 2000, Seiten 12 bis 36, offenbart ein ähnliches Konzept, um Multime­ diastücke zu charakterisieren. Als Merkmale zum Klassifizieren des Inhalts eines Multimediastückes werden Zeitbereichsmerkma­ le oder Frequenzbereichsmerkmale vorgeschlagen. Diese umfassen die Lautstärke, die Tonhöhe als Grundfrequenz einer Audiosi­ gnalform, spektrale Merkmale, wie z. B. der Energieinhalt ei­ nes Bandes bezogen auf den Gesamtenergiegehalt, Grenzfrequen­ zen im Spekralverlauf etc. Neben Kurzzeitmerkmalen, die die genannten Größen pro Block von Abtastwerten des Audiosignals betreffen, werden auch Langzeitgrößen vorgeschlagen, die sich auf einen längeren Zeitraum des Audiostücks beziehen.
Zur Charakterisierung von Audiostücken werden verschiedene Ka­ tegorien vorgeschlagen, wie z. B. Tiergeräusche, Glockengeräu­ sche, Geräusche einer Menschenmenge, Gelächter, Maschinenge­ räusche, Musikinstrumente, männliche Sprache, weibliche Spra­ che, Telefongeräusche oder Wassergeräusche.
Problematisch bei der Auswahl der verwendeten Merkmale ist, daß der Rechenaufwand zum Extrahieren eines Merkmals moderat sein soll, um eine zügige Charakterisierung zu erreichen, daß jedoch gleichzeitig das Merkmal für das Audiostück charakteri­ stisch sein soll, derart, daß zwei unterschiedliche Stücke auch voneinander unterscheidbare Merkmale aufweisen.
Weiterhin problematisch ist die Robustheit des Merkmals. So wird bei den genannten Konzepten nicht auf Robustheitskriteri­ en eingegangen. Wird ein Audiostück unmittelbar nach seiner Generierung im Tonstudio charakterisiert und mit einem Index versehen, der den Merkmalsvektor des Stücks darstellt und ge­ wissermaßen die Essenz des Stücks bildet, so ist die Wahr­ scheinlichkeit relativ hoch, dieses Stück wiederzuerkennen, wenn dieselbe, unverzerrte Version dieses Stückes demselben Verfahren unterzogen wird, also dieselben Merkmale extrahiert werden und der Merkmalsvektor dann in der Datenbank mit einer Vielzahl von Merkmalsvektoren verschiedener Stücke verglichen wird.
Problematisch wird es jedoch dann, wenn ein Audiostück vor seiner Charakterisierung verzerrt wird, so daß das zu charak­ terisierende Signal nicht mehr identisch zum ursprünglichen Signal ist, jedoch denselben Inhalt hat. Ein Mensch, der bei­ spielsweise ein Lied kennt, wird dieses Lied auch wiedererken­ nen, wenn es verrauscht ist, wenn es lauter oder leiser ist oder wenn es in einer anderen Tonhöhe gespielt wird als ur­ sprünglich aufgenommen. Eine weitere Verzerrung könnte bei­ spielsweise durch eine verlustbehaftete Datenkompression er­ reicht worden sein, beispielsweise mittels eines Codierverfah­ rens gemäß einem MPEG-Standard, wie z. B. MP3 oder AAC.
Führt eine Verzerrung bzw. Datenkompression dazu, daß das Merkmal durch die Verzerrung bzw. Datenkompression ebenfalls stark beeinträchtigt wird, würde dies bedeuten, daß die Essenz verloren geht, während der Inhalt des Stücks für einen Men­ schen immer noch erkennbar ist.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein ver­ bessertes Konzept zum Charakterisieren bzw. Indexieren eines Signals, das einen Audioinhalt aufweist, zu schaffen.
Diese Aufgabe wird durch ein Verfahren zum Charakterisieren eines Signals nach Patentanspruch 1, durch ein Verfahren zum Erzeugen eines indexierten Signals nach Patentanspruch 16, durch eine Vorrichtung zum Charakterisieren eines Signals nach Patentanspruch 20 oder durch eine Vorrichtung zum Erzeugen ei­ nes indexierten Signals nach Patentanspruch 21 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß bei der Auswahl des Merkmals zum Charakterisieren bzw. Inde­ xieren eines Signals besonders auf die Robustheit gegenüber Verzerrungen des Signals geachtet werden muß. Die Nützlichkeit von Merkmalen bzw. Merkmalskombinationen hängt davon ab, wie stark sie durch irrelevante Veränderungen, wie z. B. durch ei­ ne MP3-Codierung, verändert werden.
Erfindungsgemäß wird als Merkmal zum Charakterisieren bzw. In­ dexieren von Signalen die Tonalität des Signals verwendet. Es hat sich herausgestellt, daß die Tonalität eines Signals, d. h. die Eigenschaft eines Signals, ein eher unflaches Spektrum mit ausgeprägten Linien oder eher ein Spektrum mit gleich ho­ hen Linien zu haben, robust gegenüber Verzerrungen üblicher Art ist, wie z. B. Verzerrungen durch ein verlustbehaftetes Co­ dierverfahren, wie z. B. MP3. Als Essenz des Signals wird ge­ wissermaßen sein spektrales Erscheinungsbild genommen, und zwar bezogen auf die einzelnen Spektrallinien bzw. Gruppen von Spektrallinien. Die Tonalität liefert ferner eine hohe Flexi­ bilität hinsichtlich des zu betreibenden Rechenaufwands, um das Tonalitätsmaß zu bestimmen. Das Tonalitätsmaß kann aus der Tonalität sämtlicher Spektralkomponenten eines Stücks abgelei­ tet werden, oder aber aus der Tonalität von Gruppen von Spek­ tralkomponenten, usw. Darüber hinaus können Tonalitäten von aufeinander folgenden Kurzzeitspektren des untersuchten Si­ gnals entweder einzeln oder gewichtet oder statistisch ausge­ wertet verwendet werden.
Die Tonalität, d. h. die Rausch- bzw. Tonartigkeit eines Si­ gnals, ist eine vom Inhalt des Audiosignals abhängige Größe, die weitestgehend unbeeinflußt von verschiedenen Verzerrungs­ arten ist. Ein auf einem Tonalitätsmaß aufbauendes Konzept zum Charakterisieren bzw. Indexieren von Signalen liefert daher eine robuste Wiedererkennung, was sich dahingehend äußert, daß die Tonalitäts-Essenz eines Signals nicht bis zur Unkenntlich­ keit verändert wird, wenn das Signal verzerrt wird.
Eine Verzerrung ist beispielsweise eine Übertragung des Si­ gnals von einem Lautsprecher über einen Luftübertragungskanal zu einem Mikrofon.
Bedeutsam ist die Robustheitseigenschaft des Tonalitätsmerk­ mals im Hinblick auf verlustbehaftete Kompressionsverfahren. Es hat sich herausgestellt, daß das Tonalitätsmaß eines Si­ gnals durch eine verlustbehaftete Datenkompression wie bei­ spielsweise nach einem der MPEG-Standards nicht oder nur kaum beeinflußt wird. Darüber hinaus liefert ein Erkennungsmerkmal auf der Basis der Tonalität des Signals eine ausreichend gute Essenz für das Signal, so daß zwei voneinander unterschiedli­ che Audiosignale auch ausreichend unterschiedliche Tonalitäts­ maße liefern. Der Inhalt des Audiosignals ist somit stark mit dem Tonalitätsmaß korreliert.
Der wesentliche Vorteil der vorliegenden Erfindung besteht so­ mit darin, daß das Tonalitätsmaß des Signals gegenüber gestör­ ten, d. h. verzerrten, Signalen robust ist. Diese Robustheit besteht insbesondere gegenüber einer Filterung, d. h. Equali­ sierung, Dynamikkompression, einer verlustbehafteten Datenre­ duktion, wie z. B. MPEG-1/2 Layer 3, einer analogen Übertra­ gung, etc. Darüber hinaus liefert die Tonalitätseigenschaft eines Signals eine hohe Korrelation zum Inhalt des Signals.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnun­ gen detailliert erläutert. Es zeigen:
Fig. 1 ein Prinzipblockschaltbild einer erfindungsgemäßen Vorrichtung zum Charakterisieren eines Signals;
Fig. 2 ein Prinzipblockschaltbild einer erfindungsgemäßen Vorrichtung zum Indexieren eines Signals;
Fig. 3 ein Prinzipblockschaltbild einer Vorrichtung zum Be­ rechnen des Tonalitätsmaßes aus der Tonalität pro Spektralkomponente;
Fig. 4 ein Prinzipblockschaltbild zum Bestimmen des Tonali­ tätsmaßes aus der Spectral Flatness Measure (SFM); und
Fig. 5 ein Prinzipblockschaltbild eines Mustererkennungssy­ stems, in dem das Tonalitätsmaß als Merkmal (Fea­ ture) verwendet werden kann.
Fig. 1 zeigt ein Prinzipblockschaltbild einer erfindungsgemä­ ßen Vorrichtung zum Charakterisieren eines Signals, das einen Audioinhalt darstellt. Die Vorrichtung umfaßt einen Eingang 10, in dem das zu charakterisierende Signal eingegeben werden kann, wobei das zu charakterisierende Signal gegenüber einem ursprünglichen Signal beispielsweise einer verlustbehafteten Audiocodierung unterzogen worden ist. Das zu charakterisieren­ de Signal wird in eine Einrichtung 12 zum Ermitteln eines Ma­ ßes für die Tonalität des Signals eingespeist. Das Maß für die Tonalität für das Signal wird über eine Verbindungsleitung 14 einer Einrichtung 16 zum Treffen einer Aussage über den Inhalt des Signals zugeführt. Die Einrichtung 16 ist ausgebildet, um diese Aussage aufgrund des von der Einrichtung 12 übermittel­ ten Maßes für die Tonalität des Signals zu treffen und liefert diese Aussage über den Inhalt des Signals an einem Ausgang 18 des Systems.
Fig. 2 zeigt eine erfindungsgemäße Vorrichtung zum Erzeugen eines indexierten Signals, das einen Audioinhalt aufweist. Das Signal, beispielsweise ein Audiostück, wie es im Tonstudio er­ zeugt worden ist und auf einer Compact Disc gespeichert ist, wird über einen Eingang 20 in die in Fig. 2 gezeigte Vorrich­ tung eingespeist. Eine Einrichtung 22, die grundsätzlich ge­ nauso wie die Einrichtung 12 von Fig. 12 aufgebaut sein kann, ermittelt ein Maß für die Tonalität des zu indexierenden Si­ gnals und liefert dieses Maß über eine Verbindungsleitung 24 zu einer Einrichtung 26 zum Aufzeichnen des Maßes als Index für das Signal. An einem Ausgang der Einrichtung 26, der gleichzeitig der Ausgang 28 der in Fig. 2 gezeigten Vorrich­ tung zum Erzeugen eines indexierten Signals ist, kann dann das am Eingang 20 eingespeiste Signal zusammen mit einem Tonalitätsindex ausgegeben werden. Alternativ könnte die in Fig. 2 gezeigte Vorrichtung so ausgestaltet sein, daß an dem Ausgang 28 ein Tabelleneintrag erzeugt wird, der den Tonalitätsindex mit einer Identifikationsmarke verknüpft, wobei die Identifi­ kationsmarke dem zu indexierenden Signal eindeutig zugeordnet ist. Allgemein liefert die in Fig. 2 gezeigte Vorrichtung ei­ nen Index für das Signal, wobei der Index dem Signal zugeord­ net ist und auf den Audioinhalt des Signals hinweist.
Wenn eine Vielzahl von Signalen durch die in Fig. 2 gezeigte Vorrichtung verarbeitet wird, entsteht nach und nach eine Da­ tenbank aus Indizes für Audiostücke, die beispielsweise für das in Fig. 5 skizzierte Mustererkennungssystem verwendet wer­ den kann. Die Datenbank enthält neben den Indizes optional die Audiostücke selbst. Damit können die Stücke hinsichtlich ihrer Tonalitätseigenschaften ohne weiteres durchsucht werden, um ein Stück durch die in Fig. 1 gezeigte Vorrichtung zu identi­ fizieren und zu klassifizieren, und zwar hinsichtlich der To­ nalitätseigenschaft bzw. hinsichtlich von Ähnlichkeiten zu an­ deren Stücken bzw. Abständen zwischen zwei Stücken. Allgemein liefert die in Fig. 2 gezeigte Vorrichtung jedoch eine Mög­ lichkeit zur Erzeugung von Stücken mit einer zugehörigen Meta- Beschreibung, d. h. dem Tonalitätsindex. Daher ist es möglich, Datensätze z. B. nach vorgegebenen Tonalitätsindizes zu inde­ xieren und zu durchsuchen, so daß gemäß der vorliegenden Er­ findung gewissermaßen ein effizientes Suchen und Auffinden von Multimediastücken möglich ist.
Zur Berechnung des Tonalitätsmaßes eines Stückes können ver­ schiedene Verfahren angewendet werden. Wie es in Fig. 3 ge­ zeigt ist, kann ein zu charakterisierendes Zeitsignal mittels einer Einrichtung 30 in den Spektralbereich umgesetzt werden, um aus einem Block von zeitlichen Abtastwerten einen Block von Spektralkoeffizienten zu erzeugen. Wie später ausgeführt wird, kann für jeden Spektralkoeffizienten bzw. für jede Spektralkomponente ein eigener Tonalitätswert bestimmt werden, um beispielsweise mittels einer Ja/Nein-Bestimmung zu klassifi­ zieren, ob eine Spektralkomponente tonal ist oder nicht. Unter Verwendung der Tonalitätswerte für die Spektralkomponenten und der Energie bzw. Leistung der Spektralkomponenten, wobei die Tonalitätswerte durch die Einrichtung 32 bestimmt werden, kann dann mittels einer Einrichtung 34 das Tonalitätsmaß für das Signal auf eine Vielzahl von verschiedenen Arten berechnet werden.
Aufgrund der Tatsache, daß beispielsweise durch das in Fig. 3 beschriebene Konzept ein quantitatives Tonalitätsmaß erhalten wird, ist es auch möglich, Abstände bzw. Ähnlichkeiten zwi­ schen zwei Tonalitäts-indexierten Stücken anzugeben, wobei Stücke als ähnlich klassifiziert werden können, wenn ihre To­ nalitätsmaße sich nur über eine Differenz kleiner als eine vorbestimmte Schwelle unterscheiden, während andere Stücke als unähnlich klassifiziert werden können, wenn sich ihre Tonali­ tätsindizes durch eine Differenz unterscheiden, die größer als eine Unähnlichkeitsschwelle ist. Neben der Differenz zwischen zwei Tonalitätsmaßen können zur Bestimmung des Tonalitätsab­ standes zwischen zwei Stücken weitere Größen verwendet werden, wie z. B. die Differenz zwischen zwei Absolutwerten, das Qua­ drat einer Differenz, der Quotient zwischen zwei Tonalitätsma­ ßen weniger Eins, die Korrelation zwischen zwei Tonalitätsma­ ßen, die Distanzmetrik zwischen zwei Tonalitätsmaßen, die n- dimensionale Vektoren sind, etc.
Es sei darauf hingewiesen, daß das zu charakterisierende Si­ gnal nicht unbedingt ein Zeitsignal sein muß, sondern daß das­ selbe auch ein beispielsweise MP3-codiertes Signal sein kann, das aus einer Folge von Huffman-Codewörtern besteht, die aus quantisierten Spektralwerten erzeugt worden sind.
Die quantisierten Spektralwerte wurden aus den ursprünglichen Spektralwerten durch Quantisierung erzeugt, wobei die Quanti­ sierung derart gewählt wurde, daß das durch die Quantisierung eingeführte Quantisierungsrauschen unterhalb der psychoakusti­ schen Maskierungsschwelle liegt. In einem solchen Fall kann, wie es beispielsweise anhand von Fig. 4 dargestellt ist, di­ rekt der codierte MP3-Datenstrom verwendet werden, um bei­ spielsweise mittels einer MP3-Decodierers die Spektralwerte zu berechnen (Einrichtung 40 in Fig. 4). Es ist nicht nötig, vor der Bestimmung der Tonalität eine Umsetzung in den Zeitbereich und dann wieder eine Umsetzung in den Spektralbereich vorzu­ nehmen, sondern es können die innerhalb des MP3-Decodierers berechneten Spektralwerte unmittelbar genommen werden, um die Tonalität pro Spektralkomponente oder, wie es in Fig. 4 ge­ zeigt ist, das SFM (SFM = Spectral Flatness Measure = Maß für die spektrale Flachheit) durch die Einrichtung 42 zu berech­ nen. Wenn zur Bestimmung der Tonalität daher Spektralkomponen­ ten verwendet werden, und wenn das zu charakterisierende Si­ gnal ein MP3-Datenstrom ist, so ist die Einrichtung 40 wie ein Decodierer aufgebaut, jedoch ohne die inverse Filterbank.
Das Maß für die spektrale Flachheit (SFM) wird durch folgende Gleichung berechnet.
In dieser Gleichung steht X(n) für das Betragsquadrat einer Spektralkomponente mit dem Index n, während N für die Gesamt­ anzahl der Spektralkoeffizienten eines Spektrums steht. Aus der Gleichung ist zu sehen, daß das SFM gleich dem Quotienten aus dem geometrischen Mittel der Spektralkomponenten zum arithmetischen Mittel der Spektralkomponenten ist. Wie bekannt ist, ist das geometrische Mittel immer kleiner oder höchstens gleich dem arithmetischen Mittel, so daß das SFM einen Wertebereich hat, der zwischen 0 und 1 liegt. Dabei deutet ein Wert nahe 0 auf ein tonales Signal und ein Wert nahe 1 auf ein eher rauschartiges Signal mit einem flachen Spektralverlauf hin. Es sei darauf hingewiesen, daß das arithmetische Mittel und das geometrische Mittel nur gleich sind, wenn alle X(n) identisch sind, was einem völlig atonalen, d. h. rauschartigen oder im­ pulsartigen Signal entspricht. Ist dagegen im Extremfall le­ diglich eine Spektralkomponente betragsmäßig sehr groß, wäh­ rend andere Spektralkomponenten X(n) betragsmäßig sehr klein sind, so wird das SFM einen Wert nahe 0 haben, was auf ein sehr tonales Signal hinweist.
Das SFM ist in "Digital Coding of Waveforms", Englewood Cliffs, NJ, Prentice-Hall, N. Jayant, P. Noll, 1984, beschrie­ ben und wurde ursprünglich als Maß für den maximal zu errei­ chenden Codiergewinn aus einer Redundanzreduktion definiert.
Aus dem SFM kann dann durch eine Einrichtung 44 zum Bestimmen des Tonalitätsmaßes das Tonalitätsmaß ermittelt werden.
Eine weitere Möglichkeit zum Bestimmen der Tonalität der Spek­ tralwerte, die durch eine Einrichtung 32 von Fig. 3 durchge­ führt werden kann, besteht in der Bestimmung von Spitzen im Leistungsdichtespektrum des Audiosignals, wie es in MPEG-1 Au­ dio ISO/IEC 11172-3, Annex D1 "Psychoacoustic Model 1", be­ schrieben ist. Hierbei wird der Pegel einer Spektralkomponente ermittelt. Daraufhin werden die Pegel von zwei die eine Spek­ tralkomponente umgebenden Spektralkomponenten bestimmt. Eine Klassifizierung der Spektralkomponente als tonal findet dann statt, wenn der Pegel der Spektralkomponente um einen vorbe­ stimmten Faktor größer ist als ein Pegel einer umgebenden Spektralkomponente. Die vorbestimmte Schwelle wird im Stand der Technik als 7 dB angenommen, wobei für die vorliegende Er­ findung jedoch beliebige andere vorbestimmte Schwellen verwen­ det werden können. Dadurch kann für jede Spektralkomponente angegeben werden, ob diese tonal ist oder nicht. Das Tonali­ tätsmaß kann dann durch die Einrichtung 34 von Fig. 3 unter Verwendung der Tonalitätswerte für die einzelnen Komponenten sowie der Energie der Spektralkomponenten angegeben werden.
Eine weitere Möglichkeit zur Bestimmung der Tonalität einer Spektralkomponente besteht in der Auswertung der zeitlichen Prädizierbarkeit, d. h. Vorhersagbarkeit, der Spektralkompo­ nente. Hierbei wird wieder auf MPEG-1 Audio ISO/IEC 11172-3, Annex D2 "Psychoacoustic Model 2", verwiesen. Allgemein wird ein aktueller Block von Abtastwerten des zu charakterisieren­ den Signals in eine spektrale Darstellung umgesetzt, um einen aktuellen Block von Spektralkomponenten zu erhalten. Hierauf werden die Spektralkomponenten des aktuellen Blocks von Spek­ tralkomponenten unter Verwendung von Informationen aus Ab­ tastwerten des zu charakterisierenden Signals, die dem aktuel­ len Block vorausgehen, also unter Verwendung von Vergangen­ heitsinformationen, prädiziert. Daraufhin wird ein Prädikti­ onsfehler bestimmt, aus dem dann ein Tonalitätsmaß abgeleitet werden kann.
Eine weitere Möglichkeit zur Bestimmung der Tonalität ist in dem US-Patent Nr. 5,918,203 beschrieben. Wieder wird eine po­ sitive reellwertige Darstellung des Spektrums des zu charakte­ risierenden Signals verwendet. Diese Darstellung kann die Be­ träge, die Betragsquadrate etc. der Spektralkomponten umfas­ sen. Bei einem Ausführungsbeispiel werden die Beträge oder Be­ tragsquadrate der Spektralkomponenten zunächst logarithmisch komprimiert und dann mit einem Filter mit differenzierender Charakteristik gefiltert, um einen Block von differenzierend gefilterten Spektralkomponenten zu erhalten.
Bei einem anderen Ausführungsbeispiel werden die Beträge der Spektralkomponenten zunächst mit einem Filter mit differenzie­ render Charakteristik gefiltert, um einen Zähler zu erhalten, und dann mit einem Filter mit integrierender Charakteristik gefiltert, um einen Nenner zu erhalten. Der Quotient aus einem differenzierend gefilterten Betrag einer Spektralkomponente und dem integrierend gefilterten Betrag derselben Spektralkom­ ponente ergibt dann den Tonalitätswert für diese Spektralkom­ ponente.
Durch diese beiden Vorgehensweisen werden langsame Änderungen zwischen benachbarten Beträgen von Spektralkomponenten unter­ drückt, während abrupte Änderungen zwischen benachbarten Be­ trägen von Spektralkomponenten im Spektrum hervorgehoben wer­ den. Langsame Änderungen zwischen benachbarten Beträgen von Spektralkomponenten deuten auf atonale Signalkomponenten hin, während abrupte Änderungen auf tonale Signalkomponenten hin­ weisen. Die logarithmisch komprimierten und differenzierend gefilterten Spektralkomponenten bzw. die Quotienten können dann wiederum dazu verwendet werden, um ein Tonalitätsmaß für das betrachtete Spektrum zu berechnen.
Obgleich im vorherigen Text davon gesprochen wurde, daß ein Tonalitätswert pro Spektralkomponente berechnet wird, wird es im Hinblick auf einen geringeren Rechenaufwand bevorzugt, bei­ spielsweise immer die Betragsquadrate zweier benachbarter Spektralkomponenten zu addieren und dann für jedes Ergebnis der Addition einen Tonalitätswert durch eines der genannten Verfahren zu berechnen. Jede Art einer additiven Gruppierung von Betragsquadraten bzw. Beträgen von Spektralkomponenten kann verwendet werden, um Tonalitätswerte für mehr als eine Spektralkomponente zu berechnen.
Eine weitere Möglichkeit zur Bestimmung der Tonalität einer Spektralkomponente besteht darin, den Pegel einer Spektralkom­ ponente mit einem Mittelwert von Pegeln von Spektralkomponen­ ten in einem Frequenzband zu vergleichen. Die Breite des Fre­ quenzbands, in dem die eine Spektralkomponente liegt, deren Pegel mit dem Mittelwert z. B. der Beträge oder Betragsquadra­ te der Spektralkomponenten verglichen wird, kann je nach An­ forderung gewählt werden. Eine Möglichkeit besteht beispiels­ weise darin, daß das Band schmal gewählt wird. Alternativ könnte das Band auch breit gewählt werden, oder auch nach psy­ choakustischen Gesichtspunkten. Dadurch kann der Einfluß kurz­ zeitiger Leistungseinbrüche im Spektrum vermindert werden.
Obgleich im vorhergehenden die Tonalität eines Audiosignals anhand seiner Spektralkomponenten bestimmt wurde, kann dies auch im Zeitbereich, also unter Verwendung der Abtastwerte des Audiosignals geschehen. Hierzu könnte eine LPC-Analyse des Si­ gnals durchgeführt werden, um einen Prädiktionsgewinn für das Signal abzuschätzen. Der Prädiktionsgewinn ist umgekehrt pro­ portional zu dem SFM und ist ebenfalls ein Maß für die Tonali­ tät des Audiosignals.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Er­ findung wird nicht nur ein Wert pro Kurzzeitspektrum angege­ ben, sondern das Tonalitätsmaß ist ein mehrdimensionaler Vek­ tor von Tonalitätswerten. So kann beispielsweise das Kurz­ zeitspektrum in vier aneinander angrenzende und vorzugsweise nicht überlappende Bereiche bzw. Frequenzbänder aufgeteilt werden, wobei für jedes Frequenzband ein Tonalitätswert bei­ spielsweise durch die Einrichtung 34 von Fig. 3 oder durch die Einrichtung 44 von Fig. 4 ermittelt wird. Damit wird für ein Kurzzeitspektrum des zu charakterisierenden Signals ein 4- dimensionaler Tonalitätsvektor erhalten. Um eine bessere Cha­ rakterisierung zu erlauben, würde es ferner bevorzugt, bei­ spielsweise vier aufeinanderfolgende Kurzzeitspektren wie oben beschrieben zu bearbeiten, so daß sich insgesamt ein Tonali­ tätsmaß ergibt, das ein 16-dimensionaler Vektor oder allgemein ein n × m-dimensionaler Vektor ist, wobei n für die Anzahl der Tonalitätskomponenten pro Frame oder Block von Abtastwerten steht, während m für die Anzahl von betrachteten Blöcken bzw. Kurzzeitspektren steht. Das Tonalitätsmaß wäre dann, wie aus­ geführt, ein 16-dimensionaler Vektor. Um den zeitlichen Ver­ lauf des zu charakterisierenden Signals besser zu berücksich­ tigen, wird es ferner bevorzugt, mehrere derartige beispiels­ weise 16-dimensionale Vektoren zu errechnen und dann stati­ stisch zu verarbeiten, um beispielsweise Varianz, Mittelwert oder Zentralmomente höherer Ordnung aus sämtlichen n × m- dimensionalen Tonalitätsvektoren eines Stücks mit einer be­ stimmten Länge zu berechnen, um dieses Stück dadurch zu inde­ xieren.
Allgemein gesagt kann die Tonalität somit aus Teilen des ge­ samten Spektrums berechnet werden. Damit ist es möglich, die Tonalität/Rauschartigkeit eines Teilspektrums bzw. mehrerer Teilspektren zu bestimmen und somit eine feinere Charakteri­ sierung des Spektrums und somit des Audiosignals zu erzielen.
Ferner können Kurzzeitstatistiken aus Tonalitätswerten, wie z. B. Mittelwert, Varianz und Zentralmomente höherer Ordnung, als Tonalitätsmaß berechnet werden. Diese werden mittels sta­ tistischer Techniken anhand einer zeitlichen Folge von Tonali­ tätswerten bzw. Tonalitätsvektoren ermittelt und liefern damit eine Essenz über einen längeren Abschnitt eines Stückes.
Darüber hinaus können auch Differenzen von zeitlich aufeinan­ derfolgenden Tonalitätsvektoren oder linear gefilterte Tonali­ tätswerte verwendet werden, wobei als lineare Filter bei­ spielsweise IIR-Filter oder FIR-Filter eingesetzt werden kön­ nen.
Auch bei der Berechnung des SFM (Block 42 in Fig. 4) wird es aus Rechenzeitersparnisgründen bevorzugt, beispielsweise zwei frequenzmäßig benachbarte Betragsquadrate zu addieren oder zu mitteln und die SFM-Berechnung auf dieser vergröberten positiven und reellwertigen Spektraldarstellung durchzuführen. Dies führt ferner zu einer größeren Robustheit gegenüber schmalban­ digen Frequenzeinbrüchen sowie zu einem geringeren Rechenauf­ wand.
Im nachfolgenden wird auf Fig. 5 eingegangen, die eine schema­ tische Übersicht über ein Mustererkennungssystem zeigt, bei dem die vorliegende Erfindung vorteilhaft eingesetzt werden kann. Prinzipiell unterscheidet man bei einem in Fig. 5 ge­ zeigten Mustererkennungssystem zwischen zwei Betriebsmodi, nämlich dem Trainingsmodus 50 und dem Klassifikationsmodus 52.
In dem Trainings-Modus werden Daten "eintrainiert", d. h. dem System zugefügt und anschließend in einer Datenbank 54 aufge­ nommen.
Im Klassifikations-Modus wird versucht, ein zu charakterisie­ rendes Signal mit den in der Datenbank 54 vorhandenen Einträ­ gen zu vergleichen und zu ordnen. Die in Fig. 1 gezeigte er­ findungsgemäße Vorrichtung kann im Klassifikationsmodus 52 verwendet werden, wenn Tonalitätsindizes anderer Stücke vor­ liegen, mit denen der Tonalitätsindex des aktuellen Stücks verglichen werden kann, um eine Aussage über das Stück zu treffen. Die in Fig. 2 gezeigte Vorrichtung wird dagegen vor­ teilhaft im Trainings-Modus 50 von Fig. 5 eingesetzt, um die Datenbank nach und nach zu füllen.
Das Mustererkennungssystem umfaßt eine Einrichtung 56 zur Si­ gnalvorverarbeitung, eine nachgeschaltete Einrichtung 58 zur Merkmalsextraktion, eine Einrichtung 60 zur Merkmalsverarbei­ tung, eine Einrichtung 62 für eine Cluster-Generierung, und eine Einrichtung 64 zum Durchführen einer Klassifikation, um beispielsweise als Ergebnis des Klassifikations-Modus 52 eine solche Aussage über den Inhalt des zu charakterisierenden Si­ gnals zu treffen, daß das Signal mit dem Signal xy, das in einem früheren Trainings-Modus eintrainiert worden ist, iden­ tisch ist.
Im nachfolgenden wird auf die Funktionalität der einzelnen Blöcke von Fig. 5 eingegangen.
Der Block 56 bildet zusammen mit dem Block 58 einen Merkmals- Extraktor, während der Block 60 einen Merkmalsprozessor dar­ stellt. Der Block 56 setzt ein Eingangssignal auf ein einheit­ liches Zielformat um, wie z. B. die Anzahl der Kanäle, die Ab­ tastrate, die Auflösung (in Bits pro Abtastwert) usw. Dies ist insofern sinnvoll und notwendig, da keine Voraussetzungen über die Quelle, aus der das Eingangssignal stammt, gemacht werden sollte.
Die Einrichtung 58 zur Merkmalsextraktion dient dazu, die üb­ licherweise große Informationsmenge am Ausgang der Einrichtung 56 auf eine kleine Informationsmenge einzuschränken. Die zu untersuchenden Signale haben meist eine hohe Datenrate, also eine hohe Anzahl von Abtastwerten pro Zeitabschnitt. Die Ein­ schränkung auf eine kleine Informationsmenge muß so stattfin­ den, daß die Essenz des ursprünglichen Signals, also die Ei­ genheit desselben, nicht verloren geht. In der Einrichtung 58 werden vorgegebene charakteristische Eigenschaften, wie allge­ mein beispielsweise Lautheit, Grundfrequenz, usw. und/oder, gemäß der vorliegenden Erfindung, Tonalitätsmerkmale bzw. das SFM, aus dem Signal extrahiert. Die so gewonnenen Tonalitäts­ merkmale sollen sozusagen die Essenz des untersuchten Signals beinhalten.
In dem Block 60 können die zuvor errechneten Merkmalsvektoren verarbeitet werden. Eine einfache Verarbeitung besteht in der Normierung der Vektoren. Mögliche Merkmalsverarbeitungen sind lineare Transformationen, wie beispielsweise die Karhunen- Loève-Transformation (KLT) oder die lineare Diskriminanz- Analyse (LDA), die in der Technik bekannt sind. Weitere insbe­ sondere auch nichtlineare Transformationen sind ebenfalls zur Merkmalsverarbeitung anwendbar.
Der Klassengenerator dient dazu, die verarbeiteten Merkmals­ vektoren zu Klassen zusammenzufassen. Diese Klassen entspre­ chen einer kompakten Darstellung des zugehörigen Signals. Der Klassifikator 64 dient schließlich dazu, einen erzeugten Merk­ malsvektor einer vordefinierten Klasse bzw. einem vordefinier­ ten Signal zuzuordnen.
Die nachfolgende Tabelle stellt eine Übersicht über Erken­ nungsraten unter verschiedenen Bedingungen dar.
Die Tabelle stellt Erkennungsraten unter Verwendung einer Da­ tenbank (54) von Fig. 5 mit insgesamt 305 Musikstücken dar, von denen jeweils die ersten 180 Sekunden als Referenzdaten eintrainiert wurden. Die Erkennungsrate gibt prozentual die Anzahl der richtig erkannten Stücke in Abhängigkeit des Si­ gnaleinflusses an. Die zweite Spalte stellt die Erkennungsrate dar, wenn die Lautheit als Merkmal verwendet wird. Insbesonde­ re wurde die Lautheit in vier Spektralbändern berechnet, dann eine Logarithmierung der Lautheitswerte durchgeführt, und dann eine Differenzbildung von logarithmierten Lautheitswerten für zeitlich aufeinanderfolgende entsprechende Spektralbänder durchgeführt. Das dadurch erhaltene Ergebnis wurde als Merk­ malsvektor für die Lautheit verwendet.
In der letzten Spalte wurde das SFM für vier Bänder als Merk­ malsvektor verwendet.
Es ist zu sehen, daß die erfindungsgemäße Verwendung der Tona­ lität als Klassifikationsmerkmal zu einer 100%igen Erkennungs­ rate von MP-3-codierten Stücken führt, wenn ein Ausschnitt von 30 Sekunden betrachtet wird, während die Erkennungsraten so­ wohl bei dem erfindungsgemäßen Merkmal als auch bei der Lautheit als Merkmal abnehmen, wenn kürzere Ausschnitte (z. B. 15 s) des zu untersuchenden Signals zur Erkennung verwendet werden.
Wie es bereits ausgeführt worden ist, kann die in Fig. 2 ge­ zeigte Vorrichtung verwendet werden, um das in Fig. 5 gezeigte Erkennungssystem zu trainieren. Allgemein kann jedoch die in Fig. 2 gezeigte Vorrichtung verwendet werden, um für jegliche Multimediadatensätze Metabeschreibungen, d. h. Indizes zu er­ zeugen, so daß es möglich ist, Datensätze hinsichtlich ihrer Tonalitätswerte zu durchsuchen bzw. aus einer Datenbank Daten­ sätze auszugeben, die einen bestimmten Tonalitätsvektor haben bzw. zu einem bestimmten Tonalitätsvektor ähnlich sind.

Claims (21)

1. Verfahren zum Charakterisieren eines Signals, das einen Au­ dioinhalt darstellt, mit folgenden Schritten:
Ermitteln (12) eines Maßes für eine Tonalität des Signals; und
Treffen (16) einer Aussage über den Audioinhalt des Signals aufgrund des Maßes für die Tonalität des Signals.
2. Verfahren nach Anspruch 1, bei dem der Schritt (16) des Treffens einer Aussage folgende Schritte aufweist:
Vergleichen (64) des Maßes für die Tonalität des Signals mit einer Mehrzahl von bekannten Tonalitätsmaßen für eine Mehrzahl von bekannten Signalen, die unterschiedliche Au­ dioinhalte darstellen;
Feststellen, daß der Audioinhalt des zu charakterisierenden Signals mit dem Inhalt eines bekannten Signals überein­ stimmt, wenn das Tonalitätsmaß des zu charakterisierenden Signals eine geringere als eine vorbestimmte Abweichung zu dem Tonalitätsmaß hat, das dem bekannten Signal zugeordnet ist.
3. Verfahren nach Anspruch 2, das ferner folgenden Schritt aufweist:
Ausgeben eines Titels, eines Urhebers oder sonstiger Me­ tainformationen für das zu charakterisierende Signal, wenn eine Übereinstimmung festgestellt wird.
4. Verfahren nach Anspruch 1, bei dem das Maß für die Tonali­ tät eine quantitative Größe ist, wobei das Verfahren ferner folgende Schritte aufweist:
Berechnen eines Tonalitäts-Abstandes zwischen dem ermittel­ ten Maß für die Tonalität des Signals und einem bekannten Tonalitätsmaß für ein bekanntes Signal; und
Angeben eines Ähnlichkeitsmaßes für das zu charakterisie­ rende Signal, wobei das Ähnlichkeitsmaß von dem Tonalitäts­ abstand abhängt und die Ähnlichkeit des Inhalts des bekann­ ten Signals zu dem Inhalt des zu charakterisierenden Si­ gnals darstellt.
5. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem das zu charakterisierende Signal durch Codierung aus einem ursprünglichen Signal abgeleitet ist,
wobei die Codierung eine blockweise Umsetzung des ursprüng­ lichen Signals in den Frequenzbereich und eine von einem psychoakustischen Modell gesteuerte Quantisierung von Spek­ tralwerten des ursprünglichen Signals aufweist.
6. Verfahren nach einem der Ansprüche 1 bis 4 bei dem das zu charakterisierende Signal durch Ausgabe ei­ nes ursprünglichen Signals mittels eines Lautsprechers und durch Aufnahme mittels eines Mikrofons bereitgestellt wird.
7. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem das zu charakterisierende Signal als Nebeninforma­ tion eine Maß für die Tonalität aufweist, und
bei dem der Schritt des Ermittelns (12) das Lesen des Maßes für die Tonalität aus den Nebeninformationen aufweist.
8. Verfahren nach einem der Ansprüche 1 bis 6
bei dem im Schritt des Ermittelns (12) eines Maßes für die Tonalität folgende Schritte durchgeführt werden:
Umsetzen eines Blocks von zeitlichen Abtastwerten des zu charakterisierenden Signals in eine spektrale Darstellung, um einen Block von Spektralkoeffizienten zu erhalten;
Ermitteln eines Pegels einer Spektralkomponente des Blocks von Spektralkomponenten;
Ermitteln von Pegeln der die eine Spektralkomponente umge­ benden Spektralkomponenten;
Klassifizieren der einen Spektralkomponente als tonal, wenn der Pegel der Spektralkomponente um einen vorbestimmten Faktor größer ist als die Pegel der umgebenden Spektralkom­ ponenten; und
Errechnen des Maßes für die Tonalität unter Verwendung der klassifizierten Spektralkomponenten.
9. Verfahren nach einem der Ansprüche 1 bis 6, bei dem der Schritt (12) des Ermittelns eines Maßes für die Tonalität folgende Schritte aufweist:
Umsetzen eines aktuellen Blocks von Abtastwerten des zu charakterisierenden Signals in eine spektrale Darstellung, um einen Block von Spektralkomponenten zu erhalten;
Prädizieren der Spektralkomponenten des aktuellen Blocks von Spektralkomponenten unter Verwendung von Informationen aus Abtastwerten des zu charakterisierenden Signals, die dem aktuellen Block vorausgehen;
Bestimmen von Prädiktionsfehlern durch Subtrahieren der durch Umsetzen erhaltenen Spektralkomponenten von den durch den Schritt des Prädizierens erhaltenen Spektralkomponen­ ten, um einen Prädiktionsfehler pro Spektralkomponente zu erhalten; und
Errechnen eines Maßes für die Tonalität unter Verwendung der Prädiktionsfehler.
10. Verfahren nach einem der Ansprüche 1 bis 6, bei dem zur Bestimmung des Tonalitätsmaßes der Pegel einer Spektralkomponente mit einem Mittelwert von Pegeln von Spektralkomponenten in einem Frequenzband in Beziehung ge­ setzt wird, das die eine Spektralkomponente umfaßt.
11. Verfahren nach einem der Ansprüche 1 bis 6, bei dem der Schritt (12) des Ermittelns eines Maßes für die Tonalität folgende Schritte aufweist:
Umsetzen (30) eines Blocks von Abtastwerten des zu charak­ terisierenden Signals in eine positive und reellwertige spektrale Darstellung, um einen Block von Spektralkomponen­ ten zu erhalten;
optionales Vorverarbeiten der positiven und reellwertigen Darstellung, um einen Block von vorverarbeiteten Spektral­ komponenten zu erhalten;
Filtern des Blocks von Spektralkomponenten oder des Blocks von vorverarbeiteten Spektralkomponenten mit einem Filter mit differenzierender Charakteristik, um einen Block von differenzierend gefilterten Spektralkomponenten zu erhal­ ten;
Bestimmen der Tonalität einer Spektralkomponente unter Ver­ wendung der differenzierend gefilterten Spektralkomponente; und
Errechnen (34) eines Maßes für die Tonalität unter Verwen­ dung der Tonalitäten der Spektralkomponenten.
12. Verfahren nach einem der Ansprüche 1 bis 7, bei dem der Schritt (12) des Ermittelns eines Maßes für die Tonalität folgende Schritte aufweist:
Berechnen (40) eines Blocks von positiven und reellwertigen Spektralkomponenten für das zu charakterisierende Signal;
Bilden (42) eines Quotienten mit dem geometrischen Mittel einer Mehrzahl von Spektralkomponenten des Blocks von Spek­ tralkomponenten als Zähler und dem arithmetischen Mittel der Mehrzahl von Spektralkomponenten im Nenner, wobei der Quotient als Maß für die Tonalität dient, wobei ein Quoti­ ent mit einem Wert in der Nähe von 0 auf ein tonales Signal hinweist, und wobei ein Quotient in der Nähe von 1 auf ein nicht tonales Signal mit flachem Spektralverlauf hinweist.
13. Verfahren nach Anspruch 8, 10, 11 oder 12, bei dem zumin­ dest zwei frequenzmäßig benachbarte Spektralkomponenten gruppiert werden, wobei daraufhin nicht die einzelnen Spek­ tralkomponenten, sondern die gruppierten Spektralkomponen­ ten weiterverarbeitet werden.
14. Verfahren nach einem der vorhergehenden Ansprüche,
bei dem im Schritt (12) des Ermittelns ein Kurzzeitspektrum des zu charakterisierenden Signals in n Bänder aufgeteilt wird, wobei für jedes Band ein Tonalitätswert ermittelt wird,
bei dem ferner für m aufeinanderfolgende Kurzzeitspektren des zu charakterisierenden Signals jeweils n Tonalitätswer­ te bestimmt werden, und
bei dem ein Tonalitätsvektor mit einer Dimension gebildet wird, die gleich m × n ist, wobei m und n größer oder gleich 1 sind.
15. Verfahren nach Anspruch 14, bei dem das Maß für die Tonali­ tät der Tonalitätsvektor oder eine Statistikgröße aus einer Mehrzahl von zeitlich aufeinanderfolgenden Tonalitätsvekto­ ren des zu charakterisierenden Signals ist, wobei die Sta­ tistikgröße einen Mittelwert, eine Varianz oder ein Zen­ tralmoment höherer Ordnung oder eine Kombination der ge­ nannten Statistikgrößen ist.
16. Verfahren nach Anspruch 14, bei dem das Maß für die Tonali­ tät aus einer Differenz einer Mehrzahl von Tonalitätsvekto­ ren oder einer linearen Filterung einer Mehrzahl von Tona­ litätsvektoren abgeleitet ist.
17. Verfahren zum Erzeugen eines indexierten Signals, das ei­ nen Audioinhalt aufweist, mit folgenden Schritten:
Ermitteln (22) eines Maßes für eine Tonalität des Signals; und
Aufzeichnen (26) des Maßes für die Tonalität als Index in Zuordnung zu dem Signal, wobei der Index auf den Audioin­ halt des Signals hinweist.
18. Verfahren nach Anspruch 16, bei dem der Schritt des Ermit­ telns (22) eines Maßes für die Tonalität folgende Schritte aufweist:
Berechnen von Tonalitätswerten für verschiedene Spektral­ komponenten oder Gruppen von Spektralkomponenten des Si­ gnals; und
Verarbeiten der Tonalitätsgrößen (60), um das Maß für die Tonalität zu erhalten; und
Einordnen (62) des Signals in eine Signalklasse abhängig von dem Maß für die Tonalität.
19. Verfahren nach Anspruch 17, das für eine Mehrzahl von Si­ gnalen durchgeführt wird, um eine Datenbank (54) aus Ver­ weisen auf die Mehrzahl von Signalen samt zugeordneten In­ dizes, die auf Tonalitätseigenschaften der Signale hinwei­ sen, zu erhalten.
20. Vorrichtung zum Charakterisieren eines Signals, das einen Audioinhalt darstellt, mit folgenden Merkmalen:
einer Einrichtung zum Ermitteln (12) eines Maßes für eine Tonalität des Signals; und
einer Einrichtung zum Treffen (16) einer Aussage über den Audioinhalt des Signals aufgrund des Maßes für die Tonali­ tät des Signals.
21. Vorrichtung zum Erzeugen eines indexierten Signals, das ei­ nen Audioinhalt aufweist, mit folgenden Merkmalen:
einer Einrichtung zum Ermitteln (22) eines Maßes für eine Tonalität des Signals; und
einer Einrichtung zum Aufzeichnen (26) des Maßes für die Tonalität als Index in Zuordnung zu dem Signal, wobei der Index auf den Audioinhalt des Signals hinweist.
DE10109648A 2001-02-28 2001-02-28 Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals Expired - Fee Related DE10109648C2 (de)

Priority Applications (11)

Application Number Priority Date Filing Date Title
DE10109648A DE10109648C2 (de) 2001-02-28 2001-02-28 Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10134471A DE10134471C2 (de) 2001-02-28 2001-07-16 Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE50200869T DE50200869D1 (de) 2001-02-28 2002-02-26 Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
AU2002249245A AU2002249245A1 (en) 2001-02-28 2002-02-26 Method and device for characterising a signal and method and device for producing an indexed signal
PCT/EP2002/002005 WO2002073592A2 (de) 2001-02-28 2002-02-26 Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
EP02718164A EP1368805B1 (de) 2001-02-28 2002-02-26 Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
ES02718164T ES2227453T3 (es) 2001-02-28 2002-02-26 Procedimiento y dispositivo para caracterizar una señal y procedimiento y dispositivo para producir una señal indexada.
DK02718164T DK1368805T3 (da) 2001-02-28 2002-02-26 Fremgangsmåde og anordning til at karakterisere et signal og fremgangsmåde og anordning til at frembringe et indekseret signal
AT02718164T ATE274225T1 (de) 2001-02-28 2002-02-26 Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
JP2002572563A JP4067969B2 (ja) 2001-02-28 2002-02-26 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
US10/469,468 US7081581B2 (en) 2001-02-28 2002-02-26 Method and device for characterizing a signal and method and device for producing an indexed signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10109648A DE10109648C2 (de) 2001-02-28 2001-02-28 Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals

Publications (2)

Publication Number Publication Date
DE10109648A1 true DE10109648A1 (de) 2002-09-12
DE10109648C2 DE10109648C2 (de) 2003-01-30

Family

ID=7675809

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10109648A Expired - Fee Related DE10109648C2 (de) 2001-02-28 2001-02-28 Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE50200869T Expired - Lifetime DE50200869D1 (de) 2001-02-28 2002-02-26 Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE50200869T Expired - Lifetime DE50200869D1 (de) 2001-02-28 2002-02-26 Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals

Country Status (9)

Country Link
US (1) US7081581B2 (de)
EP (1) EP1368805B1 (de)
JP (1) JP4067969B2 (de)
AT (1) ATE274225T1 (de)
AU (1) AU2002249245A1 (de)
DE (2) DE10109648C2 (de)
DK (1) DK1368805T3 (de)
ES (1) ES2227453T3 (de)
WO (1) WO2002073592A2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
WO2017001611A1 (de) 2015-06-30 2017-01-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und vorrichtung zum zuordnen von geräuschen und zum analysieren

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7277766B1 (en) 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
US7890374B1 (en) 2000-10-24 2011-02-15 Rovi Technologies Corporation System and method for presenting music to consumers
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10157454B4 (de) * 2001-11-23 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments
US7027983B2 (en) * 2001-12-31 2006-04-11 Nellymoser, Inc. System and method for generating an identification signal for electronic devices
DE10232916B4 (de) * 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
WO2004010352A1 (en) * 2002-07-22 2004-01-29 Koninklijke Philips Electronics N.V. Determining type of signal encoder
US20040194612A1 (en) * 2003-04-04 2004-10-07 International Business Machines Corporation Method, system and program product for automatically categorizing computer audio files
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
JP2006018023A (ja) * 2004-07-01 2006-01-19 Fujitsu Ltd オーディオ信号符号化装置、および符号化プログラム
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
JP4698606B2 (ja) * 2004-12-10 2011-06-08 パナソニック株式会社 楽曲処理装置
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
US8068719B2 (en) 2006-04-21 2011-11-29 Cyberlink Corp. Systems and methods for detecting exciting scenes in sports video
JP4597919B2 (ja) * 2006-07-03 2010-12-15 日本電信電話株式会社 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体
EP2064698B1 (de) * 2006-09-18 2015-06-10 Circle Consult ApS Verfahren und system zur bereitstellung von tonerzeugungsanweisungen
US7873634B2 (en) * 2007-03-12 2011-01-18 Hitlab Ulc. Method and a system for automatic evaluation of digital files
US8990073B2 (en) 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
US8412340B2 (en) * 2007-07-13 2013-04-02 Advanced Bionics, Llc Tonality-based optimization of sound sensation for a cochlear implant patient
US8401845B2 (en) 2008-03-05 2013-03-19 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
US7923624B2 (en) * 2008-06-19 2011-04-12 Solar Age Technologies Solar concentrator system
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
US8620967B2 (en) * 2009-06-11 2013-12-31 Rovi Technologies Corporation Managing metadata for occurrences of a recording
US20110041154A1 (en) * 2009-08-14 2011-02-17 All Media Guide, Llc Content Recognition and Synchronization on a Television or Consumer Electronics Device
US8677400B2 (en) * 2009-09-30 2014-03-18 United Video Properties, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US20110078020A1 (en) * 2009-09-30 2011-03-31 Lajoie Dan Systems and methods for identifying popular audio assets
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US20110173185A1 (en) * 2010-01-13 2011-07-14 Rovi Technologies Corporation Multi-stage lookup for rolling audio recognition
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US8812310B2 (en) * 2010-08-22 2014-08-19 King Saud University Environment recognition of audio input
JP5851455B2 (ja) * 2013-08-06 2016-02-03 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム
US9743138B2 (en) 2015-07-31 2017-08-22 Mutr Llc Method for sound recognition task trigger
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN109584904B (zh) * 2018-12-24 2022-10-28 厦门大学 应用于基础音乐视唱教育的视唱音频唱名识别建模方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5510572A (en) * 1992-01-12 1996-04-23 Casio Computer Co., Ltd. Apparatus for analyzing and harmonizing melody using results of melody analysis
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5210820A (en) 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
JPH06110945A (ja) 1992-09-29 1994-04-22 Fujitsu Ltd 音楽データベース作成装置及びその検索装置
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
US6185527B1 (en) 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5510572A (en) * 1992-01-12 1996-04-23 Casio Computer Co., Ltd. Apparatus for analyzing and harmonizing melody using results of melody analysis
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YAO, Wang: "Multimedia Content Analysis" In: IEEE Signal Processing Magazine, November 2000, S. 12-36 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
US7580832B2 (en) 2004-07-26 2009-08-25 M2Any Gmbh Apparatus and method for robust classification of audio signals, and method for establishing and operating an audio-signal database, as well as computer program
WO2017001611A1 (de) 2015-06-30 2017-01-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und vorrichtung zum zuordnen von geräuschen und zum analysieren
WO2017001607A1 (de) 2015-06-30 2017-01-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und vorrichtung zum erzeugen einer datenbank

Also Published As

Publication number Publication date
AU2002249245A1 (en) 2002-09-24
ES2227453T3 (es) 2005-04-01
DE50200869D1 (de) 2004-09-23
US7081581B2 (en) 2006-07-25
JP4067969B2 (ja) 2008-03-26
ATE274225T1 (de) 2004-09-15
DE10109648C2 (de) 2003-01-30
US20040074378A1 (en) 2004-04-22
JP2004530153A (ja) 2004-09-30
DK1368805T3 (da) 2004-11-22
EP1368805A2 (de) 2003-12-10
WO2002073592A2 (de) 2002-09-19
WO2002073592A3 (de) 2003-10-02
EP1368805B1 (de) 2004-08-18

Similar Documents

Publication Publication Date Title
DE10109648C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10134471C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10133333C1 (de) Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
EP1787284B1 (de) Vorrichtung und verfahren zur robusten klassifizierung von audiosignalen sowie verfahren zu einrichtung und betrieb einer audiosignal-datenbank sowie computer-programm
DE60215495T2 (de) Verfahren und system zur automatischen erkennung ähnlicher oder identischer segmente in audioaufzeichnungen
DE10232916B4 (de) Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE10123281C1 (de) Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion
EP3317878A1 (de) Verfahren und vorrichtung zum erzeugen einer datenbank
JP2004530153A6 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
EP2034473A2 (de) Vorrichtung und Verfahren zum Ermitteln eines Schaetzwerts
WO2002093557A1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
DE69828849T2 (de) Signalverarbeitungsgerät und -verfahren sowie Informationsaufzeichnungsgerät
EP1247275B1 (de) Vorrichtung und verfahren zum bestimmen eines codierungs-blockrasters eines decodierten signals
EP1377924B1 (de) VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
WO2001067773A1 (de) Vorrichtung und verfahren zum analysieren eines analyse-zeitsignals
Thiruvengatanadhan Music genre classification using mfcc and aann
DE102004022660B4 (de) Vorrichtung und Verfahren zum Analysieren eines Informationssignals

Legal Events

Date Code Title Description
AG Has addition no.

Ref document number: 10134471

Country of ref document: DE

OP8 Request for examination as to paragraph 44 patent law
8304 Grant after examination procedure
AG Has addition no.

Country of ref document: DE

Ref document number: 10134471

Kind code of ref document: P

AG Has addition no.

Ref document number: 10134471

Country of ref document: DE

Kind code of ref document: P

8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: M2ANY GMBH, 85748 GARCHING, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0011000000

Ipc: G10L0019000000