DE10134471A1 - Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals - Google Patents
Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten SignalsInfo
- Publication number
- DE10134471A1 DE10134471A1 DE10134471A DE10134471A DE10134471A1 DE 10134471 A1 DE10134471 A1 DE 10134471A1 DE 10134471 A DE10134471 A DE 10134471A DE 10134471 A DE10134471 A DE 10134471A DE 10134471 A1 DE10134471 A1 DE 10134471A1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- tonality
- measure
- power
- spectral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims description 33
- 238000001228 spectrum Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 14
- 238000012512 characterization method Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000036515 potency Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000013144 data compression Methods 0.000 description 5
- 238000003909 pattern recognition Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000035987 intoxication Effects 0.000 description 1
- 231100000566 intoxication Toxicity 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/011—Files or data streams containing coded musical information, e.g. for transmission
- G10H2240/046—File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
- G10H2240/061—MP3, i.e. MPEG-1 or MPEG-2 Audio Layer III, lossy audio compression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/135—Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/541—Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
- G10H2250/571—Waveform compression, adapted for music synthesisers, sound banks or wavetables
- G10H2250/601—Compressed representations of spectral envelopes, e.g. LPC [linear predictive coding], LAR [log area ratios], LSP [line spectral pairs], reflection coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
- Communication Control (AREA)
Abstract
Description
- Die vorliegende Erfindung bezieht sich auf das Charakterisieren von Audiosignalen hinsichtlich ihres Inhalts und insbesondere auf ein Konzept zum Klassifizieren bzw. Indexieren von Audiostücken hinsichtlich ihres Inhalts, um eine Recherchierbarkeit solcher Multimediadaten zu ermöglichen, nach dem Hauptpatent 101 09 648.8-53.
- In den letzten Jahren ist die Verfügbarkeit multimedialen Datenmaterials, d. h. von Audiodaten, stark gestiegen. Diese Entwicklung wurde durch reine Reihe von technischen Faktoren bedingt. Diese technischen Faktoren umfassen beispielsweise die breite Verfügbarkeit des Internets, die breite Verfügbarkeit leistungsfähiger Rechner sowie die breite Verfügbarkeit leistungsfähiger Verfahren zur Datenkompression, d. h. Quellcodierung, von Audiodaten. Als Beispiel hierfür ist MPEG 1/2 Layer 3 genannt, das auch als MP3 bezeichnet wird.
- Die riesigen Mengen audiovisueller Daten, die beispielsweise auf dem Internet weltweit verfügbar sind, verlangen nach Konzepten, die es ermöglichen, diese Daten nach inhaltlichen Kriterien zu beurteilen, zu katalogisieren oder zu verwalten. Es besteht der Bedarf, multimediale Daten gezielt durch Angabe sinnvoller Kriterien zu suchen und zu finden.
- Dies erfordert den Einsatz sogenannter "inhaltsbasierter" Techniken, die aus den audiovisuellen Daten sogenannte Merkmale, die in der Technik auch als "Features" bezeichnet werden, extrahieren, die wichtige charakteristische Inhalts- Eigenschaften des interessierenden Signals darstellen. Basierend auf solchen Merkmalen bzw. Kombinationen solcher Merkmale können Ähnlichkeitsbeziehungen bzw. Gemeinsamkeiten zwischen den Audiosignalen hergeleitet werden. Dieser Vorgang erfolgt im allgemeinen durch Vergleich bzw. In-Beziehungsetzen der extrahierten Merkmalswerte aus verschiedenen Signalen, welche hier auch als "Stücke" bezeichnet werden sollen.
- Das US-Patent Nr. 5,918,223 offenbart ein Verfahren für die Inhalts-basierte Analyse, Speicherung, Wiedergewinnung und Segmentierung von Audioinformationen. Eine Analyse von Audiodaten erzeugt einen Satz von numerischen Werten, der auch als Merkmalsvektor bezeichnet wird, und der dazu verwendet werden kann, um die Ähnlichkeit zwischen einzelnen Audiostücken, die typischerweise in einer Multimediadatenbank oder im World Wide Web gespeichert sind, zu klassifizieren und rangmäßig zu ordnen.
- Die Analyse ermöglicht ferner die Beschreibung von benutzerdefinierten Klassen von Audiostücken basierend auf einer Analyse eines Satzes von Audiostücken, die alle Mitglieder einer Benutzerdefinierten Klasse sind. Das System ist in der Lage, einzelne Tonabschnitte innerhalb eines längeren Tonstücks zu finden, was es ermöglicht, daß die Audioaufzeichnung automatisch in eine Serie von kürzeren Audiosegmenten segmentiert wird.
- Als Merkmale zur Charakterisierung bzw. Klassifizierung von Audiostücken hinsichtlich ihres Inhalts wird die Lautheit eines Stückes, die Tonhöhe, die Tonhelligkeit ("Brightness"), die Bandbreite und die sogenannten Mel-Frequenz-Cepstral- Koeffizienten (MFCCs) bei periodischen Intervallen in dem Audiostück verwendet. Die Werte pro Block oder Frame werden gespeichert und einer ersten Ableitung unterzogen. Hierauf werden spezifische statistische Größen berechnet, wie z. B. der Mittelwert oder die Standardabweichung, und zwar von jedem dieser Merkmale einschließlich der ersten Ableitungen derselben, um eine Variation über der Zeit zu beschreiben. Dieser Satz von statistischen Größen bildet den Merkmalsvektor. Der Merkmalsvektor des Audiostücks wird in einer Datenbank in Zuordnung zu der Ursprungsdatei gespeichert, wobei ein Benutzer auf die Datenbank zugreifen kann, um entsprechende Audiostücke abzurufen.
- Das Datenbanksystem ist in der Lage, den Abstand in einem n- dimensionalen Raum zwischen zwei n-dimensionalen Vektoren zu quantifizieren. Es ist ferner möglich, Klassen von Audiostücken zu erzeugen, indem ein Satz von Audiostücken spezifiziert wird, der in eine Klasse gehört. Beispielsklassen sind Vogelgezwitscher, Rockmusik usw. Der Benutzer wird in die Lage versetzt, die Audiostück-Datenbank unter Verwendung spezifischer Verfahren zu durchsuchen. Das Ergebnis einer Suche ist eine Liste von Tondateien, die geordnet nach ihrem Abstand von dem spezifizierten n-dimensionalen Vektor aufgelistet sind. Der Benutzer kann die Datenbank hinsichtlich Ännlichkeits- Merkmalen, hinsichtlich akustischer bzw. psychoakustischer Merkmale, hinsichtlich subjektiver Merkmale oder hinsichtlich spezieller Geräusche, wie z. B. Bienensummen, durchsuchen.
- Die Fachveröffentlichung "Multimedia Content Analysis", Yao Wang u. a., IEEE Signal Processing Magazine, November 2000, Seiten 12 bis 36, offenbart ein ähnliches Konzept, um Multimediastücke zu charakterisieren. Als Merkmale zum Klassifizieren des Inhalts eines Multimediastückes werden Zeitbereichsmerkmale oder Frequenzbereichsmerkmale vorgeschlagen. Diese umfassen die Lautstärke, die Tonhöhe als Grundfrequenz einer Audiosignalform, spektrale Merkmale, wie z. B. der Energieinhalt eines Bandes bezogen auf den Gesamtenergiegehalt, Grenzfrequenzen im Spektralverlauf etc. Neben Kurzzeitmerkmalen, die die genannten Größen pro Block von Abtastwerten des Audiosignals betreffen, werden auch Langzeitgrößen vorgeschlagen, die sich auf einen längeren Zeitraum des Audiostücks beziehen.
- Zur Charakterisierung von Audiostücken werden verschiedene Kategorien vorgeschlagen, wie z. B. Tiergeräusche, Glockengeräusche, Geräusche einer Menschenmenge, Gelächter, Maschinengeräusche, Musikinstrumente, männliche Sprache, weibliche Sprache, Telefongeräusche oder Wassergeräusche.
- Problematisch bei der Auswahl der verwendeten Merkmale ist, daß der Rechenaufwand zum Extrahieren eines Merkmals moderat sein soll, um eine zügige Charakterisierung zu erreichen, daß jedoch gleichzeitig das Merkmal für das Audiostück charakteristisch sein soll, derart, daß zwei unterschiedliche Stücke auch voneinander unterscheidbare Merkmale aufweisen.
- Weiterhin problematisch ist die Robustheit des Merkmals. So wird bei den genannten Konzepten nicht auf Robustheitskriterien eingegangen. Wird ein Audiostück unmittelbar nach seiner Generierung im Tonstudio charakterisiert und mit einem Index versehen, der den Merkmalsvektor des Stücks darstellt und gewissermaßen die Essenz des Stücks bildet, so ist die Wahrscheinlichkeit relativ hoch, dieses Stück wiederzuerkennen, wenn dieselbe, unverzerrte Version dieses Stückes demselben Verfahren unterzogen wird, also dieselben Merkmale extrahiert werden und der Merkmalsvektor dann in der Datenbank mit einer Vielzahl von Merkmalsvektoren verschiedener Stücke verglichen wird.
- Problematisch wird es jedoch dann, wenn ein Audiostück vor seiner Charakterisierung verzerrt wird, so daß das zu charakterisierende Signal nicht mehr identisch zum ursprünglichen Signal ist, jedoch denselben Inhalt hat. Ein Mensch, der beispielsweise ein Lied kennt, wird dieses Lied auch wiedererkennen, wenn es verrauscht ist, wenn es lauter oder leiser ist oder wenn es in einer anderen Tonhöhe gespielt wird als ursprünglich aufgenommen. Eine weitere Verzerrung könnte beispielsweise durch eine verlustbehaftete Datenkompression erreicht worden sein, beispielsweise mittels eines Codierverfahrens gemäß einem MPEG-Standard, wie z. B. MP3 oder AAC.
- Führt eine Verzerrung bzw. Datenkompression dazu, daß das Merkmal durch die Verzerrung bzw. Datenkompression ebenfalls stark beeinträchtigt wird, würde dies bedeuten, daß die Essenz verloren geht, während der Inhalt des Stücks für einen Menschen immer noch erkennbar ist.
- Die Aufgabe der Erfindung nach dem Hauptpatent 101 09 648.8-53 besteht darin, ein verbessertes Konzept zum Charakterisieren bzw. Indexieren eines Signals, das einen Audioinhalt aufweist, zu schaffen.
- Diese Aufgabe des Hauptpatents wird durch ein Verfahren zum Charakterisieren eines Signals nach Patentanspruch 1, durch ein Verfahren zum Erzeugen eines indexierten Signals nach Patentanspruch 16, durch eine Vorrichtung zum Charakterisieren eines Signals nach Patentanspruch 20 oder durch eine Vorrichtung zum Erzeugen eines indexierten Signals nach Patentanspruch 21 des Hauptpatents gelöst.
- Dem Hauptpatent liegt die Erkenntnis zugrunde, daß bei der Auswahl des Merkmals zum Charakterisieren bzw. Indexieren eines Signals besonders auf die Robustheit gegenüber Verzerrungen des Signals geachtet werden muß. Die Nützlichkeit von Merkmalen bzw. Merkmalskombinationen hängt davon ab, wie stark sie durch irrelevante Veränderungen, wie z. B. durch eine MP3- Codierung, verändert werden.
- Gemäß dem Hauptpatent wird als Merkmal zum Charakterisieren bzw. Indexieren von Signalen die Tonalität des Signals verwendet. Es hat sich herausgestellt, daß die Tonalität eines Signals, d. h. die Eigenschaft eines Signals, ein eher unflaches Spektrum mit ausgeprägten Linien oder eher ein Spektrum mit gleich hohen Linien zu haben, robust gegenüber Verzerrungen üblicher Art ist, wie z. B. Verzerrungen durch ein verlustbehaftetes Codierverfahren, wie z. B. MP3. Als Essenz des Signals wird gewissermaßen sein spektrales Erscheinungsbild genommen, und zwar bezogen auf die einzelnen Spektrallinien bzw. Gruppen von Spektrallinien. Die Tonalität liefert ferner eine hohe Flexibilität hinsichtlich des zu betreibenden Rechenaufwands, um das Tonalitätsmaß zu bestimmen. Das Tonalitätsmaß kann aus der Tonalität sämtlicher Spektralkomponenten eines Stücks abgeleitet werden, oder aber aus der Tonalität von Gruppen von Spektralkomponenten, usw. Darüber hinaus können Tonalitäten von aufeinander folgenden Kurzzeitspektren des untersuchten Signals entweder einzeln oder gewichtet oder statistisch ausgewertet verwendet werden.
- Die Tonalität, d. h. die Rausch- bzw. Tonartigkeit eines Signals, ist eine vom Inhalt des Audiosignals abhängige Größe, die weitestgehend unbeeinflußt von verschiedenen Verzerrungsarten ist. Ein auf einem Tonalitätsmaß aufbauendes Konzept zum Charakterisieren bzw. Indexieren von Signalen liefert daher eine robuste Wiedererkennung, was sich dahingehend äußert, daß die Tonalitäts-Essenz eines Signals nicht bis zur Unkenntlichkeit verändert wird, wenn das Signal verzerrt wird.
- Eine Verzerrung ist beispielsweise eine Übertragung des Signals von einem Lautsprecher über einen Luftübertragungskanal zu einem Mikrofon.
- Bedeutsam ist die Robustheitseigenschaft des Tonalitätsmerkmals im Hinblick auf verlustbehaftete Kompressionsverfahren. Es hat sich herausgestellt, daß das Tonalitätsmaß eines Signals durch eine verlustbehaftete Datenkompression wie beispielsweise nach einem der MPEG-Standards nicht oder nur kaum beeinflußt wird. Darüber hinaus liefert ein Erkennungsmerkmal auf der Basis der Tonalität des Signals eine ausreichend gute Essenz für das Signal, so daß zwei voneinander unterschiedliche Audiosignale auch ausreichend unterschiedliche Tonalitätsmaße liefern. Der Inhalt des Audiosignals ist somit stark mit dem Tonalitätsmaß korreliert.
- Der wesentliche Vorteil des Hauptpatents besteht somit darin, daß das Tonalitätsmaß des Signals gegenüber gestörten, d. h. verzerrten, Signalen robust ist. Diese Robustheit besteht insbesondere gegenüber einer Filterung, d. h. Equalisierung, Dynamikkompression, einer verlustbehafteten Datenreduktion, wie z. B. MPEG-1/2 Layer 3, einer analogen Übertragung, etc. Darüber hinaus liefert die Tonalitätseigenschaft eines Signals eine hohe Korrelation zum Inhalt des Signals.
- Die Aufgabe der Erfindung des Zusatzpatents besteht darin, die Verfahren und Vorrichtungen aus dem Hauptpatent dahin gehend weiter zu bilden, daß die Robustheit und Recheneffizienz für das Maß für die Tonalität verbessert werden.
- Diese Aufgabe wird durch ein Verfahren zum Charakterisieren eines Signals nach Patentanspruch 1, durch ein Verfahren zum Erzeugen eines indexierten Signals nach Patentanspruch 18, durch eine Vorrichtung zum Charakterisieren eines Signals nach Patentanspruch 21 oder durch eine Vorrichtung zum Erzeugen eines indexierten Signals nach Patentanspruch 22 gelöst.
- Der Zusatzerfindung liegt die Erkenntnis zugrunde, daß das Maß für die Tonalität eines Signals besonders robust und mit niedrigem Rechenaufwand ermittelt werden kann, wenn das Maß für die Tonalität von einem Quotienten abgeleitet ist, der im Zähler einen Mittelwert aus mit einer ersten Potenz potenzierten Spektralkomponenten des Signals aufweist, und der im Nenner einen Mittelwert aus mit einer zweiten Potenz potenzierten Spektralkomponenten aufweist, wobei die erste und die zweite Potenz unterschiedlich sind. Die Mittelwertbildung geschieht dadurch, daß mehrere Spektralkomponenten im Zähler zunächst für sich mit der ersten Potenz potenziert werden, dann aufsummiert werden, dann durch die Anzahl der Spektralkomponenten geteilt werden, und dann schließlich einer Wurzelbildung unterzogen werden, wobei die Ordnung der Wurzel der Potenz entspricht. Die selbe Mittelwertbildung wird im Nenner durchgeführt, jedoch mit einer anderen Potenz.
- Dadurch, daß lediglich Quadrate, dritte Potenzen, vierte Potenzen bzw. n-te Potenzen gebildet werden müssen, und diese potenzierten Spektralkomponenten dann aufsummiert werden, werden Probleme vermieden, die auftreten, wenn reine Produkte berechnet werden. Um bei großen Produkten im numerisch verfügbaren Zahlenraum zu bleiben, werden Logarithmen gebildet, die Logarithmen aufsummiert, und dann die erhaltene Summe potenziert. Dies ist aufwendig und wird bei den erfindungsgemäßen Tonalitätsmerkmalen vermieden.
- Andererseits sind Multiplikationen von Spektralkomponenten bzw. von potenzierten Spektralkomponenten dahin gehend wenig robust, daß unabhängig von dem Wert der einzelnen Spektralkomponenten das Produkt aus mehreren Spektralkomponenten oder potenzierten Spektralkomponenten gleich 0 oder sehr klein wird, wenn eine einzige Spektralkomponente gleich 0 ist oder sehr klein ist.
- Andererseits wird dadurch, daß die Potenz im Zähler und die Potenz im Nenner unterschiedlich sind, erreicht, daß flache Spektren, also relativ gering tonale Signale einen Quotienten gleich 1 oder nahe bei 1 liefern, während zerklüftete Spektren, also eher tonale Spektren einen Quotienten liefern, der entweder größer als 1 ist, wenn die Potenz im Zähler größer als die Potenz im Nenner wird, oder der kleiner als 1 ist, wenn die Potenz im Nenner größer als die Potenz im Zähler des Quotienten ist, bzw. allgemein gesagt von "1" unterschiedlich ist.
- Darüber hinaus hat sich herausgestellt, daß der Quotient, von dem das Maß für die Tonalität entweder direkt abgeleitet ist, oder durch Mittelwertbildung oder Varianzberechnung über mehrere entweder lückenlos oder lückenhaft zeitlich aufeinanderfolgende Blöcke oder Frequenzbänder eine hohe Robustheit insbesondere gegenüber begrenzten Signalveränderungen aufweist. Beispielhafte begrenzte Signalveränderungen sind die Änderung der Signalabtastrate. Anschaulich dargestellt ist eine Änderung der Signalabtastrate gegeben, wenn z. B. eine Schallplatte oder ein Tonband etwas schneller oder langsamer abgespielt wird. Da ferner ein Tonalitätsmaß ohne Verwendung eines Produktes berechnet wird, kann das Tonalitätsmaß nicht beabsichtigt oder unbeabsichtigt manipuliert werden, indem z. B. eine einzige Spektralkomponente gleich 0 gesetzt wird, derart, daß unabhängig von dem restlichen Spektralverlauf das Produkt, in dem die zu 0 gesetzte Spektralkomponente auftaucht, ebenfalls gleich 0 ist. Dies könnte darin resultieren, daß die Erkennungsleistung eines Systems, das auf einem Tonalitätsmaß basiert, aufgrund großer Abweichungen stark zurückgeht.
- Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
- Fig. 1 ein Prinzipblockschaltbild einer Vorrichtung zum Charakterisieren eines Signals;
- Fig. 2 ein Prinzipblockschaltbild einer Vorrichtung zum Indexieren eines Signals;
- Fig. 3 ein Prinzipblockschaltbild einer Vorrichtung zum Berechnen des Tonalitätsmaßes aus der Tonalität pro Spektralkomponente;
- Fig. 4 ein Prinzipblockschaltbild zum Bestimmen des Tonalitätsmaßes aus der Spectral Flatness Measure (SFM); und
- Fig. 5 ein Prinzipblockschaltbild eines Mustererkennungssystems, in dem das Tonalitätsmaß als Merkmal (Feature) verwendet werden kann.
- Fig. 1 zeigt ein Prinzipblockschaltbild einer Vorrichtung zum Charakterisieren eines Signals, das einen Audioinhalt darstellt. Die Vorrichtung umfaßt einen Eingang 10, in dem das zu charakterisierende Signal eingegeben werden kann, wobei das zu charakterisierende Signal gegenüber einem ursprünglichen Signal beispielsweise einer verlustbehafteten Audiocodierung unterzogen worden ist. Das zu charakterisierende Signal wird in eine Einrichtung 12 zum Ermitteln eines Maßes für die Tonalität des Signals eingespeist. Das Maß für die Tonalität für das Signal wird über eine Verbindungsleitung 14 einer Einrichtung 16 zum Treffen einer Aussage über den Inhalt des Signals zugeführt. Die Einrichtung 16 ist ausgebildet, um diese Aussage aufgrund des von der Einrichtung 12 übermittelten Maßes für die Tonalität des Signals zu treffen und liefert diese Aussage über den Inhalt des Signals an einem Ausgang 18 des Systems.
- Fig. 2 zeigt eine Vorrichtung zum Erzeugen eines indexierten Signals, das einen Audioinhalt aufweist. Das Signal, beispielsweise ein Audiostück, wie es im Tonstudio erzeugt worden ist und auf einer Compact Disc gespeichert ist, wird über einen Eingang 20 in die in Fig. 2 gezeigte Vorrichtung eingespeist. Eine Einrichtung 22, die grundsätzlich genauso wie die Einrichtung 12 von Fig. 12 aufgebaut sein kann, ermittelt ein Maß für die Tonalität des zu indexierenden Signals und liefert dieses Maß über eine Verbindungsleitung 24 zu einer Einrichtung 26 zum Aufzeichnen des Maßes als Index für das Signal. An einem Ausgang der Einrichtung 26, der gleichzeitig der Ausgang 28 der in Fig. 2 gezeigten Vorrichtung zum Erzeugen eines indexierten Signals ist, kann dann das am Eingang 20 eingespeiste Signal zusammen mit einem Tonalitätsindex ausgegeben werden. Alternativ könnte die in Fig. 2 gezeigte Vorrichtung so ausgestaltet sein, daß an dem Ausgang 28 ein Tabelleneintrag erzeugt wird, der den Tonalitätsindex mit einer Identifikationsmarke verknüpft, wobei die Identifikationsmarke dem zu indexierenden Signal eindeutig zugeordnet ist. Allgemein liefert die in Fig. 2 gezeigte Vorrichtung. einen Index für das Signal, wobei der Index dem Signal zugeordnet ist und auf den Audioinhalt des Signals hinweist.
- Wenn eine Vielzahl von Signalen durch die in Fig. 2 gezeigte Vorrichtung verarbeitet wird, entsteht nach und nach eine Datenbank aus Indizes für Audiostücke, die beispielsweise für das in Fig. 5 skizzierte Mustererkennungssystem verwendet werden kann. Die Datenbank enthält neben den Indizes optional die Audiostücke selbst. Damit können die Stücke hinsichtlich ihrer Tonalitätseigenschaften ohne weiteres durchsucht werden, um ein Stück durch die in Fig. 1 gezeigte Vorrichtung zu identifizieren und zu klassifizieren, und zwar hinsichtlich der Tonalitätseigenschaft bzw. hinsichtlich von Ähnlichkeiten zu anderen Stücken bzw. Abständen zwischen zwei Stücken. Allgemein liefert die in Fig. 2 gezeigte Vorrichtung jedoch eine Möglichkeit zur Erzeugung von Stücken mit einer zugehörigen Meta- Beschreibung, d. h. dem Tonalitätsindex. Daher ist es möglich, Datensätze z. B. nach vorgegebenen Tonalitätsindizes zu indexieren und zu durchsuchen, so daß gemäß der vorliegenden Erfindung gewissermaßen ein effizientes Suchen und Auffinden von Multimediastücken möglich ist.
- Zur Berechnung des Tonalitätsmaßes eines Stückes können gemäß dem Hauptpatent verschiedene Verfahren angewendet werden. Wie es in Fig. 3 gezeigt ist, kann ein zu charakterisierendes Zeitsignal mittels einer Einrichtung 30 in den Spektralbereich umgesetzt werden, um aus einem Block von zeitlichen Abtastwerten einen Block von Spektralkoeffizienten zu erzeugen. Wie später ausgeführt wird, kann für jeden Spektralkoeffizienten bzw. für jede Spektralkomponente ein eigener Tonalitätswert bestimmt werden, um beispielsweise mittels einer Ja/Nein- Bestimmung zu klassifizieren, ob eine Spektralkomponente tonal ist oder nicht. Unter Verwendung der Tonalitätswerte für die Spektralkomponenten und der Energie bzw. Leistung der Spektralkomponenten, wobei die Tonalitätswerte durch die Einrichtung 32 bestimmt werden, kann dann mittels einer Einrichtung 34 das Tonalitätsmaß für das Signal auf eine Vielzahl von verschiedenen Arten berechnet werden.
- Aufgrund der Tatsache, daß beispielsweise durch das in Fig. 3 beschriebene Konzept ein quantitatives Tonalitätsmaß erhalten wird, ist es auch möglich, Abstände bzw. Ähnlichkeiten zwischen zwei Tonalitäts-indexierten Stücken anzugeben, wobei Stücke als ähnlich klassifiziert werden können, wenn ihre Tonalitätsmaße sich nur über eine Differenz kleiner als eine vorbestimmte Schwelle unterscheiden, während andere Stücke als unähnlich klassifiziert werden können, wenn sich ihre Tonalitätsindizes durch eine Differenz unterscheiden, die größer als eine Unähnlichkeitsschwelle ist. Neben der Differenz zwischen zwei Tonalitätsmaßen können zur Bestimmung des Tonalitätsabstandes zwischen zwei Stücken weitere Größen verwendet werden, wie z. B. die Differenz zwischen zwei Absolutwerten, das Quadrat einer Differenz, der Quotient zwischen zwei Tonalitätsmaßen weniger Eins, die Korrelation zwischen zwei Tonalitätsmaßen, die Distanzmetrik zwischen zwei Tonalitätsmaßen, die n- dimensionale Vektoren sind, etc.
- Es sei darauf hingewiesen, daß das zu charakterisierende Signal nicht unbedingt ein Zeitsignal sein muß, sondern daß dasselbe auch ein beispielsweise MP3-codiertes Signal sein kann, das aus einer Folge von Huffman-Codewörtern besteht, die aus quantisierten Spektralwerten erzeugt worden sind.
- Die quantisierten Spektralwerte wurden aus den ursprünglichen Spektralwerten durch Quantisierung erzeugt, wobei die Quantisierung derart gewählt wurde, daß das durch die Quantisierung eingeführte Quantisierungsrauschen unterhalb der psychoakustischen Maskierungsschwelle liegt. In einem solchen Fall kann, wie es beispielsweise anhand von Fig. 4 dargestellt ist, direkt der codierte MP3-Datenstrom verwendet werden, um beispielsweise mittels einer MP3-Decodierers die Spektralwerte zu berechnen (Einrichtung 40 in Fig. 4). Es ist nicht nötig, vor der Bestimmung der Tonalität eine Umsetzung in den Zeitbereich und dann wieder eine Umsetzung in den Spektralbereich vorzunehmen, sondern es können die innerhalb des MP3-Decodierers berechneten Spektralwerte unmittelbar genommen werden, um die Tonalität pro Spektralkomponente oder, wie es in Fig. 4 gezeigt ist, das SFM (SFM = Spectral Flatness Measure = Maß für die spektrale Flachheit) durch die Einrichtung 42 zu berechnen. Wenn zur Bestimmung der Tonalität daher Spektralkomponenten verwendet werden, und wenn das zu charakterisierende Signal ein MP3-Datenstrom ist, so ist die Einrichtung 40 wie ein Decodierer aufgebaut, jedoch ohne die inverse Filterbank.
- Das Maß für die spektrale Flachheit (SFM) wird durch folgende Gleichung berechnet.
- In dieser Gleichung steht X(n) für das Betragsquadrat einer Spektralkomponente mit dem Index n, während N für die Gesamtanzahl der Spektralkoeffizienten eines Spektrums steht. Aus der Gleichung ist zu sehen, daß das SFM gleich dem Quotienten aus dem geometrischen Mittel der Spektralkomponenten zum arithmetischen Mittel der Spektralkomponenten ist. Wie bekannt ist, ist das geometrische Mittel immer kleiner oder höchstens gleich dem arithmetischen Mittel, so daß das SFM einen Wertebereich hat, der zwischen 0 und 1 liegt. Dabei deutet ein Wert nahe 0 auf ein tonales Signal und ein Wert nahe 1 auf ein eher rauschartiges Signal mit einem flachen Spektralverlauf hin. Es sei darauf hingewiesen, daß das arithmetische Mittel und das geometrische Mittel nur gleich sind, wenn alle X(n) identisch sind, was einem völlig atonalen, d. h. rauschartigen oder impulsartigen Signal entspricht. Ist dagegen im Extremfall lediglich eine Spektralkomponente betragsmäßig sehr groß, während andere Spektralkomponenten X(n) betragsmäßig sehr klein sind, so wird das SFM einen Wert nahe 0 haben, was auf ein sehr tonales Signal hinweist.
- Das SFM ist in "Digital Coding of Waveforms", Englewood Cliffs, NJ, Prentice-Hall, N. Jayant, P. Noll, 1984, beschrieben und wurde ursprünglich als Maß für den maximal zu erreichenden Codiergewinn aus einer Redundanzreduktion definiert.
- Aus dem SFM kann dann durch eine Einrichtung 44 zum Bestimmen des Tonalitätsmaßes das Tonalitätsmaß ermittelt werden.
- Eine weitere Möglichkeit zum Bestimmen der Tonalität der Spektralwerte, die durch eine Einrichtung 32 von Fig. 3 durchgeführt werden kann, besteht in der Bestimmung von Spitzen im Leistungsdichtespektrum des Audiosignals, wie es in MPEG-1 Audio ISO/IEC 11172-3, Annex D1 "Psychoacoustic Model 1", beschrieben ist. Hierbei wird der Pegel einer Spektralkomponente ermittelt. Daraufhin werden die Pegel von zwei die eine Spektralkomponente umgebenden Spektralkomponenten bestimmt. Eine Klassifizierung der Spektralkomponente als tonal findet dann statt, wenn der Pegel statt, wenn der Pegel der Spektralkomponente um einen vorbestimmten Faktor größer ist als ein Pegel einer umgebenden Spektralkomponente. Die vorbestimmte Schwelle wird im Stand der Technik als 7dB angenommen, wobei für das Hauptpatent jedoch beliebige andere vorbestimmte Schwellen verwendet werden können. Dadurch kann für jede Spektralkomponente angegeben werden, ob diese tonal ist oder nicht. Das Tonalitätsmaß kann dann durch die Einrichtung 34 von Fig. 3 unter Verwendung der Tonalitätswerte für die einzelnen Komponenten sowie der Energie der Spektralkomponenten angegeben werden.
- Eine weitere Möglichkeit zur Bestimmung der Tonalität einer Spektralkomponente besteht in der Auswertung der zeitlichen Prädizierbarkeit, d. h. Vorhersagbarkeit, der Spektralkomponente. Hierbei wird wieder auf MPEG-1 Audio ISO/lEC 11172-3, Annex D2 "Psychoacoustic Model 2", verwiesen. Allgemein wird ein aktueller Block von Abtastwerten des zu charakterisierenden Signals in eine spektrale Darstellung umgesetzt, um einen aktuellen Block von Spektralkomponenten zu erhalten. Hierauf werden die Spektralkomponenten des aktuellen Blocks von Spektralkomponenten unter Verwendung von Informationen aus Abtastwerten des zu charakterisierenden Signals, die dem aktuellen Block vorausgehen, also unter Verwendung von Vergangenheitsinformationen, prädiziert. Daraufhin wird ein Prädiktionsfehler bestimmt, aus dem dann ein Tonalitätsmaß abgeleitet werden kann.
- Eine weitere Möglichkeit zur Bestimmung der Tonalität ist in dem US-Patent Nr. 5,918,203 beschrieben. Wieder wird eine positive reellwertige Darstellung des Spektrums des zu charakterisierenden Signals verwendet. Diese Darstellung kann die Beträge, die Betragsquadrate etc. der Spektralkomponten umfassen. Bei einem Ausführungsbeispiel werden die Beträge oder Betragsquadrate der Spektralkomponenten zunächst logarithmisch komprimiert und dann mit einem Filter mit differenzierender Charakteristik gefiltert, um einen Block von differenzierend gefilterten Spektralkomponenten zu erhalten.
- Bei einem anderen Ausführungsbeispiel werden die Beträge der Spektralkomponenten zunächst mit einem Filter mit differenzierender Charakteristik gefiltert, um einen Zähler zu erhalten, und dann mit einem Filter mit integrierender Charakteristik gefiltert, um einen Nenner zu erhalten. Der Quotient aus einem differenzierend gefilterten Betrag einer Spektralkomponente und dem integrierend gefilterten Betrag derselben Spektralkomponente ergibt dann den Tonalitätswert für diese Spektralkomponente.
- Durch diese beiden Vorgehensweisen werden langsame Änderungen zwischen benachbarten Beträgen von Spektralkomponenten unterdrückt, während abrupte Änderungen zwischen benachbarten Beträgen von Spektralkomponenten im Spektrum hervorgehoben werden. Langsame Änderungen zwischen benachbarten Beträgen von Spektralkomponenten deuten auf atonale Signalkomponenten hin, während abrupte Änderungen auf tonale Signalkomponenten hinweisen. Die logarithmisch komprimierten und differenzierend gefilterten Spektralkomponenten bzw. die Quotienten können dann wiederum dazu verwendet werden, um ein Tonalitätsmaß für das betrachtete Spektrum zu berechnen.
- Obgleich im vorherigen Text davon gesprochen wurde, daß ein Tonalitätswert pro Spektralkomponente berechnet wird, wird es im Hinblick auf einen geringeren Rechenaufwand bevorzugt, beispielsweise immer die Betragsquadrate zweier benachbarter Spektralkomponenten zu addieren und dann für jedes Ergebnis der Addition einen Tonalitätswert durch eines der genannten Verfahren zu berechnen. Jede Art einer additiven Gruppierung von Betragsquadraten bzw. Beträgen von Spektralkomponenten kann verwendet werden, um Tonalitätswerte für mehr als eine Spektralkomponente zu berechnen.
- Eine weitere Möglichkeit zur Bestimmung der Tonalität einer Spektralkomponente besteht darin, den Pegel einer Spektralkomponente mit einem Mittelwert von Pegeln von Spektralkomponenten in einem Frequenzband zu vergleichen. Die Breite des Frequenzbands, in dem die eine Spektralkomponente liegt, deren Pegel mit dem Mittelwert z. B. der Beträge oder Betragsquadrate der Spektralkomponenten verglichen wird, kann je nach Anforderung gewählt werden. Eine Möglichkeit besteht beispielsweise darin, daß das Band schmal gewählt wird. Alternativ könnte das Band auch breit gewählt werden, oder auch nach psychoakustischen Gesichtspunkten. Dadurch kann der Einfluß kurzzeitiger Leistungseinbrüche im Spektrum vermindert werden.
- Obgleich im vorhergehenden die Tonalität eines Audiosignals anhand seiner Spektralkomponenten bestimmt wurde, kann dies auch im Zeitbereich, also unter Verwendung der Abtastwerte des Audiosignals geschehen. Hierzu könnte eine LPC-Analyse des Signals durchgeführt werden, um einen Prädiktionsgewinn für das Signal abzuschätzen. Der Prädiktionsgewinn ist umgekehrt proportional zu dem SFM und ist ebenfalls ein Maß für die Tonalität des Audiosignals.
- Bei einem bevorzugten Ausführungsbeispiel des Hauptpatents wird nicht nur ein Wert pro Kurzzeitspektrum angegeben, sondern das Tonalitätsmaß ist ein mehrdimensionaler Vektor von Tonalitätswerten. So kann beispielsweise das Kurzzeitspektrum in vier aneinander angrenzende und vorzugsweise nicht überlappende Bereiche bzw. Frequenzbänder aufgeteilt werden, wobei für jedes Frequenzband ein Tonalitätswert beispielsweise durch die Einrichtung 34 von Fig. 3 oder durch die Einrichtung 44 von Fig. 4 ermittelt wird. Damit wird für ein Kurzzeitspektrum des zu charakterisierenden Signals ein 4-dimensionaler Tonalitätsvektor erhalten. Um eine bessere Charakterisierung zu erlauben, würde es ferner bevorzugt, beispielsweise vier aufeinanderfolgende Kurzzeitspektren wie oben beschrieben zu bearbeiten, so daß sich insgesamt ein Tonalitätsmaß ergibt, das ein 16-dimensionaler Vektor oder allgemein ein n × m- dimensionaler Vektor ist, wobei n für die Anzahl der Tonalitätskomponenten pro Frame oder Block von Abtastwerten steht, während m für die Anzahl von betrachteten Blöcken bzw. Kurzzeitspektren steht. Das Tonalitätsmaß wäre dann, wie ausgeführt, ein 16-dimensionaler Vektor. Um den zeitlichen Verlauf des zu charakterisierenden Signals besser zu berücksichtigen, wird es ferner bevorzugt, mehrere derartige beispielsweise 16- dimensionale Vektoren zu errechnen und dann statistisch zu verarbeiten, um beispielsweise Varianz, Mittelwert oder Zentralmomente höherer Ordnung aus sämtlichen n × m-dimensionalen Tonalitätsvektoren eines Stücks mit einer bestimmten Länge zu berechnen, um dieses Stück dadurch zu indexieren.
- Allgemein gesagt kann die Tonalität somit aus Teilen des gesamten Spektrums berechnet werden. Damit ist es möglich, die Tonalität/Rauschartigkeit eines Teilspektrums bzw. mehrerer Teilspektren zu bestimmen und somit eine feinere Charakterisierung des Spektrums und somit des Audiosignals zu erzielen.
- Ferner können Kurzzeitstatistiken aus Tonalitätswerten, wie z. B. Mittelwert, Varianz und Zentralmomente höherer Ordnung, als Tonalitätsmaß berechnet werden. Diese werden mittels statistischer Techniken anhand einer zeitlichen Folge von Tonalitätswerten bzw. Tonalitätsvektoren ermittelt und liefern damit eine Essenz über einen längeren Abschnitt eines Stückes.
- Darüber hinaus können auch Differenzen von zeitlich aufeinanderfolgenden Tonalitätsvektoren oder linear gefilterte Tonalitätswerte verwendet werden, wobei als lineare Filter beispielsweise IIR-Filter oder FIR-Filter eingesetzt werden können.
- Auch bei der Berechnung des SFM (Block 42 in Fig. 4) wird es aus Rechenzeitersparnisgründen bevorzugt, beispielsweise zwei frequenzmäßig benachbarte Betragsquadrate zu addieren oder zu mitteln und die SFM-Berechnung auf dieser vergröberten positiven und reellwertigen Spektraldarstellung durchzuführen. Dies führt ferner zu einer größeren Robustheit gegenüber schmalbandigen Frequenzeinbrüchen sowie zu einem geringeren Rechenaufwand.
- Im nachfolgenden wird auf Fig. 5 eingegangen, die eine schematische Übersicht über ein Mustererkennungssystem zeigt, bei dem die vorliegende Erfindung vorteilhaft eingesetzt werden kann. Prinzipiell unterscheidet man bei einem in Fig. 5 gezeigten Mustererkennungssystem zwischen zwei Betriebsmodi, nämlich dem Trainingsmodus 50 und dem Klassifikationsmodus 52.
- In dem Trainings-Modus werden Daten "eintrainiert", d. h. dem System zugefügt und anschließend in einer Datenbank 54 aufgenommen.
- Im Klassifikations-Modus wird versucht, ein zu charakterisierendes Signal mit den in der Datenbank 54 vorhandenen Einträgen zu vergleichen und zu ordnen. Die in Fig. 1 gezeigte erfindungsgemäße Vorrichtung kann im Klassifikationsmodus 52 verwendet werden, wenn Tonalitätsindizes anderer Stücke vorliegen, mit denen der Tonalitätsindex des aktuellen Stücks verglichen werden kann, um eine Aussage über das Stück zu treffen. Die in Fig. 2 gezeigte Vorrichtung wird dagegen vorteilhaft im Trainings-Modus 50 von Fig. 5 eingesetzt, um die Datenbank nach und nach zu füllen.
- Das Mustererkennungssystem umfaßt eine Einrichtung 56 zur Signalvorverarbeitung, eine nachgeschaltete Einrichtung 58 zur Merkmalsextraktion, eine Einrichtung 60 zur Merkmalsverarbeitung, eine Einrichtung 62 für eine Cluster-Generierung, und eine Einrichtung 64 zum Durchführen einer Klassifikation, um beispielsweise als Ergebnis des Klassifikations-Modus 52 eine solche Aussage über den Inhalt des zu charakterisierenden Signals zu treffen, daß das Signal mit dem Signal xy, das in einem früheren Trainings-Modus eintrainiert worden ist, identisch ist.
- Im nachfolgenden wird auf die Funktionalität der einzelnen Blöcke von Fig. 5 eingegangen.
- Der Block 56 bildet zusammen mit dem Block 58 einen Merkmals- Extraktor, während der Block 60 einen Merkmalsprozessor darstellt. Der Block 56 setzt ein Eingangssignal auf ein einheitliches Zielformat um, wie z. B. die Anzahl der Kanäle, die Abtastrate, die Auflösung (in Bits pro Abtastwert) usw. Dies ist insofern sinnvoll und notwendig, da keine Voraussetzungen über die Quelle, aus der das Eingangssignal stammt, gemacht werden sollte.
- Die Einrichtung 58 zur Merkmalsextraktion dient dazu, die üblicherweise große Informationsmenge am Ausgang der Einrichtung 56 auf eine kleine Informationsmenge einzuschränken. Die zu untersuchenden Signale haben meist eine hohe Datenrate, also eine hohe Anzahl von Abtastwerten pro Zeitabschnitt. Die Einschränkung auf eine kleine Informationsmenge muß so stattfinden, daß die Essenz des ursprünglichen Signals, also die Eigenheit desselben, nicht verloren geht. In der Einrichtung 58 werden vorgegebene charakteristische Eigenschaften, wie allgemein beispielsweise Lautheit, Grundfrequenz, usw. und/oder, gemäß dem Hauptpatent, Tonalitätsmerkmale bzw. das SFM, aus dem Signal extrahiert. Die so gewonnenen Tonalitätsmerkmale sollen sozusagen die Essenz des untersuchten Signals beinhalten.
- In dem Block 60 können die zuvor errechneten Merkmalsvektoren verarbeitet werden. Eine einfache Verarbeitung besteht in der Normierung der Vektoren. Mögliche Merkmalsverarbeitungen sind lineare Transformationen, wie beispielsweise die Karhunen- Loève-Transformation (KLT) oder die lineare Diskriminanz- Analyse (LDA), die in der Technik bekannt sind. Weitere insbesondere auch nichtlineare Transformationen sind ebenfalls zur Merkmalsverarbeitung anwendbar.
- Der Klassengenerator dient dazu, die verarbeiteten Merkmalsvektoren zu Klassen zusammenzufassen. Diese Klassen entsprechen einer kompakten Darstellung des zugehörigen Signals. Der Klassifikator 64 dient schließlich dazu, einen erzeugten Merkmalsvektor einer vordefinierten Klasse bzw. einem vordefinierten Signal zuzuordnen.
- Die nachfolgende Tabelle stellt eine Übersicht über Erkennungsraten unter verschiedenen Bedingungen dar.
- Die Tabelle stellt Erkennungsraten unter Verwendung einer Datenbank (54) von Fig. 5 mit insgesamt 305 Musikstücken dar, von denen jeweils die ersten 180 Sekunden als Referenzdaten eintrainiert wurden. Die Erkennungsrate gibt prozentual die Anzahl der richtig erkannten Stücke in Abhängigkeit des Signaleinflusses an. Die zweite Spalte stellt die Erkennungsrate dar, wenn die Lautheit als Merkmal verwendet wird. Insbesondere wurde die Lautheit in vier Spektralbändern berechnet, dann eine Logarithmierung der Lautheitswerte durchgeführt, und dann eine Differenzbildung von logarithmierten Lautheitswerten für zeitlich aufeinanderfolgende entsprechende Spektralbänder durchgeführt. Das dadurch erhaltene Ergebnis wurde als Merkmalsvektor für die Lautheit verwendet.
- In der letzten Spalte wurde das SFM für vier Bänder als Merkmalsvektor verwendet.
- Es ist zu sehen, daß die erfindungsgemäße Verwendung der Tonalität als Klassifikationsmerkmal zu einer 100%igen Erkennungsrate von MP-3-codierten Stücken führt, wenn ein Ausschnitt von 30 Sekunden betrachtet wird, während die Erkennungsraten sowohl bei dem erfindungsgemäßen Merkmal als auch bei der Lautheit als Merkmal abnehmen, wenn kürzere Ausschnitte (z. B. 15 s) des zu untersuchenden Signals zur Erkennung verwendet werden.
- Wie es bereits ausgeführt worden ist, kann die in Fig. 2 gezeigte Vorrichtung verwendet werden, um das in Fig. 5 gezeigte Erkennungssystem zu trainieren. Allgemein kann jedoch die in Fig. 2 gezeigte Vorrichtung verwendet werden, um für jegliche Multimediadatensätze Metabeschreibungen, d. h. Indizes zu erzeugen, so daß es möglich ist, Datensätze hinsichtlich ihrer Tonalitätswerte zu durchsuchen bzw. aus einer Datenbank Datensätze auszugeben, die einen bestimmten Tonalitätsvektor haben bzw. zu einem bestimmten Tonalitätsvektor ähnlich sind.
- Die gemäß dem Zusatzpatent erfindungsgemäßen Merkmale oder Features, die ein Maß für die Tonalität des Signals entweder direkt oder nach einer bestimmten Verarbeitung liefern, sind folgendermaßen definiert:
- In der obigen Gleichung ist X(n) das diskrete Leistungsdichte- Spektrum, das aus einzelnen Spektralkomponenten besteht, wie es beispielsweise durch die 2N-Punkte diskrete Fourier- Transformation (DFT) berechnet wird. Die Parameter bzw. Potenzen x und y bestimmen die Charakteristik, mit der hohe Signalspitzen jeweils im Zähler und im Nenner gegenüber kleineren Komponenten hervorgehoben werden. Um einen aussagekräftigen Quotienten Fx;y aus dem Summen-Mittelwert im Zähler und dem Summen-Mittelwert im Nenner zu erhalten, müssen die Potenzen x und y unterschiedlich gewählt werden. Für ein flaches Leistungsdichte-Spektrum, d. h. ein "rauschartiges" Signal, ist Fx;y = 1. Für tonale Signale ist dagegen Fx;y ≥ 1, wenn x > y gewählt wird. Wenn x < y gewählt wird, ergibt sich für den Quotienten ein Wert Fx;y zwischen 0 und 1.
- Aufgrund der Tatsache, daß keine reinen Produkte berechnet werden müssen, zeichnen sich die erfindungsgemäßen Merkmale, die durch unterschiedliche Parameter x und y erhalten werden können, durch einen niedrigen Rechenaufwand bei der Extraktion heraus. Dadurch, daß lediglich Quadrate, dritte Potenzen, vierte Potenzen bzw. n-te Potenzen gebildet werden müssen, und diese potenzierten Spektralkomponenten dann aufsummiert werden, werden Probleme vermieden, die auftreten, wenn reine Produkte berechnet werden. Um bei großen Produkten im numerisch verfügbaren Zahlenraum zu bleiben, werden Logarithmen gebildet, die Logarithmen aufsummiert, und dann die erhaltene Summe potenziert. Dies ist aufwendig und wird bei den erfindungsgemäßen Tonalitätsmerkmalen vermieden.
- Weiterhin wurde festgestellt, daß die Merkmale eine hohe Robustheit insbesondere auch gegenüber begrenzten Signalveränderungen, wie der Änderung der Signalabtastrate aufweisen. Die Änderung der Signalabtastrate kann beispielsweise dadurch erreicht werden, daß ein Band oder eine Schallplatte etwas schneller oder langsamer eingestellt wird, was zu einer Streckung bzw. zu einer Stauchung des Spektrums führt.
- Es sei darauf hingewiesen, daß die erfindungsgemäßen Merkmale auch frequenzbandweise eingesetzt werden können. Hierzu kann der Spektralraum des Audiosignals in gleich große nicht- überlappende Bänder, oder in zumindest teilweise logarithmisch gewichtete Bänder eingeteilt werden, wobei die logarithmische Gewichtung der Breite der Frequenzbänder insbesondere ab einer unteren Grenzfrequenz zu höheren Frequenzen hin der Einteilung der psychoakustischen Bänder relativ gut entspricht.
- Um die Robustheit gegenüber Änderungen der Signalabtastrate weiter zu verbessern, wird es ferner bevorzugt, die Frequenzbandeinteilung des Audiosignals nicht durch nicht-überlappende Bänder vorzunehmen, sondern durch zwischen 5 und 10% überlappende Bänder. Dies hat den Vorteil, daß dann, wenn eine Spektralkomponente aufgrund einer Abtastratenkonversion in ein anderes Frequenzband fallen würde, wenn keine Überlappung vorhanden wäre, diese Spektralkomponente aufgrund der Überlappung immer noch in das gleiche Frequenzband fällt und nach wie vor zum selben Tonalitätsmaß-Merkmal beiträgt.
- Durch geeignete Wahl der Potenzen x und y können verschiedene Spezialfälle erreicht werden, wobei insbesondere der Spezialfall zu nennen ist, bei dem x gleich 2 ist, während y gleich 1 ist. Der erfindungsgemäße Quotient für das Maß der Tonalität entspricht dann den Quotienten aus dem quadratischen Mittelwert (Zähler des Quotienten) und dem arithmetischen Mittelwert (Nenner des Quotienten). Der quadratische Mittelwert ist auch unter der Bezeichnung RMS = "Root Mean Square" für Fachleute bekannt.
- Generell sei darauf hingewiesen, daß mit größer werdenden Potenzen sowohl im Zähler als auch im Nenner größere Spektralkomponenten gegenüber kleineren Spektralkomponenten hervorgehoben werden. Je nach Anwendung und erwünschtem Wertebereich für den Wert des Quotienten können unterschiedliche Abstände zwischen der Potenz x des Zählers und der Potenz y des Nenners gewählt werden. Je höher die Differenz zwischen x und y ist, um so größere Werte werden sich für den Quotienten ergeben, wenn x größer als y ist. Eine quantitative Aussage für das Tonalitätsmaß auf der Basis des erfindungsgemäßen Quotienten wird somit die Werte bzw. den Abstand zwischen x und y berücksichtigen müssen.
- Schließlich sei darauf hingewiesen, daß das Maß für die Tonalität der erfindungsgemäße Quotient direkt sein kann, wenn eine sehr kennzeichnungskräftige Charakterisierung des Signals erwünscht ist. Um eine kompaktere Darstellung zu erhalten, wird es ferner bevorzugt, den Mittelwert und/oder die Varianz einer Vielzahl von Quotienten von zeitlich aufeinanderfolgenden Blöcken oder einer Vielzahl von entweder zeitlich oder frequenzmäßig aufeinanderfolgenden Frequenzbändern als Maß für die Tonalität des Signals zu verwenden. Wird eine frequenzbandweise Quotientenberechnung durchgeführt, und wird diese frequenzbandweise Quotientenberechnung für eine Mehrzahl zeitlich aufeinanderfolgender Blöcke durchgeführt, so kann eine frequenzbandweise Zusammenfassung der Quotienten über eine Mittelwert- und/oder Varianzbildung erfolgen, so daß das Maß für die Tonalität des Signals eine Aussage über beispielsweise fünf aufeinanderfolgende Blöcke und z. B. zehn Frequenzbänder enthält. Das Maß für die Tonalität ist somit ein Vektor, wobei sich jede Zeile des Vektors auf eine Vielzahl zeitlich aufeinanderfolgender Blöcke bezieht und zwar insbesondere auf ein Frequenzband des Audiosignals für die Vielzahl von zeitlich aufeinanderfolgenden Blöcken.
Claims (22)
Ermitteln (12) eines Maßes für eine Tonalität des Signals; und
Treffen (16) einer Aussage über den Audioinhalt des Signals aufgrund des Maßes für die Tonalität des Signals, gemäß dem Hauptpatent 101 09 648.8-53,
dadurch gekennzeichnet,
daß das Maß für die Tonalität von einem Quotienten Fx;y abgeleitet ist, der folgendermaßen definiert ist:
wobei X(n) eine Spektralkomponente des Signals bei einem Zählindex n ist, wobei n gleich 0 einen unteren Frequenzindex darstellt, wobei N eine obere Frequenz darstellt, wobei x die erste Potenz ist, und wobei y die zweite Potenz ist, und wobei die erste und die zweite Potenz unterschiedlich sind.
Vergleichen (64) des Maßes für die Tonalität des Signals mit einer Mehrzahl von bekannten Tonalitätsmaßen für eine Mehrzahl von bekannten Signalen, die unterschiedliche Audioinhalte darstellen;
Feststellen, daß der Audioinhalt des zu charakterisierenden Signals mit dem Inhalt eines bekannten Signals übereinstimmt, wenn das Tonalitätsmaß des zu charakterisierenden Signals eine geringere als eine vorbestimmte Abweichung zu dem Tonalitätsmaß hat, das dem bekannten Signal zugeordnet ist.
Berechnen eines Tonalitäts-Abstandes zwischen dem ermittelten Maß für die Tonalität des Signals und einem bekannten Tonalitätsmaß für ein bekanntes Signal; und
Angeben eines Ähnlichkeitsmaßes für das zu charakterisierende Signal, wobei das Ähnlichkeitsmaß von dem Tonalitätsabstand abhängt und die Ähnlichkeit des Inhalts des bekannten Signals zu dem Inhalt des zu charakterisierenden Signals darstellt.
bei dem das zu charakterisierende Signal durch Codierung aus einem ursprünglichen Signal abgeleitet ist,
wobei die Codierung eine blockweise Umsetzung des ursprünglichen Signals in den Frequenzbereich und eine von einem psychoakustischen Modell gesteuerte Quantisierung von Spektralwerten des ursprünglichen Signals aufweist.
bei dem das zu charakterisierende Signal als Nebeninformation eine Maß für die Tonalität aufweist, und
bei dem der Schritt des Ermittelns (12) das Lesen des Maßes für die Tonalität aus den Nebeninformationen aufweist.
bei dem im Schritt (12) des Ermittelns ein Kurzzeitspektrum des zu charakterisierenden Signals in n Bänder aufgeteilt wird, wobei für jedes Band ein Tonalitätswert ermittelt wird,
bei dem ferner für m aufeinanderfolgende Kurzzeitspektren des zu charakterisierenden Signals jeweils n Tonalitätswerte bestimmt werden, und
bei dem ein Tonalitätsvektor mit einer Dimension gebildet wird, die gleich m × n ist, wobei m und n größer oder gleich 1 sind.
Ermitteln (22) eines Maßes für eine Tonalität des Signals; und
Aufzeichnen (26) des Maßes für die Tonalität als Index in Zuordnung zu dem Signal, wobei der Index auf den Audioinhalt des Signals hinweist, gemäß dem Hauptpatent 101 09 648.8-53, dadurch gekennzeichnet,
daß das Maß für die Tonalität von einem Quotienten Fx;y abgeleitet ist, der folgendermaßen definiert ist:
wobei X(n) eine Spektralkomponente des Signals bei einem Zählindex n ist, wobei n gleich 0 einen unteren Frequenzindex darstellt, wobei N einen oberen Frequenz darstellt, wobei x die erste Potenz ist, und wobei y die zweite Potenz ist, und wobei die erste und die zweite Potenz unterschiedlich sind.
Berechnen von Tonalitätswerten für verschiedene Spektralkomponenten oder Gruppen von Spektralkomponenten des Signals; und
Verarbeiten der Tonalitätsgrößen (60), um das Maß für die Tonalität zu erhalten; und
Einordnen (62) des Signals in eine Signalklasse abhängig von dem Maß für die Tonalität.
einer Einrichtung zum Ermitteln (12) eines Maßes für eine Tonalität des Signals; und
einer Einrichtung zum Treffen (16) einer Aussage über den Audioinhalt des Signals aufgrund des Maßes für die Tonalität des Signals, gemäß dem Hauptpatent 101 09 648.8-53, dadurch gekennzeichnet,
daß das Maß für die Tonalität von einem Quotienten Fx;y abgeleitet ist, der folgendermaßen definiert ist:
wobei X(n) eine Spektralkomponente des Signals bei einem Zählindex n ist, wobei n gleich 0 einen unteren Frequenzindex darstellt, wobei N einen oberen Frequenz darstellt, wobei x die erste Potenz ist, und wobei y die zweite Potenz ist, und wobei die erste und die zweite Potenz unterschiedlich sind.
einer Einrichtung zum Ermitteln (22) eines Maßes für eine Tonalität des Signals; und
einer Einrichtung zum Aufzeichnen (26) des Maßes für die Tonalität als Index in Zuordnung zu dem Signal, wobei der Index auf den Audioinhalt des Signals hinweist, gemäß dem Hauptpatent 101 09 648.8-53, dadurch gekennzeichnet,
daß das Maß für die Tonalität von einem Quotienten Fx;y abgeleitet ist, der folgendermaßen definiert ist:
wobei X(n) eine Spektralkomponente des Signals bei einem Zählindex n ist, wobei n gleich 0 einen unteren Frequenzindex darstellt, wobei N einen oberen Frequenz darstellt, wobei x die erste Potenz ist, und wobei y die zweite Potenz ist, und wobei die erste und die zweite Potenz unterschiedlich sind.
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10134471A DE10134471C2 (de) | 2001-02-28 | 2001-07-16 | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
US10/484,513 US7478045B2 (en) | 2001-07-16 | 2002-07-15 | Method and device for characterizing a signal and method and device for producing an indexed signal |
DE50201593T DE50201593D1 (de) | 2001-07-16 | 2002-07-15 | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals |
AT02758344T ATE282877T1 (de) | 2001-07-16 | 2002-07-15 | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals |
PCT/EP2002/007848 WO2003009273A1 (de) | 2001-07-16 | 2002-07-15 | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals |
EP02758344A EP1407446B1 (de) | 2001-07-16 | 2002-07-15 | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals |
HK04103687A HK1060793A1 (en) | 2001-07-16 | 2004-05-25 | Method and device for characterising a signal and for producing an indexed signal. |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10109648A DE10109648C2 (de) | 2001-02-28 | 2001-02-28 | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
DE10134471A DE10134471C2 (de) | 2001-02-28 | 2001-07-16 | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10134471A1 true DE10134471A1 (de) | 2003-02-13 |
DE10134471C2 DE10134471C2 (de) | 2003-05-22 |
Family
ID=7691922
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10134471A Expired - Fee Related DE10134471C2 (de) | 2001-02-28 | 2001-07-16 | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
DE50201593T Expired - Lifetime DE50201593D1 (de) | 2001-07-16 | 2002-07-15 | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE50201593T Expired - Lifetime DE50201593D1 (de) | 2001-07-16 | 2002-07-15 | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals |
Country Status (6)
Country | Link |
---|---|
US (1) | US7478045B2 (de) |
EP (1) | EP1407446B1 (de) |
AT (1) | ATE282877T1 (de) |
DE (2) | DE10134471C2 (de) |
HK (1) | HK1060793A1 (de) |
WO (1) | WO2003009273A1 (de) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004036154B3 (de) * | 2004-07-26 | 2005-12-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm |
DE10144087B4 (de) * | 2001-09-08 | 2008-10-30 | Promediascan Ag | Verfahren zur Erkennung und Registrierung urheberrechtlich geschützter Musiksequenzen in Rundfunk- und Fernsehprogrammen |
US8990073B2 (en) | 2007-06-22 | 2015-03-24 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
WO2017001607A1 (de) | 2015-06-30 | 2017-01-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und vorrichtung zum erzeugen einer datenbank |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7277766B1 (en) | 2000-10-24 | 2007-10-02 | Moodlogic, Inc. | Method and system for analyzing digital audio files |
US7890374B1 (en) | 2000-10-24 | 2011-02-15 | Rovi Technologies Corporation | System and method for presenting music to consumers |
US7565213B2 (en) * | 2004-05-07 | 2009-07-21 | Gracenote, Inc. | Device and method for analyzing an information signal |
DE602005009221D1 (de) * | 2004-09-20 | 2008-10-02 | Tno | Frequenzkompensation für die wahrnehmungsbezogene sprachanalyse |
US20060116878A1 (en) * | 2004-11-30 | 2006-06-01 | Kenji Nagamine | Asthma diagnostic apparatus, asthma diagnostic method, and storage medium storing asthma diagnostic program |
US7567899B2 (en) * | 2004-12-30 | 2009-07-28 | All Media Guide, Llc | Methods and apparatus for audio recognition |
DE102005045628B3 (de) * | 2005-06-22 | 2007-01-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln einer Stelle in einem Film, der in einer zeitlichen Folge aufgebrachte Filminformationen aufweist |
US7948557B2 (en) | 2005-06-22 | 2011-05-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a control signal for a film event system |
DE102005045627A1 (de) * | 2005-06-22 | 2007-01-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Durchführen einer Korrelation zwischen einem Testtonsignal, das mit variabler Geschwindigkeit abspielbar ist, und einem Referenztonsignal |
US8126706B2 (en) * | 2005-12-09 | 2012-02-28 | Acoustic Technologies, Inc. | Music detector for echo cancellation and noise reduction |
ES2347473T3 (es) * | 2005-12-05 | 2010-10-29 | Qualcomm Incorporated | Procedimiento y aparato de deteccion de componentes tonales de señales de audio. |
US8639500B2 (en) * | 2006-11-17 | 2014-01-28 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus with bandwidth extension encoding and/or decoding |
KR101379263B1 (ko) | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
GB2466201B (en) * | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
GB0822537D0 (en) | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
CN101847412B (zh) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | 音频信号的分类方法及装置 |
US8620967B2 (en) * | 2009-06-11 | 2013-12-31 | Rovi Technologies Corporation | Managing metadata for occurrences of a recording |
US8677400B2 (en) | 2009-09-30 | 2014-03-18 | United Video Properties, Inc. | Systems and methods for identifying audio content using an interactive media guidance application |
US8161071B2 (en) | 2009-09-30 | 2012-04-17 | United Video Properties, Inc. | Systems and methods for audio asset storage and management |
US8886531B2 (en) | 2010-01-13 | 2014-11-11 | Rovi Technologies Corporation | Apparatus and method for generating an audio fingerprint and using a two-stage query |
US20110173185A1 (en) * | 2010-01-13 | 2011-07-14 | Rovi Technologies Corporation | Multi-stage lookup for rolling audio recognition |
JP2012226106A (ja) * | 2011-04-19 | 2012-11-15 | Sony Corp | 楽曲区間検出装置および方法、プログラム、記録媒体、並びに楽曲信号検出装置 |
JP5732994B2 (ja) * | 2011-04-19 | 2015-06-10 | ソニー株式会社 | 楽曲検索装置および方法、プログラム、並びに記録媒体 |
EP2830062B1 (de) | 2012-03-21 | 2019-11-20 | Samsung Electronics Co., Ltd. | Verfahren und vorrichtung für hochfrequente codierung/decodierung zur bandbreitenerweiterung |
AU2014211539B2 (en) * | 2013-01-29 | 2017-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low-complexity tonality-adaptive audio signal quantization |
US9743138B2 (en) | 2015-07-31 | 2017-08-22 | Mutr Llc | Method for sound recognition task trigger |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5510572A (en) * | 1992-01-12 | 1996-04-23 | Casio Computer Co., Ltd. | Apparatus for analyzing and harmonizing melody using results of melody analysis |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
US5210820A (en) * | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
JPH06110945A (ja) * | 1992-09-29 | 1994-04-22 | Fujitsu Ltd | 音楽データベース作成装置及びその検索装置 |
DE19505435C1 (de) * | 1995-02-17 | 1995-12-07 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals |
US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
GR1003625B (el) | 1999-07-08 | 2001-08-31 | Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου | |
US7277766B1 (en) * | 2000-10-24 | 2007-10-02 | Moodlogic, Inc. | Method and system for analyzing digital audio files |
US7031980B2 (en) * | 2000-11-02 | 2006-04-18 | Hewlett-Packard Development Company, L.P. | Music similarity function based on signal analysis |
DE10109648C2 (de) * | 2001-02-28 | 2003-01-30 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
US7295977B2 (en) * | 2001-08-27 | 2007-11-13 | Nec Laboratories America, Inc. | Extracting classifying data in music from an audio bitstream |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
-
2001
- 2001-07-16 DE DE10134471A patent/DE10134471C2/de not_active Expired - Fee Related
-
2002
- 2002-07-15 US US10/484,513 patent/US7478045B2/en not_active Expired - Fee Related
- 2002-07-15 DE DE50201593T patent/DE50201593D1/de not_active Expired - Lifetime
- 2002-07-15 EP EP02758344A patent/EP1407446B1/de not_active Expired - Lifetime
- 2002-07-15 AT AT02758344T patent/ATE282877T1/de active
- 2002-07-15 WO PCT/EP2002/007848 patent/WO2003009273A1/de active IP Right Grant
-
2004
- 2004-05-25 HK HK04103687A patent/HK1060793A1/xx not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5510572A (en) * | 1992-01-12 | 1996-04-23 | Casio Computer Co., Ltd. | Apparatus for analyzing and harmonizing melody using results of melody analysis |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
Non-Patent Citations (3)
Title |
---|
"Digital Coding of Waveforms", Englewood Cliffs, NJ, Prentice-Hall, JAYANT, N., NOLL, P., 1984 * |
MPEG-1 Audio ISO/IEC 11172-3, Annex D1 "Psycho- acoustic Model 1" * |
WANG, Yao u.a.: "Multimedia Content Analysis", In: IEEE Speed Processing Magazine, November 2000,S. 12-36 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10144087B4 (de) * | 2001-09-08 | 2008-10-30 | Promediascan Ag | Verfahren zur Erkennung und Registrierung urheberrechtlich geschützter Musiksequenzen in Rundfunk- und Fernsehprogrammen |
DE102004036154B3 (de) * | 2004-07-26 | 2005-12-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm |
US7580832B2 (en) | 2004-07-26 | 2009-08-25 | M2Any Gmbh | Apparatus and method for robust classification of audio signals, and method for establishing and operating an audio-signal database, as well as computer program |
US8990073B2 (en) | 2007-06-22 | 2015-03-24 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
WO2017001607A1 (de) | 2015-06-30 | 2017-01-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und vorrichtung zum erzeugen einer datenbank |
WO2017001611A1 (de) | 2015-06-30 | 2017-01-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und vorrichtung zum zuordnen von geräuschen und zum analysieren |
US11003709B2 (en) | 2015-06-30 | 2021-05-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and device for associating noises and for analyzing |
US11880407B2 (en) | 2015-06-30 | 2024-01-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and device for generating a database of noise |
Also Published As
Publication number | Publication date |
---|---|
WO2003009273A1 (de) | 2003-01-30 |
US7478045B2 (en) | 2009-01-13 |
US20040267522A1 (en) | 2004-12-30 |
EP1407446A1 (de) | 2004-04-14 |
ATE282877T1 (de) | 2004-12-15 |
HK1060793A1 (en) | 2004-08-20 |
DE10134471C2 (de) | 2003-05-22 |
EP1407446B1 (de) | 2004-11-17 |
DE50201593D1 (de) | 2004-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1407446B1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals | |
EP1368805B1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals | |
EP1405222B9 (de) | Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals | |
EP1787284B1 (de) | Vorrichtung und verfahren zur robusten klassifizierung von audiosignalen sowie verfahren zu einrichtung und betrieb einer audiosignal-datenbank sowie computer-programm | |
DE10232916B4 (de) | Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals | |
DE69432943T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
EP1371055B1 (de) | Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion | |
DE60215495T2 (de) | Verfahren und system zur automatischen erkennung ähnlicher oder identischer segmente in audioaufzeichnungen | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE69901606T2 (de) | Breitbandsprachsynthese von schmalbandigen sprachsignalen | |
EP1388145B1 (de) | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen | |
EP2034473A2 (de) | Vorrichtung und Verfahren zum Ermitteln eines Schaetzwerts | |
DE112017006049B4 (de) | Verfahren und Vorrichtung zur Klangidentifizierung anhand periodischer Anzeichen | |
DE102004028693B4 (de) | Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt | |
DE10117871C1 (de) | Verfahren und Vorrichtung zum Extrahieren einer Signalkennung, Verfahren und Vorrichtung zum Erzeugen einer Datenbank aus Signalkennungen und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals | |
EP1743324B1 (de) | Vorrichtung und verfahren zum analysieren eines informationssignals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AF | Is addition to no. |
Ref document number: 10109648 Country of ref document: DE Kind code of ref document: P |
|
AF | Is addition to no. |
Ref document number: 10109648 Country of ref document: DE Kind code of ref document: P |
|
OP8 | Request for examination as to paragraph 44 patent law | ||
8304 | Grant after examination procedure | ||
AF | Is addition to no. |
Ref document number: 10109648 Country of ref document: DE Kind code of ref document: P |
|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: M2ANY GMBH, 85748 GARCHING, DE |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G10L0011000000 Ipc: G10L0019000000 |