DE10148351A1

DE10148351A1 - Verfahren und Vorrichtung zur Auswahl eines Klangalgorithmus

Info

Publication number: DE10148351A1
Application number: DE10148351A
Authority: DE
Inventors: Donald Schulz
Original assignee: Grundig AG
Current assignee: Grundig Multimedia BV
Priority date: 2001-09-29
Filing date: 2001-09-29
Publication date: 2003-04-17
Anticipated expiration: 2021-09-30
Also published as: CN1689372B; EP1430750B1; ES2356226T3; US20050129251A1; ATE488101T1; WO2003030588A3; CN1689372A; JP4347048B2; JP2005507584A; US7206414B2; DE10148351B4; DE50214765D1; EP1430750A2; WO2003030588A2

Abstract

Die Erfindung betrifft ein Verfahren zur Auswahl eines Klangalgorithmus zur Verarbeitung eines Audiosignals. Das Audiosignal wird analysiert und auf Grund der Analyse wird die Art des Audiosignals ermittelt. Es wird eine Klassifizierung des Audiosignals als ein Musiksignal oder ein anderes Signal vorgenommen und in Abhängigkeit der Klassifizierung werden zur Weiterverarbeitung und späteren Ausgabe des Audiosignals unterschiedliche Klangalgorithmen verwendet.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Auswahl eines Klangalgorithmus zur Verarbeitung von Audiosignalen gemäss den Merkmalen des Oberbegriffes der Ansprüche 1 und 28.
Moderne Hifi-Anlagen sind mit verschiedenen Klangprogrammen ausgestattet, die es erlauben, stereophone Audiosignale auf mehr als nur zwei Lautsprecher zu verteilen oder anderweitig einen Raumklang zu erzeugen. So werden beispielsweise nach der Dekodierung der Audiosignale diese in fünf einzelne Audiokanäle aufgespaltet und über sogenannte "Virtualizer" zur Wiedergabe über lediglich zwei Lautsprecher verwendet. Es sind auch spezielle "Virtualizer" bekannt, welche die Audiosignale zur Wiedergabe speziell über Kopfhörer umwandeln.

Eines der bekanntesten Verfahren hierfür ist das sogenannte "Dolby Pro Logic" Verfahren, welches bei Filmmaterial im wesentlichen dazu eingesetzt wird, die Lokalisation des Klanges beeinflussen zu können. So werden Sprecher üblicherweise auf den Center-Kanal abgebildet und Geräusche können ausschließlich aus den hinteren Lautsprechern kommen.

Weiterhin gibt es eine ganze Klasse von Verfahren, die zur Nachbildung von Raumakustiken verwendet werden. Häufig anzutreffende Bezeichnungen derartiger Verfahren lauten "Hall", "Stadium", "Jazz", "Club" etc. Bei diesen auf Musiksignale optimierten Verfahren ist es nicht erwünscht, Sprachsignale (Gesang) nur aus dem Center-Lautsprecher zu vernehmen oder ein Musiksignal nur aus den hinteren Lautsprechern auszugeben, welches unter Verwendung des "Dolby Pro Logic" Verfahrens möglich ist.

Bei dem Nachfolgeverfahren von Dolby Pro Logic, welches Dolby Pro Logic II genannt wurde, ist abgesehen von dem Filmmodus ein Modus für Musik vorgesehen, der diese Unterschiede berücksichtigt.

Aus EP 0 481 374 B1 ist ein Verfahren zum Kodieren von Sprache bekannt. Hierbei wird eine diskrete Umformung eines Sprachfensters vorgenommen, um ein diskretes Spektrum von Koeffizienten zu erhalten. Eine angenäherte Einhüllenden des diskreten Spektrums wird in jedem einer Vielzahl von Unterbändern errechnet und zum digitalen Kodieren der definierten Einhüllenden eines jeden Unterbands verwendet. Innerhalb von Subbändern wird jeder skalierte Koeffizient in eine Anzahl von Bits mit mindestens einem von einer Vielzahl von Quantisierern unterschiedlicher Bitlängen umgerechnet. Der für jedes Unterband benutzte Ouantisierer wird für jedes Sprachfenster durch Berechnen der Zuweisung von Bits als eine Anzahl von Bits größer als oder gleich Null bestimmt, in Abhängigkeit einer Leistungsdichteabschätzung für das Unterband und einer Verzerrungsfehlerabschätzung für das Sprachfenster.

Aus EP 0 587 733 B1 ist ein Signalanalysesystem zur Filterung von einem ein oder mehrere Signale repräsentierenden Eingangsabtastwert bekannt. Es sind Eingangspuffermittel zum Gruppieren der Eingangsabtastwerte in Zeitbereichs- Signalabtastwertblöcke vorgesehen. Die Eingangsabtastwerte sind analysefenster-gewichtete Abtastwerte. Außerdem sind Analysemittel zur Erzeugung von Spektralinformation als Antwort auf die Zeitbereichs- Signalabtastwertblöcke vorhanden; wobei die Spektralinformation Spektralkoeffizienten umfaßt, die im wesentlichen einer geradzahlig gestapelten Zeitbereichs-Aliasingaufhebungs-Transformation angewendet auf die Zeitbereichs-Signal-Abtastwertblöcke entspricht. Bei den Spektralkoeffizienten handelt es sich im wesentlichen um Koeffizienten einer modifizierten diskreten Cosinus-Transformation bzw. Koeffizienten einer modifizierten diskreten Sinus- Transformation. Die Analysemittel umfassen Vorwärts-Vor- Transformationsmittel zur Erzeugung modifizierter Abtastwertblöcke und Vorwärts-Transformationsmittel zur Erzeugung von Frequenzbereichs- Transformationskoeffizienten.

Aus EP 0 664 943 B1 ist eine Kodiervorrichtung zur adaptiven Verarbeitung von Audiosignalen für das Kodieren, Übertragen oder Speichern und Wiedergewinnen bekannt, wobei der Rauschpegel mit dem Signalamplitudenpegel schwankt. Es ist eine Verarbeitungseinrichtung vorhanden, welche auf Eingangssignale derart anspricht, daß sie entweder ein erstes und ein zweites Signal oder die Summe und Differenz des ersten und zweiten Signals ausgibt. Das erste und zweite Signal entsprechen den beiden matrixkodierten Audiosignalen einer vier zu zwei Audiosignalmatrix, wobei die Verarbeitungseinrichtung auch ein Steuersignal erzeugt, welches anzeigt, ob das erste und zweite Signal oder die Summe und Differenz des ersten und zweiten Signals ausgegeben wird.

Aus EP 0 519 055 B1 ist ein Decoder, bestehend aus einem Empfangsmittel zum Empfang einer Mehrzahl von Lieferkanälen formatierter Information, Deformatierungsmitteln zur Erzeugung ansprechend auf die Empfangsmittel, einer deformatierten Darstellung abhängig von jedem Lieferkanal, und Synthesemittel zur Erzeugung von Ausgangssignalen abhängig von den deformatierten Darstellungen, bekannt. Zwischen den Deformatierungsmitteln und den Synthesemitteln sind Verteilermittel angeordnet, welche auf die Deformatierungsmittel ansprechen und einen oder mehrere Zwischensignale erzeugen, wobei wenigstens ein Zwischensignal durch Kombination der Information von zwei oder mehr der deformatierten Darstellungen erzeugt wird. Die Synthesemittel erzeugen ein jeweiliges Ausgangssignal als Antwort auf jedes der Zwischensignale.

Aus EP 0 520 068 B1 ist ein Kodierer zum Kodieren von zwei oder mehr Audiokanälen bekannt. Der Kodierer weist eine Teilbandeinrichtung zum Erzeugen von Teilbandsignalen, eine Mischeinrichtung zum Schaffen eines oder mehrerer zusammengesetzter Signale, und Mittel zum Erzeugen von Steuerinformation für ein entsprechendes zusammengesetztes Signal auf. Außerdem weist der Kodierer eine Kodiereinrichtung zum Erzeugen kodierter Information durch Zuteilen von Bits zu dem einen oder mehreren zusammengesetzten Signalen auf. Es ist weiterhin eine Formatiereinrichtung zum Zusammensetzen der kodierten Information und der Steuerinformation zu einem Ausgabesignal vorhanden.

Aus EP 0 208 712 B1 ist ein Sprachkodierer bekannt. Dieser Sprachkodierer enthält eine Fourier-Transformationseinrichtung zur Ausführung einer diskreten Fourier-Transformation eines ankommenden Sprachsignals zur Erzeugung eines diskreten Transformationsspektrums von Koeffizienten, eine Normierungseinrichtung zum Modifizieren des Transformationsspektrums zur Erzeugung eines normierten, flacheren Spektrums und zum Codieren einer Funktion, durch die das diskrete Spektrum modifiziert wird. Außerdem ist eine Einrichtung zum Codieren wenigstens eines Teils des Spektrums vorhanden. Die Normierungseinrichtung weist eine Einrichtung (44) zum Definieren der approximierten Einhüllenden des diskreten Spektrums in jedem von mehreren Unterbändern von Koeffizienten und zum Codieren der definierten Einhüllenden eines jedes Unterbandes von Koeffizienten und Einrichtungen zum Skalieren jedes Spektrumkoeffizienten relativ zur definierten Einhüllenden des betreffenden Unterbandes von Koeffizienten auf.

Nachteilig bei allen bekannten Erfindungen ist aber, dass die Auswahl eines Klangalgorithmus manuell einzustellen ist. Wird beispielsweise ein Fernsehton eines aktuell eingestellten Fernsehkanales über einen Dolby Pro Logic II Decoder verarbeitet und der Fernsehkanal mehrmals zwischen Musiksendern und Filmen oder Nachrichten umgeschaltet, so muss bei jedem Wechsel manuell zwischen den einzelnen Audioklangalgorithmen, welche die Audiodaten verarbeiten, wie zum Beispiel zwischen Musik- und Filmmodus, umgeschaltet werden.

Aufgabe der Erfindung ist es ein Verfahren und eine Vorrichtung anzugeben, welches einem Audiosignal selbständig einem Klangalogrithmus zuweist.

Die vorliegende Erfindung löst diese Aufgabe durch die Merkmale der Ansprüche 1 und 28. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen, der zugehörigen Beschreibung nebst Figuren angegeben.

Die vorliegende Erfindung löst die Aufgabe dadurch, dass die Art des Audiosignales erkannt wird und auf Grund der Erkennung der Art des Audiosignales eine automatische Einstellung des Klangalgorithmus zugeordnet wird.

Zur Erkennung der Art des Audiosignales werden verschiedene Maße definiert und ausgewertet.

Als ein erstes Maß wird bestimmt, welche Dynamik in dem Audiosignal aktuell vorhanden ist. Die Bestimmung der Dynamik wird wie folgt vorgenommen. Die Abtastwerte des linken und rechten Audiokanals werden quadriert, aufaddiert und das resultierende Signal durch einen Tiefpass gefiltert. Der Tiefpass weist vorteilhaft eine Grenzfrequenz von etwa 3 Hz auf. Über eine definierte Zeitdauer, vorteilhaft z. B. fünf Sekunden, wird in diesem Zeitrahmen das Minimum und das Maximum des Audiosignals ermittelt. Der aktuell vorhandene Dynamikumfang in Dezibel entspricht dann dem zehnfachen der Differenz der Logarithmen beider Werte.

In einer weiteren vorteilhaften Ausgestaltung der Erfindung werden die Dynamiken vom rechten und linken Audio-Kanal getrennt berechnet. Bei der weiteren Betrachtung wird nur der Audio-Kanal weiterverwendet, welcher den größeren Dynamikumfang aufweist.

Es besteht auch die Möglichkeit statt der Quadrierung eine Absolutwertbildung vorzunehmen und anstelle der Tiefpassfilterung mit anschließender Maximasuche eine Pegelbestimmung für kurze Zeitdauern, beispielsweise über eine Zeitdauer von einer Drittel Sekunde durchzuführen und dann unter diesen Pegelwerten ein Maxima und Minima zur Berechnung der Dynamik durchzuführen.

Bei Filmmaterial sind große Pegelsprünge und damit ein großer Dynamikumfang vorhanden, da beispielsweise der Signalpegel in Sprachpausen stark abfällt. Musiksignale haben üblicherweise jedoch nur einen Dynamikumfang von etwa zwanzig dB oder weniger. Auf überraschend einfache Art ist ein entsprechenden Maßes zu gewinnen indem der ermittelte Dynamikumfang mit einem Schwellwert verglichen wird.

Ist der Dynamikumfang größer als der Schwellwert, so wird das Maß auf den Wert -1 gesetzt (Filmmodus), ansonsten auf den Wert 1 (Musikmodus). Anstelle dieser harten Unterteilung wird im weiteren ein gleitendes Maß bestimmt. Dazu wird der Dynamikumfang über eine Funktion auf den Wertebereich [-1,0. .1,0] abgebildet. Eine einfache Funktion dazu ist vom Schwellwert den errechneten Dynamikumfang abzuziehen, das Ergebnis durch den Schwellwert zu teilen und diesen Wert dann noch auf den Wertebereich [-1,0. .1,0] zu begrenzen. Dieser Wert wird im Folgenden als M1 bezeichnet. Sollte der Dynamikumfang 0 sein, so wird M1 zu 1 errechnet, bei einem dem Schwellwert entsprechenden Dynamikumfang errechnet sich M1 zu 0, was also als neutral zu bewerten ist und bei Dynamikumfängen größer oder gleich dem Doppelten des Schwellwertes errechnet sich M 1 zu -1,0.

Um zu vermeiden, dass dieses Maß bei längeren Signalpausen anspricht, wird zudem ein Mindestpegel vorausgesetzt, der beispielsweise 30 dB unter dem Maximalwert liegt, welcher in einer gewissen Zeitspanne zuvor, in vorteilhafter Ausgestaltung etwa 5 Minuten, aufgetreten ist. Als Vergleichspegel wird dabei der bei der Dynamikermittlung gefundene Maximalwert verwendet. Sollte dieser Wert unter dem Mindestpegel liegen, so wird das aus dem Dynamikumfang errechnete Maß M 1 auf -1,0 gesetzt. Für eine gleitende Überblendung kann man den Wertebereich von 40 dB unter Maximalpegel bis 20 dB unter Maximalpegel heranziehen. Bei Werten von mehr als 40 dB unter Maximalpegel wird M1 dann auf -1 gesetzt, bei Werten von weniger als 20 dB unter Maximalpegel bleibt es unverändert, bei Werten dazwischen wird entsprechend eine lineare Interpolation zwischen diesen beiden Grenzfällen vorgenommen.

Als weiteres Maß wird die Periodizität des Audio-Signales, im Weiteren mit M2 bezeichnet, herangezogen. Aus der Standardliteratur sind viele Verfahren zur Bestimmung der Periodizität eines Audiosignales bekannt. Ein sehr einfaches Verfahren besteht darin, die Abtastwerte des linken und rechten Kanals zu quadrieren, aufzuaddieren und das resultierende Signal durch einen Tiefpass mit einer Grenzfrequenz von etwa 50 Hz filtern. In diesem Signal werden dann die Maxima gesucht. Wird festgestellt, dass die Pegelmaxima periodisch mit für Musik typischen Zeitabständen von zwischen einer drittel bis einer ganzen Sekunde auftreten, so wird dieses Maß, M2, auf 1 gesetzt, ansonsten auf -1.

Musiksignale lassen sich auch anhand ihrer Spektralverläufe als solche identifizieren. So haben beispielsweise Blas- und Streichinstrumente sehr charakteristische Spektren, die leicht detektiert werden können. Sollten derartige Spektralverläufe detektiert werden, so wird ein Maß M3 auf 1 gesetzt, ansonsten auf 0. Der Wert -1 wird hierbei nicht verwendet, da das Nicht- Vorhandensein dieser Spektren nicht automatisch bedeutet, dass kein Musiksignal vorliegt. Dieses Maß kann also nur eine Entscheidung in Richtung der Musikdetektion bewirken.

Auch unbekannte Instrumente können im Spektrum identifiziert werden wenn sie mehrstimmig gespielt werden, d. h. wenn gleichzeitig mehr als ein Ton wahrzunehmen ist. In diesem Fall wird das für das Instrument typische Spektrum mehrfach bei unterschiedlichen Frequenzen vorhanden sein. Eine Verwechslung mit Sprache ist dabei nicht möglich, da sich die Spektren unterschiedlicher Sprecher unterscheiden und eine Person zu einem Zeitpunkt nur in einer Tonhöhe sprechen kann. Bei der Detektion derartiger Spektralkonstellationen wird ein Maß M4 auf den Wert 1 gesetzt, ansonsten wie bei im vorherigen für das Maß M3 aufgezeigt, auf den Wert 0. Eine noch genauere Aussage ist dadurch möglich, dass die Frequenzen dieser Töne verglichen werden. Sollte es sich um Musik handeln, so werden diese mit großer Wahrscheinlichkeit in einem musikalischen Zusammenhang zueinander stehen, also sich nur durch einen Faktor unterscheiden, der einer ganzzahligen Potenz der zwölften Wurzel aus 2 entspricht. Sollten derartige Töne detektiert werden, so kann auch anhand der Erkennung von Melodien, also der Beobachtung der Tonhöhen dieses Instruments über der Zeit Musik detektiert werden.

Da bei Musiksignalen üblicherweise mehrere Instrumente spielen, die von ihrem Frequenzverhalten so aufeinander abgestimmt sind, dass sie sich gegenseitig ergänzen und nicht überdecken, kann man bei Musiksignalen einen verhältnismäßig flachen Frequenzgang beobachten. Die Flachheit des Frequenzganges wird ebenfalls als Maß für das Vorhandensein als Musik genutzt. Dazu wird der Pegel des Eingangssignales, insbesondere die Summe des rechten und linken Audio-Kanales, in verschiedenen Frequenzbändern insbesondere in den Frequenzbändern von 20 Hz bis 200 Hz, von 200 Hz bis 2 kHz und 2 kHz bis 20 kHz, ermittelt. Von jedem dieser Pegel wird der Maximalpegel ermittelt und dieser Wert mit der Anzahl an Bändern multipliziert. Davon werden die Pegel der einzelnen Bänder subtrahiert. Ergibt sich dabei ein großer Wert, so deutet dies daraufhin, dass die Leistung spektral in wenigen Bändern konzentriert ist und es sich somit wahrscheinlich nicht um Musik handelt. Zur Findung dieses Maßes, im weiteren mit M5 bezeichnet, wird ein Wertebereich von einem Maximalwert bis zu einem Minimalwert auf den Wertebereich [-1,0. . .1,0] linear abgebildet. Werte außerhalb dieses Bereiches werden auf die Grenzwerte abgebildet.

Ein ähnliches Maß lässt sich aus der Anzahl an spektralen Maxima mit einem gewissen Mindestpegel ableiten. Bei Vorhandensein vieler Instrumente sind auch viele derartige Maxima vorhanden. Die Anzahl an vorhandenen Maxima kann direkt linear auf den Wertebereich [-1,0. . .1,0] zur Bestimmung eines weiteren Maßes M6 abgebildet werden.

Abgesehen von der Analyse des Klangmaterials lässt auch die Quelle Rückschlüsse auf das Klangmaterial zu. So ist z. B. bei Wiedergabe einer Rundfunksendung oder einer CD die Wahrscheinlichkeit sehr hoch, dass es sich um Musiksignale handelt. Hingegen wird es sich bei der Wiedergabe einer in AC3 codierten DVD eher um einen Film handeln. Jeder Quelle wird also ein individuelles Maß zugewiesen, so kann z. B. der Quelle CD der Wert 0,5 und einer DVD der Wert -0,3 zugewiesen werden. Dieses Maß wird als M7 bezeichnet.

Aus den einzelnen Maßen M1 bis M7 wird ein Gesamtmaß MG ermittelt. Dazu werden alle Maße M1 bis M7 mit einem individuellen Faktor gewichtet und aufaddiert. Da M1 eine sehr hohe Bedeutung hat, wird es mit dem größten Faktor, im Verhältnis zu den anderen Maßen M2 bis M7 bewertet. In der weiteren Beschreibung der Erfindung wird das Maß M1 mit dem Faktor 1 gewichtet, M2 wird mit Faktor 0,5, M3, M4, M5, M6 und M7 jeweils nur mit Faktor 0,2. Werte für das Gesamtmaß MG kleiner 0 entsprechen dann einem Signal ohne Musik, welches im Filmmodus wiedergegeben werden sollte und Werte größer 0 klassifizieren ein Musiksignal, wofür dann der Musikmodus Verwendung finden sollte. Je stärker negativ oder positiv dieser Wert ist, umso eindeutiger ist die Klassifizierung.

Um ein häufiges Umschalten im Grenzfall, d. h. bei Werten von MG nahe Null, zu vermeiden, wird eine Hysterese verwendet. Das bedeutet dass eine Umschaltung vom Filmmodus zum Musikmodus erst dann erfolgt, wenn MG einen Wert größer Null (beispielsweise 0,3) überschreitet. Eine Umschaltung vom Musikmodus zum Filmmodus erfolgt erst bei Unterschreitung eines Wertes kleiner Null (beispielsweise -0,3).

Das Umschalten zwischen dem Filmmodus und dem Musikmodus erfolgt mit einer durch den Benutzer einstellbaren Verzögerungszeit sowie Trägheit. Der Signaltyp muss für eine Zeitdauer entsprechend der Verzögerungszeit konstant sein, ansonsten erfolgt kein Wechsel des Wiedergabemodus. Nach dieser Verzögerungszeit erfolgt dann mit einer der Trägheit entsprechenden Zeitkonstante eine Überblendung zwischen den Modi, wodurch ansonsten eventuell hörbare Signalsprünge vermieden werden können und der Übergang von einem Modus in den anderen Modus unauffällig gestaltet werden kann. Im Normalfall liegt diese Zeitkonstante bei etwa 10 Sekunden. Bei sehr kurzen Zeitkonstanten wird versucht, einen Wechsel innerhalb einer Signalpause durchzuführen. In manchen Fällen sollte die vom Benutzer vorgewählte Verzögerungszeit sowie die Zeitkonstante der Trägheit weiter verringert werden, z. B. direkt nachdem bei einem Fernseher der Kanal umgeschaltet wird und das Audiosignal des Fernsehers wiedergegeben wird. Dieser Fall kann einfach festgestellt werden, wenn die entsprechende Audioverarbeitung im Fernseher untergebracht ist oder der Fernseher eine entsprechende Nachricht an die anderen angeschlossenen Geräte sendet. Ein derartiger Umschaltvorgang kann auch an einer abrupt auftretenden Signalpause erkannt werden, die bei Umschaltvorgängen innerhalb eines Gerätes immer die für dieses Gerät typische Dauer haben wird.

Weiterhin ist die Detektion der Kanalumschaltung basierend auf dem Bildsignal möglich, da beim Umschalten üblicherweise die Synchronisation verlorengeht. Aus einem Synchronisationsverlust kann also auch auf einen Kanalwechsel geschlossen werden. Bei der Detektion eines Kanalwechsels wird die Verzögerungszeit dann auf Null gesetzt und die Zeitkonstante auf eine Zeit von beispielsweise 3 Sekunden reduziert. Nach der ersten darauffolgenden Bestimmung des Klangmaterials und einer entsprechend langen Zeit zum Überblenden auf den gewünschten Modus kann dann wieder auf die normale Verzögerungszeit und die lange Zeitkonstante gewechselt werden.

Die Verzögerungszeit und die Trägheit werden auch in Abhängigkeit des Absolutwertes von MG verändert. Sehr hohe Absolutwerte entsprechen einer sehr deutlichen Klassifizierung, weshalb in solchen Fällen ein früherer Wechsel möglich ist.

Zur Wiedergabe von Musiksignalen können verschiedene Klangprogramme verwendet werden. Beispielsweise ist es möglich, das Differenzsignal zwischen dem linken und rechten Eingangssignal auf die hinteren Lautsprecher auszugeben und die vorderen Kanäle unbeeinflusst zu lassen. Das Differenzsignal kann zusätzlich noch für beide Kanäle individuell vorverarbeitet werden, wozu üblicherweise Allpassfilter verwendet werden. Damit wird eine Dekorrelation der hinteren Lautsprecher erreicht. Alternativ kann bei Musiksignalen ein häufig als "Hall" bezeichnetes Klangprogramm eingesetzt werden. Bei diesem wird zusätzlich zu dem Differenzsignal noch ein Hallanteil des Originalsignales sowie des Differenzsignales auf allen Lautsprechern ausgegeben. Allen derart für Musiksignale geeigneten Klangprogrammen ist gemein, dass die Stereobreite weitestgehend erhalten bleibt, also kein oder nur wenig Signal auf den vorderen Centerlautsprecher ausgegeben wird und auch keine aktive Matrizierung stattfindet, d. h. dass der Pegel für die vorderen Kanäle nicht abgesenkt wird, wenn das Differenzsignal der Eingangskanäle im Vergleich zu deren Summe groß wird.

Bei anderen Signalen als Musik wird beispielsweise Dolby Pro Logic oder ein ähnliches Verfahren eingesetzt werden. Dabei wird zum einen der Pegel der vorderen Kanäle reduziert, falls das Differenzsignal des Einganges im Vergleich zum Summensignal einen großen Pegel annimmt. Sollte das Differenzsignal sehr klein sein, so werden die Signale von den vorderen rechten und linken Kanälen zudem zum vorderen Centerkanal umgeleitet um eine Mittenortung bei Sprechern zu erreichen.

Anstelle einer 5-Lautsprecher-Konstellation können auch noch mehr Lautsprecher verwendet werden, so dass dann z. B. das Differenzsignal auf drei hintere Lautsprecher ausgegeben wird.

Im Weiteren wird die Erfindung anhand eines konkreten Ausführungsbeispieles erläutert. Das Ausführungsbeispiel zeigt eine erfindungsgemäße Vorrichtung.
Die erfindungsgemäße Vorrichtung V weist einen Signaleingang E, einen Quelleninformationseingang Q sowie einen Signalausgang A auf. Über den Eingang E werden der Vorrichtung V Audiodaten zugeführt. Insbesondere werden Stereo-Audiodaten, d. h. Audiodaten in Zweikanalverfahren zugeführt. Werden die Daten in analoger Form zugeführt, so erfolgt in einer vorgeschalteten Vorrichtung eine Kanaltrennung der Audiosignale und eine Digitalisierung. Der Vorrichtung V werden dann digitale Daten zugeführt. Die Vorrichtung V ist jedoch in der Weise erweitert, dass sie auch mehrkanalige Audiodaten, beispielsweise im AC3 Format, verarbeitet kann. Auch ist eine rein analoge Realisierung möglich, wenn die Vorrichtungen V8, V4, V5, V6 und V7 durch entsprechende analoge Varianten unter Verwendung von Filterbänken anstelle der FFT realisiert werden oder auf die Auswertung dieser Charakteristiken verzichtet wird.
Die Audiosignale, welche über den Eingang E der Vorrichtung V zugeführt werden, werden diversen weiteren Vorrichtungen V1 bis V10 zeitgleich zugeführt.
Die Vorrichtungen V1 bis V7 bewerten das Eingangs-Audiosignal und führen es jeweils einer weiteren Vorrichtung VM1 bis VM6 zur Abbildung auf ein Maß zu. Hierbei dient die Vorrichtung VM1 zur Abbildung auf das Maß 1, die Vorrichtung VM2 zur Abbildung auf das Maß 2, usw.
Im weiteren dient die Vorrichtung V1 zur Dynamikermittlung, die Vorrichtung V2 zur Pegelbestimmung, die Vorrichtung V3 zur Periodizitätsmittlung, die Vorrichtung V4 zur Ermittlung von Frequenzspektren, insbesondere von Musikinstrumenten, die Vorrichtung V5 zur Bestimmung der Flachheit des Frequenzganges des Audiosignals, die Vorrichtung V6 zur Ermittlung der Anzahl an Maxima im Frequenzspektum, die Vorrichtung V7 zur Ermittlung des Anteils ähnlicher spektraler Strukturen im Frequenzspektum, die Vorrichtung V8 zur Transformation der Audiosignale aus dem Zeitbereich in den Frequenzbereich, die Vorrichtung V9 zur Verarbeitung von Musiksignalen, die Vorrichtung V10 zur Verarbeitung von anderen Signalen, die Vorrichtung V11 zur Detektion von Umschaltvorgängen und die Vorrichtung V12 zur Abbildung auf einen Faktor zur Steuerung der Schaltgeschwindigkeit.
Die aus den Vorrichtungen MV1 bis MV7 gewonnenen Maße werden mit Gewichtungsfaktoren G1 bis G7 gewichtet und aufaddiert. Das auf diese Weise gewonnene Gesamtmaß wird nochmals durch die Vorrichtungen V11 und V12 gewichtet und über die Hysteresevorrichtung H geleitet. Die Hysteresevorrichtung H verhindert, daß eine Umschaltung vom Filmmodus zum Musikmodus und umgekehrt erst dann erfolgt, wenn das Gesamtmaß einen vordefinierten Wert überschreitet oder unterschreitet. Anschließend wird das Gesamtmaß einem Integrator I, der vorteilhafterweise auf den Bereich [-0.5. . .1.5] begrenzt, und einer Vorrichtung B zur Begrenzung auf den Bereich [0. . .1.0] zugeführt.
Das Gesamtmaß, welches über den Integrator I und die Vorrichtung B geführt ist, wird mit den Audiosignalen, welche von den Vorrichtungen V9 und V10 stammen gewichtet und addiert. Auf diese Weise wird der entsprechende Audioverarbeitungsmodus gewählt. Bezugszeichenliste A Ausgang (5-Kanal)
B Vorrichtung zur Begrenzung auf Bereich [0. .1.0]
G1, G2, G3, G4, G5, G6, G7 Gewichtungsfaktoren
H Hysteresevorrichtung
I Integrator
VM1 Vorrichtung zur Abbildung auf das Maß 1
VM2 Vorrichtung zur Abbildung auf das Maß 2
VM3 Vorrichtung zur Abbildung auf das Maß 3
VM4 Vorrichtung zur Abbildung auf das Maß 4
VM5 Vorrichtung zur Abbildung auf das Maß 5
VM6 Vorrichtung zur Abbildung auf das Maß 6
VM7 Vorrichtung zur Abbildung auf das Maß 7
V1 Vorrichtung zur Dynamikermittlung
V2 Vorrichtung zur Pegelbestimmung
V3 Vorrichtung zur Periodizitätsmittlung
V4 Vorrichtung zur Ermittlung von Frequenzspektren von Musikinstrumenten
V5 Vorrichtung zur Bestimmung der Flachheit des Frequenzganges
V6 Vorrichtung zur Ermittlung der Anzahl an Maxima im Frequenzspektum
V7 Vorrichtung zur Ermittlung des Anteils ähnlicher spektraler Strukturen im Frequenzspektum
V8 Vorrichtung zur Transformation in den Frequenzbereich
V9 Vorrichtung zur Verarbeitung von Musiksignalen
V10 Vorrichtung zur Verarbeitung von anderen Signalen
V11 Vorrichtung zur Detektion von Umschaltvorgängen
V12 Vorrichtung zur Abbildung auf einen Faktor zur Steuerung der Schaltgeschwindigkeit

Claims

1. Verfahren zur Auswahl eines Klangalgorithmus zur Verarbeitung eines Audiosignals, dadurch gekennzeichnet, dass das Audiosignal analysiert wird und auf Grund der Analyse die Art des Audiosignals ermittelt wird, wobei eine Klassifizierung des Audiosignals als ein Musiksignal oder ein anderes Signal vorgenommen wird und in Abhängigkeit der Klassifizierung zur Weiterverarbeitung und späteren Ausgabe des Audiosignals unterschiedliche Klangalgorithmen verwendet werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Audiosignal ein stereophones Audiosignal ist.

3. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das Audiosignal aus mindestens zwei Audiokanälen besteht.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass bei einem Musiksignal ein Klangprogramm gewählt wird, welches die Stereobreite weitestgehend oder ganz erhält.

5. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass bei einem Musiksignal ein Klangprogramm gewählt wird, welches keine Pegelreduktion oder nur eine geringe Pegelreduktion der vorderen Kanäle vornimmt.

6. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass bei anderen Signalen als Musik ein Klangprogramm gewählt wird, welches ähnlich dem Dolby Pro Logic Verfahren arbeitet.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass in Abhängigkeit von der Klassifizierung des Audiosignals die einzustellenden Parameter für Musik und Filmmaterial automatisch ausgewählt werden.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass eine Umlenkung des vorderen Centerkanales auf die vorderen linken und rechten Kanäle vorgenommen wird und der Grad der Umlenkung individuell vorgenommen wird.

9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals verschiedene Maße (M1 bis M6) aus dem Audiosignal und/oder der Quelle des Audiosignals (M7) ermittelt werden, die ermittelten Maße (M1 bis M7) unterschiedlich gewichtet werden und ein Gesamtmaß (MG) ermittelt wird, anhand welchem die Klassifizierung des Audiosignals vorgenommen wird.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals der Dynamikumfang des Eingangssignals und/oder dessen Pegel als ein erstes Maß (M1) herangezogen wird.

11. Verfahren nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals die Periodizität des Audiosignals als ein zweites Maß (M2) herangezogen wird.

12. Verfahren nach einem der Ansprüche 9 bis 11, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals das Vorhandensein von in Musik typischen Signalspektren als ein drittes Maß (M3) herangezogen wird.

13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass die typischen Signalspektren von Blas- und Streichinstrumenten erkannt werden.

14. Verfahren nach einem der Ansprüche 9 bis 13, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals die Flachheit des Frequenzganges des Audiosignales als ein viertes Maß (M4) herangezogen wird.

15. Verfahren nach einem der Ansprüche 9 bis 14, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals die Anzahl an zu beobachtenden Maxima mit einem gewissen Mindestpegel im Spektrum als ein fünftes Maß (M5) herangezogen wird.

16. Verfahren nach einem der Ansprüche 9 bis 15 dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals das Vorhandensein ähnlicher spektraler Strukturen bei unterschiedlichen Frequenzen in einem Spektrum als ein sechstes Maß (M6) herangezogen wird.

17. Verfahren nach einem der Ansprüche 9 bis 16, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals die Art der Quelle des Audiosignals als ein siebtes Maß (M7) herangezogen wird.

18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, dass die Quelle des Audiosignals eine CD, eine DVD, ein Datenfile, ein Rundfunksignalempfänger, ein Audiorundfunksignalempfänger, ein Satellitenrundfunksignalempfänger, ein Kabelrundfunksignalempfänger, ein Fernsehsenderempfänger ist.

19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, dass das Datenfile ein MP3-File ist.

20. Verfahren nach einem der Ansprüche 1 bis 19, dadurch gekennzeichnet, dass das Gesamtmaß (MG) für das Audiosignal durch gewichtete Addition der einzelnen Maße (M1 bis M7) ermittelt wird.

21. Verfahren nach einem der Ansprüche 1 bis 20, dadurch gekennzeichnet, dass bei der Auswertung des Gesamtmaßes (MG) eine Hysterese verwendet wird, wodurch ein häufiges Umschalten an der Schwelle bei leichten Schwankungen vermieden wird.

22. Verfahren nach einem der Ansprüchen 1 bis 21, dadurch gekennzeichnet, dass eine Umschaltung auf einen anderen Klangalgorithmus erst dann vorgenommen wird, wenn die Klassifizierung des Audiosignals für eine einstellbare Zeitdauer konstant ist.

23. Verfahren nach Anspruch 22, dadurch gekennzeichnet, dass die Klangalgorithmen ineinander übergeblendet werden und die Zeit zur Überblendung durch den Benutzer einstellbar ist.

24. Verfahren nach einem der Ansprüchen 22 oder 23, dadurch gekennzeichnet, dass die Zeitdauer in der die Klassifizierung des Audiosignals ermittelt wird und die Zeit zur Überblendung eines Klangalgorithmus in einen anderen Klangalgorithmus in Abhängigkeit vom Gesamtmaß (MG) verringert wird, wenn das Gesamtmaß (GM) eine eindeutige Klassifizierung liefert.

25. Verfahren nach einem der Ansprüche 22 bis 24, dadurch gekennzeichnet, dass Umschaltvorgänge des Quellensignals erkannt werden und in solchen Fällen die Zeitdauer zur Klassifizierung des Audiosignals und die Zeit zur Überblendung eines Klangalgorithmus in einen anderen Klangalgorithmus verringert wird.

26. Verfahren nach Anspruch 25, dadurch gekennzeichnet, dass Umschaltvorgänge an einer abrupt auftretenden Signalpause erkannt werden.

27. Verfahren nach Anspruch 25, dadurch gekennzeichnet, dass Umschaltvorgänge an einem Synchronisationsverlust eines Bildsignals erkannt werden.

28. Vorrichtung zur Durchführung des Verfahren nach einem oder mehreren der vorangehenden Ansprüche.