DE60103424T2

DE60103424T2 - Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden

Info

Publication number: DE60103424T2
Application number: DE60103424T
Authority: DE
Inventors: Fredrik Henn; Andreas Ehret; Michael Schug
Original assignee: Coding Technologies Sweden AB
Current assignee: Coding Technologies Stockholm Se AB
Priority date: 2000-11-15
Filing date: 2001-11-14
Publication date: 2005-06-16
Anticipated expiration: 2021-11-15
Also published as: PT1334484E; JP2018185530A; CN1232950C; JP6592148B2; KR20030076576A; JP6207404B2; JP2012093774A; ATE267445T1; US7050972B2; JP2007293354A; JP4991397B2; AU2002215282A1; SE0004187D0; KR100551862B1; EP1334484A1; WO2002041302A1; TR200401631T4; EP1334484B1; HK1058096A1; JP5933965B2

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf digitale Audiocodierungssysteme, die Hochfrequenz-Rekonstruktionsverfahren (HFR-Verfahren) verwenden. Sie ermöglicht eine konsequentere Kerncodec-Leistungsfähigkeit, und es wird. eine verbesserte Audioqualität des kombinierten Kerncodec- und HFR-Systems erzielt.
HINTERGRUND DER ERFINDUNG
Audioquellencodierungstechniken können in zwei Klassen unterteilt werden: natürliches Audiocodieren und Sprachcodieren. Natürliches Audiocodieren wird üblicherweise für Musik oder willkürliche Signale bei mittleren Bitraten verwendet. Sprachcodecs sind im Grunde auf eine Sprachwiedergabe beschränkt, können jedoch andererseits bei sehr niedrigen Bitraten verwendet werden. Bei beiden wird das Signal allgemein in zwei Hauptsignalkomponenten geteilt, eine spektrale Hüllkurve und ein entsprechendes Restsignal. Codecs, die eine derartige Unterteilung verwenden, nutzen die Tatsache aus, dass die spektrale Hüllkurve viel effizienter codiert werden kann als das Restsignal. Bei Systemen, bei denen Hochfrequenz-Rekonstruktionsverfahren verwendet werden, wird kein Restsignal, das dem Hochband entspricht, übertragen. Statt dessen wird auf der Decoderseite von dem durch den Kerncodec abgedeckten Niedrigband ein Hochband erzeugt und geformt, um die gewünschte spektrale Hochband-Hüllkurve zu erhalten. Bei doppelendigen HFR-Systemen, wie sie beispielsweise in der internationalen Patentanmeldung WO 98157436 offenbart sind, werden Hüllkurvendaten übertragen, die dem oberen Frequenzbereich entsprechen, wohingegen bei einendigen HFR-Systemen die Hochbandhüllkurve von dem Niedrigband abgeleitet ist. In beiden Fällen legen Audiocodecs des Standes der Technik eine zeitlich unveränderliche Übergangsfrequenz zwischen dem Kerncodec-Frequenzbereich und dem HFR-Frequenzbereich an. Somit wird die Übergangsfrequenz bei einer gegebenen Bitrate so ausgewählt, dass für ein typisches Programmmaterial ein guter Kompromiss zwischen durch den Kerncodec eingeführten Artefakten und durch das HFR-System eingeführten Artefakten erzielt wird. Selbstverständlich kann eine derartige statische Einstellung für ein bestimmtes Signal vom Optimum weit entfernt sein: der Kerncodec ist entweder überbeansprucht, was zu höheren Niedrigbandartefakten führt als notwendig, was innerhalb des HFR-Verfahrens auch die Hochbandqualität verschlechtert, oder wird nicht bis zu seinem vollen Potential genutzt, d, h. es wird ein größerer HFR-Frequenzbereich verwendet als notwendig. Daher erreichen bekannte Systeme lediglich gelegentlich die maximale Leistungsfähigkeit des gemeinsamen Codierungssystems. Ferner wird die Möglichkeit, den Überschneidungspunkt zu Übergängen zwischen Regionen mit grundverschiedenen spektralen Eigenschaften, z. B. tonalen und rauschartigen Regionen, auszurichten, nicht genutzt.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung liefert ein durch die unabhängigen Ansprüche 6, 8 definiertes neues Verfahren und eine durch die unabhängigen Ansprüche 1, 7 definierte Vorrichtung zur Verbesserung von Codierungssystemen, bei denen Hochfrequenz-Rekonstruktionsverfahren (HFR) verwendet werden. Die Erfindung weicht von der traditionellen Verwendung einer feststehenden Übergangsfrequenz zwischen dem Niedrigband, bei dem herkömmliche Codierungsschemata (wie z. B. MPEG Layer-3 oder AAC) verwendet werden, und dem Hochband, bei dem HFR-Codierungsschemata verwendet werden, durch eine kontinuierliche Schätzung und Anwendung der Übergangsfrequenz ab, die den optimalen Kompromiss zwischen Artefakten liefert, die durch den Niedrigbandcodec bzw. das HFR-System eingeführt werden. Gemäß der Erfindung kann die Wahl auf einer Maßzahl des Schwierigkeitsgrades, ein Signal mit dem Kerncodec zu codieren, auf einer Kurzzeit-Bitnachfrageerfassung und auf einer Spektraltonalitätsanalyse oder jeglicher Kombination derselben beruhen. Die Maßzahl der Schwierigkeit kann von der wahrnehmbaren Entropie oder der psychoakustisch relevanten Kerncodecverzerrung abgeleitet sein. Da sich die optimale Wahl mit der Zeit häufig ändert, führt das Anlegen einer variablen Übergangsfrequenz zu einer beträchtlich verbesserten Audioqualität, die ferner weniger von Programmmaterialcharakteristika abhängig ist. Die Erfindung ist auf einendige und doppelendige HFR-Systeme anwendbar.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die vorliegende Erfindung wird nun anhand von veranschaulichenden Beispielen, die den Schutzumfang oder die Wesensart der Erfindung nicht einschränken, unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, bei denen:
1 ein Graph ist, der die Begriffe Niedrigband, Hochband und Übergangsfrequenz veranschaulicht;
2 ein Graph ist, der eine Kerncodec-Arbeitslastmaßzahl veranschaulicht;
3 ein Graph ist, der Variationen eines Konstante-Bitrate-Codecs bezüglich Kurzzeit-Bitnachfragen veranschaulicht;
4 ein Graph ist, der eine Teilung eines Signals in tonale und rauschartige Frequenzbereiche veranschaulicht;
5 ein Blockdiagramm eines HFR-basierten Codierers ist, der durch ein Übergangsfrequenz-Steuermodul verbessert ist;
6 ein Blockdiagramm ist, das das Übergangsfrequenz-Steuermodul im Detail veranschaulicht; und
7 ein Blockdiagramm des entsprechenden HFR-basierten Decoders ist.
BESCHREIBUNG VON BEVORZUGTEN AUSFÜHRUNGSBEISPIELEN
Die nachfolgend beschriebenen Ausführungsbeispiele sind für die Prinzipien der vorliegenden Erfindung lediglich veranschaulichend. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Details für andere Fachleute offensichtlich sind. Somit wird beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der beigefügten Patentansprüche begrenzt wird und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und Erläuterung der Ausführungsbeispiele hierin präsentiert werden.
Bei einem System, bei dem das Niedrigband bzw. der Niedrigfrequenzbereich 101, wie er in 1 gegeben ist, durch einen Kerncodec codiert ist und der Hochband bzw. der Hochfrequenzbereich 102 durch ein geeignetes HFR-Verfahren abgedeckt ist, kann die Grenze zwischen den zwei Bereichen als die Übergangsfrequenz 103 definiert sein. Da die Codierungsschemata auf einer blockweisen Rahmen-um-Rahmen-Basis arbeiten, ist eines frei, die Übergangsfrequenz für jeden verarbeiteten Rahmen zu verändern. Gemäß der vorliegenden Erfindung ist es möglich, einen Erfassungsalgorithmus einzurichten, der die Übergangsfrequenz derart anpasst, dass die optimale Qualität für das kombinierte Codierungssystem erzielt wird. Dessen Implementierung wird nachfolgend als Übergangsfrequenz-Steuermodul bezeichnet.
Wenn man berücksichtigt, dass die Audioqualität des Kerncodecs auch die Basis für die Qualität des rekonstruierten Hochbandes ist, ist es offensichtlich, dass eine hohe und konstante Audioqualität in dem Niedrigbandbereich erwünscht ist. Durch Verringern der Übergangsfrequenz ist der Frequenzbereich, mit dem es der Kerncodec zu tun hat, kleiner und somit leichter zu codieren. Durch Messen des Schwierigkeitsgrades des Codierens eines Rahmens und des entsprechenden Einstellens der Übergangsfrequenz kann eine konstantere Audioqualität des Kerncodierers erreicht werden.
Als Beispiel dafür, wie der Schwierigkeitsgrad gemessen werden kann, kann die Wahrnehmungsentropie (ISO/IEC 13818-7, Anhang B.2.1] verwendet werden: Hier wird ein auf einer Spektralanalyse beruhendes psychoakustisches Modell angewendet. Üblicherweise sind die Spektrallinien der Analysefilterbank in Bänder gruppiert, wobei die Anzahl von Linien innerhalb eines Bandes von der Bandmittenfrequenz abhängt und gemäß der hinreichend bekannten Bark-Skala ausgewählt wird, wobei auf eine der Wahrnehmung nach konstante Frequenzauflösung für alle Bänder abgezielt wird. Durch Verwenden eines psychoakustischen Modells, das Effekte wie z. B. eine spektrale oder zeitliche Maskierung nutzt, werden Hörbarkeitsschwellen für jedes Band erhalten. Die Wahrnehmungsentropie innerhalb eines Bandes ist dann durch
und
i = Spektrallinienindex in aktuellem Band
s(i) = Spektralwert der Linie i
L(b) = Anzahl von Linien in aktuellem Band
t(b) = psychoakustische Schwelle für aktuelles Band
b =Bandindex
l =Anzahl von Linien in aktuellem Band, so dass
r(i) > 1,0
und lediglich Begriffe wie z. B. r(i) > 1,0 bei der Summierung verwendet werden.
Durch Summieren der Wahrnehmungsentropien aller Bänder, die in dem Niedrigbandfrequenzbereich codiert werden müssen, wird eine Maßzahl der Codierungsschwierigkeit für den aktuellen Rahmen erhalten.
Ein ähnlicher Lösungsansatz besteht darin, die Verzerrungsenergie am Ende des Kerncodec-Codierungsprozesses zu berechnen, indem die Verzerrungsenergie jedes Bandes gemäß
summiert wird, wobei
und
n_q(b) = Quantisierungsrauschen-Energie
t(b) =psychoakustische Schwelle
b =Bandindex
B =Anzahl von Bändern
Ferner kann die Verzerrungsenergie durch eine Lautstärkekurve gewichtet werden, um die tatsächliche Verzerrung bezüglich ihrer psychoakustischen Relevanz zu gewichten. Als Beispiel kann die Summierung bei Gleichung 2 zu
modifiziert werden, wobei eine Vereinfachung einer Lautstärkefunktion nach Zwicker verwendet wird [„Psychoacoustics", Eberhard Zwicker und Hugo Fastl, Springer-Verlag, Berlin 1990].
Eine Codierungsschwierigkeits- oder Arbeitslastmaßzahl kann dann als Funktion der Gesamtverzerrung definiert sein. 2 liefert ein Beispiel der Verzerrungsenergie eines wahrnehmbaren Audiocodecs und einer entsprechenden Arbeitslastmaßzahl, wenn eine nichtlineare Rekursion zum Berechnen der Arbeitslast verwendet wurde. Man kann beobachten, dass die Arbeitslast hohe Abweichungen über die Zeit zeigt und von den Eingangsmaterialcharakteristika abhängig ist.
Eine hohe Wahrnehmungsentropie oder hohe Verzerrungsenergie weist darauf hin, dass ein Signal bei einer begrenzten Bitrate psychoakustisch schwer zu codieren ist und dass wahrscheinlich hörbare Artefakte in dem Niedrigband auftreten werden. In diesem Fall signalisiert das Übergangsfrequenz-Steuermodul, eine niedrigere Übergangsfrequenz zu verwenden, um es dem wahrnehmbaren Audiocodierer leichter zu machen, mit dem gegebenen Signal umzugehen. Gleichzeitig weist eine niedrige Wahrnehmungsentropie oder niedrige Verzerrungsenergie auf ein leicht zu codierendes Signal hin. Somit soll die Übergangsfrequenz höher gewählt werden, um einen breiteren Frequenzbereich für das Niedrigband zu ermöglichen, wodurch Artefakte, die aufgrund der beschränkten Fähigkeiten jegliches existierenden HFR-Verfahrens wahrscheinlich in das Hochband eingeführt werden, verrin gert werden. Beide Lösungsansätze ermöglichen ferner eine Verwendung eines Analyse-durch-Synthese-Lösungsansatzes, indem der aktuelle Rahmen erneut codiert wird, falls in der Analysephase eine Anpassung der Übergangsfrequenz signalisiert wurde. Da bei den meisten hochmodernen Audiocodecs jedoch überlappende Transformationen verwendet werden, kann die Leistungsfähigkeit des Systems verbessert werden, indem mit der Zeit eine Glättung der Analyseeingangsparameter angewendet wird, um ein zu häufiges Umschalten der-Übergangsfrequenz zu vermeiden, was Blockierungseffekte verursachen könnte. Falls die tatsächliche Implementierung in Bezug auf die Verarbeitungsverzögerung nicht optimiert werden muss, kann der Erfassungsalgorithmus ferner verbessert werden, indem eine größere Vorausschau in der Zeit verwendet wird, was die Möglichkeit bietet, Zeitpunkte zu finden, zu denen Verschiebungen mit einem Minimum von Umschaltungsartefakten durchgeführt werden können. Nicht-Echtzeit-Anwendungen stellen einen Spezialfall hierfür dar, bei dem auf Wunsch die gesamte zu codierende Datei analysiert werden kann.
Im Fall eines CBR-Audiocodec (CBR = constant bit rate, konstante Bitrate) kann eine Kurzzeit-Bitnachfrage-Variationsanalyse als zusätzlicher Eingangsparameter bei der Übergangsentscheidung verwendet werden: hochmoderne Audiocodierer wie z. B. MPEG Layer-3 oder MPEG-2 AAC verwenden eine Bitsparkassentechnik, um Kurzzeit-Spitzen-Bitfehl-Abweichungen von der Durchschnittszahl von verfügbaren Bits pro Rahmen zu kompensieren. Der Gefülltheitsgrad einer derartigen Bitsparkasse gibt an, ob der Kerncodierer in der Lage ist, gut mit einem bevorstehenden, schwierig zu codierenden Rahmen umzugehen oder nicht. Ein praktisches Beispiel der Anzahl von genutzten Bits pro Rahmen und des Bitsparkassen-Gefülltheitsgrades über der Zeit ist in 3 gegeben. Falls der Bitreservoir-Gefülltheitsgrad also hoch ist, ist der Kerncodierer in der Lage, einen schwierigen Rahmen zu handhaben, und es besteht kein Bedarf, eine niedrigere Übergangsfrequenz zu wählen. Analog dazu kann, falls der Bitreservoir-Gefülltheitsgrad niedrig ist, die sich ergebende Audioqualität bei den folgenden Rahmen beträchtlich verbessert werden, indem die Übergangsfrequenz verringert wird, um die Kerncodierer-Bitnachfrage zu verringern, so dass die Bitsparkasse aufgrund des kleineren Frequenzbereichs, der codiert werden muss, aufgefüllt werden kann. Wiederum kann eine große Vorausschau das Erfassungsverfahren verbessern, da das Verhalten des Bitsparkassen-Gefülltheitsgrades lange im voraus vorhergesagt werden kann.
Neben der Codierungsschwierigkeit des aktuellen Rahmens wird ein weiterer wichtiger Parameter, auf den die Wahl der Übergangsfrequenz zu stützen ist, wie folgt beschrieben: Eine große Anzahl von Audiosignalen wie z. B. Sprache oder Musikinstrumente zeigen die Eigenschaft, dass der Spektralbereich in einen gepitchten oder tonalen Bereich und einen rauschartigen Bereich unterteilt werden kann. 4 zeigt das Spektrum eines Audioeingangssignals, bei dem diese Eigenschaft völlig offensichtlich ist. Unter Verwendung von Tonalitäts- und/oder Rauschanalyseverfahren in dem Spektralbereich können zwei Bereiche erfasst werden, die als tonal bzw. rauschartig klassifiziert werden können. Die Tonalität kann so berechnet werden, wie dies beispielsweise in dem AAC-Standard gegeben ist [ISO/IEC 13818–7: 1997(E), S. 96 – 98, Abschnitt B.2.1.4 „Steps in threshold calculation"]. Weitere bekannte Tonalitäts- oder Rauscherfassungsalgorithmen wie z. B. Spektralflachheitsmessung sind ebenfalls für den Zweck geeignet. Somit wird die Übergangsfrequenz zwischen diesen Bereichen als die Übergangsfrequenz im Kontext der vorliegenden Erfindung verwendet, um den tonalen und rauschartigen Spektralbereich besser zu trennen und sie separat in den Kerncodierer bzw. das HFR-Verfahren einzuspeisen. Somit kann die Gesamtaudioqualität des kombinierten Codecsystems in derartigen Fällen beträchtlich verbessert werden.
Offensichtlich sind die obigen Verfahren gleichermaßen auf doppelendige und einendige HFR-Systeme anwendbar. Im letzteren Fall wird lediglich ein Niedrigband einer variierenden Bandbreite, das durch den Kerncodec codiert ist, übertragen. Der HFR-Decoder extrapoliert anschließend eine Hüllkurve von der Niedrigband-Grenzfrequenz und nach oben. Ferner ist die vorliegende Erfindung auf Systeme anwendbar, bei denen das Hochband durch willkürliche Verfahren erzeugt wird, die sich von demjenigen, das zum Codieren des Niedrigbandes verwendet wird, unterscheiden.
Die HFR-Startfrequenz an die variierende Bandbreite des Niedrigbandsignals anzupassen, wäre eine sehr mühselige Aufgabe, wenn herkömmliche Transpositionsverfahren wie z. B. die Frequenzverschiebung angewendet würden. Diese Verfahren beinhalten allgemein ein Filtern des Niedrigbandsignals, um ein Tiefpass- oder Bandpasssignal zu extrahieren, das anschließend in der Zeitdomäne moduliert wird, was eine Frequenzverschiebung bewirkt. Somit würde eine Anpassung ein Umschalten von Tiefpass- oder Bandpassfiltern und Änderungen der Modulationsfrequenz beinhalten. Ferner bewirkt ein Wechseln eines Filters Diskontinuitäten in dem Ausgangssignal, was die Verwendung von Fensterungsverfahren vorantreibt. Bei einem filterbankbasierten System wird das Filtern jedoch automatisch durch Extraktion von Teilbandsignalen aus einem Satz von aufeinanderfolgenden Filterbändern erreicht. Ein Äquivalent zu der Zeitdomänenmodulation wird dann mittels eines Neupatchens bzw. Neuverbindens der extrahierten Teilbandsignale innerhalb der Filterbank erhalten. Das Neupatchen wird ohne weiteres an die variierende Übergangsfrequenz angepasst, und das zuvor erwähnte Fenstern ist in der Teilbanddomäne inhärent, so dass die Änderung von Verschiebungsparametern bei geringer zusätzlicher Komplexität erzielt wird.
5 zeigt ein Beispiel der Codiererseite eines HFRbasierten Codecs, der gemäß der vorliegenden Erfindung verbessert ist. Das analoge Eingangssignal wird in einen A/D-Wandler 501 eingespeist, der ein digitales Signal bildet. Das digitale Audiosignal wird in einen Kerncodierer 502 eingespeist, wo eine Quellcodierung durchgeführt wird. Ferner wird das digitale Signal in einen HFR-Hüllkurvencodierer 503 eingespeist. Das Ausgangssignal des HFR-Hüllkurvencodierers stellt die Hüllkurvendaten dar, die das Hochband 102 abdecken, das bei der Übergangsfrequenz 103 beginnt, wie bei 1 veranschaulicht. Die Anzahl von Bits, die für die Hüllkurvendaten in dem Hüllkurvencodierer benötigt werden, wird an den Kerncodierer weitergeleitet, damit sie von den gesamten verfügbaren Bits für einen gegebenen Rahmen subtrahiert werden kann. Der Kerncodierer codiert dann den verbleibenden Niedrigbandfrequenzbereich bis zu der Übergangsfrequenz. Wie durch die vorliegende Erfindung gelehrt wird, wird zu dem Codierer ein Übergangsfrequenz-Steuermodul 504 hinzugefügt. Eine Zeit- und/oder Frequenzdomänendarstellung des Eingangssignals sowie Kerncodec-Statussignale werden in das Übergangsfrequenz-Steuermodul eingespeist. Das Ausgangssignal des Moduls 504 wird in Form der optimalen Wahl der Übergangsfrequenz in Kern- und Hüllkurvencodierer eingespeist, um die Frequenzbereiche, die codiert werden sollen, zu signalisieren. Der Frequenzbereich für jedes der zwei Codierungsschemata wird ebenfalls codiert, beispielsweise durch ein effizientes Tabellennachschlageschema. Falls sich der Frequenzbereich zwischen zwei aufeinanderfolgenden Rahmen nicht ändert, kann dies durch ein einzelnes Bit signalisiert werden, um den Bitraten-Zusatzaufwand so gering wie möglich zu halten. Somit müssen die Frequenzbereiche nicht explizit in jedem Rahmen übertragen werden. Die codierten Daten beider Codierer werden anschließend in den Multiplexer eingespeist, wobei ein serieller Bitstrom gebildet wird, der übertragen oder gespeichert wird.
6 liefert ein Beispiel von Teilsystemen innerhalb des Übergangsfrequenz-Steuermoduls 504 bzw. 601. Ein Codiererarbeitslastmessanalysemodul 602 untersucht, wie schwierig der aktuelle Rahmen für den Kerncodierer zu codieren ist, wobei es beispielsweise den Wahrnehmungsentropie- oder den Verzerrungsenergie-Lösungsansatz, wie oben beschrieben, verwendet. Vorausgesetzt, dass der Kerncodec eine Bitsparkasse verwendet, kann ein Puffer-Gefülltheitsgrad-Analysemodul enthalten sein, 603. Ein Tonalitätsanalysemodul 604 signalisiert eine Zielübergangsfrequenz, die der tonalen/Rausch-Übergangsfrequenz entspricht, wenn anwendbar. Alle Eingangsparameter in das gemeinsame Entscheidungsmodul 606 werden gemäß der tatsächlichen Implementierung der verwendeten Kern- und HFR-Codecs kombiniert und ausgeglichen, wenn die zu verwendende Übergangsfrequenz berechnet wird, um die maximale Gesamtleistungsfähigkeit zu erhalten.
Die entsprechende Decoderseite ist in 7 gezeigt. Der Demultiplexer 701 trennt die Bitstromsignale in Kerncodecdaten, die in den KernDecoder 702 eingespeist werden, in Hüllkurvendaten, die in den HFR-Hüllkurvendecoder 703 eingespeist werden. Der Kerndecoder erzeugt ein Signal, das den Niedrigbandfrequenzbereich abdeckt. Desgleichen decodiert der HFR-Hüllkurvendecoder die Daten zu einer Darstellung der spektralen Hüllkurve für den Hochbandfrequenzbereich. Die decodierten Hüllkurvendaten werden anschließend in das Gewinnsteuermodul 704 eingespeist. Das Niedrigbandsignal von dem Kerndecoder wird an das Transpositionsmodul 705 weitergeleitet, das auf der Basis der Übergangsfrequenz ein repliziertes Hochbandsignal aus dem Niedrigband erzeugt. Das Hochbandsignal wird in das Gewinnsteuermodul eingespeist, um die Hochbandspektralhüllkurve an die der übertragenen Hüllkurve anzupassen. Das Ausgangssignal ist somit ein hüllkurvenangepasstes Hochbandaudiosignal. Dieses Signal wird zu dem Ausgangssignal von der Verzögerungseinheit 706 hinzugefügt, die mit dem Niedrigbandaudiosignal gespeist wird, wohingegen die Verzögerung die Verarbeitungszeit des Hochbandsignals kompensiert. Schließlich wird das erhaltene digitale Breitbandsignal in dem D/A-Wandler 707 in ein analoges Audiosignal umgewandelt.

Claims

Eine Vorrichtung zum Codieren eines Audiosignals, um ein codiertes Audiosignal zu erhalten, das durch einen Decoder verwendet werden soll, der ein Hochfrequenz-Rekonstruktionsmodul zum Durchführen einer Hochfrequenz-Rekonstruktion für einen Frequenzbereich über einer Übergangsfrequenz aufweist, wobei die Vorrichtung folgende Merkmale aufweist: einen Kerncodierer (502) zum Codieren eines unteren Frequenzbandes des Audiosignals bis zu der Übergangsfrequenz, wobei die Übergangsfrequenz variabel ist und wobei der Kerncodierer auf einer blockweisen Rahmen-Um-Rahmen-Basis betreibbar ist; und ein Übergangsfrequenzsteuermodul (504) zum Schätzen, abhängig von einem Maß des Schwierigkeitsgrades zum Codieren des Audiosignals durch den Kerncodierer (502) und/oder abhängig von einer Grenze zwischen einem tonalen und einem rauschartigen Frequenzbereich des Audiosignals, einer Übergangsfrequenz, die durch den Kerncodierer (502) für einen Rahmen einer Serie von aufeinanderfolgenden Rahmen ausgewählt werden soll, so daß die Übergangsfrequenz über die Zeit für die Serie von aufeinanderfolgenden Rahmen adaptiv variabel ist.
Eine Vorrichtung gemäß Anspruch 1, bei der das Maß auf einer Wahrnehmungsentropie des Audiosignals beruht.
Eine Vorrichtung gemäß Anspruch 1, bei der das Maß auf einer Verzerrungsenergie nach dem Codieren mit dem Kerncodierer beruht.
Eine Vorrichtung gemäß Anspruch 1, bei der das Maß auf einem Status einer Bitsparkasse, die dem Kerncodierer zugeordnet ist, beruht.
Eine Vorrichtung gemäß einem der Ansprüche 1 bis 4, bei der jegliche Kombination der Wahrnehmungsentropie, der Kerncodiererverzerrung und des Kerncodierer-Bitsparkassenstatus verwendet wird, um die Übergangsfrequenz zu erhalten, die durch den Kerncodierer (502) für einen Rahmen ausgewählt werden soll.
Ein Verfahren zum Codieren eines Audiosignals, um ein codiertes Audiosignal zu erhalten, das durch einen Decoder verwendet werden soll, der ein Hochfrequenz-Rekonstruktionsmodul zum Durchführen einer Hochfrequenz-Rekonstruktion für einen Frequenzbereich über einer Übergangsfrequenz aufweist, wobei das Verfahren folgende Schritte aufweist: Kerncodieren eines unteren Frequenzbands des Audiosignals bis zu einer Übergangsfrequenz, wobei die Übergangsfrequenz variabel ist und wobei das Kerncodieren auf einer blockweisen Rahmen-Om-Rahmen-Basis stattfindet; und Schätzen, abhängig von einem Maß des Schwierigkeitsgrades zum Codieren des Audiosignals bei dem Schritt des Kerncodierens und/oder abhängig von einer Grenze zwischen einem tonalen und einem rauschartigen Frequenzbereich des Audiosignals, einer Übergangsfrequenz, die bei dem Schritt des Kerncodierens für einen Rahmen einer Serie von aufeinanderfolgenden Rahmen ausgewählt werden soll, so daß die Übergangsfrequenz über die Zeit für die Serie von aufeinanderfolgenden Rahmen adaptiv variiert wird.
Eine Vorrichtung zum Decodieren eines codierten Audiosignals, wobei das codierte Audiosignal unter Verwen dung einer variablen Übergangsfrequenz codiert wurde, wobei das codierte Audiosignal Informationen über eine Übergangsfrequenz umfaßt, die über die Zeit adaptiv variabel ist, wobei die Vorrichtung zum Decodieren folgende Merkmale aufweist: einen Bitstrom-Demultiplexer (701) zum Extrahieren von Kerndecoderdaten, Hüllkurvendaten und der Informationen über die variable Übergangsfrequenz; einen Kerndecoder (702) zum Empfangen der Kerndecoderdaten von dem Bitstrom-Demultiplexer und zum Ausgeben von Niedrigbanddaten, die eine zeitlich variierende Übergangsfrequenz aufweisen; einen Hochfrequenz-Regenerationshüllkurvendecoder (703) zum Empfangen der Hüllkurvendaten von dem Bitstrom-Demultiplexer (701) und zum Erzeugen eines Spektralhüllkurvenausgangssignals; ein Transpositionsmodul (705) zum Empfangen der Informationen über die variable Übergangsfrequenz und zum Erzeugen eines replizierten Hochbandsignals aus den Niedrigbanddaten auf der Basis der Informationen über die variable Übergangsfrequenz; ein Verstärkungssteuermodul (704), das auf den Hochfrequenz-Regenerationshüllkurvendecoder anspricht, zum Einstellen des replizierten Hochbandsignals auf eine Spektralhüllkurve, die durch den Hochfrequenz-Regenerationshüllkurvendecoder ausgegeben wird, um ein hüllkurveneingestelltes Hochbandsignal zu erhalten; und einen Addierer zum Addieren einer verzögerten Version der Niedrigbanddaten und des hüllkurveneingestellten Hochbandsignals, um ein digitales Breitbandsignal zu erhalten.
Ein Verfahren zum Decodieren eines codierten Audiosignals, wobei das codierte Audiosignal unter Verwendung einer variablen Übergangsfrequenz codiert wurde, wobei das codierte Audiosignal Informationen über eine Übergangsfrequenz umfaßt, die über die Zeit adaptiv variabel ist, wobei das Verfahren zum Decodieren folgende Schritte aufweist: Extrahieren (701) von Kerndecoderdaten, Hüllkurvendaten und der Informationen über die variable Übergangsfrequenz von dem codierten Audiosignal; Empfangen der Kerndecoderdaten von einem Bitstrom-Demultiplexer und Ausgeben von Niedrigbanddaten, die eine zeitlich variierende Übergangsfrequenz aufweisen, mittels eines Kerndecoders (702); Empfangen der Hüllkurvendaten und Erzeugen eines Spektralhüllkurvenausgangs mittels eines Hochfrequenz-Regenerationshüllkurvendecoders (703); Empfangen der Informationen über die variable Übergangsfrequenz und Erzeugen eines replizierten Hochbandsignals aus den Niedrigbanddaten auf der Basis der Informationen über die variable Übergangsfrequenz mittels eines Transpositionsmoduls (705); Einstellen des replizierten Hochbandsignals auf eine Spektralhüllkurve, die durch den Hochfrequenz-Regenerationshüllendecoder (703) ausgegeben wird, um ein hüllkurveneingestelltes Hochbandsignal zu erhalten, mittels eines Verstärkungssteuermoduls (704); und Addieren einer verzögerten Version der Niedrigbanddaten und des hüllkurveneingestellten Hochbandsignals, um ein digitales Breitbandsignal zu erhalten.