DE60214599T2

DE60214599T2 - Skalierbare audiokodierung

Info

Publication number: DE60214599T2
Application number: DE60214599T
Authority: DE
Inventors: Sebastian Streich; Miikka Vilermo
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2002-03-12
Filing date: 2002-03-12
Publication date: 2007-09-13
Anticipated expiration: 2022-03-13
Also published as: EP1483759A1; CN1266673C; WO2003077235A1; CN1623185A; DE60214599D1; US20030220783A1; KR20040105741A; EP1483759B1; KR100711989B1; AU2002246280A1; US7277849B2

Description

Feld der Erfindung
Die vorliegende Erfindung betrifft ein Audiokodier-Verfahren zum Kodieren von Audiosignalen in einem geschichteten Datenstrom, der eine erste Schicht und eine zweite Schicht aufweist, wobei die zweite Schicht als eine Erweiterung der ersten Schicht dient. Insbesondere bezieht sich die vorliegende Erfindung auf ein Audiokodierverfahren, bei dem ein originäres bzw. originales digitales Audiosignal kodiert wird, um ein erstes Schichtsignal zu erhalten, wobei ein Restsignal erzeugt wird, um eine Abweichung zwischen dem originalen Signal und dem Signal der ersten Schicht wiederzugeben, und entweder das originale Signal oder das Restsignal ausgewählt wird, um in ein Signal der zweiten Schicht kodiert zu werden.
Hintergrund der Erfindung
Audio d.h. akustische Energie ist naturgemäß analog. Dies ist praktisch, jedenfalls, um Audio in digitaler Form zu Speicherungs- oder Übertragungszwecken darzustellen. Reine digitale Audiodaten, die durch Abtastung und Digitalisierung eines analogen Audiosignals erhalten werden, benötigen eine große Speicherkapazität und Kanalbandbreite, insbesondere für Hochqualitätsaudiomaterial, welches beispielsweise bei 16 Bits pro Abtastung, bei einer Abtastfrequenz von 44 kHz dargestellt werden kann (normale Audio CD Qualität). Folglich ist digitales Audiomaterial normalerweise gemäß verschiedenen bekannten Quellkodierverfahren komprimiert.
Wahrnehmungs-Audiokodiertechniken, wie MPEG Layer-3 (MP3), MPEG-2 und MPEG-4, machen alle Gebrauch von den Signalmaskierungseigenschaften des menschlichen Ohrs, um die Menge von Daten zu reduzieren. Indem dies gemacht wird, wird das Quantisierungsrauschen auf solche Weise auf Frequenzbänder verteilt, dass es durch das Gesamtsignal überdeckt bzw. maskiert wird, d.h. es bleibt unhörbar. Eine beträchtliche Speichergrößenreduzierung ist so mit kleinem oder keinem wahrnehmbaren Verlust der Audioqualität möglich.
Wahrnehmungs-Audiokodiertechniken sind oft skalierbar und erzeugen einen geschichteten Bitstrom, welcher eine Basisschicht und mindestens eine Erweiterungsschicht aufweist. Dies ermöglicht eine Bitratenskalierbarkeit, d.h. Dekodieren auf verschiedenen Audioqualitäts-Levels auf der Dekodiererseite oder Reduzierung der Bitrate in dem Netzwerk, durch Verkehrs-Gestaltung oder Bearbeitung bzw. Konditionierung. Ein Ansatz ist es, die Basisschichtkodierung nur in mono bereitzustellen und eine Erweiterungsschichtkodierung bereitzustellen, welche dem Audiomaterial Stereoqualität anhängt. Auf diese Art und Weise ist es auf der Dekodiererseite möglich, zu wählen, nur die Basisschichtinformation zu dekodieren (zur Sicherheit in dem Fall, dass die Empfängervorrichtung auf der Dekodiererseite nur einen Sprecher aufweist) oder die Basisschichtinformation, sowie die Erweiterungsschichtinformation so zu dekodieren, um Stereoklang zu erzeugen.
Innerhalb des Zusammenhangs von skalierbarer Audiokodierung, werden "Basisschicht" und "Kernschicht" als Synonym verwendet.
ISO/IEC 14496-3:2001(E), Subpart 4, beschreibt einen Teil des MPEG-4 Audiostandards und deutet auf eine Kombination von entweder einem MPEG-4 konformen Kerncodec, oder einem externen Kerncodec vom CELP-Typ (Code Excited Linear Predicition), mit einem AAC (Advanced Audio Coding) Erweiterungsschichtcodec, um eine effiziente Bitratenskalierbarkeit bereitzustellen.
Der AMR-WB (Adaptive Multi-Rate Wideband) Sprachcodec ist ein Beispiel eines CELP-Typ-Codecs, der in der dritten Generation von Mobilendgeräten verwendet werden wird, und ist in dem 3rd Generation Partnership Project (3GPP) TS 26.190 V5.0.0 (2001-03) beschrieben.
In einer skalierbaren Audiokodieranordnung wie die, auf welche in dem oben erwähnten MPEG-4 Audiostandard Bezug genommen wurde, berechnet eine frequenzselektive Schaltungseinheit (frequency selective switching unit) (FSSU) in dem Erweiterungsschichtkodierer die Menge bzw. den Betrag von Bits, die benötigt werden, um entweder das originale Audiosignal, oder ein Restsignal zu kodieren, welches durch das Abziehen des originalen Signals und des rekonstruierten Ausgangssignals der vorhergehenden Schicht (der Kernschicht) abgeleitet wird. Die FSSU wählt immer die Alternative, die weniger Bits zur Kodierung benötigt. Diese Entscheidung wird für jedes einzelne Subband (d.h. für jede fixierte Gruppe von Spektrallinien, die das Signal darstellen), innerhalb eines Audiorahmens gemacht. Um eine Rekonstruktion auf der Dekodiererseite zu ermöglichen, muss der Kodierer FSS-Steuerungsinformation übertragen, um anzuzeigen, welche der zwei Alternativen für jedes Sub-Band in jedem Audiorahmen ausgewählt wurden. Gemäß dieser Steuerungsinformation, wird dann das Ausgangssignal des Erweiterungsschichtdekodierers, an den Ausgang des Kernschichtdekodierers nur in diesen Sub-Bändern hinzugefügt, bei denen das Restsignal kodiert wurde.
Jedenfalls haben die gegenwärtigen Erfinder das folgende Problem anhand einer skalierbaren Audiokodiervorrichtung, wie die oben beschriebene, identifiziert. Insbesondere für niedrige und bescheidene Bitrates, z.B. in dem Bereich von 12 kbps–24 kbps, werden manchmal nicht genug Bits vorhanden sein, um das Erweiterungssignal in einer solchen Weise zu kodieren, dass die Quantisierungsfehler nicht wahrnehmbar bleiben. Auf der Kodiererseite, werden solche Fehler wie Knallen, Knacken usw. klingen und werden deshalb sehr störend sein. Tatsächlich können solche Fehler sogar zu einer Verminderung der wahrgenommenen Qualität, verglichen mit dem Ausgangssignal der Kernschicht alleine führen.
Bei dem Stand der Technik würde man, um diesen Effekt zu verhindern, entweder den kodierten Frequenzbereich beschränken müssen, mit der Gefahr des Verlustes von hörbarer Information, oder die Bitrate für den Erweiterungsschichtcodec erhöhen, was keine wünschenswerte oder sogar mögliche Option, angesichts der vorhandenen Bandbreite sein kann.
Zusammenfassung der Erfindung
Angesichts der oben erwähnten Umstände ist es ein Ziel der Erfindung, wie durch die beigefügten unabhängigen Ansprüche festgelegt, das Problem, welches oben behandelt wurde zu lösen, oder zumindest zu reduzieren, und eine bessere Tonqualität bei den selben oder reduzierten Bitraten bereitzustellen, als in dem Stand der Technik.
Allgemein wird das oben genannte Ziel mittels eines Audiokodierverfahrens, einem Audiokodierer, einem Audiokodeumsetzer, einem Audiodekodierer, einem Computerprogrammprodukt, einer integrierten Schaltung und einer Station für ein mobiles Telekommunikationsnetzwerk gemäß den beigefügten unabhängigen Patentansprüchen erreicht.
Einfach ausgedrückt wird das Ziel erreicht, durch die Berücksichtigung einer zusätzlichen Alternative zum Kodieren des Erweiterungsschichtsignals, zusätzlich zu der Auswahl zwischen dem Verwenden entweder des Rest- oder des Originalsignals, in dem Stand der Technik. In einer bevorzugten Ausführungsform besteht die Alternative aus dem Annehmen des Ausgangssignals der Kernschicht, direkt als die Ausgabe der Erweiterungsschicht für einige Sub-Bänder. Dies wird vollbracht, indem das Restsignal mit Nullen, oder mit einem anderen Signal mit einer ähnlich geringen Entropie ersetzt wird und zeigt in der oben beschriebenen FSS-Steuerungsinformation an, dass das Restsignal für das besagte Sub-Band kodiert wird. Folglich wird kein zusätzlicher Overhead auf der Dekodiererseite benötigt; falls die FSS-Steuerungsinformation anzeigt, dass das Restsignal kodiert worden ist und die zugehörigen Frequenzsub-Bänder in dem Kodierer durch Nullen ersetzt worden sind, wird das Ausgangssignal der Kernschicht in dem Kodierer für diese Subbänder angehängt, und ersetzt folglich die Nullen.
Die Erfindung liefert mindestens zwei bedeutende Vorteile:
Erstens kann die Erfindung verwendet werden, um sicherzustellen, dass der durch Quantisierung verursachte Fehler nie größer ist als der Fehler, der durch die Verwendung der vorangehenden Schicht alleine verursacht wird. Zusätzlich, da die hörbaren Fehler, die durch die Quantisierung verursacht werden, sehr unerfreulich sind, kann der Kodierer der momentanen Schicht gezwungen werden, Nicht-null-Werte, zum Kodieren in nur diesen Frequenzsubbändern zu verwenden, bei denen das Ausblenden des Quantisierungsfehlers sichergestellt werden kann. Außerdem ist eine "Bandspaltungs"-Annäherung verfügbar, gemäß der das Ausgangssignal der vorangehenden Schicht komplett unverändert, für den unteren Grenzfrequenzbereich bleibt, wobei der Erweiterungsschichtcodec nur einige zusätzliche Hochfrequenzkomponenten über dem unteren Grenzfrequenzbereich kodiert. Diese Annäherung ist insbesondere anwendbar für Proben, die Sprache und einen Kernschichtcodec beinhalten, was die Sprachkodierung gut ausführt.
Zweitens reduziert die Erfindung die benötigte Anzahl von Bits in dem Kodierprozess der Erweiterungsschicht. Das Kodieren eines Frequenz-Sub-Bandes, welches nur Nullen, im Gegensatz zu Nicht-null-Werten beinhaltet, wird gewöhnlich auch im schlimmsten Fall einige Bits sichern. Dank diesem Aspekt der Erfindung wurde in den Experimenten herausgefunden, dass bis zu 10 % Einsparung in der gesamten Bitrate erreichbar sind. Dieser zweite Vorteil kann entweder verwendet werden um die Bitrate des Erweiterungsschichtcodecs zu reduzieren, oder um die Quantisierungsfehler der anderen Frequenzbänder in demselben Rahmen zu reduzieren.
Zusätzlich zu dem oben genannten, sehen die gegenwärtigen Erfinder ein schnelleres Kodieren und Dekodieren von Audiosignalen vor, vorausgesetzt dass der Kodierer und der Dekodierer vorgesehen sind, entsprechend Nullen in einer effizienten Art und Weise zu kodieren und zu dekodieren.
Andere Ziele, Eigenschaften und Vorteile der vorliegenden Erfindung, werden aus der folgenden detaillierten Offenbarung der angehängten abhängigen Ansprüche, sowie aus den Zeichnungen ersichtlich werden.
Kurze Beschreibung der Zeichnungen
Eine bevorzugte Ausführungsform der vorliegenden Erfindung wird nun in größerem Detail beschrieben werden, wobei Bezug auf die beiliegenden Zeichnungen genommen wird, in denen:
1 eine schematische Darstellung eines Telekommunikationssystems ist, in der die vorliegende Erfindung angewendet werden kann.
2 ein schematisches Blockdiagramm ist, das einige der Elemente der 1 darstellt.
3 ein schematisches Blockdiagramm eines skalierbaren Audiokodierers, gemäß einer bevorzugten Ausführungsform ist.
4 ein veranschaulichendes spektrales Audiorahmenformat darstellt, welches eine Vielzahl von Frequenzsubbändern aufweist und welches für die vorliegende Erfindung verwendet werden kann.
5 ein frequenzselektives Schaltungs-(FSS)Feld darstellt, welches dazu dient, die Ursprünge des kodierten Audiosignals für die verschiedenen Frequenzsubbänder, des in
4 gezeigten Audiorahmens, anzuzeigen.
6 kurz die Hauptschritte zur Quantisierung des Audiosignals, mit minimierten Quantisierungsfehlern und optimalen Bitraten gemäß der vorliegenden Erfindung darstellt.
7 eine modifizierte AAC Rate/Verzerrungskontrollschleife, zum Ausführen der Quantisierung der 6 darstellt.
Detaillierte Offenbarung der Ausführungsformen
1 ist eine schematische Darstellung eines Telekommunikationssystems, in dem die vorliegende Erfindung angewendet werden kann. In dem System der 1, können Audiodaten zwischen verschiedenen Einheiten 100, 112, 122 und 132, mittels verschiedener Netzwerke 110, 120, und 130 übermittelt werden. Die Audiodaten können Sprache, Musik oder jede andere Art akustischer Information darstellen. Folglich kann Sprache von einem Benutzer eines ortsfesten Telefons 132 durch ein öffentliches Telefonnetz (public switched telephone network) (PSTN) 130 und ein Mobiltelekommunikationsnetzwerk 110, über eine Basisstation 104 hiervon, über eine kabellose Nachrichtenverbindung 102, zu einem Mobiltelefon 100, und umgekehrt übermittelt werden. Das Mobiltelefon kann jede handelsüblich erhältliche Vorrichtung für jedes bekannte Telekommunikationssystem, wie GSM, UMTS oder D-AMPS sein.
Außerdem kann digital kodierte Musik, die in einer Datenbank 124 gespeichert ist, von einem Server 122, über das Internet 120 und das Mobiltelekommunikationsnetzwerk 110 zu dem Mobiltelefon 100, oder zu einer anderen tragbaren Vorrichtung 112, welche Zugang zu dem mobilen Telekommunikationsnetzwerk 110 hat, übertragen werden. Die tragbare Vorrichtung 112 kann, beispielsweise ein Minicomputer (personal digital assistant), ein Laptopcomputer mit einer GSM oder UMTS Schnittstelle, ein schmuckes Headset oder anderes Zubehör für solche Vorrichtungen usw. sein. Anstatt sie in der Datenbank 124 zu speichern, können Audiodaten, die durch den Server 122 geliefert werden, direkt von einem optischen Speicher, wie einer CD oder DVD, gelesen werden. Außerdem kann der Server 122 verbunden werden mit, oder eingeschlossen werden in eine Rundfunkstation, um strömende (streaming) Audiodienste über das Internet 120, an die tragbaren Vorrichtungen 100, 112 zu liefern.
Folglich bedient das in 1 dargestellte System nur beispielhafte Zwecke und verschiedene andere Situationen, bei denen Audiodaten zwischen verschiedenen Einheiten übermittelt werden, sind innerhalb des Bereichs der Erfindung möglich.
2 präsentiert ein übliches Blockdiagramm eines Mobilaudiodaten-Übertragungssystems, einschließlich eines Mobilendgerätes 250 und einer Netzwerkstation 200. Das Mobilendgerät 250 kann beispielsweise das Mobiltelefon 100, der 1 darstellen, wobei die Netzwerkstation 200, die Basisstation 104, des Mobiltelekommunikationsnetzwerkes 110 in 1 darstellen kann.
Das Mobilendgerät 250 kann Sprache über einen Übertragungskanal 206 (z.b. die kabellose Verbindung 102 zwischen dem Mobiltelefon 100 und der Basisstation 104 in 1), zu der Netzwerkstation 200 übermitteln. Ein Mikrophon 252 empfängt eine akustische Eingabe von einem Benutzer des Mobilendgerätes 250, und wandelt die Eingabe in ein entsprechendes analoges elektrisches Signal um, welches an einen Audio-Kodier-/-dekodier-Block 260 geliefert wird. Dieser Block weist einen Audiokodierer 262 und einen Audiodekodierer 264 auf, die zusammen einen Audiocodec bilden. Das analoge Mikrophonsignal wird gefiltert, abgetastet und digitalisiert, bevor der Audiokodierer 262 eine Audiokodierung, die auf das Telekommunikationsnetzwerk anwendbar ist, durchführt. Eine Ausgabe des Audio-kodier-/-dekodier-Blocks 260 wird an einen Kanal-kodier-/-dekodier-Block 270 geliefert, in dem ein Kanalkodierer 272 eine Kanalkodierung an dem kodierten Audiosignal, gemäß dem anwendbaren Standard in dem Mobiltelekommunikationsnetzwerk durchführen wird.
Eine Ausgabe des Kanal-kodier-/-dekodier-Blocks 270 wird an einen Funkfrequenzblock (RF) block 280 geliefert, der einen RF-Sender 282, einen RF-Empfänger 284 sowie eine Antenne (nicht gezeigt in 2) einschließt. Wie dem Fachbereich wohl bekannt ist, umfasst der RF Block 280 verschiedene Schaltungen, wie Leistungsverstärker, Filter, lokale Oszillatoren und Mischer, welche zusammen das kodierte Audiosignal auf eine Trägerwelle anpassen, welche als elektromagnetische Wellen, von einer Antenne des Mobilendgerätes 250 aus verbreitet werden.
Nachdem es über den Kanal 206 übermittelt worden ist, wird das übertragene RF-Signal, mit seinen darin enthaltenen, kodierten Audiodaten, durch einen RF-Block 230 in der Netzwerkstation 200 empfangen. Ähnlich wie Block 280 in dem Mobilendgerät 250, umfasst der RF-Block 230 einen RF-Sender 232, sowie einen RF-Empfänger 234. Der Empfänger 234 empfängt und demoduliert, in einer Art und Weise, die im Wesentlichen umgekehrt zu dem Ablauf, der durch den Sender 282, wie oben beschrieben durchgeführt wurde, das empfangene RF-Signal, und liefert eine Ausgabe zu einem Kanal-kodier-/-dekodier-Block 220. Ein Kanaldekodierer 224 dekodiert das empfangene Signal und liefert eine Ausgabe zu einem Audio-kodier-/-dekodier-Block 210, in dem ein Audiodekodierer 214 die Audiodaten dekodiert, die original durch den Audiokodierer 262 in dem Mobilendgerät 250 kodiert wurden. Eine dekodierte Audioausgabe 204, beispielsweise ein PCM-Signal, kann innerhalb des Mobiltelekommunikationsnetzwerkes 110 weitergeleitet werden (um zu einem anderen Mobilendgerät übertragen zu werden, welches in dem System eingeschlossen ist) oder kann alternativ zu z.B. dem PSTN 130 oder dem Internet 120 weitergeleitet werden.
Wenn Audiodaten in entgegen gesetzter Richtung übermittelt werden, d.h. von der Netzwerkstation 200, zu dem Mobilendgerät 250, wird ein Audioeingangssignal 202 (wie das PCM-Signal) von z.B. dem Server 122 oder dem ortsfesten Telefon 132 durch einen Audiokodierer 212, des Audio -kodier-/-dekodier-Blocks 210 empfangen. Nachdem das Audiokodieren auf das Audioeingangssignal angewendet worden ist, wird das Kanalkodieren durch einen Kanalkodierer 222, in dem Kanal-kodier-/-dekodier-Block 220 durchgeführt. Dann wird das kodierte Audiosignal auf eine Trägerwelle, mittels eines Senders 232 des RF-Blocks 230 moduliert, und wird über den Kanal 206 an den Empfänger 284, des RF-Blocks 280, in dem Mobilendgerät 250 übermittelt. Eine Ausgabe des Empfängers 284, wird an den Kanaldekodierer 274 des Kanal-kodier-/-dekodier-Blocks 270 übermittelt, wird darin kodiert und wird an den Audiokodierer 264 des Audio -kodier-/-dekodier-Blocks 260 weitergeleitet. Die Audiodaten werden durch den Audiodekodierer 264 dekodiert, und werden schließlich in ein analoges Signal gewandelt, welches gefiltert ist und an einen Lautsprecher 254 geliefert wird, der das übertragene Audiosignal, dem Benutzer des Mobilendgerätes 250 akustisch darstellt. Wie allgemein bekannt, wird der Betrieb des Audio-kodier-/-dekodier-Blocks 260, des Kanal-kodier-/-dekodier-Blocks 270 sowie des RF-Blocks 280, des Mobilendgerätes 250, durch eine Steuerung 290 gesteuert, welche einen zugehörigen Speicher 292 aufweist. Demzufolge wird der Betrieb des Audio-kodier-/-dekodier-Blocks 210, des Kanal-kodier-/-dekodier-Blocks 220, sowie des RF-Blocks 230, der Netzwerkstation 200, durch eine Steuerung 240 gesteuert, welche einen zugehörigen Speicher 242 aufweist.
3 stellt den Audiokodierer 262 der 2, in größerem Detail dar. In der bevorzugten Ausführungsform, schließt der Kodierer 262 einen AMR-WB Kernschichtcodec 304 ein, welcher vom CELP-Typ ist, sowie einen AAC-Erweiterungsschichtcodec, welcher durch die Mehrheit der Elemente in 3 gebildet wird. Der Erweiterungsschichtcodec der bevorzugten Ausführungsform ist ein MPEG-4 AAC Codec; jedenfalls könnte auch MPEG-2 AAC ISO/MPEG Audio Layer-3 (MP3), oder jeder andere Frequenztransformierende Codec, mit z.B. einer diskreten Kosinustransformation, oder einer Wavelet-Transformation als Erweiterungsschichtcodec, innerhalb des Bereichs der Erfindung verwendet werden. Die Auswahl des Kernschichtcodecs ist nicht zentral in der vorliegenden Erfindung; verschiedene andere bekannte Codecs (vorzugsweise, aber nicht notwendigerweise CELP-Codecs), können anstatt des AMR-WB CELP Codecs 304 verwendet werden, einschließlich, aber nicht beschränkt auf MP3, AAC, AMR-NB (Adaptive Multi-Rate Narrow Band) oder EFR (Enhanced Full Rate).
Skalierbare Audiokodierung, die eine CELP-Kernschichtkodierung, sowie eine AAC Erweiterungsschichtkodierung einbezieht, ist an sich in dem technischen Feld wohl bekannt; folglich ist hierin keine detaillierte Beschreibung erforderlich. Bezug genommen wird beispielsweise auf ISO/IEC 14496-3:2001 (E), Subpart 4. Außerdem sind AMR-WB CELP Codecs in dem 3rd Generation Partnership Project (3GGP) TS 26.190 V5.0.0 (2001-3) beschrieben. Daher ist aus Gründen der Klarheit die 3 keine komplette Darstellung einer AMR-WB CELP Kernschicht und eines AAC Erweiterungschichtaudiokodierers, dient aber eher der Darstellung der zentralen Aspekte der vorliegenden Erfindung. Folglich sind einige Audiokodierelemente für den AAC-Erweiterungsschichtcodec, beispielsweise in Fig. ausgelassen worden:
TNS zeitliche Rauschformung (Temporal Noise Shaping). Flacht die zeitliche Hülle des Audiosignals, das kodiert werden soll ab, um die Feinzeitstruktur (fine time structure) des Kodierrauschens zu steuern.
LTP Langzeitvoraussage (Long Term Prediction) und Voraussage. Reduziert die Redundanz des Funksignals mittels Voraussage.
Intensity/Coupling. Verbessert die Stereokodierfähigkeit.
PNS Wahrnehmungsrauschaustausch (Perceptual Noise Substitution). Liefert eine wirksame Darstellung von rauschartigen Kanälen.
M/S (Mid/Side stereo). Erweitert die Darstellungsqualität und verbessert gewissermaßen die Kodiereffizienz.
Wie in der Zeichnung zu sehen ist, empfängt der Audiokodierer ein digitales, nicht-komprimiertes Audioeingabesignal 300, wie ein PCM-Signal oder, im Wesentlichen, jedes andere digitale, in dem technischen Feld bekannte Audiosignal. Das Audiosignal kann beispielsweise von dem Musik- oder Funkübertragungsströmungsserver 122 in 1, von dem PSTN 130, als ein Tonsignal übertragen werden, usw. alternativ kann der Audiokodierer angepasst werden, um ein analoges elektrisches Signal von z.B. einem Mikrofon zu empfangen, und das analoge Signal in ein digitales Signal, mittels einer gewöhnlichen A/D Wandlung zu wandeln, wie es für einen Fachmann leicht ersichtlich ist.
In der bevorzugten Ausführungsform, wird die Audiokodierung auf einer frame-by-frame Basis gebildet, bei der jeder Rahmen eine Vielzahl von Audioabtastungen, innerhalb einer vorbestimmten Zeitperiode umfasst, wie ein Vielfaches von 10 ms. Die Audioabtastungen von benachbarten Rahmen können entweder nicht-überlappend oder teilweise überlappend sein.
Das Eingabesignal 300 wird zu einem Wahrnehmungsmodell 330 gesendet, dessen Zweck später erklärt werden wird. Außerdem wird das Eingabesignal 300 zu dem Kernschichtcodec 304, in folgender Weise geliefert. Zuerst wird das Eingabesignal 300, bei 302 abgetastet, mit einer Tastrate, die für den Kernschichtcodec 304 angemessen ist. Dann wird eine Kernschichtkodierung bei 306 durchgeführt und eine Kernschichtausgabe 310, wird bei 312, zusammen mit einer Ausgabe 370, von dem Erweiterungsschichtcodec gemultiplext, um einen kodierten Audioausgabestrom 314 zu bilden, welcher dann bei 222 in 2 kodiert wird.
Außerdem dekodiert der Kernschichtcodec 304 das kodierte Kernschichtsignal 308 und tastet das dekodierte Ergebnis, bei 316 auf, um ein rekonstruiertes Kernschichtsignal 318 zu erzeugen, welches eine Darstellung des Signals, nach der Kernschichtkodierung und -dekodierung ist. Wie bei der gesamten Wahrnehmungsaudiokodierung, bezieht der Kernschichtcodec 304 etwas Verzerrung in den Audiodaten mit ein. Deshalb wird das rekonstruierte Kernschichtsignal 318 nicht dasselbe sein, wie das originale Eingangssignal 300.
Das originale Eingangssignal 300 wird in einer Filterbank 320, in ein entsprechendes Signal 324, in dem Frequenzbereich transformiert. Dementsprechend wird das rekonstruierte Kernschichtsignal 318 in einer Filterbank 322, in den Frequenzbereich transformiert. Sogar die in 3, als separate Elemente dargestellten Filterbanken 320 und 322, können als eine gemeinsame Filterbank implementiert werden, was eine modifizierte diskrete Kosinus-Transformation (MDCT), gemäß dem MPEG-4 Standard anlegt.
Wie durch eine gepunktete Linie 328 in 3 angezeigt, können die Filterbanken 320, 322 optional durch eine Ausgabe von dem Wahrnehmungsmodel 330 gesteuert werden um, falls nötig, die Fensterlänge der Filterbanken zu reduzieren. Die MDCT transformiert in den Filterbanken 320 und 322 erzeugte spektrale Audiorahmen, welche eine Vielzahl von Frequenzsubbändern aufweisen. 4 stellt ein Beispiel eines solchen Audiorahmens 400 dar, welcher 49 Sub-Bänder 401, 402, ..., 449, mit insgesamt 1024 MDCT-Koeffizienten aufweist. Die Subbänder können teilweise überlappt, oder alternativ nicht-überlappt sein. Wie in 4 zu sehen, weisen die niedrigeren Frequenzsubbänder weniger MDCT-Koeffizienten pro Sub-Band auf, als höhere Frequenz-Sub-Bänder. Das transformierte Originalsignal 324, wird an eine frequenzselektive Schaltungseinheit (FSSU) 332 und außerdem an eine Subtraktionseinheit 334 gespeist, welche auch das transformierte Kernschichtsignal 326 empfängt. Die Subtraktionseinheit 334, erzeugt durch das Subtrahieren der MDCT-Koeffizienten des Kernschichtsignals 326, von denen des Originalsignals 324, ein Restsignal 336. Das Restsignal 336 wird an die FSSU 332 übertragen, und ist eine Anzeige der durch den Kernschichtcodec 304 verursachten Fehler.
Für jedes Sub-Band 401–449 des spektralen Audiorahmens 400, berechnet die FSSU 332 die Wahrnehmungsentropien 338, 340 des Originalsignals 324 und entsprechend des Restsignals 332. Die Wahrnehmungsentropie, welche sich auf den geschätzten Betrag der benötigten Bits zur Kodierung eines individuellen Sub-Bandes bezieht, kann berechnet werden als
Wahrnehmungsentropie = Signalenergie/Maskierungsgrenzwert,
bei der die Signalenergie gemäß einem der verschiedenen Wege, die in dem technischen Feld wohlbekannt sind, berechnet wird. Der Maskierungsgrenzwert wird durch das Wahrnehmungsmodel 330 bereitgestellt und stellt den Grenzwert dar, unter dem die Inhalte des Sub-Bandes nicht mehr für das menschliche Ohr hörbar sind. Der Maskierungsgrenzwert, kann ebenfalls auf zwei verschiedenen Wegen bestimmt werden, einer wird beschrieben in Wang, Y., Vilermo, M. "An Excitation Level Based Psychoacoustic Model for Audio Compression", siebte ACM International Multimedia Conference, 30 October bis 4. November, 1999 Orlando, Florida, USA.
Bei 342 vergleicht die FSSU 332 die berechneten Wahrnehmungsentropien 338, 340, bestimmt welches der Signale 324 und 336 die geringste Wahrnehmugsentropie hat (und, folglich, weniger Bits zum Kodieren mit der selben Qualität benötigt) und setzt entsprechend eine individuelle Steuerungsinformationsmarkierung 501–549 in der FSS-Anordnung 500, was in 5 zusehen ist. Folglich wird entsprechend von der FSSU 332, für die verschiedenen Sub-Bänder 401–449 bei 344 und 346, entweder das Originalsignal 324, oder das Restsignal 336, entsprechend als Ausgabe 360 und 362 ausgewählt. Jedes Sub-Band 401–449 des Audiorahmens 400, weist eine entsprechende individuelle Markierung 501–549 auf, welche vorzugsweise durch ein einzelnes Binärzeichen dargestellt wird. Die FSS-Anordnung wird zusammen mit den kodierten Audiodaten 310, 370 in dem gemultiplexten Bitstrom 314, auf die Empfängerseite übermittelt und wird dem Dekodierer anzeigen, ob das Erweiterungsschichtsignal dem Kernschichtsignal, während des Dekodierens der empfangenen kodierten Audiodaten hinzugefügt werden soll.
Die Ausgabe von der FSSU 332 ist gemäß den Bit-Einstellungen in der FSS-Anordnung 500 zusammengesetzt, durch das Kopieren der MDCT Koeffizienten des Originalsignals 324/360 oder des Restsignals 336/362, für jedes einzelne Frequenzband 401–449 in eine gemeinsame Rahmenanordnung, die das in 4 gezeigte Format aufweist. Diese angeordnete Ausgabe, bezieht sich auf einen einfachen AAC-Erweiterungsschichtcodec, und wird zu einem Rate/Verzerrungskontrollprozess 348 geliefert, welcher später mit Bezug auf die 6 und 7 in größerem Detail beschrieben wird.
Zusätzlich zu dem oben genannten und gemäß der vorliegenden Erfindung, wird das Restsignal 336 parallel verglichen mit dem Maskierungsgrenzwert 350, für das aktuelle Frequenzband 401–449, wie bei 356 gesehen werden kann. Wenn das Restsignal allerdings unter dem Maskierungsgrenzwert gefunden wird, bedeutet dies, dass der durch die Kernschicht 304 verursachte Fehler, in dem aktuellen Frequenzband nicht hörbar ist. Deshalb ist es in einem solchen Fall ausreichend, in diesem bestimmten Frequenzband nur Nullen als ein Erweiterungssignal zu kodieren, wie in 358 und 364 gezeigt. Diese Bedingung hat die höchste Priorität und überstimmt die Ausgabe 360/362 der Wahrnehmungsentropieberechnung, dadurch wird ein zusätzlicher Vorteil in einer etwas schnelleren Berechnung des nachfolgenden Quantisierungsprozesses angeboten.
Außerdem wird bei 352 und 354 die Differenz zwischen dem Maskierungsgrenzwert 350 und dem Restsignal 334 für jedes Frequenzband 401–449 berechnet. Für eine verbesserte Genauigkeit, kann eher die schnelle Fourier-Transformation, als die MDCT-Koeffizienten für diese Berechnung verwendet werden. Die Ergebnisse werden für jeden Rahmen 400 gesammelt und spiegeln eine Messung für die Qualität und die Kernschicht wieder, d.h. ob der Kernschichtcodec 304, während des Kodierens des Audioeingangssignals 300 bei der Kernschicht, gut oder schlecht durchgeführt wurde. Wie später beschrieben wird, wird die Kernschichtqualitätsmessung für jeden Rahmen, als ein Multiplikationsfaktor verwendet (siehe 710 in 7), welcher auf den Quantisierungsfehler in dem nachfolgenden Quantisierungsprozess in 348 angewendet wird, bevor er mit dem Restsignal verglichen wird.
Der Rate/Verzerrungskontrollprozess 348, wie gemäß der bevorzugten Ausführungsform modifiziert, wird nun mit Bezug auf die 6 und 7 beschrieben. Er basiert auf dem normalen Rate/Verzerrungskontrollprozess in AAC, der eine Skalierfaktoreneinheit, eine Quantisierungseinheit und eine rauschlose Kodiereinheit einschließt, welche im Detail in Annex 4.B.10-11, des oben erwähnten ISO/IEC 14496-32001 (E), Subpart 4 beschrieben wird.
Das Hauptziel des Rate/Verzerrungskontrollprozesses ist es, Quantisierung und rauschloses Kodieren des Audiosignals, das kodiert werden soll, bereitzustellen. Gemäß der bevorzugten Ausführungsform, wird der Quantisierungsprozess 600 in ein zweistufiges Verfahren aufgeteilt: Zunächst wird ein erster AAC-Quantisierungsprozess 610, für alle Sub-Bänder durchgeführt. Dieser erste AAC-Quantisierungsprozess ist im Gegensatz zu der AAC-Standard-Quantisierung in der Richtung modifiziert, dass der Quantisierungsfehler in Hinblick auf das Restsignal wiederholt abgeschätzt wird, und dass in Antwort auf diese Abschätzung entschieden werden kann, das Restsignal mit Nullen für einige Sub-Bänder auszutauschen. Der eigentliche Austausch geschieht nur sobald alle Sub-Bänder verarbeitet wurden, wie bei 620 in 6 angezeigt. Schließlich wird ein zweiter AAC-Quantisierungsprozess 630, für alle restlichen (d.h., nicht-null) Sub-Bänder durchgeführt; diesmal, jedoch ohne irgendwelche Null-Ersetzungen, durchgeführt.
Der modifizierte Rate/Verzerrungskontrollprozess der AAC-Quantisierung 610 wird in größerem Detail in 7 dargestellt. Ein Signal 702 wird von der FSSU 332 geliefert und stellt die Stromfrequenzbereichabtastungen dar, die quantifiziert werden sollen. Bei 706 werden die Abtastungen mehrere Male, auf verschiedene Weise, mit verschiedenen Skalierungsfaktoren quantifiziert. Nach jeder Quantisierung, wird der Quantisierungsfehler bei 708 berechnet und bei 718 abgeschätzt. Jedes Mal versucht der Prozess, die verfügbaren Bits, auf verschiedene Frequenzbänder in einer Weise zu verteilen, welche die Hörbarkeit des Quantisierungrauschens minimiert. Dies ist durch das Wechseln der Skalierungsfaktoren für verschiedene Frequenzbänder getan worden. Die Skalierungsfaktoren (einer für jedes Band) kontrollieren die Quantisierungsschrittgröße, folglich werden verschiedene Rauschmengen jedem Frequenzband zugeordnet. Nach jeder Quantisierungsrunde, wird das Rauschen in jedem Band kontrolliert und in den Bändern, bei denen das Rauschen äußerst störend ist, wird die Quantisierungsschrittgröße in der nächsten Runde reduziert.
Allerdings läuft dieser Prozess nicht unbedingt zu einem umfassenden Optimum zusammen, und folglich, kann der Kerncodec für einige Frequenzbänder einen geringeren Fehler erzeugen, als der quantifizierte Rest. Für diese Bänder, ist es dann vorteilhaft, stattdessen das Kerncodecsignal alleine zu verwenden. Es sollte vermerkt werden, dass das Signal unter Quantisierung, entweder das originale Signal, oder das Restsignal sein kann (Kerncodecsignal abgezogen von dem Originalsignal).
Folglich wird das Folgende mit Bezug auf die Blöcke 710–720 in 7 durchgeführt. Eher wird das Minimum des Quantisierungsrauschens und des Rauschens, das aus der Verwendung der Kerncodecausgabe alleine stammt (d.h. das Restsignal 704, welches von der FSSU 332 übermittelt wird) bei 714 geprüft, als lediglich das Quantisierungsrauschen nach jeder Quantisierungsrunde zu prüfen. Wenn die Kerncodecausgabe gut genug ist, besteht kein Bedarf, die Quantisierungsschrittgröße für dieses Frequenzband zu reduzieren. Wenn sowohl das Quantisierungsrauschen, als auch das Kerncodecrauschen zu hoch sind, wird die Schrittgröße reduziert.
Wenn der Kerncodec im Allgemeinen gute Arbeit leistet (wie es mit Sprachsignalen und einem Sprachkerncodec geschehen würde), ist es vorteilhaft, die Fehlerberechnung noch weiter zu modifizieren. Wenn der Kerncodec gute Arbeit leistet, wird sich dies in den Werten der Kernschichtqualitätsmessung 710 wiederspiegeln, wie bei 354 in 3 abgeleitet. In einem solchen Fall, kann das Kerncodecsignal dennoch alleine verwendet werden, sogar wenn die durch die Verwendung des Kerncodecs alleine verursachten Fehler, etwas größer wären, als die Quantisierungsfehler. Die Verwendung des Kerncodecsignals in Frequenzbändern, bei denen der Kerncodecfehler etwas größer ist, als der Quantisierungsfehler, werden Bits zur Verwendung in anderen Bändern verfügbar machen, bei denen der Kerncodecfehler viel größer ist, als der Quantisierungsfehler. Deshalb werden die Quantifizierungsfehler, die bei 708 erzeugt werden, durch einen Ablauf der Kernschichtqualitätsmessung, bei 712 in 7 vervielfacht, bevor sie mit dem Kernschichtrauschen bei 714 verglichen werden. Dieser Ablauf kann beispielsweise auf einem einfachen Grenzwert basieren. Wenn der Kerncodec gute Arbeit leistet, bleibt die Kernschichtqualitätsmessung über dem Grenzbereich (z.B. 0), und der Quantifizierungsfehler wird, durch eine vorbestimmte Konstante, wie 4, vervielfacht. Anderenfalls bleibt der Quantisierungsfehler unverändert, bei 714, in dem Vergleich.
Die Quantisierungsschleife, die folglich gebildet wird, weist drei Abbruchbedingungen auf:

1. kein erkennbarer Quantisierungsfehler erschienen,
2. keine weitere Reduzierung des Quantifizierungsfehlers ist möglich, und
3. die Maximalgrenze an Schleifenläufen wurde erreicht.

Nachdem mehrere Quantisierungsrunden abgelaufen sind, werden die Abbruchbedingungen erreicht. In dem Fall dass es in einigen Frequenzbändern doch besser ist, die Kerncodecausgabe zu verwenden, anstatt des quantifizierten Ergebnisses, wird das quantifizierte Ergebnis in diesen Bändern mit Nullen ersetzt, wie bei 720 angezeigt. Zusätzlich, wird die FSS-Information für dieses Band markiert (siehe 716), um anzuzeigen, dass das Restsignal verwendet wird, was tatsächlich darin resultiert, dass der Dekodierer nur das Kerncodecsignal in diesen Bändern verwendet. (In letzterem Fall, werden die Bits nicht neu zugeteilt, aber das Verfahren führt zu Abspeicherungen der Bits.) Wenn dort Frequenzbänder sind, die durch Nullen ausgetauscht wurden, benötigt das quantisierte Signal weniger Bits, als berechnet wurde. Durch die Verwendung eines Bit-Puffers zwischen Rahmen, können diese Bits zur Verwendung für die folgenden Rahmen bleiben. Diese Bits können auch verwendet werden, um die Quantisierung des gegenwärtigen Rahmens, durch das nochmalige Betreiben der Quantisierungsschleife zu verbessern, wie bei 630 in 6 angezeigt, wobei aber diesmal mit dem Endergebnis, welches das erste Mal erreicht wurde, begonnen wird, d.h. in Schritt 610 der 6, und es in einigen Frequenzbändern mögliche Nullersetzungen enthält, wie oben erwähnt. Während des zweiten Quantisierungsprozesses 630, wird das Signal ohne Modifikationen in der Fehlerberechnung, welche für den ersten Quantisierungsprozess 610 erklärt wurden, quantisiert, d.h. die Quantisierung in Schritt 630 stimmt völlig mit dem MPEG-4 AAC Standard überein.
Als eine Alternative zu dem oben genannten ist es eher möglich, zu entscheiden, welche Sub-Bänder durch Nullen ersetzt werden sollen, sowie die Bitraten der restlichen (nicht durch Nullen ersetzten) Sub-Bänder in einem gewöhnlichen Quantsierungsprozess zu bestimmen, als einen ersten Quantisierungsprozess für alle Subbänder durchzuführen, die relevanten Sub-Bänder durch Nullen zu ersetzen und dann einen zusätzlichen Quantisierungsprozess für die restlichen Sub-Bänder durchzuführen.
Der Audiokodierer gemäß der Erfindung kann vorzugsweise in einen Audiocodeumsetzer eingeschlossen sein, z.B. in ein GSM- oder UMTS-Netzwerk. In GSM heißt ein solcher Audiocodeumsetzer, Codeumsetzer/Raten-Anpassungseinheit (transcoder/rate adapter unit) (TRAU), und liefert eine Konvertierung zwischen 64 kbps PCM-Sprache von dem PSTN 130 zu full rate (FR) oder enhanced full rate (EFR) 13–16 kbps digitalisierte GSM-Sprache, und umgekehrt. Der Audiocodeumsetzer kann an der Basisübertragungsstation (BTS) angeordnet werden, welche ein Teil des Basisstationssubsystems (BSS) ist, oder alternativ bei der Mobilen Vermittlungsstelle (MSC).
Die skalierbare Audiokodierung die oben funktionsgemäß beschrieben ist, kann als eine integrierte Schaltung (ASIC) oder als jede andere Form von digitaler Elektronik realisiert werden. In einer alternativen Ausführungsform, kann die oben erwähnte skalierbare Audiokodierfunktion als ein Computerprogrammprodukt implementiert werden, welches direkt in einen Speicher eines Prozessors – vorzugsweise die Steuerung 240/290, und seine verbundenen Speicher 242/292 der Netzwerkstation 200/Mobilstation 250 der 2 ladbar ist. Das Computerprogrammprodukt umfasst einen Programmcode zum Bereitstellen der skalierbaren Audiokodierfunktionalität, wenn es durch den Prozessor angewendet wird.
Der Audiokodierer gemäß der Erfindung kann auch, zum Bereitstellen von Audiodiensten an Netzwerkkunden (wie die tragbaren Vorrichtungen 100, 112 in 1), in einen Netzwerkserver eingeschlossen werden (wie der Server 122 in 1).
Der Audiokodierer gemäß der Erfindung kann auch in einen Netzwerkserver eingeschlossen sein (wie der Server 122 in 1), zum Bereitstellen von Audiodiensten an Netzwerkkunden (wie die tragbaren Vorrichtungen 100, 112 in 1).
Wie vorstehend erklärt, müssen auf der Dekodiererseite in den oben erwähnten Ausführungsformen der Erfindung keine Änderungen vorgenommen werden, da der Dekodierer die MDCT-Koeffizienten des vorhergehenden Schichtausgabesignals in jedem Sub-Band 401–449, welches in dem FSS-Array 500 markiert ist anhängen wird. Jedenfalls schließt eine alternative Ausführungsform der Erfindung einen modifizierten Dekodierer ein, welcher angepasst ist, um einen geschichteten Datenstrom zu empfangen, der ein erstes Schichtsignal und mindestens ein kodiertes zweites Schichtsignal enthält. Der Datenstrom wird kodierte Rahmen mit einer Vielzahl von spektralen Sub-Bändern beinhalten, kann aber andererseits ein beliebiges bekanntes Format aufweisen. Nachdem sowohl das erste Schichtsignal, als auch das zweite Schichtsignal dekodiert wurden, analysiert der Dekodierer das zweite Schichtsignal und bestimmt eine Wahrnehmungsqualitätsmessung für jedes Sub-Band. Dann entscheidet der Dekodierer ob die Wahrnehmungsqualitätsmessung vorbestimmte Kriterien einhält und falls ja, wird die zweite Schicht mit dem ersten Schichtsignal für das besagte Sub-Band kombiniert, um ein dekodiertes Ausgabesignal zu erzeugen. Andererseits wird das dekodierte Ausgabesignal von dem ersten Schichtsignal, alleine für dieses Sub-Band erzeugt, d.h. das zweite Schichtsignal wird mit Nullen ersetzt.
Die Wahrnehmungsqualitätsmessung kann in den empfangenen geschichteten Datenstrom eingeschlossen werden, d.h. von der Kodiererseite stammen. Alternativ kann der Dekodierer Wahrnehmungsqualitätsmessung durch Identifizierung, in dem dekodierten Signal der zweiten Schicht, unnatürlichen Audiokomponenten, wie Spitzen, Rauschen oder unerwartete Wellenformen erhalten, und infolgedessen entscheiden, dass das dekodierte Signal der zweiten Schicht verzerrt ist und nicht an das dekodierte erste Schichtsignal angehängt werden sollte.
Die Erfindung wurde vor allem vorstehend, mit Bezug auf eine bevorzugte Ausführungsform beschrieben. Jedenfalls sind, wie es leicht für einen Fachmann ersichtlich sein wird, andere Ausführungsformen, als die oben offenbarten, innerhalb des Bereichs der Erfindung ebenso möglich, wie durch die angehängten Patentansprüche definiert.
Es ist hervorzuheben, dass die Erfindung nicht auf eine Basisschicht und eine Erweiterungsschicht begrenzt ist; die Grundsätze der Erfindung können ebenso auf zwei nachfolgende Erweiterungsschichten, in einem Mehrschichtaudiokodierverfahren angewendet werden. Zusätzlich wird die FSS-Information, in einer alternativen Ausführungsform benutzt und nur für einige Frequenzbänder, nicht für alle, an die Empfängerseite übertragen. Dies kann in einer Situation nützlich sein, bei der die Erweiterungsschicht nur zur Verbesserung der Hochfrequenzen benutzt wird. Folglich besteht kein Bedarf die FSS-Information für die niedrigen Frequenzen zu senden. Natürlich muss die Empfängerseite über diese Tatsache, – entweder durch Voreinstellung oder durch ein anfängliches „Hnandshaking" mit der Senderseite benachrichtigt werden.
Außerdem sind der Audiokodierer, der Dekodierer, der Codeumsetzer, das Computerprogramm und die oben beschriebene integrierte Schaltung nicht durch die oben beispielhaft erläuterten Orte eingeschränkt. Beispielsweise kann der Audiokodierer in jeder der Audioübertragungsvorrichtungen, die in 1 gezeigt sind oder in einer anderen Audioübertragungsvorrichtung, die hier nicht explizit gezeigt oder beschrieben ist, angeordnet werden.

Claims

Audiokodier-Verfahren zum Kodieren von Audiosignalen in einen geschichteten Datenstrom, der eine erste Schicht und eine zweite Schicht aufweist, wobei die zweite Schicht als eine Erweiterung der erste Schicht dient, wobei das Verfahren die Schritte umfasst: – Bilden eines originalen digitalen Audiosignals (300); – Kodieren des Originalsignals (300) um ein Signal der ersten Schicht (310) zu erhalten; – Erzeugen eines Restsignal (336), um eine Differenz zwischen dem Originalsignal und dem Signal der ersten Schicht wiederzugeben; – Auswählen entweder des Originalsignals oder des Restsignals zum Kodieren; und – Erzeugen eines Signals der zweiten Schicht durch Kodieren des ausgewählten Signals; gekennzeichnet durch – Auswerten des Restsignals (336); und im Falle, dass das Ergebnis der Auswertung gegebene Kriterien erfüllt, – Auswählen, anstelle des Originalsignals oder des Restsignals, eines vorbestimmten Signals niedrigen mittleren Informationsgehalts, um als das Signal der zweiten Schicht kodiert zu werden.
Verfahren nach Anspruch 1, wobei das originale digitale Audiosignal (300) und das Restsignal (336) eine Vielzahl von Frequenzbändern (401–449) umfassen, und wobei die Schritte des Auswertens des Restsignals und des Auswählens des vorbestimmten Signals niedrigen mittleren Informationsgehalts einzeln für die Vielzahl von Frequenzbändern ausgeführt werden.
Verfahren nach Anspruch 1 oder 2, wobei der Auswerteschritt Vergleichen des Restsignals (336) mit einem Maskierungs-Schwellwert (350) einschließt und wobei die Kriterien einschließen, dass das Restsignal als unter dem Maskierungs-Schwellwert befindlich erkannt wird.
Verfahren nach einem der Ansprüche 1–3, wobei der Auswerteschritt Berechnen eines Fehlers einschließt, der durch Quantisierung entweder des Originalsignals (324) oder des Restsignal (336) entstanden ist.
Verfahren nach Anspruch 4, wobei die Kriterien einschließen, dass der Fehler, der durch Quantisierung entstanden ist, wahrnehmbar ist.
Verfahren nach Anspruch 4 oder 5, wobei die Kriterien einschließen, dass der Fehler, der durch Quantisierung entstanden ist, größer ist als das Restsignal.
Verfahren nach einem der Ansprüche 2 bis 6, umfassend den zusätzlichen Schritt des Erhöhens der Bitrate von mindestens einem der Vielzahl von Frequenzbändern (401–449), für die das Restsignal nicht durch das vorbestimmt gleichförmige Signal ersetzt wurde.
Verfahren nach einem der Ansprüche 2–6, umfassend den zusätzlichen Schritt des Reduzierens der totalen Bitrate für die Vielzahl von Frequenzbändern (401–449) als Ganzes.
Verfahren nach einem der Ansprüche 2–6, umfassend den zusätzlichen Schritt des Reduzierens der Quantisierungsfehlers von mindestens einem der Vielzahl von Frequenzbändern (401–449), für die das Restsignal nicht durch das vorbestimmt gleichförmige Signal ersetzt wurde.
Verfahren nach einem der vorangegangenen Ansprüche, wobei das vorbestimmte Signal niedrigen mittleren Informationsgehalts ein konstantes Niedrig-Amplituden-Signal ist.
Verfahren nach Anspruch 10, wobei das vorbestimmte Signal niedrigen mittleren Informationsgehalts Null-Amplitude aufweist.
Verfahren nach einem der vorangegangenen Ansprüche, wobei das Signal der ersten Schicht ein Kernschicht-Signal ist.
Verfahren nach Anspruch 12, wobei das Signal der ersten Schicht durch adaptive Multi-Rate-Breitband (AMR-WB)-Kodierung erzeugt wird.
Verfahren nach einem der vorangegangenen Ansprüche, wobei das Signal der zweiten Schicht durch AAC (Advanced Audio Coding)-Kodierung erzeugt wird.
Verfahren nach einem der Ansprüche 2–14, umfassend die zusätzlichen Schritte – Ansammeln eines Kernschicht-Qualitätsmaßes (710) für die Vielzahl von Frequenzbändern durch Summierung der Differenzen zwischen den Maskierungs-Schwellwerten (350) und den Restsignalen (336) für die einzelnen Frequenzbänder, und – Verwendung des Kernschicht-Qualitätsmaßes, wenn das Restsignal (336) ausgewertet wird.
Verfahren nach einem der vorangegangenen Ansprüche, umfassend den zusätzlichen Schritt des Dekodierns des Signals der ersten Schicht, um ein dekodiertes Signal der ersten Schicht (310) zu erhalten, wobei das Restsignal (336) eine Differenz zwischen dem Originalsignal und dem dekodierten Signal der ersten Schicht wiedergibt.
Computerprogrammprodukt, das direkt in einen Speicher (242) eines Prozessors (240) geladen werden kann, wobei das Computerprogrammprodukt Programmcode umfasst, um das Verfahren gemäß einem der Ansprüche 1–16 durchzuführen, wenn es durch den Prozessor ausgeführt wird.
Integrierter Schaltkreis, der ausgelegt ist ein Verfahren gemäß einem der Ansprüche 1–16 auszuführen.
Audiokodiereinheit zum Kodieren von Audiosignalen in einen geschichteten Datenstrom, der eine erste Schicht und eine zweite Schicht aufweist, wobei die zweite Schicht als eine Erweiterung der erste Schicht dient, wobei die Kodiereinheit umfasst: – eine erstes Kodierelement (304), das in der Lage ist, ein originales digitales Audiosignal (300) in ein Signal der ersten Schicht (310) zu kodieren; – Mittel (334) zum Erzeugen eines Restsignal (336), um eine Differenz zwischen dem Originalsignal und dem Signal der ersten Schicht wiederzugeben; – eine erste Auswähleinheit (332), die ausgelegt ist, entweder das Originalsignal oder das Restsignal zum Kodieren als ein Signal der zweiten Schicht auszuwählen; und – ein zweites Kodierelement, das in der Lage ist, das Signal der zweiten Schicht durch Kodieren des ausgewählten Signals zu erzeugen; gekennzeichnet durch – Mittel zum Auswerten des Restsignals (336) und Bereitstellen einer Angabe, dass das Ergebnis der Auswertung gegebene Kriterien erfüllt, und – eine zweite Auswähleinheit (356), wobei die zweite Auswähleinheit mit den Auswertemitteln verknüpft ist und ausgelegt ist, bei Empfangen der Angabe, anstelle des Originalsignals oder des Restsignals, ein vorbestimmtes Signal niedrigen mittleren Informationsgehalts auszuwählen, um durch das zweite Kodierelement kodiert zu werden.
Audiokodiereinheit nach Anspruch 19, wobei das originale digitale Audiosignal (300) und das Restsignal (336) eine Vielzahl von Frequenzbändern (401–449) umfassen, und wobei die Mittel zum Auswerten des Restsignals und die zweite Auswahleinheit (356) ausgelegt sind, auf einzelnen der Vielzahl von Frequenzbändern zu arbeiten.
Audiokodiereinheit nach Anspruch 19 oder 20, wobei das erste Kodierelement eine adaptive Multi-Rate-Breitband (AMR-WB)-Kodiereinheit ist.
Audiokodiereinheit nach einem der Ansprüche 19 bis 21, wobei das zweite Kodierelement eine AAC (Advanced Audio Coding)-Kodiereinheit ist.
Audiokodeumsetzter umfassend eine Audiodekodiereinheit, wobei die Audiodekodiereinheit ausgelegt ist, ein Audio-Eingangssignal zu empfangen und zu dekodieren und eine Audiokodiereinheit gemäß einem der Ansprüche 19–22.
Audiodekodiereinheit, umfassend Mittel zum Empfangen eines geschichteten Datenstroms, der ein kodiertes Signal der erste Schicht und mindestens ein kodiertes Signal der zweiten Schicht umfasst, ein erstes Dekodierelement, das in der Lage ist, das Signal der ersten Schicht zu dekodieren und ein zweites Dekodierelement enthält, das in der Lage ist, das Signal der zweiten Schicht zu dekodieren, weiter umfassend: – Mittel zum Bestimmen eines Wahrnehmungs-Qualitätsmaßes für das Signal der zweiten Schicht; – Mittel zum Entscheiden, ob ein Wahrnehmungs-Qualitätsmaß vorbestimmte Kriterien erfüllt; – Mittel zum Kombinieren des Signal der zweiten Schicht mit dem Signal der ersten Schicht, um ein dekodiertes Ausgabesignal zu erzeugen, wenn das Wahrnehmungs-Qualitätsmaß vorbestimmte Kriterien erfüllt; und – Mittel zum Erzeugen des dekodierten Ausgabesignals aus dem Signal der ersten Schicht allein, wenn das Wahmehmungs-Qualitätsmaß die Kriterien nicht erfüllt.
Audiodekodiereinheit nach Anspruch 24, wobei das Wahrnehmungs-Qualitätsmaß in dem empfangenen geschichteten Datenstrom eingeschlossen ist.
Audiodekodiereinheit nach Anspruch 24, weiter umfassend Mittel zum Herleiten des Wahrnehmungs-Qualitätsmaßes durch Identifizierung unnatürlicher Audiokomponenten in dem dekodierten Signal der zweiten Schicht.
Audiodekodiereinheit nach Anspruch 26, wobei die unnatürlichen Audiokomponenten mindestens Spitzen, Rauschen oder unerwartete Wellenformen einschließen.
Station (200) für ein Mobil-Telekommunikationsnetz (110), umfassend mindestens eine Audiokodiereinheit gemäß einem der Ansprüche 19–22, eine Audiodekodiereinheit gemäß Anspruch 24 oder einen Audiokodeumsetzer gemäß Anspruch 23.
Station nach Anspruch 28, wobei die Station eine Basisstation (104) ist.
Station nach Anspruch 28, wobei die Station ein Mobilendgerät (100, 112) ist.