-
Feld der Erfindung
-
Die
vorliegende Erfindung betrifft ein Audiokodier-Verfahren zum Kodieren
von Audiosignalen in einem geschichteten Datenstrom, der eine erste Schicht
und eine zweite Schicht aufweist, wobei die zweite Schicht als eine
Erweiterung der ersten Schicht dient. Insbesondere bezieht sich
die vorliegende Erfindung auf ein Audiokodierverfahren, bei dem
ein originäres
bzw. originales digitales Audiosignal kodiert wird, um ein erstes
Schichtsignal zu erhalten, wobei ein Restsignal erzeugt wird, um
eine Abweichung zwischen dem originalen Signal und dem Signal der
ersten Schicht wiederzugeben, und entweder das originale Signal
oder das Restsignal ausgewählt
wird, um in ein Signal der zweiten Schicht kodiert zu werden.
-
Hintergrund
der Erfindung
-
Audio
d.h. akustische Energie ist naturgemäß analog. Dies ist praktisch,
jedenfalls, um Audio in digitaler Form zu Speicherungs- oder Übertragungszwecken
darzustellen. Reine digitale Audiodaten, die durch Abtastung und
Digitalisierung eines analogen Audiosignals erhalten werden, benötigen eine
große
Speicherkapazität
und Kanalbandbreite, insbesondere für Hochqualitätsaudiomaterial,
welches beispielsweise bei 16 Bits pro Abtastung, bei einer Abtastfrequenz
von 44 kHz dargestellt werden kann (normale Audio CD Qualität). Folglich
ist digitales Audiomaterial normalerweise gemäß verschiedenen bekannten Quellkodierverfahren
komprimiert.
-
Wahrnehmungs-Audiokodiertechniken,
wie MPEG Layer-3 (MP3), MPEG-2 und MPEG-4, machen alle Gebrauch
von den Signalmaskierungseigenschaften des menschlichen Ohrs, um
die Menge von Daten zu reduzieren. Indem dies gemacht wird, wird
das Quantisierungsrauschen auf solche Weise auf Frequenzbänder verteilt,
dass es durch das Gesamtsignal überdeckt
bzw. maskiert wird, d.h. es bleibt unhörbar. Eine beträchtliche Speichergrößenreduzierung
ist so mit kleinem oder keinem wahrnehmbaren Verlust der Audioqualität möglich.
-
Wahrnehmungs-Audiokodiertechniken
sind oft skalierbar und erzeugen einen geschichteten Bitstrom, welcher
eine Basisschicht und mindestens eine Erweiterungsschicht aufweist.
Dies ermöglicht eine
Bitratenskalierbarkeit, d.h. Dekodieren auf verschiedenen Audioqualitäts-Levels auf der Dekodiererseite
oder Reduzierung der Bitrate in dem Netzwerk, durch Verkehrs-Gestaltung
oder Bearbeitung bzw. Konditionierung. Ein Ansatz ist es, die Basisschichtkodierung
nur in mono bereitzustellen und eine Erweiterungsschichtkodierung
bereitzustellen, welche dem Audiomaterial Stereoqualität anhängt. Auf
diese Art und Weise ist es auf der Dekodiererseite möglich, zu
wählen,
nur die Basisschichtinformation zu dekodieren (zur Sicherheit in
dem Fall, dass die Empfängervorrichtung
auf der Dekodiererseite nur einen Sprecher aufweist) oder die Basisschichtinformation,
sowie die Erweiterungsschichtinformation so zu dekodieren, um Stereoklang
zu erzeugen.
-
Innerhalb
des Zusammenhangs von skalierbarer Audiokodierung, werden "Basisschicht" und "Kernschicht" als Synonym verwendet.
-
ISO/IEC
14496-3:2001(E), Subpart 4, beschreibt einen Teil des MPEG-4 Audiostandards
und deutet auf eine Kombination von entweder einem MPEG-4 konformen
Kerncodec, oder einem externen Kerncodec vom CELP-Typ (Code Excited
Linear Predicition), mit einem AAC (Advanced Audio Coding) Erweiterungsschichtcodec,
um eine effiziente Bitratenskalierbarkeit bereitzustellen.
-
Der
AMR-WB (Adaptive Multi-Rate Wideband) Sprachcodec ist ein Beispiel
eines CELP-Typ-Codecs,
der in der dritten Generation von Mobilendgeräten verwendet werden wird,
und ist in dem 3rd Generation Partnership Project (3GPP) TS 26.190
V5.0.0 (2001-03) beschrieben.
-
In
einer skalierbaren Audiokodieranordnung wie die, auf welche in dem
oben erwähnten
MPEG-4 Audiostandard Bezug genommen wurde, berechnet eine frequenzselektive Schaltungseinheit
(frequency selective switching unit) (FSSU) in dem Erweiterungsschichtkodierer
die Menge bzw. den Betrag von Bits, die benötigt werden, um entweder das
originale Audiosignal, oder ein Restsignal zu kodieren, welches
durch das Abziehen des originalen Signals und des rekonstruierten
Ausgangssignals der vorhergehenden Schicht (der Kernschicht) abgeleitet
wird. Die FSSU wählt
immer die Alternative, die weniger Bits zur Kodierung benötigt. Diese
Entscheidung wird für jedes
einzelne Subband (d.h. für
jede fixierte Gruppe von Spektrallinien, die das Signal darstellen),
innerhalb eines Audiorahmens gemacht. Um eine Rekonstruktion auf
der Dekodiererseite zu ermöglichen, muss
der Kodierer FSS-Steuerungsinformation übertragen, um anzuzeigen, welche
der zwei Alternativen für
jedes Sub-Band in jedem Audiorahmen ausgewählt wurden. Gemäß dieser
Steuerungsinformation, wird dann das Ausgangssignal des Erweiterungsschichtdekodierers,
an den Ausgang des Kernschichtdekodierers nur in diesen Sub-Bändern hinzugefügt, bei
denen das Restsignal kodiert wurde.
-
Jedenfalls
haben die gegenwärtigen
Erfinder das folgende Problem anhand einer skalierbaren Audiokodiervorrichtung,
wie die oben beschriebene, identifiziert. Insbesondere für niedrige
und bescheidene Bitrates, z.B. in dem Bereich von 12 kbps–24 kbps,
werden manchmal nicht genug Bits vorhanden sein, um das Erweiterungssignal
in einer solchen Weise zu kodieren, dass die Quantisierungsfehler nicht
wahrnehmbar bleiben. Auf der Kodiererseite, werden solche Fehler
wie Knallen, Knacken usw. klingen und werden deshalb sehr störend sein.
Tatsächlich
können
solche Fehler sogar zu einer Verminderung der wahrgenommenen Qualität, verglichen
mit dem Ausgangssignal der Kernschicht alleine führen.
-
Bei
dem Stand der Technik würde
man, um diesen Effekt zu verhindern, entweder den kodierten Frequenzbereich
beschränken
müssen,
mit der Gefahr des Verlustes von hörbarer Information, oder die Bitrate
für den
Erweiterungsschichtcodec erhöhen, was
keine wünschenswerte
oder sogar mögliche
Option, angesichts der vorhandenen Bandbreite sein kann.
-
Zusammenfassung
der Erfindung
-
Angesichts
der oben erwähnten
Umstände ist
es ein Ziel der Erfindung, wie durch die beigefügten unabhängigen Ansprüche festgelegt,
das Problem, welches oben behandelt wurde zu lösen, oder zumindest zu reduzieren,
und eine bessere Tonqualität
bei den selben oder reduzierten Bitraten bereitzustellen, als in
dem Stand der Technik.
-
Allgemein
wird das oben genannte Ziel mittels eines Audiokodierverfahrens,
einem Audiokodierer, einem Audiokodeumsetzer, einem Audiodekodierer,
einem Computerprogrammprodukt, einer integrierten Schaltung und
einer Station für
ein mobiles Telekommunikationsnetzwerk gemäß den beigefügten unabhängigen Patentansprüchen erreicht.
-
Einfach
ausgedrückt
wird das Ziel erreicht, durch die Berücksichtigung einer zusätzlichen
Alternative zum Kodieren des Erweiterungsschichtsignals, zusätzlich zu
der Auswahl zwischen dem Verwenden entweder des Rest- oder des Originalsignals,
in dem Stand der Technik. In einer bevorzugten Ausführungsform
besteht die Alternative aus dem Annehmen des Ausgangssignals der
Kernschicht, direkt als die Ausgabe der Erweiterungsschicht für einige
Sub-Bänder.
Dies wird vollbracht, indem das Restsignal mit Nullen, oder mit
einem anderen Signal mit einer ähnlich
geringen Entropie ersetzt wird und zeigt in der oben beschriebenen
FSS-Steuerungsinformation an, dass das Restsignal für das besagte Sub-Band
kodiert wird. Folglich wird kein zusätzlicher Overhead auf der Dekodiererseite
benötigt;
falls die FSS-Steuerungsinformation anzeigt, dass das Restsignal
kodiert worden ist und die zugehörigen
Frequenzsub-Bänder
in dem Kodierer durch Nullen ersetzt worden sind, wird das Ausgangssignal
der Kernschicht in dem Kodierer für diese Subbänder angehängt, und
ersetzt folglich die Nullen.
-
Die
Erfindung liefert mindestens zwei bedeutende Vorteile:
Erstens
kann die Erfindung verwendet werden, um sicherzustellen, dass der
durch Quantisierung verursachte Fehler nie größer ist als der Fehler, der
durch die Verwendung der vorangehenden Schicht alleine verursacht
wird. Zusätzlich,
da die hörbaren
Fehler, die durch die Quantisierung verursacht werden, sehr unerfreulich
sind, kann der Kodierer der momentanen Schicht gezwungen werden,
Nicht-null-Werte, zum Kodieren in nur diesen Frequenzsubbändern zu verwenden,
bei denen das Ausblenden des Quantisierungsfehlers sichergestellt
werden kann. Außerdem
ist eine "Bandspaltungs"-Annäherung verfügbar, gemäß der das
Ausgangssignal der vorangehenden Schicht komplett unverändert, für den unteren
Grenzfrequenzbereich bleibt, wobei der Erweiterungsschichtcodec
nur einige zusätzliche
Hochfrequenzkomponenten über
dem unteren Grenzfrequenzbereich kodiert. Diese Annäherung ist
insbesondere anwendbar für
Proben, die Sprache und einen Kernschichtcodec beinhalten, was die
Sprachkodierung gut ausführt.
-
Zweitens
reduziert die Erfindung die benötigte
Anzahl von Bits in dem Kodierprozess der Erweiterungsschicht. Das
Kodieren eines Frequenz-Sub-Bandes, welches nur Nullen, im Gegensatz
zu Nicht-null-Werten beinhaltet, wird gewöhnlich auch im schlimmsten
Fall einige Bits sichern. Dank diesem Aspekt der Erfindung wurde
in den Experimenten herausgefunden, dass bis zu 10 % Einsparung
in der gesamten Bitrate erreichbar sind. Dieser zweite Vorteil kann
entweder verwendet werden um die Bitrate des Erweiterungsschichtcodecs
zu reduzieren, oder um die Quantisierungsfehler der anderen Frequenzbänder in
demselben Rahmen zu reduzieren.
-
Zusätzlich zu
dem oben genannten, sehen die gegenwärtigen Erfinder ein schnelleres
Kodieren und Dekodieren von Audiosignalen vor, vorausgesetzt dass
der Kodierer und der Dekodierer vorgesehen sind, entsprechend Nullen
in einer effizienten Art und Weise zu kodieren und zu dekodieren.
-
Andere
Ziele, Eigenschaften und Vorteile der vorliegenden Erfindung, werden
aus der folgenden detaillierten Offenbarung der angehängten abhängigen Ansprüche, sowie
aus den Zeichnungen ersichtlich werden.
-
Kurze Beschreibung
der Zeichnungen
-
Eine
bevorzugte Ausführungsform
der vorliegenden Erfindung wird nun in größerem Detail beschrieben werden,
wobei Bezug auf die beiliegenden Zeichnungen genommen wird, in denen:
-
1 eine
schematische Darstellung eines Telekommunikationssystems ist, in
der die vorliegende Erfindung angewendet werden kann.
-
2 ein
schematisches Blockdiagramm ist, das einige der Elemente der 1 darstellt.
-
3 ein
schematisches Blockdiagramm eines skalierbaren Audiokodierers, gemäß einer
bevorzugten Ausführungsform
ist.
-
4 ein
veranschaulichendes spektrales Audiorahmenformat darstellt, welches
eine Vielzahl von Frequenzsubbändern
aufweist und welches für die
vorliegende Erfindung verwendet werden kann.
-
5 ein
frequenzselektives Schaltungs-(FSS)Feld darstellt, welches dazu
dient, die Ursprünge
des kodierten Audiosignals für
die verschiedenen Frequenzsubbänder,
des in
-
4 gezeigten
Audiorahmens, anzuzeigen.
-
6 kurz
die Hauptschritte zur Quantisierung des Audiosignals, mit minimierten
Quantisierungsfehlern und optimalen Bitraten gemäß der vorliegenden Erfindung
darstellt.
-
7 eine
modifizierte AAC Rate/Verzerrungskontrollschleife, zum Ausführen der
Quantisierung der 6 darstellt.
-
Detaillierte
Offenbarung der Ausführungsformen
-
1 ist
eine schematische Darstellung eines Telekommunikationssystems, in
dem die vorliegende Erfindung angewendet werden kann. In dem System
der 1, können
Audiodaten zwischen verschiedenen Einheiten 100, 112, 122 und 132,
mittels verschiedener Netzwerke 110, 120, und 130 übermittelt
werden. Die Audiodaten können
Sprache, Musik oder jede andere Art akustischer Information darstellen.
Folglich kann Sprache von einem Benutzer eines ortsfesten Telefons 132 durch
ein öffentliches
Telefonnetz (public switched telephone network) (PSTN) 130 und
ein Mobiltelekommunikationsnetzwerk 110, über eine
Basisstation 104 hiervon, über eine kabellose Nachrichtenverbindung 102,
zu einem Mobiltelefon 100, und umgekehrt übermittelt
werden. Das Mobiltelefon kann jede handelsüblich erhältliche Vorrichtung für jedes
bekannte Telekommunikationssystem, wie GSM, UMTS oder D-AMPS sein.
-
Außerdem kann
digital kodierte Musik, die in einer Datenbank 124 gespeichert
ist, von einem Server 122, über das Internet 120 und
das Mobiltelekommunikationsnetzwerk 110 zu dem Mobiltelefon 100, oder
zu einer anderen tragbaren Vorrichtung 112, welche Zugang
zu dem mobilen Telekommunikationsnetzwerk 110 hat, übertragen
werden. Die tragbare Vorrichtung 112 kann, beispielsweise
ein Minicomputer (personal digital assistant), ein Laptopcomputer mit
einer GSM oder UMTS Schnittstelle, ein schmuckes Headset oder anderes
Zubehör
für solche
Vorrichtungen usw. sein. Anstatt sie in der Datenbank 124 zu
speichern, können
Audiodaten, die durch den Server 122 geliefert werden,
direkt von einem optischen Speicher, wie einer CD oder DVD, gelesen werden.
Außerdem
kann der Server 122 verbunden werden mit, oder eingeschlossen
werden in eine Rundfunkstation, um strömende (streaming) Audiodienste über das
Internet 120, an die tragbaren Vorrichtungen 100, 112 zu
liefern.
-
Folglich
bedient das in 1 dargestellte System nur beispielhafte
Zwecke und verschiedene andere Situationen, bei denen Audiodaten
zwischen verschiedenen Einheiten übermittelt werden, sind innerhalb
des Bereichs der Erfindung möglich.
-
2 präsentiert
ein übliches
Blockdiagramm eines Mobilaudiodaten-Übertragungssystems, einschließlich eines
Mobilendgerätes 250 und einer
Netzwerkstation 200. Das Mobilendgerät 250 kann beispielsweise
das Mobiltelefon 100, der 1 darstellen,
wobei die Netzwerkstation 200, die Basisstation 104,
des Mobiltelekommunikationsnetzwerkes 110 in 1 darstellen
kann.
-
Das
Mobilendgerät 250 kann
Sprache über einen Übertragungskanal 206 (z.b.
die kabellose Verbindung 102 zwischen dem Mobiltelefon 100 und
der Basisstation 104 in 1), zu der
Netzwerkstation 200 übermitteln.
Ein Mikrophon 252 empfängt
eine akustische Eingabe von einem Benutzer des Mobilendgerätes 250,
und wandelt die Eingabe in ein entsprechendes analoges elektrisches
Signal um, welches an einen Audio-Kodier-/-dekodier-Block 260 geliefert
wird. Dieser Block weist einen Audiokodierer 262 und einen
Audiodekodierer 264 auf, die zusammen einen Audiocodec
bilden. Das analoge Mikrophonsignal wird gefiltert, abgetastet und
digitalisiert, bevor der Audiokodierer 262 eine Audiokodierung, die
auf das Telekommunikationsnetzwerk anwendbar ist, durchführt. Eine
Ausgabe des Audio-kodier-/-dekodier-Blocks 260 wird
an einen Kanal-kodier-/-dekodier-Block 270 geliefert, in
dem ein Kanalkodierer 272 eine Kanalkodierung an dem kodierten
Audiosignal, gemäß dem anwendbaren
Standard in dem Mobiltelekommunikationsnetzwerk durchführen wird.
-
Eine
Ausgabe des Kanal-kodier-/-dekodier-Blocks 270 wird an
einen Funkfrequenzblock (RF) block 280 geliefert, der einen
RF-Sender 282, einen RF-Empfänger 284 sowie eine
Antenne (nicht gezeigt in 2) einschließt. Wie
dem Fachbereich wohl bekannt ist, umfasst der RF Block 280 verschiedene
Schaltungen, wie Leistungsverstärker,
Filter, lokale Oszillatoren und Mischer, welche zusammen das kodierte
Audiosignal auf eine Trägerwelle
anpassen, welche als elektromagnetische Wellen, von einer Antenne
des Mobilendgerätes 250 aus
verbreitet werden.
-
Nachdem
es über
den Kanal 206 übermittelt worden
ist, wird das übertragene
RF-Signal, mit seinen darin enthaltenen, kodierten Audiodaten, durch einen
RF-Block 230 in der Netzwerkstation 200 empfangen. Ähnlich wie
Block 280 in dem Mobilendgerät 250, umfasst der
RF-Block 230 einen RF-Sender 232, sowie einen
RF-Empfänger 234.
Der Empfänger 234 empfängt und
demoduliert, in einer Art und Weise, die im Wesentlichen umgekehrt
zu dem Ablauf, der durch den Sender 282, wie oben beschrieben durchgeführt wurde,
das empfangene RF-Signal, und liefert eine Ausgabe zu einem Kanal-kodier-/-dekodier-Block 220.
Ein Kanaldekodierer 224 dekodiert das empfangene Signal
und liefert eine Ausgabe zu einem Audio-kodier-/-dekodier-Block 210,
in dem ein Audiodekodierer 214 die Audiodaten dekodiert,
die original durch den Audiokodierer 262 in dem Mobilendgerät 250 kodiert
wurden. Eine dekodierte Audioausgabe 204, beispielsweise
ein PCM-Signal, kann innerhalb des Mobiltelekommunikationsnetzwerkes 110 weitergeleitet
werden (um zu einem anderen Mobilendgerät übertragen zu werden, welches
in dem System eingeschlossen ist) oder kann alternativ zu z.B. dem
PSTN 130 oder dem Internet 120 weitergeleitet
werden.
-
Wenn
Audiodaten in entgegen gesetzter Richtung übermittelt werden, d.h. von
der Netzwerkstation 200, zu dem Mobilendgerät 250,
wird ein Audioeingangssignal 202 (wie das PCM-Signal) von z.B.
dem Server 122 oder dem ortsfesten Telefon 132 durch
einen Audiokodierer 212, des Audio -kodier-/-dekodier-Blocks 210 empfangen.
Nachdem das Audiokodieren auf das Audioeingangssignal angewendet
worden ist, wird das Kanalkodieren durch einen Kanalkodierer 222,
in dem Kanal-kodier-/-dekodier-Block 220 durchgeführt. Dann
wird das kodierte Audiosignal auf eine Trägerwelle, mittels eines Senders 232 des
RF-Blocks 230 moduliert,
und wird über
den Kanal 206 an den Empfänger 284, des RF-Blocks 280,
in dem Mobilendgerät 250 übermittelt.
Eine Ausgabe des Empfängers 284,
wird an den Kanaldekodierer 274 des Kanal-kodier-/-dekodier-Blocks 270 übermittelt,
wird darin kodiert und wird an den Audiokodierer 264 des
Audio -kodier-/-dekodier-Blocks 260 weitergeleitet. Die
Audiodaten werden durch den Audiodekodierer 264 dekodiert,
und werden schließlich
in ein analoges Signal gewandelt, welches gefiltert ist und an einen
Lautsprecher 254 geliefert wird, der das übertragene
Audiosignal, dem Benutzer des Mobilendgerätes 250 akustisch
darstellt. Wie allgemein bekannt, wird der Betrieb des Audio-kodier-/-dekodier-Blocks 260,
des Kanal-kodier-/-dekodier-Blocks 270 sowie des RF-Blocks 280,
des Mobilendgerätes 250,
durch eine Steuerung 290 gesteuert, welche einen zugehörigen Speicher 292 aufweist.
Demzufolge wird der Betrieb des Audio-kodier-/-dekodier-Blocks 210,
des Kanal-kodier-/-dekodier-Blocks 220,
sowie des RF-Blocks 230, der Netzwerkstation 200,
durch eine Steuerung 240 gesteuert, welche einen zugehörigen Speicher 242 aufweist.
-
3 stellt
den Audiokodierer 262 der 2, in größerem Detail
dar. In der bevorzugten Ausführungsform,
schließt
der Kodierer 262 einen AMR-WB Kernschichtcodec 304 ein,
welcher vom CELP-Typ ist, sowie einen AAC-Erweiterungsschichtcodec,
welcher durch die Mehrheit der Elemente in 3 gebildet
wird. Der Erweiterungsschichtcodec der bevorzugten Ausführungsform
ist ein MPEG-4 AAC Codec; jedenfalls könnte auch MPEG-2 AAC ISO/MPEG
Audio Layer-3 (MP3), oder jeder andere Frequenztransformierende
Codec, mit z.B. einer diskreten Kosinustransformation, oder einer
Wavelet-Transformation als Erweiterungsschichtcodec, innerhalb des
Bereichs der Erfindung verwendet werden. Die Auswahl des Kernschichtcodecs
ist nicht zentral in der vorliegenden Erfindung; verschiedene andere
bekannte Codecs (vorzugsweise, aber nicht notwendigerweise CELP-Codecs),
können
anstatt des AMR-WB CELP Codecs 304 verwendet werden, einschließlich, aber
nicht beschränkt
auf MP3, AAC, AMR-NB (Adaptive Multi-Rate Narrow Band) oder EFR
(Enhanced Full Rate).
-
Skalierbare
Audiokodierung, die eine CELP-Kernschichtkodierung, sowie eine AAC
Erweiterungsschichtkodierung einbezieht, ist an sich in dem technischen
Feld wohl bekannt; folglich ist hierin keine detaillierte Beschreibung
erforderlich. Bezug genommen wird beispielsweise auf ISO/IEC 14496-3:2001
(E), Subpart 4. Außerdem
sind AMR-WB CELP Codecs in dem 3rd Generation Partnership Project
(3GGP) TS 26.190 V5.0.0 (2001-3) beschrieben. Daher ist aus Gründen der
Klarheit die 3 keine komplette Darstellung
einer AMR-WB CELP Kernschicht und eines AAC Erweiterungschichtaudiokodierers,
dient aber eher der Darstellung der zentralen Aspekte der vorliegenden
Erfindung. Folglich sind einige Audiokodierelemente für den AAC-Erweiterungsschichtcodec,
beispielsweise in Fig. ausgelassen worden:
TNS zeitliche Rauschformung
(Temporal Noise Shaping). Flacht die zeitliche Hülle des Audiosignals, das kodiert
werden soll ab, um die Feinzeitstruktur (fine time structure) des
Kodierrauschens zu steuern.
LTP Langzeitvoraussage (Long Term
Prediction) und Voraussage. Reduziert die Redundanz des Funksignals
mittels Voraussage.
Intensity/Coupling. Verbessert die Stereokodierfähigkeit.
PNS
Wahrnehmungsrauschaustausch (Perceptual Noise Substitution). Liefert
eine wirksame Darstellung von rauschartigen Kanälen.
M/S (Mid/Side stereo).
Erweitert die Darstellungsqualität
und verbessert gewissermaßen
die Kodiereffizienz.
-
Wie
in der Zeichnung zu sehen ist, empfängt der Audiokodierer ein digitales,
nicht-komprimiertes Audioeingabesignal 300,
wie ein PCM-Signal oder, im Wesentlichen, jedes andere digitale,
in dem technischen Feld bekannte Audiosignal. Das Audiosignal kann
beispielsweise von dem Musik- oder Funkübertragungsströmungsserver 122 in 1,
von dem PSTN 130, als ein Tonsignal übertragen werden, usw. alternativ
kann der Audiokodierer angepasst werden, um ein analoges elektrisches
Signal von z.B. einem Mikrofon zu empfangen, und das analoge Signal
in ein digitales Signal, mittels einer gewöhnlichen A/D Wandlung zu wandeln,
wie es für
einen Fachmann leicht ersichtlich ist.
-
In
der bevorzugten Ausführungsform,
wird die Audiokodierung auf einer frame-by-frame Basis gebildet,
bei der jeder Rahmen eine Vielzahl von Audioabtastungen, innerhalb
einer vorbestimmten Zeitperiode umfasst, wie ein Vielfaches von
10 ms. Die Audioabtastungen von benachbarten Rahmen können entweder
nicht-überlappend
oder teilweise überlappend
sein.
-
Das
Eingabesignal 300 wird zu einem Wahrnehmungsmodell 330 gesendet,
dessen Zweck später
erklärt
werden wird. Außerdem
wird das Eingabesignal 300 zu dem Kernschichtcodec 304,
in folgender Weise geliefert. Zuerst wird das Eingabesignal 300,
bei 302 abgetastet, mit einer Tastrate, die für den Kernschichtcodec 304 angemessen
ist. Dann wird eine Kernschichtkodierung bei 306 durchgeführt und
eine Kernschichtausgabe 310, wird bei 312, zusammen
mit einer Ausgabe 370, von dem Erweiterungsschichtcodec
gemultiplext, um einen kodierten Audioausgabestrom 314 zu
bilden, welcher dann bei 222 in 2 kodiert
wird.
-
Außerdem dekodiert
der Kernschichtcodec 304 das kodierte Kernschichtsignal 308 und
tastet das dekodierte Ergebnis, bei 316 auf, um ein rekonstruiertes
Kernschichtsignal 318 zu erzeugen, welches eine Darstellung
des Signals, nach der Kernschichtkodierung und -dekodierung ist.
Wie bei der gesamten Wahrnehmungsaudiokodierung, bezieht der Kernschichtcodec 304 etwas
Verzerrung in den Audiodaten mit ein. Deshalb wird das rekonstruierte Kernschichtsignal 318 nicht
dasselbe sein, wie das originale Eingangssignal 300.
-
Das
originale Eingangssignal 300 wird in einer Filterbank 320,
in ein entsprechendes Signal 324, in dem Frequenzbereich
transformiert. Dementsprechend wird das rekonstruierte Kernschichtsignal 318 in
einer Filterbank 322, in den Frequenzbereich transformiert.
Sogar die in 3, als separate Elemente dargestellten
Filterbanken 320 und 322, können als eine gemeinsame Filterbank
implementiert werden, was eine modifizierte diskrete Kosinus-Transformation (MDCT),
gemäß dem MPEG-4 Standard
anlegt.
-
Wie
durch eine gepunktete Linie 328 in 3 angezeigt,
können
die Filterbanken 320, 322 optional durch eine
Ausgabe von dem Wahrnehmungsmodel 330 gesteuert werden
um, falls nötig, die
Fensterlänge
der Filterbanken zu reduzieren. Die MDCT transformiert in den Filterbanken 320 und 322 erzeugte
spektrale Audiorahmen, welche eine Vielzahl von Frequenzsubbändern aufweisen. 4 stellt
ein Beispiel eines solchen Audiorahmens 400 dar, welcher
49 Sub-Bänder 401, 402,
..., 449, mit insgesamt 1024 MDCT-Koeffizienten aufweist.
Die Subbänder
können
teilweise überlappt,
oder alternativ nicht-überlappt
sein. Wie in 4 zu sehen, weisen die niedrigeren
Frequenzsubbänder
weniger MDCT-Koeffizienten
pro Sub-Band auf, als höhere Frequenz-Sub-Bänder. Das
transformierte Originalsignal 324, wird an eine frequenzselektive
Schaltungseinheit (FSSU) 332 und außerdem an eine Subtraktionseinheit 334 gespeist,
welche auch das transformierte Kernschichtsignal 326 empfängt. Die
Subtraktionseinheit 334, erzeugt durch das Subtrahieren
der MDCT-Koeffizienten des Kernschichtsignals 326, von
denen des Originalsignals 324, ein Restsignal 336.
Das Restsignal 336 wird an die FSSU 332 übertragen,
und ist eine Anzeige der durch den Kernschichtcodec 304 verursachten
Fehler.
-
Für jedes
Sub-Band 401–449 des
spektralen Audiorahmens 400, berechnet die FSSU 332 die Wahrnehmungsentropien 338, 340 des
Originalsignals 324 und entsprechend des Restsignals 332.
Die Wahrnehmungsentropie, welche sich auf den geschätzten Betrag
der benötigten
Bits zur Kodierung eines individuellen Sub-Bandes bezieht, kann
berechnet werden als
Wahrnehmungsentropie = Signalenergie/Maskierungsgrenzwert,
bei
der die Signalenergie gemäß einem
der verschiedenen Wege, die in dem technischen Feld wohlbekannt
sind, berechnet wird. Der Maskierungsgrenzwert wird durch das Wahrnehmungsmodel 330 bereitgestellt
und stellt den Grenzwert dar, unter dem die Inhalte des Sub-Bandes
nicht mehr für
das menschliche Ohr hörbar
sind. Der Maskierungsgrenzwert, kann ebenfalls auf zwei verschiedenen Wegen
bestimmt werden, einer wird beschrieben in Wang, Y., Vilermo, M. "An Excitation Level
Based Psychoacoustic Model for Audio Compression", siebte ACM International Multimedia
Conference, 30 October bis 4. November, 1999 Orlando, Florida, USA.
-
Bei 342 vergleicht
die FSSU 332 die berechneten Wahrnehmungsentropien 338, 340,
bestimmt welches der Signale 324 und 336 die geringste
Wahrnehmugsentropie hat (und, folglich, weniger Bits zum Kodieren
mit der selben Qualität
benötigt)
und setzt entsprechend eine individuelle Steuerungsinformationsmarkierung 501–549 in
der FSS-Anordnung 500, was in 5 zusehen
ist. Folglich wird entsprechend von der FSSU 332, für die verschiedenen
Sub-Bänder 401–449 bei 344 und 346,
entweder das Originalsignal 324, oder das Restsignal 336,
entsprechend als Ausgabe 360 und 362 ausgewählt. Jedes Sub-Band 401–449 des
Audiorahmens 400, weist eine entsprechende individuelle
Markierung 501–549 auf,
welche vorzugsweise durch ein einzelnes Binärzeichen dargestellt wird.
Die FSS-Anordnung wird zusammen mit den kodierten Audiodaten 310, 370 in dem
gemultiplexten Bitstrom 314, auf die Empfängerseite übermittelt
und wird dem Dekodierer anzeigen, ob das Erweiterungsschichtsignal
dem Kernschichtsignal, während
des Dekodierens der empfangenen kodierten Audiodaten hinzugefügt werden
soll.
-
Die
Ausgabe von der FSSU 332 ist gemäß den Bit-Einstellungen in
der FSS-Anordnung 500 zusammengesetzt, durch das Kopieren
der MDCT Koeffizienten des Originalsignals 324/360 oder
des Restsignals 336/362, für jedes einzelne Frequenzband 401–449 in
eine gemeinsame Rahmenanordnung, die das in 4 gezeigte
Format aufweist. Diese angeordnete Ausgabe, bezieht sich auf einen
einfachen AAC-Erweiterungsschichtcodec, und wird zu einem Rate/Verzerrungskontrollprozess 348 geliefert,
welcher später
mit Bezug auf die 6 und 7 in größerem Detail
beschrieben wird.
-
Zusätzlich zu
dem oben genannten und gemäß der vorliegenden
Erfindung, wird das Restsignal 336 parallel verglichen
mit dem Maskierungsgrenzwert 350, für das aktuelle Frequenzband 401–449, wie
bei 356 gesehen werden kann. Wenn das Restsignal allerdings
unter dem Maskierungsgrenzwert gefunden wird, bedeutet dies, dass
der durch die Kernschicht 304 verursachte Fehler, in dem
aktuellen Frequenzband nicht hörbar
ist. Deshalb ist es in einem solchen Fall ausreichend, in diesem
bestimmten Frequenzband nur Nullen als ein Erweiterungssignal zu kodieren,
wie in 358 und 364 gezeigt. Diese Bedingung hat
die höchste
Priorität
und überstimmt
die Ausgabe 360/362 der Wahrnehmungsentropieberechnung,
dadurch wird ein zusätzlicher
Vorteil in einer etwas schnelleren Berechnung des nachfolgenden
Quantisierungsprozesses angeboten.
-
Außerdem wird
bei 352 und 354 die Differenz zwischen dem Maskierungsgrenzwert 350 und
dem Restsignal 334 für
jedes Frequenzband 401–449 berechnet.
Für eine
verbesserte Genauigkeit, kann eher die schnelle Fourier-Transformation,
als die MDCT-Koeffizienten für
diese Berechnung verwendet werden. Die Ergebnisse werden für jeden
Rahmen 400 gesammelt und spiegeln eine Messung für die Qualität und die
Kernschicht wieder, d.h. ob der Kernschichtcodec 304, während des
Kodierens des Audioeingangssignals 300 bei der Kernschicht,
gut oder schlecht durchgeführt
wurde. Wie später
beschrieben wird, wird die Kernschichtqualitätsmessung für jeden Rahmen, als ein Multiplikationsfaktor verwendet
(siehe 710 in 7), welcher auf den Quantisierungsfehler
in dem nachfolgenden Quantisierungsprozess in 348 angewendet
wird, bevor er mit dem Restsignal verglichen wird.
-
Der
Rate/Verzerrungskontrollprozess 348, wie gemäß der bevorzugten
Ausführungsform
modifiziert, wird nun mit Bezug auf die 6 und 7 beschrieben.
Er basiert auf dem normalen Rate/Verzerrungskontrollprozess in AAC,
der eine Skalierfaktoreneinheit, eine Quantisierungseinheit und
eine rauschlose Kodiereinheit einschließt, welche im Detail in Annex
4.B.10-11, des oben erwähnten
ISO/IEC 14496-32001 (E), Subpart 4 beschrieben wird.
-
Das
Hauptziel des Rate/Verzerrungskontrollprozesses ist es, Quantisierung
und rauschloses Kodieren des Audiosignals, das kodiert werden soll,
bereitzustellen. Gemäß der bevorzugten
Ausführungsform,
wird der Quantisierungsprozess 600 in ein zweistufiges
Verfahren aufgeteilt: Zunächst
wird ein erster AAC-Quantisierungsprozess 610, für alle Sub-Bänder durchgeführt. Dieser
erste AAC-Quantisierungsprozess ist im Gegensatz zu der AAC-Standard-Quantisierung
in der Richtung modifiziert, dass der Quantisierungsfehler in Hinblick
auf das Restsignal wiederholt abgeschätzt wird, und dass in Antwort auf
diese Abschätzung
entschieden werden kann, das Restsignal mit Nullen für einige
Sub-Bänder
auszutauschen. Der eigentliche Austausch geschieht nur sobald alle
Sub-Bänder
verarbeitet wurden, wie bei 620 in 6 angezeigt.
Schließlich
wird ein zweiter AAC-Quantisierungsprozess 630,
für alle
restlichen (d.h., nicht-null) Sub-Bänder durchgeführt; diesmal, jedoch
ohne irgendwelche Null-Ersetzungen, durchgeführt.
-
Der
modifizierte Rate/Verzerrungskontrollprozess der AAC-Quantisierung 610 wird
in größerem Detail
in 7 dargestellt. Ein Signal 702 wird von
der FSSU 332 geliefert und stellt die Stromfrequenzbereichabtastungen
dar, die quantifiziert werden sollen. Bei 706 werden die
Abtastungen mehrere Male, auf verschiedene Weise, mit verschiedenen Skalierungsfaktoren
quantifiziert. Nach jeder Quantisierung, wird der Quantisierungsfehler
bei 708 berechnet und bei 718 abgeschätzt. Jedes
Mal versucht der Prozess, die verfügbaren Bits, auf verschiedene Frequenzbänder in
einer Weise zu verteilen, welche die Hörbarkeit des Quantisierungrauschens
minimiert. Dies ist durch das Wechseln der Skalierungsfaktoren für verschiedene
Frequenzbänder
getan worden. Die Skalierungsfaktoren (einer für jedes Band) kontrollieren
die Quantisierungsschrittgröße, folglich
werden verschiedene Rauschmengen jedem Frequenzband zugeordnet.
Nach jeder Quantisierungsrunde, wird das Rauschen in jedem Band
kontrolliert und in den Bändern,
bei denen das Rauschen äußerst störend ist,
wird die Quantisierungsschrittgröße in der
nächsten
Runde reduziert.
-
Allerdings
läuft dieser
Prozess nicht unbedingt zu einem umfassenden Optimum zusammen, und
folglich, kann der Kerncodec für
einige Frequenzbänder
einen geringeren Fehler erzeugen, als der quantifizierte Rest. Für diese
Bänder,
ist es dann vorteilhaft, stattdessen das Kerncodecsignal alleine zu
verwenden. Es sollte vermerkt werden, dass das Signal unter Quantisierung,
entweder das originale Signal, oder das Restsignal sein kann (Kerncodecsignal
abgezogen von dem Originalsignal).
-
Folglich
wird das Folgende mit Bezug auf die Blöcke 710–720 in 7 durchgeführt. Eher
wird das Minimum des Quantisierungsrauschens und des Rauschens,
das aus der Verwendung der Kerncodecausgabe alleine stammt (d.h.
das Restsignal 704, welches von der FSSU 332 übermittelt
wird) bei 714 geprüft,
als lediglich das Quantisierungsrauschen nach jeder Quantisierungsrunde
zu prüfen.
Wenn die Kerncodecausgabe gut genug ist, besteht kein Bedarf, die
Quantisierungsschrittgröße für dieses
Frequenzband zu reduzieren. Wenn sowohl das Quantisierungsrauschen,
als auch das Kerncodecrauschen zu hoch sind, wird die Schrittgröße reduziert.
-
Wenn
der Kerncodec im Allgemeinen gute Arbeit leistet (wie es mit Sprachsignalen
und einem Sprachkerncodec geschehen würde), ist es vorteilhaft, die
Fehlerberechnung noch weiter zu modifizieren. Wenn der Kerncodec
gute Arbeit leistet, wird sich dies in den Werten der Kernschichtqualitätsmessung 710 wiederspiegeln,
wie bei 354 in 3 abgeleitet. In einem solchen
Fall, kann das Kerncodecsignal dennoch alleine verwendet werden,
sogar wenn die durch die Verwendung des Kerncodecs alleine verursachten
Fehler, etwas größer wären, als
die Quantisierungsfehler. Die Verwendung des Kerncodecsignals in
Frequenzbändern,
bei denen der Kerncodecfehler etwas größer ist, als der Quantisierungsfehler,
werden Bits zur Verwendung in anderen Bändern verfügbar machen, bei denen der
Kerncodecfehler viel größer ist,
als der Quantisierungsfehler. Deshalb werden die Quantifizierungsfehler,
die bei 708 erzeugt werden, durch einen Ablauf der Kernschichtqualitätsmessung,
bei 712 in 7 vervielfacht, bevor sie mit
dem Kernschichtrauschen bei 714 verglichen werden. Dieser
Ablauf kann beispielsweise auf einem einfachen Grenzwert basieren. Wenn
der Kerncodec gute Arbeit leistet, bleibt die Kernschichtqualitätsmessung über dem
Grenzbereich (z.B. 0), und der Quantifizierungsfehler wird, durch
eine vorbestimmte Konstante, wie 4, vervielfacht. Anderenfalls bleibt
der Quantisierungsfehler unverändert,
bei 714, in dem Vergleich.
-
Die
Quantisierungsschleife, die folglich gebildet wird, weist drei Abbruchbedingungen
auf:
- 1. kein erkennbarer Quantisierungsfehler
erschienen,
- 2. keine weitere Reduzierung des Quantifizierungsfehlers ist
möglich,
und
- 3. die Maximalgrenze an Schleifenläufen wurde erreicht.
-
Nachdem
mehrere Quantisierungsrunden abgelaufen sind, werden die Abbruchbedingungen erreicht.
In dem Fall dass es in einigen Frequenzbändern doch besser ist, die
Kerncodecausgabe zu verwenden, anstatt des quantifizierten Ergebnisses, wird
das quantifizierte Ergebnis in diesen Bändern mit Nullen ersetzt, wie
bei 720 angezeigt. Zusätzlich, wird
die FSS-Information für
dieses Band markiert (siehe 716), um anzuzeigen, dass das
Restsignal verwendet wird, was tatsächlich darin resultiert, dass der
Dekodierer nur das Kerncodecsignal in diesen Bändern verwendet. (In letzterem
Fall, werden die Bits nicht neu zugeteilt, aber das Verfahren führt zu Abspeicherungen
der Bits.) Wenn dort Frequenzbänder
sind, die durch Nullen ausgetauscht wurden, benötigt das quantisierte Signal
weniger Bits, als berechnet wurde. Durch die Verwendung eines Bit-Puffers zwischen
Rahmen, können
diese Bits zur Verwendung für
die folgenden Rahmen bleiben. Diese Bits können auch verwendet werden,
um die Quantisierung des gegenwärtigen
Rahmens, durch das nochmalige Betreiben der Quantisierungsschleife
zu verbessern, wie bei 630 in 6 angezeigt,
wobei aber diesmal mit dem Endergebnis, welches das erste Mal erreicht
wurde, begonnen wird, d.h. in Schritt 610 der 6,
und es in einigen Frequenzbändern mögliche Nullersetzungen
enthält,
wie oben erwähnt. Während des
zweiten Quantisierungsprozesses 630, wird das Signal ohne
Modifikationen in der Fehlerberechnung, welche für den ersten Quantisierungsprozess 610 erklärt wurden,
quantisiert, d.h. die Quantisierung in Schritt 630 stimmt
völlig
mit dem MPEG-4 AAC Standard überein.
-
Als
eine Alternative zu dem oben genannten ist es eher möglich, zu
entscheiden, welche Sub-Bänder durch
Nullen ersetzt werden sollen, sowie die Bitraten der restlichen
(nicht durch Nullen ersetzten) Sub-Bänder in einem gewöhnlichen
Quantsierungsprozess zu bestimmen, als einen ersten Quantisierungsprozess
für alle
Subbänder
durchzuführen,
die relevanten Sub-Bänder durch
Nullen zu ersetzen und dann einen zusätzlichen Quantisierungsprozess
für die
restlichen Sub-Bänder
durchzuführen.
-
Der
Audiokodierer gemäß der Erfindung kann
vorzugsweise in einen Audiocodeumsetzer eingeschlossen sein, z.B.
in ein GSM- oder UMTS-Netzwerk. In GSM heißt ein solcher Audiocodeumsetzer, Codeumsetzer/Raten-Anpassungseinheit
(transcoder/rate adapter unit) (TRAU), und liefert eine Konvertierung
zwischen 64 kbps PCM-Sprache von dem PSTN 130 zu full rate
(FR) oder enhanced full rate (EFR) 13–16 kbps digitalisierte GSM-Sprache,
und umgekehrt. Der Audiocodeumsetzer kann an der Basisübertragungsstation
(BTS) angeordnet werden, welche ein Teil des Basisstationssubsystems
(BSS) ist, oder alternativ bei der Mobilen Vermittlungsstelle (MSC).
-
Die
skalierbare Audiokodierung die oben funktionsgemäß beschrieben ist, kann als
eine integrierte Schaltung (ASIC) oder als jede andere Form von
digitaler Elektronik realisiert werden. In einer alternativen Ausführungsform,
kann die oben erwähnte skalierbare
Audiokodierfunktion als ein Computerprogrammprodukt implementiert
werden, welches direkt in einen Speicher eines Prozessors – vorzugsweise
die Steuerung 240/290, und seine verbundenen Speicher 242/292 der
Netzwerkstation 200/Mobilstation 250 der 2 ladbar
ist. Das Computerprogrammprodukt umfasst einen Programmcode zum Bereitstellen
der skalierbaren Audiokodierfunktionalität, wenn es durch den Prozessor
angewendet wird.
-
Der
Audiokodierer gemäß der Erfindung kann
auch, zum Bereitstellen von Audiodiensten an Netzwerkkunden (wie
die tragbaren Vorrichtungen 100, 112 in 1),
in einen Netzwerkserver eingeschlossen werden (wie der Server 122 in 1).
-
Der
Audiokodierer gemäß der Erfindung kann
auch in einen Netzwerkserver eingeschlossen sein (wie der Server 122 in 1),
zum Bereitstellen von Audiodiensten an Netzwerkkunden (wie die tragbaren
Vorrichtungen 100, 112 in 1).
-
Wie
vorstehend erklärt,
müssen
auf der Dekodiererseite in den oben erwähnten Ausführungsformen der Erfindung
keine Änderungen
vorgenommen werden, da der Dekodierer die MDCT-Koeffizienten des
vorhergehenden Schichtausgabesignals in jedem Sub-Band 401–449,
welches in dem FSS-Array 500 markiert ist anhängen wird.
Jedenfalls schließt eine
alternative Ausführungsform
der Erfindung einen modifizierten Dekodierer ein, welcher angepasst ist,
um einen geschichteten Datenstrom zu empfangen, der ein erstes Schichtsignal
und mindestens ein kodiertes zweites Schichtsignal enthält. Der
Datenstrom wird kodierte Rahmen mit einer Vielzahl von spektralen
Sub-Bändern
beinhalten, kann aber andererseits ein beliebiges bekanntes Format
aufweisen. Nachdem sowohl das erste Schichtsignal, als auch das
zweite Schichtsignal dekodiert wurden, analysiert der Dekodierer
das zweite Schichtsignal und bestimmt eine Wahrnehmungsqualitätsmessung
für jedes
Sub-Band. Dann entscheidet
der Dekodierer ob die Wahrnehmungsqualitätsmessung vorbestimmte Kriterien
einhält
und falls ja, wird die zweite Schicht mit dem ersten Schichtsignal
für das
besagte Sub-Band kombiniert, um ein dekodiertes Ausgabesignal zu
erzeugen. Andererseits wird das dekodierte Ausgabesignal von dem
ersten Schichtsignal, alleine für
dieses Sub-Band erzeugt, d.h. das zweite Schichtsignal wird mit
Nullen ersetzt.
-
Die
Wahrnehmungsqualitätsmessung
kann in den empfangenen geschichteten Datenstrom eingeschlossen
werden, d.h. von der Kodiererseite stammen. Alternativ kann der
Dekodierer Wahrnehmungsqualitätsmessung
durch Identifizierung, in dem dekodierten Signal der zweiten Schicht,
unnatürlichen
Audiokomponenten, wie Spitzen, Rauschen oder unerwartete Wellenformen
erhalten, und infolgedessen entscheiden, dass das dekodierte Signal der
zweiten Schicht verzerrt ist und nicht an das dekodierte erste Schichtsignal
angehängt
werden sollte.
-
Die
Erfindung wurde vor allem vorstehend, mit Bezug auf eine bevorzugte
Ausführungsform
beschrieben. Jedenfalls sind, wie es leicht für einen Fachmann ersichtlich
sein wird, andere Ausführungsformen,
als die oben offenbarten, innerhalb des Bereichs der Erfindung ebenso
möglich,
wie durch die angehängten
Patentansprüche
definiert.
-
Es
ist hervorzuheben, dass die Erfindung nicht auf eine Basisschicht
und eine Erweiterungsschicht begrenzt ist; die Grundsätze der
Erfindung können
ebenso auf zwei nachfolgende Erweiterungsschichten, in einem Mehrschichtaudiokodierverfahren
angewendet werden. Zusätzlich
wird die FSS-Information, in einer alternativen Ausführungsform
benutzt und nur für
einige Frequenzbänder,
nicht für
alle, an die Empfängerseite übertragen.
Dies kann in einer Situation nützlich
sein, bei der die Erweiterungsschicht nur zur Verbesserung der Hochfrequenzen
benutzt wird. Folglich besteht kein Bedarf die FSS-Information für die niedrigen
Frequenzen zu senden. Natürlich
muss die Empfängerseite über diese
Tatsache, – entweder
durch Voreinstellung oder durch ein anfängliches „Hnandshaking" mit der Senderseite
benachrichtigt werden.
-
Außerdem sind
der Audiokodierer, der Dekodierer, der Codeumsetzer, das Computerprogramm und
die oben beschriebene integrierte Schaltung nicht durch die oben
beispielhaft erläuterten
Orte eingeschränkt.
Beispielsweise kann der Audiokodierer in jeder der Audioübertragungsvorrichtungen,
die in 1 gezeigt sind oder in einer anderen Audioübertragungsvorrichtung,
die hier nicht explizit gezeigt oder beschrieben ist, angeordnet
werden.