DE69511064T2

DE69511064T2 - System und verfahren zur übertragung von bild- oder tonsignalen

Info

Publication number: DE69511064T2
Application number: DE69511064T
Authority: DE
Inventors: Richard Heusdens
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1994-11-09
Filing date: 1995-10-06
Publication date: 2000-02-24
Anticipated expiration: 2015-10-07
Also published as: JPH09508516A; EP0739569B1; DE69511064D1; WO1996015627A3; US5812219A; EP0739569A1; JP3773260B2; WO1996015627A2

Description

Die Erfindung bezieht sich auf ein System zur Übertragung von Bild- oder Tonsignalen. Insbesondere bezieht sich die Erfindung auf die Übertragung dieser Signale durch eine sog. überlappende Transformation.
Bei der überlappenden Transformation eines Bild- oder Tonsignals werden einander halb überlappende Reihen von 2K Abtastwerten des Signals zu K Koeffizienten transformiert. Die Koeffizienten werden übertragen und danach zur Rekonstruktion des Bild- oder Tonsignals zurücktransformiert. Die Transformation wird durch eine Transformationsmatrix beschrieben. Nachstehend wird die Transformationsmatrix sendeseitig durch A bezeichnet. Die empfangsseitige Transformationsmatrix wird als S bezeichnet. Die Matrizen A und S haben eine Abmessung von K·2K (vertikal · horizontal) Elementen. Die K Reihen zu je 2 K Elementen der Matrix S bilden die sog. Basisfunktionen der Transformation. Jede Masisfunktion hat ein Frequenzspektrum. Die Basisfunktionen sind derart gewählt worden, dass jede Basisfunktion einen Teil des gesamten Frequenzspektrums umfasst. Je nachdem die zentrale Frequenz dieses teils höher ist, heißt es, dass die Basisfunktion eine höhere Ordnung hat. Bei Bildtransformationen beispielsweise stellt eine zunehmende Ordnung ein zunehmendes Maß an Bildeinheit dar.
Signaltransformationen werden oft angewandt zur digitalen Kompression von Bild- und Tonsignalen. Kompression ist möglich, weil Koeffizienten höherer Ordnung meistens grob quantisiert oder sogar fortgelassen werden dürfen. Wichtig ist, dass die Basisfunktionen der Transformation genau gewählt werden. Eine oft angewandte Transformation zur Kompression von Videobildern ist die "Discrete Cosinus Transformation" (DCT). Dies ist eine nicht überlappende Transformation, deren Matrix wechselweise aus geraden und ungeraden Basisfunktionen zunehmender Ordnung besteht.
Eine bekannte überlappende Transformation ist veröffentlicht worden in: "Lapped Transforms for Efficient Transform/Subband Coding", IEEE Trans. on ASSP, Heft 38, Nr. 6, Juni 1990, Seiten 969-978. Die Transformationsmatrizen A und S sind darin von den nicht überlappenden DCT abgeleitet. Sie umfassen zur Hälfte gerade Reihen und zur Hälfte ungerade Reihen. Die geraden reihen werden dadurch erhalten, dass von der DCT-Matrix paarweise die Differenz zwischen einer geraden und einer darauffolgenden ungeraden reihe gebildet wird, und die genannte Differenz gespiegelt wiederholt wird. Die ungeraden Reihen werden dadurch erhalten, dass diese Differenz negativ und gespiegelt wiederholt wird. Die Matrizen können auf diese Weise mathematisch wie folgt geschrieben werden:
In dieser Formel ist I die Einheitsmatrix, 0 die Nullmatrix und J die sog. "Counter- Identity"-Matrix. Ce und Co sind 1/2K·K Matrizen, worin die geraden bzw. ungeraden Reihen einer Matrix C untergebracht sind. T ist eine Matrix, die bewirkt, dass die ungeraden Reihen keine großen Unterbrechungen aufweisen. Es ist eine beliebig umkehrbare 1/2K·1/2K Matrix. Die Reihen von C werden durch cj bezeichnet, wobei der Index j die Ordnung der betreffenden Basisfunktion darstellt. Ein gerader Index j gibt auch an, dass die Basisfunktion gerade ist. Ein ungerader Index j gibt an, dass die Basisfunktion ungerade ist.
Nach dem Stand der Technik wird die K·K-Matrix C durch die DCT- Matrix gebildet. Der Stand der Technik gibt auf diese Weise ein Verfahren an um aus der nichtüberlappenden DCT eine überlappende Transformation zu konstruieren. Die DCT-Matrix ist gleichsam als "Basismatrix" für die Konstruktion von A und S wirksam. Die erhaltene überlappende Transformation ist orthogonal. Die Transformation wird deswegen auch als LOT ("Lapped Orthogonal Transform") bezeichnet. Orthogonalität ist eine erwünschte Eigenschaft bei Signaltransformationen wegen Energiebeibehaltung und weil das Übertragungssystem dann gut konditioniert ist. Damit wird gemeint, dass das System sich numerisch stabil verhält. Zugleich ist bei orthogonalen Transformationen die Rücktransformationsmatrix S gleich der Sendermatrix A. Die bekannte überlappende Transformation ist zugleich phasenlinear. Phasenlinearität bedeutet, dass die Laufzeit des Übertragungssystems für alle Bild- oder Tonfrequenzen dieselbe ist.
Die bekannte LOT hat aber den Nachteil, dass bei Quantisierung der Koeffizienten zwecks einer Kompression (d. h. Datenreduktion) Diskontinuitäten Auftreten an den Rändern jeder Reihe von Abtastwerten des Ausgangssignals. Bei Bildcodierung, wobei das Bild in zweidimensionale Blöcke aufgeteilt wird, zeigen diese Diskontinuitäten sich als sichtbare Leuchtdichtesprünge an den Rändern jedes Blocks. Deswegen ist auch von Blockartefakten die Rede.
Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung, ein System zu schaffen zum Übertragen von Bild- und Tonsignalen, wobei die genannten Artefakte weitgehend fehlen.
Das System weist dazu nach der Erfindung das Kennzeichen auf, dass die Basismatrix C orthogonal ist und dass die Elemente c2i,k der geraden Basisfunktionen und die Elemente c2i+1,k (k = 0,1, ...) der ungeraden Basisfunktionen wenigstens der niedrigsten Ordnung (i = 0) der nachfolgenden Gleichung entsprechen:
0 ≤ c2i,0 + c2i+1,0 ≤ c2i,1 + c2i+1,1
Der Erfindung liegt die Erkenntnis zugrunde, dass eine orthogonale überlappende Transformationsmatrix aus jeder beliebigen orthogonalen K·K- Basismatrix C konstruiert werden kann. Mit einer Basismatrix, die den gestellten Anforderungen entspricht, wird erreicht, dass wenigstens die Basisfunktion niedrigster Ordnung der überlappenden Transformation an beiden Rändern auf den Wert Null zugeht. Weil das Ausgangssignal eine gewichtete Summe der Basisfunktionen und die Basisfunktion der niedrigsten Ordnung die signifikanteste ist, treten Diskontinuitäten nun fast nicht auf.
Es sei bemerkt, dass es an sich bekannt ist, wenigstens die erste gerade oder die erste ungerade Reihe der DCT-Matrix derart zu skalieren, dass die Differenz zum Wert Null hin konvergiert. Die auf diese Weise erhaltene überlappende Trans formation, als "Modified Lapped Transform" (MLT) bezeichnet, ist aber nicht mehr orthogonal.
Eine weitere Ausführungsform des Systems nach der Erfindung weist das Kennzeichen auf, dass die Elemente c2i,k der geraden Basisfunktionen c2i und die Elemente c2i+1,k der ungeraden Basisfunktionen c2i+1 paarweise der nachstehenden Gleichung entsprechen:
0 ≤ c2i,0 + c2i+1,0 ≤ c2i,1 + c2i+1,1
Damit wird erreicht, dass alle Basisfunktionen der überlappenden Transformation an den Rändern auf Null zugehen. Blockartefakte treten nun überhaupt nicht auf. Außerdem haben die Basisfunktionen der überlappenden Transformation eine zunehmende Ordnung. Bei einer geeigneten Wahl von C führt dies zu guten frequenzdiskriminierenden Eigenschaften. Die überlappende Transformation eignet sich dann durchaus für weitgehende Kompression von Bild- und Tonsignalen.
Eine besonders günstige Ausführungsform des Systems weist das Kennzeichen auf, dass alle Elemente c0,k der geraden Basisfunktion c&sub0; mit der niedrigsten Ordnung denselben Wert haben. Reihen von Abtastwerten gleichen Wertes, beispielsweise Bildblöcke gleichmäßiger Leuchtdichte, können dann mit nur einem Koeffizienten übertragen werden.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
Fig. 1 und 2 je eine Ausführungsform eines Systems zum Übertragen von Bild- oder Tonsignalen nach der Erfindung,
Fig. 3 Blockartefakte, wie diese bei nicht überlappenden Transformationen auftreten,
Fig. 4 die zwei ersten Basisfunktionen der nicht überlappenden DCT,
Fig. 5 die zwei ersten Basisfunktionen der LOT nach dem Stand der Technik,
Fig. 6 Blockartefakte, wie diese bei der bekannten LOT auftreten,
Fig. 7 eine Erläuterung der Verwirklichung der zwei ersten Basisfunktionen einer Basismatrix zur Konstruktion einer LOT nach der Erfindung,
Fig. 8 die zwei ersten Basisfunktionen der LOT nach der Erfindung,
Fig. 9 die Reaktion des Systems nach der Erfindung auf ein linear zunehmendes Eingangssignal bei Übertragung eines einzigen Koeffizienten.
Fig. 1 zeigt ein erstes Ausführungsbeispiel eines Systems zur Übertragung von Bild- oder Tonsignalen nach der Erfindung. Die Anordnung umfasst ein Schieberegister 1a, 1b zur Reihe-Parallel-Umwandlung aufeinanderfolgender Abtastwerte xk eines Eingangssignals. Das Schieberegister umfasst 2K Elemente und ist in Form zweier Teilregister 1a und 1b von K Elementen dargestellt um anzugeben, dass das Eingangssignal nach jeder Transformation von 2K Abtastwerten über eine Länge von K Abtastwerten weitergeschoben wird. Die 2K verfügbaren Abtastwerte sind durch x&sub1; ... x2K angegeben. Sie werden einem Transformator 2 zugeführt, in dem der Vektor {x&sub1; ... x2K} mit einer K·2K-Transformationsmatrix multipliziert wird. Diese Matrix wird weiterhin als Analysenmatrix A bezeichnet. Jede Transformation von 2K Eingangsabtastwerten liefert K Koeffizienten y&sub1; .. yK. Sie werden einer Quantisierungs- und Codierungsschaltung 3 zugeführt und daraufhin über ein Übertragungsmedium 4 übertragen. Das Übertragungsmedium kann eine Funkverbindung oder eine Kabelverbindung sein, aber auch ein Speichermedium, wie ein Magnetband oder eine optische Scheibe. Empfangsseitig werden die quantisierten Koeffizienten &sub1; ..yK einem Transformator 5 zugeführt. Dieser multipliziert jede Reihe { &sub1; .. yK} von K Koeffizienten mit einer 2K·K-Matrix. Die Matrix St ist die transponierte Version eines K·2K-Matrix S. die weiterhin als Synthesematrix S bezeichnet wird. Die Transformation der K Koeffizienten ergibt 2K Zahlen z&sub1; ... z2K. Diese werden überlappend summiert. In der Figur ist dies mit Hilfe von Addierern 7a .. 7k angegeben, in denen jeweils K Zahlen z&sub1; .. zK zu K Zahlen zK+1 .. z2K aus der vohergehenden Reihe addiert werden. Der betreffende Teil der vorhergehenden Reihe wird dazu jeweils in einem Register 5 gespeichert. An dem Ausgang der Addierer 7a .. 7k sind die Abtastwerte u&sub1; .. uK des rekonstruierten Bild- oder Tonsignals verfügbar.
Zur Zeit erkennt man, dass eine Signaltransformation im Wesentlichen als ein Sonderfall einer Multirate-Filterbankcodierung betrachtet werden kann. Als zweite Ausführungsform eines Systems nach der Erfindung zeigt Fig. 2 eine derartige Multirate-Filterbank. Die Filterbank umfasst K Filter 10a .. 10k mit einer Filterlänge 2K und einer Übertragungsfunktion Hk(z). Die gefilterten Signale werden in Abwärts- Abtastern 11a .. 11k um einen Faktor K dezimiert. Dies wird meistens als kritische Abtastung bezeichnet. Das bedeutet, dass von den gefilterten Signalen nur jeder K. Abtastwert übertragen wird, die zwischenliegenden K-1 Abtastwerte werden verneint. Jeder übertragene Abtastwert stellt einen Koeffizienten yk dar. Nach Quantisierung und Übertragung findet Aufwärts-Abtastung der K Signale statt (Ausfüllung der K-1 zwischenliegenden Abtastwerte mit dem Wert Null) in Aufwärts-Abtastern 12a .. 12k. Danach werden sie K Interpolationsfiltern 13a .. 13k mit einer Filterlänge 2K und einer Übertragungsfunktion Fk(z) zugeführt. Die interpolierten Signale werden danach in einem Addierer 14 summiert.
Die Analogie zwischen Transformation (Fig. 1) und Multi-Rate- Filterbank-Codierung (Fig. 2) ermöglicht es, einige Aspekte der Erfindung einsichtig darzustellen. So gilt beispielsweise, dass die K Impulsreaktionen mit Länge 2K der Interpolationsfilter Fk(z) den K Reihen des K·2K Transformators S entsprechen, und dass die K Impulsreaktionen mit der Länge 2K der Filter HK(z) den in der reihenfolge umgekehrten Reihen der Matrix A entsprechen.
Zum Verständnis der Ausführungsbeispiele wird nun zunächst der Begriff Signaltransformationen im Allgemeinen näher erläutert. Das zu übertragende Bild- oder Tonsignal x umfasst im Grunde unendlich viele Abtastwerte xk. Das SiGnal wird durch die sendeseitige Hintransformation des Kreises in eine gleich große Anzahl Koeffizienten yk umgewandelt. Empfangsseitig erfolgt eine Rücktransformation dieser Koeffizienten. Die Hin- und Rücktransformation sind in einer Transformationsmatrix festgelegt. Die sendeseitige Transformationsmatrix wird durch T bezeichnet, und die empfangsseitige durch P. In mathematischer Bezeichnung wird die Hintransformation durch y = Tx beschrieben. Die Rücktransformation wird durch u = Pty beschrieben, wobei Pt die transpontierte Version von P ist (Transposition ist die Umsetzung von Rei hen und Spalten). Wenn die Matrix P in der untenstehenden Form ausgeschrieben wird,
kann die Rücktransformation
wie folgt ausgeschrieben werden:
Diese Vektornotierung zeigt, dass das Ausgangssignal {u&sub1;, u&sub2;, ...} als lineare Kombination von Vektoren {p&sub1;&sub1;, p&sub1;&sub2;, ...}, {p&sub2;&sub1;, p&sub2;&sub2;, ..}, usw mit Gewichtungsfaktoren y&sub1;, y&sub2;, ... betrachtet werden kann. Die genannten Vektoren werden durch die Spalten von Pt gebildet, d. h. die Reihen der Matrix P. Sie werden die Basisfunktionen des Transformators P genannt. Die Gewichtungsfaktoren y&sub1;, y&sub2;, ... sind die Koeffizienten, die aus der Hintransformation erhalten werden.
Wir werden uns untenstehend auf einzelne Transformationen konzentrieren. Das bedeutet, dass zweidimensionale Transformationen (beispielsweise von Videobildern) dadurch durchgeführt werden können, dass eine eindimensionale Transformation zunächst in horizontaler und danach in vertikaler Richtung durchgeführt wird. Die nachfolgende Beschreibung kann deswegen auf eindimensionale Transformationen beschränkt werden.
Die Matrizen T und P sind quadratisch und sind im Grunde unendlich groß. Bei praktischen Anwendungen, beispielsweise bei Bild- und Toncodierung, wird das Eingangssignal x in eindimensionale Reihen (Ton) oder zweidimensionale Blöcke (Bild) mit einer beschränkten Anzahl Abtastwerte aufgeteilt. Jede Reihe oder jeder Block wird derselben Transformation ausgesetzt. Bei Bildcodierung beispielsweise ist es üblich, Blöcke von 8 · 8, 16 · 16 oder 32 · 32 Pixeln zu transformieren. Durch diese Aufteilung erhalten die Matrizen T und P eine sog. Block-Toeplitz-Struktur, die mathematisch wie folgt notiert werden kann:
und
wobei A (Analyse) und S (Synthese) die in Fig. 1 angegebenen Matrizen endlicher Größe sind. Die Reihen von P entsprechen den Reihen von S, auf beiden Seiten mit Nullen ergänzt. Die Basisfunktionen der Transformation sind also nur in einem begrenzten Gebiet ungleich Null. Die Matrizen A und S in der Gleichung (2) können einander ggf. überlappen. Die oft verwendete DCT (u. a. bei MPEG Bildcodierung) gehört zu der Klasse nicht überlappender Transformationen. Dabei werden jeweils K Abtastwerte {x&sub1; .. xK} mit Hilfe einer K·K-Matrix A zu N Koeffizienten {y&sub1; .. yK} transformiert.
Zwecks einer Datenkompression von Videobildern werden die Basisfunktionen derart gewählt, dass sie je für ein bestimmtes Maß an Bildeinzelheiten repräsentativ sind. In Termen der Multi-Rate-Filterbank: die Filter Hk(z) filtern je ein beschränktes Band aus dem Frequenzspektrum. Je nachdem die Filterfrequenz höher ist, hat die Impulsreaktion eine höhere Ordnung. Weil das menschliche Auge für die höheren räumlichen Frequenzen weniger empfindlich ist, können die entsprechenden Koeffizienten gröber quantisiert werden. Bildflächen gleichmäßiger Leuchtdichte können sogar mit Hilfe nur eines Koeffizienten beschrieben werden.
Quantisierung der Koeffizienten impliziert, dass das Eingangssignal nicht mehr fehlerfrei übertragen wird. Mathematisch lässt sich dies dadurch formulieren, dass vorausgesetzt wird, dass jeder Koeffizient yk einen Quantisierungsfehler ek aufweist. Statt der genauen Koeffizienten y werden nun quantisierte Koeffizienten y = y + e übertragen.
Das Ausgangssignal u des Übertragungskreises ist dann:
u = pty = Pt(y+e) = Pty + Pte + Pte = x + Pte
Mit anderen Worten, das konstruierte Ausgangssignal u umfasst nebst dem genauen Eingangssignal x auch ein Fehlersignal Pte. Das genannte Fehlersignal ist ebenfalls eine lineare Kombination der Basisfunktionen von P, nun mit {e&sub1;, e&sub2;, .. } als Gewichtungsfaktoren. Bei hohen Kompressionsfaktoren, d. h. bei großen Werten von ek durch grobe Quantisierung, oder sogar Fortlassung von Koeffizienten von Basisfunktionen höherer Ordnung, entstehen spürbare Artefakte. Bei nicht-überlappenden Transformationen zeigen diese sich bereits schnell an den Rändern jeder Reihe von Abtastwerten. Bei Bildcodierung treten beispielsweise Helligkeitssprünge auf an dem Rand jedes Blocks von Pixeln. Fig. 3 zeigt davon ein Beispiel. In diesem Beispiel ist x ein Eingangssignal in Form einer linear zunehmenden Bildhelligkeit, die einer 16 · 16 DCT ausgesetzt wird. Auf einfache Weise lässt sich erkennen, dass bei Verzicht auf alle Koeffizienten, ausgenommen diejenigen der niedrigsten Ordnung (die DC Koeffizienten) ein schrittweise zunehmendes Ausgangssignal u erhalten wird, dessen Diskontinuitäten mit den Rändern jeder Reihe von Pixeln zusammenfallen.
Bei überlappenden Transformationen überlappen die Matrizen A und S in der Toeplitz-Struktur einander teilweise. Diese Überlappung kann dadurch ausgedrückt werden, dass die Toeplitz-Struktur wie folgt geschrieben wird:
und
worin
und
nun rechteckige K·N (vertikal · horizontal) Matrizen sind. A&sub1;, A&sub2;, .. und S&sub1;, S&sub2;, .. sind K·K Matrizen.
Durch die überlappende Transformation wird eine Reihe von N Abtastwerten {x&sub1; .. xn} transformiert zu einer Reihe von k Koeffizienten {y&sub1; .. yK}. Nach jeder Transformation schiebt das Eingangssignal um K Abtastwerten weiter. Ebenso wie bei der nicht überlappenden Transformation ist die gesamte Anzahl Koeffizienten dabei gleich der gesamten Anzahl Abtastwerte.
Die Rücktransformation u = Pty kann wie folgt ausgeschrieben werden:
Das Ausgangssignal ist wieder eine Summierung gewichteter (und einander nun überlappender) Basisfunktionen. Die Basisfunktionen werden durch die Reihen {s&sub1;&sub1; .. S1N} .. {sK1 .. sKN} der Matrix S gebildet, die Koeffizienten y bilden wieder die Gewichtungsfaktoren.
Nachstehend werden praktisch anwendbare überlappende Signaltransformationen, beispielsweise zur Bildcodierung, gesucht. Dazu werden an den Übertragungskreis eine Anzahl sinnvoller Beschränkungen und Anforderungen gestellt und diese in Bedingungen übersetzen, denen die Transformatoren A und S entsprechen sollen.
Nachstehend werden wir uns auf eine Überlappung von 50% beschränken. Aufeinanderfolgende Reihen von N = 2K Abtastwerten x überlappen einander folglich zur Hälfte. Jede Reihe von 2K Abtastwerten ergibt K zu übertragender Koeffizienten y. Die Matrizen A und S haben eine Abmessung von K·2K (vertikal · horizontal) Elementen und können als eine Aneinanderreihung zweier K·K Matrizen betrachtet werden:
A = [A&sub1; A&sub2;] und S = [S&sub1; S&sub2;]
Von den Analysenfiltern Hk(z) und Syntehesefiltern Fk(z) in Fig. 2 kann gefordert werden, dass sie einen linearen Phasenverlauf haben. Die Laufzeit der Signale durch jedes der K Filter ist dann dieselbe. Dazu müssen die Impulsreaktionen der Filter zur Hälfte gerade und zur Hälfte ungerade sein. Wie bereits erwähnt, entsprechen die Impulsreaktionen den Reihen A bzw. S. Wenn die geraden und ungeraden Reihen zusammengenommen werden, haben A und S beide die nachfolgende Struktur:
Mathematisch lässt sich diese Eigenschaft wie folgt notieren:
und
Darin sind A&sub1;&sub1;, A&sub2;&sub1;, S&sub1;&sub1; und S&sub2;&sub1; 1/2K·K Matrizen, J ist die sog. Gegenidentitätsmatrix, deren Elemente auf der Antidiagonalen den Wert 1 haben und die übrigen Elemente Null sind. Die Multiplikation einer Matrix mit J bewirkt eine Spiegelung der Reihen.
Eine wichtige Anforderung in Bezug auf die überlappende Transformation ist eine einwandfreie Rekonstruktion des Eingangssignals x. Dazu muss u = PtTx, also PtT = I sein. Weil P und T quadratische Matrizen sind, muss auch TPt = I sein. Wenn die Toeplitz-Struktur von Pt gegeben ist, lässt sind TPt wie folgt schreiben:
Eine ausreichende und notwendige Bedingung für eine einwandfreie Rekonstruktion ist also, dass
A&sub1;S&sub1;t + A&sub2;S&sub2;t = I
A&sub2;S&sub1;t + A&sub1;S&sub2;t = 0.
Weil A und S nach der Formel (3) dieselbe Struktur haben, können diese Bedingungen wie folgt geschrieben werden:
A&sub1;&sub1;S&sub1;&sub1;t = A&sub2;&sub1;S&sub2;&sub1;t = 1/2I (4)
A&sub1;&sub1;JS&sub1;&sub1;t = A&sub1;&sub1;JS&sub1;&sub1;t = A&sub2;&sub1;JS&sub1;&sub1;t = A&sub2;&sub1;JS&sub2;&sub1;t = 0 (5)
Weil die Matrizen A&sub1;&sub1; und A&sub2;&sub1; denselben Rang (1/2K) haben, müssen die Vektoren von A&sub1;&sub1; und A&sub2;&sub1; denselben Raum aufspannen. Die Reihen von A&sub2;&sub1; künnen also geschrieben werden wie eine lineare Kombination der Reihen von A&sub1;&sub1; und umgekehrt. Mathematisch bedeutet dies, dass A&sub2;&sub1; = Ta·A&sub1;&sub1; ist, worin Ta eine beliebige invertierbare 1/2K·1/2K Matrix ist. Für die Synthesematrix S gelten dieselben Erwägungen. Die Formel (3) kann nun wie folgt geschrieben werden:
und
Mit Hilfe von Ta und Ts werden die Filter derart gebildet, dass sie gegenüber "smoothness", Frequenzdiskrimination und dergleichen ein gewünschtes Verhalten zeigen. Insbesondere bewirken Ta und Ts, dass die ungeraden Impulsreaktionen in der Mitte "smooth" durch Null gehen. Sie sind völlig beliebig, insofern sie nur invertierbar sind. Aus der Bedingung (5) lässt sich herleiten, dass TaTst = I, also Ts = Ta&supmin;¹ sein muss.
Die K·2K-Transformationsmatrizen A und S lassen sich also aus einer 1/2K·K Matrix A&sub1;&sub1; bzw. S&sub1;&sub1; zusammensetzen. Wie jede Reihe sich mit Hilfe von Fourierentwicklung schreiben lässt wie die Summe einer geraden Matrix Ae bzw. Se gerader Reihen und einer ungeraden Matrix Ao bzw. So ungerader Reihen. Die Formel (6) wird dann:
und
Die Bedingungen (4) und (5) für eine einwandfreie Rekonstruktion gehen dabei über in:
AeSet = AoSot = 1/4I (8)
Von der Hintransformation A und der Rücktransformation St wird gefordert, dass sie orthogonal sind. Die Analysenmatrix A und die Synthesematrix S sind dann einander gleich. Nachstehend werden sie beide wie folgt ausgedrückt:
Aus dem Obenstehenden folgt, dass A und S aus einer 1/2K·K Matrix Ce konstruiert werden können, die aus geraden Reihen besteht und aus eine 1/2K·K Matrix Co, die aus ungeraden Reihen besteht. Mit anderen Worten: eine überlappende orthogonale Transformation (LOT) kann aus einer orthogonalen K·K Matrix C konstruiert werden, die zur Hälfte aus geraden Reihen und zur Hälfte aus ungeraden Reihen besteht. Die geraden Reihen von C werden dann in Ce untergebracht und skaliert mit einem Faktor 1/2. Die ungeraden Reihen von C werden in Co untergebracht, ebenfalls skaliert mit einem Faktor 1/2. Die orthogonale Matrix C wird hier als "Basismatrix" bezeichnet.
In der Vergangenheit wurde nur die Anwendbarkeit der DCT als Basismatrix für eine überlappende Transformation erforscht. Dazu wird auf den bereits eingangs erwähnten Artikel, sowie auf "The LOT: Tranform Coding Without Blocking Effects" in "IEEE Trans. on ASSP" Heft 37, Nr. 4, April 1989, Seiten 553-559. Es ist sinnvoll, die bekannte LOT auf Basis der DCT etwas näher zu betrachten. In den genannten Veröffentlichungen ist dazu die nachfolgende Formel angewandt:
worin De und Do die geraden bzw. ungeraden Basisfunktionen der DCT-Matrix umfasst. Die Formel (10) ist mit der transponierten Version der Formel (9) vergleichbar. In Fig. 4 sind von einer 16 · 16 DCT-Matrix die zwei Basisfunktionen d&sub0; und d&sub1; der niedrigsten Ordnung (bei Bildcodierung die niedrigsten räumlichen Frequenzen) dargestellt. Darin ist d&sub0; die erste gerade Reihe der DCT (die erste Reihe von De) und d&sub1; die zweite Reihe der DCT (die erste Reihe von Do). Die erste Basisfunktion der daraus gebildeten LOT wird nach der Formel (10) dadurch erhalten, dass die Differenz d&sub0;-d&sub1; gebildet und gespiegelt wiederholt wird, so dass eine gerade Basisfunktion von 32 Abtastwerten erhalten wird. Die erste Basisfunktion ist in Fig. 5 durch s&sub0; angegeben. Die erste ungerade Basisfunktion der Bekannten LOT wird dadurch erhalten, dass die Differenz d&sub0;-d&sub1; gebildet wird, dass die Multiplikation mit Elementen der Matrix Z' durchgeführt wird, und dass das Ergebnis antisymmetrisch wiederholt wird. Es sei bemerkt, dass ohne Multiplikation mit Z' Diskontinuitäten in dieser ungeraden Basisfunktion auftreten würde. Eine derartige diskontinuierliche Basisfunktion ist unerwünscht. Die Multiplikation mit Z' bezweckt diese Diskontinuitäten zu vermeiden. Die auf diese Weise erhaltene erste ungerade Basisfunktion ist in Fig. 5 durch s&sub1; bezeichnet.
Auf entsprechende Weise werden die zweite gerade Basisfunktion s&sub2; und die zweite ungerade Basisfunktion s&sub3; der bekannten LOT aus der dritten (geraden) Reihe d&sub2; und vierten (ungeraden) Reihe d&sub3; der DCT erhalten. Diese und weitere Basisfunktionen der bekannten LOT sind in Fig. 5 nicht mehr dargestellt.
Die bekannte LOT hat die Eigenschaft einer einwandfreien Rekonstruktion. Sie hat außerdem die Eigenschaft, dass eine Reihe konstanter Eingangsabtastwerte (beispielsweise ein Bildblock konstanter Helligkeit) mit Hilfe nur eines DC Koeffizienten (des Gewichtungsfaktors für die Basisfunktion s&sub0;) übertragen werden kann. Die bekannte LOT ist jedoch nicht frei von Blockartefakten. Fig. 6 zeigt das Ausgangssignal u bei einem linear zunehmenden Eingangssignal x, wenn nur der Koeffizient der ersten Basisfunktion übertragen wird. Die Artefakte entstehen dadurch, dass die erste Basisfunktion s&sub0; an den Rändern einen Wert ungleich Null hat. Die Ursache davon liegt in der Tatsache, dass der "Randwert" der ersten Basisfunktion d&sub0; der DCT-Basismatrix um einen Faktor 2 von dem Randwert von d&sub1; abweicht. Man hat versucht dies dadurch zu lösen, dass wenigstens für die erste Basisfunktion s&sub0; nicht s&sub0; = d&sub0;-d&sub1; sondern s&sub0; = d0 2-d&sub1; genommen wird. Die dadurch erhaltene Transformation wird als "Modulated Lapped Transform" (MLT) bezeichnet und es stellt sich in der Praxis heraus, dass dadurch die Blockartefakte wesentlich verringert werden. Die MLT ist jedoch nicht mehr orthogonal.
Nachstehend wird ein Verfahren beschrieben zum Erhalten einer geeigneten orthogonalen Basismatrix C. Wegen der günstigen Filtereigenschaften der DCT bildet die DCT-Matrix den Ausgangspunkt. Die Reihen der DCT-Matrix, gegliedert nach der Filterfrequenz, werden als d&sub0; .. dK bezeichnet, wobei gerade Indices gerade Reihen und ungerade Indices ungerade Reihen bezeichnen. Die Reihen der Basismatrix C werden entsprechend als c&sub0; .. cK bezeichnet.
Als erste Reihe c&sub0; wird die erste Reihe d&sub0; der DCT genommen: c&sub0;-d&sub0;. Die Reihe d&sub0; entspricht nämlich der gewünschten Eigenschaft, dass alle Elemente denselben Wert haben. Diese erste Reihe ist in Fig. 7 durch c&sub0; bezeichnet. Der Wert der Elemente beträgt hier (1/K), so dass die Norm der Reihe (die Wurzel aus der Summe der Quadrate) 1 ist.
Danach wird c&sub1; bestimmt. Diese Reihe soll die nachfolgenden Bedingungen erfüllen:
- Die Elemente am linken Rand müssen "smooth" nach - (1/K) gehen, damit die Elemente von c&sub0;+c&sub1; "smooth" nach Null gehen;
- c&sub1; soll ungerade sein, d. h. einen Nulldurchgang in der Mitte aufweisen;
- Die Norm der Reihe soll der der anderen Reihen entsprechen.
Die Bemessung von c&sub1; kann zum großen Teil auf intuitive Weise erfolgen. Eine erste Annäherung von -c&sub1; wird dadurch erhalten, dass mit Hilfe einiger vorher festgelegter Punkte eine Interpolationskurve höherer Ordnung bestimmt wird. Ein oder zwei dieser Punkte (70 in Fig. 7) liegen auf der linken Seite der Reihe und haben den Wert (1/K). Sie bewirken, dass c&sub1; am linken Rand "smooth" zu dem gewünschten Wert - (1/K) konvergiert. Weitere Punkte werden durch die Werte 72 von d&sub1; gebildet, die auf beiden Seiten des Nulldurchgangs liegen. Die Filterkennlinie von c&sub1; wird dadurch nicht wesentlich anders sein als die an sich günstige Kennlinie der ersten ungeraden Reihe der DCT-Matrix. Eine monoton verlaufende Interpolationskurve zwischen den bisher festgelegten Punkten würde zu einer Reihe mit Norm < 1 führen. Um die Norm wiederherzustellen wird zwischen dem linken Rand und dem Nulldurchgang wenigstens ein Punkt festgelegt mit einem Wert größer als der Randwert (1/K) (71 in Fig. 7).
Durch die auf diese Weise festgelegten Punkte wird eine Interpolationskurve höherer Ordnung berechnet. Die erhaltene Kurve bildet eine erste Schätzung der gesuchten Reihe c&sub1;. Von dieser Reihe wird danach die Norm berechnet. Eine Ab weichen von dem gewünschten Wert wird durch Korrektur der erhaltenen Werte mit einem geeigneten Faktor korrigiert. Gewünschtenfalls kann die Normierung in einer Anzahl sich wiederholender Schritte erfolgen. Auf diese Weise wird letzten Endes die in Fig. 7 durch -c&sub1; bezeichnete Reihe erhalten. Zum Vergleich ist die erste ungerade Reihe der DCT-Matrix in dieser Figur durch d&sub1; bezeichnet.
Die weiteren geraden reihen c&sub2;, c&sub4;, .. der Basismatrix C dürfen den entsprechenden geraden Reihen d&sub2;, d&sub4;, ... der DCT-Matrix völlig entsprechen. Sie stehen bereits senkrecht aufeinander (weil dies eine Eigenschaft der DCT ist) und senkrecht auf allen anderen Reihen (weil die ungerade sind).
Die weiteren ungeraden Reihen c&sub3;,c&sub5;, ... der Basismatrix C können ebenfalls unmittelbar aus den entsprechenden Reihen der DCT-Matrix hergeleitet werden. Sie brauchen keine Änderung der Form und entsprechen bereits ausreichend der Anforderung, dass sie an dem linken Rand deren benachbarter gerader Reihe entsprechen. Die Reihen d&sub3;, d&sub5;, ... der DCT-Matrix stehen jedoch nicht senkrecht auf der oben konstruierten Reihe c&sub1;. Sie müssen daher nacheinander gedreht werden. Dieser Prozess der Vektordrehung ist in der Mathematik allgemein bekannt unter der Bezeichnung: Gram-Schmidt-Orthogonalisation.
Fig. 8 zeigt die erste gerade Basisfunktion s&sub0; und die erste ungerade Basisfunktion s&sub1; der Transformationsmatrix S, wie diese mit Hilfe der Formel (9) aus c&sub0; und c&sub1; erhalten worden sind. Fig. 9 zeigt das Ausgangssignal u bei einem linear zunehmenden Eingangssignal x, wenn nur der Koeffizient der ersten Basisfunktion übertragen wird. Blockartefakte an den Rändern gibt es nun überhaupt nicht.

Claims

1. System zur Übertragung von Bild- oder Tonsignalen, mit:

ersten Mitteln (2; 10, 11) zum Transformieren einander halb überlappender Reihen von Abtastwerten des Bild- oder Tonsignals in Koeffizienten mittels einer ersten Transformationsmatrix A;

Mitteln (3, 4) zum Übertragen der Koeffizienten;

zweiten Transformationsmitteln (5; 12, 13) zum überlappenden Rücktransformieren der übertragenen Koeffizienten in ein Ausgangssignal mittels einer zweiten Transformationsmatrix S,

wobei die Matrizen A und S wie folgt geschrieben werden können:

wobei I die Einheitsmatrix ist, O die Nullmatrix, T eine beliebig invertierbare Matrix und J die "Counter-identity"-Matrix ist, und wobei die Matrizen Ce und Co gerade Basisfunktionen bzw. ungerade Basisfunktionen einer Basismatrix C haben, wobei jede Basisfunktion cj eine Ordnung j hat, die entsprechend der zentralen Frequenz des Frequenzspektrums der Basisfunktion gegliedert ist,

dadurch gekennzeichnet, dass die Basismatrix C orthogonal ist und dass die Elemente c2i,k der geraden Basisfunktionen und die Elemente c2i+1,k der ungeraden Basisfunktionen wenigstens der niedrigsten Ordnung (i = 0) der nachfolgenden Gleichung entsprechen:

0 ≤ c2i,0 + c2i+1,0 ≤ c2i,1 + c2i+1,1

2. System nach Anspruch 1, dadurch gekennzeichnet, dass die Elemente c2i,k der geraden Basisfunktionen c2i und die Elemente c2i+1,k der ungeraden Basisfunktionen c2i+1 paarweise der nachstehenden Gleichung entsprechen:

0 ≤ c2i,0 + c2i+1,0 ≤ c2i,1 + c2i+1,1

3. System nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass alle Elemente c0,k der geraden Basisfunktion c&sub0; mit der niedrigsten Ordnung denselben Wert haben.

4. System nach Anspruch 1, 2 oder 3, dadurch gekennzeichnet, dass wenigstens ein Element c1,k (71) der ungeraden Basisfunktion c&sub1; mit der niedrigsten Ordnung der nachfolgenden Gleichung entspricht:

c1,k > c1,0

5. Codierungsstation zum Codieren von Bild- oder Tonsignalen mit Transformationsmitteln zum Transformieren einander halb überlappender Reihen von Abtastwerten des Bild- oder Tonsignals in Koeffizienten mittels einer ersten Transformationsmatrix A, und Mitteln zum Codieren der Koeffizienten, wobei die Matrix A wie folgt geschrieben werden kann:

0 ≤ c2i,0 + c2i+1,0 ≤ c2i,1 + c2i+1,1

6. Codierungsstation nach Anspruch 5, dadurch gekennzeichnet, dass die Elemente c2i,k der geraden Basisfunktionen c2i und die Elemente c2i+1,k der ungeraden Basisfunktionen c2i+1 paarweise der nachstehenden Gleichung entsprechen:

0 ≤ c2i,0 + c2i+1,0 ≤ c2i,1 + c2i+1,1

7. Codierungsstation nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass alle Elemente c0,k der geraden Funktion c&sub0; mit der niedrigstens Ordnung denselben Wert haben.

8. System nach Anspruch 5, 6 oder 7, dadurch gekennzeichnet, dass wenigstens ein Element c1,k (71) der ungeraden Basisfunktion c&sub1; mit der niedrigsten Ordnung der nachfolgenden Gleichung entspricht:

c1,k > c1,0

9. Decodersystem zum Decodieren von Bild- oder Tonsignalen, die in Form von Koeffizienten einer überlappten Signaltransformation übertragen worden sind, mit Transformationsmitteln zum überlappenden Rücktransformieren der übertragenen Koeffizienten in ein Ausgangssignal mittels einer Transformationsmatrix St, wobei die Matrix S wie folgt geschrieben werden kann:

0 ≤ c2i,0 + c2i+1,0 ≤ c2i,1 + c2i+1,1

10. Decoderstation nach Anspruch 9, dadurch gekennzeichnet, dass die Elemente c2i,k der geraden Basisfunktionen c2i und die Elemente c2i+1,k der ungeraden Basisfunktionen c2i+1 paarweise der nachstehenden Gleichung entsprechen:

0 ≤ c2i,0 + c2i+1,0 ≤ c2i,1 + c2i+1,1

11. Decoderstation nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass alle Elemente c0,k der geraden Basisfunktion c&sub0; der niedrigsten Ordnung denselben Wert haben.

12. Decoderstation nach Anspruch 9, 10 oder 11, dadurch gekennzeichnet, dass wenigstens ein Element c1,k (71) der ungeraden Basisfunktion c&sub1; mit der niedrigsten Ordnung der nachfolgenden Gleichung entspricht:

c1,k > c1,0

13. Verfahren zum Übertragen von Bild- oder Tonsignalen, wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst:

das Transformieren einander halb überlappender Reihen von Abtastwerten des Bild- oder Tonsignals in Koeffizienten mittels einer ersten Transformationsmatrix A;

das Übertragen der Koeffizienten;

das überlappende Rücktransformieren der übertragenen Koeffizienten in ein Ausgangssignal mittels einer zweiten Transformationsmatrix S,

wobei die Matrizen A und S wie folgt geschrieben werden können:

wobei I die Einheitsmatrix ist, O die Nullmatrix, T eine beliebig invertierbare Matrix und J die "Counter-identity"-Matrix ist, und wobei die Matrizen Ce und Co gerade Ba sisfunktionen bzw. ungerade Basisfunktionen einer Basismatrix C haben, wobei jede Basisfunktion cj eine Ordnung j hat, die entsprechend der zentralen Frequenz des Frequenzspektrums der Basisfunktion gegliedert ist,

0 ≤ c2i,0 + c2i+1,0 ≤ c2i,1 + c2i+1,1

14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass die Elemente c2i,k der geraden Basisfunktionen c2i und die Elemente c2i+1,k der ungeraden Basisfunktionen c2i+1 paarweise der nachstehenden Gleichung entsprechen:

0 ≤ c2i,0 + c2i+1,0 ≤ c2i,1 + c2i+1,1

15. Verfahren nach Anspruch 13 oder 14, dadurch gekennzeichnet, dass alle Elemente c0,k der geraden Basisfunktion c&sub0; mit der niedrigsten Ordnung denselben Wert haben.

16. Verfahren nach Anspruch 13, 14 oder 15, dadurch gekennzeichnet, dass wenigstens ein Element c1,k (71) der ungeraden Basisfunktion c&sub1; mit der niedrigsten Ordnung der nachfolgenden Gleichung entspricht:

c1,k > c1,0

17. Bild- oder Tonsignal in Form von Reihen von Koeffizienten, die durch Transformation von einander halb überlappenden Reihen von Abtastwerten des Bild- oder Tonsignals in Koeffizienten erhalten worden sind mittels einer ersten Transformationsmatrix A, wobei die Matrix A wie folgt geschrieben werden kann:

0 ≤ c2i,0 + c2i+1,0 ≤ c2i,1 + c2i+1,1