DE60222728T2

DE60222728T2 - Verfahren und System mit verbesserter Kodierungseffektivität eines Bildkodierer-Dekodierers

Info

Publication number: DE60222728T2
Application number: DE60222728T
Authority: DE
Inventors: Fehmi Irving Chebil
Original assignee: Nokia Oyj
Current assignee: Sisvel International SA
Priority date: 2001-09-18
Filing date: 2002-08-29
Publication date: 2008-07-17
Anticipated expiration: 2022-08-30
Also published as: US6993199B2; US20030063810A1; DE60222728D1; EP1294175B1; ATE375062T1; EP1294175A1

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft allgemein digitale Bildkompression und spezieller auf Teilbandzerlegung beruhende Bitebenencodierer.
STAND DER TECHNIK
Es ist allgemein bekannt, dass Bildkompression eine Verringerung der Menge an Bilddaten für eine Übertragung oder Speicherung bewirkt. Insbesondere ist es mit der Einführung von skalierbaren Bildcodierungsformaten wie dem JPEG2000 möglich geworden, nur einen Bruchteil der Bilddatei zu senden und zu empfangen und am empfangenden Ende trotzdem ein Bild von hoher Qualität zu rekonstruieren. Der Teil, welcher aus dem Bild weggelassen wird, enthält gewöhnlich Informationen, welche die in dem Bild vorhandenen hochfrequenten Komponenten beschreiben, die den Einzelheiten entsprechen, für welche das visuelle System des Menschen (Human Visual System, HVS) nicht sehr empfindlich ist.
JPEG steht für Joint Photographic Experts Group. Im Jahr 1988 führte dieses Komitee seinen ersten Standard ein, bekannt als JPEG Baseline, welcher auf der diskreten Cosinustransformation (Discrete Cosine Transform, DCT) und auf Huffman-Codierung beruht. Im Jahr 1966 wurde ein Aufruf veröffentlicht, Vorschläge für ein standardisiertes Bildcodierungssystem für das neue Jahrtausend zu unterbreiten, und es wurden viele Algorithmen vorgeschlagen. Gegenwärtig ist ein neuer Standard mit dem Namen JPEG2000 fertiggestellt worden. Dieser neue Standard gewährleistet ein Betrieb bei niedriger Bitrate, mit einer Leistungsfähigkeit bezüglich der Ratenverzerrung (Rate Distortion) und der subjektiven Bildqualität, die existierenden Standards überlegen ist, ohne dass Leistungseinbußen an anderen Punkten im Spektrum der Ratenverzerrung vorhanden sind. Was noch wichtiger ist, JPEG2000 ermöglicht eine Extraktion von unterschiedlichen Auflösungen, Pixeltreuen, einem interessierenden Bereich, mehreren Komponenten und mehr, all dies aus einem einzigen komprimierten Bitstrom. Dies ermöglicht einem Benutzer, aus einem beliebigen mit JPEG2000 komprimierten Quellbild nur die wesentlichen Informationen für irgendein Zielgerät zu verarbeiten, zu speichern oder zu übertragen. Der JPEG2000 Codierer ist ein Beispiel der auf Teilbandzerlegung beruhenden Bitebenencodierer.
Der Standard JPEG2000 verwendet Wavelets als Basis für sein Codierungsschema. Mit Wavelet-Codierung wird der größte Teil der Bildinformation in den früheren Stadien der Kompression codiert, was eine gute Rekonstruktion bei niedrigen Raten ergibt. In JPEG2000 und anderen skalierbaren Bildcodecs wird die codierte Bildinformation, welche am meisten zur Bildqualität beiträgt, in der Bilddatei zuerst angeordnet. Bei diesen Typen von Bildcodecs werden Bitebenencodierer verwendet, um die Wavelet-Samples in Bitebenen zu codieren. Die Bitebenencodierer codieren die Samples, beginnend bei ihrer höchstwertigen Bitebene. Wenn die codierten Bilddaten von der Sendeseite zu einem Empfänger übertragen werden, sind die übertragenen Daten auf die verfügbare Übertragungsbandbreite begrenzt. Anders ausgedrückt, die codierten Bilddaten müssen reduziert werden, um eine Ziel-Bitrate zu erreichen. Es ist bekannt, dass die codierten Bilddaten für eine Übertragung reduziert werden können, ohne die Qualität des rekonstruierten Bildes wesentlich zu beeinträchtigen, indem nur die am wenigsten wichtigen Bits eines Codestroms beseitigt werden. Daher ist es wesentlich, wenn die Bilddaten zur Übertragung oder zur Speicherung komprimiert werden, die Daten einzubeziehen, welche am meisten zu dem Bild beitragen. Ein Weg, um dies zu erreichen, besteht darin, einen Algorithmus zur Optimierung der Ratenverzerrung anzuwenden. Ein Algorithmus zur Optimierung der Ratenverzerrung organisiert die Bilddaten entsprechend ihrem Beitrag zur Verringerung der Verzerrung in dem zu codierenden Bild. Die Verzerrung des Bildes kann zum Beispiel mittels des mittleren quadratischen Fehlers gemessen werden.
Gegenwärtig werden Bildkompressionsalgorithmen verwendet, um Codestrom-Darstellungen von Bildern auf eine Art und Weise zu erzeugen, bei der eine Skalierbarkeit von Qualität oder Auflösung vorliegt. Skalierbarkeit ermöglicht, aus demselben Codestrom mehrere Bilder mit verschiedenen Qualitäten oder verschiedenen Auflösungen zu extrahieren. Daher kann derselbe Codestrom mehreren Anwendungen mit unterschiedlichen Fähigkeiten zur Verfügung gestellt werden. Um einen hinsichtlich der Qualität skalierbaren Codestrom bereitzustellen, welcher eine optimale Bildqualität bietet und dabei gleichzeitig ermöglicht, den Codestrom an verschiedenen Punkten zu beschneiden, sollte der Algorithmus der Ratenverzerrung eine Optimierung der Bildkompression an diesen Beschneidungspunkten bewirken.
Um die Bildqualität zu verbessern, indem die Beschneidung an zufälligen Punkten vermieden wird, offenbart WO 98/34398 (Li et al.) eine bezüglich der Ratenverzerrung optimierte Einbettung (Rate-Distortion Optimized Embedding, RDE) zur Optimierung des Verhaltens hinsichtlich der Ratenverzerrung durch Codieren von Informationsbits in der Reihenfolge des steilsten Anstiegs der Ratenverzerrung. Der Hauptnachteil des in WO 98/34398 verwendeten Verfahrens ist jedoch, dass alle Bitebenen codiert werden müssen, um das Verhältnis der Informationen zu der Ziel-Bitrate oder der Ziel-Dateigröße zu bestimmen. Bei Anwendungen mit mittlerer und niedriger Bitrate wird ein großer Abschnitt des generierten Codestroms durch den Ratenverzerrungs-Zuordner verworfen, um die Ziel-Bitrate zu erfüllen. Dies bedeutet, dass ein wesentlicher Teil der bereits codierten Daten dann nicht in dem endgültigen Bild enthalten ist. Vielmehr wird dieser Teil von codierten Daten beim Beschneidungsvorgang eliminiert. Daher wird, obwohl die Effizienz der Kompression verbessert wird, die Komplexität der Berechnung erhöht, und ein Teil der CPU-Zeit, die für die Bildkompression benötigt wird, wird beim Codieren der nicht benutzten Daten verschwendet. Bei Telekommunikationsanwendungen, bei denen Rechenressourcen teuer sind, sollte die verschwendete CPU-Zeit vermieden oder auf ein Minimum begrenzt werden.
Die US-Patentschrift Nr. 6,236,757 B1 (Zeng et al.) offenbart ein Bildkompressionsverfahren, wobei ein eingegebenes Bild in mehrere Bildsegmente unterteilt wird und jedes Segment einem Wavelet-Transformationsfilter aus einer Bank von Filtern für die Transformation zugewiesen wird. Die Bildfilter sind für verschiedene Typen von Bildinhalten angepasst, wie etwa scharfe Kanten und langsam variierende Konturen. Nach der Transformation werden die Koeffizienten für verschiedene Segmente in einem zusammengesetzten Waveletkoeffizienten-Bild kombiniert. Ein solches zusammengesetztes Bild ermöglicht eine gemeinsame, bezüglich der Ratenverzerrung optimierte Codierung eines segmentierten Bildes, wodurch Bits optimal zwischen den Transformierten der Bildsegmente zugeordnet werden, zum Bereitstellen eines leicht skalierbaren Bitstroms, um eine Ziel-Bitrate zu erreichen. Der Hauptnachteil dieser Vorgehensweise ist, dass für die Filterauswahl ein Entropieschätzer verwendet werden muss. Genauer, die Entropiewerte der einzelnen Bildsegmente, die mit sämtlichen Filtern in der Filterbank verknüpft sind, müssen beurteilt und verglichen werden. Diese Prozedur der Entropieschätzung erhöht auch die Berechnungskomplexität des Codierers.
Um die Verschwendung von CPU-Zeit bei Beschneidungsverfahren zu veranschaulichen, ist in den 1a und 1b eine grobe Herangehensweise dargestellt. Bei dieser Herangehensweise werden, nachdem ein Bild mittels einer Wavelet-Transformation (oder diskreten Cosinustransformation) in Samples zerlegt worden ist, wie in 1a dargestellt, die Samples im Transformationsbereich Bitebene für Bitebene komprimiert, beginnend beim höchstwertigen Bit. Der das komprimierte Bild repräsentierende Codestrom wird dann gebildet, indem der Beitrag der Bits entsprechend ihrer Verringerung der Verzerrung geordnet wird. Die wichtigsten Bits des Codestroms werden als solche betont, um die optimale Bildqualität zu erzielen. Bei dieser groben Herangehensweise werden, wie bei den meisten Verfahren nach dem Stand der Technik, sämtliche Bitebenen in jedem Bildsample so komprimiert, als ob ein vollständiger Codestrom für eine Übertragung oder Speicherung erzeugt werden soll, wie in 1b dargestellt. Wenn jedoch der eigentliche Codestrom erzeugt wird, wird ein wesentlicher Teil der komprimierten Daten verworfen, um die Ziel-Bitrate für die Übertragung zu erreichen, oder die Ziel-Dateigröße für die Speicherung. In diesem dargestellten Beispiel ist der verworfene Teil äquivalent zur Hälfte der Gesamtmenge der Bitebenen der codierten Bilddaten.
Somit werden 50 Prozent der CPU-Zeit, die bei der Kompressionsprozedur verwendet wird, für "unnötige Datencodierung" verschwendet.
Daher ist es wünschenswert und vorteilhaft, ein Verfahren und ein System zur Bildcodierung bereitzustellen, bei denen die unnötige Datencodierung reduziert wird und die Berechnungskomplexität auf ein Minimum begrenzt wird.
KURZDARSTELLUNG DER ERFINDUNG
Gemäß dem ersten Aspekt der Erfindung wird ein Verfahren zum Codieren eines Bildes mit einem Kompressionsfaktor zum Bereitstellen von codierten Daten für eine Übertragung oder Speicherung bereitgestellt, wobei das Bild durch eine Transformierte in Teilbänder einer oder mehrerer Auflösungsebenen zerlegt wird, wobei jedes Teilband Einheiten von transformierten Bilddaten enthält, die in einer ersten Anzahl von Bitebenen organisiert sind, wobei das Verfahren gekennzeichnet ist durch:
Zuweisen eines oder mehrerer Gewichtungsindizes, die hinsichtlich des Kompressionsfaktors und der Auflösungsebene indikativ sind, zu den Teilbändern, durch
Bestimmen einer Anzahl von weglassbaren Bitebenen entsprechend den Gewichtungsindizes, durch
Bereitstellen, für jede Einheit, von angepassten transformierten Bilddaten mit einer zweiten Anzahl von Bitebenen, die kleiner als die erste Anzahl ist, durch Weglassen der Anzahl von weglassbaren Bitebenen, und durch
Codieren der angepassten transformierten Bilddaten, um die codierten Daten bereitzustellen.
Gemäß der vorliegenden Erfindung können die Einheiten Blöcke oder Samples sein.
Vorzugsweise ist die Transformierte eine Wavelet-Transformierte.
Gemäß der vorliegenden Erfindung ist jedes Teilband hinsichtlich einer Gruppe von transformierten Koeffizienten indikativ, die aus Operationen der Bandpassfilterung in Bezug auf die Transformierte resultieren, und wobei die Gewichtungsindizes von den Filteroperationen abhängig sind.
Gemäß dem zweiten Aspekt der vorliegenden Erfindung wird ein Codierer zum Codieren eines Bildes mit einem Kompressionsfaktor zum Bereitstellen von codierten Daten für eine Übertragung oder Speicherung bereitgestellt, wobei das Bild durch eine Transformierte in Teilbänder einer oder mehrerer Auflösungsebenen zerlegt wird, wobei jedes Teilband Einheiten von transformierten Bilddaten enthält, die in einer ersten Anzahl von Bitebenen dargestellt sind, wobei der Codierer gekennzeichnet ist durch:
Mittel, reagierend auf die transformierten Bilddaten, zum Zuweisen eines oder mehrerer Gewichtungsindizes, die hinsichtlich des Kompressionsfaktors und der Auflösungsebene indikativ sind, zu den Teilbändern, zum Bereitstellen von Informationen, die hinsichtlich der zugewiesenen Gewichtungsindizes indikativ sind;
Mittel, reagierend auf die Informationen, zum Bereitstellen, für jede Einheit, von angepassten transformierten Bilddaten mit einer zweiten Anzahl von Bitebenen, die kleiner als die erste Anzahl ist, durch Weglassen einer Anzahl von weglassbaren Bitebenen, die durch die Gewichtungsindizes bestimmt wird, und
Mittel, reagierend auf die weiteren Daten, zum Codieren der angepassten transformierten Bilddaten für die codierten Daten.
Gemäß dem dritten Aspekt der vorliegenden Erfindung wird ein Bildcodierungssystem mit einer Sendeseite und einer Empfangsseite bereitgestellt, welches umfasst:
einen Codierer auf der Sendeseite zum Codieren eines Bildes mit einem Kompressionsfaktor zum Bereitstellen von codierten Daten für eine Übertragung oder Speicherung, wobei das Bild durch eine Transformierte in Teilbänder einer oder mehrerer Auflösungsebenen zerlegt wird, wobei jedes Teilband Einheiten von transformierten Bilddaten enthält, die in einer ersten Anzahl von Bitebenen dargestellt sind, wobei der Codierer gekennzeichnet ist durch:
Mittel, reagierend auf die transformierten Bilddaten, zum Zuweisen eines oder mehrerer Gewichtungsindizes, die hinsichtlich des Kompressionsfaktors und der Auflösungsebene indikativ sind, zu den Teilbändern, zum Bereitstellen von Informationen, die hinsichtlich der zugewiesenen Gewichtungsindizes indikativ sind;
Mittel, reagierend auf die Informationen, zum Bereitstellen, für jede Einheit, von angepassten transformierten Bilddaten mit einer zweiten Anzahl von Bitebenen, die kleiner als die erste Anzahl ist, durch Weglassen einer Anzahl von weglassbaren Bitebenen, die durch die Gewichtungsindizes bestimmt wird; und
Mittel, reagierend auf die weiteren Daten, zum Codieren der angepassten transformierten Bilddaten, um einen Codestrom bereitzustellen, der hinsichtlich der codierten angepassten transformierten Bilddaten indikativ ist, und
einen Decoder auf der Empfangsseite, reagierend auf den Codestrom, zum Rekonstruieren des Bildes anhand der codierten angepassten transformierten Bilddaten.
Die vorliegende Erfindung wird beim Studium der Beschreibung in Verbindung mit den 2–6 offenkundig.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1a ist eine schematische Darstellung, die ein Bild zeigt, das in mehrere Samples transformiert wird.
1b ist eine schematische Darstellung, die zeigt, dass sämtliche Bitebenen in jedem Sample codiert werden und ein Teil der codierten Daten aus dem erzeugten Codestrom ausgeschlossen wird, um die Anforderungen hinsichtlich der Übertragungsbandbreite oder des Speicherplatzbedarfs zu erfüllen.
2 ist eine schematische Darstellung, die eine dyadische Zerlegung eines Bildes unter Verwendung einer Transformation mit zwei Auflösungsebenen zeigt.
3a ist eine schematische Darstellung, die zeigt, dass ein Teil der Bitebenen in transformierten Bilddaten vor der Kompression weggelassen wird, entsprechend der vorliegenden Erfindung.
3b ist eine schematische Darstellung, die zeigt, dass die angepassten transformierten Bilddaten codiert werden und die codierten Daten ferner in einem erzeugten Codestrom beschnitten werden.
4 ist ein Flussdiagramm, welches das Verfahren zur Bildcodierung gemäß der vorliegenden Erfindung darstellt.
5 ist ein Blockschaltbild, das einen Bildcodierer gemäß der vorliegenden Erfindung darstellt.
6 ist ein Blockschaltbild, das ein Bildcodierungssystem gemäß der vorliegenden Erfindung darstellt.
BESTE AUSFÜHRUNGSFORM DER ERFINDUNG
2 zeigt das Ergebnis einer typischen Transformation mit mehreren Auflösungen. Wie dargestellt, wird das ursprüngliche Bild in zwei Auflösungsebenen zerlegt: Die erste Ebene enthält die Teilbänder HL0, HH0 und LH0; und die zweite Ebene enthält die Teilbänder HL1, HH1, LH1 und LL2. Bei einer Zerlegung in drei Ebenen wird das Teilband LL2 in ähnlicher Weise weiter zerlegt in Teilbänder HL2, HH2, LH2 und LL3. Gemäß der vorliegenden Erfindung kann die Auflösungsebene eins, zwei oder mehr sein. Ferner kann die Zerlegung wavelet-basiert sein, sie kann jedoch auch auf einer diskreten Cosinustransformation (DCT) oder Ähnlichem beruhen.
Die 3a bis 4 veranschaulichen das Verfahren zum Reduzieren der "unnötigen Datencodierung" gemäß der vorliegenden Erfindung. Nachdem ein Bild in Teilbänder unterschiedlicher Auflösungsebenen zerlegt worden ist, wobei jedes Teilband mehrere Samples von transformierten Bilddaten enthält, die in einer Anzahl von Bitebenen dargestellt sind, werden die transformierten Bilddaten in jedem Sample angepasst, um die Anzahl der Bitebenen zu verringern, wie in 3a dargestellt. In der Figur sind die Samples mit Bezugszeichen 10, 12, 14 und 16 bezeichnet. Die transformierten Bilddaten in jedem der Samples sind in acht Bitebenen organisiert, zum Beispiel mit dem höchstwertigen Bit (Most Significant Bit, MSB) oben und dem niedrigstwertigen Bit (Least Significant Bit, LSB) unten. Die Anzahl der Bitebenen, welche die transformierten Bilddaten in jedem Sample repräsentieren, wird mit N_T bezeichnet. In 3 ist die Anzahl N_T gleich 8, sie kann jedoch kleiner oder größer als 8 sein. Um die Zeit zu verringern, die für das Codierender "unnötigen Daten" aufgewendet wird, ist es wünschenswert vorherzusagen, welche Bitebenen dann in dem endgültigen Bitstrom (dem tatsächlichen Codestrom, der zur Übertragung mit einer Ziel-Bitrate oder zur Speicherung mit einer Ziel-Dateigröße zu erzeugen ist) nicht verwendet werden, so dass die vorhergesagten nicht verwendeten Bitebenen dann beim Kompressions- oder Codierungsvorgang weggelassen werden. Die Anzahl der weggelassenen Bitebenen in jedem Sample wird mit N_B bezeichnet. Bei einer Wavelet-Transformation oder Ähnlichem ist es möglich, den Beitrag von Wavelet-Koeffizienten zu dem erzeugten Bitstrom zu bestimmen, entsprechend dem Verzerrungsmaß "maximales Signal-Rausch-Verhältnis". Bekanntlich repräsentieren bei der Wavelet-Transformation niedrige Auflösungsebenen einen Mittelwert des Bildes. Daher ist die Anzahl der Bitebenen, welche weggelassen werden können, in hohen Auflösungsebenen größer als die in den niedrigen Auflösungsebenen. Zum Beispiel gehören, wie in 2 dargestellt, die Teilbänder LL2, HL1, HH1 und LH1 zu derselben Auflösungsebene, welche als Auflösungsebene 1 bezeichnet werden kann, und die Teilbänder HL0, HH0 und LH0 befinden sich in der als Auflösungsebene 2 bezeichneten Auflösungsebene. Ein Teilband ist eine Gruppe von transformierten Koeffizienten, die aus derselben Folge von Tiefpass- und Hochpass-Filteroperationen resultieren, sowohl vertikal als auch horizontal. Es ist ebenfalls ein charakteristisches Merkmal der Wavelet-Transformation, dass in derselben Auflösungsebene die Samples, die zu verschiedenen Teilbändern gehören, in unterschiedlichem Grade zur Bildqualität beitragen. Das LL-Band enthält den größten Teil der Bildinformation, während das HH-Band hauptsächlich die Ränder der Bilder enthält. Dementsprechend weist das HH-Band immer weniger in den erzeugten Bitstrom einzubeziehende Bitebenen auf, als die anderen Teilbänder. Ferner kann die Anzahl der wegzulassenden Bitebenen von dem Kompressionsfaktor abhängig sein, der auf das Bild angewendet wird. Es ist daher möglich, die Anzahl weggelassener Bitebenen wie folgt zu schätzen: NB = f(Auflösungsebene) + g(Bandindex) + h(Kompressionsfaktor) (1)wobei f, g und h Gewichtungsindizes sind.
Zum Beispiel kann man setzen
f(Auflösungsebene) = Auflösungsebene;
g(Bandindex) = 1, falls das Teilband ein HH-Band ist,
= 0, sonst;
h(Kompressionsfaktor) = Kompressionsfaktor.
Der Kompressionsfaktor eines Bildes hängt von der Bildauflösung und der Ziel-Bitrate für die Übertragung oder der Ziel-Dateigröße für die Speicherung ab. Um den Wert von h festzulegen, ist es möglich, eine Nachschlagtabelle (Look-Up-Table, LUT) zu verwenden, die auf der Bildauflösung und der Ziel-Bitrate/Dateigröße beruht. Die Bildauflösungen können entsprechend den üblichen Auflösungen für verschiedene Bildtypen bei der digitalen Bildbearbeitung klassifiziert werden. Die übliche Auflösung für QCIF ist (176 mal 144), für CGA (320 mal 200), für CIF (352 mal 288), für VGA (640 mal 480) und für SVGA (800 mal 600). Der Kompressionsfaktor kann in drei Werte klassifiziert werden: Hoch = 2, mittel = 1 und niedrig = 0, entsprechend der Ziel-Bitrate/Dateigröße. Zum Beispiel wird 1 Bit pro Pixel als hohe Kompression für ein QCIF-Bild (h = 2) betrachtet, während dieselbe Ziel-Bitrate als mittlere Kompression für ein VGA-Bild (h = 1) betrachtet wird.
Wie in 3a dargestellt, gehören die Samples 10 und 12 zu dem Teilband LH1, während die Samples 14 und 16 zu dem Teilband HH1 eines VGA-Bildes gehören, das in einen Codestrom mit einer Rate von 1 Bit pro Pixel zu codieren ist. Daher ist g = 0 für die Samples 10 und 12, g = 1 für die Samples 14 und 16 und h = 1 und f = 1 für alle Samples. Dementsprechend ist N_B = 2 für die Samples 10 und 12 und N_B = 3 für die Samples 14 und 16. Nach dem Anpassen der transformierten Bilddaten für die Reduzierung der Bitebenen gemäß der vorliegenden Erfindung werden die Samples der angepassten Bilddaten mit Bezugszeichen 10', 12', 14' und 16' bezeichnet. Die Anzahl von Bitebenen N_R der transformierten Bilddaten, die zu komprimieren oder zu codieren sind, beträgt 6 für die Samples 10' und 12' und 5 für die Samples 14' und 16'. In ähnlicher Weise ist für die transformierten Bilddaten in den Samples, die zu LL2 und HL1 desselben VGA-Bildes gehören, die Anzahl von weggelassenen Bildebenen N_B gleich 2, N_B = 3 für diejenigen, die zu den Teilbändern HL0 und LH0 gehören, und N_B = 4 für diejenigen, die zum Teilband HH0 gehören.
Nachdem die Samples 10', 12', 14' und 16', beginnend beim MSB jedes Samples, zu codierten Daten codiert worden sind, erfolgt das Ordnen der Bitebenen der Samples der codierten Daten im Prozess der Optimierung der Ratenverzerrung, derart, dass, falls die Menge der codierten Daten größer ist als die Menge, die durch die Ziel-Bitrate/Dateigröße zugelassen ist, ein Teil der niederwertigen Bitebenen in dem erzeugten Codestrom für die Übertragung oder Speicherung zusätzlich weggelassen wird. Wie in 3B dargestellt, wird, nachdem die angepassten transformierten Bilddaten im Sample 12' zu codierten Daten 22 codiert worden sind, nur der Abschnitt 24 für die Erzeugung des Codestroms verwendet. Der Abschnitt 26 wird infolge einer Beschneidung entsprechend der Reihenfolge der Bitebenen nicht für die Übertragung oder Speicherung verwendet. Wie dargestellt, ist der verwendete Abschnitt 24 äquivalent zu 4 Bitebenen, und der nicht verwendete Abschnitt 26 ist äquivalent zu 2 Bitebenen. Wenn die angepassten transformierten Bilddaten im Sample 14' zu codierten Daten codiert werden und daraus dann ein Codestrom für die Übertragung oder Speicherung mit derselben Ziel-Bitrate/Dateigröße erzeugt wird, dann ist die nicht verwendete Menge von codierten Daten in dem Sample 14' gleich 1 Bitebene. Ebenso ist der nicht verwendete Abschnitt der codierten Daten in den angepassten transformierten Bilddaten in den Samples, die zu LL2 und HL1 desselben VGA-Bildes gehören, äquivalent zu 2 Bitebenen, und der nicht verwendete Abschnitt der codierten Daten in den angepassten transformierten Bilddaten in den Samples, die zu HL0 und LH0 gehören, ist 1 Bitebene. Keine nicht verwendeten codierten Daten sind in den angepassten transformierten Bilddaten in den Samples, die zu HH0 gehören, vorhanden.
Bei Anwendung des Verfahrens der Reduzierung der Bitebenen gemäß der vorliegenden Erfindung entspricht der nicht verwendete Abschnitt der codierten Daten 0, 1 oder 2 Bitebenen, in Abhängigkeit von den Typen der Teilbänder und den Auflösungsebenen der Teilbänder. Die Menge an CPU-Zeit für "unnötige Datencodierung" für jedes Sample ist gleich der Menge an Zeit für das Codieren von 0, 1 und 2 Bitebenen, wie in Spalte 3 von TABELLE I angegeben. Bei dem groben Verfahren, das in den 1a und 1b dargestellt ist, ist der nicht verwendete oder verworfene Abschnitt immer gleich 4 Bitebenen, unabhängig von den Typen der Teilbänder und den Auflösungsebenen der Teilbänder. Daher ist die Menge an CPU-Zeit für unnötige Datencodierung für jedes Sample gleich der Menge an Zeit, die für das Codieren von 4 Bitebenen benötigt wird, wie in der letzten Eintragung in Spalte 3 von TABELLE I angegeben. Das Verfahren zum Codieren eines Bildes gemäß der vorliegenden Erfindung kann eine erhebliche Menge an CPU-Zeit einsparen.

Teilband N_B (Bitebenen) Unnötige Codierung (Bitebenen)

LL2 2 2

LH1 2 2

HL1 2 2

HH1 3 1

LH0 3 1

HL0 3 1

HH0 4 0

Alle Teilbänder (Stand der Technik) Nicht zutreffend 4

TABELLE I
4 stellt das Verfahren zur Bildcodierung gemäß der vorliegenden Erfindung dar. Wie das Diagramm 200 zeigt, wird im Schritt 210 ein Eingangsbild empfangen. Im Schritt 212 werden ein oder mehrere Vorverarbeitungsschritte ausgeführt. Zum Beispiel können in der Vorverarbeitungsetappe die rote (R), grüne (G) und blaue (B) Komponente des Bildes im RGB-Farbraum in Chrominanz-(U, V) und Luminanz-(Y)Komponenten im YUV-Farbraum konvertiert werden. Diese Vorverarbeitungsschritte sind nicht Teil der vorliegenden Erfindung. Das vorverarbeitete Bild wird in Schritt 214 durch einen Transformationsalgorithmus wie etwa eine Vorwärts-Wavelet-Transformation in Teilbänder zerlegt, die Samples von transformierten Bilddaten enthalten. Für jedes Sample wird in Schritt 216 eine Anzahl von weggelassenen Bitebenen geschätzt, anhand des Typs und der Auflösungsebene des Teilbandes und des Kompressionsfaktors des Bildes. Die transformierten Bilddaten werden in Schritt 218 angepasst, um die Anzahl der Bitebenen zu reduzieren, zum Bereitstellen der angepassten transformierten Bilddaten. Die angepassten transformierten Bilddaten werden in Schritt 220 codiert oder komprimiert. Aus den codierten Daten wird in Schritt 222 ein Codestrom erzeugt, mit möglicher Beschneidung von Bitebenen in einem Prozess des Ordnens. In Schritt 224 wird bestimmt, ob alle Samples in den transformierten Bilddaten codiert und in den Codestrom eingefügt werden.
5 zeigt einen Codierer 300 gemäß der vorliegenden Erfindung. Wie dargestellt weist der Codierer 300 ein Vorverarbeitungsmodul 310 auf, um ein Eingangsbild 302 vorzuverarbeiten. Das vorverarbeitete Bild 312 wird dann durch ein Transformationsmodul 320 in Teilbänder zerlegt, wobei jedes Teilband Samples von transformierten Bilddaten 322 enthält, die in einer Anzahl von Bitebenen organisiert sind. Die transformierten Bilddaten 322 werden durch ein Anpassungsmodul 330 angepasst, um die Anzahl von Bitebenen in den Samples zu verringern, anhand der Auflösungsebene des Teilbandes und des Kompressionsfaktors des Codierungsprozesses. Vorzugsweise ist die Anzahl von Bitebenen, die durch das Anpassungsmodul 330 wegzulassen ist, in einer Nachschlagtabelle (Look Up Table, LUT) 328 gespeichert. Die angepassten Bilddaten 332 werden Bitebene für Bitebene durch einen Bitebenencodierer 340 codiert. Anhand der Ziel-Bitrate 348 beschneidet das Codestrom-Erzeugungsmodul 350, wenn es den Codestrom 352 erzeugt, die codierten Daten 342, falls dies erforderlich ist, um die Ziel-Bitrate zu erreichen. Der erzeugte Codestrom 352 kann in Speichermitteln 360 gespeichert werden oder durch einen Sender 370 von der Sendeseite zur Empfangsseite eines Bildcodierungssystems 500 übertragen werden, wie in 6 dargestellt. Das gesendete Signal ist mit dem Bezugszeichen 372 bezeichnet. In 6 umfassen die vorgelagerten Module 308 die Module 310–350, die in 5 dargestellt sind. Auf der Empfangsseite rekonstruiert ein Decoder 400 anhand des Signals 372 das Eingangsbild 302. Das rekonstruierte Bild ist mit dem Bezugszeichen 402 bezeichnet.
Die vorliegende Erfindung kann so, wie sie in Verbindung mit den 3a bis 6 beschrieben wurde, in einem JPEG2000-Codierer angewendet werden, und der erzeugte Codestrom, der auf den reduzierten transformierten Bilddaten beruht, kann JPEG2000-konform sein. Die vorliegende Erfindung ist jedoch auch auf andere Bildkompressionssysteme anwendbar, welche eine Kachelung (Tiling) von Bildern und ein Aufteilen des Stroms von Daten in den Kacheln in Teile ermöglichen. Außerdem ist das Verfahren gemäß der vorliegenden Erfindung nicht auf Bildcodierung beschränkt. Dasselbe Verfahren kann bei einer Videocodierung angewendet werden, bei der eine Bitebenencodierung ausgeführt wird. Es ist anzumerken, dass die Anzahl weggelassener Bitebenen für jedes Sample, N_B, entsprechend der Ziel-Bitrate für die Übertragung oder der Ziel-Dateigröße für die Speicherung angepasst werden kann. Ferner ist N_B, wie oben beschrieben, die Summe von drei Gewichtungsindizes. N_B kann jedoch ein Wert von einem Gewichtungsindex oder eine Summe von zwei, vier oder mehr Gewichtungsindizes sein. Nach dem Weglassen von N_B Bitebenen ist es möglich, dass die codierten Daten, die zu übertragen sind, weniger als die der Ziel-Bitrate sind.
Die vorliegende Erfindung kann in einem elektronischen Gerät wie etwa einem Mobilkommunikationsgerät, einem Mobiltelefon, einem persönlichen digitalen Assistenten, einem tragbaren Computer oder Ähnlichem angewendet werden.

Claims

Verfahren zum Codieren eines Bildes mit einem Kompressionsfaktor zum Bereitstellen von codierten Daten für eine Übertragung oder Speicherung, wobei das Bild durch eine Transformierte in Teilbänder einer oder mehrerer Auflösungsebenen zerlegt wird, wobei jedes Teilband Einheiten (10, 12, 14, 16) von transformierten Bilddaten enthält, die in einer ersten Anzahl von Bitebenen (N_T) organisiert sind, wobei das Verfahren gekennzeichnet ist durch Zuweisen eines oder mehrerer Gewichtungsindizes, die hinsichtlich des Kompressionsfaktors und der Auflösungsebene indikativ sind, zu den Teilbändern, durch Bestimmen einer Anzahl von weglassbaren Bitebenen (N_B) entsprechend den Gewichtungsindizes, durch Bereitstellen, für jede Einheit (10, 12, 14, 16), von angepassten transformierten Bilddaten mit einer zweiten Anzahl von Bitebenen (N_R), die kleiner als die erste Anzahl ist, durch Weglassen der Anzahl von weglassbaren Bitebenen (N_B), und durch Codieren der angepassten transformierten Bilddaten, um die codierten Daten bereitzustellen.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Einheiten (10, 12, 14, 16) Blöcke oder Samples sind.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Transformierte eine Wavelet-Transformierte ist, wie etwa eine JPEG2000-konforme Transformierte.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass jedes Teilband hinsichtlich einer Gruppe von transformierten Koeffizienten indikativ ist, die aus Operationen der Bandpassfilterung in Bezug auf die Transformierte resultieren, und dass die Gewichtungsindizes von den Filteroperationen abhängig sind.
Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass jedes Teilband hinsichtlich einer Gruppe von transformierten Koeffizienten indikativ ist, die aus Operationen der Bandpassfilterung in Bezug auf die Transformierte resultieren, und die Teilbänder entsprechend der Teilbandzerlegung in zwei Dimensionen als HH, HL, LH und LL kategorisiert sind, und dass die Gewichtungsindizes von den Teilbandkategorien abhängig sind.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass Teilbandkategorien Gewichtungswerte zugewiesen werden, und dass der Gewichtungsindex für jedes Teilband hinsichtlich der Auflösungsebene, des Kompressionsfaktors und des Gewichtungswertes indikativ ist.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass der Gewichtungswert für die Teilbandkategorie HH 1 ist und der Gewichtungswert für jede der anderen Teilbandkategorien 0 ist.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die zweite Anzahl (N_R) kleiner als die erste Anzahl (N_T) um eine dritte Anzahl (N_B) ist, und die dritte Anzahl die Summe des Kompressionsfaktors, der Auflösungsebene und des Gewichtungswertes ist.
Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die zweite Anzahl (N_R) kleiner als die erste Anzahl (N_T) um eine dritte Anzahl (N_B) ist, und die dritte Anzahl die Summe des Kompressionsfaktors und der Auflösungsebene ist.
Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass das Bild ein digitales Videobild ist.
Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass das Bild ein digitales Standbild ist.
Codierer (300) zur Verwendung in einem elektronischen Gerät zum Codieren eines Bildes mit einem Kompressionsfaktor zum Bereitstellen von codierten Daten für eine Übertragung oder Speicherung, wobei das Bild durch eine Transformierte in Teilbänder einer oder mehrerer Auflösungsebenen zerlegt wird, wobei jedes Teilband Einheiten (10, 12, 14, 16) von transformierten Bilddaten enthält, die in einer ersten Anzahl von Bitebenen (N_T) dargestellt sind, wobei der Codierer gekennzeichnet ist durch Mittel (320), reagierend auf die transformierten Bilddaten, zum Zuweisen eines oder mehrerer Gewichtungsindizes, die hinsichtlich des Kompressionsfaktors und der Auflösungsebene indikativ sind, zu den Teilbändern, zum Bereitstellen von Informationen, die hinsichtlich der zugewiesenen Gewichtungsindizes indikativ sind; Mittel (330), reagierend auf die Informationen, zum Bereitstellen, für jede Einheit (10, 12, 14, 16), von angepassten transformierten Bilddaten mit einer zweiten Anzahl von Bitebenen (N_R), die kleiner als die erste Anzahl (N_T) ist, durch Weglassen einer Anzahl von weglassbaren Bitebenen (N_B), die durch die Gewichtungsindizes bestimmt wird, und Mittel (340), reagierend auf die weiteren Daten, zum Codieren der angepassten transformierten Bilddaten, um die codierten Daten bereitzustellen.
Codierer (300) nach Anspruch 12, dadurch gekennzeichnet, dass die Einheiten (10, 12, 14, 16) Blöcke oder Samples sind.
Codierer (300) nach Anspruch 12, dadurch gekennzeichnet, dass die Transformierte eine Wavelet-Transformierte ist, wie etwa eine JPEG2000-konforme Transformierte.
Codierer (300) nach einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, dass jedes Teilband hinsichtlich einer Gruppe von transformierten Koeffizienten indikativ ist, die aus Operationen der Bandpassfilterung in Bezug auf die Transformierte resultieren, und dass die Gewichtungsindizes von den Filteroperationen abhängig sind.
Codierer (300) nach einem der Ansprüche 12 bis 15, dadurch gekennzeichnet, dass jedes Teilband hinsichtlich einer Gruppe von transformierten Koeffizienten indikativ ist, die aus Operationen der Bandpassfilterung in Bezug auf die Transformierte resultieren, und die Teilbänder entsprechend der Teilbandzerlegung in zwei Dimensionen als HH, HL, LH und LL kategorisiert sind, und dass die Gewichtungsindizes von den Teilbandkategorien abhängig sind.
Codierer (300) nach einem der Ansprüche 12 bis 16, dadurch gekennzeichnet, dass das Bild ein digitales Videobild ist.
Codierer (300) nach einem der Ansprüche 12 bis 16, dadurch gekennzeichnet, dass das Bild ein digitales Standbild ist.
Codierer (300) nach einem der Ansprüche 12 bis 18, dadurch gekennzeichnet, dass das elektronische Gerät ein Mobilkommunikationsgerät umfasst, wie etwa ein Mobiltelefon.
Codierer (300) nach einem der Ansprüche 12 bis 19, dadurch gekennzeichnet, dass das elektronische Gerät einen persönlichen digitalen Assistenten oder einen tragbaren Computer umfasst.
Bildcodierungssystem mit einer Sendeseite und einer Empfangsseite, welches umfasst: einen Codierer (300) auf der Sendeseite zum Codieren eines Bildes mit einem Kompressionsfaktor zum Bereitstellen von codierten Daten für eine Übertragung oder Speicherung, wobei das Bild durch eine Transformierte in Teilbänder einer oder mehrerer Auflösungsebenen zerlegt wird, wobei jedes Teilband Einheiten (10, 12, 14, 16) von transformierten Bilddaten enthält, die in einer ersten Anzahl von Bitebenen (N_T) dargestellt sind, wobei der Codierer gekennzeichnet ist durch: Mittel (320), reagierend auf die transformierten Bilddaten, zum Zuweisen eines oder mehrerer Gewichtungsindizes, die hinsichtlich des Kompressionsfaktors und der Auflösungsebene indikativ sind, zu den Teilbändern, zum Bereitstellen von Informationen, die hinsichtlich der zugewiesenen Gewichtungsindizes indikativ sind; Mittel (330), reagierend auf die Informationen, zum Bereitstellen, für jede Einheit (10, 12, 14, 16), von angepassten transformierten Bilddaten mit einer zweiten Anzahl von Bitebenen (N_R), die kleiner als die erste Anzahl (N_T) ist, durch Weglassen einer Anzahl von weglassbaren Bitebenen (N_B), die durch die Gewichtungsindizes bestimmt wird; und Mittel (340), reagierend auf die weiteren Daten, zum Codieren der angepassten transformierten Bilddaten, um einen Codestrom bereitzustellen, der die codierten angepassten transformierten Bilddaten angibt, und einen Decoder (400) auf der Empfangsseite, reagierend auf den Codestrom, zum Rekonstruieren des Bildes anhand der codierten angepassten transformierten Bilddaten.
Bildcodierungssystem nach Anspruch 21, dadurch gekennzeichnet, dass jedes Band hinsichtlich einer Gruppe von transformierten Koeffizienten indikativ ist, die aus Operationen der Bandpassfilterung in Bezug auf die Transformierte resultieren, und dass die Gewichtungsindizes von den Filteroperationen abhängig sind.
Bildcodierungssystem nach Anspruch 21 oder 22, dadurch gekennzeichnet, dass jedes Teilband hinsichtlich einer Gruppe von transformierten Koeffizienten indikativ ist, die aus Operationen der Bandpassfilterung in Bezug auf die Transformierte resultieren, und die Teilbänder entsprechend der Teilbandzerlegung in zwei Dimensionen als HH, HL, LH und LL kategorisiert sind, und dass die Gewichtungsindizes von den Teilbandkategorien abhängig sind.
Bildcodierungssystem nach Anspruch 21, dadurch gekennzeichnet, dass der Codierer und der Decoder JPEG2000-konform sind.