AT509759A2

AT509759A2 - Verfahren zum verarbeiten von sport-videosequenzen

Info

Publication number: AT509759A2
Application number: AT0946208A
Authority: AT
Original assignee: A1 Telekom Austria Ag
Priority date: 2008-06-20
Filing date: 2008-06-20
Publication date: 2011-11-15
Also published as: WO2009152536A1; AT509759B1; AT509759A3

Description

f ψ · - r

Gebiet der Erfindung

Die vorliegende Erfindung betrifft ein Verfahren zurr. Verarbeiten von Sport-Videosequenzen zur Übertragung über Kanäle mit beschränkter Übertragungskapazität, wie UMTS-Netze, welches Verfahren folgende Schritte aufweist:

Segmentieren von Bildern der Videosequenzen zur Erzielung von Segmenten unterschiedlichen Typs entsprechend Regionen mit unterschiedlichen Inhalten, nämlich zumindest Spieiern und Hintergrund, und separates Kodieren der erhaltenen unterschiedlichen Segmente unter Anwendung verschiedener Kodierstrategien.

Hintergrund der Erfindung

Aus der EP 0421186 Bl und der EP 0959625 A2 ist es bekannt, Videosequenzen zu segmentieren, nämlich insbesondere hinsichtlich der Trennung von Spielern, z.B. Tennisspielern, von einem Publikum (Hintergrund) oder einem Feld. Bei einer derartigen Segmentierung kann der Kodierungsprozess die Inhalte und damit die Bedeutung der jeweiligen Bildsegmente berücksichtigen, so dass verschiedene Kodierqualitäten für unterschiedliche Segmente oder Objekte angewendet werden können; insbesondere kann die beste Qualität für das wichtigste Objekt, nämlich Spieler und Ball, angewendet werden. Andererseits sind das Spielfeld und das Publikum von geringerer Bedeutung, so dass eine geringere Qualität aufgrund der Kodierung akzeptabel ist. Die Verfahren des Standes der Technik beziehen sich auf verschiedene, jedoch ziemlich komplizierte Segmentierungen, bei denen ziemlich komplexe und zeitraubende Algorithmen verwendet werden. Insbesondere beruht die Segmentierung von Bildern auf der Kodierung von Rändern oder wird auf Basis von Konturen und Bewegungen (Merk-malen/Verhalten) von Bildelementen durchgeführt.

Zusammenfassung der Erfindung

Dementsprechend ist ein Ziel der vorliegenden Erfindung, ein Verfahren zum Verarbeiten von Sport-Videosequenzen, insbesondere Fußball-Videosequenzen, mit einer verbesserten Segmentierungsund Kodierungstechnik zur Verfügung zu stellen, um eine Kodieroptimierung der Videosequenzen zu erzielen. Di.e Erfindung beruht auf mehreren Wahrnehmungen, nämlich dass z.B. im Fall von Sport-Videosequenzen di.e Aufmerksamkeit des Kunden auf den Bail und die Spieler fokussiert ist, und dass die Kodierung von Zuschauer tr ibiinen (Publikum, Hintergrund) im Vergleich zu den

Spielern und Bällen eine konstante Menge an Bits erfordert. Vor allem Fußball ist einer der in UMTS-Netzen am häufigsten übertragenen Inhalte, und daher zielt die vorliegende Erfindung insbesondere auf eine optimierte Segment.i erungs- und Kodierungstechnik zur Übertragung solcher Fußball-Videosequenzen ab.

Weiters ist zu berücksichtigen, dass eine Videokcmpression, wie sie zur Übertragung in UMTS-Netzen verwendet wird, die subjektive Qualität beeinträchtigt.

Zur Lösung des bestehenden Problems schafft die vorliegende Erfindung ein Verfahren wie im unabhängigen Anspruch definiert. Bevorzugte Ausführungsformen und Weiterentwicklungen sind Gegenstand der Unteransprüche.

Gemäß der vorliegenden Segmentierungstechnik werden Farb-merkmale als Basis zur Generierung der Segmente genommen, oder entsprechende Makroblock-Abbildungen (Maps), die dann separat für die beabsichtigte Drahtlosübertragung kodiert werden.

In einer bevorzugten Ausführungsform wird jeder Rahmen, der eine Weitwinkelaufnahme enthält, automatisch in drei Regionen segmentiert: - Feld - Bai] und Spieler - Zuschauertribünen (Publikum).

Der Kodierungsprozess kennt die Segmentierung, und so wird während des Kodierens die Qualität des wichtigsten Objekts (Ball und Spieler) beibehalten.

Weiters wird darauf geachtet, dass das Feld nicht durch Blockartefakte beeinträchtigt wird. Die Zuschauertribünen werden grob kodiert und periodisch aufgefrischt. Dabei wird bevorzugt, die Zuschauertribünen überhaupt nicht zu übertragen und dann durch Kompensation der Kamerabewegung zu rekonstruieren.

Die drei genannten Regionen werden in verschiedenen Paketen kodiert und gespeichert. Dann kann ein Index geringerer Priorität den das Publikum enthaltenden Paketen zugeordnet werden.

Zur Durchführung einer hochwirksamen Segmentierung hat es sich als vorteilhaft erwiesen, für die Segmentierung jedes Bild aus dem RGB-(Rot-Grün-Blau)-Farbbereich in den HSV-Farbraum (H-Hue-S-Saturation-V-Value = Farbton-Farbsättiqung-Helligkeit) überzu führen. Dabei ist es weiters von Vorteil zur Entscheidung, ob Pixel eines Bilds zu einem bestimmten, ziemlich stationären

»·· · ··· ersten Segment, z.R. einem grünen i-'ußba 1 1 fe.l d, gehören, zu überprüfen, ob H, S, V dieser Pixe.l innerhalb eines bestimmten Bereichs liegen. Außerdem wird bevorzugt, dass die Pixel des Bilds mit einer vorherbestimmr.en H-Komponente gezählt werden, und die H-, S- und V-Bereiche in Abhängigkeit von der erhaltenen Pixel-Anzahl festgelegt werden. Weiters .ist eine bevorzugte Ausführungsform dadurch gekennzeichnet, dass zur Entscheidung, ob Pixel des Bilds zu einem zweiten ziemlich stationären Segment, z.B. dem Publikum, gehören, ein Bereichs-Wachs-Algorithmus verwendet wird, bei dem mindestens ein Saatpunkt in ein jeweiliges Eck von Makroblöcken des Bilds gesetzt wird und für den Fall, dass die Anzahl von zum ersten Segment gehörenden Pixeln geringer als ein vorherbestimmter Schwellenwert ist, benachbarte Makroblöcke auf diese Weise überprüft werden, so dass eine Karte dieses zweiten Segment-Ma krob 1 ocks erstellt; wird. Dabei ist es weiters zweckmäßig, wenn nach Erstellen der Karte des zweiten Segment-Makroblocks entschieden wird, dass die restlichen Makroblöcke zum ersten Segment gehören, oder zu einem dritten Segment, welches z.B. Spieler und Ball enthält, worauf durch Überprüfung, ob die Anzahl von zum ersten Segment gehörenden Pixeln einen weiteren vorherbestimmten Schwellenwert überschreitet, entschieden wird, dass der jeweilige Makroblock das erste Segment oder das dritte Segment enthält. Um zu vermeiden, dass beispielsweise Spieler (drittes Segment) dem Zuschauersegment zugeordnet werden, worden dann bevorzugt Reihen der Zuschauer-Abbildung (zweites Segment) auf isolierte Makroblöcke durchsucht, welche auf der linken und der rechten Seite durch Feld-Makroblöcke begrenzt sind, und dass solche isolierte Makroblöcke von der Zuschauer-Abbildung entfernt und dem dritten Segment, d.h. der Spieler-Abbildung, zugeordnet werden. Pro Spalte wird eine gleichartige Untersuchung durchgeführt.

Zur Erzielung einer hohen Komprimiergeschwindigkeit, d.h. von Einsparungen in der zu übertragenden Bitrate, wird bevorzugt, dass im Fall, von Makroblöcken eines im Wesentlichen stationären Segments, z.B. der Zuschauer-Makroblöcke, nur neue Makroblöcke, die aufgrund der Kamerabewegung erscheinen, kontinuierlich kodiert und übertragen werden, und "je nach Änderungen in den Kameraaufnahmen Auf frischur.gs-Makrobiöcko zur Aktualisierung nur in größeren 7,ei t:.i ntervallen kodiert und ·« Mil · I · * < M Ml · i .···# * · — · *·«·*·* · * ** # * übertragen werden.

Ein spezieller Vorteil besteht darin, dass es mit der vorgeschlagenen Segmentierung böggy^ die Kodierung mit einer Feinabstimmung von Quantssterungsparametern durchzuführen, die auf zu übertraqende KoefIidienten angewendet werden, um im

Fall einer diskreten Kosinustransformation (DCT - discrete cosine transformatxon) in Hinbifof· auf verschiedene Segmente verschiedene Quantxsierungspararrsefer zu haben. Insbesondere kann ein hoher Quantisierungsparameter dem das Publikum repräsen tierenden Segment ariyewendet wergen

Gemäß einem weiteren Aspekt sieht die vorliegende Erfindung auch ein System für optimierte Segmenfyerung und Kodierung von Sport-Videosequenzen vor.

Kurze Beschreibung der Zeichnungen

Die Erfindung wird nachstehend unter Bezugnahme auf bevorzugte Ausführungsformen, auf die sfe jedoch nicht beschränkt sein soll, und unter Bezugnahme auf die angeschlossenen Zeichnungen mehr im Detail beschrieben. In den Zeichnungen zeigen:

Fig. 1 ein Diagramm, weiches die Größe und Durchschnittsgröße von kodierten MakrobLöcken für verschiedene Segmente veranschaulicht ;

Fi.g. 2 schematisch ein System für Bildsegmentierung und Videokodierung zur Durchführung des vorliegenden Verfahrens;

Fig. 3 ein detaillierteres Blockschaltbild, welches die Segmentierungs-, Kodierungs- und Dekodiermodule der vorliegenden Technik veranschaulicht;

Fig. 4 schematisch einen Original-Frame (Bild);

Fig. 5 diesen Frame (Bild) nach der schematischen Makro-biock-Unterteilung;

Fig. 6 diesen Frame (Bild) nach Bestimmung der dem Publikum zugeordneten Makroblöcke;

Fig. 7 ein Äblaufdiagramm, das verschiedene Schritte zur Segmentierung veranschaulicht;

Fig. 8 ein Ablaufdiagramm zur Erklärung der Umwandlung von Pixeln der Frames aus dem RGB-Raum in den HSV-Farbraum;

Fig. 8A eine schematische Darstellung des HSV-Farbraums;

Fig. 9 ein Äblaufdiagramm betreffend eine mögliche Nach-verarbei tur.g der erhaltenen Segmente zwecks Zuordnung von Spielern zu den Spielerregionen und nicht zu den 5 » · ·

ZuschauertribünenregIonen;

Fig. 10 und 11 Diagramme zur Makroblock- und Bitraten-verteilung, welche die hohe Bitrate in Bezug auf die Übertragung von Zuschauer-Makrob]öcken ohne Anwendung des vorliegenden Verarbeitungsverfahrens veranschaulichen;

Fig. 12 ein Ablaufdiagrairim, welches die Verwendung von verschiedenen Quant]sierunqsparametern zur Kodierung der verschiedenen Segmente veranschaulicht;

Fig. 13 ein Diagramm, 'welches die Größe des einem Einzel-Frame zugeordneten Codes (Framegröße/Frame-Index) bei Verwendung eines Standard-Kodiermechanismus veranschaulicht;

Fig. 14 in einem ähnlichen Diagramm die Framegröße/ über dem Frame-Index, aber diesmal für den Fall der spezifischen Übertragungstechnik in Bezug auf die Publikums-Makrobiöcke veranschaulicht;

Fig. 15 und 16 Diagramme, welche die normalisierte Rate für Feld und Zuschauertribünen .in Abhängigkeit von den QP-Einstellungen und in Fig. 16 den Fall des Peak-Signa.l-Rausch-Vernältnisses (PSNR) in Abhängigkeit von den betreffenden QPs veranschaulicht; und

Fig. 17 ein Diagramm, das MOS-Resultate darstellt.

Detaillierte Beschreibung bevorzugter Ausführunqsformen der Erfindung

Nachstehend ist ein kurzer Überblick über die vorgeschlagene Technik der Videokodierung gegeben. Die Optimierung der Videokodierung ist als optimale Zuordnung der Kodiergeschwindigkeit zu den Inhalten jedes Einze]rahmens definiert. Der hier in Betracht gezogene Video-Codec ist der H.264/AVC des Standes der Technik, aber die meisten der vorgeschlagenen Konzepte können bei üblichen Video-Codecs, wie dem H.263, dem MPEG-2 und dem MPEG-4, angewendet werden. Diese Standards gehören zur Familie der so genannten Codecs auf Hybridblockbasis, bei denen das Bild in Quadrate von 16 x 16 Pixel unterteilt wird, die als Makroblöcke bezeichnet werden.

Mit Betonung auf Fußba11-Videosequenzen werden drei Regionen entsprechend ihrem Inhalt und ihrer Bedeutung aus Sicht des Nutzers definiert, nämlich * Region 0 (R0): Feld * Region 1 (RI): Spieler und Ball * Region 2 (R2): Zuschauertribünen (Publikum) > · · « · · · · • · ψ ► · ♦ * « · 4 * · • « » * - 6

Die Größe der kodierten Makroblöcke jedes Bilds war Gegen stand einer Untersuchung. Dabei wurde insbesondere die Aufteilung des Codes aui die drei Makroblock-Regionen berücksichtigt. In Fig. 1 ist die Durchschnittsgröße von kodierten Makroblöcken, die zu jeder Region gehören, gezeigt; insbesondere ist die Größe der kodierten Makroblöcke, die zu den Zuschauertribünen gehören, durch die Kurve 2 dargestellt, wobei die mittlere Größe bei 2' gezeigt ist; die Kurven 1 und 1’ veranschaulichen die entsprechende Größe und mittlere Größe der Spie] er-Makrobl.öcke, und die Kurve 0 bezieht sich auf den Feld-Makroblock.

Daraus folgt, dass die Größe des Codes 2, der den die Zuschauertribünen, enthaltenden Makroblöcken zugeordnet ist, am größten ist, gefolgt vom Code 1, der den Spielern zugeordnet ist, wobei beide viel größer als der Code 0 sind, der dem Feld ungeordnet ist. Dieses Ergebnis kann wie folgt interpretiert werden.

Die Größe des resultierenden Codes nach der Kodierung eines Makroblocks hängt starr vom Hochfrequenzinhalt eines solchen Makroblocks ab. Die Zuschauertribünen (R2) in Weitwinkelaufnahme enthalten ein unregelmäßiges Muster bestehend aus einer Mischung von Publikum und anderen Elementen des Fußballstadions. Diese Wirkung wird bei niedrig aufiösenden Sequenzen bei räumlichem Downsampling noch weiter verschärft. Außerdem wird die Kodierung solcher R2-Makroblöcke aufgrund der Hochfrequenzkomponenten noch komplexer durch eine dürftige zeitliche Prädiktion der Blöcke.

Die Idee hinter einer Segmentierung der Bilder besteht in der Optimierung der Kodierung von Fußball-(Sport-)Videosequenzen, wodurch den Elementen, die vom Gesichtspunkt des Nutzers aus betrachtet wichtiger sind, eine bessere Qualität und höhere Geschwindigkeit und anderen Elementen eine geringere Geschwindigkeit und schlechtere Qualität, zugeteilt werden* Hierbei sei festgehalten, dass die Ausdrücke „geringere Geschwindigkeit" und „schlechtere Qualität" nicht in direktem Zusammenhang stehen.

Die Zuschauertribünen können innerhalb einer Aufnahme als statische Elemente der Videosequenz angesehen werden, und es ist daher möc^lich, die Zuschauertribünen aufzufrischen, wann immer dies notwendig ist. (d.h. wenn das Publikum ein Tor feiere).

Daher musste ein Kodiermechanismus für die Inhalteanbieter oder ein Transkodiermechanismus zwischen den T.nhalteanbietern und den Endnut2ecn für Dienstanbieter gefunden werden. Ein all-

- τ- • · Φ Φ φ « * φ ·· • · 4 Φ Φ ♦ • Φ Φ Φ * * φ « * · Φ Φ · · • · Φ · φ * Φ Φ · Μ ΦΦΦ φ* gemeines Schema der vorliegenden Segmentierungs- und Kodierungstechnik ist in Fig. 2 gezeigt. In Fig. 2 ist insbesondere gezeiat, dass auf Basis eines Originalbiids 10 mit der Tribünen-Legion R2, der Spieler- und Ballregion RI und der Feldregion R0 eine Bildsegmentierung in einem Modul 11 ausgeführt wird, worauf die Videokodieruna in einem LModul 12 erfolgt, welches auch Bild-verwendet, s, Eingang 13 in das Modui 12, das Ergebnis dieser Segmentierung und Kodierung ist ein optimierter Videodatenstrom ±4.

Ein detaj1ilerteres Schema ist in Fig. 3 zu finden. Nachstehend werden nun die zwei Hauptelemente des Schemas im Detail erörtert: der Segmentierungsprozess und der modifizierte h.264/AVC-Kodierer.

Unter spezieller Bezugnahme auf Fig. 3 enthält das Segmen-tiermodul 11 ein H-Komponenten-Analysemodul 15 (für den Farbton), welches bei 16 Feld-Makroblöcke ausgibt, und ein Region-Growinq-Modu1 17, welches bei 18 Tribünen-Makroblöcke ausgibt; durch Differenzb:ldung, s. Knoten 19, 20 in Fig. 3, werden

Spieler- und Bali-Makroblöcke bei 21 erhalten. Die Makroblöcke 16, 18, 21 werden dann dem Kodiermodul 12 zugeführt und am

Eingang 13 mit den Orig.i nalbild-Informationen kombiniert, um die endgültigen Feld-Makrobiöcke 16', Tribünen-Makroblöcke 18’ sowie Spieler- und Ball-Makroblöcke 21’ zu erhalten. Diese Makroblöcke 16', 18', 21' werden dann separat kodiert, s. Videokodierer- senicht 22 ln Fig. 3, wobei verschiedene Quantisierungsparameter QP R0, QP RI und QP R2 angewendet werden.

Die kodierten Makroblöcke sind dann bereit zur Übertragung in Form von Paketen 23(R0), 24(R2) und 25(RI). Auf der Empfängerseite werden die Pakete 23'(R0), 24'(R2) und 25'(Rl) empfangen und in einem üblichen H.264/AVC-Decoder 26 dekodiert und kombiniert, um ein rekonstruiertes Bild 27 zu erhalten.

Unter spezieller Bezugnahme auf die Segmentierung zielt dieser Segmentierungsprozess darauf ab, jeden Makroblock des Bilds den vorgegebenen Regionen R0, Rl, R2 zuzuordnen. Die Eingabe dieses Seqmentierungsprozesses erfolgt durch jeden Rohrahmen oer Sequenz (im raw-, yuv- oder bmp-Format).

Am Ausgang wird eine Makroblock-Zuordnungs-Map (Abbildung) in der Form • ψ

«» « · «««» «« ♦ · « · « · * • «· · · · · t • m · ♦ ·ι· * · · · · • ···· M · · · ·· MB(i):R(j) (4.1),

worin jeder Makroblock MB (4.2), der entsprechenden Region R zugeordnet J-[0,l,2] (4.3).

Angesichts jedes Frames (Teilbildes) der unkomprimierten Sequenz, wie z.B. des schematisch in Fig. 4 gezeigten Frames, liegt die Aufgabe des Segmentierungsblocks in der Ausgabe einer Zuordnungs-Map, welche für jeden Makroblock die Region anzeigt, welcher er zugeordnet ist. In Fig. 5 ist das Bild der Fig. 4 mit Makroblock-Unterteilung gezeigt.

Die einqeqebenen Bilder sind im RGB-Format (Rot-Grün-Blau). Es ist bekannt, dass die Komponenten dieses Farbformats stark miteinander korrelieren; daher wird bevorzugt, das Bild in HSV-Format (Hue Saturation Value) umzuwandeln. Dabei steht „Hue" für den Farbton des Pixels, „Saturation" für die Reinheit der Farbe (von Grau bis zum reinen Ton) und „Vaiue" für ihre Leuchtdichte. Die Hauptidee hinter dem Segmentierungsalgorithmus ist die Berücksichtigung der Information über die Farbe der das Feld repräsentierenden Pixel. Es ist daher möglich, die Toleranzwerte für Hue, Saturation und Value in Bezug auf das Feld (RO) zu binden, wobei die verbleibenden Regionen dann die Regionen RI (Spieler und Ball) und R2 (Zuschauertribünen) sind. Dieses Prinzip wird nachstehend anhand von Fig. 7 noch detaillierter diskutiert.

Nichtsdestoweniger ist beabsichtigt, die Segmentierung des Frames auf Makroblock-Niveau durchzuführen.

Dabei ist es nicht notwendig, die genauen Grenzen der Objekte, sondern vielmehr die Region festzulegen, zu der jeder Makroblock gehört. Nachstehend werden die Makrobiock-Regionen RO, RI, R2 als Aggregation von Makroblöcken definiert, welche Fe.1 delemente, Spieler-, Rail- und Feldlinienelemente sowie Publikumselemente {Zuschaue rtribiinenelemente) enthalten.

Das Verfahren konzentriert sich auf Weitwinkelaufnahmen, Bei solchen Sequenzen befindet sich das Publikum auf der oberen Seite der Frames. Bei Annäherung an einen der beiden Strafräume eines Fußbai. lfeids kann die linke (bzw. rechte) Seite des Bilds das Pub1i kam enthalten. Bei manchen speziellen Aufnahmen kann auch die untere Seite des Frames Publikum enthalten. Unter

* # ··«« «· ·* * dieser Annahme wurde entschieden, einen Region-Growing-Algo-rithmus zur Hervorhebung der Makrobiöcke zu verwenden, die zur Region R2 gehören. Saatpunkt-Makroblöcke des Publikums werden an den vier Fck-Makroblöcken des Bilds platziert. Ein Saatpunkt-Makroblock kann je nach seinen Farbmerkmalen entweder zum Publikum oder zum Feld gehören. Wenn er eine Anzahl, von grünen Pixeln (Feldpixel) enthält, die einen bestimmten Schwellenwert nicht übersteigen, wird ein solcher Saatpunkt, als erster Makroblock von R2 betrachtet. Die umgebenden Makroblöcke werden dann bewertet und können entsprechend ihren Farbmerkmalen an die R2-Region angehängt werden (daher „Growing-Region" = wachsende Region), oder sie ‘werden verworfen. Der Prozess endet, wenn alle Grenz-Makroblöcke der Publikumsregion R2 überprüft sind. Das so erhaltene Resultat ist schematisch in Fig. 6 gezeigt, wo die nunmehr ermittelten und dem. Publikum zugeordneten Makroblöcke bei R2 gezeigt sind.

Die verbleibenden Makroblöcke sind dann die zur RO-Region (Feld) gehören Makroblöcke sowie die zur Rl-Region (Ball,

Spieler und Feldlinien) gehörenden Makroblöcke.

Die zur Feldregion RO gehörenden Makroblöcke sind solche, die eine Menge grüner Pixel enthalten, die größer als ein vorherbestimmte Schwellenwert ist (je nach Bildmerkmalen). Die nunmehr verbleibenden Makroblöcke gehören zur Region RI der Spieler, des Balls und der Feldlinien.

Danach kann noch ein Verfeinerungsschritt von Vorteil sein. Bei Abschätzung der R2-Region (Publikum) kann es Vorkommen, dass ein oder mehrere Spieler das Publikum überlappen oder an dieses grenzen. In diesem Fall würde der Region-Growing-Algorithmus den oder die Spieler in der R2-Region enthalten. Die R2-Region kann jedoch in ihrer Kontur weder konkav noch konvex sein. Daher werden die ursprünglich R2 zugeordneten Makroblöcke, die aber auf der linken und der rechten Seite von Makroblöcken umgeben sind, welche zu RO oder RI gehören, in die Rl-Region (Spieler etc.) eingeschlossen. Bei einem seitlichen Publikum wird pro Spalte eine ähnliche Verfeinerung durchgeführt.

Unter besonderer Bezugnahme auf Fig. 7 ist in Schritt 30 gezeigt, dass zu Beginn der Segmentierung ein RGB-Frame gewählt wird, der dann in Schritt 31 mit Hilfe einer umkehrbaren Transformation von der RGB-Farbdomäne in die HSV-Domäne übergeführt w ird. * * ti «tai · ·

- 10

Diese pixe.lweise RGB -+ HSV - Transformation ist detailliert in Fig. 8 dargestellt. Dementsprechend wird auf Basis der R-, G-und B-Inhalte jedes in Fig. 8 bei 32, 33, 34 dargestellten Pixels das Maximum von R, G, B, max(R,G,B), in Block 35 bestimmt, und der Wert V wird auf V=max(R,G,B) eingestellt, siehe Ausgangsblock 36. Außerdem wird in Block 37 das Minimum von R, G, B, min(R,G,B) bestimmt, und die Differenz Δ des Maximums und Minimums von R, G, B wird in Block 38 berechnet (A=max-min); danach wird diese Differenz Δ in Block 39 durch das Maximum von R, G, B dividiert, d.h. Δ/max(R,G,B), und der resultierende Quotient wird als Sättigung S genommen, s. Block 40 in Fig. 8.

Weiters wird bestimmt, ob das Maximum von R, G, B R (Block 41) oder G (Block 42) oder B (Block 43) ist; und je nach Ergebnis dieser Überprüfungen wird H (Block 44) als H=(G-B)/A (Block 45) oder als H=2+(B-R)/A (Block 46) oder als H=4+(R-G)/h (Block 47) festgelegt.

Ein Beispiel für den HSV-Farbraum ist in Fig. 8A gezeigt. Daraus ist ersichtlich, dass der Ton, Hue H, als Winkel, die Sättigung S in einer Skala von Null bis Eins und der Wert V in einer Skala von 0 bis 255 ausgedrückt sind.

Wieder unter Bezugnahme auf Fig. 7, wo in Block 48 der resultierende HSV-Frame dargestellt ist, wird nun das HSV-Bild analysiert, um eine Map (Abbildung) der dem Feld (Region R0) zugeordneten Pixel zu erhalten. Für jedes Pixel werden die Histogramme von H, S und V erstellt (Block 49), um den Bereich jeder Komponente hervorzuheben. Die Menge der Pixel mit einer Hue-Komponente zwischen den Grünton-Grenzen (Hue e[40,80]) wird gemäß Block 50 gezählt und zur Abschätzung der Menge des im Bild anwesenden Felds verwendet. Diese Information wird zur Festlegung des Komponentenbereichs verwendet: je geringer die Anzahl der zum Feld (R0) gehörenden Pixel, desto schmäler der betreffende Bereich bei einer Auswertung von H (s. Blöcke 51, 52), S (s. Block 53) und V (s. Block 54). Erfüllt ein Pixel die in den Blöcken 52, 53 und 54 an die Bereiche gestellten Anforderungen, wird dieses Pixel dem Feld zugeordnet (s. Block 55). Der Feldpixelnachweis von 56 ist beendet (für das entsprechende Pixel), und die resultierende Map wird dann in eine äquivalente Map mit Makroblock-Auflösung überführt, indem die Anzahl von grünen Pixeln innerhalb jedes Makroblocks gezählt • · l * · • * · · η ♦ Φ · · · · · und mi t einem Schwellenwert verglichen wird, s. Block 57 in Fig. 7 .

Der folgende Schritt betrifft die Erfassung der Publikumsmakroblöcke entsprechend Block 56. Wie oben erwähnt, wird dabei, ein Reg.ion-Growing-Algor.ithmus basierend auf den Farbmerkmalen des jeweiligen Bi.lds verwendet. Jede Region beginnt von einem. Saatpunkt aus zu wachsen. Die Saatpunkte werden in den oberen und unteren Reken des Biids gesetzt (s. Block 59), da die Pub-.11 kurnselementc immer in der Bildgrenze platziert worden. Ist die Anzahl der Feldpixei. in den Saatipunkt-Makroblöcken geringer als ein bestimmter Schwellenwert THRl, wie in Schritt 60 überprüft, dann werden die Pixel als Beginn einer Publikumsregion betrachtet, s. Block 61; andernfalls werden sie verworfen, s. Block 62.

Sobald alle Saatpunkte überprüft worden sind, werden die benachbarten Makroblöcke der verbleibenden Saatpunkte untersucht wie zuvor beschrieben. In der Folge wird eine Karte der der Publikumsreg.i.on R2 zugeordneten Makroblöcke in Block 63 erhalten. Aufgrund der Differenz, s. Block 64, sind die verbleibenden Makrobiöcke jene, die zum Feld (R0) und zu den Spielern (Ri.) gehören, s. Block 65. Jeder der verbleibenden Makroblöcke wird auf die gleiche Weise verarbeitet, s. Block 66. Jeder Makroblock, dessen Anzahl an Feldpixel einen zweiten vorgegebenen Schwellenwert THR2 übersteigt, s. Block 67, wird als zur Feldregion R0 gehörend betrachtet, s. Block 68, und daher der Feld-Map zugeordnet, s. Block 69. Die verbleibenden Makroblöcke enthalten die restlichen Elemente (Spieler, Ball und eventuell Feldlinien), s. Block 70, und werden gemäß Block 71 der Spieler-Map zugeordnet.

Bei der obigen Verarbeitung könnten die an das Publikum grenzenden Spieler, Ball und Feldlinien aufgrund des Region-Growing-Algorithmus dem Publikum zugeordnet werden. Um dies zu verhindern, wird ein Verfeinerungsalgorithmus gemäß Block 72 angewendet, der nun unter Bezugnahme auf das Ver f ei nerungs-blockdiagramm der Fig. 9 detaillierter beschrieben wird.

Gemäß Fig. 9 wird jede Reihe der Publikums-Map, s. Block 73 in Fig. 9, untersucht, indem isolierte Makroblöcke in der Reihe gesucht werden, s. Block 74. Dabei, ist es nützlich, isolierte Publikums-Makroblöcke aJs diejenigen zu definieren, die links und rechts (s. Block 75) an Feld-Makrobiöcke grenzen (s. Block 76). Das Publikum kann nämlich nicht die Eigenschaft der * *

* · · · * « · · · » * 9 - 12

Konvexität aufweisen, daher können isolierte Makroblöcke nicht, zum Publikum gehören, sondern müssen zu den Spielern, dem Bail oder den Feldlinien gehören, die an das Publikum grenzen und irrtümlich der Publikums-Map zugeordnet wurden. Solche Makroblöcke werden daher von der Publikums-Map entfernt, s.

Block 77, und der Spieler-Map zugeordnet, s. Block 78.

Als nächstes folgt eine Beschreibung des Kodierers 12 (Fig. 3), der im Prinzip ein üblicher H.264/AVC-Kodierer sein kann, aber angesichts der vorliegenden Segmentierungstcchnik und der daraus resultierenden Möglichkeiten eini.ge Adaptierungen aufweist.

Im allgemeinen muss der kodierte Strom zur Übertragung über paketbasierte Netze in Pakete mit maximaler Größe, die üblicherweise gleich der MTQ (Maximum Transfer Unit = maximalen Übertragungseinheit) des verwendeten Netzes ist, segmentiert werden. Da die Größe der kodierten Makroblöcke von deren Merkmalen abhängt, ist die Anzahl von in einem Paket enthaltenen Makroblöcken nicht konstant. Die zu ein- und demselben Paket gehörenden Makroblöcke legen ein Bild-Slice (Bildschnitt-Teil) fest.

Die Makroblöcke werden üblicherweise in der Rasterabtastfolge gelesen. Daher enthält ein Slice die Makroblöcke ΓΜ, M+l, M+2, N-2, N-l, NJ. Beim H.264/AVC wurde ein neues, fehlertolerantes Werkzeug eingeführt, das so genannte FMO (Flexible Macroblock Ordering); siehe auch die US-2007/0201559 A3.. Es gestattet die Festlegung von Slice-Gruppen, wobei jede Slice-Gruppe eine Untergruppe des Bilds ist. Ein zu einer Slice-Gruppe gehörender Makroblock wird zusammen mit anderen, zu derselben Slice-Gruppe gehörenden Makroblöcken kodiert und paketiert.

Bei der vorliegenden Technik werden die Slice-Gruppen unter Verwendung der durch die oben beschriebene Segmentierung erhaltenen Zuordnungskarte festgelegt. Bereits dadurch wird die Fähigkeit der Fehlertoleranz des gesamten Videostroms erhöht, weil es möglich ist, den zu den verschiedenen Regionen R0, RI, R2 gehörenden Paketen verschiedene Prioritäten zuzuordnen.

Eine Optimierung der Kodierung wird durch entsprechende Feinabst.i mmung des QP (Quantisierungsparamcters) jeder Slice-Gruppe erhalten. Kurz gesagt können die Quantisierungsparameter als Skalenfaktoren angesehen 'werden, welche festlegen, wie stark die DCT-Koe f f i z i ent en quant.i siert werden müssen: je kleiner der

Quantisierungsparameter, desto feiner die Quantisierung. Eine feinere Quantisierung bedeutet eine genauere Rekonstruktion, aber auch mehr zu übertragende Informationen. Andererseits verringert ein größerer Quantisierungsparameter die Anzahl von zu übertragenden Koeffizienten, wodurch auf der Dekoderseite eine weniger zuverlässige Rekonstruktion erhalten wird. Die Koeffizienten, bei denen der Quantisierungsparameter angewendet wird, sind die Korrekturen, die an der verfügbaren Makroblock-Prädiktion vorgenommen werden müssen. Eine weitere Beschreibung des Prinzips dieses Konzepts ist in der Literatur zu finden (z.B. Iain E.G. Richardson, „H.264/AVC and MPEG-4 Video Compression (Video Coding for Next-generation Multimedia)",

Wiley 2005; ITU-T Rec. H.264/ISO/IEC 11496-10, „Advanced Video Coding", Final Committee Draft, Document JVTE022, Sept. 2002).

Angesichts dieser Überlegungen hat es sich als zweckmäßig erwiesen, die folgenden Quantisierungsparameter bei den drei festgelegten Regionen R0, Rl, R2 anzuwenden: - Region R0 (Feld): Kleiner Quantisierungsparameter, z.B. 26 bis 30. Auch wenn man glaubt, dass das Feld grob kodiert werden kann, zeigten subjektive Tests, dass ein hoher Quantisierungs-parameter in einem Blockartefakt des Felds resultiert. Das Blockartefakt des Felds erwies sich als eines der störendsten Artefakte. - Region Rl (Spieler und Ball): Kleiner Quantisierungsparameter, z.B. 26 bis 30. Diese Segmente liefern dem Zuschauer die wertvollsten Informationen. - Region R2 (Zuschauertribünen): Hoher Quantisierungsparameter, z.B. 42. Da die Zuschauertribünen meistens Hochfrequenzkomponenten enthalten, wäre eine hohe Bitrate für die Übertragung notwendig, doch bleiben die Hochfrequenzkomponenten innerhalb einer Aufnahme statisch. Der diesen durch den Standardkodierer zugeordnete hohe Informationsgehalt ist in erster Linie auf eine ineffiziente zeitliche Prädiktion der Blöcke zurückzuführen. Außerdem wird angenommen, dass sich die Aufmerksamkeit dos Nutzers nicht auf die Zuschauertribünen richtet, daher ist. eine geringfügige Qualitatsverschlechterung tolerierbar.

Die durchgeführte Analyse bestätigte, dass die Kodierung der Region R2 am aufwändigsten wäre, was die erforderlichen Bits anlangt:. Nach dom Downsampl ing ergab sich, dass die Zuschauer -Lribünen ein Muster von Hochfrequenzkorrponenten waren.

Der Kodierer 12 sucht bei Durchführung einer zeitlichen Prädiktion für jeden Makroblock seine beste Prädikti.on in oer. früheren Bildern. Aufgrund des Downsampling (AbtastratenVerringerung) kann das Hochfrequenzmuster innerhalb zweier Frames signifikant variieren. Dadurch leidet die Effizienz der zeitlichen Prädiktion, was dazu führt, dass ein beträchtlicher Hochfrequenzrest übertragen werden muss. Auch wenn die dem Publikum, Regi.on R2, zugeordneten Makroblöcke etwa 21% der Bilder ausmachen, erfordert ihre Kodierung 50% der resultierenden Bitrate, wie in den Fig. 10 (Makroblockver-teiluna) und 11 (Bitratenverteilung) gezeigt.

Von einem subjektiven Gesichtspunkt aus betrachtet, verändern sich die ZuschauerLribünen (Region R2) jedoch nicht innerhalb der beiden Frames. Daher können die restlichen vom Kodierer 12 gesendeten Informationen, die in erster Linie vom menschlichen Auge nicht wahrnehmbare Hochfrequenzkomponenten betreffen, reduziert werden, u.zw. durch Erhöhung des QP der dem Publikum bzw. der Region R2 zugeordneten Makroblöcke.

Die Vorteile einer Verwendung von FMO (Flexible Macroblock Ordering - Flexible Makroblock-Ordnung) zusammen mit dem vorgeschlagenen Segmentierungsschema können wie folgt zusammengefasst werden: - Es ist möglich, bei den zu R0, Rl, R2 gehörenden Makroblöcken je nach Region, der sie zugeordnet sind, verschiedene QPs anzuwenden. Wenn alle Makroblöcke, die zu einer Region gehören, der Reihe nach kodiert werden, muss nur ein QP-Wert für das gesamte Bild-Slice und nicht ein QP für jeden einzelnen Makroblock definiert, werden. - Manche Teile des Bilds sind robuster gegenüber Paketverlust. Die Zuschauertribünen (R2) bleiben fast ein statischer Hintergrund des Bilds. Wenn alle die Zuschauertribünen enthaltenden kodierten Makroblöcke in ein- und demselben Paket gespeichert werden, kann einem solchen Paket eine geringere Priorität zugewiesen werden im Vergleich zu jenen, welche die Spieler enthalten. Falls das das Publikum enthaltende Paket auf der Dekodiererseite nicht empfangen wird, ist es möglich, die fehlende Information durch Kopieren des Publikums aus dem früheren Bild zu überdecken, während die Gesamlbewcgung der Kamera, die beispielsweise die Bewegung des Felds nur.zt, kompensiert wird. « 4 • · * · « 4 • · * ·

* * · * · · · · · • *····»» · * · * « ··*· * · · I · * • ••**44 *4 * * * · Β - Unter dieser Annahme ist es nicht notwendig, dass die Makro-blöcke des Publikums überhaupt, kodiert werden, sondern können vielmehr nicht von der normalen Übertragung ausgenommen werden, und können wie zuvor erläutert wiederherges teil t werden. Dabei, muss gelegentlich ein Auffrischungsbiid gesendet werden, wogegen nur die neuen Makroblöoke, die aufgrund der Kamerabewegung erscheinen und nicht in der aktuellen Referenz verfügbar sind, kodiert und übertragen werden müssen. Das kann etwas genauer wie folgt erklärt werden. Zuerst ist jedoch, immer noch zur allgemeinen Erläuterung, in Erg. 12 ein MaKrobiock bei 80 dargestel.lt. Für jeden Makroblock des Bilds wird dessen beste bewegungskompensier Le Prädiktion in Block 81 gesucht, u.zw. unter Verwendung eines Referenzpuffers 82. Nach Berechnen der Differenz zwischen dem ursprünglichen Block und seiner Prädiktion, s. Block 83, wi.rd der Di f ferenzblock in der Pixeidomäne mittels einer horizontalen und einer vertikalen Diskreten Kosinustransformation (DCT) in die Frequenzdomäne übergeführt, s. Block 84. Der transformierte Restblock muss dann quantisiert werden. Der Quantisierungsparameter QP wird für jeden Makroblock in Abhängigkeit von der Region gewählt, zu welcher der betreffende Makroblock gehört, s. Block 85. Für das Publikum wird ein höherer QP gewählt, was dazu führt, dass die Hochfrequenzkomponente Null wird. Für das Feld und die Spieler wird ein kleinerer QP gewählt, daher werden mehr Hochfrequenzkomponenten währena der Quantisierung behalten,

Block 86, aber mehr Bits zur Kodierung derselben durch Entropiekodierung benötigt, Block 87.

Unter spezieller Bezugnahme auf die Kodierung der Lnforma-tionen der Publikumsregion kann es nun nützlich sein, folgende Erklärungen abzugeben. Ähnlich wie sein Vorgänger ist der H.264/AVC ein hvbrid-blockbasierter Codec. Jeder Videorahmen wird in Blöcke von 16 x 16 Pixel, die Makroblöcke, unterteilt. Je nach Frame-Typ werden solche Makroblöcke dann unter Ausnutzung ihrer räumlichen Korrelation mit den benachbarten (1-Frames) oder miL denen in den zuvor kodierten Bildern (P-Frames) kodiert. Es wird die beste (zeitliche bzw. räumliche) Prädiktion des ursprüng1ichen Makro-blocks (bei P-Frames) evaluiert.. Ein Restbiock wird als ciemont-wei se Differenz zwischen der besten PrädikL i.on des Makrobiock« und dem ursprünglichen Makrobiock berechnet.

Der Differenzblock wird dann mit Hilfe von zwei i'nori zontal und vertikal) modifizierten diskreten Kosinustransforinationen (DCT) in einen transformierten Restblock t übergeführt. Km Element t(0; 0) stellt die Komponente des transformierten Restblocks (DC) mit der niedrigsten Frequenz dar. Höhere Reihen- und Spaltenindices werden Elementen zugeordnet, die steigender. Frequenzkomponenten zugeteilt werden. Der Block t wird dann skalar quantisiert, wodurch ein Block q erhalten wird. Die Quantisierungsschritie werden mit dem Quantisierungsparameter (QP) indexiert. Durch Inkrementierer) des QP-Werts werden mehr Hochfrequenz-Komponenten auf Null gerundet. Das führt dazu, dass dann weniger Elemente entropiekodiert werden müssen, aber gleichzeitig auch zu einem Mangel an Details im rekonstruierten Block auf der Dekodiererseite. Das Kodierschema wird bei allen Makroblöcken des Frames anqewendet.

Bezüglich Fußball-Videosequenzen wurden oben drei verschiedene Gruppen von Szenekomponenten R0, RI, R2 definiert, bei denen die jeweils spezifischen Merkmale und ihre Auswirkungen auf die wahrgenontunene Qualität unterschieden werden. Die das Feld enthaltenden Makroblöcke sind gekennzeichnet durch ihren Farbton, nämlich Grün, und die Abwesenheit von Hochfrequenzmustern. Die Spieler-, Ball- und Feldiinien-Makroo!öcke werden als Element betrachtet, auf welches die Aufmerksamkeit des Zuschauers gerichtet ist. Ihre Bewegung stimmt nicht mit der globalen Kamerabewegung überein, und ihre Gestalt kann zeitlich variieren. Die Zuschauertribünen und Reklameschilder bleiben entsprechend der Kamerabewegung an sich ein statischer Hintergrund .

Eine über 20 verschiedene Fußballsequenzen in CIF-Auflösung durchgeführte Analyse erfolgte mit dem Ziel der Untersuchung der Kodierungseffizienz für die verschiedenen Makroblock-Gruppen.

Die Analyse legt ihr Hauptaugenmerk auf die zeitlich prädizier-ten (P)-Frames. Dies deswegen, weil einerseits die räumlich prä-dizierten (I)-RFrames viel mehr Bits benötigen als die (P)— Frames und andererseits Fußbailsequenzen durch eine starke zeitliche Korrelation zwischen aufeinanderfolgenden Frames gekennzeichnet sind. Die Ergebnisse für eine repräsentative Sequenz aus 134 Frames ist in den Fig. 10 und 11 gezeigt. Fig. 10 zeigt die Verteilung der 396 Makroblöcke über die drei Gruppen R0, RI, R2. Fig. 11 zeigt den resultierenden, jeder * ♦ • * * »« *·«· * ·

Gruppe zugeordneten Code, normali siert relativ zur Gesamtgröße des Frames.

Wie erwartet, ist der Code, der den das Feld enthaltenden Makroblocker, zugeordnet ist, durchschnittlich am kleinsten wegen der fehlenden llochfrequenzdetai1s. Überraschenderweise erfordern die das Publikum enthaltenden Makroblöcke, die 15% oder 16% der Gesamtanzahl von Makroblöcke ausmachen, 50% der gesamten Bitrate. Dieses Verhalten begründet sich im Inhalt der Makroblöcke, die 7.u dieser Gruppe R2 gehören. Die Zuschauertribünen sind nämlich, insbesondere bei großem Andrang, durch Hoch!requenz-komponenten gekennzeichnet. Auch wenn für das menschliche Seh-system nicht wahrnehmbar, variieren solche Muster zeitmäßig, was zu einer: ineffizienten Prädiktion und daher zu hochfrequenz-transfomierten Resten führt,. Die geringere Auflösung verstärkt diese Wirkung.

Vom Gesichtspunkt des Zuschauers aus betrachtet führt diese Konfiguration dazu, dass sie nicht optimiert ist. Der Großteil der Datenrate wird nämlich den Makroblöcken zugewiesen, die die am wenigsten nützlichen Informationen enthalten, was das Match betrifft. Außerdem bleiben die in den Zuschauertribünen und Werbeanzeigen enthaltenden Informationen subjektiv statisch in der Zeit. Somit wird die signifikante Codemenge am ehesten Details zugeordnet, die vom menschlichen Betrachter nicht wahrgenommen werden können.

Wie oben erwähnt, beeinflusst der ausgewählte QP die Größe des kodierten Stroms sowie die Qualität der dekodierten Sequenz stark. In einem H-264/AVD-kodierten Strom wird der Wert des Quantisierungsparametors im so genannten Bildparameterset (Picture Parameter Set PPS) festgelegt. Üblicherweise verwenden alle Makroblöcke den im PPS spezifizierten QP, auf den der Frame, zu dein sie gehören, hindeutet. Eine Abweichung von diesem QP kann auf Slice-Niveau für eine gesamte Kollektion von Makrobjöcken oder auch auf Makrobiock-Niveau für jeden einzelnen Makroblock definiert werden, was zu steigenden Signalisierungs-bit.s führt.

Der vorliegende Ansatz besteht i.n der Nutzung der dargelegten Segmentierung während der Kodierung. Traditionellerwei.se werden die Makroblöcke in einer Rasterabtastung kodiert. Diese Sr. rateqie hat sich, für das vorliegende Verfahren al.s ungeei gnet erwiesen. SLattdessen wird bevorzugt Flexible Macroblock • · »

Ordering (FMO) genutzt-, ein im H . 264/AVC-Basisli nienprof il enthaltenes Fehlertoleranz-Werkzeug. Wie oben ausgeführt, gestattet FMO dem Kodierer 12, die Makroblöcke in Slices zu gruppieren, sortiert nach bestimmten Mustern (Modus 1 bis 5) oder entsprechend einer Zuordnungs-Map, die als Eingabe (Modus 6) eingegeben wird. Letztere Möglichkeit wurde aus zwei verschiedenen Gründen gewählt. Erstens kann für jedes Slice eine Einzelabweichung vom globalen QP festgelegt werden. Andererseits können die verschiedenen Regionen separat kodiert und paketiert werden, wodurch Datenteilungen erhalten werden. Wenn bei einem Netzstau jedem Paket ein Prioritätsindex zugeordnet wird, können die am wenigsten wichtigen Pakete weggelassen werden, wodurch die Auswirkungen auf die wahrgenommene Qualität reduziert werden.

Daher wird nach der Segmentierung eine Map, die die Zuordnung zwischen jedem Makroblock und der Region, zu welcher er gehört, enthält, zusammen mit dem zu kodierenden Frames dem H.2 6 4 /AVC-Kodi e rer 12 als Eingabe eingegeben. Der betreffende Codec ist der Joint Model (JM) H.264/AVC-Basiskodierer. Die zu einer entsprechenden Region gehörenden Makroblöcke können gemäß der Map unter Verwendung eines entsprechenden Quantisierungsparameters für jene Gruppe separat kodiert und paketiert werden.

Sobald die Zuordnungs-Map aus dem Segmentierungsalgorithmus erhallen worden ist, wird die Sequenz unter Verwendung eines modifizierten Joint Model kodiert. Die Hauptaufgabe des Algorithmus ist nun die Reduktion der dem Publikum zugeordneten Bits unter Beibehaltung einer akzeptablen Qualität aufgrund der siarken Korrelation zwischen zwei aufeinanderfolgenden Frames der Fußballsequenz. Während die Bewegung des Spielers kaum vorhersagbar ist, bewegen sich die das Publikum enthaltenden Elemente kohärent mit der Kamerabewegung. Daher kann die Bewegung der gesamten Region mit einem einzigen globalen Bewegungsvektor beschrieben werden.

Zur Implementierung eines solchen Ansatzes können die Makroblöcke des Publikums zwangsweise übersprungen werden. Im H.264/AVC wird ein Makroblock übersprungen, wenn sein zugehöriger Bewegungsvektor (MV) gleich dem prädizierfen Bewegungs-vekt.or, d.h. dem bei der Durchscnnittsermitt 1 ung der Bewegungsvektoren der benachbarten Makroblöcke erhaltenen Bewegungsvektor, ist. Weiters muss der Makrob.Lock, auf den ein solcher

* * # · « · 9 * *· «*· « · • · * # »M • * * · · «·**· · · » · * · *

Bewegungsvektor woist, eine so gute Annäherung darst.ol Ion, dass keine Korrektur mit Hilfe von Resten notwendig ist. Es ist möglich, im ersten Makroblock den globalen Bewegungsvektor, der die Kamorabewegung darstellt, zu signalisieren und diesen zur Prädiktion der Bewegungsvektoren der anderen zum Publikum gehörenden Makrobiöcke zu verwenden.

Zur Schätzung des globalen Bewegungsvektors wird eine Kodierung des Publikums in zwei Durchgängen vorgeschlagen. Im ersten Scnritt wird das Publi kum unter Verwendung des üblichen H . 2 64/AVC-Kodi-orver f ahrens kodiert. Die erhaltenen Bewegungs-vokt.oren weisen bereits einheitlich in eine einzige Richtung und stellen die Karnerabewequng innerhalb der beiden Aufnahmen dar.

Darüber hinaus werden mehrere Bits den restlichen kodierten Makroblöcken zugeordnet. Die restlichen Makroblöcke sind Differenzen zwischen dem ursprüngliche Block und dem prädizierten Block zurechenbar. Der H.264/AVC berechnet die Differenz auf einer diskreten kosinustransf orrrb erten Ebene. Da es sich um die Makroblöcke handelt, die dem Publikum zugeordnet sind, welches hauptsächlich aus von räumlichem Downsampling abgeleiteten Hoch-frequenzkomponenten besteht, folgt daraus, dass die Prädiktion in den meisten Fällen ineffektiv ist.

Man kann daran denken, den Bewegungsvektor beizubehalten und die restlichen Blöcke wegzulassen. Dies würde jedoch eine Verzerrung am Dekodierer bewirken, da der Bildreferenzpuffer am Kodierer nicht entsprechend aktualisiert würde. Daher ist eine geringe Kodierung in einem zweiten Durchgang notwendig. Der globale Bewegungsvektor wird dann (wenn überhaupt) als Hauptkomponente des Bewegungsvektor-Histogramms berechnet. Dieser Bewegungsvektor wird für alle Makroblöcke verwendet, die zum Publikum gehören. In den meisten Fällen wird er durch Überspringen des Makroblocks erhalten. Für isolierte Makroblöcke, aus denen keine Prüdikti.on möglich ist, wird der globale Bewegungsvektor neuerlich signalisiert.

Aufgrund der Kamerabewegung scheint die nicht im vorherigen Rahmen enthaltene Videoinformat ior. an der Bildgrenze. Sobald die Kamerabewegung einen ganzen Makroblock übersteigt, kann der zur erschienenen Spalte (horizontale Bewegung) oder Reihe (vertikale Bewegung) gehörende Makroblock als gewöhnlicher P-Makroblock kodi.cr t werden .

Das vorgesch.l agene Verfahren arbeitet ordnungsgemäß, sobald 2 0 die Aufnahmen kein Zoom enthalten. In einem solchen Fall funktioniert die zeitliche Prädiktion nicht richtig, da der Kodiermechanismus ohne Einfügen von Resten den Zoom nicht kompensieren kann. Außerdem wurde beobachtet, dass bei einem Zoom die Varianz des Bewegungsvektors steigt. Um diesem Effekt beizukommen, kann ein Zoomdetektor auf Basis der Bewegungsvektor-varianz verwendet werden.

Im H.264/AVC werden die Bewegungsvektoren mit Vicrtelpixel-Auflösung kodiert, [st der Wert des globalen Bewegungsvektors kein ganzzahliges Pixel (d.h. 4), würde der Frame aufgrund der durchgeführten Interpolation durch Unschärfe beeinträchtigt.

Dauer wird die Bewegung gepuffert und auf Pixelvielfache angewendet.

Die Leistungsfähigkeit des vorliegenden Verfahrens kann anhand der Bitrateneinsparung und der resultierenden subjektiven Qualität, gemessen mit MOS (Mean Opinion Score - mittlere Bewertung), aufgezeigt werden.

In Fig. 14 ist die Größe des einem Einzel-Frame zugeordneten Codes hinsichtlich der Bitratene.insparung im Vergleich zur Verwendung des Standard-Kodiermechanismus, Fig. 13, gezeigt. In beiden Fällen wurde der QP für alle Regionen auf 26 eingestellt. Die kleinen Peaks irr, Diagramm der Fig. 14 werden durch die Zusatzrate aufgrund der Kodierung der Grenze verursacht, wie oben unter Bezugnahme auf auf die Kamerabewegung angedeutet. Die größeren Peaks in Fig. 14 sind die Folge der an jedem der 25 Frames vorgenommen Frame-Auffrischung.

Nachstehend sind eine Simulationsanordnung sowie die erzielten Ergebnisse beschrieben. Den arei fcstgelegten Regionen RO, RI, R2 wurden verschiedene QP-Gruppen zugeordnet. Die Informationen, die mit den Spieler, Ball und Linien enthaltenden Makrobiöcken assoziiert wurden, werden als wichtigste angesehen. Daher werden den Makroblöcken, die die Felder und die Zuschauertribünen enthalten, höhere QPs zugeordnet. Für den Spieler, den Ball und die Linier, wurden allgemeine QP-Werte zwisch.cn 26 und 30 verwendet. Für das Feld und die Linien wurde eine Gruppe von QPs verwendet, die von 26 bis 42 variierten. Ein Übungsset von Sequenzen, das jede mögliche Zahlenkombination von QPs umfasste, wurde Kodiert.

Als erste Analyse wurde die Wirkung der verschiedenen Quantisiorungsparameter hins:cht1:ch der resultierenden

Geschwindigkeit im Vergleich zu den Ergebnissen betrachtet, die bei Kodierung des gesamten Bilds mit einem QP von 26 erhalten wurden. Die Ergehnisse sind in Fig. lb gezeigt, wobei der QF der Spieler auf 26 eingestellt ist. Wie erwartet, liefert eine Erhöhung des QP für das Feld keine signifikanten Verbesserungen, was die Reduktion des resultierenden Codes betrifft, da die Anzahl von Koeffi.zienten beim hoenfrequcnztransformierten Rest begrenzt ist. Die Größe der den Zuschauertribünen zugeteilten kodierten Makroblöcke kann vielmehr durch Veränderung der Quantisierungsparameter merkbar adaptiere werden.

Solche Ergebnisse wurden dann hinsichtlich Verzerrung analysiere. Fig. 16 zeigt das Peak-Siqnal-Rausch-Verhältnis (P3NR) in Abhängigkeit von den betreffenden QFs. Überraschend zeigte sich, dass das PSNR-Vernältnis nicht so empfindlich gegenüber der QP-Veränderung reagierte wie die resultierende Geschwindigkeit. Auch für die Werte (42,26,42), bei denen sich ergab, dass die Geschwindigkeit etwa 25% der ursprünglichen ausmachte, bleibt das PSNR-VerhäJ.enis etwa 80% des urspriinglichen. Wie für die Geschwindigkeit, beobachtet, scheint auch die objektive Verzerrungsmetrik marginal von dem auf das Feld angewendeten QP abzuhängen. Daher sollten die Veränderungen nur der Wirkung der Quantisierung auf die Zuschauertribünen zugerechnet werden. Der geringere Rückgang des PSNR-Verhä.l tnisses im Vergleich zum substantiellen hinsichtlich Geschwindigkeit lässt den Schluss zu, dass sich für eine objektive Metrik die bei den Zuschauertribünen angewendete zeitliche Prädikt.ion als nicht effektiv erweist, nicht einmal für niedrige QFs.

Auch wenn die Prädiktion am Kodierer durchgeführt wird, wodurch eine objektive Metrik als PSNR-Verhältnis minimiert wird, ist jedoch die Optimierung der Kodierung in Anbetracht der vom Zuschauer wahrgenommenen subjektiven Qualität ein Ziel.

Durch Nutzung der Ergebnisse der vorherigen Analyse wurde eine präzisierten Gruppe von QPs für verschiedene Sequenzen festgeieqt. Das Feld wurde m.i t moderaten QPs kodiert, die zwischen 26 und 30 variierten. Für die Zuschauertribünen wurden höhere QPs, nämlich ?wi sehen 30 und 42, analysiert. Durchschnittlich waren die Sequenzen 135 Frames lang. Die Sequenzer, bestanden zu Beginn aus einem I-Frame, der unter Verwendung von QP 26 für aiio Makroblockgruppen kodiert, wurde, - 22 - * * • •·Ψ Μ * · »»·*»*· un eine genaue Referenz für die zeitliche Prädiktion zu bieten. Alle folgenden Frames waren ?-kodiert.

Als subjektive Metrik wurde ein Mean Opinion Score (MOS) gewählt. Um einen weiten Bereich von Testpersonen zu erreichen, wurde eine Webseite eingerichtet. Die Videosequenzen, welche die Testpersonen zu bewerten hatten, bestanden aus fünf verschiedenen Fußballsequenzen, die unter Verwendung von neun verschiedenen QP-Gruppen kodiert waren, und den nicht komprimierten, u. zw, für insgesamt 50 Sequenzen. Die Reihenfolge der Sequenzen erfolgte zufällig. Die Freiwilligen wurden gebeten, die Sequenzen zu bewerten, ohne dass sie wussten, welche die fünf unkomprimierren waren. Sie kannten auch das Verfahren hinter den verschiedenen komprimierten Bildern nicht. Die Bewertung bestand in der Zuordnung eines Votums auf einer Skala von 1 (schlecht) bis 5 (hervorragend) zu jeder dargestellten Sequenz. Fig. 17 zeigt die Ergebnisse einer repräsentativen Sequenz unter Berücksichtigung verschiedener Einstellungen des Kodierers im Vergleich zur nicht komprimierten Sequenz. Die gesaminelren Ergebnisse zeigen die Wirksamkeit des Verfahrens. Es zeigte sich nämlich, dass sich der Zuschauer sogar über starke Komprimierungen der Zuschauertribünen nur marginal ärgerte. Vielmehr zeigte sich, dass der Zuschauer extrem empfindlich sogar gegenüber geringen Erhöhungen des zur Kodierung des Felds verwendeten QP reagierte. Das kann mit der unterschiedlichen subjektiven Reaktion auf eine starke Komprimierung erklärt werden, die bei der betreffenden Region angewendet wurde. Sogar, wenn die Rekonstruktion der Zuschauertribünen nicht durch den hochfrequenztransformierten Rest unterstützt wird, enthalten ihre Prädiktionen immer noch Hochfrequenzkomponenten. Daher tritt der Fehler in dem Bereich auf, wo sich das menschliche Wahrnehmungssystem als weniger empfindlich erweist. Unzulänglichkeiten bei der Rekonstruktion des Felds wirken sich dagegen auf Blöcke aus, die hauptsächlich aus Niederfrequenzkomponenten bestehen und daher ein merkliches und lästiges BJockartefakt verursachen. Außerdem umgibt das Feld die Spieler und den Ball. Da dies die Objekte sind, auf weiche die Aufmerksamkeit des Zuschauers gerichtet ist, erweist sich das Erlebnis des Nutzers als noch weiter beeinträchtigt. aur

Oben wurde eine Erhöhung de e 1 ne neue KodicrungssLrategie vorgeschiaqen, die wahrgenommenen Nutzerqualitat bei Fußbai 1- • · • · • · · · · · * « · • · «·« « · · • · · »» «·· ·« « * « ·

Vtdoo-Screaming abzielt. Dabei wurden (drei Gruppen von Szene-komponenten festgelegt: die ZuschauerLri bünen, das Feld und eine Gruppe umfassend den Hall, die Spie', er und die Feldlinien. Sie weisen größere Unterschiede auf, sowohl was die Auswirkungen der Komprimierung betrifft als auch was die subjektive Bedeutung anlangt. Solche Regionen wurde mit Hil.fe eines BiIdsegmentie-rungsmechanismus identifiziert. Die drei Gruppen von Makroblöcken wurden dann unter Verwendung von verschiedenen Komprimierungsgraden separat kodiert. Subjektive Tests zeigten, dass der resultierende Code im Vergleich zu einer standardmäßig kodierten Sequenz um bis zu einen Faktor 2 reduziert werden kann, wodurch sich die Menge an mit den Zuschauertribünen assoziierten Bits verringert, was die wahrgenommene Nut zerquai i. rät. nur marginal beeinträchtigt.

Claims

-24 -24 • ft * · * » t • · • · » · · ·· ···· * « * · · · « * ft · ft ft « » * ft * * * * • ft « ·· * » · · ft Pa Lentanspr(jene : 1. Verfahren zum Verarbeiter, von Sport-Videosequenzen zur Übertragung über Kanäle mit beschränkter Übertragungskapazität, wie UMTS-Netze, welches Verfahren folgende Schritte aufweist: Segmentieren von Bildern der Videosequenzen zur Erzielung von Segmenten unterschiedlichen Typs entsprechend Regionen mit unterschiedlichen Inhalten, nämlich zumindest Spielern und Hintergrund, und separates Kodieren der erhaltenen unterschiedlichen Segmente unter Anwendung verschiedener Kodierstrategien, dadurch gekennzeichnet, dass die Bilder der Videosequenzen auf Basis von Farbmerkmalen segmentiert werden, woraus separate Makroblöcke für jedes Segment abgeleitet werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für die Segmentierung jedes Bild vom RGB-Farbbereich (Rot-Grün-Blau) in den in den HSV-Farbraum (Hue-Saturation-Value = Farbton-Farbsättigung-Hel1igkeit) überführt wird.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass zur Entscheidung, ob Pixel eines Bilds zu einem gegebenen, ziemlich stationären ersten Segment, z.B. einem grünen Fußballfeld, gehören, überprüft wird, ob H, S, V dieser Pixel innerhalb eines gegebenen Bereichs liegen.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Pixel des Bilds, die eine vorherbestimmte H-Komponente haben, gezählt werden, und die H-, S- und V-Bereiche in Abhängigkeit von der erhaltenen Pixel-Anzahl festgelegt werden.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass zur Entscheidung, ob Pixel des Bilds zu einem zweiten, ziemlich stationären Segment, z.B. Publikum, gehören, ein Region-Growing-Algorithmus verwendet wird, bei dem mindestens ein Regionen-Saatpunkt in eine jeweilige Ecke des entsprechenden Makroblocks gesetzt wird und für den Fall, dass die Anzahl von zum ersten Segment gehörenden Pixeln geringer als ein vorher- bestimmten Schwellenwert, ist, benachbarte Pixel auf diese Weise überprüft werden, so dass eine Abbildung (Map) des Makroblocks dieses zweiten Segments erstelle wird.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass nach Erstellung der Abbildung des zweiten Segment.-Makrobiocks entschieden wird, dass die restlichen Makroblöcke zum ersten * • - 2! Segment oder zu einem dritten Segment gehören, welches z.B. Spieler und Ball enthält, worauf durch Überprüfung, ob die Anzahl von Pixeln, die zurr, ersten Segment gehören, einen weiteren vorherbestimmten Schwellenwert überschreitet, entschieden wj rd, dass der jeweilige Makroblock das erste Segment oder das dritte Segment enthält.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass Reihen der Zuschauer-Abbildung auf isolierte Makroblöckc durchgesucht werden, welche auf der linken und der rechten Seite von Feld-Makroblöcken begrenzt sind, und dass solche isolierte Makroblöcke von der Zuschauer-Abbildung entfernt und dem dritten Segment, nämlich der Spieler-Abbildung, zugeordnet werden.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass im Fall von Makroblöcken eines im Wesentlichen stationären Segments, z.B. der Zuschauer-Makroblöcke, nur neue Makroblöcke, die aufgrund der Kamerabewegung erscheinen, kontinuierlich kodiert und übertragen werden, und je nach Veränderung der Kameraaufnahmen Auffrischungs-Makroblöcke zur Aktualisierung nur in größeren Zeitintervallen kodiert und übertragen werden.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass an den Makroblöcken eine DCT-Kodierung angewendet wird und die Kodierung entsprechend den jeweiligen Segmenten mit einer Feinabstimmung von Quantisierungsparametern durchgeführt wird, die auf zu übertragende Koeffizienten angewendet werden.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass ein hoher Quantisierungsparameter bei dem das Publikum renräsen-tierenden Segment angewendet wird.