AT509032A2 - METHOD AND SYSTEM FOR VIDEO QUALITY ASSESSMENT - Google Patents

METHOD AND SYSTEM FOR VIDEO QUALITY ASSESSMENT Download PDF

Info

Publication number
AT509032A2
AT509032A2 AT0956106A AT95612006A AT509032A2 AT 509032 A2 AT509032 A2 AT 509032A2 AT 0956106 A AT0956106 A AT 0956106A AT 95612006 A AT95612006 A AT 95612006A AT 509032 A2 AT509032 A2 AT 509032A2
Authority
AT
Austria
Prior art keywords
content
video
quality
motion
motion vector
Prior art date
Application number
AT0956106A
Other languages
German (de)
Other versions
AT509032A5 (en
AT509032B1 (en
Original Assignee
A1 Telekom Austria Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A1 Telekom Austria Ag filed Critical A1 Telekom Austria Ag
Publication of AT509032A2 publication Critical patent/AT509032A2/en
Application granted granted Critical
Publication of AT509032A5 publication Critical patent/AT509032A5/en
Publication of AT509032B1 publication Critical patent/AT509032B1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

• · · · · · · ·• · · · · · · ·

Verfahren und System zur VideoqualitätsschätzungMethod and system for video quality estimation

Gebiet der ErfindungField of the invention

Die vorliegende Erfindung bezieht sich auf ein Verfahren und ein System zur Videoqualitätsschätzung, insbesondere für Videosequenzen mit niedriger Auflösung. Solche Videosequenzen mit niedriger Auflösung sind typisch bei Video-Streaming-Anwendungen, z.B. mobilen Video-Streaming-Anwendungen.The present invention relates to a method and system for video quality estimation, in particular for low resolution video sequences. Such low resolution video sequences are typical in video streaming applications, e.g. mobile video streaming applications.

Hintergrund der ErfindungBackground of the invention

In der WO03/042922 A und der WO03/101121 A ist eine Schätzung der objektiven Qualität von komprimierten Videodaten beschrieben, wobei kein Zugriff auf die Quelldaten möglich ist. Nach Dekomprimieren der Videodaten unter Verwendung von z.B. einem MPEG-Decoder erfolgt eine Bildtypbestimmung, um festzustellen, ob die Decoder-Videodaten intracodiert sind; danach wird eine diskrete Kosinustransformation (DCT) durchgeführt, um DCT-Koeffizienten zu erhalten, und ein durchschnittlicher Quantisierungsfehler wird auf Basis der Varianz der DCT-Koef f izienten ermittelt, und dieser Quantisierungsfehler wird zur Berechnung eines Spitzen-Signal-Rausch-Verhältnisses (PSNR -peak signal to noise ratio) verwendet.In WO03 / 042922 A and WO03 / 101121 A an estimate of the objective quality of compressed video data is described, wherein no access to the source data is possible. After decompressing the video data using e.g. an MPEG decoder is subjected to a picture type determination to determine if the decoder video data is intra-coded; thereafter, a discrete cosine transform (DCT) is performed to obtain DCT coefficients, and an average quantization error is found based on the variance of the DCT coefficients, and this quantization error is used to calculate a peak signal-to-noise ratio (PSNR peak-to-noise ratio).

Gemäß der W02006/043500 A werden zeitliche/räumliche Charakteristika einerseits von einer verschlechterten Videosequenz und andererseits von einem Referenz-Videosignal hergeleitet, und für die Qualitätsschätzung wird die Menge an zeitlichen/räumlichen Charakteristika entsprechend der Beziehung zwischen dem verschlechterten Video und dem subjektiven Bewertungswert des Nutzers gewichtet.According to W02006 / 043500 A, temporal / spatial characteristics are derived on the one hand from a degraded video sequence and on the other hand from a reference video signal, and for the quality estimation the amount of temporal / spatial characteristics corresponding to the relationship between the deteriorated video and the subjective rating value of the user weighted.

Beim mobilen Video-Streaming werden niedrige Auflösungen und niedrige Bitraten verwendet. Übliche Auflösungen sind Quarter Common Intermediate Format (QCIF, 176x144 Pixel) für Mobiltelefone, Common Intermediate Format (CIF, 352x288 Pixel) und Standard Interchange Format (SIF, 320x240 Pixel) für Datenkarten und Palmtops (PDA). Der verpflichtende Codec für UMTS-(Universal Mobile Telecommunications System)-Streaming-Anwendungen ist H.263, die 3GPP Ausgabe Nr. 6 unterstützt aber bereits eine Grundlinienprofil des H.264/AVC-Codec. Die entsprechenden Encoder-Einstellungen für UMTS-Streaming-Dienste unterscheiden sich für unterschiedliche Streaming-Inhaltstypen bzw. Streaming-Anwendungen (Auflösung, Codec). Im UMTS werden Bearer mit 64-384 kbit/s für Multimedia-Streaming (Audio und Video) verwendet. Mobile Terminals haben eine beschränkte Komplexität und Kapazität, so dass das Decodieren von höherqualitativen Videos eine ziemliche Herausforderung darstellt. Es kann davon ausgegangen werden, dass die am meisten unterstützten Video-Bitraten für die QCIF-Auflösung 105 kbit/s und für die CIF- und SIF-Auflösung 200 kbit/s betragen.Mobile video streaming uses low resolutions and low bit rates. Common resolutions are Quarter Common Intermediate Format (QCIF, 176x144 pixels) for mobile phones, Common Intermediate Format (CIF, 352x288 pixels) and Standard Interchange Format (SIF, 320x240 pixels) for data cards and palmtops (PDA). The compulsory codec for UMTS (Universal Mobile Telecommunications System) streaming applications is H.263, but the 3GPP Issue No. 6 already supports a baseline profile of the H.264 / AVC codec. The corresponding encoder settings for UMTS streaming services differ for different streaming content types or streaming applications (resolution, codec). In UMTS bearers with 64-384 kbit / s are used for multimedia streaming (audio and video). Mobile terminals have limited complexity and capacity, so decoding higher quality videos is quite challenging. It can be assumed that the most supported video bitrates for the QCIF resolution are 105 kbit / s and for the CIF and SIF resolution 200 kbit / s.

In den letzten Jahren wurden mehrere objektive Metriken für die perzeptuelle Videoqualitätsschätzung vorgeschlagen. Die vorgeschlagenen Metriken können in zwei Hauptgruppen unterteilt werden: das menschliche Visionsmodell, das auf Video-Metriken basiert, siehe beispielsweise Winkler S. et al., „Video Quality Evaluation for Mobile Applications", Proc. of SPIE Conference on Visual Communications and Image Processing, Band 5150 (2003), S. 593-603, und Metriken, die nur auf den objektiven Videoparametern beruhen, siehe z.B. Kusuma T.M. et al., „On the Development of a Reduced-Reference Perceptual Image Quality Metrie", Proc. of the 2005 Systems Communications (ICW05), (2005), S. 178-184. Die Komplexität dieser Verfahren ist ziemlich hoch, und ihre Berechnung erfordert eine enorme Rechenleistung. Diese Metriken sind für Breitband-Videorundfunkdienste konzipiert und berücksichtigen keine mobilen Video-Streaming-Szenarios. Außerdem sind Techniken wünschenswert, die nicht die (nicht komprimierte) Originalsequenz für die Schätzung der Qualität benötigen, so dass die Komplexität reduziert und gleichzeitig die Möglichkeiten der Qualitätsvorhersagebereitstellung erweitert werden können. Es wäre somit ein objektives Maß für die Videoqualität wünschenswert, das einfach genug für die Berechnung in Echtzeit auf der Senderseite ist. Die vorliegende Erfindung beruht auf der Erkenntnis, dass die Komplexität der Videoqualitätsschätzung dann niedrig gehalten werden kann, wenn der Charakter des Videoinhalts aufgrund seiner inhaltlichen Abhängigkeit von subjektiver Videoqualität geschätzt wird.Several objective metrics for perceptual video quality estimation have been proposed in recent years. The proposed metrics can be divided into two main groups: the human vision model based on video metrics, see, for example, Winkler S. et al., "Video Quality Evaluation for Mobile Applications", Proc. of SPIE Conference on Visual Communications and Image Processing, Vol. 5150 (2003), pp. 593-603, and metrics based only on the objective video parameters, see e.g. Kusuma T.M. et al., "On the Development of a Reduced-Reference Perceptual Image Quality Metrics", Proc. of the 2005 Systems Communications (ICW05), (2005), pp. 178-184. The complexity of these methods is quite high, and their computation requires tremendous computing power. These metrics are designed for broadband video broadcasting services and do not consider mobile video streaming scenarios. In addition, techniques that do not require the (uncompressed) original sequence for the estimation of quality are desirable so that complexity can be reduced while at the same time expanding the possibilities of quality prediction delivery. Thus, it would be desirable to have an objective measure of video quality that is simple enough for real time rendering on the sender side. The present invention is based on the recognition that the complexity of the video quality estimation can be kept low if the character of the video content is estimated on the basis of its content dependency on subjective video quality.

Zusammenfassung der ErfindungSummary of the invention

Dementsprechend ist es ein Ziel der vorliegenden Erfindung, ein Verfahren und ein System zur Videoqualitätsschätzung zur Verfügung zu stellen, wobei eine schnelle Echtzeit-Schätzung mit geringer Komplexität möglich ist.Accordingly, it is an object of the present invention to provide a method and system for video quality estimation wherein fast real-time estimation with low complexity is possible.

Zur Lösung dieses Problems sieht die vorliegende Erfindung ein Verfahren und ein System mit den Merkmalen der unabhängigen Patentansprüche vor. Bevorzugte und vorteilhafte Ausführungsformen sind in den ünteransprüchen definiert.To solve this problem, the present invention provides a method and a system having the features of the independent claims. Preferred and advantageous embodiments are defined in the dependent claims.

Mit der vorliegenden Technik ist eine einfache, effiziente und schnelle Schätzung der Videoqualität für Videosequenzen mit niedriger Auflösung möglich, die für (mobile) Video-Streaming-Anwendungen typisch sind. Da die von Nutzern wahrgenommene Videoqualität erheblich von den räumlichen (Ränder, Farben, ...) und zeitlichen (Bewegungsgeschwindigkeit, Richtung, ...) Merkmalen der Videosequenz abhängt, beruht die vorliegende Erfindung gemäß einem ersten Aspekt auf einem zweistufigen Ansatz zur Qualitätsschätzung. Zuerst werden Aufnahmen zwischen zwei Szenewechseln analysiert und ihre Inhaltsklasse herausgefunden. Als zweites erfolgt die Qualitätsschätzung auf Basis der Inhaltsklasse, der Framerate (Frame-(Teil-)Bild) und der Bitrate. Zur Bestimmung der jeweiligen Inhaltsklassen sind ein Inhaltsklassifizierer sowie eine entsprechende Wahl der Inhaltsklassen und ihrer Charakteristika vorgesehen. Darüber hinaus beruht das Konzept von Qualitätsmetrik auf dem durch eine Umfrage erhaltenen mittleren Meinungswert. Die Ergebnisse eines Vergleichs der vorliegenden Technik mit mehreren üblichen Verfahren zeigte, dass der vorgeschlagene Ansatz ein leistungsfähiges Mittel zur Schätzung der Videoqualität bietet, die von Nutzern von Diensten für Video-Streaming mit niedriger Auflösung wahrgenommen werden.The present technique provides a simple, efficient and fast estimate of video quality for low-resolution video sequences typical of (mobile) video streaming applications. Since user-perceived video quality is significantly dependent on the spatial (edges, colors, ...) and temporal (motion speed, direction, ...) characteristics of the video sequence, the present invention, in a first aspect, is based on a two-stage approach to quality estimation. First, recordings between two scene changes are analyzed and their content class is found out. Second, the quality estimate is based on content class, frame rate (frame) and bitrate. To determine the respective content classes, a content classifier and a corresponding choice of the content classes and their characteristics are provided. In addition, the concept of quality metric is based on the average opinion value obtained by a survey. The results of a comparison of the present technique with several common methods showed that the proposed approach provides a powerful means of estimating the video quality perceived by users of low-resolution video streaming services.

Gemäß einem anderen Aspekt bietet die Erfindung eine Qualitätsschätzung einfach auf Basis des Bewegungscharakters, der durch das Ausmaß und die Richtung der Bewegung zwischen zwei Szeneänderungen festgelegt wird. Das Konzept der Qualitätsmetrik beruht dabei auf inhaltsadaptiven Parametern, die eine inhaltsabhängige Videoqualitätsschätzung, nämlich entsprechend diesem speziellen Aspekt, auch ohne separate Bestimmung einer entsprechenden Inhaltsklasse gestatten.In another aspect, the invention provides a quality estimate simply based on the motion character determined by the extent and direction of movement between two scene changes. The concept of the quality metric is based on content-adaptive parameters that allow a content-dependent video quality estimate, namely according to this special aspect, even without a separate determination of a corresponding content class.

Bei der Klassifizierung des Inhalts der Videosequenz ist es zur Erhöhung der Genauigkeit von Vorteil, bei der Bestimmung der jeweiligen Inhaltsklasse auch Farbmerkmale zu bewerten. Weiters ist es aus Effizienzgründen nützlich, wenn die entsprechende Inhaltsklasse am Sender ermittelt wird und Inhaltsklassendaten an einen Empfänger signalisiert werden, wo die Qualitätsschätzung für die jeweilige Inhaltsklasse durchgeführt wird. In diesem Zusammenhang ist es zur Durchführung der Qualitätsschätzung ferner von Nutzen, wenn nur am Decoder auf der Empfängerseite verfügbare Parameter verwendet werden.When classifying the content of the video sequence, it is advantageous to increase the accuracy of assessing color characteristics when determining the respective content class. Furthermore, it is useful for efficiency reasons to determine the appropriate content class at the sender and to signal content class data to a receiver where the quality estimate for the respective content class is performed. In this context, it is also useful for performing the quality estimation if only parameters available on the decoder are used on the receiver side.

Wie bereits oben ausgeführt, besteht ein spezielles Merkmal der Erfindung hinsichtlich der Erzielung einer schnellen und stabilen Qualitätsschätzung in der Verwendung von Bewegungscharakteristika der Videosequenz, und diese Bewegungscharakteristika können auch bei der Bestimmung der jeweiligen Inhaltsklasse genutzt werden. Dabei können den Bewegungscharakteristika Bewegungsvektorstatistiken zugrunde gelegt werden, wo im Prinzip verwendbare Algorithmen an sich bekannt sind.As stated above, a particular feature of the invention is the achievement of a fast and stable quality estimate in the use of motion characteristics of the video sequence, and these motion characteristics can also be used in determining the particular content class. The motion characteristics may be based on motion vector statistics where, in principle, usable algorithms are known per se.

Was die Parameter anlangt, die zur Durchführung der Qualitätsschätzung herangezogen werden, ist es von besonderem Vorteil, wenn die Bitrate und/oder die Framerate der Videodaten zur Durchführung der Qualitätsschätzung verwendet wird.As for the parameters used to perform the quality estimation, it is of particular advantage if the bit rate and / or frame rate of the video data is used to perform the quality estimation.

Was die zur inhaltsabhängigen Qualitätsschätzung verwendeten Bewegungscharakteristika betrifft, so können die Bewegungsgleichmäßigkeit, die Bewegungshorizontalität, das Nullbewegungsvektorverhältnis, die mittlere Bewegungsvektorgröße und/oder das Verhältnis der Bewegungsvektorabweichung herangezogen werden, wobei die Definitionen zu den oben genannten spezifischen Bewegungscharakteristika nachstehend angeführt sind.As for the motion characteristics used for content-dependent quality estimation, the motion uniformity, the motion horizontality, the zero motion vector ratio, the mean motion vector magnitude, and / or the motion vector deviation ratio may be used, and the definitions of the above specific motion characteristics are given below.

Insbesondere wurde für die direkte Qualitätsschätzung auf Basis der inhaltsabhängigen Bewegungscharakteristika gefunden, dass ein nichtlineares Modell von besonderem Nutzen für die Durchführung der Qualitätsschätzung ist. Dabei wird bevorzugt, dass die Qualitätsschätzung auf der Gleichung MOS = f(BR,Z,S,N,U) basiert, worinIn particular, for the direct quality estimation based on the content-dependent motion characteristics, it has been found that a non-linear model is of particular use for performing the quality estimation. It is preferred that the quality estimate is based on the equation MOS = f (BR, Z, S, N, U), where

MOSMOS

BRBR

ZZ

SS

NN

U der mittlere Meinungswert (mean opinion scare), die Bitrate, das Nullbewegungsvektorverhältnis innerhalb einer Aufnahme, das Verhältnis der Bewegungsvektorabweichung innerhalb einer Aufnahme, die mittlere Bewegungsvektorgröße innerhalb einer Aufnahme und die Bewegungsgleichmäßigkeit innerhalb einer Aufnahme • · • · • ··· • · -*5 **U mean opinion scare, bit rate, zero motion vector ratio within a shot, the ratio of motion vector deviation within a shot, mean motion vector size within a shot, and motion uniformity within a shot • • • · • ··· • · - * 5 **

Eine besonders vorteilhafte universelle Metrik für alle Inhalte basierend auf den definierten Bewegungsparametern und auf der Bitrate ist möglich, wenn die Qualitätsschätzung auf der Gleichung ^OS=a+b*BR+c-Z+d,Se+f-N2+g,ln(U)+lrS,N basiert, worinA particularly advantageous universal metric for all contents based on the defined motion parameters and on the bit rate is possible if the quality estimate is based on the equation ^ OS = a + b * BR + c-Z + d, Se + f-N2 + g, ln (U) + lrS, N is based, in which

MOS BR Z S N U a, b, der mittlere Meinungswert, die Bitrate, das Nullbewegungsvektorverhältnis innerhalb einer Aufnahme, das Verhältnis der Bewegungsvektorabweichung innerhalb einer Aufnahme, die mittlere Bewegungsvektorgröße innerhalb einer Aufnahme, die Bewegungsgleichmäßigkeit innerhalb einer Aufnahme, und c, d, e, f, g und h empirisch ermittelte metrische Koeffizienten sind.MOS BR ZSNU a, b, the mean opinion value, the bit rate, the zero motion vector ratio within a shot, the motion vector deviation ratio within a shot, the mean motion vector magnitude within a shot, the motion uniformity within a shot, and c, d, e, f, g and h are empirically determined metric coefficients.

Im Fall einer Inhaltsklassenbestimmung ist es vorteilhaft, wenn die Qualitätsschätzung auf der Gleichung MOS = f (BR, FR, Content _ Class) basiert, worin MOS der mittlere Meinungswert BR die Bitrate und FR die Framerate sind. Vorzugsweise basiert die Qualitätsschätzung auf der Gleichung MÖS=A+B BR+-^+ D FR+-^ , worin A, B, C, D und E empirisch ermittelte metrische Koeffizienten sind.In the case of content class determination, it is advantageous if the quality estimate is based on the equation MOS = f (BR, FR, Content_class), where MOS is the mean value BR of the bitrate and FR the frame rate. Preferably, the quality estimate is based on the equation MES = A + B BR + - ^ + D FR + - ^, where A, B, C, D and E are empirically determined metric coefficients.

Was das vorliegende System zur Schätzung der Qualität einer Videosequenz, insbesondere Video-Streaming-Anwendungen, betrifft, so wird bevorzugt, dass ein solches System einen Inhaltsklassifizierer aufweist, der zur Bewertung des Inhalts der jeweiligen Videosequenz und zur Bestimmung einer zugehörigen Inhaltsklasse aus einer Gruppe von vorherbestimmten Inhaltsklassen eingerichtet ist; weiters ist ein metrisches Modul vorgesehen, das zur Durchführung einer Qualitätsschätzung auf Basis von an sich bekannten Statistiken für die zugehörige Inhaltsklasse eingerichtet ist. Das metrische Modul ist vorzugsweise zur Durchführung der Qualitätsschätzung für die zugehörige Inhaltsklasse auf Basis der Bitrate und der Framerate ein- gerichtet. Um die jeweilige Inhaltsklasse auf effiziente Weise bestimmen zu können, weist der Inhaltsklassifizierer vorzugsweise einen Szenenwechseldetektor auf, so dass die Inhaltsklasse für jede Videoaufnahme oder jedes Videobild ermittelt werden kann.As for the present system for estimating the quality of a video sequence, in particular video streaming applications, it is preferred that such a system include a content classifier for evaluating the content of the respective video sequence and determining an associated content class from a group of is set up for predetermined content classes; Furthermore, a metric module is provided, which is set up to perform a quality estimation on the basis of statistics known per se for the associated content class. The metric module is preferably configured to perform the quality estimation for the associated content class based on the bit rate and the frame rate. In order to be able to determine the respective content class in an efficient manner, the content classifier preferably has a scene change detector so that the content class can be determined for each video recording or video picture.

Vorzugsweise weist der Inhaltsklassifizierer eine Einheit zur Berechnung des Bewegungsvektors und eine damit verbundene Einheit zur Extraktion von Bewegungsvektormerkmalen auf, um der Bestimmung der Inhaltsklasse die Bewegungsvektorcharakteristika zugrunde zu legen. Weiters kann der Inhaltsklassifizierer zur Verbesserung der Genauigkeit eine Einheit zur Extraktion von Farbmerkmalen aufweisen.Preferably, the content classifier comprises a motion vector computation unit and an associated motion vector feature extraction unit for basing the determination of the content class on the motion vector characteristics. Further, the content classifier may have a color feature extraction unit for accuracy improvement.

Der Inhaltsklassifizierer ist vorzugsweise auf der Senderseite angeordnet, wogegen das metrische Modul auf der Empfängerseite angeordnet ist.The content classifier is preferably arranged on the transmitter side, whereas the metric module is arranged on the receiver side.

Ein besonderer Vorteil der vorliegenden Technik besteht darin, dass kein Referenzbild benötigt wird. Weiters können die zur Qualitätsschätzung verwendeten Parameter der jeweiligen Modelle einfach empirisch durch Tests mit Personen erhalten werden.A particular advantage of the present technique is that no reference image is needed. Furthermore, the parameters of the respective models used for the quality estimation can easily be obtained empirically by tests with persons.

Weitere Ziele, Merkmale und Vorteile der Erfindung gehen aus der folgenden Beschreibung in Verbindung mit den angeschlossenen Zeichnungen hervor, die sich auf bevorzugte Ausführungsbeispiele der Erfindung beziehen, auf welche die Erfindung jedoch nicht einzuschränken ist.Other objects, features and advantages of the invention will become apparent from the following description, taken in conjunction with the accompanying drawings, which refer to preferred embodiments of the invention, to which, however, the invention should not be limited.

Kurze Beschreibung der ZeichnungenBrief description of the drawings

In den Zeichnungen zeigen:In the drawings show:

Fig. 1 schematisch eine Konzeption für einen bevorzugten Inhaltsklassifizierer als Teil des erfindungsgemäßen Systems;Fig. 1 shows schematically a conception of a preferred content classifier as part of the system according to the invention;

Fig. 2 in seinen Teilen Fig. 2A und Fig. 2B Modell-ECDFs (ECDF - empirical cumulative distribution function = empirische kumulative Verteilungsfunktion) über der Bewegungsgleichmäßigkeit (Fig. 2A) bzw. dem Nullbewegungsvektorverhältnis (Fig. 2B) für vier Inhaltsklassen #1 bis #4;FIG. 2 shows in its parts FIG. 2A and FIG. 2B model ECDFs (ECDF - empirical cumulative distribution function) versus motion uniformity (FIG. 2A) and zero motion vector ratio (FIG. 2B) for four content classes # 1, respectively to 4;

Fig. 3 schematisch ein System zur Videoqualitätsschätzung gemäß einer bevorzugte Ausführungsform der Erfindung;3 schematically shows a video quality estimation system according to a preferred embodiment of the invention;

Fig. 4 Ergebnisse der Hauptkomponentenanalysen (PCA -principle component analyses) für alle (fünf) Inhaltsklassen in Bezug auf zwei Komponenten 1 und 2;4 shows results of the principal component analyzes (PCA) for all (five) content classes with regard to two components 1 and 2;

Fig. 5 ein Diagramm, das die Beziehung zwischen geschätztenFig. 5 is a diagram showing the relationship between estimated

• · • · · · • ··· · • · · · • · · · ·· ···· MOS-Ergebnissen und subjektiven MOS-Ergebnissen darstellt (MOS -Mean Opinion Score = mittlerer Meinungswert);• MOSS results and subjective MOS results (MOS -Mean Opinion Score);

Fig. 6 ein Diagramm der PCA-Ergebnisse ähnlich Fig. 4, aber nunmehr für die Ausführungsform, bei der die Ergebnisse für alle Inhaltsklassen gelten, was bedeutet, dass nunmehr vor der Schätzung bestimmte Inhaltsklassen bestimmt werden; undFig. 6 is a diagram of the PCA results similar to Fig. 4, but now for the embodiment where the results apply to all content classes, meaning that certain content classes are now determined prior to the estimation; and

Fig. 7 ein Diagramm ähnlich Fig. 5 bezüglich der geschätzten und subjektiven MOS-Ergebnisse für den Fall der Fig. 6. Für Streaming-Dienste ist es wesentlich, ein erforderliches Niveau an Kundenzufriedenheit aufgrund der wahrgenommenen Video-Streamqualität zu schaffen. Es ist daher wichtig, die Kompressionsparameter und Netzeinstellungen so zu wählen, dass sie die Qualität des Endnutzers maximieren. Dank einer signifikanten Videokompressionsverstärkung kann der neueste Videocodierstandard H.264/AVC Video-Streaming für niedrige Bit- und Frameraten unter Beibehaltung der Wahrnehmungsqualität vorsehen. Das eignet sich besonders für Videoanwendungen in 3G-Drahtlos-netzen. Die Grundlage für solche Parameter und Einstellungen liegt in einer entsprechenden Schätzung der Videoqualität, und die vorliegende Technik bezweckt eine Schätzung der Videoqualität, insbesondere von mobilem Video-Streaming, auf Nutzerniveau (Wahrnehmungsqualität der Versorgung) für jegliche Codec-Einstellungen im 3G-Netz od. dgl. und für jegliche Videoinhaltstypen. Insbesondere wird auf eine Erkennung der signifikantesten Inhaltstypen abgezielt, um die Videoqualität von mobilem Video-Streaming auf Nutzerniveau (Wahrnehmungsqualität der Versorgung) zu schätzen und die geeignetsten Codec-Einstellungen für diese häufigen Inhaltstypen zu eruieren.Fig. 7 is a diagram similar to Fig. 5 with respect to the estimated and subjective MOS results for the case of Fig. 6. For streaming services, it is essential to provide a required level of customer satisfaction due to the perceived video stream quality. It is therefore important to choose the compression parameters and network settings to maximize the end user's quality. Thanks to a significant video compression gain, the latest video encoding standard H.264 / AVC can provide video streaming for low bit and frame rates while maintaining perceptual quality. This is ideal for video applications in 3G wireless networks. The basis for such parameters and settings is an appropriate estimate of the video quality, and the present technique aims at estimating video quality, particularly mobile video streaming, at user level (perceptual quality of care) for any codec settings in the 3G network. Like. And for any video content types. In particular, a recognition of the most significant content types is targeted to estimate the video quality of mobile video streaming at user level (perception quality of care) and to determine the most appropriate codec settings for these common content types.

Die visuelle Wahrnehmung von Videoinhalten durch den Menschen wird durch den Charakter der beobachteten Sequenz bestimmt. Daher wird bei der vorliegenden Technik bevorzugt zwischen verschiedenen inhaltlichen Charakteren/Klassen unterschieden, weil diese die subjektive Qualität stark beeinflussen. Der Charakter einer Sequenz kann durch das Ausmaß der Ränder (räumliche Information) in den einzelnen Teilbildern (Frames) und durch die Art und Richtung der Bewegung (zeitliche Information) beschrieben werden. Die Datenrate der zu prüfenden Videosequenz wird von der Anzahl an Frames pro Sekunde geteilt. Höhere Frameraten resultieren in einer geringeren Menge an räumlichen Informationen in einzelnen Bildern und eventuell in so manchen Kompressionsartefakten. Somit kann bei der Heranziehung der Datenrate als objektiver Parameter entweder die räumliche oder die zeitliche Information betrachtet werden. Im Stand der Technik, siehe z.B. Kusama T.M. et al., „On the Development of a Reduced-Reference Perceptual Image Quality Metrie", Proc. of the 2005 Systems Communications (ICW05), (2005), S. 178-184, liegt der Schwerpunkt in erster Linie bei der räumlichen Information. Ein solcher Ansatz kommt in erster Linie von der Qualitätsschätzung von Standbildern. Besonders bei kleinen Auflösungen und nach der Anwendung von Kompression spielt jedoch nicht nur die Bewegungsgeschwindigkeit (die die Kompressionsrate am meisten beeinflusst), sondern auch die Art der Bewegung eine bedeutende Rolle bei der Nutzerwahrnehmung. Daher wird der Fokus bevorzugt auf Bewegungsmerkmale der Videosequenzen gelegt, die die wahrgenommene Qualität bestimmen.The visual perception of video content by humans is determined by the character of the observed sequence. Therefore, in the present technique, it is preferable to distinguish between different content characters / classes because they greatly affect subjective quality. The character of a sequence can be described by the extent of edges (spatial information) in the individual frames and by the type and direction of movement (temporal information). The data rate of the video sequence to be examined is divided by the number of frames per second. Higher frame rates result in less spatial information in individual images and possibly in some compression artifacts. Thus, using the data rate as the objective parameter, either the spatial or temporal information can be considered. In the prior art, see e.g. Kusama T.M. et al., "On the Development of a Reduced-Reference Perceptual Image Quality Metrics", Proc. of the 2005 Systems Communications (ICW05), (2005), p. 178-184, the focus is primarily on spatial information. Such an approach comes primarily from the quality estimation of still images. However, especially at low resolutions and after the application of compression, not only does the speed of movement (which most affects the compression rate) play a significant role in user perception, but also the type of motion. Therefore, the focus is preferably placed on motion characteristics of the video sequences that determine the perceived quality.

In Fig. 1 ist die Ausbildung eines Inhaltsklassifizierers 1 gezeigt, wobei eine Original-Videosequenz bei 2 einem Szenenwechseldetektor 3 zugeführt wird, an den einerseits eine Einheit 4 zur Berechnung des Bewegungsvektors (MV - motion vector) und andererseits eine Einheit 5 zur Extraktion von Farbmerkmalen angeschlossen sind. Eine Einheit 6 zur Extraktion von Bewegungs-vektormerkmalen ist der Einheit 4 zur Berechnung des Bewegungsvektors nachgeschaltet, und ihr Ausgang ist an eine Einheit 7 zur Schätzung der Inhaltsklasse angeschlossen, die auch mit der Einheit 5 zur Extraktion von Farbmerkmalen verbunden ist und an ihrem Ausgang bei 8 die entsprechenden Inhaltsklassen liefert.In Fig. 1, the formation of a content classifier 1 is shown, wherein an original video sequence at 2 a scene change detector 3 is supplied to the one hand, a unit 4 for calculating the motion vector (MV - motion vector) and on the other hand, a unit 5 for the extraction of color features are connected. A motion vector feature extraction unit 6 is connected downstream of the motion vector calculation unit 4, and its output is connected to a content class estimator 7, which is also connected to the color feature extraction unit 5 and at its output 8 provides the appropriate content classes.

Diesbezüglich wird nachstehend eine genauere Erörterung des Aufbaus und der Funktion des Inhaltsklassifizierers 1 angeführt: 1) Szenenwechseldetektor 3: Ein Videostream 2 kann aus einer Mehrzahl von verschiedenen Szenen mit unterschiedlichen Inhalten, räumlichen und zeitlichen Informationen bestehen (d.h. eine typische Videosequenz für Nachrichten besteht aus einigen Aufnahmen des Moderators und verschiedenen Aufnahmen für die Reportage der beschriebenen Ereignisse). Da jede Aufnahme einer Sequenz einen anderen inhaltlichen Charakter haben kann, ist das Splitten eines Videos in seine grundlegenden zeitlichen Einheiten - Aufnahmen - ein erster Schritt im Prozess der Videoinhaltsklassifizierung aufgrund der Veränderung der Inhalte von Aufnahmen innerhalb einer Sequenz. Eine Aufnahme ist eine Serie von mit einer Kamera aufgenommene Videobildern (z.B. Heranzoomen oder Wegzoomen eines Gegenstands, Entlangschwenken an einer Landschaft etc.)· Zwei aufeinander folgende Aufnahmen sind voneinander durch eine Aufnahmegrenze getrennt, die abrupt oder allmählich sein kann. Während eine abrupte Aufnahmegrenze (Schnitt) durch einfaches Anhängen einer Aufnahme an eine andere ohne Modifikation derselben erzeugt wird, ist eine allmählich Aufnahmegrenze das Ergebnis einer vorgenommenen Bearbeitung zur Verbindung zweier Aufnahmen.In this regard, a more detailed discussion of the structure and function of Content Classifier 1 will be given below: 1) Scene Change Detector 3: A video stream 2 may consist of a plurality of different scenes with different content, spatial and temporal information (ie a typical video sequence for messages consists of some Recordings of the moderator and various recordings for the reportage of the described events). Since each shot of a sequence may have a different content character, splitting a video into its basic temporal units - shots - is a first step in the process of video content classification due to changing the contents of shots within a sequence. A picture is a series of video pictures taken with a camera (e.g., zooming in or out of an object, panning along a landscape, etc.) Two consecutive pictures are separated from each other by a recording boundary, which may be abrupt or gradual. While an abrupt recording boundary (section) is produced by simply appending one recording to another without modifying it, a gradual recording boundary is the result of editing to combine two recordings.

Das für den vorliegenden Zweck geeignetste Verfahren mit geringer Komplexität ist eine Szenenwechseldetektion basierend auf einer dynamischen Schwelle, wie aus Dimou A. et al., „Scene Change Detection for H.264 Using Dynamic Threshold Techniques", Proc. of the 5th EURASIP Conference on Speech and Image Processing, Multimedia Communications and Service, (2005), an sich bekannt ist. Das Verfahren kann auf den vorliegenden Zweck abgestimmt werden: die Koeffizienten der Schwellenfunktion werden modifiziert und zehn aufkommende Frames werden zusätzlich berücksichtigt. Der Szenenwechseldetektor 3 arbeitet mit einer Präzision und Trefferrate von über 97%. Eine derartige Genauigkeit ist mehr als zufriedenstellend für den vorliegenden Zweck der Inhaltsklassifizierung. 2) Bewegungsvektoreinheit 4: Der Block aus dem aktuellen Bild, für den ein übereinstimmender Block gesucht wird, ist als Zielblock bekannt. Die entsprechende Differenz der Stellen zwischen dem übereinstimmenden Block und dem Zielblock ist als Bewegungsvektor (MV) bekannt. Wird der übereinstimmende Block an derselben Stelle wie der Zielblock gefunden, dann beträgt die Differenz Null und der Bewegungsvektor ist als Nullvektor bekannt.The most suitable low complexity method for this purpose is scene change detection based on a dynamic threshold as described in Dimou A. et al., "Scene Change Detection for H.264 Using Dynamic Threshold Techniques", Proc. of the 5th EURASIP Conference on Speech and Image Processing, Multimedia Communications and Service, (2005). The method can be adapted to the present purpose: the coefficients of the threshold function are modified and ten emerging frames are additionally taken into account. The scene change detector 3 works with a precision and hit rate of over 97%. Such accuracy is more than satisfactory for the present purpose of content classification. 2) Motion vector unit 4: The block from the current picture for which a matching block is searched is known as a target block. The corresponding difference in locations between the matching block and the target block is known as the motion vector (MV). If the matching block is found at the same location as the target block, then the difference is zero and the motion vector is known as the null vector.

Die Differenz zwischen Zielblock und übereinstimmendem Block steigt (etwa linear) mit der Größe der Blöcke/ kleinere Blöcke beschreiben die tatsächliche Bewegung im Bild besser. Andererseits impliziert eine Steigerung der objektiven Genauigkeit nicht immer eine bessere Leistung. Es wurde beobachtet, dass bei der Wahl von zu kleinen Blöcken die resultierenden Bewegungsvektoren die Bewegung nicht mehr so wiedergeben, wie sie vom Zuschauer wahrgenommen wird. Aufgrund der unvermeidbaren Anwesenheit von Rauschen in Videosequenzen und der Besonderheiten des menschlichen Sehsystems geschieht es, dass zwar eine • · · • · · · · • · · · ··· • · ·The difference between the target block and the matching block increases (approximately linearly) with the size of the blocks / smaller blocks better describe the actual movement in the image. On the other hand, an increase in objective accuracy does not always imply better performance. It has been observed that in choosing too small blocks, the resulting motion vectors no longer reflect the movement as perceived by the viewer. Due to the unavoidable presence of noise in video sequences and the peculiarities of the human visual system, it happens that, although

• · · · · ···· ·· ··• · · · · ···· ·· ··

Bewegung festgestellt, von einem menschlichen Zuschauer aber nicht gesehen wird. Ein derartiges Verhalten ist für die vorliegende Technik nicht wünschenswert. Nach mehreren Versuchen mit Videos unterschiedlichen Charakters wurde gefunden, dass eine Blockgröße von 8x8 Pixel ein guter Kompromiss für QVGA-Auflösungssequenzen wäre. Die 320x240 Pixel werden in 30x40-Blöcke unterteilt, was eine Gesamtzahl von 1200 MVs pro Frame ergibt.Motion detected by a human viewer but not seen. Such behavior is undesirable for the present technique. After several attempts with videos of different character, it was found that a block size of 8x8 pixels would be a good compromise for QVGA resolution sequences. The 320x240 pixels are divided into 30x40 blocks, giving a total of 1200 MVs per frame.

Der zweite Teil des Prozesses, nämlich jener mit eher hohem Zeit- und Mittelaufwand, ist die Blockübereinstimmung. Jeder Block im aktuellen Frame wird mit einem bestimmten Suchbereich im vergangenen Frame verglichen, um einen übereinstimmenden Block zu finden. Dieser Vorgang kann nur an der Leuchtdichtekomponente des Frames durchgeführt werden. Dabei muss ein übereinstimmendes Kriterium verwendet werden, um die Ähnlichkeit zwischen dem Zielblock und den Kandidatenblöcken zu quantifizieren. Aufgrund der Einfachheit und guten Leistungsfähigkeit wird bevorzugt, die Summe aus den absoluten Differenzen (SAD - sum of absolute differences) zu verwenden, die als pixelmäßige Summe der absoluten Differenzen zwischen den zwei verglichenen Blöcken berechnet wird:The second part of the process, namely the one with a rather high expenditure of time and resources, is the block match. Each block in the current frame is compared to a particular search area in the past frame to find a matching block. This process can only be performed on the luminance component of the frame. A matching criterion must be used to quantify the similarity between the target block and the candidate blocks. Because of the simplicity and good performance, it is preferable to use the sum of absolute differences (SAD), which is calculated as a pixelized sum of the absolute differences between the two blocks compared:

SADSAD

(1) worin Bn und Bm die beiden Blöcke mit der Größe NxM sind und i und j Pixelkoordinaten bezeichnen. Wird mehr als ein SAD-Minimum nachgewiesen, kommt die Priorität jenem übereinstimmenden Block zu, dessen Position jener des Zielblocks am ähnlichsten ist, oder, in gleichwertiger Weise, dem Bewegungsvektor mit der geringsten Größe. 3) Extraktion von Sequenzbewegungs- und Farbparametern (Einheiten 6;5):(1) where Bn and Bm are the two blocks of size NxM and i and j denote pixel coordinates. If more than one SAD minimum is detected, priority is given to the matching block whose position is most similar to that of the target block or, equivalently, to the least significant motion vector. 3) Extraction of Sequence Motion and Color Parameters (Units 6; 5):

Nach Erhalt der Bewegungsvektoren muss die Information über die Bewegung (Bewegungsmerkmale) in der Sequenz extrahiert werden, und das erfolgt in der Einheit 6. Der statische oder dynamische Charakter einer Sequenz ist einer der Hauptgründe für die Unterschiede in der wahrgenommenen Qualität. Dabei ist beabsichtigt, nicht nur eine Klassifizierung hinsichtlich „statischer Sequenzen" und „dynamischer Sequenzen" vorzunehmen, sondern diesen Aspekt auch gründlicher zu untersuchen und ····· · * · « • · · · ··· · · ··· • ·· · · · ··» · ·· ·· ·· · · · · - 11 - .......... typische Niveaus der Bewegungsmenge für jede Hauptinhaltsklasse zu bestimmen. Die Gesamtbewegungsmenge oder auch das Fehlen von Bewegung in einem Bild ist auf Basis des Anteils von Blöcken mit Nullvektoren, d.h. Blöcken, die sich von einem Frame zum anderen nicht bewegen, leicht abzuschätzen. Daher ist der durchschnittliche Anteil an statischen Blöcken in einer Sequenz von Frames sehr nützlich, wenn zwischen Inhalten mit typischen unterschiedlichen Gesamtbewegungs-„Niveaus" unterschieden werden soll.Upon receipt of the motion vectors, the information about the motion (motion features) in the sequence must be extracted, and this is done in unit 6. The static or dynamic character of a sequence is one of the main reasons for the differences in perceived quality. It is intended, not just a classification in terms of " static sequences " and "dynamic sequences" but to investigate this aspect more thoroughly and ····· ·······················································································. · - 11 - .......... to determine typical levels of exercise quantity for each main content class. The total amount of movement or even the absence of motion in an image is based on the proportion of blocks with zero vectors, i. Easily estimate blocks that do not move from one frame to another. Therefore, the average proportion of static blocks in a sequence of frames is very useful when choosing between contents with typical different overall motion "levels". should be distinguished.

Die Länge eines jeweiligen Bewegungsvektors zeigt an, wie weit sich der Block von einem Frame zum nächsten bewegt hat, und sein Winkel liefert die Information, in welcher Richtung diese Bewegung erfolgt ist. Daher ist die mittlere Bewegungsvektorgröße in einem Frame oder einer Framesequenz ein Indikator dafür, wie schnell die Gesamtbewegung vor sich geht.The length of each motion vector indicates how far the block has moved from one frame to the next, and its angle provides the information in which direction that motion occurred. Therefore, the mean motion vector size in a frame or frame sequence is an indicator of how fast the overall motion is going.

Andererseits erscheint die genaue Kenntnis der Richtung, in welche die Bewegung erfolgt, für die vorliegende Schätzung ziemlich unnötig bzw. überflüssig. Andererseits ist die Feststellung einer Hauptbewegungsrichtung, die einem großen Anteil von in dieselbe Richtung weisenden Bewegungsvektoren entspricht, eine wertvolle Information. Es kann somit davon ausgegangen werden, dass die Analyse der Verteilung von Größe und Winkel der Bewegungsvektoren wesentliche Informationen über den Charakter der Bewegung in der Sequenz liefern kann. So kam ein Satz von statistischen Berechnungen zu den Bewegungsvektoren zur Anwendung, um deren Signifikanz zu untersuchen und herauszufinden, welche Merkmale zur Identifizierung von perzeptuellen Inhaltstypen herangezogen werden können.On the other hand, the exact knowledge of the direction in which the movement takes place seems rather unnecessary or superfluous for the present estimate. On the other hand, the detection of a main motion direction corresponding to a large proportion of motion vectors pointing in the same direction is valuable information. It can thus be assumed that the analysis of the distribution of size and angle of the motion vectors can provide substantial information about the nature of the motion in the sequence. Thus, a set of statistical calculations on the motion vectors was used to examine their significance and to find out which features could be used to identify perceptual content types.

Schließlich können der Inhaltsklassifizierung (siehe Einheit 7) die folgenden statistischen und auflösungsabhängigen Merkmale von Bewegungsvektoren innerhalb einer Aufnahme (über alle Frames der analysierten Sequenz) zugrunde gelegt werden: . Null-MV-Verhältnis z:Finally, the content classification (see unit 7) may be based on the following statistical and resolution-dependent features of motion vectors within a frame (over all frames of the analyzed sequence):. Zero MV ratio z:

Dieses Verhältnis z ist der Prozentanteil von Nullbewegungsvektoren in einem Bild. Es ist der Anteil des Frames, der sich zwischen zwei aufeinanderfolgenden Frames überhaupt nicht (oder nur kaum) ändert. Es entspricht üblicherweise dem Hintergrund, wenn die Kamera innerhalb einer Aufnahme statisch ist. . Mittlere MV-Größe n:This ratio z is the percentage of zero motion vectors in an image. It is the proportion of the frame that does not (or only slightly) change between two consecutive frames. It usually corresponds to the background when the camera is static within a shot. , Mean MV size n:

Mit n wird der Anteil der mittleren Größe der Nichtnull-Bewegungsvektoren innerhalb eines Frames, normalisiert auf die 1 ····· ·· ·· • · · · ··· · · ... • · · · · . . • · *..* *..* * · · · · - 12 - ......With n, the proportion of the mean size of the non-zero motion vectors within a frame, normalized to the 1 ····· ·················································································································································································· , • * * .. * * .. * * · · · · - 12 - ......

Bildschirmbreite und ausgedrückt in Prozent, bezeichnet. Dieser Parameter n bestimmt die Menge der globalen Bewegung. . Bewegungsgleichmäßigkeit uScreen width and expressed in percent. This parameter n determines the amount of global motion. , Motion uniformity u

Der Parameter u ist der Prozentanteil an Bewegungsvektoren, die im Frame in die vorherrschende Richtung (die häufigste Richtung von Bewegungsvektoren) weisen. Für diesen Zweck kann die Granularität der Richtung auf 10° eingestellt werden. . Bewegungshorizontalität h:The parameter u is the percentage of motion vectors pointing in the frame in the predominant direction (the most common direction of motion vectors). For this purpose, the granularity of the direction can be set to 10 °. , Movement horizontality h:

Die Horizontalität ist als Prozentanteil von Bewegungsvektoren definiert, die in die horizontale Richtung weisen. Horizontale Bewegungsvektoren haben die Intervalle (-10;10)° oder (170;190)°.The horizontality is defined as a percentage of motion vectors pointing in the horizontal direction. Horizontal motion vectors have the intervals (-10; 10) ° or (170; 190) °.

Zur Steigerung der Genauigkeit des Inhaltsklassifizierers 1 können Farbmerkmale in Betracht gezogen werden, siehe Einheit 5. Farbhistogramme liefern zusätzliche Informationen über den räumlichen Sequenzcharakter, weil sich bei unterschiedlichen Inhaltstypen auch die Tiefe und die Helligkeit der Farben voneinander unterscheiden. Fußballsequenzen enthalten beispielsweise eine Menge variierender Grünfarben, während Trickfilmsequenzen eigene satte Farben aufweisen. Diese Eigenschaft hat bedeutende Auswirkungen auf die Kompressions- und Übertragungsartefakte. Daher können die folgenden Parameter verwendet werden:To enhance the accuracy of the content classifier 1, color features may be considered, see unit 5. Color histograms provide additional information about the spatial sequence character, because different content types also differ in depth and brightness of the colors. Football sequences, for example, contain a lot of varying green colors, while animated sequences have their own rich colors. This property has significant effects on the compression and transmission artifacts. Therefore, the following parameters can be used:

. Grünanteil G, Green share G

Der Grünanteil G ist als Prozentanteil von grünen Pixels in einem Frame definiert. Zu diesem Zweck kann der RGB-Farbraum in zwei Bits pro Farbkomponente hinuntergesampelt werden, was in 64 Farben resultiert. Fünf Farben von den 64 Farben decken alle Grünvarianten ab.The green component G is defined as the percentage of green pixels in a frame. For this purpose, the RGB color space can be sampled down in two bits per color component, resulting in 64 colors. Five colors of the 64 colors cover all green variants.

Vorzugsweise werden fünf Inhaltsklassen #1 bis #5 identifiziert, die auf den oben definierten Inhaltsmerkmalen basieren. Weiters werden nunmehr Beispiele für Entscheidungsalgorithmen zur automatischen Inhaltsklassifizierung offenbart und bewertet. Für die Inhaltsklassifikation von mobilem Video-Streaming können die fünf häufigsten Inhaltsklassen mit verschiedenen Auswirkungen auf die Nutzerwahrnehmung wie folgt definiert werden: i i % 1) Inhaltsklasse #1 (z.B. Nachrichten): Die Inhaltsklasse #1 enthält Sequenzen mit einem kleinen sich bewegenden interessierenden Bereich (Gesicht) auf einem statischen Hintergrund.Preferably, five content classes # 1 through # 5 are identified based on the content features defined above. Furthermore, examples of decision algorithms for automatic content classification will now be disclosed and evaluated. For the content classification of mobile video streaming, the five most common content classes with different user perception effects can be defined as follows: ii% 1) Content Class # 1 (eg News): Content Class # 1 contains sequences with a small moving area of interest ( Face) on a static background.

Die Bewegung im interessierenden Bereich (ROI - region of interest) wird hauptsächlich nur durch Bewegungen der Augen, des Mundes und des Gesichts bestimmt. Der ROI deckt etwa 15% der Bildschirmfläche ab. 2) Inhaltsklasse #2 (z.B. Fußball): Die Inhaltsklasse #2 enthält Weitwinkelsequenzen mit gleichmäßiger Kamerabewegung (Schwenken). Die Kamera verfolgt z.B. einen kleinen, sich rasch bewegenden Gegenstand (Ball) am gleichmäßig (z.B. typischerweise grün) gefärbten Hintergrund. 3) Inhaltsklasse #3 (z.B. Trickfilm): In der Inhaltsklasse #3 dominiert die Bewegung von Objekten und der Hintergrund ist üblicherweise statisch. Es gibt fast keine globale Bewegung aufgrund des künstlichen Ursprungs der Filme (keine Kamera). Der Gegenstand der Bewegung hat keinen natürlichen Charakter. 4) Inhaltsklasse #4 (z.B. Panorama): Die Inhaltsklasse #4 enthält globale Bewegungssequenzen, die mit einer Weitwinkel-Schwenkkamera aufgenommen werden. Die Kamerabewegung erfolgt gleichmäßig und in einer einzigen Richtung. 5) Inhaltsklasse #5 (Rest): Die Inhaltsklasse #5 enthält viel globale und lokale Bewegung bzw. rasche Szenewechsel. Szenen, die kürzer als drei Sekunden dauern, fallen auch in die Inhaltsklasse #5. Die Inhaltsklasse #5 umfasst Szenen, die in keine der vorherigen vier Klassen passen.The movement of the region of interest (ROI) is mainly determined only by movements of the eyes, mouth and face. The ROI covers about 15% of the screen area. 2) Content Class # 2 (e.g., Football): Content Class # 2 contains wide-angle sequences with even camera movement (panning). The camera follows e.g. a small, rapidly moving object (ball) on the uniform (e.g., typically green) colored background. 3) Content Class # 3 (e.g., animation): In content class # 3, the movement of objects dominates and the background is usually static. There is almost no global movement due to the artificial origin of the films (no camera). The object of the movement has no natural character. 4) Content Class # 4 (e.g., Panorama): Content Class # 4 contains global motion sequences taken with a wide-angle panning camera. The camera movement is smooth and in a single direction. 5) Content Class # 5 (rest): Content Class # 5 contains a lot of global and local movement or scene change. Scenes shorter than three seconds also fall into content class # 5. Content class # 5 includes scenes that do not fit into any of the previous four classes.

Es wäre möglich, den Inhalt auf Basis von Schwellen zu klassifizieren, das ist jedoch ein beschränktes und nicht so genaues Verfahren zum Bewerten von größeren Datenmengen, und es wird vorzugsweise ein komplexeres und verlässlicheres Verfahren auf Basis von Hypothesetests verwendet. Jede der beschriebenen Inhaltsklassen wird durch eindeutige statistische Bewegungsmerkmale und Farbparameter festgelegt (siehe Fig. 2). Aufgrund der eindeutigen statistischen Merkmale gut definierter Inhaltsklassen ist es nicht notwendig, M-wertige Hypothesetests durchzuführen, und es reicht, eine Nullhypothese (HO) für jede Inhaltsklasse auf Basis dieser statistischen Merkmale separat zu formulieren. Da die Verteilungen von untersuchten Parametern nicht gut in eine der bekannten Verteilungsfunktionen passen, wird die Sequenz als Inhaltsklasse Nr. 5 klassifiziert. Für die vorliegende hypothetische Bewertung wird ein Verfahren bevorzugt, das mit empirischen Verteilungen (Stichproben) arbeiten kann. Das hierzu am besten geeignete Verfahren ist nicht • · · · · · · ·· • · · · ·«· · · ···It would be possible to classify the content based on thresholds, but this is a limited and less accurate method of assessing larger data sets, and preferably a more complex and reliable method based on hypothesis testing is used. Each of the content classes described is determined by unique statistical motion characteristics and color parameters (see FIG. 2). Because of the unique statistical characteristics of well-defined content classes, it is not necessary to perform M-weighted hypothesis tests, and it is sufficient to separately formulate a null hypothesis (HO) for each content class based on these statistical characteristics. Since the distributions of examined parameters do not fit well into any of the known distribution functions, the sequence is classified as Content Class # 5. For the present hypothetical evaluation, a method that can work with empirical distributions (samples) is preferred. The best method for this is not • · · · · · · · · · · · · · · · · · ·

• # · · ' · * i I I -ΥΓ”’’··’·5·· ···· parametrisch und verteilungsfrei: der Kolmogorov-Smirnov-(KS)-Test, vgl. Bosch K., "Statistik-Taschenbuch", Oldenbourg Wissensch. Vlg., (1998). Der KS-Test wird zur Bestimmung verwendet, ob sich zwei zugrunde liegende Wahrscheinlichkeitsverteilungen voneinander unterscheiden, oder ob sich eine zugrunde liegende Wahrscheinlichkeitsverteilung von einer hypothetisierten Verteilung unterscheidet, in beiden Fällen anhand von endlichen Beispielen. Der KS-Test mit zwei Stichproben ist eines der nützlichsten und allgemeinsten nicht parametrischen Verfahren zum Vergleichen zweier Stichproben, da es empfindlich auf Unterschiede sowohl hinsichtlich Lage als auch Gestalt der empirischen kumulativen Verteilungsfunktionen der beiden Stichproben reagiert. Die empirischen kumulativen Verteilungsfunktionen (ECDF - empirical cumulative distribution functions) werden aus der typischen Sequenzgruppe für jede Inhaltsklasse erhalten. In einem praktischen Test wurden Modell-ECDFs aus einer Gruppe von 142 typischen Sequenzen abgeleitet. Jede Inhaltsklasse wird mit fünf Modell-ECDFs (Null-MV-Ver-hältnis, mittlere MV-Größe, Bewegungsgleichmäßigkeit, Bewegungs-horizontalität, Grünanteil) beschrieben, die der jeweiligen H0-Hypothese entsprechen. Weiters ist es notwendig, die maximale Abweichung (Dcc max) innerhalb einer Inhaltsklasse für alle Parameter (für jede Modell-ECDF) zu eruieren. Wenn Fn(x) die Modell-ECDF und F(x) die ECDF der untersuchten Sequenz sind, dann kann die maximale Differenz Dn zwischen Fn(x) und F(x) wie folgt geschrieben werden:Parametric and distribution-free: the Kolmogorov-Smirnov (KS) test, cf. Bosch K., "Statistical Pocketbook", Oldenbourg Wissensch. Vlg., (1998). The KS test is used to determine whether two underlying probability distributions differ, or whether an underlying probability distribution differs from a hypothesized distribution, in both cases using finite examples. The two-sample KS test is one of the most useful and general nonparametric methods of comparing two samples, as it is sensitive to differences in both the location and shape of the empirical cumulative distribution functions of the two samples. The Empirical Cumulative Distribution (ECDF) functions are obtained from the typical sequence group for each content class. In a practical test, model ECDFs were derived from a group of 142 typical sequences. Each content class is described using five model ECDFs (zero MV ratio, mean MV size, motion uniformity, motion horizontal, green) that correspond to each H0 hypothesis. Furthermore, it is necessary to determine the maximum deviation (Dcc max) within a content class for all parameters (for each model ECDF). If Fn (x) is the model ECDF and F (x) is the ECDF of the examined sequence, then the maximum difference Dn between Fn (x) and F (x) can be written as follows:

Dn=maxxl|F„(x)-F(x)|| (2)Dn = maxxl | F "(x) F (x) || (2)

Die Schätzung der Inhaltsklasse basiert auf einem binären Hypothesetest innerhalb der ersten vier Inhaltsklassen. Beim KS-Test werden die ECDFs der untersuchten Sequenz und alle Modell-ECDFs der ersten vier Inhaltsklassen verglichen. Der KS-Test vergleicht fünf ECDFs (mit definiertem MV oder definierten Farbparametern) von durch die HO-Hypothese spezifizierten, definierten Inhaltsklassen mit allen fünf ECDFs des untersuchten Inhalts. Ist die erhaltene Dn für alle Parameter und der (ersten vier) Inhaltsklassen kleiner als Dcc max für jeden Parameter, dann stimmt die untersuchte Sequenz mit dieser Inhaltsklasse überein. • · • · • · • · • ··· • · • ··· t * - 15 -The content class estimate is based on a binary hypothesis test within the first four content classes. The KS test compares the ECDFs of the examined sequence and all model ECDFs of the first four content classes. The KS test compares five ECDFs (with defined MV or defined color parameters) of defined content classes specified by the HO hypothesis with all five ECDFs of the examined content. If the obtained Dn for all parameters and the (first four) content classes is less than Dcc max for each parameter, then the examined sequence matches this content class. • • • • • • • • • • • • • • • ··· t * - 15 -

Passen die ECDFs der untersuchten Sequenz zu keiner der ersten vier Inhaltsklassen, entscheidet sich der Inhalts-klassifizierer 1 (s. Fig. 1) für die restliche Inhaltsklasse #5. Der Klassifizierer 1 schätzt den Inhalt auf der Senderseite aufgrund der ursprünglichen Sequenz.If the ECDFs of the examined sequence do not match any of the first four content classes, the content classifier 1 (see Figure 1) chooses the remaining content class # 5. The classifier 1 estimates the content on the sender side based on the original sequence.

In Fig. 2 sind Beispiele für Modell-ECDFs wie oben beschrieben für die Bewegungsgleichmäßigkeit u (Fig. 2A) bzw. das Null-MV-Verhältnis z (Fig. 2B) in Bezug auf die Inhaltsklassen #1, #2, #3 und #4 gezeigt.In Fig. 2, examples of model ECDFs as described above are the motion uniformity μ (Fig. 2A) and the zero MV ratio z (Fig. 2B) with respect to the content classes # 1, # 2, # 3 and # 4 shown.

Die Leistungsfähigkeit des Inhaltsklassifizierers 1 wurde mit Hilfe zweier Parameter bewertet. (1) Eine falsche Detektion spiegelt das Verhältnis einer unrichtigen Detektion einer Inhaltsklasse für den Fall wider, dass untersuchte Sequenzen zu einer anderen Inhaltsklasse gehören. (2) Eine gute Übereinstimmung spiegelt das Verhältnis einer erfolgreichen Klassifizierung von untersuchten Sequenzen wider, wenn die untersuchten Sequenzen zu einer der ersten vier Klassen gehören. Es sei bemerkt, dass es bei den Testsequenzen fast immer nur Schnitte und keine allmählichen Veränderungen gibt. Der Szenenwechseldetektor 3 war empfindlich bei allmählichen Aufnahmegrenzen (Auflösen, Verblassen, Löschen). Wie aus der folgenden Tabelle I ersichtlich, liegt die erzielte Genauigkeit des Inhaltsklassifizierers 1 bei 98%, was ein zufriedenstellendes Ergebnis für weitere Qualitätsschätzungen ist.The performance of content classifier 1 was evaluated using two parameters. (1) Incorrect detection reflects the ratio of improper detection of a content class in the case that examined sequences belong to a different content class. (2) A good match reflects the ratio of a successful classification of sequences studied when the sequences under study belong to one of the first four classes. It should be noted that there are almost always cuts and no gradual changes in the test sequences. The scene change detector 3 was sensitive to gradual recording limits (dissolve, fade, erase). As can be seen from the following Table I, the achieved accuracy of the Content Classifier 1 is 98%, which is a satisfactory result for further quality estimates.

Tabelle 1:Table 1:

Inhaltsklasse Falsche Detektion [%] Gute Übereinstimmung [%] 1 0 97 2 0 100 3 5, 6 92 4 0 100 Sequenzanzahl 786 98 Für die Tests wurden zwei Gruppen zu je fünf Videosequenzen mit einer Dauer von jeweils 10 Sekunden und SIF-Auflösung gewählt. Alle Sequenzen waren mit einem H-264-Grundlinienprofil lb codiert. Für die subjektive Qualitätsprüfung wurden die in Ϊ • # · · · · · • ··· • · • · · · ··· · • Ο · * fe · • · t « · · · - 1*6 -Content class Incorrect detection [%] Good agreement [%] 1 0 97 2 0 100 3 5, 6 92 4 0 100 Sequence number 786 98 For the tests, two groups of five video sequences each lasting 10 seconds and SIF resolution were selected , All sequences were coded with an H-264 baseline profile Ib. For the subjective quality check, the in Ϊ • # · · · • · · • * * * * * * * * * * 1 1 1 1 1 1 1 1 1 1

Tabelle II gezeigten Kombinationen aus Framerate (FR) und Bitrate (BR) verwendet. Insgesamt gab es 36 Kombinationen.Table II used combinations of frame rate (FR) and bit rate (BR). There were a total of 36 combinations.

Tabelle II FR [fps]/BR [kbit/s] 24 50 56 60 70 80 105 5 Ne, Ca Vi Ne, Ca Ne 7,5 Ne, Ca Ne, Ca Vi Vi Ne, So, Vi 10 Ne, Ca Ne, Ca Vi Vi Ne, So, Vi 15 Ne Ne Vi Ne, So, Vi (Ne-Nachrichten; Ca-Trickfilm; So-Fußball; Pa-Panorama; Vi-Table II FR [fps] / BR [kbps] 24 50 56 60 70 80 105 5 Ne, Ca Vi Ne, Ca Ne 7.5 Ne, Ca Ne, Ca Vi Vi Ne, Sun, Vi 10 Ne, Ca Ne , Ca Vi Vi Ne, Sun, Vi 15 Ne Ne Ne Ne Ne, So, Vi (Ne-News; Ca-animation; So-football; Pa-Panorama;

Videoclip)Video Clip)

Zur Erzielung eines MOS (mittleren Meinungswerts) wurde der Test mit 36 Testpersonen für zwei verschiedene Gruppen von Testsequenzen durchgeführt. Die erste Gruppe wurde für die metrische Ausführung und die zweite für die Bewertung der metrischen Leistung verwendet. Die Trainingstestgruppe wurde mit 26 Testpersonen und die Bewertungstestgruppe mit 10 Testpersonen durchgeführt. Der Trainings- und der Bewertungstest wurden aus verschiedenen Gruppen von fünf Videosequenzen zusammengestellt. Die gewählte Gruppe variierte hinsichtlich Alter (zwischen 20 und 30), Geschlecht, Ausbildung und Erfahrung mit Bildverarbeitung.To obtain a MOS (mean value of opinion), the test was carried out with 36 subjects for two different groups of test sequences. The first group was used for metric performance and the second for metric performance evaluation. The training test group was conducted with 26 subjects and the evaluation test group with 10 subjects. The training and assessment tests were assembled from different groups of five video sequences. The chosen group varied in age (between 20 and 30), gender, education and experience with image processing.

Die Tests erfolgten in Übereinstimmung mit der ITU-T-Empfehlung, vgl. ITU-T-Empfehlung P.910, "Subjective video quality assessment methods for multimedia applications" (Verfahren zur subjektiven Bewertung von Video in Multimedia-.Anwendungen) (1999) unter Verwendung des Kategorieverfahrens mit absoluter Qualitätsbeurteilung (ACR - Absolute Category Rating), da es das Streaming-Szenario in der echten Welt besser imitiert. Die Testpersonen hatten also nicht die ursprüngliche Sequenz als Referenz, was zu einer höheren Varianz führte. Die Testpersonen bewerteten die Videoqualität unter Verwendung einer fünfgradigen MOS-Skala (1 - sehr schlecht, 2 - schlecht, 3 - angemessen, 4 -gut, 5 - sehr gut). Entsprechend den Erfahrungen mit früheren psychovisuellen Versuchen sind die subjektiven Ergebnisse etwas unterschiedlich, wenn sie auf UMTS-Handapparaten oder mit PC- - 17 • · · · • · · · • · · · • · · t · • · · · · « ···· ·· r· • · · · • · · · ·· ··The tests were conducted in accordance with the ITU-T Recommendation, cf. ITU-T Recommendation P.910, "Subjective quality assessment methods for multimedia applications". (Method for the subjective evaluation of video in multimedia applications) (1999) using the Absolute Category Rating (ACR) method, as it better mimics the streaming scenario in the real world. The subjects did not have the original sequence as a reference, resulting in a higher variance. Subjects rated the video quality using a five-degree MOS scale (1-very bad, 2-bad, 3-reasonable, 4-good, 5-very good). According to experience with previous psychovisual experiments, the subjective results are slightly different when used on UMTS handsets or with a PC - 17 • · · · · · · · · · · · · · · · · · · · · · · · · · · · · ··· ·· r · · · · · · · ·····

Monitoren angezeigt werden. Aufgrund dieser Erfahrung schien es zweckmäßig, nur in diesem einen Fall der ITU-T-Empfehlung in diesem Punkt nicht zu folgen, und zur Nachahmung echter Bedingungen des UMTS-Dienstes wurden alle Sequenzen auf einem persönlichen digitalen Assistent (PDA - Personal Digital Assistant) PDA VPA IV UMTS/WLAN angezeigt.Monitors are displayed. Because of this experience, it seemed appropriate not to follow the ITU-T Recommendation on this point only in this one case, and to mimic the real conditions of the UMTS service, all sequences on a personal digital assistant (PDA) PDA VPA IV UMTS / WLAN displayed.

Der Augenabstand vom PDA wurde nicht festgelegt, sondern von den Testpersonen gewählt. Dabei war jedoch festzustellen, dass es für alle Personen angenehm war, den PDA in einem Abstand von 20-30 cm zu verwenden. Am Beginn der Testreihe wurden den Testpersonen drei Trainingssequenzen angeboten. Die Testsequenzen wurden in willkürlicher Reihenfolge präsentiert, mit der zusätzlichen Auflage, dass dieselbe Sequenz (auch wenn unterschiedlich degradiert) nicht in Folge erschien. Es wurden zwei Durchläufe jedes Tests durchgeführt. Zur Vermeidung eines Lerneffekts, erfolgte eine halbstündige Pause zwischen dem ersten und dem zweiten Durchlauf. Bei der weiteren Verarbeitung der Ergebnisse wurden jene Sequenzen verworfen, die mit einer individuellen Standardabweichung von über 1 bewertet wurden. Unter Befolgung dieser Regel wurden 12,4% der Testergebnisse ausgeschlossen. Für die eigentliche Videoqualitätsschätzung kann ein Echtzeit-Videoqualitätsschätzer 10 wie schematisch in Fig. 3 gezeigt verwendet werden. Der Schätzung auf der Empfängerseite 11 muss nur die komprimierte Sequenz ohne (nicht komprimierte) Originalsequenz zugrunde gelegt werden, und die Information über die Inhaltsklasse wird parallel zum Video-Streaming angezeigt, siehe Pfad 12, wobei letzteres bei 13 signalisiert wird, um die Komplexität der Verarbeitung so weit wie möglich zu reduzieren. Eine derartige Messanordnung gestattet die kontinuierliche Videoqualitätsmessung in Echtzeit auf beiden Seiten, nämlich beim Nutzer (Empfängerseite 11) und beim Provider (Senderseite 14) .The eye relief from the PDA was not determined, but chosen by the test subjects. However, it was found that it was pleasant for all people to use the PDA at a distance of 20-30 cm. At the beginning of the test series, the test subjects were offered three training sequences. The test sequences were presented in an arbitrary order, with the additional requirement that the same sequence (even if differentially degraded) did not appear in sequence. Two runs of each test were made. To avoid a learning effect, there was a half-hour break between the first and second passes. Further processing of the results discarded those sequences that were rated with an individual standard deviation greater than 1. Following this rule, 12.4% of the test results were excluded. For the actual video quality estimate, a real-time video quality estimator 10 may be used as shown schematically in FIG. The estimation at the receiver side 11 must be based only on the compressed sequence without (uncompressed) original sequence, and the information about the content class is displayed in parallel with the video streaming, see path 12, the latter being signaled at 13 to reduce the complexity of the Reduce processing as much as possible. Such a measuring arrangement allows the continuous video quality measurement in real time on both sides, namely the user (receiver side 11) and the provider (transmitter side 14).

Mehr im Einzelnen zeigt Fig. 3 ein Videoqualitätsschätzsystem 10 auf Inhaltsbasis mit einem Inhaltsklassifizierer 1 wie in Fig. 1 gezeigt. Ein Encoder 15 führt die Datenkompression durch, um ein komprimiertes Video zu erhalten, welches an den Empfänger 11 gesendet wird, wo es von einem Decoder 16 dekomprimiert wird, und ein metrisches Modul 17 ist für den Empfang von BR- und FR-Daten sowie Inhaltsklassendaten und zur Ausgabe von Informationen über den mittleren Meinungswert (MOS) - 18 : :: ·· · · ··. • · · · · ·· · ·· t f · ·· ·· ···· ·· ·· (Schätzung) vorgesehen.More specifically, Fig. 3 shows a content-based video quality estimation system 10 having a content classifier 1 as shown in Fig. 1. An encoder 15 performs the data compression to obtain a compressed video which is sent to the receiver 11 where it is decompressed by a decoder 16, and a metric module 17 is for receiving BR and FR data as well as content class data and for issuing information on mean opinion value (MOS) - 18: :: ·· · · ··. .

Aufgrund der begrenzten Verarbeitungskapazität der Endgeräte ist es vorteilhaft, niedrigkomplexe objektive Parameter zu identifizieren. Um die Komplexität so gering wie möglich zu halten, sind die am meisten geeigneten Parameter bereits vorgesehen: Framerate (FR) und Bitrate (BR). Diese Parameter FR, BR sind die Codec-Kompressionseinstellungen und werden während der Initiierung der Streaming-Session angezeigt, wobei für die Schätzung kleine rechnerische Komplexität erforderlich ist, da sie sowohl beim Sender/Empfänger 14 als auch beim Empfänger 11 bekannt sind. Weiters kann der Einfluss dieser beiden Parameter auf einen untersuchten Datensatz für jede Inhaltsklasse separat beschrieben werden. Dazu kann eine bekannte multivariate statistische Methode verwendet werden, nämlich die Prinzipielle Komponentenanalyse (Principal Component Analysis - PCA), vgl. Krzanowski W.J., "Principles of Multivariate Analysis",Due to the limited processing capacity of the terminals, it is advantageous to identify low-complexity objective parameters. To minimize the complexity, the most suitable parameters are already provided: frame rate (FR) and bit rate (BR). These parameters FR, BR are the codec compression settings and are displayed during the initiation of the streaming session, requiring small computational complexity for the estimation since they are known by both the transceiver 14 and the receiver 11. Furthermore, the influence of these two parameters on one examined data set for each content class can be described separately. For this purpose, a known multivariate statistical method can be used, namely the Principal Component Analysis (PCA), cf. Krzanowski W.J., "Principles of Multivariate Analysis",

Clarendon Press (1988) . Die PCA wurde durchgeführt, um die weitere Anwendbarkeit der objektiven Parameter BR und FR für die metrische Ausführung zu überprüfen. Die PCA wurde für alle Inhaltsklassen separat durchgeführt. Im Testfall erwiesen sich die ersten beiden Komponenten als ausreichend für eine entsprechende Modellerstellung der Datenvarianz, siehe Tabelle III, die die gesamte Variabilität der ersten zwei Komponenten für alle Inhaltsklassen aufzeigt:Clarendon Press (1988). The PCA was performed to check the further applicability of the objective parameters BR and FR for metric execution. The PCA was performed separately for all content classes. In the test case, the first two components proved to be sufficient for modeling the data variance, see Table III, which shows the overall variability of the first two components for all content classes:

Tabelle IIITable III

Sequenz Variab. von PCI [%] Variab. von PC2 [%] Inhaltsklasse 1 61,7 23,1 Inhaltsklasse 2 51,8 32, 9 Inhaltsklasse 3 54,8 30, 4 Inhaltsklasse 4 53,1 42,7 Inhaltsklasse 5 63,5 28,2Sequence Variab. from PCI [%] Variab. by PC2 [%] Content class 1 61,7 23,1 Content class 2 51,8 32, 9 Content class 3 54,8 30, 4 Content class 4 53,1 42,7 Content class 5 63,5 28,2

Die PCA-Ergebnisse in Bezug auf die ersten beiden Komponenten („Komponente 1" und „Komponente 2") sind in Fig. 4 veranschaulicht, und sie zeigen einen ausreichenden Einfluss von BR und FR auf den Datensatz für alle Inhaltsklassen. - 19 >· ·· • ♦ * ···The PCA results for the first two components ("Component 1" and "Component 2") are illustrated in Figure 4, and they show a sufficient impact of BR and FR on the record for all content classes. - 19 > ··· ♦ * ···

• ♦ « • · «• ♦ «• ·«

Der vorgeschlagenen niedrigkomplexen Metrik können zwei objektive Parameter BR und FR für jede Inhaltsklasse wie folgt zugrunde gelegt werden: (3) MOS=f (BR, FR, Content _ Class)The proposed low complexity metric can be based on two objective parameters BR and FR for each content class as follows: (3) MOS = f (BR, FR, Content_class)

Hier wird ein gemeinsames Modell für alle Inhaltsklassen vorgeschlagen. Daher hat das Modell lineare und hyperbolische Elemente, siehe die nachstehende Gleichung (4), und die Koeffizienten A, B, C, D, E variieren erheblich für die Inhaltsklassen CC (sie können auch Nullwerte haben). Andererseits wurde eine recht gute Korrelation mit einem Versatz- und zwei Nichtnull-Koeffizienten erzielt, siehe folgende Tabelle IV:Here we propose a common model for all content classes. Therefore, the model has linear and hyperbolic elements, see the following equation (4), and the coefficients A, B, C, D, E vary considerably for the content classes CC (they may also have zero values). On the other hand, a fairly good correlation was achieved with one offset and two non-zero coefficients, see Table IV below:

Tabelle IVTable IV

Koeff. CC 1 CC 2 CC 3 CC 4 CC 5 A 4,0317 1,3033 4,3118 1,8094 1,0292 B 0 0,0157 0 0,0337 0,0290 C -44,9873 0 -31,7755 0 0 D 0 0,0828 0,0604 0,0044 0 E -0,5752 0 0 0 -1,6115 (CC = Content class - Inhaltsklasse) MOS=A+B-BR+Coeff. CC 1 CC 2 CC 3 CC 4 CC 5 A 4.0317 1.3033 4.3118 1.8094 1.0292 B 0.0157 0.0337 0.0290 C -44.9873 0 -31.7755 0 0 D 0 0.0828 0.0604 0.0044 0 E -0.5752 0 0 0 -1.6115 (CC = Content class) MOS = A + B-BR +

C BR +DFR+C BR + DFR +

FR (4)FR (4)

Die metrischen Koeffizienten wurden durch eine lineare Regression des vorgeschlagenen Modells mit der Trainingsgruppe (MOS-Werte gemittelt über zwei Durchläufe aus allen 26 subjektiven Bewertungen für die jeweilige Testsequenz) erhalten. Zur Bewertung der Qualität der Passung unserer vorgeschlagenen Metrik können ein (linearer) Pearson-Korrelationsfaktor: V(xTx)(yTy) (5) (6) und der Spearman-Rangkorrelationsfaktor: ,_1 6(x-y)T(x-y) N(N2-1) verwendet werden; siehe auch VQEG: "Final report from the Video Quality Experts Group on the Validation of objective models of video quality assessment", http://www.vaeq.ora/. (2000) .The metric coefficients were obtained by a linear regression of the proposed model with the training group (MOS values averaged over two runs from all 26 subjective scores for the respective test sequence). To evaluate the quality of the fit of our proposed metric, a (linear) Pearson correlation factor: V (xTx) (yTy) (5) (6) and the Spearman rank correlation factor:, _1 6 (xy) T (xy) N (N2 -1) are used; see also VQEG: " Final Report from the Video Quality Experts Group on the Validation of Objective Models of Video Quality Assessment ", http: //www.vaeq.ora/. (2000).

Hierbei entspricht der Vektor x den MOS-Durchschnittswerten der Bewertungsgruppe (gemittelt über zwei Durchläufe aus allen 10 subjektiven Bewertungen für die jeweilige Testsequenz) für alle getesteten codierten Sequenzen. Der Vektor y entspricht der Vorhersage durch die vorgeschlagene Metrik. Die Dimension von x und y bezieht sich auf N. Das Abschneiden der subjektiven Video-qualitätsschätzung im Vergleich zu den subjektiven Qualitätsdaten ist in der nachstehenden Tabelle V zusammengefasst und in Fig. 5 gezeigt. Erhaltene Korrelationen bei der Bewegungsgruppe zeigen ein sehr gutes Abschneiden der vorgeschlagenen Metrik für alle Inhaltsklassen mit Ausnahme der Inhaltsklasse Nr. 3 auf, die zwei- und dreidimensionale Trickfilme enthält. Dieses Merkmal erhöht die Variabilität der MOS-Ergebnisse innerhalb dieser Inhaltsklasse und verringert die metrische Passleistung.Here, the vector x corresponds to the MOS average values of the evaluation group (averaged over two runs from all 10 subjective evaluations for the respective test sequence) for all the coded sequences tested. The vector y corresponds to the prediction by the proposed metric. The dimension of x and y refers to N. The truncation of the subjective video quality estimate as compared to the subjective quality data is summarized in Table V below and shown in FIG. Correlations obtained in the motion group show a very good performance of the proposed metric for all content classes except Content Class # 3, which contains two- and three-dimensional animations. This feature increases the variability of MOS results within this content class and reduces metric pass performance.

Tabelle VTable V

Inhaltstyp CC 1 CC 2 CC 3 CC 4 CC 5 r 0,9277 0,9018 0,7559 0,9030 0,9307 r' 0,9964 0,8863 0,8409 0,9812 0,9695Content type CC 1 CC 2 CC 3 CC 4 CC 5 r 0,9277 0,9018 0,7559 0,9030 0,9307 r '0,9964 0,8863 0,8409 0,9812 0,9695

Die oben beschriebene perzeptuelle Qualitätsmetrik auf Inhaltsbasis passt gut für die häufigsten Inhaltstypen für mobile Video-Streaming-Dienste. Das vorgeschlagene Verfahren gestattet eine kontinuierliche Qualitätsmessung sowohl auf der Sender/Empfänger- als auch auf der Empfängerseite, da es eine niedrigverarbeitende Komplexität hat. Die automatische Inhaltsklassifizierung ermöglicht eine Videoqualitätsschätzung innerhalb einer Inhaltsklasse. Die vorgeschlagene automatische Inhaltsklassifizierung erkennt die häufigsten Inhaltstypen mit hoher Genauigkeit. Außerdem ist die Klassifizierung auf Basis von Hypothesetests eine universelle statistische Methode zur Inhaltsklassifizierung, die fast unbegrenzte Möglichkeiten zurThe content perceptual quality metric described above fits in well with the most common content types for mobile video streaming services. The proposed method allows for continuous quality measurement at both the transceiver and the receiver side because of its low processing complexity. The automatic content classification enables a video quality estimation within a content class. The proposed automatic content classification recognizes the most common content types with high accuracy. In addition, hypothesis-based classification is a universal statistical method of content classification that offers almost unlimited possibilities for

Definition neuer Inhaltsklassen bietet. Es genügt daher, eine inhaltsabhängige niedrigkomplexe Metrik für jeden definierten Inhaltstyp zu konzipieren. Die vorgeschlagenen Metriken auf Basis von grundlegenden Codec-Kompressionseinstellungsparametern weisen einerseits eine minimale Komplexität und andererseits eine hervorragende Vorhersageleistung auf. Der vorliegende Ansatz zur Videogualitätsschätzung ermöglicht ein verlässliches Verfahren, das einfach erweitert werden kann.Definition of new content classes offers. It is therefore sufficient to design a content-dependent, low-complexity metric for each defined content type. The proposed metrics based on basic codec compression set parameters, on the one hand, have minimal complexity and, on the other hand, excellent predictive power. The present approach to video quality estimation provides a reliable method that can easily be extended.

Die obige Beschreibung bezieht sich auf die Bestimmung der Inhaltsklasse vor Durchführung der klassenabhängigen Qualitätsschätzung. Es wurde jedoch gefunden, dass es auch möglich ist, die Videoqualität ohne spezielle Inhaltsklassifizierung zu schätzen, nämlich durch Verwendung einer universellen Metrik, die wiederum referenzfrei ist und auf inhaltsadaptiven Parametern beruht, um eine inhaltsabhängige Videoqualitätsschätzung auf Basis von Bewegungsmerkmalen zu erhalten, wie bereits oben in Zusammenhang mit der Inhaltsklassifizierung ausgeführt; solche Bewegungsmerkmale, die durch die Bewegungsmenge und -richtung zwischen zwei Szenewechseln festgelegt werden, können jedoch auch zur direkten Videoqualitätsschätzung verwendet werden.The above description relates to the determination of the content class before the class-dependent quality estimation is performed. It has been found, however, that it is also possible to estimate video quality without special content classification, namely by using a universal metric, which is again reference-less and based on content-adaptive parameters, to obtain a content-dependent motion quality based video quality estimate, as above executed in connection with the content classification; however, such motion characteristics determined by the amount and direction of movement between two scene changes may also be used for direct video quality estimation.

Wie bereits ausgeführt, hängt die von Nutzern empfundene Videoqualität von den räumlichen und zeitlichen Merkmalen der Videosequenzen ab, und die meisten Techniken des Standes der Technik beruhen auf räumlichen Merkmalen. Hier basiert die vorliegende Qualitätsschätzung in erster Linie auf dem Bewegungscharakter, und die vorgeschlagene referenzfreie universelle Metrik eignet sich für verschiedene Videoinhaltstypen und Datenkompressionseinstellungen und ist ein potentes Mittel zur Schätzung der von einem Nutzer empfundenen Videoqualität für Dienste mit Video-Streaming mit niedriger Auflösung.As already stated, user-perceived video quality depends on the spatial and temporal characteristics of the video sequences, and most prior art techniques rely on spatial features. Here, the present quality estimate is primarily motion-based, and the proposed non-referenced universal metric is suitable for various video content types and data compression settings and is a potent means of estimating user perceived video quality for low-resolution video streaming services.

Wie bereits ausgeführt, wird die visuelle Wahrnehmung von Videoinhalten durch den Menschen vom Charakter der betrachteten Sequenz bestimmt, der im Stand der Technik durch räumliche Informationen beschrieben wird. Solche Ansätze kommen hauptsächlich von der Qualitätsschätzung von Standbildern. Bei der vorliegenden Technik werden bevorzugt Bewegungsmerkmale zur Charakterisierung der Sequenz verwendet. Bei kleiner Auflösung und nach Anwendung von Kompression spielen nicht nur die Bewegungsgeschwindigkeit (die am meisten die Kompressionsrate - 22 • · ·· • · · · • ··· · • · · · · t ι • · ·· · · f · • · ·· · · ·· »« • ··· beeinflusst), sondern auch die Art und die Richtung der Bewegung (zeitliche Information) eine wichtige Rolle für die Nutzerwahrnehmung. Daher beruht die vorliegende Erfindung auf Bewegungsmerkmalen der Videosequenzen zur Bestimmung der wahrgenommenen Qualität.As already stated, the visual perception of video content by humans is determined by the character of the sequence under consideration, which is described by spatial information in the prior art. Such approaches come mainly from the quality estimation of still images. In the present technique, motion characteristics are preferably used to characterize the sequence. At low resolution and after the application of compression, not only the speed of movement (which is the most the rate of compression), but also the speed of compression (22...... ···································································································································································· Therefore, the present invention is based on motion characteristics of the video sequences for determining the perceived quality.

Der Vorteil der zeitlichen Segmentierung von Videosequenzen und BewegungsVektoren besteht in der Videoqualitätsschätzung innerhalb zweier Schnitte. Da die Videosequenzen verschiedene Szenen enthalten können - Aufnahmen mit unterschiedlichen Charakteristika wird jede Sequenz zuerst durch die auf einer dynamischen Schwelle basierenden Szeneänderungsdetektion segmentiert.The advantage of temporal segmentation of video sequences and motion vectors is the video quality estimation within two sections. Since the video sequences may contain different scenes - recordings with different characteristics, each sequence is first segmented by the dynamic threshold based scene change detection.

Hinsichtlich der Extraktion von Sequenzbewegungsparametern ist der statische oder dynamische Charakter einer Sequenz einer der Hauptgründe für die Unterschiede in der wahrgenommenen Qualität. Nach Untersuchung verschiedener Sequenzen können die folgenden Parameter zur Darstellung der Bewegungscharakteristika gewählt werden: . Null-MV-Verhältnis innerhalb einer Aufnahme Z: Z ist definiert als Prozentanteil von Nullbewegungsvektoren innerhalb einer Aufnahme. Es ist der Anteil des Frames, der sich überhaupt nicht (oder nur sehr geringfügig) zwischen zwei aufeinander folgenden Frames ändert, gemittelt über alle Frames einer Aufnahme. Er entspricht üblicherweise dem Hintergrund, wenn die Kamera innerhalb einer Aufnahme statisch ist. . Mittlere MV-Größe innerhalb einer Aufnahme N:With regard to the extraction of sequence motion parameters, the static or dynamic character of a sequence is one of the main reasons for the differences in perceived quality. After examining different sequences, the following parameters can be chosen to show the motion characteristics:. Zero MV ratio within a shot Z: Z is defined as the percentage of zero motion vectors within a shot. It is the proportion of the frame that does not (or only slightly) changes between two consecutive frames, averaged over all frames of a shot. It usually corresponds to the background when the camera is static within a shot. , Mean MV size within a shot N:

Das ist der Anteil an mittlerer Größe der Nichtnull-Bewegungsvektoren innerhalb einer Aufnahme, normalisiert auf die Bildschirmbreite, ausgedrückt in Prozent. Dieser Parameter legt die Menge der globalen Bewegung fest. . Verhältnis der MV-Abweichung innerhalb einer Aufnahme S: S ist als Verhältnis der Standardabweichung des Bewegungsvektors innerhalb einer Aufnahme zur mittleren MV-Größe N innerhalb einer Aufnahme definiert, ausgedrückt in Prozent. . Bewegungsgleichmäßigkeit innerhalb einer Aufnahme U:This is the proportion of mean size of non-zero motion vectors within a shot, normalized to the screen width, expressed as a percentage. This parameter defines the amount of global movement. , Ratio of MV Deviation Within a Shot S: S is defined as the ratio of the standard deviation of the motion vector within a shot to the mean MV size N within a shot, expressed as a percentage. , Motion uniformity within a shot U:

Das ist der Prozentanteil an Bewegungsvektoren, die innerhalb einer Aufnahme in die vorherrschende Richtung (die häufigste Richtung von MVs) weisen. Für diesen Zweck beträgt die Granularität der Richtung 10°.This is the percentage of motion vectors that point in the predominant direction (the most common direction of MVs) within a shot. For this purpose, the granularity of the direction is 10 °.

Weiters ist es von Vorteil, den Einfluss dieser Bewegungs- 23 • · • · • · ♦ ·Furthermore, it is advantageous to determine the influence of this movement 23 • · • · • · ♦ ·

• · • · ···• · • · ···

Parameter sowie der Bitrate (BR) auf den untersuchten Inhalt zu untersuchen. Dazu kann eine bekannte multivariate (mehrdimensionale) statistische Methode, nämlich die Prinzipielle Komponentenanalyse (PCA) verwendet werden. Die PCA wird durchgeführt, um eine weitere Anwendbarkeit der Bewegungscharakteristika und der BR für die metrische Ausführung zu prüfen. In einem Testfall erwiesen sich die ersten beiden Komponenten als ausreichend für eine entsprechende Modellerstellung der Datenvarianz. Die Variabilität der ersten Komponente beträgt 42,1% und der zweiten Komponente 20,6%. Die PCA-Ergebnisse wie in Fig. 6 veranschaulicht zeigen genügend Einfluss der untersuchten Parameter auf den Datensatz für alle Inhaltsklassen.Parameters as well as the bit rate (BR) on the examined content. For this purpose, a known multivariate (multidimensional) statistical method, namely the Principal Component Analysis (PCA) can be used. The PCA is performed to test for further applicability of the motion characteristics and BR for the metric design. In a test case, the first two components proved to be sufficient for a corresponding modeling of the data variance. The variability of the first component is 42.1% and the second component is 20.6%. The PCA results as illustrated in Figure 6 show sufficient influence of the parameters examined on the data set for all content classes.

Im oben genannten Test wurden die Frameraten 5fps; 7,5fps; lOfps; 15fps sowie die Bitraten 24kbit/s, 50kbit/s, 56kbit/s, 60kbit/s,70kbit/s, 80kbit/s, 105kbit/s in Kombination verwendet. Insgesamt gab es 36 Kombinationen, aber manche Kombination wurden ausgeschlossen, wo nämlich die resultierende Videoqualität eindeutig unzulänglich war. Zur Erzielung eines MOS (mittleren Meinungswerts) wurde mit 36 Testpersonen (Trainingsgruppe mit 26 und Bewertungsgruppe mit 10 Personen) für zwei verschiedene Gruppen von Testsequenzen gearbeitet. Der Trainings- und der Bewertungstest wurden aus verschiedenen Gruppen von fünf Videosequenzen zusammengestellt. Die Tests erfolgten in Übereinstimmung mit der ITU-T-Empfehlung unter Verwendung des Kategorieverfahrens mit absoluter Qualitätsbeurteilung (ACR - absolute category rating), da es das Streaming-Szenario der der realen Welt besser imitiert.In the above test, the frame rates were 5fps; 7,5fps; lOfps; 15fps and bit rates 24kbit / s, 50kbit / s, 56kbit / s, 60kbit / s, 70kbit / s, 80kbit / s, 105kbit / s used in combination. There were a total of 36 combinations, but some combinations were excluded where the resulting video quality was clearly inadequate. In order to obtain a MOS (mean opinion value), 36 test persons (training group with 26 and evaluation group with 10 persons) were worked on for two different groups of test sequences. The training and assessment tests were assembled from different groups of five video sequences. The tests were conducted in accordance with the ITU-T Recommendation using the Absolute Quality Rating (ACR) category method, as it better mimics the real-world streaming scenario.

Es wird nun eine universelle Metrik für alle Inhalte auf Basis von definierten Bewegungsparametern und BR vorgeschlagen. (7)We now propose a universal metric for all content based on defined motion parameters and BR. (7)

KiOS = a+b-BR+c-Z+d-Se+f-N2+g-ln(U)+h-S-NKiOS = a + b-BR + c-Z + d-Se + f-N2 + g-ln (U) + h-S-N

Die metrischen Koeffizienten a, b, c, d, e, f, g und h können mit der linearen Regression des vorgeschlagenen Modells bei einer Traininggruppe erhalten werden (MOS-Werte gemittelt über zwei Durchläufe aus allen 26 subjektiven Bewertungen für eine bestimmte Testsequenz). Zur Bewertung der Qualität der Passung der vorgeschlagenen Metrik für die gegebenen Daten wurden ein Pearson- und der Spearman-Rangkorrelationsfaktor, - 24 -The metric coefficients a, b, c, d, e, f, g and h can be obtained with the linear regression of the proposed model in a training group (MOS values averaged over two runs from all 26 subjective scores for a particular test sequence). To evaluate the quality of the fit of the proposed metric for the given data, a Pearson and Spearman rank correlation factor were used.

VQEG: "Final report from the Video Quality Experts Group on the validation of objective models of Video quality assessment", http://www.vqeq.org/. (2000) verwendet. Das metrische Modell wurde mit MOS-Werten der Bewertungsgruppe (gemittelt über zwei Durchläufe aus allen 10 subjektiven Bewertungen für die jeweilige Testsequenz) ausgewertet. Die metrische Vorhersageleistung über die Bewertungsgruppe mit der Pearson-Korrelation beträgt 0,8025 und mit der Spearman-Korrelation 0,9982.VQEG: " Final report from the Video Quality Experts Group on the validation of objective models of video quality assessment ", http://www.vqeq.org/. (2000). The metric model was evaluated with MOS scores of the scoring group (averaged over two runs from all 10 subjective scores for each test sequence). The metric predictive power over the Pearson correlation score is 0.8025, and with the Spearman correlation 0.9982.

Die erhaltenen Korrelationen bei der Bewertungsgruppe - vgl. Fig. 7 - zeigen ein sehr gutes Abschneiden der vorgeschlagenen Metrik für alle Inhalte.The obtained correlations in the evaluation group - cf. Figure 7 - shows a very good performance of the proposed metric for all contents.

Somit gestattet die vorgeschlagene, auf Bewegung basierende Videoqualitätsmetrik für mobile Video-Streaming-Dienste die kontinuierliche und referenzfreie Qualitätsmessung sowohl auf der Sender/Empfänger- als auch auf der Empfängerseite.Thus, the proposed motion-based video quality metric for mobile video streaming services allows continuous and reference-free quality measurement at both the sender / receiver and receiver sides.

Außerdem bietet die vorgeschlagene Metrik aufgrund der inhaltlichen Abhängigkeit der metrischen Parameter ein gutes Leistungsverhalten bei Inhalten mit signifikant unterschiedlichen Inhaltsmerkmalen.In addition, the suggested metric offers good performance for content with significantly different content characteristics due to the content dependency of the metric parameters.

Claims (24)

25 25 ·· ·· ·· ·· ··· • · · · φ · • · · φφφ φ φ • · . · · ·25 25 ·················································································································································· · · · ·· ·· ···· ·· • · • ··· • · 9 φ 9Φ φφ • · · Patentansprüche: 1. Verfahren zum Schätzen der Qualität einer Videosequenz, z.B. bei Video-Streaming-Anwendungen, dadurch gekennzeichnet, dass der Inhalt der Videosequenz evaluiert und eine von einer Gruppe vorherbestimmter Inhaltsklassen der Videosequenz zugeordnet wird, wonach die Qualitätsschätzung für diese Inhaltsklasse vorgenommen wird.···························································································································································································· in video streaming applications, characterized in that the content of the video sequence is evaluated and one of a group of predetermined content classes is assigned to the video sequence, after which the quality estimate for that content class is made. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass zur Bestimmung der jeweiligen Inhaltsklasse Farbmerkmale bewertet werden.2. The method according to claim 1, characterized in that to determine the respective content class color features are evaluated. 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die jeweilige Inhaltsklasse bei einem Sender ermittelt und die Inhaltsklassendaten einem Empfänger signalisiert werden, und dass die Qualitätsschätzung für diese Inhaltsklasse beim Empfänger durchgeführt wird.3. The method of claim 1 or 2, characterized in that the respective content class is determined at a transmitter and the content class data is signaled to a receiver, and that the quality estimate for this content class is performed at the receiver. 4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass zur Durchführung der Qualitätsschätzung nur Parameter verwendet werden, die an einem Decoder beim Empfänger verfügbar sind.4. The method according to claim 3, characterized in that only parameters are used to perform the quality estimation, which are available at a decoder at the receiver. 5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die jeweilige Inhaltsklasse unter Verwendung von Bewegungscharakteristika der Videosequenz bestimmt wird.A method according to claim 1, characterized in that the respective content class is determined using motion characteristics of the video sequence. 6. Verfahren zum Schätzen der Qualität einer Videosequenz, z.B. bei Video-Streaming-Anwendungen, dadurch gekennzeichnet, dass Bewegungscharakteristika aus der Videosequenz extrahiert und zur Qualitätsschätzung verwendet werden.6. Method of estimating the quality of a video sequence, e.g. in video streaming applications, characterized in that motion characteristics are extracted from the video sequence and used for quality estimation. 7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass den zur Bestimmung der Inhaltsklasse verwendeten Bewegungscharakteristika Bewegungsvektorstatistiken zugrunde gelegt werden.Method according to claim 5 or 6, characterized in that the motion characteristics used to determine the content class are based on motion vector statistics. 8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Bitrate und/oder die Framerate der Videodaten zur Durchführung der Qualitätsschätzung verwendet werden.8. The method according to any one of claims 1 to 7, characterized in that the bit rate and / or the frame rate of the video data are used to perform the quality estimation. 9. Verfahren nach einem der Ansprüche 5, 7 oder 8, dadurch gekennzeichnet, dass die Bewegungs-Horizontalität als Bewegungscharakteristikum zur Bestimmung der Inhaltsklasse verwendet wird.9. The method according to any one of claims 5, 7 or 8, characterized in that the movement horizontality is used as a movement characteristic for determining the content class. 10. Verfahren nach einem der Ansprüche 5 bis 9, dadurch gekennzeichnet, dass die Bewegungs-Gleichmäßigkeit als 26 ·· ·· ·· ···· ·· ···· ·· ··10. The method according to any one of claims 5 to 9, characterized in that the movement uniformity as 26 ·· ·· ·· ···· ········ ·· Bewegungscharakteristikum zur Bestimmung der Inhaltsklasse bzw. zur direkten Videoqualitätsschätzung verwendet wird.Movement characteristic is used to determine content class or for direct video quality estimation. 11. Verfahren nach einem der Ansprüche 7 bis 10, dadurch gekennzeichnet, dass ein als Prozentanteil von Nullbewegungsvektoren innerhalb eines Frames bzw. einer Aufnahme definiertes Nullbewegungsvektorverhältnis als Bewegungscharakteristikum zur Bestimmung der Inhaltsklasse bzw. zur direkten Videoqualitätsschätzung verwendet wird.11. The method according to any one of claims 7 to 10, characterized in that a zero motion vector ratio defined as a percentage of zero motion vectors within a frame or a recording is used as a motion characteristic for determining the content class or for direct video quality estimation. 12. Verfahren nach einem der Ansprüche 7 bis 11, dadurch gekennzeichnet, dass eine mittlere Bewegungsvektorgröße, die als Anteil von mittlerer Größe an Nichtnull-Bewegungsvektoren innerhalb eines Frames bzw. einer Aufnahme, normalisiert auf die Bildschirmbreite und ausgedrückt in Prozent, definiert ist, als Bewegungscharakteristikum zur Bestimmung der Inhaltsklasse bzw. zur direkten Videoqualitätsschätzung verwendet wird.12. A method according to any one of claims 7 to 11, characterized in that an average motion vector size, defined as a proportion of mean size of non-zero motion vectors within a frame normalized to the screen width and expressed in percent, is defined as Movement characteristic is used to determine content class or for direct video quality estimation. 13. Verfahren nach einem der Ansprüche 7 bis 12, dadurch gekennzeichnet, dass das Bewegungsvektorabweichungsverhältnis innerhalb einer Aufnahme, welches als Verhältnis der Standardabweichungen des Bewegungsvektors innerhalb einer Aufnahme zur mittleren Bewegungsvektorgröße innerhalb einer Aufnahme definiert und in Prozent ausgedrückt ist, als Bewegungscharakteristikum zur Videoqualitätsschätzung verwendet wird.A method according to any one of claims 7 to 12, characterized in that the motion vector deviation ratio within a frame defined as a ratio of the standard deviations of the motion vector within a shot to the average motion vector magnitude within a shot and expressed as a percentage is used as the motion quality for the video quality estimation , 14. Verfahren nach den Ansprüchen 8 und 10 bis 13, dadurch gekennzeichnet, dass ein nichtlineares Modell zur Videoqualitätsschätzung verwendet wird.14. The method according to claims 8 and 10 to 13, characterized in that a non-linear model for video quality estimation is used. 15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Qualitätsschätzung auf der Gleichung MOS=f(BR,Z,S,N,U) basiert, worin MOS der mittlere Meinungswert, BR die Bitrate, Z das Nullbewegungsvektorverhältnis innerhalb einer s N U Aufnahme, das Verhältnis der Bewegungsvektorabweichung innerhalb einer Aufnahme, die mittlere Bewegungsvektorgröße innerhalb einer Aufnahme und die Bewegungsgleichmäßigkeit innerhalb einer Aufnahme sind.A method according to claim 14, characterized in that the quality estimate is based on the equation MOS = f (BR, Z, S, N, U), where MOS is the mean opinion value, BR is the bit rate, Z is the zero motion vector ratio within a s NU recording , the ratio of the motion vector deviation within a shot, the mean motion vector size within a shot, and the motion uniformity within a shot. 16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass die - 27 ·· ·· • · · • · · • · · • · · ·· ·· ·· • · • ··· • · · • · · ·· ·· ·♦·· ·· • t · « • · ··· • ♦ · · • · · ♦ # ···· ·♦ ·# Qualitätsschätzung auf der Gleichung basiert, worin a, b, c, d, e, f, g und h empirisch ermittelte metrische Koeffizienten sind.16. Method according to claim 15, characterized in that the - 27 ·· ·· · · · · · · · · · · · · · · · · · ··························································· ···································································································································································································································· , f, g and h are empirically determined metric coefficients. 17. Verfahren nach den Ansprüchen 8 und 10 bis 13, dadurch gekennzeichnet, dass die Qualitätsschätzung auf der Gleichung MOS=f (BR, FR, Content _ Class) basiert, worin MOS der mittlere Meinungswert, BR die Bitrate und FR die Framerate sind.A method according to claims 8 and 10 to 13, characterized in that the quality estimate is based on the equation MOS = f (BR, FR, Content_ Class), where MOS is the median opinion, BR is the bit rate and FR is the frame rate. 18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, dass die Qualitätsschätzung auf der Gleichung ΊWOS=A+B-BR+-§t+D-FR+-k basiert, worin A, B, C, D und E empirisch ermittelte metrische Koeffizienten sind.A method according to claim 17, characterized in that the quality estimate is based on the equation ΊWOS = A + B-BR + -§t + D-FR + -k, where A, B, C, D and E are empirically determined metric coefficients. 19. System (10) zur Schätzung der Qualität einer Videosequenz, z.B. bei Video-Streaming-Anwendungen, gekennzeichnet durch einen Inhaltsklassifizierer (1), der zur Bewertung des Inhalts der Videosequenz und zur Bestimmung einer zugehörigen Inhaltsklasse und einer Gruppe von vorherbestimmten Inhaltsklassen eingerichtet ist, und durch ein metrisches Modul (17), das zur Durchführung einer Qualitätsschätzung für die zugehörige Inhaltsklasse eingerichtet ist.19. System (10) for estimating the quality of a video sequence, e.g. in video streaming applications, characterized by a content classifier (1) arranged to evaluate the content of the video sequence and to determine an associated content class and a group of predetermined content classes, and a metric module (17) adapted to perform a Quality Estimate is set up for the associated content class. 20. System nach Anspruch 19, dadurch gekennzeichnet, dass das metrische Modul (17) zur Durchführung der Qualitätsschätzung für die zugehörige Inhaltsklasse auf Basis der Bitrate und der Framerate eingerichtet.A system according to claim 19, characterized in that the metric module (17) sets up the quality estimate for the associated content class based on the bit rate and frame rate. 21. System nach Anspruch 19 oder 20, dadurch gekennzeichnet, dass der Inhaltsklassifizierer (1) einen Szenenwechseldetektor (3) aufweist.21. System according to claim 19 or 20, characterized in that the content classifier (1) comprises a scene change detector (3). 22. System nach einem der Ansprüche 19 bis 21, dadurch gekennzeichnet, dass der Inhaltsklassifizierer (1) eine Einheit (4) zur Berechnung des Bewegungsvektors und eine damit verbundene Einheit (6) zur Extraktion von Bewegungsvektormerkmalen aufweist.A system according to any one of claims 19 to 21, characterized in that the content classifier (1) comprises a motion vector calculation unit (4) and an associated motion vector feature extraction unit (6). 23. System nach einem der Ansprüche 19 bis 22, dadurch gekennzeichnet, dass der Inhaltsklassifizierer (1) eine Einheit 28 ·· ·♦ • t · · • · · · * · · · • · · · ·· ·· • · • ···A system according to any one of claims 19 to 22, characterized in that the content classifier (1) comprises a unit 28 ··· ♦ · t · · · · · · · · · · · · · · · · · · · · · ··· • · · · ·♦ ···· ·· • · • · (5) zur Extraktion von Farbmerkmalen aufweist.• · · · ························································································································ 24. System nach einem der Ansprüche 19 bis 23, dadurch gekennzeichnet, dass der Inhaltsklassifizierer (1) auf der Senderseite (14) angeordnet ist, wogegen das metrische Modul (17) auf der Empfängerseite (11) angeordnet ist.24. System according to one of claims 19 to 23, characterized in that the content classifier (1) on the transmitter side (14) is arranged, whereas the metric module (17) on the receiver side (11) is arranged.
ATA9561/2006A 2006-12-22 2006-12-22 METHOD AND SYSTEM FOR VIDEO QUALITY ASSESSMENT AT509032B1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/AT2006/000539 WO2008077160A1 (en) 2006-12-22 2006-12-22 Method and system for video quality estimation

Publications (3)

Publication Number Publication Date
AT509032A2 true AT509032A2 (en) 2011-05-15
AT509032A5 AT509032A5 (en) 2014-02-15
AT509032B1 AT509032B1 (en) 2014-02-15

Family

ID=37884113

Family Applications (1)

Application Number Title Priority Date Filing Date
ATA9561/2006A AT509032B1 (en) 2006-12-22 2006-12-22 METHOD AND SYSTEM FOR VIDEO QUALITY ASSESSMENT

Country Status (2)

Country Link
AT (1) AT509032B1 (en)
WO (1) WO2008077160A1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010007286A2 (en) * 2008-06-24 2010-01-21 France Telecom Method of referenceless measurement of the perceived quality of a signal and corresponding device
FR2943879A1 (en) * 2009-03-30 2010-10-01 Univ Nantes METHOD AND APPARATUS FOR EVALUATING THE VISUAL QUALITY OF AN IMAGE OR IMAGE SEQUENCE USING OBJECTIVE INDICATORS AND CORRESPONDING COMPUTER PROGRAM.
JP2015530806A (en) * 2012-08-27 2015-10-15 トムソン ライセンシングThomson Licensing Method and apparatus for estimating motion uniformity for video quality assessment
CN105357526B (en) * 2015-11-13 2016-10-26 西安交通大学 The mobile phone football video quality assessment device considering scene classification based on compression domain and method
US10798387B2 (en) 2016-12-12 2020-10-06 Netflix, Inc. Source-consistent techniques for predicting absolute perceptual video quality
CN114630111B (en) * 2022-05-13 2022-10-14 电子科技大学 No-reference compressed video quality evaluation method based on coding information

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6011868A (en) * 1997-04-04 2000-01-04 Hewlett-Packard Company Bitstream quality analyzer
GB0012992D0 (en) * 2000-05-26 2000-07-19 British Telecomm Test method
EP1189451A1 (en) * 2000-09-13 2002-03-20 Kabushiki Kaisha Toshiba Digital video encoder
GB2396069B (en) * 2002-12-03 2005-10-05 British Broadcasting Corp Analysis of digital signals
EP1593269A1 (en) * 2003-02-06 2005-11-09 Koninklijke Philips Electronics N.V. Optimizing scaleable video algorithm asset distribution utilizing quality indicators
US20050105802A1 (en) * 2003-11-14 2005-05-19 Hekstra Andries P. Method and an arrangement for objective assessment of video quality

Also Published As

Publication number Publication date
AT509032A5 (en) 2014-02-15
WO2008077160A1 (en) 2008-07-03
AT509032B1 (en) 2014-02-15

Similar Documents

Publication Publication Date Title
Yang et al. Perceptual quality assessment of screen content images
Vranješ et al. Review of objective video quality metrics and performance comparison using different databases
Chen et al. From QoS to QoE: A tutorial on video quality assessment
Feghali et al. Video quality metric for bit rate control via joint adjustment of quantization and frame rate
Liu et al. Visual quality assessment: recent developments, coding applications and future trends
Ries et al. Content based video quality estimation for H. 264/AVC video streaming
DE60119012T2 (en) Method for detecting crossfading in an MPEG environment
AT509032B1 (en) METHOD AND SYSTEM FOR VIDEO QUALITY ASSESSMENT
Engelke et al. Linking distortion perception and visual saliency in H. 264/AVC coded video containing packet loss
DE112018002112T5 (en) SYSTEMS AND METHODS FOR RENDERING & PRE-CODED LOAD TREASURY-BASED CODER-ADDRESS-RELATED APPLICATIONS
Zanforlin et al. SSIM-based video admission control and resource allocation algorithms
Torres Vega et al. An experimental survey of no-reference video quality assessment methods
Ries et al. Motion based reference-free quality estimation for H. 264/AVC video streaming
AT508595B1 (en) PREPARATION OF GAME VIDEOS RATES FOR TRANSMISSION OVER MOBILE NETS
DE69918533T2 (en) METHOD FOR DETECTING TRANSITIONS IN DETACHED DIGITAL VIDEOS RATES
Göring et al. Modular framework and instances of pixel-based video quality models for UHD-1/4K
Nemethova et al. PSNR-based estimation of subjective time-variant video quality for mobiles
Xing et al. DVL2021: An ultra high definition video dataset for perceptual quality study
Yue et al. Subjective quality assessment of animation images
Li et al. Perceptual quality assessment of face video compression: A benchmark and an effective method
Ries Video quality estimation for mobile video streaming
Vega et al. A regression method for real-time video quality evaluation
Fang et al. Review of existing objective QoE methodologies
Menkovski Computational Inference and Control of Quality in Multimedia Services
Göring Data-driven visual quality estimation using machine learning