ES2310157A1

ES2310157A1 - Compression of colour images, based on non-linear perceptual representations and machine learning

Info

Publication number: ES2310157A1
Application number: ES200801943A
Authority: ES
Inventors: Jesus Malo Lopez; Juan Gutierrez Aguado; Gustavo Camps Valls; Maria Josefa Luque Cobija
Original assignee: Universitat de Valencia
Current assignee: Universitat de Valencia
Priority date: 2008-06-20
Filing date: 2008-06-20
Publication date: 2008-12-16
Anticipated expiration: 2028-06-20
Also published as: WO2009153375A1; ES2310157B1

Abstract

The invention relates to the compression of colour images, based on non-linear perceptual representations and machine learning. More specifically, the invention relates to a method for the compression of colour images, comprising the following steps: (1) expressing the coefficients of a local space/frequency representation of the opposing chromatic and achromatic channels in units of perceptual contrast (2) applying a non-linear transform with divisive normalisation to each channel, such that they include relationships between the coefficients of the achromatic and chromatic contrast channels and (3) using statistical learning algorithms to select the relevant data from the non-linearly normalised channels. Psychophysical and numerical experiments have been conducted in order to estimate and validate the parameters of the divisive normalisation and contrast transforms. In addition, the above method has been compared experimentally with a JPEG implementation. In both cases, 16x16 DCT blocks were used and, in each case, comparable values were used for the frequency-dependent and chromatic transform parameters. Under these conditions, the experimental results provide an average compression gain of 50% in relation to JPEG for different distortion measurements (RMSE, SSIM and S-CIELab) in the realistic commercial range of [1, 2.2] bits/pix. The invention also relates to the apparatus and code used to implement said method.

Description

Compresión de imágenes en color basada en representaciones perceptuales no lineales y en aprendizaje de máquina.Compression of color images based on nonlinear perceptual and learning representations of machine.

Field of the Invention

La presente invención comprende los métodos, aparato y programa para comprimir imágenes en color, en particular a imágenes y a secuencias de imágenes en color.The present invention comprises the methods, apparatus and program for compressing color images, in particular to images and sequences of color images.

Context of the invention

Actualmente el volumen de datos de imágenes se incrementa exponencialmente en un amplio rango de aplicaciones tales como remote sensing, fotografía digital y cámaras de vídeo, imagen médica, bibliotecas digitales y documentos, películas y vídeo conferencia. Ello plantea diferentes problemas y necesidades para transmitir, almacenar y recuperar imágenes. En consecuencia, la compresión de imágenes digitales es una tecnología crucial. Es importante resaltar que comprimir una imagen es significantemente diferente de comprimir otros tipos de datos, debido a sus propiedades estadísticas particulares, y por lo tanto la aplicación directa de otros métodos de compresión está lejos de producir resultados óptimos. Por lo tanto, el conocimiento estadístico del problema resulta de importancia extrema para desarrollar esquemas de codificación eficientes.Currently the volume of image data is increases exponentially in a wide range of applications such as remote sensing, digital photography and video cameras, medical image, digital libraries and documents, movies and video conference This raises different problems and needs to transmit, store and retrieve images. In consecuense, Digital image compression is a crucial technology. Is important to highlight that compressing an image is significantly different from compressing other types of data, due to their particular statistical properties, and therefore the application direct from other compression methods is far from producing optimal results Therefore, statistical knowledge of problem is of extreme importance to develop schemes Efficient coding.

El estándar ISO/IEC 10918-1, conocido como JPEG [1], se ha convertido en el método de compresión más popular. Diferentes métodos se han propuesto para incrementar la compresión manteniendo el mismo nivel de calidad, bien basados en técnicas de aprendizaje máquina tales como redes neuronales o bien mediante la inclusión de conocimiento perceptual en el proceso de codificación.The ISO / IEC 10918-1 standard, known as JPEG [1], it has become the compression method more popular. Different methods have been proposed to increase compression while maintaining the same level of quality, well based in machine learning techniques such as neural networks or well by including perceptual knowledge in the process of coding.

La patente US Patent No. 5,005,206 [2] describe el uso de redes neuronales para codificación de imágenes. En el esquema que proponen, la imagen es definida mediante los pesos asociados a una red neuronal entrenada en un dominio lineal particular.US Patent No. 5,005,206 [2] describes the use of neural networks for image coding. At proposed scheme, the image is defined by the weights associated to a neural network trained in a linear domain particular.

La patente US Patent No. 6,798,914 [3] también describe el uso de redes neuronales para compresión de imágenes. El método combina inteligencia artificial y redes neuronales para convertir los datos digitales en datos simbólicos que son comprimidos utilizando una codificación run-length. En todos estos esquemas, están presentes los problemas propios de utilizar redes neuronales, a saber: inestabilidad en el entrenamiento, selección del algoritmo apropiado para el entrenamiento, estructura de la red, y la elección de los parámetros libres.US Patent No. 6,798,914 [3] also describes the use of neural networks for image compression. The method combines artificial intelligence and neural networks to convert digital data into symbolic data that is compressed using a run-length encoding . In all these schemes, the problems of using neural networks are present, namely: instability in training, selection of the appropriate algorithm for training, network structure, and the choice of free parameters.

WO 03/050959 [4] describe el uso de otro algoritmo de aprendizaje máquina, la máquina de vectores soporte (o SVM), trabajando sobre una transformación lineal -la Transformada Discreta de Coseno (DCT)- para compresión de datos con pérdida. El método es utilizado en particular para comprimir imágenes en niveles de gris. La introducción de SVM ofrece varias ventajas y control sobre el proceso de aprendizaje: interpretación de los parámetros libre, raleza en el espacio de aplicación, y no necesidad de heurísticas en el entrenamiento ya que el problema de optimización resultante es convexo y la solución única. Sin embargo, no se conoce la aplicación del método a imágenes en color o cómo el esquema podría tratarlas. Además, la aplicación directa de la SVM estándar en el dominio de trabajo especificado (el dominio lineal DCT) no es una buena elección. En [5] este último problema es resuelto introduciendo una SVM adaptativa que tiene en cuenta la diferente relevancia perceptual de los coeficientes en el dominio lineal. Ciertamente la inclusión de conocimiento perceptual (o estadístico) a priori es de capital importancia para la codificación de imágenes. En este sentido, la patente US Patent No. 5,426,512 [6] describe la tecnología DCTune para optimizar la compresión de imágenes estáticas. DCTune calcula las mejores matrices de cuantificación JPEG para lograr la máxima compresión posible para un error perceptual establecido, dadas una imagen particular y un conjunto de condiciones de visualización. Este método se basa en un modelo no lineal puntual de enmascaramiento (auto-enmascaramiento), pero no considera relaciones entre coeficientes (enmascaramiento cruzado) ni tampoco propone el uso de algún método de aprendizaje máquina.WO 03/050959 [4] describes the use of another machine learning algorithm, the support vector machine (or SVM), working on a linear transformation - the Discrete Cosine Transform (DCT) - for lossy data compression. The method is used in particular to compress images in gray levels. The introduction of SVM offers several advantages and control over the learning process: interpretation of the free parameters, weediness in the application space, and no need for training heuristics since the resulting optimization problem is convex and the only solution. However, the application of the method to color images or how the scheme could treat them is unknown. In addition, the direct application of the standard SVM in the specified work domain (the DCT linear domain) is not a good choice. In [5] this last problem is solved by introducing an adaptive SVM that takes into account the different perceptual relevance of the coefficients in the linear domain. Certainly the inclusion of perceptual (or statistical) a priori knowledge is of paramount importance for image coding. In this regard, US Patent No. 5,426,512 [6] describes DCTune technology to optimize static image compression. DCTune calculates the best JPEG quantization matrices to achieve maximum compression possible for an established perceptual error, given a particular image and a set of display conditions. This method is based on a pointless non-linear masking model (self-masking), but does not consider relationships between coefficients (cross-masking) nor does it propose the use of any machine learning method.

Estos métodos producen resultados buenos y competitivos comparados con los métodos estándar JPEG. Sin embargo, tienen al menos las siguientes limitaciones: (i) hasta la fecha ninguno de los métodos integra conocimiento perceptual y métodos de aprendizaje máquina para compresión de imágenes en color; (ii) los métodos existentes no proponen los esquemas de transformación para trabajar con contraste en imágenes en color, o cómo pueden ser calculados e introducidos en los esquemas ya conocidos; (iii) los métodos existentes no introducen transformaciones no-lineales perceptuales con interacciones entre coeficientes antes de aplicar eventualmente un método de aprendizaje máquina; y (iv) el aprendizaje máquina no se formula para ser independiente del dominio de aplicación.These methods produce good results and competitive compared to standard JPEG methods. But nevertheless, They have at least the following limitations: (i) to date none of the methods integrates perceptual knowledge and methods of machine learning for color image compression; (ii) the Existing methods do not propose transformation schemes for work with contrast in color images, or how they can be calculated and introduced in the already known schemes; (iii) the existing methods do not introduce transformations non-linear perceptual with interactions between coefficients before eventually applying a method of machine learning; and (iv) machine learning is not formulated to be independent of the application domain.

La presente invención pretende resolver estos inconvenientes.The present invention aims to solve these inconvenience

El método y aparato de esta invención extiende las propuestas realizadas en [6, 7, 8] aplicando una transformada no-lineal perceptual que incluye interacción entre coeficientes tras una transformada espacio-frecuencial. Además, respecto a JPEG2000 [9], permite una matriz de interacción entre coeficientes general (no causal) incluyendo relaciones entre canales cromáticos. Además, el método propuesto resuelve los problemas encontrados en [8, 10] ya que en éstos no se aplica una etapa de obtención del contraste cromático con el consiguiente error en la transformada no lineal (ya sea puntual o basada en la normalización divisiva). El método también difiere de los algoritmos basados en redes neuronales propuesto hasta el momento en las patentes US Patent No. 5005206 [2], y No. 6798914 [3], ya que se puede aplicar un algoritmo de aprendizaje de propósito general, que debe ser necesariamente adaptado a la relevancia estadística o perceptual de los coeficientes en el dominio de trabajo donde se realiza la codificación. En [5] el método de regresión con vectores soporte (SVR) se aplicó en el dominio DCT, como en [4, 12]. Sin embargo, dadas las características del dominio, el algoritmo fue adaptado para incorporar la relevancia perceptual de los coeficientes en este dominio, lo cual no había sido considerado en [4, 12]. La SVR ha sido aplicada también en un dominio perceptual no lineal para codificación de imágenes acromáticas en [13], y debido a las características del dominio usado (perceptualmente Euclídeo tal y como se analiza en [14]) se puede aplicar correctamente una SVR estática. Sin embargo, cuando se trabaja en otros dominios es necesario utilizar una SVR adaptativa como se ilustra en [5] y se analiza con más detalle en [14].The method and apparatus of this invention extends the proposals made in [6, 7, 8] applying a transformed non-linear perceptual that includes interaction between coefficients after a transform space-frequency Also, regarding JPEG2000 [9], allows a matrix of interaction between general coefficients (not causal) including relationships between chromatic channels. Further, The proposed method solves the problems found in [8, 10] since in these a stage of obtaining the contrast is not applied chromatic with the consequent error in the nonlinear transform (already be punctual or based on divisive normalization). The method it also differs from neural network based algorithms proposed so far in US Patent No. 5005206 [2], and No. 6798914 [3], since an algorithm of general purpose learning, which must necessarily be adapted to the statistical or perceptual relevance of the coefficients in the work domain where the coding. In [5] the regression method with support vectors (SVR) was applied in the DCT domain, as in [4, 12]. But nevertheless, given the characteristics of the domain, the algorithm was adapted to incorporate the perceptual relevance of the coefficients in this domain, which had not been considered in [4, 12]. SVR has also been applied in a nonlinear perceptual domain to coding of achromatic images in [13], and due to the characteristics of the domain used (perceptually Euclidean as and as discussed in [14]) an SVR can be applied correctly static However, when working in other domains it is it is necessary to use an adaptive SVR as illustrated in [5] and it analyze in more detail in [14].

Summary of the Invention

Es un objeto de la presente invención proporcionar métodos, aparato y programas que definen un nuevo marco de propósito general para la codificación de imágenes en color.It is an object of the present invention provide methods, apparatus and programs that define a new general purpose framework for image coding in color.

Otro objeto de la presente invención es proporcionar, métodos, aparato y programas para mejorar la performance en compresión de imágenes en color para un esfuerzo computacional comparable con los métodos existentes.Another object of the present invention is provide, methods, apparatus and programs to improve the compression performance of color images for an effort Computing comparable with existing methods.

En un primer aspecto, estos y otros objetos se consiguen con un método de compresión de imágenes en color que comprende los siguientes pasos:In a first aspect, these and other objects are they get with a color image compression method that It comprises the following steps:

- Recibir de los datos de la imagen en color expresados en canales RGB.- Receive color image data expressed in RGB channels.

- Transformar de los canales RGB a un espacio de color oponente obteniendo un canal A, un canal RG y un canal YB.- Transform from RGB channels to a space of opponent color obtaining an A channel, an RG channel and a channel YB

- Transformar de los canales A, RG y YB a un dominio espacio frecuencia como una suma de funciones base multiplicadas por el conjunto correspondiente de coeficientes y codificar de los residuos de baja frecuencia.- Transform channels A, RG and YB to a domain space frequency as a sum of base functions multiplied by the corresponding set of coefficients and encode low frequency waste.

- Expresar los coeficientes de la mencionada representación espacio-frecuencial local de los canales acromático y cromáticos oponentes en unidades de contraste con significado perceptual.- Express the coefficients of the aforementioned local space-frequency representation of achromatic channels and chromatic opponents in contrast units with perceptual meaning.

- Aplicar una transformada no-lineal paramétrica a los canales acromático y cromáticos expresados en contraste.- Apply a transform non-linear parametric to achromatic channels and Chromatics expressed in contrast.

- Estimar los coeficientes de la mencionada transformada perceptual no-lineal usando un procedimiento de aprendizaje.- Estimate the coefficients of the aforementioned nonlinear perceptual transform using a learning procedure

- Realizar la cuantificación de la descripción obtenida y codificar los resultados.- Perform the quantification of the description obtained and codify the results.

Preferentemente el método usa una de las siguientes transformadas espacio-frecuenciales locales: la DCT o cualquier forma de transformada discreta basada en funciones de Gabor o en wavelets.Preferably the method uses one of the following space-frequency transforms Local: DCT or any form of discrete transform based in Gabor functions or in wavelets.

Preferentemente el método calcula el contraste del canal acromático como una función del número de parámetros relevantes y el contraste de los canales cromáticos como una función del número de parámetros relevantes incluyendo parámetros obtenidos mediante experimentos sicofísicos y numéricos.Preferably the method calculates the contrast of the achromatic channel as a function of the number of parameters relevant and the contrast of the chromatic channels as a function of the number of relevant parameters including parameters obtained through psychophysical and numerical experiments.

Preferentemente el método incluye la obtención de parámetros respecto a las proporciones de luminancia media de las funciones cromáticas mediante experimentos psicofísicos y la obtención de parámetros respecto a la modulación máxima del color mediante el uso de experimentos numéricos.Preferably the method includes obtaining of parameters with respect to the proportions of average luminance of the chromatic functions through psychophysical experiments and the obtaining parameters regarding maximum color modulation through the use of numerical experiments.

Preferentemente la transformada no lineal aplicada a los canales cromáticos es la normalización divisiva general, y las transformadas no lineales perceptuales aplicadas a los canales cromáticos son transformadas de normalización divisiva con sensibilidades frecuenciales adaptadas a estos canales.Preferably the non-linear transform applied to chromatic channels is divisive normalization general, and perceptual nonlinear transforms applied to the color channels are transformed from divisive normalization with frequency sensitivities adapted to these channels.

Preferentemente el método usa un procedimiento de aprendizaje para identificar la secuencia de funciones base y sus pesos correspondientes, con un criterio apropiado para optimizar la compacidad de la secuencia de datos codificados y/o la calidad de la imagen codificada.Preferably the method uses a procedure of learning to identify the sequence of base functions and their corresponding weights, with an appropriate criterion for optimize the compactness of the encoded data stream and / or the encoded image quality

Preferentemente el método usa como procedimiento de aprendizaje la SVR o un procedimiento implementado con alguno de los siguientes procedimientos de aprendizaje máquina: redes neuronales, técnicas basadas en splines, métodos basados en kernel, redes Bayesianes, procesos Gaussianos o lógica borrosa.Preferably the method uses as a procedure of learning the SVR or a procedure implemented with any of The following machine learning procedures: networks neural, spline based techniques, kernel based methods, Bayesian networks, Gaussian processes or fuzzy logic.

Preferentemente el método codifica el flujo de datos usando codificación entrópica.Preferably the method encodes the flow of data using entropic coding.

Opcionalmente el método incluye pasos adicionales para procesar la información de fase de forma separada de la información de amplitud de los coeficientes.Optionally the method includes steps additional to process phase information separately of the amplitude coefficient information.

En un segundo aspecto, los objetos de esta invención son alcanzados mediante un programa almacenado en un medio que cuando es ejecutado en un dispositivo (computador, PDA, teléfono móvil, ...) lleva a cabo el método descrito anteriormente.In a second aspect, the objects of this invention are achieved by a program stored in a means that when it is executed on a device (computer, PDA, mobile phone, ...) performs the described method previously.

En un tercer aspecto, los objetos de esta invención son alcanzados mediante un aparato que produce datos comprimidos de imágenes en color comprendiendo el mecanismo para la recepción de los datos de la imagen en color y el mecanismo para realizar el procesado para llevar a cabo los siguientes pasos:In a third aspect, the objects of this invention are achieved by an apparatus that produces data color image tablets comprising the mechanism for reception of color image data and the mechanism for perform the processing to perform the following steps:

Otras características y ventajas de la invención presente quedarán claros a partir de la siguiente descripción detallada de las concreciones ilustrativas de sus objetos en relación con las figuras proporcionadas.Other features and advantages of the invention present will be clear from the following description detailed of the illustrative concretions of its objects in relationship with the figures provided.

Description of the figures

Figura 1 muestra un diagrama de bloques de un método acorde con la presente invención. Véase página 10 y siguientes donde se describe cada bloque.Figure 1 shows a block diagram of a method according to the present invention. See page 10 and following where each block is described.

Figura 2 muestra un ejemplo de una red sinusoidal puramente cromática en la dirección cromática amarillo-azul (YB). En este caso, se muestra una función base DCT de tamaño 16x16 con frecuencia fx = 8 y fy = 0 ciclos por grado. El color medio es T_{0} = [80 80 80]^{T} en RGB NTSC o T_{0} = [80 0 0]^{T} en YUV lineal, el contraste cromático es C^{(2)}_{chrom} = 0.85 asumiendo una modulación máxima \DeltaT_{2max} = 45 en el canal U. La fila superior muestra los dos redes en contra fase de cromaticidad extrema e_{1}^{(2)} (amarillo a la izquierda), y e_{2}^{(2)} (azul en el centro), usados para generar la red cromática puro (a la derecha). Los valores medios de luminancia (ordenadas) de las redes amarilla y azul han sido escogidos para obtener luminosidad constante en la red final (\eta_{Y \ B} B = 0.14, ver sección 2.2), el cual aísla la respuesta en el canal Amarillo-Azul (\DeltaT_{2} \neq 0 y \DeltaT_{3} = 0). La fila central muestra la luminancia de las redes mostrados en la primera fila. La gráfica inferior muestra las coordinadas cromáticas CIE xy de los colores extremos (luminancia unidad) e_{j}^{(2)} con j = 1, 2 (estrellas) y los colores actuales en la red (círculos). Incrementar el contraste cromático significa incrementar simultáneamente las amplitudes de las luminancias \DeltaY_{j}^{(2)}, por tanto incrementando el rango de cromaticidad cubierto por los círculos en la gráfica más inferior. En el caso extremo (contraste unidad), el rango cromático podría ser determinado exactamente por los colores extremos e_{j}^{(2)}. Reducir el contraste cromático significa reducir las amplitudes de las luminancias \DeltaY_{j}^{(2)}, y por tanto se reduce el rango cromático. En el límite de contraste cero, el único color de la malla sería el color medio T_{0} (el círculo central en el diagrama más inferior).Figure 2 shows an example of a network purely chromatic sinusoidal in the chromatic direction yellow-blue (YB). In this case, a base function DCT size 16x16 with frequency fx = 8 and fy = 0 cycles per grade The average color is T_ {0} = [80 80 80] T in RGB NTSC or T 0 = [80 0 0] T in YUV linear, the color contrast is C (2) chrom = 0.85 assuming a maximum modulation \ DeltaT_ {2max} = 45 in the channel U. The top row shows the two networks against phase of extreme chromaticity e_ {1} (2)} (yellow on the left), and e_ {2} ^ {(2)} (blue in the center), used to generate the network pure color (on the right). The average luminance values (ordered) of the yellow and blue networks have been chosen to obtain constant brightness in the final network (\ eta_ {Y \ B} B = 0.14, see section 2.2), which isolates the response in the channel Yellow-Blue (\ DeltaT_ {2} \ neq 0 and ΔT 3 = 0). The center row shows the luminance of the networks shown in the first row. The graph below shows the CIE xy color coordinates of extreme colors (luminance unit) e_ {j} ^ {(2)} with j = 1, 2 (stars) and colors current on the network (circles). Increase the color contrast means to simultaneously increase the amplitudes of the luminances \ DeltaY_ {j} ^ {(2)}, therefore increasing the chromaticity range covered by the circles in the graph plus lower. In the extreme case (unit contrast), the color range could be determined exactly by extreme colors e_ {j} ^ (2)}. Reducing color contrast means reducing the amplitudes of the luminance ΔY_ {j} {2}}, and by both the color range is reduced. In the zero contrast limit, the only color of the mesh would be the average color T_ {0} (the circle central in the lower diagram).

La figura 3 muestra imágenes de muestra que limitan la modulación máxima en las direcciones U y V (arriba) y los colores correspondientes (abajo).Figure 3 shows sample images that limit maximum modulation in directions U and V (above) and the corresponding colors (below).

La figura 4 muestra los parámetros si(f) para cada canal en la ecuación 35.Figure 4 shows the parameters if (f) for each channel in equation 35.

La figura 5 muestra el parámetro 0(f) de la ecuación 35.Figure 5 shows parameter 0 (f) of equation 35.

La figura 6 muestra tres ejemplos de vecindades de interacción entre coeficientes (filas de la matriz h(f, f') reordenadas en 2-D) en la ecuación 35. Cada superficie corresponde con las vecindades asociadas a diferentes frecuencias.Figure 6 shows three neighborhood examples of interaction between coefficients (rows of the matrix h (f, f ') reordered in 2-D) in equation 35. Each surface corresponds to the neighborhoods associated with different frequencies

La figura 7 muestra las respuestas y umbrales de visibilidad asociados a dos sensores ajustados a frecuencias 4 y 10 ciclos por grado en condiciones de auto-enmascaramiento (el fondo es la función base para la que está ajustado el sensor). También se muestra la cantidad de distorsión \Deltac que se debe aplicar para obtener un incremento de respuesta \tau para diferentes contrastes (abcisas) del patrón de entrada.Figure 7 shows the responses and thresholds of visibility associated with two sensors adjusted to frequencies 4 and 10 cycles per degree under conditions of self-masking (the background is the base function for which the sensor is set). It also shows the amount of distortion \ Deltac that must be applied to obtain an increase in response? for different contrasts (abscissa) of the input pattern.

La figura 8 muestra las respuestas y los umbrales de visibilidad asociados para dos sensores ajustados a frecuencias 4 y 10 ciclos por grado cuando existe un patrón de enmascaramiento (ordenadas) de diferente frecuencia (6 ciclos por grado) a diferentes contrastes (abcisas): 0 (auto-enmascaramiento, línea sólida) y 0.5 (línea punteada). En este caso la cantidad de distorsión requerida \Deltac para obtener un incremento de respuesta \tau a un contraste del estímulo se incrementa cuando el contraste del enmascarador es incrementado. A: Estímulo; B: MáscaraFigure 8 shows the answers and associated visibility thresholds for two sensors set to frequencies 4 and 10 cycles per degree when there is a pattern of masking (ordered) of different frequency (6 cycles per grade) to different contrasts (abscissa): 0 (self-masking, solid line) and 0.5 (line dotted). In this case the amount of distortion required Δc to obtain a response increase τ to a stimulus contrast is increased when the contrast of the Masker is increased. A: Stimulus; B: Mask

La figura 9 muestra un conjunto de imágenes consideradas para evaluar las capacidades de compresión del método propuesto.Figure 9 shows a set of images considered to evaluate the compression capabilities of the method proposed.

Las figuras 10a, 10b y 10c muestran las curvas medias de ratio de compresión frente a distorsión (abcisas: medida como entropía en bpp) sobre 25 imágenes usando diferentes medidas de distorsión (ordenadas): (a) RMSE, (b) S-CIELab [28], y (c) Structural SIMilarity index (SSIM) [27], para los métodos considerados: 16x16 JPEG (punteado) y el método propuesto C-NL-SVR (línea sólida).Figures 10a, 10b and 10c show the curves compression ratio to distortion averages (abscissa: measure as entropy in bpp) on 25 images using different measures Distortion (ordered): (a) RMSE, (b) S-CIELab [28], and (c) Structural SIMilarity index (SSIM) [27], for Methods considered: 16x16 JPEG (dotted) and the proposed method C-NL-SVR (solid line).

La figura 11a muestra las curvas de distorsión (abcisas: medida como entropía en bpp) para dos imágenes de ejemplo (arriba y abajo) usando RMSE para los métodos 16 x 16 JPEG (punteada) y el C-NL-SVR (sólida). La figura 11b ilustra un esquema para medir la ganancia del método C-NL-SVR (línea sólida) frente a 16x16 JPEG (línea punteada). Para un nivel de distorsión, la diferencia en ratio entre los dos métodos es medida y comparada.Figure 11a shows the distortion curves (abscissa: measured as entropy in bpp) for two example images (top and bottom) using RMSE for 16 x 16 JPEG methods (dotted) and the C-NL-SVR (solid). Figure 11b illustrates a scheme to measure the gain of the method C-NL-SVR (solid line) versus 16x16 JPEG (dotted line). For a distortion level, the difference in ratio between the two methods is measured and compared.

La figura 12 muestra la media en ganancia (con barras de desviación estándar) del método C-NL-SVR frente a 16x16 JPEG en términos de diferentes medidas de distorsión (abcisas): (a) RMSE, (b) SSIM [27] y (c) S-CIELab [28]; ordenadas: entropía (bpp).Figure 12 shows the average gain (with standard deviation bars) of the method C-NL-SVR vs. 16x16 JPEG in terms of different distortion measures (abscissa): (a) RMSE, (b) SSIM [27] and (c) S-CIELab [28]; ordered: entropy (bpp).

La figura 13 muestra ejemplos de imágenes "Parrot" (zona del ojo) decodificadas con 16x16 JPEG (fila superior) y C-NL-SVR (fila inferior) a diferentes ratios de compresión (de izquierda a derecha: {1.0,1.4,1.8,2.2} bits por pixel, bpp).Figure 13 shows examples of images "Parrot" (eye area) decoded with 16x16 JPEG (row top) and C-NL-SVR (bottom row) at different compression ratios (from left to right: {1.0,1.4,1.8,2.2} bits per pixel, bpp).

La figura 14 muestra ejemplos de imágenes "Lena" decodificadas con 16x16 JPEG (fila superior) y C-NL-SVR (fila inferior) a diferentes ratios de compresión (de izquierda a derecha: {1.0,1.4,1.8,2.2} bits por pixel, bpp).Figure 14 shows examples of images "Lena" decoded with 16x16 JPEG (top row) and C-NL-SVR (bottom row) a different compression ratios (from left to right: {1.0,1.4,1.8,2.2} bits per pixel, bpp).

La figura 15 muestra ejemplos de imágenes "Roof" decodificadas con 16x16 JPEG (fila superior) y C-NL-SVR (fila inferior) a diferentes ratios de compresión (de izquierda a derecha: {1.0,1.4,1.8,2.2} bits por pixel, bpp).Figure 15 shows examples of images "Roof" decoded with 16x16 JPEG (top row) and C-NL-SVR (bottom row) a different compression ratios (from left to right: {1.0,1.4,1.8,2.2} bits per pixel, bpp).

La figura 16 muestra ejemplos de imágenes "Flower 3" decodificadas con 16x16 JPEG (fila superior) y C-NL-SVR (fila inferior) a diferentes ratios de compresión (de izquierda a derecha: {1.0,1.4,1.8,2.2} bits por pixel, bpp).Figure 16 shows examples of images "Flower 3" decoded with 16x16 JPEG (top row) and C-NL-SVR (bottom row) a different compression ratios (from left to right: {1.0,1.4,1.8,2.2} bits per pixel, bpp).

La figura 17 muestra ejemplos de imágenes "Face 1" decodificadas con 16x16 JPEG (fila superior) y C-NL-SVR (fila inferior) a diferentes ratios de compresión (de izquierda a derecha: {1.0,1.4,1.8,2.2} bits por pixel, bpp).Figure 17 shows examples of images "Face 1" decoded with 16x16 JPEG (top row) and C-NL-SVR (bottom row) a different compression ratios (from left to right: {1.0,1.4,1.8,2.2} bits per pixel, bpp).

Detailed description of the invention

Con el fin de comprender mejor esta invención, y teniendo en cuenta que proporciona un marco de propósito general novedoso para codificar imágenes en color que combina técnicas conocidas y nuevas, vamos a describir en primer lugar un esquema completo de la invención, en segundo lugar describiremos en detalles los bloques clave centrándonos en los aspectos noveles e inventivos de esta invención, y en tercer lugar describiremos los resultados experimentales. Finalmente nos referiremos a la implementación del método.In order to better understand this invention, and considering that it provides a general purpose framework novel to encode color images that combines techniques known and new, let's first describe a scheme full of the invention, secondly we will describe in details the key blocks focusing on the novel aspects and inventive of this invention, and thirdly we will describe the experimental results. Finally we will refer to the Method implementation

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

1. Scheme of the invention

La figura 1 muestra un esquema general de la invención que incluye los siguientes bloques:Figure 1 shows a general scheme of the invention that includes the following blocks:

Bloque 1.- Iniciar los valores de los parámetros.Block 1.- Start the values of the parameters

Bloque 1.A.- Selección por parte del usuario de la ratio de compresión (tamaño de la imagen codificada) o de la distorsión (nivel de calidad de la imagen codificada).Block 1.A.- User selection of the compression ratio (size of the encoded image) or of the distortion (encoded image quality level).

Bloque 1.B.- Selección de los parámetros propios del procedimiento de aprendizaje y de la resolución de la cuantificación aplicable a la descripción obtenida por el proceso de aprendizaje. Para ello, se tienen en cuenta las elecciones consideradas en el Bloque 1.A, por ejemplo mediante una look-up tabla (LUT) que relacione los parámetros libres y la distorsión/ratio sobre un conjunto de imágenes apropiado. En pasos posteriores, el Bloque 1.B permite la adaptación de los parámetros preestablecidos teniendo en cuenta la desviación respecto a la ratio/distorsión deseada y los valores actuales obtenidos en los Bloques 16 y 17. Por ejemplo, si el aprendizaje se realiza mediante una SVR, se deben establecer o modificar los siguientes parámetros: los valores de \varepsilon_{f}, el factor de penalización \lambda y los parámetros asociados al kernel K (véase el Bloque 9 y la sección 4.2) y el número de bits usados en la cuantificación de los pesos asociados a los vectores soporte seleccionados (véase el Bloque 10).Block 1.B.- Selection of own parameters of the learning procedure and the resolution of the quantification applicable to the description obtained by the process Learning. To do this, the elections are taken into account considered in Block 1.A, for example through a look-up table (LUT) that relates the parameters Free and distortion / ratio over a set of images appropriate. In subsequent steps, Block 1.B allows the adaptation of the preset parameters taking into account the deviation from the desired ratio / distortion and values actuals obtained in Blocks 16 and 17. For example, if the learning is done through an SVR, must be established or modify the following parameters: the values of \ varepsilon_ {f}, the penalty factor \ lambda and the parameters associated with kernel K (see Block 9 and section 4.2) and the number of bits used in quantifying weights associated to the selected support vectors (see Block 10).

Bloque 2.- Recepción de los datos de la imagen en color expresados en canales digitales RGB (denotados como RGB).Block 2.- Receiving the image data in color expressed in RGB digital channels (denoted as RGB)

Bloque 3.- Transformación de la señal RGB a un espacio de color oponente, comenzando con la caracterización del color dependiente del dispositivo digital, obteniendo en primer lugar una descripción del color en un espacio triestímulo independiente del dispositivo (tal como CIE XYZ). Ello requiere la los parámetros de calibración del dispositivo de adquisición. Si tales parámetros no están disponibles, se pueden utilizar curvas gamma y primarios genéricos. En segundo lugar, las imágenes X, Y, Z son combinadas en los siguientes tres canales: Acromático (A), Rojo-Verde (RG), Amarillo-Azul (YB) según una transformación oponente lineal o no lineal.Block 3.- Transformation of the RGB signal to a Opponent color space, beginning with the characterization of the color dependent on the digital device, getting first place a description of the color in a tristimulus space device independent (such as CIE XYZ). This requires the the calibration parameters of the acquisition device. Yes such parameters are not available, curves can be used Gamma and generic primaries. Second, the images X, Y, Z They are combined in the following three channels: Achromatic (A), Red-Green (RG), Yellow-Blue (YB) according to a linear or non-linear opponent transformation.

Bloques 4.A, 4.B, 4.C.- Transformación de cada canal de color oponente, A, RG, YB a un dominio espacio-frecuencial local, usando por ejemplo, la transformada discreta del coseno (DCT), la transformada wavelet o cualquier otra transformada lineal o no lineal apropiada.Blocks 4.A, 4.B, 4.C.- Transformation of each opponent color channel, A, RG, YB to a domain local space-frequency, using for example, the discrete cosine transform (DCT), wavelet transform or any other appropriate linear or nonlinear transform.

Bloques 5.A, 5.B, 5.C.- Obtención del contraste de cada canal con transformadas apropiadas (basadas en percepción), esto es, expresar las amplitudes de las señales de frecuencia local en las unidades de contraste apropiadas para usar modelos de percepción en los bloques 7.A, 7.B y 7.C. Para el canal A se puede utilizar el contraste de Michelson, pero para cada uno de los canales RG y YB es necesario realizar tanto experimentos sicofísicos con las funciones base cromáticas de las transformadas como experimentos numéricos sobre una base de datos de imágenes de color (véase sección 2).Blocks 5.A, 5.B, 5.C.- Obtain contrast of each channel with appropriate transforms (based on perception), that is, express the amplitudes of the local frequency signals in the appropriate contrast units to use models of perception in blocks 7.A, 7.B and 7.C. For channel A you can use Michelson's contrast, but for each of the RG and YB channels it is necessary to perform both psychophysical experiments with the chromatic base functions of the transformed as numerical experiments on a database of color images (see section 2).

Bloque 6.- Codificación de los residuos de baja frecuencia de los canales A, RG y YB. Esta codificación puede consistir en la aplicación de un DPCM seguido por un codificador entrópico.Block 6.- Waste disposal coding frequency of channels A, RG and YB. This coding can consist of the application of a DPCM followed by an encoder entropic

Bloques 7.A, 7.B, 7.C.- Aplicación de una transformada no lineal perceptual a cada canal. En el caso del canal acromático y asumiendo que se ha utilizado la DCT en el bloque 4.A, se puede aplicar la transformación no lineal introducida en [11, 14]. En el caso de los canales cromáticos la transformación a aplicar debe ser diferente (véase la sección 3 para formas funcionas explícitas).Blocks 7.A, 7.B, 7.C.- Application of a Perceptual nonlinear transform to each channel. In the case of achromatic channel and assuming that DCT has been used in the block 4.A, non-linear transformation can be applied introduced in [11, 14]. In the case of chromatic channels the transformation to be applied must be different (see section 3 for You work explicitly).

Bloque 8.- (Opcional) Almacenamiento de la información de fase original de los canales transformados no linealmente. Este bloque es necesario solamente si la información de la fase es codificada de forma independiente a la información sobre amplitud (relacionado con los Bloques 11 y 12).Block 8.- (Optional) Storage of the original phase information of the transformed channels no linearly This block is necessary only if the information of the phase is encoded independently of the information over amplitude (related to Blocks 11 and 12).

Bloque 9.- Aplicación y entrenamiento de un procedimiento de aprendizaje máquina con los parámetros establecidos en el Bloque 1.B. Este procedimiento selecciona los coeficientes más representativos e informativos que mejor aproximan a la señal en cada canal. En el caso de que se siga el camino opcional hacia el Bloque 8, el proceso de aprendizaje se aplica sobre los valores absolutos de las señales. Si no es así, puesto que la señal de fase no se procesa de forma separada a la señal, el proceso de aprendizaje se aplica directamente a las señales que proceden de los Bloques 7.A, 7.B y 7.C. Veáse la sección 4 para un ejemplo de entrenamiento usando SVR y guardando los pesos y vectores soporte asociados.Block 9.- Application and training of a machine learning procedure with parameters established in Block 1.B. This procedure selects the most representative and informative coefficients that best approximate to the signal on each channel. In case the path is followed optional towards Block 8, the learning process is applied about the absolute values of the signals. If not, put that the phase signal is not processed separately from the signal, the learning process is applied directly to the signals that they come from Blocks 7.A, 7.B and 7.C. See section 4 for a training example using SVR and saving weights and associated support vectors.

Bloque 10.- Realizar una cuantización de la descripción obtenida en el bloque 9 usando para ello los parámetros de cuantización obtenidos/ajustados en el bloque 1.B. En el caso de usar una SVR, se puede emplear una cuantización uniforme de los pesos asociados a los vectores soporte seleccionados.Block 10.- Perform a quantization of the description obtained in block 9 using the parameters of quantization obtained / adjusted in block 1.B. In the case of using an SVR, a uniform quantization of the weights associated with the selected support vectors.

Bloque 11 (Opcional)- Realización de una reconstrucción canal a canal a partir de los pesos cuantizados del Bloque 10. El presente Bloque se necesita tan solo si se codifica la información de fase de forma independiente de la información sobre amplitud (Bloque 8). El resultado de esta reconstrucción se utiliza para descartar la información de fase innecesaria que proviene del Bloque 8 en el Bloque 12. Para invertir las transformaciones no lineales de los Bloques 7.A, 7.B y 7.0 hace falta un procedimiento adecuado. En el caso de que haya realizado una transformada con normalización divisiva [15], se puede utilizar un procedimiento recursivo [11]. Se debe asegurar que las no linealidades en 7.A, 7.B y 7.0 sean invertibles. En [11] se probó que la transformada de 7.A lo era. El estudio de las condiciones necesarias para invertir las transformadas propuestas en los Bloques 7.B y 7.0 puede verse en la sección 3.Block 11 (Optional) - Making a channel-to-channel reconstruction from the quantized weights of the Block 10. This Block is needed only if it is coded phase information independently of the information over amplitude (Block 8). The result of this reconstruction is used to discard unnecessary phase information that comes from Block 8 in Block 12. To reverse the non-linear transformations of Blocks 7.A, 7.B and 7.0 ago A proper procedure is missing. In case you have done a transform with divisive normalization [15], can be used a recursive procedure [11]. It must be ensured that no linearities in 7.A, 7.B and 7.0 are invertible. In [11] it was tested that the transform of 7.A was. The study of the conditions necessary to reverse the proposed transforms in the Blocks 7.B and 7.0 can be seen in section 3.

Bloque 12 (Opcional)- Proceso de eliminación de la información de fase procedente del Bloque 8 (opcional), basado en los coeficientes descartados en el proceso de reconstrucción (Bloque 11, opcional), después de la cuantización realizada en el Bloque 10.Block 12 (Optional) - Elimination process of the phase information from Block 8 (optional), based in the discarded coefficients in the reconstruction process (Block 11, optional), after the quantization performed in the Block 10.

Bloque 13.- Siempre que se procesen por separado la información de fase y la de amplitud, el Bloque 13 toma la información de amplitud seleccionada (procedente del Bloque 10) y la de fase (procedente del Bloque 12) y las combina para su uso posterior en el Bloque 14. En caso contrario, el Bloque 13 se limita a trasmitir al Bloque 14 los pesos cuantizados con su correspondiente información de fase.Block 13.- Whenever they are processed separately phase and amplitude information, Block 13 takes the selected amplitude information (from Block 10) and the phase one (from Block 12) and combines them for use later in Block 14. Otherwise, Block 13 is limits to transmit to Block 14 the quantized weights with their corresponding phase information.

Bloque 14.- Codificación de la entropía de las señales. Existe una variedad de mecanismos de codificación de la entropía que podrían utilizarse con este fin.Block 14.- Entropy coding of the signs. There are a variety of coding mechanisms of the entropy that could be used for this purpose.

Bloque 15.- Generación de un flujo de datos a partir de las señales de entropía codificadas de los Bloques 6 y 14. El decodificador, que no se muestra aquí, debería invertir todo el proceso hasta reconstruir la imagen. Como se hizo notar en el Bloque 11, el único proceso de inversión que no es trivial es el asociado con las transformadas no lineales de los bloques 7.A, 7.B y 7.C. En la sección 3 se estudia la invertibilidad de las transformadas propuestas.Block 15.- Generation of a data flow to from the encoded entropy signals of Blocks 6 and 14. The decoder, which is not shown here, should reverse everything the process until reconstructing the image. As noted in the Block 11, the only investment process that is not trivial is the associated with the nonlinear transforms of blocks 7.A, 7.B and 7.C. In section 3 the invertibility of the transformed proposals.

Bloque 16.- Cálculo de la entropía o de la distorsión.Block 16.- Calculation of the entropy or of the distortion.

Bloque 17.- Vuelta al Bloque 1.B, salvo que ya se hayan alcanzado los parámetros de calidad (distorsión) o tamaño (entropía) especificados previamente.Block 17.- Return to Block 1.B, unless already quality (distortion) or size parameters have been reached (entropy) specified previously.

Bloque 18.- Almacenamiento o transmisión de la imagen en color codificada.Block 18.- Storage or transmission of the color coded image.

2. Change the contrast metric (Blocks 5.A, 5.B, 5C)

El primer elemento clave es el uso de una métrica de contraste adecuada en la representación local en frecuencias de los canales A, RG, y YB. Este procesado inicial es un paso previo necesario antes de aplicar las transformadas perceptuales: para que sea posible aplicar parámetros obtenidos de experimentos psicofísicos a las transformadas no lineales de los Bloques 7.A, 7.B y 7.C, la señal de entrada debe expresarse en las unidades de contraste adecuadas.The first key element is the use of a suitable contrast metric in the local representation in frequencies of the A, RG, and YB channels. This initial processing is a necessary preliminary step before applying the perceptual transforms: so that it is possible to apply parameters obtained from psychophysical experiments to the non-linear transforms of Blocks 7.A, 7.B and 7.C, the input signal must Express in the appropriate contrast units.

La literatura sobre experimentos psicofísicos [15, 16] describe la respuesta no lineal de los sensores del sistema visual humano frente a señales periódicas expresadas en unidades de contraste. Además, se ha mostrado que la forma de la curva de respuesta no-lineal de los sensores cromáticos, sintonizados a distintas posiciones y frecuencias, es similar a la encontrada para sensores acromáticos [16], siempre que el estímulo se describa en las unidades de contraste cromático adecuadas. Sin embargo, no existe un procedimiento general para definir dichas unidades para un conjunto particular de funciones base en el dominio espacial (tales como la DCT en bloques o una transformación wavelet particular) cuando la modulación del estímulo es puramente cromática. Por tanto, la transformación de los coeficientes de amplitud a unidades de contraste es el factor clave que permitirá: (1) realizar el escalado relativo de los parámetros de los canales acromático y cromáticos (por ejemplo, la sensibilidad relativa en función de la frecuencia [17]), y (2) diseñar los parámetros que controlarán la forma de las no linealidades cromáticas, tomando como punto de partida los del caso acromático. Las transformadas de contraste de los Bloques 5.A, 5.B y 5.0 son claves para simplificar la formulación de los Bloques 7.A, 7.B y 7.C.The literature on psychophysical experiments [15, 16] describes the non-linear response of the sensors of the human visual system against periodic signals expressed in contrast units. In addition, it has been shown that the shape of the non-linear response curve of chromatic sensors, tuned to different positions and frequencies, is similar to that found for achromatic sensors [16], provided that the stimulus is described in the units of adequate color contrast. However, there is no general procedure for defining such units for a particular set of base functions in the spatial domain (such as block DCT or a particular wavelet transformation) when the stimulation modulation is purely chromatic. Therefore, the transformation of the amplitude coefficients to contrast units is the key factor that will allow: (1) to perform the relative scaling of the parameters of the achromatic and chromatic channels (for example, the relative sensitivity as a function of frequency [ 17]), and (2) design the parameters that will control the shape of the chromatic nonlinearities, taking as the starting point those of the achromatic case. The contrast transforms of Blocks 5.A, 5.B and 5.0 are key to simplify the formulation of Blocks 7.A, 7.B and 7.C.

La definición de contraste en la literatura psicofísica está íntimamente ligada al procedimiento que se haya seguido para construir los estímulos usados en el experimento. Por ejemplo, el contraste cromático puede definirse a partir de la modulación de luminancia de dos funciones base de dos colores, que llamaremos "extremos", e_{1}^{(i)} y e_{2}^{(i)}, sumados en contratase para generar redes de luminosidad percibida constante [17]. Las variaciones máximas de luminancia y de color (la amplitud máxima de los estímulos, que definirían la unidad de contraste) se ve limitada por la gama de colores generables por el dispositivo de generación de colores particular utilizado en el experimento.The definition of contrast in the literature psychophysics is closely linked to the procedure that has been followed to build the stimuli used in the experiment. By For example, the color contrast can be defined from the luminance modulation of two base functions of two colors, which we will call "extremes", e_ {1} ^ {(i)} and e_ {2} ^ {(i)}, added together to generate networks of perceived luminosity constant [17]. The maximum variations of luminance and color (the maximum amplitude of the stimuli, which would define the unit of contrast) is limited by the range of colors that can be generated by the particular color generation device used in the experiment.

Para aplicar una definición de contraste comparable deberemos: (1) obtener las ecuaciones que relacionan las amplitudes de los coeficientes locales de frecuencia y la modulación máxima del espacio de color con la luminancia y los colores extremos de redes equiluminosas equivalentes, y (2) asegurar que los colores extremos calculados, con las ecuaciones descritas arriba, a partir de una base de datos de imágenes suficientemente amplia, se encuentran dentro de la gama de colores reproducibles por los dispositivos de reproducción habituales. La idea subyacente es definir la unidad de contraste a partir de las variaciones máximas de luminancia y color que se encuentran en las imágenes naturales y al mismo tiempo ser consistente con la definición de contraste cromático de la literatura psicofísica.To apply a contrast definition comparable we must: (1) obtain the equations that relate the amplitudes of the local frequency coefficients and the maximum modulation of color space with luminance and extreme colors of equivalent equiluminous nets, and (2) ensure the calculated extreme colors, with the equations described above, from an image database wide enough, they are within the color gamut playable by the usual playback devices. The underlying idea is to define the unit of contrast from the maximum variations of luminance and color found in the natural images and at the same time be consistent with the definition of color contrast of psychophysical literature.

Según lo anterior, la definición de contraste cromático y acromático de los Bloques 5.A, 5.B y 5.C, se basan en dos pasos:According to the above, the definition of contrast Chromatic and achromatic of Blocks 5.A, 5.B and 5.C, are based on Two steps:

\bullet En primer lugar, obtención de las ecuaciones que relacionan el contraste cromático y acromático con las amplitudes de la transformada de frecuencia local de los canales acromático y cromáticos (ver la subsección 2.1). Estas ecuaciones, para un canal cromático @i@ dependen de la pareja de colores extremos e_{1}^{(i)} y e_{2}^{(i)}, obtenidos a partir de la variación máxima, \DeltaT_{max}^{(i)}, en la dirección que aísla ese canal. Además, si se utiliza un modelo lineal de visión del color, para generar una red equiluminosa, la luminancia media de los colores que se mezcla no puede ser la misma, ya que colores de diferente cromaticidad tienen distintas luminosidades a igual luminancia. Por tanto, se precisa de un experimento psicofísico para determinar la proporción adecuada de luminancias en la mezcla. En la Sub-sección 2.2 se describe este procedimiento, así como los resultados particulares de un experimento diseñado para las funciones base de la DCT, utilizados en una implementación posible del invento.First, obtaining the equations that relate chromatic and achromatic contrast to the amplitudes of the local frequency transform of the achromatic and chromatic channels (see subsection 2.1). These equations, for a chromatic channel @ i @ depend on the pair of extreme colors e_ {1} {(i)} and e_ {2} {(i)}, obtained at from the maximum variation, ΔT_ {max} ^ (i)} in the address that isolates that channel. Also, if a model is used linear color vision, to generate an equiluminous network, the average luminance of the colors that is mixed cannot be the same, since colors of different chromaticity have different luminosities at equal luminance. Therefore, a psychophysical experiment to determine the appropriate proportion of luminance in the mixture. In Sub-section 2.2, describe this procedure as well as the particular results of an experiment designed for the base functions of the DCT, used in a possible implementation of the invention.

\bullet En Segundo lugar, estudio del rango de valores de la variación máxima \DeltaT_{max}^{(i)}, en una base de datos de imágenes representativa. A partir del estudio empírico mostrado en la sub-sección 2.3, estimamos la variación máxima que permite una definición de contraste unidad consistente con la literatura psicofísica. Estos resultados son un ejemplo para la transformada DCT particular elegida y para el modelo YUV lineal.Second, range study of values of the maximum variation ΔT_ {max} ^ {(i)}, in a Representative image database. From the study empirical shown in sub-section 2.3, we estimate the maximum variation that allows a unit contrast definition consistent with psychophysical literature. These results are a example for the particular DCT transform chosen and for the YUV linear model.

Por último, en la sub-sección 2.4 se resume la transformada resultante con la definición de contraste adecuada usada en los Bloques 5.A, 5.B y 5.C, cuando se toma como sistema de representación de imágenes y del color la DCT y el espacio YUV lineal.Finally, in the sub-section 2.4 the resulting transform is summarized with the definition of adequate contrast used in Blocks 5.A, 5.B and 5.C, when takes the DCT as an image and color representation system and linear YUV space.

2.1. Formulation: Contrast of achromatic networks and chromatic, obtained from the coefficients of the Transformed images described in color spaces opponents

Las redes (funciones base particulares en el dominio espacial) de frecuencia f empleadas en experimentos psicofísicos, tienen un color diferente, descrito mediante un vector tridimensional T, en cada posición espacial, x:Networks (particular base functions in the spatial domain) of frequency f used in experiments psychophysicists, have a different color, described by a three-dimensional vector T, in each spatial position, x:

1one

donde T_{0} es el color promedio, \DeltaT(f) representa la variación cromática máxima (pico) para esa frecuencia respecto al color promedio, y B(f, x) es la función base seleccionada de f, p.e. una de las de la DCT. El índice f, que identifica a la función base, puede simbolizar algo más general que la frecuencia: en el caso de una transformada wavelet, f tendría tanto significado espacial como frecuencial. En la ec. 1, hemos añadido el indice f también a la variación cromática \DeltaT(f), porque en imágenes que contienen más de una función base la amplitud de la modulación cromática puede ser diferente para cada función base, B(f, x).where T_ {0} is the average color, ΔT (f) represents the maximum color variation (peak) for that frequency with respect to the average color, and B (f, x) is the selected base function of f, e.g. one of those of the DCT. He index f, which identifies the base function, can symbolize something more general than frequency: in the case of a transform wavelet, f would have both spatial and frequency significance. In the ec. 1, we have added the index f also to the variation color ΔT (f), because in images that contain more of a base function the amplitude of the chromatic modulation can be different for each base function, B (f, x).

En un espacio de color oponente y lineal, como, por ejemplo, el espacio YUV lineal, las tres componentes de los vectores T = [T1, T2, T3]^{T}, son la luminancia, T1 = Y, la componente Amarillo-Azul (YB), T2 = U, y la componente Rojo-Verde (RG), T3 = V. Las redes descritas arriba se utilizan en experimentos psicofísicos para estimular sensores acromáticos o cromáticos concretos, seleccionados modificando las componentes de la modulación \DeltaT(f). Las modulaciones \DeltaT_{i}(f), se pueden relacionar de forma sencilla con los coeficientes de la transformada espacial discreta de la imagen correspondiente con la ec. 1 (véanse las ecs. 20 más abajo). El problema radica en que los contrastes cromáticos en las direcciones Amarillo-Azul y Rojo-Verde, tal y como se encuentran definidos en la literatura psicofísica, [17], no se relacionan de forma trivial con \DeltaT_{2}(f) y \DeltaT_{3}(f). Por claridad, en lo que sigue, omitiremos de forma temporal el índice f en las modulaciones de color \DeltaT_{i}(f).In an opposing and linear color space, such as, for example, the linear YUV space, the three components of the vectors T = [T1, T2, T3] T, are the luminance, T1 = Y, the Yellow-Blue (YB) component, T2 = U, and the Red-Green component (RG), T3 = V. Networks described above are used in psychophysical experiments to stimulate specific achromatic or chromatic sensors, selected by modifying the modulation components ΔT (f). The modulations ΔT_ {i} (f), are can easily relate to the coefficients of the discrete spatial transform of the corresponding image with the ec. 1 (see ecs. 20 below). The problem is that chromatic contrasts in the directions Yellow-Blue and Red-Green, as and as they are defined in the psychophysical literature, [17], no are trivially related to ΔT2 (f) and ΔT 3 (f). For clarity, in what follows, we will omit temporarily index f in color modulations \ DeltaT_ {i} (f).

Comencemos por el caso más simple, el acromático. En este caso, no hay modulación en los canales cromáticos (\DeltaT_{2} = \DeltaT_{3} = 0), por lo que la red que aislaría al canal acromático es:Let's start with the simplest case, the achromatic. In this case, there is no modulation in the channels chromatics (ΔT 2 = ΔT 3 = 0), so the network that would isolate the achromatic channel is:

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

22

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

y el contraste acromático se define simplemente como el contraste de Michelson de la red acromática (sólo de luminancia):and achromatic contrast is defined simply as Michelson's contrast of the achromatic network (only of luminance):

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

33

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

donde T_{01} es la luminancia promedio (o la luminancia del color promedio), y la amplitud \DeltaT_{1} se puede obtener a partir de los coeficientes de la transformada de frecuencia local del canal de luminancia correspondientes utilizando las Ecs. 20 20. Esta definición es extensible a bases wavelet más complejas, sin más que dividir cada coeficiente de cada sub-banda por el residuo pasa-baja correspondiente a esa resolución. Como resultado, el contraste acromático se encuentra en el rango C_{achrom}\in [0, 1] ya que \DeltaT_{1} \in [0, T_{01}].where T_ {01} is the luminance average (or the luminance of the average color), and the amplitude ΔT1 can be obtained from the coefficients of the local frequency luminance channel transform corresponding using Ecs. 20 20. This definition is extendable to more complex wavelet bases, without more than dividing each coefficient of each sub-band per residue low pass corresponding to that resolution. How result, achromatic contrast is in the range C_ {achrom} \ in [0, 1] since \ DeltaT_ {1} \ in [0, T_ {01}].

Sin embargo, en [17], la definición del contraste cromático tiene en cuenta la forma en la que se diseñan experimentalmente las redes cromáticas. Para generar una modulación puramente cromática entorno a un cierto color promedio, T_{0}, a lo largo de una dirección dada T_{i}, con i = 2, 3, se suman en contrafase (ver línea superior de la fig. 3) dos redes de luminancia con la cromaticidad de los colores extremos e_{1}^{(i)} y e_{2}^{(i)} (la luminancia de los cuales se considera unidad):However, in [17], the definition of color contrast takes into account the way they are designed Experimentally the chromatic networks. To generate a modulation purely chromatic around a certain average color, T_ {0}, at along a given address T_ {i}, with i = 2, 3, are added in contraphase (see upper line of fig. 3) two luminance networks with the chromaticity of the extreme colors e_ {1} ^ {(i)} and e_ {2} ^ {(i)} (the luminance of which is considered unity):

44

donde las modulaciones de luminancia \DeltaY_{j}^{(i)} están en los rangos:where the modulations of luminance \ DeltaY_ {j} ^ {(i)} are in the ranges:

100, con las restricciones siguientes: 100 , with the following restrictions:

- El color promedio se obtiene sumando los colores extremos e_{j}^{(i)} con sus luminancias escaladas en una proporción particular (dada por el factor \eta_{i}):- The average color is obtained by adding the extreme colors e_ {j} ^ {(i)} with their luminance scaled in a particular proportion (given by the factor \ eta_ {i}):

55

- Las modulaciones de luminancia \DeltaY_{j}^{(i)}, están ligadas entre sí:- Luminance modulations ΔY_ {j} {(i)}, are linked together:

66

- La variación total en la dirección cromática i, \DeltaT^{(i)} no induce ninguna modulación en el canal cromático ortogonal. Esto es:- Total variation in the chromatic direction i, ΔT (i)} does not induce any modulation in the channel orthogonal chromatic This is:

77

88

Nótese que, dada la diferencia entre luminosidad y luminancia, para obtener una red equiluminosa con dos redes de diferente color, estas deben tener distintas luminancias medias (lo que induce una modulación residual de luminancia \eta_{i}T_{01}). La variación respecto a la luminancia media (el factor \eta_{i}) debe determinarse experimentalmente para cada canal cromático.Note that, given the difference between luminosity and luminance , in order to obtain an equiluminous network with two networks of different color, these must have different average luminances (which induces a residual modulation of luminance η_ {i} T_ {01}). The variation with respect to the average luminance (the factor η) must be determined experimentally for each chromatic channel.

La Sección 2.2 está dedicada a la obtención de este factor para funciones base de la DCT con frecuencia y color promedio dados.Section 2.2 is dedicated to obtaining this factor for DCT base functions with frequency and color Average dice.

En la literatura psicofísica, el contraste cromático en el canal i se define como el contraste de Michelson de cualquiera de las dos redes de luminancia sumadas en contratase que generan la red puramente cromática:In psychophysical literature, the contrast chromatic in channel i is defined as Michelson's contrast of either of the two luminance networks added in contracted that generate the purely chromatic network:

99

A partir de las Ecs. (1), (4) y (9), puede deducirse la relación entre la modulación cromática en la dirección cromática i, \Deltat^{(i)}, y el correspondiente contraste cromático:From Ecs. (1), (4) and (9), can deduce the relationship between chromatic modulation in the direction chromatic i, \ Deltat ^ (i)}, and the corresponding contrast chromatic:

1010

Si consideramos el caso de contraste cromático unidad (haciendo que C^{(i)}_{chrom} = 1) obtenemos la relación entre lo que se considera modulación máxima en ese canal, \DeltaT^{(1)}_{max}, y los colores extremos, e_{j}^{(i}):If we consider the case of chromatic contrast unit (making C (i)} chrom = 1) we get the relationship between what is considered maximum modulation on that channel, ΔT (1) max, and the extreme colors, e_ {j} ^ {(i}):

11eleven

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

1212

En los experimentos psicofísicos, la modulación máxima se elige de manera que los colores extremos queden dentro de la gama de colores generables por el dispositivo de reproducción utilizado. Siguiendo este criterio, en la sección 2.3 exploramos una base de datos de imágenes representativa para obtener una estimación de la modulación máxima posible entorno al color promedio de cada imagen, de forma que los colores extremos estén siempre dentro del rango de colores generables en monitores estándar (por ejemplo, dentro del triángulo que aparece representado en línea de puntos dentro del diagrama cromático de la fig. 3).In psychophysical experiments, modulation maximum is chosen so that the extreme colors are within the range of colors that can be generated by the playback device used. Following this criterion, in section 2.3 we explore a representative image database to obtain a estimation of the maximum possible modulation around the color average of each image, so that the extreme colors are always within the range of generable colors on monitors standard (for example, within the triangle that appears represented in dotted lines within the color diagram of the fig. 3).

Usando la ec. 10, se puede derivar el contraste cromático C^{(i)}_{chrom} a partir de la modulación \DeltaT_{i}:Using ec. 10, you can derive the contrast chromatic C (i) chrom from modulation \ DeltaT_ {i}:

1313

Conocidos los contrastes acromático y cromáticos en función de la modulación en cada canal oponente (ecs. 3 y 13), el último dato requerido para poder expresar las amplitudes de las transformadas de frecuencia local en función de los contrastes, es la relación entre los coeficientes de la transformada discreta y las modulaciones correspondientes.Known achromatic and chromatic contrasts depending on the modulation in each opposing channel (ecs. 3 and 13), the last data required to be able to express the amplitudes of the local frequency transforms depending on the contrasts, is the relationship between the coefficients of the discrete transform and the corresponding modulations.

En el caso de la DCT, esta relación puede encontrarse en la literatura [18]. Aquí, los índices x, f utilizados anteriormente se declaran de forma explícita como x = (m, n) y f = (p, q). Con esta notación, los coeficientes a(p, q) de la DCT bidimensional, correspondientes a la representación de un bloque de imagen MxN en el dominio espacial, A(m, n), son [18]:In the case of DCT, this relationship may found in the literature [18]. Here, the indexes x, f previously used are explicitly declared as x = (m, n) and f = (p, q). With this notation, the coefficients a (p, q) of the two-dimensional DCT, corresponding to the representation of a block of MxN image in the spatial domain, A (m, n), are [18]:

1414

La inversa de la DCT se escribe como:The inverse of the DCT is written as:

15fifteen

Si la imagen adquirida es una simple función base (en el canal cromático i) definida como sigue:If the acquired image is a simple function base (in the chromatic channel i) defined as follows:

1616

entonces es posible escribir la relación apropiada entre los coeficientes de la imagen en el cana i, a_{i}(p, q) y la modulación cromática real para esa frecuencia \DeltaT_{i}(p, q): It is then possible to write the appropriate relationship between the image coefficients in channel i, a_ {i} (p, q) and the actual chromatic modulation for that frequency ΔT_ {i} (p, q):

1717

1818

1919

20twenty

2.2. Experiment 1: Proportions Blue-Yellow and Red-Green in nets of constant brightness

En esta sección, describimos los experimentos psicofísicos realizados para evaluar en qué relación deben estar las luminancias medias de las redes acromáticas utilizadas para generar redes puramente cromáticas -con luminosidad uniforme- en las direcciones U y V, esto es, los factores \eta_{i} de las ecuaciones anteriores.In this section, we describe the experiments psychophysicists performed to assess what relationship they should be in the average luminance of the achromatic networks used to generate purely chromatic networks - with uniform luminosity - in the U and V addresses, that is, the factors \ eta_ {i} of the previous equations.

Estímulos. Los estímulos se generaron en CRTs controlado por ordenador, con una tarjeta gráfica de 8 bits de resolución. Los sistemas estaban colorimétricamente calibrados y se controlaban usando Matlab®, con la librería de funciones COLORLAB (disponible en http://www.uv.es/vista/vistavalencia). Stimuli The stimuli were generated in computer-controlled CRTs, with an 8-bit resolution graphics card. The systems were colorimetrically calibrated and controlled using Matlab®, with the COLORLAB function library (available at http://www.uv.es/vista/vistavalencia).

Los colores e_{j}^{(i)} se escogieron en las direcciones del espacio de color que anulaban uno de los canales cromáticos del espacio YUV, verificándose que:The colors e_ {j} ^ {(i)} were chosen in the directions of the color space that nullified one of the YUV space color channels, verifying that:

- Las modulaciones que producen a lo largo de la dirección i, a partir de un color promedio T_{0}, sólo difieren en signo. El color promedio seleccionado era el promedio de una base de datos de imágenes pública [19]. En el espacio de color NTSC RGB tenemos que T_{0} = [132 116 90]^{T}, con una luminancia de 117.8 cd/m^{2}.- The modulations that occur throughout the direction i, from an average color T_ {0}, only differ in sign. The average color selected was the average of one Public image database [19]. In the NTSC color space RGB we have that T_ {0} = [132 116 90] T, with a luminance of 117.8 cd / m2.

- La modulación inducida era la máxima permitida por la gama de~ colores del monitor. Dos redes DCT puras de luminancia, ambas de 8 cpd, y. cada una con la cromaticidad de un color extremo, se generaron en contrafase,. inicialmente con la misma luminancia media, y se sumaron. La imagen resultante, que subtendía 0.25 grados, se presentó sobre un fondo gris de 50 cd/m^{2} en una habitación a oscuras.- Induced modulation was the maximum allowed By the range of ~ monitor colors. Two pure DCT networks of luminance, both of 8 cpd, and. each with the chromaticity of a extreme color, were generated in counter phase. initially with the same average luminance, and they joined. The resulting image, which subtended 0.25 degrees, was presented on a gray background of 50 cd / m2 in a dark room.

Antes de comenzar las tandas de medidas, propiamente dichas, se modificó mediante sucesivos ajuste, la luminancia del punto acromático, T_{0}, de forma que:Before starting the measurement batches, proper, it was modified by successive adjustment, the luminance of the achromatic point, T_ {0}, so that:

- La luminancia se mantuviese dentro del rango de valores posibles del monitor, en todos los píxeles de la imagen resultante.- Luminance stayed within range of possible monitor values, in all pixels of the image resulting.

- El rango de variación de luminancias de las redes, fijado por el valor promedio, fuese suficiente para que los observadores pudiesen modificar la luminancia de una de ellas hasta alcanzar la condición de luminosidad constante.- The range of luminance variation of the networks, set by the average value, were sufficient for the observers could modify the luminance of one of them until Reach the condition of constant brightness.

Con estas restricciones, la luminancia escogida para el color promedio fue de 80 cd/m^{2}.With these restrictions, the chosen luminance for the average color it was 80 cd / m2.

Medida. Las redes descritas anteriormente se mostraban al observador, quien las fijaba fovealmente, tras un período de adaptación de un minuto al fondo gris. La tarea del observador era ajustar la variable \eta_{i}, de modo que los dos semiperiodos de la red resultante pareciesen de igual luminosidad. Para ello, se utilizó el método de ajuste (MOA) [20]. Para cada observador, el resultado del experimento se obtuvo como el promedio de cinco tandas de medida. El resul-
tado final es el promedio de un conjunto de 4 observadores no entrenados, en el rango de edades entre 20 y 40 años. Measure. The networks described above were shown to the observer, who fixed them briefly, after a period of adaptation of one minute to the gray background. The observer's task was to adjust the variable η_ {i}, so that the two half-periods of the resulting network seemed of equal luminosity. For this, the adjustment method (MOA) [20] was used. For each observer, the result of the experiment was obtained as the average of five measurement batches. The result
Final tado is the average of a set of 4 untrained observers, in the age range between 20 and 40 years.

Resultados. Los factores encontrados para las redes Azul-Amarillo y Rojo-Verde del experimento descrito son: Results The factors found for the Blue-Yellow and Red-Green networks of the described experiment are:

21twenty-one

2222

Puesto que los valores de \eta_{i} dependen de (1) la cromaticidad de los colores extremos e_{j}^{(i)}, (2) la frecuencia de la red, y (3) la naturaleza de la función base, los valores mostrados son válidos estrictamente sólo para las condiciones experimentales descritas. El cambio de funciones base (p.e. si se utilizan wavelets en vez de DCT por bloques) o del espacio de color oponente, requeriría realizar experimentos específicos siguiendo el procedimiento descrito. Tal como está actualmente implementado el invento, asumimos que las proporciones que hemos encontrado con las condiciones arriba descritas son aproximadamente válidas para diferentes colores promedio y funciones base.Since the values of \ eta_ {i} depend on (1) the chromaticity of the extreme colors e_ {j} ^ (i)}, (2) the network frequency, and (3) the nature of the base function, the Values shown are strictly valid only for experimental conditions described. The change of base functions (e.g. if wavelets are used instead of block DCT) or opponent color space, would require experiments specific following the procedure described. As is currently implemented the invention, we assume that the proportions that we have encountered with the conditions described above are approximately valid for different average colors and functions base.

Debe hacerse notar que el uso de modelos no lineales de la visión de color, en los que el canal acromático correspondiente describa mejor la percepción de luminosidad, podría aliviar la necesidad de este paso experimental para generar redes puramente cromáticas.It should be noted that the use of models does not linear color vision, in which the achromatic channel corresponding better describe the perception of brightness, could alleviate the need for this experimental step to generate networks purely chromatic

2.3. Experiment 2: Maximum modulation in images natural represented in opposing spaces

En esta sección, describimos el experimento numérico mediante el cuál se estimaron valores razonables de la modulación máxima en imágenes naturales, a lo largo de las direcciones del espacio YUV lineal. Estos valores (\DeltaT^{(i)}_{max})_{i}
son necesarios en la definición de contraste cromático dada en la ec. 13. Para ser consistentes con las restricciones experimentales que se aplican en la literatura psicofísica, cualquier elección particular de los valores de modulación máxima debe cumplir la condición siguiente: para una imagen natural típica, con color promedio T_{0}, los colores extremos de las ecs. 12 deben estar dentro de la gama de colores generables por un display típico.In this section, we describe the numerical experiment by which reasonable values of the maximum modulation in natural images were estimated, along the directions of the linear YUV space. These values (ΔT (i) max) i
they are necessary in the definition of color contrast given in ec. 13. To be consistent with the experimental restrictions that apply in the psychophysical literature, any particular choice of maximum modulation values must meet the following condition: for a typical natural image, with average color T_ {0}, the extreme colors of the ecs. 12 must be within the range of colors that can be generated by a typical display.

Experimento. Para encontrar estos valores, partimos de una estimación inicial arbitraria, p.e. (\DeltaT^{(i)}_{max})_{i} = 256, y comprobamos si la condición anterior se cumplía para e_{j}^{(YB)} y e_{j}^{(RG)} (calculados con ec. 12 y las proporciones experimentales 22) en un conjunto representativo de imágenes naturales en color (véase la sección siguiente para una descripción detallada de la base de datos). Si, para una imagen dada, alguno de los colores extremos se encontraba fuera de la gama de colores de un monitor CRT típico, se reducía en un 5% la modulación máxima correspondientes, \DeltaU_{max} o \DeltaV_{max}. El proceso de búsqueda se detenía cuando todas las imágenes de la base de datos verificaban la condición. Experiment. To find these values, we start from an arbitrary initial estimate, eg (ΔT {(i)} _ {max}) {i} = 256, and check if the previous condition was met for e_ {j} ^ {( YB)} and e_ {j} ^ {(RG)} (calculated with ec. 12 and experimental proportions 22) in a representative set of natural color images (see the following section for a detailed description of the database) . If, for a given image, any of the extreme colors were outside the color range of a typical CRT monitor, the corresponding maximum modulation, ΔU_ {max} or ΔV_ {max}, was reduced by 5%. The search process stopped when all the images in the database verified the condition.

Debido a las limitaciones de la base de datos (p.e. un rango limitado de luminancias promedio), del procedimiento descrito sólo resulta un conjunto de valores recomendados. Estos valores recomendados no garantizan un límite superior en el contraste cromático: podrían existir imágenes con contraste cromático superior a la unidad, particularmente en condiciones de baja luminancia y/o saturación elevada. Para tales imágenes, el uso de valores máximos de modulación más elevados podría dar lugar a valores de contraste más convenientes.Due to database limitations (e.g. a limited range of average luminance), of the procedure described only results in a set of recommended values. These Recommended values do not guarantee an upper limit in the color contrast: images with contrast may exist chromatic superior to the unit, particularly in conditions of low luminance and / or high saturation. For such images, the use of higher maximum modulation values could lead to contrast values more convenient.

Base de datos. Realizamos el experimento numérico anterior sobre una base de datos consistente en 100 imágenes de la McGill University color image database [19] (fundamentalmente imágenes de flora y fauna) y 25 imágenes raw tomadas en nuestro laboratorio (fundamentalmente caras humanas). En el último caso, se utilizó una cámara Canon EOS 20 D para la captura de las imágenes calibrada con la librería COLORLAB y un espectroradiómetro PhotoResearch SpectraScan PR650. Database. We performed the previous numerical experiment on a database consisting of 100 images of the McGill University color image database [19] (mainly images of flora and fauna) and 25 raw images taken in our laboratory (mainly human faces). In the latter case, a Canon EOS 20 D camera was used to capture the images calibrated with the COLORLAB library and a PhotoResearch SpectraScan PR650 spectroradiometer.

Resultados. La Figura 3 muestra dos imágenes que limitan la máxima modulación en las direcciones V y U respectivamente. Los diagramas cromáticos CIE xy en la parte inferior de la figura muestras los colores de la imagen correspondiente (en gris), el color promedio (en negro), y los colores extremos (rojo y azul). El triángulo punteado en los diagramas cromáticos representa la gama de los colores disponibles en un monitor típico CRT (similar a NTSC o PAL RGB primarios). Como se puede ver en los diagramas cromáticos, la imagen de la izquierda limita la modulación en la dirección V (rojo-verde), mientras que la imagen de la derecha limita la modulación n la dirección U (amarillo-azul). Results Figure 3 shows two images that limit maximum modulation in directions V and U respectively. The CIE xy color diagrams at the bottom of the figure show the colors of the corresponding image (in gray), the average color (in black), and the extreme colors (red and blue). The dotted triangle in the chromatic diagrams represents the range of colors available on a typical CRT monitor (similar to primary NTSC or PAL RGB). As can be seen in the chromatic diagrams, the image on the left limits the modulation in the V (red-green) direction, while the image on the right limits the modulation in the U (yellow-blue) direction.

Las máximas modulaciones compatibles con las asunciones psicofísicas en la base de datos analizada fueron:The maximum modulations compatible with the Psychophysical assumptions in the analyzed database were:

232. 3

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

2424

El error asociado, \pm2, corresponde al paso del 5% en el procedimiento de búsqueda. Además, debido a las consideraciones anteriores sobre las limitaciones de la base de datos, estos valores son simplemente una recomendación que podría ser mejorada introduciendo algún tipo de dependencia con la luminancia media mediante una implementación mas refinada.The associated error, ± 2, corresponds to the step 5% in the search procedure. In addition, due to previous considerations on the limitations of the base of data, these values are simply a recommendation that could be improved by introducing some kind of dependency with the medium luminance through a more refined implementation.

2.4. Summary: definition of color contrast and achromatic

De acuerdo con el esquema general de la invención (véase Figura 1), el conjunto de transformaciones de la señal se lleva a cabo en los bloques 3, 4.X y 5.X, y se puede resumir así:According to the general scheme of the invention (see Figure 1), the set of transformations of the signal is carried out in blocks 3, 4.X and 5.X, and it can be summarize like this:

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

2525

donde las componentes de los vectores, A'(x), son los valores triestimulo del color en el pixel x en el espacio de color inicial (no oponente) como por ejemplo NTSC RGB; los vectores, A(x), obtenidos a partir de la transformada cromática en el bloque 3, son los correspondientes colores en una representación oponente (como el espacio lineal YUV); los elementos de los vectores, a(f), son los coeficientes de las transformadas locales espacio-frecuenciales aplicadas a las imágenes A_{i}(x), i.e., a_{1}(f) representa los coeficientes de la transformada de la imagen acromática, a_{2}(f) son los coeficientes de la transformada de la imagen Azul-Amarillo, y a_{3}(f) son los coeficientes de la transformada de la imagen rojo-verde (obtenida usando los bloques 4.A, 4.B y 4.C, respectivamente). Finalmente, la transformada de contraste expresa cada amplitud, a_{i}(f), en unidades de contraste cromática y acromática, dando los vectores c(f). Las componentes del vector de contrastes son: c_{1}(f) = C_{achrom}(f), c_{2}(f) = C^{(YB)}_{chrom}(f), y c_{3}(f) = C^{(RG)}_{chrom}(f).where the components of the vectors, A '(x), are the triestimulo values of the color in the pixel x in the initial color space (not opponent) such as NTSC RGB; the vectors, A (x), obtained from the chromatic transformed in block 3, are the corresponding colors in an opposing representation (such as linear space YUV); the elements of the vectors, a (f), are the local transform coefficients space-frequencies applied to images A_ {i} (x), i.e., a_ {1} (f) represents the coefficients of the achromatic image transform, a_ {2} (f) are the coefficients of the transform of the Blue-Yellow image, and a_ {3} (f) are the image transform coefficients red-green (obtained using blocks 4.A, 4.B and 4.C, respectively). Finally, the contrast transform express each amplitude, a_ {(}), in units of contrast chromatic and achromatic, giving the vectors c (f). The components of the contrast vector are: c_ {1} (f) = C_ {achrom} (f), c_ {2} (f) = C (YB) chrom (f), and c 3 (f) = C (RG) chrom (f).

De acuerdo a la formulación y resultados experimentales presentados en esta sección, si la representación cromática es lineal YUV, y la representación espacial seleccionada es DCT a bloques con un tamaño de bloque M x N, las transformaciones de contraste recomendadas son las listadas abajo:According to the formulation and results experimental presented in this section, if the representation color is linear YUV, and the spatial representation selected is DCT to blocks with a block size M x N, the Recommended contrast transformations are those listed down:

\bullet Para el canal de la luminancia (Y) (bloque 5.A):For the luminance channel (Y) (block 5.A):

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

2626

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

2727

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

2828

\bullet Para el canal azul-amarillo (U) (bloque 5.C):For the channel blue-yellow (U) (block 5.C):

2929

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

3030

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

3131

\bullet Para el canal rojo-verde (V) (bloque 5.B):For the channel red-green (V) (block 5.B):

3232

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

3333

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

343. 4

3. Nonlinear perceptual transformations

Esta sección se centra en la descripción de las transformaciones perceptuales no lineales aplicadas a las transformadas locales en frecuencia expresadas en unidades de contraste acromático y cromático.This section focuses on the description of the nonlinear perceptual transformations applied to local frequency transforms expressed in units of achromatic and chromatic contrast.

3.1. Transformations of divisive normalization (achromatic, blue-yellow and Red Green)

El segundo punto clave de la presente innovación se centra en en la aplicación de una transformación no lineal perceptual a los canales cromáticos y acromáticos. Los fundamentos de esta transformación vienen motivados por hechos y constataciones fundamentales tanto perceptuales (control de la ganancia perceptual y experimentos de enmascaramiento) como estadísticas (teoría de la codificación eficiente).The second key point of the present innovation it focuses on the application of a nonlinear transformation perceptual to the chromatic and achromatic channels. The basics of this transformation are motivated by facts and findings fundamentals both perceptual (control of perceptual gain and masking experiments) as statistics (theory of efficient coding).

La transformación perceptual se modela en tres pasos: el primero consiste en un conjunto de filtros lineales aplicados a cada canal (este paso se corresponde con los bloques 4A, 4B y 4C en la Figura 1); a continuación, el contraste de cada coeficiente se obtiene usando el procedimiento descrito en la sección anterior (Bloques 5A, 5B y 5C en la figura 2); y, finalmente, se aplica una transformación no lineal a la salida de la segunda etapa (bloques 7A, 7B y 7C en la Figura 2). Esta última transformación puede ser una transformación no lineal punto-a-punto o una transformación no lineal preferiblemente [15]. En este último caso, la energía de cada coeficiente se normaliza por una combinación de las energías de sus vecinos en frecuencia, y por tanto para cada canal la respuesta a una frecuencia particular se obtiene así:Perceptual transformation is modeled in three steps: the first consists of a set of linear filters applied to each channel (this step corresponds to blocks 4A, 4B and 4C in Figure 1); then the contrast of each coefficient is obtained using the procedure described in the previous section (Blocks 5A, 5B and 5C in Figure 2); Y, finally, a non-linear transformation is applied to the output of the second stage (blocks 7A, 7B and 7C in Figure 2). This last transformation can be a nonlinear transformation point-to-point or a transformation nonlinear preferably [15]. In the latter case, the energy of each coefficient is normalized by a combination of energies of its neighbors in frequency, and therefore for each channel the response to a particular frequency is obtained as follows:

3535

donde el subíndice i = 1, 2, 3 denota el canal; c_{i}(f) son las salidas de los analizadores frecuenciales locales en unidades de contraste; s_{i}(f) son las funciones tipo CSF; \gamma es un exponente; \theta(f) es una función de regularización; u h(f,f') determina la vecindad de interacción entre los coeficientes en la normalización no lineal de la energía.where the subscript i = 1, 2, 3 denotes the channel; c_ {i} (f) are the outputs of local frequency analyzers in contrast units; s_ {i} (f) are the CSF type functions; γ is an exponent; the (f) is a regularization function; u h (f, f ') determines the neighborhood of interaction between the coefficients in the non-linear normalization of energy.

3636

donde 360, |f| viene dado en ciclos por grado (cycles per degree, cpd), y la Gaussiana se normaliza para tener volumen unidad.where 360 , | f | It is given in cycles per degree ( cycles per degree , cpd), and the Gaussian is normalized to have unit volume.

El kernel de interacción anterior es sólo un ejemplo que incluye relaciones frecuenciales dentro de un mismo bloque pero podría generalizarse para que incluyera las interacciones espaciales y cromáticas.The previous interaction kernel is just an example that includes frequency relationships within the same block but could be generalized to include spatial and chromatic interactions.

Este modelo general de normalización divisiva está bien establecido para el caso acromático basado en umbrales incrementales de contrastes acromáticos a partir de sinusoides o bloques Gabor [15] y a partir de experimentos psicofísicos equivalentes. Este modelo acromático se ha empleado con éxito en diversas aplicaciones de procesado de imágenes, incluyendo compresión de imágenes acromáticas [11, 14] y restauración de imágenes acromáticas [13].This general model of divisive normalization is well established for the achromatic case based on thresholds increments of achromatic contrasts from sinusoids or Gabor blocks [15] and from psychophysical experiments equivalent. This achromatic model has been used successfully in various image processing applications, including achromatic image compression [11, 14] and restoration of achromatic images [13].

En el caso cromático, se ha obtenido un comportamiento no lineal similar tanto en el caso sinusoidal como Gabor [16, 21]. Esta es la razón por la que en la presente invención, los parámetros que controlan la no-linealidad en el caso cromático (\gamma,\theta,h) tienen los mismos valores que en el caso acromático. Sin embargo, las sensibilidades frecuenciales totales se adaptan por canal cromático, basándose en trabajos previos con modelos lineales [17].In the chromatic case, a similar nonlinear behavior in both the sinusoidal and Gabor [16, 21]. This is the reason why in the present invention, the parameters that control the non-linearity in the chromatic case (γ, the, h) have the same values as in the case achromatic. However, total frequency sensitivities adapt by color channel, based on previous work with linear models [17].

Dado que todos los resultados psicofísicos y psicológicos se basan en medidas usando redes sinusoidales o funciones de Gabor, los parámetros experimentales han de adaptarse al dominio particular de representación de la imagen (e.g. DCT, Wavelets, ICA, etc.). Si la representación de la imagen es en forma de block-DCT, recomendamos usar los valores particulares ilustrados en las figuras 4, 5 y 6 siguiendo así las recomendaciones de Dr. Uriegas [21], Dr. Watson [22] y Dr. Heeger [23].Since all psychophysical results and psychological are based on measures using sinusoidal networks or Gabor functions, experimental parameters must be adapted to the particular domain of image representation (e.g. DCT, Wavelets, ICA, etc.). If the image representation is in shape from block-DCT, we recommend using the values particulars illustrated in figures 4, 5 and 6 thus following the recommendations of Dr. Uriegas [21], Dr. Watson [22] and Dr. Heeger [2. 3].

La respuesta en el canal acromático se ha calculado bajo dos condiciones de entrada para así ilustrar cómo el modelo en la eq. 35 tiene en cuenta diferentes hechos perceptuales. Primero, la respuesta, r_{1}(f), de un sensor sintonizado a una frecuencia f, se calcula cuando la entrada es c1 = [0, c_{1}(f), 0] (la Figura 7 muestra los resultados de dos sensores específicos: r_{1}(f = 4) y r_{1}(f = 10)). Segundo, la respuesta de un sensor, r_{1}(f), se ha obtenido en presencia de un patrón adicional con una frecuencia espacial diferente, es decir, cuando la entrada es c_{1} = [0, c_{1} (f), 0, c_{1}(f'), 0] (la Figura 9 muestra los resultado obtenidos por los sensores r_{1}(f = 4) y r_{1}(f = 10) cuando las entradas son c_{1} = [0, c_{1}(4), 0, c_{1}(6), 0] y c_{1} = [0, c_{1}(6), 0, c_{1}(10), 0] respectivamente). Los hechos perceptuales introducidos son:The response in the achromatic channel has been calculated under two input conditions to illustrate how the model in eq. 35 takes into account different perceptual facts. First, the response, r_ {1} (f), of a sensor tuned to a frequency f , is calculated when the input is c1 = [0, c_ {1} (f), 0] (Figure 7 shows the results of two specific sensors: r_ {1} (f = 4) and r_ {1} (f = 10)). Second, the response of a sensor, r_ {1} (f), has been obtained in the presence of an additional pattern with a different spatial frequency, that is, when the input is c_ {1} = [0, c_ {1} (f), 0, c_ {1} (f '), 0] (Figure 9 shows the results obtained by the sensors r_ {1} (f = 4) and r_ {1} (f = 10) when the inputs are c_ {1} = [0, c_ {1} (4), 0, c_ {1} (6), 0] and c_ {1} = [0, c_ {1} (6), 0, c_ { 1} (10), 0] respectively). The perceptual facts introduced are:

\bulletSelectividad frecuencial: la visibilidad de las distorsiones depende de la frecuencia espacial. Nótese que en la figura 7, la pendiente de la curva de la respuesta es mayor a 4 cpd que a 10 cpd, y por tanto, se necesita mayor distorsión a 10 cpd para obtener la misma distorsión percibida. En otras palabras, un ruido de 4 cpd es más visible que un ruido de la misma energía a 10 cpd. Este comportamiento general viene dado por la función pasa-banda s_{1}(f) (véase la Figura 5). Frequency selectivity: the visibility of the distortions depends on the spatial frequency. Note that in Figure 7, the slope of the response curve is greater than 4 cpd than 10 cpd, and therefore, greater distortion at 10 cpd is needed to obtain the same perceived distortion. In other words, a noise of 4 cpd is more visible than a noise of the same energy at 10 cpd. This general behavior is given by the pass-band function s_ {1} (f) (see Figure 5).

\bulletAuto enmascaramiento: la cantidad de distorsión necesaria para obtener una distorsión perceptual constante aumenta con el contraste de la entrada. Véase en la Figura 7 cómo \Deltac aumenta con el contraste del estímulo Esto se debe al hecho de que la respuesta se atenúa cuando aumenta el contraste dado por el término de normalización en el denominador de Eq. (35). Auto masking: the amount of distortion needed to obtain a constant perceptual distortion increases with the contrast of the input. See in Figure 7 how Δc increases with stimulus contrast This is due to the fact that the response is attenuated when the contrast given by the normalization term in the denominator of Eq increases. (35).

\bulletEnmascaramiento cruzado: La atenuación (y la correspondiente saturación de la respuesta y disminución de la sensibilidad) también ocurre cuando otros patrones c_{1}(f') con f' \neq f están presentes. Nótese en la Figura 8 que la cantidad de distorsión requerida aumenta con el contraste de la mascara a diferentes frecuencias aumenta. Es más, dada la forma Gaussiana de la vecindad de interacción, los patrones de frecuencias cercanas enmascaran la distorsión mas efectivamente que aquellos de frecuencia muy diferente. Así, la máscara a 6 cpd induce una mayor variación de ruido aceptable en 4 cpd que en 10 cpd. Cross-masking: Attenuation (and the corresponding saturation of the response and decrease in sensitivity) also occurs when other patterns c_ {1} (f ') with f' \ neq f are present. Note in Figure 8 that the amount of distortion required increases with the contrast of the mask at different frequencies increases. Moreover, given the Gaussian form of the interaction neighborhood, nearby frequency patterns mask the distortion more effectively than those of very different frequency. Thus, the mask at 6 cpd induces a greater variation of acceptable noise at 4 cpd than at 10 cpd.

Un comportamiento similar se produce en los canales cromáticos.A similar behavior occurs in the color channels

3.2 Experiment 3: inversion of transform no linear perceptual Invertibility condition

Las transformadas no lineales deben ser invertibles para poder reconstruir la imagen en el decodificador a partir de los datos transmitidos o almacenados. En [11] se propuso un procedimiento de inversión basado en una forma explícita, y se estudió la invertibilidad para el caso acromático. Este procedimiento requiere la inversión de la matriz (I - D_{ri} \cdot h), donde I es la matriz identidad, D_{ri} es la matriz diagonal conteniendo los valores absolutos de los elementos de r_{i}(f), y h es la matriz que modela la relación entre coeficientes. La condición de inversión asegura que todos los autovalores de Dri \cdot h deben ser menores que uno. No existe una garantía teórica de que esta condición se cumpla para todas las imágenes, tanto en el caso acromático propuesto como en el cromático presentado aquí. Por lo tanto, la invertibilidad de las transformadas no lineales cromáticas (Bloques 7.B y 7.C) sólo se pueden comprobar empíricamente.Nonlinear transforms must be invertible to be able to reconstruct the image in the decoder to from the transmitted or stored data. In [11] it was proposed an investment procedure based on an explicit form, and studied the invertibility for the achromatic case. This procedure requires matrix inversion (I - D_ {ri} \ h), where I is the identity matrix, D_ {ri} is the matrix diagonal containing the absolute values of the elements of r_ {i} (f), and h is the matrix that models the relationship between coefficients The investment condition ensures that all Dri \ cdot h eigenvalues must be less than one. Does not exist a theoretical guarantee that this condition is met for all images, both in the proposed achromatic case and in the Chromatic presented here. Therefore, the invertibility of non-linear chromatic transformed (Blocks 7.B and 7.C) only They can check empirically.

Comprobación de la condición de invertibilidad en los casos cromáticos. La condición de invertibilidad fue empíricamente comprobada calculando el mayor autovalor de las matrices Dr2 \cdot h y Dr3 \cdot h para 25600 bloques de 16x16 de un conjunto de imágenes en color [19]. La condición de invertibilidad también fue comprobada para la señal reconstruida \hat{r}_{i}a partir de los pesos cuantizados por SVM a distintas tasas de compresión en el rango [0.2, 2.2] bits/pix. En estos experimentos, el mayor autovalor para cada bloque fue, en todos los casos, menor que 1. Checking the invertibility condition in chromatic cases. The invertibility condition was empirically verified by calculating the highest self-value of the Dr2 \ cdot and Dr3 \ hd matrices for 25600 16x16 blocks of a set of color images [19]. The invertibility condition was also checked for the reconstructed signal \ hat {r} i from the weights quantized by SVM at different compression rates in the range [0.2, 2.2] bits / pix. In these experiments, the highest self-value for each block was, in all cases, less than 1.

4. Support Vector Regression (SVR) with profile adaptive

El tercer bloque del esquema de codificación presentado es la inclusión de un método de aprendizaje máquina ("machine learning") de forma que éste sea el responsable de la selección de los coeficientes más relevante en el dominio concreto de representación. El método debe considerar las características particulares del dominio, y por tanto la distinta importancia perceptual de cada coeficiente en el dominio. En este apartado ilustramos el bloque de aprendizaje-máquina mediante un método específico, la máquina de vectores soporte para regresión ('support vector regression, SVR), que ha demostrado buenos resultados en un gran número de problemas de regresión y aproximación de funciones, empleando para ello pocos parámetros (muestras o vectores soporte) [24]. En la siguiente sección revisamos la SVR estándar. Dado que esta aproximación define un parámetro de insensibilidad constante e independiente de la relevancia perceptual de cada muestra, a continuación presentamos una nueva formulación de la SVR para trabajar en dominios no-Euclideos de representación. Finalmente, resumimos algunas puntualizaciones a este importante característica a tener en cuenta.The third block of the coding scheme presented is the inclusion of a machine learning method ("machine learning") so that it is responsible for the selection of the most relevant coefficients in the domain concrete representation. The method should consider the particular characteristics of the domain, and therefore the different perceptual importance of each coefficient in the domain. In this section we illustrate the block of machine learning through a specific method, the vector machine support for regression ('support vector regression, SVR), which has shown good results in a great number of regression problems and approximation of functions, using few parameters (samples or support vectors) [24]. In the next section we review the standard SVR. Given the this approach defines a constant insensitivity parameter and independent of the perceptual relevance of each sample, to Below we present a new formulation of the SVR for work in non-Euclidean domains of representation. Finally, we summarize some points to This important feature to consider.

4.1. Standard SVR

En el esquema de compresión propuesto, se deben aplicar tres modelos SVR independientemente sobre los coeficientes de cada representación no lineal r(f) = [r_{1}(f), r_{2}(f), r_{3}(f)]^{T}. A continuación, y por claridad, presentamos la notación de la SVR sólo para el caso genérico de una representación no lineal de un canal en concreto, r. En esencia, para el desarrollo del modelo, tenemos un conjunto de parejas de posiciones y coeficientes (f, r), donde
f = 1, ..., N representa el índice spacio-frecuencial de los coeficientes r \in R en el canal transformado perceptual no lineal correspondiente (r_{1}(f), r_{2}(f) o r_{3}(f)).In the proposed compression scheme, three SVR models must be applied independently on the coefficients of each nonlinear representation r (f) = [r_ {1} (f), r_ {2} (f), r_ {3} (f )] T. Next, and for clarity, we present the SVR notation only for the generic case of a non-linear representation of a particular channel, r. In essence, for the development of the model, we have a set of pairs of positions and coefficients (f, r), where
f = 1, ..., N represents the spacio-frequency index of the coefficients r \ in R in the corresponding nonlinear perceptual transformed channel (r_ {1} (f), r_ {2} (f) or r_ {3 }(F)).

La formulación estándar de la SVR mapea los datos de entrada f a un espacio de mayor dimensionalidad donde se aplica una regresión lineal, que está relacionada no linealmente con el espacio de representación de entrada. Por lo tanto, se puede definir el modelo de regresión como:The standard SVR formulation maps the input data f to a larger dimensional space where applies a linear regression, which is not linearly related with the input representation space. Therefore, you can define the regression model as:

3737

donde \hat{r}_{f} son las estimaciones de los coeficientes r, (.,.) representa la operación de producto escalar, \phi es un mapeo no lineal a un espacio de Hilbert de mayor dimensión \phi: 370; w es un vector de pesos en el espacio de características de mayor dimensión; y b es un término de sesgo del modelo.where \ hat {r} f are the estimates of the coefficients r, (.,.) represents the scalar product operation, \ phi is a nonlinear mapping to a larger Hilbert space \ phi: 370 ; w is a vector of weights in the space of larger features; and b is a model bias term.

La SVR consiste en resolver el siguiente problema de regularización con restricciones lineales:The SVR consists in solving the following regularization problem with linear restrictions:

3838

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

sujeto a:subject to:

3939

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

4040

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

4141

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

El parámetro libre \lambda se debe ajustar y controla la importancia del ajuste a los datos (minimización de los errores \varepsilon_{f} y \varepsilon*_{f}) frente a mantener un modelo con pesos pequeños ||w|| (forzar suavidad en el espacio de características). El método emplea la denominada función de coste \varepsilon-insensitiva [24], que penaliza errores mayores que \varepsilon de forma lineal. Nótese que el parámetro \varepsilon representa el error o distorsión permitida.The free parameter \ lambda must be set and controls the importance of data adjustment (minimization of data errors \ varepsilon_ {f} and \ varepsilon * _ f) versus keep a model with small weights || w || (force softness on the features space). The method uses the so-called cost function \ varepsilon-insensitive [24], which penalizes errors greater than \ varepsilon linearly. Notice that the \ varepsilon parameter represents the error or distortion allowed

El procedimiento habitual para resolver este problema de optimización consiste en introducir las restricciones lineales (39)-(41) en la Eq. (38) mediante multiplicadores de Lagrange asociados \alpha_{f}^{(\text{*})}, después se calculan las condiciones de Karush-Kuhn-Tucker, con las que resuelve el problema dual de Wolfe [25]. Esto lleva a tener que resolver un problema de programación cuadrática (QP) en un espacio de parámetros o pesos duales \alpha_{f}^{(\text{*})} en lugar de tener que hacerlo en el espacio de los parámetros del modelo w, de los que se desconoce la dimensión. Un resultado muy importante de esta optimización resulta en que, al hacer nula la derivada del funcional dual, se obtiene una relación del vector de pesos en el espacio de características expresado como combinación lineal de las muestras mapeadas, esto es:The usual procedure to solve this optimization problem is to introduce the restrictions linear (39) - (41) in Eq. (38) by multipliers of Lagrange associates \ alpha_ {f} ^ {(\ text {*})}, then calculate the conditions of Karush-Kuhn-Tucker, with whom Solves Wolfe's dual problem [25]. This leads to having to solve a quadratic programming (QP) problem in a space of parameters or dual weights \ alpha_ {f} ^ {(\ text {*})} instead of having to do it in the space of the parameters of the model w, of which the dimension is unknown. A very important result This optimization results in that, by nullifying the derivative of the functional dual, we obtain a relation of the vector of weights in the feature space expressed as a linear combination of mapped samples, this is:

4242

Ahora, introduciendo (42) en (37), se puede obtener la solución para una entrada particular f' de esta forma: Now, by entering (42) in (37), the solution for a particular entry f 'can be obtained in this way:

4343

que depende explícitamente del producto escalar de las muestras mapeadas y de los pesos duales obtenidos \alpha_{f} y \alpha_{f}^{(\text{*})}. Este resultado nos permite trabajar en un espacio de dimensión superior sin tener que conocer las coordenadas de las muestras en este espacio, sólo los productos escalares entre ellas. Estos productos se denominan funciones kernel, K(f, f'), y definen la función de regresión:which explicitly depends on the scalar product of the mapped samples and on the dual weights obtained α_ {f} and \ alpha_ {f} ^ {(\ text {*})}. This result allows us to work in a space of higher dimension without having to know the coordinates of the samples in this space, only the scalar products between them. These products are called kernel functions, K (f, f '), and define the regression function:

4444

donde el productos interior (escalar) \langle\phi(f), \phi (f')\rangle viene representado por una matriz kernel K(f, f'). Nótese que sólo las muestras con multiplicadores de Lagrange \alpha_{f}^{(\text{*})} distintos de cero intervienen en la solución y se llaman vectores soporte ("support vectors", SVs). La ventaja inmediata del método es que se pueden aproximar funciones de forma muy flexible con relativamente pocos parámetros, llevando este concepto de sparsity a la idea inherente de compresión.where the inner (scalar) \ langle \ phi (f), \ phi (f ') \ rangle products are represented by a kernel matrix K (f, f'). Note that only samples with non-zero Lagrange \ alpha_ {f} ^ {(\ text {*})} multipliers intervene in the solution and are called support vectors ( "support vectors", SVs ). The immediate advantage of the method is that functions can be approached very flexibly with relatively few parameters, bringing this concept of sparsity to the inherent idea of compression.

La matriz de Gram (o kernel) K(f, f') = \langle\phi(f), \phi (f')\rangle se puede ver como una matriz de similitud entre las muestras, y una definición apropiada es la clave para el correcto funcionamiento de un método SVR. En todos nuestros experimentos empleado una función de base radial (RBF):The matrix of Gram (or kernel) K (f, f ') = \ langle \ phi (f), \ phi (f ') \ rangle can be seen as a matrix of similarity between samples, and a definition appropriate is the key to the proper functioning of a method SVR In all our experiments employed a basic function radial (RBF):

45Four. Five

Este método introduce un tercer parámetro libre a ser optimizado, la anchura del kernel o longitud de escala \sigma.This method introduces a third free parameter. to be optimized, the kernel width or scale length \sigma.

4.2. SVR with adaptive insensitivity

El principal problema cuando se considera la solución anterior es que se asume una relevancia igual para cada muestra, lo cual no es cierto en general. Esto se puede resolver empleando un factor de penalización diferente para cada una las muestras f de acuerdo a una determinada función de confianza k_{f}. Esta idea se puede también extender al diseño de una sensibilidad \varepsilon por muestra. La SVR con insensibilidad adaptativa [26] aumenta o disminuye la región de insensibilidad \varepsilon en función de la muestra de entrenamiento. Así, la función a minimizar es:The main problem when considering the previous solution is that it assumes equal relevance for each sample, which is not true in general. This can be solved using a different penalty factor for each of the samples f according to a certain confidence function k_ {f} . This idea can also be extended to the design of one sensitivity per sample. The SVR with adaptive insensitivity [26] increases or decreases the insensitivity region? Depending on the training sample. Thus, the function to minimize is:

4646

y las restricciones sobre las variables auxiliares dependen ahora de la muestra en particular:and restrictions on auxiliary variables now depend on the sample in particular:

4747

Por tanto, ahora cada muestra tiene una sensibilidad propia al error \varepsilon_{f} = \varepsilon / k_{f}, que significa intuitivamente que se permite un error diferente a cada una de ellas en función de su relevancia (en nuestro caso, perceptual). Incluyendo las restricciones (47)-(49) en el correspondiente funcional (46), se puede desarrollar la solución de la misma manera que en el caso estándar, ya que de nuevo se obtiene un problema QP análogo.Therefore, now each sample has a sensitivity to error \ varepsilon_ {f} = \ varepsilon / k_ {f}, which intuitively means that an error is allowed different to each of them depending on their relevance (in our case, perceptual). Including restrictions (47) - (49) in the corresponding functional (46), the solution in the same way as in the standard case, since Again you get an analogous QP problem.

4.3 Punctuations: adaptive insensitivity and work domain

En los esquemas de codificación basados en SVM como los presentados en [5, 12, 14], la señal viene descrita por los multiplicadores de Lagrange asociados a los vectores soporte necesarios para mantener el error de regresión bajo los umbrales \varepsilon_{f}. Aumentar estos umbrales reduce el número de vectores soporte, reduciendo así la entropía de la imagen codificada pero aumentando la distorsión. El punto clave es por tanto la elección de valores adecuados para \varepsilon_{f} de acuerdo con algún criterio apropiado al dominio de trabajo. Por ejemplo, en un dominio Euclideo, se puede trabajar con valores constantes de \varepsilon_{f} para todas las f. Esta condición se cumple en la transformada perceptual no lineal incluida en el esquema de la presente invención, pero no en dominios lineales DCT o wavelet como los empleados en [12], donde cada coeficiente tiene una relevancia diferente en la representación de la señal. Véase [5, 13, 14] para una discusión más detallada.In SVM based coding schemes as presented in [5, 12, 14], the signal is described by Lagrange multipliers associated with support vectors necessary to keep the regression error below thresholds \ varepsilon_ {f}. Increasing these thresholds reduces the number of support vectors, thus reducing the entropy of the encoded image but increasing distortion. The key point is therefore the choice of suitable values for \ varepsilon_ {f} according to some criteria appropriate to the work domain. For example, in a Euclidean domain, you can work with constant values of \ varepsilon_ {f} for all f. This condition is met in the nonlinear perceptual transform included in the scheme of the present invention, but not in DCT or wavelet linear domains as the employees in [12], where each coefficient has relevance different in the representation of the signal. See [5, 13, 14] for A more detailed discussion.

5. Experimental results to evaluate the method behavior

Esta sección ilustra el comportamiento de una implementación del método para la compresión de un conjunto de imágenes en color en comparación con una implementación del estándar JPEG.This section illustrates the behavior of a implementation of the method for compressing a set of color images compared to an implementation of JPEG standard.

5.1. Algorithms, comparison set and experiments

La implementación del método propuesto, identificado por las siglas C-NL-SVR (Color-Non-Linear-SVR), incluye la representación del color en el espacio lineal YUV, la representación de la información especial en el dominio DCT-local con bloques 16X16, transformaciones de contraste como las referidas en la sección 2, transformadas perceptuales no-lineales de cada canal cromático con los parámetros dados en la sección 3, y un proceso de aprendizaje de esta última representación no-lineal mediante SVR tal como se describe en la sección 4. Finalmente, la descripción seleccionada por el algoritmo de regresión (los pesos) son uniformemente cuantizados y codificados de acuerdo con el esquema descrito en la sección 1.The implementation of the proposed method, identified by the acronym C-NL-SVR (Color-Non-Linear-SVR), includes the representation of color in the linear space YUV, the representation of special information in the domain DCT-local with 16X16 blocks, transformations of contrast as those referred to in section 2, transformed non-linear perceptuals of each chromatic channel with the parameters given in section 3, and a process of learning of this last non-linear representation using SVR as described in section 4. Finally, the description selected by the regression algorithm (weights) are uniformly quantized and coded according to the scheme described in section 1.

La implementación de JPEG empleada aquí utiliza la misma representación del color y la misma DCT local con bloques 16X16. En el caso JPEG se usaron matrices de cuantización basadas en las CSFs acromática y cromáticas de Mullen [17].The JPEG implementation used here uses the same color representation and the same local DCT with blocks 16X16. In the case of JPEG, quantization matrices based on in the achromatic and chromatic CSFs of Mullen [17].

Los experimentos se efectuaron sobre un conjunto de imágenes en color formado por 25 imágenes naturales representativas (véase la figura 9). Todos las imágenes de este conjunto se comprimieron a diferentes tasas en el rango [0.1, 2.2] bits/pix. Debe resaltarse que el volumen usual en electrónica de consumo (teléfonos móviles, cámaras digitales de gama baja, cámaras semi-profesionales y cámaras digitales profesionales de gama alta) oscila en el rango entre 1 bit/pix para ficheros JPEG de baja calidad y 2.2 bits/pix para ficheros JPEG de alta calidad.The experiments were performed on a set of color images consisting of 25 natural images representative (see figure 9). All images of this set were compressed at different rates in the range [0.1, 2.2] bits / pix It should be noted that the usual electronic volume of consumption (mobile phones, low-end digital cameras, cameras semi-professional and professional digital cameras high-end) ranges in the range between 1 bit / pix for JPEG files Low quality and 2.2 bits / pix for high JPEG files quality.

En todos los experimentos, se entrenaron tres modelos SVR (uno para cada canal cromático y bloque transformado), y modelizamos el valor (con signo) de los coeficientes de la respuesta, r_{i}(f), i = 1, 2, 3. En nuestro dominio de representación no-lineal, r, utilizamos SVRs con kernel RBF, parámetro de insensibilidad \varepsilon constante, y fijamos un valor de \lambda arbitrariamente alto. En todos los casos, \varepsilon y el tamaño de los pasos de cuantización fueron conjuntamente modificados para satisfacer las especificaciones de distorsión y/o entropía deseada (véase la Figura 1).In all experiments, three were trained SVR models (one for each chromatic channel and transformed block), and we model the (signed) value of the coefficients of the answer, r_ {i} (f), i = 1, 2, 3. In our domain of non-linear representation, r, we use SVRs with RBF kernel, constant insensitivity \ varepsilon parameter, and we set an arbitrarily high value of λ. In all the cases, ε and the size of the quantization steps were jointly modified to meet the specifications of desired distortion and / or entropy (see Figure 1).

Después del entrenamiento, la señal se describe por los multiplicadores de Lagrange de los vectores soporte necesarios para mantener el error por debajo de los umbrales \varepsilon, siendo estos multiplicadores cuantizados uniformemente. El último paso es la codificación entrópica de los pesos cuantizados. La tasa de compresión (o la distorsión introducida) está esencialmente controlada por un factor aplicado a los umbrales \varepsilon.After training, the signal is described by Lagrange multipliers of support vectors necessary to keep the error below thresholds ?, these multipliers being quantized evenly. The last step is the entropic coding of the quantized weights The compression rate (or distortion introduced) is essentially controlled by a factor applied to the thresholds.

5.2. Numerical comparison between C-NL-SVR and JPEG: curves distortion rate and compression gain

Con objeto de evaluar la calidad de las imágenes codificadas a la misma tasa de compression, se utilizaron tres medidas de distorsión: el error cuadrático medio estándar (RMSE), y dos medidas perceptualmente significativas; el Structural SIMilarity (SSIM) index [27] y la métrica S-CIELab [28].In order to evaluate the quality of the images encoded at the same compression rate, three were used distortion measures: the standard mean square error (RMSE), and two significantly significant measures; the Structural SIMilarity (SSIM) index [27] and the S-CIELab metric [28].

Los promedios de las curvas de tasa-distorsión para todas las imágenes del conjunto de entrenamiento de la figura 9 se muestran en la figura 10. En las gráficas de tasa-distorsión las barras indican la desviación estándar del error para cada tasa de compresión. Estas gráficas muestran que el C-NL-SVR propuesto es mayor que JPEG (la linea continua está por debajo de la linea discontinua para las distorsiones y supera a la otra en el caso de la similaridad en el rango de entropías de interés comercial). Sin embargo, una interpretación naïf de la superposición de las barras de desviación estándar puede llevar a cuestionar la significancia de esta ganancia eventual.The average curves of distortion rate for all images in the training set of figure 9 are shown in figure 10. In the rate-distortion graphs the bars indicate the standard error deviation for each rate of compression. These graphs show that the Proposed C-NL-SVR is greater than JPEG (the continuous line is below the dashed line for distortions and outperforms the other in the case of the similarity in the range of entropies of commercial interest). Without However, a naïf interpretation of the overlay of the bars of standard deviation can lead to questioning the significance of this eventual gain.

Nótese sin embargo, que en las gráficas de tasa-distorsión, la superposición entre estas barras no necesariamente significa que el comportamiento sea igual o que la ganancia sea estadísticamente despreciable: en este caso, el solapamiento proviene del hecho de que diferentes imágenes en la base de datos tienen una complejidad intrínsecamente diferente dando lugar a distorsiones muy diferentes cuando son codificadas a una cierta tasa. La Figura 11(a) muestra un ejemplo de lo anterior: en este caso, se muestra el comportamiento tasa-distorsión de los dos métodos (líneas continua y discontinua) para dos imágenes diferentes de la base de datos (líneas negra y azul). Naturalmente, si se promedia sobre tal clase de imágenes la desviación estándar va a ser muy grande, pero el hecho relevante es que la ganancia del método propuesto es consistente en cada imagen: nótese por ejemplo que, tomando algún valor de entropía particular para el resultado JPEG, en ambas imágenes (por ejemplo los puntos rojo o púrpura en la Figura 11(a)), la entropía del resultado C-NL-SVR con la misma distorsión es consistentemente mucho menor.Note however, that in the graphs of distortion rate, the overlap between these bars does not necessarily mean that the behavior is the same or that the gain is statistically negligible: in this case, the overlap comes from the fact that different images in the database have intrinsically different complexity leading to very different distortions when they are encoded to A certain rate. Figure 11 (a) shows an example of what Previous: In this case, the behavior is shown distortion rate of the two methods (continuous lines and discontinuous) for two different images of the database (black and blue lines). Naturally, if averaged over such a class of images the standard deviation is going to be very large, but the relevant fact is that the gain of the proposed method is consistent in each image: notice for example that, taking some particular entropy value for the JPEG result, in both images (for example red or purple dots in Figure 11 (a)), the entropy of the result C-NL-SVR with the same distortion is consistently much smaller.

Por tanto, tiene más sentido definir algún tipo de medida de ganancia de compresión para cada imagen y tasa, y promediar estas ganancias para el conjunto de imágenes en la base de datos.Therefore, it makes more sense to define some type of compression gain measurement for each image and rate, and average these gains for the set of images in the base of data.

Aquí, definimos la ganancia de compresión (compression gain) de un método sobre otro de referencia para una entropía dada, G(H), en términos del cociente de las tasas para el mismo nivel de distorsión:Here, we define the compression gain (compression gain) of one method over another reference for a given entropy, G (H), in terms of the ratio of the rates for the same level of distortion:

4848

Fig. 11(b) muestra un esquema ilustrativo para determinar la ganancia de compresión para una medida de distorsión sobre una imagen particular (zoom de la curva tasa-distorsión RMSE para las líneas negras del gráfico de la izquierda). En el ejemplo que se ilustra en la Figura 12 (b) consideramos los dos casos posibles (ganancia inferior a 1 a baja entropía, y ganancia superior a 1 a alta entropía). Nótese que las ganancias superiores a 1 implican que el método propuesto utiliza menos bits que el método de referencia para representar la imagen a la misma distorsión. Esta ganancia de compresión también puede expresarse en términos porcentuales mediante:Fig. 11 (b) shows an illustrative scheme to determine the compression gain for a distortion measurement on a particular image (zoom of the RMSE rate-distortion curve for the black lines of the graphic on the left). In the example illustrated in Figure 12 (b) we consider the two possible cases (gain less than 1 at low entropy, and gain greater than 1 at high entropy). Note that gains greater than 1 imply that the proposed method uses fewer bits than the reference method to represent the image at the same distortion. This compression gain can also be expressed in percentage terms by:

4949

De forma práctica, para una entropía dada, G = 2 o PG = 100% significa que 20 imágenes C-NL-SVR ocupan el mismo volumen (en bits) que 10 imágenes JPEG (para la misma calidad de reproducción).In a practical way, for a given entropy, G = 2 or PG = 100% means that 20 images C-NL-SVR occupy the same volume (in bits) than 10 JPEG images (for the same quality of reproduction).

Por supuesto, los valores particulares de ganancia de compresión dependerán de la medida de distorsión utilizada y del conjunto de imágenes de calibración.Of course, the particular values of compression gain will depend on the measure of distortion used and of the set of calibration images.

La Figura 12 muestra las ganancias de compresión obtenidas por el método C-NL-SVR sobre JPEG par las tres medidas de distorsión consideradas (RMSE, SSIM y S-CIELab) para cada entropía considerada en el rango de tasas analizado. En estas gráficas hemos incluidos la desviación estándar de las ganancias para valorar la fiabilidad de la aproximación.Figure 12 shows compression gains obtained by the C-NL-SVR method over JPEG for the three distortion measures considered (RMSE, SSIM and S-CIELab) for each entropy considered in The rate range analyzed. In these graphs we have included the standard deviation of earnings to assess the reliability of the approach.

Nótese que en el rango comercialmente significativo [1, 2.2] bits/pix, el método propuesto sobrepasa ampliamente a JPEG y permite mejoras en la compresión del orden de [60, 180]% para RMSE, [25, 60]% para SSIM, y de [80, 275]% para S-CIELAB. Como las barras de desviación estándar no cruzan por debajo de la línea G = 1, la ganancia efectiva (superior a 1) es consistente sobre un amplio rango de imágenes, por tanto, el método propuesto supera claramente a JPEG.Note that in the range commercially significant [1, 2.2] bits / pix, the proposed method exceeds widely to JPEG and allows improvements in the compression of the order of [60, 180]% for RMSE, [25, 60]% for SSIM, and [80, 275]% for S-CIELAB. As standard deviation bars do not cross below the line G = 1, the effective gain (higher a 1) is consistent over a wide range of images, therefore, The proposed method clearly exceeds JPEG.

5.3. Visual comparison

Las Figuras 13-17 muestran resultados representativos de los métodos considerados sobre 5 imágenes ("Parrot", "Lena", "Roof", "Flower3", "Face1") a diferentes tasas en el rango [1.0, 2.2] bits/pix. Los resultados visuales confirman que las ganancias numéricas mostradas en la figura 13 también redundan en una ganancia perceptual. En general, JPEG da lugar a peores resultados (con mas efecto de bloques). Además, merece la pena señalar que los detalles de alta frecuencia se suavizan más en JPEG que el método propuesto. Estos efectos negativos se reducen mediante la introducción de técnicas de aprendizaje de máquina como las SVRs en el dominio perceptual no-lineal. Véanse por ejemplo los ojos y las mejillas de Lena (Fig.14), las plumas del sombrero (Fig.14), la mejor reproducción del patrón de alta frecuencia en el ojo del loro (Fig.13), el listón vertical bajo el tejado la casa (Fig.15), o el patente efecto de bloques en la flor (Fig.16) y en la cara de la figura 17.Figures 13-17 show representative results of the methods considered on 5 images ("Parrot", "Lena", "Roof", "Flower3", "Face1") at different rates in the range [1.0, 2.2] bits / pix . The visual results confirm that the numerical gains shown in Figure 13 also result in a perceptual gain. In general, JPEG results in worse results (with more block effect). In addition, it is worth noting that high frequency details are softened more in JPEG than the proposed method. These negative effects are reduced by the introduction of machine learning techniques such as SVRs in the non-linear perceptual domain. See for example Lena's eyes and cheeks (Fig. 14), the feathers of the hat (Fig. 14), the best reproduction of the high frequency pattern in the eye of the parrot (Fig. 13), the vertical slat under the roof the house (Fig. 15), or the patent effect of blocks on the flower (Fig. 16) and on the face of figure 17.

6. Method implementation

Un posible aparato para implementar el método anteriormente descrito es un sistema de computación que comprende:A possible device to implement the method previously described is a computer system that understands:

- Un interfaz de entrada y salida para recibir datos de imágenes en color que puede ser un simple canal de comunicación o múltiples canales de comunicación.- An input and output interface to receive color image data that can be a simple channel of communication or multiple communication channels.

- Un procesador comunicado con el interfaz de entrada/salida para realizar los pasos del método de acuerdo con código almacenado en sistemas de almacenamiento adecuadamente conectados con el procesador.- A processor communicated with the interface of input / output to perform the steps of the method according to code stored in storage systems properly connected to the processor.

- Sistemas de visualización (monitores) y tarjetas gráficas para la realización (off-line) de los experimentos psicofísicos anteriormente descritos.- Display systems (monitors) and graphics cards for the realization (off-line) of the psychophysical experiments described above.

- Sistemas de memoria para alojar la base de datos utilizada (off-line) en los experimentos anteriormente descritos.- Memory systems to host the base of data used (off-line) in the experiments previously described.

Se pueden introducir modificaciones en el aparato que se acaba de describir, que estarían en todo caso incluidas en el ámbito recogido por las siguientes reivindicaciones.Modifications can be made to the device just described, which would be in any case included in the scope included by the following claims.

       \vskip1.000000\baselineskip\ vskip1.000000 \ baselineskip

Bibliography

[1] G.K. Wallace. The JPEG still picture compression standard. Communications of the ACM, 34(4):31-43, 1991.[1] GK Wallace . The JPEG still picture compression standard. Communications of the ACM , 34 (4): 31-43, 1991 .

[2] M. Naillon and J-B. Theeten. Method of and arrangement for image data compression by means of a neural network. US Patent No. 5,005,206, 1991.[2] M. Naillon and JB. Theeten Method of and arrangement for image data compression by means of a neural network. US Patent No. 5,005,206, 1991 .

[3] R. A. Nanni and G. Abraham. Neural-network-based method of image compression. US Patent No. 6798914, 2004.[3] RA Nanni and G. Abraham . Neural-network-based method of image compression. US Patent No. 6798914, 2004 .

[4] V. Kecman and J. Robinson. Method, apparatus and software for lossy data compression and function approximation. Patent Appl. No. WO 03/050959, 2003.[4] V. Kecman and J. Robinson . Method, apparatus and software for lossy data compression and function approximation. Patent Appl. No. WO 03/050959, 2003 .

[5] G. Gómez, G. Camps-Valls, J. Gutiérrez, and J. Malo. Perceptual adaptive insensitivity for support vector machine image coding. IEEE Transactions on Neural Networks, 16(6):1574-1581, Jun 2005.[5] G. Gómez , G. Camps-Valls , J. Gutiérrez , and J. Malo . Perceptual adaptive insensitivity for support vector machine image coding. IEEE Transactions on Neural Networks , 16 (6): 1574-1581, Jun 2005 .

[6] A. B. Watson. Image data compression having minimum perceptual error. US Patent No. 5,426,512, 1995.[6] AB Watson . Image data compression having minimum perceptual error. US Patent No. 5,426,512, 1995 .

[7] J. Malo, J. Gutiérrez, I. Epifanio, F. Ferri, and J. M. Artigas. Perceptual feed-back in multigrid motion estimation using an improved DCT quantization. IEEE Transactions on Image Processing, 10(10):1411-1427, October 2001.[7] J. Malo , J. Gutiérrez , I. Epifanio , F. Ferri , and JM Artigas . Perceptual feed-back in multigrid motion estimation using an improved DCT quantization. IEEE Transactions on Image Processing, 10 (10): 1411-1427, October 2001 .

[8] J. Malo. Tecnología del color, chapter Almacenamiento y transmisión de imágenes en color, pages 117-164. Col.lecció Materials. Servei de Publicacions de la Universitat de Valencia, Valencia, 2002.[8] J. Malo . Color technology, chapter Storing and transmitting color images, pages 117-164. Col. selected Materials. Servei de Publicacions of the University of Valencia , Valencia, 2002 .

[9] W. Zeng, S. Daly, and S. Lei. An overview of the visual optimization tools in JPEG2000. Signal Processing: Image Communication, 17(1):85-104, 2002.[9] W. Zeng , S. Daly , and S. Lei . An overview of the visual optimization tools in JPEG2000. Signal Processing: Image Communication, 17 (1): 85-104, 2002 .

[10] Y. Navarro, J. Rovira, J. Gutiérrez, and J. Malo. Gain control for the chromatic channels in JPEG2000. Proc. of the 10th Intl. Conf. AIC., 1:539-542, 2005.[10] Y. Navarro , J. Rovira , J. Gutiérrez , and J. Malo . Gain control for the chromatic channels in JPEG2000. Proc. of the 10th Intl. Conf. AIC., 1: 539-542, 2005 .

[11] J. Malo, I. Epifanio, R. Navarro, and R. Simoncelli. Non-linear image representation for efficient perceptual coding. IEEE Transactions on Image Processing, 15(1):68-80, 2006.[11] J. Malo , I. Epifanio , R. Navarro , and R. Simoncelli . Non-linear image representation for efficient perceptual coding. IEEE Transactions on Image Processing , 15 (1): 68-80, 2006 .

[12] J. Robinson and V. Kecman. Combining Support Vector Machine learning with the discrete cosine transform in image compression. IEEE Transactions on Neural Networks, 14(4):950-958, July 2003.[12] J. Robinson and V. Kecman . Combining Support Vector Machine learning with the discrete cosine transform in image compression. IEEE Transactions on Neural Networks , 14 (4): 950-958, July 2003 .

[13] J. Gutiérrez, G. Gómez-Pérez, J. Malo, and G. Camps-Valls. Perceptual image representations for support vector machine image coding. In G. Camps-Valls, J. L. Rojo-Alvarez, and M. Martínez-Ramón, editors, Kernel Methods in Bioengineering, Signal and Image Processing. Idea Group Publishing, Hershey, PA (USA), Jan 2007.[13] J. Gutiérrez , G. Gómez-Pérez , J. Malo , and G. Camps-Valls . Perceptual image representations for support vector machine image coding. In G. Camps-Valls, JL Rojo-Alvarez, and M. Martínez-Ramón, editors, Kernel Methods in Bioengineering, Signal and Image Processing. Idea Group Publishing, Hershey, PA (USA), Jan 2007 .

[14] G. Camps-Valls, J. Gutiérrez, G. Gómez, and J. Malo. On the suitable domain for SVM training in image coding. Journal of Machine Learning Research, 9(1):49-66, 2008.[14] G. Camps-Valls , J. Gutiérrez , G. Gómez , and J. Malo . On the suitable domain for SVM training in image coding. Journal of Machine Learning Research, 9 (1): 49-66, 2008 .

[15] A. B. Watson and J. A. Solomon. A model of visual contrast gain control and pattern masking. Journal of the Optical Society of America A, 14(9):2379-2391, September 1997.[15] AB Watson and JA Solomon . A model of visual contrast gain control and pattern masking. Journal of the Optical Society of America A, 14 (9): 2379-2391, September 1997.

[16] E. Martinez-Uriegas. Color detection and color contrast discrimination thresholds. In Proceedings of the OSA Annual Meeting ILS-XIII, page 81, Los Angeles, 1997.[16] E. Martinez-Uriegas . Color detection and color contrast discrimination thresholds. In Proceedings of the OSA Annual Meeting ILS-XIII , page 81, Los Angeles, 1997 .

[17] K. T. Mullen. The contrast sensitivity of human colour vision to red- green and yellow-blue chromatic gratings. Journal of Physiology, 359:381-400, 1985.[17] KT Mullen . The contrast sensitivity of human color vision to red- green and yellow-blue chromatic gratings. Journal of Physiology , 359: 381-400, 1985 .

[18] J. S. Lim. Two-dimensional signal and image processing. Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 1990.[18] JS Lim . Two-dimensional signal and image processing. Prentice-Hall, Inc., Upper Saddle River, NJ, USA , 1990.

[19] A. Parraga. McGill Calibrated Colour Image Database. Dept. of Vision Science, McGill University, 2003. Available at http://tabby.vision.mcgill.ca.[19] A. Parraga . McGill Calibrated Color Image Database. Dept. of Vision Science, McGill University, 2003 . Available at http://tabby.vision.mcgill.ca.

[20] T. T. Norton, D. A. Corliss, and J. E. Bailey. The Psychophysical Measurement of Visual Function. Butterworth Heinemann, 2002.[20] TT Norton , DA Corliss , and JE Bailey . The Psychophysical Measurement of Visual Function. Butterworth Heinemann, 2002 .

[21] E. M. Uriegas. Personal communication on contrast incremental thresholds for chromatic gratings measured at Stanford research international. Unpublished results, May 1998.[21] EM Uriegas . Personal communication on contrast incremental thresholds for chromatic gratings measured at Stanford research international. Unpublished results , May 1998 .

[22] A. B. Watson. Personal communication on plausible parameters for divisive normalization in DCT basis. Unpublished results, March 2001.[22] AB Watson . Personal communication on plausible parameters for divisive normalization in DCT basis. Unpublished results , March 2001 .

[23] D. Heeger. Personal communication on plausible parameters for divisive normalization in DCT basis. Unpublished results, March 2001.[23] D. Heeger . Personal communication on plausible parameters for divisive normalization in DCT basis. Unpublished results , March 2001 .

[24] A. J. Smola and B. Schólkopf. A tutorial on support vector regression. Statistics and Computing, 14:199-222, 2004.[24] AJ Smola and B. Schólkopf . A tutorial on support vector regression. Statistics and Computing, 14: 199-222, 2004 .

[25] B. Schálkopf and A. Smola. Learning with Kernels - Support Vector Machines, Regularization, Optimization and Beyond. MIT Press Series, 2002.[25] B. Schálkopf and A. Smola . Learning with Kernels - Support Vector Machines, Regularization, Optimization and Beyond. MIT Press Series , 2002 .

[26] G. Camps-Valls, E. Soria-Olivas, J. Pérez-Ruixo, A. Artés-Rodríguez, F. Pérez-Cruz, and A. Figueiras-Vidal. A profile-dependent kernel-based regression for cyclosporine concentration prediction. In Neural Information Processing Systems (NIPS) - Workshop on New Directions in Kernel-Based Learning Methods, Vancouver, Canada, December 2001. No published proceedings. Available at http://www.uv.es/\simgcamps.[26] G. Camps-Valls , E. Soria-Olivas , J. Pérez-Ruixo , A. Artés-Rodríguez , F. Pérez-Cruz , and A. Figueiras-Vidal . A profile-dependent kernel-based regression for cyclosporine concentration prediction. In Neural Information Processing Systems (NIPS) - Workshop on New Directions in Kernel-Based Learning Methods, Vancouver, Canada, December 2001 . No published proceedings. Available at http://www.uv.es/\simgcamps.

[27] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli. Image quality assessment: From error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4):600-612, 2004.[27] Z. Wang , AC Bovik , HR Sheikh , and EP Simoncelli . Image quality assessment: From error visibility to structural similarity. IEEE Transactions on Image Processing, 13 (4): 600-612, 2004 .

[28] X. Zhang and B. Wandell. Color image fidelity metrics evaluated using image distortion maps. Signal Processing, 70(3):201-214, 1998.[28] X. Zhang and B. Wandell . Color image fidelity metrics evaluated using image distortion maps. Signal Processing , 70 (3): 201-214, 1998 .

Claims

1. A method of compressing color images which includes the following steps:

a) reception of the input color image expressed in RGB channels;

b) transformation of RGB channels to a opposing color rendering space to get a channel achromatic (A), a red-green channel (RG), and a channel blue-yellow (YB);

c) transformation of said channels A, RG and YB to a local space-frequency domain, as a sum of a set of base functions multiplied by the set corresponding coefficients and waste coding low frequency;

d) expression of the coefficients of said local spatio-frequency representations of the channels achromatic and chromatic opponents in contrast units perceptually significant;

e) application of transformations non-linear divisive standardization type with parameters adjusted to the use of contrasts in the expression of starting representations, to each of the channels A, RG, YB;

f) estimation of the coefficients of said perceptual nonlinear representations using a machine learning procedure;

g) quantification of the description obtained, followed by the entropic coding of the results after quantization.

2. A color image compression method according to claim 1, characterized in that the local frequency space transform in step c) is selected from: the DCT or any type of transform based on Gabor or wavelet functions .

3. A color image compression method according to any of claims 1-2, characterized in that in step d) the achromatic channel contrast is calculated as a function of a number of relevant parameters obtained by experiments. Psychophysical and numerical and chromatic channel contrasts are calculated from a number of relevant parameters obtained from psychophysical and numerical experiments.

4. A color image compression method according to any of claims 1-3, characterized in that the parameters of the contrast transformation obtained by psychophysical means include the proportions of the average luminance of the components of the components. Chromatic base functions and the parameters obtained through numerical experiments include reasonable values of the maximum color modulation in a representative database of color images.

5. A color image compression method according to any of claims 1-4, characterized in that in step e) the non-linear perceptual transformation applied to the achromatic channel is a divisive normalization with a kernel of Totally general interaction, and the non-linear perceptual transformations applied to the chromatic channels are divisive normalizations with the frequency sensitivity parameters specifically adapted and scaled with respect to the achromatic channel.

6. A color image compression method according to any of claims 1-5, characterized in that in step f) the machine learning process is trained to identify a sequence of base functions and their weights corresponding, guided with appropriate criteria to optimize the compactness of the resulting encoded data stream and / or the quality of the encoded image.

7. A color image compression method according to any of claims 1-6, characterized in that in step f) the machine learning procedure is an SVR procedure.

8. A color image compression method according to any of claims 1-7, characterized in that in step f) the machine learning procedure is a procedure implemented by one of the following methods: networks Neural, spline-based techniques, kernel methods, Bayesian networks, Gaussian processes or fuzzy logic.

9. A color image compression method according to any of claims 1-8, characterized in that in step g) the sub-step of coding the results is performed by the entropic coding of the data stream .

10. A method of compressing color images according to any of claims 1-9, characterized in that in steps e) and g) additional sub steps are included for processing the phase information separately of the amplitude information.

11. Data storage system that Contains a program such that, when running on a processor, Have it perform the method described in any of the claims 1-10.

12. Apparatus for producing compressed data from color images comprising methods of receiving the Input color images and processing methods for:

a) transform said input data to a Opponent color space consisting of an achromatic channel, A, and two color channels, red-green, RG, and blue-yellow YB;

b) transform said channels A, RG and YB to local space-frequency domains as a sum of base functions multiplied by the corresponding set of coefficients and waste coding goes low;

c) express the coefficients of said local space-frequency representations of A, RG e YB, in significantly significant contrast units;

d) apply a transformation non-linear type divisive normalization to contrast channels A, RG and YB;

e) estimate the coefficients of said nonlinear perceptual representation of the image using a machine learning procedure;

f) quantify the description obtained and the coding of the results.

13. Apparatus for producing compressed data of color images according to claim 12 characterized in that it also comprises visualization systems and graphics cards for performing (off-line) psychophysical experiments for obtaining luminance ratios average of the components of the chromatic base functions.

14. Apparatus for producing compressed color image data according to any of claims 12-13 characterized in that it also comprises a color image database for performing numerical experiments to estimate the maximum modulation values of the color in each cardinal chromatic direction.