ES2347537T3

ES2347537T3 - Codificacion de video en primer plano y de fondo; en el que la imagen se divide en porciones.

Info

Publication number: ES2347537T3
Application number: ES02783423T
Authority: ES
Inventors: Miska Hannuksela; Ye-Kui Wang
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2001-11-27
Filing date: 2002-11-22
Publication date: 2010-11-02
Anticipated expiration: 2022-11-22
Also published as: GB2382940A; EP1452037A1; JP4485796B2; CN1593065A; AU2002347489A1; BRPI0214410B1; WO2003047266A1; JP2005510982A; US7206456B2; CN1593065B; HUP0402623A2; DE60237028D1; GB0128359D0; US20070183676A1; EP1452037B1; MXPA04004422A; US20030112867A1; ATE474421T1; BR0214410A; HU229462B1

Abstract

Procedimiento para la codificación de vídeo que comprende: dividir una imagen (100) en un conjunto de bloques de codificación de forma regular que tienen una alineación predeterminada en relación con el área de la imagen (100), correspondiendo cada bloque de codificación (102) con un grupo de elementos de codificación elementales; asociar una orden de escaneado dada con los bloques de codificación (102) a través de la imagen (100) para la formación de porciones de codificación de vídeo; determinar una forma (101) dentro de la imagen (100); seleccionar un subconjunto de bloques de codificación (102) para la forma determinada, en la que el subconjunto de los bloques de codificación define un área que cubre la forma determinada (101); determinar como objeto de codificación separado el subconjunto seleccionado de los bloques de codificación; determinar como objeto de fondo unitario el subconjunto de los bloques de codificación (103) que corresponde a la parte de la imagen (100) que excluye el objeto de codificación separado; codificar el objeto de codificación separado; y codificar como un objeto de codificación el objeto de fondo unitario, comprendiendo la codificación del objeto de fondo unitario: determinar lo largo de dicha orden de escaneado dada una pluralidad de porciones de codificación de bloques de codificación del subconjunto de bloques de codificación (103) que corresponden a la parte de la imagen (100) que excluye el objeto de codificación separado; de manera que una o más de las porciones de codificación está formada por bloques de codificación no contiguos respecto a dicha orden de escaneado dada.

Description

Esta invención se refiere a codificación de vídeo. Se refiere, en particular, aunque no exclusivamente, a codificación de vídeo y transmisión en conexiones de datos propensas a errores.

La transmisión de video requiere la codificación del video en una forma que permita su transmisión. Típicamente, implica una compresión efectiva, debido a la gran cantidad de información contenida en un flujo de imágenes que constituyen un video a transmitir.

ITU-TH.263 es una recomendación de codificación de vídeo de la Unión Internacional de Telecomunicaciones (ITU) que especifica la sintaxis del flujo de bits y la decodificación de un flujo de bits. En esta norma, las imágenes se codifican utilizando luminancia y dos componentes de diferencias de color (crominancia) (Y, CB y CR). Los componentes de crominancia se muestrean cada uno a la mitad de resolución lo largo de ambos ejes de coordenadas en comparación con el componente de luminancia.

Cada imagen codificada, así como el correspondiente flujo de bits codificados, se organiza en una estructura jerárquica con cuatro capas, que son, de arriba a abajo, una capa de imagen, una capa de segmento de imagen, una capa de macrobloque (MB) y una capa de bloque. La capa de segmento de imagen puede ser un grupo de capas de bloques o una capa de porciones.

Los datos de la capa de imagen contienen parámetros que afectan a la totalidad del área de la imagen y la decodificación de los datos de la imagen. Por defecto, cada imagen se divide en grupos de bloques. Un grupo de bloques (GOB) generalmente comprende una fila de macrobloques (16 líneas de píxeles subsecuenciales) o un múltiplo del mismo. Los datos de cada GOB consisten en una cabecera GOB opcional, seguida de datos de MB. Como alternativa a los GOB se pueden utilizar las llamadas porciones, donde cada imagen se divide en porciones en lugar de GOB. Los datos de cada porción consisten en una cabecera de porción seguida de los datos de MB.

Las porciones definen regiones dentro de una imagen codificada. Cada región es un número de MB en un orden de exploración normal. No hay dependencias de predicción a través de los límites de las porciones dentro de la misma imagen codificada. Sin embargo, la predicción temporal generalmente puede atravesar los límites de la porción a menos que se utilice el UIT-T H.263 Anexo I (Decodificación de Segmento Independiente). Las porciones pueden ser decodificadas independientemente del resto de los datos de la imagen (excepto para el encabezado de la imagen). En consecuencia, las porciones mejoran la resistencia al error en las redes con pérdida de paquetes.

Cada GOB o porción se divide en MB. Un MB se refiere a 16 x 16 píxeles de datos de luminancia y los 8 x 8 píxeles de datos de crominancia espacialmente correspondientes. En otras palabras, un MB se compone de cuatro bloques de luminancia 8 x 8 y dos bloques de crominancia 8 x 8 espacialmente correspondientes.

En lugar de utilizar las regiones formadas por un número de MBs en el orden de exploración normal, se propusieron regiones rectangulares que consisten en macrobloques NxM (N, M mayor o igual a uno) y que sustituyen a las estructuras de porción y GOB en la ITUT H.263 por parte de Cheung Sen-ching, "Proposal on using Region Layer in H.263+", ITU-T SG15 WP1 documento LBC-96-213, Julio 1996. Sin embargo, la propuesta no fue adoptada para la H.263.

En el modo de Decodificación de Segmento Independiente de ITU-T H.263 (UITT H.263 Anexo I), los límites de segmento (tal como se define por los límites de las porciones o los límites superiores de los GOB para los que se envían cabeceras de GOB, o los límites de la imagen, siempre que limiten una región de la forma más pequeña) son tratados de forma similar a los límites de fotografía, lo que elimina todos los errores de propagación de las porciones vecinas. Por ejemplo, los errores no se pueden propagar por compensación de movimiento o filtrado de bucle de desbloqueo de las porciones vecinas. Los límites de los segmentos sólo pueden cambiarse en imágenes INTRA, es decir, cuando no se requiere intercodificación.

El proyecto de norma ISO/IEC 14496-2:1999 (E), conocido como visual MPEG-4

o vídeo MPEG-4, es un proyecto de norma que tiene un diseño centrado en torno a una unidad básica de contenido llamada objeto audio-visual (AVO). Ejemplos de AVO son un músico (en movimiento) en una orquesta, el sonido generado por este músico, la silla donde está sentado, el fondo (posiblemente en movimiento) detrás de la orquesta, y texto explicativo para el paso de flujo. En el video MPEG-4, cada AVO está representado por separado y se convierte en la base de un flujo independiente.

La codificación de vídeo en movimiento natural en dos dimensiones es una parte del vídeo MPEG-4. El vídeo MPEG-4 es capaz de codificar objetos rectangulares convencionales de vídeo y objetos de vídeo en dos dimensiones de forma arbitraria. El video de base AVO se llama objeto de vídeo (VO). El VO puede ser escalable, es decir, se puede fraccionar, codificar, y enviar en dos o más capas de objeto de vídeo (VOL). Uno de estos VOL se llama capa de base, que debe recibir todos los terminales con el fin de mostrar cualquier tipo de vídeo. Los VOL restantes se llaman capas de mejora, que se pueden utilizar en caso de errores de transmisión o de capacidad de transmisión restringida. En caso de codificación de

vídeo no escalable, se codifica un VOL por VO.

Una instantánea en el tiempo de una capa de objeto de vídeo se llama un plano de objeto de vídeo (VOP). Para un vídeo rectangular, corresponde a una imagen o a un fotograma. Sin embargo, en general, los VOP pueden tener una forma arbitraria. Cada VOP se puede dividir en paquetes de vídeo. Cada VOP y paquete de video se divide en macrobloques de manera similar a la UIT-T H.263. La información del color (YUV) del macrobloque se codifica de manera similar a la UIT-T H.263, es decir, el macrobloque se divide en bloques de 8 x 8. Además, si el VOP tiene una forma arbitraria, la forma del macrobloque se codifica tal como se explica en el párrafo siguiente.

Los VO de video MPEG-4 pueden ser de cualquier forma, y, además, la forma, el tamaño y la posición del objeto pueden variar de un fotograma a otro. En cuanto a su representación general, un objeto de vídeo se compone de tres componentes de color (YUV) y un componente alfa. El componente alfa define la forma del objeto en base de imagen a imagen. Los objetos binarios forman la clase más sencilla de objetos. Están representados por una secuencia de mapas alfa binarios, es decir, imágenes bidimensionales, donde cada píxel es negro o blanco. El vídeo MPEG-4 ofrece un modo sólo de forma binaria para la compresión de estos objetos. El proceso de compresión se define exclusivamente por un codificador de forma binaria para la codificación de la secuencia de mapas alfa. Además de los objetos binarios, se pueden utilizar un mapa alfa de escala de grises para definir la opacidad del objeto. El límite del objeto se codifica usando un mapa alfa binario, mientras que la información alfa de escala de grises se codifica de manera similar a la codificación de textura utilizando la transformada DCT. Además de la secuencia de la forma del objeto y de las definiciones de opacidad, la representación comprende los colores de todos los píxeles en el interior de la forma del objeto. El vídeo MPEG-4 codifica estos objetos utilizando un codificador de forma binaria y a continuación un algoritmo basado en la transformada discreta del coseno de movimiento compensado (DCT) para la codificación de la textura interior.

También es conocido que es ventajoso segmentar un flujo de bits de vídeo en porciones de diferentes prioridades, por ejemplo, mediante la codificación de video escalable, la partición de datos, o la codificación basada en regiones descrita anteriormente.

El documento WO 99/49412 presenta, de acuerdo con su resumen, un procedimiento y un aparato para la codificación de datos digitales de imágenes, en el que una región de interés se puede especificar antes de que se haya iniciado el proceso de codificación

o durante el proceso de codificación, de modo que la prioridad de las salidas del codificador se modifican con el fin de poner más énfasis en la región de interés, aumentando así la velocidad y/o aumentando la fidelidad de la región reconstruida de interés. El sistema, por lo tanto, permite una reconstrucción más efectiva de las imágenes digitales en líneas de comunicación.

El documento WO 99/66731 describe, de acuerdo con su resumen, un sistema y un procedimiento para la visualización de imágenes insertadas en una imagen de fondo en un sistema de televisión interactiva. La presente invención se puede utilizar, por ejemplo, para proporcionar una interfaz gráfica de usuario (GUI) en el sistema de televisión interactiva. En la realización preferida, el sistema de televisión interactiva comprende un sistema de suministro de vídeo para proporcionar contenido de vídeo, y al menos una televisión por suscripción que incluye una pantalla de visualización, en donde la televisión por suscripción se acopla al sistema de suministro de vídeo. Según este documento, el sistema de suministro de vídeo proporciona una imagen de fondo comprimida y una o más imágenes insertadas comprimidas, donde las imágenes de fondo e insertadas tienen estructuras de porción separadas, de la figura 4B. Las imágenes insertadas comprimidas pueden representan, cada una, una porción de la pantalla de GUI. La televisión por suscripción recibe la imagen de fondo comprimida y una o más imágenes insertadas comprimidas, y funciona para pegar al menos una de las imágenes comprimidas insertadas en la imagen de fondo comprimida. El pegado se realiza preferiblemente en respuesta a la ejecución del programa interactivo y/o la entrada del usuario. La televisión por suscripción decodifica entonces la imagen de fondo comprimida incluyendo la al menos una imagen insertada comprimida y muestra la imagen de fondo con la al menos una imagen insertada incorporada a la imagen de fondo. Cuando las imágenes insertadas son elementos GUI, esta visualización opera para mostrar la GUI.

El documento WO 00/22832 describe, de acuerdo con su resumen, un procedimiento y un sistema de codificación y transmisión de imágenes fijas que tienen al menos una región de interés (ROI), los coeficientes ROI de una imagen transformada en el dominio de frecuencia, Preferiblemente usando una transformada de ondoletas se codifican de manera que se transmiten primero y se pueden decodificar mediante un receptor sin transmisión de la frontera de la ROI. En una realización preferida, los coeficientes que pertenecen al ROI se desplazan de manera que el mínimo coeficiente ROI es mayor que el mayor coeficiente de fondo. Un receptor puede entonces realizar un proceso inverso para obtener así el ROI. Al especificar cuánto deben desplazarse los coeficientes para evitar el envío de información de forma, se logran una serie de ventajas. Así, es posible evitar el envío de la información de la forma y evitar la codificación de la forma en el lado del codificador. Además, no hay necesidad de decodificador de forma en el lado receptor, y no hay necesidad de que el receptor produzca la máscara del ROI. Además, en otra realización preferida, el desplazamiento (u operaciones de escalado) requerido en el codificador y el decodificador también se evitan.

El documento WO 99/19839 describe, de acuerdo con su resumen, que en un procedimiento y un dispositivo para la transmisión de imágenes digitalizadas codificadas de transformada S+P se calcula una máscara mediante la cual una región de interés (ROI) se puede transmitir sin pérdidas, mediante la cual el ROI se puede transmitir y recibir sin pérdidas, y todavía manteniendo una buena relación de compresión para la imagen en conjunto. Esto es posible ya que ninguno o muy pocos bits se pueden utilizar para el resto de la imagen. La máscara calculada también puede utilizarse para la transmisión de los coeficientes necesarios para una región sin pérdidas de interés durante cualquier etapa de la transmisión.

El documento WO 98/44739 describe, de acuerdo con su resumen, un sistema de segmentación automática que distingue los objetos en primer plano y de fondo primero mediante la codificación y la decodificación de una primera imagen en una primera referencia. Los macrobloques se extraen de una segunda imagen en una segunda referencia. Los macrobloques se asignan a las matrices de píxeles en la primera imagen decodificada. Se derivan residuos de fotogramas que representan la diferencia entre los macrobloques y las matrices de píxeles correspondientes en la imagen previamente decodificada. Un vector global que representa el movimiento de la cámara entre la primera y segunda imágenes se aplica a los macrobloques en la segunda imagen. Los vectores globales se asignan a los macrobloques en una segunda matriz de píxeles en la primera imagen decodificada. Se derivan residuos globales entre los macrobloques y las segundas matrices de imágenes asignadas en la primera imagen. Los residuos globales se comparan con los residuos de fotogramas para determinar qué macrobloques se clasifican como de fondo y de primer plano. Los macrobloques clasificados como de primer plano se mezclan a continuación en un mosaico.

Sin embargo, la codificación de vídeo escalable y la partición de datos sufren de dependencias entre los diferentes elementos de codificación. Una capa de mejora, por ejemplo, no se puede descodificar correctamente si la capa de base no ha sido recibida correctamente. En consecuencia, una partición de baja prioridad no sirve de nada si la partición correspondiente de alta prioridad no se ha recibido. Esto hace que el uso de la codificación de video escalable y la partición de datos desfavorable en algunos casos. La codificación escalable y la partición de datos no proporcionan medios para manejar regiones espaciales de interés de manera diferente a las zonas menos subjetivamente importantes. Por otra parte, muchas formas de codificación escalable, tal como la relación de señal convencional y ruido (SNR) y la escalabilidad espacial, sufren de una eficiencia de compresión negativa comparada con la codificación no escalable. En la codificación de video basada en regiones, por otra parte, los GOB o porciones pueden contener macrobloques de importancia subjetiva diferente. Así

pues, ninguna priorización de GOB y porciones es típicamente posible.

La codificación de objetos de forma arbitraria en la actualidad es demasiado compleja para dispositivos portátiles. Esto también se ve ejemplificado por el hecho de que las herramientas de codificación de la forma del vídeo MPEG-4 están generalmente excluidas de los servicios móviles de comunicaciones de vídeo planeados para teléfonos móviles de tercera generación.

Es un objetivo de la invención proporcionar una alternativa adecuada para comunicación móvil, que sin embargo, proporcione al menos algunas de las ventajas similares a las ofrecidas por el vídeo MPEG-4.

Según un primer aspecto de la invención, se proporciona un procedimiento de codificación de vídeo tal como se define en la reivindicación 1 adjunta.

Es una ventaja de la invención que un objeto de codificación del fondo se pueda determinar como un objeto unitario de codificación que se define como la parte de la imagen que no pertenece a ningún objeto independiente de codificación y que los objetos de codificación separados no necesitan ajustarse a las formas que cubren.

Preferiblemente, el objeto de codificación de fondo se codifica usando el al menos un objeto separado de codificación.

El objeto del fondo no puede ser reconstruido sin la determinación de la posición, la forma y el tamaño de cada objeto separado de codificación. Si algún paquete de datos que lleva un objeto separado de codificación se ha perdido, no hay ninguna posibilidad de decodificar el objeto de codificación de fondo de ninguna manera. La determinación de la posición y del tamaño del al menos un objeto separado de codificación indica la presencia de datos de vídeo del al menos un objeto separado de codificación. Así existe una alta probabilidad de éxito en la predicción de un objeto de codificación de fondo utilizando el al menos un objeto separado de codificación, de modo que es típicamente razonable para codificar el objeto de codificación de fondo utilizando el al menos un objeto separado de codificación.

Preferiblemente, la codificación de vídeo del objeto de codificación de fondo comprende además la sub-etapa de definición de porciones de codificación en una orden de escaneado, de manera que las porciones están compuestas por bloques consecutivos de codificación que se saltan los objetos básicos de codificación que se incluyen en el al menos un objeto separado de codificación.

Preferiblemente, la orden de escaneado escanea primero una línea horizontal y procede verticalmente a continuación a una siguiente línea horizontal. Alternativamente, la orden de escaneado escanea primero una línea vertical y luego procede horizontalmente proceder a una línea vertical siguiente. Sin embargo, puede utilizarse cualquier otra orden de escaneado.

Preferiblemente, la codificación de vídeo del al menos un objeto separado de codificación comprende además la sub-etapa de definir porciones de codificación en cada objeto separado de codificación en una orden de escaneado, de manera que las porciones se componen en la orden de escaneado de los bloques de codificación incluidos en por lo menos un objeto independiente de codificación.

Es una ventaja de la invención que los objetos de interés subjetivo alto se puedan codificar en vídeo por separado del fondo con necesidades de cómputo reducidas, ya que el área definida para una forma se ajusta a la alineación predeterminada de los bloques de codificación.

Preferiblemente, los bloques de codificación son macrobloques.

Preferiblemente, el área que cubre la por lo menos una forma determinada es un área rectangular, con lo cual un cuadrado es un subconjunto de rectángulos.

Preferiblemente, los objetos de codificación separados se definen en un orden decreciente de importancia subjetiva.

Preferiblemente, un objeto separado de codificación subjetivamente menos importante excluye totalmente los bloques de codificación que definen el área que cubre la al menos una forma determinada correspondiente a un objeto separado de codificación subjetivamente más importante. Esto permite el recorte automático de la superposición de las esquinas de un rectángulo definido por un objeto de codificación subjetivamente menos importante, en caso que de otra manera se solapen con las zonas delimitadas por una zona subjetivamente más importante.

Preferiblemente, la codificación de vídeo del al menos un objeto separado de codificación es independiente de la codificación de vídeo del objetos de fondo con el fin de inhibir la propagación de errores en el al menos un objeto separado de codificación.

El uso de codificación de vídeo independiente del al menos un objeto separado de codificación aumenta la robustez de la codificación de vídeo, aunque entonces la posición del al menos un objeto separado de codificación no se puede cambiar sin necesidad de enviar una intra-imagen que no se basa en imágenes anteriores.

Alternativamente, la codificación de vídeo del al menos un objeto separado de codificación se permite que dependa de la codificación de vídeo del objeto de fondo y sobre cualquier otro del al menos un objeto separado de codificación.

Esta realización provoca básicamente que un límite de la sub-imagen del al menos un objeto separado de codificación sea tratado como un límite de porción. La posición y el tamaño del al menos un objeto separado de codificación se puedan cambiar a continuación, incluso si el al menos un objeto separado de codificación se está inter-codificando.

Preferiblemente, la codificación de vídeo del objeto de fondo se permite para usar el al menos un objeto separado de codificación para aumentar la eficiencia de la compresión de vídeo.

Preferiblemente, el procedimiento también comprende la etapa de determinar la información que caracteriza la posición y el tamaño del al menos un objeto separado de codificación para su uso en la descodificación de la imagen.

Preferiblemente, la etapa de determinación de información que caracteriza el tamaño del al menos un objeto separado de codificación comprende la sub-etapa de computar una anchura de referencia basada en la anchura de la imagen y expresar la anchura del al menos un objeto separado de codificación utilizando la anchura de referencia.

Preferiblemente, la etapa de determinación de la información que caracteriza el tamaño del al menos un objeto separado de codificación comprende la sub-etapa de computar una altura de referencia basada en la altura de la imagen y expresar la altura del al menos un objeto separado de codificación utilizando la altura de referencia.

Preferiblemente, el procedimiento también comprende la etapa de caracterizar el tipo de cada uno de por lo menos un objeto separado de codificación para su uso en la descodificación de la imagen.

Preferiblemente, el procedimiento también comprende la etapa de asignar un identificador diferente para el por lo menos un objeto separado de codificación para correlacionar cada uno del por lo menos un objeto por separado de codificación y las características correspondientes.

Preferiblemente, la codificación de vídeo del al menos un objeto separado de codificación utiliza una densidad de etapa de cuantificación superior a la codificación de vídeo del objeto de fondo.

Preferiblemente, el procedimiento también comprende la etapa de protección de errores del al menos un objeto separado de codificación contra la corrupción de los datos.

Preferiblemente, el procedimiento también comprende la etapa de protección de errores del objeto de fondo contra la corrupción de datos.

Preferiblemente, el por lo menos un objeto separado de codificación está más protegido contra errores contra la corrupción de datos que el objeto de fondo.

Preferiblemente, la protección de errores desigual se utiliza para dar prioridad a los paquetes de datos que contienen información relacionada con el al menos un objeto separado de codificación.

Preferiblemente, la determinación de por lo menos una forma en una imagen se

basa en su apariencia.

Alternativamente, la determinación de por lo menos una forma dentro de una imagen se basa en la elección de campos de movimiento uniforme.

Preferiblemente, cada uno de los al menos un subconjunto de bloques de codificación define una sub-imagen rectangular, en la que el cuadrado es un sub-conjunto de rectángulos.

Preferiblemente, los bloques de codificación son macrobloques.

Preferiblemente, la decodificación de video del al menos un objeto separado de codificación es independiente de la decodificación de video del objeto de fondo.

Es una ventaja del procedimiento que pueda utilizarse para diversas aplicaciones tales como para el transporte prioritario de las regiones subjetivamente importantes. Además, permite la "escalabilidad de resolución de la imagen", es decir, la imagen se puede escalar para que quepa en una pantalla con una resolución demasiado pequeña para la imagen completa, mediante la decodificación solamente de un objeto separado de codificación de un tamaño adecuado.

Según un segundo aspecto de la invención, se proporciona un codificador de vídeo tal como se define en la reivindicación 7 adjunta.

Según un tercer aspecto de la invención, se proporciona un producto de programa de ordenador que comprende medios de programa ejecutables en un ordenador para hacer que dicho aparato implemente el procedimiento del primer aspecto.

Diversas realizaciones de la presente invención han sido mostradas sólo con referencia a un aspecto de la invención por motivos de brevedad.

La invención se describirá ahora, a modo de ejemplo solamente, con referencia a los dibujos adjuntos, en los que:

La figura 1 muestra una imagen que se codificará en relación con macrobloques definido para la codificación de vídeo;

La figura 2 muestra un dibujo principal de porciones de codificación de vídeo formadas para la imagen de la figura 1 de acuerdo con una realización preferida de la invención;

La figura 3 muestra un diagrama de flujo de la codificación de vídeo de una imagen de acuerdo con la realización preferida de la invención;

La figura 4 muestra un diagrama de flujo de la descodificación de una imagen de acuerdo con la realización preferida de la invención;

La figura 5 muestra un diagrama de flujo de la descodificación de una región de

fondo de acuerdo a la realización preferida de la invención en caso de que todas las sub-imágenes de la región de frente no han sido decodificadas correctamente;

La figura 6 muestra un diagrama de bloques de un dispositivo de comunicación móvil según la realización preferida de la invención; y

La figura 7 muestra un sistema de acuerdo a la modalidad preferida de la invención.

Una realización preferida de la invención puede ser considerada como que completa la H.26L UIT-T mediante la adición de una capa de codificación de sub-imágenes entre la imagen y las capas de porción. La capa de codificación de sub-imágenes forma las llamadas sub-imágenes (SP), que suelen ser rectangulares (SP o SP FR de la región en primer plano) a excepción de la llamada SP región de fondo (BR). La SP BR consiste en el área de la imagen que no entra en cualquiera de las SP rectangulares. Todas las SP son codificadas primero en la orden de escaneado, es decir, las porciones comienzan desde las SP y las porciones típicamente se eligen siguiendo el orden de prioridades subjetivas, de manera que la mayoría de las SP subjetivamente más importantes son codificadas primero y la SP BR se codifica la última. Las SP no se solapan, es decir, toda la imagen codificada consiste en todas las SP.

La figura 1 muestra una imagen 100 para ser codificada en relación con macrobloques (MB) definida para la codificación de vídeo. La imagen comprende un corazón (una animación de dibujos) que se considera como un objeto de primer plano 101 que es de interés principal. Una sub-imagen de región en primer plano rectangular (SP FR) 102 se ha dibujado alrededor del objeto en primer plano a lo largo de las fronteras de MB. Alrededor del objeto en primer plano 101, la imagen también tiene un fondo. La porción del fondo que rodea la SP FR 102 se conoce como la sub-imagen de región de fondo 103 (SP BR). Téngase en cuenta que también parte del fondo puede pertenecer a la SP FR 102, como es el caso aquí. La figura 1 también muestra los MB asignados en orden ascendente numerados del 0 a 79, donde el primer MB (0) se encuentra en la esquina superior del lado izquierdo y la numeración crece hacia la derecha y continúa después de cada fila desde la izquierda de la fila siguiente.

La figura 2 muestra un dibujo principal de porciones de codificación de vídeo formadas para la imagen de la figura 1 de acuerdo con una realización preferida de la invención. La imagen se segmenta en porciones de codificación de vídeo usando un tamaño de porción de 5 macrobloques. La segmentación se inicia desde la SP FR más importante y la SP BR se segmenta en porciones después de que todas las SP FR (en las figuras 1 y 2 solamente una SP FR está presente). A las porciones se les dan números de porción empezando a partir de 0. Obsérvese que la porción 0 ocupa 3 MB de la primera fila en la SP FR y 2 MB de la segunda fila en la SP FR, y particularmente la última porción de la SP FR se cierra antes de la SP BR se codifique. Los MB en la SP BR luego se segmentan en porciones en la orden de escaneado, de manera que cada porción, pero el último se compone generalmente del número máximo de MB permitido para una sola porción. Las porciones simplemente pasan por alto cada SP FR. Las porciones más grandes generalmente se traducen en menor cantidad de redundancia requerida para codificar una imagen.

La figura 3 muestra un diagrama de flujo del proceso de codificación de vídeo de acuerdo con la realización preferida de la invención. El diagrama de flujo se inicia desde el bloque 310, en el que se ha recibido una imagen de vídeo codificada.

Después de empezar, el proceso continúa al bloque 320, donde se intenta encontrar uno o más objetos en primer plano 101. El bloque 330 a continuación comprueba si un objeto en primer plano 101 ha sido encontrado. Si no, el bloque 331 codifica la imagen como un bloque único de codificación y el proceso termina. En caso afirmativo, el bloque 340 recoge el objeto en primer plano más importante 101 que aún no se ha codificado. El bloque 350 determina entonces la región más pequeña posible de macrobloques (SP FR 102) que cubre el objeto en primer plano recogido 101. Típicamente, las regiones posibles se limitan a las de una forma determinada, tales como las formas rectangulares (incluyendo cuadrados), ya que esta forma proporciona una codificación y descodificación de vídeo simple que se adapta bien para dispositivos portátiles. En realizaciones alternativas de la invención, otras formas predeterminadas diferentes de las posibles regiones pueden utilizarse siempre que exista un mecanismo acordado para el codificador de vídeo para informar al decodificador de la forma utilizada.

En el bloque 360, SP FR 102 a continuación se codifica en vídeo. Después de eso, el bloque 370 comprueba si todavía hay un objeto en primer plano 101 aún no codificado. En caso afirmativo, el proceso vuelve al bloque 340, de lo contrario se procede al bloque 380. En el bloque 380, la SP BR, es decir, los MB no pertenecientes a ninguna SP FR, es el vídeo codificado. El proceso entonces termina en el bloque 390.

En una realización alternativa, el bloque 350 determina la región más pequeña posible de macrobloques (SP FR 102) que cubre el objeto en primer plano recogido 101 en una serie de imágenes consecutivas. En otra realización alternativa, el bloque 350 determina la región más pequeña posible de tales macrobloques que se reserva una cantidad de espacio alrededor del objeto en primer plano elegido. En incluso otra realización, la posible región de macrobloques es de un tamaño y/o forma predeterminados.

La figura 4 muestra un diagrama de flujo del proceso de decodificación. Debe indicarse, sin embargo, que la decodificación no forma parte de la invención. El proceso se inicia desde el bloque 410, donde la información de video codificada correspondiente a una imagen de vídeo codificada se ha recibido. En el bloque 420, el decodificador a continuación intenta encontrar alguna SP FR codificada. En el bloque 430 se comprueba si se ha encontrado alguna SP FR. Si no, entonces se intenta decodificar la imagen como un objeto único de codificación en el bloque 431, de lo contrario el proceso continúa al bloque 440. El bloque 440 recoge la SP FR más importante que aún no ha sido decodificada. En el bloque 450, la SP FR recogida se descodifica a continuación y el bloque 460 comprueba si todavía hay una SP FR aún no decodificada. En caso afirmativo, el proceso vuelve al bloque 440, de lo contrario se procede al bloque 470. En el bloque 470, se comprueba si todas las SP FR han sido decodificadas correctamente. Si no, el proceso continúa desde el bloque A que se muestra en la Figura 5. En caso afirmativo, el proceso pasa al bloque 480, en el que la SP BR se decodifica. Después de esto, el proceso termina en el bloque 490.

La figura 5 muestra un diagrama de flujo de la decodificación de una SP BR en caso de que todas las SP FR no hayan sido decodificadas correctamente. La decodificación se inicia desde el bloque 510. En el bloque 520 que se comprueba si se conoce la posición y tamaño de cada SP FR. En el modo independiente de decodificación de sub-imágenes, la posición y tamaño de las sub-imágenes sólo se puede cambiar en imágenes INTRA (de manera similar a la Decodificación independiente de segmentos H.263). Este hecho puede ser utilizado en aplicaciones prácticas. El conocimiento de la posición y del tamaño de cada SP FR es importante para la decodificación de la SP BR, ya que la SP BR sólo se puede determinar si se conocen la posición y el tamaño de cada SP FR. Si no, el decodificador no puede decodificar la SP BR en absoluto y el proceso finaliza, de lo contrario el decodificador procede al bloque 530. En el bloque 530 se comprueba si la SP BR ha sido codificada utilizando cualquier SP FR dañada. Puede ser que la SP BR haya sido codificada sin referencia alguna al MB de la SP FR, en cuyo caso la respuesta está obligada a ser no y el proceso continúa al bloque 550. En el bloque 550, la SP BR se decodifica. Sin embargo, si la SP BR ha sido codificada utilizando alguna SP FR dañada, el proceso continúa del bloque 530 al bloque 540, ocultando los errores de la SP BR. Básicamente, cuando se conocen la posición y el tamaño de cada SP FR, la SP BR se puede calcular con una SP BR anterior y/o SP(s) FR presente(s). Al nivel más simple, la primera SP BR puede utilizarse como tal siempre que todas las SP FR sean las mismas que con la imagen anterior, teniendo en cuenta su tamaño y su posición. En la codificación de vídeo hay típicamente mucha la redundancia temporal que permite ocultar este tipo de errores. Además, la ocultación de errores de la SP BR a menudo puede utilizar la representación codificada de la SP BR para su recuperación.

El proceso de codificación se describe a continuación con más detalle. En la

realización preferida, pueden utilizarse dos diferentes modos de codificación para la codificación de las SP FR: codificación de SP independiente y modo de predicción normal. En la codificación de SP independiente, los límites de las SP FR son tratados como los límites de la imagen. La segmentación SP es estática sobre un grupo de imágenes (o cualquier otra agrupación similar de imágenes). Tanto la predicción temporal como espacial sobre los límites de SP se impide al codificar la SP FR, para limitar la propagación de errores. La SP BR, sin embargo, puede ser codificada permitiendo la predicción temporal y espacial sobre los límites de la SP BR, ya que la SP BR se considera que tiene una importancia menor subjetiva y no tiene por qué ser protegida contra la propagación de errores. Por ejemplo, cuando se utilizan vectores de movimiento en codificación de vídeo de movimiento compensado no se apuntan fuera de la SP FR. Ni la predicción espacial ni el filtrado de bucle se permiten a través de los límites de la SP FR.

La SP BR, por lo tanto, se puede predecir usando la SP FR y la SP BR no se puede determinar en absoluto si alguno de los paquetes de datos que caracterizan la SP FR no se ha recibido por parte del decodificador. Consecutivamente, la decodificación de las SP BR no necesita ser intentado cuando el tamaño o la posición de cualquiera de las SP FR no se pueden determinar, lo que reduce el consumo de energía de un decodificador. Por otra parte, ya que el tamaño y la posición de las SP FR siempre se conocen antes de que la SP BR sea decodificada, bien pueden utilizarse como base para la codificación de la SP BR.

La sintaxis de flujo de bits según la realización preferida se describe a continuación.

El uso de las SP FR se indica en la lista de parámetros de la imagen y los datos de la secuencia de capas, por ejemplo, tal como se ha sugerido en el documento UIT-T-VCEG VCEG-N72R1, 26-Sep-2001. La característica de la sub-imagen probablemente esté fuera del ámbito de aplicación del perfil de referencia y pertenece a los perfiles para los ambientes propensos a errores solamente.

Cuando las sub-imágenes están en uso, la cabecera de la porción es el siguiente: PictureID: Tal como se define que en el mencionado VCEG-N72-R1. SliceType: Tal como se define en el mencionado VCEG-N72-R1. FirstMBInSliceX: La posición (columna) horizontal del primer macrobloque en la porción en relación con la sub-imagen. FirstMBInSliceY: La posición (fila) vertical del primer macrobloque en la porción en relación con la sub-imagen. InitialQP: Tal como se define en el mencionado VCEG-N72-R1.

SubPictureID: Identificador único de la sub-imagen. Cada sub-imagen se le asigna un número de identificación a partir de cero y se incrementa en un orden en la codificación. El recuento se restablece en cada imagen. Si la sub-imagen independiente de codificación está en uso, el ID de la sub-imagen sigue siendo el mismo para las sub-imágenes coincidentes en el espacio

5 sobre un grupo de imágenes. SubPicturelnfo 0: Los atributos de la sub-imagen son los mismos que los atributos de una sub-imagen con el mismo ID que la foto anterior. Este valor es útil especialmente en el modo de codificación de sub-imagen independiente.

1: Los atributos de la sub-imagen son los mismos que los atributos de una sub-imagen con el

10 mismo ID en la misma imagen. Este valor se utiliza cuando una sub-imagen contiene múltiples porciones.

2: La localización y el tamaño de la sub-imagen se definen en las siguientes cuatro palabras clave. Si la codificación de sub-imágenes independientes está en uso, las siguientes cuatro palabras clave sigue siendo las mismas dentro de un grupo de bloques. Una repetición de las

15 palabras clave se permite para propósitos de capacidad de recuperación de errores.

3: Sub-imagen de fondo. Si una de las sub-imágenes anteriores de la misma imagen se pierde y su ubicación y tamaño no están externamente señalizados (lo cual es típico en el modo de predicción normal), el decodificador no decodifica la sub-imagen de fondo, ya que su forma es desconocida.

20 Izquierda: La coordenada del macrobloque más a la izquierda en la sub-imagen (en macrobloques). A la columna de macrobloques más a la izquierda de la imagen se le asigna un valor cero. Superior: La coordenada del macrobloque superior en la sub-imagen (en macrobloques). Al nivel más alto de la fila de macrobloques de la imagen se le asigna un valor cero.

25 Anchura: Anchura de la sub-imagen. Las palabras clave se asignan de la siguiente manera: Altura: Altura de la sub-imagen. Las palabras clave se asignan de manera similar que la Anchura.

Símbolo Nº: Código UVLC Explicación

0: 1 Conjetura = (Más derecha -Izquierda)/2 + 1, donde la Más derecha es la dirección de la columna del macrobloque más a la derecha de la imagen y/ significa división por truncamiento. Por ejemplo, para una imagen QCIF e Izquierda igual a 3, la Anchura se convierte en (10-3)/2+1 = 4.

1: 001 Conjetura + 1

2: 011 Conjetura -1

Símbolo Nº: Código UVLC Explicación

3: 00001 Conjetura + 2

4: 00011 Conjetura -2

...
...
...

5 Aplicaciones del procedimiento de codificación fuente

Una de las principales aplicaciones del procedimiento de codificación y decodificación de vídeo de la realización preferida es la priorización del transporte de sub-imágenes subjetivamente importantes.

10 El procedimiento propuesto puede mejorar la eficiencia de compresión en comparación con la codificación de porciones frecuentes, es decir fijamente asignados. Las sub-imágenes rectangulares a menudo tienen campos suave movimiento o textura consistente, y por lo tanto el vector de movimiento y la codificación INTRA funciona mejor cuando se utiliza en una sub-imagen relativamente homogénea.

15 Las sub-imágenes independientes también se pueden utilizar para la escalabilidad de la resolución de la imagen. Asumiendo que el mismo flujo de bits QCIF, por ejemplo un mensaje multimedia, se transfirieron a dos dispositivos portátiles que tienen un tamaño de pantalla diferente. Uno soporta tamaños de hasta QCIF (176 x 144) y el otro hasta QQVGA (160 x 120). Hay dos posibilidades convencionales para adaptarse a una imagen QCIF

20 en un rectángulo de pantalla QQVGA: En primer lugar, la imagen se puede escalar a menor, pero esto puede ser computacionalmente costoso. En segundo lugar, la imagen se puede recortar (8 píxeles desde la izquierda y la derecha y 12 píxeles desde la parte superior e inferior), pero los píxeles recogidos debe ser decodificados de todos modos. Las sub-imágenes independientes proporcionan otra solución: El flujo de bits puede codificarse de manera que

25 haya una sub-imagen con un tamaño de 144 x 112 centrada en la imagen QCIF. El flujo de bits puede ser decodificado para un rectángulo de pantalla QQVGA, de manera que sólo la sub-imagen se decodifica. En consecuencia, 36 de los 99 macrobloques originales por imagen no tienen que ser decodificados. Un ejemplo en una transmisión de Internet utilizando la realización preferida se

describe a continuación.

Se seleccionó una transmisión de multidifusión de Internet como una aplicación de destino. La base para la selección fue que las condiciones comunes para las aplicaciones de Internet de bajo retardo (VCEG-N79R1) podrían ser también fácilmente aplicadas a una transmisión de multidifusión.

Como la ocultación de errores interactiva no puede utilizarse en gran escala con multidifusión IP, se utilizaron procedimientos de control de error hacia adelante. Los procedimientos pueden ser aplicados en el nivel de codificación de transporte (paquetes FEC, duplicación de paquetes) o en el nivel de codificación de fuente (actualización macrobloque INTRA). Tres casos fueron considerados:

1.: Memorización intermedia inicial relativamente larga (1 segundo, o 10 fotogramas a una tasa de 10 fotogramas/segundo) antes de iniciar la reproducción para los clientes. Se utiliza una codificación de errores hacia adelante Reed-Solomon.

2.: Cantidad moderada (2 fotogramas) de memorización intermedia inicial antes de iniciar la reproducción en los clientes. Se utiliza codificación de errores hacia adelante de paridad de acuerdo con RFC 2733.

3.: Cantidad moderada (2 fotogramas) de memorización intermedia inicial antes de iniciar la reproducción en los clientes. Sin codificación de errores hacia adelante de nivel de transporte.

Aunque los mejores resultados se pueden lograr con el caso 1, los clientes pueden carecer de capacidades memoria intermedia requeridas. Además, los paquetes FEC Reed-Solomon no han sido estandarizados (por lo que sabemos). Así, los resultados también preveían un esquema basado en FEC de paridad simple (caso 2), que debería ser suficientemente fácil de implementar en la mayoría de los sistemas prácticos. Sin embargo, algunos sistemas, como es el caso del servicio transmisión de conmutación de paquetes 3GPP (publicación 4), no incluyen el apoyo a la paridad FEC, y por lo tanto también el caso 3 ha sido añadido al juego de pruebas.

Condiciones de las pruebas

Los códecs:

El procedimiento de codificación de la realización preferida de la invención se llevó a cabo sobre la base de TML-8.6, una versión temporal de TML-8.5 además de la aplicación de ocultación de errores (VCEG-N62). Fue llamado como códec (RSP) de subimagen rectangular. El rendimiento del códec RSP se comparó con el códec convencional 1 (TML-86, más la cuantización de la región de interés) y el códec convencional 2 (TML-86, sin la cuantización de la región de interés).

Parámetros de códecs:

-Resolución de vector de movimiento: 1/8 pel

-Transformada de Hadamard: utilizada

-Rango de búsqueda máximo: 16

-Número de fotogramas anteriores utilizados para la búsqueda de movimiento inter: 5

-Todos los tipos de bloques habilitados.

-Modo de porción: número fijo de MB por porción

-Fotogramas B y fotogramas SP: no utilizados

-Modo de símbolo: CABAC

-Partición de datos: 1 partición por porción

-Encabezado de secuencia: sin encabezado de secuencia

-Buscar restricciones de rango: no

-Decisión modo optimizado de distorsión de tasa: activado

-Predicción intra restringida: no utilizada

-Cambiar QP: no utilizado

-Fotograma de referencia adicional: no utilizado

Otras condiciones:

-En lugar de codificar 4000 fotogramas tal como se especifica en VCEG-N79R1, el PSNR del video decodificado se calcula para cada una de las 10 ejecuciones, se muestran el PSNR promedio más el mejor y el peor caso de las 10 ejecuciones, tal como se propone en VCEG-M77. Este procedimiento se utiliza para mostrar la variación de PSNR dependiendo de la posición de los archivos de la pérdida de patrones. En la simulación, la posición de comienzo de la pérdida de la ejecución con un orden n + 1 sigue continuamente la posición de la pérdida final de la enésima ejecución.

-Se asume una sobrecarga de paquetización constante (40 bytes/paquete) como en VCEG-N79R1. Las sobrecargas de paquetización de todos los paquetes, incluyendo los paquetes de FEC, se restan de la tasa de bits total disponible para calcular la tasa de bits

de vídeo disponibles.

-Como ninguna estrategia de control de la velocidad se aplica en el actual software de TML, adquirimos las tasas de bits deseadas de acuerdo al procedimiento de asignación de bits que se describe en la subsección 4.4.

-Según lo especificado en VCEG-N79R1, PSNR se calcula entre todos y cada fotograma de la secuencia de origen (a la tasa de fotogramas máxima), y el correspondiente fotograma reconstruido.

-Se utilizaron actualizaciones INTRA GOB en lugar de un mecanismo de selección de modo macrobloque.

Secuencia de prueba y Segmentación

Los experimentos se realizaron con la secuencia de Carphone. Se utilizó la versión QOF de la secuencia. Se codificó a una tasa de fotogramas de 10 fps. La tasa de bit total objetivo fue de 64 kbps. El número de fotogramas codificados fue de 101 (303 fotogramas de la secuencia de Carphone, saltada en 2).

La sub-imagen de primer plano fue seleccionada manualmente y cubría la cabeza del hombre que aparece en la serie en todos los cuadros de un video clip. En el códec convencional 1, el área para la sub-imagen del primer plano fue seleccionada como la región de interés que fue cuantificada más fina que el resto de la imagen. Una sub-imagen de primer plano 64 x 64 constante se utilizó a lo largo de toda la secuencia. El modo de codificación de sub-imagen independiente estaba en uso.

Paquetización y corrección de errores hacia delante

En todos los casos, los tamaños de los paquetes de RS FEC se supone que igualan al mayor tamaño de los paquetes que estaban protegidos con los paquetes RS FEC. Si m paquetes FEC se codifican para cada bloque de n paquetes de vídeo, el esquema de codificación es simbolizado como RS(n, m). El esquema FEC es capaz de corregir una pérdida de hasta m paquetes (cualquier combinación de los paquetes de vídeo y los paquetes FEC) por cada bloque.

Caso 1: 10 fotogramas de memoria intermedia con RS FEC

El códec RSP (sólo una sub-imagen de primer plano):

-Para la imagen intra, hay 4 paquetes: 2 paquetes para la sub-imagen del

primer plano (aplicada interpolación GOB), 1 paquete RS (2,1) para los 2 paquetes de primer plano, y un paquete para la sub-imagen de fondo.

-Para las imágenes inter, 10 fotogramas consisten en un grupo. Para cada grupo, hay 10 paquetes de sub-imágenes en primer plano, m (m es variable) paquetes RS (10, m) para los paquetes de primer plano y 10 paquetes de sub-imagen de fondo. Téngase en cuenta que el procedimiento de empaquetamiento para el primer plano y el fondo es un procedimiento de interpolación: el número par de GOB del fotograma n y el número impar de GOB del fotograma n+1 están en un paquete, y viceversa.

Los códecs convencionales:

-Para la imagen intra, hay 3 paquetes: 2 paquetes interpolados GOB para toda la imagen, y 1 paquete RS (2,1).

-Para las imágenes inter, 10 fotogramas consisten en un grupo. Para cada grupo, hay 20 paquetes, cada uno de los cuales contienen todos los otros GOB de un fotograma en particular, y m (m es variable) paquetes RS (20, m).

Caso 2: 2 fotogramas de memoria intermedia con paridad FEC

Obsérvese que el resultado de la paridad FEC para 2 paquetes es el mismo que el resultado de RS (2,1). Por lo tanto, para simplificar la documentación, la paridad FEC se considera la misma que RS (2,1).

El códec RSP (sólo una sub-imagen de primer plano):

-Para la imagen intra, lo mismo que en el caso 1.

-Para las imágenes inter, 2 fotogramas constituyen un grupo. Para cada grupo, hay dos paquetes de sub-imágenes en primer plano, 1 paquete RS (2,1) para los paquetes de primer plano y un paquete de sub-imagen de fondo. El procedimiento de empaquetamiento para el primer plano y el fondo es el mismo que en el caso 1.

Los códecs convencionales:

-Para la imagen intra, lo mismo que en el caso 1.

-Para las imágenes inter, cada fotograma tiene 3 paquetes: 2 paquetes GOB intercalados, y un paquete RS (2,1).

Caso 3: 2 fotogramas de memoria intermedia sin FEC

Todos los códecs utilizan el mismo procedimiento paquetización que en el caso

2. La única diferencia es que no hay ningún paquete FEC.

Asignación de bits

La tasa de bits se decide por varios factores: la actualización de la tasa (IGU) intra GOB, la tasa FEC, el procedimiento de porción, y QP. (Téngase en cuenta que la predicción desde fuera de la GOB actualizada intra debe evitarse cuando se utiliza un porción no en forma de GOB. Para la porción en forma GOB, la prevención de la predicción se hace por la limitación de predicción de porción). En las simulaciones, los 3 factores anteriores, si son variables, se han optimizado mediante prueba y error. QP se ajusta cuando otros factores son fijados, como sigue:

QP o par QP para la codificación de la región de interés (ROI) se fija para toda la secuencia.

Para el códec convencional, sin codificación ROI, la QP se ajusta directamente para satisfacer la tasa de bits de vídeo disponibles en la mayor medida posible.

Para el códec RSP o el códec convencional con codificación ROI, el par QP se ajusta como sigue (QPf es para el primer plano y QPB es para el fondo):

Primero decidir el QPf. Establecer el QPB para ser el máximo (31), ajustar el QPf para satisfacer la tasa de bits de vídeo disponibles lo más cerca posible.

Luego refinar QPB. Dejar que el QPf se fije como se decidió anteriormente, ajustar QPB para satisfacer la tasa de bits de vídeo disponibles lo más cerca posible.

Resultados

Resultados objetivos

Sólo se presentan aquí los resultados optimizados. Al optimizar la tasa de IGU, la tasa de FEC y el procedimiento de porción, no se ponen limitaciones de alcance sobre las mismas. Se utilizan los mayores rangos decididos por los códecs. Es decir, la oscilación de la tasa IGU es de 0 a 1 GOB/fotograma, la tasa de FEC (m en RS (n, m)) es de 0 (sin límite superior), y la porción es de 1 a 9 (el máximo para la secuencia QCIF) GOB/porción.

Se obtuvieron resultados de los tres casos. En la siguiente discusión, PLR denota la tasa de pérdida de paquetes e IGUF e IGUB son, respectivamente, la IGU de las subimágenes de primer plano y de fondo. La unidad para la tasa de IGU es GOB/fotograma.

Los resultados mostraron que:

-En cada caso, el códec RSP propuesto tiene los mejores PSNR para la región en primer plano, y el códec convencional con codificación ROI es mejor que el códec convencional sin ROI. En el caso 1, el PSNR promedio del códec RSP es de 0,78 dB a 0,96 dB más alto que el códec convencional con codificación ROI y 1,94 dB a 2,40 dB más alto que el códec convencional sin codificación ROI; en el caso 2, las mejoras son 1,09 dB a 1,59 dB y 2,04 a 2,38 dB, respectivamente; en el caso 3, las mejoras son, respectivamente, 0,28 dB a 1,52 dB y 1,28 a 1,86 dB cuando PLR es distinto de cero.

-Si las secuencias relativamente largas son memorizadas de manera intermedia (caso 1), RS FEC adecuados pueden recuperar todas las pérdidas de paquetes en PLR 3%, 5% y 10%, y la mayoría de las pérdidas de paquetes en PLR 20%.

-En el caso 3 el códec RSP es mejor que los códecs convencionales. Una razón es que la región en primer plano usando el códec RSP tiene tasa de IGU mayor. Para la secuencia QCIF, hay 9 GOB por fotograma. Por lo tanto la IGU=1 significa que la verdadera tasa de IGU es 1/9. Para la sub-imagen del primer plano (suponiendo que tiene 6 líneas de MB), IGU=1 significa que la tasa real de IGU es 1/6. En el software TML actual, el IGU máximo es de 1. Sin embargo, a partir de los presentes resultados, podemos inferir que debe desarrollarse una mayor tasa de IGU u otro procedimiento de intra actualización.

Resultados subjetivos

Para cada caso, se eligió la secuencia que tenía los valores PSNR más cercanos a los promedios como la secuencia representativa para evaluaciones subjetivas.

A pesar de que las instantáneas no dan una idea completa del comportamiento de los distintos esquemas, recogen algunos aspectos. Se examinaron instantáneas de la última imagen decodificada para el 0%, 5% y 20% de tasa de pérdida de de paquete y para el sistema propuesto de codificación.

Las instantáneas muestran que el esquema convencional de codificación con un QP constante se ve claramente peor en todos los casos. También muestran que el área de interés en el sistema propuesto de codificación es subjetivamente mejor que en los otros esquemas. Esto puede verse más claramente cuando no se utilizan paquetes FEC en el caso de la tasa de pérdida del 20%.

En general, las instantáneas presentadas están en consonancia con el hecho de que las pérdidas son recuperadas por los paquetes FEC y actualizaciones INTRA GOB relativamente pronto (al no haber casi errores visibles en las imágenes).

La figura 6 muestra un diagrama de bloques de un dispositivo de comunicación móvil MS según algunos aspectos de la invención. En el dispositivo de comunicación móvil, una Unidad de Control Maestro MCU controla bloques responsables de diversas funciones del dispositivo de comunicación móvil: una memoria de acceso aleatorio RAM, una parte de radiofrecuencia RF, una Memoria de Sólo Lectura ROM, el códec de vídeo CODEC y una interfaz de usuario UI. La interfaz de usuario dispone de un teclado KB, una pantalla DP, un altavoz SP y un micrófono MF. El MCU es un microprocesador, o en realizaciones alternativas, algún otro tipo de procesador, por ejemplo, un Procesador de Señal Digital. Ventajosamente, el manual de instrucciones del MCU se ha almacenado previamente en la memoria ROM. De acuerdo con sus instrucciones (es decir, un programa de ordenador), el MCU utiliza el bloque RF para transmitir y recibir datos a través de una trayectoria de radio. El códec de vídeo puede estar basado en hardware o total o parcialmente basado en software, en cuyo caso el CODEC comprende programas de ordenador para controlar el MCU para realizar funciones de codificación y decodificación de vídeo según las necesidades. El MCU utiliza la RAM como su memoria de trabajo. El dispositivo de comunicaciones móviles puede capturar vídeo de movimiento mediante la cámara de vídeo, codificar y paquetizar el video de movimiento usando el MCU, la RAM y el software basado en CODEC. El bloque de RF se utiliza para intercambiar de vídeo codificado con otras partes.

La figura 7 muestra el sistema de comunicación de vídeo 70 que comprende una pluralidad de dispositivos de comunicación móviles MS, una red de telecomunicaciones móviles 71, la Internet 72, un servidor de vídeo 73 y un PC fijo conectado a Internet. El servidor de vídeo tiene un codificador de vídeo y puede proporcionar flujos de vídeo a demanda, como pronósticos del tiempo o noticias.

La realización preferida de la invención se basa en un esquema de codificación basado en regiones. A diferencia de vídeo MPEG-4, no requiere ningún procesamiento complicado de regiones formadas arbitrariamente en codificación y decodificación de vídeo y por lo tanto es así aplicable a dispositivos de mano. La realización preferida de la invención proporciona una herramienta de codificación vídeo robusta para permitir la priorización del transporte y lograr una calidad de imagen subjetivamente mejor en sistemas de comunicación de vídeo propensos a errores.

La realización preferida se puede aplicar en varios contextos, por ejemplo, en el contexto del estándar de codificación de video ITU-T H.26L. Se han descrito puestas en práctica y realizaciones particulares de la invención. Es evidente para un experto en la materia que la invención no se limita a los detalles de las realizaciones presentadas anteriormente, pero que puede ser implementada en otras formas de realización utilizando medios equivalentes, sin desviarse de las características de la invención. El alcance de la invención sólo está restringido por las reivindicaciones de patente adjuntas.

Abreviaturas: AVO: Objeto Audio-Visual BR: Región de Fondo CABAC: Codificación aritmética binaria adaptativa basada en el contexto DCT: Transformada del coseno discreta DPL: Capa de Partición de Datos FEC: Corrección de errores FR: Región de primer plano GOB: Grupo de bloques IGU: Actualización del GOB intra ITU: Unión Internacional de Telecomunicaciones MB: Macrobloque MPEG: Grupo de Expertos de Imágenes en Movimiento NAL: Capa de adaptación de red QCIF: Formato Intermedio de Cuarto Común QP: Parámetro de Cuantificación QPB: Parámetro de Cuantificación de fondo QPf: Parámetro de Cuantificación de primer plano QQVGA: Formato de vídeo con 160 x 120 píxeles ROI: Región de interés RS: Reed-Solomon RSP: Sub-imagen Rectangular RTP: Protocolo de Transporte en Tiempo real SEI: Información adicional de Mejora SP: Sub-imagen TML: Modelo de Prueba a largo plazo UVLC: Código Universal de longitud variable VCL: Capa de Codificación de Video VO: Objeto de Video VOL: Capa de Objetos de Video VOP: Plano de Objeto de Video YUV: Componentes de tres colores

Claims

REIVINDICACIONES

1. Procedimiento para la codificación de vídeo que comprende:

dividir una imagen (100) en un conjunto de bloques de codificación de forma regular que tienen una alineación predeterminada en relación con el área de la imagen (100), correspondiendo cada bloque de codificación (102) con un grupo de elementos de codificación elementales;

asociar una orden de escaneado dada con los bloques de codificación (102) a través de la imagen (100) para la formación de porciones de codificación de vídeo;

determinar una forma (101) dentro de la imagen (100);

seleccionar un subconjunto de bloques de codificación (102) para la forma determinada, en la que el subconjunto de los bloques de codificación define un área que cubre la forma determinada (101);

determinar como objeto de codificación separado el subconjunto seleccionado de los bloques de codificación;

determinar como objeto de fondo unitario el subconjunto de los bloques de codificación (103) que corresponde a la parte de la imagen (100) que excluye el objeto de codificación separado;

codificar el objeto de codificación separado; y

codificar como un objeto de codificación el objeto de fondo unitario, comprendiendo la codificación del objeto de fondo unitario:

determinar lo largo de dicha orden de escaneado dada una pluralidad de porciones de codificación de bloques de codificación del subconjunto de bloques de codificación (103) que corresponden a la parte de la imagen (100) que excluye el objeto de codificación separado;

de manera que una o más de las porciones de codificación está formada por bloques de codificación no contiguos respecto a dicha orden de escaneado dada.
2.

Procedimiento según la reivindicación 1, en el que la codificación de vídeo del objeto de codificación separado también comprende la sub-etapa de definir en el objeto de codificación separado porciones de codificación respecto a dicha orden de escaneado dada.
3.

Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que el área que cubre la forma determinada (101) es un área rectangular, con lo cual un cuadrado es un subconjunto de rectángulos.
4.

Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que la codificación de vídeo del objeto de codificación separado asociado con la forma

determinada es independiente de la codificación de vídeo del objeto de fondo para inhibir la propagación de errores en el al menos un objeto de codificación separado.
5.

Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que el procedimiento también comprende proteger errores del objeto de codificación separado contra la corrupción de los datos.
6.

Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que el procedimiento también comprende proteger errores de desigualdad incluyendo paquetes de datos prioritarios que contienen información relacionada con el objeto de codificación separado.
7. Codificador de vídeo que comprende:

medios para dividir una imagen (100) en un conjunto de bloques de codificación de forma regular que tienen una alineación predeterminada en relación con el área de la imagen (100), correspondiendo cada bloque de codificación a un grupo de elementos de codificación elementales, en el que una orden de escaneado dada está asociada con los bloques de codificación (102) a través de la imagen (100) para la formación de porciones de codificación de vídeo;

medios para determinar una forma (101) en una imagen (100);

medios para seleccionar un subconjunto de bloques de codificación (102) para la forma determinada, definiendo el subconjunto de bloques de codificación define un área que cubre la forma determinada (101);

medios para determinar como objeto de codificación separado el al menos un subconjunto seleccionado de los bloques de codificación;

medios para determinar como objeto de fondo unitario el subconjunto de los bloques de codificación (103) que corresponde a la parte de la imagen (100) que excluye el objeto de codificación separado;

medios para codificar el objeto de codificación separado; y

medios para codificar como objeto de codificación el objeto de fondo unitario, comprendiendo los medios para codificar la imagen de fondo:

medios para determinar a lo largo de dicha orden de escaneado dada una pluralidad de porciones de codificación de bloques de codificación del subconjunto de los bloques de codificación (103) que corresponde a la parte de la imagen (100) que excluye el objeto de codificación separado, de manera que

una o más de las porciones de codificación está formada por bloques de codificación no contiguos respecto a dicha orden de escaneado dada.
8. Codificador de vídeo según la reivindicación 7, en el que los medios para codificar el objeto de codificación separado están configurados para definir, en el objeto de codificación separado porciones de codificación respecto a dicha orden de escaneado dada.
9. Codificador de vídeo según la reivindicación 7 u 8, en el que el área que cubre

la al menos una forma determinada (101) es un área rectangular, en la que un cuadrado es un 5 subconjunto de rectángulos.
10. Codificador de vídeo según una cualquiera de las reivindicaciones 7 a 9, en el que la codificación de vídeo del objeto de codificación separado asociado con cada una de la al menos una forma determinada es independiente de la codificación de vídeo del objeto de fondo para la inhibición de la propagación de errores en el objeto de codificación separado.

10 11. Codificador de vídeo según una cualquiera de las reivindicaciones 7 a 10, comprendiendo el codificador de vídeo también medios para la protección de errores del objeto de codificación separado contra la corrupción de datos.
12. Codificador de vídeo según una cualquiera de las reivindicaciones 7 a 11, comprendiendo el codificador de vídeo también medios para realizar la protección de errores

15 de desigualdad que incluye paquetes de datos prioritarios que contienen información relacionada con el objeto de codificación separado.
13. Producto de programa de ordenador que comprende medios de programa ejecutables en un ordenador para hacer que un aparato codifique en vídeo una imagen (100), comprendiendo el producto de programa un código de programa ejecutable en ordenador para

20 hacer que el aparato realice un procedimiento según una cualquiera de las reivindicaciones 1 a
6.