BRPI0214410B1

BRPI0214410B1 - Método de codificação e de decodificação de vídeo, codificador e decodificador de vídeo, produto de programa de computador, e, sinal de vídeo

Info

Publication number: BRPI0214410B1
Application number: BRPI0214410-7A
Authority: BR
Inventors: Miska Hannuksela; Ye-Kui Wang
Original assignee: Nokia Technologies Oy
Priority date: 2001-11-27
Filing date: 2002-11-22
Publication date: 2019-07-02
Also published as: US7206456B2; CN1593065B; ATE474421T1; BR0214410A; HUP0402623A2; HU229462B1; JP2005510982A; GB2382940A; US20070183676A1; WO2003047266A1; ES2347537T3; EP1452037B1; MXPA04004422A; CN1593065A; US20030112867A1; AU2002347489A1; JP4485796B2; DE60237028D1; GB0128359D0; EP1452037A1

Abstract

"método de codificação e de decodificação de vídeo, codificador e decodificador de vídeo, produto de programa de computador, e, sinal de vídeo". o método de codificação e de decodificação de vídeo, onde uma imagem é primeiro dividida em sub-imagens correspondendo a uma ou mais regiões de imagem subjetivamente mais importantes e uma sub-imagem de região de fundo, a qual permanece após as outras sub-imagens serem removidas da imagem. as sub-imagens são formadas para conformar aos grupos permitidos predeterminados dos macroblocos (mbs) de codificação de vídeo. os grupos permitidos de mbs podem ser, por exemplo, de formato retangular. a imagem é então dividida em fatias, de forma que cada sub-imagem seja codificada independentemente das outras sub-imagens exceto para a sub-imagem da região de fundo, que pode ser codificada usando outras sub-imagens. as fatias da sub-imagem de fundo são formadas em uma ordem de varredura com saltos sobre os mbs que pertencem a outra sub/imagem. a sub-imagem de fundo é apenas decodificada se todas as posições e tamanhos de todas as outras sub-imagens puderem ser reconstruídos na decodificação da imagem.

Description

“MÉTODO DE CODIFICAÇÃO E DE DECODIFICAÇÃO DE VÍDEO, CODIFICADOR E DECODIFICADOR DE VÍDEO, PRODUTO DE PROGRAMA DE COMPUTADOR, E, SINAL DE VÍDEO”.

/

Campo da Invenção

Esta invenção relaciona à codificação e decodificação de vídeo. Esta relaciona particularmente, mas não exclusivamente, à codificação de vídeo e à transmissão sobre as conexões de dados propensas-erro.

Descrição da Técnica Anterior

A transmissão de vídeo requer a codificação de vídeo na forma que permita a sua transmissão. Tipicamente, isto envolve uma compressão efetiva devido a uma vasta quantidade de informação contida em um fluxo de imagens que constituem o vídeo a ser transmitido.

O ITU-T H.263 é uma recomendação de codificação de vídeo da União Internacional de Telecomunicações (ITU, International Telecommunications Union) que especifica a sintaxe do fluxo-bit e a decodificação do fluxo-bit. Neste padrão, as imagens são codificadas usando a luminância e dois componentes (crominância) de cores diferentes (Y, CB e CR). Os componentes de crominância são cada um amostrados na resolução central ao longo de ambos os eixos de coordenadas comparados ao componente de luminância.

Cada imagem codificada, como também o fluxo de bit codificado correspondente, é disposta em uma estrutura hierárquica com as quatro camadas sendo, da superior para a inferior, a camada de imagem, a camada de segmento da imagem, a camada do macrobloco (MB) e a camada do bloco. A camada de segmento da imagem pode ser uma camada de um grupo de blocos ou uma camada de fatias.

Os dados da camada de imagem contêm os parâmetros que afetam toda a área de imagem e a decodificação dos dados de imagem. Por default, cada imagem é dividida em grupos de blocos. Um grupo de blocos (GOB) tipicamente compreende uma coluna de macroblocos (16 linhas de pixel subsequenciais) ou um múltiplo desta. Os dados para cada GOB consistem de um cabeçalho GOB opcional seguidos por dados para os MBs. Altemativamente aos GOBs, as denominadas fatias podem ser usadas, desse modo cada

2/30

imagem é dividida em fatias ao invés de GOBs. Os dados para cada fatia consiste de um cabeçalho de fatia seguido por dados para os MBs.

As fatias definem as regiões dentro de uma imagem codificada. Cada região é um número de MBs em uma ordem de varredura normal. Não existem dependências de predição sobre os limites da fatia dentro da mesma imagem codificada. Contudo, a predição temporal pode geralmente cruzar os limites da fatia, a menos que o ITU-T H.263 Anexo R (Decodificação de Segmento Independente) seja usado. As fatias podem ser decodificadas independentemente do resto dos dados de imagem (exceto para o cabeçalho de imagem). Consequentemente, as fatias melhoram a resiliência ao erro nas redes de pacote-perda.

Cada GOB ou fatia é dividido em MBs. Um MB relaciona a 16x16 pixels de dados de luminância aos 8x8 pixels correspondentes espacialmente dos dados de crominância. Em outras palavras, um MB consiste de quatro blocos de luminância 8x8 e de dois blocos de crominância 8x8 correspondentes espacialmente.

Preferivelmente do que usar as regiões formadas de um número de MBs em uma ordem de varredura normal, as regiões retangulares consistindo de macroblocos NxM (N, M maior do que ou igual a um) e a fatia substituinte e as estruturas GOB foram propostas para o ITU-T H.263 por Sem-Ching Cheung, “Proposta para usar a Camada de Região no H.263+”, ITU-T SG15 WP1 documento LBC-96-213, julho de 1996. Contudo, a proposta não foi adotada para o H.263.

No modo de Decodificação de Segmento Independente ITU-T H.263 (ITU-T

H.263 Anexo R), os limites do segmento (como definido pelos limites das fatias ou dos limites superiores dos GOBs para os quais os cabeçalhos GOB são enviados, ou os limites da imagem, seja qual for os limites da região em uma maneira menor) são tratados similarmente para os limites da imagem, que eliminam todas as propagações de erro das fatias vizinhas. Por exemplo, os erros não podem ser propagados devido à compensação de movimento ou o des-bloqueamento da filtragem de laço das fatias vizinhas. Os limites do segmento podem apenas ser alterados nas imagens INTRA, isto é, quando nenhuma intercodificação é requerida.

O padrão ISO/IEC 14496-2:1999(E), referenciado como MPEG-4 visual ou vídeo MPEG-4, é um esquema padrão que tem um projeto centrado em tomo de uma

3/30 unidade básica de conteúdo denominada de objeto áudio-visual (AVO, audio-visual object). Exemplos de AVO's são um músico (em movimento) em uma orquestra, o som gerado por este músico, a cadeira que elas está sentando, o fundo (possivelmente em movimento) atrás da orquestra, e o texto explicativo para a passagem atual. No vídeo MPEG-4, cada AVO é representado separadamente e toma a base para um fluxo independente.

A codificação de vídeo de movimento bidimensional natural é uma parte do vídeo MPEG-4. O vídeo MPEG-4 é capaz de codificar ambos os objetos de vídeo retangulares convencionais como também os objetos de vídeo bidimensionais de formato arbitrário. O vídeo básico AVO é denominado de objeto de vídeo (VO, video object). Os

VOs podem ser escalonáveis, isto é, eles podem ser divididos, codificados, e enviados em duas ou mais camadas de objeto de vídeo (VOL, video object layer). Uma destas VOLs é denominada de camada base, onde todos os terminais devem receber de forma a visualizar qualquer tipo de vídeo. Os VOLs restantes são chamados de camadas de encarecimento, que podem ser expandidas no caso de erros de transmissão ou de uma capacidade de transmissão restrita. No caso de uma codificação de vídeo não-escalável, uma VOL por VO é codificada.

Um instantâneo no tempo de uma camada de objeto de vídeo é denominada de plano do objeto de vídeo (VOP, video object plane). Para um vídeo retangular, este corresponde a uma imagem ou um quadro. Contudo, em geral, os VOPs podem Ter um formato arbitrário. Cada VOP pode ser dividido em pacotes de vídeo. Cada VOP e pacote * de vídeo é também dividido em macroblocos similarmente ao ITU-T H.263. A informação de cor (YUV) do macrobloco é codificada similarmente ao ITU-T H.263, isto é, o macrobloco é também dividido em blocos de 8x8. Em adição, se o VOP tem um formato arbitrário, o formato do macrobloco é codificado como explicado no próximo parágrafo.

O vídeo MPEG-4 VOs pode ser de qualquer formato, e além do formato, o tamanho, e a posição do objeto pode variar de um quadro para o próximo. Em termos de sua representação geral, o objeto de vídeo é composto de componentes de três cores (YUV) e de um componente alfa. O componente alfa define o formato do objeto com base em imagempor-imagem. Os objetos binários formam a classe mais simples dos objetos. Eles são representados por uma seqüência de mapas alfa binários, isto é, imagens bidimensionais

4/30 onde cada pixel é preto ou branco. O vídeo MPEG-4 provê um formato binário apenas para o modo de compressão destes objetos. O processo de compressão é definido exclusivamente por um codificador de formato binário para codificar a seqüência de mapas alfa. Em adição aos objetos binários, um mapa alfa de nível-cinza pode ser usado para definir a opacidade do objeto. O limite do objeto é codificado usando um mapa alfa binário, enquanto a informação alfa de nível-cinza é codificada similarmente para a codificação da textura usando a transformada DCT. Em adição à seqüência do formato do objeto e às definições de opacidade, a representação compreende as cores de todos os pixels dentro do interior do formato do objeto. O vídeo MPEG-4 codifica estes objetos usando o codificador de formato e então o algoritmo baseado-transformada de coseno discreta de movimento compensada (DCT) para a codificação de textura interior.

É também conhecido ser vantajoso segmentar um fluxo de bit de vídeo em partes de diferentes prioridades, por exemplo, pela codificação de vídeo escalável, o particionamento dos dados, ou a codificação baseada na região discutida acima.

A codificação de vídeo escalável e o particionamento dos dados sofrem, contudo, das dependências entre os diferentes elementos de codificação. A camada de encarecimento, por exemplo, não pode ser decodificada corretamente se a camada base não tiver sido recebida corretamente. Correspondentemente, a partição de prioridade-baixa não é de uso se a partição de prioridade-alta correspondente não tiver sido recebida. Isto toma o uso da codificação de vídeo escalável e o particionamento dos dados desvantajoso em alguns casos. A codificação escalável e o particionamento dos dados não provê meios para controlar as regiões espaciais de interesse diferentemente das áreas subjetivamente menos importantes. Além disso, várias formas de codificação escalável, tal como a relação convencional de sinal para ruído (SNR, signal to noise ratio) e a escalabilidade espacial, sofrem de uma eficiência de compreessão ruim comparado à codificação não-escalável. Na codificação de vídeo baseada na região, por outro lado, os GOBs ou fatias podem conter macroblocos de diferentes importâncias subjetivas. Assim, nenhuma priorização dos GOBs e fatias é tipicamente possível.

A codificação dos objetos formatados arbitrariamente é atualmente considerada muito complexa para os dispositivos portáteis. Isto é também exemplificado

5/30 • · pelo fato de que as ferramentas de codificação de formato de vídeo MPEG-4 são tipicamente excluídas dos serviços móveis de comunicação de vídeo dos telefones móveis de terceira geração planejados.

Resumo da Invenção

É um objeto da invenção provê uma alternativa adequada para a comunicação móvel que ainda provê ao menos algumas das vantagens similares à estas oferecidas pelo vídeo MPEG-4.

De acordo com o primeiro aspecto da invenção é fornecido um método de codificação de vídeo que compreende os passos de:

- dividir uma imagem em um grupo de blocos de codificação de formato retangular possuindo um alinhamento predeterminado em relação à área da imagem, cada bloco de codificação correspondente a ao menos um grupo de elementos de codificação elementares;

- determinar ao menos um formato dentro da imagem;

- selecionar ao menos um sub-grupo dos blocos de codificação definindo ao menos uma área cobrindo ao menos um formato predeterminado;

- determinar como ao menos um objeto de codificação separado o selecionado em ao menos um sub-grupo dos blocos de codificação;

- determinar como um objeto de fundo a parte da imagem que excluí ao menos um objeto de codificação separado;

- codificar ao menos um bloco de codificação separado, e;

- codificar como um objeto de codificação o objeto de fundo.

É uma vantagem da invenção que o objeto de codificação de fundo pode ser determinado como um objeto de codificação unitário que é definido como uma parte da imagem que não pertence a qualquer objeto de codificação separado e que os objetos de codificação separado não necessitam conformar com os formatos que eles cobrem.

Preferivelmente, o objeto de codificação de fundo é codificado usando ao menos um objeto de codificação separado.

O objeto de fundo não pode ser reconstruído sem a determinação da posição, do formato e do tamanho de cada objeto de codificação separado. Se qualquer pacote de

6/30

dados que carrega um objeto de codificação separado está perdido, não existe nenhuma chance para decodificar de forma alguma o objeto de codificação de fundo. A determinação da posição e do tamanho de ao menos um objeto de codificação separado indica a presença dos dados de vídeo de ao menos um objeto de codificação separado. Existe então uma probabilidade alta para uma predição bem sucedida do objeto de codificação de fundo usando ao menos um objeto de codificação separado, de forma que é tipicamente razoável codificar o objeto de codificação de fundo usando ao menos um objeto de codificação separado.

Preferivelmente, a codificação de vídeo do objeto de codificação de fundo também compreende o sub-passo de definir as fatias de codificação em uma ordem de varredura, de forma que as fatias sejam compostas por blocos de codificação consecutivos que saltam estes objetos de codificação básicos, que são incluídos em ao menos um objeto de codificação separado.

Preferivelmente, a ordem de varredura é varrer primeiro da linha horizontal e então prosseguindo verticalmente para a próxima linha horizontal. Alternativamente, a ordem de varredura é varrer primeiro uma linha vertical e então prosseguindo horizontalmente para a próxima linha vertical. Ainda alternativamente, qualquer outra ordem de varredura pode ser usada.

Preferivelmente, a codificação de vídeo de ao menos um objeto de codificação separado também compreende o sub-passo de definir dentro de cada objeto de codificação separado as fatias de codificação em uma ordem de varredura, de forma que as fatias sejam compostas em uma ordem de varredura dos blocos de codificação incluídos em ao menos um objeto de codificação separado.

É uma vantagem da invenção, que os objetos de alto interesse subjetivo possam ser vídeo codificados separadamente do fundo com requerimentos computacionais reduzidos, uma vez que a área definida para o formato conforma com o alinhamento predeterminado dos blocos de codificação.

Preferivelmente, os blocos de codificação são macroblocos.

Preferivelmente, a área de cobertura de ao menos um formato determinado é uma área retangular, desse modo o quadrado é um sub-grupo de retângulos.

7/30

Preferivelmente, os objetos de codificação separados são definidos em uma ordem descendente de importância subjetiva.

Preferivelmente, um objeto de codificação separado menos importante subjetivamente exclui totalmente os blocos de codificação que definem a área de cobertura de ao menos um formato determinado correspondendo a um objeto de codificação separado mais importante subjetivamente. Isto permite o corte dos cantos sobrepostos de uma área retangular definida por um objeto de codificação menos importante subjetivamente, no caso em que eles, por outro lado, sobreporiam com qualquer área definida por uma área mais importante subjetivamente.

Preferivelmente, a codificação de vídeo de ao menos um objeto de codificação separado é independente da codificação de vídeo do objeto de fundo, de forma a inibir a propagação de erro em ao menos um objeto de codificação separado.

O uso da codificação de vídeo independente de ao menos um objeto de codificação separado melhora a robustez da codificação de vídeo, embora então a posição de ao menos um objeto de codificação separado não possa ser alterado sem enviar uma imagem-intra que não é baseada nas imagens anteriores.

Altemativamente, a codificação de vídeo de ao menos um objeto de codificação separado é permitida para depender da codificação de vídeo do objeto de fundo e de qualquer outro de ao menos um objeto de codificação separado.

Esta incorporação basicamente causa um limite de sub-imagem de ao menos um objeto de codificação separado a ser tratado como um limite de fatia. A posição e o tamanho de ao menos um objeto de codificação separado pode entãoser trocado mesmo se ao menos um objeto de codificação separado estiver sendo inter-codificado.

Preferivelmente, a codificação de vídeo do objeto de fundo é permitida para usar ao menos um objeto de codificação separado assim como melhorar a eficiência de compressão de vídeo.

Preferivelmente, o método também compreende o passo de determinar a informação que caracteriza a posição e o tamanho de ao menos um objeto de codificação separado para usar na decodificação da imagem.

Preferivelmente, o passo de determinar a informação que caracteriza o

8/30

• · · · · tamanho de ao menos um objeto de codificação separado compreende o sub-passo de calcular a largura de referência baseada na largura da imagem e expressar a largura de ao menos um objeto de codificação separado usando a largura de referência.

Preferivelmente, o passo de determinar a informação que caracteriza o tamanho de ao menos um objeto de codificação separado compreende o sub-passo de calcular a altura de referência baseada na altura da imagem e expressar a altura de ao menos um objeto de codificação separado usando a altura de referência.

Preferivelmente, o método também compreende o passo de caracterizar o tipo de cada um de ao menos um objeto de codificação separado para uso na decodificação da imagem.

Preferivelmente, o método também compreende o passo de designar um identificador diferente para ao menos um objeto de codificação separado para correlacionar a cada um de ao menos um objeto de codificação separado e as características correspondentes.

Preferivelmente, a codificação de vídeo de ao menos um objeto de codificação separado usa a densidade do passo de quantização superior do que a codificação de vídeo do objeto de fundo.

Preferivelmente, o método também compreende o passo de proteção de erro de ao menos um objeto de codificação separado contra a corrupção de dados.

Preferivelmente, o método também compreende o passo de proteção de erro do objeto de fundo contra a corrupção de dados.

Preferivelmente, ao menos um objeto de codificação separado é mais protegido a erro contra a corrupção de dados do que o objeto de fundo.

Preferivelmente, uma proteção de erro desigual é usada para priorizar os pacotes de dados que contém a informação relacionada a pelo menos um objeto de codificação separado.

Preferivelmente, a determinação de ao menos um formato dentro de uma imagem é baseada na sua aparência.

Altemativamente, a determinação de ao menos um formato dentro da imagem é determinada em uma escolha dos campos de movimento uniforme.

9/30

De acordo com o segundo aspecto da invenção é provido um método de decodificação de vídeo de uma imagem codificada por um grupo de blocos de codificação, cada bloco de codificação correspondendo a pelo menos um grupo de elementos de codificação elementares e os blocos de codificação tendo um alinhamento predeterminado em relação à área da imagem, o método compreende os passos de:

- determinar ao menos um objeto de codificação separado correspondendo a ao menos um sub-grupo dos blocos de codificação que definem ao menos uma parte da imagem sendo decodificada;

- determinar como objeto de fundo o sub-grupo dos blocos de codificação que corresponde a parte da imagem que exclui ao menos um objeto de codificação separado;

- decodificar ao menos um objeto de codificação separado; e

- decodificar o objeto de fundo.

Preferivelmente, o método também compreende determinar as fatias de decodificação de vídeo para o objeto de fundo, compreendendo o sub-passo de formar uma fatia de decodificação dos blocos de codificação consecutivos e saltar os blocos de codificação que pertencem a ao menos um objeto de codificação separado.

Preferivelmente, cada de ao menos um sub-grupo de blocos de codificação define uma sub-imagem retangular, desse modo o quadrado é um sub-grupo de retângulos.

Preferivelmente, os blocos de codificação são macroblocos.

Preferivelmente, a decodificação de vídeo de ao menos um objeto de codificação separado é independente da decodificação de vídeo do objeto de fundo.

E uma vantagem do método é que este pode ser usado para várias aplicações, tal como para o transporte priorizado das regiões subjetivamente importantes. Em adição, esta permite que a “escalabilidade da resolução da imagem”, isto é, a imagem possa ser escalonada para colocar em um visor tendo uma resolução muito pequena para toda a imagem, ao decodificar apenas um objeto de codificação separado de um tamanho adequado.

Preferivelmente, a decodificação de vídeo do objeto de fundo é permitida para usar ao menos um objeto de codificação separado. Mais preferivelmente, o objeto de fundo é predito espacialmente, parametricamente, e/ou temporariamente de ao menos um

10/30 »······· objeto separado para tomar o processo mais simples.

Preferivelmente, ao menos um objeto separado corresponde a ao menos uma sub-imagem da região de fundo.

E uma vantagem da predição baseada em ao menos um objeto separado que 5 os objetos de fundo frequentemente sejam subjetivamente de signifícância limitada. A informação de ao menos um objeto separado pode então ser usada, assim como também melhorar a compressão de vídeo, assim como uma possível propagação de erro das subimagens da região de fundo para o objeto de fundo não podendo degradar excessivamente a qualidade da imagem subjetiva.

Preferivelmente, o método também compreende o passo de determinar a posição e o tamanho de ao menos um objeto de codificação separado.

Preferivelmente, o passo de determinar o tamanho de ao menos um objeto de codificação separado compreende o sub-passo de calcular a largura de referência baseada na largura da imagem e determinar a largura de ao menos um objeto de codificação separado usando a largura de referência.

Preferivelmente, o passo de determinar o tamanho de ao menos um objeto de codificação separado compreende o sub-passo de determinar a altura de ao menos um objeto de codificação separado usando a altura de referência.

Preferivelmente, o método também compreende o passo de determinar o tipo 20 de cada um de ao menos um objeto de codificação separado.

Preferivelmente, a decodificação de vídeo de ao menos um objeto de codificação separado usa a densidade de quantização superior do que a decodificação de vídeo do objeto de fundo.

Preferivelmente, o método também compreende o passo de detectar a perda 25 de ao menos um objeto de codificação separado.

Preferivelmente, o método de detectar a perda de ao menos um objeto de codificação separado é baseado na numeração dos objetos de codificação separados com um valor pré-definido para o primeiro em ao menos um objeto de codificação separado e com um incremento pré-definido ou decremento de um objeto de codificação separado para outro.

11/30

A falta de qualquer número de objeto esperado então permite ao decodificador detectar a perda do objeto de codificação separado correspondente.

Preferivelmente, o método também compreende decodificar ao menos um objeto de codificação separado, separadamente de outros objetos de codificação.

Preferivelmente, o método também compreende o passo de decodificação de correção de erro de ao menos um objeto de codificação separado.

Preferivelmente, o método também compreende o passo de decodificação de correção de erro do objeto de fundo.

É uma vantagem da priorização das partes subjetivamente mais importantes 10 do fluxo de bit de vídeo que uma melhor qualidade da imagem subjetiva possa ser alcançada comparada a um transporte igual e a uma proteção de erro de todas as partes do fluxo de bit.

De acordo com o terceiro aspecto da invenção é provido um codificador de vídeo que compreende:

- um dispositivo para dividir uma imagem em um grupo de blocos de 15 codificação de formato retangular possuindo um alinhamento predeterminado em relação à área da imagem, cada bloco de codificação correspondente a ao menos um grupo de elementos de codificação elementares;

- um dispositivo para determinar ao menos um formato dentro da imagem;

- um dispositivo para selecionar ao menos um sub-grupo dos blocos de 20 codificação definindo ao menos uma área cobrindo ao menos um formato predeterminado;

- um dispositivo para determinar como ao menos um objeto de codificação separado o selecionado em ao menos um sub-grupo dos blocos de codificação;

- um dispositivo para determinar como um objeto de fundo a parte da imagem que excluí ao menos um objeto de codificação separado;

- um dispositivo para codificar ao menos um bloco de codificação separado, e;

- um dispositivo para codificar como um objeto de codificação o objeto de fundo.

De acordo com o quarto aspecto da invenção é provido um decodificador de 30 vídeo para decodificar uma imagem codificada por um grupo de blocos de codificação, cada

12/30 ·· · · ·· · · ········ · · · • · · · · bloco de codificação correspondendo a ao menos um grupo de elementos de codificação elementares e os blocos de codificação tendo um alinhamento predeterminado em relação à área da imagem, o decodificador compreende:

- um dispositivo para determinar ao menos um objeto de codificação separado correspondendo a ao menos um sub-grupo dos blocos de codificação que definem ao menos uma parte da imagem sendo decodificada;

- um dispositivo para determinar como objeto de fundo o sub-grupo dos blocos de codificação que corresponde a parte da imagem que exclui ao menos um objeto de codificação separado;

- um dispositivo para decodificar ao menos um objeto de codificação separado; e

- um dispositivo para decodificar o objeto de fundo.

De acordo com o quinto aspecto da invenção é provido um produto de programa de computador compreendendo um programa executável pelo computador para fazer com que o aparelho implemente o método do primeiro aspecto.

De acordo com o sexto aspecto da invenção é provido um produto de programa de computador compreendendo um programa executável pelo computador para fazer com que o aparelho implemente o método do segundo aspecto.

De acordo com o sétimo aspecto da invenção é provido um aparelho 20 compreendendo um codificador de vídeo do terceiro aspecto.

De acordo com o oitavo aspecto da invenção é provido um aparelho compreendendo um decodificador de vídeo do quarto aspecto.

Preferivelmente, o aparelho do terceiro ao oitavo aspectos é selecionado de um grupo que consiste de: um dispositivo de comunicação móvel, um dispositivo de comunicação sem fio, um dispositivo de jogo, de um dispositivo de gravação de vídeo, um dispositivo de saída de vídeo, um servidor de rede de comunicação, uma porta de comunicação de rede de comunicação, um computador pessoal, um computador portátil, e de um dispositivo assistente pessoal digital.

De acordo com o nono aspecto da invenção é provido um sinal de vídeo compreendendo:

13/30

- uma pluralidade de blocos de codificação de vídeo compactados correspondendo a ao menos um objeto de codificação separado correspondendo a uma parte de uma imagem de vídeo codificada, a parte da imagem de vídeo codificada tendo um tamanho e posição variáveis;

- ao menos um identificador correspondendo a ao menos um bloco de codificação separado;

- ao menos uma informação de posição e tamanho correspondendo a ao menos um bloco de codificação separado; e

- uma pluralidade de blocos de codificação de vídeo compactados 10 correspondendo ao objeto de fundo que corresponde a um grupo de blocos codificação que corresponde a uma imagem de vídeo codificada excluindo ao menos um bloco de codificação separado.

Várias incorporações da presente invenção têm sido ilustradas apenas com referência a um aspecto da invenção por motivo de síntese, mas deveria ser apreciado que as incorporações correspondentes podem aplicar os outros aspectos também.

Breve Descrição das Figuras

A invenção será agora descrita, por meio de exemplo apenas, com referência aos desenhos apensos, nos quais:

Figura 1- apresenta uma imagem a ser codificada em relação aos r

macroblocos definidos para a codificação de vídeo;

Figura 2 - apresenta um desenho principal das fatias codificação de vídeo formadas para a imagem da Figura 1 de acordo com uma incorporação preferida da invenção;

Figura 3 - apresenta um fluxograma da codificação de vídeo de uma imagem 25 de acordo com a incorporação preferida da invenção;

Figura 4 - apresenta um fluxograma de decodificação de uma imagem de acordo com a incorporação preferida da invenção;

Figura 5 - apresenta um fluxograma de decodificação da região de fundo de acordo com a incorporação preferida da invenção, no caso de todas as sub-imagens da região de fundo não terem sido decodificadas corretamente;

14/30 • · · · · ·

Figura 6 - apresenta um diagrama em blocos de um dispositivo de comunicação móvel de acordo com a incorporação preferida da invenção; e

Figura 7 - apresenta um sistema de acordo com a incorporação preferida da invenção.

Descrição Detalhada da Invenção

A incorporação preferida da invenção pode ser considerada como um suplemento da ITU-T H.26L ao adicionar a camada de codificação da sub-imagem entre as camadas de imagem e fatias. A camada de codificação da sub-imagem deverá formar as denominadas sub-imagens (SP), que são tipicamente retangulares (região de primeiro plano SPs ou FR SPs) exceto para a região denominada de segundo plano (BR) SP. O BR SP consiste da área de imagem que não falha em quaisquer dos SPs retangulares. Todos os SPs são primeiro codificados em uma ordem de varredura, isto é, as fatias iniciam dos SPs e as fatias são tipicamente escolhidas para seguir a ordem das prioridades subjetivas, assim que os SPs subjetivamente mais importantes sejam codificados primeiro e o BR SP seja codificado por último. Os SPs não se sobrepõe, isto é, toda a imagem codificada consiste de todos os SPs.

A Figura 1 apresenta uma imagem 100 a ser codificada em relação aos macroblocos (MBs) definidos para a codificação de vídeo. A imagem compreende um Coração (de uma animação desenhada) que é considerada como um objeto de primeiro plano 101, que é de interesse principal. A sub-imagem (FR SP) da região de primeiro plano retangular 102 tem sido desenhada em tomo do objeto de primeiro plano ao longo das bordas MB. Em tomo do objeto de primeiro plano 101, a imagem também tem um segundo plano. A parte do segundo plano que envolve o FR SP é referenciada como a sub-imagem 103 (BR SP) da região de segundo plano. Note que a parte de segundo plano também pode pertencer à FR SP 102, como é o caso aqui. A Figura 1 também apresenta os MBs designados na ordem ascendente numerada de 0 a 79, onde o primeiro MB (0) está na borda superior da lateral esquerda e a numeração cresce para a direita e continua após cada coluna da esquerda da próxima coluna.

A Figura 2 apresenta um desenho principal das fatias de codificação de vídeo formadas para a imagem da Figura 1 de acordo com a incorporação preferida da invenção.

15/30

A imagem é segmentada em fatias de codificação de vídeo usando um tamanho da fatia de 5 macroblocos. A segmentação é iniciada do FR SP mais importante e o BR SP é segmentado em fatias após todos os FR SPs (nas Figuras 1 e 2, apenas um FR SP está presente). As fatias são determinadas para rodar os números das fatias iniciando de 0. Note que a fatia 0 ocupa 3 MBs da primeira coluna dentro do FR SP e então 2 MBs da segunda coluna dentro do FR SP, e particularmente que a última fatia do FR SP é fechada antes do BR SP ser codificada. Os MBs no BR SP são então segmentados em fatias em uma ordem de varredura, assim que cada fatia mas a última é geralmente composta de um número máximo de MBs permitidos para uma fatia. As fatias simplesmente saltam sobre cada FR SP. Fatias mais amplas geralmente resultam em uma quantia menor de redundância requerida para codificar a imagem.

A Figura 3 apresenta um fluxograma do processo de codificação de vídeo de acordo com a incorporação preferida da invenção. Os fluxogramas iniciam do bloco 310, onde a imagem de vídeo codificada tem sido recebida.

Após o início, o processo continua no bloco 320, onde este é tentado para encontrar um ou mais objetos de primeiro plano 101.0 bloco 330 então verifica se qualquer objeto de primeiro plano 101 tem sido encontrado. Se não, o bloco 331 codifica a imagem como um bloco de codificação único e o processo termina. Se sim, o bloco 340 seleciona o objeto 101 de primeiro plano mais importante que ainda não tem sido codificado. O bloco

350 então determina a região de macroblocos (FR SP 102) menor possível que cobre o objeto 101 de primeiro plano selecionado. Tipicamente, as possíveis regiões são limitadas a estes de um formato predeterminado, tal como o formato de retângulo (incluindo os quadrados), uma vez que este formato provê uma codificação e decodificação de vídeo simples, que se adequa melhor aos dispositivos portáteis. Nas incorporações alternativas da invenção, outros formatos diferentes predeterminados das possíveis regiões podem ser usados, fornecendo um mecanismo que é acordado para o codificador de vídeo para informar ao decodificador o formato usado.

No bloco 360, o FR SP 102 é então vídeo codificado. Após isto, o bloco 370 verifica se existe ainda um objeto 101 de primeiro plano ainda não codificado. Se sim, o processo retoma ao bloco 340, por outro lado, este prossegue para o bloco 380. No bloco

16/30

380, o BR SP, isto é, os MBs não pertencendo a qualquer FR SP, é vídeo codificado. O processo então termina no bloco 390.

Em uma incorporação alternativa, o bloco 350 determina a menor região possível dos macroblocos (FR SP 102) que cobre o objeto 101 de primeiro plano selecionado em uma série de imagens consecutivas. Em ainda outra incorporação alternativa, o bloco 350 determina a menor região possível dos macroblocos, tal que esta reserva uma quantidade de compartimento em tomo do objeto de primeiro plano selecionado. Em também outra incorporação alternativa, a possível região dos macroblocos é de um tamanho e/ou formato predeterminado.

A Figura 4 apresenta um fluxograma do processo de decodificação de acordo com a incorporação preferida da invenção. O processo inicia do bloco 410, onde a informação de vídeo codificada correspondendo à imagem de vídeo codificada tem sido recebida. No bloco 420, o decodificador então tenta encontrar quaisquer FR SPs codificados. No bloco 430, este é verificado se quaisquer FR SPs foram encontrados. Se não, este é então tentado para decodificar a imagem como um objeto de codificação único no bloco 431, por outro lado, o processo continua no bloco 440. O bloco 440 seleciona o FR SP mais importante que não tem ainda sido decodificado. No bloco 450, o FR SP selecionado é então decodificado e o bloco 460 verifica se ainda existe um FR SP ainda não decodificado. Se sim, o processo retoma para o bloco 440, por outro lado, este prossegue para o bloco 470. No bloco 470, é verificado se todos os FR SPs têm sido corretamente decodificados. Se não, o processo continua do bloco A apresentado na Figura 5. Se sim, o processo prossegue para o bloco 480, onde o BR SP é decodificado. Após isto, o processo termina no bloco 490.

A Figura 5 apresenta um fluxograma de decodificação de um BR SP de acordo com a incorporação preferida da invenção, no caso de todos os FR SPs não terem sido decodificados corretamente. A decodificação inicia do bloco 510. No bloco 520 é então verificado se a posição e o tamanho de cada FR SP é conhecido. No modo de decodificação da sub-imagem independente, a posição e o tamanho das sub-imagens pode ser alterado apenas nas imagens INTRA (similarmente à Decodificação do Segmento Independente H.263). Este fato pode ser usado nas implementações práticas. O conhecimento da posição e

17/30

do tamanho de cada FR SP é importante para a decodificação BR SP, uma vez que a BR SP pode apenas ser determinada se a posição e o tamanho de cada FR SP são conhecidos. Se não, o decodifícador não pode decodificar o BR SP em tudo e o processo termina, por outro lado, o decodifícador prossegue para o bloco 530. No bloco 530, é verificado se o BR SP tem sido codificado usando qualquer FR SP corrompido. Pode ser que o BR SP tenha sido codificado sem qualquer referência aos MBs do FR SP, neste caso a resposta é saltada para ser não e o processo continua no bloco 550. No bloco 550, o BR SP é decodificado. Contudo, se o BR SP tiver sido codificado usando qualquer FR SP corrompido, o processo continua do bloco 530 para o bloco 540, o encobrimento do erro do BR SP. Basicamente, quando a posição e o tamanho de cada FR SP é conhecido, o BR SP pode ser estimado usando um BR SP prévio e/ou um FR SP(s) atual. Na forma mais simples, os vários BR SP prévios podem ser usados, como tal, todos os FR SPs fornecidos são os mesmos da imagem prévia com relação ao seu tamanho e posição. Na codificação de vídeo existe tipicamente muita redundância temporal, que permite este tipo de encobrimento de erro. Em adição, o encobrimento do erro do BR SP pode frequentemente utilizar a representação do BR SP para recuperação.

O processo de codificação a seguir será descrito com maiores detalhes. Na incorporação preferida, dois diferentes modos de codificação podem ser usados para codificar os FR SPs: o modo de codificação SP independente e de predição normal. Na codificação SP independente, as fronteiras dos FR SPs são tratadas como os limites da imagem. A segmentação SP é estática sobre um grupo de imagens (ou qualquer agrupamento de imagens similar). Ambas as predições, temporal e espacial, sobre os limites SP são impedidas quando a codificação FR SPs, restringe a propagação de erro. O BR SP pode contudo ser codificado permitindo a predição temporal e espacial sobre os limites BR

SP, uma vez que o BR SP é considerado para ter uma importância subjetiva inferior e esta não necessita ser protegida contra a propagação de erro. Por exemplo, quando os vetores de movimento usados na codificação de vídeo de movimento compensado não apontam para o lado de fora dos FR SPs. Nem a predição espacial nem a filtragem de laço é permitada sobre os limites FR SP.

O BR SP pode então ser predito usando o FR SP e o FR SP não pode ser

18/30

PicturelD

SliceType

FirstMBlnSliceX

FirstMBlnSlice Y

InitialQP

SubPicturelD determinado em tudo, se quaisquer dos pacotes de dados que caracterizam o FR SP não tiver sido recebido pelo decodificador. Consequentemente, a decodificação do BR SP não necessita ser tentada quando o tamanho ou a posição de quaisquer dos FR SPs não puderem ser determinados, o que reduz o consumo de energia do decodificador. Além disso, uma vez que o tamanho e a posição dos FR SPs são sempre conhecidos antes do BR SP ser decodificado, eles podem também ser usados como uma base para a codificação do BR SP.

A sintaxe do fluxo de bit de acordo com a incorporação preferida será agora descrita.

O uso dos FR SPs é sinalado na lista de parâmetros da imagem e na 10 seqüência dos dados da camada, por exemplo como tem sido sugerido na ITU-T VCEG documento VCEG-N72R1, de 26 de setembro de 2001. A característica da sub-imagem provavelmente sai do escopo do perfil da linha de base e pertence aos perfis dos modelos propensos-erro apenas.

Quando as sub-imagens estão em uso, o cabeçalho da fatia é como a seguir: Como definido no VCEG-N72-R1 acima mencionado.

Como definido no VCEG-N72-R1 acima mencionado.

A posição horizontal (coluna) do primeiro macrobloco na fatia relativa a sub-imagem.

A posição vertical (coluna) do primeiro macrobloco na fatia relativa na sub-imagem.

Como definido no VCEG-N72-R1 acima mencionado.

Identificador único da sub-imagem. Cada sub-imagem é designada com uma ID iniciando de zero e incrementada por um na ordem de codificação. A conta é restaurada para cada imagem. Se a codificação da sub-imagem independente estiver em uso, a ID da sub-imagem permanece a mesma para as sub-imagens de associação espacial sobre um grupo de imagens.

0: atributos da sub-imagem são os mesmos dos atributos de uma subimagem tendo a mesma ID na imagem prévia. Este valor é útil especialmente no modo de codificação de sub-imagem independente.

SubPicturelnfo

19/30 • · · · · ·

1: atributos da sub-imagem são os mesmos dos atributos de uma subimagem tendo a mesma ID na mesma imagem. Este valor é usado se a sub-imagem contém múltiplas fatias.

2: a localização e o tamanho da sub-imagem é definido nas quatro palavras código a seguir. Se a codificação da sub-imagem independente estiver em uso, as quatro palavras código permanecem a mesma dentro de um grupo de blocos. A repetição das palavras código é permitida para os propósitos de resiliência de erro.

3: sub-imagem de segundo plano. Se uma das sub-imagens anteriores for a mesma imagem estiver perdida e a sua localização e o seu tamanho não forem extemamente sinalizados (que é típico em um modo de predição normal), o decodificador não decodifica a subimagem de segundo plano, uma vez que o seu formato é desconhecido.

Esquerda A coordenada do macrobloco mais-a-esquerda na sub-imagem (nos macroblocos). A coluna do macrobloco mais-a-esquerda da imagem é designada com o valor zero.

Topo A coordenada do macrobloco mais-alta na sub-imagem (nos macroblocos). A coluna do macrobloco mais-alta da imagem é designada com o valor zero.

Largura A largura da sub-imagem. As palavras código são designadas como a seguir:

Símbolo Número	Código UVLC	Explicação
0	1	Suposição = (MaisDireito-Esquerdo)/2 +1, onde o MaisDireito é o endereço da coluna do macrobloco mais- a-direita da imagem e/ posiciona para dividir por truncagem. Por exemplo, para uma imagem QCIF e Left igual a 3, a Largura toma (10-3)/2+1 =4.
1	001	Suposição + 1
2	011	Suposição - 1

20/30

3	00001	Suposição + 2
4	00011	Suposição - 2
	...	...

Altura Altura da sub-imagem. As palavras código são designadas similarmente para a

Largura.

Aplicações para o Método de Codificação da Fonte

Uma das maiores aplicações para o método de codificação e de decodificação de vídeo da incorporação preferida é a priorização de transporte das sub-imagens subjetivamente importante.

O método proposto pode melhorar a eficiência de compressão comparada à codificação dos frequentes, isto é, as fatias designadas fíxadamente. As sub-imagens retangulares frequentemente têm campos de movimento suave ou de texturas consistentes, e então o vetor de movimento e a codificação INTRA opera melhor quando usado na subimagem relativamente homogênea.

As sub-imagens independentes podem também ser usadas para a escalabilidade de resolução da imagem. Assumir que o mesmo fluxo de bit QCIF, por exemplo, a mensagem de multimídia, é transferida para dois dispositivos portáteis tendo um tamanho de tela diferente. Um suporta o tamanho até QCIF (176x144) e o outro até QQVGA (160x120). Existem duas possibilidades convencionais para ajustar uma imagem

QCIF no visor retangular QQVGA: Primeiro, a imagem pode ser escalonada para baixo, mas isto pode ser computacionalmente custoso. Segundo, a imagem pode ser produzido (8 pixels da esquerda e direita e 12 pixels de cima e de baixo), mas os pixels produzidos devem ser decodificados de qualquer jeito. As sub-imagens independentes provêem ainda outra solução: o fluxo de bit podería ser codificado assim que exista uma sub-imagem de tamanho de 144x112 centrada na imagem QCIF. O fluxo de bit pode ser decodificado para um visor retângulo QQVGA, de forma que apenas a sub-imagem seja decodificada. Consequentemente, 36 dos 99 macroblocos originais por imagem não tem de ser decodificado.

Um exemplo no streaming internet usando a incorporação preferida é a seguir descrito.

21/30

O streaming Internet de Múltiplos-Endereços foi selecionado como uma aplicação alvo. A base para a seleção foi que as condições comuns para as aplicações internet de baixo-retardo (VCEG-N79R1) poderia ser facilmente aplicada ao streaming de múltiplos-endereços também.

Como o encobrimento de erro interativo não pode ser usado em larga escala com o múltiplo-endereço IP, os métodos de controle de erro direto foram usados. Os métodos podem ser aplicados no nível de codificação de transporte (pacotes FEC, duplicação de pacote) ou no nível de codificação da fonte (codificação do macrobloco INTRA). Estes três casos foram considerados:

1: Armazenagem inicial relativamente longa (1 segundo, ou 10 quadros a uma taxa de quadro de 10 quadros/segundo) antes de iniciar a reprodução nos clientes. A codificação de erro direta Reed-Solomon é usada.

2: Quantidade moderada (2 quadros) da armazenagem inicial antes de iniciar a reprodução nos clientes. A codificação de erro direto de paridade de acordo com a RFC

2733 usada.

3. Quantidade moderada (2 quadros) da armazenagem inicial antes de iniciar a reprodução nos clientes. Nenhuma codificação de erro direto a nível de transporte.

Enquanto os melhores resultados podem ser alcançados com o caso 1, os clientes podem necessitar das capacidades de armazenagens requeridas. Em adição, os pacotes FEC Reed-Solomon não tem sido padronizado (da forma conhecida). Assim, os resultados foram também fornecidos por um esquema baseado no FEC de paridade simples (caso 2), que deveria ser suficientemente fácil de implementar nos sistemas mais práticos. Contudo, em alguns sistemas, tal como o serviço streaming comutado por pacote no 3GPP (edição 4), não inclui o suporte para a paridade FEC, e então o caso 3 foi adicionado para estabelecer também o teste.

Condições de TesteOs codecs:

O método de codificação da incorporação preferida da invenção foi implementado baseado no TML-8.6, uma versão temporária do TML-8.5 mais a implementação de encobrimento de erro (VCEG-N62). Este foi denominado como um

22/30 codec de sub-imagem (RSP) retangular. O desempenho do codec RSP foi comparado ao codec 1 convencional (TML-86 mais a quantização da região de interesse) e o codec 2 convencional (TML-86, sem a quantização da região de interesse).

Parâmetros do codec:

• Resolução do vetor de movimento: 1/8 pel • Transformada Hadamard: usada • Alcance de busca máximo: 16 • Número de quadros prévios usado para a busca de movimento inter: 5 • Todos os tipos de bloco habilitados.

• Modo fatia: número fixado de MB por fatia.

• Quadros-B e quadros-SP: não usados • Modo do Símbolo: CABAC • Partição de dados: 1 partição por fatia • Cabeçalho da seqüência: nenhum cabeçalho da seqüência • Restrições de alcance de busca: nenhum • Decisão do modo otimizado da taxa-distorção: ativado • Predição intra restrita: não usada • Troca QP: não usada • Quadro de referência adicional: não usado.

Outras Condições.

• Ao invés de codificar 4000 quadros como especificado no VCEG-N79R1, o PSNR do vídeo decodificado é calculado para cada 10 rodadas, a média PSNR mais a melhor e os piores casos de 10 rodadas são apresentados, como proposto no VCEG-M77. Este método é usado para apresentar a variação do PSNR dependendo da posição dos campos padrões de perda. Na simulação, o início da posição de perda da rodada com ordem n+1 continuamente segue a posição de perda final da nésima rodada.

• Uma sobrecarga de empacotamento constante (40 bytes/por pacote) é assumida como no VCEG-N79R1. A sobrecarga de empacotamento de todos os pacotes , incluindo os pacotes FEC são subtraídas da taxa de bit

23/30 total disponível para calcular a taxa de bit disponível.

• Uma vez que nenhuma estratégia de controle de taxa é implentada no programa TML atual, adquirimos as taxas de bit desejadas de acordo com o método de alocação de bit descrito na sub-seção 4.4.

• Como especificado no VCEG-N79R1, o PSNR é calculado entre cada e todo quadro da seqüência da fonte (taxa de quadro total), e o quadro reconstruído correspondente.

• As atualizações INTRA GOB foram usadas ao invés de um mecanismo de seleção do modo do macrobloco.

Seqüência e Segmentação de Teste

As experiências foram feitas com a seqüência Carphone. A versão QCIF da seqüência foi usada. Esta foi codificada a uma taxa de quadro de 10 fps. A taxa de bits total alvo foi de 64 kbps. O número de quadros codificados foi 101(303, quadros da seqüência Carphone, divididos por 2).

A sub-imagem do primeiro plano foi selecionada manualmente e cobriu a cabeça do companheiro que aparece nas séries em todas as imagens de um clipe de vídeo. No codec 1 convencional, a área para a sub-imagem do primeiro plano foi selecionada como a região de interesse que foi quantizada mais fina do que o restante da imagem. Uma subimagem de primeiro plano constante de 64x64 foi usada para toda a seqüência. O modo de codificação da sub-imagem independente estava em uso.

Empacotamento e Correção de Erro Direto

Em todos os casos, os tamanhos dos pacotes RS FEC são assumidos para igualar ao tamanho mais largo dos pacotes que foram protegidos com os pacotes RS FEC. Se m pacotes FEC forem codificados para cada bloco de n pacotes de vídeo, o esquema de codificação é referenciado como RS (n, m). O esquema FEC é capaz de corrigir a perda de até m pacotes (qualquer combinação de pacotes de vídeo e os pacotes FEC) por cada bloco.

Caso 1: 10 quadros armazenados com o RS FEC

Q codec RSP (apenas uma sub-imagem de primeiro planoj:

• Para a imagem intra, existem 4 pacotes: 2 pacotes para a sub-imagem de primeiro plano (intercalação GOB aplicada), 1 pacote RS(2, 1) para os 2

24/30

··· ·· ··· ··· · · ··· ·· pacotes de primeiro plano, e 1 pacote para a sub-imagem de primeiro plano.

• Para as imagens inter, 10 quadros consistem um grupo. Para cada grupo, existem 10 pacotes de sub-imagem de primeiro plano, os pacotes m (m é variável) para os pacotes do primeiro plano, e 10 pacotes de sub-imagem do segundo plano. Note que o método de empacotamento para o primeiro plano e o segundo plano é o método de intercalação: os números pares dos GOBs do quadro n e os números ímpares dos GOBs do quadro n+1 estão em um pacote, e vice-versa.

Os Codecs Convencionais:

• Para a imagem intra, existem 3 pacotes: 2 pacotes de intercalação GOB para toda a imagem, e 1 pacote RS(2, 1).

• Para as imagens inter, 10 quadros consistem um grupo. Para cada grupo, existem 20 pacotes, cada qual contém cada outro GOB de um quadro particular, e os pacotes m (m é variável) RS(20, m).

Caso 2: 2 quadros armazenados com paridade FEC.

Note que o resultado da paridade FEC para 2 pacotes é a mesma do resultado do RS (2,1). Em adição, para simplificar a documentação, a paridade FEC é considerada para ser a mesma do RS(2, 1).

O codec RSP (apenas uma sub-imagem de primeiro plano):

• Para a imagem intra, o mesmo que o caso 1.

• Para as imagens inter, 2 quadros consistem um grupo. Para cada grupo, existem 2 pacotes de sub-imagem de primeiro plano, 1 pacote RS(2, 1) para os pacotes do primeiro plano, e 1 pacote de sub-imagem de primeiro plano. O método de empacotamento para o primeiro plano e o segundo plano é o mesmo que no caso 1.

Codecs Convencionais:

• Para a imagem intra, o mesmo que o caso 1.

• Para as imagens inter, cada quadro tem 3 pacotes, 2 pacotes de intercalação GOB, e 1 pacote RS(2, 1).

25/30 ·· ··· ··«···· « • ·· ·· ···· · ·· · • ··· Λ ····· ·· ·· · ♦ * · · ·····*·· · · • · · · · · · · · ··· ·· ·»» ··· · · ···

Caso 3: 2 quadros armazenados sem FEC

Todos os codecs usam o mesmo método de empacotamento como no caso 2. A diferença apenas é que não existe pacote FEC.

Alocação de Bit.

A taxa de bits é decidida por vários fatores: a taxa de atualização intra GOB (IGU), a taxa FEC, o método de fatia, e QP. (Note que a predição de fora do GOB intra atualizado deveria ser impedida quando a fatia de formato não-GOB for usada. Por fatia de formato GOB, a prevenção de predição é feita pelo limite da predição da fatia). Nas simulações, o formador de 3 fatores, se variável, são otimizados por tentativa e erro. QP é ajustado quando outros fatores são fixados, como a seguir:

QP ou par QP para a região de interesse sem codificação ROI, QP é ajustado diretamente para encontrar a taxa de bits de vídeo disponível tão próxima quanto possível.

Para o codec RSP ou o codec convencional com a codificação ROI, o par QP é ajustado como a seguir (QPf é o primeiro plano, e o QPb é para o segundo plano):

Primeiro decide o QPf. Estabelecer o QPb para ser o máximo (31), ajustar

QPf para encontrar a taxa de bit de vídeo disponível tão próxima quanto possível.

Então refinar QPb. Vamos que QPf seja fixado como decidido acima, ajustar o QPb para encontrar a taxa de bits disponível tão próxima quanto possível.

Resultados

Resultados Objetivos

Apenas os resultados otimizados são apresentados aqui. Ao otimizar a taxa

IGU, a taxa FEC e o método de fatia, nenhum limite de alcance é colocado neles. Os alcances mais amplos decididos pelos codecs são usados. Quer dizer, o alcance da taxa IGU é de 0 a 1 GOB/quadro, a taxa FEC (m no RS(n,m) é de 0 (nenhum limite superior), e a fatia é de 1 a 9 (o máximo para a seqüência QCIF) GOB/fatia.

Os resultados dos três casos foram obtidos. Na discussão a seguir, o PLR denota a taxa de perda do pacote e IGUf e IGUb são respectivamente IGU das sub-imagens de primeiro plano e de segundo plano. A unidade para a taxa IGU é GOB/quadro.

Os resultados apresentados foram:

· Em cada caso, o codec RSP proposto tem o melhor PSNRs para a região

26/30

de primeiro plano, e o codec convencional com codificação ROI é melhor do que o codec convencional sem ROI. No caso 1, a média PSNR do codec RSP é 0,78 dB à 0,96 dB mais alta do que o codec convencional com codificação ROI, e 1,94 dB à 2,40 dB mais alta do que o codec convencional sem codificação ROL No caso 2, os melhoramentos são de 1,09 dB à 1,59 dB e 2,04 dB à 2,38 dB, respectivamente. No caso 3, os melhoramentos são respectivamente de 0,28 dB à 1,52 dB para 1,86 dB quando PLR é não zero.

• Se as seqüências relativamente longas forem armazenadas (caso 1), o próprio RS FEC pode recuperar todas as perdas de pacote no PLRs de 3%, 5%, e 10% e a maioria das perdas de pacote no PLR de 20%.

• No caso 3, o codec RSP é melhor do que os codecs convencionais. Uma razão é que a região de primeiro plano usando o codec RSP tem uma taxa IGU mais ampla. Para a seqüência QCIF, existem 9 GOBs por quadro. Então, IGU=1 significa que a taxa IGU real é de 1/9. Para a sub-imagem de primeiro plano (assumir que este tem 6 linhas de MBs), IGU=1 significa que a taxa IGU real é de 1/6. No programa TML atual, o IGU máximo é 1. Contudo, dos resultados apresentados, nós podemos inferir que a taxa IGU mais ampla ou outro método de atualização intra deveria ser desenvolvido.

Resultados subjetivos.

Para cada caso, a seqüência que foi escolhida tinha os valores PSNR mais próximos da média como na seqüência representativa para as avaliações subjetivas.

Mesmo embora os instantâneos não forneçam uma idéia completa do procedimento dos diferentes esquemas, eles capturam alguns aspectos. Os instantâneos da última imagem decodificada para a taxa de perda de pacote de 0%, 5%, e 20% e para o esquema de codificação proposto foram examinados.

Os instantâneos apresentaram que o esquema de codificação convencional com o QP constante aparece claramente pior en todos os casos. Eles também apresentam que a área de interesse no esquema de codificação proposto é subjetivamente melhor do que

27/30 nos outros esquemas. Este pode ser visto mais claramente quando nenhum pacote FEC forem usados no caso da taxa de perda de 20%.

Em geral, os instantâneos apresentados estão na linha com o fato de que as perdas são recuperadas pelo pacotes FEC e as atualizações INTRA GOB relativamente breves (uma vez que existem deficilmente quaisquer erros visíveis nos instantâneos).

A Figura 6 apresenta um diagrama de bloco de um dispositivo de comunicação móvel MS de acordo com a incorporação preferida da invenção. No dispositivo de comunicação móvel, a Unidade de Controle Mestre MCU controla os blocos responsáveis pelas várias funções do dispositivo de comunicação móvel: Memória de Acesso Randômico RAM, parte de Rádio Freqüência RF, a Memória de Somente Leitura ROM, o codec de vídeo CODEC e a interface do usuário UI. A interface do usuário compreende um teclado KB, um visor DP, um alto falante SP e um microfone MF. A MCU é um microprocessador, ou em outras incorporações alternativas, algum outro tipo de processador, por exemplo, um Processador de Sinal Digital. Vantajosamente, as instruções de operação do MCU tem sido armazenadas previamente na memória ROM. De acordo com as suas instruções (isto é, um programa de computador), o MCU usa o bloco RF para transmitir e receber os dados sobre o caminho de rádio. O codec de vídeo pode ser baseado em harware ou totalmente ou parcialmente baseado em software, neste caso o CODEC compreende os programas de computador para controlar o MCU para executar as funções de codificação e a decodificação de vídeo como solicitado. O MCU usa a RAM como sua memória de trabalho. O dispositivo de comunicação móvel pode capturar o vídeo em movimento pela câmera de vídeo, codificar e empacotar o vídeo em movimento usando o MCU, a RAM e o CODEC baseado no programa. O bloco RF é entào usado para trocar o vídeo codificado com outras partes.

A Figura 7 apresenta o sistema 70 de comunicação de vídeo compreendendo uma pluralidade de dispositivos de comunicação móveis MS, a rede de telecomunicações móveis 71, a Internet 72, um servidor de vídeo 73 e um PC fixo conectado a Internet. O servidor de vídeo tem um codificador de vídeo e pode prover os fluxos de vídeo emdemanda, tal como a previsão do tempo ou as notícias.

A incorporação preferida da invenção é baseada no esquema de codificação

28/30

baseado na região. Ao contrário do vídeo MPEG-4, esta não requer qualquer processamento complicado das regiões de formato arbitrário na codificação e na decodificação de vídeo e então é também aplicável aos dispositivos portáteis. A incorporação preferida da invenção provê uma codificação de vídeo robusta e uma ferramenta de decodificação para habilitar a priorização de transporte e para alcançar uma qualidade de imagem subjetivamente melhor nos sistemas de comunicação de vídeo propenso-erro.

A incorporação preferida pode ser aplicada nos vários contextos, por exemplo, no contexto do padrão de codificação de vídeo ITU-T H.26L. As implementações e as incorporações particulares da invenção têm sido descritas. É claro para o técnico no assunto que a invenção não está restrita aos detalhes das incorporações apresentadas acima, mas que esta pode ser implementada em outras incorporações usando meios equivalentes sem sair das características da invenção. O escopo da invenção é apenas restrito pelas reivindicações da patente apensas.

Abreviações:

AVO Audio-Visual Object

Objeto Áudio-Visual

BR Background Region

Região do Segundo Plano

CABAC Çontext-basead Adaptive Binary Arithmetic Çoding

Codificação Aritmética Binária Adaptativa baseada em Contexto

DCT Discrete Çosine Transform

Transformada de Coseno Discreta

DPL Data Partitioning Layer

Camada de particionamento de Dados

FEC Forward Error Çorrection

Correção de Erro Direta

FR Foreground Region

Região de Primeiro Plano

GOB Group Of Blocks

Grupo de Blocos

29/30

IGU	Intra GOB Update Atualização GOB Intra
ITU	International Telecommunication Union União Internacional de Telecomunicação
MB	MacroBlock Macrobloco
MPEG	Moving Picture Expert Group Grupo de Expertes em Imagem em Movimento
NAL	Network Adaptation Layer Camada de Adaptação de Rede
QCIF	Quarter Çommon Intermediate Format Formato Intermediário Comum Quaternário
QP	Quantisation Parameter Parâmetro de Quantização
QPb	Quantisation Parameter for background Parâmetro de Quantização para Segundo Plano
QPf	Quantisation Parameter for foreground Parâmetro de Quantização para Primeiro Plano
QQVGA	Formato de vídeo com 160x120 pixels
ROI	Region Of Interest Região de Interesse
RS	Reed-Solomon
RSP	Rectangular Sub-Picture Sub-Imagem Retangular
RTP	Real-Time Transport Protocol Protocolo de Transporte em Tempo Real
SEI	Supplemental Enhancement Information Informação Suplementar de Aperfeiçoamento
SP	Sub-Picture Sub-imagem

30/30

TML Test Model Long-term

Modelo de Teste Longo-Termo

UVLC Universal Variable Lenght Çode

Código Universal de Comprimento Variável

VCL Video Çoding Layer

Camada de Codificação de vídeo

VO Video Object

Objeto de Vídeo

VOL Video Object Layer

Camada do Objeto de Vídeo

VOP Video Obj ect Plane

Plano do Objeto de Vídeo

YUV Componentes de três cores

Claims

1. Método para a codificação de vídeo, caracterizado pelo fato de que compreende as seguintes etapas:

- dividir uma imagem (100) em um conjunto de blocos de codificação de 5 formato regular tendo um alinhamento predeterminado em relação à área da imagem (100), cada bloco de codificação correspondendo a pelo menos um grupo de elementos de codificação elementares;

- determinar pelo menos um formato (101) dentro da imagem (100);

- selecionar pelo menos um sub-conjunto dos blocos de codificação (102)

10 definindo pelo menos uma área cobrindo o dito pelo menos um formato determinado (101);

- determinar, como pelo menos um objeto de codificação separado, pelo menos um sub-conjunto dos blocos de codificação selecionado (102);

- determinar, como um objeto de fundo unitário, o sub-conjunto dos blocos

15 de codificação (103) que corresponde à parte da imagem (100) que exclui o dito pelo menos um objeto de codificação separado;

- codificar o dito pelo menos um objeto de codificação separado; e

- codificar, como um objeto de codificação, o objeto de fundo unitário, sendo que a codificação compreende:

20 - determinar pelo menos uma fatia de codificação em uma ordem de varredura pela codificação de blocos de codificação consecutivos do sub-conjunto dos blocos de codificação (103), que corresponde à parte da imagem que exclui o dito pelo menos um objeto de codificação separado, e ao mesmo tempo saltando os blocos de codificação (102) associados ao dito pelo menos um objeto de codificação separado.

25 2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o objeto de codificação de fundo é codificado usando o dito pelo menos um objeto de codificação separado.

3. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a codificação de vídeo do dito pelo menos um objeto de codificação separado compreende

30 ainda a sub-etapa de definir, em cada objeto de codificação separado, fatias de codificação

Petição 870170026719, de 24/04/2017, pág. 18/90

2/6 em uma ordem de varredura, de forma que as fatias sejam compostas na ordem de varredura dos blocos de codificação incluídos no dito pelo menos um objeto de codificação separado.

4. Método de acordo com qualquer uma das reivindicações 1 a 3,

5 caracterizado pelo fato de que a área de cobertura do dito pelo menos um formato determinado é uma área retangular.

5. Método de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que os objetos de codificação separados são definidos em uma ordem descendente de importância subjetiva.

10 6. Método de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que a codificação de vídeo do dito pelo menos um objeto de codificação separado é independente da codificação de vídeo do objeto de fundo, de forma a inibir a propagação de erro no dito pelo menos um objeto de codificação separado.

7. Método de acordo com qualquer uma das reivindicações 1 a 6,

15 caracterizado pelo fato de que compreende ainda a etapa de designar um identificador diferente para o dito pelo menos um objeto de codificação separado para correlacionar cada um dos ditos pelo menos um objeto de codificação separado e as características correspondentes.

8. Método para a decodificação de uma imagem (100) de vídeo codificada por

20 um conjunto de blocos de codificação, cada bloco de codificação correspondendo a pelo menos um grupo de elementos de codificação elementares e os blocos de codificação tendo um alinhamento predeterminado em relação à área da imagem, caracterizado pelo fato de que compreende as seguintes etapas:

- determinar pelo menos um objeto de codificação separado correspondendo

25 a pelo menos um sub-conjunto dos blocos de codificação (102) definindo pelo menos uma parte de uma imagem sendo decodificada;

- determinar, como um objeto de fundo unitário, o sub-conjunto dos blocos de codificação (103) que corresponde à parte da imagem que exclui o dito pelo menos um objeto de codificação separado;

30 - decodificar o dito pelo menos um objeto de codificação separado; e

Petição 870170026719, de 24/04/2017, pág. 19/90

3/6

- decodificar o objeto de fundo unitário pela formação de pelo menos uma fatia de blocos de codificação consecutivos (103) e ao mesmo tempo saltando os blocos de codificação (102), que são associados ao objeto de codificação separado.

9. Método de acordo com a reivindicação 8, caracterizado pelo fato de que a 5 decodificação de vídeo do dito pelo menos um objeto de codificação separado é independente da decodificação de vídeo do objeto de fundo.

10. Método de acordo com a reivindicação 8 ou 9, caracterizado pelo fato de que o dito pelo menos um objeto separado corresponde a pelo menos uma região frontal.

11. Codificador de vídeo, caracterizado pelo fato de que compreende:

10 - um dispositivo para dividir uma imagem (100) em um conjunto de blocos de codificação de formato regular tendo um alinhamento predeterminado em relação à área da imagem, cada bloco de codificação correspondendo a pelo menos um grupo de elementos de codificação elementares;

- um dispositivo para determinar pelo menos um formato (101) dentro da

15 imagem (100);

- um dispositivo para selecionar pelo menos um sub-conjunto dos blocos de codificação (102) definindo pelo menos uma área cobrindo o dito pelo menos um formato determinado (101);

- um dispositivo para determinar, como pelo menos um objeto de codificação 20 separado, o dito pelo menos um sub-conjunto dos blocos de codificação selecionado;

- um dispositivo para determinar, como um objeto de fundo unitário, o subconjunto dos blocos de codificação (103) que corresponde à parte da imagem (100) que exclui o dito pelo menos um objeto de codificação separado;

- um dispositivo para codificar o dito pelo menos um objeto de codificação 25 separado; e;

- um dispositivo para codificar, como um objeto de codificação, o objeto de fundo unitário, sendo que o dispositivo de codificação compreende:

- um dispositivo para determinar pelo menos uma fatia de codificação em uma 30 ordem de varredura codificando blocos de codificação consecutivos do sub-conjunto dos

Petição 870170026719, de 24/04/2017, pág. 20/90

4/6 blocos de codificação (103) que corresponde à parte da imagem (100) que exclui o dito pelo menos um objeto de codificação separado, e ao mesmo tempo saltando os blocos de codificação (102) associados ao dito pelo menos um objeto de codificação separado.

12. Codificador de vídeo de acordo com a reivindicação 11, caracterizado 5 pelo fato de que o objeto de codificação de fundo é codificado usando o dito pelo menos um objeto de codificação separado.

13. Codificador de vídeo de acordo com a reivindicação 11 ou 12, caracterizado pelo fato de que o dispositivo para codificar o dito pelo menos um objeto de codificação separado é configurado para definir, em cada objeto de codificação separado,

10 fatias de codificação em uma ordem de varredura, de forma que as fatias sejam compostas na ordem de varredura dos blocos de codificação incluídos no dito pelo menos um objeto de codificação separado.

14. Codificador de vídeo de acordo com qualquer uma das reivindicações 11 a

13, caracterizado pelo fato de que a área de cobertura do dito pelo menos um formato

15 determinado é uma área retangular.

15. Codificador de vídeo de acordo com qualquer uma das reivindicações 11 a

14, caracterizado pelo fato de que o dispositivo para determinar, como pelo menos um objeto de codificação separado, o dito pelo menos um sub-conjunto de blocos de codificação separado, é configurado para definir o dito pelo menos um objeto de

20 codificação separado em uma ordem descendente de importância subjetiva.

16. Codificador de vídeo de acordo com qualquer uma das reivindicações 11 a

15, caracterizado pelo fato de que a codificação de vídeo do dito pelo menos um objeto de codificação separado é independente da codificação de vídeo do objeto de fundo, de forma a inibir a propagação de erro no dito pelo menos um objeto de codificação separado.

25 17. Codificador de vídeo de acordo com qualquer uma das reivindicações 11 a

15, caracterizado pelo fato de que compreende ainda um dispositivo para designar um identificador diferente para o dito pelo menos um objeto de codificação separado para correlacionar cada um dos ditos pelo menos um objeto de codificação separado e as características correspondentes.

30 18. Decodificador de vídeo para decodificar uma imagem (100) de vídeo

Petição 870170026719, de 24/04/2017, pág. 21/90

5/6 codificada por um conjunto de blocos de codificação, cada bloco de codificação correspondendo a pelo menos um grupo de elementos de codificação elementares e os blocos de codificação tendo um alinhamento predeterminado em relação à área da imagem (100), caracterizado pelo fato de que compreende:

5 - um dispositivo para determinar pelo menos um objeto de codificação separado correspondendo a pelo menos um sub-conjunto dos blocos de codificação (102) definindo pelo menos uma parte de uma imagem (100) sendo decodificada;

- um dispositivo para determinar, como um objeto de fundo unitário, o subconjunto dos blocos de codificação (103) que corresponde à parte da imagem (100) que

10 exclui o dito pelo menos um objeto de codificação separado;

- um dispositivo para decodificar o dito pelo menos um objeto de codificação separado; e

- um dispositivo para decodificar, como um objeto de codificação, o objeto de fundo unitário;

15 sendo que os dispositivos são configurados para formar uma fatia de decodificação dos blocos de codificação consecutivos (103) e ao mesmo tempo saltar os blocos de codificação (102) que pertencem a qualquer um dos objetos de codificação separados.

19. Decodificador de vídeo de acordo com a reivindicação 18, caracterizado pelo fato de que a decodificação de vídeo do dito pelo menos um objeto de codificação

20 separado é independente da decodificação de vídeo do objeto de fundo.

20. Decodificador de vídeo de acordo com a reivindicação 18 ou 19, caracterizado pelo fato de que o dito pelo menos um objeto separado corresponde a pelo menos uma região de frente.

21. Sinal de vídeo, caracterizado pelo fato de que compreende:

25 - uma pluralidade de blocos de codificação de vídeo compactados correspondendo a pelo menos um objeto de codificação separado correspondendo a uma parte de uma imagem de vídeo codificada (100), a parte da imagem de vídeo codificada tendo uma posição variável, para pelo menos um objeto de codificação separado;

- a informação de posição do dito pelo menos um objeto de codificação

30 separado; e

Petição 870170026719, de 24/04/2017, pág. 22/90

6/6

- uma pluralidade de blocos de codificação de vídeo compactados correspondendo a um objeto de fundo unitário que é vídeo codificado como um objeto de codificação e corresponde a pelo menos uma fatia de codificação numa ordem de varredura compreendendo blocos de codificação consecutivos de um conjunto de blocos de codificação (103) que corresponde à parte da imagem de vídeo codificada (100) que salta o dito pelo menos um objeto de codificação separado.

22. Sinal de vídeo de acordo com a reivindicação 21, caracterizado pelo fato de que compreende alinhar os blocos de codificação de vídeo que correspondem a pelo menos um objeto de codificação separado em relação à imagem codificada de vídeo.

23. Sinal de vídeo de acordo com a reivindicação 21 ou 22, caracterizado pelo fato de que compreende:

- uma pluralidade de blocos de codificação de vídeo compactados correspondendo a pelo menos um objeto de codificação separado correspondendo a uma parte de uma imagem de vídeo codificada, a parte da imagem de vídeo codificada tendo posição e tamanho variáveis;

- um identificador para cada um dos ditos pelo menos um bloco de codificação separado;

- a informação de posição e o tamanho de pelo menos um bloco de codificação separado; e

- uma pluralidade de blocos de codificação de vídeo compactados correspondendo ao objeto de fundo que corresponde a um grupo de blocos de codificação que corresponde a uma imagem de vídeo codificada excluindo pelo menos um bloco de codificação separado.