BRPI0609124A2

BRPI0609124A2 - método e aparelho para codificação e decodificação de vìdeo

Info

Publication number: BRPI0609124A2
Application number: BRPI0609124-5A
Authority: BR
Inventors: Haoping Yu; Limin Liu
Original assignee: Thomson Licensing
Priority date: 2005-04-13
Filing date: 2006-03-16
Publication date: 2010-02-23
Also published as: JP2013240081A; MX2007012708A; MY167744A; BRPI0609236A2; KR20080006556A; WO2006112996A1; JP2008536446A; US8767826B2; US20200374561A1; US10123046B2; MX2007012705A; JP6538521B2; JP2016026457A; EP1869892A1; US20150271490A1; MX2007012710A; EP1872586A1; KR101278308B1; EP1872588A1; BRPI0609281A2

Abstract

MéTODO E APARELHO PARA CODIFICAçãO E DECODIFICAçãO DE VìDEO. São descritos codificadores de vídeo, decodificadores de vídeo e métodos correspondentes. Um codificador de video para codificar dados de sinal de vídeo para um bloco de imagem inclui um codificador (100) para codificar todos os componentes de cor dos dados de sinal de video usando um preditor comum.

Description

"MÉTODO E APARELHO PARA CODIFICAÇÃO E DECODIFICA-ÇÃO DE VÍDEO"

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS Este pedido reivindica o beneficio do pedido pro-5 visório US 60/671.255, depositado em 13 de abril de 2005, e do pedido provisório US 60/700.834, depositado em 20 de julho de 2005, ambos os quais são aqui incorporados pela referência em suas respectivas integras. Além do mais, este pedido está relacionado aos pedidos de patente, documentos ju-10 diciais PU050051, PU060023, intitulados "METHOD AND APPARA-' TUS FOR VÍDEO ENCODING"; e PU060029, PU060030, intitulados "METHOD AND APPARATUS FOR VÍDEO DECODING", cada um dos quais é depositado concorrentemente com este. CAMPO TÉCNICO

A presente invenção diz respeito, no geral, a co-

dificadores e decodificadores e, mais particularmente, a mé- / todos e aparelhos para codificação e decodificação de video. ANTECEDENTES DA INVENÇÃO

Atualmente, o formato 4:4:4 do padrão H.264 da U-20 nião Internacional de Telecomunicações, Setor de Telecomunicações (ITU-T) (doravante, o "padrão H.264") somente codifica um de três canais como luma, com os outros dois canais sendo codificados como croma usando ferramentas menos eficientes. Quando uma entrada de um codec está no formato 4:4:4 25 com resolução completa em todos os componentes de entrada, a codificação de dois dos três componentes de entrada com o algoritmo de codificação croma menos efetivo resulta no uso de mais bits naqueles dois canais. Este problema particularé mais perceptivel em intraquadros. Por exemplo, o padrão H.264 executando no modo somente intra é menos eficiente que JPEG2k para qualidade de compressão completa em 40 dB (PSNR) e superiores. Dessa maneira, é desej ável e altamente vantaj oso

ter métodos e aparelhos para codificação e decodificação de video que superem as desvantagens supradescritas da tecnologia anterior.

SUMÁRIO DA INVENÇÃOEstese outros inconvenientes e desvantagens da

tecnologia anterior são abordados pela presente invenção, que é direcionada para métodos e aparelhos para codificação e decodificação de video.

De acordo com um aspecto da presente invenção, éprovido um codificador de video para codificar dados de sinal de video para um bloco de imagens. O codificador de video inclui um codificador para codificar os dados de sinal de video usando preditores exclusivos para cada um dos componentes de cor dos dados de sinal de video.

De acordo com um outro aspecto da presente inven-

ção, é provido um método para codificar dados de sinal de video para um bloco de imagens. O método inclui codificar os dados de sinal de video usando preditores exclusivos para cada um dos componentes de cor dos dados de sinal de video.

De acordo com um ainda outro aspecto da presente

invenção, é provido um decodificador de video para decodificar dados de sinal de video para um bloco de imagens. O decodif icador de video inclui um decodificador para decodifi-car os dados de sinal de video usando preditores exclusivos para cada um dos componentes de cor dos dados de sinal de video.

De acordo com um ainda outro aspecto da presente invenção, é provido um método para decodificar dados de sinal de video para um bloco de imagens, o método compreendendo decodificar os dados de sinal de video usando preditores exclusivos para cada um dos componentes de cor dos dados de sinal de video.

Estes e outros aspectos, recursos e vantagens da presente invenção ficarão aparentes a partir da seguinte descrição detalhada das modalidades exemplares, que deve ser lida em conjunto com os desenhos anexos.

DESCRIÇÃO RESUMIDA DOS DESENHOS

A presente invenção pode ser mais bem entendida de acordo com as seguintes Figuras exemplares, nas quais:

A Figura 1 é um diagrama em blocos ilustrando um aparelho codificador de video exemplar no qual os presentes princípios podem ser aplicados;

A Figura 2 é um diagrama em blocos ilustrando um aparelho decodifiçador de video exemplar no qual os presentes princípios podem ser aplicados;

A Figura 3 é um fluxograma ilustrando um processo de codificação de video exemplar com um bloco de transformada de cor de pré-codificação de acordo com os presentes princípios;

A Figura 4 é um fluxograma ilustrando um processo exemplar de decodificação de video com um bloco de transfor-`mada de cor inversa de pós-decodificação de acordo com os presentes princípios;

A Figura 5 é um diagrama em blocos ilustrando um modelo simplificado de transformada de cor residual (RCT); As Figuras 6A e 6B são gráficos de PSNR médio em

função da taxa de bit para ATV somente intra de acordo com os presentes princípios;

As Figuras 7A e 7B são gráficos de PSNR médio em função da taxa de bit para CT somente intra de acordo com os presentes princípios;

As Figuras 8A e 8B são gráficos de PSNR médio em função da taxa de bit para DT somente intra de acordo com os presentes princípios;

As Figuras 9A e 9B são gráficos de PSNR médio em função da taxa de bit para MIR_HD somente intra de acordo com os presentes princípios;

As Figuras 10A e 10B são gráficos de PSNR médio em função da taxa de bit para RT somente intra de acordo com os presentes princípios; As Figuras 11A e 11B são gráficos de PSNR médio em

função de taxa de bit para STB_HD somente intra de acordo com os presentes princípios;

A Figura 12 é uma tabela ilustrando a sintaxe do parâmetro da seqüência H.264 de acordo com os presentes princípios;

A Figura 13 é uma tabela ilustrando a sintaxe de dados residuais H.264 de acordo com os presentes princípios;

A Figura 14 é um fluxograma ilustrando um processode codificação de video exemplar com um bloco de transformada de cor de pré-codificação de acordo com os presentes princípios;

A Figura 15 é um fluxograma ilustrando um processo exemplar de decodificação de video com um bloco de transformada ' de cor inversa de pós-decodificação de acordo com os presentes princípios; e

A Figura 16 é uma tabela ilustrando a sintaxe de predição de macrobloco H.2 64 de acordo com os presentes princípios.

DESCRIÇÃO DETALHADA

A presente invenção é direcionada para métodos e aparelhos para codificação e decodificação de dados de sinal de video. Percebe-se que, embora a presente invenção seja essencialmente descrita com relação aos dados de sinal de video amostrados usando o formato 4:4:4 do padrão H. 2 64 da União Internacional de Telecomunicações, Setor de Telecomunicações (ITU-T), a presente invenção também pode ser aplicada aos dados de sinal de video amostrados usando outros formatos (por exemplo, o formato 4:2:2 e/ou o formato 4:2:0) do padrão H.264, bem como outros padrões de compressão de video, ao mesmo tempo em que mantém o escopo da presente invenção .

Percebe-se que métodos e aparelhos de acordo com os presentes princípios não exigem o uso de nenhuma ferramenta (s) inédita (s) para o algoritmo de compressão luma ou croma. Em vez disto, podem ser usadas as ferramentas de codificação luma existentes. Dessa maneira, um resultado van-tajoso a partir deste ponto é que o desempenho de codificação do formato 4:4:4 pode ser maximizado ao mesmo tempo em que preserva compatibilidade com versões anteriores e minimiza qualquer mudança do padrão H. 2 64 existente (ou outro aplicável).

De acordo com os princípios da presente invenção, da forma configurada em uma modalidade, um algoritmo de codificação luma é usado para codificar todos os três canais componentes, por exemplo, do conteúdo 4:4:4. Vantagens desta modalidade incluem uma melhoria no desempenho geral de codificação para comprimir conteúdo 4:4:4 em relação à tecnologia anterior, Atualmente, no padrão H.264 existente, somente um dos três canais é codificado como luma, e os outros dois são codificados como crorna usando ferramentas menos eficientes .Adicionalmente, de acordo com os princípios da presente invenção, da forma configurada em uma modalidade, a transformada de cor é realizada como uma etapa de pré-processamento. Assim, de acordo com esta modalidade, uma transformada de cor residual (RCT) não é realizada dentro do laço de compressão. Vantagens desta modalidade incluem a provisão de consistente arquitetura de codificador / decodi-ficador entre todos os formatos de cor.

Além do mais, de acordo com os princípios da presente invenção, da forma configurada em uma modalidade, o modo de predição de movimento / espacial é usado para todos os três componentes. Vantagens desta modalidade incluem baixa complexidade de codec e compatibilidade com versões ante-riores.

Também, de acordo com uma outra modalidade, em vez de usar o mesmo preditor para todos os três componentes, um conjunto (ou subconjunto) de três (3) preditores espaciais restritos pode ser utilizado para os três componentes. Vantagens desta modalidade incluem uma melhoria no desempenho geral de codificação para comprimir conteúdo 4:4:4 em relação à tecnologia anterior.

Percebe-se que várias modalidades supradescritas e, subseqüentemente, aqui descritas, podem ser implementadas como modalidades independentes ou podem ser combinadas de qualquer maneira da forma prontamente percebida pelos versados na técnica. Assim, por exemplo, em uma primeira modalidade combinada, um algoritmo de codificação luma é vantajo-samente usado para codificar todos os três canais componentes , a transformada de cor é realizada como uma etapa de pré-processamento, e um único preditor é usado para todos os três canais componentes. Em uma segunda modalidade combinada, um algoritmo de codificação luma é vantajosamente usado para codificar todos os três canais componentes, a transformada de cor é realizada como uma etapa de pré-processamento, e um conjunto (ou subconjunto) de três (3) preditores espaciais restritos pode ser utilizado pelos três canais componentes . Certamente, da forma exposta, outras combinações de várias modalidades também podem ser implementadas dados os preceitos dos presentes princípios aqui providos, embora mantendo o escopo da presente invenção.

A presente descrição ilustra os princípios da pre-sente invenção. Assim, percebe-se que os versados na técnica serão capazes de desenvolver vários arranjos que, embora não explicitamente aqui descritos ou mostrados, incorporam os princípios da invenção e estão incluídos no seu espirito e escopo.

Pretende-se que todos os exemplos e linguagem condicional aqui citados tenham propósitos pedagógicos para auxiliar o leitor no entendimento dos princípios da invenção e dos conceitos contribuídos pelo inventor para promover a tecnologia, e que sejam interpretados sem limitações a tais exemplos e condições especificamente citados.

Além do mais, pretende-se que todas as declarações aqui citando princípios, aspectos e modalidades da invenção, bem como seus exemplos específicos, abranjam tanto seus e-quivalentes estruturais quanto funcionais. Adicionalmente, pretende-se que tais equivalentes incluam tanto os equivalentes atualmente conhecidos bem como os equivalentes desenvolvidos no futuro, isto é, todos os elementos desenvolvidos que realizem a mesma função, independentemente da estrutura.

Assim, por exemplo, versados na técnica percebem que os diagramas em blocos aqui apresentados representam visões conceituais de conjuntos de circuitos ilustrativos incorporando os princípios da invenção. Similarmente, percebe-se que todos os fluxogramas, diagramas de fluxo, diagramas de transição de estado, pseudocódigos e semelhantes, representam vários processos que podem ser substancialmente representados em meio legível por computador e, portanto, executados por um computador ou processador, esteja este compu-tador ou processador explicitamente mostrado ou não.

As funções dos vários elementos mostrados nas Figuras podem ser providas por meio do uso de hardware dedicado bem como por hardware capaz de executar suporte lógico em associação com suporte lógico apropriado. Quando providas por um processador, as funções podem ser providas por um ú-nico processador dedicado, por um único processador compartilhado, ou por uma pluralidade de processadores individuais, alguns dos quais podem ser compartilhados. Além do mais, o uso explicito do termo "processador" ou "controlador" não deve ser interpretado dizendo respeito exclusivamente a hardware capaz de executar suporte lógico e pode incluir implicitamente, sem limitações, hardware processador de sinal digital ("DSP"), memória exclusiva de leitura ("ROM") para armazenar suporte lógico, memória de acesso a-leatório ("RAM") e armazenamento não volátil.

Outro hardware, convencional e/ou personalizado, também pode ser incluido. Similarmente, todos os comutadores mostrados nas Figuras são somente conceituais. Suas funções podem ser realizadas por meio da operação de lógica de programa, por meio de lógica dedicada, por meio da interação de controle de programa e lógica dedicada, ou mesmo manualmente, a técnica particular sendo selecionável pelo implementa-dor da forma mais especificamente entendida pelo contexto.

Nas reivindicações deste, pretende-se que todo e-lemento expressado como um dispositivo para realizar uma função especificada abranja qualquer maneira de realizar a-quela função incluindo, por exemplo, a) uma combinação deelementos de circuito que realiza aquela função ou b) suporte lógico em qualquer forma, incluindo, portanto, suporte lógico embarcado, microcódigo ou semelhante, combinado com conj unto de circuito apropriado para executar aquele suporte lógico para realizar a função. A invenção, da forma definida por tais reivindicações, reside no fato de que as funcionalidades providas pelos vários dispositivos citados são combinadas e reunidas na maneira que as reivindicações exigem. Assim, percebe-se que qualquer dispositivo que possa prover aquelas funcionalidades é equivalente àqueles aqui mostrados .

Em relação à Figura 1, um aparelho de codificação de video exemplar é indicado, no geral, pelo número de referência 199. O aparelho de codificação de video 199 inclui um codificador de video 100 e um módulo de transformada de cor de pré-codificação 105.

O módulo de transformada de cor de pré-codificação 105 serve para realizar um pré-processamento de cor dos sinais de video antes de dar entrada dos mesmos no codificador de video 100. O pré-processamento de cor realizado pelo módulo de transformada - de cor de pré-codificação 105 é adicionalmente aqui descrito a seguir. Percebe-se que o módulo de transformada de cor de pré-codificação 105 pode ser omitido em algumas modalidades.

Uma entrada do módulo de transformada de cor de pré-codificação 105 e uma entrada do codificador de video 100 estão disponíveis como entradas do aparelho de codificação de video 199.Uma salda do módulo de transformada de cor de pré-codificação 105 é conectada em comunicação de sinal com a entrada do codificador de video 100.

A entrada do codificador de video 100 é conectada em comunicação de sinal com uma entrada não invertida de uma junção de soma 110. A saida da junção de soma 110 é conectada em comunicação de sinal com um transformador / quantizador 120. A saida do transformador / quantizador 120 é conectada em comunicação de sinal com o codificador de entropia 140. Uma saida do codificador de entropia 140 está disponível como uma saida do codificador de video 100 e também como uma saida do aparelho de codificação de vídeo 199.A saída do transformador / quantizador 120 é adicionalmente conectada em comunicação de sinal com um transformador / quantizador inverso 150. Uma saída do transformador / quantizador inverso 150 é conectada em comunicação de sinal com uma entrada de um filtro de remoção de registro do bloco 160. Uma saída do filtro de remoção de registro do bloco 160 é conectada em comunicação de sinal com os repositórios de imagem de referência 170. Uma primeira saída dos repositórios de imagem de referência 17 0 é conectada em comunicação de sinal com uma primeira entrada de um estimador de predição de movimento e espacial 180. A entrada do codificador de vídeo 100 é adicionalmente conectada em comunicação de sinal com uma segunda entrada do estimador de predição de movimento e espacial 180. A saída do estimador de predição de movimento e espacial 180 é conectada em comunicação de sinal com uma primeira entrada de um compensador depr edição de movimento e espacial 190. Uma segunda saida dos repositórios de imagem de referência 170 é conectada em comunicação de sinal com uma segunda entrada do compensador de movimento e espacial 190. A saida do compensador de movimento e espacial 190 é conectada em comunicação de sinal com uma entrada invertida da junção de soma 110.

Em relação à Figura 2, um aparelho de decodifica-ção de video é indicado, no geral, pelo número de referência 299. O aparelho de decodificação de video 299 inclui um de-codificador de video 200 e um módulo de transformada de cor inversa de pós-decodificação 293 .

Uma entrada do decodif icador de video 200 está disponível como uma entrada do aparelho de decodificação de video 299. A entrada do decodificador de video 200 é conectada em comunicação de sinal com uma entrada do decodifica-dor de entropia 210. Uma primeira saida do decodificador de entropia 210 é conectada em comunicação de sinal com uma entrada de um quantizador / transformador inverso 220. Uma saida do quantizador / transformador inverso 220 é conectada em comunicação de sinal com uma primeira entrada de uma junção de soma 240.

A saida da junção de soma 240 é conectada em comunicação de sinal com um filtro de remoção de registro do bloco 2 90. Uma saida do filtro de remoção de registro do bloco 290 é conectada em comunicação de sinal com repositórios de imagem de referência 250. O repositório de imagem de referência 250 é conectado em comunicação de sinal com uma primeira entrada de um compensador de predição de movimentoe espacial 2 60. Uma saida do compensador de pr edição de movimento e espacial 2 60 é conectada em comunicação de sinal com uma segunda entrada da junção de soma 24 0. Uma segunda saida do decodificador de entropia 210 é conectada em comunicação de sinal com uma segunda entrada do compensador de movimento 2 60. A saida do filtro de remoção de registro do bloco 290 está disponível como uma saida do decodificador de video 200 e também como uma saida do aparelho de decodificação de video 299.

Além do mais, uma saida do módulo de transformada de cor inversa de pós-decodificação 293 pode estar disponível como uma saida do aparelho de decodif icação de video 299. Em um caso como este, a saida do decodificador de video 200 pode ser conectada em comunicação de sinal com uma entrada do módulo de transformada de cor inversa de pós-decodif icação 293, que é um módulo de pós-processamento em relação ao decodificador de video 200. Uma saida do módulo de transformada de cor inversa de pós-decodificação 293 prove um sinal transformado de cor inversa pós-processado em relação à saida do decodificador de video 200.` Percebe-se que o uso do módulo de transformada de cor inversa de pós-decodif icação 293 é opcional.

É agora apresentada uma descrição para melhor codificação 4:4:4 de acordo com os princípios da presente invenção. Uma primeira modalidade descrita é uma modalidade combinada na qual o algoritmo de codificação luma é usado para todos os componentes de cor, o mesmo modo de predição espacial é usado para todos os componentes de cor, e atransformada de cor residual (RCT) é omitida de dentro do laço de compressão. Resultados de testes para esta modalidade combinada também são providos. Posteriormente, é descrita uma segunda modalidade combinada em que o algoritmo de codificação luma é usado para todos os componentes de cor, um conjunto (ou subconjunto) de preditores espaciais restritos é usado para todos os componentes de cor (em vez de um único modo de predição espacial), e a transformada de cor residual (RCT) é omitida de dentro do laço de compressão. Assim, uma diferença entre a primeira e a segunda modalidades combinadas é o uso de um único modo de predição espacial para todos os componentes de cor na primeira modalidade combinada em oposição ao uso de um conjunto (ou subconjunto) de preditores espaciais restritos para todos os componentes de cor na segunda modalidade combinada. Certamente, diante do exposto, as modalidades aqui descritas podem ser implementadas como modalidades independentes ou podem ser combinadas de qualquer maneira, da forma prontamente percebida pelos versados na técnica. Por exemplo, de acordo com os princípios da presente invenção da forma configurada em ma modalidade, somente um único modo de predição espacial é usado sem combinação com outras modalidades, tal como a omissão da RCT do laço de compressão. Percebe-se que, dados os preceitos dos presentes princípios aqui providos, estas e outras variações, implementações e combinações das modalidades da presente invenção ficarão prontamente determináveis pelos versados na técnica, embora mantendo o escopo da presente invenção.Em relação à Figura 3, um processo exemplar de co-dificação de video com um bloco de transformada de cor de pré-codificação são indicados, no geral, pelos números de referência 300 e 301, respectivamente.

Percebe-se que o bloco de transformada de cor de pré-codificação 301 inclui blocos 306, 308 e 310. Além do mais, percebe-se que o bloco de transformada de cor de pré-codificação 301 é opcional e, assim, pode ser omitido em algumas modalidades da presente invenção.

O bloco de transformada de cor de pré-codificação 301 inclui um bloco de limite de laço 306 que inicia um laço para cada bloco em uma imagem e passa o controle para um bloco de função 308. O bloco de função 308 realiza pré-processamento de cor dos dados de sinal de video do bloco de imagem atual e passa o controle para um bloco de limite de laço 310. O bloco de limite de laço 310 termina o laço. Além do mais, o bloco de limite de laço 310 passa o controle para um bloco de limite de laço 312, este último sendo incluido no processo de codificação de video 300.

O bloco de limite de laço 312 inicia um laço para cada bloco na imagem e passa o controle para um bloco de função 315. O bloco de função 315 forma uma predição de movimento compensado ou espacial do atual bloco de imagem u-sando um pr editor comum para cada componente do atual bloco de imagem e passa o controle para o bloco de função 320. O bloco de função 320 subtrai a predição de movimento compensado ou espacial do atual bloco de imagem para formar uma predição residual e passa o controle para um bloco de função 330. O bloco de função 330 transforma e quantiza a prediçãoresidual e passa o controle para um bloco de função 335. 0 bloco de função 335 realiza a transformada inversa e quanti-za a predição residual para formar uma predição residual codificada e passa o controle para um bloco de função 345. 0 bloco de função 345 adiciona o residual codificado na predi-ção para formar um bloco de Figura codificado e passa o controle para um bloco de laço final 350. O bloco de laço final 350 termina o laço e passa o controle para um bloco final 355.

Em relação à Figura 4, um processo exemplar de de-codificação de video com um bloco de transformada de cor inversa de pós-decodificação são indicados, no geral, pelos números de referência 4 00 e 4 60, respectivamente.

Percebe-se que o bloco de transformada de cor inversa de pós-decodificação 4 60 inclui blocos 462, 464, 466 e 468. Além do mais, percebe-se que o bloco de transformada de cor inversa de pós-decodificação 4 60 é opcional e, assim, pode ser omitido em algumas modalidades da presente invenção .

O processo de decodificação 400 inclui um bloco de limite de laço 410 que inicia o laço para um bloco atual de uma imagem e passa o controle para um bloco de função 415. O bloco de função 415 faz decodificação de entropia do residual codificado e passa o controle para um bloco de função 420. O bloco de função 420 realiza a transformada inversa e quantiza o residual decodificado para formar um residual codificado e passa o controle para um bloco de função 430. O bloco de função 430 adiciona o residual codificado na predi-ção formada a partir de um preditor comum para cada componente de cor para formar um bloco de Figura codificado e passa o controle para um bloco de limite de laço 435. 0 bloco de limite de laço 435 termina o laço e passa o controle para um bloco final 440.

Em algumas modalidades, o bloco de limite de laço 4 35 opcionalmente passa o controle para o bloco de transformada de cor inversa de pós-decodificação 460, em particular, o bloco de limite de laço 462 incluído no bloco de transformada de cor inversa de pós-decodificação 460. O bloco de limite de laço 462 inicia um laço para cada bloco em uma imagem e passa o controle para um bloco de função 464. O bloco de função 4 64 realiza um pós-processamento de cor inverso dos dados de sinal de video do atual bloco de imagem e passa o controle para um bloco de limite de laço 4 66. O bloco de limite de laço 4 66 termina o laço e passa o controle para um bloco final 468.

No formato 4:4:4 do H.264, cada canal de componente tem resolução completa. Assim, de acordo com a primeira modalidade combinada apresentada anteriormente, o algoritmo de codificação luma é usado em cada componente de cor para alcançar a eficiência geral de compressão ideal. Dessa maneira, na modalidade, para intraquadros, cada componente de cor pode ser comprimido, por exemplo, usando aqueles modos de predição listados na Tabela 8-2, Tabela 8-3 e Tabela 8-4 em ISO/IEC 14496 10 Advanced Video Coding 3rd Edition (ITU-T Rec. H.264), ISO/IEC JTC1/SC29/WG1 1 E ITU-T SG16 Q.6, Documento N6540, julho de 2004.Além do mais, na modalidade, o mesmo modo de pre-dição espacial é usado para todos os três componentes de pixel para reduzir adicionalmente a complexidade do codec e melhorar o desempenho. Por exemplo, o modo de predição ajus-tado pelos parâmetros prev_intra4x4_pred_mode_flag, remj n-tra4x4_pred_mode, prev_intra8x8_pred_mode_flag, e

rem_intra8x8_pred_mode para o luma no cabecalho de predição do macrobloco pode ser usado por todos os três componentes. Portanto, nenhum bit extra e elementos de sintaxe são necessários. Para os quadros (preditivos) B e P, os pixels de referência em locais fracionários de pixel podem ser calculados para todos os três canais. As mudanças detalhadas de sintaxe e semântica ao padrão H.2 64 atual são adicionalmente aqui discutidas a seguir.

A transformada de cor residual (RCT) foi adicionada ao codificador / decodificador no Alto Perfil 4:4:4. Em decorrência disto, a estrutura de compressão para o formato 4:4:4 é diferente daquela atualmente usada em todos os outros perfis no padrão H.264 para formatos 4:2:0 e 4:2:2. Isto resulta em alguma complexidade extra na implementação. Além do mais, similar a qualquer outra transformada de cor, YCOCG nem sempre melhora o desempenho geral de compressão. A efetividade do YCOCG é altamente dependente do conteúdo. Assim, para melhorar a compressão e robustez geral, na modalidade , a transformada de cor é colocada fora do laço de pre-dição como uma parte do bloco de pré-processamento. Fazendo isto, `selecionar uma transformada de cor ideal para uma tarefa de compressão especifica é um problema operacional e amelhor resposta para uma seqüência de entrada particular pode ser encontrada entre inúmeras opções. De acordo com uma modalidade em que todos os três componentes estão usando os mesmos preditores espaciais para os intraquadros e os mesmos filtros de interpolação para os quadros B e P (preditivo e intercodificado), ter a transformada de cor realizada nos resíduos de predição é idêntico a realizar a transformada de cor nas imagens fonte fora do codec quando os erros de arredondamento / truncagem são ignorados. Isto será aqui discutido adicionalmente a seguir. Assim, o bloco RCT é removido da estrutura de codificação para tornar a estrutura de codificação consistente entre todos os formatos de cor. Em relação à Figura 5, um modelo simplificado de RCT é indicado, no geral, pelo número de referência 500. 0 modelo RCT 500 inclui um gerador de pixel de referência 510, uma junção de soma 52 0 e um módulo de transformação linear 530. Entradas no gerador de pixel de referência 510 são configuradas para receber informação de movimento / borda e vetores [Xi] , [X2] ......... [Xn] - Uma saida do gerador de pixel de referência 510 é conectada em comunicação de sinal com uma entrada invertida da junção de soma 520 que prove o vetor de pr edição [Xp] nele. Uma entrada não invertida da junção de soma 520 é configurada para receber o vetor de entrada [Xp]. Uma saida da junção de soma 520 é configurada em comunicação de sinal com uma entrada do módulo de transformação linear 530, que prove o vetor [Xd] nele. Uma saida do módulo de transformação linear 530 é configurada para prover o vetor [Yd] .No modelo simplificado da RCT 500, a transformada de cor representada por uma matriz 3x3 [A] (uma transformação linear) é definida como segue:<formula>formula see original document page 21</formula> são vetores

3x1 representando os pixels no dominio RGB. [Yd] é um vetor 3x1 representando o resultado da transformada de cor. Portanto,

<formula>formula see original document page 21</formula>Posteriormente, na modalidade, os mesmos preditores espaciais e filtros de interpolação são usados para to- dos os três componentes em um macrobloco de acordo com os princípios da presente invenção da forma configurada em uma modalidade, o pixel de referência [Xp] podendo ser expresso como segue:

<formula>formula see original document page 21</formula>onde um vetor nxl [C] representa as operações lineares envolvidas nos preditores espaciais e filtros de in-terpolação definidos no padrão H.264. Aqui, presume-se que o pixel de referência seja calculado usando um número total de n pixels vizinhos [Xi] , [X2] , ... [Xn]

Substituir [Xp] da equação (3) na equação (2) resulta no seguinte:

<formula>formula see original document page 22</formula>

Ignorar os erros de arredondamento / truncagem e assumir que o mesmo modo de predição seja selecionado tanto no dominio RGB quanto no dominio Y resulta no seguinte:

<formula>formula see original document page 22</formula>(5)

Portanto,<formula>formula see original document page 23</formula>

(6)

Cn

Assim, a equação (6) mostra claramente que usar YUV como entrada para o codificador / decodificador, de a-cordo com os princípios da presente invenção da forma configurada nesta modalidade, é idêntico a realizar RCT. 5 Também, de acordo com os princípios da presente

invenção da forma configurada em uma modalidade, um inédito perfil 4:4:4 é adicionado no padrão H.2 64 , aqui referido como xx Advanced 4:4:4 Profile with prof ile_idc=166//. Este inédito profile_idc pode ser adicionado no cabeçalho de parame-

tro de seqüência e pode ser usado no cabeça lho de camada de macrobloco, bem como no cabeçalho de dados residuais.

Para suportar o uso de algoritmo luma para codificar todos os três componentes de cor, algumas mudanças podem ser feitas na sintaxe de dados residuais. Além do mais, tam-

bem podem ser feitas mudanças na semântica de alguns dos e-lementos no cabeçalho do macrobloco, no cabeçalho de dados residuais, e assim por diante. No geral, a sintaxe existente para luma na especificação H.264 permanecerá inalterada e será usada para codificar um dos três componentes. As mudan-

ças são compatíveis com versões anteriores. As mudanças detalhadas de sintaxe e semântica são aqui descritas a seguir.

Agora será dada uma descrição em relação aos re-sultados da simulação realizada de acordo com os princípios da presente invenção da forma configurada em várias modalidades .

Em relação às Figuras 6A e 6B, gráficos de PSNR médio em função da taxa de bit para ATV somente intra são indicados, no geral, pelos números de referência 600 e 650, respectivamente.

Em relação às Figuras 7 A e 7B, gráficos de PSNR médio em função da taxa de bit para CT somente intra são indicados, no geral, pelos números de referência 700 e 750, respectivamente.

Em relação às Figuras 8A e 8B, gráficos de PSNR médio em função da taxa de bit para DT somente intra são indicados, no geral, pelos números de referência 800 e 850.

Em relação às Figuras 9A e 9B, gráficos de PSNR médio em função da taxa de bit para MIRJHD somente intra são indicados, no geral, pelos números de referência 900 e 950, respectivamente.

Em relação às Figuras 10A e 10B, gráficos de PSNR médio em função da taxa de bit para RT somente intra são indicados, no geral, pelos números de referência 1000 e 1050, respectivamente.

Em relação às Figuras 11A e 11B, gráficos de PSNR médio em função da taxa de bit para STBJHD somente intra são indicados, no geral, pelos números de referência 1100 e 1150.

Em particular, as Figuras 6A, 7A, 8A, 9A, 10 e 11A ilustram resultados de teste para o perfil avançado 4:4:4proposto (indicado e precedido pelo termo "inédito") em função de resultados de aproximação correspondentes a ele. Além do mais, as Figuras 6B, 7B, 8B, 9B, 10B e 11B ilustram resultados de teste para o perfil avançado 4:4:4 proposto (in-5 dicado e precedido pelo termo "inédito") em função de JPEK2k.

Em todas as Figuras 6A, 6B até 11A, 11B, o PSNR é indicado em decibéis (dB) e a taxa de bit é indicada em bits por segundo (bps) . ATV, CT, DT, MIR, RT, STB são os nomes dos clipes de teste.

Todas as seqüências de teste JVT/FRExt descritas em JVT-J042, Seqüências de Teste Originadas de Filme, foram usadas nos testes. Todas elas são material de filme 4:4:4 de 10 bits e cada clipe tem 58 quadros.

Os perfis avançados 4:4:4 propostos foram imple-

mentados no suporte lógico de referência JVT JM9.6. Tanto a estrutura de codificação somente intra quanto a estrutura de codificação IBBP foram usadas nos testes. O parâmetro de quantização foi ajustado em 6, 12, 18, 24, 30 e 42 para cada

uma das curvas R-D. A seleção do modo otimizado em RD foi usada.

O perfil avançado 4:4:4 proposto também foi comparado com os resultados que foram conseguidos executando o suporte lógico de referência com o TUVFormat=0(4:0:0) em ca-25 da componente de entrada individual. Três contagens de bit comprimido individual separado foram simplesmente somadas para obter o total de bits comprimidos para calcular a taxa de bit comprimido.Em relação a JPEG2k, o suporte lógico KaKadu V2.2 . 3 foi usado nos testes. Os resultados do teste foram gerados usando 5 niveis de descompressão de ondeletas com o filtro de ondeletas biortogonal de 9/7 derivações. Havia so-5 mente um ladrilho por quadro e a Otimização em RD para uma dada taxa alvo também foi usada.

Todas as medidas PSNR foram feitas no dominio RGB. PSNR médio, definido como

(PSNR(red)+PSNR(green)+PSNR(blue))/3, é usado para comparar 10 a qualidade geral de compressão. Isto ocorre, principalmente, em virtude de os dados comprimidos em JPEG2k serem computados usando um algoritmo de controle de taxa desconhecido provido pelo suporte lógico. Para alguns casos, os valores RGB PSNR são completamente distantes um do outro, especial-15 mente quando a transformada de cor JPEG2k foi usada.

A comparação de compressão foi realizada como segue :

* Newl: o perfil avançado 4:4:4 proposto com um único modo de predição.

* New3: o perfil avançado 4:4:4 proposto com três

modos de predição.

* RCT-OFF: entrada RGB com RCT=off.

* RCT-ON: entrada RGB com RCT=on.

* YCOCG: conversão RGB para YCOCG foi feita fora 25 do codec. Então, o YCOCG convertido foi usado como a entrada

para o suporte lógico JVT.

* R+G+B: Método proposto aproximado comprimindo os sinais R, G e B separadamente.* Y+CO+CG: Método proposto aproximado comprimindo os sinais convertidos Y, CO, CG separadamente.

*J2k_RGB: A compressão JPEG2k foi feita no domínio RGB. A transformada de cor JPEG2k foi desligada. *J2k_YUV: A compressão JPEG2k foi feita no dominio

YUV. A transformada de cor JPEG2k foi usada.

De acordo com os resultados do teste, uma implementação de acordo com os princípios da presente invenção da forma configurada em uma modalidade, no geral, é muito simi- lar ao JPEG2k em termos de eficiência geral de compressão. Em alguns casos, ela é ainda ligeiramente melhor.

Adicionalmente, uma implementação de acordo com os princípios da presente invenção da forma configurada em uma modalidade prove desempenho (compressão) significativamente melhor que o atual Alto Perfil 4:4:4 para qualidade acima de 40 dB (PSNR). Especificamente, Newl-YCOCG ou New3-YCOCG é melhor que YCOCG e RCT-ON; Newl-RGB ou New3-RGB é melhor que RCT-OFF. Em um PSNR igual ou maior que 45 dB (PSNR), a melhoria média no PSNR médio é maior que 1,5 dB. No último e- xemplo, a melhoria pode ser traduzida em mais de 25% de economia de bit em um PSNR igual a 45 dB.

De acordo com os resultados do teste, parece que as transformações de cor ajudam no desempenho de codificação quando o conteúdo é mais saturado de cor, tais como TP, RT. Isto é, se a cor for neutra e menos saturada, codificar o dominio RGB pode ser a escolha certa. A observação exposta é independente de qual transformada de cor é usada.

Comparando os resultados de Newl-YCOCG ou New3-YCOCG e JPEG-2k__YUV, observou-se que o desempenho de uma transformada de cor específica em termos de melhorar a eficiência de codificação é muito dependente do conteúdo. Nem sempre a transformada de cor única é melhor. Portanto, nossos dados confirmaram que ter uma transformada de cor, tal como RCT, dentro de um laço de codificação (ou decodifica-ção) pode não ser uma boa idéia. Em vez disto, realizar a transformada de cor, se for necessária, fora do codificador / decodificador pode fazer com que todo o sistema de compressão proveja um desempenho melhor e mais robusto. .

Comparando YCOCG com RCT-ON, os resultados do teste não mostram nenhuma melhoria na eficiência de codificação em relação a RCT. Além do mais, percebe-se que executar o suporte lógico de referência com a RCT ligada aumentou significativamente o tempo de codificação. 0 tempo de execução foi mais de 2,5 vezes maior.

Agora, será dada uma descrição em relação a mudanças de sintaxe e semântica de acordo com os princípios da presente invenção da forma configurada em uma modalidade.

Em relação à Figura 12, uma tabela para sintaxe de parâmetro de seqüência H.264 é indicada, no geral, pelo número de referência 1200. Mudanças na sintaxe de acordo com os princípios da presente invenção da forma configurada em uma modalidade são indicadas por texto em itálico. ,

Em relação à Figura 13, uma tabela para sintaxe de dados residuais H.264 é indicada, no geral, pelo número de referência 1300. Adições / mudanças na sintaxe de acordo com os princípios da presente invenção da forma configurada emuma modalidade são indicadas por texto em itálico. Na tabela 1300, a seção luma no cabeçalho de dados residuais junto com algumas modificações de texto necessárias são repetidas duas vezes para suportar o lumal e luma2, respectivamente.

Conforme exposto, a supradescrita primeira modalidade combinada foi avaliada e testada implementando os presentes princípios no suporte lógico de referência JVT JM9.6. Os resultados de teste marcados com Newl-RGB ou Newl-YCOCG representam a primeira modalidade combinada.

Conforme exposto, de acordo com os princípios da presente invenção da forma configurada em uma modalidade, um conjunto (ou subconjunto) de três (3) preditores espaciais restritos é utilizado para os canais componentes (por exemplo, formatos RGB, YUV, YCrCb, e assim por diante) em vez de um único modo de predição espacial. Além do mais, conforme exposto, esta modalidade pode ser combinada com outras modalidades aqui descritas, tais como, por exemplo, o uso de somente o algoritmo de codificação luma para codificar todos os três canais componentes de conteúdo e/ou o uso de transformada de cor como uma etapa de pré-processamento.

Agora, será dada uma descrição em relação à supradescrita segunda modalidade combinada envolvendo o uso de um conjunto (ou subconjunto) de três (3) preditores espaciais restritos para os componentes de cor, o uso de somente o algoritmo de codificação luma para codificar todos os três componentes de cor e o uso de transformada de cor como uma etapa de pré-processamento (isto é, sem RCT no laço de compressão) . Algumas variações desta modalidade também serãodescritas com isto.

Em relação à Figura 14, um processo exemplar de codificação de video com uma etapa de transformada de cor de pré-codificação são indicados, no geral, pelos números de 5 referência 1400 e 1401, respectivamente.

Percebe-se que o bloco de transformada de cor de pré-codificação 14 01 inclui blocos 1406, 1408 e 1410. Além do mais, percebe-se que o bloco de transformada de cor de pré-codificação 14 01 é opcional e, assim, pode ser omitido em algumas modalidades da presente invenção.

O bloco de transformada de cor de pré-codificação 1401 inclui um bloco de limite de laço 1406 que inicia um laço para cada bloco em uma imagem e passa o controle para um bloco de função 1408. O bloco de função 1408 desempenha o pré-processamento de cor dos dados de sinal de video do atual bloco de imagem e passa o controle para um bloco de limite de laço 1410. O bloco de limite de laço 1410 termina o laço. Além do mais, o bloco de limite de laço 1410 passa o controle para um bloco de limite de laço 1412, este último sendo incluido no processo de codificação de video 1400.

0 bloco de limite de laço 1412 inicia um laço para . cada bloco na imagem e passa o controle para um bloco de função 1415. O bloco de função 1415 forma uma predição de movimento compensada ou espacial do atual bloco de imagem usando um preditor comum para cada componente de cor do atual bloco de imagem e passa o controle para um bloco de função 1420. O bloco de função 1420 subtrai a predição de movimento compensada ou espacial da atual bloco de imagem paraformar uma predição residual e passa o controle para um bloco de função 1430. 0 bloco de função 1430 transforma e quan-tiza a predição residual e passa o controle para um bloco de função 1435. O bloco de função 1435 realiza a transformada inversa e quantiza a predição residual para formar uma predição residual codificada e passa o controle para um bloco de função 1445. O bloco de função 1445 adiciona o residual codificado na predição para formar um bloco de Figura e passa o controle para um bloco de laço final 1450. O bloco de

laço final 1450 termina o laço e passa o controle para um bloco final 1455.

Em relação à Figura 15, um processo exemplar de decodificação de video com uma etapa de transformada de cor inversa de pós-decodificação são indicados, no geral, pelos números de referência 1500 e 1560, respectivamente.

Percebe-se que o bloco de transformada de cor inversa de pós-decodificação 1560 inclui blocos 1562, 1564, 1566 e 1568. Além do mais, percebe-se que o bloco de transformada de cor inversa de pós-decodificação 1560 é opcional e, assim, pode ser omitido em algumas modalidades da presente invenção.

0 processo de decodificação 1500 inclui um bloco de limite de laço 1510 que inicia o laço para um bloco atual de uma imagem e passa o controle para um bloco de função 1515. O bloco de função 1515 faz decodificação de entropia do residual codificado e passa o controle para um bloco de função 1520. O bloco de função 1520 realiza a transformada inversa e quantiza o residual decodificado para formar umresidual codificado e passa o controle para um bloco de função 1530. 0 bloco de função 1530 adiciona o residual codificado na predição formada a partir de um preditor comum para cada componente de cor para formar um bloco de Figura codificado e passa o controle para um bloco de limite de laço 1535. O bloco de limite de laço 1535 termina o laço e passa o controle para um bloco final 1540. Em algumas modalidades, o bloco de limite de laço 1535 opcionalmente passa o controle para o bloco de transformada de cor inversa de pós-decodificação 1560, em particular, o bloco de limite de laço 1562 incluido no bloco de transformada de cor inversa de pós-decodificação 1560. O bloco de limite de laço 1562 inicia um laço para cada bloco em uma imagem e passa o controle para um bloco de função 1564. O bloco de função 1564 realiza um pós-processamento de cor inversa dos dados de sinal de video do atual bloco de imagem e passa o controle para um bloco de limite de laço 1566. O bloco de limite de laço 1566 termina o laço e passa o controle para um bloco final 1568.

Conforme exposto, é divulgado um perfil inédito (profile_idc=166) para o perfil avançado 4:4:4 . Este perfil inédito também pode ser usado para a segunda modalidade combinada com mudanças de semântica e sintaxe correspondentes da forma aqui descrita a seguir para a segunda modalidade combinada. Este inédito profile_idc é adicionado no Conj unto de Parâmetro de Seqüência e será usado, principalmente, nos cabeçalhos subseqüentes para indicar que o formato de entrada é 4:4:4 e todos os três canais de entrada são codificadosde forma similar a luma.

Para minimizar as mudanças necessárias ao padrão H.264, nenhum tipo inédito de macrobloco é divulgado para o Perfil avançado 4:4:4. Em vez disto, todos os tipos de macrobloco juntos com os parâmetros de codificação associados listados na Tabela 7-11, Tabela 7-13 e Tabela 7-14 do padrão H.264 ainda são válidos. Para o caso de intramacroblocos, todos os três canais de entrada, luma, Cr e Cb serão codificados com base no MbPartPredMode definido na Tabela 7-11 do padrão H.264. Por exemplo, um macrobloco Intra_4x4 no perfil avançado 4:4:4 significa que todos os canais componentes de entrada podem ser codificados usando todos os 9 possíveis modos de predição dados na Tabela 8-2 do padrão H.264. Para referência, na atual Alto Padrão 4:4:4, dois dos canais para um macrobloco Intra_4x4 serão tratados como croma e somente um dos 4 possíveis modos de intrapredição na Tabela 8-5 do padrão H.264 será usado. Para os macroblocos B e P, as mudanças feitas no padrão avançado 4:4:4 ocorrem no processo de interpolação para o cálculo do valor de pixel de referência no local fracionário de pixel. Aqui, o procedimento descrito na Seção 8.4.2.2.1 do padrão H.264, processo de interpolação de amostra luma, será aplicado para luma, Cr e Cb. Novamente para referência, o atual Alto Padrão 4:4:4 usa a Seção 8.4.2.2.2 do padrão H.264, processo de interpolação de amostra croma, para dois dos canais de entrada.

No caso em que o CABAC é escolhido como o modo de codificação de entropia, dois conjuntos separados de modelos de contexto idênticos àqueles atualmente definidos para lumaserão criados para Cr e Cb. Eles também serão atualizados independentemente durante o curso da codificação.

Finalmente, na modalidade, uma vez que não há bloco RCT no laço de codificação, a ResidueColorTransformFlag é 5 removida do conjunto de parâmetro de seqüência no perfil a-vançado 4:4:4.

Até este ponto, a maioria das mudanças de sintaxe ocorre nos dados residuais da forma mostrada na Figura 13, onde a sintaxe original para luma é repetida duas vezes para 10 suportar Cr e Cb nos perfis avançados 4:4:4 propostos.

Em relação à tabela de camada de macrobloco H.264 (não mostrada), mudanças de semântica na sintaxe correspondente incluem o seguinte.

coded_block_pattern (Add). Quando croma_format_idc 15 for igual a 3 e coded_block_pattern estiver presente, Coded-BlockPatternCroma deve ser ajustado em 0. Além do mais, Co-dedBlockPatternLuma especifica, para cada um dos doze blocos 8x8 luma, Cb e Cr do macrobloco, um dos seguintes casos: (1) Todos os niveis de coeficiente da transformada dos doze blo-20 cos luma 4x4 nos blocos luma 8x8, Cb 8x8 e Cr 8x8 são iguais a zero; (2) Um ou mais niveis de coeficiente da transformada de um ou mais dos blocos luma 4x4 nos blocos luma 8x8, Cb 8x8 e Cr 8x8 devem receber valor não zero.

Agora, será dada uma descrição em relação à sele-25 ção do modo de pr edição espacial para os intr abi ocos de a-cordo com a segunda modalidade combinada (ou a única modalidade relacionada ao uso do conjunto (ou subconjunto) de três preditores espaciais restritos).Para cada componente escolher seu melhor MbPart-PredMode e o subseqüente melhor modo de predição espacial independentemente, como no caso enquanto está codificando cada canal de entrada separadamente, alguns tipos inéditos de intrabiocos podem ser adicionados na Tabela 7-11 do padrão H.2 64. Em decorrência disto, será feita uma grande quantidade de mudanças no padrão H.2 64. Em uma modalidade relacionada à segunda modalidade combinada, o mbjypes atual permanece inalterado e é provida uma solução alternativa. Na modalidade, os três canais de entrada são restritos para ser codificados com o mesmo MbPartPredMode ou tipo de macrobloco . Então, uma pequena quantidade de elementos inéditos é adicionada na Sintaxe de Predição do Macrobloco para suportar três modos de predição separados. Portanto, cada componente ainda pode, teoricamente, escolher seu melhor modo de predição espacial independentemente a fim de minimizar o erro de predição para cada canal componente. Por exemplo, assumindo que um macrobloco Intra_4x4 seja escolhido como o mbjype, luma, Cr ou Cb ainda podem encontrar seus próprios melhores modos de predição espacial na Tabela 8-2 na Seção 8.3.1.1 do padrão H.264, tal como, por exemplo, In-tra_4x4_Vertical para luma, Intra_4_4_Horizontal para Cr e Intra_4x4_Diagonal_Down_Left para Cb.

Uma outra abordagem, em relação à primeira modalidade combinada supradescrita, é compelir todos os três canais de entrada a compartilhar o mesmo modo de predição. Isto pode ser feito usando a informação de predição que é atualmente suportado pelos elementos de sintaxe existentes,tais como prev_intra4x4_pre_mode_flag,

rem_intra4x4_pred_mode, pre_intra8x8_pred_mode_flag e

rem_intra8x8_pred_mode, na sintaxe de Predição do Macrobloco . Esta opção irá resultar em menos mudanças no padrão 5 H.264 e, também, em alguma ligeira perda de eficiência de codificação.

Com base nos resultados de testes, usar três modos de predição pode melhorar o desempenho geral de codificação em cerca de 0,2 dB em relação à primeira modalidade combina-10 da.

Em relação à Figura 16, uma tabela para a sintaxe de predição do macrobloco H.264 é indicada, no geral, pelo número de referência 17 00. Para referência, a Sintaxe de Predição de Macrobloco modificada para suportar o uso de 15 três modos de predição é listada a seguir, onde:

prev_intra4x4_pred_mode_flagO e rem_intra4x4_pred_mode0 são para luma;

prev_intra4x4_pred_mode_flagl e rem_intra4x4_pred_model são para Cr; 20 prev_intra4x4_pred_mode_flag2 e

rem_intra4x4_pred_mode2 são para Cb.

Agora, será dada uma descrição em relação aos resultados da simulação realizada de acordo com os princípios da presente invenção da forma configurada em uma modalidade, 25 para a segunda modalidade combinada.

Todas as seqüências de teste JVT/FRExt são descritas em JVT-J042, Seqüências de Teste Originadas de Filme, JVT-J039 (Viper). Todas elas são materiais 4:4:4 de 10 bitse cada clipe tem 58 quadros.

0 algoritmo proposto foi implementado no suporte lógico de referência JVT JM9. 6 e o suporte lógico modificado foi usado nos testes. Tanto somente intra quanto IBRrBP f o-5 ram testados. Aqui, "Br" significa as Figuras B gravadas. 0 caso somente intra foi feito para todas as seqüências com o parâmetro de quantização igual a 6, 12, 18, 24, 30, 36 e 42. Em função da grande quantidade de tempo envolvido na simulação, a estrutura IBRrBP GOP somente foi feita para os clipes 10 de filme com um parâmetro de quantização igual a 12, 18, 24, 30 e 36. De acordo com a discussão no AHG 4:4:4, os seguintes parâmetros chave foram usados nos testes:

SymbolMode = 1

RDOptimization = 1 15 ScalingMatrixPresentFlag = 0

OffsetMatrixPresentFlag = 1

QoffsetMatrixFile = "q_offset.cfg"

AdaptiveRounding = 1

AdaptRnd Period = 1 20 AdaptRndCroma = 1

AdaptRndWFactorX = 8

SearchRange = 64

UseFME = 1

Em relação a JPEG2k, o suporte lógico KaKadu 25 V2.2.3 foi usado nos testes. Os resultados do teste foram gerados usando 5 niveis de descompressão de ondeletas com o filtro de ondeletas biortogonal de 9/7 derivações. Havia somente um ladrilho por quadro e a Otimização em RD para umadada taxa alvo também foi usada.

As medições PSNR foram calculadas primariamente no domínio de cor original dos conteúdos fonte, que é RGB para os clipes supradescritos. PSNR médio, definido como (PSNR(red)+PSNR(green)+PSNR(blue))/3, é usado para comparar a qualidade geral de compressão.

A comparação de compressão foi realizada como segue :

Newl: o Perfil avançado 4:4:4 proposto com um úni-10 co modo de predição.

New3: o Perfil avançado 4:4:4 proposto com três modos de predição-

RCT-OFF: entrada RGB com RCT=off-

RCT-ON: entrada RGB com RCT=on. YCOCG: conversão RGB para YCOCG foi feita fora do

codec. Então, o YCOCG convertido foi usado como a entrada para o suporte lógico JVT.

R+G+B: Método proposto aproximado comprimindo os sinais R, G e B separadamente. 20 Y+CO+CG: Método proposto aproximado comprimindo os

sinais Y, CO e CG convertidos separadamente.

JPEG2K_RGB: A compressão JPEG2k foi feita no domínio RGB. A transformada de cor JPEG2k foi desligada.

JPEG2k_YUV: A compressão JPEG2k foi feita no domi- nio YUV. A transformada de cor JPEG2k foi usada.

Para o caso somente intra, o perfil avançado 4:4:4 proposto de acordo com os presentes princípios é muito similar ao JPEK2k em termos de eficiência geral de compressão.Em alguns casos, ele é mesmo ligeiramente melhor.

A abordagem de acordo com os princípios da presente invenção é claramente melhor que o atual Alto Perfil 4:4:4. Em um PSNR igual e maior que 45 dB (PSNR) , a melhoria média no PSNR médio é maior que 1,5 dB. Em alguns casos, a melhoria pode ser traduzida em mais de 25% de economia de bit em um PSNR igual a 45 dB.

Agora, será dada uma descrição de alguns dos muitos recursos / vantagens presentes providos pelos princípios das modalidades da presente invenção.

Os resultados do teste demonstram que o perfil a-vançado 4:4:4 proposto utilizando as melhorias correspondentes aos princípios da presente invenção proporciona melhor desempenho comparado com o atual Alto Perfil 4:4:4. 0 ganho de desempenho é significativo. Além do mais, mover a transformada de cor para fora do codec tornará a arquitetura do codec consistente entre todos os formatos de cor. Em decorrência disto, isto torna a implementação mais fácil e reduz o custo. Isto também torna o codec mais robusto em termos de selecionar a transformada de cor ideal para alcançar melhor eficiência de codificação. Também, a abordagem proposta não adiciona nenhuma ferramenta de codificação inédita e exige somente algumas ligeiras mudanças na sintaxe e na semântica.

Assim, de acordo com os princípios da presente invenção da forma configurada em uma modalidade, um método e aparelho são providos para codificação e decodificação de video. São providas modificações no padrão H.264 existente que melhoram o desempenho além daquele atualmente alcança-vel. Além do mais, o desempenho é melhorado ainda além do JPEG-2 000 para aplicações de alta qualidade. De acordo com os princípios da presente invenção da forma configurada em uma modalidade, melhorias significativas de desempenho de codificação 4:4:4 no padrão H.264 podem ser alcançadas usando o algoritmo de codificação luma para codificar todos os três componentes de cor do conteúdo 4:4:4. Isto é, nenhuma ferramenta inédita é necessária para o algoritmo de codificação luma (ou croma, que não é usado). Em vez disto, ferramentas de codificação luma existentes são utilizadas. Adicionalmente, mudanças de sintaxe e de semântica ao atual perfil 4:4:4 podem ser implementadas de acordo com os presentes princípios para suportar a codificação luma de todos os três canais componentes. Em testes conduzidos de acordo com uma modalidade da presente invenção, quando o conteúdo fonte tem muitas texturas e bordas espaciais, as ferramentas de predição espacial usadas em luma, exibiram claramente seu desempenho superior àquelas usadas em croma. Para algumas das seqüências de teste, quando cada componente de cor foi codificada como luma, foi observada mais de 30% de redução de bit em uma qualidade de compressão maior ou igual a 45 dB (PSNR médio). Percebe-se que, embora a presente invenção tenha sido aqui descrita essencialmente em relação aos dados de sinal de vídeo amostrados usando o formato 4:4:4 do padrão H.264, a presente invenção também pode ser prontamente implementada em relação aos dados de sinal de vídeo amostrados usando outros formatos (por exemplo, o formato 4:2:0 e/ou oformato 4:2:2) do padrão H.2 64, bem como outros padrões de compressão de video. Dados os preceitos da presente invenção aqui providos, estas e outras variações da presente invenção também podem ser prontamente implementadas pelos versados na técnica, embora mantendo o escopo da presente invenção.

Estes e outros recursos e vantagens da presente invenção podem ser prontamente determinados pelos versados na técnica com base nos preceitos aqui divulgados. Entende-se que os preceitos da presente invenção podem ser implementados em várias formas de hardware, suporte lógico, suporte lógico embarcado, processadores com propósito especial ou suas combinações.

Mais preferivelmente, os preceitos da presente invenção são implementados como uma combinação de hardware e suporte lógico. Além do mais, o suporte lógico pode ser implementado como um programa de aplicação embutido de forma tangivel em uma unidade de armazenamento de programa. 0 programa de aplicação pode ser carregado em uma máquina compreendendo qualquer arquitetura adequada e executado por ela. Preferivelmente, a máquina é implementada em uma plataforma de computador com hardware tais como uma ou mais unidades centrais de processamento ("CPU"), uma memória de acesso a-leatório ("RAM") e interfaces de entrada / saida ("I/O"). A plataforma de computador também pode incluir um sistema operacional e código de microinstrução. Os vários processos e funções aqui descritos podem ser tanto parte do código de microinstrução quanto parte do programa de aplicação, ou qualquer combinação destes, que podem ser executadas por umaCPU. Além do mais, várias outras unidades periféricas podem ser conectadas na plataforma do computador, tais como uma unidade de armazenamento de dados adicional e uma unidade de impressão. Entende-se adicionalmente que, em virtude de alguns dos componentes e métodos constituintes do sistema representado nos desenhos anexos- ser, preferivelmente, implementados em suporte lógico, as conexões reais entre os componentes do sistema ou os blocos de função do processo podem diferir dependendo da maneira na qual a presente invenção é programada. Dados os preceitos aqui divulgados, versados na técnica serão capazes de contemplar estas e similares implementações ou configurações da presente invenção.

Embora as modalidades ilustrativas tenham sido a-qui descritas em relação aos desenhos anexos, entende-se que a presente invenção não está limitada a estas precisas modalidades e que várias mudanças e modificações podem ser nelas realizadas pelos versados na técnica sem fugir do escopo e do espirito da presente invenção. Pretende-se que todas tais mudanças e modificações estejam incluídas no escopo da presente invenção da forma apresentada nas reivindicações anexas .

Claims

1. Codificador de video para codificar dados de sinal de video para um bloco de imagem, CARACTERIZADO pelo fato de que o codificador de video compreende um codificador (100) para codificar os dados de sinal de video usando pre-ditores. exclusivos para cada um dos componentes de cor dos dados de sinal de video.

2. Codificador de video, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que os preditores exclusivos são usados para codificar os dados de sinal de video independente do fato de os dados de sinal de video serem particionados usando uma partição de bloco comum ou uma partição de bloco múltipla.

3. Codificador de video, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que os preditores exclusivos são todos preditores luma.

4. Codificador de video, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que os preditores exclusivos consistem em preditores luma exclusivos usados tanto para componentes luma quanto para componentes crorna dos dados de sinal de video.

5. Codificador de video, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a amostragem dos dados de sinal de video correspondem a qualquer um dos formatos 4:4:4, 4:2:2 e 4:2:0 do padrão H.264 da União Internacional de Telecomunicações, Setor de Telecomunicações.

6. Codificador de video, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que os preditores exclu-sivos são usados tanto para intracodificação quanto para in-tercodificação dos dados de sinal de video.

7. Codificador de video, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que um primeiro modo de predição espacial para um primeiro dos componentes de cor é ajustado pelos parâmetros prev_intra4x4_pred_mode_flagO e rem__intra4x4_pred_mode0, um segundo modo de predição para um segundo dos componentes de cor é aj ustado pelos parâmetros prev_intra4x4_pred_mode_flagl e rem_intra4x4_pred_model, e um terceiro modo de predição para um terceiro dos componentes de cor é ajustado pelos parâmetros prev_intra4x4_pred_mode_flag2 e rem_intra4x4_pred_mode2 do padrão H.264 da União Internacional de Telecomunicações, Setor de Telecomunicações.

8. Codificador de video, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o dito codificador (100) codifica todos os componentes de cor dos dados de sinal de video sem aplicar uma transformada de cor residual neles.

9. Método para codificar dados de sinal de video para um bloco de imagem, CARACTERIZADO pelo fato de que o método compreende codificar (1415) os dados de sinal de video usando preditores exclusivos para cada um dos componentes de cor dos dados de sinal de video.

10. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que os preditores exclusivos são usados para codificar os dados de sinal de video independente do fato de os dados de sinal de video serem particionadosusando uma partição de bloco comum ou uma partição de bloco múltipla.

11. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que os preditores exclusivos são todos preditores luma.

12. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que os preditores exclusivos consistem em preditores luma exclusivos usados tanto por componentes luma quanto por componentes crorna dos dados de sinal de video.

13. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que a amostragem dos dados de sinal de video correspondem a qualquer um dos formatos 4:4:4, 4:2:2 e 4:2:0 do padrão H.264 da União Internacional de Telecomunicações, Setor de Telecomunicações.

14. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que os preditores exclusivos são usados tanto para intracodificação quanto para intercodifi-cação dos dados de sinal de video.

15. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que um primeiro modo de predição espacial para um primeiro dos componentes de cor é ajustado pelos parâmetros prev_intra4x4_pred_mode_flagO e rem_intra4x4_pred_mode0, um segundo modo de predição para um segundo dos componentes de cor é aj ustado pelos parâmetros prev_intra4x4_pred_mode_flagl e rem_intra4x4_pred_model, e um terceiro modo de predição para um terceiro dos componentes de cor é ajustado pelos parâmetrosprev_intra4x4_pred_mode_flag2 e rem_intra4x4_pred_mode2 do padrão H.264 da União Internacional de Telecomunicações, Setor de Telecomunicações.

16. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que a dita etapa de codificação codifica todos os componentes de cor dos dados de sinal de video sem aplicar uma transformada de cor residual neles.

17. Decodificador de video para decodificar dados de sinal de video para um bloco de imagem, CARACTERIZADO pelo fato de que o decodificador de video compreende um decodificador (200) para decodificar os dados de sinal de video usando preditores exclusivos para cada um dos componentes de cor dos dados de sinal de video.

18. Decodif icador de video, de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que os preditores exclusivos são usados para decodificar os dados de sinal de video independente do fato de os dados de sinal de video serem particionados usando uma partição de bloco comum ou uma partição de bloco múltipla.

19. Decodif icador de video, de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que os preditores exclusivos são todos preditores luma.

20. Decodif icador de video, de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que os preditores exclusivos consistem em preditores luma exclusivos usados tanto por componentes luma quanto por componentes croma dos dados de sinal de video.

21. Decodif icador de video, de acordo com a rei-vindicação 17, CARACTERIZADO pelo fato de que a amostragem dos dados de sinal de vídeo corresponde a qualquer um dos formatos 4:4:4, 4:2:2 e 4:2:0 do padrão H.264 da União Internacional de Telecomunicações, Setor de Telecomunicações.

22. Decodif icador de vídeo, de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que os preditores exclusivos são usados tanto para intracodificação quanto para intercodificação dos dados de sinal de vídeo.

23. Decodif icador de vídeo, de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que um primeiromodo de predição espacial para um primeiro dos componentes de cor é aj ustado pelos parâmetrosprev_intra4x4_pred_mode_f lagO e rem_intra4x4_pred__mode0, um segundo modo de predição para um segundo dos componentes de cor é aj ustado pelos parâmetrosprev_intra4x4_pred_mode__f lagl e rem__intra4x4_pred_model, e um terceiro modo de predição para um terceiro dos componentes de cor é aj ustado pelos parâmetros prev_intra4x4_pred_mode_flag2 e rem_intra4x4__pred_mode2 do padrão H.264 da União Internacional de Telecomunicações, Setor de Telecomunicações.

24. Decodif icador de vídeo, de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que o dito decodi-ficador (200) decodifica todos os componentes de cor dos dados de sinal de vídeo sem aplicar uma transformada de cor residual neles.

25. Método para decodificar dados de sinal de vídeo para um bloco de imagem, CARACTERIZADO pelo fato de queo método compreende decodificar (1415) os dados de sinal de video usando preditores exclusivos para cada um dos componentes de cor dos dados de sinal de video.

26. Método, de acordo com a reivindicação 25, 5 CARACTERIZADO pelo fato de que os preditores exclusivos são usados para decodificar os dados de sinal de video independente do fato de os dados de sinal de video serem particio-nados usando uma partição de bloco comum ou uma partição de bloco múltipla.

27. Método, de acordo com a reivindicação 25,CARACTERIZADO pelo fato de que os preditores exclusivos são todos preditores luma.

28. Método, de acordo com a reivindicação 25, CARACTERIZADO pelo fato de que os preditores exclusivos con- sistem em preditores luma exclusivos usados tanto por componentes luma quanto por componentes crorna dos dados de sinal de video.

29. Método, de acordo com a reivindicação 25, CARACTERIZADO pelo fato de que a amostragem dos dados de si- nal de video corresponde a qualquer um dos formatos 4:4:4, 4:2:2 e 4:2:0 do padrão H.264 da União Internacional de Telecomunicações, Setor de Telecomunicações.

30. Método, de acordo com a reivindicação 25, CARACTERIZADO pelo fato de que os preditores exclusivos sãousados tanto para intracodificação quanto para intercodifi-cação dos dados de sinal de video.

31. Método, de acordo com a reivindicação 25, CARACTERIZADO pelo fato de que um primeiro modo de prediçãoespacial para um primeiro dos componentes de cor é ajustado pelos parâmetros prev_intra4x4_pred_mode_flagO erem_intra4x4_pred_mode0, um segundo modo de predição para um segundo dos componentes de cor é ajustado pelos parâmetros prev_intra4x4_pred_mode_flagl e rem_intra4x4_pred_model, e um terceiro modo de predição para um terceiro dos componentes de cor é ajustado pelos parâmetros prev_intra4x4_pred_mode_flag2 e rem_intra4x4_pred_mode2 do padrão H. 264 da União Internacional de Telecomunicações, Setor de Telecomunicações.

32. Método, de acordo com a reivindicação 25, CARACTERIZADO pelo fato de que a dita etapa de decodificação decodifica todos os componentes de cor dos dados de sinal de video sem aplicar uma transformada de cor residual neles.`