BR102019000922A2 - Método para comprimir dados de campo de luz usando transformadas de quatro dimensões de tamanho de bloco variável e decomposição por planos de bits - Google Patents

Método para comprimir dados de campo de luz usando transformadas de quatro dimensões de tamanho de bloco variável e decomposição por planos de bits Download PDF

Info

Publication number
BR102019000922A2
BR102019000922A2 BR102019000922-5A BR102019000922A BR102019000922A2 BR 102019000922 A2 BR102019000922 A2 BR 102019000922A2 BR 102019000922 A BR102019000922 A BR 102019000922A BR 102019000922 A2 BR102019000922 A2 BR 102019000922A2
Authority
BR
Brazil
Prior art keywords
dimensional
light field
blocks
transform
sub
Prior art date
Application number
BR102019000922-5A
Other languages
English (en)
Inventor
Eduardo Antônio Barros Da Silva
Murilo Bresciani De Carvalho
Carla Liberal Pagliari
Marcio Pinto Pereira
Gustavo De Oliveira E Alves
Fernando Manuel Bernardo Pereira
Vanessa Testoni
Pedro Garcia Freitas
Original Assignee
Samsung Eletrônica da Amazônia Ltda.
Universidade Federal Do Rio De Janeiro
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Eletrônica da Amazônia Ltda., Universidade Federal Do Rio De Janeiro filed Critical Samsung Eletrônica da Amazônia Ltda.
Priority to BR102019000922-5A priority Critical patent/BR102019000922A2/pt
Priority to US16/380,600 priority patent/US10687068B1/en
Publication of BR102019000922A2 publication Critical patent/BR102019000922A2/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/62Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding by frequency transforming in three dimensions

Abstract

A presente invenção se refere a um método para comprimir dados de campo de luz usando transformada de quatro dimensões de tamanho de bloco variável e decomposição por plano de bits de árvore hexadeca, que compreende as etapas de:
  • a) particionar os dados de pixel de quatro dimensões (300) do campo de luz em blocos de quatro dimensões (301) de tamanho fixo independentes;
  • b) particionar os blocos de quatro dimensões (301) em um conjunto de sub-blocos de quatro dimensões não sobrepostos de diferentes tamanhos (302) de acordo com um critério de taxa-distorção;
  • c) transformar de forma independente os sub-blocos de quatro dimensões gerados na etapa de particionar anterior, usando uma transformada de quatro dimensões (303);
  • d) quantizar por planos de bits os sub-blocos transformados pela transformada de quatro dimensões (303) de acordo com uma estrutura de árvore hexadeca otimizada por taxa-distorção (304); e
  • e) codificar os dados quantizados em quatro dimensões gerados através de um codificador aritmético (305) para produzir uma representação comprimida do campo de luz (306).

Description

MÉTODO PARA COMPRIMIR DADOS DE CAMPO DE LUZ USANDO TRANSFORMADAS DE QUATRO DIMENSÕES DE TAMANHO DE BLOCO VARIÁVEL E DECOMPOSIÇÃO POR PLANOS DE BITS Campo da Invenção
[0001] A presente invenção se refere a um método para comprimir dados de campo de luz usando transformada de quatro dimensões de tamanho de bloco variável e decomposição por planos de bits de árvore hexadeca.
Antecedentes da Invenção
[0002] Nos últimos anos, com o aumento da informação visual em formato digital, há uma necessidade crescente de aplicação mais imersiva, exigindo melhores representações da luz no espaço. Uma descrição completa dos raios de luz presentes no espaço é fornecida pela função plenóptica (Plenoptic Function), uma função vetorial teórica com 7 dimensões (7D) que poderia descrever a intensidade da luz passando através de cada ponto de observação, em cada direção, para cada comprimento de onda, e para cada instante de tempo. Restringindo-se os componentes de informação espectral, assumindo-se invariância temporal e considerando a intensidade de cada raio de luz como sendo constante ao longo do seu percurso, a função 7D pode ser simplificada a uma representação de quatro dimensões (4D), que é chamada de campo de luz.
[0003] O campo de luz está entre as formas mais eficientes de representar a naturalidade tridimensional (3D) da realidade visível. Tornou-se uma ótima tendência para uso em muitas aplicações de imagens, incluindo microscopia de alta resolução, visão computacional, velocimetria, saúde e muito mais. Por exemplo, o GoogleTM tem investido em tecnologias de campo de luz para aplicações com altíssima qualidade de paralaxe de movimento e texturas e iluminação extremamente realistas. Além disso, um relatório de pesquisa de mercado recente intitulado "Light field market by technology (imaging solution, display), vertical (healthcare and medical, defense and security, media and entertainment, architecture and engineering, industrial), and geography -global forecast to 2023" anunciou que o mercado de campo de luz foi avaliado em US$ 924,7 milhões em 2018 e deverá atingir US$ 1.822,3 milhões (> US$ 1 bilhão) até 2023, a uma taxa de crescimento anual composta (CAGR) de 14,5% entre 2018 e 2023. Essas notáveis quantias são impulsionadas pelas indústrias de realidade aumentada (AR)/ realizada virtual (VR), desenvolvedores de jogos, fornecedores de animação 3D, robótica 3D, Indústria 4.0 e indústria cinematográfica.
[0004] Considerando a demanda da indústria por tecnologias de campo de luz, espera-se um grande crescimento do conteúdo de campo de luz e o consequente aumento dos dados de campo de luz gerados. Além disso, pelo fato de que os campos de luz são capazes de capturar a intensidade dos objetos e registrar informações de raios de luz, há uma geração de uma enorme quantidade de dados durante a formação de imagens de campo de luz, o que implica em um grande consumo de armazenamento. Portanto, antecipando tanto a alta demanda por conteúdos de campo de luz e alto volume de dados de campo de luz que será produzido, o comitê de padronização Joint Picture Experts Group (JPEG) lançou um convite à apresentação de propostas (CfP) sobre tecnologias de codificação de campo de luz, chamado JPEG Pleno.
[0005] O JPEG Pleno é uma atividade de padronização lançada em 2014. Seu objetivo é criar uma estrutura padrão para armazenamento e transmissão eficientes de imagens plenópticas (campo de luz, nuvem de pontos e conteúdo holográfico). Em particular, o JPEG Pleno visa encontrar uma maneira eficiente de representar o conteúdo plenóptico. Um convite à apresentação de propostas para compressão de campos de luz obtidos tanto via micro lentes (lenslet) quanto de câmeras de alta, visando a definição de um padrão para compressão de conteúdo plenóptico, foi lançado durante o 73° Encontro JPEG, ISO/IEC JTC 1/SC29/WG1 JPEG, "JPEG Pleno call for proposals on light field coding" (Doc. N73013, Chengdu, China, outubro de 2016). Dentre as propostas submetidas ao comitê, as três seguintes forneceram os melhores resultados:
  • 1) Zhao et al, "Light field image coding via linear approximation prior" (em IEEE International Conference on Image Processing 2017 - Light Field Coding Grand Challenge, Beijing-China, setembro de 2017);
  • 2) Tabus et al, "Lossy compression of lenslet images from plenoptic cameras combining sparse predictive coding and JPEG 2000" (em IEEE International Conference on Image Processing 2017 - Light Field Coding Grand Challenge, Beijing-China, setembro de 2017);
  • 3) Graziozi et al, pedido de patente US 2015/0201176 A1, intitulado "Methods for Full Parallax Compressed Light Field 3D Imaging Systems".
[0006] A proposta de Zhao et al divide as imagens de vista do campo de luz em dois conjuntos complementares. As vistas no primeiro conjunto são convertidas em uma sequência de pseudo-vídeo para serem comprimidas com perdas por um compressor de vídeo, tal como HEVC. As vistas decodificadas são então usadas como referências para codificar o segundo conjunto de vistas. Para cada vista no segundo conjunto, uma vista predita é criada como sendo uma combinação linear das vistas de referência do primeiro conjunto. A diferença entre as vistas originais e as respectivas preditas é avaliada, resultando em um conjunto de vistas residuais. Essas vistas residuais são então codificadas usando o padrão JPEG. Este método pode ser empregado para obter compressão com perdas e sem perdas.
[0007] A proposta de Tabus et al apresenta um método de compactação de imagem de lenslet que é escalável de baixas taxas de bits até taxas totalmente sem perda. O conjunto de dados lenslet também é particionado em dois conjuntos: as imagens de sub-abertura de referência (vistas) que são codificadas usando o padrão JPEG2000 e um conjunto de vistas dependentes que são reconstruídas a partir das vistas de referência. Sua reconstrução é realizada empregando-se interpoladores flexíveis implementados por preditores esparsos. Estes são baseados tanto na geometria da cena, extraída dos mapas de profundidade, quanto na geometria da matriz de micro-lentes. Além das vistas de referência, o mapa de profundidade é codificado juntamente com os vetores de deslocamento e os coeficientes dos preditores esparsos de cada região.
[0008] A proposta de Graziozi et al visa encontrar um subconjunto ideal de amostras de campo de luz a ser codificado, enquanto as amostras restantes são geradas usando-se renderização baseada em imagens de profundidade com múltiplas referências.
[0009] Diferentemente das propostas acima, esta invenção traz uma nova forma de codificar campos de luz para as atividades de padronização do JPEG Pleno. O método da presente invenção interpreta todos os dados do campo de luz na sua forma nativa de quatro dimensões, enquanto os outros empregam procedimentos de escaneamento para reduzir o campo de luz de quatro dimensões para uma sequência de vistas bidimensionais. Nelas, uma sequência de vistas pode ser diretamente codificada por um codec de vídeo, ou algumas vistas são escolhidas como referências, enquanto outras são sintetizadas como combinações lineares de versões possivelmente deformadas das imagens de referência. Os métodos que dependem da deformação têm a desvantagem de depender dos mapas de profundidade ou de disparidade, embora eles não estejam sempre disponíveis. Além disso, métodos dependentes de mapas de profundidade podem não ser robustos e requerem alto custo computacional. Ademais, a qualidade dos mapas tem enorme influência no desempenho do método de compressão. A presente invenção, por outro lado, utiliza transformadas de quatro dimensões para explorar a redundância entre vistas e alcança resultados muito competitivos.
[0010] No estado da técnica foram encontradas as seguintes soluções e tecnologias:
[0011] O artigo intitulado "A Study on the 4D Sparsity of JPEG Pleno Light Fields Using the Discrete Cosine Transform", por G. Alves, M.P. Pereira, M.B. Carvalho, F. Pereira, C.L. Pagliari, V. Testoni, E.A. da Silva, em 25th IEEE International Conference on Image Processing (ICIP), pp. 1148-1152, 2018, apresenta uma análise exploratória da dispersão 4D de campos de luz no espaço 4D-DCT. Este artigo foi desenvolvido para investigar a adequação do 4D-DCT para compressão de conjuntos de dados JPEG Pleno baseados em lenslets e matriz de câmeras bidimensionais alta densidade (HDCA). Neste artigo, os resultados mostram que os conjuntos de dados lenslets exibem uma alta redundância 4D, com uma maior dispersão inter-vistas do que intra-vistas. Para os conjuntos de dados HDCA, também há redundância 4D a ser explorada, ainda que em menor grau. Ao contrário do caso de lenslets, a redundância intra-vista é muito maior que a redundância entre vistas. O artigo foi uma primeira investigação sobre a adequação de transformadas 4D para codificação de campo de luz. No entanto, diferentemente deste documento, o artigo não apresenta um codec completo.
[0012] O artigo intitulado "A 4D DCT-Based Lenslet Light-Field Codec" por M.B. Carvalho, M.P. Pereira, G. Alves, E.A. da Silva, C.L. Pagliari, F. Pereira, V. Testoni, 25th IEEE International Conference on Image Processing (ICIP) , pp. 435-439, 2018, propõe um codec de campo de luz preliminar que explora completamente a redundância 4D dos dados de campo de luz usando a transformada de cosseno discreta (DCT) 4D e a codificação de coeficientes usando planos de bits e árvore de hexadeca com particionamento guiado. No entanto, este documento não divulga todas as características da presente invenção. O artigo divide o campo de luz de quatro dimensões usando blocos de tamanho fixo e codifica cada um deles com DCTs de quatro dimensões. A presente invenção utiliza uma estrutura de particionamento de tamanho de bloco variável de quatro dimensões, pelo qual uma região hiper-retangular 4D é codificada por transformada como está ou é dividida em 4 regiões hiper-retangulares na dimensão espacial ou é particionada em 4 sub-regiões hiper-retangulares na dimensão das vistas. Além disso, no artigo, a partição de árvore hexadeca é sinalizada por um flag binário que indica se um bloco de quatro dimensões é particionado em 16 hiper-retangulares fixos, e a partição é sempre determinada apenas pela magnitude dos coeficientes. No entanto, a presente invenção sinaliza a partição de árvore hexadeca otimizada usando um flag ternário onde as decisões de codificação são feitas por otimização de Lagrangiana com base em um critério Taxa-Distorção (Rate-Distortion ou R-D).
[0013] O artigo "Lossy Compression of Lenslet Images from Plenoptic Cameras Combining Sparse Predictive Coding and JPEG 2000", por I. Tabus, P. Helin, P. Astola, 24th International Conference on Image Processing (ICIP), pp. 4567-4571, 2018, descreve um método para comprimir dados de campo de luz selecionando-se algumas vistas de referência e fazendo uso de mapas de disparidade e síntese de vistas refinada por quatro preditores esparsos de quatro dimensões. Diferentemente, a invenção proposta neste documento comprime os dados de campo de luz usando uma transformada de bloco de quatro dimensões, que não depende de mapas de profundidade nem de síntese de vistas.
[0014] O documento de patente EP 0855838 A2 intitulado "A method for digital image compression using Discrete Wavelet Transform DWT", depositado em 29 de julho de 1998, por CANON INFORMATION SYST RESEARCH AUSTRALIA PTY LTD, propõe um algoritmo de codificação de imagem que codifica as posições dos coeficientes de transformada não nulos de uma imagem (2D) utilizando a transformada wavelet discreta e quadtrees, que é a divisão recursiva de uma região de imagem retangular (2D) em 4 regiões de imagem retangular (2D). A presente invenção codifica as posições dos coeficientes não nulos de uma transformada de quatro dimensões (4D) de um campo de luz (4D) usando árvores hexadeca. Isto é, divide-se recursivamente as regiões de quatro dimensões (hiper-retângulos 4D) em 16 quatro hiper-retângulos de quatro dimensões. Na reivindicação 1, o documento de patente EP 0855838 A2 informa que o método é para representar uma imagem digital (uma matriz bidimensional de pixels), mas a presente invenção é para representar um campo de luz (um tensor de quatro dimensões). Na reivindicação 2, o documento de patente EP 0855838 A2 informa o uso de uma transformada wavelets discreta bidimensional, mas esta invenção usa uma transformada de bloco de quatro dimensões. Na reivindicação 11, o documento de patente EP 0855838 A2 informa que cada plano de bits de uma região bidimensional é escaneado recursivamente, mas a presente invenção pode escanear os planos de bits de uma região 4D ou marcar toda a região 4D como descartada (todos os coeficientes definidos como zero) se um critério de taxa-distorção é atendido, o que equivale a codificar as posições dos coeficientes não nulos de uma maneira com perdas, de acordo com um critério de taxa-distorção.
[0015] A patente US 6263110 B1 intitulada "Method for data compression", depositada em 29 de setembro de 1998, por Canon Kabushiki Kaisha, propõe um algoritmo de codificação de imagem que codifica as posições dos coeficientes de dados transformados em wavelets não nulos de uma imagem (2D) usando quadtrees, que é a divisão recursiva de uma região de imagem retangular em 4 regiões de imagem retangular (2D). A presente invenção codifica as posições dos coeficientes não nulos de uma transformada de quatro dimensões de um campo de luz usando hexadeca-trees, que é a divisão recursiva de regiões de quatro dimensões (hiper-retângulos) em 16 hiper-retângulos de quatro dimensões. Vale ressaltar que a patente US 6263110 B1 descreve o uso de uma transformada de wavelet discreta bidimensional (2D), mas a presente invenção usa uma transformada de blocos de quatro dimensões (4D). A patente US6263110B1 descreve um método para a compressão de imagens digitais 2D, mas a presente invenção é concebida para comprimir dados de campo de luz 4D. O documento de patente US6263110B1 define nas reivindicações 3 e 4, um método para arredondar os coeficientes de uma região em um plano de bits mínimo, mas a presente invenção usa o mesmo plano de bit mínimo para todo o campo de luz e além disso pode escanear os planos de bit de uma região ou marcar toda a região como descartada (todos os coeficientes definidos para zero) se um critério de taxa-distorção for atendido, o que equivale a codificar as posições dos coeficientes não nulos de uma maneira com perdas de acordo com um critério de taxa-distorção. A patente US 6263110 B1 define na reivindicação 5 a utilização de uma transformada wavelet discreta bidimensional, porém a presente invenção utiliza uma transformada de blocos (4D) de quatro dimensões. A patente US 6263110 B1 define na reivindicação 6 que o método é para representar uma imagem digital (uma matriz de pixels bidimensional), mas o método da presente invenção é para representar um campo de luz (uma matriz de pixels de quatro dimensões).
[0016] O documento de patente US 6266414 B1 intitulado "Method for digital data compression", depositado em 29 de setembro de 1998, por Canon Kabushiki Kaisha, propõe um algoritmo de codificação de imagem que codifica as posições dos coeficientes de transformada não nulos de uma imagem (2D) usando quadtrees, que é equivalente à divisão recursiva de uma região de imagem retangular em 4 regiões de imagem retangular (2D). A presente invenção propõe a codificação das posições dos coeficientes não nulos de uma transformada de quatro dimensões (4D) de um campo de luz usando hexadeca-trees que representa a divisão recursiva de regiões de quatros dimensões (hiper-retângulos) em 16 hiper-retângulos de quatro dimensões. O documento de patente US6266414 B1 defina na reivindicação 1 a utilização da decomposição wavelet, mas a presente invenção utiliza uma transformada de blocos de quatro dimensões (4D). A patente US 6266414 B1 defina em sua reivindicação 21 que o método é para representar uma imagem digital (uma matriz de pixels bidimensional), mas a presente invenção é para representar um campo de luz (uma matriz de pixels de quatro dimensões(4D)).
[0017] O documento de patente US 6389074 B1 intitulado "Method and apparatus for digital data compression", depositado em 28 de setembro de 1998, por Canon Kabushiki Kaisha, propõe um algoritmo de codificação de imagem que codifica as posições dos coeficientes de transformada não nulos de uma imagem (2D) usando quadtrees e também propõe o uso da otimização Lagrangiana para encontrar a partição quadtree ideal que codifica as posições dos coeficientes de transformada não nulos de uma imagem, vídeo ou dados de diferença de quadro, em uma detecção de taxa-distorção, mas a presente invenção propõe o uso da otimização Lagrangiana para encontrar a partição hexadeca-tree ideal para localizar os coeficientes transformados não-nulos nos dados de campo de luz 4D. A patente US 6389074 B1 define no item (a) da reivindicação 1, a utilização de transformada wavelet discreta, mas a presente invenção utiliza uma transformada de bloco (4D) de quatro dimensões. A patente US 6389074 B1 define no item (b) da reivindicação 1, o uso de quantização variável com um fator de quantização, mas a invenção descrita neste documento usa o mesmo número de planos de bits (equivalente ao fator de quantização) para todo o campo de luz. Além disso, a invenção aqui proposta pode varrer os planos de bits de uma região ou marcar toda a região como descartada (todos os coeficientes definidos como zero) se um critério de taxa-distorção for atendido, o que equivale a codificar as posições dos coeficientes não nulos em um modo com perdas de acordo com um critério de taxa-distorção. Nas reivindicações 6, 7 e 8, a patente US 6389074 B1 define que os dados de entrada podem ser dados de imagem bidimensional, dados de vídeo bidimensional ou dados de diferença de quadro de vídeos bidimensionais, mas a presente invenção é para dados de campo de luz, que são dados com quatro dimensões.
[0018] Os documentos de patente US 5315670 A intitulado "Digital data compression system including zerotree coefficient coding", US 5321776 A intitulado "Data compression system including successive approximation quantizer", US 5412741 A intitulado "Apparatus and method for compressing information", GB 2303030 A intitulado "Data compression using reversible wavelet transforms and an embedded codestream", US 5867602 A intitulado "Reversible wavelet transform and embedded codestream manipulation" e US 5966465 A intitulado "Compression/decompression using reversible embedded wavelets" propõem algoritmos de codificação de imagens bidimensionais que usam árvores zero para codificar as posições dos coeficientes não nulos de regiões dentro de uma imagem. A presente invenção propõe a codificação das posições dos coeficientes não nulos de uma transformada de quatro dimensões (4D) de um campo de luz usando árvores hexadeca, que é equivalente à divisão recursiva de regiões de quatro dimensões (hiper-retângulos) em 16 hiper-retângulos de quatro dimensões. Na reivindicação 1 do documento de patente US 531567 0A, reivindicação 1 do documento de patente US 5321776 A, reivindicação 1 do documento de patente US 5412741 A, Visão Geral do pedido de patente, Figura 1 e aplicações do documento de patente GB 2303030 A, Visão Geral do pedido de patente US5867602A e Reivindicação 8 do documento de patente US5966465A, é informado que eles têm como alvo a representação de dados de imagem bidimensionais (uma matriz de pixels bidimensional), mas a presente invenção é direcionada a representar dados de campo de luz de quatro dimensões. Na reivindicação 1 do documento de patente US 5315670 A, reivindicação 1 do documento de patente US 5321776 A, reivindicação 1 do documento de patente US 5412741 A, seção "Árvores de Coeficiente" do documento de patente GB 2303030 A, seção "Árvores de Coeficiente" do documento de patente US 586760 2A e "Visão Geral" do documento de patente US 5966465 A há uma descrição da árvore zero como uma estrutura composta por um coeficiente de transformada de wavelet zero a um nível de informação grosseira como raiz para coeficientes de transformada wavelet zero nas posições correspondentes em todos os níveis mais finos dos coeficientes de transformada wavelet (subbandas), mas a presente invenção usa blocos de coeficientes de transformada dispostos em uma estrutura hierárquica de quatro dimensões no espaço das vistas, chamada árvore hexadeca. Na "Descrição detalhada" do documento de patente US 5315670 A, "Descrição detalhada" do documento de patente US 5321776 A, "Descrição detalhada" do documento de patente US 5412741 A, seção "O processo de codificação e decodificação da presente invenção" do documento de patente GB 2303030 A, seção "Parser" do documento de patente US 5867602 A e "Descrição detalhada” do documento de patente US 5966465 A, tais documentos informam a codificação de coeficientes para todos os níveis de transformada wavelet de acordo com uma ordem de varredura de plano de bit até que o orçamento de bit disponível seja esgotado ou toda a imagem seja codificada, mas a presente invenção varre os coeficientes até um plano de bit mínimo, determinado usando um critério de taxa-distorção (R-D) válido para todo o campo de luz e adicionalmente pode varrer os planos de bits de uma região 4D ou marcar toda a região 4D como descartada (todos os coeficientes definidos como zero) de acordo com o mesmo critério de taxa-distorção, que é equivalente a codificar as posições dos coeficientes não nulos em uma maneira com perdas de acordo com este critério de taxa-distorção.
[0019] O documento de patente US 20040114807 A1, intitulado "Statistical representation and coding of light field data" depositado em 17 de junho de 2004, por Lelescu et al, propõe o uso de uma Transformação de Análise Estatística bidimensional em cada vista para representar e comprimir um campo de luz. Trata-se essencialmente de uma transformação bidimensional de cada vista individual, cujas funções básicas são calculadas usando a Análise de Componentes Principais (PCA) baseada na estimativa da função de autocorrelação do processo estocástico que consiste em vistas do campo de luz. Esta transformação bidimensional é usada para reduzir a dimensionalidade de cada vista antes da codificação, mas a presente invenção calcula uma transformada de bloco de quatro dimensões de todo o campo de luz e codifica as posições dos coeficientes não nulos desta transformada de bloco de quatro dimensões usando árvores hexadeca, que são equivalentes à divisão recursiva de regiões de quatro dimensões (hiper-retângulos) de coeficientes de campo de luz em 16 hiper-retângulos de quatro dimensões. Na reivindicação 3, o documento de patente US 20040114807 A1 define o uso da Análise de Componente Principal (PCA), mas a presente invenção usa uma transformada de bloco de quatro dimensões.
[0020] O documento de patente US 20140232822 A1 intitulado "Systems And Methods For Generating Compressed Light Field Representation Data Using Captured Light Fields, Array Geometry, And Parallax Information", depositado em 21 de agosto de 2014, por Pelican Imaging Corporation, propõe a compressão de um campo de luz usando um esquema de predição de vista empregando imagens de referência e informações de mapa de profundidade. Na presente invenção não existe um passo de predição de vista e uma transformada de quatro dimensões é aplicada diretamente a blocos 4D do campo de luz 4D. No documento de patente US 20140232822 A1, as vistas são reconstruídas utilizando a interpolação de pixels e a informação residual gerada pelo processo de predição, mas na presente invenção não há necessidade de predição, interpolação de pixels ou utilização de mapas de profundidade. Na reivindicação 1 do documento de patente US 20140232822 A1, é definido o uso de mapas de profundidade para guiar a interpolação das vistas intermediárias, mas a presente invenção codifica todos os dados do campo de luz usando uma transformada de bloco de quatro dimensões e, portanto, não depende de mapas de profundidade.
[0021] O documento de patente US 20150201176 A1 intitulado "Methods for Full Parallax Compressed Light Field 3D Imaging Systems", depositado em 16 de julho de 2015, por OSTENDO TECHNOLOGIES INC, propõe um método para comprimir dados de campo de luz usando renderização baseada em imagem de profundidade (DIBR), ativada por um conjunto de vistas de referência selecionado, mapas de profundidade e síntese de vista através de esquemas de deformação, mas a presente invenção comprime os dados de campo de luz usando uma transformada de bloco de quatro dimensões do campo de luz, e não depende de quaisquer mapas de profundidade ou síntese de vista. De acordo com a reivindicação 10 do documento de patente US 20150201176 A1, é definido o uso de vistas selecionadas como referências, mas a presente invenção codifica todos os dados do campo de luz usando transformada de bloco de quatro dimensões. Na reivindicação 11 do documento de patente US 20150201176 A1, é definido o uso de mapas de profundidade para guiar a interpolação das vistas intermediárias, mas a presente invenção codifica todos os dados do campo de luz usando uma transformada de bloco de quatro dimensões e, portanto, não depende de mapas de profundidade. Em reivindicações 12 e 17 do documento US 20150201176 A1, é definido o uso de renderização baseada em imagem-profundidade para interpolar vistas intermediárias baseado em deformação, mas a presente invenção codifica todos os dados do campo de luz usando transformada de bloco de quatro dimensões, e, portanto, não necessita renderizar vistas intermediárias.
[0022] Os documentos de patente WO 2016090568 A1 intitulado "Binary tree block partitioning structure", depositado em 16 de junho de 2016, por MEDIATEK SINGAPORE PTE LTD, e WO 2016091161 A11 intitulado "Method of video coding using binary tree block partitioning" propõem uma estrutura de partição de bloco bidimensional para codificação de imagens bidimensionais e vídeo bidimensionais chamada Quadtree mais árvore binária (QTBT), mas a presente invenção utiliza uma estrutura de particionamento de bloco de quatro dimensões para codificação de campo de luz, pelo qual uma região hiper-retangular com quatro dimensões é codificada por transformada, ou é particionada em 4 sub-regiões hiper-retangulares na dimensão espacial ou é dividida em 4 regiões hiper-retangulares na dimensão das vistas. Esta partição é codificada como uma estrutura quadtree usando um flag ternário que sinaliza a transformação sem segmentação, ou a segmentação de dimensão espacial, ou a segmentação de dimensão de vistas, otimizada com base em um critério de taxa-distorção calculado usando otimização Lagrangiana. Na reivindicação 1 do documento de patente WO 2016090568 A1 e na reivindicação 1 do documento de patente WO 2016091161 A11, é definido que o método é para codificação de imagem ou vídeo bidimensional, mas a presente invenção é para dados de campo de luz de quatro dimensões.
Sumário da Invenção
[0023] A presente invenção introduz um método e sistema para remover informações redundantes de dados de campo de luz, reduzindo a quantidade de bits para representar os pixels do campo de luz, e tornando os dados do campo de luz mais adequados para serem transferidos através de um meio com largura de banda limitada. A presente invenção agrega valor a qualquer sistema que empregue recursos de formação de imagens ao introduzir um novo método para comprimir campos de luz.
[0024] Uma concretização da presente invenção é composta de um usuário de um dispositivo de AR/VR e um servidor de rede que distribua conteúdos de campo de luz, ambos equipados com recursos descritos na presente invenção. O servidor de streaming deve comprimir os dados do campo de luz para transmiti-lo através do meio. Por outro lado, o dispositivo de AR/VR deve ser capaz de descomprimir os dados transmitidos e representá-los para o usuário. Outra concretização consiste num telefone móvel com câmera de campo de luz. Os telefones móveis com câmeras de campo de luz melhoram os dispositivos ao permitir recursos tais como cenários mais imersivos capturados e a refocalização após a captura da foto.
[0025] A presente invenção comprime os campos de luz, ao explorar sua redundância 4D global usando uma transformada 4D. Esta redundância é particularmente alta quando os campos de luz são densamente amostrados. Portanto, a presente invenção é eficiente para campos de luz densamente amostrados, tais como os adquiridos usando câmeras de campo de luz (e.g., Raytrix e Lytro).
[0026] Como esta invenção é baseada em transformadas 4D, ela não se baseia no cálculo de campos de profundidade, necessário para o procedimento de síntese de vista usado na maioria dos métodos de compressão de campo de luz do estado da técnica. Portanto, essa representação baseada em transformadas 4D é uma vantagem notável para a renderizar campos de luz no lado do receptor.
[0027] Uma vez que diferentes regiões do campo de luz podem ter objetos em diferentes profundidades, a quantidade de disparidades entre diferentes vistas de campo de luz pode variar. Isso implica que a redundância 4D de diferentes regiões de campo de luz pode variar em conformidade. De modo a explorar de forma eficaz estas quantidades diferentes de redundância 4D, a presente invenção utiliza transformadas com tamanhos de blocos variáveis. A adaptação é alcançada por um esquema de partição de bloco 4D otimizado por taxa-distorção (R-D), pelo qual o algoritmo de codificação avalia o custo de codificação de um bloco 4D (usando transformada 4D e decomposição hexadeca-tree), contra uma codificação recursiva de cada um dos 4 blocos resultantes da partição ao longo da dimensão espacial ou da codificação recursiva de cada um dos 4 blocos resultantes da partição ao longo da dimensão de vistas. A partição com o menor custo de codificação é escolhida usando a otimização Lagrangeana.
[0028] A quantização é executada por planos de bit e depende de uma estrutura de árvore hexadeca otimizada por RD que é recursivamente construída seguindo as três operações diferentes: codificar o plano de bits mais imediatamente abaixo sem efetuar um novo particionamento, particionar o bloco no mesmo plano de bits ou descartar o bloco.
[0029] No último estágio, um codificador de entropia é aplicado para produzir a representação comprimida final dos dados de campo de luz.
[0030] A presente invenção traz ao mercado uma nova forma de codificar todos os dados de campo de luz que utiliza uma transformada de quatro dimensões (4D) de tamanho de blocos variável e decomposição de plano de bits de árvore hexadeca. Esta abordagem oferece uma solução inovadora, em que as outras soluções dependem da predição baseada em mapas de profundidade e da síntese de vista. A presente invenção também traz o acesso aleatório no nível de bloco de quatro dimensões como vantagem em relação ao estado da técnica.
[0031] Mais especificamente, a presente invenção se refere a Método para comprimir dados de campo de luz usando transformada de quatro dimensões de tamanho de bloco variável e decomposição por plano de bits de árvore hexadeca, que compreende as etapas de:
  • a) particionar os dados de pixel de quatro dimensões do campo de luz em blocos de quatro dimensões de tamanho fixo independentes;
  • b) particionar os blocos de quatro dimensões em um conjunto de sub-blocos de quatro dimensões não sobrepostos de diferentes tamanhos de acordo com um critério de taxa-distorção;
  • c) transformar de forma independente os sub-blocos de quatro dimensões gerados na etapa anterior, usando uma transformada de quatro dimensões;
  • d) quantizar por planos de bits os sub-blocos transformados pela transformada de quatro dimensões de acordo com uma estrutura de árvore hexadeca otimizada por taxa-distorção; e
  • e) codificar os dados quantizados em quatro dimensões gerados através de um codificador aritmético para produzir uma representação comprimida do campo de luz (306)
[0032] Algumas das vantagens da presente invenção são listadas a seguir:
  • 1. Capacidade para explorar plenamente redundância 4D: A invenção baseia-se em transformadas 4D que são capazes de explorar plenamente redundância 4D presente nos dados de campo de luz, que tende a ser grande para o caso de campos de luz densamente amostrados, tais como aqueles gerados pelas câmeras de campo de luz (por exemplo, Raytrix e Lytro).
  • 2. Dispensabilidade de informações adicionais de profundidade: A maioria das soluções do estado da técnica para compressão de campo de luz é baseada na codificação de vistas de referência normalmente seguidas pela predição/ estimativa de vistas intermediárias usando renderização de imagem baseada em mapa profundidade. Essas soluções exploram redundâncias intra e inter-vistas em etapas separadas e, portanto, a redundância 4D global dos campos de luz tende a não ser totalmente explorada. Além disso, a predição/ estimativa de vistas de tais métodos geralmente requer dados de entrada adicionais, como informações de profundidade da cena. Este fato torna o desempenho destes métodos dependente da qualidade da estimativa de profundidade e técnicas de renderização. A presente invenção não envolve qualquer etapa de renderização e não depende de qualquer informação de profundidade.
  • 3. Qualidade de vistas uniforme e melhor qualidade de experiência do usuário: as soluções de codificação de campo de luz baseadas na renderização de vista geralmente produzem um conjunto de vistas decodificadas com qualidade não uniforme. Essa característica pode resultar em má qualidade de experiência do usuário para a maioria das aplicações de campo de luz. A presente invenção, uma vez que é baseada em uma transformada 4D aplicada a todo o campo de luz, tende a produzir um campo de luz decodificado com distribuição de qualidade uniforme entre vistas e, portanto, uma melhor qualidade de experiência do usuário.
  • 4. Acesso aleatório: A presente invenção é um esquema baseado em blocos onde blocos de pixels 4D são codificados independentemente. Esta característica, juntamente com a abordagem de codificação não-preditiva empregue fornece um bom equilíbrio entre dois requisitos opostos da codificação de campos de luz, que são alcançar alto desempenho de taxa-distorção enquanto minimiza as dependências entre as diversas vistas. Portanto, a presente invenção permite a extração de várias regiões de interesse sem a necessidade de decodificar toda a representação comprimida do campo de luz, fornecendo acesso aleatório a partes do campo de luz, como um grupo de pixels de todas as vistas ou de uma única vista.
  • 5. Paralelização dados: Diferentemente do que outro codec de campo de luz propõe, o modelo baseado em bloco da presente invenção proporciona escalabilidade paralela.
  • 6. Adoção de padrão: A presente invenção é altamente esperada para ser adotada pelo padrão JPEG Pleno que cobre os diversos segmentos de mercado, tais como a AR/VR, jogos, fornecedores de animação 3D, monitores e filmes imersivos.
Breve Descrição das Figuras
[0033] A presente invenção se tornará mais clara através da seguinte descrição detalhada das imagens exemplares e não limitativas apresentadas no final deste documento:
A Figura 1 é uma imagem de uma concretização de amostra de um aplicação de exibição de campo de luz;
A figura 2 exibe um conjunto de dados de campo de luz e suas 4 dimensões;
A figura 3 mostra o diagrama de blocos do codificador;
A Figura 4 mostra um exemplo geral de uma árvore de particionamento de blocos 4D;
A figura 5 mostra o esquema de particionamento espacial 4D;
A figura 6 mostra o esquema de particionamento de vista 4D;
A Figura 7 descreve um exemplo de árvore hierárquica de particionamento 4D usando o sinalizador de divisão de vista, o sinalizador de divisão espacial e o sinalizador de transformada sinalizando que o nó é um nó leaf e não será mais particionado;
A figura 8 ilustra um exemplo de particionamento de árvore hexadeca;
A figura 9 mostra o diagrama de blocos do codificador aritmético;
A figura 10 ilustra as curvas de taxa-distorção PSNR-YUV e SSIM-Y para o conjunto de dados Bikes exemplar;
A figura 11 ilustra as curvas de taxa-distorção PSNR-YUV e SSIM-Y para o conjunto de dados Danger of Mort exemplar
A figura 12 ilustra as curvas de taxa-distorção PSNR-YUV e SSIM-Y para o conjunto de dados Fountain&Vincent 2 exemplar; e
A figura 13 ilustra as curvas de taxa-distorção PSNR-YUV e SSIM-Y para o conjunto de dados Stone Pillars Outside exemplar.
Descrição Detalhada da Invenção
[0034] A descrição detalhada desta invenção segue uma abordagem de cima para baixo. Começa com a Figura 1, que descreve uma concretização de amostra que exemplifica uma utilização da invenção. É fornecida uma experiência 3D imersiva (100) usando um visor de campo de luz (101), onde é possível observar o mesmo conteúdo de 5 pontos de vista diferentes (102). Em uma aplicação da vida real típica, o número de pontos de vista seria muito maior (por exemplo, 101 x 21 ou 13 x 13 pontos de vista), correspondendo assim a uma enorme quantidade de dados. Isto requer esquemas de compressão muito eficientes, como o da presente invenção.
[0035] Os conjuntos de dados de campo de luz são compostos de campos de luz 4D de dimensões (T x S x V x U). As vistas são endereçadas pelo par de coordenadas (T, S) (201), enquanto o par (V, U) (202) endereça um pixel dentro de cada vista (T, S), como representado na Figura 2.
[0036] O método de compressão de campos de luz descrito nesta invenção é composto de 5 módulos principais, como ilustrado na Figura 3. Os dados de pixel de quatro dimensões de campo de luz (300) são divididos em blocos 4D de tamanho fixo (301) que serão codificados independentemente. Este processo é seguido por uma partição do bloco em um conjunto de sub-blocos 4D não sobrepostos de tamanhos diferentes (302), com a partição ideal escolhida de acordo com um critério R-D. Cada sub-bloco é transformado independentemente por uma transformação de quatro dimensões (303) e subsequentemente quantificado em plano de bits de acordo com uma estrutura de árvore hexadeca otimizada R-D (304) . Finalmente, um codificador aritmético é aplicado (305) para produzir uma representação comprimida do campo de luz (306).
[0037] As principais contribuições da presente invenção estão nos seguintes módulos ilustrados na Figura 3: Particionamento de blocos 4D (302), Decomposição em árvore Hexadeca por planos de Bit (304) e Codificador aritmético (305). Todos eles são detalhados a seguir.
Particionamento de bloco 4D
[0038] A partição ideal de cada bloco (302) é escolhida entre os três modos diferentes de acordo com um critério R-D com base nos custos Lagrangeanos. O custo é definido como J = D + λ R, onde D é a distorção incorrida ao representar o bloco original pela versão quantizada (como descrito no módulo de árvore hexadeca (304)) e R é a taxa necessária para codificar o mesmo. O particionamento 4D é ilustrado na Figura 4 e é descrito abaixo.
[0039] No primeiro modo, todo o bloco é transformado por uma transformada ortonormal 4D (303) e o custo de Lagrange para codificá-lo (Jt) é avaliado.
[0040] No segundo modo, o bloco é particionado em quatro sub-blocos, cada um com aproximadamente um quarto dos pixels nas dimensões espaciais, como mostra a Figura 5. Especificamente, vamos considerar um bloco B de dimensões (T x S x V x U) (501, 502, 503, 504). Este bloco será subdividido em quatro sub-blocos B00, B01, B10 e B11 de tamanhos (T x S x [V / 2] x [U / 2]), (T x S x [V / 2] x (U- [U / 2J)), (T x S x (V- [V / 2]) x [U / 2]) e (T x S x (V- [V / 2]) x (U- [U / 2J)), respectivamente, onde a função matemática [D / 2j é a função de pavimentação de D/ 2, retornando o maior inteiro que é menor ou igual a D/ 2. Os custos de Lagrangeano dos quatro sub-blocos são adicionados para calcular o custo de Lagrangeano Js.
[0041] No terceiro modo, o bloco é particionado em quatro sub-blocos, cada um com um quarto dos pixels nas dimensões da vista, como mostrado na Figura 6. Por exemplo, vamos considerar novamente um bloco B de dimensões (T χ S χ V χ U) (601, 602, 603, 604). Este bloco será subdividido em quatro sub-blocos B00, B01, B10 e B11 de tamanhos ( |T / 2] χ [S / 2] χ V χ U) (702), ([T / 2] χ (S- [S / 2]) χ V χ U) (705), ((T- [T / 2]) χ [S / 2] χ V χ L) (704), ((T- [T / 2]) χ (S- [S / 2]) x V x L) (703), respectivamente. Os custos de Lagrangeano dos quatro sub-blocos são adicionados para calcular o custo de Lagrangeano Jv.
[0042] Finalmente, os três custos Lagrangeanos (Jt, Js e Jv) são comparados e o modo de partição com o valor de custo mínimo é escolhido. Se Js ou Jv são os custos mínimos, o método de otimização de particionamento é aplicado recursivamente nos sub-blocos, seguindo o processo descrito anteriormente para o segundo e terceiro modo. Caso contrário, se Jt for o custo mínimo, o sub-bloco não é mais particionado e a transformação é aplicada. Este método recursivo é ilustrado como a árvore na Figura 4.
[0043] Um exemplo do método de otimização de partição recursivo é mostrado na Figura 7, onde os modos de partição são representados como flags. O primeiro modo de partição está associado ao transformFlag (702, 703, 704, 707, 708, 709), que corresponde aos nós leaf de árvore. O segundo modo de partição é associado ao spatialSplifFlag (705), sinalizando que o sub-bloco deve ser dividido nas dimensões espaciais (v, u) . Finalmente, o terceiro modo de partição está associado à viewSplifFlag (701), sinalizando que o sub-bloco deve ser dividido nas dimensões da vista (t, s).
Decomposição em árvore Hexadeca por planos de bit
[0044] A quantização (304) é feita por planos de bits e depende de uma estrutura de árvore de hexadeca otimizada por R-D, conforme ilustrado na Figura 8. A árvore é segmentada de forma ideal e taxa-distorção obtida depende em grande parte da escolha desta segmentação, bem como dos dados em si.
[0045] A árvore hexadeca é construída ao subdividir de forma recursiva um bloco 4D iniciando a partir do tamanho de bloco total (T x S x V x L) e desde o plano de bit mais significativo. A decomposição otimizado funciona da seguinte forma: o bloco de entrada completo transformado é digitalizado e todos os seus coeficientes são comparados com um limite dado por 2bitplane. Se as magnitudes de todos eles forem menores que o limite, o procedimento de otimização é chamado recursivamente com o mesmo bloco da entrada, mas com um valor de plano de bit diminuído em um (bitplane-1), e o custo Lagrangeano J0 é calculado. No entanto, se algum coeficiente estiver acima do limite, o bloco é segmentado em até 16 sub-blocos (801). O procedimento de otimização é chamado recursivamente para cada sub-bloco e os custos Lagrangeanos retornados são adicionados para obter o custo lagrangeano J1. Outro custo lagrangeano J2 é avaliado, considerando o custo resultante se o bloco foi substituído por um bloco inteiramente composto de zeros. O custo mínimo (Jo, J1 ou J2) corresponde ao modo de decomposição ideal para cada nó da árvore hexadeca.
[0046] As três operações descritas anteriormente no processo de decomposição estão detalhadas abaixo:
  • i) Reduzir o plano de bits: neste caso, o descendente do nó é outro bloco com as mesmas dimensões espaciais do original, mas com uma dimensão no espaço dos planos de bits a menos, representado com precisão bitplane-1. Isso é usado para indicar que, para o bloco atual, todos os bits do bitplane atual e do bitplane acima são nulos. Esta operação é selecionada quando J0 é o custo mínimo.
  • ii) Dividir o bloco: neste caso, o nó terá até 16 filhos (802), cada um associado a um sub-bloco com aproximadamente metade do comprimento do bloco original em todas as quatro dimensões. Esta operação é selecionada quando J1 é o custo mínimo. Existem 16 sub-blocos possíveis, mas dependendo do tamanho do bloco pai, alguns desses sub-blocos descendentes teriam um ou mais comprimentos iguais a zero e deveriam ser pulados. Todos os descendentes têm a mesma resolução de plano de bits do pai. Por exemplo, um bloco B de tamanho (T χ S χ V χ U) pode ser dividido nos seguintes sub-blocos:
    B0000 de tamanho ([T / 2] χ [S / 2] χ [V / 2] χ [U / 2]),
    B0001 de tamanho ([T / 2] χ [S / 2] χ [V / 2] χ U - [U / 2]),
    Boo1o de tamanho ( [T / 2] χ [S / 2] χ V - [V / 2] χ [U / 2]),
    Boo11 de tamanho ( [T / 2] χ [S / 2] χ V - [V / 2] χ U - [U / 2]),
    Bo1oo de tamanho ( [T / 2] χ S - [S / 2] χ [V / 2] χ [U / 2J),
    B0101 de tamanho ([T / 2] X S - [S / 2] X [V / 2] X U - [U / 2]),
    B0110 de tamanho ( [T / 2] X S - [S / 2] X V - [V / 2] X [U / 2]),
    B0111 de tamanho ( [T / 2J X S - [S / 2J X V - [V / 2J X U - [U / 2]),
    B1000 de tamanho (T - [T / 2J X [S / 2J X [V / 2J X [U /2J),
    B1001 de tamanho (T - [T / 2J X [S / 2J X [V / 2J X U - [U / 2]),
    B1010 de tamanho (T - [T / 2] X [S / 2] X V - [V / 2] X [U / 2]),
    B1011 de tamanho (T - [T / 2J X [S / 2J X V - [V / 2J X U - [U / 2]),
    B1100 de tamanho (T - [T / 2] X S - [S / 2] X [V / 2] X [U / 2]),
    B1101 de tamanho (T - [T / 2J X S - [S / 2J X [V / 2J X U - [U / 2]),
    B1110 de tamanho (T - [T / 2J X S - [S / 2J X V - [V / 2J x [U / 2]),
    B1111 de tamanho (T - [T / 2J X S - [S / 2J X V - [V / 2J x U - [U / 2]),
  • iii) Descarte o bloco: nesta operação o nó não terá descendentes (803), e será representado por um bloco de zeros. Esta operação é selecionada quando J2 é o custo mínimo.
Codificador aritmético
[0047] A Figura 9 mostra o codificador aritmético (901) que gera a representação final comprimida do campo de luz (904). Os bits dos coeficientes 4D e flags (902), juntamente com a informação de contexto de probabilidade (903) gerada durante o processo de codificação, são enviados para o codificador aritmético.
[0048] O codificador aritmético (901) codifica a magnitude de cada bloco de coeficiente, um bit de cada vez, empregando uma informação de contexto diferente (903) para cada bit, variando de todos os planos de bits. Se o coeficiente não for zero, seu sinal também é codificado.
Experimentos e resultados
[0049] A implementação do codec da presente invenção foi avaliada em comparação com os esquemas específicos de compressão de campos de luz do estado e com a técnica de compressão de vídeos HEVC (ITU-T e ISO/IEC. Codificação de Vídeo de Alta Eficiência, Rec. ITU-T H. 265 e ISO/IEC 230082, 2013) e JPEG Pleno Verification Model 1.0 (ISO/IEC JTC 1/SC29/WG1N80028, JPEG Pleno Light Field Coding VM 1.0, julho de 2018) de acordo com o documento JPEG Pleno Common Test Conditions (ISO/IEC JTC 1/SC29/WG1N80027. JPEG PLENO LIGHT FIELD CODING COMMON TEST CONDITIONS, julho de 2018).
[0050] Os conjuntos de dados densamente amostrados do documento JPEG Pleno Common Test Conditions foram usados. Estes conjuntos de dados campo de luz são conhecidos como: Bikes, Danger of Mort, Fountain & Vincent2 e Stone Pillars Outside. Cada conjunto de dados tem dimensões 4D de 13 χ 13 x 625 χ 434 (T χ S χ V χ U). Considerando a Figura 2, a direção vertical das vistas é o eixo T, a direção horizontal das vistas é o eixo S, a direção vertical espacial é o eixo V e a direção horizontal espacial é o eixo U. A presente invenção utilizou o valor de 13 como o tamanho máximo da transformada na direção vertical das vistas, o valor de 13 como o tamanho máximo da transformada na direção horizontal das vistas, o valor de 31 como o tamanho máximo da transformada na direção vertical espacial e o valor de 25 como o tamanho máximo da transformada na direção horizontal espacial.
[0051] Os resultados mostram que MuLE-MTH é competitivo com VM 1.0 e com âncoras HEVC (x265.org) para os conjuntos de dados densamente amostrados, conforme corroborado pelas seguintes curvas de Distorção de Taxa nas Figuras 10 a 13. Ao analisar as curvas de taxa-distorção nas Figuras 10 a 13, pode-se verificar que a presente invenção apresenta o melhor desempenho de R-D para campos de luz densamente amostrados sem depender de qualquer informação de profundidade. Estas curvas mostram os diferentes níveis de qualidade (PSNR-YUV e SSIM-Y) do campo de luz decodificado para um número de taxas de bits (em bits por pixel - bpp). O PSNR (Relação Sinal-Ruído de Pico) e o SSIM (Índice de Similaridade Estrutural) são métricas comumente usadas para medir a qualidade de reconstrução de codecs de compressão com perdas. O PSNR-YUV avalia a qualidade de reconstrução de todos os componentes YUV (cor) e o SSIM-Y mostra o valor SSIM para o componente de luminância (Y) apenas, ambos como definido no documento JPEG Pleno Common Test Conditions.
[0052] Embora a presente invenção tenha sido descrita em relação a determinadas concretizações preferidas, deve ser entendido que não se pretende limitar a invenção a estas concretizações particulares. Pelo contrário, pretende-se abranger todas as alternativas, modificações e equivalências possíveis dentro do espírito e escopo da invenção, conforme definido pelas reivindicações anexas.

Claims (7)

  1. Método para comprimir dados de campo de luz usando transformada de quatro dimensões de tamanho de bloco variável e decomposição por plano de bits de árvore hexadeca, caracterizado pelo fato de que compreende as etapas de:
    • a) particionar os dados de pixel de quatro dimensões (300) do campo de luz em blocos de quatro dimensões (301) de tamanho fixo independentes;
    • b) particionar os blocos de quatro dimensões (301) em um conjunto de sub-blocos de quatro dimensões não sobrepostos de diferentes tamanhos (302) de acordo com um critério de taxa-distorção;
    • c) transformar de forma independente os sub-blocos de quatro dimensões gerados na etapa de particionar anterior, usando uma transformada de quatro dimensões (303);
    • d) quantizar por planos de bits os sub-blocos transformados pela transformada de quatro dimensões (303) de acordo com uma estrutura de árvore hexadeca otimizada por taxa-distorção (304); e
    • e) codificar os dados quantizados em quatro dimensões gerados através de um codificador aritmético (305) para produzir uma representação comprimida do campo de luz (306).
  2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que este particionamento adaptativo de blocos de quatro dimensões é determinado como ideal em uma detecção de taxa-distorção usando o método dos custos de Lagrange.
  3. Método, de acordo com a reivindicação 1 ou reivindicação 2, caracterizado pelo fato de que o particionamento adaptativo pode ser executada em 3 modos definidos como: partição em dimensão espacial, partição em dimensão de vista, e sem partição.
  4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a estrutura da árvore hexadeca é construída de modo que os dados quantizados em quatro dimensões são codificados de uma maneira ideal numa detecção de taxa-distorção em que o método do custo de Lagrange é empregado.
  5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que a referida estrutura de árvore hexadeca é decomposta de forma ideal pelas seguintes operações: reduzir o plano de bits, dividir o bloco, e descartar o bloco.
  6. Método, de acordo com a Reivindicação 1, caracterizado pelo fato de que o codificador de entropia utilizado é um codificador aritmético adaptativo.
  7. Método, de acordo com a Reivindicação 1, caracterizado pelo fato de que ainda compreende explorar a redundância 4D total utilizando uma transformada 4D.
BR102019000922-5A 2019-01-16 2019-01-16 Método para comprimir dados de campo de luz usando transformadas de quatro dimensões de tamanho de bloco variável e decomposição por planos de bits BR102019000922A2 (pt)

Priority Applications (2)

Application Number Priority Date Filing Date Title
BR102019000922-5A BR102019000922A2 (pt) 2019-01-16 2019-01-16 Método para comprimir dados de campo de luz usando transformadas de quatro dimensões de tamanho de bloco variável e decomposição por planos de bits
US16/380,600 US10687068B1 (en) 2019-01-16 2019-04-10 Method for compressing light field data using variable block-size four-dimensional transforms and bit-plane decomposition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BR102019000922-5A BR102019000922A2 (pt) 2019-01-16 2019-01-16 Método para comprimir dados de campo de luz usando transformadas de quatro dimensões de tamanho de bloco variável e decomposição por planos de bits

Publications (1)

Publication Number Publication Date
BR102019000922A2 true BR102019000922A2 (pt) 2020-10-13

Family

ID=71075083

Family Applications (1)

Application Number Title Priority Date Filing Date
BR102019000922-5A BR102019000922A2 (pt) 2019-01-16 2019-01-16 Método para comprimir dados de campo de luz usando transformadas de quatro dimensões de tamanho de bloco variável e decomposição por planos de bits

Country Status (2)

Country Link
US (1) US10687068B1 (pt)
BR (1) BR102019000922A2 (pt)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013049699A1 (en) * 2011-09-28 2013-04-04 Pelican Imaging Corporation Systems and methods for encoding and decoding light field image files
JP7208356B2 (ja) * 2018-09-26 2023-01-18 コーヒレント・ロジックス・インコーポレーテッド 任意の世界ビューの生成
BR102021009291A2 (pt) 2021-05-13 2022-11-22 Samsung Eletrônica da Amazônia Ltda. Método de intrapredição quadridimensional para codificação e decodificação de dados de light field

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5315670A (en) 1991-11-12 1994-05-24 General Electric Company Digital data compression system including zerotree coefficient coding
US5321776A (en) 1992-02-26 1994-06-14 General Electric Company Data compression system including successive approximation quantizer
US5412741A (en) 1993-01-22 1995-05-02 David Sarnoff Research Center, Inc. Apparatus and method for compressing information
US5966465A (en) 1994-09-21 1999-10-12 Ricoh Corporation Compression/decompression using reversible embedded wavelets
US5867602A (en) 1994-09-21 1999-02-02 Ricoh Corporation Reversible wavelet transform and embedded codestream manipulation
AUPO951497A0 (en) 1997-09-29 1997-10-23 Canon Information Systems Research Australia Pty Ltd A method for data compression
AUPO951297A0 (en) 1997-09-29 1997-10-23 Canon Information Systems Research Australia Pty Ltd Method and apparatus for digital data compression
AUPO951397A0 (en) 1997-09-29 1997-10-23 Canon Information Systems Research Australia Pty Ltd A method for digital data compression
WO2001089226A1 (en) * 2000-05-18 2001-11-22 Koninklijke Philips Electronics N.V. Encoding method for the compression of a video sequence
US20040114807A1 (en) 2002-12-13 2004-06-17 Dan Lelescu Statistical representation and coding of light field data
JP4155929B2 (ja) * 2003-01-22 2008-09-24 株式会社リコー 画像符号化装置、符号復号化装置、画像符号化方法、符号復号化方法、プログラム及び記憶媒体
US9462164B2 (en) 2013-02-21 2016-10-04 Pelican Imaging Corporation Systems and methods for generating compressed light field representation data using captured light fields, array geometry, and parallax information
US10244223B2 (en) 2014-01-10 2019-03-26 Ostendo Technologies, Inc. Methods for full parallax compressed light field 3D imaging systems

Also Published As

Publication number Publication date
US10687068B1 (en) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111819852B (zh) 用于变换域中残差符号预测的方法及装置
Hou et al. Light field image compression based on bi-level view compensation with rate-distortion optimization
de Carvalho et al. A 4D DCT-based lenslet light field codec
Tabus et al. Lossy compression of lenslet images from plenoptic cameras combining sparse predictive coding and JPEG 2000
Chang et al. Light field compression using disparity-compensated lifting and shape adaptation
KR100751422B1 (ko) 스테레오스코픽 비디오 부호화 및 복호화 방법, 부호화 및복호화 장치
Perra Lossless plenoptic image compression using adaptive block differential prediction
Astola et al. Wasp: Hierarchical warping, merging, and sparse prediction for light field image compression
US20160050440A1 (en) Low-complexity depth map encoder with quad-tree partitioned compressed sensing
Zhang et al. Compression of lumigraph with multiple reference frame (MRF) prediction and just-in-time rendering
Jin et al. Plenoptic image coding using macropixel-based intra prediction
US10687068B1 (en) Method for compressing light field data using variable block-size four-dimensional transforms and bit-plane decomposition
Santos et al. Lossless coding of light field images based on minimum-rate predictors
Fecker et al. H. 264/AVC-compatible coding of dynamic light fields using transposed picture ordering
CN110741636B (zh) 用于视频编码的变换块级扫描顺序选择
Conceicao et al. LF-CAE: Context-adaptive encoding for lenslet light fields using HEVC
CN114125444B (zh) 面向图像滤波的编解码方法和装置
US11259005B1 (en) Method for compressing light-field data
Luo et al. 3-D wavelet compression and progressive inverse wavelet synthesis rendering of concentric mosaic
Naidu et al. A novel framework for JPEG image compression using baseline coding with parallel process
WO2017124305A1 (zh) 基于多方式边界填充的全景视频编码、解码方法和装置
Liu et al. Scalable coding of 3D holoscopic image by using a sparse interlaced view image set and disparity map
Rizkallah et al. Graph-based spatio-angular prediction for quasi-lossless compression of light fields
Hu et al. Motion differential set partition coding for image sequence and video compression
Zhao et al. Various density light field image coding based on distortion minimization interpolation

Legal Events

Date Code Title Description
B03A Publication of an application: publication of a patent application or of a certificate of addition of invention