BR102021009291A2 - Método de intrapredição quadridimensional para codificação e decodificação de dados de light field - Google Patents

Método de intrapredição quadridimensional para codificação e decodificação de dados de light field Download PDF

Info

Publication number
BR102021009291A2
BR102021009291A2 BR102021009291-2A BR102021009291A BR102021009291A2 BR 102021009291 A2 BR102021009291 A2 BR 102021009291A2 BR 102021009291 A BR102021009291 A BR 102021009291A BR 102021009291 A2 BR102021009291 A2 BR 102021009291A2
Authority
BR
Brazil
Prior art keywords
light field
plane
fact
prediction
mode
Prior art date
Application number
BR102021009291-2A
Other languages
English (en)
Inventor
Eduardo Antônio Barros Da Silva
Murilo Bresciani De Carvalho
Carla Liberal Pagliari
Marcio Pinto Pereira
Gustavo De Oliveira E Alves
Carla Florentino Schueler
Vanessa Testoni
Ismael Seidel
Pedro Garcia Freitas
Fernando Manuel Bernardo Pereira
Original Assignee
Samsung Eletrônica da Amazônia Ltda.
Universidade Federal Do Rio De Janeiro
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Eletrônica da Amazônia Ltda., Universidade Federal Do Rio De Janeiro filed Critical Samsung Eletrônica da Amazônia Ltda.
Priority to BR102021009291-2A priority Critical patent/BR102021009291A2/pt
Priority to US17/352,691 priority patent/US11647225B2/en
Publication of BR102021009291A2 publication Critical patent/BR102021009291A2/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/207Image signal generators using stereoscopic image cameras using a single 2D image sensor
    • H04N13/232Image signal generators using stereoscopic image cameras using a single 2D image sensor using fly-eye lenses, e.g. arrangements of circular lenses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/302Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays
    • H04N13/307Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays using fly-eye lenses, e.g. arrangements of circular lenses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0085Motion estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

A presente invenção refere-se a uma técnica baseada em predição para codificar dados de light field, pela remoção de informações redundantes de dados de light field, redução de uma série de bits, uso de uma predição de um valor de pixel em todas as quatro dimensões do light field. Usar esta técnica para representar dados de light field, permite que eles sejam transferidos através de um meio de largura de banda limitada e/ou para reduzir significativamente a capacidade de armazenamento necessária para este fim.

Description

MÉTODO DE INTRAPREDIÇÃO QUADRIDIMENSIONAL PARA CODIFICAÇÃO E DECODIFICAÇÃO DE DADOS DE LIGHT FIELD Campo Técnico
[0001] A presente invenção refere-se a uma técnica baseada em predição para codificação de dados de light field. A técnica proposta melhora os codecs de light field atuais. Esta técnica agrega valor a qualquer sistema que emprega recursos de imagem de light fields em diversas áreas, como, displays imersivos, smartphones holográficos, câmeras, fones de ouvido, dispositivos AR/VR/MR, smartTVs, etc.
[0002] O método aqui proposto remove informações redundantes de dados de light field, reduzindo sua taxa de bits, pelo uso de uma predição de um valor de pixel em todas as quatro dimensões do light field. Usar esta técnica para representar dados de light field, permite que ele seja transferido através de um meio de largura de banda limitada e/ou reduzir significativamente a capacidade de armazenamento necessária para este fim.
Antecedentes
[0003] Uma descrição completa dos raios de luz presentes no espaço é dada pela Função Plenóptica, uma função vetorial teórica com 7 dimensões que pode descrever a intensidade da luz que passa por cada ponto de vista, em cada direção, comprimento de onda e instante de tempo. Se os componentes de informação espectral forem considerados restritos e se for assumido que há invariância no tempo e que a intensidade de cada raio de luz é constante ao longo de seu caminho, a função heptadimensional (7-D) pode ser simplificada para uma representação quadridimensional (4D), chamada de light field. É possível usar uma parametrização de dois planos ou de placa de luz para descrever o light field, definindo um raio por seus pontos de intersecção com dois planos, que geralmente são referidos como plano de imagem (indexado pelo par de coordenadas (u, v)) e plano de vistas (indexado pelo par de coordenadas (s, t)). A densidade amostral dos pares (s, t) e (u, v) denotam a resolução angular e a resolução espacial, respectivamente.
[0004] Documento de patente US 20190158877 A1, intitulado “Method and apparatus for encoding and decoding a light field based image, and corresponding program product”, publicado em 23 de maio de 2019, pela Thomson Licensing, apresenta um método que utiliza propriedades específicas das estruturas lineares e Imagem De Plano Epipolar (EPI) para fornecer modos de predição unidirecional para fins de codificação. Ele assume que todos os pixels que estão sendo preditos em um bloco são imagens de pontos 3D compartilhando a mesma profundidade. Além disso, este documento usa intrapredição 2D nos planos epipolares, que são apenas estruturas geométricas 2D que exploram separadamente redundâncias 2D de light fields. Por outro lado, a presente invenção propõe um modelo de predição que explora o uso da estrutura geométrica 4D intrínseca do light field com Hipercones 4D em vez disso.
[0005] Documento de patente US 20180316935 A1, intitulado "“Method for Encoding and Method for Decoding a Light field Based Image and Corresponding Devices” publicado em 1 de novembro de 2018, pela Thomson Licensing, apresenta um método preditivo para fins de codificação onde o modo de predição é determinado para que as predições unidirecionais e bidirecionais espaciais sejam intercaladas obtendo o resíduo. Por outro lado, a presente invenção emprega Hipercones e planos para determinar diferentes modos de predição 4D que minimizam o custo lagrangiano de codificar o resíduo. A abordagem proposta na presente invenção baseiase na geometria 4D e difere do documento de patente US 20180316935 A1, que intercala a predição espacial unidirecional e a predição espacial bidirecional. A presente invenção define os pixels da vizinhança causal 4D de cada bloco 4D que será usado para intrapredição de light field 4D. Na presente invenção, a predição 4D deve ser realizada calculando a média de todos os pixels pertencentes aos paraboloides Hiperbólicos ou planos 2D originados da intersecção dos Hipercones com as vizinhanças causais 4D.
[0006] Documento de patente US 10531082 B2, intitulado “Predictive Light field Compression” publicado em 28 de setembro de 2017, pela Lytro INC. apresenta um esquema de compressão de light field que divide o light field em uma pluralidade de blocos, que pode ser baseado em suas coordenadas espaciais. Este documento emprega etapas de predição, transformada, quantização e codificação de entropia. No entanto, a presente invenção define os pixels da vizinhança causal 4D de cada bloco 4D que será usado para intrapredição de light field 4D. No bloco 4D, a predição 4D deve ser realizada calculando a média de todos os pixels pertencentes aos paraboloides Hiperbólicos ou planos 2D originados da intersecção dos Hipercones (ou Hiperplanos) com cada região da vizinhança causal 4D. A presente invenção é baseada na geometria 4D e difere do documento de patente US 10531082 B2 enquanto busca o ponto 3D homólogo projetado no light field 4D seguindo expressões matemáticas derivadas para diferentes modelos de geração/aquisição de light field.
[0007] Documento de patente US 10687068 A1, intitulado “Method for compressing light field data using variable block-size four-dimensional transforms and bitplane decomposition”, publicado em 16 de junho de 2020, pela Samsung Eletrônica da Amazônia LTDA., diz respeito à compressão de light fields usando a transformada variável de quatro dimensões e decomposição de árvore hexadeca do plano de bits. Além disso, este documento descreve todo um codec de light fields, com transformada específica, estratégia de quantização, etc. No entanto, a presente invenção propõe uma técnica para intrapredição 4D de light fields. Esta técnica pode ser usada em combinação com US 10687068 A1 ou outras técnicas baseadas em transformada. Na verdade, os codecs atuais amplamente utilizados implementam uma combinação de técnicas baseadas em predição e transformada. Essas técnicas são complementares e não exclusivas.
[0008] O artigo intitulado "Macropixel-constrained Collocated Position Search for Plenoptic Video Coding", publicado em 1 de dezembro de 2019, por Lingjun Li e Xin Jin, propõe um algoritmo de estimativa de movimento para compressão de vídeo plenóptico, baseado na análise da relação entre movimento temporal e arranjo de macropixel. O artigo desenvolve seu esquema de codificação baseado em matrizes de microlentes, usando o fato de que os quadros plenópticos compartilham a mesma estrutura e arranjo de macropixels. Assim, o artigo pressupõe que o movimento do objeto em resolução inteira deve ser refletido pelo movimento em múltiplos inteiros do tamanho do macropixel no vídeo plenóptico. O artigo modifica o HEVC, que é um padrão de codificação 2D, para usar essa relação. No entanto, a presente invenção difere deste artigo, pois define os pixels da vizinhança causal 4D de cada bloco 4D que será usado para intrapredição de light field 4D, enquanto o artigo usa uma solução de codificação convencional 2D.
[0009] O artigo intitulado "Light field Image Coding Using High-Order Intrablock Prediction" publicado em outubro de 2017, por R. J. S. Monteiro, P. J. L. Nunes, N.M.M. Rodrigues e S.M.M. Faria, explora a redundância espacial em imagens de light field de microlentes (lenslet) por meio da predição de cada bloco de imagem, através de uma transformada geométrica aplicada a uma região da área codificada causal. O artigo utiliza traduções para transformadas projetivas ou bilineares, otimizadas de acordo com um critério adequado de taxa de distorção para orientar a busca por pontos homólogos dentro das imagens de light field. No entanto, a predição na presente invenção é realizada para qualquer tipo de dados de light field, não restringindo a invenção para imagens de light field de microlentes. Diferentemente, a invenção proposta neste documento define os pixels da vizinhança causal 4D de cada bloco 4D que será usado para intrapredição de light field 4D. Na presente invenção, a predição 4D deve ser realizada calculando a média de todos os pixels pertencentes aos paraboloides Hiperbólicos ou planos 2D originados da intersecção dos Hipercones com as vizinhanças causais 4D.
[00010] O artigo intitulado “Light field HEVC-based image coding using locally linear embedding and selfsimilarity compensated prediction”, publicado em 11 de julho de 2016, por R. Monteiro et al, usa características herdadas de light fields baseados em microlentes para explorar sua redundância. Devido à grade repetitiva das micro-imagens, a correlação cruzada de uma imagem de light field é descrita por vários picos cíclicos repetidos a uma distância de uma microimagem em pixels (vertical e horizontalmente). Esta característica é usada pela predição compensada de autossimilaridade que é combinada com uma predição baseada em incorporação localmente linear e o padrão HEVC para executar a codificação do light field. Este artigo difere da presente invenção em vários pontos, pois o artigo não explora a redundância 4D inata de dados de light field, pois usa apenas ferramentas de codificação 2D. O artigo também utiliza as características dos light fields baseados em microlentes sem empregar modelos geométricos do sistema de captura de light field, bem como das estruturas 4D obtidas ao fotografar a cena 3D no light field. Nesse sentido, a presente invenção modela os sistemas de geração/aquisição de dados de light field para explorar plenamente sua redundância 4D.
[00011] O artigo intitulado “A Study on the 4D Sparsity of JPEG Pleno Light fields Using the Discrete Cosine Transform”, publicado em outubro de 2018, por G. Alves, et al., apresenta uma análise exploratória da esparsidade 4D dos light fields no espaço 4D-DCT. O artigo investiga a adequação do 4D-DCT para comprimir os conjuntos de dados baseados em microlentes e conjuntos de câmeras bidimensionais de alta densidade (HDCA). Os resultados sugerem que os conjuntos de dados de microlentes apresentam uma alta redundância 4D, com maior inter-SAI do que a esparsidade intra-SAI. Para os conjuntos de dados HDCA, há também redundâncias 4D dignas de serem exploradas, mas em menor grau. Ao contrário do caso de microlentes, a redundância intra-SAI é muito maior do que a inter-SAI. O artigo foi uma primeira investigação sobre a adequação de transformadas 4D para codificação de light field. No entanto, a presente invenção refere-se especificamente a uma técnica de predição 4D e não a uma transformada 4D.
[00012] O artigo intitulado "A 4D DCT-Based Lenslet Light field Codec", publicado em 7 de outubro de 2018 por M.B. Carvalho, et al., propõe um codec de light field preliminar que explora totalmente a redundância 4D de dados de light field usando a transformada discreta de cosseno (DCT) 4D e codificação de coeficientes usando planos de bits e particionamento guiado por árvore hexadeca. No entanto, a presente invenção é uma técnica de predição 4D e não uma transformada 4D.
Sumário
[00013] A codificação preditiva é uma técnica fundamental de codificação usada em compressão de imagem 2D e de vídeo. Ela explora correlação espacial e temporal dentro de quadros e entre quadros adjacentes, respectivamente. Uma técnica de predição baseada em linha (LIP) é adotada pelos padrões H.265/MPEG-H HEVC (H.265/MPEG-H High Efficiency Video Coding) e codificação de vídeo avançada H.264/MPEG-4 (H.264/MPEG-4 AVC) como uma ferramenta para explorar a correlação espacial dentro dos quadros. Ambas os padrões empregam uma estrutura baseada em bloco para predição bidimensional (2D). Nessas técnicas, os valores de pixels vizinhos já codificados do bloco 2D atual (com dimensões/tamanho correspondentes a frações inteiros das dimensões da imagem 2D) são extrapolados para construir um bloco de predição 2D, onde diferentes direções de predição são definidas como diferentes modos de predição. O erro de predição é então codificado por uma transformada separável 2D. As predições angulares em H.264/AVC e HEVC assumem que um tamanho de bloco 2D é escolhido de modo que seu conteúdo visual tenha principalmente bordas em uma determinada direção. Um bom modelo para isso é assumir que uma região tridimensional (3D) no espaço, que é imageada pelo bloco é tal que tanto a textura quanto as bordas da região 3D no espaço podem ser aproximadas como um conjunto de linhas retas da mesma orientação no espaço 3D.
[00014] Quando se trata dos light fields 4D, pode-se usar uma extensão do raciocínio acima, ou seja, também usar a suposição subjacente de que a região 3D no espaço imageado pelo bloco 4D no light field é composta por linhas retas da mesma orientação. A entidade geométrica 4D que é o resultado do mapeamento de uma linha reta no espaço 3D em um light field 4D é conhecida como um Hipercone. Assim, a extrapolação do bloco poderia ser feita usando Hipercones. Além disso, ao assumir que a região 3D no espaço sendo imageada é um plano no espaço 3D que pode não ter uma textura que pode ser aproximada por um conjunto de bordas da mesma orientação, a predição poderia ser feita assumindo que o plano no espaço 3D no espaço é conhecido, e a predição pode ser feita extrapolando os pontos correspondentes nas vistas já codificadas.
[00015] Nesse sentido, a presente invenção refere-se a um método de codificação de um light field, empregando a predição de um valor de pixel onde todas as quatro dimensões do light field são consideradas simultaneamente ao computar a referida predição. Isto é chamado de intrapredição quadridimensional (4D) de um light field. Esta intrapredição 4D é realizada de acordo com um modo de intrapredição selecionado baseado na textura e estrutura geométrica de um bloco 4D, que estão relacionados à textura e estrutura geométrica da cena 3D que está sendo imageada. No método, a textura e estrutura geométrica dos pixels no bloco 4D de entrada é determinada, e a intrapredição 4D é realizada de acordo com um modo de intrapredição que tem a textura e estrutura geométrica mais semelhantes à textura determinada dos pixels.
[00016] Além disso, a presente invenção descreve um método de predição 4D a ser usado como um passo na codificação de light fields que gera um resíduo 4D que pode ser codificado de forma mais eficiente por, por exemplo, um codec 4D baseado em transformada. A presente invenção compreende:
  • - Modelos de aquisição/geração de light field;
  • - Parametrização de linha e plano (Hipercone, Blocos 4D, Regiões Causais);
  • - Modos de predição 4D.
Breve Descrição dos Desenhos
[00017] Os objetivos e vantagens da presente invenção se tornarão mais claros através da seguinte descrição detalhada do exemplo e desenhos não limitantes apresentados no final deste documento.
[00018] A Figura 1 descreve a parametrização de dois planos de um raio de luz.
[00019] A Figura 2 retrata um light field 4D representado como uma matriz de vistas.
[00020] A Figura 3 retrata o modelo-1: dispositivo de captura de light field do modelo de microlente (matriz de câmeras de microlente).
[00021] A Figura 4 mostra o modelo-2: Dispositivo de captura de light field do modelo de matriz de câmera.
[00022] A Figura 5 apresenta a parametrização de linha e plano.
[00023] A Figura 6 mostra a textura direcional em um plano.
[00024] A Figura 7 retrata uma concretização da presente invenção em um smartphone.
[00025] A Figura 8 apresenta uma vista geral do método da presente invenção no smartphone.
[00026] A Figura 9 mostra os dados de light field codificados sendo enviados para uma tela de light field usando uma conexão sem fio.
[00027] As figuras 10 a 12 apresentam as curvas PSNRYUV vs taxa de bits para o codec prático com a predição 4D sendo habilitada e desativada para os conjuntos de dados Greeks, Sideboard e Tarot.
Descrição detalhada
[00028] A Figura 1 mostra uma parametrização de dois planos dos raios de luz, L (u,v,s,t) (101), que é uma simplificação 4D da função plenóptica que considera a intensidade de cada raio de luz constante ao longo de seu caminho, parametrizando cada raio de luz pelas duas coordenadas bidimensionais (2-D) de sua intersecção com dois planos paralelos (u×v (102) e s×t (103)). Com exceção dos raios de luz paralelos ao plano u×v, todos os raios de luz podem ser representados exclusivamente como uma tupla-4 (u,v,s,t), onde os raios de luz parametrizados sob a parametrização de dois planos formam um espaço vetorial 4D. Para todos os raios originários do ponto P (104) no espaço 3D, varia linearmente com , e com , por extensão.
[00029] Os conjuntos de dados de light field são geralmente compostos por um conjunto de componentes de cor, cada um compreendendo um light field 4D de dimensões (u,v,s,t). As vistas são abordadas pelo par de coordenadas (s,t) (201), como mostrado na Figura 2, e podem ser referidas como as coordenadas de vista ou angular, enquanto o par (u,v) (202) aborda um pixel dentro de cada visualização (s,t) e pode ser referido como as coordenadas espaciais. Tal light field pode ser interpretado como uma coleção de imagens de perspectiva tiradas de uma posição de observador definida no plano de vista s×t se (203), cada uma definida no plano de imagem u×v (102), como mostrado na Figura 1.
[00030] Portanto, um light field, que é um sinal 4D, tem tanto redundâncias espaciais (intra-vista, dentro do plano de imagem u×v (102)) quanto redundâncias intervista (dentro do plano de vista s×t (103)). Se for possível explorar tanto redundâncias espaciais quanto de vista, ou, em outras palavras, toda a correlação 4D, então o sinal 4D que é um light field pode ser eficientemente comprimido. Essa compressão eficiente é necessária para aplicações da vida real, uma vez que a mídia de light field é grande o suficiente para corresponder a uma enorme quantidade de dados. Essa grande quantidade requer esquemas eficientes de compressão, como o esquema apresentado nesta invenção.
[00031] O modelo de aquisição/geração de um light field pode ser realizado por um dispositivo real ou pode ser um modelo geométrico para light fields sintético. Dois modelos diferentes de aquisição/geração parametrizam a linha. O primeiro modelo é o modelo de microlentes ilustrado na Figura 3, doravante referido como Modelo-1. O segundo modelo é o modelo de matriz de câmeras, ilustrado na Figura 4, doravante referido como Modelo-2.
[00032] No Modelo-1 diferentes pixels em uma vista são imageados por diferentes microlentes (301). Os pixels correspondentes entre diferentes vistas são visualizados pelas mesmas microlentes (301). Da Figura 3 (Modelo-1), a Equação 1 mostra como o ponto 3-D P (302), à distância (309) do plano do sensor (306), é mapeado em função de u (303) e s (304) por similaridade triangular, onde u (303) varia linearmente com s (304) para P (302) fixo. A matriz de microlentes está em um plano de microlentes (305) ao plano de sensor (306). A distância entre o plano de microlentes (305) e o plano de sensor (306) é D (307). O mapeamento de P (302) em função de v (204) e t (206) é obtido substituindo a variável x (308) pela variável y, a variável s (304) pela variável t (206) e a variável u (303) pela variável v (204) (Equação 2).
Figure img0001
[00033] No Modelo-2, retratado na Figura 4, a aquisição/geração é feita por câmeras (ou modelos de câmeras) com centros ópticos (401) com coordenadas s (402) que pertencem a um plano de vista (403). Neste modelo, todos os pontos da cena pertencentes ao plano Ω (404), que é paralelo ao plano de vista (403), à distância (405) do plano de vista (403) são mapeados em uma coordenada u (406), no plano de sensor (411) paralelo ao plano de vista (403) à distância D (407) do plano de vista (403) com u (406) sendo independente da posição do ponto de vista s (402). A equação 3 mostra como o ponto 3-D P (408), à distância z (409) do plano de vista (403), é mapeado em função de u (406) e s (205.402) por similaridade triangular, onde u (406) varia linearmente com s (402) para P (408) fixo. O mapeamento de P (408) em função de v (204) e t (206) é obtido substituindo a variável x (410) pela variável y, a variável s (402) pela variável t (206) e a variável u (406) pela variável v (204) (Equação 4).
Figure img0002
[00034] As intrapredições nos padrões de codificação de vídeo 2D H.264/AVC e HEVC são realizadas de forma baseada em bloco 2D, referindo-se aos pixels vizinhos de blocos previamente decodificados que são deixados para e/ou acima do bloco a ser predito. Na verdade, eles assumem que o bloco a ser predito contém apenas características que podem ser modeladas como linhas retas. Em outras palavras, a suposição é que o bloco é a imagem de uma região no espaço 3D contendo características que podem ser aproximadas apenas por bordas/linhas em uma determinada orientação. Uma vez que a imagem de uma borda/linha no espaço 3D é uma linha na imagem 2D, se essa suposição mantiver a intrapredição direcional, que usa linhas da mesma direção para predizer todos os pixels em um bloco, será eficaz.
[00035] Usando o raciocínio acima, nesta invenção a intrapredição direcional é estendida ao light field 4D, calculando qual é a imagem 4D de uma borda/linha no espaço 3D que é capturada/gerada pelo light field. Esta imagem será o elemento principal a ser usado para realizar a intrapredição 4D no light field, da mesma forma que a linha reta é o elemento principal usado na intrapredição HEVC ou H.264. Na presente invenção, a predição 4D deve ser realizada calculando a média de todos os pixels pertencentes aos paraboloides Hiperbólicos originados da intersecção dos Hipercones (ou Hiperplanos) com cada região das vizinhanças causais 4D.
[00036] Como mostrado na Figura 5, uma linha L (501) pode ser parametrizada em um espaço 3D por θ (502), (503), r (504), ρ (505) e α (506) como na Equação 5. A projeção do plano contendo L (501) que é ortogonal para o plano xy é dada pela linha R (507). A normal da origem O (510) para este plano contendo L (501) intercepta R (507) em um ponto Q (509) e faz um ângulo θ (502) com o eixo x (508), e R (507) que tem uma distância ρ (505) a O (510). O ângulo da normal para L (501) do ponto Q (509) faz um ângulo (503) com a linha R (507) e tem distância r (504) para a linha R (507). As coordenadas (x,y,z) do ponto P (511) na linha L (501) a uma distância α (506) de P' (512) são dadas na Equação 5.
Figure img0003
[00037] Considerando a parametrização de dois planos de raios de luz, a imagem no light field 4D de qualquer ponto de cena 3D é mapeada para um hiperplano de raios 2D W. Além disso, a imagem no light field 4D (u, v, s, t) de qualquer linha 3D pode ser parametrizada pelo tupla-4 (u0, v0, s0,t0), como um hipercone H, representado pela Equação 6.
Figure img0004
onde u (203), v (204), s (205) e t (206) são as coordenadas 4D de um light field, e u0t0 = v0s0.
[00038] As equações 7 e 8 dão as expressões matemáticas da tupla-4 (u0, v0, s0,t0) dos Hipercones correspondentes ao Modelo-1 e Modelo-2 de aquisição/geração, de acordo com a Figura 5.
[00039] Para o Modelo-1 (microlente), u0, v0, s0 e t0 são definidos nas expressões matemáticas listadas como Equação 7.
Figure img0005
Figure img0006
[00040] Para o Modelo-2 (conjunto de câmeras), u0, v0, s0 e t0 são definidos nas expressões matemáticas listadas como Equação 8.
Figure img0007
[00041] A imagem de um ponto 3D no Modelo-1 é um Hiperplano definido pelas Equações 1 e 2. A imagem de um ponto 3D no Modelo-2 é um Hiperplano definido pelas Equações 3 e 4, em ambos os modos a imagem de um ponto 3D é um Hiperplano 2D W.
[00042] O k-ésimo bloco 4-D Bk é um subconjunto de um light field 4D no qual:
Figure img0008
[00043] A região causal do tipo i do k-ésimo bloco 4-D, Rki , com i = {I, II, III, IV, V}, é definida como na Tabela 1:
Figure img0009
[00044] Nesta invenção, os canais de cores são independentemente preditos. Portanto, uma amostra do canal de cores que está sendo predito é definida como I(u,v,s,t),ignorando a especificação do canal de cores.
[00045] Como descrito aqui, a invenção consiste em três modos de predição que, juntos, exploram totalmente a redundância 4D de um light field que fornece uma predição Pk de um bloco Bk que gera uma predição residual Pk - Bk que é suscetível a codificação eficiente, gerando assim uma representação do light field com uma quantidade reduzida de dados. Os três modos de predição desta invenção são chamados de modo plano 2D, modo Hipercone e modo DC. Dentro de um loop codec, no qual o residual de predição é codificado, pode-se escolher o modo de predição que minimiza o custo lagrangiano de codificar o residual e sinalizar o modo de predição correspondente
[00046] O modo de predição de plano 2D explora o mapeamento de um ponto no espaço 3D no light field 4D, conforme dado pelas Equações 1 e 2 para o Modelo-1 de aquisição/geração e Equações 3 e 4 para o Modelo-2 de aquisição/geração. A suposição chave sobre este modo de predição é que pontos no espaço 3D imageados pelo bloco 4D Bk pertencem ao mesmo plano π no espaço 3D. Seu principal uso é nos casos em que o plano π não contém textura direcional.
[00047] Nesta invenção, o plano π é parametrizado tendo como referência a equação de uma linha 3D no espaço (501) como dado pela Equação 5. Um plano π no espaço 3D contendo a linha L (501) é dado pela Equação 10. A linha L (501) tem direção definida por θ (502) e (503). O Ângulo (Equação 10) é o ângulo do plano π com o plano definido pelas linhas L (501) e S (515). Plano π tem distância d até a origem O (510) do sistema de coordenadas. Uma vez que o modo de predição do plano 2D não assume que o plano π tem uma textura direcional (600), como mostrado na Figura 6, θ (502) é considerado igual a zero, sem perda de generalidade. Portanto, o modo de predição do plano 2D é especificado pelos parâmetros do plano (503), e d de acordo com a Equação 11.
Figure img0010
[00048] O valor de predição P (u,v,s,t) da amostra (u,v,s,t) em Bk é calculado projetando seu raio correspondente do light field para o plano π e, em seguida, projetando-o de volta para cada vista que tem pixels na região causal ℛ . O cálculo do valor de intensidade desta projeção é realizado pela computação, para cada vista ( ̃, ̃), que possui pixels de coordenadas ( ̃, ̃, ̃, ̃) pertencentes à região causal ℛ , as coordenadas ( ̂, ̂) do pixel na vista ( ̃, ̃). As coordenadas ( ̂, ̂) são uma função de (u, v, s, t), ( ̃, ̃), , e d são computadas pela resolução das Equações 1, 2, 11, 12 e 13, considerando o caso particular de Modelo-1 de aquisição/geração e Equações 3, 4, 11, 14 e 15, considerando o caso particular de Modelo-2 de aquisição/geração.
Figure img0011
[00049] O valor de predição P(u,v,s,t) será a média das intensidades I( ̂, ̂, ̃, ̃) dessas projeções em todas as coordenadas ( ̂, ̂, ̃, ̃) que estão na região causal ℛ de Bk.
[00050] Os melhores parâmetros para o modo de plano 2D podem ser pesquisados pela variação do ângulo no intervalo [−π,π] e no intervalo [−π/2,π/2] . Dados e ψ, a faixa de variação de d pode ser computada por meio de pesquisa exaustiva, ou, a partir do conhecimento das disparidades mínimas e máximas no light field. As resoluções dessas variações dependem do codec específico utilizado para codificar os resíduos, podendo também depender, por exemplo, do tamanho do bloco 4D e dos parâmetros de aquisição/geração. A escolha ideal pode ser feita, por exemplo, utilizando um critério de distorção de taxa após a codificação dos resíduos utilizando, por exemplo, um codec 4D como o modo de transformada 4D apresentado no artigo intitulado "ISO/IEC JTC 1/SC29/WG1N84065: Information Technology - JPEG Plenoptic image coding system - part 2: Light field coding", publicado em 2019. Alternativamente, os parâmetros de predição podem ser computados diretamente determinando o plano π usando métodos de estimativa de profundidade.
[00051] Nesta invenção, o modo hipercone assume que a região no espaço 3D sendo imageada é composta por um plano contendo uma textura direcional (600). Os parâmetros de predição são os que especificam o plano π no espaço 3D e a direção da textura sobre ele, ou seja, θ (502) e (503), que especificam a direção da textura no plano (Equação 5), e d, que completam a especificação do plano dada a direção da textura. Sua expressão é dada pela Equação 10. A textura direcional (600) no plano π no espaço 3D é exemplificada na Figura 6.
[00052] Cada linha que compreende a textura direcional no plano π (600) é imagem do hipercone (H) dada pela Equação 6. Para o Modelo-1 de aquisição/geração, os parâmetros de Hipercone são dados pela Equação 7 e para o Modelo-2 de aquisição/geração, pela Equação 8.
[00053] Dado θ (802) e (803), cada linha no espaço 3D é definida por mais dois parâmetros, ρ (504) e r (505), para ambos os modelos de aquisição/geração (Modelo-1 e Modelo-2). A partir das equações de Hipercone para o Modelo1 de aquisição/geração, Equações 6 e 7, pode-se ver que todas as linhas no plano π que compartilham os mesmos parâmetros θ (502) e (503), originam Hipercones nos quais s0 e t0 dependem apenas de θ (502) e (503). Portanto, sua interceptação com uma vista (s,t) resulta em linhas retas paralelas com coeficiente angular no espaço u×v é dada pela Equação 16.
Figure img0012
[00054] Da mesma forma, a partir das equações de Hipercone para o Modelo-2 de aquisição/geração, Equações 6 e 8, todas as linhas em π que compartilham os mesmos parâmetros θ (502) e (503), originam Hipercones cuja interceptação com uma vista (s,t) criam linhas retas no plano u×v que passam pelo ponto (uO,vO) dadas pelas expressões matemáticas listadas como Equação 17.
Figure img0013
[00055] A predição é realizada por ter como referência uma vista de âncora (sA,tA). A principal suposição sobre o modo de predição de Hipercone é que o light field é particionado de modo que o bloco 4D Bk corresponde a uma região no espaço 3D que é modelada por um plano no espaço 3D contendo uma textura direcional (600). Portanto, é composta por linhas de mesma orientação no espaço 3D, e a imagem projetada no light field 4D por cada uma dessas linhas Li pertencentes a plano π é um Hipercone Hi. A interceptação de Hi com a vista de âncora (sA,tA) é uma linha reta l i A no plano u×v. Como apontado acima, no Modelo-1 de aquisição/geração as l i A possuem o mesmo coeficiente angular para todos i e, para o Modelo-2 de aquisição/geração, a l i A passa pelo mesmo ponto (uO,vO) para todos i. Portanto, um ponto (ui,vi)(diferente de (uO,vO) para o Modelo-2 de aquisição/geração) da vista (sA,tA) especifica exclusivamente l i A e, portanto, o Hipercone Hi. Tendo Hi, pode-se realizar a predição da região de ℬ correspondente à linha 3D Li no bloco 4D ℬ . O valor de predição é dado pela média das intensidades do light field ao longo da intersecção de Hi com a união das regiões causais R , R , R e R , como descrito na Tabela 1. Os valores de intensidade desta intersecção podem ser estimados usando interpolação de subpixel. Se o ponto (ui,vi) se mover ao longo dos limites da intersecção de B com a vista de âncora (sA,tA), o Hipercone H correspondente pode escanear todo o bloco 4D, executando a predição do bloco 4D B . Note que isso é verdade tanto para o Modelo-1 de aquisição/geração quanto para o Modelo-2, uma vez que uma linha reta é definida tanto pelo seu ponto (ui,vi) quanto pelo seu coeficiente angular η (Equação 16 – Modelo-1 de aquisição/geração) ou pelo seu ponto (ui,vi) e pelo outro ponto(uO,vO)(Equação 17 – Modelo2 de aquisição/geração).
[00056] Nesta invenção, os melhores parâmetros para o modo Hipercone podem ser pesquisados por ângulos variados θ (502) no intervalo [−π/2,π/2] , (503) no intervalo [−π,π] e (Equação 10) no intervalo [π/2,π/2] . Dados θ, e ,d pode ser variado como descrito na sequência. Se os ângulos θ, e , forem dados e d não, uma linha reta , no plano u×v da vista (sA, tA) não especifica exclusivamente o Hipercone Hi, uma vez que requer o conhecimento de dois parâmetros adicionais da linha no espaço 3D Li, ρ e r. Como sem d não há equação de plano π, resta apenas a equação que define a linha . A outra equação pode ser a equação da linha , que é a intersecção do Hipercone Hi com uma vista auxiliar (sAU, tAU). Estes seriam suficientes para especificar Hi, e, portanto, teria-se a mais uma equação suficiente para a estimativa do parâmetro d de plano π. A linha , da mesma forma que a linha , tem um coeficiente angular dado pela Equação 16, ou seja, ηAU = (sAU − s0)/(tAU − t0) para o Modelo1 de aquisição/geração, e para o Modelo-2 de aquisição/geração que passa por um ponto (uO′, vO′). Portanto, ele pode ser especificado exclusivamente por um ponto ( ′ , ′) (diferente de (uO′,vO′) para o Modelo-2 de aquisição/geração) na vista (sAU, tAU). Assim, em vez de procurar o parâmetro d, pode-se mover o ponto ( ′ , ′) ao longo dos limites da intersecção de ℬ com a vista (sAU, tAU), e escolher o conjunto de θ, , e ( ′ , ′) que dão o melhor modo de predição. Uma vez que o ponto ( ′ , ′) se move ao longo dos limites da intersecção de ℬ com a vista (sUA, tUA), apenas um parâmetro pode ser pesquisado para determinar o par ( ′ , ′) (por exemplo, a distância ao longo do limite). Como no caso do modo de predição de plano 2D, a precisão dessas pesquisas depende do codec específico usado para codificar os resíduos, podendo também depender, por exemplo, do tamanho do bloco 4D e parâmetros de aquisição. A escolha ideal pode ser feita, por exemplo, usando um critério de distorção de taxa após a codificação dos resíduos usando, por exemplo, um codec 4D como o modo de transformada 4D em "ISO/IEC JTC 1/SC29/WG1N84065: Information technology - JPEG Pleno Plenoptic image coding system - part 2: Light field coding". Alternativamente, os parâmetros de predição e , , d podem ser computados diretamente determinando o plano π utilizando métodos de estimativa de profundidade, com a necessidade apenas de buscar a orientação de textura θ.
[00057] Nesta invenção, para o modo DC, o bloco 4D ℬ é predito pela média das amostras de light field na união das regiões causais ℛ II, ℛ III, ℛ IV, e ℛ V. O modo DC, que não se baseia em nenhuma suposição sobre a região causal, é provável de ser usado quando a suposição de que os pontos no espaço 3D que estão sendo retratados pelo bloco 4D ℬ estão aproximadamente em um plano não se mantém.
[00058] A Figura 7 retrata uma concretização da presente invenção, onde a seta sólida (701) representa a sequência de eventos. A ação começa com um usuário (702) usando um smartphone (703), onde um sistema que implementa a invenção proposta foi previamente implantado na forma de um aplicativo de light field (704). O aplicativo codifica o light field capturado pela câmera do smartphone, que pode ser armazenado em uma memória (705), que deve ser entendida como um cartão de memória, a memória interna do smartphone, na nuvem, ou em outro dispositivo. O progresso do processo de codificação do light field pode ser verificado por meio de uma barra de progresso (706). O light field é salvo na área de armazenamento designada (705), sendo acessado como uma lista (707) ou de outra forma (por exemplo, ícones). O processo de codificação pode ser realizado localmente, sem necessidade de etapas adicionais de processamento em máquinas externas ou remotas, apesar de eventuais restrições de memória e processamento do smartphone.
[00059] A Figura 8 ilustra o funcionamento da vista geral do método da presente invenção no smartphone, mas não se limita a esse tipo de dispositivo. Cada caixa retangular é uma atividade, e as setas representam a precedência das atividades (801). O objeto 3D (802), ou a cena 3D, é capturado pela câmera do smartphone (803) e pode ser codificado e decodificado para ser exibido na tela do smartphone ou em outra tela, qualquer uma daquelas capazes de exibir dados de light field.
[00060] A Figura 9 mostra outra concretização da invenção, onde os dados de light field codificados (907) podem ser enviados para uma exibição de light field (902) usando uma conexão sem fio (901), ou transferindo os dados de light field codificados inserindo o cartão de memória em um slot apropriado da tela de light field (902). Em seguida, a tela de light field (902) pode decodificar os dados de light field codificados (907) e exibi-los (903). Os dados de light field decodificados podem ser observados a partir de seus diferentes pontos de vista (904), que podem ser limitados pelo sistema de aquisição/geração de light field e pelas capacidades de exibição da tela de light field.
[00061] De acordo com várias concretizações, o sistema e o método da presente invenção processam dados de imagem de light field para representar os dados originais com um número reduzido de símbolos/bits.
[00062] O sistema visual humano (HVS) é capaz de perceber um mundo tridimensional (3D) devido à sua faculdade de compreensão de profundidade. Os televisores que exibem imagens bidimensionais (2D) não conferem o realismo que uma renderização 3D certamente poderia fornecer. Portanto, a percepção de profundidade oferecida por sistemas que empregam pelo menos duas visões de uma cena poderia trazer o mundo real para muitas aplicações. Enquanto os sistemas de câmeras estéreo (2D) e multivisor não produzem reconstruções 3D suficientemente precisas e confiáveis, as imagens capturadas (ou geradas) por dispositivos de light field são sistemas de imagem alternativos de alto desempenho. Esses light fields podem ser amostrados gravando (ou criando) imagens convencionais do objeto a partir de um grande número de pontos de vista, gerando uma enorme quantidade de dados. Portanto, um esquema eficiente de compressão é essencial para reduzir essa grande quantidade de dados, mas mantendo a qualidade visual perceptiva no lado do decodificador para permitir uma renderização eficiente das cenas. Qualquer esquema de codificação tenta alcançar o custo-benefício desejado entre minimizar a taxa de bits e maximizar a qualidade.
[00063] Os conjuntos de dados de light field Greek e Sideboard são estruturas 4D de dimensões (9×9×512×512), apresentando diferentes geometrias de cena. Eles têm cada 9×9 vistas (uma matriz 2D de 9×9 imagens), onde cada vista (imagem) apresenta dimensões espaciais de 512×512 pixels. As diferentes geometrias de cena fornecem objetos em diferentes níveis de profundidade, ou seja, objetos que estão mais próximos ou mais distantes do observador (visualizador, câmera). Além disso, cada cena possui objetos que exibem especularidades, padrões repetitivos, detalhes finos, variações de contraste que são características desafiadoras para qualquer esquema de compressão.
[00064] O conjunto de dados Tarot é uma estrutura 4D de dimensões (17×17×1024×1024), apresentando uma cena interior com especularidades complexas, objetos com diferentes graus de textura em diferentes profundidades. O conjunto de dados tem 17×17 vistas (uma matriz 2D de 17×17 imagens), onde cada vista (imagem) apresenta dimensões espaciais de 1024×1024 pixels. O cenário complexo enfatiza qualquer esquema de codificação de light field.
[00065] Uma maneira de medir o desempenho de um método de compressão é usando uma métrica que avalia a razão de compressão em relação à qualidade dos dados comprimidos/descomprimidos. A razão sinal-ruído de pico (PSNR) vs taxa de bits é a métrica mais empregada na codificação de campo de imagem/vídeo/luz. Quanto maior o valor de PSNR, melhor é a qualidade dos dados descomprimidos, enquanto uma taxa de bits menor denota a capacidade de compressão de um método de compressão.
[00066] Como exemplo de um codec prático usando esta invenção, há o codec de light field JPEG Pleno no modo de transformada 4D no qual, em vez de transformar um bloco 4D resultante da partição variável em tamanho de bloco, primeiro computa-se sua predição residual antes de se transformar, computando o custo lagrangiano associado a cada configuração de parâmetro de cada modo de predição escolhendo o com o menor custo lagrangiano. Neste exemplo, apenas o modo DC e o modo plano 2D utilizando valores fixos para parâmetros (503) e ψ (Equação 10) foram utilizados, com = π/2 e ψ =0, e pesquisando por 29 valores de d uniformemente distribuídos dentro da faixa de profundidade do light field que fornece o menor custo Lagrangiano. Neste exemplo, o modo Hipercone não foi habilitado. O tamanho do bloco 4D utilizado foi 9×9×64×64.
[00067] As curvas de PSNR-YUV (PSNR média entre os componentes de cor) vs taxa de bits para o codec prático acima com habilitado e desabilitado para predição 4D é exibido na Figura 10 para conjunto de dados Greek, na Figura 11 para conjunto de dados Sideboard e na Figura 12 para conjunto de dados Tarot. O conjunto de dados Tarot foi subamostrado para 9×9×512×512. Ganhos são obtidos para todos os conjuntos de dados ao habilitar a predição 4D. Isso fornece evidências claras da eficácia da invenção proposta. O codec prático acima com a predição 4D desativado é equivalente ao codec de light field JPEG Pleno no modo de transformada 4D, "ISO/IEC JTC 1/SC29/WG1N84065: Information technology - JPEG Pleno Plenoptic image coding system - part 2: Light field coding". É importante salientar que esses resultados significam que o esquema de predição 4D proporcionou ganhos significativos a um recente esquema de codificação de light field em sua fase final de padronização.
[00068] Embora a presente invenção tenha sido descrita em conexão com certas concretizações preferenciais, deve-se entender que não se pretende limitar a divulgação a essas concretizações particulares. Em vez disso, pretendese cobrir todas as alternativas, modificações e equivalentes possíveis dentro do espírito e escopo da invenção, conforme definido pelas reivindicações anexadas.

Claims (19)

  1. Método de intrapredição quadridimensional para codificação e decodificação de dados de light field, caracterizado pelo fato de que compreende as etapas de: receber modelos de aquisição/geração de light field; parametrizar linha e plano; usar modos de predição 4D, tais como modo plano 2D, modo Hipercone e modo DC para fornecer uma predição Pk de um bloco Bk que gera uma predição residual Pk - Bk.
  2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o primeiro modelo para aquisição/geração de light field é o modelo de microlente.
  3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o segundo modelo para aquisição/geração de light field é o modelo de matriz de câmera.
  4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a parametrização da linha e do plano no espaço 3D compreende a determinação, no light field 4D, do Hipercone, blocos 4D e regiões causais.
  5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que a imagem no light field 4D (u,v,s,t) de qualquer linha 3D pode ser parametrizada pela tupla-4 ( 0, 0, 0, 0) como um Hipercone H, tal que:
    Figure img0014
    onde u (203), v (204), s (205) e t (206) são as coordenadas 4D de um light field, e 0 0 = 0 0.
  6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que para o modelo de microlente, a tupla-4 ( 0, 0, 0, 0) do Hipercone H segue a relação, em que:
    Figure img0015
  7. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que para o modelo de matriz de câmera, a tupla-4 ( 0, 0, 0, 0), do Hipercone H segue a relação, em que:
    Figure img0016
  8. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que o k-ésimo bloco 4-D Bk é um subconjunto de um light field 4D no qual:
    Figure img0017
  9. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que a região 4D R é a região causal do tipo i do k-ésimo bloco 4-D, com i = {I, II, III, IV, V}, em que:
    Figure img0018
  10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os canais de cores são preditos independentemente.
  11. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que dentro de um loop de codec, no qual o residual da predição é codificado, o modo de predição é escolhido dentre o modo plano 2D, o modo Hipercone e o modo DC, onde essa escolha pode ser a que minimiza o custo lagrangiano de codificar o residual e sinalizar o modo de predição correspondente.
  12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que o modo de predição de plano 2D explora o mapeamento de um ponto no espaço 3D para o light field 4D, quando os pontos no espaço 3D imageados pelo bloco Bk 4D pertencem ao mesmo plano π no espaço 3D, em que o plano π não contém textura direcional.
  13. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que o modo de predição do plano 2D é especificado pelos parâmetros do plano ϕ, ψ e d, onde:
    Figure img0019
  14. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que o valor de predição P( , , , ) da tupla ( , , , ) no bloco B é computado por: projetar o raio correspondente do light field para o plano π e, em seguida, projetando-o de volta para cada vista que tem pixels na região causal ℛ ; calcular o valor de intensidade desta projeção computando, para cada vista ( ̃, ̃), que tem pixels de coordenadas ( ̃, ̃, ̃, ̃) pertencentes à região causal ℛ , as coordenadas ( ̂, ̂) do pixel na vista ( ̃, ̃), em que as coordenadas ( ̂, ̂) são uma função de (u,v,s,t), ( ̃, ̃), , , e d, tal como para o modelo de conjunto de microlente:
    Figure img0020
  15. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que o modo hipercone assume que a região no espaço 3D sendo imageada é composta por um plano contendo uma textura direcional, onde os parâmetros de predição são os que especificam o plano π no espaço 3D, juntamente com um parâmetro θ (502) definindo a direção da textura no plano 3D, tal que:
    Figure img0021
  16. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que para o modelo de microlente, todas as linhas no plano π que compartilham os mesmos parâmetros θ (502) e ϕ (503), dão origem a Hipercones em que s0 e t0, dependem apenas de θ e ϕ, em que sua interceptação com vista (s,t) são linhas retas paralelas com coeficiente angular η no espaço u×v é dada por η = (s − s0)/(t − t0).
  17. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que para o modelo de matriz de câmera, todas as linhas no plano π que compartilham os mesmos parâmetros θ (502) e ϕ (503), dão origem a hipercones cuja interceptação com uma vista (s,t) dão origem a linhas retas no plano u×v que passam pelo ponto (uO,vO), dado por:
    Figure img0022
  18. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que a interceptação do hiperplano Hi com a vista de âncora (sA,tA) é uma linha reta no plano u×v, onde o valor de predição é dado pela média das intensidades do light field ao longo da intersecção do hipercone Hi com a união das regiões causais R , R , R , e ℛ , onde os valores de intensidade desta intersecção podem ser estimados utilizando interpolação de subpixel.
  19. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que o modo DC é aquele em que o bloco 4D ℬ é predito pela média das amostras de light field na união das regiões causais ℛ II, ℛ III, ℛ IV, e ℛ V, em que este modo é provável de ser usado quando a suposição de que os pontos no espaço 3D que estão sendo retratados pelo bloco 4D ℬ estão aproximadamente em um plano não se mantém.
BR102021009291-2A 2021-05-13 2021-05-13 Método de intrapredição quadridimensional para codificação e decodificação de dados de light field BR102021009291A2 (pt)

Priority Applications (2)

Application Number Priority Date Filing Date Title
BR102021009291-2A BR102021009291A2 (pt) 2021-05-13 2021-05-13 Método de intrapredição quadridimensional para codificação e decodificação de dados de light field
US17/352,691 US11647225B2 (en) 2021-05-13 2021-06-21 Method for four-dimensional intra-prediction coding and decoding of light field data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BR102021009291-2A BR102021009291A2 (pt) 2021-05-13 2021-05-13 Método de intrapredição quadridimensional para codificação e decodificação de dados de light field

Publications (1)

Publication Number Publication Date
BR102021009291A2 true BR102021009291A2 (pt) 2022-11-22

Family

ID=84101619

Family Applications (1)

Application Number Title Priority Date Filing Date
BR102021009291-2A BR102021009291A2 (pt) 2021-05-13 2021-05-13 Método de intrapredição quadridimensional para codificação e decodificação de dados de light field

Country Status (2)

Country Link
US (1) US11647225B2 (pt)
BR (1) BR102021009291A2 (pt)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102907111A (zh) * 2010-06-02 2013-01-30 日立民用电子株式会社 接收装置、显示控制方法、发送装置和发送方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130113981A1 (en) * 2006-12-01 2013-05-09 Lytro, Inc. Light field camera image, file and configuration data, and methods of using, storing and communicating same
US9712820B2 (en) 2014-04-24 2017-07-18 Lytro, Inc. Predictive light field compression
EP3142365A1 (en) * 2015-09-14 2017-03-15 Thomson Licensing Method and apparatus for encoding and decoding a light field based image, and corresponding computer program product
EP3142366A1 (en) * 2015-09-14 2017-03-15 Thomson Licensing Method and apparatus for encoding and decoding a light field based image, and corresponding computer program product
EP3160142A1 (en) 2015-10-21 2017-04-26 Thomson Licensing Method for encoding and method for decoding a light field based image and corresponding devices
EP3579561A1 (en) * 2018-06-05 2019-12-11 InterDigital VC Holdings, Inc. Prediction for light-field coding and decoding
BR102019000922A2 (pt) 2019-01-16 2020-10-13 Samsung Eletrônica da Amazônia Ltda. Método para comprimir dados de campo de luz usando transformadas de quatro dimensões de tamanho de bloco variável e decomposição por planos de bits

Also Published As

Publication number Publication date
US20220377374A1 (en) 2022-11-24
US11647225B2 (en) 2023-05-09

Similar Documents

Publication Publication Date Title
Hou et al. Light field image compression based on bi-level view compensation with rate-distortion optimization
Li et al. Scalable coding of plenoptic images by using a sparse set and disparities
US8351685B2 (en) Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same
Li et al. Coding of focused plenoptic contents by displacement intra prediction
Zhu et al. View-dependent dynamic point cloud compression
CN108886598A (zh) 全景立体视频系统的压缩方法和装置
Ma et al. Low complexity adaptive view synthesis optimization in HEVC based 3D video coding
Graziosi et al. Depth assisted compression of full parallax light fields
Maitre et al. Depth and depth–color coding using shape-adaptive wavelets
EP2061005A2 (en) Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same
Maugey et al. Graph-based representation for multiview image geometry
Morvan et al. System architecture for free-viewpoint video and 3D-TV
WO2016003340A1 (en) Encoding and decoding of light fields
Jin et al. Image reshaping for efficient compression of plenoptic content
BR102021009291A2 (pt) Método de intrapredição quadridimensional para codificação e decodificação de dados de light field
Yoon et al. A framework for multi-view video coding using layered depth images
Sethuraman Stereoscopic image sequence compression using multiresolution and quadtree decomposition-based disparity-and motion-adaptive segmentation
Chellappa et al. Academic Press Library in Signal Processing, Volume 6: Image and Video Processing and Analysis and Computer Vision
Yao et al. Compressed sensing of ray space for free viewpoint image (FVI) generation
Duch et al. Depth map compression via 3D region-based representation
Gan et al. Am object-based approach to plenoptic videos
McVeigh Efficient compression of arbitrary multi-view video signals
Xiao et al. Macroblock level bits allocation for depth maps in 3-D video coding
Su et al. Rate-distortion optimized graph-based representation for multiview images with complex camera configurations
WO2019185983A1 (en) A method, an apparatus and a computer program product for encoding and decoding digital volumetric video

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]