BR102020020345A2

BR102020020345A2 - Método para compressão de nuvens de pontos

Info

Publication number: BR102020020345A2
Application number: BR102020020345-2A
Authority: BR
Inventors: Ricardo Lopes De Queiroz; Camilo Chang Dorea; Renan Utida Ferreira; Davi Rabbouni De Carvalho Freitas; Diogo Caetano Garcia; Rogério Higa; Vanessa Testoni; Ismael Seidel
Original assignee: Samsung Eletrônica da Amazônia Ltda.
Priority date: 2020-10-02
Filing date: 2020-10-02
Publication date: 2022-04-19
Also published as: US20220108481A1; US11983904B2

Abstract

A presente invenção se refere a remoção de informações redundantes dos dados das nuvens de pontos plenópticos, reduzindo o número de bits necessários para representá-los e, portanto, tornando os dados de nuvens de pontos plenópticos mais adequados para serem transferidos através de um meio de largura de banda limitada. A solução proposta baseia-se em codificação diferencial preditiva, utilizando o canal de cores padrão de uma nuvem de pontos como referência para os dados plenópticos, e na aplicação de transformadas para maior compressão dos dados.

Description

MÉTODO PARA COMPRESSÃO DE NUVENS DE PONTOS

Campo Técnico

[0001] A presente invenção está relacionada à codificação de nuvens de pontos plenópticos, também chamadas de nuvens de pontos de campo de luz superficial, usando um codificador de vídeo, favorecendo a tecnologia de nuvem de pontos, uma vez que pode reutilizar a implementação existente de codificadores de vídeo em dispositivos móveis. A presente invenção pode ser implementada em diversos dispositivos que usam nuvem de pontos, como, displays imersivos, smartphones holográficos, câmeras, fones de ouvido, dispositivos AR/VR/MR, Smart TV, etc.

Antecedentes da Invenção

[0002] Nuvens de pontos foram usadas recentemente em aplicações envolvendo captura e renderização em tempo real de objetos 3D. A representação mais comum de uma nuvem de pontos usa apenas uma única cor associada a cada ponto ou voxel. Essa representação, no entanto, não consegue captar as reflexões naturais de luz dinâmica do objeto de forma realista. A luz refletida pode mudar com o ângulo de visualização, mas na representação de cor única todos os ângulos de visualização têm o mesmo valor.

[0003] Uma representação mais completa, chamada nuvem de pontos plenópticos, foi proposta onde cada ponto tem uma cor associada em múltiplas direções. Na primeira representação, a nuvem de pontos é descrita como coordenadas espaciais (XYZ) e cor (RGB). Para a representação da nuvem de pontos plenópticos também são descritos vários atributos de cor (RGB0, RGB1, RGB2,...).

[0004] Portanto, a nuvem de pontos plenópticos pode ter as seguintes informações para cada ponto voxel de nuvem:

[0005] (XYZ RGB RGB0 RGB1.... RGB(N-1)), onde o RGB significa um único atributo de cor, e o RGB(n) significa a lista dos múltiplos atributos de cor do tamanho N. Essa representação preserva as informações de cores dependentes da visualização.

[0006] No processo regular de geração de nuvem de pontos, as informações são capturadas por uma série de câmeras. As cores capturadas por essas câmeras são então combinadas para produzir uma única cor de ponto e as informações de cores dependentes de visualização são perdidas no processo. Portanto, o mesmo processo de captura pode ser usado para gerar as nuvens de pontos plenópticos. As informações de cores dependentes de visualização são então preservadas usando os múltiplos atributos.

[0007] Nuvens de pontos são tipicamente representadas por quantidades extremamente grandes de dados, o que é uma barreira significativa para a maioria das aplicações. No entanto, a relativa facilidade de capturar e tornar informações espaciais de nuvens de pontos em comparação com outras representações de vídeo volumétricas torna as nuvens de pontos cada vez mais populares para apresentar dados volumétricos imersivos. Portanto, o grupo de padronização MPEG 3DG trabalhou por muitos anos para comprimir eficientemente os dados de nuvens de pontos e lançou recentemente seu primeiro padrão, chamado V-PCC (Video-Based Point Clouds Compression).

[0008] A implementação do codificador V-PCC fornece uma compressão na faixa de 100:1 a 300:1 e, portanto, uma nuvem de pontos dinâmico de um milhão de pontos poderia ser codificada em 8 Mbit/s com boa qualidade de percepção. Devido a esse desempenho, espera-se que o V-PCC seja adotado com sucesso em massa em breve.

[0009] Embora tenha havido algumas tentativas de comprimir nuvens de pontos plenópticos no grupo de padronização, o padrão atual só suporta a compressão das nuvens de pontos plenópticos, tratando-lhes então como atributos individuais. O problema com essa abordagem é que a correlação entre as cores plenópticas não é explorada, evitando alcançar uma compressão eficiente. O objetivo desta invenção é explorar essa correlação com uma solução híbrida e tê-la adotada no padrão V-PCC para a compressão dos dados de nuvens de pontos plenópticos.

[00010] As nuvens de pontos são a convergência da captura visual, como imagens e vídeos, e a síntese visual, como modelos de malha 3D. Em uma nuvem de pontos em vez de um pixel há um voxel que representa uma posição em um espaço volumétrico. Para cada voxel pode haver um atributo de cor associado e essas informações juntamente com a posição voxel são o que constituem uma nuvem de pontos.

[00011] Como acontece com as imagens, uma nuvem de pontos tem uma resolução dada pelo número de voxels. Uma nuvem de pontos com resolução 4096x4096x4096 pode ter até 68 bilhões de pontos, mas uma nuvem de pontos típica representando apenas um objeto nessa resolução tem 3 milhões de pontos. Considerando uma representação de 60 bits por ponto, o tamanho total é de cerca de 23Mb por quadro.

[00012] O documento de patente norte-americano US10262451B1 intitulado “View-Dependent Color Compression”, publicado em 16 de abril de 2019 por 8I LIMITED, pretende comprimir nuvens de pontos plenópticos explorando o uso de uma representação de função da cor de exibição. Tal invenção gera vetores de coeficientes calculando uma transformada correspondente de cada mapa de visualização. A principal diferença é que a presente invenção usa atributos de cor para cada voxel de uma nuvem de pontos em vez de uma representação por função.

[00013] O documento de patente norte-americano US2020244941A1 intitulado “Multi-View Coding With Efficient Residual Handling”, publicado em 30 de julho de 2020, por GE VIDEO COMPRESSION LLC, usa um esquema de codificação multivista e explora a predição do sinal residual a partir de um sinal residual de referência usando a predição compensada pela disparidade de bloco-granular. A presente invenção, no entanto, visa comprimir uma visualização de ponto das nuvens em vez de imagens multi-vista.

[00014] O documento de patente norte-americano US2019043253A1 intitulado “View Dependent 3d Reconstruction Mechanism”, publicado em 7 de fevereiro de 2019, por INTEL CORPORATION, divulga um mecanismo de compressão de nuvens de pontos que codifica cores dependentes de visualização como profundidade, imagens coloridas que podem usar uma compressão de vídeo e parâmetros de câmera. A principal diferença é que a presente invenção explora ainda mais a compressão de cores dependente de visualização por um codificador diferencial e uma transformada.

[00015] O artigo "Compression of plenoptic point clouds using the Region-Adaptive Hierarchical Transform", publicado em outubro de 2018, por G. Sandri, R. L. de Queiroz, P. A. Chou, apresenta um método para codificar nuvens de pontos plenópticos, representadas por múltiplos atributos de cor por voxel, usando uma transformada KarhunenLoeve dos atributos de cor. A principal diferença é que presente invenção usa uma codificação baseada em vídeo de projeção em vez de uma transformada hierárquica geométrica.

[00016] O artigo "Compressão de nuvens de pontos plenóptico", publicado em março de 2019, por G. Sandri, R. L. de Queiroz e P. A. Chou, apresenta um método onde os coeficientes transformados são codificados usando um codificador baseado na transformada hierárquica adaptativa da região (RAHT). A principal diferença é que a presente invenção usa uma codificação baseada em vídeo de projeção em vez de uma transformada hierárquica geométrica.

[00017] O documento de entrada para o MPEG "“[V-PCC] CE2.15 report on Attribute Coding (SLF)" publicado em julho de 2019 por D. Naik e S. Schwarz, divulga uma implementação do código de referência V-PCC (Test Model Coder-2 ou TMC-2) no qual cada voxel pode ser associado a vários atributos e todos são codificados por uma extensão de codec V-PCC. A principal diferença é que a presente invenção utiliza codificação diferencial e uma transformada para processar ainda mais os múltiplos atributos de cor.

[00018] O documento de entrada para MPEG "[V-PCC] SLF optimisations" publicado em julho de 2020, por D. Naik e S. Schwarz, mostra que um processamento é aplicado aos atributos de cores múltiplas para manter cinco atributos de cor enquanto o resto é descartado. Então os atributos perdidos são reconstruídos no lado do decodificador por meio de uma interpolação. A principal diferença é que a presente invenção utiliza codificação diferencial e uma transformada nos atributos de cor.

[00019] O artigo "Video-based compression for plenoptic point clouds" publicado em 2019, por L. Li, Z. Li, S. Liu e H. Li, usa a extensão de multi-vista do HEVC (MVHEVC) para codificar os atributos de múltiplas cores como se fossem múltiplas visualizações do mesmo objeto. A principal diferença em relação à presente invenção é que esta usa uma compressão de vídeo suportada pelo padrão de compressão de nuvens de pontos baseadas em vídeo.

[00020] O artigo "A framework for surface light field compression", publicado em outubro de 2018, por X. Zhang, P. A. Chou, M.-T. Sun, M. Tang, S. Wang, S. Ma, e W. Gao, apresenta um método para codificar nuvens de pontos plenópticos usando uma representação de base de onda B-Spline das cores de visualização. A principal diferença é que a presente invenção usa múltiplos atributos de cor para cada voxel de uma nuvem de pontos.

Sumário

[00021] A presente invenção se refere a remoção de informações redundantes dos dados das nuvens de pontos plenópticos, reduzindo o número de bits necessários para representá-los e, portanto, tornando os dados de nuvens de pontos plenópticos mais adequados para serem transferidos através de um meio de largura de banda limitada. Além disso, a solução proposta utiliza o canal de cores padrão de uma nuvem de pontos como referência para os dados plenópticos e uma transformada.

[00022] Ainda, as nuvens de pontos plenópticos são comprimidas explorando uma abordagem híbrida que utiliza: codificação diferencial dos atributos de cores plenópticas com o atributo principal de cor como referência; uma transformada para comprimir ainda mais a representação de dados; e o escalonamento para que os dados transformados possam ser encaixados em qualquer representação de imagem de bit para ser compactado por um codificador de vídeo.

[00023] Adota-se, também, a codificação diferencial para reduzir a faixa de valor dos dados, o que torna os dados mais compressíveis pela etapa de transformada. Podem ser utilizados diversos tipos de transformada, tais como KLT (Transformada de Karhunen-Loeve), DST (Transformada de Seno Discreta), DCT (Transformada de Cosseno Discreta) ou transformada Hadamard.

[00024] A transformada também pode ter um tamanho diferente do número de atributos que estão sendo codificados. Neste caso, aplica-se uma técnica para ajustar o tamanho da transformada ao tamanho dos dados, como, preenchimento (padding). A etapa de dimensionamento mapeia o alcance dos dados transformados para o intervalo suportado pelo codificador de vídeo. O número de bitstreams de vídeo enviados a bitstream de nuvem de pontos compactada pode ser diferente do número de atributos, o que permite um controle de qualidade.

[00025] Outra vantagem é o reaproveitamento de informações já codificadas por uma compressão de nuvem de pontos baseada em vídeo. Isso é feito pelo uso de codificação diferencial quando o atributo de cor única é utilizado como referência.

[00026] Outra vantagem é que ele também simplifica a compatibilidade com a versão anterior de um codec de nuvem de pontos baseado em vídeo adicionando um bloco de processamento extra sem alterar o núcleo do codec.

[00027] Outra vantagem da presente invenção é o uso de uma transformada para representar os dados em uma representação mais compacta e o uso de técnicas adequadas de dimensionamento de acordo com cada característica do coeficiente de transformada tornando-o mais adequado para qualquer codec de vídeo.

[00028] A maior vantagem da presente invenção é o uso de uma técnica híbrida que explora a codificação diferencial e a transformada, que em combinação leva a grandes economias em um tamanho de bitstream de nuvem de pontos plenópticos, permitindo um modo de compatibilidade simples entre um único atributo e codificadores de vários atributos. A compatibilidade é alcançada porque a codificação diferencial usa o atributo de cor única como referência. Portanto, essa característica também simplifica a compatibilidade com versões anteriores de um codec de nuvem de pontos baseado em vídeo, adicionando apenas um bloco de processamento extra sem alterar o núcleo do codec.

Breve Descrição dos Desenhos

[00029] Os objetivos e vantagens da presente invenção ficarão mais claros através da seguinte descrição detalhada do exemplo e desenhos não limitativos apresentados ao final deste documento:

[00030] A Figura 1 ilustra a diferença entre um voxel de atributo plenóptico ou múltiplo e um voxel de atributo único usual.

[00031] A Figura 2 apresenta o conjunto de informações armazenadas pela nuvem de pontos plenópticos.

[00032] A Figura 3A retrata uma visualização simplificada do codificador da presente invenção.

[00033] A Figura 3B ilustra uma visualização simplificada do decodificador da presente invenção.

[00034] A Figura 4 apresenta uma visualização expandida do codificador V-PCC com o codificador de nuvens de pontos plenópticos.

[00035] A Figura 5 retrata uma visualização expandida do Codificador de Atributos Plenópticos.

[00036] A Figura 6 apresenta uma visualização expandida do decodificador V-PCC com o decodificador de nuvens de pontos plenópticos.

[00037] A Figura 7 ilustra retrata uma visualização expandida do Decodificador de Atributos Plenópticos.

[00038] A Figura 8 apresenta uma concretização preferencial da presente invenção consistindo em um dispositivo com capacidades AR/VR/MR.

[00039] A Figura 9 ilustra uma concretização alternativa da presente invenção consistindo em um dispositivo de captura (601).

[00040] As Figuras 10 a 14 retratam uma comparação entre gráficos representando a qualidade das demais soluções frente à presente invenção para configurações com sequências de 12 bits, ao codificar N + 1 atributos de cor.

[00041] As Figuras 15 a 19 retratam uma comparação entre gráficos representando a qualidade das demais soluções frente à presente invenção para configurações com sequências de 10 bits, ao codificar N + 1 atributos de cor.

[00042] As Figuras 20 a 24 retratam uma comparação entre gráficos representando a qualidade das demais soluções frente à presente invenção para configurações com sequências de 12 bits, ao codificar N atributos de cor e criar o RGB principal.

[00043] As Figuras 25 a 29 retratam uma comparação entre gráficos representando a qualidade das demais soluções frente à presente invenção para configurações com sequências de 10 bits, ao codificar N atributos de cor e criar o RGB principal.

Descrição detalhada

[00044] A figura 1 ilustra a diferença entre um voxel de atributo plenóptico ou múltiplo e um voxel de atributo único usual. Para o voxel de atributo múltiplo, cada direção tem um valor de atributo diferente em vez de um único valor para todas as direções. O número de atributos em nuvens de pontos plenóptico é geralmente mais de 12 cores por voxel, ou 36 componentes de atributo (3 componentes para cada cor: vermelho, verde e azul). A nuvem de pontos usual com um único atributo já tem um tamanho enorme, a nuvem de pontos plenópticos aumenta o problema do tamanho dos dados em pelo menos um dígito. No entanto, há benefícios na representação dessas nuvens de pontos plenópticos, uma vez que eles podem representar melhor materiais especulares e dar uma aparência mais realista aos objetos renderizados.

[00045] Como ilustrado na Figura 2, a nuvem de pontos plenópticos tem as seguintes informações:

- Geometria (XYZ) – a posição no espaço do voxel
- Atributo de cor principal (RGB) – o atributo de cor única
– Atributos de cores plenópticas RGB0, RGB1,..., RGBN1, para N câmeras – os atributos de cor múltipla.

[00046] Portanto, o problema que está sendo enfrentado é como explorar a correlação entre os diferentes pontos de visualização dos dados e fornecer um método eficiente de compressão para as nuvens de pontos plenópticos. O padrão V-PCC atual suporta uma implementação onde cada voxel pode ser associado a vários atributos, no entanto os dados de nuvem de pontos plenóptico são atualmente suportados pelo padrão, mas não comprimidos eficientemente.

[00047] A presente invenção comprime as nuvens de pontos plenópticos explorando uma abordagem híbrida que:

- utiliza codificação diferencial dos atributos de cores plenópticas com o atributo principal de cor como referência; o uso de uma transformada para comprimir ainda mais a representação de dados; e
- utiliza o escalonamento para que os dados transformados possam ser encaixados em qualquer representação de imagem de bit para ser compactado por um codificador de vídeo.

[00048] Nesse sentido, propõe-se uma técnica para compressão de nuvens de pontos, compreendendo:

- projetar múltiplos atributos de cor em imagens;
- converter o sinal para o domínio da transformada;
- escalonar o sinal de acordo com as características do sinal de domínio transformado e a capacidade do codec de vídeo;
- preencher espaços vazios do sinal transformado para melhorar ainda mais o desempenho dos codecs de vídeo; e
- codificar o sinal usando uma técnica de compressão de vídeo.

[00049] Além disso, em uma concretização preferencial, compreende ainda entre as etapas de projetar atributos de cor em imagens e converter o sinal em um domínio de transformada: usar uma cor de referência codificada como o atributo de cor principal que pode ser decodificado independentemente; e codificação diferencial de múltiplos atributos de cor usando o atributo de cor principal como referência.

[00050] A figura 3 mostra uma visualização simplificada da solução proposta. Na figura 3A, os parâmetros de posição e atributo único são enviados para o Codificador V-PCC padrão, enquanto os múltiplos atributos são enviados para o Codificador de Atributos Plenópticos da presente invenção.

[00051] Os bitstreams do Codificador V-PCC e do Codificador de Atributos Plenópticos são fundidos para construir um único bitstream de Nuvens de Pontos Plenópticos.

[00052] O decodificador, mostrado na Figura 3B, pega o bitstream da Nuvem de Pontos Plenópticos e faz com que o processo inverso se separe em dois bitstreams novamente. Esses bitstreams são enviados para o Decodificador V-PCC e o Decodificador de Atributos Plenópticos, que reconstrói a geometria e as informações de cores das nuvens de pontos originais, e a informação de múltiplos atributos de cor.

[00053] A figura 4 ilustra a parte do codificador do método de compressão das nuvens de pontos plenópticos proposto nesta invenção. As nuvens de pontos plenópticos são consideradas como entrada (101). Esta entrada é inserida em um codificador de nuvens de pontos baseado em vídeo (102), como, V-PCC. Onde as informações de geometria são codificadas como imagens de projeção e enviadas para um codificador de vídeo, juntamente com informações auxiliares. Uma projeção semelhante é usada para as informações de cor na etapa de imagem de geração de atributos (103).

[00054] A imagem principal do atributo é processada usando uma técnica de preenchimento de imagem (104) que preenche o espaço vazio entre informações válidas para gerar uma imagem adequada para compressão de vídeo. O mapa de ocupação reconstruído (109) é usado pelo preenchimento da imagem para localizar o espaço vazio e é enviado para o codificador de atributos plenópticos.

[00055] As informações de cor projetadas são separadas em imagem principal de atributos (105) e imagem de atributos plenópticos (110). O codificador de compressão de vídeo (106) comprime a imagem preenchida gerando o principal sub-bitstream de atributos (107) que é enviado para o multiplexador (114) e incorporado na bitstream comprimido (115). As imagens principais de atributos reconstruídas (108) e as imagens de atributo plenópticos (110) são enviadas ao Codificador de Atributos Plenópticos (111), que gera os sub-bitstreams de atributos (112) e os metadados plenópticos (113). Os sub-bitstreams atributos e os metadados plenópticos são enviados para o multiplexador (114) a ser incorporado no bitstream comprimido (115).

[00056] Além disso, a projeção de atributos de cor em imagens pode ser realizada em RGB, YUV ou qualquer outro espaço de cores.

[00057] A figura 5 retrata uma visualização expandida do Codificador de Atributos Plenópticos (110). A imagem principal de atributo (201) é a mesma da imagem principal de atributo (105) descrita na Figura 4. Tal imagem principal de atributo passa por uma compressão de vídeo (202) gerando o sub-bitstream principal de atributos (203).

[00058] A imagem principal de atributo reconstruída (204) é a imagem equivalente que está sendo recuperada no decodificador. Isso compensa qualquer erro que o processo de compressão de vídeo possa inserir nas principais informações de cores. O codificador diferencial (207) dentro do codificador de atributos plenópticos (205) usa a imagem de atributo reconstruída principal (204) e as imagens de atributos de visualização plenópticos (206) para gerar imagens diferenciadas. Em seguida, a transformada (209) converte as imagens diferenciais em uma representação compacta de informações.

[00059] O processo de conversão do sinal para um domínio de transformada pode usar DCT (Transformada de Cosseno Discreta), transformada de Hadamard, KLT (Transformada de Karhunen-Loeve) ou a transformada de identidade, equivalente a um desvio do bloco de transformada.

[00060] O escalonamento (210) realiza o mapeamento para o intervalo suportado pela compressão de vídeo, de 0 a 255 no caso de um codificador de vídeo de 8 bits. Uma etapa seguinte de soma de 128 ou metade da faixa suportada é adicionada ao processo de escalonamento, dependendo do tipo do coeficiente transformado que está sendo gerado. Em seguida, essas imagens transformadas passam por um processo de preenchimento de imagem (211) para gerar uma imagem adequada para compressão de vídeo.

[00061] A compressão de vídeo (212) gera os subbitstreams de atributos plenópticos (213). Ainda, metadados (214) da transformada e escalonamento também são enviados para o bitstream comprimido. O mapa de ocupação reconstruído (208) pode ser usado pelo codificador diferencial para ignorar os valores em pixels desocupados e é usado pelo preenchimento da imagem.

[00062] Além disso, a Figura 6 retrata a parte de decodificação do método de compressão das nuvens de pontos plenópticos proposto aqui. O bitstream comprimido (301) passa por um demultiplexador (302), gerando sub-bitstreams e metadados. O decodificador de atributos plenópticos (307) recebe como entrada as visualizações do plenópticos subbitstreams (305) e os metadados plenópticos (306) que geram as imagens de atributo reconstruídas (308). O bloco de transferência e suavização de atributos (309) obtém a geometria do decodificador de nuvens de pontos baseado em vídeo (303) e reconstrói as cores de visualização plenóptica com as imagens de atributo reconstruídas (308) gerando a nuvem de pontos plenópticos reconstruída (310).

[00063] A figura 7 retrata uma visualização expandida do Decodificador de Atributos Plenópticos (307). Os subbitstreams de atributo principal (401) são decodificados usando a descompressão de vídeo (402) gerando a imagem de atributo reconstruída principal (403). A descompressão de vídeo (406) decodifica os sub-bitstreams de atributo (405). O escalonamento inverso (408) utilizando informações dos metadados plenópticos (407) são imagens que remapeiam os valores para a faixa da transformada usada. A transformada inversa (409) retorna os dados ao formato de codificador diferencial, que é adicionado ao principal da imagem de atributo reconstruído (403) gerando as imagens de atributo reconstruídas (411). As visualizações plenópticas reconstruídas (412) são passadas para o decodificador de nuvens de pontos baseado em vídeo para a reconstrução completa da nuvem de pontos plenópticos.

[00064] Quando o tamanho da transformada é maior do que o tamanho dos atributos de cor múltipla um método de preenchimento é aplicado para tornar os dados de atributo compatíveis com o tamanho da transformada.

[00065] Além disso, o número de sub-bitstreams de atributos pode ter qualquer tamanho de acordo com a qualidade desejada. Subs-bitstreams de atributo não utilizados são descartados.

[00066] Além disso, a escala de valores positivo e negativos é simétrica, ou seja, os valores positivos e negativos são escalados pelo mesmo fator.

[00067] A figura 8 retrata uma concretização preferencial da presente invenção consistindo em um dispositivo com capacidades AR/VR/MR, onde os dados de nuvens de pontos plenópticos são decodificados para serem apresentados no dispositivo. As nuvens de pontos plenópticos (501) são compactadas por um dispositivo de computação (502) utilizando técnicas propostas nesta invenção. A representação compactada é adequada para ser transmitida por um dispositivo de rede. No lado receptor, um dispositivo de computação com o decodificador apresentado nesta invenção realiza a descompressão para restaurar as nuvens de pontos plenópticos (504). As nuvens de pontos plenópticos restauradas (505) podem ser lidas e exibidas por um dispositivo de AR (506). O usuário (507) pode mudar interativamente para um ponto de visualização diferente do objeto 3D no display (508).

[00068] A figura 9 ilustra uma concretização alternativa da presente invenção consistindo em um dispositivo de captura (601). Este dispositivo pode adquirir os dados com várias câmeras ou um dispositivo de câmera que escaneia o objeto movendo-se ao redor dele. A representação digital capturada é um ponto de nuvens plenópticos (602). As nuvens de pontos plenópticos (602) são compactadas por um dispositivo de computação associado ao dispositivo de captura usando técnicas propostas nesta invenção (603). A representação compactada é adequada para ser armazenada no dispositivo (604).

[00069] Como uma modalidade exemplar, a fim de codificar N+1 atributos de cor, assume-se que existe uma nuvem de pontos com geometria XYZ, cores RGBmain e N outros atributos de cor RGB0, RGB1,…, RGBN-1. XYZ e RGBmain são a carga útil principal e devem ser codificados por meio de VPCC usando QP = QPmain. O RGBn é a informação de cor plenóptica a ser codificada usando o codificador diferencial e o bloco de transformada.

[00070] Esse exemplo foi implementado sobre TMC2v9.0 e comparado com a solução atual suportada pelo V-PCC, ou seja, codificando as informações plenópticas como múltiplos atributos de nuvem de pontos. Ambos os métodos foram testados no 8i VSLF original (12 bits) e suas versões de resolução reduzida (10 bits) usando valores de parâmetro TMC2 padrão (C2-AI). A taxa foi calculada como a soma das taxas de bits da informação RGB principal e plenóptica codificada. A distorção foi calculada como a relação sinal-ruído de pico (PSNR) entre o original e a informação RGB principal e plenóptica decodificada, onde tudo foi considerado como um único sinal em vez de realizar a média dos PSNRs entre as câmeras.

[00071] Como a taxa inclui os canais Y, Cb(U) e Cr(V), o valor PSNR final foi calculado como a soma ponderada dos PSNRs desses canais, ou seja, PSNR = (6 PSNRY + PSNRY + PSNRY) ÷ 8.

[00072] Os resultados para um quadro na configuração totalmente interna são mostrados nas Figuras 10 a 14, onde a configuração testada aqui é representada como “Diff. DCT”, e a âncora é representada como “Multi-Atributos”. Os mesmos testes foram feitos para as versões de resolução reduzida (10 bits) do conjunto de dados VSLF 8i, conforme mostrado nas Figuras 15 a 19. Neste sentido, a Tabela 1 apresenta as taxas-BD para as mesmas comparações de curvas e conjuntos de dados.

[00073] Além disso, se não houver cor RGB principal a ser codificada, então o codificador diferencial não tem efeito, pois a entrada negativa seria zero. E o componente DC gerado pela transformação é usado como RGB principal, economizando uma carga útil de fluxo de vídeo.

[00074] Isso também foi implementado em cima do TMC2v9.0 e comparado com a codificação da informação plenóptica como múltiplos atributos de nuvem de pontos, sobre o 8i VSLF original (12 bits) e suas versões de resolução reduzida (10 bits) usando valores de parâmetro TMC2 padrão (C2- AI).

[00075] Os resultados para um quadro na configuração totalmente interna são mostrados nas Figuras 20 a 24, onde a configuração testada aqui é representada como “DCT” e a âncora é representada como “Multi-atributos”. Neste cenário, não há cor RGB principal a ser codificada, de modo que para ambos os métodos a taxa foi calculada como a soma das taxas de bits da informação RGB plenóptica, e a distorção como o YUV PSNR ponderado entre informações RGB plenópticas originais e decodificadas, todas tomadas como um único sinal, em vez de fazer a média dos PSNRs entre as câmeras. Os mesmos testes foram feitos para as versões de resolução reduzida do conjunto de dados 8i VSLF (10 bits), conforme mostrado nas Figuras 25 a 29. A Tabela 2 apresenta as Taxas-BD para as mesmas comparações de curvas e conjuntos de dados.

[00076] O teste para o esquema de codificação de nuvem de pontos plenópticos (PPC) usando V-PCC (sobre TMC2v9.0) atinge ganhos de compressão acima de 70% para todas as sequências no conjunto de dados 8i VSLF (para versões original e de resolução reduzida). Esses ganhos referem-se à configuração totalmente interna com um quadro quando comparada à codificação das informações plenópticas como múltiplos atributos de nuvem de pontos (codificando todas as texturas independentemente). As vantagens adicionais são a compatibilidade retroativa com o V-PCC de visualização única e a qualidade constante das visualizações da câmera reconstruída, uma vez que qualquer visualização é descartada.

[00077] Embora a presente invenção tenha sido descrita em conexão com certas concretizações preferenciais, deve-se entender que não se destina a limitar a divulgação a essas concretizações particulares. Em vez disso, pretendese cobrir todas as alternativas, modificações e equivalentes possíveis dentro do espírito e escopo da invenção, conforme definido pelas reivindicações anexas.

Claims

Método de compressão de nuvens de pontos compreendendo: inserir nuvens de pontos plenópticos (101) em um codificador de nuvens de pontos baseado em vídeo (102), em que as informações de geometria são codificadas como imagens de projeção e enviadas para um codificador de vídeo juntamente com informações auxiliares; processar a imagem principal de atributo (105) usando uma técnica de preenchimento de imagem (104) que preenche o espaço vazio entre informações válidas para gerar uma imagem adequada para compressão de vídeo; utilizar o mapa de ocupação reconstruído (109) pelo preenchimento da imagem para localizar o espaço vazio e enviá-lo para o Codificador de Atributos Plenópticos (111); separar as informações de cor projetadas em imagem principal de atributo (105) e imagens de atributos plenópticos (110); comprimir, pelo codificador de compressão de vídeo (106), a imagem preenchida gerando o sub-bitstream principal de atributos (107) que é enviado para o multiplexador (114) e incorporado no bitstream comprimido (115) enviar a imagem principal do atributo reconstruído (108) e as imagens de atributo de visualização plenópticos (110) ao Codificador de Atributos Plenópticos (111); gerar os sub-bitstreams de atributo (112) e os metadados plenópticos (113); enviar os sub-bitstreams de atributo e os metadados plenópticos para o multiplexador (114) a serem incorporados no bitstream comprimido (115) caracterizado pelo fato de que compreende ainda, no codificador de atributos plenópticos (111), as etapas de: utilizar, pelo codificador diferencial (207), a imagem de atributos reconstruída (204) e as imagens de atributos de visualizações plenópticas (206) para gerar imagens diferenciadas; utilizar a transformada (209) para converter as imagens diferenciais em uma representação compacta de informações; escalonar (210) para realizar o mapeamento para o intervalo suportado pela compressão de vídeo; preencher a imagem (211) para gerar uma imagem adequada para compressão de vídeo; comprimir vídeo (212) para gerar os sub-bitstreams de atributos plenópticos (213); e enviar os metadados (214) gerados pela transformada (209) e dimensionamento (210) para o bitstream comprimido (115)
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o método compreende ainda etapa de soma (128) ou metade da faixa suportada ao processo de escalonamento, dependendo do tipo do coeficiente de transformada que está sendo gerado
Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a conversão do sinal para um domínio de transformada usa a Transformada Discreta de Cosseno.
Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que converter o sinal para um domínio de transformada usa a transformada Hadamard.
Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que converter o sinal para um domínio de transformada usa a Transformada de KarhunenLoeve.
Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que converter o sinal para um domínio de transformada usa a transformada de identidade, equivalente de um bypass do bloco de transformada.
Método, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que quando o tamanho da transformada é maior do que o tamanho dos atributos de cor múltipla, um preenchimento de imagem é aplicado para tornar os dados de atributo compatíveis com o tamanho da transformada.
Método, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que o número de subbitstreams de atributos pode ter qualquer tamanho de acordo com a qualidade desejada.
Método, de acordo com a reivindicação 8, caracterizado pelo fato de que os sub-bitstreams de atributos não utilizados são descartados.
Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a escala de valores positivos negativos é matematicamente simétrica de acordo com as características do sinal do domínio transformado.
Método, de acordo com a reivindicação 9, caracterizado pelo fato de que certos coeficientes de transformada podem ter uma soma de metade da faixa de representação adicionada.
Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a projeção de atributos de cor em imagens é feita em espaço de cores RGB.
Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a projeção de atributos de cor em imagens é feita em espaço de cores YUV.