BR102021025992A2 - COMPUTER-IMPLEMENTED METHOD AND SYSTEM TO CLASSIFY AN INPUT PICTURE FOR SYNTHESIS OF NEW VIEWS IN A 3D VISUAL EFFECT, AND, NON-TRANSITORY COMPUTER READABLE STORAGE MEDIA - Google Patents

COMPUTER-IMPLEMENTED METHOD AND SYSTEM TO CLASSIFY AN INPUT PICTURE FOR SYNTHESIS OF NEW VIEWS IN A 3D VISUAL EFFECT, AND, NON-TRANSITORY COMPUTER READABLE STORAGE MEDIA Download PDF

Info

Publication number
BR102021025992A2
BR102021025992A2 BR102021025992-2A BR102021025992A BR102021025992A2 BR 102021025992 A2 BR102021025992 A2 BR 102021025992A2 BR 102021025992 A BR102021025992 A BR 102021025992A BR 102021025992 A2 BR102021025992 A2 BR 102021025992A2
Authority
BR
Brazil
Prior art keywords
image
visual effect
input
score
views
Prior art date
Application number
BR102021025992-2A
Other languages
Portuguese (pt)
Inventor
Diogo Carbonera Luvizon
Gustavo Sutter Pessurno De Carvalho
Otavio Augusto Bizetto Penatti
Original Assignee
Samsung Eletrônica da Amazônia Ltda.
Filing date
Publication date
Application filed by Samsung Eletrônica da Amazônia Ltda. filed Critical Samsung Eletrônica da Amazônia Ltda.
Priority to US17/673,351 priority Critical patent/US20230196659A1/en
Publication of BR102021025992A2 publication Critical patent/BR102021025992A2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion

Abstract

A presente invenção se refere a um método implementado por computador para classificar uma imagem de entrada para a síntese de novas vistas em um efeito visual 3D, sendo que a imagem de entrada é usada para criar uma representação de imagem (205) que compreende um conjunto de vistas almejadas (203) com base no efeito visual 3D de entrada, em que cada vista almejada tem um tamanho de imagem de H × W. O método proposto compreendendo a etapa de computar (207) um escore de imagem (208) para o conjunto de vistas almejadas (203) com base no número de pixels não ocluídos no conjunto de vistas almejadas (203), em que o escore de imagem indica a adequação da imagem de entrada (201) para a síntese de novas vistas em um efeito visual 3D. A presente invenção também se refere a um sistema e um meio de armazenamento legível por computador não transitório adaptado para realizar o dito método para classificar uma imagem de entrada para a síntese de novas vista em um efeito visual 3D.

Figure 102021025992-2-abs
The present invention relates to a computer-implemented method of classifying an input image for synthesizing new views into a 3D visual effect, the input image being used to create an image representation (205) comprising a set of of target views (203) based on the input 3D visual effect, where each target view has an image size of H × W. The proposed method comprising the step of computing (207) an image score (208) for the set of targeted views (203) based on the number of unoccluded pixels in the set of targeted views (203), where the image score indicates the suitability of the input image (201) for synthesizing new views into a visual effect 3D. The present invention also relates to a system and a non-transient computer readable storage medium adapted to perform said method for classifying an input image for synthesizing new views into a 3D visual effect.
Figure 102021025992-2-abs

Description

MÉTODO IMPLEMENTADO POR COMPUTADOR E SISTEMA PARA CLASSIFICAR UMA IMAGEM DE ENTRADA PARA SÍNTESE DE NOVAS VISTAS EM UM EFEITO VISUAL 3D, E, MEIO DE ARMAZENAMENTO LEGÍVEL POR COMPUTADOR NÃO TRANSITÓRIOCOMPUTER-IMPLEMENTED METHOD AND SYSTEM TO CLASSIFY AN INPUT PICTURE FOR SYNTHESIS OF NEW VIEWS IN A 3D VISUAL EFFECT, AND, NON-TRANSITORY COMPUTER READABLE STORAGE MEDIA CAMPO DA DESCRIÇÃODESCRIPTION FIELD

[001] A presente invenção refere-se a um novo método para classificar uma imagem candidata para gerar novas vistas considerando uma representação 3D. A imagem candidata é classificada computando-se um escore com base no número de pixels não ocluídos no conjunto de vistas almejadas gerado por uma representação de imagem da imagem candidata.[001] The present invention relates to a new method for classifying a candidate image to generate new views considering a 3D representation. The candidate image is ranked by computing a score based on the number of unoccluded pixels in the set of target views generated by an image representation of the candidate image.

DESCRIÇÃO DA TÉCNICA RELACIONADADESCRIPTION OF THE RELATED TECHNIQUE

[002] Síntese de novas vistas a partir de uma única imagem, é uma importante tecnologia que possibilita inúmeras novas aplicações relacionadas a efeitos 3D e realidade aumentada e virtual para dispositivos eletrônicos equipados com visor digital, como Smartphones, Smart TVs, Tablets, dentre tantos outros. Essa tecnologia fornece ao usuário uma percepção de profundidade, mesmo a partir de uma imagem única estática.[002] Synthesis of new views from a single image, is an important technology that enables numerous new applications related to 3D effects and augmented and virtual reality for electronic devices equipped with a digital display, such as Smartphones, Smart TVs, Tablets, among many others. This technology provides the user with depth perception, even from a single static image.

[003] Sintetizar novas vistas a partir de uma única imagem é uma tarefa difícil, uma vez que a imagem de entrada é uma projeção 2D de uma cena 3D. A geometria da cena pode ser parcialmente recuperada e representada por um mapa de profundidade, que codifica as informações de profundidade de cada pixel da imagem em relação ao ponto de vista da câmera. No entanto, mesmo quando informações de profundidade precisas estão disponíveis, renderizar uma imagem de diferentes pontos de vista pode resultar na perda de regiões da imagem. Este efeito ocorre devido a regiões ocluídas na imagem original que sofrem desoclusão quando o ponto de vista muda.[003] Synthesizing new views from a single image is a difficult task, since the input image is a 2D projection of a 3D scene. The scene geometry can be partially retrieved and represented by a depth map, which encodes the depth information of each pixel of the image in relation to the camera's point of view. However, even when accurate depth information is available, rendering an image from different viewpoints can result in missing regions of the image. This effect occurs due to occluded regions in the original image that are deoccluded when the point of view changes.

[004] Para lidar com casos de desoclusão, duas abordagens podem ser geralmente empregadas: modificar o mapa de profundidade a fim de evitar desoclusões ou preencher as regiões ausentes da imagem com um conteúdo de imagem gerado artificialmente. A primeira abordagem pode resultar em distorções geométricas e não pode ser aplicada efetivamente em cenas com estrutura geométrica complexa. A segunda abordagem tem o desafio de gerar conteúdo de imagem artificial que imite imagens reais. Esta abordagem é amplamente utilizada por trabalhos existentes, especialmente após os avanços recentes em redes neurais artificiais para retoque de imagens.[004] To deal with cases of disocclusion, two approaches can be generally employed: modifying the depth map in order to avoid disocclusions or filling the missing regions of the image with an artificially generated image content. The first approach can result in geometric distortions and cannot be applied effectively in scenes with complex geometric structure. The second approach has the challenge of generating artificial image content that mimics real images. This approach is widely used by existing works, especially after recent advances in artificial neural networks for image retouching.

[005] Mesmo que as redes neurais artificiais possam ser empregadas para preencher as regiões ausentes da imagem, essa estratégia tem duas desvantagens. Em primeiro lugar, é computacionalmente custosa e exige alta capacidade computacional para rodar redes neurais complexas com baixa latência, o que impede que essa estratégia seja utilizada em tempo real para a maioria das aplicações. Em segundo lugar, preencher as regiões ausentes da imagem individualmente para cada novo ponto de vista pode resultar em incoerência visual dentre diferentes pontos de vista, tornando esta estratégia não adequada para aplicações de realidade virtual e aumentada.[005] Even though artificial neural networks can be employed to fill in the missing regions of the image, this strategy has two disadvantages. First, it is computationally expensive and requires high computational capacity to run complex neural networks with low latency, which prevents this strategy from being used in real time for most applications. Second, filling in the missing regions of the image individually for each new viewpoint can result in visual inconsistency between different viewpoints, making this strategy unsuitable for virtual and augmented reality applications.

[006] Essas limitações impedem o uso de estratégias semelhantes para retoque de imagem após a renderização. Portanto, a solução mais comum é gerar uma representação intermediária que codifique simultaneamente a imagem original, a estrutura geométrica da cena e o conteúdo da imagem gerado artificialmente para as regiões ocluídas.[006] These limitations prevent the use of similar strategies for post-rendering image retouching. Therefore, the most common solution is to generate an intermediate representation that simultaneously encodes the original image, the geometric structure of the scene, and the artificially generated image content for the occluded regions.

[007] Dentre as muitas representações possíveis, as mais comuns são nuvens de pontos, imagens de profundidade em camadas (LDI), malhas de superfície e imagens de múltiplos planos (MPI). A renderização de nuvens de pontos, no entanto, é um processo custoso computacionalmente, o que é proibitivo para imagens de alta resolução em cenários com restrições de hardware. A representação LDI foi proposta para representar uma cena 3D com baixos requisitos de memória em comparação com nuvens de pontos, mas também resulta em novas vistas com qualidade de imagem inferior. As malhas de superfície com texturas coloridas são uma representação poderosa que permite a codificação de cenas com geometria complexa enquanto fornece u bom equilíbrio entre qualidade e capacidade computacionais. No entanto, gerar uma malha a partir de uma única imagem é um processo complexo.[007] Among the many possible representations, the most common are point clouds, layered depth images (LDI), surface meshes and multiplane images (MPI). Rendering point clouds, however, is a computationally expensive process, which is prohibitive for high-resolution images in hardware-constrained scenarios. LDI representation has been proposed to represent a 3D scene with low memory requirements compared to point clouds, but it also results in new views with lower image quality. Surface meshes with colored textures are a powerful representation that allows for the encoding of scenes with complex geometry while providing a good balance between quality and computational power. However, generating a mesh from a single image is a complex process.

[008] Diferentemente dos casos supracitados, a MPI é uma representação simples que resulta em resultados satisfatórios quando estimado a partir de uma única imagem [1] . Outra vantagem da MPI é seu processo de renderização simples, que requer apenas transformações homográficas planas e composição de imagem RGB-alfa.[008] Unlike the aforementioned cases, the MPI is a simple representation that results in satisfactory results when estimated from a single image [1] . Another advantage of MPI is its simple rendering process, which requires only flat homographic transformations and RGB-alpha image compositing.

[009] No entanto, sintetizar conteúdo visual plausível para imagens a partir de diferentes modalidades ainda é um problema em aberto. Essa limitação prejudica a capacidade dos métodos atuais de sintetizar novas vistas a partir de uma única imagem que se pareçam com imagens reais. Considerando a tarefa de retoque de regiões oclusas da imagem, algumas fotos são mais desafiadoras do que outras, já que quanto mais pixels exigem o retoque de imagem, mais difícil é sintetizar novas vistas que pareçam realistas e naturais.[009] However, synthesizing plausible visual content for images from different modalities is still an open problem. This limitation impairs the ability of current methods to synthesize new views from a single image that look like real images. Considering the task of retouching occluded regions of the image, some photos are more challenging than others, as the more pixels required to retouch the image, the more difficult it is to synthesize new views that look realistic and natural.

[0010] Existem algumas técnicas que lidam com a tarefa de gerar artificialmente novas vistas que consideram múltiplas vistas como entrada, em que o objetivo principal é criar uma representação que seja capaz de generalizar para diferentes pontos de vista de destino, que consideram um conjunto limitado de pontos de vista de origem.[0010] There are some techniques that deal with the task of artificially generating new views that consider multiple views as input, where the main objective is to create a representation that is able to generalize to different target views, which consider a limited set origin points of view.

[0011] Por exemplo, em “DEEPSTEREO: LEARNING TO PREDICT NEW VIEWS FROM REAL WORLD IMAGERY” (US 9.916.679 B2), um modelo é treinado com dados em grande escala para aprender a produzir novas vistas a partir de um conjunto de imagens de entrada, e em “ARTIFICIALLY RENDERING IMAGES USING VIEWPOINTS INTERPOLATION AND EXTRAPOLATION” (US20170084001A1), um método é proposto para gerar uma terceira vista da cena, reunindo-se informações a partir de duas imagens de origem. Uma abordagem semelhante pode ser empregada para aprender uma representação MPI, como em [2] . Visto que várias imagens de entrada calibradas são usadas durante a inferência, os métodos citados se beneficiam da visão estéreo, portanto, informações de profundidade e textura ocluídas podem ser inferidas de forma mais eficaz. A principal limitação dessas estratégias é o requisito de diversas vistas de entrada calibradas, que frequentemente não estão disponíveis para casos de uso gerais.[0011] For example, in “DEEPSTEREO: LEARNING TO PREDICT NEW VIEWS FROM REAL WORLD IMAGERY” (US 9,916,679 B2), a model is trained with large-scale data to learn to produce new views from a set of images of input, and in “ARTIFICIALLY RENDERING IMAGES USING VIEWPOINTS INTERPOLATION AND EXTRAPOLATION” (US20170084001A1), a method is proposed to generate a third view of the scene, gathering information from two source images. A similar approach can be employed to learn an MPI representation, as in [2] . Since multiple calibrated input images are used during inference, the cited methods benefit from stereo vision, so occluded depth and texture information can be inferred more effectively. The main limitation of these strategies is the requirement for multiple calibrated input views, which are often not available for general use cases.

[0012] Uma tarefa mais desafiadora é gerar novas vistas a partir de uma única imagem. Este problema requer estimar as informações geométricas, bem como a textura de cor para regiões oclusas a partir de apenas uma vista monocular. Métodos foram propostos para esta tarefa que consideram máscaras de segmentação, como em “PARALLAX DEPTH RENDERING” (US20150235408A1), ou segmentação simples de primeiro e segundo plano, como em “METHOD AND SYSTEM OF BACKGROUND-FOREGROUND SEGMENTATION FOR IMAGE PROCESSING” (US9741125B2a). No entanto, essas abordagens falham em fornecer uma percepção 3D real da cena, visto que são com base em muito poucas camadas planas. Uma estratégia diferente é aprender uma representação MPI a partir de vistas únicas considerando uma estimativa de profundidade monocular, como em [1] . De forma semelhante, uma representação de malha 3D pode ser obtida a partir de uma única imagem, como em [3] . Embora esses métodos sejam capazes de produzir resultados impressionantes para alguns casos, eles ainda são limitados pela qualidade das imagens geradas nas regiões ocluídas. Essa limitação se torna mais relevante para imagens mais desafiadoras, em geral imagens que têm um número maior de pixels em regiões desocluídas para um dado efeito.[0012] A more challenging task is to generate new views from a single image. This problem requires estimating the geometric information as well as the color texture for occluded regions from a single monocular view. Methods have been proposed for this task that consider segmentation masks, as in “PARALLAX DEPTH RENDERING” (US20150235408A1), or simple foreground and background segmentation, as in “METHOD AND SYSTEM OF BACKGROUND-FOREGROUND SEGMENTATION FOR IMAGE PROCESSING” (US9741125B2a) . However, these approaches fail to provide a real 3D perception of the scene, as they are based on very few flat layers. A different strategy is to learn an MPI representation from single views considering a monocular depth estimate, as in [1] . Similarly, a 3D mesh representation can be obtained from a single image, as in [3] . Although these methods are capable of producing impressive results for some cases, they are still limited by the quality of the images generated in the occluded regions. This limitation becomes more relevant for more challenging images, in general images that have a greater number of pixels in unoccluded regions for a given effect.

[0013] Com relação ao ranqueamento geral de imagens ou classificação de imagens, várias técnicas foram propostas nos últimos anos. Uma tarefa importante é ranquear as imagens a partir de uma galeria, em que as imagens devem ser organizadas automaticamente de acordo com sua relevância. Por exemplo, em “RANKING IMAGE IMPORTANCE WITH A PHOTO-COLLAGE” (US 9.449,411B2) é descrito um sistema capaz de ranquear automaticamente uma pluralidade de imagens de acordo com dois ou mais atributos, em que o objetivo principal é resultar em uma saída de fotocolagem.[0013] With regard to general image ranking or image classification, several techniques have been proposed in recent years. An important task is to rank the images from a gallery, in which the images must be automatically organized according to their relevance. For example, “RANKING IMAGE IMPORTANCE WITH A PHOTO-COLLAGE” (US 9,449,411B2) describes a system capable of automatically ranking a plurality of images according to two or more attributes, where the main objective is to result in an output of photocollage.

[0014] Um problema relacionado é fornecer a seleção de imagens a partir de um conjunto de imagens, considerando um dado conjunto de imagens de origem. Este problema clássico pode ser tratado por algoritmos de agrupamento tradicionais, como em “AUTOMATIC SELECTION OF DIGITAL IMAGES FROM A MULTI-SOURCED COLLECTION OF DIGITAL IMAGES” (US 9.195.678 B2) e em “SYSTEM AND METHOD FOR AUTOMATICALLY CREATING A PHOTO CALENDAR” (US 9.390.107B2). Essa estratégia de agrupamento está ligada ao conteúdo visual da imagem. Por exemplo, para uma imagem de consulta a partir de uma cena de paisagem, é esperado que sejam selecionadas imagens que sejam semelhantes em alguns aspectos à imagem de paisagem fornecida. Diferentemente, no caso da presente invenção, o objetivo é ranquear as imagens que consideram um efeito visual 3D alvo, e não algumas imagens de referência.[0014] A related problem is providing the selection of images from a set of images, considering a given set of source images. This classic problem can be handled by traditional clustering algorithms, as in “AUTOMATIC SELECTION OF DIGITAL IMAGES FROM A MULTI-SOURCED COLLECTION OF DIGITAL IMAGES” (US 9,195,678 B2) and in “SYSTEM AND METHOD FOR AUTOMATICALLY CREATING A PHOTO CALENDAR” (US 9,390,107B2). This grouping strategy is linked to the visual content of the image. For example, for a query image from a landscape scene, it is expected to select images that are similar in some respects to the supplied landscape image. Differently, in the case of the present invention, the objective is to rank the images that consider a target 3D visual effect, and not some reference images.

[0015] O principal desafio relacionado à síntese de novas vistas a partir de uma única imagem é preencher artificialmente os buracos nas novas vistas renderizadas. Para isso, duas estratégias podem ser adotadas: pré-processar o mapa de profundidade para evitar a geração de buracos no ponto de vista alvo; ou gerar texturas para as regiões da imagem ausentes, conforme descrito em “FILLING DISOCCLUSIONS IN A VIRTUAL VIEW” (EP 2596475B1). Estratégias de filtragem são propostas para reduzir os artefatos produzidos pela renderização com base em profundidade, como em “GHOST ARTIFACT REDUCTION FOR RENDERING 2.5D GRAPHICS” (US 7822.265B2). No entanto, independentemente do método, ao renderizar uma imagem monocular com base nas informações de profundidade para um ponto de vista diferente, artefatos podem ser produzidos devido à falta de informações nas regiões ocluídas.[0015] The main challenge related to synthesizing new views from a single image is to artificially fill in the holes in the new rendered views. For this, two strategies can be adopted: pre-processing the depth map to avoid generating holes in the target point of view; or generate textures for the missing image regions, as described in “FILLING DISOCCLUSIONS IN A VIRTUAL VIEW” (EP 2596475B1). Filtering strategies are proposed to reduce artifacts produced by depth-based rendering, as in “GHOST ARTIFACT REDUCTION FOR RENDERING 2.5D GRAPHICS” (US 7822.265B2). However, regardless of the method, when rendering a monocular image based on depth information for a different point of view, artifacts can be produced due to missing information in the occluded regions.

[0016] Como pode ser visto, muitas estratégias diferentes com base na geração de textura de cor artificial podem ser usadas para retocar as representações da imagem para evitar a exposição de buracos na vista recém-gerada. No entanto, essas estratégias são computacionalmente custosas ou resultam em imagens que não parecem realistas ou naturais.[0016] As can be seen, many different strategies based on artificial color texture generation can be used to retouch image representations to avoid exposing holes in the newly generated view. However, these strategies are computationally expensive or result in images that do not look realistic or natural.

[0017] Adicionalmente, uma aplicação ou produto direcionado a produzir novas vistas visualmente plausíveis e agradáveis para uma alta diversidade de imagens de entrada precisaria pré-selecionar, filtrar ou ranquear as imagens que têm conteúdo mais adequado para tal efeito visual.[0017] Additionally, an application or product aimed at producing new visually plausible and pleasing views for a high diversity of input images would need to pre-select, filter or rank the images that have the most suitable content for such visual effect.

[0018] Portanto, o estado da técnica carece de uma solução capaz de auxiliar no processo de geração de um bom efeito visual 3D a partir de uma imagem. Analogamente, o estado da técnica carece de uma solução capaz de selecionar um bom efeito visual 3D para uma dada imagem de modo que o efeito visual 3D resultante tenha bons resultados para uma dada imagem.[0018] Therefore, the state of the art lacks a solution capable of assisting in the process of generating a good 3D visual effect from an image. Similarly, the state of the art lacks a solution capable of selecting a good 3D visual effect for a given image so that the resulting 3D visual effect has good results for a given image.

SUMÁRIO DA INVENÇÃOSUMMARY OF THE INVENTION

[0019] Considerando as limitações e dificuldades já mencionadas relacionadas à síntese de novas vistas a partir de uma única imagem, o problema que esta invenção se destina a solucionar é a tarefa de ranquear e selecionar imagens candidatas para a síntese de novas vistas a partir de uma única imagem, que consideram um dado efeito visual 3D.[0019] Considering the limitations and difficulties already mentioned related to the synthesis of new views from a single image, the problem that this invention is intended to solve is the task of ranking and selecting candidate images for the synthesis of new views from a single image, which consider a given 3D visual effect.

[0020] A fim de alcançar este objetivo, a presente invenção propõe um método implementado por computador para classificar uma imagem de entrada para a síntese de novas vistas em um efeito visual 3D, sendo que a imagem de entrada é usada para criar uma representação de imagem que compreende um conjunto de vistas almejadas com base no efeito visual 3D de entrada, em que cada vista almejada tem um tamanho de imagem de H x W. O método compreende adicionalmente a etapa de computar um escore de imagem St para o conjunto de vistas almejadas com base no número de pixels não ocluídos no conjunto de vistas t almejadas, em que o escore da imagem indica a adequação da imagem de entrada para a síntese de novas vistas em um efeito visual 3D.[0020] In order to achieve this objective, the present invention proposes a computer-implemented method to classify an input image for the synthesis of new views in a 3D visual effect, where the input image is used to create a representation of image comprising a set of target views based on the input 3D visual effect, where each target view has an image size of H x W. The method further comprises the step of computing an image score St for the set of views targets based on the number of unoccluded pixels in the set of t-targeted views, where the image score indicates the suitability of the input image for synthesizing new views into a 3D visual effect.

[0021] A presente invenção também se refere a um sistema e um meio de armazenamento legível por computador não transitório adaptado para realizar o dito método para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3D.[0021] The present invention also relates to a system and a non-transient computer-readable storage medium adapted to perform said method for classifying an input image for synthesizing new views into a 3D visual effect.

[0022] De acordo com uma modalidade alternativa da invenção, é proposto um método para ranquear e classificar uma pluralidade de imagens para a síntese de novas vistas. Um conjunto de imagens pode ser ranqueado para um dado efeito visual 3D, em que as imagens ranqueadas em primeiro são mais adequadas para um dado efeito visual do que as imagens ranqueadas por último, isto é, as imagens ranqueadas em primeiro têm menores regiões de desoclusões ou, de forma análoga, regiões maiores de não desoclusões.[0022] According to an alternative embodiment of the invention, a method for ranking and classifying a plurality of images for the synthesis of new views is proposed. A set of images can be ranked for a given 3D visual effect, where images ranked first are more suitable for a given visual effect than images ranked last, i.e., images ranked first have smaller regions of deocclusions or, analogously, larger regions of non-occlusions.

[0023] O problema inverso também pode ser tratado de acordo com outra modalidade da presente invenção. Considerando um conjunto de efeitos visuais 3D e uma única imagem, cada efeito visual individual pode ser ranqueado de acordo com a imagem específica, portanto, o melhor efeito visual pode ser aplicado à uma dada imagem, a fim de minimizar a quantidade de desoclusões de imagem expostas durante o efeito visual.[0023] The inverse problem can also be treated according to another embodiment of the present invention. Considering a set of 3D visual effects and a single image, each individual visual effect can be ranked according to the specific image, therefore, the best visual effect can be applied to a given image, in order to minimize the amount of image deocclusions exposed during the visual effect.

[0024] A fim de evitar confusão, doravante, refere-se ao termo escore de não desoclusão simplesmente como escore de imagem, em que quanto maior o escore de imagem, menor a quantidade de pixels de imagem desocluídos. Em outras palavras, imagens ou efeitos com escores mais altas são melhores.[0024] In order to avoid confusion, from now on, the term non-occlusion score is simply referred to as an image score, where the higher the image score, the smaller the amount of image pixels that are unoccluded. In other words, images or effects with higher scores are better.

BREVE DESCRIÇÃO DOS DESENHOSBRIEF DESCRIPTION OF THE DRAWINGS

[0025] A invenção é explicada em mais detalhes abaixo com base nas Figuras. São mostrados nas mesmas:
a Figura 1 mostra um exemplo de geração de uma representação de imagem de múltiplos planos (MPI) a partir de uma única imagem e (opcionalmente) um mapa de profundidade de entrada para a produção de novas vistas da cena, em que casos de desoclusões de imagem são mostrados;
a Figura 2 mostra um exemplo ilustrativo de como o escore da imagem é obtido para uma imagem de entrada e um conjunto de pontos de vista alvo, de acordo com a modalidade preferencial da presente invenção;
a Figura 3 mostra uma modalidade alternativa da invenção, que consiste em um método para seleção de imagem de galeria para geração de efeito visual 3D, que considera uma pluralidade de imagens de entrada e um efeito visual 3D fixo, em que a melhor imagem é selecionada com base no escore de imagem;
a Figura 4 mostra outra modalidade alternativa da invenção, que consiste em um método para geração de efeito visual 3D realista a partir de uma única imagem e a partir de um conjunto de diferentes efeitos visuais 3D, em que o melhor efeito visual é selecionado com base no escore de imagem;
a Figura 5 mostra os resultados no conjunto de dados RealEstate10K que considera o escore de imagem proposto e a métrica LPIPS para diferentes valores de p a partir do nosso método para calcular o escore de imagem;
a Figura 6 mostra os resultados no conjunto de dados RealEstate10K que considera o escore de imagem proposto e a métrica PNSE para diferentes valores de p a partir do nosso método para calcular o escore de imagem;
a Figura 7 mostra os resultados no conjunto de dados RealEstate10K que considera o escore de imagem proposta e a métrica SSIM para diferentes valores de p a partir do nosso método para calcular o escore de imagem;
a Figura 8 mostra os resultados dos histogramas de distribuição do escore de imagem, que consideram um conjunto de 3.000 mil imagens da Internet, com diferentes valores de p a partir do nosso método para calcular o escore de imagem;
a Figura 9 mostra alguns exemplos de resultados qualitativos a partir do método proposto pela presente invenção, em que diferentes imagens com diversos tipos de conteúdo são mostradas com seus respectivos escores de imagem computadas por nosso método.
[0025] The invention is explained in more detail below based on the Figures. Are shown in them:
Figure 1 shows an example of generating a multi-plane image representation (MPI) from a single image and (optionally) an input depth map to produce new views of the scene, in which cases of deocclusions of picture are shown;
Figure 2 shows an illustrative example of how the image score is obtained for an input image and a set of target viewpoints, according to the preferred embodiment of the present invention;
Figure 3 shows an alternative embodiment of the invention, which consists of a method for selecting a gallery image to generate a 3D visual effect, which considers a plurality of input images and a fixed 3D visual effect, in which the best image is selected based on image score;
Figure 4 shows another alternative embodiment of the invention, which consists of a method for generating a realistic 3D visual effect from a single image and from a set of different 3D visual effects, in which the best visual effect is selected based on in the image score;
Figure 5 shows the results on the RealEstate10K dataset considering the proposed image score and the LPIPS metric for different values of p from our method to calculate the image score;
Figure 6 shows the results on the RealEstate10K dataset considering the proposed image score and the PNSE metric for different values of p from our method to calculate the image score;
Figure 7 shows the results on the RealEstate10K dataset considering the proposed image score and the SSIM metric for different values of p from our method to calculate the image score;
Figure 8 shows the results of the image score distribution histograms, which consider a set of 3,000,000 images from the Internet, with different values of p from our method to calculate the image score;
Figure 9 shows some examples of qualitative results from the method proposed by the present invention, in which different images with different types of content are shown with their respective image scores computed by our method.

DESCRIÇÃO DETALHADA DA INVENÇÃO:DETAILED DESCRIPTION OF THE INVENTION:

[0026] A presente invenção se destina a fornecer um novo método para selecionar imagens que são mais adequadas do que outras para gerar novas vistas para um efeito visual 3D. Para isso, propomos um novo método de ranqueamento e classificação de imagens considerando um dado efeito visual 3D.[0026] The present invention is intended to provide a new method for selecting images that are more suitable than others for generating new views for a 3D visual effect. For this, we propose a new method of ranking and classifying images considering a given 3D visual effect.

[0027] A fim de alcançar este objetivo, a presente invenção propõe um método implementado por computador para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3D, sendo que a imagem de entrada é usada para criar uma representação de imagem que compreende um conjunto de vistas almejadas com base em um efeito visual 3D de entrada, em que cada vista almejada tem um tamanho de imagem de H X W. O método compreende adicionalmente a etapa de computar um escore de imagem St para o conjunto de vistas almejadas com base no número de pixels não ocluídos no conjunto de vistas almejadas, em que o escore da imagem indica a adequação da imagem de entrada para a síntese de novas vistas em um efeito visual 3D.[0027] In order to achieve this objective, the present invention proposes a computer-implemented method to classify an input image for synthesis of new views in a 3D visual effect, and the input image is used to create an image representation comprising a set of target views based on an input 3D visual effect, where each target view has an image size of H X W. The method further comprises the step of computing an image score St for the set of target views based on the number of unoccluded pixels in the set of targeted views, where the image score indicates the suitability of the input image for synthesizing new views into a 3D visual effect.

[0028] Para isso, consideramos a síntese de novas vistas como um processo que depende da geração de uma representação de imagem que codifica profundidade e cor, por exemplo, como em uma representação de imagem em múltiplos planos (MPI) ou em uma representação de formato colorido, que pode ser, em seguida, renderizada a partir de diferentes pontos de vista. Essas representações de imagens são frequentemente compostas de pixels da imagem de origem e pixels sintetizados por um gerador de imagens, que correspondem aos pixels retocados.[0028] For this, we consider the synthesis of new views as a process that depends on the generation of an image representation that encodes depth and color, for example, as in a multiplane image representation (MPI) or in a representation of color format, which can then be rendered from different points of view. These image representations are often composed of pixels from the source image and pixels synthesized by an image generator, which correspond to the retouched pixels.

[0029] Adicionalmente, a representação da imagem também contém propriedades geométricas, como informações de profundidade que determinam quais pixels são expostos quando renderizados a partir de diferentes pontos de vista. Por exemplo, em uma representação de formato 3D, uma superfície pode ocluir outras regiões, dependendo do ponto de vista. Portanto, a quantidade de pixels das regiões oclusas na imagem de origem que são expostas para um dado ponto de vista pode ser estimada e usada para fornecer uma métrica de desoclusão. De maneira análoga, a quantidade de pixels na vista recém-sintetizada proveniente das partes visíveis da imagem original deriva uma métrica de não desoclusão.[0029] Additionally, the image representation also contains geometric properties, such as depth information that determine which pixels are exposed when rendered from different points of view. For example, in a 3D format representation, a surface can occlude other regions depending on the point of view. Therefore, the amount of pixels from occluded regions in the source image that are exposed for a given viewpoint can be estimated and used to provide a disocclusion metric. Analogously, the amount of pixels in the newly synthesized view coming from the visible parts of the original image derives a non-disocclusion metric.

[0030] As métricas de desoclusão ou não desoclusão podem ser utilizadas para determinar quais imagens apresentam alto escore de desoclusão ou baixo escore de desoclusão, o que possibilita a escolha das melhores imagens para um efeito visual específico. O método descrito pode ser aplicado a uma pluralidade de diferentes representações comumente usadas para uma síntese de novas vistas a partir de uma única imagem. Além disso, o método também é eficiente, pode ser implementado em diversos dispositivos equipados com visores ou câmeras digitais, como Smartphones, Smart TVs, Tablets, etc.[0030] Disocclusion or non-occlusion metrics can be used to determine which images have a high disocclusion score or low disocclusion score, which makes it possible to choose the best images for a specific visual effect. The described method can be applied to a plurality of different representations commonly used for a synthesis of new views from a single image. In addition, the method is also efficient, it can be implemented in several devices equipped with displays or digital cameras, such as Smartphones, Smart TVs, Tablets, etc.

[0031] Abaixo, serão descritas as modalidades preferenciais da invenção, em que a representação da imagem é a representação da imagem em múltiplos planos (MPI). No entanto, um versado na técnica entenderá que a presente invenção pode ser aplicada a diferentes técnicas de representação de imagem.[0031] Below, the preferred embodiments of the invention will be described, in which the image representation is the multi-plane image representation (MPI). However, one skilled in the art will understand that the present invention can be applied to different imaging techniques.

[0032] A Figura 1 mostra um exemplo de geração de uma representação de imagem em múltiplos planos (MPI) a partir de uma imagem e de um mapa de profundidade para produzir novas vistas da cena com casos de desoclusões de imagem. A representação de imagem em múltiplos planos (MPI) é ilustrativa para o método para ranquear e classificar imagens candidatas para um dado efeito visual 3D, proposto pela modalidade preferencial da presente invenção.[0032] Figure 1 shows an example of generating a multiplane image representation (MPI) from an image and a depth map to produce new views of the scene with cases of image deocclusions. Multiplane image representation (MPI) is illustrative for the method for ranking and classifying candidate images for a given 3D visual effect, proposed by the preferred embodiment of the present invention.

[0033] De acordo com a Figura 1, a representação MPI é definida por um conjunto de camadas planas de imagem D como em 104, em que cada camada é codificada como uma imagem RGB-alfa à distância d em relação ao ponto de vista 105, formalmente definido por:
{(Ci,αi)}Di=1 =fӨ(I), (1)
em que Ci e ai correspondem aos valores de cor e alfa da i-ésima camada de imagem, fӨ representa um método genérico 103 que produz uma MPI a partir de uma única imagem 101 e, opcionalmente, a partir de um mapa de profundidade 102, e I é a imagem de entrada 101.
[0033] According to Figure 1, the MPI representation is defined by a set of flat image layers D as in 104, where each layer is encoded as an RGB-alpha image at distance d from the viewpoint 105 , formally defined by:
{(Ci,αi)}Di=1 =fӨ(I), (1)
where Ci and ai correspond to the color and alpha values of the ith image layer, fӨ represents a generic method 103 that produces an MPI from a single image 101 and, optionally, from a depth map 102, and I is input image 101.

[0034] A representação MPI 104 pode ser renderizada para o ponto de vista de origem 105 e para os novos pontos de vista 106 com base em operações de deformação (warping) e composição. O processo de deformação é definido por uma função de deformação com base na profundidade de cada plano de imagem que pode ser aplicada individualmente para os canais de cor e alfa, como definido por:
CJi = Wvs,vt (di,ci)(2)
αJi = Wvs,vt(di,αi), (3)
em que c1 e a1i correspondem aos valores de cor e alfa da i-ésima camada da imagem após a deformação a partir do ponto de vista de origem us para o ponto de vista alvo ut, e W é uma função de deformação genérica, com base, em geral, na homografia planar para a representação MPI. Após a deformação para a vista almejada, a representação MPI resultante pode ser renderizada pela operação sobrecompósita, definida por:
It = ΣDi=1(c'iα'iπDj=i+1(1-α'j)), (4)
em que It é a nova vista almejada renderizada.
[0034] The MPI representation 104 can be rendered for the source viewpoint 105 and for the new viewpoints 106 based on warping and compositing operations. The deformation process is defined by a deformation function based on the depth of each image plane that can be applied individually to the color and alpha channels, as defined by:
CJi = Wvs,vt (di,ci)(2)
αJi = Wvs,vt(di,αi), (3)
where c1 and a1i correspond to the color and alpha values of the i-th layer of the image after deformation from the source point of view us to the target point of view ut, and W is a generic deformation function, based on , in general, in planar homography for the MPI representation. After warping to the desired view, the resulting MPI representation can be rendered by the overcomposite operation, defined by:
It = ΣDi=1(c'iα'iπDj=i+1(1-α'j)), (4)
where It is the new rendered target view.

[0035] Isso resulta em uma nova imagem RGB derivada a partir da composição das camadas individuais da imagem na vista almejada, modulada pela transparência de cada canal alfa. Quando a representação MPI 104 é renderizada para o ponto de vista de origem 105, a imagem resultante 107 não tem desoclusões. No entanto, quando a representação é renderizada para a vista almejada 106, a imagem resultante 108 tem regiões desocluídas 109 expostas devido ao processo de deformação.[0035] This results in a new RGB image derived from compositing the individual layers of the image in the target view, modulated by the transparency of each alpha channel. When the MPI representation 104 is rendered to the source viewpoint 105, the resulting image 107 has no deocclusions. However, when the representation is rendered to the target view 106, the resulting image 108 has unoccluded regions 109 exposed due to the warping process.

[0036] Para implementar a estratégia de ranqueamento, a presente invenção propõe um escore de imagem. O escore da imagem pode ser computado para uma dada imagem e um dado conjunto de pontos de vista alvo, que podem ser determinados por um dado efeito visual 3D. Mais especificamente, o escore da imagem é uma medida da quantidade de pixels da imagem na imagem de origem que não sofrem desoclusão nos pontos de vista alvo. Adicionalmente, um valor limiar também pode ser aplicado ao escore para determinar se uma dada imagem é adequada para um dado efeito visual 3D. Uma definição formal do escore de imagem considerando a representação MPI é fornecida a seguir.[0036] To implement the ranking strategy, the present invention proposes an image score. The image score can be computed for a given image and a given set of target viewpoints, which can be determined by a given 3D visual effect. More specifically, image score is a measure of the amount of image pixels in the source image that are not deoccluded at target viewpoints. Additionally, a threshold value can also be applied to the score to determine whether a given image is suitable for a given 3D visual effect. A formal definition of the image score considering the MPI representation is given below.

[0037] A Figura 2 ilustra como o escore de imagem é obtido para uma imagem de entrada e um conjunto de pontos de vista alvo. De acordo com a Figura 2, é considerado que um método genérico 204 recebe como entrada uma imagem 201 e (opcionalmente) um mapa de profundidade 202 para produzir uma representação de imagem que poderia ser uma representação MPI, como em 205. Esta representação é analisada de acordo com um conjunto de vistas almejadas 203, que são definidas por um efeito visual 3D de entrada. O conjunto de vistas almejadas 203 pode ser formalmente definido por V = {v1,v2,...} , em que t é o número de vistas almejadas consideradas. Para cada amostra em V 206, o método proposto pela presente invenção computa em 207 um escore de imagem St 208.[0037] Figure 2 illustrates how the image score is obtained for an input image and a set of target views. According to Figure 2, it is envisaged that a generic method 204 takes as input an image 201 and (optionally) a depth map 202 to produce an image representation which could be an MPI representation, as at 205. This representation is parsed according to a set of target views 203, which are defined by an input 3D visual effect. The set of target views 203 can be formally defined by V = {v1,v2,...} , where t is the number of target views considered. For each sample in V 206, the method proposed by the present invention computes an image score St 208 in 207.

[0038] No caso de uma representação MPI de acordo com a modalidade preferencial da invenção, o escore de imagem pode ser computado com base na operação sobrecompósita das camadas alfa deformadas, definido por:
Mt = ΣDi=1(α'iπDj=i+1(1-α'j)), (5)
em que Mt é o alfa compósito que representa os valores de pixels não ocluídos.
[0038] In the case of an MPI representation according to the preferred embodiment of the invention, the image score can be computed based on the overcomposite operation of the deformed alpha layers, defined by:
Mt = ΣDi=1(α'iπDj=i+1(1-α'j)), (5)
where Mt is the composite alpha representing the unoccluded pixel values.

[0039] Em outras palavras, Mt está relacionado à vista almejada renderizada It, de tal maneira que, quando os valores em Mt estão próximos de um, os valores correspondentes em It são provenientes da imagem de entrada, e que, quando os valores em Mt estão próximos de zero, os valores correspondentes em It são provenientes de regiões oclusas na imagem de entrada.[0039] In other words, Mt is related to the target view rendered It, such that when the values in Mt are close to one, the corresponding values in It come from the input image, and that when the values in Mt are close to zero, the corresponding values in It come from occluded regions in the input image.

[0040] Portanto, definimos uma métrica para não desoclusão pela seguinte equação:

Figure img0001
que essencialmente conta o número de pixels não ocluídos na vista almejada, considerando uma imagem de tamanho H × W.[0040] Therefore, we define a metric for non-disclosure by the following equation:
Figure img0001
which essentially counts the number of unoccluded pixels in the target view, considering an H × W image.

[0041] Na equação anterior, aplicamos um limiar P em alfa a fim de decidir se um valor alfa é ou não considerado como pixel ocluído ou não ocluído. Assumindo valores alfa normalizados em [0, 1] , o limiar P pode ser ajustado como qualquer valor próximo e menor do que um para uma análise conservadora. Na seção de resultados da presente descrição, alguns resultados para diferentes valores de P são mostrados. É importante observar que o limiar P é aplicado em relação aos pixels da imagem, portanto, ele não está diretamente relacionado ao valor de escore de imagem.[0041] In the previous equation, we applied a threshold P in alpha in order to decide whether or not an alpha value is considered as occluded or not occluded pixel. Assuming alpha values normalized to [0, 1] , the threshold P can be set to any value close to and less than one for a conservative analysis. In the results section of the present description, some results for different P values are shown. It is important to note that the P threshold is applied in relation to the image pixels, therefore it is not directly related to the image score value.

[0042] Considerando um efeito visual 3D descrito por um conjunto de vistas almejadas em V, o escore final da imagem é dado pela seguinte equação:

Figure img0002
que resume a métrica de não desoclusão considerando os valores médios para um dado conjunto de vistas almejadas, limitados superiormente pelo pior caso (valor St menor).[0042] Considering a 3D visual effect described by a set of targeted views in V, the final score of the image is given by the following equation:
Figure img0002
which summarizes the non-disocclusion metric considering the average values for a given set of desired views, limited from above by the worst case (smaller St value).

[0043] O escore resultante é um valor escalar no intervalo [0, 1] , que pode ser usado diretamente para comparar diferentes imagens para um dado efeito visual ou usado para comparar diferentes efeitos visuais para uma dada imagem de entrada. Quanto mais alto o escore, menos pixels são desolcluídos, o que significa que quanto mais alto o escore, melhor será a imagem para os dados efeitos visuais ou melhor será o efeito para uma dada imagem. Em outras palavras, imagens ou efeitos com escores mais altos são melhores.[0043] The resulting score is a scalar value in the range [0, 1] , which can be used directly to compare different images for a given visual effect or used to compare different visual effects for a given input image. The higher the score, the less pixels are desolved, which means that the higher the score, the better the image will be for the given visual effects, or the better the effect will be for a given image. In other words, images or effects with higher scores are better.

[0044] A presente invenção pode ser adaptada para diferentes aplicações que consideram a geração de efeitos visuais 3D a partir de uma única imagem. A seguir, mostramos como o método de classificação de uma imagem de entrada para síntese de novas vistas em um efeito visual 3D proposto pela invenção pode ser aplicado, porém, sem limitação, a dois casos de uso diferentes.[0044] The present invention can be adapted for different applications that consider the generation of 3D visual effects from a single image. Next, we show how the method of classifying an input image for synthesizing new views in a 3D visual effect proposed by the invention can be applied, however, without limitation, to two different use cases.

SEGUNDA MODALIDADE: SELEÇÃO DE IMAGENS DE GALERIA PARA UM EFEITO VISUAL 3D DESEJADOSECOND MODALITY: SELECTION OF IMAGES FROM THE GALLERY FOR A DESIRED 3D VISUAL EFFECT

[0045] Nesta modalidade, o objetivo é ranquear e classificar um subconjunto de imagens a partir de uma pluralidade de imagens armazenadas na galeria, memória ou base de dados. Este caso de uso é ilustrado na Figura 3, que ilustra uma modalidade alternativa da invenção para seleção de imagem de galeria para geração de efeito visual 3D. A partir de um conjunto de imagens na galeria 301, o escore de imagem é computado em 302 para cada imagem, de acordo com um efeito visual 3D predefinido.[0045] In this modality, the objective is to rank and classify a subset of images from a plurality of images stored in the gallery, memory or database. This use case is illustrated in Figure 3, which illustrates an alternative embodiment of the invention for gallery image selection to generate a 3D visual effect. From a set of images in the gallery 301, the image score is computed at 302 for each image according to a predefined 3D visual effect.

[0046] Este processo resulta em um valor de escore para cada imagem. Em seguida, as imagens são ranqueadas por ordem decrescente de seus escores em 303, o que resulta em uma lista de imagens ranqueadas em 304 com base em seus escores de imagem 302.[0046] This process results in a score value for each image. The images are then ranked in descending order of their 303 scores, which results in a list of 304-ranked images based on their 302 image scores.

[0047] Preferencialmente, a partir deste conjunto de imagens ordenadas, um número fixo de imagens pode ser selecionado em 305 para gerar uma animação de efeito visual 3D em 306 com base na síntese de novas vistas.[0047] Preferably, from this set of ordered images, a fixed number of images can be selected at 305 to generate a 3D visual effect animation at 306 based on the synthesis of new views.

[0048] Alternativamente, o método compreende uma etapa de estabelecer um valor limiar para o escore de imagem, em que as imagens de entrada são adequadas para um dado efeito visual 3D se seu escore de imagem for superior ao valor limiar e, em seguida, gerar 306 uma animação de efeito visual 3D para todas as imagens de entrada com um escore de imagem superior ao valor limiar.[0048] Alternatively, the method comprises a step of establishing a threshold value for the image score, in which the input images are suitable for a given 3D visual effect if their image score is greater than the threshold value, and then generate 306 a 3D visual effect animation for all input images with an image score greater than the threshold value.

TERCEIRA MODALIDADE: EFEITO VISUAL 3D REALÍSTICO PARA UMA IMAGEM DESEJADATHIRD MODALITY: REALISTIC 3D VISUAL EFFECT FOR A DESIRED IMAGE

[0049] O processo de geração de uma foto 3D a partir de uma única imagem consiste em produzir um efeito visual 3D a partir de uma única imagem simulando-se o movimento da câmera na cena 3D. Este movimento da câmera pode ser uma simples translação horizontal ou vertical para produzir um efeito de paralaxe visual ou pode ser um movimento 3D mais sofisticado que envolve zoom de aproximação e de afastamento, rotações, panorâmico, inclinação, etc. Nesta modalidade, o objetivo é avaliar um conjunto de possíveis efeitos visuais 3D, isto é, um conjunto de diferentes vistas almejadas, para uma dada imagem de entrada.[0049] The process of generating a 3D photo from a single image consists of producing a 3D visual effect from a single image by simulating camera movement in the 3D scene. This camera movement can be a simple horizontal or vertical translation to produce a visual parallax effect, or it can be a more sophisticated 3D movement involving zooming in and out, rotations, panning, tilting, etc. In this modality, the objective is to evaluate a set of possible 3D visual effects, that is, a set of different desired views, for a given input image.

[0050] A ideia principal deste caso de uso é que alguns efeitos 3D são mais adequados para uma dada imagem do que outros. Por exemplo, efeitos com base em zoom de aproximação devem resultar em melhor qualidade visual para uma imagem com um objeto centralizado na cena do que um efeito com translação horizontal. Esta modalidade é ilustrada na Figura 4, que mostra a geração de efeito visual 3D realista a partir de uma única imagem e de um conjunto de possíveis efeitos 3D.[0050] The main idea of this use case is that some 3D effects are better suited to a given image than others. For example, effects based on zooming in should result in better visual quality for an image with an object centered in the scene than an effect with horizontal translation. This modality is illustrated in Figure 4, which shows the generation of a realistic 3D visual effect from a single image and a set of possible 3D effects.

[0051] Para uma dada imagem de entrada 401, um conjunto de possíveis efeitos visuais 3D identificados como 402, 403, 404 e 405 são considerados. Para cada efeito visual 3D candidato 402, 403, 404, 405 a imagem de entrada é usada para criar uma representação de imagem 205 que compreende um conjunto de vistas almejadas 203 com base no efeito visual 3D de entrada, como mostrado na Figura 2. O escore de imagem é então computado em 406 para a imagem de entrada usando cada um dos efeitos visuais 3D candidatos 402, 403, 404, 405 e todos os efeitos visuais possíveis são ranqueados em 407 de acordo com seu escore de imagem.[0051] For a given input image 401, a set of possible 3D visual effects identified as 402, 403, 404 and 405 are considered. For each candidate 3D visual effect 402, 403, 404, 405 the input image is used to create an image representation 205 comprising a set of target views 203 based on the input 3D visual effect, as shown in Figure 2. image score is then computed out of 406 for the input image using each of the candidate 3D visual effects 402, 403, 404, 405 and all possible visual effects are ranked out of 407 according to their image score.

[0052] Preferencialmente, os efeitos visuais 3D candidatos 402, 403, 404, 405 são ranqueados em ordem decrescente, resultando nos possíveis efeitos visuais 3D em 408. Os melhores efeitos visuais 3D candidatos 402, 403, 404, 405 podem ser exibidos a um usuário para seleção em 408. O efeito 3D desejado é então selecionado em 409 pelo usuário para exibir a imagem de entrada como uma foto 3D em 410.[0052] Preferably, the 3D visual effects candidates 402, 403, 404, 405 are ranked in descending order, resulting in the possible 3D visual effects in 408. The best 3D visual effects candidates 402, 403, 404, 405 can be displayed at a user for selection at 408. The desired 3D effect is then selected at 409 by the user to display the input image as a 3D photo at 410.

[0053] Alternativamente, o método compreende selecionar 409 o efeito visual 3D candidato 402, 403, 404, 405 com o escore de imagem mais alto e, em seguida, gerar 410 o efeito visual 3D candidato selecionado para a imagem de entrada.[0053] Alternatively, the method comprises selecting 409 the candidate 3D visual effect 402, 403, 404, 405 with the highest image score and then generating 410 the selected candidate 3D visual effect for the input image.

[0054] Além disso, alternativamente, o método compreende estabelecer um valor limiar para o escore de imagem, em que os efeitos visuais 3D candidatos 402, 403, 404, 405 são adequados para a imagem de entrada se seu escore de imagem for superior ao valor limite, que exibe 408 para um usuário o efeito visual 3D da imagem de entrada para todos os efeitos visuais 3D candidatos 402, 403, 404, 405 que tem um escore de imagem superior ao valor limiar; selecionar 409, a partir da entrada do usuário, um efeito visual 3D candidato dentre os efeitos visuais 3D candidatos exibidos; e, em seguida, gerar 410 a animação de efeito visual 3D selecionada pelo usuário para a imagem de entrada.[0054] Further, alternatively, the method comprises establishing a threshold value for the image score, where the candidate 3D visual effects 402, 403, 404, 405 are suitable for the input image if its image score is greater than threshold value, which displays 408 to a user the 3D visual effect of the input image for all 3D visual effects candidates 402, 403, 404, 405 that have an image score greater than the threshold value; selecting 409, from user input, a candidate 3D visual effect from among the displayed candidate 3D visual effects; and then generate 410 the user-selected 3D visual effect animation for the input image.

[0055] Em outra alternativa, o método compreende estabelecer um valor limiar para o escore de imagem, em que os efeitos visuais 3D candidatos 402, 403, 404, 405 são adequados para a imagem de entrada se seu escore de imagem for superior ao valor limiar e, em seguida, gerar 410 todas as animações de efeito visual 3D para os efeitos visuais 3D candidatos adequados 402, 403, 404, 405 para a imagem de entrada.[0055] In another alternative, the method comprises establishing a threshold value for the image score, in which the candidate 3D visual effects 402, 403, 404, 405 are suitable for the input image if its image score is greater than the value threshold and then generate 410 all 3D visual effect animations for the appropriate candidate 3D visual effects 402, 403, 404, 405 for the input image.

[0056] Os exemplos de modalidades descritos no presente documento podem ser implementados com o uso de hardware, software ou qualquer combinação dos mesmos e podem ser implementados em um ou mais sistemas de computador ou outros sistemas de processamento. Adicionalmente, uma ou mais das etapas descritas nas modalidades de exemplo no presente documento podem ser implementadas, pelo menos em parte, por máquinas. Exemplos de máquinas que podem ser úteis para realizar as operações das modalidades de exemplo no presente documento, incluem computadores digitais de uso geral, computadores especialmente programados, computadores do tipo desktop, computadores servidor, computadores cliente, computadores portáteis, dispositivos de comunicação móvel, tablets e/ou dispositivos semelhantes.[0056] The exemplary embodiments described herein may be implemented using hardware, software, or any combination thereof, and may be implemented on one or more computer systems or other processing systems. Additionally, one or more of the steps described in the example embodiments herein may be implemented, at least in part, by machines. Examples of machines that may be useful for performing the operations of the example embodiments herein include general purpose digital computers, specially programmed computers, desktop computers, server computers, client computers, portable computers, mobile communication devices, tablets and/or similar devices.

[0057] Por exemplo, um sistema de exemplo ilustrativo para realizar as operações das modalidades no presente documento pode incluir um ou mais componentes, como um ou mais microprocessadores, para realizar as operações aritméticas e/ou lógicas necessárias para a execução do programa e meios de armazenamento, como um ou mais unidades de disco ou cartões de memória (por exemplo, memória flash) para programa e armazenamento de dados e uma memória de acesso aleatório, para dados temporários e armazenamento de instruções de programa.[0057] For example, an illustrative example system for performing the operations of the embodiments herein may include one or more components, such as one or more microprocessors, for performing the arithmetic and/or logical operations necessary for program execution and means storage, such as one or more disk drives or memory cards (for example, flash memory) for program and data storage, and random access memory, for temporary data and program instruction storage.

[0058] Portanto, o presente também está relacionado a um sistema para classificar uma imagem de entrada para a síntese de novas vistas em um efeito visual 3D, distinguido por compreender um processador e uma memória que compreende instruções legíveis por computador que, quando executadas pelo processador, fazem com que o processador realize as etapas do método anteriormente descritas nesta descrição.[0058] Therefore, the present also relates to a system for classifying an input image for the synthesis of new views into a 3D visual effect, distinguished by comprising a processor and a memory comprising computer-readable instructions that, when executed by the processor, cause the processor to perform the method steps previously described in this description.

[0059] O sistema também pode incluir software residente em um meio de armazenamento (por exemplo, uma unidade de disco ou cartão de memória), que, quando executado, direciona o(s) microprocessador(es) na realização de funções de transmissão e recepção. O software pode ser rodado em um sistema operacional armazenado no meio de armazenamento, como, por exemplo, UNIX ou Windows, Linux, Android e semelhantes, e pode aderir a vários protocolos, como Ethernet, Protocolos ATM, TCP/IP e/ou outros protocolos de conexão ou sem conexão.[0059] The system may also include software residing on a storage medium (for example, a disk drive or memory card), which, when executed, directs the microprocessor(s) to perform transmission functions and Front desk. The software may run on an operating system stored on the storage medium, such as UNIX or Windows, Linux, Android, and the like, and may adhere to various protocols, such as Ethernet, ATM, TCP/IP, and/or other protocols. connection or connectionless protocols.

[0060] Como é bem conhecido na técnica, os microprocessadores podem rodar diferentes sistemas operacionais e podem conter diferentes tipos de software, em que cada tipo é dedicado a uma função diferente, como manipulação e gerenciamento de dados/informações a partir de uma fonte particular ou transformação de dados/informações a partir de um formato para outro formato. As modalidades descritas no presente documento não devem ser interpretadas como sendo limitadas para uso com qualquer tipo particular de computador servidor e qualquer outro tipo adequado de dispositivo para facilitar a troca e armazenamento de informações pode ser empregado em vez disso.[0060] As is well known in the art, microprocessors can run different operating systems and can contain different types of software, where each type is dedicated to a different function, such as manipulation and management of data/information from a particular source or transformation of data/information from one format to another format. The embodiments described herein are not to be construed as being limited to use with any particular type of server computer, and any other suitable type of device to facilitate the exchange and storage of information may be employed instead.

[0061] As modalidades de software das modalidades de exemplo ilustrativas apresentadas no presente documento podem ser fornecidas como um produto de programa de computador, ou software, que pode incluir um artigo de fabricação em um meio legível por computador acessível por máquina ou não transitório (também denominado “meio legível por máquina”) que tem instruções. As instruções na máquina acessível ou meio legível por máquina podem ser usadas para programar um sistema de computador ou outro dispositivo eletrônico. O meio legível por máquina pode incluir, porém, sem limitação, disquetes, discos ópticos, CD-ROMs e discos magneto-ópticos ou outro tipo de mídia/meio legível por máquina adequado para armazenar ou transmitir instruções eletrônicas.[0061] The software embodiments of the illustrative example embodiments set forth herein may be provided as a computer program product, or software, which may include an article of manufacture on a machine-readable or non-transient medium ( also called “machine-readable medium”) that has instructions. Accessible machine instructions or machine-readable medium may be used to program a computer system or other electronic device. Machine-readable medium may include, but is not limited to, floppy disks, optical disks, CD-ROMs and magneto-optical disks or other type of machine-readable medium suitable for storing or transmitting electronic instructions.

[0062] Portanto, a presente invenção também se refere a um meio de armazenamento legível por computador não transitório para classificar uma imagem de entrada para a síntese de novas vistas em um efeito visual 3D, que compreende instruções legíveis por computador que, quando realizadas pelo processador, fazem com que o processador realize as etapas do método descritas anteriormente nesta descrição.[0062] Therefore, the present invention also relates to a non-transient computer-readable storage medium for classifying an input image for synthesizing new views into a 3D visual effect, comprising computer-readable instructions that, when performed by the processor, cause the processor to perform the method steps described earlier in this description.

[0063] As técnicas descritas no presente documento não se limitam a qualquer configuração de software particular. Eles podem ser aplicáveis em qualquer ambiente de computação ou processamento. Os termos “meio acessível por máquina”, “meio legível por máquina” e “meio legível por computador” usados no presente documento devem incluir qualquer meio não transitório que seja capaz de armazenar, codificar ou transmitir uma sequência de instruções para execução pela máquina (por exemplo, uma CPU ou outro tipo de dispositivo de processamento) e que fazem com que a máquina realize qualquer um dos métodos descritos no presente documento. Além disso, é comum na técnica falar de software, de uma forma ou de outra (por exemplo, programa, procedimento, processo, aplicação, módulo, unidade, lógica e assim por diante) como que realizar uma ação ou causar um resultado. Essas expressões são meramente uma forma abreviada de afirmar que a execução do software por um sistema de processamento faz com que o processador realize uma ação para produzir um resultado.[0063] The techniques described in this document are not limited to any particular software configuration. They can be applicable in any computing or processing environment. The terms "machine-accessible medium", "machine-readable medium" and "computer-readable medium" used in this document shall include any non-transient medium that is capable of storing, encoding or transmitting a sequence of instructions for execution by the machine ( for example, a CPU or other type of processing device) and which cause the machine to perform any of the methods described in this document. Furthermore, it is common in the art to speak of software, in one way or another (eg, program, procedure, process, application, module, unit, logic, and so on) as performing an action or causing a result. These expressions are merely a shorthand way of stating that the execution of software by a processing system causes the processor to perform an action to produce a result.

RESULTADOSRESULTS

[0064] O método apresentado nesta invenção foi avaliado experimentalmente para seleção e ranqueamento de imagens de acordo com o escore de imagem proposto. Avaliamos o escore de imagem com resultados quantitativos no conjunto de dados RealEstate10K para síntese de novas vistas e com resultados qualitativos em um conjunto de 3.000 mil imagens públicas da Internet. Também avaliamos o tempo computacional necessário para gerar o escore de imagem a partir de uma representação MPI.[0064] The method presented in this invention was experimentally evaluated for selection and ranking of images according to the proposed image score. We evaluated the image score with quantitative results on the RealEstate10K dataset for synthesizing new views and with qualitative results on a set of 3,000,000 public Internet images. We also evaluated the computational time required to generate the image score from an MPI representation.

[0065] Na avaliação qualitativa, consideramos as seguintes métricas de imagem: Índice de Similaridade Estrutural (SSIM), Relação Sinal-Ruído de Pico (PSNR) e Similaridade Perceptual Aprendida sobre Partes de Imagens (LPIPS). Para isso, consideramos um conjunto de 1.500 imagens do conjunto de dados RealEstate10K com imagens originais e almejadas emparelhadas para diferentes pontos de vista. Usamos um método recente da literatura [4] para gerar uma representação MPI a partir de uma única imagem.[0065] In the qualitative evaluation, we considered the following image metrics: Structural Similarity Index (SSIM), Peak Signal-to-Noise Ratio (PSNR) and Perceptual Similarity Learned about Parts of Images (LPIPS). For this, we considered a set of 1500 images from the RealEstate10K dataset with original and target images paired for different viewpoints. We used a recent method from the literature [4] to generate an MPI representation from a single image.

[0066] Os resultados são mostrados nas Figuras 5, Figura 6 e Figura 7. Especificamente, a Figura 5 mostra as distribuições no conjunto de dados RealEstate10K para o escore de imagem proposto (eixo x) e a métrica LPIPS (quanto menor, melhor), para diferentes valores do limiar p (rho), a Figura 6 mostra as distribuições no conjunto de dados RealEstate10K para o escore de imagem proposto (eixo x) e a métrica PSNR (quanto maior, melhor), para diferentes valores de p (rho) e a Figura 7 mostra as distribuições no conjunto de dados RealEstate10K para o escore de imagem proposto (eixo x) e a métrica SSIM (quanto maior, melhor), para diferentes valores de p (rho).[0066] The results are shown in Figures 5, Figure 6 and Figure 7. Specifically, Figure 5 shows the distributions in the RealEstate10K dataset for the proposed image score (x axis) and the LPIPS metric (the lower the better) , for different p-threshold values (rho), Figure 6 shows the distributions in the RealEstate10K dataset for the proposed image score (x-axis) and the PSNR metric (the higher the better), for different p-values (rho ) and Figure 7 shows the distributions in the RealEstate10K dataset for the proposed image score (x-axis) and the SSIM metric (higher is better), for different p values (rho).

[0067] A partir das distribuições apresentadas, há uma correlação clara entre o escore de imagem proposto (eixo x) e a qualidade da imagem para todas as três métricas. Em particular, a métrica mais importante para efeito visual, o LPIPS, mostra uma forte correlação para p = 0.6, como pode ser visto na Figura 5, parte inferior esquerda.[0067] From the presented distributions, there is a clear correlation between the proposed image score (x-axis) and image quality for all three metrics. In particular, the most important metric for visual effect, the LPIPS, shows a strong correlation for p = 0.6, as can be seen in Figure 5, bottom left.

[0068] Além dos resultados que consideram as distribuições métricas, também avaliamos as métricas no RealEstate10K que consideram os percentis do escore de imagem proposto, conforme apresentado na Tabela 1. A partir desses resultados, podemos observar uma melhoria consistente e significativa ao se usar escore de imagem proposto, por exemplo, aumentando de 0,697 para 0,843 nas métricas SSIM, considerando o primeiro e o último percentis. Uma melhoria semelhante é observada em todas as métricas, o que indica que o escore de imagem proposto é eficaz para selecionar boas imagens para síntese de novas vistas.

Figure img0003
[0068] In addition to the results that consider the metric distributions, we also evaluated the metrics in RealEstate10K that consider the percentiles of the proposed image score, as shown in Table 1. From these results, we can observe a consistent and significant improvement when using score proposed image, for example, increasing from 0.697 to 0.843 in the SSIM metrics, considering the first and last percentiles. A similar improvement is observed in all metrics, which indicates that the proposed image score is effective in selecting good images for synthesis of new views.
Figure img0003

[0069] A fim de mostrar a capacidade do método de generalizar para uma ampla gama de diferentes tipos de imagens, também avaliamos o escore de imagens proposto em imagens obtidas da Internet. Na Figura 8, mostramos o histograma resultante do escore de imagens proposto para um conjunto de 3.000 imagens da internet, com diferentes valores de p (rho), o que indica que o método é capaz de atribuir diferentes escores a diferentes imagens.[0069] In order to show the ability of the method to generalize to a wide range of different types of images, we also evaluated the proposed image score on images retrieved from the Internet. In Figure 8, we show the histogram resulting from the proposed image score for a set of 3,000 images from the internet, with different p (rho) values, which indicates that the method is capable of assigning different scores to different images.

[0070] Resultados qualitativos são mostrados na Figura 9, na qual diferentes imagens com variados tipos de conteúdo são mostradas com seus respectivos escores de imagem computados pelo método proposto pela presente invenção. Cada imagem é apresentada com sua respectiva nova vista sintetizada por um método da literatura com base na representação MPI (conforme mostrado, por exemplo, na Figura 1), em que as imagens da esquerda são as figurações originais e as da direita são as novas vistas geradas. Quanto menor for o escore de imagem, mais desafiador será sintetizar uma nova vista natural e visualmente plausível.[0070] Qualitative results are shown in Figure 9, in which different images with different types of content are shown with their respective image scores computed by the method proposed by the present invention. Each image is presented with its respective new view synthesized by a literature method based on the MPI representation (as shown, for example, in Figure 1), in which the images on the left are the original figurations and those on the right are the new views. generated. The lower the image score, the more challenging it is to synthesize a new natural and visually plausible view.

[0071] Finalmente, também avaliamos a presente invenção em termos de tempo computacional. Para isso, medimos o tempo necessário para computar o escore de imagem para uma dada representação MPI. Implementamos o método com o uso de C++ e a biblioteca aberta de visão computacional (OpenCV) e executamos o método em um processador Intel(R) Xeon(R) CPU E5-2670 @ 2.60GHz. Computamos representações MPI para 200 imagens diferentes com camadas alfa com resolução de 384 x 288 pixels e 32 camadas de imagem por amostra. Também avaliamos diferentes efeitos visuais 3D e o tempo de computação exigido por nosso método é, em média, 30 milissegundos por quadro de imagem, o que permite aplicações em tempo real.[0071] Finally, we also evaluate the present invention in terms of computational time. For this, we measure the time required to compute the image score for a given MPI representation. We implemented the method using C++ and the open computer vision library (OpenCV) and ran the method on an Intel(R) Xeon(R) CPU E5-2670 @ 2.60GHz. We computed MPI representations for 200 different images with alpha layers with a resolution of 384 x 288 pixels and 32 image layers per sample. We also evaluated different 3D visual effects and the computation time required by our method is, on average, 30 milliseconds per image frame, which allows for real-time applications.

[0072] Portanto, a presente invenção soluciona o problema técnico de auxiliar o processo de geração de um bom efeito visual 3D a partir de uma imagem. A presente invenção não é óbvia pelas seguintes razões: o problema que esta invenção pretende solucionar é ranquear imagens para um dado efeito visual 3D, que não tem trabalho anterior disponível publicamente.[0072] Therefore, the present invention solves the technical problem of helping the process of generating a good 3D visual effect from an image. The present invention is not obvious for the following reasons: The problem this invention intends to solve is ranking images for a given 3D visual effect, which has no publicly available prior work.

[0073] Embora a classificação geral de imagens seja um problema comum na literatura, trabalhos anteriores são dedicados a classificar os tipos de imagens ou identificar o conteúdo das imagens. O ranqueamento de imagens também já foi explorado na literatura, mas o objetivo de trabalhos anteriores é ranquear imagens a partir de uma dada consulta, que pode ser outra imagem, uma descrição textual, sinais de áudio ou combinações diversas destes. No caso da presente invenção, o objetivo é ranquear um conjunto de imagens considerando um dado efeito visual 3D, e isto não possui trabalhos anteriores na literatura. É importante destacar que algoritmos clássicos de ranqueamento de imagens falharão na presente tarefa, visto que, para a síntese de novas vistas, o que é mais relevante é a estrutura da cena e não o tipo da imagem, considerando apenas seu conteúdo visual.[0073] Although the general classification of images is a common problem in the literature, previous works are dedicated to classifying types of images or identifying the content of images. Image ranking has also been explored in the literature, but the objective of previous works is to rank images from a given query, which can be another image, a textual description, audio signals or different combinations of these. In the case of the present invention, the objective is to rank a set of images considering a given 3D visual effect, and this has no previous work in the literature. It is important to highlight that classic image ranking algorithms will fail in this task, since, for the synthesis of new views, what is more relevant is the structure of the scene and not the type of image, considering only its visual content.

[0074] A presente invenção fornece um novo recurso relacionado à síntese de novas vistas a partir de uma única imagem. Este novo recurso não pode ser alcançado com nenhuma combinação de métodos anteriores de forma óbvia, visto que os problemas de selecionar uma boa imagem para gerar um efeito visual 3D ou mesmo selecionar um bom efeito visual 3D para uma dada imagem ainda não foram considerados em trabalhos anteriores.[0074] The present invention provides a new feature related to the synthesis of new views from a single image. This new feature cannot be achieved with any combination of previous methods in an obvious way, since the problems of selecting a good image to generate a 3D visual effect or even selecting a good 3D visual effect for a given image have not yet been considered in works. previous.

[0075] Embora vários exemplos de modalidades e uso da técnica tenham sido descritos acima, deve ser entendido que elas foram apresentadas a título de exemplo, e não como limitação. Será evidente para as pessoas versadas na(s) técnica(s) relevante(s) que várias alterações na forma e nos detalhes podem ser feitas no mesmo.[0075] While various examples of embodiments and use of the technique have been described above, it should be understood that they are presented by way of example, not limitation. It will be apparent to persons skilled in the relevant art(s) that various changes in form and detail can be made to it.

REFERÊNCIASREFERENCES

[0076] A seguinte referência pode ser útil para entender os conceitos e ensinamentos da presente invenção e são incorporados ao presente documento à título de referência.[0076] The following reference may be helpful in understanding the concepts and teachings of the present invention and are incorporated herein by reference.

[0077] [1] Tucker e Snavely, “Single-View View Synthesis with Multiplane Images”, in CVPR 2020.[0077] [1] Tucker and Snavely, “Single-View View Synthesis with Multiplane Images”, in CVPR 2020.

[0078] [2] Zhou et al., “Stereo Magnification: Learning view synthesis using multiplane images”, in SIGGRAPH 2018.[0078] [2] Zhou et al., “Stereo Magnification: Learning view synthesis using multiplane images”, in SIGGRAPH 2018.

[0079] [3] Kopf et al., “One Shot 3D Photography”, in SIGGRAPH 2020.[0079] [3] Kopf et al., “One Shot 3D Photography”, in SIGGRAPH 2020.

[0080] [4] Luvizon et al., “Adaptive Multiplane Image Generation from a Single Internet Picture”, in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) 2021.[0080] [4] Luvizon et al., “Adaptive Multiplane Image Generation from a Single Internet Picture”, in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) 2021.

Claims (21)

Método implementado por computador para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3D,
em que a imagem de entrada (201) de tamanho de H x W é usada para criar uma representação de imagem (205) que compreende um conjunto de vistas almejadas (203) com base no efeito visual 3D de entrada
sendo que o método é caracterizado pelo fato de que
compreende computar (207) um escore de imagem St (208) para o conjunto de vistas almejadas (203) com base no número de pixels não ocluídos no conjunto de vistas almejadas (203);
em que o escore de imagem indica a adequação da imagem de entrada (201) para a síntese de novas vistas em um efeito visual 3D.
Computer-implemented method for classifying an input image for synthesizing new views into a 3D visual effect,
wherein the input image (201) of size H x W is used to create an image representation (205) comprising a set of target views (203) based on the input 3D visual effect
The method is characterized by the fact that
comprises computing (207) an image score St (208) for the set of targeted views (203) based on the number of unoccluded pixels in the set of targeted views (203);
where the image score indicates the suitability of the input image (201) for synthesizing new views into a 3D visual effect.
Método de acordo com a reivindicação 1, caracterizado pelo fato de que
a representação da imagem é uma representação de imagem de múltiplos planos (MPI) definida por um conjunto de camadas planas de imagem D como em (205), em que cada camada é codificada como uma imagem RGB-alfa à distância d,-em relação ao ponto de vista (206), definido por:
{(ci,αi)}Di=1=fθ(I)
em que Ci e αi correspondem aos valores de cor e alfa da i-ésima camada de imagem, fϴ representa um método genérico (204) que produz uma MPI a partir da imagem de entrada (201) I.
Method according to claim 1, characterized in that
the image representation is a multi-plane image representation (MPI) defined by a set of plane image layers D as in (205), where each layer is encoded as an RGB-alpha image at distance d,-with respect to to the point of view (206), defined by:
{(ci,αi)}Di=1=fθ(I)
where Ci and αi correspond to the color and alpha values of the i-th image layer, fϴ represents a generic method (204) that produces an MPI from the input image (201) I.
Método de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que
a representação de imagem (304) é criada a partir da imagem de entrada (201) e de um mapa de profundidade de entrada (202).
Method according to claim 1 or 2, characterized in that
the image representation (304) is created from the input image (201) and an input depth map (202).
Método de acordo com a reivindicação 2 ou 3, caracterizado pelo fato de que
a representação MPI (104) é renderizada para um ponto de vista de origem (105) e para novos pontos de vista (106) com base em operações de deformação e composição.
Method according to claim 2 or 3, characterized in that
the MPI representation (104) is rendered to a source viewpoint (105) and to new viewpoints (106) based on deformation and compositing operations.
Método de acordo com a reivindicação 4, caracterizado pelo fato de que
o conjunto de vistas almejadas (203) é definido por V = v1,v2, ... , vt , em que t é o número de vistas almejadas consideradas;
em que a operação de deformação é definida por uma função de deformação com base na profundidade de cada plano de imagem aplicado individualmente para os canais de cor e alfa, como definido por:
c'i = Wvs,vt(di,ci),
α'i = Wvs,vt(di,αi),
em que c1i e a1i correspondem aos valores de cor e alfa da i-ésima camada da imagem após a deformação a partir do ponto de vista de origem vs para o ponto de vista alvo vt, e W é uma função de deformação genérica, com base na homografia plana para representação MPI.
Method according to claim 4, characterized in that
the set of target views (203) is defined by V = v1,v2, ... , vt , where t is the number of target views considered;
where the warp operation is defined by a warp function based on the depth of each image plane applied individually to the color and alpha channels, as defined by:
c'i = Wvs,vt(di,ci),
α'i = Wvs,vt(di,αi),
where c1i and a1i correspond to the color and alpha values of the i-th layer of the image after deformation from the source point of view vs to the target point of view vt, and W is a generic deformation function, based on in flat homography for MPI representation.
Método de acordo com a reivindicação 5, caracterizado pelo fato de que, após a deformação para a vista almejada, a representação MPI resultante é renderizada pela operação sobrecompósita, definida por:
It = ΣDi=1(c'iα'iπDj=i+1(1 -α'j)),
em que It é a nova vista almejada renderizada.
Method according to claim 5, characterized by the fact that, after deformation to the desired view, the resulting MPI representation is rendered by the overcomposite operation, defined by:
It = ΣDi=1(c'iα'iπDj=i+1(1 -α'j)),
where It is the new rendered target view.
Método de acordo com a reivindicação 5 ou 6, caracterizado pelo fato de que
o escore de imagem é computado com base na operação sobrecompósita das camadas alfa deformadas, definidas por:
Mt = ΣDi=1(α'iπDj=i+1(1 -α'j)),
em que Mt é o alfa compósito que representa os valores de pixels não ocluídos.
Method according to claim 5 or 6, characterized in that
the image score is computed based on the overcomposite operation of the deformed alpha layers, defined by:
Mt = ΣDi=1(α'iπDj=i+1(1 -α'j)),
where Mt is the composite alpha representing the unoccluded pixel values.
Método de acordo com a reivindicação 7, caracterizado pelo fato de que
a etapa de computar (207) um escore de imagem st (208) compreende contar o número de pixels não ocluídos nas vistas almejadas da imagem de entrada.
Method according to claim 7, characterized in that
the step of computing (207) an image score st (208) comprises counting the number of unoccluded pixels in the targeted views of the input image.
Método de acordo com a reivindicação 7 ou 8, caracterizado pelo fato de que
a etapa de computar (207) um escore de imagem st (208) compreende calcular uma métrica para não desoclusão pela seguinte equação:
Figure img0004
em que p é o limiar alfa para decidir se um valor alfa é ou não considerado como pixel ocluído ou não ocluído, em que é um valor normalizado entre [0, 1] .
Method according to claim 7 or 8, characterized in that
the step of computing (207) an image score st (208) comprises calculating a metric for non-disocclusion by the following equation:
Figure img0004
where p is the alpha threshold for deciding whether or not an alpha value is considered an occluded or non-occluded pixel, where is a normalized value between [0, 1] .
Método de acordo com a reivindicação 9, caracterizado pelo fato de que o escore de imagem (208) é calculado por:
Figure img0005
em que V é o conjunto de vistas almejadas (203); Sté a métrica para não desoclusão.
Method according to claim 9, characterized in that the image score (208) is calculated by:
Figure img0005
where V is the set of desired views (203); This is the metric for non-disclosure.
Método de acordo com qualquer uma das reivindicações 1 a 10, caracterizado pelo fato de que compreende adicionalmente a etapa de
estabelecer um valor limiar para o escore de imagem, em que a dada imagem de entrada é adequada para um dado efeito visual 3D se seu escore de imagem for superior ao valor limiar.
Method according to any one of claims 1 to 10, characterized in that it additionally comprises the step of
establish a threshold value for the image score, where the given input image is suitable for a given 3D visual effect if its image score is greater than the threshold value.
Método de acordo com qualquer uma das reivindicações 1 a 11, caracterizado pelo fato de que a imagem de entrada (201) compreende uma pluralidade de imagens de entrada (301), em que
a etapa de computar (207) um escore de imagem (208) compreende computar escores de imagem (302) para a pluralidade de imagens de entrada (301);
sendo que o método compreende adicionalmente:
ranquear (304) a pluralidade de imagens de entrada (301) com base em seus escores de imagem (302).
Method according to any one of claims 1 to 11, characterized in that the input image (201) comprises a plurality of input images (301), wherein
the step of computing (207) an image score (208) comprises computing image scores (302) for the plurality of input images (301);
the method further comprising:
ranking (304) the plurality of input images (301) based on their image scores (302).
Método de acordo com a reivindicação 12, caracterizado pelo fato de que compreende adicionalmente:
selecionar (305) pelo menos uma melhor imagem com base no ranqueamento da pluralidade de imagens de entrada (301);
gerar (306) uma animação de efeito visual 3D para as imagens selecionadas.
Method according to claim 12, characterized in that it additionally comprises:
selecting (305) at least one best image based on the ranking of the plurality of input images (301);
generate (306) a 3D visual effect animation for the selected images.
Método de acordo com a reivindicação 12, caracterizado pelo fato de que compreende adicionalmente:
estabelecer um valor limiar para o escore de imagem, em que as imagens de entrada são adequadas para um dado efeito visual 3D se seu escore de imagem for superior ao valor limiar;
gerar (306) uma animação de efeito visual 3D para todas as imagens de entrada com um escore de imagem superior ao valor limiar.
Method according to claim 12, characterized in that it additionally comprises:
establish a threshold value for the image score, where the input images are suitable for a given 3D visual effect if their image score is higher than the threshold value;
generating (306) a 3D visual effect animation for all input images with an image score greater than the threshold value.
Método de acordo com qualquer uma das reivindicações 1 a 14, caracterizado pelo fato de que
para uma imagem de entrada, há uma pluralidade de efeitos visuais 3D candidatos (402, 403, 404, 405), em que, para cada efeito visual 3D candidato (402, 403, 404, 405), a imagem de entrada é usada para criar uma representação de imagem (205) que compreende um conjunto de vistas almejadas (203) com base no efeito visual 3D de entrada;
em que a etapa de computar (207) um escore de imagem (208) compreende computar escores de imagem (406) para a imagem de entrada que usa cada um dos efeitos visuais 3D candidatos (402, 403, 404, 405);
ranquear (407) a pluralidade de efeitos visuais 3D candidatos (402, 403, 404, 405) com base em seus escores de imagem (406).
Method according to any one of claims 1 to 14, characterized in that
for an input image, there are a plurality of candidate 3D visual effects (402, 403, 404, 405), wherein, for each candidate 3D visual effect (402, 403, 404, 405), the input image is used to creating an image representation (205) comprising a set of target views (203) based on the input 3D visual effect;
wherein the step of computing (207) an image score (208) comprises computing image scores (406) for the input image using each of the candidate 3D visual effects (402, 403, 404, 405);
rank (407) the plurality of 3D visual effects candidates (402, 403, 404, 405) based on their image scores (406).
Método de acordo com a reivindicação 15, caracterizado pelo fato de que compreende adicionalmente:
selecionar (409) o efeito visual 3D candidato (402, 403, 404, 405) com o escore de imagem mais alto;
gerar (410) o efeito visual 3D candidato selecionado para a imagem de entrada.
Method according to claim 15, characterized in that it additionally comprises:
select (409) the candidate 3D visual effect (402, 403, 404, 405) with the highest image score;
generate (410) the selected candidate 3D visual effect for the input image.
Método de acordo com a reivindicação 15, caracterizado pelo fato de que compreende adicionalmente:
exibir (408) para um usuário o pelo menos um melhor efeito visual 3D candidato com base no ranqueamento da pluralidade de efeitos visuais 3D candidatos (402, 403, 404, 405);
selecionar (409), a partir da entrada do usuário, um efeito visual 3D candidato entre o efeito visual 3D candidato exibido;
gerar (410) a animação de efeito visual 3D selecionada pelo usuário para a imagem de entrada.
Method according to claim 15, characterized in that it additionally comprises:
displaying (408) to a user the at least one best candidate 3D visual effect based on the ranking of the plurality of candidate 3D visual effects (402, 403, 404, 405);
selecting (409), from user input, a candidate 3D visual effect from among the displayed candidate 3D visual effect;
generate (410) the user-selected 3D visual effect animation for the input image.
Método de acordo com a reivindicação 15, caracterizado pelo fato de que compreende adicionalmente:
estabelecer um valor limiar para o escore de imagem, em que os efeitos visuais 3D candidatos (402, 403, 404, 405) são adequados para a imagem de entrada se seu escore de imagem for superior ao valor limiar;
exibir (408) para um usuário o efeito visual 3D da imagem de entrada para todos os efeitos visuais 3D candidatos (402, 403, 404, 405) que tem um escore de imagem superior ao valor limiar;
selecionar (409), a partir da entrada do usuário, um efeito visual 3D candidato entre o efeito visual 3D candidato exibido;
gerar (410) a animação de efeito visual 3D selecionada pelo usuário para a imagem de entrada.
Method according to claim 15, characterized in that it additionally comprises:
establish a threshold value for the image score, where the candidate 3D visual effects (402, 403, 404, 405) are suitable for the input image if its image score is greater than the threshold value;
displaying (408) to a user the 3D visual effect of the input image for all candidate 3D visual effects (402, 403, 404, 405) that have an image score greater than the threshold value;
selecting (409), from user input, a candidate 3D visual effect from among the displayed candidate 3D visual effect;
generate (410) the user-selected 3D visual effect animation for the input image.
Método de acordo com a reivindicação 15, caracterizado pelo fato de que compreende adicionalmente:
estabelecer um valor limiar para o escore de imagem, em que os efeitos visuais 3D candidatos (402, 403, 404, 405) são adequados para a imagem de entrada se seu escore de imagem for superior ao valor limiar;
gerar (410) as animações de efeito visual 3D para todos os efeitos visuais 3D candidatos adequados (402, 403, 404, 405) para a imagem de entrada.
Method according to claim 15, characterized in that it additionally comprises:
establish a threshold value for the image score, where the candidate 3D visual effects (402, 403, 404, 405) are suitable for the input image if its image score is greater than the threshold value;
generate (410) the 3D visual effect animations for all suitable candidate 3D visual effects (402, 403, 404, 405) for the input image.
Sistema para classificar uma imagem de entrada para síntese de novas vistas em um efeito visual 3D, caracterizado pelo fato de que compreende
um processador;
uma memória que compreende instruções legíveis por computador que, quando executadas pelo processador, fazem com que o processador realize o método como definido em qualquer uma das reivindicações 1 a 19.
System for classifying an input image for synthesizing new views into a 3D visual effect, characterized by the fact that it comprises
a processor;
a memory comprising computer-readable instructions that, when executed by the processor, cause the processor to perform the method as defined in any one of claims 1 to 19.
Meio de armazenamento legível por computador não transitório, caracterizado pelo fato de que compreende instruções legíveis por computador que, quando executadas por um processador, fazem com que o processador realize o método como definido em qualquer uma das reivindicações 1 a 19.Non-transient computer-readable storage medium, characterized in that it comprises computer-readable instructions that, when executed by a processor, cause the processor to perform the method as defined in any one of claims 1 to 19.
BR102021025992-2A 2021-12-21 2021-12-21 COMPUTER-IMPLEMENTED METHOD AND SYSTEM TO CLASSIFY AN INPUT PICTURE FOR SYNTHESIS OF NEW VIEWS IN A 3D VISUAL EFFECT, AND, NON-TRANSITORY COMPUTER READABLE STORAGE MEDIA BR102021025992A2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/673,351 US20230196659A1 (en) 2021-12-21 2022-02-16 Computer implemented method and system for classifying an input image for new view synthesis in a 3d visual effect, and non-transitory computer readable storage medium

Publications (1)

Publication Number Publication Date
BR102021025992A2 true BR102021025992A2 (en) 2023-07-04

Family

ID=

Similar Documents

Publication Publication Date Title
Attal et al. MatryODShka: Real-time 6DoF video view synthesis using multi-sphere images
US11017586B2 (en) 3D motion effect from a 2D image
JP7403528B2 (en) Method and system for reconstructing color and depth information of a scene
Patwardhan et al. Video inpainting under constrained camera motion
WO2019101113A1 (en) Image fusion method and device, storage medium, and terminal
WO2022078041A1 (en) Occlusion detection model training method and facial image beautification method
CN110910486A (en) Indoor scene illumination estimation model, method and device, storage medium and rendering method
CN113628327B (en) Head three-dimensional reconstruction method and device
CA3018749C (en) Arbitrary view generation
EP3991140A1 (en) Portrait editing and synthesis
CN104735435A (en) Image processing method and electronic device
CN115239861A (en) Face data enhancement method and device, computer equipment and storage medium
BR102020027013A2 (en) METHOD TO GENERATE AN ADAPTIVE MULTIPLANE IMAGE FROM A SINGLE HIGH RESOLUTION IMAGE
US11451758B1 (en) Systems, methods, and media for colorizing grayscale images
CA3173542A1 (en) Techniques for re-aging faces in images and video frames
Ma et al. Neural compositing for real-time augmented reality rendering in low-frequency lighting environments
CN113706431B (en) Model optimization method and related device, electronic equipment and storage medium
Takai et al. Harmonised texture mapping
Nicolet et al. Repurposing a relighting network for realistic compositions of captured scenes
US20140306953A1 (en) 3D Rendering for Training Computer Vision Recognition
BR102021025992A2 (en) COMPUTER-IMPLEMENTED METHOD AND SYSTEM TO CLASSIFY AN INPUT PICTURE FOR SYNTHESIS OF NEW VIEWS IN A 3D VISUAL EFFECT, AND, NON-TRANSITORY COMPUTER READABLE STORAGE MEDIA
CN115393471A (en) Image processing method and device and electronic equipment
WO2022231582A1 (en) Photo relighting and background replacement based on machine learning models
US20230196659A1 (en) Computer implemented method and system for classifying an input image for new view synthesis in a 3d visual effect, and non-transitory computer readable storage medium
JP7410289B2 (en) Generating arbitrary views