BR102015006040A2 - método para o processamento de uma sequência de vídeo, correspondentes dispositivo, programa de computador e meio legível por computador não transitório - Google Patents

método para o processamento de uma sequência de vídeo, correspondentes dispositivo, programa de computador e meio legível por computador não transitório Download PDF

Info

Publication number
BR102015006040A2
BR102015006040A2 BR102015006040A BR102015006040A BR102015006040A2 BR 102015006040 A2 BR102015006040 A2 BR 102015006040A2 BR 102015006040 A BR102015006040 A BR 102015006040A BR 102015006040 A BR102015006040 A BR 102015006040A BR 102015006040 A2 BR102015006040 A2 BR 102015006040A2
Authority
BR
Brazil
Prior art keywords
image
video
general
video image
general image
Prior art date
Application number
BR102015006040A
Other languages
English (en)
Inventor
Dominique Thoreau
Philippe Guillotel
Ronan Boitard
Yannick Olivier
Original Assignee
Thomson Licensing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing filed Critical Thomson Licensing
Publication of BR102015006040A2 publication Critical patent/BR102015006040A2/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/71Circuitry for evaluating the brightness variation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/76Circuitry for compensating brightness variation in the scene by influencing the image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Picture Signal Circuits (AREA)
  • Studio Circuits (AREA)

Abstract

a presente invenção refere-se a um método para o processamento de uma sequência de vídeo formada por pelo menos duas imagens de video, o dito método compreendendo as etapas de: - obter (13) as ditas pelo menos duas imagens de vídeo usando um primeiro módulo de captura (120, 41) com um primeiro campo de visão (cl), cada imagem de vídeo representando uma mesma cena capturada em momentos diferentes ou a par- tir de diferentes pontos de vista, - sendo que o dito método compreende: - a determinação (15) das informações de luminância de pelo menos uma imagem geral obtida por um segundo módulo de captura (121, 42) com um segundo campo de visão maior que o dito primeiro campo de visão, a dita imagem geral re- presentando a cena capturada em momentos diferentes ou a partir de diferentes pontos de vista; - a conversão descendente (16) de uma faixa dinâmica das ditas imagens de vídeo levando em consideração as ditas informações de luminância.

Description

"MÉTODO PARA O PROCESSAMENTO DE UMA SEQUÊNCIA DE VÍDEO, CORRESPONDENTES DISPOSITIVO, PROGRAMA DE COMPUTADOR E MEIO LEGÍVEL POR COMPUTADOR NÃO TRANSITÓRIO" 1. CAMPO DA TÉCNICA
[001 ]A presente invenção refere-se, de modo geral, ao campo da conversão de faixa dinâmica implementada em um processamento de imagem, [002] Por definição, a faixa dinâmica é a razão entre o maior e o menor valor possível da quantidade mutável correspondente à luminância, que é uma medida fotométrica da intensidade luminosa por unidade de área da luz que passa em uma dada direção (a luminância sendo expressa [003] Em termos mais específicos, a presente invenção pode ser aplicada para a redução da faixa dinâmica de uma imagem ou de uma sequência de imagens (as ditas imagens sendo também chamadas de “quadros"). Em outras palavras, a presente invenção pode ser aplicada para a alteração dos valores de luminância dos pixels da dita imagem (ou dos pixels de cada imagem da sequência de imagens), que pertence a uma faixa dinâmica original predeterminada a fim de obter valores de luminância que pertencem a uma faixa dinâmica mais baixa que a faixa dinâmica original predeterminada.
[004] A presente invenção encontra aplicação particular no processamento de imagens para fotografia ou na aplicação de vídeo, e mais particularmente na restituição de imagens de Alta Faixa Dinâmica (HDR), que podem representar de maneira mais exata a faixa dos níveis de intensidade encontrados em cenas reais.
2. FUNDAMENTOS DA INVENÇÃO 2.1. Introdução [005JO sentido da visão humana tem uma faixa dinâmica muito alta. Um humano pode, de fato, ver objetos à luz estelar (embora a diferenciação de cores seja reduzida em baixos níveis de luz) ou à tuz solar brilhante, muito embora, em uma noite sem iuar, os objetos recebam 1/1.000,000.000 da iluminação que receberíam em um dia claro e ensolarado: ou seja, uma faixa dinâmica de 30 f-stops.
[G06]Na prática, é difícil se obter a faixa dinâmica completa experimentada por humanos mediante o uso de equipamentos eletrônicos. Ou seja, as capacidades de exibição das impressões, dos monitores de LCD, ou dos projetores têm uma faixa dinâmica limitada {ou baixa faixa dinâmica LDR), inadequada para a reprodução da faixa completa das intensidades de luz presentes nas cenas naturais.
[OOTjTem sido desenvolvidas soluções de video digital de alta faixa dinâmica (HDR) para uma representação mais exata da faixa de níveis de intensidade encontrados em cenas reais. As imagens de faixa HDR podem capturar mais informações que podem ser exibidas em uma tela convencional caracterizada por uma baixa faixa dinâmica (LDR), e que são, muitas vezes, capturadas por meio de uma pluralidade de imagens diferentemente expostas do mesmo assunto.
[G08]Em outras palavras, as câmeras não HDR (ou LDR) tiram fotografias com uma faixa de exposição limitada, resultando na perda de detalhe nas áreas claras ou escuras. A faixa HDR compensa essa perda de detalhe ao capturar múltiplas fotografias em diferentes níveis de exposição e ao combinar as mesmas de modo a produzir uma fotografia representativa de uma faixa tonal mais larga.
[QQ9]A!ém disso, ao longo das últimas décadas, foram desenvolvidos algoritmos no sentido de mapear a imagem diferentemente em sombra e em destaque a fim de melhor distribuir a faixa de iuz através da imagem. Essas técnicas são conhecidas como mapeamento de tons e permitem converter imagens de Alta Faixa Dinâmica (HDR) ou sequência de vídeo de faixa HDR em imagens de Baixa Faixa Dinâmica (LDR) ou em sequência de vídeo de faixa LDR. 2.2. Operadores de Mapeamento de Tons f010JTa! mapeamento de tons se baseia prímeirameníe nos Operadores de Mapeamento de Tons (TMOs) a fim de modificar a dinâmica de uma imagem de ori- gem capturada usando um módulo de captura de faixa HDR a fim de obter uma imagem resultante com uma faixa dinâmica mais baixa de modo que essa imagem resultante apresente uma dinâmica adaptada para exibição em um monitor LCD.
[011] Em seguida, a expressão “modificar a dinâmica de uma imagem" corresponde em converter, adaptar ou modificar o componente de luminância {ou seja, os valores dos componentes de luminância) da imagem, [012] Quando a imagem de origem, uma vez que a sua faixa dinâmica foi modificada, é dedicada a um sistema de exibição, o componente de luminância é quantificado e codificado de modo a se tornar compatível com um padrão de exibição (por exemplo, o BT 709, etc..). Nesse caso, o componente não se refere ao componente de “luminância’’, mas sim, normalmente, ao componente de "luma".
[013] Sendo assim, as técnicas de mapeamento de tons são mais aplicáveis a um componente de luminância do que a um componente de fuma, [014] Entre os conhecidos operadores de mapeamento de tons (TMOs), também chamados de reprodutores de tons, o operador de mapeamento de tons PTR, descrito em detalhe por E. REINHARD et ai. (“Photographic tone reproductíon for digital images"), ACM transactions on Graphics, 21, 267-276 (julho de 200.2) poderá ser citado, [015] A aplicação do operador TMG “ingenuamente” em cada quadro de uma sequência de vídeo de faixa HDR resulta em artefatos temporais. Para lidar com artefatos trêmulos, outros operadores de mapeamento de tons se baseiam no uso de urna chave dependendo dos pixels da imagem corrente, cuja faixa dinâmica tem de ser convertida, e de um número predeterminado de pixels da imagem que precede a imagem corrente na sequência de imagens, tal como descrito por KANG S, B. et al. ("High dynamíc range video”), ACM transactions on Graphics, Proceeding of ACM SIGGRAPH, volume 22, Edição 33, julho de 2003, páginas 319-325.
[016] São também conhecidos os operadores de mapeamento de tons que usam um número de imagens precedentes da sequência de vídeo, a quaf é dinamicamente adaptada de acordo com a chave da imagem corrente e as chaves das imagens precedentes, tal como descrito por RAM SE Y S. et aí. (“Adaptive temporal tone mapping"'), Computer Graphics and Imaging - 2004 (3), 3-7 (2004).
[017] Outros operadores de mapeamento de tons comparam uma imagem originai com uma resposta visuai do sistema visual humano (HVS) a uma imagem cujos valores de luminância pertencem a uma faixa dinâmica adaptada a uma tela, tal como descrito por MANTIUK R., ("Dísplay adaptive tone mapping"), ACM Tran-sactions on Graphics 27, 1 (agosto de 2008), que provê uma imagem com a percepção visual menos distorcida possível sobre a tela.
[018] Para lidar com artefatos temporais, as soluções acima usam as imagens temporafmente fechadas da sequência de vídeo no sentido de suavizar alterações abruptas de luminância. No entanto, faixas de tempo mais longas introduzem incoerência de brilho temporal, o brilho sendo coerente em um conteúdo de tom mapeado quando o brilho relativo entre duas zonas da sequência de vídeo de faixa HDR é preservado durante o mapeamento de tons (tanto no domínio espacial como no domínio temporal). Porém, uma vez que um operador TMO usa, independentemente para cada imagem (ou quadro), todas as faixas de exibição disponíveis, a coerência de brilho de faixa HDR não é preservada em toda a operação de mapeamento de tons. Consequentemente, as áreas percebidas como as de maior brilho na sequência de faixa HDR não são necessariamente as de maior brilho na faixa LDR. 2.3. Pós Processamento do Mapeamento dc Tons {019]A fim de preservar a coerência de brilho entre as imagens de tom mapeado resultantes, urna técnica de Coerência de Brilho (chamada de técnica BG) foi proposta por um dos inventores, BOITARD R. et al. (“Têmpora! coherency for video tone mapping"), in Proc. SPIE Conference Series, volume 8499 da 3PSE Conference Series, 2012).
[G20]Tat técnica se baseia em uma indicação do brilho geral de cada imagem (ou quadro) de uma sequência de vídeo. Ao se usar a imagem com brilho na sequência de vídeo de faixa HDR (ou seja, o quadro com maior indicação de brilho geral) como âncora, todas as outras imagens de tom mapeado são reduzidas com relação a essa âncora. |021]Uma vez que cada imagem é processada com relação à âncora, a coerência de brilho temporal é preservada até mesmo entre imagens não adjacentes.
[022] Uma falha dessa técnica é que a mesma trabalha apenas com o brilho geral sem solucionar a coerência de brilho local. Para resolver esse aspecto, uma Coerência de Brilho Zonal (chamada de técnica ZBC) foi proposta pelo inventor BOITARD R. et al. (“Zonal Bríghtness Coherency for video tone mapping’), Sígnal Processing; Image Communication (disponível online, de 16 de outubro de 2013, http;//dx;doi.org/10.106/j Jmage.2013.10.001).
[023] Mais precisamente, de acordo com essa técnica, cada imagem é dividida em segmentos usando uma segmentação baseada em histograma das imagens de faixa HDR. Nesse caso, as zonas de vídeo, graças aos segmentos da imagem resultante, são definidas, e a técnica de Coerência de Brilho (BC) é aplicada a cada zona de vídeo de forma independente.
[024] Essa técnica de Coerência de Brilho Zonal (ZBC) preserva tanto a coerência de brilho temporal como também o contraste espacial em cada imagem. 2,4. Falhas da técnica anterior [025] Gs operadores de mapeamento TMO da técnica anterior são aplicados a cada imagem da sequência de vídeo de forma independente, resultando em artefatos temporais compreendendo incoerência de brilho temporal, e as técnicas de coerência de brilho requerem informações provenientes de outras imagens de se- ■ quência de vídeo em vez da imagem corrente.
[026] Além disso, em alguns casos relativos à conversão de faixa dinâmica, todas as outras imagens da sequência de vídeo são requeridas a fim de se obter um resultado eficaz. Em outras palavras, quando todas as imagens pertencentes à sequência de vídeo são capturadas, um pós-processamento poderá ser implementado no sentido de encontrar as informações de lumtnâncía mais relevantes para uma ótima conversão de faixa dinâmica.
[027] No entanto, tais exigências não são obteníveis ao se considerar uma transmissão de rede em tempo real, na qual, em um momento t, as informações localizadas nas “imagens futuras” não são conhecidas.
[028] Na verdade, o uso de um armazenador temporal resulta em um tempo de processamento, o que é incompatível com as limitações em tempo real. Sendo assim, os métodos da técnica anterior, usando ou não as técnicas de coerência de brilho, não permitem a preservação da coerência temporal quando uma transmissão em tempo real é implementada.
3. SUMÁRIO DA INVENÇÃO 1029JA presente invenção propõe uma nova solução como um método para o processamento de uma sequência de vídeo, o dito método compreendendo uma etapa de obter peto menos uma imagem usando um primeiro módulo de captura, a dita pelo menos uma imagem representando uma cena com um primeiro ângulo de captura, a dita pelo menos uma imagem sendo chamada de imagem de vídeo.
[G30]De acordo com a presente invenção, o dito método compreende também as seguintes etapas: [031]- obter, por meio do uso de um segundo módulo de captura diferente do dito primeiro módulo de captura, o metadado correspondente a pelo menos urna imagem representando a dita cena com um segundo ângulo de captura rigorosamente maior que o dito primeiro ângulo de captura, a dita pelo menos uma imagem sendo chamada de imagem geral, a dita imagem geral compreendendo a dita imagem de vídeo, [032] - determinar as informações de luminância do dito metadado correspondente à dita imagem geral, [033] - converter uma faixa dinâmica da dita imagem de vídeo levando em consideração as ditas informações de luminância.
[034] O processamento de uma sequência de vídeo de acordo com a presente invenção, portanto, se baseia na consideração de uma informação de luminância determinada a partir de uma imagem que não pertence à sequência de vídeo e que é capturada por um módulo de captura separado, diferente do usado para a captura das imagens da sequência de vídeo.
[035] Com efeito, tal processamento de uma sequência de vídeo permite aumentar o ângulo de captura da informação de luminância com relação ao ângulo de captura do módulo de captura usado para a captura das imagens de video da sequência de vídeo.
[036] Por "informação de luminância", considere-se uma informação correspondente a uma luminância, ou a um valor de luma (correspondente a um componente de luminância que é quantificado e codificado de modo a se tornar compatível com um padrão de exibição).
[037] Por exemplo, essa informação de luminância é o valor máximo da luminância de um ponto (ou das zonas) da cena localizada fora de alguns quadros da sequência de vídeo, tal como o valor máximo da luminância provida pelo sol que ilumina uma partida de futebol, considerando que a câmera de vídeo enfoca apenas o terreno, jamais se direcionando para o céu.
[038] Deste modo, é possível que o campo da imagem de vídeo capturada em um momento t considerado não compreenda o ponto da cena com o valor máximo de luminância, e, vantajosamente, esse conhecimento do valor máximo é provindo, de acordo com a presente invenção, por uma segunda imagem capturada com um ângulo de captura maior usando um módulo de captura diferente.
[039JPor exemplo, o primeiro módulo de captura é uma clássica câmera de cinema digital feita, por exemplo, pela Sony®, JVC®, Canon®, ou GoPro®, com uma taxa de quadro predeterminada (em fps, quadro por segundo). Os filmes de cinema são quase que excíusivamente projetados em 24 fps. A televisão, no entanto, não tem uma taxa de quadro internacionalmente aceita. Na Europa e em muitos outros países, os formatos PAL e SECAM usam 25 fps, enquanto o sistema de vídeo NTSC na América do Norte e no Japão usa 29.97 fps. Outras taxas de quadro comuns são geralmente provenientes dessas. Vantajosamente, alguns formatos de vídeo digital suportam várias taxas de quadro dentro de um único formato, permitindo uma compatibilidade de gravação e filme de vídeo de taxas de quadro variáveis. (24 fps).
[Ü4Q]G segundo módulo de captura é. por exemplo, um sistema de câmera capaz de criar automática e rapidamente imagens panorâmicas ou totalmente esféricas (360° x 180°) de alta resolução e opcíonalmente uma alta faixa dinâmica (HDR). Esse segundo módulo de captura corresponde, por exemplo, a uma câmera Li-zardG®, a uma câmera SceneCam®, ou a uma câmera Panoscan’s MK-3® com uma taxa de imagem geral (correspondente a uma imagem panorâmica) a cada 5 segundos ou uma taxa de imagem geral por segundo.
[041JDeste modo, a conversão de uma faixa dinâmica da imagem de vídeo não é implementada, como na técnica anterior, ao levar em consideração apenas as informações de luminância conhecidas relacionadas à sequência de vídeo, porém levando em consideração uma informação de luminância externa relacionada ao me-tadado que representa a cena geral capturada pelo segundo módulo de captura.
[0423Consequentemente, essa informação de luminância externa permite uma fácil detecção e em tempo real das informações de luminância mais relevantes da imagem geral capturada pelo módulo de captura de vídeo (por exemplo, a câmera) para a aplicação, em tempo real, de ama conversão da faixa dinâmica de cada imagem da sequência de vídeo.
[043] Sendo assim, para uma imagem de vídeo capturada em um momento i ao se usar tal informação de luminância externa a partir de uma imagem que representa a cena geral será possível saber antecipadamente o valor máximo de lumí-nância que poderá aparecer mais tarde na sequência de vídeo.
[044] Consequentemente, o método de acordo com a presente invenção permite reduzir em tempo real a faixa dinâmica, ao mesmo tempo conservando a coerência temporal de toda a sequência de vídeo. Será possível lucrar com tal vantagem ao aplicar o método de acordo com a presente invenção para a transmissão em tempo real de um conteúdo de faixa dinâmica quando a aquisição é feita com uma câmera cuja faixa dinâmica é maior que a do conteúdo a transmitir.
[045] Além disso, uma vez que tal informação de luminância corresponde a uma informação de luminância real da cena, a conversão de faixa dinâmica não é implementada de maneira arbitrária ou globalmente, mas sim da maneira ideal, usando apenas uma informação de luminância natural que realmente existe na cena capturada.
[046] De acordo com um aspecto particular da presente invenção, a dita etapa de determinação das informações de luminância da dita imagem geral compreende uma etapa anterior de determinação da localização da dita imagem de vídeo na dita imagem geral. |047]Tal determinação da localização da imagem de vídeo dentro da imagem geral permite, de fato, se localizar a posição do primeiro módulo de captura com relação à posição do segundo módulo de captura. Em outras palavras, essa etapa anterior permite detectar as partes comuns entre a imagem de vídeo e a imagem gerai, e consequentemente, detectar as partes da imagem geral que se localizam fora da imagem de vídeo em questão.
[048)Sendo assim, essa etapa anterior de determinação da localização da imagem de vídeo em questão dentro da imagem gerai (correspondente, por exem- pio, a uma imagem panorâmica) permite se obter uma sincronização espacial entre essas duas imagens, [Q49]Essas partes localizadas fora da imagem de video em questão são particularmente úteis, uma vez que as mesmas contêm as informações de luminâncía da cena que não se encontram disponíveis, começando apenas a partir da imagem de vídeo em questão em um momento t ou começando a partir das imagens de vídeo anteriores da sequência de vídeo, [Q50]De acordo com variantes da presente modalidade, a etapa de determinar a localização da imagem de vídeo em questão dentro da imagem geral pode ser implementada usando técnicas conhecidas, que implementa, por exemplo, as seguintes etapas que mostram as áreas de correspondência entre a imagem de vídeo capturada pelo primeiro módulo de captura e a imagem geral capturada pelo segundo módulo de captura: [051] - extração de pontos de interesse (chamados também de “pontos chave”) da imagem de vídeo, [052] - extração dos mesmos pontos de interesse da imagem de vídeo na imagem geral, e obtenção dos descritores de imagem local desses pontos de interesse, [053] - comparação dos descritos associados, respectivamente, à imagem de vídeo e à imagem exemplar a fim de obter pares de pontos de interesse com descritores similares, onde um limite de decisão poderá ser implementado de modo a prover um número de pares “bons", [054] - determinação de um modelo de deformação (homográfico ou coisa do gênero) para a correspondência dos pontos de interesse da imagem de video com os pontos de interesse da imagem geral (ou seja, para a transformação da imagem de vídeo na imagem geral ao mover os pontos dos pares conforme previamente obtidos de suas posições de partida para as suas posições de chegada), [055]- aplicação do modelo de deformação à imagem de vídeo de modo a obter uma imagem de vídeo distorcida (ou deformada) (ou seja alinhada), geometricamente similar à imagem gerai. f056]Para a extração de pontos chave, que podem também ser chamada de detecção de pontos chave, várias técnicas conhecidas podem ser usadas tais como: o algoritmo de detecção de bordas de Harrís & Stephens / Plessey / Shi-Tomasi, a técnica de Características de teste de segmento acelerado (FAST), a transformada de características invariante a escala (S1FT), as Características Robustas Aceleradas (SURF), os Pontos Chave Escaláveis In variantes Robustos Binários (BRISK).
[Q57]Para a extração dos descrítores e para a correspondência dos pontos de interesse, as técnicas SIFT e BRISK acima podem ser, por exemplo, implementadas, ou ainda uma outra técnica, tal como a técnica de Características Elementares Independentes Robustas Binárias (BRiEF).
[058]De acordo com uma variante particular da presente modalidade, a dita etapa de determinação da localização da dita imagem de vídeo na dita imagem geral é realizada ao se determinar uma métrica de distorção.
[C)59]Por exemplo, tal métrica de distorção poderá ser feita partindo de diferentes características de pixel das duas imagens, tais como movimento, cor, textura, luminância, etc., usando algoritmos de distorção de imagem conhecidos.
[Q6Q]De acordo com um aspecto particular desta variante, a dita métrica de distorção corresponde à seguinte soma de diferença absoluta: [061]- na qual C representa um valor de um predeterminado metadado da dita imagem de vídeo, S representa um valor do dito metadado predeterminado da dita imagem geral de altura N e largura M, (x, y) as coordenadas de um ponto de partida da dita imagem de vídeo, e (dx, dy) as coordenadas de uma localização testada da dita imagem de vídeo na dita imagem gerai, (062] - a dita localização correspondendo a um ponto da dita imagem gerai, cujas coordenadas correspondem a um duplo (dx, dy), minimizando a distorção Distdx,â>.
[063] Tal como já dito acima, os valores C e S podem corresponder a uma outra característica do pixel, tat como a cor, uma sub-banda de frequência espacial e/ou temporal.
[Ü64]Em outras palavras, o ponto resultante da dita imagem geral, cujas coordenadas correspondem a um duplo (dx, dy), minimizando a distorção Dlstdx,dy corresponde à posição do ponto das coordenadas (x, y) na imagem de vídeo, por exemplo, o primeiro pixel inferior esquerdo da imagem de vídeo (das coordenadas (0,0) na imagem de vídeo) com relação ao primeiro pixel inferior esquerdo da imagem geral (das coordenadas (0,0) na imagem geral). (065]De acordo com um outro aspecto especial desta variante, a dita métrica de distorção é determinada pelo menos duas vezes ao aplicar, a cada vez, um diferente ajuste de escala á dita imagem de vídeo e à dita imagem geral. Tal aspecto permite solucionar o problema que surge quando a imagem de vídeo em questão e a imagem geral apresentam diferentes resoluções.
[066}Deste modo, quando uma escala s é considerada o tripleto (dx, dy, s), minimizando a distorção, é possível se detectar a localização da dita imagem de vídeo dentro da imagem geral. {067]De acordo com um outro aspecto particular desta variante, a dita etapa de determinação da localização da dita imagem de vídeo na dita imagem geral implementa antes as seguintes etapas à dita imagem de vídeo ou â dita imagem geral: [068]- uma etapa de caltbração, comunicando uma função entre pelo menos um valor de código da dita imagem de vídeo e pelo menos um valor físico, ou comunicando uma função entre pelo menos um valor de código da dita imagem geral e pelo menos um valor físico, [069]- uma etapa de inversão da dita função que comunica os valores físicos da dita imagem de video ou da dita imagem geral.
[07Q]Esse aspecto é implementado em particular quando a imagem de vídeo e a imagem geral diferem por sua faixa dinâmica, estando uma, por exemplo, em uma Alta Faixa Dinâmica, enquanto que a outra está em uma Baixa Faixa Dinâmica (LDR) nas imagens.
[071] Com efeito, uma vez que os valores de faixa HDR representam um valor absoluto físico, a expansão da faixa dinâmica de uma ou de ambas a imagem de vídeo em questão e a imagem gera! para se obter os valores de faixa HDR garante que as mesmas possam ser comparadas depois.
[072] A fim de recuperar o valor físico de um dentre o vídeo ou a imagem geral, um poderá calibrar o primeiro e/ou o segundo módulo de captura.
[G73]Tal como apresentado por MANN S. et a!. (“0/7 being “Undigital” With Digita! Cameras: Extending dynamic Range by combining Differently Exposed Pic-tures”), in Proceedings of IS&T 46th annual conference (maio de 1995), pp 422-428, a calibração consiste em medir a Função de Resposta de Câmera (CRF). Quando a função CRF é conhecida, é possível inverter a transformação não linear aplicada dentro de um dos módulos de captura e obter os valores físicos, e, em particular, a luminância, da imagem.
[074] De acordo com um outro aspecto da presente invenção, a dita etapa de determinação da localização da dita imagem de vídeo na dita imagem geral compreende uma etapa de recorte da dita imagem geral.
[075] Com efeito, vantajosamente, quando a localização da imagem de vídeo é conhecida na imagem geral, é possível dimensionar a imagem geral, de modo que a área usada para a determinação das informações de luminância seja reduzida, [076] Sendo assim, a etapa seguinte de determinação das informações de luminância é otimizada, sua implementação sendo menos demorada.
[077]Opciona!mente, a dita etapa de recorte poderá levar em conta o resultado da(s) etapa(s) de recorte anteriormente implementada(s) para o processamento da(s) imagem (imagens) (ou quadros), que precede(m) o corrente quadro considerado.
[G78JDeste modo, a redução da área usada para a determinação das informações de fuminãncia será otimizada (em outras palavras, aumentada), com relação à imagem geral recortada usada para as imagens de video anteriores.
[Q79]De acordo com uma primeira variante deste aspecto da presente invenção, a dita etapa de recorte compreende uma etapa de predição de movimento do dito primeiro módulo de captura.
[080] Gom referência a este aspecto, a imagem geral é reduzida levando em consideração o movimento do primeiro módulo de captura, por exemplo, a câmera. Consequentemente, a predição de movimento ajuda a otimizar o recorte da imagem geral ao focar a mesma na trajetória completa do primeiro módulo de captura.
[081] Sendo assim, para uma imagem de vídeo corrente, quando as informações de luminância relevantes requeridas para uma boa conversão da faixa dinâmica da sequência de vídeo são provenientes de uma das imagens seguintes da sequência de vídeo (o que não permite uma conversão em tempo real da faixa dinâmica de acordo com os métodos da técnica anterior), a presente invenção permite obter uma conversão em tempo real, uma vez que tais informações podem ser encontradas em tempo real na imagem geral recortada levando em consideração a trajetória da câmera durante a captura da sequência de vídeo.
[082JAIêm disso, levar em consideração o resultado da(s) etapa(s) de recorte anteriormente implementada(s) para o processamento da(s) imagem (imagens) (ou quadros), que precede(m) o corrente quadro considerado, podería também ajudar a reduzir o tempo da etapa de predição de movimento do dito módulo de captura.
[G83]De acordo com uma outra variante, combinada ou não com a anterior, a dfta etapa de recorte compreende uma etapa de determinação de um grau de liberdade de captura de imagem do dito primeiro módulo de captura.
[084] Esse aspecto diz respeito ao caso no qual o movimento de rodagem de vídeo implementado pelo primeiro módulo de captura é "limitado" por natureza com relação ao tópico capturado, por exemplo, um jogo esportivo no quaí todas as imagens da sequência de vídeo serão capturadas em um espaço que é obviamente menor que o de uma esfera completa.
[085] Sendo assim, não é necessário usar a imagem gera! inteira feita pelo segundo módulo de captura, por exemplo, uma imagem esférica (360° x 180°), porém uma imagem geral recortada correspondente a uma “imagem semi-esférica” centralizada na posição da imagem de vídeo, [086] De acordo com uma outra variante, combinada ou não com as variantes acima, a dita etapa de recorte feva em consideração os metadados entrados por um usuário.
[087] Por exemplo, o dito metadado que é entrado antes da etapa de obtenção do dito metadado correspondente à dita imagem geral, ou que é entrado pelo usuário ao implementar a etapa de recorte.
[088] Tal variante permite definir os parâmetros do segundo módulo de captura que faz a imagem geral. Sendo assim, a imagem geral e os correspondentes metadados que são feitos pelo segundo módulo de captura, cujos parâmetros foram previamente definidos pelo usuário, geralmente chamado de o Diretor de Fotografia, correspondem direta, e respectívamente a uma imagem gerai otimizada que compreende apenas os metadados úteis para a posterior determinação das informações de íumínãncia. |089]Em outras palavras, o metadado ou a imagem feita pelo segundo módulo de captura previamente ajustado pelo usuário é direta e otimamente recortado de acordo com as necessidades do usuário. {090]De acordo com uma modalidade, a dita etapa de conversão de uma faixa dinâmica da dita imagem de vídeo implementa uma etapa de computar um operador de mapeamento de tons usando as ditas informações de lumínância.
[091] Sendo assim, de acordo com essa modalidade, o clássico Operador de Mapeamento de T ons é diretamente modificado a fim de levar em consideração as informações de lumínância mais relevantes da cena global, [092] De acordo com uma outra modalidade, a dita etapa de conversão de uma faixa dinâmica da dita imagem de vídeo levando em consideração as ditas informações de lumínância implementa as seguintes etapas: [003)- um mapeamento de tons da dita imagem de vídeo que comunica pelo menos uma imagem de tom mapeado, [094] - uma análise de coerência de brilho zonal levando em consideração as ditas informações de lumínância, comunicando as zonas de âncora da dita imagem geral, - e as seguintes etapas sucessivas: [095] - uma modificação da dita pelo menos uma imagem de tom mapeado da dita imagem de vídeo usando as ditas zonas de âncora das ditas imagens gerais, comunicando pelo menos uma imagem de tom mapeado modificada, [096] - uma redistríbuição do nível tonal da dita imagem de vídeo usando a dita imagem de tom mapeado modificada, [097] - uma conversão dos valores dos pontos flutuantes da dita imagem de vídeo a fim de inteirar os valores de código.
[098}Em outras palavras, embora na técnica anterior a Coerência de Brilho Zonal (ZBC) seja apíicada apenas nas imagens de video, de acordo com a presente invenção esta é a imagem geral ou a imagem geral recortada que é dividida em segmentos ou zonas de video usando uma segmentação baseada em histograma, e a técnica de Coerência de Brilho (BC) é aplicada a cada zona de vídeo de forma in- dependente, [G99]Essa técnica de Coerência de Brilho Zonal (ZBC) é aplicada após o clássico mapeamento de tons (ou seja, o operador TMO não é modificado) e preserva em tempo real tanto a coerência de brilho temporal como também o contraste espacial em cada imagem de vídeo da sequência de vídeo ao levar em consideração as informações de lumínância liberadas por um módulo de captura diferente do módulo usado para a captura da sequência de vídeo.
[QIQOJUm outro aspecto da presente invenção diz respeito a um dispositivo para o processamento de uma sequência de vídeo, o dito dispositivo compreendendo um primeiro módulo de captura capaz de obter pelo menos uma imagem, a dita pelo menos uma imagem representando uma cena com um primeiro ângulo de captura, a dita pelo menos uma imagem sendo chamada de imagem de vídeo, sendo que o dito dispositivo compreende ainda: [01011- um segundo móduio de captura, o dito segundo módulo de captura sendo diferente do dito primeiro módulo de captura, e capaz de obter os metadados correspondentes a pelo menos uma imagem que representa a dita cena com um segundo ângulo de captura rigorosamente maior que o dito primeiro ângulo de captura, a dita pelo menos uma imagem sendo chamada de imagem geral, a dita imagem geral compreendendo a dita imagem de video, [0102] - um módulo de determinação para determinar as informações de lu-minância do dito metadado correspondente à dita imagem geral, [0103] - um módulo de conversão para a conversão de uma faixa dinâmica da dita imagem de vídeo levando em consideração as ditas informações de luminân-cia, [0104] Tal dispositivo para o processamento de uma sequência de vídeo é particularmente adaptada de modo a implementar o método para o processamento de uma sequência de video tal como acima descrito.
[0105]De acordo com um aspecto particular do dito dispositivo, o dito primeiro módulo de captura e o dito segundo módulo de captura têm diferentes frequências de captura de modo a obter respectivamente a dita imagem de vídeo e a dita imagem geral, [G106]Por exemplo, por um lado, o primeiro módulo de captura é uma clássica câmera de filme digital, por exemplo, feita pela Sony®, pela JVC®, pela Canon®, ou pela GoPro®, com uma predeterminada taxa de quadro correspondente, por exemplo, de acordo com os padrões PAL e SECAM, a 25 fps (quadros por segundo), (0107] Por outro lado, o segundo módulo de captura corresponde, por exemplo, a uma. câmera LizardQ®, a uma câmera SceneCam®, ou a uma câmera Panos-can’s MK-3® com uma taxa de uma imagem geral (correspondente a uma imagem panorâmica) a cada 5 segundos ou de uma imagem geral por segundo.
[0108] Em outras palavras, quando um primeiro módulo de captura com uma taxa de quadros de 25 fps e um segundo módulo de captura com uma taxa de quadro igual a uma imagem geral a cada cindo segundos são usados, uma mesma imagem gerai é usada para o processamento 125 das sucessivas imagens de vídeo da sequência de vídeo.
[0109JA imposição de uma taxa de quadro do segundo módulo de captura de tal modo que uma imagem gera! seja capturada a cada 5 segundos permite levar em consideração a evolução temporal da íuminâncía, por exemplo, ligada ao momento do por do sol, quando o brilho muda rapidamente.
[0110JEssa taxa de quadro do segundo módulo de captura permite, portanto, aumentar a percepção realística da sequência de vídeo, cuja faixa dinâmica é convertida de acordo com a presente invenção.
[0111]Evidentemente, esse dispositivo compreenderá as diferentes características relativas ao método para o processamento de uma imagem de video de acordo com a presente invenção, o qual foi previamente descrito e, que pode ser tomado em conjunto ou separadamente. Deste modo, as características e vantagens desse dispositivo sâo as mesmas que as do método para o processamento de uma sequência de vídeo. Por conseguinte, as mesmas não serão descritas em mais detalhes.
[0112] A presente invenção se refere ainda a um produto de programa de computador carregávei a partir de uma rede de comunicação e/ou gravado em um meio legível por computador e/ou executável por um processador, compreendendo instruções de código de programa para a implementação das etapas do método para o processamento de uma sequência de vídeo de acordo com a presente invenção.
[0113] A presente invenção também se refere a um meio legível por computador não transitório compreendendo um produto de programa de computador gravado no mesmo e capaz de ser executado por um processador, incluindo instruções de código de programa para a implementação do dito método para o processamento de uma sequência de vídeo de acordo com a presente invenção.
[0114] Embora os exemplos da presente invenção tenham sido descritos acima com relação a um número limitado de modalidades, os versados na técnica, ao ler o presente relatório descritivo, entenderão que outras modalidades podem ser concebidas sem abandonar o âmbito de aplicação da presente invenção.
[0115] Em particular, embora não explicitamente descrito, as presentes modalidades podem ser empregadas em qualquer combinação ou sub-combinações.
[0116] Tal como será apreciado por uma pessoa versada na técnica, os aspectos dos presentes princípios podem ser incorporados como um dispositivo, método ou meio legível por computador. Por conseguinte, os aspectos dos presentes princípios podem ter a forma de uma modalidade completa de hardware, uma modalidade completa de software (incluindo um firmware, um software residente, um mí-cro-código, ou coisa do gênero), ou uma modalidade que combina aspectos de software e hardware que podem ser de modo geral referidos no presente documento como um “circuito", um “módulo”, ou um “dispositivo”. Além disso, os aspectos dos presentes princípios podem ter a forma de um meio de armazenamento ilegível por computador. Qualquer combinação de um ou mais meios de armazenamento legíveis por computador poderá ser utilizada.
[01T7]Um meio de armazenamento legível por computador pode ter a forma de um produto de programa legível por computador incorporado em um ou mais meios legíveis por computador e ter um código de programa legível por computador incorporado no mesmo e executável por um computador, Um meio de armazenamento legível por computador tal como usado no presente documento é considerado um meio de armazenamento não transitório dada sua capacidade inerente de armazenar informações no mesmo, bem como sua capacidade inerente de prover a recuperação de informações a partir do mesmo. Um meio de armazenamento legível por computador pode ser, por exemplo, porém não è limitado a, sistema, aparelho, ou dispositivo eletrônico, magnético, óptico, eletromagnético, infravermelho, ou semicondutor, ou qualquer combinação adequada desses itens, Deve-se apreciar que o que se segue, embora provendo mais exemplos específicos de meios de armazenamento legíveis por computador aos quais os presentes princípios podem ser aplicados, é tão somente uma listagem ilustrativa e não exaustiva conforme prontamente apreciado por uma pessoa com conhecimento simples na técnica: um disquete de computador portátil: um disco rígido; uma memória de acesso aleatório (RAM); uma memória somente de leitura (ROM); uma memória somente de leitura programável apagávei (EPROM ou memória Flash); uma memória somente de feitura de disco compacto portátil (CD-ROM); um dispositivo de armazenamento óptico; um dispositivo de armazenamento magnético; ou qualquer combinação adequada desses itens.
[0118]Aiém disso, por exemplo, será apreciado pelos versados na técnica que os diagramas de blocos ilustrados no presente documento representam as vistas conceituais de componentes de sistema ilustrativos e/ou de um circuito que in- corporam os princípios da presente invenção. De maneira similar, será apreciado que quaisquer gráficos, fíuxogramas, diagramas de transição de estado, pseudocó-digos, ou coisa do gênero representam os vários processos que podem ser substancialmente representados em um meio de armazenamento legível por computador e, portanto, executados por um computador ou processador, queira ou não tal computador ou processador seja expllcitamente mostrado.
4. BREVE DESCRIÇÃO DOS DESENHOS
[0119] Outras características e vantagens das modalidades da presente invenção surgirão ao ler o relatório descritivo a seguir, provido a título de um exemplo não restrito ou indicativo (as modalidades da presente invenção não se limitam às características e vantagens das modalidades descritas no presente documento) ou aos desenhos em anexo, nos quais: [0120] - as Figuras 1A e 1B ilustram respectivamente as etapas implementadas de acordo com o principio geral da presente técnica e as correspondentes imagens de vídeo e de imagem geral, [0121] - a Figura 2 ilustra uma primeira modalidade da presente técnica.
[0122] - a Figura 3 ilustra uma segunda modalidade da presente técnica, [0123] - a Figura 4 apresenta a estrutura simplificada de um dispositivo para o processamento de uma sequência de vídeo de acordo com a presente invenção.
5. DESCRIÇÃO DAS MODALIDADES 5.1. Princípio Gera!
[0124JA presente invenção, de acordo com suas diferentes modalidades, primeiramente se baseia nas informações de luminância requeridas para uma conversão de faixa dinâmica em tempo real de uma sequência de vídeo e determinadas a-partir de uma imagem geral feita por um módulo de captura diferente do módulo usado para a captura de cada imagem de vídeo.
[0125]Deste modo, em um momento t as informações de luminância requerí- das para uma boa conversão de faixa dinâmica de uma imagem de vídeo corrente são providas por um móduio de captura capaz de capturar os metadados correspondentes a uma imagem gera! com um ângulo de captura maior que o ângulo de captura usado pelo módulo de captura que captura cada imagem de vídeo, [0126}Essa imagem gera! contém, de fato, em tempo real, as informações de luminância relevantes que seriam determinadas de acordo com a técnica anterior somente pelo pós-processamento da sequência de vídeo inteira e assim que todas as imagens (ou quadros) da sequência de vídeo fossem conhecidas, [Q127]Consequentemente, a presente invenção permite uma transmissão em tempo real e evita o pós-processamento de acordo com a técnica anterior.
[0128] Em relação ás Figuras 1A e 1B, as etapas principais do método para o processamento de uma sequência de video são detalhadas a seguir.
[0129] Primeiramente, uma imagem de vídeo Im. também chamada de um quadro, é obtida (13) ao usar um primeiro módulo de captura (120), por exemplo, uma câmera de alta faixa digital que faz uma imagem de vídeo de faixa HDR. Esta imagem de vídeo compreende os valores de luminância física (expressos em in gravados pela dita câmera de faixa HDR em um momento í a partir de uma cena inteira que é correntemente filmada, [Q13Q]Em paralelo, ou prevíamente, o metadado Meta_Is de uma imagem geral diferente is da imagem de vídeo é liberado por um segundo módulo de captura (121) que é capaz de fazer uma representação da cena inteira, da qual os diferentes quadros de vídeo Im. (com 1 ~ ; £ N , com sendo o número de quadros da sequência de vídeo) oferecem os diferentes pontos de vista da dita cena.
[0131]O dito segundo módulo de captura (121) é um sensor correspondente, por exemplo, a uma câmera LizardQ®, a uma câmera SceneCam®, ou a uma câmera MK-3® da Panoscan. Considerando o caso da câmera LizardQ®, o dito sensor implementa a combinação de instantâneos do tipo olho de peixe de múltiplos qua- dros de 22 megapixels cada, capturados a partir de 5+1 diferentes direções.
[0132] Esse segundo módulo de captura é caracterizado também por uma faixa de tempo de captura de 15 segundos a 1 minuto, usa, por exemplo, um sensor Canon EOS 5D Mark lil com várias exposições a capturar de até 30 f-stops e que permite exposição demorada de até 30 segundos para uma captura noturna, por exemplo..
[0133] 0 metadado Meta_ls e/ou a representação feita pelo dito segundo módulo de captura (121) podem ser de qualquer resolução, profundidade de bits (LDR 8-bits ou HDR) e apenas a luma poderá ser provida (de fato, o canal de cor não é requerido pelo método de acordo com a presente invenção).
[0134] Ta! como ilustrado pela Figura 1B, a imagem geral is é feita pelo segundo módulo de captura 2nd_CM, que implementa um ângulo de captura C2 rigorosamente maior que o ângulo de captura Cl implementado pelo primeiro módulo de captura 1st_CM, que faz as imagens de video da sequência de vídeo. Considerando tal diferença de ângulos de captura (campos de visão) (C1 e C2) entre o primeiro e o segundo módulo de captura, a imagem geral feita pelo segundo módulo de captura (121) é uma representação da cena, por exemplo, um panorama ou uma representação totalmente esférica, cujo tamanho é rigorosamente maior que as imagens de vídeo da sequência de vídeo.
[0135] Pode-se notar que o dito primeiro módulo de captura 1sl_CM e o dito segundo módulo de captura 2nd_CM são proximamente localizados ou superpostos dentro de um único dispositivo.
[G136]Pode~se também considerar que o dito primeiro módulo de captura 1st_CM e o dito segundo módulo de captura 2nd_CM seriam separados por uma distância de modo a não permitir o embutimento dos mesmos em um mesmo alojamento. Nesse caso, o dispositivo de acordo com a presente invenção correspondería a um sistema distribuído.
[Q137]Além disso, o dito primeiro módulo de captura e o dito segundo módulo de captura têm diferentes frequências de captura de modo a obter, respectivamente, as ditas imagens de vídeo lMi e a dita imagem geraf ls.
[0138]Por exemplo, o primeiro módulo de captura implementa uma predeterminada taxa de quadro de 25 fps (quadros por segundo), enquanto o segundo módulo de captura pode capturar uma imagem gera! (correspondente a uma imagem panorâmica) a cada 5 segundos ou uma imagem geral por segundo. {0139]Em outras palavras, quando um primeiro módulo de captura com uma taxa de quadros de 25 fps, e um segundo módulo de captura com uma taxa de quadros igual a uma imagem geral a cada cinco segundos são usados, uma mesma imagem gera! Is é usada para o processamento de 125 imagens de vídeo sucessivas da sequência de vídeo.
[0140]De maneira mais precisa, tal como se pode notar na Figura 1B, as diferentes imagens de vídeo Imi, Jm2 e lM3 são capturadas em momentos diferentes ti, t2 e t3, dependendo, por exemplo, do movimento (representado por uma curva 1200) de um objeto representado por um pixel p, e são colocadas em diferentes zonas da cena inteira, tal como representado pela imagem geral ls que é usada durante um período T(s que compreende pelo menos os diferentes momentos ti, t2 e t3. Tal como se pode observar, qualquer uma das imagens de vídeo !mi, !m2 e Ims é compreendida na dita imagem geral ls.
[0141 ]Tal como ilustrado pela Figura 1B, é possível que tais quadros diferentes da sequência de vídeo sejam colocados nas, ou se sobreponham às, diferentes zonas de luminância Zi, Z2 e Z3 da cena inteira, tal como representado pela imagem geral !s.
[0142]Cada zona corresponde a um conjunto de pixels, sendo que o valor de luminância de cada pixel pertencente à dita zona fica compreendido entre dois valores limite de luminância L10 e Lu para a zona de luminância Z^í L20, e L2i para a zo- na de íuminância Z2, L30, e L31 para a zona de íuminância Z3, por exempfo.
[0143]Pode-se notar que, na Figura 1B, essas zonas correspondem às bandas adjacentes de uma largura diferente, porém essas zonas poderão ser espacialmente separadas com diferentes formas, tais como quadradas, circulares, ou parte de um círculo (por exemplo, o sol, a lua), etc.
[0144}Pode-se notar que essas zonas são realmente maiores que as imagens de vídeo Imi, hra e fwn feitas pelo primeiro módulo de captura. Sendo assim, as informações de íuminância usadas para a definição de tais zonas de íuminância na cena total poderão ser desconhecidas, começando apenas a partir das imagens de vídeo, tal como é feito na técnica anterior, [0145}Em outras palavras, nessa imagem geral da cena inteira, é possível que a fonte de uma luz máxima, por exemplo, o soi, se focalize no lado esquerdo e fora da imagem lMi- [0146] Quando a imagem de vídeo e o metadado Meta_ls da dita imagem gerai lS( são obtidos, é possível determinar (15) as informações de íuminância l)um do dito metadado Meta_js correspondentes à dita imagem geral. As ditas informações de Íuminância correspondem, por exemplo, âs relevantes informações de íuminância hum que poderão aparecer nas imagens seguintes da sequência de vídeo após um movimento da câmera.
[0147] Por exemplo, em um momento t1t é possível que as informações de Íuminância relevantes l(um, que permitem manter uma coerência temporal e, por conseguinte, requeridas para uma boa conversão de faixa dinâmica pertençam à imagem seguinte («3 capturada em um momento t3> ti.
[0148] Sendo assim, a etapa de determinação da presente invenção é capaz de encontrar essas informações de íuminância relevantes no momento t,, uma vez que as mesmas são conhecidos no mesmo momento tt graças ao metadado Meta_ls da dita imagem gera! ls [0149] De acordo com um primeiro aspecto, é possível que tal informação de luminância corresponda à luminância máxima que pode ser detectada na imagem gerai que representa a cena inteira capturada por todos os quadros da sequência de vídeo.
[0150] Deste modo, essa etapa de determinar as informações de luminância implementa a detecção da luminância máxima dentre os metadados providos pelo segundo módulo de captura.
[0151] Em outras palavras, de acordo com esta variante, a luminância W será diretamente um valor de luminância, e a conversão seguinte da faixa dinâmica (DR) (16) da imagem de vídeo lMi consistirá em garantir a coerência temporal, em outras palavras, todos os valores de luminância da imagem de vídeo lm terão de ser menores que a luminância máxima l(um liberada pela dita etapa de determinação (15).
[0152] 5.2. Descrição de uma primeira modalidade do método para o processamento de uma sequência de vídeo.
[0153] De acordo com uma primeira modalidade, a conversão seguinte da faixa dinâmica (DR) (16) consistirá em levar em consideração a luminância W para a computação do Operador de Mapeamento de Tons. Em outras palavras, o operador TMO é modificado usando as informações de luminância S|üm do dito metadado Meta_Js que corresponde à dita imagem geral, [Q154]Por exemplo, considerando o operador de mapeamento de tons PTR, descrito em detalhes por E. REINHARD, cujo princípio é modificar o componente de luminância Lw da imagem de vídeo a fim de obter um componente de luminância modificado Ld por meto do uso de uma curva de mapeamento do tipo stgmótde dada a seguinte equação: r [0155]- com LWhíte sendo um valor de luminância para as áreas de clipe da di- ta imagem de vídeo Imi com altos valores de luminância, Lã sendo um tamanho de matriz cujo tamanho é o da imagem de vídeo Imi e compreende os valores de luminância dos pixels da dita imagem Imi que são expressos em uma faixa dinâmica de valores dinâmicos menores que a faixa original dos valores dinâmicos da imagem de vídeo lMt, e sendo uma matriz cujo tamanho é o da imagem de vídeo Imi e compreende os valores de luminância: [0158]- com g sendo um valor de exposição selecionado, * sendo correspondente às informações de iurnínância ljum de acordo com uma primeira modalidade da presente invenção, geralmente chamada de chave, que é extraída do dito meta-dado Metajs correspondente à dita imagem geral e que defines uma indicação de brilho na dita imagem de vídeo Imv [0157] - com B sendo o número de pixels da dita imagem de vídeo lMi, 5 sendo um valor para evitar uma singularidade, e f-r.OO sendo o valor de luminância de um pixel « do componente de luminância da imagem de vídeo !mi- [0158] De acordo com um outro aspecto e dependendo da técnica de mapeamento de tons selecionada, as informações de luminância ί(ϋΓη correspondem a um grupo de metadados compreendendo as informações de luminância mais relevantes para a conversão da faixa dinâmica do vídeo, tai grupo de metadados correspondendo a uma zona reduzida da imagem geral.
[0159] Taís informações mais relevantes podem ser o valor de luminância máximo da cena, ou, de preferência, as ditas informações mais relevantes são obtidas ao classificar os valores de luminância da cena em uma ordem ascendente e ao reter como a informação de luminância l!um o valor correspondente ao percentif 99thl.
[0180]Sendo assim, com relação a esse aspecto, a conversão (16) da faixa dinâmica (DR) consistirá na análise desse grupo de metadados de acordo com um critério predeterminado (definido pelo padrão entrado pelo usuário ou envolvido pela implementação de um método da técnica anterior após a implementação de sub-etapas sucessivas de acordo com uma primeira modalidade da dita presente invenção), de modo a derivar o valor de (uminância mais relevante que deve ser usado como a referência de luminância de modo a obter uma redução de faixa dinâmica resultante, o dito valor de luminância nem sempre correspondendo a uma luminância máxima da dita imagem geral ou de uma parte da dita imagem geral.
[0161 ]Com efeito, alguns efeitos artísticos objetivam em "queimar" áreas a fim de manter a dinâmica de algumas partes da imagem na qual as informações são mais importantes. Como uma ilustração, os valores correspondentes ao sol são ignorados, uma vez que o objetivo do cenário da sequência de vídeo não é bem representar o sol. O sol será, portanto, “queimado” de modo a representar bem o resto da cena.
[0162]As sub-etapas de taf etapa de determinação da informação de luminância í|Um (15) são mais detalhadas a seguir, considerando a primeira modalidade da presente invenção, taf como ilustrado pela Figura 2.
[G163]Em alguns casos, a conversão (16) da faixa dinâmica (DR) de acordo com a presente invenção permite a conversão de imagens de vídeo de faixa HDR em imagens de video de faixa LDR, ao mesmo tempo mantendo uma coerência temporal entre as ditas imagens de video a fim de permitir uma transmissão em tempo real por um dispositivo de transmissão (17) que lida com quadros de vídeo de faixa LDR.
[G164]5.3, Descrição de uma segunda modalidade do método para o processamento de uma sequência de vídeo.
[0165]Com relação à Figura 3, uma segunda modalidade é descrita, na qual a conversão de faixa DR em tempo real (16) de cada imagem de vídeo implementa a técnica de Coerência de Brilho (BC) e. mais vantajosamente, a técnica de Coerência de Brilho Zonal (ZBC) da técnica anterior.
[0166] Nesse caso em particular, a etapa de determinar (15) as informações de iuminância lSum libera uma informação de iuminância l)um que corresponde à área relevante da imagem geral !s, na entrada de uma análise de coerência ZBC.
[0167] Tal como ilustrado pela Figura 3, essa segunda modalidade implementará, por um lado, um mapeamento de tons (30) da dita imagem de vídeo Imi que comunica pelo menos uma imagem de tom mapeado, e, por outro lado, uma coerência de brilho ou, mais vantajosamente, uma análise de coerência de brilho zonal (31) levando em consideração as ditas informações de Iuminância í(um que comunicam as zonas de âncora da dita imagem gerai.
[0168}De acordo com essa segunda modalidade, as informações de iumi-nância f(urr, extraídas da imagem geral ís não são, portanto, usadas no sentido de modificar o operador de mapeamento de tons (tal como implementado de acordo com a primeira modalidade), porém na entrada da análise de coerência ZBC um põs-processamento é aplicado a uma imagem de tom mapeado obtida usando um clássico operador TMO.
[0169] Considerando a aplicação em tempo real da presente invenção, a etapa de mapeamento de tons aplicada na imagem de vídeo em questão e a análise de coerência de brilho aplicada na imagem geral poderão ser implementadas em paralelo a fim de economizar tempo.
[0170] IVIais precisamente, a técnica desenvolvida pelos inventores usa o valor de quadro chave k (vide equação (2)) no sentido de preservar a razão de brilho de faixa HDR (correspondente ao brilho de faixa HDR de um quadro com relação â âncora (o brilho mais alto da sequência de vídeo)) na sequência de faixa LDR de tons mapeados.
|0171 ]A razão de brilho de faixa HDR é igual à razão de brilho de faixa LDR quando: 10172]- sendo que é o valor chave do i-ésimo quadro de faixa HDR (imagem de vídeo) e é vafor chave mais alto da sequência (correspondente ao quadro com mais brilho, ou seja, a âncora). De maneira similar, são, respectivamente, o valor chave do i-ésimo quadro de faixa LDR e o valor chave da versão de tons mapeados da âncora. A fim de atender à equação (4), a iuma de tons mapeados ld do i-ésimo quadro é escalado no sentido de obter a coerência de brilho (BC) da Iuma do mapa de tons pós-processado Asc de acordo com a seguinte equação (5): (5) [0173] - sendo que representa a razão de escala do i-ésimo quadro e C é um parâmetro definido pelo usuário a fim de evitar uma razão de baixa escala.
[0174] Na técnica da arte anterior, taf como descrita por BOITARD et ai. (“Zonal Bríghtness Coherency for video tone mapping”), a fim de determinar a âncora, ou seja, a imagem de vídeo (também chamada de quadro) com o valor chave máximo do quadro de faixa HDR, uma análise de video é realizada antes da operação de mapeamento de tons.
[G175]Taf pós-processamento de toda a sequência de vídeo não é possível ao se considerar uma transmissão em tempo real que requer uma conversão de faixa DR em tempo real (16) conforme objetivada pela presente invenção.
[0176] Sendo assim, a presente invenção propõe evitar esse pós-processamento de toda a sequência de vídeo ao se aplicar o método de coerência de brilho à imagem geral ls ou ao metadado Meta_ls correspondente à imagem geral ls da cena feita pelo segundo módulo de captura (121).
[0177] Deste modo, os valores chave das equações (4) e (5) são diretamente obtidos (31) em tempo real a partir da imagem gera! is.
[0178]Pode~se notar que o método de coerência de brilho BC tal como descrito acima funciona bem quando as flutuações de brilho na cena mudam de uma maneira global.
[0179JMo entanto, conforme notado no documento {"Zonal Bríghtness Cohe-rency for video tone mapping"), para flutuações focais, essa técnica faz uma escala similar de cada pixel de um quadro, resultando em uma perda do contraste espacial devido à reduzida faixa dinâmica.
[0180]Sendo assim, para fins de aperfeiçoamento, foi proposto aplicar o método de coerência BC às zonas ao invés de ao quadro inteiro, o que constitui o princípio geral do método de coerência de brilho zonal (ZBC).
[G181]De acordo com a presente invenção, e com vantagem, o método de coerência ZBC é aplicado à imagem geral l5 ou ao metadado Meta _ls correspondente à imagem geral da cena feita pelo segundo módulo de captura (121).
[0182)Mais precisamente, uma segmentação baseada em histogramas divide a imagem geral !e em segmentos (ou bandas) no domínio da luminância. Uma vez que os limites dos segmentos mudam de quadro para quadro, podem aparecem artefatos trêmulos. A fim de evitar tremulação, as zonas de luminância de vídeo baseadas nos valores chave do segmento são computadas como as zonas Zi, Z2 e Z3 da Figura 1B.
[0183JDe acordo com a presente invenção, tal segmentação implementada na etapa da análise de coerência ZBC (31) compreende as seguintes sub-etapas: [0184]- computar o hisiograma de luminância da imagem geral ls partindo do metadado Meta Js correspondente à imagem geral, ou começando a partir da imagem geral reduzida tst, - encontrar os máximos locais no dito histograma, - remover os máximos locais que são muito próximos uns aos outros, - encontrar os mínimos locais entre máximos focais sucessivos, - definir os mínimos locais como limites dos segmentos, - computar o valor chave para cada segmento.
[0185] Com vantagem, pode-se observar que as etapas sucessivas acima são implementadas apenas uma vez na imagem geral L partindo do metadado Metals correspondente à imagem geral, ou começando a partir da imagem geral reduzida lsr, enquanto que, na técnica anterior, essas etapas têm de ser repetidas para cada imagem de vídeo da sequência de vídeo, o que requer que todas as imagens de vídeo da sequência de vídeo sejam conhecidas, o que é, portanto, incompatível com uma transmissão em tempo real por parte de um dispositivo de faixa LDR.
[0186] Pode-se notar que, de acordo com essa segunda modalidade, a etapa de análise de coerência ZBC é implementada quando as etapas de determinação da localização da imagem de vídeo em questão Imi na imagem gera! Is e na imagem de recorte são implementadas, e antes da conversão de faixa DR, o que consiste na modificação do operador TMO.
[G187]Sendo assim, de acordo com essa segunda modalidade, pode ser considerado que tal etapa de análise de coerência ZBC (23) é, por um lado, opcional (em linha pontilhada) compreendida na etapa de determinação das informações de luminância (15) e das informações de luminância l|Um correspondentes, nesse caso, às zonas de âncora, ou que essa etapa é, por outro lado, incluída na etapa de conversão de faixa QR (16) tal como representado pela Figura 3. (0188]Sendo assim, ao se considerar o dispositivo que implementa o método de acordo com essa segunda modalidade da presente invenção, o módulo de determinação para determinar as informações de luminância lium pode compreender um meio para a implementação de uma análise de coerência ZBC da imagem geral lB de acordo com uma primeira variante, ou, de acordo com uma segunda variante, esse módulo de conversão, que compreende tal meio para a implementação de uma análise de coerência ZBC da imagem geral ls f0189JAIém disso, de acordo com essa segunda modalidade, quando a análise de coerência ZBC é realizada, a conversão de faixa DR compreende também as seguintes etapas sucessivas: {0190]- uma modificação {32) da dita pelo menos uma imagem de tom mapeado da dita imagem de vídeo usando as ditas zonas de âncora das ditas imagens gerais, comunicando pelo menos uma imagem de tom mapeado modificada, [0191]- uma redistribuição de nível tonal (33) da dita imagem de vídeo usando a dita imagem mapeada modificada, {0192]- uma conversão (34) dos valores dos pontos flutuantes da dita imagem de vídeo a fim de inteirar os valores de código correspondentes, por exemplo, à profundidade de bit usada (ou seja, [G;255] para 8 bits). (0193]5.4. Descrição das diferentes variantes das informações da etapa de determinação de lumínância lium.
[G194]Gom relação â Figura 2, diferentes variantes da etapa de determinação das informações de luminância l|um (15) são detalhadas a seguir. Tais variantes podem ser aplicadas a uma ou outra dentre as duas modalidades antecedentes. Essas variantes têm por objetivo a redução do campo de detecção das informações de luminância relevantes partindo do metadado da imagem geral liberado pelo dito segundo módulo de captura. {0195]Além disso, tais variantes objetivam a solução dos problemas relacionados ao fato de que a imagem de vídeo em questão IM1 e a imagem geral Is nem sempre apresentam uma resolução correspondente ou nem sempre apresentam a correspondente faixa dinâmica.
[0196]Pode-se notar que, de acordo com a presente invenção, o termo “resolução correspondente” não implica na mesma resolução da dita imagem de vídeo lMi e da dita imagem geral ts, Na verdade, uma vez que a quantidade de informação representada em ambas as imagens é diferente, o termo “resolução correspondente" significa que, para o mesmo objeto representado nas duas imagens, o mesmo número de pixels será necessário para a ilustração do mesmo.
[0197JA fim de encontrar as informações de luminância mais relevantes lfum, a etapa de determinação (15) compreende a sub-etapa de determinação da localização (21) da imagem de vídeo em questão IM1 na dita imagem geral ls, [0198]Em outras palavras, uma operação de rastreamento ê realizada a fim de conjugar a imagem de vídeo corrente !mi à cena da imagem gera! ls e determinar a sua localização.
[Ü199]Um primeiro exemplo de implementação de tal etapa de determinação da localização da imagem de video corrente lMi dentro da imagem geral ls corresponde ao caso no qual a dita imagem de video IM1 e a dita imagem gerai ls apresentam uma correspondente resolução (Res) e uma faixa dinâmica (OR).
[020Q]Sendo assim, tal como ilustrado pela Figura 2, os dois testes (211 e 212); dão um resultado positivo “Sim”.
[0201]Nesse caso, o rastreamento é feito (213) usando uma métrica de distorção, por exemplo, a soma da diferença absoluta (SAD): {0202]- na qual C representa um valor de um predeterminado metadado da dita imagem de vídeo, S representa um valor do dito metadado predeterminado da dita imagem geral de altura N e largura M, (x, y) as coordenadas de um ponto de partida da dita imagem de vídeo, e (dx, dy) as coordenadas de uma localização testada da dita imagem de vídeo na dita imagem geral.
[Q203]Tal rastreamento emite a dita localização da imagem de vídeo corrente lMi dentro da imagem geral ls correspondendo a um ponto da dita imagem geral cujas coordenadas correspondem a um duplo (dx, dy), minimizando a distorção Distdxráy, tais coordenadas definindo, por exemplo, a borda esquerda inferior (csi conforme representado na Figura 1B) da imagem de vídeo lMi dentro da imagem de video corrente is.
[0204]Quando apenas a resolução é diferente, correspondente à saída “Não” do teste (211) a computação de distorção correspondente à equação (4) é calculada com uma escala diferente “s” (2110), em outras palavras, usando pelo menos duas escalas diferentes s-ι e s2.
[G205]Nesse caso, o tripleto (dx, dy, s) que minimiza a distorção é a saída da localização de correspondência.
[0206] Quando apenas a faixa dinâmica é diferente, correspondendo à saída “Não” do teste (212) é primeiramente necessário corresponder a faixa dinâmica de ambas as entradas correspondentes respectivamente à dita imagem de vídeo corrente \m e à dita imagem geral ls.
[0207] Uma vez que os valores de faixa HDR representam os valores físicos absolutos, a expansão da faixa dinâmica de uma ou de ambas as entradas para se obter os valores de faixa HDR garante que os mesmos possam ser comparados depois.
[0208] A fim de recuperar (2120) esses valores físicos de uma imagem entrada (imagem de video e/ou imagem geral), o primeiro módulo de captura (120), por exemplo, a câmera, e/ou o segundo módulo de captura (121), por exemplo, um sensor LizardQ®, são calibrados (2121). Tal como apresentado por MANN S. et ai. (“On being “UndigítaE Wíth Digital Cameras: Exiending dynamic Range by combming Dif-ferently Exposed Píctures”), in Proceedings of IS&T 46th Annual Conference (maio de 1995), pp 422-428, a calibração consiste em medir a Função de Resposta de Câmera (CRF) do primeiro módulo de captura.
[0209] Quando a função CRF é conhecida, é possível inverter a transformação não linear aplicada dentro de um dos módulos de captura e obter os valores físicos, e, em particular, a lumínâncta da imagem. f0210]Finalmente, quando ambas a resolução e a faixa dinâmica não são correspondentes entre a imagem de vídeo corrente iMi e a dita imagem geral ís, em outras palavras* quando os dois testes (211 e 212): e DRíJff) -- DR(isy dão um resultado negativo “Não”, todas as sub-etapas de recuperação dos valores físicos (2120), de formação de escala (2110) e de computação de uma distorção são aplicadas a pelo menos um ou a ambos o video e as imagens gerais.
[021 IJQuando tal localização da imagem de vfdeo em questão Imi na dita imagem geral ls é determinada, uma etapa de recorte (22) da imagem geral ls poderá também ser opcíonalmente implementada a fim de reduzir o campo que é usado para determinar as informações de luminância relevantes ljum.
[0212] Tal etapa de recorte (22) libera consequentemente uma imagem geral reduzida !sr e/ou um número reduzido de metadados Meta_lsr permitindo manter apenas as informações l»um relevantes para uma ótima conversão de faixa DR (16).
[0213] Deve-se observar que, quando a imagem geral ís apresenta uma faixa dinâmica diferente a partir da imagem de vídeo iWi, um novo redirecionamento para a mesma faixa dinâmica é realizado. Tal redirecionamento vem a ser uma simples correspondência do valor, uma vez que a localização da imagem de vídeo lMi in ls foi previamente determinada (21), e para os valores que precisam ser redirecionados e que não se encontram presentes na imagem de vídeo em questão \m é realizada uma extrapolação.
[Q214]Opcionalmente, a dita etapa de recorte poderá levar em consideração o resultado da(s) etapa(s) de recorte anteriormente imptementada(s) para o processamento das imagens (ou quadros) que precedem o quadro correntemente considerado.
[0215]Sendo assim, a redução da área usada para a determinação das informações de luminância será otimizada (em outras palavras, aumentada) com relação à imagem geral recortada usada para as imagens de vídeo anteriores.
[0218]Mais precisamente, ao se considerar a segunda modalidade, na qual uma análise de coerência ZBC ê implementada, levando em consideração o resultado da(s) etapa(s) de recorte anteriormente impiementada(s) para o processamento das imagens (ou quadros) precedentes, o corrente quadro considerado correspondería à remoção do histograma os valores que desapareceram do quadro anterior e à adição dos valores do corrente quadro considerado no sentido de reduzir o tempo de computação do histograma. f0217|Díferentes critérios podem ser usados, sozinhos ou em combinação, para o recorte da imagem geral liberada pelo segundo módulo de captura (121). f0218]Um primeiro critério consiste na extrapolação (221) do movimento do primeiro módulo de captura de modo a predizer qual conteúdo entrará na sequência de vídeo em um futuro próximo apôs o momento ti.
[G219]Com relação à Figura 1B, ta! movimento é, por exemplo, representado pela curva de movimento 1200, deste modo o âmbito da cena geral !s poderá ficar restrito a uma área reduzida limitada pela amplitude de movimento máximo de alguns pixels relevantes (por exemplo, os pontos de interesse) da sequência de vídeo em questão.
[G220JA obtenção da predição de movimento consiste na extração dos parâmetros de movimento de um primeiro módulo de captura a partir de uma sequência de imagens, por exemplo, considerando um movimento horizontal da câmera, uma inclinação, um zoom, um rolamento ou um rastreamento horizontal ou vertical. Um método de modo a obter tal predição de movimento é, por exemplo, descrito por S RI NI VAS ΑΝ Μ. V, et ai. ("Quafita tive estimation of camera motion paramelers from video sequences"), Pattern Recognítion, volume 30, Edição 4, abril de 1997, páginas 593-606.
[0221]Guando os parâmetros de movimento do primeiro módulo de captura são estimados, a etapa de recorte usará os mesmos no sentido de selecionar qual área da imagem geral é útil, [0222] Por exemplo, e tal como ilustrado pela Figura 1B, quando o movimento do primeiro módulo de captura correspondente a uma câmera é uma passagem horizontal simples, não haverá necessidade de se considerar os valores de luminân-cia dos pixels da imagem geral que se localizam fora de um retângulo (uma banda delimitada por linhas pontilhadas) lsr com um peso Nr próximo ou igual ao peso Nt da imagem de vídeo !mi e uma largura Mr próxima ou igual ao comprimento do vetor de movimento horizontal fornecido pela predição de movimento.
[0223] Sendo assim, ao se considerar o exemplo acima, uma fonte de luz localizada próxima da borda superior direita da imagem geral ls não teria nenhum impacto sobre a conversão de faixa DR (16) implementada pela presente invenção.
[0224] Além disso, levar em consideração o resultado da(s) eíapa(s) de recorte anteriormente ímplementada(s) para o processamento das imagens (ou quadros) que precedem o corrente quadro considerado poderá também ajudar a reduzir o tempo da etapa de predição de movimento do dito módulo de captura, [G225]Um segundo critério, ievado em consideração sozinho ou em combinação, consiste na extração das capacidades de o primeiro módulo de captura registrar as imagens de vídeo da cena, em outras palavras, o seu grau de liberdade. Por exemplo, considerando o caso de um jogo esportivo, o ângulo de captura C1 se limita a focar o passo da bola de futebol (ou o campo), deste modo, a maior parte das imagens de vídeo enfoca um lugar restrito e não há necessidade de se levar em consideração o valor de luminância relacionado ao céu ou ao topo do estádio, {0226]Sendo assim, levar em consideração esse critério resultará em uma imagem geral reduzida lsr com uma área cuja superfície fica relativamente próxima a um campo de futebol, e independentemente do movimento do primeiro módulo de captura.
[0227]De acordo com um terceiro critério, a imagem gerai reduzida pode ser obtida mediante o uso dos metadados entrados pelo usuário (223), que é, por exemplo, um Diretor de Fotografia (DoP). Com efeito, o Diretor de Fotografia conhece de antemão o cenário, o qual será implementado para a captura de cada imagem de vídeo da sequência de vídeo. Sendo assim, o usuário pode substituir diretamente a etapa de predição de movimento (221) ao entrar diretamente os metadados que permitem um recorte direto da imagem geral, [0228] De acordo com uma outra variante, tal metadado, entrado pelo usuário: o Diretor de Fotografia, poderá ser usado em combinação com a predição de movimento a fim de aumentar a redução da imagem geral implementada automaticamente pelo processador. Por exemplo, o Diretor de Fotografia poderá entrar uma área na imagem geral Is da cena como a de maior brilho, a fim de obter um efeito artístico no qual todo o resto da cena ficará mais escura, criando, assim, um efeito artístico como o que aparece no filme Batman “The Dark Knight".
[0229] Obviamente e com vantagem, é também possível implementar uma opção “saltar", por exemplo, por meio de um botão mecânico ou digital de uma interface homem - máquina IHM do dispositivo para o processamento de uma sequência de vídeo de acordo com a presente invenção, permitindo implementar ou não as etapas anteriores de determinação (21) da localização da imagem de vídeo em questão na imagem geral e de recorte (22), com efeito, ao se selecionar a dita opção "saltar", um modo padrão poderá ser implementado no qual toda a imagem gerai poderá ser considerada.
[0230] 5.5. Estruturas globais de um dispositivo para um processamento de vídeo fG231]Finafmente, a Figura 4 apresenta uma estrutura simplificada de um dispositivo para o processamento de uma sequência de vídeo, implementando o método para o processamento de uma sequência de vídeo de acordo com a presente invenção.
[0232] Com relação à Figura 4, um dispositivo para o processamento de uma sequência de vídeo de acordo com a presente invenção compreende uma memória 44 compreendendo uma memória temporária RAM, uma unidade de processamento 43 equipada, por exemplo, com um microprocessador μΡ e acionada peio programa de computador 45 que implementa o método para o processamento de um vídeo de acordo com a presente invenção.
[0233] Na inicialização, as instruções de código do programa de computador 45 são, por exemplo, carregadas para uma memória RAM e em seguida executadas peio processador da unidade de processamento 43.
[0234] De acordo com a presente invenção, o microprocessador da unidade de processamento 43 implementa as etapas do método para o processamento de uma sequência de vídeo descrito acima de acordo com as instruções do programa de computador 45. Para esta finalidade, o dispositivo para o processamento de uma sequência de vídeo compreende um primeiro módulo de Gaptura (41) capaz de obter peio menos uma imagem, a dita pelo menos uma imagem representando uma cena com um primeiro ângulo de captura (C1), a dita pelo menos urna imagem sendo chamada de imagem de video; um segundo módulo de captura (42), o dito segundo módulo de captura sendo diferente do dito primeiro módulo de captura, e capaz de obter o metadado correspondente a pelo menos uma imagem que representa a dita cena com um segundo ângulo de captura (C2) rigorosamente maior que o dito primeiro ângulo de captura, a dita pelo menos uma imagem sendo chamada de imagem gerai, a dita imagem geral compreendendo a dita imagem de vídeo; um módulo de determinação (46) para a determinação das informações de luminãncia do dito metadado correspondente à dita imagem geral; e um módulo de conversão (47) para a conversão de uma faixa dinâmica da dita imagem de vídeo levando em consideração as ditas informações de luminãncia, [0235JO dito primeiro módulo de captura sendo disposto (ou colocado) sobre o ou próximo ao segundo móduio de captura. {0236]Esses módulos são controlados pelo microprocessador da unidade de processamento 43.
REIVINDICAÇÕES

Claims (27)

1. Método para o processamento de uma sequência de video formada por pelo menos duas imagens de video, o dito método sendo CARACTERIZADO pelo fato de compreender a etapa de: - obter (13) as ditas pelo menos duas imagens de vídeo usando um primeiro módulo de captura (120, 41) com um primeiro campo de visão (C1), cada imagem de vídeo representando uma mesma cena capturada em momentos diferentes ou a par-tír de diferentes pontos de vista, - sendo que o dito método compreende: - a determinação (15) das informações de luminâncía de pelo menos uma imagem gera! obtida por um segundo módulo de captura (121, 42) com um segundo campo de visão maior que o dito primeiro campo de visão, a dita imagem geral representando a cena capturada em momentos diferentes ou a partir de diferentes pontos de vista; - a conversão descendente (16) de uma faixa dinâmica das ditas imagens de vídeo levando em consideração as ditas informações de luminâncía.
2. Método para o processamento de uma sequência de vídeo, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a dita etapa de determinar as informações de luminâncía da dita imagem geral compreende uma etapa anterior de determinar a localização (21) da dita imagem de vídeo na dita imagem geral.
3. Método para o processamento de uma sequência de vídeo, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que a dita etapa de determinar a localização da dita imagem de vídeo na dita imagem gerai é realizada ao se determinar uma métrica de distorção (213).
4. Método para o processamento de uma sequência de vídeo, de acordo com a reivindicação 3, CARACTERIZADO pelo fato de que a dita métrica de distor- ção corresponde à seguinte soma de diferença absoluta: - na qua! C representa um valor de um predeterminado metadado da dita imagem de vídeo, S representa um valor do dito metadado predeterminado da dita imagem gerai de aftura. N e largura M, (x, y) as coordenadas de um ponto de partida da dita imagem de vídeo, e (dx, dy) as coordenadas de uma localização testada da dita imagem de vídeo na dita imagem geral, a dita localização correspondendo a um ponto da dita imagem geral, cujas coordenadas correspondem a um dupio (dx, dy), minimizando a distorção oist*.,y,
5. Método para o processamento de uma sequência de video, de acordo com as reivindicações 3 ou 4, CARACTERIZADO pelo fato de que a dita métrica de distorção é determinada pelo menos duas vezes ao aplicar, a cada vez, um diferente ajuste de escala (2110) do seu tamanho à dita imagem de vídeo e à dita imagem geral.
6. Método para o processamento de uma sequência de vídeo, de acordo com qualquer uma das reivindicações 3 a 5, CARACTERIZADO pelo fato de que a dita etapa de determinar a localização da dita imagem de video na dita imagem gerai implementa antes as seguintes etapas à dita imagem de vídeo ou à dita imagem geral: - uma etapa de calibração (2121), comunicando uma função entre pelo menos um valor de código da dita imagem de vídeo e peto menos um valor físico, ou comunicando uma função entre pelo menos um valor de código da dita imagem geral e pelo menos um valor físico, - uma etapa de inversão (2122) da dita função que comunica os valores físicos da dita imagem de vídeo ou da dita imagem geral.
7. Método para o processamento de uma sequência de vídeo, de a Gordo com qualquer uma das reivindicações 2 a 6, CARACTERIZADO pelo fato de que a dita etapa de determinar a localização da dita imagem de vídeo na dita imagem gerai compreende uma etapa de recorte (22) da dita imagem geral.
8. (VSétodo para o processamento de uma sequência de vídeo, de acordo com a reivindicação 7, CARACTERIZADO pelo fato de que a dita etapa de recorte (22) compreende uma etapa de prediçâo de movimento (221) do dito primeiro módulo de captura.
9. Método para o processamento de uma sequência de vídeo, de acordo com as reivindicações 7 ou 8, CARACTERIZADO pelo fato de que a dita etapa de recorte (22) compreende uma etapa de determinação (222) de um grau de liberdade de captura de imagem do dito primeiro módulo de captura.
10. Método para o processamento de uma sequência de vídeo, de acordo com qualquer uma das reivindicações 7 a 9, CARACTERIZADO pelo fato de que a dita etapa de recorte (22) leva em consideração (223) os metadados entrados por um usuário.
11. Método para o processamento de uma sequência de vídeo, de acordo com quaiquer uma das reivindicações precedentes, CARACTERIZADO pelo fato de que a dita etapa de conversão (16) de uma faixa dinâmica da dita imagem de vídeo levando em consideração as ditas informações de luminância implementa as seguintes etapas: - um mapeamento de tons (30) da dita imagem de vídeo que comunica pelo menos uma imagem de tom mapeado, - uma análise de coerência de brilho zonal (31) realizada na imagem geral levando em consideração as ditas informações de luminância, comunicando as zonas de âncora da dita imagem geral, - e as seguintes etapas sucessivas; - uma modificação (32) da dita pelo menos uma imagem de tom mapeado da dita imagem de vídeo usando as ditas zonas de âncora das ditas imagens gerais. comunicando pelo menos uma imagem de tom mapeado modificada, - uma redistribuição de nível tonal (33) da dita imagem de vídeo usando a dita imagem de tom mapeado modificada, - uma conversão (34) dos valores dos pontos fíutuantes da dita imagem de vídeo a fim de inteirar os valores de código,
12- Dispositivo para o processamento de uma sequência de vídeo formada por peio menos duas imagens de vídeo, o dito dispositivo sendo CARACTERIZADO pefo fato de compreender um primeiro módulo de captura (41) capaz de obter as ditas pelo menos duas imagens com um primeiro campo de visão (C1), cada imagem de vídeo representando uma mesma cena capturada em momentos diferentes ou a partir de diferentes pontos de vista, - sendo que o dito dispositivo compreende: - um módulo de determinação (46) para determinar as informações de lumi-nâncía de pelo menos uma imagem geral obtida por um segundo módulo de captura (121, 42) com um segundo campo de visão maior que o dito primeiro ângulo de captura, a dita imagem geral representando a cena capturada em momentos diferentes ou a partir de diferentes pontos de vista; e - um módulo de conversão descendente (47) para a conversão de uma faixa dinâmica das ditas imagens de vídeo levando em consideração as ditas informações de iuminância.
13. Dispositivo, de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que o dito primeiro módulo de captura (120, 41) e o dito segundo módulo de captura (121, 42) têm diferentes frequências de captura de modo a obter, respectivamente, a dita imagem de vídeo e a dita imagem geral.
14. Dispositivo, de acordo com a reivindicação 12 ou 13, CARACTERIZADO pelo fato de que o módulo de determinação determina ainda s? localização (21) da dita imagem de vídeo na dita imagem gerai.
15. Dispositivo, de acordo com a reivindicação 14, CARACTERIZADO peio fato de que a determinação da localização da dita imagem de vídeo na dita imagem geral é realizada ao se determinar uma métrica de distorção.
16. Dispositivo, de acordo com a reivindicação 15, CARACTERIZADO pelo fato de que a dita métrica de distorção corresponde à seguinte soma de diferença absoluta: - na qual C representa um valor de um predeterminado metadado da dita imagem de vídeo, S representa um valor do dito metadado predeterminado da dita imagem geral de altura N e largura M, (x, y) as coordenadas de um ponto de partida da dita imagem de vídeo, e (dx, dy} as coordenadas de uma localização testada da dita imagem de vídeo na dita imagem geral, a dita localização correspondendo a um ponto da dita imagem geral, cujas coordenadas correspondem a um duplo (dx, dy), minimizando a distorção
17. Dispositivo, de acordo com a reivindicação 15 ou 16, CARACTERIZADO pelo fato de que a dita métrica de distorção é determinada peio menos duas vezes ao aplicar, a cada vez, um diferente ajuste de escala do seu tamanho à dita imagem de vídeo e â dita imagem geral.
18. Dispositivo, de acordo com uma das reivindicações 14 a 17, CARACTERIZADO peio fato de que o módulo de determinação implementa ainda à dita imagem de vídeo ou a dita imagem geral: - uma catibração, comunicando uma função entre pelo menos um valor de código da dita imagem de vídeo e pelo menos um valor físico, ou comunicando uma função entre pelo menos um valor de código da dita imagem geral e pelo menos um valor físico, - uma inversão (2122) da dita função que comunica os valores físicos da dita imagem de vídeo ou da dita imagem geral.
19. Dispositivo, de acordo com uma das reivindicações 14 a 18, CARACTERIZADO pelo fato de que a determinação da localização da dita imagem de video na dita imagem geral compreende o recorte da dita imagem geral.
20. Dispositivo, de acordo com a reivindicação 19, CARACTERIZADO pelo fato de que o dito recorte compreende um preditor de movimento do dito primeiro módulo de captura.
21. Dispositivo, de acordo com a reivindicação 19 ou 20, CARACTERIZADO pelo fato de que o dito recorte compreende a determinação de um grau de liberdade de captura de imagem do dito primeiro módulo de captura.
22. Dispositivo, de acordo com uma das reivindicações 19 a 21, CARACTERIZADO pelo fato de que o dito recorte leva em consideração os metada- dos entrados por um usuário.
23. Dispositivo, de acordo com uma das reivindicações 12 a 22, CARACTERIZADO pelo fato de que a conversão de uma faixa dinâmica da dita imagem de vídeo levando em consideração as ditas informações de luminância compreende: - o mapeamento de tons da dita imagem de vídeo, comunicando pelo menos uma imagem de tom mapeado, - a análise de coerência de brilho zonal (31) realizada na imagem geral levando em consideração as ditas informações de luminância, comunicando as zonas de âncora da dita imagem geral, - a modificação da dita pelo menos uma imagem de tom mapeado da dita imagem de vídeo usando as ditas zonas de âncora das ditas imagens gerais, comunicando pelo menos uma imagem de tom mapeado modificada, - a redístribuição do nível tonal da dita imagem de vídeo usando a dita imagem de tom mapeado modificada, e - a conversão dos valores dos pontos flutuantes da dita imagem de vídeo a fim de inteirar os valores de código.
24. Dispositivo, de acordo com uma das reivindicações 12 a 23, CARACTERIZADO pelo fato de que o segundo módulo de captura é um sistema de câmera capaz de criar imagens panorâmicas ou totalmente esféricas de aita resolução.
25. Dispositivo, de acordo com uma das reivindicações 12 a 23, CARACTERIZADO pelo fato de que o sistema de câmera é ainda configurado de modo a criar imagens panorâmicas ou totalmente esféricas de alta resolução com alta faixa dinâmica.
26. Produto de programa de computador carregávef a partir de uma rede de comunicação e/ou gravado em um meio legível por computador efou executável por um processador, o produto de programa de computador sendo CARACTERIZADO pelo fato de compreender instruções de código de programa para a implementação das etapas do método para o processamento de uma sequência de video, de acordo com uma das reivindicações 1 a 11.
27. Meio legível por computador não transitório compreendendo um produto de programa de computador gravado no mesmo e capaz de ser executado por um processador, o meio legível por computador não transitório sendo CARACTERIZADO pelo fato de incluir instruções de código de programa para a implementação das etapas do método para o processamento de uma sequência de vídeo, de acordo com uma das reivindicações 1 a 11.
BR102015006040A 2014-03-18 2015-03-18 método para o processamento de uma sequência de vídeo, correspondentes dispositivo, programa de computador e meio legível por computador não transitório BR102015006040A2 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP14305379.1A EP2922288A1 (en) 2014-03-18 2014-03-18 Method for processing a video sequence, corresponding device, computer program and non-transitory computer-readable medium

Publications (1)

Publication Number Publication Date
BR102015006040A2 true BR102015006040A2 (pt) 2016-08-02

Family

ID=50442451

Family Applications (1)

Application Number Title Priority Date Filing Date
BR102015006040A BR102015006040A2 (pt) 2014-03-18 2015-03-18 método para o processamento de uma sequência de vídeo, correspondentes dispositivo, programa de computador e meio legível por computador não transitório

Country Status (6)

Country Link
US (1) US9489726B2 (pt)
EP (2) EP2922288A1 (pt)
JP (1) JP2015180062A (pt)
KR (1) KR20150108774A (pt)
CN (1) CN104935826A (pt)
BR (1) BR102015006040A2 (pt)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2875487B1 (fr) * 2012-07-18 2022-11-30 InterDigital VC Holdings, Inc. Procede et dispositif de conversion d'une sequence d'image dont les valeurs de luminance appartiennent a une plage de valeurs de dynamique elevee
JP6237797B2 (ja) * 2016-01-05 2017-11-29 ソニー株式会社 ビデオシステム、ビデオ処理方法、プログラム、およびビデオコンバーター
KR102488954B1 (ko) 2016-05-16 2023-01-16 엘지전자 주식회사 영상 처리 장치 및 그의 영상 처리 방법
US9934758B1 (en) * 2016-09-21 2018-04-03 Gopro, Inc. Systems and methods for simulating adaptation of eyes to changes in lighting conditions
JP6852411B2 (ja) * 2017-01-19 2021-03-31 ソニー株式会社 映像信号処理装置、映像信号処理方法およびプログラム
CN107358579B (zh) * 2017-06-05 2020-10-02 北京印刷学院 一种游戏战争迷雾实现方法
CN109151295B (zh) * 2017-06-16 2020-04-03 杭州海康威视数字技术股份有限公司 一种目标对象抓拍方法、装置及视频监控设备
US10031526B1 (en) * 2017-07-03 2018-07-24 Baidu Usa Llc Vision-based driving scenario generator for autonomous driving simulation
CN111149346B (zh) * 2017-09-28 2021-07-13 杜比实验室特许公司 用于编码和解码高动态范围视频的方法、装置和介质
US10657627B2 (en) * 2018-01-23 2020-05-19 Gopro, Inc. Temporal smoothing in image capture systems
JP7073120B2 (ja) 2018-01-26 2022-05-23 キヤノン株式会社 映像送信装置、情報処理装置、システム、情報処理方法及びプログラム
US10546554B2 (en) * 2018-03-26 2020-01-28 Dell Products, Lp System and method for adaptive tone mapping for high dynamic ratio digital images
WO2022019539A1 (ko) * 2020-07-20 2022-01-27 삼성전자 주식회사 이미지를 처리하기 위한 방법 및 장치
US11388348B2 (en) 2020-07-20 2022-07-12 Samsung Electronics Co., Ltd. Systems and methods for dynamic range compression in multi-frame processing
KR20220128800A (ko) * 2021-03-15 2022-09-22 에스케이하이닉스 주식회사 파노라마 이미지 생성 장치 및 방법
CN114245029B (zh) * 2021-12-20 2023-08-01 北京镁伽科技有限公司 基于fpga的数据流处理方法、装置及pg设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050057670A1 (en) 2003-04-14 2005-03-17 Tull Damon L. Method and device for extracting and utilizing additional scene and image formation data for digital image and video processing
JP3861888B2 (ja) 2003-09-19 2006-12-27 セイコーエプソン株式会社 映像記録方法、映像記録装置、映像記録媒体、映像表示方法、及び映像表示装置
US7990422B2 (en) * 2004-07-19 2011-08-02 Grandeye, Ltd. Automatically expanding the zoom capability of a wide-angle video camera
GB0820416D0 (en) * 2008-11-07 2008-12-17 Otus Technologies Ltd Panoramic camera
EP3467816A1 (en) 2010-02-24 2019-04-10 Dolby Laboratories Licensing Corp. Display management methods and apparatus
US9024961B2 (en) 2011-12-19 2015-05-05 Dolby Laboratories Licensing Corporation Color grading apparatus and methods
JP5860304B2 (ja) * 2012-02-23 2016-02-16 キヤノン株式会社 撮像装置及びその制御方法、プログラム、並びに記憶媒体
CN105144231B (zh) 2013-02-27 2019-04-09 汤姆逊许可公司 选择图像动态范围转换算子的方法和设备
CN103413339B (zh) * 2013-07-23 2016-08-10 清华大学 十亿像素高动态范围图像重建与显示的方法
GB2520319A (en) * 2013-11-18 2015-05-20 Nokia Corp Method, apparatus and computer program product for capturing images

Also Published As

Publication number Publication date
EP2922288A1 (en) 2015-09-23
US9489726B2 (en) 2016-11-08
US20150269714A1 (en) 2015-09-24
CN104935826A (zh) 2015-09-23
EP2922289A1 (en) 2015-09-23
JP2015180062A (ja) 2015-10-08
KR20150108774A (ko) 2015-09-30

Similar Documents

Publication Publication Date Title
BR102015006040A2 (pt) método para o processamento de uma sequência de vídeo, correspondentes dispositivo, programa de computador e meio legível por computador não transitório
US20220343678A1 (en) System, method, and computer program for capturing an image with correct skin tone exposure
US10475237B2 (en) Image processing apparatus and control method thereof
US9558543B2 (en) Image fusion method and image processing apparatus
US10284789B2 (en) Dynamic generation of image of a scene based on removal of undesired object present in the scene
US8933985B1 (en) Method, apparatus, and manufacture for on-camera HDR panorama
WO2019072190A1 (zh) 图像处理方法、电子装置和计算机可读存储介质
CN105578021B (zh) 双目相机的成像方法及其装置
TWI464526B (zh) 高動態範圍影像曝光時間控制方法
JP6193721B2 (ja) 画像処理装置及び画像処理方法、プログラム、記憶媒体
US20150373247A1 (en) Method and apparatus for dynamic range expansion of ldr video sequence
WO2014093048A1 (en) Determining an image capture payload burst structure
KR20180132210A (ko) 컬러반응곡선을 이용한 hdr 영상 생성방법, hdr 영상 생성장치, 카메라 및 기록매체
WO2022066726A1 (en) Saliency based capture or image processing
JP6937603B2 (ja) 画像処理装置およびその制御方法、プログラム、並びに記憶媒体
JP7292905B2 (ja) 画像処理装置及び画像処理方法、及び撮像装置
JP2018182700A (ja) 画像処理装置およびその制御方法、プログラム、並びに記憶媒体
JP6541416B2 (ja) 画像処理装置及び画像処理方法、プログラム、記憶媒体
Lin et al. Extended Dynamic Range imaging: A spatial down-sampling approach
Mangiat et al. Automatic scene relighting for video conferencing
US11935285B1 (en) Real-time synthetic out of focus highlight rendering
Thanh et al. Color Stabilization for Multi-Camera Light-Field Imaging
JP6995582B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP6663246B2 (ja) 画像処理装置、撮像装置およびこれらの制御方法ならびにプログラム
Dragomir et al. VOTING-BASED HDR COMPRESSION.

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B08F Application dismissed because of non-payment of annual fees [chapter 8.6 patent gazette]

Free format text: REFERENTE A 5A ANUIDADE.

B08K Patent lapsed as no evidence of payment of the annual fee has been furnished to inpi [chapter 8.11 patent gazette]

Free format text: REFERENTE AO DESPACHO 8.6 PUBLICADO NA RPI 2558 DE 14/01/2020.