BRPI0911016B1 - método de provisão de um sinal de imagem tridimensional, sistema de provisão de sinal de imagem tridimensional, sinal que contém uma imagem tridimensional, mídia de armazenamento, método de renderização de uma imagem tridimensional, sistema de renderização de imagem tridimensional para renderizar uma imagem tridimensional - Google Patents

método de provisão de um sinal de imagem tridimensional, sistema de provisão de sinal de imagem tridimensional, sinal que contém uma imagem tridimensional, mídia de armazenamento, método de renderização de uma imagem tridimensional, sistema de renderização de imagem tridimensional para renderizar uma imagem tridimensional Download PDF

Info

Publication number
BRPI0911016B1
BRPI0911016B1 BRPI0911016-0A BRPI0911016A BRPI0911016B1 BR PI0911016 B1 BRPI0911016 B1 BR PI0911016B1 BR PI0911016 A BRPI0911016 A BR PI0911016A BR PI0911016 B1 BRPI0911016 B1 BR PI0911016B1
Authority
BR
Brazil
Prior art keywords
image
rendering
depth
depth map
dimensional image
Prior art date
Application number
BRPI0911016-0A
Other languages
English (en)
Inventor
Reinier B. M. Klein Gunnewiek
Philip S. Newton
Wilhelmus H. A. Bruls
Gerardus W. T. Van Der Heijden
Original Assignee
Koninklijke Philips N.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=41066194&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0911016(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips N.V. filed Critical Koninklijke Philips N.V.
Publication of BRPI0911016A2 publication Critical patent/BRPI0911016A2/pt
Publication of BRPI0911016B1 publication Critical patent/BRPI0911016B1/pt

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/254Image signal generators using stereoscopic image cameras in combination with electromagnetic radiation sources for illuminating objects
    • H04N13/0018
    • H04N13/0022
    • H04N13/0029
    • H04N13/0037
    • H04N13/0048
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

MÉTODO DE PROVISÃO DE UMA IMAGEM TRIDIMENSIONAL, SISTEMA DE PROVISÃO DE IMAGEM TRIDIMENSIONAL , SINAL QUE CONTÉM UMA IMAGEM TRIDIMENSIONAL, MÍDIA DE ARMAZENAMENTO, MÉTODO DE RENDERIZAÇÃO DE UMA IMAGEM TRIDIMENSIONAL, SISTEMA DE RENDERIZAÇÃO DE IMAGEM TRIDIMENSIONAL PARA RENDERIZAR UMA IMAGEM TRIDIMENSIONAL E PRODUTO DE PROGRAMA DE COMPUTADOR Trata-se de uma imagem tridimensional tal como segue. É provido um par de imagens (LP, RP) que compreende uma primeira imagem (LP) que se destina a um olho de um espectador, e uma segunda imagem (RP) que se destina ao outro olho do espectador. Além disso, é provido um mapa de profundidade (DM) dedicado especificamente à primeira imagem (LP). O mapa de profundidade (DM) compreende valores de indicação da profundidade. Um valor de indicação da profundidade refere-se a um porção particular da primeira imagem (LP) e indica uma distância entre um objeto representado pelo menos parcialmente por essa porção da primeira imagem e o espectador. Tal imagem tridimensional permite uma renderização visual tridimensional satisfatória em uma grande variedade de dispositivos de exibição. Preferivelmente, a imagem tridimensional é suplementada com dados diretrizes (GD) de renderização que especificam os respectivos parâmetros para os respectivos contextos de renerização. Estes respectivos parâmetros referem- se preferivelmente à (...).

Description

CAMPO DA INVENÇÃO
Um aspecto da invenção refere-se a um método de formação de uma imagem tridimensional que compreende um par de imagens, uma imagem que se destina a um olho do espectador, e a outra imagem que se destina ao outro olho do espectador. A imagem tridimensional pode fazer parte de, por exemplo, uma seqüência de imagens tridimensionais que têm um formato similar de modo a constituir um vídeo. Outros aspectos da invenção referem-se a um sistema de provisão de imagem tridimensional, um sinal que leva uma imagem tridimensional, um método de renderização de uma imagem tridimensional, um sistema de renderização de imagem tridimensional, e um produto de programa de computador para um processador programável.
ANTECEDENTES DA INVENÇÃO
Uma renderização tridimensional visual pode ser obtida com base em um sinal que compreende um par de imagens: uma imagem esquerda e uma imagem direita destinadas ao olho esquerdo e ao olho direito, respectivamente, de um espectador. No caso de um vídeo, o sinal irá compreender uma seqüência de tais pares de imagens. As imagens esquerda e direita aqui compreendidas podem ser diretamente renderizadas em um dispositivo de exibição estereoscópica, que pode requerer que um espectador use um par de óculos. Uma lente do olho esquerdo passa uma imagem esquerda renderizada ao olho esquerdo. Uma lente do olho direito passa uma imagem direita renderizada ao olho direito. Por exemplo, o dispositivo de exibição pode exibir alternadamente imagens esquerdas renderizadas e imagens direitas renderizadas. Nesse caso, a lente do olho esquerdo fica transparente quando uma imagem esquerda renderizada é exibida, e em outro caso é opaca. Similarmente, a lente do olho direito fica transparente quando uma imagem direita renderizada é exibida, e em outro caso é opaca.
Um sinal que compreende um par de imagens, ou uma seqüência de pares de imagens que constituem um vídeo tridimensional, tal como descrito no parágrafo precedente, é tipicamente gerado para um contexto de renderização particular em termos, por exemplo, do tamanho de tela e da distância de observação. O contexto de renderização particular pode ser, por exemplo, um cinema com uma tela que tem 12 metros de largura e onde os espectadores se encontram sentados tipicamente a uma distância de 18 metros da tela. No caso em que um contexto de renderização é diferente do contexto de renderização para o qual o sinal foi gerado, o vídeo tridimensional terá uma aparência diferente. Por exemplo, no caso em que o vídeo tridimensional que foi gerado para o cinema é renderizado em um conjunto de vídeo doméstico, um espectador irá ter a sensação de uma impressão visual diferente daquela no cinema. Os efeitos de profundidade serão tipicamente menores e, além disso, pode haver um deslocamento aparente da profundidade no sentido que um objeto que aparenta estar distante atrás da tela no cinema parece estar quase na frente da tela do conjunto de vídeo doméstico.
Um espectador, que assiste um vídeo tridimensional em um ambiente privativo, tal como em casa, pode desejar ajustar efeitos de profundidade de modo a obter uma renderização experimentada pelo usuário bastante agradável. Em princípio, é possível conseguir isto por meio de uma interpolação, ou uma extrapolação, que seja baseada em cada par de imagens compreendidas no vídeo tridimensional. De fato, uma imagem esquerda e uma imagem direita são comparadas de modo a obter um chamado mapa de disparidade que expressa as diferenças entre estas imagens, particularmente em termos de deslocamento horizontal. Os ajustes dos efeitos de profundidade podem ser expressos na forma de um mapa de disparidade modificado, o qual é utilizado para gerar um novo par de imagens. Tal processo de interpolação, ou de extrapolação, é relativamente complexo e, portanto, relativamente custoso. Além disso, tal processo pode introduzir artefatos perceptíveis, que podem ser menos agradáveis ao espectador.
O pedido de patente norte-americano publicado sob número 2005/0190180 descreve um método para customizar o conteúdo de cena, de acordo com um usuário ou um conjunto de usuários, para uma determinada exibição estereoscópica. A informação de customização sobre o usuário é obtida. Um mapa de disparidades da cena para um par das imagens estéreo em questão também é obtido. Uma faixa de disparidade desejada para o usuário é determinada. Um mapa de disparidade customizado é gerado, o qual correlacione com a capacidade do usuário de fusão do display estereoscópico em questão. As imagens estéreo são renderizadas ou re-renderizadas para a exibição subseqüente.
DESCRIÇÃO RESUMIDA DA INVENÇÃO
Há uma necessidade quanto a um sinal de vídeo tridimensional versátil que permita uma renderização satisfatória em uma grande variedade de dispositivos de exibição. As reivindicações independentes, que são adicionadas à descrição, definem vários aspectos da invenção que suprem melhor esta necessidade. As reivindicações dependentes definem características adicionais para implementar a invenção vantajosamente.
De acordo com um aspecto da invenção, é provida uma imagem tridimensional tal como segue. É provido um par de imagens que compreende uma primeira imagem que se destina a um olho de um espectador, e uma segunda imagem que se destina ao outro olho do espectador. Além disso, é provido um mapa de profundidade dedicado especificamente à primeira imagem. O mapa de profundidade compreende valores de indicação da profundidade. Um valor de indicação da profundidade refere-se a uma porção particular da primeira imagem e indica uma distância entre um objeto representado pelo menos parcialmente por essa porção da primeira imagem e o espectador.-
O par de imagens representa tipicamente uma cena de pontos de visualização diferentes. Em uma extremidade da renderização, uma imagem de ponto de visualização deslocado pode ser gerada a partir da primeira imagem e do mapa de profundidade. A imagem do ponto de visualização deslocado representa a cena de um ponto de visualização que é diferente daquele da primeira imagem. A imagem do ponto de visualização deslocado e a segunda imagem constituem conjuntamente um novo par de imagens, que permite uma renderização tridimensional visual diferente daquela obtida através da exibição da primeira imagem e da segunda imagem como tais. Uma renderização apropriada pode ser obtida ao ajustar a proporção de deslocamento, em termos do ponto de visualização, da imagem de ponto de visualização deslocado com respeito à primeira imagem. A quantidade de deslocamento será tipicamente dependente do contexto de renderização: uma tela maior ou uma tela menor podem ser acomodadas por uma proporção apropriada de deslocamento. Preponderantemente, a imagem de ponto de visualização deslocado pode ser gerada de uma forma relativamente precisa mas simples a partir da primeira imagem e do mapa de profundidade, que é especificamente dedicado para a primeira imagem. Consequentemente, uma renderização tridimensional visual satisfatória pode ser obtida em uma grande variedade de dispositivos de exibição de uma maneira econômica.
Deve-se observar que uma imagem tridimensional, ou uma sequência da mesma, que foi provida de acordo com a invenção, também é particularmente adequada para a renderização por meio dos dispositivos de exibição autoestereoscópicos. Tal renderização envolve tipicamente a geração de múltiplas imagens de pontos de visualização deslocados, cada uma das quais representa uma cena envolvida de um ponto de visualização particular. Estas múltiplas imagens de ponto de visualização deslocado podem ser geradas de uma forma relativamente simples a partir da primeira imagem e do mapa de profundidade, que é especificamente dedicado à primeira imagem. A segunda imagem pode ser eficazmente ser ignorada com a finalidade de renderização autoestereoscópica. Consequentemente, o mapa de profundidade pode ser eficazmente utilizado para duas finalidades: primeiramente para a finalidade de se adaptar a um contexto de renderização particular e, em segundo lugar, para a finalidade de gerar múltiplas imagens de ponto de visualização deslocado no caso de renderização por meio de um dispositivo de exibição autoestereoscópico.
Deve-se observar ainda que uma imagem tridimensional, ou uma seqüência das mesmas, que é provida de acordo com a invenção, irá compreender tipicamente uma quantidade modesta de dados adicionais em comparação com uma imagem tridimensional básica que compreende apenas um par de imagens. Isto ocorre porque um mapa de profundidade irá compreender tipicamente uma quantidade modesta de dados quando comparada com uma imagem, que constitui uma representação visual de uma cena. Um mapa de profundidade pode ter uma definição mais baixa do que uma imagem à qual pertence o mapa de profundidade. Além disso, um mapa de profundidade necessita compreender somente um único valor para um pixel ou um conjunto de pixels, ao passo que uma imagem compreende tipicamente vários valores para um pixel: um valor de luminância, e dois valores de crominância. Consequentemente, uma mídia de armazenamento, tal como, por exemplo, um disco DVD, que dispõe de capacidade suficiente para armazenar um vídeo tridimensional básico, também irá dispor tipicamente de uma capacidade suficiente para armazenar um vídeo tridimensional que é provido de acordo com a invenção. Similarmente, um canal de transmissão que permite a transmissão de um vídeo tridimensional básico, também irá permitir tipicamente a transmissão de um vídeo tridimensional que é provido de acordo com a invenção. As vantagens acima mencionadas podem, desse modo, ser obtidas com somente um investimento relativamente pequeno em termos da capacidade de armazenamento, ou largura de banda, ou ambas.
Uma implementação da invenção compreende vantajosamente uma ou mais das seguintes características adicionais, que são descritas em parágrafos separados, que correspondem com as reivindicações dependentes individuais.
Preferivelmente, os dados de diretrizes da renderização especificam os respectivos parâmetros para os respectivos contextos de renderização. Os respectivos parâmetros referem-se à geração de uma imagem de ponto de visualização deslocado da primeira imagem e do mapa de profundidade, que é especificamente dedicado para a primeira imagem.
Os dados de diretrizes da renderização compreendem preferivelmente um conjunto de parâmetros para um primeiro modo estéreo, e um conjunto de parâmetros para um segundo modo estéreo. No primeiro modo estéreo, uma imagem de ponto de visualização deslocado, que é gerada a partir da primeira imagem e do mapa de profundidade, constitui uma primeira imagem renderizada, e a segunda imagem constitui uma segunda imagem renderizada. No segundo modo estéreo, a primeira imagem constitui uma primeira imagem renderizada, e uma imagem de ponto de visualização deslocado, que é gerada a partir da primeira imagem e do mapa de profundidade, constitui uma segunda imagem renderizada.
Os respectivos conjuntos de parâmetros acima mencionados são preferivelmente providos com uma definição de uma primeira faixa de intensidade de estéreo na qual o primeiro modo estéreo deve ser aplicado, e de uma segunda faixa de intensidade de estéreo na qual o segundo modo estéreo deve ser aplicado.
Os dados de diretrizes da renderização podem definir os respectivos valores máximos de deslocamento de paralaxe para os respectivos valores da indicação da profundidade.
Os dados de diretrizes da renderização podem definir os valores de deslocamento de paralaxe respectivos para os respectivos tamanhos de tela.
Os dados de diretrizes da renderização podem compreender uma indicação da precisão do mapa de profundidade.
Uma imagem de fundo que é especificamente dedicada para a primeira imagem é preferivelmente provida.
Além disso, um alpha-map que é especificamente dedicado para a primeira imagem é preferivelmente provido. O alpha-map define transições graduais em uma imagem de ponto de visualização deslocado que pode ser gerada a partir da imagem esquerda, do mapa de profundidade e da imagem de fundo.
A presente invenção também engloba método, de acordo com a reivindicação 1, em que a primeira e a segunda imagens e o mapa de profundidade são providos a uma definição ajustada em uma largura de banda predeterminada para transferência do sinal e em que quadros extras são codificados, provendo mais dados para o uso na renderização com base em uma imagem e componentes de profundidade.
A idéia subjacente é que a primeira, a segunda imagem e o mapa de profundidade podem ser providos a uma resolução ajustada à largura de banda disponível para transferência da primeira e segunda imagens na resolução original. Os quadros extras são providos por sua vez a fim de fornecer mais dados para o uso na renderização com base em uma imagem e componentes de profundidade.
A presente invenção também engloba um sistema de provisão de imagem tridimensional de acordo com o qual a primeira e a segunda imagens e o mapa de profundidade são providos a uma resolução ajustada a uma largura de banda predeterminada para a transferência do sinal e em que quadros extras são codificados, provendo mais dados para o uso na renderização com base em uma imagem e componentes de profundidade.
A presente invenção também engloba um sinal que contém uma imagem tridimensional, que compreende: um par de imagens que compreendem uma primeira imagem (LP) que se destina a um olho de um espectador, e uma segunda imagem (RP) que se destina ao outro olho do espectador; um mapa de profundidade (DM) especificamente dedicado à primeira imagem (LP), em que o mapa de profundidade compreende valores de indicação da profundidade, em que um valor de indicação da profundidade refere-se a uma porção particular da primeira imagem e indica uma distância entre um objeto representado, pelo menos parcialmente, por essa porção da primeira imagem e o espectador, e em que a primeira e a segunda imagens e o mapa de profundidade são providos a uma resolução ajustada a uma largura de banda predeterminada para a transferência do sinal e em que quadros extras são codificados, provendo mais dados para o uso na renderização com base em uma imagem e componentes de profundidade.
A presente invenção também engloba uma mídia de armazenamento que compreende um sinal de acordo com a reivindicação 19.
Uma descrição detalhada, com referência aos desenhos, ilustra a invenção resumida anteriormente, bem como as características adicionais. BREVE DESCRIÇÃO DESENHOS A Figura 1 é um diagrama de blocos que ilustra um sistema de geração de vídeo tridimensional. A Figura 2 é um diagrama conceitual que ilustra um sinal de vídeo tridimensional versátil que o sistema de geração de vídeo tridimensional fornece. A Figura 3 é um diagrama conceitual que ilustra um primeiro modo estéreo, que é possível com o sinal de vídeo tridimensional versátil. A Figura 4 é um diagrama conceitual que ilustra um segundo modo estéreo, que é possível com o sinal de vídeo tridimensional versátil. A Figura 5 é um diagrama conceitual que ilustra um sinal de vídeo tridimensional versátil suplementado. A Figura 6 é um diagrama de dados que ilustra um exemplo de dados de diretrizes da renderização que podem ser compreendidos no sinal de vídeo tridimensional versátil suplementado. A Figura 7 é um diagrama de dados que ilustra um outro exemplo de dados de diretrizes da renderização que podem ser compreendidos no sinal de vídeo tridimensional versátil suplementado. A Figura 8 é um diagrama de dados que ilustra ainda outro exemplo de dados de diretrizes da renderização que podem ser compreendidos no sinal de vídeo tridimensional versátil suplementado. A Figura 9 é um diagrama de blocos que ilustra um sistema de suplementação de vídeo tridimensional, que é capaz de fornecer o sinal de vídeo tridimensional versátil suplementado. A Figura 10 é um diagrama em fluxograma que ilustra uma série de etapas que o sistema de suplementação de sinal de vídeo tridimensional pode executar. A Figura 11 é um diagrama de blocos que ilustra um sistema de renderização de vídeo, que permite uma renderização estereoscópica com base no sinal de vídeo tridimensional versátil. A Figura 12 é um diagrama de blocos que ilustra um sistema de renderização de vídeo alternativo, que compreende um dispositivo de exibição autoestereoscópico. A Figura 13 mostra uma vista geral para aparelhos de reprodução BD para vídeo monoscópico, progressivo de 30 Hz ou entrelaçado de 60 Hz. A Figura 14 mostra um exemplo sobre como um sinal de L'R'D' pode ser eficientemente codificado utilizando AVC/H264 ou MVC com aproximadamente a mesma taxa de bits que é requerida para um sinal monoscópico de 1080p de 24 Hz. A Figura 15 mostra vários modos e opções para novas aplicações tridimensionais de Blu-ray. A Figura 16 mostra um exemplo de uma codificação conjunta eficiente da taxa de bits e da memória (com AVC/H264) de L R D (relação da taxa de quadros de 2:2:1). A Figura 17 mostra um exemplo de codificação em que componentes da profundidade e da transparência são codificados a 12 Hz e em que a profundidade e a transparência se referem a fases diferentes. A Figura 18 mostra um exemplo de codificação que tem componentes de profundidade de 12 e 24 Hz misturados. A Figura 19 mostra a intercalação e a compressão de quadro no modo de LRDD, e mostra os respectivos conteúdos dos quadros D e D'. A Figura 20 mostra vários métodos de subamostragem a fim de criar espaço para a profundidade e a transparência.
DESCRIÇÃO DETALHADA
A Figura 1 ilustra um sistema de geração de vídeo tridimensional GSY. O sistema de geração de vídeo tridimensional GSY compreende um par de câmeras, uma câmera direita RCAM e uma câmera esquerda LCAM, um processador de gravação RPR, e uma mídia de armazenamento STM. Um scanner de profundidade DS é associado com a câmera esquerda LCAM. O par de câmeras RCAM, LCAM é dirigido para uma cena SCN de modo a capturar um vídeo tridimensional da cena SCN. A cena SCN compreende vários objetos, tais como, por exemplo, uma pessoa, uma árvore, uma casa, e o Sol no céu. Cada objeto tem uma determinada distância com respeito ao par de câmeras, que podem ser consideradas como um observador virtual que assiste à cena SCN.
Cada uma dentre a câmera direita RCAM e a câmera esquerda LCAM pode ser uma câmera convencional. O processador de gravação RPR pode compreender, por exemplo, um dispositivo de execução de instruções e uma memória de programa na qual foi carregado um conjunto de instruções que define as operações do processador de gravação RPR, que será descrito em seguida. A mídia de armazenamento STM pode ser na forma de, por exemplo, um disco rígido, um disco óptico gravável, ou uma memória de estado sólido. O scanner de profundidade DS pode compreender, por exemplo, um feixe de laser que pode ser dirigido em várias direções, e um sensor que detecta as reflexões do feixe de laser. Como um outro exemplo, o scanner de profundidade DS pode compreender um módulo de formação de imagens de radar. Como ainda um outro exemplo, o scanner de profundidade pode até mesmo estar na forma de um ser humano que cria os mapas de profundidade off-line.
O sistema de geração de vídeo tridimensional GSY opera basicamente tal como segue. O par de câmeras RCAM, LCAM fornece um vídeo tridimensional básico da cena SCN, que é formada por uma seqüência de pares de imagens. Um par de imagens compreende uma imagem direita e uma imagem esquerda. A imagem direita, que é capturada pela câmera direita RCAM, é destinada ao olho direito de um observador humano. A imagem esquerda, que é capturada pela câmera esquerda LCAM, é destinada ao olho esquerdo de um observador humano.
A câmera direita RCAM e a câmera esquerda LCAM têm uma relação posicional particular uma com respeito à outra. Esta relação posicional pode ser definida por um contexto de renderização típico em termos, por exemplo, do tamanho de tela e uma distância de visualização. Por exemplo, o vídeo tridimensional básico, que compreende uma seqüência de imagens direitas e uma seqüência de imagens esquerdas que estão relacionadas, pode ser destinado à exibição em um cinema com um tamanho de tela típico de 12 metros e uma distância típica de visualização de 18 metros.
O scanner de profundidade DS executa uma série de medições da profundidade para uma imagem esquerda, enquanto a câmera esquerda LCAM captura a imagem esquerda. Uma medição da profundidade fornece um valor de indicação da profundidade para uma porção particular da imagem esquerda em questão. Tal porção particular pode compreender um único pixel ou um conjunto de pixels, que podem constituir um bloco. Por exemplo, a imagem esquerda pode ser eficazmente dividida em vários blocos de pixels, por meio do que o scanner de profundidade DS fornece os respectivos valores de indicação da profundidade aos respectivos blocos de pixels. Para um bloco de pixels que representa parcialmente a pessoa na cena SCN, o scanner de profundidade DS pode fornecer um valor de indicação da profundidade que representa a distância entre a pessoa na cena SCN e o observador virtual.
O processador de gravação RPR pode, desse modo, gerar um mapa de profundidade para uma imagem esquerda que compreende os respectivos valores de indicação da profundidade que o scanner de profundidade DS fornece para essa imagem esquerda. Tal mapa de profundidade pode ser considerado como uma extensão da imagem esquerda, que adiciona uma dimensão extra de 2-D a 3-D. Em outras palavras, o mapa de profundidade adiciona um valor de indicação da profundidade a um pixel da imagem esquerda, que compreende um valor de luminância, e um par de valores de crominância para o pixel em questão. O mapa de profundidade é dedicado especificamente à imagem esquerda: um valor de indicação da profundidade é associado com pelo menos um pixel na imagem esquerda, ao passo que pode não ser possível associar o valor de indicação da profundidade com qualquer pixel na imagem direita. O mapa de profundidade pode ter uma definição mais baixa do que a imagem esquerda. Nesse caso, os pixels vizinhos compartilham do mesmo valor de indicação da profundidade, que se aplica a um conjunto de pixels.
Deve-se observar que os valores de indicação da profundidade podem ser fornecidos de várias formas diferentes. Por exemplo, um valor de indicação da profundidade pode estar na forma de um valor de paralaxe, que é definido com respeito a uma largura de tela típica, a uma distância de visualização típica, e a uma distância de olho típica. Tal valor de paralaxe pode ser convertido em um valor da distância.
O processador de gravação RPR também pode gerar uma imagem de fundo para a imagem esquerda. A imagem de fundo representa objetos, ou partes destes, que são obstruídas na imagem esquerda por outros objetos, que têm uma posição de primeiro plano. Isto é, a imagem de fundo fornece a informação sobre o que está atrás de um objeto na imagem esquerda que tem uma posição de primeiro plano. Esta informação pode ser utilizada vantajosamente na geração de uma representação tridimensional da imagem esquerda com base no mapa de profundidade. Com referência à Figura 1, a casa tem uma posição de fundo, ao passo que a pessoa tem uma posição de primeiro plano e, portanto, pode obstruir uma parte da casa em uma imagem esquerda. A imagem de fundo pode, desse modo, compreender pelo menos parcialmente a parte da casa que é obstruída pela pessoa na imagem esquerda. Deve-se observar que a imagem de fundo também pode compreender um mapa de profundidade especificamente dedicado para a mesma. Mostrada de outra maneira, a imagem de fundo pode compreender a informação da textura, bem como a informação da profundidade, que fornece uma representação tridimensional de objetos obstruídos. O processador de gravação RPR pode gerar a imagem de fundo para a imagem esquerda com base, por exemplo, na informação compreendida na imagem direita.
O processador de gravação RPR também pode gerar um alpha-map, que é especificamente dedicado para uma imagem esquerda. Um alpha-map pode ser vantajosamente utilizado para fornecer transições graduais em uma imagem de ponto de visualização deslocado que é gerada a partir da imagem esquerda, do mapa de profundidade e da imagem de fundo. Isto contribui para a qualidade da imagem percebida. O alpha-map pode ser considerado como um conjunto de coeficientes ponderados brutos, que podem determinar um grau de contribuição da imagem esquerda e um grau de contribuição da imagem de fundo para uma porção particular da imagem de ponto de visualização deslocado. Tal alpha-map pode definir parâmetros de combinação diferentes para diferentes porções da imagem, o que permite transições suaves.
O processador de gravação RPR gera um sinal de vídeo tridimensional versátil VS mediante a adição de elementos ao vídeo tridimensional básico, que a câmera direita RCAM e a câmera esquerda LCAM fornecem. Estes elementos incluem mapas de profundidade e, opcionalmente, imagens de fundo e alpha-maps, que podem ser gerados tal como descrito anteriormente. A mídia de armazenamento STM armazena o sinal de vídeo tridimensional versátil VS. O sinal de vídeo tridimensional versátil VS pode ser submetido a processamento adicional, que contribui para a renderização tridimensional satisfatória em uma ampla variedade de exibições. Isto será descrito em mais detalhes em seguida.
A Figura 2 ilustra o sinal de vídeo tridimensional versátil VS. O sinal de vídeo tridimensional VS compreende uma seqüência de quadros tridimensionais versáteis ..., VPn- 1, VPn, VPn1, VPn-2... Uma imagem tridimensional versátil constitui uma representação tridimensional da cena SCN ilustrada na Figura 1 em um determinado instante. A Figura 2 ilustra detalhes de uma imagem tridimensional versátil arbitrária VPn. A imagem tridimensional versátil VPn compreende uma imagem direita RP e uma imagem esquerda LP, que constituem conjuntamente uma imagem tridimensional básica. A imagem direita RP fornece uma representação detalhada da cena SCN, que é destinada ao olho direito de um observador humano, ao passo que a imagem esquerda LP fornece uma representação detalhada da cena, que é destinada ao olho esquerdo do observador humano.
A imagem tridimensional versátil também compreende um mapa de profundidade DM e, preferivelmente, uma imagem de fundo BG e um alpha-map, que não é representado na Figura 2. O mapa de profundidade DM é especificamente dedicado para a imagem esquerda LP tal como explicado anteriormente. O mapa de profundidade DM pode ser considerado como uma imagem de níveis de cinza em que um valor de níveis de cinza corresponde com um valor de indicação da profundidade que se relaciona a um pixel particular, ou um conjunto particular de pixels na imagem esquerda. Um valor relativamente baixo de indicação da profundidade pode corresponder com um tom brilhante que indica um objeto relativamente próximo, ao passo que um valor relativamente elevado de indicação da profundidade pode corresponder com um tom escuro que indica um objeto relativamente distante, ou vice-versa. A imagem de fundo BG também é preferivelmente dedicada para a imagem esquerda LP. De fato, a imagem de fundo BG constitui uma extensão da imagem esquerda LP no sentido que os objetos, que são parcial ou completamente obstruídos, são representados na imagem de fundo BG. O alpha-map, se estiver presente, também é especificamente dedicado para a imagem esquerda LP.
O sinal de vídeo tridimensional versátil VS compreende, desse modo, uma seqüência de imagens tridimensionais básicas que correspondem ao vídeo tridimensional básico mencionado anteriormente. Além disso, o sinal de vídeo tridimensional versátil VS compreende uma seqüência acompanhante de mapas de profundidade e, preferivelmente, uma seqüência acompanhante de imagens de fundo e uma seqüência acompanhante de alpha-maps. Conforme explicado anteriormente, estes elementos adicionais são especificamente dedicados para as imagens esquerdas compreendidas no vídeo tridimensional básico.
O vídeo tridimensional básico, que é compreendido no sinal de vídeo tridimensional versátil VS, pode ser exibido em um dispositivo de exibição estereoscópico, por meio do que as imagens esquerdas e as imagens direitas são aplicadas, respectivamente, ao olho esquerdo e ao olho direito de um espectador. O display estereoscópico tem um determinado tamanho de tela e o espectador se encontra a uma determinada distância do dispositivo de exibição estereoscópico. Isto define um determinado contexto de renderização.
Um contexto de renderização real pode ser similar ao contexto de renderização típico para o qual o vídeo tridimensional básico é destinado. Nesse caso, uma representação tridimensional satisfatória da cena SCN é obtida. Por exemplo, supondo que o vídeo tridimensional básico é destinado à exibição em um cinema com um tamanho de tela típica de 12 metros e uma distância típica de visualização de 18 metros, tal como mencionado anteriormente. No caso em que o vídeo tridimensional básico é renderizado em tal cinema, uma representação tridimensional satisfatória da cena é obtida.
No entanto, no caso em que o contexto de renderização real é diferente do contexto de renderização típico para o qual o vídeo tridimensional básico é destinado, isto pode resultar em uma representação tridimensional menos satisfatória da cena SCN. Este pode ser o caso, por exemplo, se o vídeo tridimensional básico for destinado à exibição em um cinema tal como descrito anteriormente, ao passo que o vídeo tridimensional básico é renderizado em um vídeo doméstico ajustado com um tamanho de tela de 1 metro e uma distância típica de visualização de 2 ^ metros. Isto pode resultar em um efeito de profundidade reduzido, no sentido que o espectador irá experimentar um menor grau de profundidade que no cinema. Além disso, isto também pode resultar em um deslocamento da profundidade para o espectador, no sentido que um objeto que parece estar distante atrás da tela no cinema, parece estar quase na frente da tela do aparelho doméstico. Mostrado de maneira simples, quando o vídeo tridimensional que é destinado ao cinema é assistido em casa, o vídeo tridimensional irá parecer completamente diferente do que no cinema.
É possível prover alguma forma de correção no caso em que o contexto de renderização é diferente do contexto de renderização. Um novo par de imagens pode ser gerado com base em um par de imagens capturadas por meio da interpolação ou da extrapolação. No entanto, tal correção é relativamente complicada e, portanto, cara, envolvendo hardware ou software complexo, ou ambos. Ademais, tal correção pode introduzir artefatos perceptíveis causados por erros de interpolação ou erros de extrapolação, seja qualquer aplicado.
O sinal de vídeo tridimensional versátil VS, que é ilustrado na Figura 2, permite uma representação tridimensional satisfatória em uma grande variedade de contextos de renderização. Em termos do exemplo acima mencionado, o vídeo tridimensional que é destinado ao cinema pode parecer similar em casa. Isto é obtido graças à adição de um mapa de profundidade DM, que é especificamente dedicado para uma imagem em um par de imagens capturadas, neste caso a imagem esquerda LP.
O mapa de profundidade DM permite a geração de uma nova imagem com base na imagem esquerda LP de uma forma relativamente simples e precisa. Esta nova imagem representa a cena SCN de um ponto de visualização ligeiramente diferente daquele da imagem esquerda LP. O ponto de visualização pode ser deslocado um pouco para a direita ou um pouco para a esquerda daquele da imagem esquerda LP. A nova imagem será, portanto, indicada em seguida como a imagem de ponto de visualização deslocado. Em princípio, a imagem de ponto de visualização deslocado pode representar a cena SCN do mesmo ponto de visualização que aquele da imagem direita RP. Neste caso particular, a imagem de ponto de visualização deslocado deve combinar idealmente com a imagem direita RP.
As Figuras 3 e 4 ilustram dois modo estéreos diferentes, que são possíveis com o sinal de vídeo tridimensional versátil VS ilustrado na Figura 2. Estes modo estéreos serão indicados como modo estéreo A e modo estéreo B, respectivamente. Em cada modo estéreo, um par de imagens renderizadas é fornecido para a exibição em um dispositivo de exibição com base em uma imagem tridimensional versátil. O par de imagens renderizadas compreende uma imagem esquerda renderizada LR e uma imagem direita renderizada RR, que são aplicadas, respectivamente, ao olho esquerdo e ao olho direito e um espectador. Cada uma das Figuras 3 e 4 compreende um eixo horizontal que representa a paralaxe da tela. A paralaxe da tela é um deslocamento da posição em uma exibição que resulta de uma mudança no ponto de visualização. Conseqüentemente, um objeto em uma imagem de ponto de visualização deslocado tal como definido anteriormente pode ser deslocado com respeito ao mesmo objeto na imagem esquerda LP.
A Figura 3 ilustra o modo estéreo A. Neste modo estéreo, a imagem direita RP compreendida na imagem tridimensional versátil constitui a imagem direita renderizada RR. Isto é, a imagem direita renderizada RR é uma simples cópia da imagem direita RP. Uma imagem de ponto de visualização deslocado, que é gerada com base na imagem esquerda LP e no mapa de profundidade DM tal como mencionado anteriormente, constitui a imagem esquerda renderizada LR.
A Figura 3 ilustra duas imagens de ponto de visualização deslocado diferentes: uma imagem de ponto de visualização deslocado para a esquerda LP+S e uma imagem de ponto de visualização deslocado para a direita LP-S. A imagem de ponto de visualização deslocado para a esquerda LP+S representa a cena SCN de um ponto de visualização que fica à esquerda daquele da imagem esquerda LP. Esta imagem de ponto de visualização deslocado tem um deslocamento de paralaxe positivo P+2 com respeito à imagem esquerda LP. A imagem de ponto de visualização deslocado para a direita LP-S representa a cena SCN de um ponto de visualização que fica à direita daquele da imagem esquerda LP. Esta imagem de ponto de visualização deslocado tem um deslocamento de paralaxe negativo P-2 com respeito à imagem esquerda LP. A Figura 3 também ilustra um caso particular, em que a imagem esquerda LP constitui a imagem esquerda renderizada LR, em que esta última é uma cópia simples da primeira.
Caso a imagem de ponto de visualização deslocado para a esquerda LP+S constitui a imagem esquerda renderizada LR, o espectador experimenta um efeito de mais profundidade do que quando a imagem esquerda LP constitui a imagem esquerda renderizada LR. Há um aumento na intensidade de estéreo. Por outro lado, no caso em que a imagem de ponto de visualização deslocado para a direita LP-S constitui a imagem esquerda renderizada LR, o espectador experimenta um efeito de menos profundidade do que quando a imagem esquerda LP constitui a imagem esquerda renderizada LR. Há uma diminuição na intensidade de estéreo. Mostrado de maneira ampla, o deslocamento para a esquerda aumenta a intensidade de estéreo, ao passo que o deslocamento para a direita diminui a intensidade de estéreo.
A intensidade de estéreo pode ser avaliada em termos de paralaxe. Por exemplo, uma intensidade de estéreo padrão pode corresponder com a paralaxe P8 indicada na Figura 3, que é obtida quando a imagem esquerda LP constitui a imagem esquerda renderizada LR. Uma intensidade de estéreo máxima pode corresponder com a paralaxe P10 indicada na Figura 3, que é obtida quando a imagem de ponto de visualização deslocada para a esquerda LP+S constitui a imagem esquerda renderizada LR. A paralaxe P10 corresponde com a paralaxe P8 à qual o deslocamento positivo de paralaxe P+2 é aplicado. Uma intensidade de estéreo moderada pode corresponder com a paralaxe P6 indicada na Figura 3, que é obtida quando a imagem de ponto de visualização deslocada para a direita LP-S constitui a imagem direita renderizada RR. A paralaxe P6 corresponde com a paralaxe P8 à qual o deslocamento negativo de paralaxe P-2 é aplicado.
A Figura 4 ilustra o modo estéreo B. Neste modo estéreo, a imagem esquerda LP compreendida na imagem tridimensional versátil constitui a imagem esquerda renderizada LR. Isto é, a imagem esquerda renderizada LR é uma cópia simples da imagem esquerda LP. Uma imagem de ponto de visualização deslocada para a direita LP-S, que é gerada com base na imagem esquerda LP e no mapa de profundidade DM tal como mencionado anteriormente, constitui a imagem direita renderizada RR. A imagem de ponto de visualização deslocada para a direita LP-S tem um deslocamento negativo de paralaxe P-4 com respeito à imagem esquerda LP. A intensidade de estéreo é determinada inteiramente por este deslocamento negativo de paralaxe. A imagem direita RP não precisa desempenhar nenhum papel particular no modo estéreo B. Isto é, a imagem direita RP pode ser eficazmente ignorada no modo estéreo B.
O modo estéreo A é utilizado preferivelmente em uma faixa de intensidade de estéreo compreendida entre a intensidade de estéreo máxima e uma intensidade de estéreo moderada. A intensidade de estéreo padrão é compreendida nesta faixa. O modo estéreo B é preferivelmente utilizado em uma faixa de intensidade de estéreo compreendida entre a intensidade de estéreo moderada e a intensidade de estéreo mínima. Isto é, o modo estéreo B pode ser utilizado quando um efeito de profundidade relativamente pequeno é desejado. A intensidade de estéreo mínima pode corresponder com a ausência de qualquer efeito de profundidade, isto é, uma representação puramente bidimensional. Neste caso extremo, o paralaxe é igual a 0: a imagem esquerda renderizada LR e a imagem direita renderizada RR são idênticas.
Uma intensidade de estéreo desejada pode, desse modo, ser obtida pela geração de uma imagem de ponto de visualização deslocado e pela combinação da imagem de ponto de visualização deslocado com a imagem direita RP ou a imagem esquerda LP dependendo se o modo estéreo A ou B, respectivamente, é aplicado. A imagem de ponto de visualização deslocado pode ser gerada com base em uma imagem esquerda LP, e no mapa de profundidade DM associado com a mesma, de acordo com uma regra genérica predefinida. Essa regra genérica predefinida pode ser baseada em relações geométricas e pode se aplicar a todos os pontos de visualização diferentes. Em tal abordagem, um pixel na imagem esquerda LP é deslocado, tal como era, por uma proporção que é determinada exclusivamente pelos três fatores: a intensidade de estéreo desejada, o valor de indicação da profundidade que o mapa de profundidade DM fornece para o pixel tal como explicado anteriormente, e a fórmula genérica predefinida. O pixel deslocado constitui, desse modo, um pixel da imagem de ponto de visualização deslocado.
No entanto, resultados de renderização mais favoráveis podem ser obtidos no caso em que a imagem de ponto de visualização deslocado é gerada de uma maneira dependente do contexto, que leva em consideração um ou mais parâmetros de renderização tais como, por exemplo, o tamanho da tela. Além disso, um autor, ou uma outra pessoa, podem desejar definir como um determinado vídeo tridimensional deve parecer em um determinado contexto de renderização.Isto é, o autor pode expressar uma renderização tridimensional preferida, que não precisa necessariamente corresponder com a renderização tridimensional baseada em relações geométricas entre objetos físicos. A renderização tridimensional pode envolver preferências artísticas.
A Figura 5 ilustra um sinal de vídeo tridimensional versátil suplementado SVS, que aborda os pontos mencionados no parágrafo precedente. O sinal de vídeo tridimensional versátil suplementado SVS compreende a renderização dos dados de diretrizes GD, que acompanham uma seqüência de imagens tridimensionais versáteis ...,VPn-1, VPn, VPn1, VPn-2... O sinal de vídeo tridimensional versátil suplementado SVS pode, desse modo, ser obtido pela adição dos dados de renderização de orientação GD ao sinal de vídeo tridimensional versátil VS ilustrado na Figura 2.
Os dados de renderização de orientação GD compreendem os parâmetros que se referem à geração de uma imagem de ponto de visualização deslocado com base em uma imagem esquerda e no mapa de profundidade especificamente dedicado para essa imagem esquerda. Os dados de renderização de orientação GD podem especificar, por exemplo, um ou mais desvios de uma regra genérica predefinida, que define um método padrão de geração de uma imagem de ponto de visualização deslocado. Por exemplo, os desvios diferentes de um método padrão podem ser especificados para intensidades de estéreo diferentes. Similarmente, os desvios diferentes podem ser especificados para tamanhos de tela diferentes. Ademais, um desvio não precisa necessariamente ser aplicado ao vídeo tridimensional de interesse em sua totalidade. Os respectivos desvios podem ser especificados para as respectivas cenas de interesse no vídeo tridimensional, ou até mesmo para as respectivas imagens tridimensionais. Os dados de renderização de orientação GD são, portanto, organizados preferivelmente em vários segmentos, por meio do que um segmento se relaciona a uma subseqüência particular de imagens tridimensionais, que podem constituir uma cena SCN. Um segmento também pode se relacionar a uma imagem tridimensional particular.
A Figura 6 ilustra um exemplo de um conjunto de parâmetros, que pode fazer parte dos dados de renderização de orientação GD. O conjunto de parâmetros é representado na forma de uma tabela que compreende três colunas, cada uma das quais se refere a uma intensidade de estéreo particular expressa como um valor de número inteiro, ou seja, 10, 6 e 5, sendo que 10 representa a intensidade de estéreo máxima. Cada coluna tem um cabeçalho com um preenchimento sombreado que indica a intensidade de estéreo e o método de estéreo a ser utilizado para essa intensidade de estéreo.
A tabela indica que o modo estéreo A ilustrado na Figura 3 deve ser utilizado para as intensidades de estéreo compreendidas entre 10 e 6. A tabela também indica que o modo estéreo B ilustrado na Figura 3 deve ser utilizado para as intensidades de estéreo compreendidas entre 5 e 0. A tabela também compreende as respectivas linhas que representam os respectivos valores de indicação da profundidade. Os respectivos valores de indicação da profundidade são listados na coluna mais à esquerda da tabela, que tem um preenchimento sombreado.
A tabela especifica os respectivos deslocamentos de paralaxe máximos Pmax para os respectivos valores de indicação da profundidade DV, para cada uma das três intensidades de estéreo acima mencionadas 10, 6, e 5. O respectivo deslocamento de paralaxe máximo Pmax que pode ser expresso em unidades de pixel é listado em uma área branca da coluna em questão. Um deslocamento de paralaxe máximo define um deslocamento máximo entre um pixel em uma imagem de ponto de visualização deslocado e o pixel correspondente na imagem esquerda a partir da qual a imagem de ponto de visualização deslocado é gerada. A tabela ilustrada na Figura 6 pode, desse modo, ser funcionalmente considerada como um módulo limitador em um gerador de imagem de ponto de visualização deslocado.
Os deslocamentos de paralaxe máximos Pmax especificados na tabela podem impedir que efeitos suscetíveis sejam percebidos como não-naturais, ou efeitos que podem causar a fadiga dos olhos, ou ambos. Conforme explicado anteriormente, a geração de uma imagem de ponto de visualização deslocado envolve o deslocamento de pixels da imagem esquerda em questão. A proporção de deslocamento depende tipicamente do valor de indicação da profundidade e da intensidade de estéreo. Um deslocamento relativamente grande pode produzir efeitos não-naturais ou causar a fadiga dos olhos, ou outros efeitos adversos. Os deslocamentos de paralaxe máximos Pmax especificados na tabela ilustrada na Figura 6 permitem a prevenção de tais efeitos adversos assegurando que a proporção de deslocamento permaneça dentro dos limites aceitáveis.
Os deslocamentos de paralaxe máximos apropriados Pmax para intensidades de estéreo entre 10 e 6 e entre 5 e 0 podem ser obtidos por meio de, por exemplo, interpolação. Para essa finalidade, é suficiente que a tabela especifique os respectivos deslocamentos de paralaxe máximos Pmax para duas intensidades de estéreo diferentes no modo estéreo A, tais como 10 e 6 na Figura 6, e para uma única intensidade de estéreo no modo estéreo B, tal como 5. Não há nenhuma necessidade de especificar deslocamentos de paralaxe máximos Pmax para duas intensidades de estéreo diferentes no modo estéreo B porque todos os deslocamentos de paralaxe máximos
Pmax para a intensidade de estéreo 0 podem ser tipicamente considerados como iguais a 0. A intensidade de estéreo 0 corresponde à renderização mono, isto é, uma representação puramente bidimensional sem quaisquer efeitos de profundidade.
A Figura 7 ilustra um outro exemplo de um conjunto de parâmetros, que pode fazer parte dos dados de diretrizes de renderização GD. O conjunto de parâmetros é representado na forma de uma tabela que compreende diversas colunas, cada uma das quais se refere a uma intensidade de estéreo particular STS expressa como um valor de número inteiro, ou seja, 10, 8, 6, 5, 3 e 1. Cada coluna tem um cabeçalho com um preenchimento sombreado que indica a intensidade de estéreo STS. A tabela também compreende várias linhas que representam os vários tamanhos de tela diferentes SZ, de 30, 40 e 50 polegadas, que são indicadas na coluna mais à esquerda da tabela que tem um preenchimento sombreado.
A tabela especifica os respectivos deslocamentos de paralaxe Poff para os vários tamanhos de tela diferentes, para cada uma das três intensidades de estéreo acima mencionadas 10, 8, 6, 5, 3 e 1. Os respectivos deslocamentos de paralaxe Poff, que podem ser expressos em unidades de pixels, são listados em uma área branca da coluna em questão. Um deslocamento de paralaxe define um deslocamento adicional para os respectivos pixels em uma imagem de ponto de visualização deslocado com respeito aos respectivos pixels correspondentes na imagem esquerda a partir da qual a imagem de ponto de visualização deslocado é gerada. Isto é, o deslocamento de paralaxe define um deslocamento total, que deve ser adicionado a um deslocamento específico que é obtido para um determinado pixel ao aplicar uma regra geral predefinida para gerar imagens de ponto de visualização deslocado. A tabela ilustrada na Figura 7 pode ser funcionalmente considerada como um módulo de deslocamento de saída em um gerador de imagem de ponto de visualização deslocado.
O deslocamento de paralaxe pode compensar um deslocamento de profundidade para o espectador, que pode ocorrer quando o vídeo tridimensional de interesse é renderizado em uma tela que tem um tamanho menor do que aquele da tela para a qual o vídeo tridimensional do interesse se destina. Por exemplo, um objeto que parece estar além de uma tela em um cinema, pode parecer estar quase na frente da tela de um aparelho em casa, tal como mencionado anteriormente. Os deslocamento de paralaxe Poff especificados na tabela ilustrada na Figura 7 fornecem uma correção apropriada. Os deslocamentos de paralaxe apropriados para os tamanhos de tela e as intensidades de estéreo diferentes daqueles na tabela ilustrada na Figura 7 podem ser obtidos por meio de, por exemplo, interpolação.
A Figura 8 ilustra ainda um outro exemplo de um conjunto de parâmetros, que pode fazer parte dos dados de renderização de orientação GD. O conjunto de parâmetros é representado na forma de uma tabela que compreende três colunas, cada uma das quais tem um cabeçalho com um preenchimento sombreado que indica um título da coluna. A coluna intitulada STS especifica as intensidades de estéreo respectivas. A outra coluna intitulada Poff especifica os respectivos deslocamentos de paralaxe Poff. A tabela também compreende várias linhas que representam os vários tamanhos de tela diferentes SZ, de 30, 40 e 50 polegadas, que são indicados na coluna mais à esquerda da tabela em questão.
A tabela especifica uma combinação preferida OPT da intensidade de estéreo STS e do deslocamento de paralaxe Poff para os vários tamanhos de tela diferentes. A intensidade de estéreo STS é indicada por meio de um valor de número inteiro, tal como nas tabelas ilustradas nas Figuras 6 e 7. O deslocamento de paralaxe Poff pode ser expresso em unidades de pixels, ou em outras unidades. Cada combinação preferida provê uma renderização satisfatória para o tamanho de tela em questão, que pode ser diferente do tamanho de tela típico para o qual o vídeo tridimensional de interesse é destinado. Um autor pode definir uma renderização satisfatória. Isto é, o autor pode expressar por meio da tabela ilustrada na Figura 8, o que o vídeo tridimensional de interesse deve parecer tal como quando renderizado em uma exibição com o tamanho de tela de interesse. A combinação preferida para os tamanhos de tela diferentes daqueles na tabela ilustrada na Figura 8 pode ser obtida por meio de, por exemplo, interpolação.
Os dados de diretrizes de renderização GD também podem compreender uma indicação da precisão do mapa de profundidade e da resolução do mapa de profundidade, explícita ou implicitamente. Um mapa de profundidade DM que é relativamente impreciso é preferivelmente aplicado diferentemente de um mapa de profundidade, que é relativamente preciso quando da geração de uma imagem de ponto de visualização deslocado. Por exemplo, há uma probabilidade relativamente grande de que distorções sejam introduzidas quando uma imagem de ponto de visualização deslocado é gerada com base em um mapa de profundidade relativamente impreciso. Em tal caso, os pixels devem ser deslocados apenas de uma proporção relativamente pequena, para assegurar que todas as distorções sejam relativamente fracas. Conseqüentemente, uma indicação da precisão do mapa de profundidade e da resolução do mapa de profundidade podem ser utilizadas vantajosamente no processo de renderização tridimensional. Tal indicação também pode ser incorporada, tal como era, em uma tabela tal como a tabela ilustrada na Figura 7, que especifica deslocamentos de paralaxe máximos Pmax.
Um mapa de profundidade pode ser relativamente impreciso no caso em que, por exemplo, os valores de indicação da profundidade são estimados unicamente com base na informação que está presente em uma imagem bidimensional. Uma máquina ou uma pessoa, ou uma combinação de ambas, pode gerar tal mapa de profundidade estimado com base, por exemplo, em um conhecimento a priori sobre objetos na imagem em questão, particularmente no que diz respeito a seus tamanhos típicos respectivos. Um objeto que tem tipicamente um tamanho relativamente grande, mas que aparece como relativamente pequeno na imagem, está provavelmente distante. A adição de profundidade a uma imagem por meio de tais técnicas estimativas pode ser comparada com a adição de cor a uma imagem em preto-e-branco. Um valor de indicação da profundidade pode ou não se aproximar suficientemente do valor que tinha sido obtido, uma técnica de geração de mapa de profundidade que tinha sido utilizada com base, por exemplo, em medições da distância, ou na análise de um par de imagens estereoscópicas.
A Figura 9 ilustra um sistema de suplementação de vídeo tridimensional XSY, que pode gerar os dados de diretrizes de renderização GD. O sistema de suplementação de vídeo tridimensional XSY também pode adicionar os dados de diretrizes de renderização GD ao sinal de vídeo tridimensional versátil VS de modo a obter o sinal de vídeo tridimensional versátil suplementado SVS. O sistema de suplementação de vídeo tridimensional XSY compreende um processador de orientação de renderização RGP, um dispositivo de exibição DPL, e uma interface do operador OIF. O sistema de suplementação de vídeo tridimensional XSY também compreende a mídia de armazenamento STM na qual um sinal de vídeo tridimensional versátil VS é armazenado, tal como ilustrado na Figura 1.
O processador de orientação de renderização RGP pode compreender, por exemplo, um dispositivo de execução de instruções e uma memória de programa. O dispositivo de exibição DPL é preferivelmente versátil no sentido que o dispositivo de exibição DPL pode emular vários tipos de dispositivos de exibição, que podem diferir em termos de, por exemplo, tamanho de tela. Alternativamente, vários tipos diferentes de dispositivos de exibição podem ser utilizados em associação com o sistema de suplementação de vídeo tridimensional XSY ilustrado na Figura 5. A interface do operador OIF pode compreender, por exemplo, um teclado, um painel de toque, um mouse ou uma trackball, vários botões, ou qualquer combinação destes.
A Figura 10 ilustra um exemplo de uma série de etapas S1-S7 que o processador de orientação de renderização RGP pode executar com a finalidade de gerar os dados de diretrizes de renderização GD. A Figura 10 pode ser considerada como uma representação do fluxograma de um conjunto de instruções, que podem ser carregadas na memória de programa acima mencionada, de modo a permitir que o processador de orientação da referência execute várias operações descritas em seguida com referência à Figura 10.
Na etapa S1, o processador de orientação de renderização RGP alerta um operador do sistema para selecionar uma porção particular do sinal de vídeo tridimensional versátil VS (SEL_VS), e caso necessário, o operador de sistema pode selecionar o sinal de vídeo tridimensional versátil VS em sua totalidade. A porção particular que é selecionada pode corresponder com uma cena particular, tal como a cena SCN ilustrada na Figura 1. Conforme explicado anteriormente, uma renderização tridimensional que pode ser considerada como ideal para uma cena, pode não ser ideal para uma outra cena. Portanto, pode ser vantajoso avaliar e ajustar uma renderização tridimensional em uma base de cena-a-cena.
Na etapa S2, o processador de orientação de renderização RGP também pode alertar o operador do sistema para especificar os dados que indicam a precisão do mapa de profundidade e a resolução do mapa de profundidade (DM_PRC=?). Alternativamente, o processador de orientação de renderização RGP também pode compreender um módulo de detecção para detectar automaticamente a precisão do mapa de profundidade e a resolução do mapa de profundidade. Conforme explicado anteriormente, uma indicação da precisão do mapa de profundidade e da resolução do mapa de profundidade pode ser utilizada vantajosamente no processo de renderização tridimensional. Tal indicação também pode ser levada em consideração para gerar os dados de diretrizes de renderização GD. Por exemplo, os deslocamentos de paralaxe máximos Pmax, que são ilustrados na Figura 6, podem ser ajustados em valores mais baixos no caso em que a precisão do mapa de profundidade é relativamente baixa, ou a resolução do mapa de profundidade é relativamente baixa, ou ambas.
Na etapa S3, o processador de orientação de renderização RGP alerta o operador do sistema para especificar um contexto de renderização (RND_CXT=?). O contexto de renderização pode ser expresso em termos de, por exemplo, um tamanho de tela, uma distância típica do espectador, bem como outros parâmetros relacionados com a renderização. O tamanho de tela pode corresponder com aquele do dispositivo de exibição DPL ilustrado na Figura 10, ou pode corresponder com um outro tamanho de tela, que o dispositivo de exibição DPL pode emular tal como mencionado anteriormente.
Na etapa S4, o processador de orientação de renderização RGP alerta o operador do sistema para especificar uma intensidade de estéreo e, opcionalmente, um modo estéreo (STS=?). A intensidade de estéreo pode estar na forma de um valor de número inteiro em uma faixa entre 0 e 10. O valor de número inteiro 0 pode corresponder com uma representação puramente bidimensional, que implica a ausência de quaisquer efeitos de profundidade. O valor de número inteiro 10 pode corresponder com a intensidade de estéreo máxima, que provê o grau o mais elevado de impressão de profundidade. O valor de número inteiro 8 pode corresponder, por exemplo, com uma intensidade de estéreo padrão que provê um grau padrão de impressão de profundidade, que é associado com uma reprodução tridimensional fiel de uma cena. O operador do sistema pode escolher entre os modos estéreos A e B, que foram descritos anteriormente. O modo estéreo pode ser predefinido como uma função da intensidade de estéreo. Nesse caso, o processador de orientação de renderização RGP alerta o operador do sistema para especificar somente a intensidade de estéreo.
Na etapa S5, o processador de orientação de renderização RGP alerta o operador do sistema para especificar um ou mais conjuntos de parâmetros (SEL_PAR) que podem potencialmente fazer parte dos dados de diretrizes de renderização GD. Um conjunto de parâmetros pode ser selecionado de um menu, ou pode ser especificado de uma maneira customizada. Os conjuntos especificados de parâmetros estão relacionados à geração de uma imagem de ponto de visualização deslocado com base em uma imagem esquerda e no mapa de profundidade dedicado para essa imagem esquerda, que estão presentes no sinal de vídeo tridimensional versátil VS. Os parâmetros são tipicamente relacionados com a paralaxe, tal como ilustrado nas Figuras 6, 7 e 8, e podem modificar uma impressão de profundidade. Um objeto particular na cena em questão pode aparecer mais perto ou mais afastado quando os conjuntos de parâmetros forem levados em consideração em uma renderização do sinal de vídeo tridimensional versátil VS.
Na etapa S6, o processador de orientação de renderização RGP faz com que o dispositivo de exibição DPL exiba a porção do vídeo tridimensional versátil que o operador do sistema selecionou de acordo com o contexto de renderização e a intensidade de estéreo que o operador do sistema definiu (DPL_VS_SEL). Isto é, para cada imagem tridimensional versátil na porção em questão, o processador de orientação de renderização RGP gera uma imagem esquerda renderizada LR e uma imagem direita renderizada RR tal como ilustrado na Figura 3 ou 4, dependendo se o modo estéreo é A ou B, respectivamente. Ao fazer isso, o processador de renderização leva em consideração os conjuntos de parâmetros que o operador de sistema especificou. Isto constitui uma renderização particular da porção em questão do vídeo tridimensional versátil. O operador do sistema pode desse modo avaliar se esta renderização particular é satisfatória ou não.
Na etapa S7, o processador de renderização determina se os conjuntos de parâmetros de acordo com os quais a renderização foi realizada devem ser incluídos nos dados de diretrizes de renderização GD, ou não (PARGD?). O processador de orientação de renderização RGP pode fazer isso em numerosas maneiras diferentes. Por exemplo, em uma abordagem básica, o processador de orientação de renderização RGP pode alertar o operador do sistema para indicar se a renderização foi satisfatória, ou não. No caso em que o operador do sistema indica que a renderização foi satisfatória, o processador de renderização pode incluir os conjuntos de parâmetros em questão nos dados de diretrizes de renderização GD. Além disso, o processador de renderização pode executar subsequentemente a etapa S3 e as etapas subseqüentes a esta, com a finalidade de determinar os conjuntos de parâmetros apropriados para um outro contexto de renderização.
Em uma abordagem mais sofisticada, o processador de orientação de renderização RGP pode pedir para que o operador do sistema especifique um grau de satisfação para a renderização particular em questão. O grau de satisfação pode estar na forma de uma contagem. Nesta abordagem, o processador de orientação de renderização RGP pode executar as etapas S5-S7 diversas vezes, cada vez para diferentes conjuntos de parâmetros. Consequentemente, as contagens respectivas são obtidas para os respectivos conjuntos de parâmetros diferentes. No caso em que todos os conjuntos de parâmetros de interesse receberam uma contagem, o processador de orientação de renderização RGP pode selecionar um conjunto de parâmetros, ou conjuntos de parâmetros, o que quer que se aplique, que tenham a contagem mais elevada. Estes conjuntos selecionados de parâmetros podem ser incluídos nos dados de diretrizes de renderização GD. O processador de renderização pode executar subsequentemente a etapa S3 e as etapas subseqüentes à mesma, com a finalidade de determinar os conjuntos de parâmetros apropriados para um outro contexto de renderização.
Consequentemente, o processador de orientação de renderização RGP pode determinar qualquer um dos conjuntos de parâmetros ilustrados nas Figuras 6, 7 e 8, ou quaisquer combinações destes, ao executar a série de etapas S1-S7 ilustradas na Figura 10. O processador de orientação de renderização RGP pode assumir determinadas tarefas ou decisões do operador do sistema. Isto é, pode haver um grau mais elevado de automatização do que na descrição anteriormente com referência à Figura 10, que é meramente fornecida a título de exemplo. Ademais, uma ou mais decisões que são tomadas pelo operador do sistema podem, ao invés disto, ser tomadas por um painel que representa espectadores típicos. Em tal caso, o processador de orientação de renderização RGP pode ser provido, por exemplo, com um módulo de votos da maioria, que determina se uma maioria de membros do painel considera a renderização em questão satisfatória, ou não, ou pode ser provido com um módulo de contagem média, que determina uma média ou é fornecido por membros do painel.
Uma vez que o sinal de vídeo tridimensional versátil suplementado SVS ilustrado na Figura 5 tenha sido obtido tal como descrito anteriormente, ou de outra maneira, o sinal de vídeo tridimensional versátil suplementado SVS pode ser distribuído e vendido, ou licenciado, a usuários finais. Há numerosas maneiras diferentes de fazer isso. Por exemplo, o sinal de vídeo tridimensional versátil suplementado SVS pode ser transmitido por meio de uma rede, que pode ser sem fio ou com fios, ou uma combinação destes. Como um outro exemplo, o sinal de vídeo tridimensional versátil suplementado SVS pode ser carregado em um servidor do qual os usuários finais podem descarregar o sinal de vídeo tridimensional versátil suplementado SVS. Como ainda um outro exemplo, um grande número de mídias de armazenamento pode ser produzido em que o sinal de vídeo tridimensional versátil suplementado SVS é gravado. Em qualquer um dos exemplos acima mencionados, o sinal de vídeo tridimensional versátil suplementado SVS é preferivelmente codificado com a finalidade de compressão de dados e de o tornar a prova de erros.
A Figura 11 ilustra um sistema de renderização de vídeo RSY, que pode ser instalado na casa de um usuário final. O sistema de renderização de vídeo RSY compreende um dispositivo de exibição DPL do tipo estereoscópico, que pode requerer que um espectador use um par de óculos. Uma lente do olho esquerdo passa uma imagem esquerda renderizada LR, ou então uma seqüência desta, ao olho esquerdo. Uma lente do olho direito passa uma imagem direita renderizada RR, ou então uma seqüência desta, ao olho direito. Para essa finalidade, o dispositivo de exibição DPL pode exibir alternadamente imagens esquerdas renderizadas e imagens direitas renderizadas. A lente do olho esquerdo se torna transparente quando uma imagem esquerda renderizada LR é exibida, ou então fica opaca. Similarmente, a lente do olho direito se torna transparente quando uma imagem direita renderizada RR é exibida, ou então fica opaca. Como um outro exemplo, o dispositivo de exibição DPL pode exibir as imagens esquerdas renderizadas com uma determinada polarização e as imagens direitas renderizadas com uma polarização oposta. A lente do olho esquerdo e a lente do olho direito podem então ter polarizações opostas correspondentes.
O sistema de renderização de vídeo RSY também compreende várias entidades funcionais: um aparelho ode reprodução de mídia de armazenamento PLY, um decodificador DEC, um demultiplexador DMX, um gerador de imagem de ponto de visualização deslocado SHG, um seletor SEL, um controlador CTRL e uma interface do usuário UIF. Todas as entidades funcionais acima mencionadas podem fazer parte de, por exemplo, um dispositivo de Home-Theater. O decodificador DEC, o demultiplexador DMX, o gerador de imagem de ponto de visualização deslocado SHG e o seletor SEL podem ser implementados por meio de um dispositivo de execução de instruções e uma memória de programa. Em tal implementação, um conjunto de instruções que é carregado na memória de programa pode fazer com que o dispositivo de execução de instruções execute as operações que correspondem a uma ou mais entidades funcionais, que serão descritas em mais detalhes em seguida. O controlador CTRL e a interface do usuário UIF também podem, pelo menos parcialmente, ser implementados desta maneira e, além disso, compartilhar do mesmo dispositivo de execução de instruções com as entidades funcionais acima mencionadas.
O sistema de renderização de vídeo RSY opera basicamente tal como segue. Supõe-se que o aparelho de reprodução de mídia de armazenamento PLY lê um mídia de armazenamento que compreende uma versão codificada CV do sinal de vídeo tridimensional versátil suplementado SVS ilustrado na Figura 5. O decodificador DEC recebe esta versão codificada CV e fornece, em resposta, o sinal de vídeo tridimensional versátil suplementado SVS. O demultiplexador DMX extrai e separa eficazmente vários componentes compreendidos neste sinal. Os dados de diretrizes de renderização GD são um de tais componentes que o controlador CTRL recebe. O gerador de imagem de ponto de visualização deslocado SHG recebe vários outros componentes compreendidos em uma imagem tridimensional versátil: uma imagem esquerda LP, um mapa de profundidade DM, e uma imagem de fundo BG. O gerador de imagem do ponto de visualização deslocado SHG também pode receber um alpha-map, que pode ser compreendido na imagem tridimensional versátil. Uma imagem direita RP é aplicada diretamente ao seletor SEL.
O controlador CTRL determina um conjunto de parâmetros de geração de ponto de visualização deslocado e um sinal de controle de seletor SC com base nos dados de diretrizes de renderização GD e nos dados de contexto de renderização, que podem ser gravados no sistema de renderização de vídeo RSY. Os dados de contexto de renderização definem um contexto de renderização em termos, por exemplo, do tamanho de tela do dispositivo de exibição
DPL e da distância de visualização típica. O controlador CTRL também pode levar em consideração uma intensidade de estéreo desejada STD, se existir, com a finalidade de determinar o conjunto de parâmetros de geração de ponto de visualização deslocado. O espectador pode definir a intensidade de estéreo desejada STD por meio da interface do usuário UIF. No caso em que o espectador não define nenhuma intensidade de estéreo desejada STD, o controlador CTRL pode operar com base em uma intensidade de estéreo padrão. O conjunto de parâmetros de geração do ponto de visualização deslocado GP pode compreender, por exemplo, os parâmetros estabelecidos com base em qualquer uma das tabelas ilustradas nas Figuras 6, 7 e 8 levando em consideração o contexto de renderização, que se aplica ao sistema de renderização de vídeo RSY ilustrado na Figura 10.
O gerador de imagem de ponto de visualização deslocado SHG gera uma imagem de ponto de visualização deslocado LP+/-S com base na imagem esquerda LP, no mapa de profundidade DM, e na imagem de fundo BG de acordo com o conjunto de parâmetros de geração de ponto de visualização deslocado GP. O gerador de imagem de ponto de visualização deslocado SHG pode empregar vantajosamente um alpha-map, se tal mapa dedicado para a imagem esquerda LP estiver disponível. O gerador de imagem de ponto de visualização deslocado SHG opera tanto no modo estéreo A quanto no modo estéreo B, que são ilustrados nas Figuras 3 e 4, respectivamente. Os parâmetros de geração de ponto de visualização deslocado GP definem um grau de deslocamento, que pode ser para a direita ou para a esquerda, tal como ilustrado nas Figuras 3 e 4.
O sinal de controle de seletor SC expressa o modo estéreo que se aplica. No caso em que o modo estéreo A se aplica, o sinal de controle de seletor SC faz com que o seletor SEL selecione a imagem de ponto de visualização deslocado LP+/-S para constituir uma imagem esquerda renderizada LR. O seletor SEL seleciona a imagem direita RP para constituir uma imagem direita renderizada RR nesse caso. Por outro lado, no caso em que o modo estéreo B se aplica, o sinal de controle de seletor SC faz com que o seletor SEL selecione a imagem de ponto de visualização deslocado LP+/-S para constituir a imagem direita renderizada RR. O seletor SEL seleciona a imagem esquerda LP para constituir a imagem esquerda renderizada LR nesse caso. Em um ou outro caso, o dispositivo de exibição DPL fornece uma renderização tridimensional com base na imagem esquerda renderizada LR e na imagem direita renderizada RR.
A Figura 12 ilustra um sistema de renderização de vídeo alternativo ARSY ou então uma porção do mesmo. O sistema de renderização de vídeo alternativo ARSY compreende um dispositivo de exibição ADPL do tipo autoestereoscópico, que não requer que um espectador use um par de óculos. Tal dispositivo de exibição exibe tipicamente um conjunto de vistas diferentes MVS, por meio do que cada vista é irradiada, tal como era, em uma direção particular. Consequentemente, o dispositivo de exibição ADPL projeta vistas diferentes ao olho esquerdo e ao olho direito, o que faz com que um espectador experimente um efeito de profundidade.
O sistema de renderização de vídeo alternativo ARSY compreende um gerador de múltiplas vistas MVG, que recebe os mesmos componentes que o gerador de imagem de ponto de visualização deslocado SHG ilustrado na Figura 11: uma imagem esquerda LP, um mapa de profundidade DM, e uma imagem de fundo BG. Estes componentes podem ser providos por entidades funcionais similares ao aparelho de reprodução de mídia de armazenamento PLY, ao decodificador DEC e ao demultiplexador
DMX, também ilustrados na Figura 11. O gerador de múltiplas vistas MVG também pode receber um alpha-map que é especificamente dedicado para a imagem esquerda LP.
O gerador de múltiplas vistas MVG gera o conjunto de vistas diferentes MVS, que são exibidas no dispositivo de exibição DPL do tipo autoestereoscópico. De fato, o gerador de múltiplas vistas MVG pode ser considerado como compreendendo múltiplos geradores de imagem de ponto de visualização deslocado, cada um dos quais pode ser similar ao gerador de imagem de ponto de visualização deslocado SHG ilustrado na Figura 11. Estes respectivos geradores de imagem de ponto de visualização geram as respectivas imagens de ponto de visualização deslocado que representam a cena dos respectivos pontos de visualização, que são diferentes. Isto é, em um diagrama similar às Figuras 3 e 4, cada respectiva imagem de ponto de visualização deslocado tem uma posição particular no eixo horizontal. Deve-se observar que o gerador de múltiplas vistas MVG não necessita fazer nenhum uso da imagem direita RP, que foi associada com a imagem esquerda LP. Isto é, as imagens direitas que estão presentes no sinal de vídeo tridimensional versátil suplementado SVS não necessitam ser utilizadas com a finalidade de renderização tridimensional.
Um formato 3D é descrito acima que combina as vantagens de formatos estéreos e os chamados formatos de imagem+profundidade. As realizações abaixo mostram como tais formatos de estéreo+profundidade podem ser executados na prática para o uso com aparelhos de reprodução Blue-ray existentes e futuros. A idéia subjacente consiste em usar a subamostragem espacial e temporal do componente de profundidade (e opcionalmente mais informações tais como dados da obstrução), daqui por diante também indicada como "D", e a sua formatação como um sinal de vídeo tridimensional que compreende estéreo e profundidade a uma relação da taxa de quadros de 2:2:1 LRD.
O objetivo de uma realização vantajosa particular da presente invenção é o emprego de uma representação de resolução mais baixa do sinal de vídeo, a fim de gerar um sinal estéreo mais profundidade que encaixa dentro dos requisitos de largura de banda do sinal estéreo original. A idéia subjacente consiste em fazer uso de uma sequência de vídeo 1280*720 a 60Hz a fim de codificar um sinal estéreo 1920*1080 a 24Hz (LR) mais profundidade (D).
Além disso, ao fazer uso de 2:1, podem ser obtidas inserções de quadros extras intercaladas de 2:2:1 que podem conter vários componentes (tais como componentes de profundidade ou componentes de transparência) de múltiplos momentos no tempo; por exemplo, Dt=1 e Dt=2.
O formato de LRD tal como proposto anteriormente requer geralmente mais recursos (decodificação) então atualmente disponíveis em aparelhos de reprodução Blue-ray. Além disso, tais aparelhos de reprodução Blue-ray carecem de portas de interface adicionais para sinais estéreos e sinais de profundidade.
Também deve-se observar que o padrão estéreo de tabuleiro de damas atualmente utilizado tem diversos inconvenientes, uma vez que não permite o uso de exibições autoestereoscópicas típicas, e a percepção 3D é altamente dependente do tamanho da tela.
Também devido à natureza do padrão de tabuleiro de damas os requisitos de taxas de bits são relativamente elevados (pelo menos duas vezes a taxa de bits requerida para o vídeo monoscópico de 1080p, 24 Hz).
Propõe-se superar o problema do recurso de decodificação e da interface utilizando um formato intercalado no tempo 1280*720p com quadros L'R'D' em que: - L' = imagem esquerda subamostrada espacial (1920*10801280*720), - R' = imagem direita subamostrada espacial (1920*10801280*720) e - D' = profundidade espacial.
Tipicamente, embora não seja imperativo, D' compreende informações da profundidade temporal e espacial, da textura da obstrução, da profundidade e transparência da obstrução. D' é subamostrada temporalmente com um fator 2, e isso significa L' + R' + D' = 24 + 24 + 12 Hz = 60 Hz.
Tipicamente, um aparelho de reprodução Blue-ray pode decodificar um sinal de vídeo tal como uma sequência de imagens codificada de 720p utilizando MPEG. Além disso um sinal da imagem de 720p é um formato de vídeo suportado em interfaces conhecidas, tais como HDMI/CEA. A subamostragem espacial e temporal proposta e a intercalação de L, R e D em uma sequência de 1280*720 a 60 Hz L'R'D' permitem uma implementação da presente invenção em cada aparelho de reprodução BD existente.
A Figura 13 exemplifica requisitos para a decodificação do aparelho de reprodução BD monoscópico existente, bem como a saída da interface (SE) em Mpixels/s. Nenhuma modificação especial necessita ser feita nos aparelhos de reprodução existentes a fim de suportar a codificação L'R'D' acima. Deve-se observar que na Figura 13 os quadro D compreendem a informação de profundidade (D), a informação de transparência (T), a textura de fundo (BG) e a profundidade de fundo (BD). A única questão remanescente é a resolução do problema de sincronização.
O problema de sincronização pode ser resolvido no caso em que a corrente é codificada tal como ilustrado na Figura 14. Aqui é mostrado que preferivelmente os quadros L, R e D estão intercalados para uma seqüência de repetição dos quadros L, R, D, L e R. Além disso, a Figura 14 mostra uma maneira preferida de codificar as imagens. O padrão HDMI tem uma opção para indicar nos chamados Infoframes que a imagem presente na interface é um quadro codificado original, e especificamente os indicadores I, P e B estão presentes. Além disso, a sinalização da codificação de L'R'D' ao monitor ou ao visor é necessária, indicando que o sinal na interface não é um sinal de 720p monoscópico, mas um sinal 3D-720p de acordo com a invenção. Isto pode ter que ser padronizado em HDMI/CEA, no entanto, como tal a especificação da interface provê espaço amplo para indicar isso.
Uma vez que o sinal L'R'D' tem todas as propriedades de um sinal monoscópico regular de 720p 60 Hz, ele pode ser decodificado por aparelhos de reprodução Blue- ray e também pode ser enviado à sua interface de saída HDMI.
Conforme indicado acima, o conteúdo do componente D' não fica limitado tipicamente à profundidade, mas também pode compreender informações da textura de fundo (BG), da transparência (T) e de metadados adicionais. Os metadados podem ser informações de imagens adicionais para melhorar a qualidade percebida 3D, mas também informações relacionadas com o conteúdo (por exemplo, sinalização, etc.).
Os componentes típicos são D (profundidade (do primeiro plano)), BG (textura de fundo), BD (profundidade de fundo) e T (mapa de transparência). Em princípio, com o formato proposto estes componentes estão disponíveis a 12 Hz e não a 24 Hz. Eles podem ser sobreamostrados temporalmente com algoritmos de sobreamostragem novos ou conhecidos. No entanto, para algumas aplicações a sobreamostragem não é requerida. Por exemplo, quando são compostos gráficos (subtítulos, OSD, etc.) no alto do vídeo é útil ter a informação da profundidade disponível de maneira tal que os gráficos possam ser compostos no local correto, ou seja, na posição correta com respeito à profundidade.
O acima exposto pode ser implementado quando se têm fases diferentes (isto é, alternadas) para a profundidade (D) e a transparência (T) tal como visto na Figura 17. A figura mostra um quadro de 1280x720 que compreende a informação de profundidade D1 e a informação de transparência T2. O componente D1 do quadro de 1280x720 é baseado no componente D1 de um quadro de 1920x1080 no momento no tempo T = 1/24 segundo. O componente T2 do quadro de 1280x720 é baseado no componente T2 de um outro quadro de 1920x1080 no tempo T = 2/24 segundos.
A vantagem de se ter D1 e T2 disponíveis a partir de momentos no tempo diferentes é que isso permite a reconstrução temporal incrementada da profundidade ao fazer uso da transparência de momentos no tempo adjacentes, vide a Figura 17.
Deve-se observar que nem todos os componentes no quadro D são igualmente importantes. Isto deixa espaço para saltar um componente (sempre ou dinamicamente dependente do conteúdo e marcado com alguns sinalizadores), deixando espaço para que um outro componente fique a 24 Hz total. Este conceito é ilustrado na Figura 18, onde as informações de transparência de T = 1/24 e de T = 2/24 são combinadas dentro de um único quadro de 1280x720.
Desse modo, a Figura 17 indica o exemplo onde todos os componentes são temporalmente subamostrados, e a Figura 18 indica a solução onde a T(transparência) só é subamostrada espacialmente, e não temporalmente (T1, T2).
NOVO BD TRIDIMENSIONAL
Além disso, para que uma nova especificação de aparelho de reprodução de Blue-ray tridimensional, o tipo LRD de formato de acordo com a presente invenção pode se tornar relevante. É provável que a saída dos futuros sistemas de aparelho de reprodução BD, por razões de compatibilidade e custo, seja de aproximadamente 2 * 1080p a 30 (ou 2*1080i a 60 Hz). Quando o princípio de LRD acima é aplicado, ou seja, informação adicional é adicionada, mais 11% de saída são requeridos. Isto é perto de 2 * 1080p a 3 0Hz. O aumento da saída máxima com um valor 11% mais elevado poderia ser aceitável para os sistemas futuros, dependendo das vantagens.
Para os futuros aparelhos de reprodução Blue-ray 3D, a qualidade é muito importante.As experiências mostraram que em particular a subamostragem espacial, isto é, a subamostragem horizontal e vertical com um fator de 2:1 de componentes de profundidade e transparência pode reduzir em muito a qualidade (vide também a Figura 21). Uma opção para melhorar esta situação consiste em aplicar a chamada subamostragem quinqunx baseada na filtragem diagonal tal como ilustrado na Figura 21. Por exemplo, os pixels 1920*1080 podem primeiramente ser subamostrados verticalmente para 1920*540, e então filtrados diagonalmente e submetidos à subamostragem quinqunx, e depois disso termina com amostras de 960*540 (quinqunx). No entanto, estas amostras preservam na direção horizontal a definição 1920 total.
Uma outra abordagem seria somente a subamostragem na direção vertical para a profundidade e a transparência. A Figura 19 mostra como isto pode ser executado utilizando uma seqüência de repetição de quadros L, R, D, L, R, D e D'. Na base, o conteúdo dos quadros D é indicado, isto é, os quadros D, D e D' subseqüentes. As setas na figura indicam a direção de predição utilizada na codificação dos quadros.
Dentro dos quadros D, a profundidade (D1, D2, D3) e a transparência (T1, t2) são providas se alternando a uma resolução de pixels 1920*540. Entrementes, a textura de fundo (BG) e a profundidade de fundo (BD) são fornecidas nos pixels 960*540.
Deve-se observar que neste esquema de codificação particular os quadros D e os quadros D' têm conteúdos e taxas diferentes. O tipo D' de quadro é provido na metade da taxa de quadros da taxa de L e D. D quadro D' pode ser utilizado para alocar os momentos no tempo de profundidade e transparência que estão faltando, aqui D2 e T2. Deve ser observado que os (alguns dos) componentes também podem ser submetidos à subamostragem quinqunx (vide também o apêndice 1).
Subsequentemente, os quadros D' são intercalados com a informação de LRD na sequência de LRD tal como indicado na estrutura de codificação de GOP (Grupo de Imagens) na Figura 19 pela codificação de LRD-LRDD'-LRD-LRDD' consecutivamente.
A Figura 19 também mostra como no modo de L R D D' a informação da profundidade D e a informação da profundidade D' podem ser comprimidas eficientemente utilizando D1 para predizer D3 e utilizando D1 e D3 para predizer D2.
A Figura 15 mostra algumas das opções para a codificação de vídeo para o uso com sistemas Blue-ray 3D. Conforme pode ser observado na Figura 15, a presente invenção permite a codificação de LRD (estéreo+profundidade) para HD de filmes completos e HD de esportes.
Finalmente, a Figura 20 mostra sob a opção 1 uma realização da presente invenção na qual os quadros D para o modo de LRDD’ acima mencionado estão sendo intercalados. A Figura 20 também mostra sob a opção 2 uma realização da presente invenção na qual as informações de quatro momentos no tempo estão sendo combinadas, ao passo que a opção precedente combinou somente as informações de 2 momentos no tempo. Nesta última realização as componentes Y, U e V do sinal de vídeo são utilizados para carregar informações diferentes, por exemplo, dentro do quadro D2 a componente U carregava Profundidade de Fundo para T=1, ao passo que a componente V carregava a Profundidade de Fundo para T=2. As componentes individuais Y, U e V são mostradas para os respectivos quadros D.
Os conteúdos dos respectivos quadros D desta segunda opção; D1, D2, D3, D4, D5, D6 são mostrados abaixo do exemplo de intercalação.
Nesta realização, a textura de fundo para quatro momentos do tempo (BG11, BG12, BG13, BG14) é compactada em um quadro (para 4 momentos no tempo), como conseqüência de os quadros D poderem ser utilizados mais eficientemente. Esta realização tira partido eficazmente do fato que um componente da profundidade é geralmente de um tamanho similar àquele provido pelos componentes UV. Isto permite até mesmo que um dos 2 D ou T esteja a uma resolução de 1920*1080 total para 12 Hz, onde os outros momentos no tempo estão a 1920*540. Conforme pode ser visto na Figura 20, pode até mesmo ter sobrado algum espaço extra.
OBSERVAÇÕES CONCLUSIVAS
A descrição detalhada anterior com referência aos desenhos é meramente uma ilustração da invenção e das características adicionais, que são definidas nas reivindicações. A invenção pode ser praticada de numerosas maneiras diferentes. A fim de ilustrar isto, algumas alternativas são indicadas resumidamente.
A invenção pode ser aplicada vantajosamente em numerosos tipos de produtos ou métodos relacionados às representações visuais tridimensionais. Um vídeo tridimensional é meramente um exemplo. A invenção pode ser igualmente aplicada para imagens paradas tridimensionais, isto é, fotos tridimensionais.
Há numerosas maneiras de se prover uma imagem de vídeo tridimensional de acordo com a invenção. A Figura 1 ilustra uma implementação que compreende um par de câmeras RCAM, LCAM. Neste exemplo, o par de câmeras captura imagens reais. Em uma outra implementação, os pares de imagens virtuais podem ser gerados por meio de, por exemplo, um processador apropriadamente programado. Um mapa de profundidade não precisa necessariamente ser obtido por meio de um scanner de profundidade, ou de um dispositivo de medição similar. Um mapa de profundidade pode ser estabelecido com base em estimativas, tal como mencionado anteriormente na descrição detalhada. O que importa é que o mapa de profundidade seja especificamente dedicado para uma imagem em um par de imagens que, dessa maneira, constitui uma representação visual tridimensional.
Um mapa de profundidade pode ser especificamente dedicado para uma imagem esquerda, tal como na descrição detalhada anterior, ou uma imagem direita. Isto é, em uma versão diferente do sinal de vídeo tridimensional versátil VS ilustrado na Figura 2, o mapa de profundidade DM pode ser especificamente dedicado para a imagem direita RP. Em tal variante, uma imagem de ponto de visualização deslocado é gerada a partir da imagem direita RP e do mapa de profundidade DM especificamente dedicado para esta imagem. A imagem de fundo BG também será dedicada então para a imagem direita RP. A imagem de fundo BG pode ser omitida com a finalidade de, por exemplo, redução de dados ou redução de largura de banda.
Há numerosas maneiras diferentes de se prover dados de diretrizes de renderização. A descrição detalhada anteriormente fornece um exemplo com referência à Figura 10. Neste exemplo, uma série de etapas é realizada, algumas das quais envolvem uma interação com um operador do sistema. Uma ou mais destas interações podem ser eficazmente substituídas por uma decisão automatizada. Também é possível gerar dados de diretrizes de renderização de uma maneira inteiramente automatizada. Também deve-se observar que a série de etapas ilustradas na Figura 10 não precisa necessariamente ser executada em ordem na qual elas são mostradas. Além disso, várias etapas podem ser combinadas em uma etapa, ou uma etapa pode ser omitida.
O termo "imagem" deve ser compreendido em um sentido amplo. O termo inclui qualquer entidade que permita a renderização visual, tal como, por exemplo, imagem, quadro, ou campo.
Em termos amplos, há numerosas maneiras de implementar entidades funcionais por meio de hardware ou software, ou uma combinação de ambos. A este respeito, os desenhos são muito diagramáticos. Embora um desenho mostre entidades funcionais diferentes como blocos diferentes, isto não exclui de nenhuma maneira as implementações em que uma única entidade executa diversas funções, ou em que diversas entidades executam uma única função. Por exemplo, com respeito à Figura 11, o decodificador DEC, o demultiplexador DMX, o gerador de imagem de ponto de visualização deslocado SHG, o seletor SEL e o controlador CTRL podem ser implementados por meio de um processador apropriadamente programado ou de um processador dedicado na forma de um circuito integrado que compreende todas estas entidades funcionais.
Há numerosas maneiras de armazenar e distribuir um conjunto de instruções, isto é, software, que permite que um circuito programável opere de acordo com a invenção. Por exemplo, o software pode ser armazenado em um meio apropriado, tal como um disco óptico ou um circuito de memória. Um meio em que o software armazenado pode ser provido como um produto individual ou em conjunto com um outro produto, que pode executar o software. Tal meio também pode fazer parte de um produto que permite que o software seja executado. O software também pode ser distribuído através de redes de comunicação, que podem ser com fio, sem fio, ou híbridas. Por exemplo, o software pode ser distribuído através da Internet. O software pode ficar disponível para o download por meio de um servidor. O download pode ficar sujeito a um pagamento.
As observações aqui feitas anteriormente demonstram que a descrição detalhada com referência aos desenhos ilustra mas não limita a invenção. Há numerosas alternativas, que se enquadram dentro do âmbito das reivindicações anexas. Qualquer sinal de referência em uma reivindicação não deve ser interpretado como limitador da reivindicação. A palavra "compreende" não exclui a presença de outras elementos ou etapas além daqueles listados em uma reivindicação. A palavra "a" ou "o" precedendo um elemento ou uma etapa não exclui a presença de uma pluralidade de tais elementos ou etapas. O mero fato que as respectivas reivindicações dependentes definem características adicionais respectivas, não exclui uma combinação de características adicionais, que corresponde a uma combinação de reivindicações dependentes.

Claims (13)

1. MÉTODO DE PROVISÃO DE UM SINAL DE IMAGEM TRIDIMENSIONAL, caracterizado por compreender: - uma etapa da provisão da imagem em que um par de imagens (LP, RP) é provido, o qual compreende uma primeira imagem (LP) que se destina ao olho de um espectador, e uma segunda imagem (RP) que se destina ao outro olho do espectador; - uma etapa de provisão do mapa de profundidade em que um mapa de profundidade (DM) especificamente dedicado para a primeira imagem é provido, em que o mapa de profundidade compreende valores de indicação da profundidade, um valor de indicação da profundidade que se relaciona a uma porção particular da primeira imagem e indica uma distância entre um objeto representado pelo menos parcialmente por essa porção da primeira imagem e o espectador; - uma etapa de renderização na qual os dados de diretrizes de renderização (GD) são providos, em que os dados de diretrizes de renderização especificam os respectivos valores de parâmetros para os respectivos contextos de renderização, por meio do que os respectivos valores de parâmetros se relacionam à geração de uma imagem de ponto de visualização deslocado (LP+/-S) para diferentes tamanhos de tela a partir da primeira imagem (LP) e do mapa de profundidade (DM), que é especificamente dedicado para a primeira imagem.
2. MÉTODO, de acordo com a reivindicação 1, caracterizado pela etapa de provisão de dados de diretrizes de renderização compreender uma sub-etapa na qual: - um conjunto de valores de parâmetros é definido para um primeiro modo estéreo (A) em que uma imagem de ponto de visualização deslocado (LP+/-S), que é gerada a partir da primeira imagem (LP) e do mapa de profundidade (DM), constitui uma primeira imagem renderizada (LR), e em que a segunda imagem (RP) constitui uma segunda imagem renderizada (RR); e - um conjunto de valores de parâmetros é definido para um segundo modo estéreo (B) em que a primeira imagem (LP) constitui uma primeira imagem renderizada (LR) e em que uma imagem de ponto de visualização deslocado (LP+/- S), que é gerada a partir da primeira imagem (LP) e do mapa de profundidade (DM), constitui uma segunda imagem renderizada (RR).
3. MÉTODO, de acordo com a reivindicação 2, caracterizado pela etapa de provisão de dados de diretrizes de renderização compreender uma subetapa na qual os respectivos conjuntos de valores de parâmetros (Pmax) são providos com uma definição de uma primeira faixa de intensidade de estéreo (10-6) na qual o primeiro modo estéreo (A) deve se aplicar, e uma segunda faixa de intensidade de estéreo (5-0) na qual o segundo modo estéreo (B) deve se aplicar.
4. MÉTODO, de acordo com a reivindicação 1, caracterizado pelos dados de diretrizes da renderização (GD) definir os respectivos valores máximos de deslocamento de paralaxe (Pmax) para os respectivos valores de indicação da profundidade (DV).
5. MÉTODO, de acordo com a reivindicação 1, caracterizado pelos dados de diretrizes de renderização (GD) definir os respectivos valores de deslocamento de paralaxe (Poff) para os respectivos tamanhos de tela (SZ).
6. MÉTODO, de acordo com a reivindicação 1, caracterizado pelos dados de diretrizes de renderização (GD) compreender uma indicação da precisão do mapa de profundidade.
7. MÉTODO, de acordo com a reivindicação 1, caracterizado por compreender: - uma etapa de provisão da imagem de fundo em que é provida uma imagem de fundo (BG) que é especificamente dedicada para a primeira imagem (LP).
8. MÉTODO, de acordo com a reivindicação 7, caracterizado por compreender: - uma etapa de provisão de um alpha-map em que é provido um alpha-map que é especificamente dedicado para a primeira imagem (LP), em que o alpha-map define transições graduais em uma imagem de ponto de visualização deslocado que pode ser gerada a partir da imagem esquerda, do mapa de profundidade (DM) e da imagem de fundo (BG).
9. SISTEMA DE PROVISÃO DE SINAL DE IMAGEM TRIDIMENSIONAL, caracterizado por compreender: - um arranjo de provisão de imagens (LCAM, RCAM) para prover um par de imagens (LP, RP), que compreende uma primeira imagem (LP) que se destina ao olho de um espectador, e uma segunda imagem (RP) que se destina ao outro olho do espectador; - um provedor de mapa de profundidade (DS, RPR) para prover um mapa de profundidade (DM) especificamente dedicado para a primeira imagem (LP), em que o mapa de profundidade compreende valores de indicação da profundidade, em que um valor de indicação da profundidade se relaciona a uma porção particular da primeira imagem e indica uma distância entre um objeto representado pelo menos parcialmente por essa porção da primeira imagem e o espectador; e - um meio para prover os dados de diretrizes de renderização (GD), em que os dados de diretrizes de renderização especificam os respectivos valores de parâmetros para os respectivos contextos de renderização, por meio do que os respectivos valores de parâmetros se relacionam à geração de uma imagem de ponto de visualização deslocado (LP+/-S) para diferentes tamanhos de tela a partir da primeira imagem (LP) e do mapa de profundidade (DM), que é dedicado especificamente para a primeira imagem.
10. SINAL QUE CONTÉM UMA IMAGEM TRIDIMENSIONAL, caracterizado por compreender: - um par de imagens que compreende uma primeira imagem (LP) que se destina ao olho de um espectador, e uma segunda imagem (RP) que se destina ao outro olho do espectador; - um mapa de profundidade (DM) especificamente dedicado para a primeira imagem (LP), em que o mapa de profundidade compreende valores de indicação da profundidade, em que um valor de indicação da profundidade se relaciona a uma porção particular da primeira imagem e indica uma distância entre um objeto representado pelo menos parcialmente por essa porção da primeira imagem e o espectador; e - dados de diretrizes de renderização (GD), em que os dados de diretrizes da renderização especificam os respectivos valores de parâmetros para os respectivos contextos de renderização, por meio do que os respectivos valores de parâmetros se relacionam à geração de uma imagem de ponto de visualização deslocado (LP+/-S) para diferentes tamanhos de tela a partir da primeira imagem (LP) e do mapa de profundidade (DM), que é especificamente dedicado para a primeira imagem.
11. MÍDIA DE ARMAZENAMENTO, caracterizada por compreender um sinal tal como definido na reivindicação 10.
12. MÉTODO DE RENDERIZAÇÃO DE UMA IMAGEM TRIDIMENSIONAL, com base em um sinal de imagem tridimensional tal como definido na reivindicação 10, em que o método é caracterizado por compreender: - uma etapa de geração de imagem de ponto de visualização deslocado na qual uma imagem de ponto de visualização deslocado (LP+/-S) é gerada a partir da primeira imagem (LP) e do mapa de profundidade (DM), que é especificamente dedicado para a primeira imagem, e os dados de diretrizes de renderização (GD), que são especificamente dedicados para a primeira imagem, em que os dados de diretrizes de renderização (GD) especificam os respectivos valores de parâmetros para os respectivos contextos de renderização, por meio do que os respectivos valores de parâmetros se relacionam à geração de uma imagem de ponto de visualização deslocado (LP+/-S) a partir da primeira imagem (LP) e do mapa de profundidade (DM), que é especificamente dedicado para a primeira imagem; e - uma etapa de renderização para renderizar a imagem tridimensional de acordo com pelo menos um de dois modos estéreos: - um primeiro modo estéreo (A) em que a imagem de ponto de visualização deslocado (LP+/-S) constitui uma primeira imagem renderizada (LR) e em que a segunda imagem (RP) compreendida no sinal constitui uma segunda imagem renderizada (RR); e - um segundo modo estéreo (B) em que a primeira imagem (LP) compreendida no sinal constitui a primeira imagem renderizada (LR) e em que a imagem de ponto de visualização deslocado (LP+/-S) constitui a segunda imagem renderizada (RR).
13. SISTEMA DE RENDERIZAÇÃO DE IMAGEM TRIDIMENSIONAL PARA RENDERIZAR UMA IMAGEM TRIDIMENSIONAL, com base em um sinal tal como definido na reivindicação 10, em que o sistema é caracterizado por compreender: - um gerador de ponto de visualização deslocado (SHG) para gerar uma imagem de ponto de visualização deslocado (LP+/-S) a partir da primeira imagem (LP) e do mapa de profundidade (DM), que é especificamente dedicado para a primeira imagem (LP), e dados de diretrizes de renderização (GD), que são especificamente dedicados para a primeira imagem, em que os dados de diretrizes de renderização (GD) especificam os respectivos valores de parâmetros para os respectivos contextos de renderização, por meio do que os respectivos valores de parâmetros se relacionam à geração de uma imagem de ponto de visualização deslocado (LP+/-S) para diferentes tamanhos de tela a partir da primeira imagem (LP) e do mapa de profundidade (DM), que é especificamente dedicado para a primeira imagem; e - um seletor (SEL) para a renderização da imagem tridimensional de acordo com pelo menos um de dois modos estéreos: - um primeiro modo estéreo (A) em que a imagem de ponto de visualização deslocado (LP+/-S) constitui uma primeira imagem renderizada (LR) e em que a segunda imagem (RP) compreendida no sinal constitui uma segunda imagem renderizada (RR); e - um segundo modo estéreo (B) em que a primeira imagem (LP) compreendida no sinal constitui a primeira imagem renderizada (LR) e em que a imagem de ponto de visualização deslocado (LPp+/-S) constitui a segunda imagem renderizada (RR).
BRPI0911016-0A 2008-07-24 2009-07-22 método de provisão de um sinal de imagem tridimensional, sistema de provisão de sinal de imagem tridimensional, sinal que contém uma imagem tridimensional, mídia de armazenamento, método de renderização de uma imagem tridimensional, sistema de renderização de imagem tridimensional para renderizar uma imagem tridimensional BRPI0911016B1 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP08305420 2008-07-24
EP08305420.5 2008-07-24
EP08169821.9 2008-11-24
EP08169821 2008-11-24
PCT/IB2009/053180 WO2010010521A2 (en) 2008-07-24 2009-07-22 Versatile 3-d picture format

Publications (2)

Publication Number Publication Date
BRPI0911016A2 BRPI0911016A2 (pt) 2016-06-07
BRPI0911016B1 true BRPI0911016B1 (pt) 2021-01-05

Family

ID=41066194

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0911016-0A BRPI0911016B1 (pt) 2008-07-24 2009-07-22 método de provisão de um sinal de imagem tridimensional, sistema de provisão de sinal de imagem tridimensional, sinal que contém uma imagem tridimensional, mídia de armazenamento, método de renderização de uma imagem tridimensional, sistema de renderização de imagem tridimensional para renderizar uma imagem tridimensional

Country Status (10)

Country Link
US (2) US9432651B2 (pt)
EP (2) EP3101894B1 (pt)
JP (1) JP5567562B2 (pt)
KR (1) KR101749893B1 (pt)
CN (2) CN106101682B (pt)
BR (1) BRPI0911016B1 (pt)
MY (1) MY155378A (pt)
RU (1) RU2519057C2 (pt)
TW (1) TWI573434B (pt)
WO (1) WO2010010521A2 (pt)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102461171A (zh) 2009-05-01 2012-05-16 汤姆森特许公司 三维视频的参考画面列表
TW201119353A (en) 2009-06-24 2011-06-01 Dolby Lab Licensing Corp Perceptual depth placement for 3D objects
KR20110005205A (ko) * 2009-07-09 2011-01-17 삼성전자주식회사 디스플레이 장치의 화면 사이즈를 이용한 신호 처리 방법 및 장치
WO2011013030A1 (en) * 2009-07-27 2011-02-03 Koninklijke Philips Electronics N.V. Combining 3d video and auxiliary data
US9426441B2 (en) 2010-03-08 2016-08-23 Dolby Laboratories Licensing Corporation Methods for carrying and transmitting 3D z-norm attributes in digital TV closed captioning
US8830300B2 (en) * 2010-03-11 2014-09-09 Dolby Laboratories Licensing Corporation Multiscalar stereo video format conversion
US20110304618A1 (en) * 2010-06-14 2011-12-15 Qualcomm Incorporated Calculating disparity for three-dimensional images
IT1401367B1 (it) * 2010-07-28 2013-07-18 Sisvel Technology Srl Metodo per combinare immagini riferentesi ad un contenuto tridimensionale.
US9571811B2 (en) 2010-07-28 2017-02-14 S.I.Sv.El. Societa' Italiana Per Lo Sviluppo Dell'elettronica S.P.A. Method and device for multiplexing and demultiplexing composite images relating to a three-dimensional content
KR20130095275A (ko) 2010-08-09 2013-08-27 코닌클리케 필립스 일렉트로닉스 엔.브이. 인코더, 디코더, 비트-스트림, 다중-뷰 신호의 두 개의 뷰들에 대응하는 이미지 쌍을 인코딩하는 방법, 및 디코딩하는 방법
WO2012036902A1 (en) 2010-09-14 2012-03-22 Thomson Licensing Compression methods and apparatus for occlusion data
JPWO2012070500A1 (ja) * 2010-11-22 2014-05-19 ソニー株式会社 符号化装置および符号化方法、並びに、復号装置および復号方法
EP2647209B1 (en) * 2010-12-03 2017-11-01 Koninklijke Philips N.V. Transferring of 3d image data
JP4908624B1 (ja) * 2010-12-14 2012-04-04 株式会社東芝 立体映像信号処理装置及び方法
US20120162412A1 (en) * 2010-12-22 2012-06-28 Electronics And Telecommunications Research Institute Image matting apparatus using multiple cameras and method of generating alpha maps
US9519994B2 (en) 2011-04-15 2016-12-13 Dolby Laboratories Licensing Corporation Systems and methods for rendering 3D image independent of display size and viewing distance
US20120274626A1 (en) * 2011-04-29 2012-11-01 Himax Media Solutions, Inc. Stereoscopic Image Generating Apparatus and Method
CN103095978A (zh) * 2011-11-03 2013-05-08 华晶科技股份有限公司 产生背景模糊的影像处理方法及其影像撷取装置
KR20130094905A (ko) * 2012-02-17 2013-08-27 삼성전자주식회사 디스플레이장치 및 그 입체감 조정방법
CN111031302A (zh) * 2012-04-25 2020-04-17 浙江大学 三维视频序列辅助信息的解码方法、编码方法及装置
TWI630815B (zh) * 2012-06-14 2018-07-21 杜比實驗室特許公司 用於立體及自動立體顯示器之深度圖傳遞格式
JP2014016383A (ja) * 2012-07-05 2014-01-30 Toshiba Corp 画像処理装置および画像表示装置
KR102058606B1 (ko) 2012-07-19 2019-12-23 선 페이턴트 트러스트 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치 및 화상 복호 장치
GB2499694B8 (en) 2012-11-09 2017-06-07 Sony Computer Entertainment Europe Ltd System and method of image reconstruction
RU2013102854A (ru) 2013-01-30 2014-08-10 ЭлЭсАй Корпорейшн Способ и устройство для повышения кадровой частоты потока изображений с использованием, по меньшей мере, одного потока изображений с более высокой кадровой частотой
WO2014165744A1 (en) * 2013-04-05 2014-10-09 Koninklijke Philips N.V. Re-targeting a three-dimensional image signal
RU2556451C2 (ru) * 2013-06-06 2015-07-10 Общество с ограниченной ответственностью "Триаксес Вижн" СПОСОБ КОМПОНОВКИ ФОРМАТА ЦИФРОВОГО СТЕРЕОСКОПИЧЕСКОГО ВИДЕОПОТОКА 3DD Tile Format
TWI603290B (zh) * 2013-10-02 2017-10-21 國立成功大學 重調原始景深圖框的尺寸爲尺寸重調景深圖框的方法、裝置及系統
TWI503788B (zh) * 2013-10-02 2015-10-11 Jar Ferr Yang 還原尺寸重調景深圖框爲原始景深圖框的方法、裝置及系統
MX362021B (es) 2014-10-08 2019-01-04 Lg Electronics Inc Metodo de codificacion de imagen de profundidad y dispositivo en codificacion de video.
KR102305998B1 (ko) * 2014-12-08 2021-09-28 엘지이노텍 주식회사 영상 처리 장치
US11218682B2 (en) * 2015-01-21 2022-01-04 Nevermind Capital Llc Methods and apparatus for processing and or encoding images with negative parallax
CA2977113A1 (en) 2015-03-01 2016-09-09 Nextvr Inc. Methods and apparatus for making environmental measurements and/or using such measurements in 3d image rendering
US10368059B2 (en) * 2015-10-02 2019-07-30 Atheer, Inc. Method and apparatus for individualized three dimensional display calibration
CN105913499A (zh) * 2016-04-12 2016-08-31 郭栋 一种立体转制合成的方法及系统
EP3249929A1 (en) * 2016-05-25 2017-11-29 Thomson Licensing Method and network equipment for establishing a manifest
CN110506419B (zh) 2017-02-03 2021-12-28 华纳兄弟娱乐公司 在虚拟现实中渲染扩展视频
US10671881B2 (en) 2017-04-11 2020-06-02 Microsoft Technology Licensing, Llc Image processing system with discriminative control
RU2691884C1 (ru) * 2018-01-16 2019-06-18 Общество с ограниченной ответственностью "Авиаинформатика" Телевизионное устройство для формирования стереоскопического изображения
KR102638565B1 (ko) * 2018-01-25 2024-02-19 소니 세미컨덕터 솔루션즈 가부시키가이샤 화상 처리 장치, 출력 정보 제어 방법, 및 프로그램
US11348252B1 (en) * 2018-07-12 2022-05-31 Nevermind Capital Llc Method and apparatus for supporting augmented and/or virtual reality playback using tracked objects
CN111540003A (zh) * 2020-04-27 2020-08-14 浙江光珀智能科技有限公司 一种深度图像的生成方法及装置
US11190748B1 (en) * 2020-11-20 2021-11-30 Rockwell Collins, Inc. Dynamic parallax correction for visual sensor fusion

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8626527D0 (en) 1986-11-06 1986-12-10 British Broadcasting Corp 3d video transmission
US5737012A (en) * 1994-12-01 1998-04-07 Olympus Optical Co., Ltd. Head mounted image display apparatus and image forming apparatus related thereto
US5617334A (en) * 1995-07-21 1997-04-01 The Trustees Of Columbia University In The City Of New York Multi-viewpoint digital video coder/decoder and method
JPH0946729A (ja) * 1995-08-01 1997-02-14 Olympus Optical Co Ltd 立体撮像装置
EP0840982B1 (en) * 1996-05-24 2002-02-13 Koninklijke Philips Electronics N.V. Motion estimation
US6137912A (en) * 1998-08-19 2000-10-24 Physical Optics Corporation Method of multichannel data compression
WO2001096147A2 (en) * 2000-06-15 2001-12-20 Automotive Systems Laboratory, Inc. Occupant sensor
RU2003110175A (ru) 2000-09-14 2004-08-27 Орэси Корп. (Us) Способ преобразования двумерного изображения в трехмерное изображение
US7085409B2 (en) 2000-10-18 2006-08-01 Sarnoff Corporation Method and apparatus for synthesizing new video and/or still imagery from a collection of real video and/or still imagery
US20020080143A1 (en) * 2000-11-08 2002-06-27 Morgan David L. Rendering non-interactive three-dimensional content
CN1419680A (zh) 2001-01-26 2003-05-21 皇家菲利浦电子有限公司 时空滤波器单元以及包括这种时空滤波器单元的图像显示设备
CN1261912C (zh) 2001-11-27 2006-06-28 三星电子株式会社 基于深度图像表示三维物体的装置和方法
EP2357836B1 (en) 2002-03-27 2015-05-13 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
US8369607B2 (en) 2002-03-27 2013-02-05 Sanyo Electric Co., Ltd. Method and apparatus for processing three-dimensional images
US20030198290A1 (en) * 2002-04-19 2003-10-23 Dynamic Digital Depth Pty.Ltd. Image encoding system
EP1408703A3 (en) * 2002-10-10 2004-10-13 Fuji Photo Optical Co., Ltd. Electronic stereoscopic imaging system
JP2004153808A (ja) * 2002-10-10 2004-05-27 Fuji Photo Optical Co Ltd 立体電子映像装置
JP3971691B2 (ja) * 2002-10-31 2007-09-05 日本電信電話株式会社 仮想視点画像生成方法及び仮想視点画像生成装置、ならびに仮想視点画像生成プログラム及び記録媒体
US20060203085A1 (en) 2002-11-28 2006-09-14 Seijiro Tomita There dimensional image signal producing circuit and three-dimensional image display apparatus
EP1578142B1 (en) 2002-12-16 2014-10-08 Sanyo Electric Co., Ltd. Stereoscopic video creating device and stereoscopic video distributing method
US7403201B2 (en) 2003-01-20 2008-07-22 Sanyo Electric Co., Ltd. Three-dimensional video providing method and three-dimensional video display device
US20050041736A1 (en) * 2003-05-07 2005-02-24 Bernie Butler-Smith Stereoscopic television signal processing method, transmission system and viewer enhancements
CA2557533A1 (en) 2004-02-27 2005-09-09 Td Vision Corporation S.A. De C.V. Method and system for digital coding 3d stereoscopic video images
US8094927B2 (en) 2004-02-27 2012-01-10 Eastman Kodak Company Stereoscopic display system with flexible rendering of disparity map according to the stereoscopic fusing capability of the observer
JP2005295004A (ja) * 2004-03-31 2005-10-20 Sanyo Electric Co Ltd 立体画像処理方法および立体画像処理装置
KR100585966B1 (ko) 2004-05-21 2006-06-01 한국전자통신연구원 3차원 입체 영상 부가 데이터를 이용한 3차원 입체 디지털방송 송/수신 장치 및 그 방법
KR100707206B1 (ko) 2005-04-11 2007-04-13 삼성전자주식회사 3차원 객체의 깊이영상 기반 표현 방법 및 이를 이용한모델링 및 렌더링 방법 및 장치
RU2322771C2 (ru) * 2005-04-25 2008-04-20 Святослав Иванович АРСЕНИЧ Стереопроекционная система
WO2006137000A1 (en) * 2005-06-23 2006-12-28 Koninklijke Philips Electronics N.V. Combined exchange of image and related data
WO2007006051A2 (en) 2005-07-06 2007-01-11 Mediapod Llc System and method for capturing visual data
US8369406B2 (en) 2005-07-18 2013-02-05 Electronics And Telecommunications Research Institute Apparatus of predictive coding/decoding using view-temporal reference picture buffers and method using the same
KR100667810B1 (ko) 2005-08-31 2007-01-11 삼성전자주식회사 3d 영상의 깊이감 조정 장치 및 방법
WO2007057497A1 (en) * 2005-11-17 2007-05-24 Nokia Corporation Method and devices for generating, transferring and processing three-dimensional image data
RU2306678C1 (ru) * 2006-02-07 2007-09-20 Василий Александрович ЕЖОВ Автостереоскопический дисплей с квазинепрерывным спектром ракурсов
ES2599858T3 (es) * 2006-03-31 2017-02-03 Koninklijke Philips N.V. Codificación eficaz de múltiples vistas
US20070247477A1 (en) * 2006-04-21 2007-10-25 Lowry Gregory N Method and apparatus for processing, displaying and viewing stereoscopic 3D images
JP4468341B2 (ja) * 2006-09-28 2010-05-26 株式会社東芝 三次元画像表示方法および三次元画像表示装置
JP4751801B2 (ja) * 2006-10-17 2011-08-17 シャープ株式会社 立体画像検索装置
US8335403B2 (en) 2006-11-27 2012-12-18 Nec Laboratories America, Inc. Soft edge smoothness prior and application on alpha channel super resolution
JP2008141666A (ja) 2006-12-05 2008-06-19 Fujifilm Corp 立体視画像作成装置、立体視画像出力装置及び立体視画像作成方法
WO2009011492A1 (en) * 2007-07-13 2009-01-22 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding stereoscopic image format including both information of base view image and information of additional view image
MY162861A (en) 2007-09-24 2017-07-31 Koninl Philips Electronics Nv Method and system for encoding a video data signal, encoded video data signal, method and system for decoding a video data signal
CN102027752B (zh) * 2008-05-12 2016-02-17 汤姆森特许公司 用于测量立体运动画面的潜在眼睛疲劳的系统和方法
US9973739B2 (en) * 2008-10-17 2018-05-15 Nokia Technologies Oy Sharing of motion vector in 3D video coding
EP2197217A1 (en) 2008-12-15 2010-06-16 Koninklijke Philips Electronics N.V. Image based 3D video format

Also Published As

Publication number Publication date
KR101749893B1 (ko) 2017-06-22
US9432651B2 (en) 2016-08-30
US20160344995A1 (en) 2016-11-24
TWI573434B (zh) 2017-03-01
JP2011529287A (ja) 2011-12-01
WO2010010521A2 (en) 2010-01-28
MY155378A (en) 2015-10-15
EP2308241A2 (en) 2011-04-13
EP3101894A1 (en) 2016-12-07
JP5567562B2 (ja) 2014-08-06
TW201010409A (en) 2010-03-01
EP2308241B1 (en) 2017-04-12
CN106101682B (zh) 2019-02-22
WO2010010521A3 (en) 2010-03-18
KR20110045013A (ko) 2011-05-03
US20110122131A1 (en) 2011-05-26
BRPI0911016A2 (pt) 2016-06-07
CN106101682A (zh) 2016-11-09
EP3101894B1 (en) 2021-06-23
RU2519057C2 (ru) 2014-06-10
RU2011106470A (ru) 2012-08-27
US10567728B2 (en) 2020-02-18
CN102106152A (zh) 2011-06-22

Similar Documents

Publication Publication Date Title
BRPI0911016B1 (pt) método de provisão de um sinal de imagem tridimensional, sistema de provisão de sinal de imagem tridimensional, sinal que contém uma imagem tridimensional, mídia de armazenamento, método de renderização de uma imagem tridimensional, sistema de renderização de imagem tridimensional para renderizar uma imagem tridimensional
JP5809064B2 (ja) 3d画像データの転送
US20110298795A1 (en) Transferring of 3d viewer metadata
BRPI0911014B1 (pt) Método de criação de um sinal de imagem tridimensional para renderização em um display, dispositivo para criação de um sinal de imagem tridimensional para renderização em um display, método de processamento de um sinal de imagem tridimensional e dispositivo para processamento de um sinal de imagem tridimensional
BRPI1005691B1 (pt) método de combinação de dados de imagem tridimensional [3d] e dados gráficos auxiliares, portador de informações compreendendo dados de imagem tridimensional [3d] e dados gráficos auxiliares, dispositivo de geração de 3d para combinar dados de imagem tridimensional [3d] e dados gráficos auxiliares, dispositivo de exibição em 3d para combinar dados de imagem tridimensional [3d] e dados gráficos auxiliares
BRPI1005134B1 (pt) Método de transferência de dados de imagem tridimensional [3d], dispositivo de geração de 3d para transferência de dados de imagem tridimensional [3d] para um dispositivo de exibição em 3d e sinal de exibição em 3d
BR112012007115A2 (pt) Método de codificação de um sinal de dados de vídeo 3d, método de decodificação de um sinal de vídeo 3d, codificador para codificar um sinal de dados de vídeo 3d, decodificador para decodificar um sinal de dados de vídeo 3d, produto de programa de computador para codificar um sinal de dados de vídeo, produto de programa de computador para decodificar um sinal de vídeo, sinal de dados de vídeo 3d, e portador de dados digitais
TW201125353A (en) 3D screen size compensation
BR122013001378A2 (pt) inserção de objetos em 3d em uma imagem estereoscópica em relativa profundidade
JP2014515569A (ja) 両眼視画像の両眼視用および単眼視用の同時表示を可能にするための該両眼視画像の自動変換
JP2015515820A (ja) 奥行きヘルパデータ
KR20110114583A (ko) 디스플레이 파라미터 설정들의 제어
TWI624803B (zh) 深度信號資料
US20140078255A1 (en) Reproduction device, reproduction method, and program
Vetro 3D in the Home: Mass Market or Niche?

Legal Events

Date Code Title Description
B25D Requested change of name of applicant approved

Owner name: KONINKLIJKE PHILIPS N.V. (NL)

B25G Requested change of headquarter approved

Owner name: KONINKLIJKE PHILIPS N.V. (NL)

B15K Others concerning applications: alteration of classification

Ipc: H04N 13/00 (2018.01), H04N 19/597 (2014.01)

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 05/01/2021, OBSERVADAS AS CONDICOES LEGAIS.