BRPI0911014B1

BRPI0911014B1 - Método de criação de um sinal de imagem tridimensional para renderização em um display, dispositivo para criação de um sinal de imagem tridimensional para renderização em um display, método de processamento de um sinal de imagem tridimensional e dispositivo para processamento de um sinal de imagem tridimensional

Info

Publication number: BRPI0911014B1
Application number: BRPI0911014-3A
Authority: BR
Inventors: Philip.S Newton; Dennis D. R. J. Bolio; Francesco Scalori; T Van Der Heijden Gerardus W; Henricus F. P. Van Doveren; Wiebe De Haan; Hendrik F. Moll
Original assignee: Koninklijke Philips N.V
Priority date: 2008-07-25
Filing date: 2009-07-17
Publication date: 2021-08-17
Also published as: US20110128351A1; CN102137270A; RU2011106942A; JP2011529286A; MY158412A; CN102137270B; JP5792064B2; KR20110053431A; WO2010010499A1; US9979902B2; CN102106153B; EP2308240A1; US20110292189A1; EP2362671B1; AU2009275163B2; CN102106153A; US8508582B2; ES2927481T3; EP2362671A1; RU2517402C2

Abstract

método de criação de um sinal de imagem tridimensional para renderização em um display, dispositivo para criação de um sinal de imagem tridimensional para renderização em um display, sinal de imagem tridimensional para processamento em um display, método de processamento de um sinal de imagem tridimensional, dispositivo para processamento de um sinal de imagem tridimensional, produto de programa de computador em uma mídia que pode ser lida por computador para criação de um sinal de imagem tridimensional para renderização em um display e produto de programa de computador em uma mídia que pode ser lida por computador para renderizar um sinal de imagem tridimensional para renderização em um display. trata-se de um método de criação de um sinal de imagem tridimensional que compreende a recepção de uma componente de imagem em primeiro lugar, a recepção de um segundo componente parta criar uma imagem em primeiro lugar, a recepção de um componente de imagem em primeiro lugar, a recepção de um componente de texto para incluir na imagem tridimensional, a recepção de um componente de dados que inclui informações de localização que descrevem a localização do componente de texto dentro da imagem tridimensional, e a criação de um sinal de imagem de três dimensões que compreende o primeiro componente de imagem, o segundo componente, o componente de texto, e o componente de dados. o sinal é renderizado pela renderização de uma imagem tridimensional a partir do primeiro componente de imagem e do segundo componente, em que a renderização inclui a renderização da componente de texto na imagem tridimensional, a renderização do componente de texto, incluindo o ajuste de parâmetros tridimensionais da imagem tridimensional no local do componente de texto renderizado.

Description

CAMPO DA INVENÇÃO

[001] A presente invenção está relacionada à criação e renderização de um sinal de imagem tridimensional (3D). Em uma realização, a invenção provê melhor posicionamento automático de legendas em um display 3D, o que atenua a fadiga visual do espectador.

ESTADO DA TÉCNICA DA INVENÇÃO

[002] Atualmente há uma renovação no interesse pela televisão em 3D, e isto está relacionado aos recentes avanços da tecnologia de visores que permitem uma boa reprodução de vídeo 3D para múltiplos espectadores. Um deles é o visor auto-estereoscópico lenticular 3D, mas também existem outros tipos de visores, como os baseados em barreira auto- estereoscópica e os visores estéreos multiplexados no tempo, baseados na tecnologia de projeção traseira. Normalmente, estes tipos de visor usam um dos dois formatos básicos de vídeo como entrada a fim de criar uma impressão 3D para o espectador. Os monitores baseados em estéreo usam intercalação sequencial de tempo e óculos para mostrar duas imagens distintas, uma para cada olho, e, por isso, necessita de um vídeo estéreo como uma entrada. Exemplos destes são os visores baseados em estéreo, com projeção traseira e multiplexados no tempo, e este tipo de sistema é também utilizado no cinema 3D. A principal alternativa para isso são os visores auto- estereoscópicos de diversas imagens, que não necessitam de óculos e muitas vezes usam uma entrada de formato conhecido, tal como imagem + profundidade como entrada para gerar uma impressão 3D. Mais informações sobre a tecnologia de displays 3D podem ser encontradas no capítulo 13 do livro "3D video communication - Algorithms, concepts and real time systems in human centered communication" (Comunicação de vídeo 3D - Algoritmos, conceitos e sistemas em tempo real para comunicação no ser humano), escrito por Oliver Shreer, entre outros (Wiley, 2005).

[003] O formato de vídeo estéreo é simples, pois fornece duas imagens, uma para cada olho. Normalmente essas duas imagens são intercaladas, espacialmente ou em um formato seqüencial no tempo e então alimentadas ao visor. O formato alternativo, chamado imagem + profundidade, é diferente, uma vez que é uma combinação de uma imagem 2D com um mapa de "profundidade" ou de disparidade. Ele é, normalmente, uma imagem em escala de cinza, pela qual o valor da escala de cinza de um pixel indica a quantidade de disparidade (ou de profundidade no caso de um mapa de profundidade) para o pixel correspondente na imagem 2D associada. Quando faz a renderização da imagem 3D, o display utiliza o mapa de disparidade ou de profundidade para calcular os pontos adicionais de visualização, tomando a imagem 2D como entrada. Isso pode ser feito de várias maneiras, e a forma mais simples é uma questão de deslocamento dos pixels da esquerda ou da direita, dependendo do valor de disparidade associado aos pixels. O trabalho intitulado “Depth image based rendering, compression and transmission for a new approach on 3D TV” (Renderização, compressão e transmissão baseadas em profundidade de imagens para uma nova abordagem sobre a TV 3D), de Christoph Fen dá uma imagem geral da tecnologia.

[004] Um problema com os displays auto- estereoscópicos estéreos 3D (baseados no formato sequencial no tempo) é referido como incompatibilidade no ajuste de convergência. Este é um problema para o qual convergem os olhos do espectador na posição virtual dos objetos que estão sendo exibidos, enquanto ao mesmo tempo, os olhos se ajustam (para ver a nitidez da imagem) sobre a superfície do visor em si. Essa incompatibilidade pode causar dores de cabeça e outros sintomas associados com enjôo. Além disso, quaisquer diferenças geométricas (especialmente qualquer paralaxe vertical), bem como elétrica (brilho, contraste, etc.) entre as imagens do olho esquerdo e direito podem contribuir com a fadiga visual. No entanto, se a proporção de disparidade é mantida em um valor pequeno, menor que um grau, então estes problemas são menos graves e os usuários podem assistir ao conteúdo sem problemas significativos. Consultar “Two factors in visual fatigue caused by stereoscopic HDTV images” (Dois fatores da fadiga visual causados pelas imagens auto- estereoscópicas em HDTV), escrito por Sumio Yano, entre outros. Consultar “Visores 2004”, páginas 141 a 150 (Elsevier), para mais detalhes.

[005] Analogamente aos problemas acima são aqueles em que um problema pode ocorrer quando o dispositivo de renderização está exibindo o texto em forma de legendas ou closed caption. Se o texto não está corretamente posicionado na tela, o que depende do tipo e das definições da mesma, o texto pode parecer desfocado, por exemplo, devido à interferência entre as imagens do olho esquerdo e direito, e o espectador poderá se sentir cansado. É também possível que a imagem borrada cause impacto sobre a legibilidade do texto. De acordo com E. Legge (Consultar “Psychophysics of Reading: I - Normal Vision”, (Psicofísica da Leitura: I - Imagem Normal), de Gordon E. Legge, entre outros, Vision Research, Vol 25, No. 2, páginas 239 a 252, 1985) a leitura é prejudicada se a largura de banda do texto está abaixo de dois ciclos por caractere. A imagem desfocada é um problema das telas auto- estereoscópicas, pois como normalmente a resolução é sacrificada para gerar diversas imagens, e para visores estéreo, em geral, há um problema com uma separação abaixo da ideal das duas imagens, o que pode resultar em imagem desfocada. Além disso, segundo Yano (mencionado acima), a profundidade do movimento aumenta a fadiga visual.

[006] Outro problema que está previsto, é que os espectadores podem ajustar a quantidade de disparidade e a posição relativa do plano de profundidade em uma televisão 3D (através, por exemplo, de alguns botões no seu controle remoto). Esses ajustes denotam que o texto pode se tornar desfocado, à medida que se afasta de uma posição neutra de profundidade, ou aumenta a "profundidade" de tal forma que cause fadiga visual.

[007] A publicação da patente dos Estados Unidos da América US 2005/0140676 discorre de um método para exibição de dados de texto em níveis múltiplos no mapa tridimensional. No sistema descrito nesta publicação, um mapa tridimensional é exibido em uma tela, e dados de texto com diferentes níveis de densidade são exibidos de acordo com as distâncias do ponto de visualização do mapa exibido em três dimensões em pedaços, onde os dados de texto serão exibidos, melhorando assim a legibilidade dos dados de texto. Além disso, é possível exibir os dados de texto através do ajuste local da densidade dos dados de texto na tela. O mapa tridimensional é exibido na tela do painel de um display através da conversão de dados de mapas com coordenadas bidimensionais para aqueles com coordenadas tridimensionais, por meio de um método de projeção em perspectiva. Dados de texto a serem apresentados juntamente com o mapa tridimensional são convertidos para um sistema de coordenadas tridimensionais, com uma origem definida pelo ponto de visualização do mapa tridimensional. Os dados de texto convertidos são projetados em um plano bidimensional a ser convertido para aqueles com coordenadas de tela. Em seguida, distâncias a partir do ponto de visualização do mapa tridimensional para as partes, onde os dados de texto serão exibidos, são classificadas. As distâncias classificadas são determinadas para os dados de texto convertidos com as coordenadas de tela. Dados de texto dos níveis correspondentes às distâncias determinadas são exibidos na tela do painel de exibição, no qual o mapa tridimensional é exibido.

[008] Enquanto no contexto da representação de um mapa tridimensional de um dispositivo de visualização bidimensional, a manipulação dos dados do texto de acordo com esta publicação está posicionada e dimensionada de forma significativa para o usuário, e não corresponde a quaisquer das questões acima identificadas, relacionadas com a exibição do texto em um dispositivo de exibição tridimensional.

[009] O documento JP2004-274125 descreve a geração de um sinal 3D. Um multiplexador combina dois componentes de imagem e dados de caracteres, que devem ser sobrepostos ao final do recebimento. O sinal de imagem 3D tem um fluxo independente de dados de texto.

[010] O documento EP 0905988 descreve um aparelho para exibição de imagem 3D, que recebe dois sinais de imagem 3D, por exemplo, de vídeo e de dados de caracteres, onde o segundo sinal está para ser sobreposto. Um valor máximo de profundidade é adquirido a partir do primeiro sinal. A paralaxe do segundo sinal é controlada para estar antes do primeiro sinal.

[011] O documento WO2008/038205 descreve a exibição de sinal 3D combinado com as informações de menu. Propõe-se subdividir o intervalo de profundidade 3D da tela em intervalos menores para exibir sinais diferentes.

[012] O documento WO2006/111893 descreve a percepção de profundidade em 3D para exibição de vídeo combinado com as informações de texto. Um sinal de vídeo 3D é gerado de forma a sobrepor os dados (texto) inclusos, além de um mapa do indicador de sobreposição. As informações de sobreposição indicam se um pixel é de sobreposição ou de não- sobreposição (vídeo, por exemplo). A sobreposição de pixels pode ser posicionada em uma profundidade diferente no dispositivo de processamento. As informações de sobreposição apenas indicam a sobreposição (texto) em si, de modo que o próprio texto é modificável no dispositivo de processamento.

[013] Portanto, um objetivo da invenção consiste em aperfeiçoar o estado da técnica.

DESCRIÇÃO RESUMIDA DA INVENÇÃO

[014] De acordo com um primeiro aspecto da presente invenção, é apresentado um método de criação de um sinal de imagem tridimensional para renderização em uma tela, o qual compreende: - a recepção do primeiro componente de imagem,- a recepção do segundo componente para criação de uma imagem tridimensional em combinação com o primeiro componente de imagem,- a recepção do componente de texto a ser incluído na imagem tridimensional,- a recepção de um componente de dados que inclui informações de localização que descrevem a localização do componente de texto dentro da imagem tridimensional, e- a criação do sinal de imagem tridimensional que compreende o primeiro e o segundo componentes da imagem, onde o processo de criação do sinal de imagem tridimensional compreende a inclusão do componente de texto no primeiro componente de imagem, a etapa de criação do sinal de imagem tridimensional que compreende a inclusão do componente de dados no sinal de imagem tridimensional, permitindo que a tela ajuste os parâmetros da imagem tridimensional na localização do componente de texto renderizado a fim de tratar a parte da imagem que contém o texto, diferentemente do restante da imagem.

[015] De acordo com um segundo aspecto da presente invenção, é apresentado um dispositivo para criação de um sinal de imagem tridimensional para renderização em um visor, o qual compreende:- um receptor configurado para receber um primeiro componente de imagem, um segundo componente para criar uma imagem tridimensional em combinação com o primeiro componente de imagem, um componente de texto para ser incluído na imagem tridimensional, e um componente de dados, que inclui informações de localização que descreve a posição do componente de texto dentro da imagem tridimensional, e- um multiplexador configurado para criar o sinal de imagem tridimensional que inclui o primeiro e o segundo componentes de imagem, cuja criação compreende ainda o componente de texto no primeiro componente de imagem, a criação do sinal de imagem tridimensional que compreende a inclusão do componente de dados no sinal de imagem tridimensional permitindo que a tela ajuste os parâmetros da imagem tridimensional na localização do componente de texto renderizado para tratar a parte da imagem que contém o texto diferentemente do restante da imagem.

[016] De acordo com um terceiro aspecto da presente invenção, é provido um sinal de imagem tridimensional para renderização em uma tela que compreende uma primeira componente de imagem, uma segunda componente para criar uma imagem tridimensional, em combinação com a primeira componente de imagem, e um componente de texto incluído na primeira componente de imagem, o sinal de imagem tridimensional que inclui um componente de dados, que inclui informações de localização que descrevem a posição da componente de texto dentro da imagem tridimensional, para permitir que o visor possa ajustar os parâmetros tridimensionais da imagem no local do componente de texto renderizados para tratar a parte da imagem que contém o texto de forma diferente do restante da imagem.

[017] De acordo com um quarto aspecto da presente invenção, é apresentado um método de renderização de um sinal de imagem tridimensional, o qual compreende:- a recepção do sinal de imagem tridimensional conforme definido acima,- a renderização de uma imagem tridimensional a partir da primeira e segunda componentes da imagem, cuja renderização inclui o ajuste dos parâmetros tridimensionais da imagem na localização da componente de texto renderizado, para tratar a parte da imagem que contém o texto diferentemente do restante da imagem.

[018] De acordo com um quinto aspecto da presente invenção, é provido um dispositivo para renderização de um sinal de imagem tridimensional que compreende:- um receptor configurado de forma a receber o sinal de imagem tridimensional conforme definido acima,- um visor configurado para renderizar uma imagem tridimensional a partir da primeira e segunda componentes da imagem, cuja renderização inclui o ajuste dos parâmetros tridimensionais da imagem na localização do componente de texto renderizado, a fim de tratar a parte da imagem que contém o texto diferentemente do restante da imagem.

[019] De acordo com um sexto aspecto da presente invenção, é provido um programa de computador em uma mídia que pode ser lida por computador para criar um sinal de imagem tridimensional para renderização em um display, cujo programa inclui instruções para receber uma primeira e segunda componentes da imagem, a fim de criar uma imagem tridimensional, em combinação com a primeira componente de imagem, a recepção de ainda mais uma componente de texto para inclusão na imagem tridimensional, a recepção de uma componente de dados que inclui informações de localização, que descrevem a localização do componente de texto dentro da imagem tridimensional, e a criação do sinal de imagem em três dimensões, que compreende a primeira e segunda componentes da imagem, a criação do sinal de imagem tridimensional, que compreende a inclusão da componente de dados no sinal de imagem tridimensional a fim de permitir que a tela ajuste os parâmetros tridimensionais da imagem a localizar as componente de texto renderizado a fim de tratar a parte da imagem que contém o texto diferentemente do restante da imagem.

[020] De acordo com um sétimo aspecto da presente invenção, é provido um programa de computador em uma mídia que pode ser lida por computador para renderização de um sinal de imagem tridimensional para renderização em um display, cujo programa inclui instruções para receber o sinal de imagem tridimensional tal como definido acima, renderizar a imagem tridimensional a partir da primeira e segunda componentes, cuja renderização inclui o ajuste dos parâmetros tridimensionais da imagem na localização do componente de texto renderizado para tratar a parte da imagem que contém o texto de forma diferente do restante da imagem.

[021] Graças à invenção, é possível melhorar a legibilidade do texto, como as de legendas em um display 3D. O aperfeiçoamento de leitura é baseado no fato de que os parâmetros adicionais são enviados para a visualização 3D de forma que o visor possa tratar a parte da imagem que contém as legendas diferentemente do restante da imagem. O visor pode então garantir que as legendas serão posicionadas automaticamente da melhor forma no que diz respeito à nitidez, profundidade e capacidade de leitura geral do texto. A aplicação da invenção é possível à sistemas, tais como um reprodutor de discos Blu-Ray e um DVD ou HD-DVD que é conectado a um display 3D, e que está exibindo conteúdo 3D e legendas associadas. Ficará claro para um técnico no assunto que o sinal de imagem pode ainda ser obtido total ou parcialmente através de uma rede digital, tais como a Internet ou uma intranet.

[022] O texto, especialmente as legendas, deve ser exibido dentro de uma faixa limitada de profundidade a partir da tela e não devem ter sua profundidade modificada durante toda a apresentação. Se a profundidade do texto deve ser constante, então este também é um problema de posicionamento, como a profundidade do vídeo pode variar e, portanto, poderia obstruir partes do texto durante algumas cenas. Para resumir, os seguintes fatores devem ser levados em consideração ao exibir legendas ou closed caption em um display estereoscópico 3D. A quantidade de disparidade deve ser menor que um grau, a largura de banda do texto deve ficar acima de dois ciclos por caractere, o texto deve permanecer em uma profundidade constante em relação à tela, e o texto não deve por obstruído pelos objetos de vídeo.

[023] Essas condições podem ser satisfeitas com melhorias do sistema, de acordo com a invenção. O controle da quantidade de disparidade pode ser feito ajustando-se aquela parte do mapa de "profundidade" que está relacionada com a posição das legendas ou closed caption. Alguns visores exigem uma entrada estéreo, e nesses casos será difícil controlar a quantidade de disparidade no reprodutor, mas ainda assim é possível.

[024] Para atender às limitações de largura de banda, o reprodutor deve assegurar que a resolução do texto seja suficientemente alta, que a ocorrência de “fantasmas” seja mínima e que a velocidade do texto em movimento não seja muito alta. Para atender a estes requisitos, o dispositivo de reprodução deve enviar as legendas ou closed caption em uma resolução suficiente para sua exibição, e deve ajustar a profundidade de tal forma que seja minimizado o efeito fantasma. Isso normalmente significa que a profundidade do texto deve ser mantida neutra (mais próxima possível da tela). Isso, no entanto, pode causar um problema como partes do vídeo ocultando partes do texto conforme a profundidade do vídeo muda dinamicamente. Isto é resolvido ajustando-se dinamicamente a profundidade do texto, para garantir que ele permaneça na frente. No entanto, isto significa que o texto poderia variar em profundidade, o que, segundo Yano pode causar fadiga visual. Ao transmitir as informações sobre a localização do texto, e ajustar os parâmetros da imagem 3D no local do texto, estes problemas são superados.

[025] Embora a profundidade do texto deva ser fixada preferencialmente por períodos de tempo mais longos, variações podem ser permitidas, por exemplo, para atingir determinados efeitos 3D.

[026] Vantajosamente, a etapa de criação de um sinal de imagem tridimensional compreende a inclusão do componente de texto no primeiro componente de imagem. O componente de texto (por exemplo, uma legenda) pode ser incluído diretamente no primeiro componente de imagem, e não precisa ser transferido como um componente separado. O aparelho receptor que vai processar a imagem 3D pode ainda controlar os parâmetros de exibição 3D na região da legenda, mesmo que a legenda esteja embutida no primeiro componente do sinal de imagem.

[027] De preferência, a etapa de criação de um sinal de imagem tridimensional compreende a criação de um quadro único de imagem única composto pela primeira componente de imagem, pela segunda componente, pela componente de texto e a componente de dados. Todas as componentes do sinal podem ser combinadas em uma estrutura única de imagem, com as diferentes componentes do sinal ocupando diferentes partes no quadro da imagem. Este é um método conveniente de combinar os elementos que compõem o sinal, e pode ser utilizado para tirar proveito dos padrões existentes, tais como o HDTV, que suporta uma resolução de quadros relativamente alta. Uma componente, tal como a componente de dados, que define a localização da componente de texto dentro do sinal final, pode ser incluído em um cabeçalho do quadro da imagem, ao invés de colocado nos dados atuais do quadro de imagem.

[028] Idealmente, a etapa de criação de um sinal de imagem tridimensional compreende a inclusão de informações básicas para cada uma da primeira e segunda componentes da imagem. A qualidade do resultado final pode ser melhorada, se a saída do dispositivo de processamento também conter informações de fundo. Isso permite que o posicionamento da legenda seja ajustado, com base nos dados da informação de fundo, colocando as legendas na parte da área de exibição 3D que possui uma proporção de interesse relativamente baixa.

[029] Preferencialmente, a etapa de ajuste dos parâmetros tridimensionais da imagem na localização da componente de texto renderizada compreende a redução da profundidade percebida da imagem tridimensional na localização do texto renderizado. O dispositivo de processamento pode ajustar a profundidade percebida da imagem 3D na localização das legendas, substituindo a profundidade requerida, por exemplo, conforme descrito em um mapa de profundidade. Na região específica do dispositivo de exibição 3D que realmente irá conter as legendas, então a profundidade percebida do conteúdo exibido pode ser reduzida, a fim de atenuar qualquer esforço exigido dos olhos do espectador.

[030] Preferencialmente, a etapa de ajuste dos parâmetros tridimensionais da imagem na localização da componente de texto renderizado compreende a redução no número de visualizações da imagem tridimensional na localização do texto renderizado. Ao reduzir o número de pontos de visualização que são mostrados pelo dispositivo de exibição 3D, fantasmas ou borrões do texto podem ser reduzidos. Além disso, em uma visualização lenticular com uma configuração de lentes intercambiáveis localmente, as lentes podem ser desligadas na parte da tela onde as legendas estão posicionadas. Isso pode resultar em uma imagem mais nítida em comparação com aquela que está sendo exibida na parte da imagem 3D que contém as legendas, com a correspondente diminuição do esforço imposto aos olhos do espectador.

[031] Preferencialmente, a etapa de ajuste dos parâmetros tridimensionais da imagem na localização da componente de texto renderizado compreende a manutenção da disparidade da imagem tridimensional na localização do texto renderizado. Um limite específico, como um grau, pode ser definido como um limite na quantidade de disparidade permitida na região da imagem 3D que contém as legendas. Isso irá ajudar o espectador a perceber as legendas sem cansar desnecessariamente seus olhos, uma vez que a redução da disparidade tornará a visualização mais confortável para o telespectador do display 3D.

BREVE DESCRIÇÃO DOS DESENHOS

[032] As realizações da presente invenção serão agora descritas, apenas a título de exemplo, com referência aos desenhos de acompanhamento, em que números semelhantes são utilizados para indicar elementos ou funções semelhantes:

[033] A figura 1 é um diagrama esquemático ilustrando a criação da imagem 3D,

[034] A figura 2 é um diagrama esquemático de um sistema de reprodução em 3D,

[035] A Figura 3 é um diagrama esquemático mostrando conteúdo e fluxo de dados no sistema de reprodução em 3D,

[036] A Figura 4 é um diagrama esquemático de um dispositivo do sistema de reprodução em 3D,

[037] A Figura 5 é um diagrama esquemático mostrando o uso de planos na criação de uma saída,

[038] A Figura 6 é um diagrama esquemático do sinal de imagem 3D,

[039] A Figura 7 é um diagrama esquemático de um sinal de imagem 3D melhorado,

[040] A Figura 8 é um diagrama esquemático de um sinal de imagem 3D ainda mais melhorado,

[041] A Figura 9 é um diagrama esquemático, semelhante ao da Figura 4, de uma segunda realização de um dispositivo de reprodução, e

[042] A Figura 10 é o diagrama esquemático de um texto colocado em uma imagem 3D.

DESCRIÇÃO DETALHADA

[043] A criação de uma imagem tridimensional é ilustrada esquematicamente na figura 1. Essencialmente, se o dispositivo com visor para processamento é auto-estereoscópico, ou funciona em pares estéreo (obrigando o usuário a usar óculos especiais), o processo é o mesmo. Uma primeira componente de imagem 10 e uma segunda componente 12 são fornecidas de modo a criar uma imagem tridimensional 14. A segunda componente 12 em combinação com a primeira componente de imagem 10 é renderizada em conjunto para constituir a saída final 14. Em todos os sistemas, a primeira componente de imagem 10 é um quadro de imagem bidimensional convencional, de um padrão adequado. No sistema de par estéreo, a segundo componente 12 também é uma imagem, e nos sistemas auto- estereoscópicos, a segunda componente 12 é um mapa de profundidade, ou um mapa de disparidade.

[044] É importante entender que a saída final 14 não é necessariamente um único quadro. Por exemplo, no sistema de par estéreo (onde a imagem 10 é enviada para o olho esquerdo, e a imagem 12 é enviada para o olho direito), essas duas componentes 10 e 12 podem ser mostradas sequencialmente. Em sistemas auto-estereoscópicos de tempo não sequencial, a imagem 10 e o mapa de profundidade 12 são utilizados para criar múltiplos pontos de visualização semelhantes a partir da imagem 10, com o mapa de profundidade sendo utilizado para gerar as mudanças necessárias à imagem 10, a fim de fazer pontos de visualização independentes. Estas imagens são então sobreposta de modo a formar um único quadro 14. Por exemplo, o dispositivo de processamento e exibição final pode ser controlado para mostrar quatro imagens individuais, todas geradas a partir da mesma imagem 10. Estas imagens são então unidas em faixas, cada uma com uma resolução que seja um quarto da resolução do dispositivo de exibição.

[045] A primeira componente de imagem 10 pode incluir, por exemplo, uma matriz bidimensional de elementos de pixels / imagem que inclui, por exemplo, informações RGB ou YUV, o que representa uma imagem de uma cena, como seria o caso de conteúdos com imagem estérea, imagem múltipla ou de conteúdos compostos de imagem + profundidade. Como mencionado acima, o segundo elemento 12 pode ser uma matriz bidimensional de pixels / uma imagem. Em caso de exibição de conteúdo estéreo ou conteúdo de várias imagens, isto pode ser visto ainda da mesma cena, enquanto que caso o conteúdo composto por imagem + profundidade poderia ser chamado de mapa de disparidade/profundidade, que compreende informações de disparidade ou profundidade. A saída de imagem 14 pode incluir um sinal de imagem de vídeo, por exemplo, uso de vários quadros que representam uma ou mais cenas ao longo do tempo.

[046] A figura 2 ilustra um sistema de reprodução 3D, onde um disco 16 é provido e transporta o primeiro e segundo componentes 10 e 12 para um filme 3D, por exemplo. O disco 16 pode ser um Blu-Ray padrão DVD, por exemplo. O disco 16 é reproduzido por um dispositivo de reprodução 18, como um reprodutor de DVD Blu-Ray. Uma interface de vídeo 20 é utilizada para comunicar as componentes 10 e 12 com televisão 3D 22. A televisão 22 inclui um estágio de renderização 24, que está processando os componentes 10 e 12 em tempo real para gerar a saída 3D 14 (conforme a figura 1, discutida acima). O usuário 26 está assistindo o dispositivo de processamento e exibição 22, e pode fornecer as configurações de usuário 28 ao dispositivo 22, através de uma interface adequada e dispositivo de controle remoto (não mostrado).

[047] Nesses sistemas, o uso de legendas (ou mesmo qualquer texto, como menus) é suportado pelo dispositivo de reprodução 18. Por exemplo, é convencional para o disco 16 incluir legendas, tais como legendas de idiomas estrangeiros dentro de seções de dados das informações armazenadas no disco 16. Estes podem ser selecionados pelo usuário através de um menu na tela, antes de ser iniciada a reprodução real do conteúdo do filme do disco 16. Estas legendas são exibidas pelo dispositivo de processamento e exibição 22, sobrepondo o conteúdo 3D que está sendo renderizado. Como discutido acima, na revisão da técnica anterior, em muitas situações, a exibição de legendas em um sistema de visualização 3D pode causar esforço ocular e fadiga. O sistema da presente invenção fornece um método de mostrar as legendas (ou mesmo qualquer texto), de tal forma que os problemas da técnica anterior sejam amenizados.

[048] A solução é provida a fim de permitir que o visor 22 identifique o texto (por exemplo, legendas) no fluxo de entrada de vídeo e então trate o texto de uma maneira diferente do restante do sinal de vídeo. O visor 22 poderia, por exemplo, garantir que o texto permanecesse na frente do vídeo, ou comprimir e afastar a profundidade do sinal de vídeo para garantir que o texto não se sobressaia (como descrito na Publicação Internacional de Patentes de Aplicações WO 2008/038205). Além disso, o visor 22 pode fornecer uma parte da cena que é projetada especificamente para mostrar o texto, por ser intercambiável, tendo uma configuração diferente de lentes (no caso de um visor lenticular), suportando um número menor de exibições, por exemplo. Como a legibilidade do texto em uma tela 3D auto-estereoscópica é um problema que é quase inerente à tecnologia das telas auto-estereoscópicas, há uma expectativa de novas melhorias, atualmente imprevistas no visor, que poderiam se beneficiar, sendo capazes de identificar as legendas no sinal de entrada de vídeo.

[049] Uma forma de enviar o texto para as legendas separadamente do visor é através da transmissão do texto como informações de closed caption, que estão incluídas na linha 21 do vídeo analógico para o sistema NTSC, utilizado na Europa (PAL) para Ceefax ou teletexto. Contudo, as informações de closed caption não são suportadas atualmente durante a transmissão de vídeo de alta definição por HDMI. Atualmente, para resolver isso, os dispositivos de reprodução, como reprodutores de DVD ou de discos Blu-Ray decodificam a informação de closed caption localizada no fluxo MPEG e sobrepõem esta em cima do vídeo, antes de transmitir para o visor. Então, para usar esta solução seria exigida a prorrogação a especificação HDMI para incluir a transmissão de informações de closed caption. Ficará claro a uma pessoa qualificada que a informação anterior também pode se aplicar a outras interfaces de exibição digital.

[050] Outra solução é prover uma comunicação bidirecional entre o dispositivo de reprodução 18 e o visor 22 de modo que, quando o usuário ajusta as configurações de profundidade no visor 22, o dispositivo de reprodução 18 é informado sobre esta mudança. Como resultado, o dispositivo de reprodução 18 pode ajustar o posicionamento das legendas. A realização preferida permite que o dispositivo de reprodução 18 lide com o posicionamento e sobreposição das legendas no vídeo e indicar ao visor 22 que as legendas estão presentes e onde estão localizadas. O visor 22 pode garantir que o valor de "profundidade" associado às legendas é mapeado em uma profundidade de modo que seja ideal para esse visor 22 em particular e associados às configurações de usuário 28. Este tem a vantagem adicional de que o visor 22 não requer um decodificador de legendas ou closed caption no estágio de renderização.

[051] Em uma realização, a melhoria do sistema é alcançada através do dispositivo de reprodução 18, como mostrado na figura 2, ajustando o posicionamento das legendas de tal forma que o texto esteja à frente do vídeo, enquanto mantêm a quantidade de disparidade abaixo de um grau. De preferência, o dispositivo de reprodução 18 insere o fluxo de informações de metadados na saída, que identifica o dispositivo de exibição 22, se e onde as legendas são localizados com relação à posição x, y e z ("profundidade") do volume de projeção da tela. Neste caso, a fase de processamento 24 no dispositivo de visualização 22 ajusta o posicionamento da legenda no volume de projeção do visor, dependendo das informações de metadados acima mencionadas e das configurações de preferências do usuário 28 (que diz respeito à quantidade de disparidade e à posição relativa), enquanto mantém um posicionamento tal que os fantasmas são mantidos no mínimo e a quantidade de disparidade permanece abaixo de um grau. Além disso, o visor 22, se assim equipado, posiciona as legendas para uma parte especial da superfície de exibição que é intercambiável entre 2D e 3D, ou que suporta menos ocorrência de fantasmas e uma maior resolução óptica (por exemplo, suportando um número menor de visualizações ou uma quantidade limitada de disparidade).

[052] Em uma realização, a componente de texto 30 é substancialmente plana, e / ou quando um intervalo de profundidade está associado com o texto 30, então aquele intervalo de profundidade é limitado por um limiar, de modo que a disparidade entre os respectivos pontos de vista é limitada a uma faixa específica, que pode ser um intervalo predeterminado, como, por exemplo, de 1 a 2 pixels. Em uma realização preferida, onde a componente de texto 30 é substancialmente plana, a componente de texto é baseada em texto ao invés de uma componente de texto com base em bitmap, permitindo assim uma representação particularmente compacta do componente de texto 30.

[053] O conteúdo e o fluxo de dados no sistema da figura 2 são ilustrados na figura 3. O disco 16 contém o primeiro componente de imagem 10 e o segundo componente 12, além do componente de texto 30, como legendas. Uma instrução de usuário 32 é recebida pelo dispositivo de reprodução 18, que indica que o usuário deseja ter as legendas 30 exibidas juntamente com o filme em 3D que ele está prestes a assistir. O dispositivo de reprodução 18 fornece os componentes 10 e 12, com as legendas 30 e um componente de dados 34, que inclui informações de localização que descrevem a localização do componente de texto no prazo de 30 a imagem 3D último 14, para o renderizador 24. O aparelho de reprodução inclui um receptor para receber os vários componentes de suas respectivas fontes e um multiplexador para combinar estes quatro elementos 10, 12, 30 e 34, em um sinal de imagem tridimensional 36, que é recebido pelo renderizador 24.

[054] As informações de legenda 34 podem ser enviadas para o renderizador 24 separadas dos dados de imagem 10 e 12, ou seja, talvez não em uma área de imagem ativa, mas em um cabeçalho, ou em ilhas de dados, ou em uma parte do quadro que não contenha dados de imagem. Por exemplo, pode ser que haja um fluxo de vídeo enviado com o dobro da taxa de quadros normal, onde um quadro contém os dados de imagem 10 e 12 e outro quadro contém profundidade (opcionalmente incluindo oclusões) de informação e também contém uma área especial para as legendas 30 e as informações de posição 34.

[055] O renderizador 24 é, então, configurado para processar a imagem tridimensional 14 do primeiro componente de imagem 10 e o segundo componente 12, a renderização (incluindo a renderização da componente de texto 30 na imagem tridimensional 14), a renderização do componente de texto 30, incluindo o ajuste de um ou mais parâmetros tridimensionais da imagem tridimensional 14 no local do componente de texto renderizado 30. O componente de texto 30 em si pode ser totalmente inalterado pelos ajustes feitos pelo renderizador 24. O fator importante é que o renderizador irá ajustar os parâmetros das partes da imagem de 14 que estão sendo exibidos na posição do texto 30. Isso pode incluir a redução da profundidade da percepção da imagem em 3D na área da imagem 14, ou podem incluir a redução do número de pontos de vista (em um dispositivo de exibição auto-estereoscópico) ou uma combinação de dois ou mais ajustes. Também é possível para o representante de 24 para incluir não apenas a alteração da profundidade da área onde as legendas 30 devem ser exibidas, mas de incluir também um deslocamento, a fim de mover o intervalo de profundidade inteiro para frente ou para trás. Esse deslocamento pode ser controlado separadamente para as legendas 30 para o restante dos dados de imagem 14.

[056] Na realização que usa um visor auto- estereoscópico, o segundo componente 12 dispõe de um mapa de profundidade, e o método de processamento de imagem em 3D 14 pode ainda compreender e escalar o segundo componente 12 antes para processamento da imagem tridimensional 14, a fim de permitir a colocação da componente de texto 30 no local, conforme especificado pelo componente de dados 34. Neste caso, o renderizador pode ainda receber um componente recomendado, compreendendo uma escala recomendada do segundo componente 12, de tal forma que as informações de localização possam ser as mesmas em várias imagens consecutivas. Como resultado do uso deste componente recomendado, torna-se possível maximizar a profundidade da cena quando legendas / gráficos estão desligados e quando legendas com gráficos estão ligados, para usar um componente de escala predeterminada sintonizado com o sinal de imagem, pela apresentação do conteúdo, incluindo legendas / gráficos.

[057] Um exemplo de um dispositivo de reprodução 18 é mostrado na figura 4, que é um decodificador de discos Blu-Ray 18 mostrando a decodificação e uso de planos de apresentação. Um drive ROM 38 recebe o disco 16 e lê o conteúdo que é demodulado e decodificado pelo componente 40. Um conjunto de buffers paralelos 42 armazena diferentes componentes do sinal decodificado, e estes passam por um conjunto de decodificadores paralelos 44 para prover a saída a ser exibida pelo visor 22, sendo o padrão de vídeo 46 e sobreposição de conteúdo 48 (com legendas e menus ligados daí em diante).

[058] No sistema Blu-Ray, as legendas do disco podem ser tanto baseadas em bitmap como baseadas em texto e fontes relacionadas e, adicionalmente, o reprodutor 18 provê suporte para a informação de closed caption. Tecnicamente, ambos os sistemas são bastante semelhantes, apesar de que closed caption frequentemente provêem mais informações e são providas especificamente para deficientes auditivos. Tanto o texto como base em legendas, bem como legendas baseadas em bitmap e closed caption são decodificados e apresentados a um dos planos de apresentação em Blu-Ray. A figura 4 mostra o decodificador 18 e os planos, mostrando um exemplo de texto combinado com vídeo. O texto é sempre apresentado na apresentação gráfica (PG - Presentation Graphics) do plano; este plano é sobreposto no dispositivo de reprodução 18 para o vídeo (planos) e apresentado como uma apresentação combinada para a saída. A figura 5 mostra um exemplo de uma apresentação combinada 50. Esta saída 50 é construída a partir de um plano principal do filme 52, um plano de apresentação 54 e um plano interativo 56. A saída 50, conforme mostrada na figura 5, é enviada para o visor 22 através da interface de vídeo 20 (tal como mostrado na Figura 2). Na realização preferida, o dispositivo de reprodução 18 é capaz de enviar informações adicionais para o visor 22, que contém os dados 3D 34, além da saída 50. Isso permite ao display 3D 22 mostrar uma representação em 3D do vídeo combinado, texto e produção gráfica do aparelho de reprodução 18.

[059] A figura 6 mostra um exemplo de uma saída combinada para o envio para o display 3D 22. O sistema 3D a ser utilizado é um exemplo de uma imagem e a saída de profundidade. O primeiro componente de imagem 10 e segundo componente 12 (sendo um mapa de profundidade) serão combinados para criar a imagem 3D pelo visor 22. O componente de texto 30 está incluído no primeiro componente 10, e na verdade o conteúdo inteiro (dos três componentes 10, 12 e 30) pode ser construído como um quadro único de alta definição.

[060] A figura 7 mostra a adição de um cabeçalho que indica a localização da legenda 30. O cabeçalho inclui um componente de dados 34, que inclui informações de localização 58, descrevendo a localização do componente de texto dentro da imagem tridimensional, mostrada aqui em coordenadas X e Y, embora a componente Z também esteja presente, em virtude do conteúdo do mapa de profundidade 12. O cabeçalho permite ao dispositivo de renderização final fazer ajustes na saída 3D, levando em conta a presença da legenda 30.

[061] Os parâmetros adicionais que são transmitidos podem estar contidos no cabeçalho acima dos dados da imagem conforme descrito em "3D interface Specifications- white paper”, Philips 3D solutions (Especificações da interface 3D - O papel branco da Philips 3D Solutions), http://www.business-sites.philips.com/assets/Downloadablefile / Philips-3D-Interface-White-Paper-13725.pdf, de acordo com a Publicação Internacional de Patentes de Aplicações WO 2006/137000A1, ou por exemplo, na ilha de dados do padrão HDMI. Estes parâmetros consistem em uma indicação se as legendas estarão presentes e sua posição na entrada de vídeo, como mostrado na figura 7. O visor 22 pode então garantir que as disparidades entre a parte da imagem localizada nesta posição não exceda um grau e permaneça constante, mesmo se o usuário, através de um comando de entrada, aumente a quantidade de disparidade mostrada pelo visor 22.

[062] A qualidade do resultado final pode ser melhorada, se a saída do reprodutor 18 também conter informações de fundo. Isso é mostrado na figura 8. Para evitar artefatos, as legendas 30 devem estar situadas fora da parte mais ativa da imagem, por exemplo, na parte superior ou inferior. A figura 8 mostra uma imagem, profundidade, e fundo em formato de saída. Os componentes de fundo 60 e 62 estão previstas para o primeiro componente de imagem 10 e o segundo componente 12, respectivamente.

[063] A posição das legendas 30 dentro da imagem final 14 pode incluir uma referência à localização Z das legendas. Por exemplo, é possível estender o modelo decodificador de legendas do disco Blu-Ray e uma composição das informações associadas (especificamente o tipo de diálogo, seção 9.15.4.2.2) com uma posição de Z tal que o autor do conteúdo original pode indicar em que parte do espaço de projeção Z do 3D do visor as legendas devem ser posicionadas. No padrão Blu-Ray, é definido um decodificador de texto de legendas e fluxo relacionado. O decodificador de texto de legendas é definido na seção 8.9 e é composto por vários elementos de processamento e buffers. A figura 9 mostra uma imagem simplificada do modelo do decodificador, indicado para manipulação de imagens 3D com um componente de texto associado, tais como a legenda 30.

[064] A figura 9 mostra um modelo de decodificador de texto 3D em legendas. A partir de segmentos de texto em legendas, da esquerda para a direita, introduza o decodificador 18 onde são renderizados e decodificados pelo renderizador de fluxo de texto 64. Os dados de texto decodificado são colocado no buffer de diálogo 66, enquanto as informações do texto decodificado é colocado no buffer de composição 72. Um controlador 74 interpreta as informações sobre a composição e aplica isso ao texto depois de ter sido renderizado pelo renderizador de texto 68 (usando um arquivo de fonte 80) e coloca o resultado no buffer de bitmap 70. Na etapa final, as imagens de bitmap são compostas pelo reprodutor 18 nos planos gráficos apropriados. A entrada do usuário 78 também é recebida pelo controlador 78, que pode afetar, por exemplo, os parâmetros de profundidade do visor.

[065] Além de legendas baseadas em texto, Blu- ray Disc (BD), também suporta legendas com base em imagens bitmap, o chamado Presentation Graphics (PG). Da mesma forma, a posição Z das legendas PG precisa ser especificada no disco, de preferência próxima a X (já definido), a informação de posição Y. Como os últimos são armazenados na estrutura composition_object (), é lógico estender esta com a posição Z das legendas, por exemplo, utilizando os bits reservados a partir do deslocamento de 26 bits. O componente de texto, conforme utilizado em toda a presente aplicação é utilizada para se referir às legendas baseadas em texto e / ou em imagens bitmap.

[066] O decodificador 18 foi estendido com um buffer de bitmap adicional 76, que contém o mapa de profundidade ou disparidade e que indica onde a direção Z da legenda de texto 30 deve estar posicionada. A informação de profundidade ou disparidade pode estar contida no estilo de diálogo, tal como definido na especificação do Blu-Ray. Um método para conseguir isso é a configuração do estilo de diálogo para ser estendido com a region_depth_position. A region_depth_position é um campo de 8 bits com valores entre 0 e 255, mas no futuro isso pode ser ampliado. O controlador 74 determina a profundidade correta ou mapa de disparidade com os valores de pixel, com base no valor do campo region_depth_position. A tradução deste valor em um valor de cor para o mapa de profundidade ou disparidade é dependente dos metadados 3D que são trazidos pelo campo 3D_metadata na lista de reprodução ou então que é contido no MPEG-2 Program Map Table (ISO / IEC 13818-1). A sintaxe desta informação é definida pelo MPEG na norma ISO / IEC 23002-3.

[067] A posição Z das legendas 30 é então fornecida para o renderizador 24, o que pode levar em conta a posição Z das legendas 30, quando em processo de renderização de imagem em 3D 14, para mostrar com o dispositivo de vídeo 3D 22. A Figura 10 mostra um exemplo de um espaço 3D com o posicionamento da profundidade através da utilização do campo region_depth_position.

[068] A imagem 14 inclui o subtítulo 30, que é colocado no plano 82. O plano 82 indica a posição no espaço em profundidade zero, as outras linhas indicam as três direções x, y e z no espaço 3D.

[069] Além de ter incluído uma região profunda para indicar a região no espaço onde a legenda deve ser posicionada, também é possível ir ainda mais longe, acrescentando uma profundidade separada para o texto 30 em si, e não para especificar a região como um plano, mas como um cubo no espaço. Isso poderia ser feito, por exemplo, ampliando a posição dos campos da região no estilo de diálogo com uma posição region_depth e uma region_depth_length. O mesmo pode ser feito para as posições de caixas de texto que indicam a localização exata do texto dentro da região.

[070] O arquivo de fonte 80 pode ser utilizado para incluir um estilo de letra em relevo, uma vez que tem sido demonstrado que isso melhora a legibilidade do texto final em 3D. Os estilos de fonte são descritos na Tabela 9-75 da especificação do Blu-Ray, alternativamente, a fonte espessura do contorno de campo é utilizada por esta razão, cuja tabela é a 9-76 do caderno de especificações Blu-Ray. Ambas as tabelas têm campos reservados no final que poderiam ser utilizados para essa finalidade. O estilo da fonte em relevo teria o valor 0x08 na tabela 9-75 e para a fonte com espessura de contorno em relevo este seria de 0x04 na tabela 9-76.

[071] Vantajosamente, a posição Z para ambas as legendas baseadas em texto e em PG é a mesma e só precisam ser armazenadas uma vez por fluxo (ou seja, por idioma de legenda). É claro que a pessoa qualificada que existem muitas posições alternativas no disco BD para armazenar esta localização compartilhada de legendas em Z. Exemplos de locais alternativos são descritos abaixo. O site http://www.bluraydisc.com/Assets/Downloadablefile/2b_bdrom_au diovisualapplication_0305-12955-15269.pdf recurso da Internet, incorporado por referência, contém informações sobre o formato BD e as estruturas do formato relacionado abaixo.

[072] A localização compartilhada de legendas em Z poderia, por exemplo, ser armazenada em uma nova tabela definida como dados de extensão da lista de reprodução. A lista de reprodução BD é uma lista que indica uma sequência de itens de conteúdo audiovisual, que juntos formam a apresentação de um título, como um filme. Esta lista de reprodução fornece um mecanismo para futuras extensões através de dados de sua extensão. A localização em "Z" do plano de legendas (plano-PG) para os vários fluxos de idiomas pode ser incluída aí como uma nova tabela chamada tabela offset_metadata. A Tabela 1 mostra os detalhes desta tabela.

[073] Além disso, no caso quando uma lista de reprodução contém itens de reprodução que permitem a reprodução de dados de vídeo estereoscópico de vários ângulos, em seguida, a localização em "Z" para a sobreposição de gráficos, como legendas pode ser diferente para cada videoclipe estereoscópico de vários ângulos. Portanto, o offset_metadata também deve permitir diferentes localizações em “Z” para cada videoclipe estereoscópico de vários ângulos referenciado nos itens de reprodução. Nesse caso, a tabela offset_metadate contém diferentes locais em "Z" para a sobreposição de legendas para cada videoclipe estereoscópica de vários ângulos. Esses diferentes locais em “Z” podem então ser referenciados com um identificador para cada videoclipe de vários ângulos que requer um diferente local em "Z" para sobreposição das legendas. A Tabela 2 mostra um exemplo de como a tabela 1 pode ser ampliada para suportar diferentes locais em "Z" para diferentes videoclipes estereoscópicos de vários ângulos, as referências StreamID e AngleID na tabela 1 e 2 servem como identificadores únicos, respectivamente, de uma corrente primária no disco (contendo o conteúdo das legendas) e um videoclipe estereoscópico de vários ângulos.

[074] Ao invés de utilizar dados de extensão também é possível definir uma nova estrutura de tabela para a lista de reprodução, especificamente para a reprodução de fluxos 3D e incluir os parâmetros dos locais em "Z” nela. Problemas de reprodução em reprodutores patrimoniais podem ser evitados através de um novo índice de tabela (uma lista de títulos selecionável pelo usuário) sobre o disco ou usar os dados de extensão de índice da tabela que lista os títulos que podem ser reproduzidos apenas por um reprodutor 3D habilitado.

[075] Alternativamente, se as informações devem ser fornecidas em uma tabela existente na lista de reprodução, então ele pode ser incluído no STN_Table_SS (). Esta é uma tabela que lista o vídeo e os fluxos de gráficos fluxos associados a um item de reprodução. Cada item de reprodução contém um loop com fluxo de codificação de informações (atributos) para cada fluxo de subtítulo de texto e bitmap. Propomos incluir as informações de localização "Z" no mesmo loop que as informações de atributo corrente.

[076] Um problema com o uso da lista de reprodução para armazenar os parâmetros "Z" para cada fluxo de legenda é a duplicação de dados. Várias listas podem fazer referência aos mesmos fluxos de legendas. Essa limitação pode ser superada incluindo-se os metadados de localização "Z" no arquivo de informações do clipe. O clipe lista informações do arquivo de metadados relacionados com fluxo de transporte MPEG que contém o conteúdo A/V e o fluxo de legendas. O arquivo de informações do clipe pode ser estendido com um quadro semelhante ao que é proposto para os dados de extensão da lista de reprodução. No entanto, como o arquivo de informações do clipe está associado a um fluxo de transporte MPEG, ele contém a lista das legendas fluxos elementares de Packet Identifier (PID). Assim, propomos que os metadados da localização em “Z” seja fornecida para cada lista PID que indica o PID de um fluxo de subtítulo.

[077] Alternativamente, ao invés de definir uma nova tabela de dados de extensão, a localização "Z" é armazenada na tabela ProgramInfo no arquivo de informações do clipe. A tabela ProgramInfo fornece uma lista de fluxos elementares que juntos formam uma apresentação de conteúdo A/V. Ele contém informações semelhantes às da tabela PMT definida em sistemas MPEG ISO / IEC 13818-1. Propomos que, para cada fluxo elementar que contém informações das legendas sejam fornecidos metadados da localização em "Z". Os metadados podem ser incluídos no ProgramInfo em si ou em uma sub-tabela da tabela ProgramInfo, a tabela StreamCodingInfo. Ela fornece detalhes sobre os códigos de codificação e linguagem para o presente fluxo de legendas no fluxo de transporte. A tabela StreamCodingInfo também tem alguns campos reservados, propomos usar esses campos reservados para transportar os parâmetros da posição em "Z" associados ao fluxo de subtítulo de um código de linguagem particular.

[078] Se a posição em "Z" é necessária para mudar a cada segundo, então a tabela CPI () no arquivo de informações do clipe deve ser utilizada. A informação CPI é uma tabela que lista os pontos de entrada para os fluxos de vídeo para reprodução rápida. A lista dos pontos de entrada pode ser ampliada com um parâmetro de posição em "Z", que indica por ponto de entrada a localização em "profundidade" de onde a sobrepõem todos os gráficos, tais como legendas.

[079] Alternativamente, se as informações de localização em "Z" são precisas, então ele deve ser incluído nas mensagens SEI do fluxo dependente de vídeo. As SEI (mensagens de sinal) são pacotes incorporados a um MPEG Elementary Stream (Fluxo Elementar de MPEG) que carregam os parâmetros que podem ser utilizados por um decodificador para ajudar na decodificação do conteúdo. O MPEG também permite a incorporação de dados do usuário das mensagens privadas SEI, que serão ignoradas pelos decodificadores padrão, mas podem ser utilizados por um decodificador modificado. Um usuário de dados de mensagem SEI pode ser definido para realizar a localização em "Z" de qualquer sobreposição que devem ser sobreposta pelo vídeo, como as legendas. Para fornecer as informações em "Z" por fluxo de idioma nos propomos a enumerar os valores em "Z" para todos os fluxos de legendas previstos no disco.

Tabela 1, o exemplo de uma tabela para armazenar metadados de deslocamento.

[080] Ficará claro ao técnico no assunto que as etapas de processamento, como a renderização de imagens 3D, ou etapas de multiplexação podem ser implementadas em uma ampla variedade de plataformas de processamento. Estas plataformas de processamento podem variar de circuitos dedicados e / ou de dispositivos semicondutores, dispositivos lógicos programáveis, renderizadores de sinal digital, ou até mesmo renderizadores de uso geral. Da mesma forma implementações combinadas de software e hardware também pode ser aproveitadas.

[081] Embora a invenção tenha sido ilustrada e descrita em detalhes nos desenhos e na descrição acima, tais ilustrações e descrição devem ser considerados como ilustrativos ou exemplificativos e não como restritivos, pois a invenção não se limita às realizações apresentadas.

Tabela 2, exemplo de uma tabela para armazenar metadados de deslocamento ampliada com legendas diferentes e localização de metadados em "Z", por segmento de vídeo estereoscópico de vários ângulos.

[082] Outras variações para as realizações descritas podem ser compreendidas e efetuadas por qualquer pessoa competente na técnica reivindicada pela invenção, a partir de um estudo dos desenhos, da descrição e das reivindicações anexas. Nas reivindicações, a palavra "com" não exclui os outros elementos ou etapas, e o artigo indefinido "um" não exclui a pluralidade. Um único renderizador ou outra unidade pode desempenhar as funções de vários itens declarados nas reivindicações. O simples fato de determinadas medidas serem apresentadas em diferentes reivindicações mutuamente dependentes não indica que uma combinação destas medidas não possa ser aproveitada. Um programa de computador pode ser armazenado / distribuído em um meio adequado, como um meio de armazenamento ótico ou um meio de estado sólido fornecido juntamente com ou como parte de outro hardware, mas também podem ser distribuídos de outras formas, tal como através da Internet ou outros sistemas de telecomunicações, com ou sem fio. Qualquer sinal de referência nas reivindicações não deve ser interpretado como uma limitação do âmbito.

Claims

1. MÉTODO DE CRIAÇÃO DE UM SINAL DE IMAGEM TRIDIMENSIONAL PARA RENDERIZAÇÃO EM UM DISPLAY, que compreende:- a recepção do primeiro componente de imagem,- a recepção do segundo componente para criação de uma imagem tridimensional em combinação com o primeiro componente de imagem,- a recepção do componente de texto a ser incluído na imagem tridimensional,- a recepção de um componente de dados que inclui informações de localização que descrevem a localização do componente de texto dentro da imagem tridimensional, e- a criação do sinal de imagem tridimensional que compreende o primeiro e o segundo componentes da imagem, o componente de texto e o componente de dados, onde o processo de criação é caracterizado por compreender:uma etapa de ajuste de profundidade de pelo menos um do primeiro componente de imagem e do componente de texto dentro da imagem tridimensional para garantir (i) que o componente de texto permaneça na frente do primeiro componente de imagem e (ii) uma profundidade constante entre o componente de texto e o primeiro componente de imagem.

2. MÉTODO, de acordo com a reivindicação 1, caracterizado pela etapa de criação do sinal de imagem tridimensional compreender a inclusão do componente de texto no primeiro componente de imagem.

3. MÉTODO, de acordo com a reivindicação 1, caracterizado pela etapa de criação de um sinal de imagem tridimensional compreender as etapas de:criação de um quadro de imagem única composto pelo primeiro componente de imagem, pelo segundo componente, pelo componente de texto e pelo componente de dados; eajustar a profundidade do primeiro componente de imagem dentro do quadro de imagem para garantir que o componente de texto não se sobressaia quando renderizado.

4. MÉTODO, de acordo com qualquer uma das reivindicações anteriores, caracterizado pela etapa de criação de um sinal de imagem tridimensional compreender as etapas de:inclusão de informações básicas para cada um dos primeiro e segundo componentes da imagem; eajustar uma posição do componente de texto com base nas informações básicas para colocar o componente de texto em uma área que tem um valor de interesse relativamente baixo.

5. DISPOSITIVO PARA CRIAÇÃO DE UM SINAL DE IMAGEM TRIDIMENSIONAL PARA RENDERIZAÇÃO EM UM DISPLAY, que compreende:- um receptor configurado para receber um primeiro componente de imagem, um segundo componente para criação de uma imagem tridimensional em combinação com o primeiro componente de imagem, um componente de texto para ser incluído na imagem tridimensional, e um componente de dados, que inclui informações de localização que descrevem a localização do componente de texto dentro da imagem tridimensional, e- um multiplexador configurado para criar o sinal de imagem tridimensional que compreende o primeiro componente de imagem, o segundo componente, o componente de texto e o componente de dados, caracterizado porajustar uma profundidade de pelo menos um do primeiro componente de imagem e do componente de texto dentro da imagem tridimensional para garantir (i) que o componente de texto permaneça na frente do primeiro componente de imagem e (ii) uma profundidade constante entre o componente de texto e o primeiro componente de imagem.

6. MÉTODO DE PROCESSAMENTO DE UM SINAL DE IMAGEM TRIDIMENSIONAL, que compreende as etapas de:- a recepção de um sinal de imagem tridimensional que compreende um primeiro componente de imagem, um segundo componente para criação de uma imagem tridimensional em combinação com o primeiro componente de imagem, e um componente de texto para incluir na imagem tridimensional, e um componente de dados compreendendo informações de localização que descrevem a localização do componente de texto dentro da imagem tridimensional;- a criação de um sinal de imagem tridimensional que compreende o primeiro e o segundo componentes da imagem, o componente de texto e o componente de dados,caracterizado por- a renderização da imagem tridimensional, a renderização inclui renderização do componente de texto na imagem tridimensional, e ajuste de uma profundidade de pelo menos um do primeiro componente de imagem e do componente de texto dentro da imagem tridimensional para garantir (i) que o componente de texto permaneça na frente do primeiro componente de imagem e (ii) uma profundidade constante entre o componente de texto e o primeiro componente de imagem.

7. MÉTODO, de acordo com a reivindicação 6, caracterizado pela etapa de ajuste compreender uma etapa de redução da profundidade percebida da imagem tridimensional na localização do texto renderizado.

8. MÉTODO, de acordo com qualquer uma das reivindicações 6 ou 7, caracterizado pela etapa de ajuste compreender a etapa de redução de um número de visualizações da imagem tridimensional na localização do texto renderizado.

9. MÉTODO, de acordo com qualquer uma das reivindicações 6 a 8, caracterizado pela etapa de ajuste compreender uma etapa de manter uma disparidade da imagem tridimensional abaixo de um limite predeterminado na localização do texto renderizado.

10. MÉTODO, de acordo com qualquer uma das reivindicações de 6 a 9, caracterizado pelo segundo componente compreender um mapa de profundidade, e o método compreender ainda dimensionar o segundo componente antes da renderização da imagem tridimensional de modo a permitir a colocação do componente de texto na localização, conforme especificada pelo componente de dados.

11. MÉTODO, de acordo com a reivindicação 10, caracterizado por compreender adicionalmente uma etapa de recepção de um componente recomendado que compreende uma escala recomendada do segundo componente, de modo que as informações de localização pode permanecer as mesmas para múltiplas imagens consecutivas.

12. DISPOSITIVO PARA PROCESSAMENTO DE UM SINAL DE IMAGEM TRIDIMENSIONAL, que compreende: - um receptor configurado para receber um sinal de imagem tridimensional que compreende um primeiro componente de imagem, um segundo componente para criação de uma imagem tridimensional em combinação com o primeiro componente de imagem, e um componente de texto para incluir na imagem tridimensional, e um componente de dados compreendendo informações de localização que descrevem a localização do componente de texto dentro da imagem tridimensional; - um processador configurado para a criação de um sinal de imagem tridimensional que compreende o primeiro e o segundo componentes da imagem, o componente de texto e o componente de dados,caracterizado por compreender: ajuste de uma profundidade de pelo menos um do primeiro componente de imagem e do componente de texto dentro da imagem tridimensional para garantir (i) que o componente de texto permaneça na frente do primeiro componente de imagem e (ii) uma profundidade constante entre o componente de texto e o primeiro componente de imagem.