BRPI0721452A2

BRPI0721452A2 - Sistema e método para combinar texto com conteúdo tridimensional

Info

Publication number: BRPI0721452A2
Application number: BRPI0721452-9A
Authority: BR
Inventors: Izzat Izzat; Dong-Qing Zhang; Yousef Wasef Nijim
Original assignee: Thomson Licensing
Priority date: 2007-03-16
Filing date: 2007-12-19
Publication date: 2014-03-25
Also published as: WO2008115222A1; BRPI0721452B1; CA2680724C; KR101842622B1; ATE472230T1; CN105263012A; EP2157803A1; DE602007007369D1; EP2140688A1; US20100238267A1; JP2010521738A; EP2140688B1; US10200678B2; KR20090120492A; MX2009009871A; CN101653011A; US9769462B2; US20170310951A1; EP2157803B1; CA2680724A1

Description

“SISTEMA E MÉTODO PARA COMBINAR TEXTO COM CONTEÚDO TRIDIMENSIONAL” Esse pedido reivindica o benefício de acordo com 35 U.S.C.§ 119 de um pedido provisional 60/918635 depositado nos Estados Unidos em 16 de março de 2007.

Campo técnico da invenção

A presente revelação refere-se genericamente a sistemas de exibição e processa- mento de imagem, e mais particularmente, a um sistema e método para combinar texto com conteúdo tridimensional.

Antecedentes da invenção

Há dois tipos de texto que podem ser adicionados a vídeo: legendas para ouvintes e legendas para deficientes auditivos. Dito em termos gerais, legendas são destinadas a audiências que ouvem e legendas para audiências surdas. Legendas para ouvintes podem traduzir o diálogo em um idioma diferente, porém raramente mostram todo o áudio. Por e- xemplo, legendas para deficientes auditivos mostram efeitos de som (por exemplo, “telefone tocando” e “passos”), enquanto legendas para ouvintes não mostram.

Legendas ocultas são legendas que são ocultas em um sinal de vídeo, invisíveis sem um decodificador especial. As legendas ocultas são ocultas, por exemplo, na linha 21 do intervalo de supressão de linha (VBI). Legendas abertas são legendas que foram decodi- ficadas, assim se tornaram parte integral da imagem da televisão, como legendas para ou- vintes em um filme. Em outras palavras, legendas abertas não podem ser desligadas. O termo “legendas abertas” também é utilizado para se referir a legendas para ouvintes cria- das com um gerador de caracteres.

O uso de texto em vídeo bidimensional 2D é conhecido por aqueles versados na técnica. O interesse atual em filme e vídeo tridimensional 3D criou a necessidade de técni- cas para acrescentar texto ao conteúdo 3D. Portanto, existe uma necessidade por técnicas para otimizar a inserção de texto em conteúdo 3D de tal modo que o texto adicionado não obstrua os efeitos 3D no conteúdo 3D e não crie fadiga visual quando o conteúdo 3D é visto.

Sumário

De acordo com um aspecto da presente revelação, são fornecidos sistema e méto- do para combinar e/ou exibir texto com conteúdo tridimensional 3D. O sistema e método inserem texto no mesmo nível como o valor de profundidade mais elevado no conteúdo 3D. Um exemplo de conteúdo 3D é uma imagem bidimensional e um mapa de profundidade as- sociado. Nesse caso, o valor de profundidade do texto inserido é ajustado para casar com o valor de profundidade maior do mapa de profundidade dado. Outro exemplo de conteúdo de 3D é uma pluralidade de imagens bidimensionais e mapas de profundidade associados. Nesse caso, o valor de profundidade do texto inserido é continuamente ajustado para casar com o valor de profundidade maior de um mapa de profundidade dado. Um exemplo adicio- nal de conteúdo 3D é conteúdo estereoscópico tendo uma imagem de olho direito e uma imagem de olho esquerdo. Nesse caso o texto em uma da imagem de olho esquerdo e ima- gem de olho direito é deslocado para casar com o valor de profundidade maior na imagem estereoscópica. Ainda outro exemplo de conteúdo 3D é conteúdo estereoscópico tendo uma pluralidade de imagens de olho direito e imagens de olho esquerdo. Nesse caso o texto em uma das imagens de olho esquerdo ou imagens de olho direito é continuamente deslocada para casar com o valor de profundidade maior nas imagens estereoscópicas. Como resulta- do, o sistema e método da presente revelação produzem texto combinado com conteúdo 3D onde o texto não obstrui os efeitos 3D no conteúdo 3D e não cria fadiga visual quando visto por um telespectador.

De acordo com outro aspecto da presente revelação, um método para combinar texto com conteúdo de imagem tridimensional que recebe conteúdo de imagem tridimensio- nal, determinar um valor de profundidade máximo para o conteúdo tridimensional, e combi- nar texto com conteúdo de imagem tridimensional no valor máximo de profundidade.

De acordo com um aspecto adicional da presente revelação, um método de exibir texto com conteúdo de imagem tridimensional inclui receber conteúdo de imagem tridimen- sional e texto, o conteúdo de imagem tridimensional tendo um valor máximo de profundida- de, exibir o conteúdo de imagem tridimensional e exibir o texto no valor máximo de profundi- dade.

De acordo ainda com outro aspecto da presente revelação, um sistema para com- binar texto com conteúdo de imagem tridimensional inclui meio para receber conteúdo de imagem tridimensional, meio para determinar um valor máximo de profundidade para o con- teúdo tridimensional, e meio para combinar texto com o conteúdo de imagem tridimensional no valor máximo de profundidade.

De acordo ainda com um aspecto adicional da presente revelação, um sistema para exibir texto com conteúdo de imagem tridimensional inclui meio para receber conteúdo de imagem tridimensional e texto, o conteúdo de imagem tridimensional tendo um valor máximo de profundidade, meio para exibir o conteúdo de imagem tridimensional e meio para exibir o texto no valor máximo de profundidade.

Breve descrição dos desenhos

Esses e outros aspectos, características e vantagens da presente revelação serão descritos ou se tornarão evidentes a partir da seguinte descrição detalhada das modalidades preferidas, que deve ser lida com relação aos desenhos em anexo.

Nos desenhos, onde numerais de referência similares indicam elementos similares em todas as vistas:

A figura 1 é uma ilustração exemplar de um sistema para combinar texto com con- teúdo tridimensional de acordo com um aspecto da presente revelação;

A figura 2 ilustra um exemplo de uma imagem 2D e um mapa de profundidade as- sociado à imagem 2D;

A figura 3 ilustra um exemplo de texto adicionado à imagem 2D e o mapa de pro- fundidade associado à imagem 2D de acordo com a presente revelação;

A figura 4 é um fluxograma que ilustra um processo de inserção de legenda para ouvintes off-line de acordo com a presente revelação;

A figura 5 é um fluxograma que ilustra um processo de inserção de legenda para ouvintes on-line de acordo com a presente revelação;

A figura 6 ilustra um processo de inserção e detecção de legenda para ouvintes on- line de acordo com a presente revelação; e A figura 7 ilustra um exemplo de texto combinado com um par estéreo de acordo

com a presente revelação.

Deve ser entendido que o(s) desenho(s) é (são) para fins de ilustrar os conceitos da revelação e não é (são) necessariamente a única configuração possível para ilustrar a reve- lação.

Descrição detalhada de modalidades preferidas

Deve ser entendido que os elementos mostrados nas figuras podem ser implemen- tados em várias formas de hardware, software ou combinações dos mesmos. Preferivelmen- te, esses elementos são implementados em uma combinação de hardware e software em um ou mais dispositivos de propósito geral apropriadamente programados, que podem inclu- ir um processador, memória e interfaces de entrada/saída.

A presente descrição ilustra os princípios da presente revelação. Será desse modo reconhecido que aqueles versados na técnica serão capazes de idealizar vários arranjos que, embora não explicitamente descritos ou mostrados aqui, incorporam os princípios da revelação e são incluídos em seu espírito e escopo.

Todos os exemplos e linguagem condicional mencionados aqui são para fins peda-

gógicos para auxiliar o leitor a entender os princípios da revelação e os conceitos contribuí- dos pelo inventor para incrementar a técnica, e devem ser interpretados como sendo sem limitação a tais exemplos e condições especificamente mencionados.

Além disso, todas as afirmações aqui que mencionam princípios, aspectos e moda- 30 Iidades da revelação, bem como exemplos específicos das mesmas, pretendem abranger equivalentes tanto estruturais como funcionais das mesmas. Adicionalmente, pretende-se que tais equivalentes incluam tanto equivalentes atualmente conhecidos como equivalente desenvolvidos no futuro, isto é, quaisquer elementos desenvolvidos que realizem a mesma função, independente de estrutura.

Desse modo, por exemplo, será reconhecido por aqueles versados na técnica que

os diagramas de blocos apresentados aqui representam vistas conceptuais de conjuntos de circuitos ilustrativos que incorporam os princípios da revelação. Similarmente, será reconhe- cido que quaisquer fluxogramas, diagramas de fluxo, diagramas de transição de estado, pseudocódigo, e similar representam vários processos que podem ser substancialmente representados em meios legíveis por computador e desse modo executados por um compu- tador ou processador, quer ou não esse computador ou processador seja explicitamente mostrado.

As funções dos vários elementos mostrados nas figuras podem ser fornecidas atra- vés do uso de hardware dedicado bem como hardware capaz de executar software em as- sociação a software apropriado. Quando fornecido por um processador, as funções podem ser fornecidas por um processador dedicado único, por um processador compartilhado úni- 10 co, ou por uma pluralidade de processadores individuais, alguns dos quais podem ser com- partilhados. Além disso, o uso explícito do termo “processador” ou “controlador” não deve ser interpretado como se referindo exclusivamente a hardware capaz de executar software, e pode incluir implicitamente, sem limitação, hardware de processador de sinais digitais “DSP”, memória somente de leitura “ROM” para armazenar software, memória de acesso 15 aleatório “RAM” e armazenagem não volátil.

O outro hardware, convencional e/ou customizado, também pode ser incluído. Simi- larmente, quaisquer comutações mostradas nas figuras são somente conceptuais. Sua fun- ção pode ser realizada através da operação de lógica de programa, através de lógica dedi- cada, através da interação de controle de programa e lógica dedicada, ou mesmo manual- 20 mente, a técnica específica sendo selecionável pelo implementador como entendido mais especificamente a partir do contexto.

Nas reivindicações do presente, qualquer elemento expresso como meio para exe- cutar uma função específica pretende abranger qualquer modo de executar aquela função incluindo, por exemplo, a) uma combinação de elementos de circuito que executa aquela 25 função ou b) software em qualquer forma, incluindo, portanto, firmware, microcódigo ou simi- lar, combinado com conjunto de circuitos apropriado para executar aquele software para realizar a função. A revelação como definido por tais reivindicações reside no fato de que as funcionalidades fornecidas pelos vários meios mencionados são combinadas e unidas no modo que as reivindicações exigem. Desse modo, é considerado que qualquer meio que 30 possa fornecer essas funcionalidades é equivalente àqueles mostrados aqui.

Com referência agora à figura 1, componentes de sistema exemplares 10, de acor- do com uma modalidade da presente revelação, são mostrados. Um dispositivo de varredu- ra 12 pode ser fornecido para varrer cópias de filme 14, por exemplo, negativos de filme ori- ginal de câmera, em um formato digital, por exemplo, um formato Cineon ou arquivos de 35 Society of Motion Picture and Television Engineers (SMPTE) Digital Picture Exchange (DPX). O dispositivo de varredura 12 pode compreender, por exemplo, um telecine ou qual- quer dispositivo que gerará uma saída de vídeo a partir do filme como, por exemplo, um Arri LocPro™ com saída de vídeo. Alternativamente, arquivos a partir do processo pós-produção ou cinema digital 16 (por exemplo, arquivos já em forma legível por computador) podem ser utilizados diretamente. Fontes em potencial de arquivos legíveis por computador são edito- res AVID™, arquivos DPX, fitas D5, etc. Além disso, o conteúdo 3D (por exemplo, conteúdo estereoscópico ou imagens 2D e mapas de profundidade associados) pode ser fornecido por um dispositivo de captura 18 e arquivos de texto 20 (por exemplo, arquivos de legenda para ouvintes ou legenda para deficientes auditivos) podem ser criados a partir de um script e fornecidos ao sistema pelo supervisor de legenda para ouvintes.

As cópias de filme varridas, imagens de filme digital e/ou conteúdo 3D bem como os arquivos de texto podem ser inseridos em um dispositivo pós-processamento 22, por e- xemplo, um computador. O computador 22 pode ser implementado em qualquer uma das várias plataformas de computador conhecidas tendo hardware como uma ou mais unidades de processamento central (CPU), memória 24 como memória de acesso aleatório (RAM) e/ou memória somente de leitura (ROM) e interface(s) de usuário de entrada/saída (l/O) 26 como um teclado, dispositivo de controle de cursor (por exemplo, um mouse ou manche) e dispositivo de exibição. A plataforma de computador também inclui um sistema operacional e código de instrução micro. Os vários processos e funções descritas aqui podem fazer par- te do código de instrução micro ou parte de um programa de aplicação de software (ou uma combinação dos mesmos) que é executado através do sistema operacional. Além disso, vários outros dispositivos periféricos podem ser conectados à plataforma de computador por várias interfaces e estruturas de barramento, como porta paralela, porta serial ou barramen- to serial universal (USB). Outros dispositivos periféricos podem incluir dispositivos de arma- zenagem adicionais 28 e uma impressora 30. A impressora 30 pode ser empregada para imprimir uma versão revisada do filme 32, por exemplo, uma versão estereoscópica do filme, onde texto foi inserido em uma cena ou uma pluralidade de cenas utilizando as técnicas de inserção de texto descritas abaixo. Adicionalmente, um arquivo digital 34 do vídeo ou filme revisado pode ser gerado e fornecido a um dispositivo de exibição 3D de modo que o conte- údo 3D e texto inserido possam ser vistos por um telespectador. Alternativamente, o arquivo digital 34 pode ser armazenado no dispositivo de armazenagem 28.

Um programa de software inclui um módulo de processamento de texto 38 armaze- nado na memória 24 para combinar texto com conteúdo 3D de acordo com a presente reve- lação, como discutido em detalhes adicionais abaixo.

Há diversas técnicas para apresentar conteúdo 3D. A mais comum é meio de exibi- ção estereoscópico, que requer vidros ativo ou passivo. Meios de exibição auto- estereoscópicos, utilizando, por exemplo, Lenticular, não requerem vidros e estão se tor- nando mais disponíveis para entretenimento tanto em casa como profissional. Muitos des- ses meios de exibição operam no formato 2D + profundidade. Nesse formato, o vídeo 2D e as informações de profundidade são combinados para criar o efeito 3D.

A presente revelação é dirigida a um método para inserir legendas para ouvintes no vídeo 3D para meios de exibição do tipo estéreo e 2D+profundidade. Para meios de exibição 2D+profundidade, o método proposto insere texto de legenda para ouvintes no mesmo nível 5 que o valor de profundidade mais elevado na imagem. Mais especificamente, o valor de pro- fundidade da legenda para ouvintes inserida pode ser ajustado continuamente para casar com o valor de profundidade maior do mapa de profundidade. Para conteúdo estéreo, o mé- todo proposto ajusta o valor de disparidade da legenda para ouvintes na imagem direita. Isso produz legendas para ouvintes mais visualmente agradáveis que não obstruem os efei- 10 tos 3D do vídeo.

Legendas para ouvintes podem ser colocadas em um sinal de vídeo em um de dois modos: on-line (ao vivo) ou off-line (pós-produção). Legenda para ouvintes on-line é feita à medida que um evento ocorre. Os exemplos de legenda para ouvintes on-line são progra- mas de notícias de televisão, seminários ao vivo e eventos esportivos. Legendas para ouvin- 15 tes on-line podem ser feitas a partir de um script, ou na realidade criados em tempo real. Legenda para ouvintes off-line é feita “após o fato” em um estúdio. Os exemplos de Iegen- dagem off-line incluem shows de jogos de televisão, videoteipes ou DVDs de filmes, video- teipes de corporações (por exemplo, vídeos de treinamento), filmes fornecidos através de cabo, satélite ou Internet, ou similar. O texto da legenda para ouvintes é criado em um com- 20 putador, e sincronizado com o vídeo utilizando códigos de tempo. O texto e o vídeo são en- tão transferidos para o videoteipe antes do mesmo ser transmitido ou distribuído.

Na presente revelação, a criação e distribuição de legendas para ouvintes segue, preferivelmente, processos convencionais como conhecidos por aqueles versados na técni- ca. Por exemplo, um processo convencional é criar um arquivo de texto a partir de um script. 25 O arquivo de texto contém três valores (quadro de início, quadro final, e texto). O texto é então repetido em todos os quadros a partir do quadro de início até o quadro final. A presen- te revelação é dirigida ao ajuste do valor de profundidade do local de texto de tal modo que o valor de profundidade do local de texto case com o valor de profundidade maior no quadro de vídeo.

Há diversos formatos de conteúdo e meios de exibição no mercado incluindo este-

reoscópico, holográfico, e auto-estereoscópico entre outros. Com referência agora à figura

2, uma modalidade da presente revelação é dirigida a uma abordagem para inserção de legendas para ouvintes em meios de exibição auto-estereoscópico que operam no formato 2D+profundidade. A figura 2 ilustra um exemplo de formato de conteúdo 2D+profundidade. 35 Mais especificamente, a figura 2 ilustra dois tipos de conteúdos: uma imagem 2D 40 e um mapa de profundidade 42 da imagem 2D. O mapa de profundidade 42 define o valor de pro- fundidade em cada pixel na imagem 2D 40 com pixels claros que representam pontos pró- ximos ao telespectador, e pixels escuros que representam pontos distantes do telespecta- dor.

Como discutido acima, há dois modos para inserir legendas para ouvintes: inserção on-line para conteúdo ao vivo e inserção off-line para conteúdo pós-produção. Como discu- tido abaixo, os métodos propostos da presente revelação são dirigidos à inserção de legen- da para ouvintes tanto off-line como on-line.

Com referência agora à figura 3, um exemplo de uma caixa de texto 50 inserida em um mapa de profundidade 46 e o texto 48 adicionado à imagem 2D 40 é mostrado. A caixa de texto 48 é o texto de legenda para ouvintes, como definido pelo script, por exemplo, en- quanto a caixa de texto 50 representa um valor de profundidade constante em cada ponto da caixa de texto.

Com referência agora à figura 4, um processo de inserção off-line 52 da presente revelação é mostrado. Para inserção de legendas para ouvintes off-line, imagens de texto de legenda para ouvintes são criadas e sincronizadas com vídeo 2D utilizando códigos de tem- po em produção posterior. Os valores de profundidade do texto inserido são determinados por varredura, na etapa 54, do vídeo 3D e cálculo do valor max. da profundidade para cada quadro durante a criação de conteúdo. Uma nova caixa de texto é então inserida, na etapa

56, no local de legenda para ouvintes com valor de profundidade igual ao valor max. de pro- fundidade do quadro, e na etapa 58, a legenda para ouvintes é adicionada à imagem 2D 44. Esse processo deve ser feito para a duração do intervalo de tempo definido para a legenda para ouvintes. Deve ser observado que as etapas 56 e 58 podem ser realizadas em qual- quer ordem e podem ser executadas preferivelmente simultaneamente.

Com referência agora à figura 5, é mostrado um fluxograma da presente revelação que ilustra um processo de inserção on-line 60. No processamento on-line, o local das le- gendas para ouvintes não é sabido antecipadamente e consequentemente o valor de pro- fundidade das legendas para ouvintes não pode ser determinado do mesmo modo como descrito para processamento off-line 52. Assim que o texto de legenda para ouvintes é inse- rido, na etapa 62, o mapa de profundidade do quadro de início de legenda para ouvintes é varrido para determinar o valor max. de profundidade e na etapa 64, o texto de legenda para ouvintes é inserido no valor max. de profundidade e, na etapa 66, a legenda para ouvintes é adicionada à imagem 2D. Deve ser observado que as etapas 64 e 66 podem ser realizadas em qualquer ordem e podem ser preferivelmente realizadas simultaneamente. Posterior- mente, na etapa 68, uma determinação é feita com relação a se existem recursos adicionais de processamento. Dependendo do processamento disponível, a legenda para ouvintes po- de ser fixa, na etapa 70, no valor de profundidade do primeiro quadro quando processamen- to adicional não está disponível ou os valores de profundidade dos quadros seguintes po- dem ser determinados repetindo as etapas de processamento on-line 62-66 quando proces- sarnento adicional está disponível.

Com referência agora à figura 6, é mostrado um fluxograma da presente revelação que ilustra o processamento 72 de imagens 2D tendo legendas para ouvintes inseridas. Há casos onde legendas para ouvintes já estão inseridas na imagem 2D como se o conteúdo 3D fosse convertido do conteúdo 2D. Para esses casos, o local de legendas para ouvintes pode ser identificado, na etapa 74, por detectores de região de legenda para ouvintes, que são capazes de detectar e localizar as regiões de legenda para ouvintes em um quadro utili- zando informações de cor e textura. Detecção de região de legenda para ouvintes tem sido uma direção de pesquisa ativa na pesquisa de processamento de vídeo. De acordo com a literatura atual, para alguns vídeos, como vídeos de notícias, detectores de região de legen- da para ouvintes podem obter precisão de localização acima de 95%. Portanto, detectores de região de legenda para ouvintes devem ser seguros o bastante para inserção de legenda para ouvintes 3D. Após localização da área de legenda para ouvintes (isto é, a coordenada da caixa de texto é determinada), na etapa 74, e o texto de legenda para ouvintes é isolado (isto é, os pixels específicos da legenda para ouvintes são determinados), na etapa 76, a partir da imagem, o mapa de profundidade do quadro de início de legenda para ouvintes é buscado (por exemplo, varrido) para determinar, na etapa 78, o valor max. de profundidade. A seguir, na etapa 80, o texto de legenda para ouvintes é inserido no valor max. de profun- didade. Posteriormente, as etapas de processo de inserção on-line 66-70 mostradas na figu- ra 5, podem ser aplicadas.

Com referência agora à figura 7, a presente revelação também pode ser estendida para cobrir conteúdo estereoscópico 82. Para conteúdo estereoscópico o texto na imagem de olho esquerdo ou direito é deslocado para casar com o valor de profundidade maior na imagem estereoscópica. Por exemplo, o texto 88 pode ser fixo na imagem de olho esquerdo 25 84 porém ajustado ou variado na imagem de olho direito 86. A variação do texto 90 na ima- gem de olho direito 86 é proporcional à disparidade do par estéreo. O valor de disparidade é inversamente proporcional ao valor de profundidade.

A variação no olho é um deslocamento na direção horizontal. Um deslocamento negativo (fora do texto da tela) é preferível para a maioria das aplicações. Entretanto a pre- 30 sente revelação permite deslocamentos tanto negativo como positivo do texto. O valor de deslocamento mínimo permitido é igual ao valor positivo máximo visualmente aceitável e o valor de deslocamento máximo permitido é igual ao valor negativo máximo visualmente acei- tável. A figura 7 mostra um exemplo de par estéreo com um valor de deslocamento de 10 pixels para o texto 90 na imagem de olho direito 86.

Deve ser observado que, de acordo com a presente revelação, é desejável combi-

nar texto com conteúdo 3D (por exemplo, conteúdo estereoscópico ou imagens 2D e mapas de profundidade associados) de tal modo que o texto seja ocasional ou continuamente posi- cionado no valor máximo de profundidade do conteúdo 3D. Abaixo, várias abordagens para adquirir informações de profundidade a partir do conteúdo 3D são discutidas adicionalmente.

A aquisição de informações de profundidade pode ser feita utilizando técnicas ativa ou passiva. Abordagens passivas adquirem geometria 3D a partir de imagens ou vídeos feitos sob condições de iluminação regular. A geometria 3D é computada utilizando as ca- racterísticas geométricas ou fotométricas extraídas de imagens e vídeos. Abordagens ativas utilizam fontes de Iuz especial, como laser, Iuz de estrutura ou Iuz infravermelha. Computam a geometria com base na reposta dos objetos e cenas à Iuz especial projetada sobre a su- perfície.

Abordagens de vista única recuperam geometria 3D utilizando uma imagem tirada de um ponto de vista de câmera única. Os exemplos incluem profundidade e estéreo foto- métrico a partir de desenfoque. Abordagens de múltiplas vistas recuperam geometria 3D a partir de múltiplas imagens tiradas de pontos de vista de câmeras múltiplas, resultadas de movimento de objeto, ou com diferentes posições de fonte de luz. O casamento de estéreo é um exemplo de recuperação 3D de múltiplas vistas por casamento dos pixels na imagem esquerda e imagem direita no par de estéreo para obter as informações de profundidade dos pixels.

Os métodos geométricos recuperam geometria 3D por detectar características ge- ométricas como cantos, linhas ou contornos em imagens única ou múltiplas. A relação es- pacial entre os cantos, linhas ou contornos extraídos pode ser utilizada para inferir as coor- denadas 3D dos pixels em imagens. Os métodos fotométricos recuperam geometria 3D com base no sombreamento ou sombra dos patches de imagem resultados da orientação da su- perfície de cena.

Para a aplicação da presente revelação, há três tipos possíveis de conteúdo: con- teúdo gerado por computador, conteúdo estéreo e conteúdo 2D. Para conteúdo gerado por computador, como utilizado em animação, informações de profundidade são disponíveis com processamento muito limitado. Para conteúdo de estéreo, a imagem direita e esquerda pode ser utilizada para gerar a profundidade por casar o pixel na imagem esquerda com aquele na imagem direita. O caso mais complexo é aquele de conteúdo 2D. A maioria das técnicas atuais envolve processamento manual extenso e consequentemente devem ser feitas off-line. Para aplicações de cinema digital, o conteúdo 2D é convertido em par estéreo para reprodução em cinemas digitais. Após aquisição do par estéreo, técnicas de estéreo podem ser utilizadas para obter um mapa de profundidade. Em geral para aplicações de legenda para ouvintes mapas de profundidade altamente precisos e densos não são nor- malmente necessários.

Embora as modalidades que incorporam os ensinamentos da presente revelação tenham sido mostradas e descritas em detalhe aqui, aqueles versados na técnica podem facilmente idealizar muitas outras modalidades variadas que ainda incorporam esses ensi- namentos. Tendo descrito modalidades preferidas para um sistema e método para proces- samento de imagem paralela em um ambiente de computação ligado em rede com esque- mas de divisão de dados de imagem ótimos (que pretendem ser ilustrativos e não Iimitado- 5 res). Observa-se que modificações e variações podem ser feitas por pessoas versadas na técnica à Iuz dos ensinamentos acima. Portanto, deve ser entendido que alterações podem ser feitas nas modalidades específicas da revelação revelada que estão compreendidas no escopo da revelação como delineado pelas reivindicações apensas.

Claims

1. Método para combinar texto com conteúdo de imagem tridimensional, o método sendo CARACTERIZADO pelo fato de que compreende as etapas de: receber (54) conteúdo de imagem tridimensional; determinar (54) um valor máximo de profundidade para o conteúdo tridimensional; e combinar (58) texto com o conteúdo de imagem tridimensional no valor máximo de profundidade.

2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a etapa de receber conteúdo de imagem tridimensional inclui receber (54) uma imagem bidi- mensional (40) e um mapa de profundidade (42).

3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que a etapa de determinar (54) um valor máximo de profundidade inclui detectar qual objeto no mapa de profundidade tem o valor máximo de profundidade.

4. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a etapa de combinar (58) texto com o conteúdo tridimensional inclui sobrepor o texto na ima- gem bidimensional e posicionar o texto no mapa de profundidade no valor máximo de pro- fundidade.

5. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o conteúdo de imagem tridimensional inclui uma pluralidade de quadros e as etapas de de- terminar (62) o valor máximo de profundidade e combinar (64, 66) o texto com o conteúdo de imagem tridimensional no valor máximo de profundidade ocorrem para cada quadro.

6. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o conteúdo de imagem tridimensional inclui uma pluralidade de quadros e as etapas de de- terminar (62) o valor máximo de profundidade e combinar (64, 66) o texto com o conteúdo de imagem tridimensional no valor máximo de profundidade ocorrem para um número menor do que todos da pluralidade de quadros.

7. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que compreende ainda as etapas de: determinar (74) se o conteúdo tridimensional contém texto; isolar (76) o texto a partir do conteúdo tridimensional; e combinar (78, 80) o texto isolado com o conteúdo tridimensional no valor máximo de profundidade.

8. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o texto é um entre legendas para ouvintes, Iegendagem oculta e Iegendagem aberta.

9. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a etapa de determinar o valor máximo de profundidade para o conteúdo tridimensional inclui detectar o valor máximo de profundidade de um objeto em uma imagem estereoscópica (82), a imagem estereoscópica (82) incluindo uma imagem de olho esquerdo (84) e uma imagem de olho direito (86).

10. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato de que a etapa de combinar texto com a imagem tridimensional inclui: sobrepor o texto (88) na imagem de olho esquerdo (84); sobrepor o texto (90) na imagem de olho direito (86); e deslocar o texto (90) na imagem de olho direito (86) de tal modo que o texto de olho direito e olho esquerdo combinado é exibível no valor máximo de profundidade da imagem estereoscópica.

11. Método de exibir texto com conteúdo de imagem tridimensional, o método sen- do CARACTERIZADO pelo fato de que compreende as etapas de: receber (18, 20) conteúdo de imagem tridimensional e texto, o conteúdo de imagem tridimensional tendo um valor máximo de profundidade; exibir (36) o conteúdo de imagem tridimensional; e exibir (36) o texto no valor máximo de profundidade.

12. Método, de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que compreende ainda a etapa de: determinar (54) o valor máximo de profundidade do conteúdo de imagem tridimen- sional.

13. Método, de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que a etapa de determinar (54) compreende detectar qual objeto no conteúdo de imagem tridi- mensional tem o valor máximo de profundidade.

14. Método, de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que o conteúdo de imagem tridimensional inclui uma pluralidade de quadros e as etapas de de- terminar (62) o valor máximo de profundidade e exibir (36) o texto no valor máximo de pro- fundidade ocorrem para cada quadro.

15. Método, de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que o conteúdo de imagem tridimensional inclui uma pluralidade de quadros e as etapas de de- terminar (62) o valor máximo de profundidade e exibir (36) o texto no valor máximo de pro- fundidade ocorrem para um número menor do que todos da pluralidade de quadros.

16. Método, de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que o texto é um entre legendas para ouvintes, Iegendagem oculta e Iegendagem aberta.

17. Método, de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que compreende ainda as etapas de: determinar (74) se o conteúdo tridimensional contém texto; isolar (76) o texto a partir do conteúdo tridimensional; e exibir (36) o texto isolado no valor máximo de profundidade.

18. Método, de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que a etapa de determinar o valor máximo de profundidade para o conteúdo tridimensional inclui detectar o valor máximo de profundidade de um objeto em uma imagem estereoscópica (82), a imagem estereoscópica incluindo uma imagem de olho esquerdo (84) e uma imagem de olho direito (86).

19. Método, de acordo com a reivindicação 18, CARACTERIZADO pelo fato de que a etapa de combinar texto com a imagem tridimensional inclui: sobrepor texto (88) na imagem de olho esquerdo (84); sobrepor texto (90) na imagem de olho direito (86); e deslocar o texto (90) na imagem de olho direito (86) de tal modo que o texto de olho direito e olho esquerdo combinado é exibível no valor máximo de profundidade da imagem estereoscópica.

20. Sistema para combinar texto com conteúdo de imagem tridimensional, o siste- ma sendo CARACTERIZADO pelo fato de que compreende: meio para receber (54) conteúdo de imagem tridimensional; meio para determinar (54) um valor máximo de profundidade para o conteúdo tridi- mensional; e meio para combinar (58) texto com o conteúdo de imagem tridimensional no valor máximo de profundidade.

21. Sistema, de acordo com a reivindicação 20, CARACTERIZADO pelo fato de que o meio para receber conteúdo de imagem tridimensional inclui meio para receber (54) uma imagem bidimensional (40) e um mapa de profundidade (42).

22. Sistema, de acordo com a reivindicação 21, CARACTERIZADO pelo fato de que o meio para determinar (54) um valor máximo de profundidade inclui meio para detectar qual objeto no mapa de profundidade tem o valor máximo de profundidade.

23. Sistema, de acordo com a reivindicação 20, CARACTERIZADO pelo fato de que o meio de combinar (58) texto com o conteúdo tridimensional inclui meio para sobrepor o texto na imagem bidimensional e meio para posicionar o texto no mapa de profundidade no valor máximo de profundidade.

24. Sistema, de acordo com a reivindicação 20, CARACTERIZADO pelo fato de que o conteúdo de imagem tridimensional inclui uma pluralidade de quadros e o meio para determinar (62) o valor máximo de profundidade e meio para combinar (64, 66) o texto com o conteúdo de imagem tridimensional no valor máximo de profundidade ocorrem para cada quadro.

25. Sistema, de acordo com a reivindicação 20, CARACTERIZADO pelo fato de que o conteúdo de imagem tridimensional inclui uma pluralidade de quadros e o meio para determinar (62) o valor máximo de profundidade e meios para combinar (64, 66) o texto com o conteúdo de imagem tridimensional no valor máximo de profundidade ocorrem para um número menor do que todos da pluralidade de quadros.

26. Sistema, de acordo com a reivindicação 20, CARACTERIZADO pelo fato de que compreende ainda: meio para determinar (74) se o conteúdo tridimensional contém texto; meio para isolar (76) o texto a partir do conteúdo tridimensional; e meios para combinar (78, 80) o texto isolado com o conteúdo tridimensional no va- lor máximo de profundidade.

27. Sistema, de acordo com a reivindicação 20, CARACTERIZADO pelo fato de que o texto é um entre legendas para ouvintes, Iegendagem oculta e Iegendagem aberta.

28. Sistema, de acordo com a reivindicação 20, CARACTERIZADO pelo fato de que o meio para determinar o valor máximo de profundidade para o conteúdo tridimensional inclui meio para detectar o valor máximo de profundidade de um objeto em uma imagem estereoscópica (82), a imagem estereoscópica (82) incluindo uma imagem de olho esquerdo (84) e uma imagem de olho direito (86).

29. Sistema, de acordo com a reivindicação 28, CARACTERIZADO pelo fato de que a etapa de combinar texto com a imagem tridimensional inclui: meio para sobrepor o texto (88) na imagem de olho esquerdo (84); meio para sobrepor o texto (90) na imagem de olho direito (86); e meio para deslocar o texto (90) na imagem de olho direito (86) de tal modo que o texto de olho direito e olho esquerdo combinado é exibível no valor máximo de profundidade da imagem estereoscópica.

30. Sistema para exibir texto com conteúdo de imagem tridimensional, o sistema sendo CARACTERIZADO pelo fato de que compreende: meio para receber (18, 20) conteúdo de imagem tridimensional e texto, o conteúdo de imagem tridimensional tendo um valor máximo de profundidade; meio para exibir (36) o conteúdo de imagem tridimensional; e meio para exibir (36) o texto no valor máximo de profundidade.

31. Sistema, de acordo com a reivindicação 30, CARACTERIZADO pelo fato de que compreende ainda: meio para determinar (54) o valor máximo de profundidade do conteúdo de imagem tridimensional.

32. Sistema, de acordo com a reivindicação 31, CARACTERIZADO pelo fato de que o meio para determinar (54) compreende meio para detectar qual objeto no conteúdo de imagem tridimensional tem o valor máximo de profundidade.

33. Sistema, de acordo com a reivindicação 31, CARACTERIZADO pelo fato de que o conteúdo de imagem tridimensional inclui uma pluralidade de quadros e o meio para determinar (54) o valor máximo de profundidade e meio para exibir (36) o texto no valor má- ximo de profundidade ocorrem para cada quadro.

34. Sistema, de acordo com a reivindicação 31, CARACTERIZADO pelo fato de que o conteúdo de imagem tridimensional inclui uma pluralidade de quadros e o meio para determinar (54) o valor máximo de profundidade e o meio para exibir (36) o texto no valor máximo de profundidade operam em um número menor do que todos da pluralidade de qua- dros.

35. Sistema, de acordo com a reivindicação 30, CARACTERIZADO pelo fato de que o texto é um entre legendas para ouvintes, Iegendagem oculta e Iegendagem aberta.

36. Sistema, de acordo com a reivindicação 30, CARACTERIZADO pelo fato de que compreende ainda: meio para determinar (74) se o conteúdo tridimensional contém texto; meio para isolar (76) o texto a partir do conteúdo tridimensional; e meio para exibir (36) o texto isolado no valor máximo de profundidade.

37. Sistema, de acordo com a reivindicação 30, CARACTERIZADO pelo fato de que o meio para determinar o valor máximo de profundidade para o conteúdo tridimensional inclui meio para detectar o valor máximo de profundidade de um objeto em uma imagem estereoscópica (82), a imagem estereoscópica incluindo uma imagem de olho esquerdo (84) e uma imagem de olho direito (86).

38. Sistema, de acordo com a reivindicação 37, CARACTERIZADO pelo fato de que o meio para combinar texto com a imagem tridimensional inclui: meio para sobrepor texto (88) na imagem de olho esquerdo (84); meio para sobrepor texto (90) na imagem de olho direito (86); e meio para deslocar o texto (90) na imagem de olho direito (86) de tal modo que o texto de olho direito e olho esquerdo combinado é exibível no valor máximo de profundidade da imagem estereoscópica.