BRPI0721462A2

BRPI0721462A2 - sistema e mÉtodo para classificaÇço de regiço de imagens em 2d para conversço de 2d para 3d

Info

Publication number: BRPI0721462A2
Application number: BRPI0721462-6A
Authority: BR
Inventors: Dong-Qing Zhang; Ana Belen Benitez; Jim Arthur Fancher
Original assignee: Thomson Licensing
Priority date: 2007-03-23
Filing date: 2007-03-23
Publication date: 2013-01-08
Also published as: JP2010522469A; CN101657839A; CA2681342A1; EP2130178A1; JP4938093B2; WO2008118113A1; CN101657839B; US20110043540A1

Abstract

SISTEMA E MÉTODO PARA CLASSIFICAÇçO DE REGIçO DE IMAGENS EM 2D PARA CONVERSçO DE 2D PARA 3D. São fornecidos um sistema e método pra classificação de região de imagens bidimensionais (2D) para conversão de 2D para 3D de imagens para criar imagens estereoscápicas. O sistema e método da presente divulgação possibilitam adquirir uma imagem bidimensional (2D) (202), identificar uma região da imagem 2D (204), extrair recursos da região (206), classificar os recursos extraídos da região (208), selecionar um modo de conversão com base na classificação da região identificada, converter a região em um modelo 3D (210) com base no modo de conversão selecionado, e criar uma imagem complementar pela projeção (212) do modelo 3D sobre um plano de imagem diferente de um plano de imagem da imagem 2D (202). Um componente de aprendizado (22) otimiza os parâmetros de classificação para alcançar mínimo erro de classificação da região usando um conjunto de imagens de treinamento (24) e correspondentes anotações de usuário.

Description

"SISTEMA E MÉTODO PARA CLASSIFICAÇÃO DE REGIÃO DE IMAGENS EM 2D PARA CONVERSÃO DE 2D PARA 3D"

Campo Técnico

A presente divulgação diz respeito, no geral, a sistemas de processamento e exibi- ção de gráficos em computador e, mais particularmente, a um sistema e método para classi- ficação de região de imagens bidimensionais (2D) para conversão de 2D para 3D.

Antecedentes da Invenção

Conversão de 2D para 3D é um processo para converter filmes bidimensionais (2D) existentes em filmes estereoscópicos tridimensionais (3D). Filmes estereoscópicos 3D re- produzem imagens em movimento, de uma maneira tal que a profundidade seja percebida e experimentada por um expectador, por exemplo, durante a visualização de um filme como este, com óculos 3D passivo ou ativo. Há significativo interesse dos maiores estúdios cine- matográficos na conversão de filmes antigos em filmes estereoscópicos 3D.

Imageamento estereoscópico é o processo de combinar visualmente pelo menos duas imagens de uma cena, tomadas de pontos de visualização ligeiramente diferentes, para produzir a ilusão de profundidade tridimensional. Esta técnica se baseia no fato de que os olhos humanos são espaçados em certa distância e, portanto, não visualizam exatamen- - te a mesma cena. Pelo fornecimento de uma imagem de uma diferente perspectiva para cada olho, os olhos do espectador são enganados para perceber profundidade. Tipicamen- te, quando forem fornecidas duas perspectivas distintas, as imagens componentes são refe- ridas como imagens "esquerda" e "direita", também conhecidas como uma imagem de refe- rência e uma imagem complementar, respectivamente. Entretanto, versados na técnica per- cebem que mais de dois pontos de visualização podem ser combinados para formar uma imagem estereoscópica.

Imagens estereoscópicas podem ser produzidas por um computador usando uma

variedade de técnicas. Por exemplo, o método "anáglifo" usa cor para codificar os compo- nentes esquerdo e direito de uma imagem estereoscópica. Posteriormente, um espectador usa um par especial de óculos que filtra luz, de maneira tal que cada olho perceba somente uma das visualizações.

Similarmente, imageamento estereoscópico com página invertida é uma técnica pa-

ra comutar rapidamente uma exibição entre as visualizações direita e esquerda de uma i- magem. Novamente, o espectador usa um par especial de óculos que contém persianas eletrônicas em alta velocidade, tipicamente, feitas com material de cristal líquido, que abre e fecha em sincronia com as imagens na exibição. Como no caso do anáglifo, cada olho per- cebe somente uma das imagens componentes.

Foram recentemente desenvolvidas outras técnicas de imageamento estereoscópi- co que não exigem óculos ou acessório de cabeça especiais. Por exemplo, imageamento Ienticular particiona duas ou mais visualizações de imagem discrepantes em finas fatias e intercala as fatias para formar uma única imagem. Então, a imagem intercalada fica posicio- nada atrás de uma lente Ienticular que reconstrói as visualizações discrepantes, de maneira tal que cada olho perceba uma visualização diferente. Algumas telas Ienticulares são imple- mentadas por uma lente Ientieular posicionada sobre uma tela LCD convencional, da forma comumente encontrada em computadores portáteis.

Uma outra técnica de imageamento estereoscópico envolve deslocar regiões de uma imagem de entrada para criar uma imagem complementar. Tais técnicas foram utiliza- das em um sistema de conversão manual de filme de 2D para 3D desenvolvido por uma empresa chamada In-Three, Inc. de Westlake Village, Califórnia. O sistema de conversão de 2D para 3D é descrito na patente US 6.208.348, publicada em 27 de março de 2001 para Kaye. Embora referido como um sistema 3D, o processo é realmente 2D, em virtude de ele não reconverter uma imagem 2D em uma cena 3D, mas, em vez disto, manipular a imagem de entrada 2D para criar a imagem do olho direito. A figura 1 ilustra o fluxo de trabalho de- senvolvido pelo processo divulgado na patente US 6.208.348, em que a figura 1 apareceu originalmente como figura 5 na patente 6.208.348. O processo pode ser descrito como o seguinte: para uma imagem de entrada, as regiões 2, 4, 6 são, primeiro, manualmente es- boçadas. Então, um operador desloca cada região para criar disparidade estéreo, por e- xemplo, 8, 10, 12. A profundidade de cada região pode ser vista pela visualização de sua reprodução 3D em uma outra tela por óculos 3D. O operador ajusta a distância de desloca- mento da região até que uma profundidade ideal seja alcançada.

Entretanto, a conversão de 2D para 3D é alcançada, em sua maior parte, manual- mente pelo deslocamento das regiões nas imagens 2D de entrada para criar as imagens complementares do olho direito. O processo é muito ineficiente e exige enorme intervenção humana.

Recentemente, sistemas e métodos de conversão automática de 2D para 3D foram propostos. Entretanto, certos métodos têm melhores resultados que outros, dependendo do tipo de objeto que é convertido na imagem, por exemplo, objetos imprecisos, objetos sóli- dos, etc. Já que a maior parte de imagens contém tanto objetos imprecisos quanto objetos sólidos, um operador do sistema necessitará selecionar manualmente os objetos nas ima- gens e, então, selecionar manualmente o modo de conversão de 2D para 3D corresponden- te para cada objeto. Portanto, existe uma necessidade de técnicas para selecionar automa- ticamente o melhor modo de conversão de 2D para 3D, entre uma lista de candidatos, para alcançar os melhores resultados com base no conteúdo de imagem local. Sumário da Invenção

São fornecidos um sistema e método para classificação de região de imagens bidi- mensionais (2D) para conversão de 2D para 3D de imagens para criar imagens estereoscó- picas. O sistema e método da presente divulgação utilizam uma pluralidade de métodos ou modos de conversão (por exemplo, conversores) e selecionam a melhor abordagem com base no conteúdo das imagens. O processo de conversão é conduzido com base em região por região, em que as regiões nas imagens são classificadas para determinar o melhor con- versor ou modo de conversão disponível. O sistema e método da presente divulgação usam um sistema com base em reconhecimento de padrão que inclui dois componentes: um com- ponente de classificação e um componente de aprendizado. As entradas no componente de classificação são recursos extraídos de uma região de uma imagem 2D, e a saída é um i- dentificador dos modos de conversão ou conversores 2D para 3D que espera-se que forne- çam os melhores resultados. O componente de aprendizado otimiza os parâmetros de clas- sificação para alcançar mínimo erro de classificação da região usando um conjunto de ima- gens de treinamento e anotações de usuário correspondentes. Para as imagens de treina- mento, o usuário anota o identificador do melhor modo de conversão ou conversor em cada região. Então, o componente de aprendizado otimiza a classificação (isto é, aprende) pelo uso de recursos visuais das regiões para treinamento e de seus identificadores de conversor anotados. Depois que cada região de uma imagem for convertida, uma segunda imagem (por exemplo, a imagem do olho direito ou imagem complementar) é criada pela projeção da cena 3D, que inclui as regiões ou objetos 3D convertidos, sobre um outro plano de imagea- mento com um diferente ângulo de visualização da câmera. De acordo com um aspecto da presente divulgação, um método de conversão tri-

dimensional (3D) para criar imagens estereoscópicas inclui adquirir uma imagem bidimensi- onal; identificar uma região da imagem bidimensional; classificar a região identificada; sele- cionar um modo de conversão com base na classificação da região identificada; converter a região em um modelo tridimensional com base no modo de conversão selecionado; e criar uma imagem complementar pela projeção do modelo tridimensional sobre um plano de ima- gem diferente de um plano de imagem da imagem bidimensional.

Em um outro aspecto, o método inclui extrair recursos da região; classificar os re- cursos extraídos e selecionar o modo de conversão com base na classificação dos recursos extraídos. A etapa de extração inclui adicionalmente determinar um vetor de recurso dos recursos extraídos, em que o vetor de recurso é empregado na etapa de classificação para classificar a região identificada. Os recursos extraídos podem incluir recursos de textura e de direção de borda.

Em um aspecto adicional da presente divulgação, o modo de conversão é um modo de conversão de objeto impreciso ou um modo de conversão de objeto sólido. Em um aspecto ainda adicional da presente divulgação, a etapa de classificação in-

clui adicionalmente adquirir uma pluralidade de imagens em 2D; selecionar uma região em cada uma da pluralidade de imagens 2D; anotar a região selecionada com um modo de conversão ideal com base em um tipo de região selecionada; e otimizar a etapa de classifi- cação com base nas imagens 2D anotadas, em que o tipo da região selecionada correspon- de a um objeto impreciso ou objeto sólido.

De acordo com um outro aspecto da presente divulgação, é fornecido um sistema para conversão tridimensional (3D) de objetos a partir de imagens bidimensionais (2D).

O sistema inclui um dispositivo de pós-processamento configurado para criar uma imagem complementar a partir de pelo menos uma imagem 2D; o dispositivo de pós- processamento incluindo um detector de região configurado para detectar pelo menos uma região em pelo menos uma imagem 2D; um classificador de região configurado para classi- ficar uma região detectada para determinar um identificador de pelo menos um conversor; o pelo menos um conversor configurado para converter uma região detectada em um modelo 3D; e um módulo de reconstrução configurado para criar uma imagem complementar pela projeção do modelo 3D selecionado sobre um plano de imagem diferente de um plano de imagem da pelo menos uma imagem 2D. O pelo menos um conversor pode incluir um con- versor de objeto impreciso ou um conversor de objeto sólido.

Em um outro aspecto, o sistema inclui adicionalmente um extrator de recurso confi- gurado para extrair recursos da região detectada. Os recursos extraídos podem incluir re- cursos de textura e de direção de borda.

De acordo com um ainda outro aspecto adicional, o sistema inclui adicionalmente um aprendiz de classificador configurado para adquirir uma pluralidade de imagens 2D, se- lecionar pelo menos uma região em cada uma da pluralidade de imagens 2D e anotar a pelo menos uma região selecionada com o identificador de um conversor ideal com base em um tipo da região selecionada da pelo menos uma região, em que o classificador de região é otimizado com base nas imagens 2D anotadas. Em um aspecto adicional da presente divulgação, é fornecido um dispositivo de ar-

mazenamento de programa legível por uma máquina, que incorpora tangivelmente um pro- grama de instruções executáveis pela máquina para realizar etapas do método para criar imagens estereoscópicas a partir de uma imagem bidimensional (2D), o método incluindo adquirir uma imagem bidimensional; identificar uma região da imagem bidimensional; classi- ficar a região identificada; selecionar um modo de conversão com base na classificação da região identificada; converter a região em um modelo tridimensional com base no modo de conversão selecionado; e criar uma imagem complementar pela projeção do modelo tridi- mensional sobre um plano de imagem diferente de um plano de imagem da imagem bidi- mensional.

Descrição Resumida dos Desenhos

Estes, e ainda outros aspectos, recursos e vantagens da presente divulgação serão descritos ou ficarão aparentes a partir da descrição detalhada exposta das presentes moda- lidades, que deve ser lida em conjunto com os desenhos anexos.

Nos desenhos, em que números de referência iguais denotam elementos similares por todas as vistas:

a figura 1 ilustra uma técnica da tecnologia anterior para criar uma imagem do olho direito ou complementar a partir de uma imagem de entrada;

a figura 2 é um fluxograma que ilustra um sistema e método para classificação de região de imagens bidimensionais (2D) para conversão de 2D para 3D das imagens de a - cordo com um aspecto da presente divulgação;

a figura 3 é uma ilustração exemplar de um sistema para conversão bidimensional (2D) para tridimensional (3D) das imagens para criar imagens estereoscópicas de acordo com um aspecto da presente divulgação; e

a figura 4 é um fluxograma de um método exemplar para converter imagens bidi- mensionais (2D) em imagens tridimensional (3D) para criar imagens estereoscópicas de acordo com um aspecto da presente divulgação. Entende-se que o(s) desenho(s) é(são) dado(s) com o propósito de ilustrar os con-

ceitos da divulgação, e não são, necessariamente, a única possível configuração para ilus- tração da divulgação.

Descrição Detalhada das Modalidades Preferidas

Entende-se que os elementos mostrados nas figuras podem ser implementados em várias formas de hardware, software ou combinações destes. Preferivelmente, estes ele- mentos são implementados em uma combinação de hardware e software em um ou mais dispositivos de uso geral apropriadamente programados, que podem incluir um processador, memória e interfaces de entrada / saída.

A presente descrição ilustra os princípios da presente divulgação. Assim, percebe- se que versados na técnica podem conceber vários arranjos que, embora não explicitamen- te aqui descritos ou mostrados, incorporam os princípios da divulgação e estão incluídos nos seus espírito e escopo.

Pretende-se que todos os exemplos e linguagem condicional aqui citados sejam com propósitos pedagógicos para auxiliar o leitor no entendimento dos princípios da divul- gação e dos conceitos contribuídos pelo inventor no avanço da tecnologia, e devem ser construídos sem limitação a tais exemplos e condições especificamente citados.

Além do mais, pretende-se que todas as declarações que aqui citam princípios, as- pectos e modalidades da divulgação, bem como seus exemplos específicos, abranjam seus equivalentes tanto estrutural quanto funcional. Adicionalmente, pretende-se que tais equiva- lentes incluam tanto equivalentes atualmente conhecidos quanto equivalentes desenvolvidos no futuro, isto é, todos os elementos desenvolvidos que realizam a mesma função, indepen- dente da estrutura. Assim, por exemplo, versados na técnica percebem que os diagramas de blocos aqui apresentados representam visualizações conceituais do sistema de circuitos ilustrativos que incorporam os princípios da divulgação. Similarmente, percebe-se que todos os fluxo- gramas, diagramas de fluxo, diagramas de transição de estado, pseudocódigo e congêneres representam vários processos que podem ser substancialmente representados em mídia legível por computador e, assim, executados por um computador ou processador, seja ou não tal computador ou processador explicitamente mostrado.

As funções dos vários elementos mostrados nas figuras podem ser fornecidas atra- vés do uso de hardware dedicado, bem como de hardware que pode executar software em conjunto com software apropriado. Quando fornecidas por um processador, as funções po- dem ser fornecidas por um único processador dedicado, por um único processador compar- tilhado, ou por uma pluralidade de processadores individuais, alguns dos quais podem ser compartilhados. Além do mais, o uso explícito do termo "processador" ou "controlador" não deve ser interpretado para dizer respeito exclusivamente a hardware que pode executar software, e pode incluir implicitamente, sem limitações, hardware processador de sinal digi- tal ("DSP"), memória exclusiva de leitura ("ROM") para armazenar software, memória de acesso aleatório ("RAM") e armazenamento não volátil.

Outro hardware, convencional e/ou customizado, também pode ser incluído. Simi- larmente, todos os comutadores mostrados nas figuras são somente conceituais. Suas fun- ções podem ser realizadas por meio da operação de lógica de programa, por meio de lógica dedicada, por meio da interação de controle de programa e lógica dedicada, ou mesmo ma- nualmente, a técnica em particular sendo selecionável pelo implementador, da forma mais especificamente entendida a partir do contexto.

Nas reivindicações deste, pretende-se que todos os elementos expressados como um dispositivo para realizar uma função específica abranjam todas as maneiras de realizar aquela função, incluindo, por exemplo, a) uma combinação de elementos de circuito que realizam aquela função ou b) software em qualquer forma, incluindo, portanto, software em- barcado, microcódigo ou congêneres, combinados com sistema de circuitos apropriado para executar aquele software, para realizar a função. A divulgação definida por tais reivindica- ções reside no fato de que as funcionalidades fornecidas pelos vários dispositivos citados são combinadas e colocadas juntas da maneira que as reivindicações exigem. Assim, con- sidera-se que todos os dispositivos que podem fornecer estas funcionalidades são equiva- lentes àquelas aqui mostradas.

A presente divulgação lida com o problema de criar geometria em 3D a partir de imagens em 2D. O problema surge em várias aplicações de produção de filme, incluindo efeitos visuais (VXF), conversão de filme em 2D para filme em 3D, entre outros. Sistemas anteriores para conversão de 2D para 3D são realizados pela criação de uma imagem com- plementar (também conhecida como uma imagem do olho direito) pelo deslocamento de regiões selecionadas na imagem de entrada, portanto, criando disparidade estéreo para reprodução em 3D. O processo é muito ineficiente, e é difícil converter regiões de imagens em superfícies em 3D, se as superfícies forem curvas em vez de chatas.

Há diferentes abordagens de conversão de 2D para 3D que funcionam melhor ou

pior com base no conteúdo dos objetos representados em uma região da imagem em 2D. Por exemplo, sistemas de partícula em 3D funcionam melhor para objetos imprecisos, en- quanto que adaptação de modelo de geometria em 3D faz um melhor trabalho para objetos sólidos. Estas duas abordagens realmente complementam uma à outra, já que, no geral, é difícil estimar geometria precisa para objetos imprecisos, e vice-versa. Entretanto, a maior parte das imagens em 2D de filmes contém objetos imprecisos, tais como árvores, e objetos sólidos, tais como construções, que são mais bem representados por sistemas de partícula e modelos de geometria em 3D, respectivamente. Então, considerando que há diversos mo- dos de conversão de 2D para 3D disponíveis, o problema é selecionar a melhor abordagem de acordo com o conteúdo da região. Portanto, para conversão de 2D para 3D geral, a pre- sente divulgação fornece técnicas para combinar estas duas abordagens, entre outras, para alcançar os melhores resultados. A presente divulgação fornece um sistema e método para conversão de 2D para 3D geral que comuta automaticamente entre diversas abordagens de conversão disponíveis de acordo com o conteúdo local das imagens. Portanto, a conversão de 2D para 3D é completamente automatizada.

São fornecidos um sistema e método para classificação de região de imagens bidi- mensionais (2D) para conversão de imagens de 2D para 3D, para criar imagens estereos- cópicas. Os sistema e método da presente divulgação fornecem uma técnica com base em 3D para conversão de 2D para 3D de imagens, para criar imagens estereoscópicas. Então, as imagens estereoscópicas podem ser empregadas em processos adicionais para criar filmes estereoscópicos 3D. Em relação à figura 2, o sistema e método da presente divulga- ção utilizam uma pluralidade de métodos ou modos de conversão (por exemplo, converso- res) 18 e selecionam a melhor abordagem com base no conteúdo das imagens 14. O pro- cesso de conversão é conduzido com base em região por região, em que as regiões 16 nas imagens 14 são classificadas para determinar o melhor conversor ou modo de conversão 18 disponível. O sistema e método da presente divulgação usam um sistema com base em re- conhecimento de padrão que inclui dois componentes: um componente de classificação 20 e um componente de aprendizado 22. As entradas no componente de classificação 20, ou classificador de região, são recursos extraídos de uma região 16 de uma imagem 2D 14, e a saída do componente de classificação 20 é um identificador (isto é, um número inteiro) dos modos de conversão de 2D para 3D ou de conversores 18 que espera-se que forneçam os melhores resultados. O componente de aprendizado 22, ou aprendiz de classificador, otimi- za os parâmetros de classificação do classificador de região 20 para alcançar mínimo erro de classificação da região usando um conjunto de imagens de treinamento 24 e correspon- dentes anotações de usuário. Para as imagens de treinamento 24, o usuário anota o identifi- cador do melhor modo de conversão ou conversor 18 para cada região 16. Então, o compo- nente de aprendizado otimiza a classificação (isto é, aprende) pelo uso do índice do conver- sor e dos recursos visuais da região. Depois que cada região de uma imagem for convertida, uma segunda imagem (por exemplo, a imagem do olho direito ou a imagem complementar) é criada pela projeção da cena 3D 26, que inclui as regiões ou objetos 3D convertidos, sobre um outro plano de imageamento com um diferente ângulo de visualização da câmera. Agora, em relação à figura 3, componentes do sistema exemplar de acordo com

uma modalidade da presente divulgação são mostrados. Um dispositivo de digitalização 103 pode ser fornecido para digitalizar impressões de filme 104, por exemplo, negativos de filme originais da câmera, em um formato digital, por exemplo, um formato Cineon ou arquivos SMPTE DPX. O dispositivo de digitalização 103 pode compreender, por exemplo, um teleci- ne ou qualquer dispositivo que gerará uma saída de vídeo do filme, tal como, por exemplo, um Arri LocPro™ com saída de vídeo. Alternativamente, arquivos provenientes do processo de pós-produção ou cinema digital 106 (por exemplo, arquivos já em forma legível por com- putador) podem ser diretamente usados. Fontes em potencial dos arquivos legíveis por computador são editores AVID™, arquivos DPX, fitas D5, etc. Impressões de filme digitalizadas são inseridas em um dispositivo de pós-

processamento 102, por exemplo, um computador. O computador é implementado em qual- quer uma de várias plataformas de computador conhecidas com hardware, tais como uma ou mais unidades centrais de processamento (CPU), memória 110, tais como memória de acesso aleatório (RAM) e/ou memória exclusiva de leitura (ROM) e interface(s) de usuário de entrada / saída (l/O) 112, tais como um teclado, dispositivo de controle de cursor (por exemplo, um mouse ou manete) e dispositivo de exibição. A plataforma de computador tam- bém inclui um sistema operacional e código de microinstrução. Os vários processos e fun- ções aqui descritos podem tanto ser parte do código de microinstrução quanto parte de um programa de aplicação de software (ou uma combinação destes), que é executado por meio do sistema operacional. Além do mais, vários outros dispositivos periféricos podem ser co- nectados na plataforma de computador por várias interfaces e estruturas de barramento, tais como uma porta paralela, porta serial ou barramento serial universal (USB). Outros disposi- tivos periféricos podem incluir dispositivo de armazenamento adicional 124 e uma impresso- ra 128. A impressora 128 pode ser empregada para impressão de uma versão revisada do filme 126, por exemplo, uma versão estereoscópica do filme, em que uma cena ou uma plu- ralidade de cenas pode ter sido alterada ou substituída usando objetos modelados em 3D, em decorrência das técnicas descritas a seguir. θ Alternativamente, arquivos / impressões de filme já na forma legível por computador 106 (por exemplo, cinema digital, que, por exemplo, pode ser armazenado no disco rígido externo 124) podem ser diretamente inseridos no computador 102. Note que o termo "filme", da forma aqui usada, pode dizer respeito tanto a impressões de filme quanto a cinema digi- tal.

Um programa de software inclui um módulo de reconstrução tridimensional (3D) 114 armazenado na memória 110 para converter imagens bidimensionais (2D) em imagens tridimensionais (3D) para a criação de imagens estereoscópicas. O módulo de conversão 3D 114 inclui uma região ou detector de objeto 116 para identificar objetos ou regiões nas ima- gens em 2D. A região ou detector de objeto 116 identifica objetos tanto manualmente, pelo esboço das regiões de imagem que contêm objetos por software de edição de imagem, quanto pelo isolamento das regiões de imagem que contêm objetos com algoritmos de de- tecção automática, por exemplo, algoritmos de segmentação. Um extrator de recurso 119 é fornecido para extrair recursos das regiões das imagens 2D. Extratores de recurso são co- nhecidos na tecnologia e extraem recursos incluindo, mas sem limitações, textura, direção de linha, bordas, etc.

O módulo de reconstrução 3D 114 também inclui um classificador de região 117 configurado para classificar as regiões da imagem 2D e determinar o melhor conversor dis- ponível para uma região em particular de uma imagem. O classificador de região 117 trans- mitirá um identificador, por exemplo, um número inteiro, para identificar o modo de conver- são ou conversor a ser usado para a região detectada. Além do mais, o módulo de recons- trução 3D 114 inclui um módulo de conversão 3D 118, para converter a região detectada em um modelo 3D. O módulo de conversão 3D 118 inclui uma pluralidade de conversores 118-1 ... 118-n, em que cada conversor é configurado para converter um tipo diferente de região. Por exemplo, objetos sólidos ou regiões que contêm objetos sólidos serão convertidos pelo casador de objeto 118-1, enquanto regiões ou objetos imprecisos serão convertidos pelo gerador de sistema de partícula 118-2. Um conversor exemplar para objetos sólidos é divul- gado no pedido de patente PCTde propriedade comum PCT/US2006/044834, depositado em 17 de novembro de 2006, intitulado "SYSTEM AND METHOD FOR MODEL FITTING AND REGISTRATION OF OBJECTS FOR 2D-TO-3D-CONVERSION" (doravante "o pedido '834"), e um conversor exemplar para objetos imprecisos é divulgado no pedido de patente PCT de propriedade comum PCT/US2006/042586, depositado em 27 de outubro de 2006, intitulado "SYSTEM AND METHOD FOR RECOVERING THREE-DIMENSIONAL PARTICLE SYSTEMS FROM TWO-DIMENSIONAL IMAGES" (doravante, "o pedido '586"), cujos conte- údos são por meio deste incorporados pela referência em suas íntegras.

Percebe-se que o sistema inclui uma biblioteca de modelos 3D que será emprega- da pelos vários conversores 118-1 ... 118-n. Os conversores 118 interagirão com várias bi- bliotecas de modelos 3D 122 selecionadas para o conversor ou modo de conversão em par- ticular. Por exemplo, para o casador de objeto 118-1, a biblioteca de modelos 3D 122 inclui- rá uma pluralidade de modelos de objeto 3D, em que cada modelo de objeto diz respeito a um objeto pré-definido. Para o gerador de sistema de partícula 118-2, a biblioteca 122 inclui- rá uma biblioteca do sistema de partícula pré-definida.

Um renderizador de objeto 120 é fornecido para renderizar os modelos 3D em uma cena 3D para criar uma imagem complementar. Isto é realizado por um processo de rasteri- zação ou por técnicas mais avançadas, tais como rastreamento de raios ou mapeamento de fóton.

A figura 4 é um fluxograma de um método exemplar para converter imagens bidi-

mensionais (2D) em imagens tridimensionais (3D), para criar imagens estereoscópicas de acordo com um aspecto da presente divulgação. Inicialmente, na etapa 202, o dispositivo de pós-processamento 102 adquire pelo menos uma imagem bidimensional (2D), por exemplo, uma imagem de referência ou do olho esquerdo. O dispositivo de pós-processamento 102 adquire pelo menos uma imagem 2D pela obtenção do arquivo de vídeo mestre digital em um formato legível por computador, da forma supradescrita. O arquivo de vídeo digital pode ser adquirido pela captura de uma seqüência temporal de imagens de vídeo com uma câme- ra de vídeo digital. Alternativamente, a seqüência de vídeo pode ser capturada por uma câ- mera tipo filme convencional. Neste cenário, o filme é digitalizado por meio do dispositivo digitalizador 103. A câmera adquirirá imagens 2D durante o movimento tanto do objeto em uma cena quanto da câmera. A câmera adquirirá múltiplos pontos de visualização da cena.

Percebe-se que, se o filme for digitalizado ou já estiver em formato digital, o arquivo digital do filme incluirá indicações ou informação nos locais dos quadros, por exemplo, um número de quadros, tempo a partir do início do filme, etc. Cada quadro do arquivo de vídeo digital incluirá uma imagem, por exemplo, I1,12.....In-

Na etapa 204, uma região na imagem 2D é identificada ou detectada. Percebe-se que uma região pode conter diversos objetos ou pode ser parte de um objeto. Usando o de- tectar de região 116, um objeto ou região pode ser manualmente selecionado e esboçado por um usuário usando ferramentas de edição de imagem ou, alternativamente, o objeto ou região pode ser automaticamente detectado e esboçado usando algoritmos de detecção de imagens, por exemplo, algoritmos de detecção de objeto ou de segmentação de região. Percebe-se que uma pluralidade de objetos ou de regiões pode ser identificada na imagem 2D.

Uma vez que a região é identificada ou detectada, na etapa 206, recursos são ex- traídos da região detectada por meio de um extrator de recurso 119, e os recursos extraídos são classificados, na etapa 208, pelo classificador de região 117 para determinar um identi- ficador de pelo menos um da pluralidade de conversores 118 ou modos de conversão. O classificador de região 117 é basicamente uma função que transmite o identificador do me- lhor conversor esperado de acordo com os recursos extraídos das regiões. Em várias moda- lidades, diferentes recursos podem ser escolhidos. Com um propósito de classificação em particular (isto é, selecionar conversor de objeto sólido 118-1 ou conversor de sistema de partícula 118-2), recursos de textura podem ter melhor desempenho que outros recursos, tal como cor, já que, usualmente, sistemas de partícula têm texturas mais ricas que os objetos sólidos. Além do mais, muitos objetos sólidos, tais como construções, têm linhas vertical e horizontal proeminentes, portanto, a direção da borda pode ser o recurso mais relevante. A seguir, há um exemplo de como o recurso de textura e o recurso de borda podem ser usa- dos como entradas no classificador de região 117.

Recursos de textura podem ser computados de muitas maneiras. O recurso de on- deleta Gabor é um dos recursos de textura mais amplamente usados no processamento de imagem. Primeiro, o processo de extração aplica um conjunto de núcleos Gabor com dife- rentes freqüências espaciais na imagem e, então, computa a intensidade de pixel total da imagem filtrada. O núcleo Gabor funciona como segue:

2πσ\

1 2 x + y

j

exp(j27zF(x cos Θ + y sen 0)) (1)

em que Fé a freqüência espacial e θ é a direção do filtro Gabor. Considerando, com propó- sitos de ilustração, 3 níveis de freqüências espaciais e 4 direções (por exemplo, somente ângulos de cobertura de O - rr, em função da simetria), então, o número de recursos do filtro Gabor é 12.

Recursos de borda podem ser extraídos, primeiro, pela aplicação de algoritmos de

detecção de linha horizontal e vertical na imagem 2D e, então, pela contagem dos pixels da borda. A detecção da linha pode ser realizada pela aplicação dos filtros de borda direcionais e, então, pela conexão dos pequenos segmentos de borda nas linhas. Detecção de borda Canny pode ser usada com este propósito e é conhecida na tecnologia. Se somente linhas horizontais e linhas verticais (por exemplo, para o caso de construções) deverem ser detec- tadas, então, um vetor de recurso bidimensional, uma dimensão para cada direção, é obtido. O caso bidimensional descrito é somente com propósitos de ilustração, e pode ser facilmen- te ampliado para mais dimensões.

Se recursos de textura tiverem N dimensões, e recursos direcionais de borda tive- rem M dimensões, então, todos estes recursos podem ser colocados juntos em um grande vetor de recursos com (Ν + M) dimensões. Para cada região, o vetor de recurso extraído é inserido no classificador de região 117. A saída do classificador é o identificador do conver- sor de 2D para 3D 118 recomendado. Percebe-se que o vetor de recurso pode ser diferente, dependendo dos diferentes extratores de recurso. Além do mais, a entrada no classificador de região 117 pode ser recursos diferentes daqueles supradescritos e pode ser qualquer recurso que seja relevante para o conteúdo na região.

Para o aprendizado do classificador de região 117, são coletados dados de treina- mento que comem imagens com diferentes tipos de regiões. Então, cada região nas ima- gens é esboçada e manualmente anotada com o identificador do conversor ou do modo de . conversão que espera-se que tenha o melhor desempenho, com base no tipo da região (por exemplo, correspondente a um objeto impreciso, tal como uma árvore, ou a um objeto sóli- do, tal como uma construção). Uma região pode conter diversos objetos, e todos os objetos na região usam o mesmo conversor. Portanto, para selecionar um bom conversor, o conteú- do na região deve ter propriedades homogêneas, de forma que um conversor correto possa ser selecionado. O processo de aprendizagem toma os dados de treinamento anotados e constrói o melhor classificador de região para minimizar a diferença entre a saída do classi- ficador e o identificador anotado para as imagens no conjunto de treinamento. O classifica- dor de região 117 é controlado por um conjunto de parâmetros. Para a mesma entrada, mu- dar os parâmetros do classificador de região 117 dá diferente saída de classificação, isto é, diferente identificador do conversor. O processo de aprendizagem muda de forma automáti- ca e contínua os parâmetros do classificador para algum ponto em que o classificador transmite os melhores resultados de classificação para os dados de treinamento. Então, os parâmetros são tomados como os parâmetros ideais para futuros usos. Matematicamente, se Erro Médio Quadrático for usado, a função de custo a ser minimizada pode ser escrita como segue:

Cust(M) = YXli-/^R1)) (2)

ι

em que Ri é a região i nas imagens de treinamento, /, é o identificador do melhor conversor atribuído à região durante o processo de anotação, e /φ{) é o classificador cujo parâmetro é representado por φ. O processo de aprendizado maximiza o custo total exposto em relação ao parâmetro φ.

Tipos diferentes de classificadores podem ser escolhidos para classificação de re- gião. Um classificador popular no campo de reconhecimento de padrão é a Máquina de Ve- tor de Suporte (SVM). SVM é um esquema de otimização não linear que minimiza o erro de classificação na configuração de treinamento, mas também pode ser capaz de alcançar um pequeno prognóstico de erro para o ajuste de teste.

Então, o identificador do conversor é usado para selecionar o conversor apropriado 118-1 ... 118-n no módulo de conversão 3D 118. Então, o conversor selecionado converte a região detectada em um modelo 3D (etapa 210). Tais conversores são conhecidos na tecno- logia.

Da forma previamente discutida, um conversor ou modo de conversão exemplar pa- ra objetos sólidos são divulgados no pedido '834 de propriedade comum. Este pedido divul- ga um sistema e método para ajuste de modelo e registro dos objetos para conversão de 2D para 3D das imagens, para criar imagens estereoscópicas. O sistema inclui uma base de dados que armazena uma variedade de modelos 3D de objetos do mundo real. Para uma primeira imagem de entrada 2D (por exemplo, a imagem do olho esquerdo ou imagem de referência), regiões a ser convertidas para 3D são identificadas ou esboçadas por um ope- rador do sistema ou algoritmo de detecção automática. Para cada região, o sistema selecio- na um modelo 3D armazenado na base de dados e registra o modelo 3D armazenado, de forma que a projeção do modelo 3D case com o conteúdo de imagem na região identificada de uma maneira ideal. O processo de casamento pode ser implementado usando aborda- gens geométricas ou abordagens fotométricas. Depois que uma posição e pose 3D do obje- to 3D for computada para a primeira imagem 2D por meio do processo de registro, uma se- gunda imagem (por exemplo, a imagem do olho direito ou imagem complementar) é criada pela projeção da cena 3D, que inclui os objetos 3D registrados com textura deformada, so- bre um outro plano de imageamento com um diferente ângulo de visualização da câmera.

Também, da forma supradiscutida, um conversor ou modo de conversão exempla- res para objetos imprecisos são divulgados no pedido '586 de propriedade comum. Este pedido divulga um sistema e método para recuperar sistemas de partícula tridimensional (3D) das imagens bidimensionais (2D). O sistema e método de reconstrução de geometria recuperam sistemas de partícula 3D que representam a geometria dos objetos imprecisos das imagens 2D. O sistema e método de reconstrução de geometria identificam objetos im- precisos nas imagens 2D, que, portanto, podem ser geradas por um sistema de partícula. A identificação dos objetos imprecisos é feita tanto manualmente, pelo esboço das regiões que contêm os objetos imprecisos com ferramentas de edição de imagem, quanto por algoritmos de detecção automática. Então, estes objetos imprecisos são adicionalmente analisados para desenvolver critérios para casá-los com uma biblioteca de sistemas de partícula. O melhor casamento é determinado pela análise das propriedades de luz e das propriedades de superfície do segmento de imagem tanto no quadro quanto temporalmente, isto é, em uma série seqüencial de imagens. O sistema e método simulam e renderizam um sistema de partícula selecionado da biblioteca e, então, comparam o resultado de renderização com o objeto impreciso na imagem. Então, o sistema e método determinam se o sistema de par- tícula é um bom casamento ou não, de acordo com certos critérios de casamento.

Uma vez que todos os objetos ou regiões detectados identificados na cena foram convertidos em espaço 3D, a imagem complementar (por exemplo, imagem do olho direito) é criada pela renderização da cena 3D, incluindo objetos 3D convertidos e uma placa de fundo, em um outro plano de imageamento, na etapa 212, diferente do plano de imagea- mento da imagem 2D de entrada, que é determinada por uma câmera direita virtual. A ren- derização pode ser realizada por um processo de rasterização, como no canal de placa de vídeo padrão, ou por técnicas mais avançadas, tal como rastreamento de raios, usadas no fluxo de trabalho pós-produção profissional. A posição do novo plano de imageamento é determinada pela posição e ângulo de visualização da câmera direita virtual. O ajuste da posição e do ângulo de visualização da câmera direita virtual (por exemplo, a câmera simu- lada no computador ou dispositivo de pós-processamento) deve resultar em um plano de imageamento que é paralelo ao plano de imageamento da câmera esquerda que produz a imagem de entrada. Em uma modalidade, isto pode ser alcançado pelo ajuste da posição e do ângulo de visualização da câmera virtual e pela aquisição de realimentação pela visuali- zação da reprodução 3D resultante em um dispositivo de exibição. A posição e o ângulo de visualização da câmera direita são ajustados de forma que a imagem estereoscópica criada possa ser visualizada da maneira mais confortável pelos espectadores.

Então, a cena projetada é armazenada como uma imagem complementar, por e- xemplo, a imagem do olho direito, na imagem de entrada, por exemplo, a imagem do olho esquerdo (etapa 214). A imagem complementar será associada à imagem de entrada de qualquer maneira convencional, para que elas possam ser recuperadas juntas em um ponto posterior no tempo. A imagem complementar pode ser salva com a imagem de entrada ou de referência em um arquivo digital 130 criando um filme estereoscópico. O arquivo digital 130 pode ser armazenado no dispositivo de armazenamento 124 para recuperação posteri- or, por exemplo, para imprimir uma versão estereoscópica do filme original.

Embora a modalidade que incorpora os preceitos da presente divulgação tenham sido aqui mostrada e descrita com detalhes, versados na técnica podem conceber pronta- mente muitas ouras modalidades variadas que ainda incorporam estes preceitos. Tendo sido descritas modalidades para um sistema e método para a classificação de região de imagens 2D para conversão de 2D para 3D (que pretende-se que sejam ilustrativas e não limitantes), nota-se que modificações e variações podem ser feitas por versados na técnica à luz dos preceitos expostos. Portanto, entende-se que podem ser feitas mudanças nas mo- dalidades em particular da divulgação exposta que estão no escopo e no espírito da divul- gação delineados nas reivindicações anexas. Assim, tendo sido descrita a divulgação com os detalhes, e particularmente exigida pelas leis de patente, o que é reivindicado e desejado que proteja-se pelas Leis de Patente é apresentado nas reivindicações anexas.

Claims

1. Método de conversão tridimensional para criar imagens estereoscópicas, CARACTERIZADO pelo fato de que compreende: adquirir uma imagem bidimensional (202); identificar uma região na imagem bidimensional (204); classificar a região identificada (208); selecionar um modo de conversão com base na classificação da região identificada; converter a região em um modelo tridimensional (210) com base no modo de con- versão selecionado; e criar-ama imagem complementar pela projeção (212) do modelo tridimensional (210) sobre um plano de imagem diferente de um plano de imagem da imagem bidimensio- nal adquirida (202).

2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que compreende adicionalmente: extrair recursos da região (206); classificar os recursos extraídos; e selecionar o modo de conversão com base na classificação dos recursos extraídos (208).

3. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que a etapa de extração compreende adicionalmente determinar um vetor de recurso dos recursos extraídos.

4. Método, de acordo com a reivindicação 3, CARACTERIZADO pelo fato de que o vetor de recurso é empregado na etapa de classificação para classificar a região identifica- da.

5. Método, de acordo com a reivindicação 2, CARACTERIZADO pelo fato de que os recursos extraídos são textura e direção de borda.

6. Método, de acordo com a reivindicação 5, CARACTERIZADO pelo fato de que compreende adicionalmente: determinar um vetor de recurso dos recursos de textura e dos recursos de direção de borda; e classificar o vetor de recurso para selecionar o modo de conversão.

7. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que o modo de conversão é um modo de conversão de objeto impreciso ou um modo de conver- são de objeto sólido.

8. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a etapa de classificação compreende adicionalmente: adquirir uma pluralidade de imagens bidimensionais; selecionar uma região em cada uma da pluralidade de imagens bidimensionais; anotar a região selecionada com um modo de conversão ideal com base em um ti- po da região selecionada; e otimizar a etapa de classificação com base nas imagens bidimensionais anotadas.

9. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que o tipo de região selecionada corresponde a um objeto impreciso.

10. Método, de acordo com a reivindicação 8, CARACTERIZADO pelo fato de que o tipo de região selecionada corresponde a um objeto sólido.

11. Sistema (100) para conversão tridimensional de objetos de imagens bidimensi- onais, CARACTERIZADO pelo fato de que o sistema compreende: um dispositivo de pós-processamento (102) configurado para criar uma imagem complementar a partir de uma imagem bidimensional; o dispositivo de pós-processamento incluindo: um detector de região (116) configurado para detectar uma região em pelo me- nos uma imagem bidimensional; um classificador de região (117) configurado para classificar uma região detec- tada para determinar um identificador de pelo menos um conversor; o pelo menos um conversor (118) configurado para converter uma região detec- tada em um modelo tridimensional; e um módulo de reconstrução (114) configurado para criar uma imagem comple- mentar pela projeção do modelo tridimensional selecionado sobre um plano de imagem dife- rente de um plano de imagem da uma imagem bidimensional.

12. Sistema (100), de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que compreende adicionalmente um extrator de recurso (119) configurado para extrair recursos da região detectada.

13. Sistema (100), de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que o extrator de recurso (119) é adicionalmente configurado para determinar um vetor de recurso para inserir no classificador de região (117).

14. Sistema (100), de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que os recursos extraídos são textura e direção da borda.

15. Sistema (100), de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que o detector de região (116) é uma função de segmentação.

16. Sistema (100), de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que o pelo menos um conversor (118) é um conversor de objeto impreciso (118-2) ou um conversor de objeto sólido (118-1).

17. Sistema (100), de acordo com a reivindicação 11, CARACTERIZADO pelo fato de que compreende adicionalmente um aprendiz de classificador (22) configurado para ad- quirir uma pluralidade de imagens bidimensionais (14), selecionar pelo menos uma região (16) em cada uma da pluralidade de imagens bidimensionais e anotar a pelo menos uma região selecionada com o identificador de um conversor ideal com base em um tipo da pelo menos uma região selecionada, em que o classificador de região (117) é otimizado com ba- se nas imagens bidimensionais anotadas.

18. Sistema (100), de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que o tipo da pelo menos uma região selecionada corresponde a um objeto impreciso.

19. Sistema (100), de acordo com a reivindicação 17, CARACTERIZADO pelo fato de que o tipo da pelo menos uma região selecionada corresponde a um objeto sólido.

20. Dispositivo de armazenamento de programa legível por uma máquina, CARACTERIZADO por incorporar tangivelmente um programa de instruções executáveis pela máquina para realizar etapas do método para criar imagens estereoscópicas de uma imagem bidimensional, compreendendo: adquirir uma imagem bidimensional (202); identificar uma região da imagem bidimensional (204); classificar a região identificada (208); selecionar um modo de conversão com base na classificação da região identificada; converter a região em um modelo tridimensional (210) com base no modo de con- versão selecionado; e criar uma imagem complementar pela projeção (212) do modelo tridimensional (210) sobre um plano de imagem diferente de um plano de imagem da imagem bidimensio- nal (202).