BR112013029656B1

BR112013029656B1 - Dispositivo de captura de imagem em movimento, sistema e dispositivo de processamento de informação, método de processamento de dados de imagem, e,mídia de gravação legível por computador

Info

Publication number: BR112013029656B1
Application number: BR112013029656-9A
Authority: BR
Inventors: Akio Ohba
Original assignee: Sony Computer Entertainment, Inc
Priority date: 2011-05-19
Filing date: 2012-04-05
Publication date: 2022-05-03
Also published as: KR101451734B1; EP2712177A1; EP2712177B1; TWI496471B; KR20130140174A; US20140078265A1; RU2013156453A; WO2012157178A1; BR112013029656A2; MX2013013313A; CN103518368A; RU2570195C2; CN103518368B; JP2012244438A; US9247132B2; JP5629642B2; TW201251459A; EP2712177A4

Abstract

DISPOSITIVO DE CAPTURA DE IMAGEM EM MOVIMENTO, SISTEMA E DISPOSITIVO DE PROCESSAMENTO DE INFORMAÇÃO, MÉTODO DE PROCESSAMENTO DE DADOS DE IMAGEM, E, MÍDIA DE GRAVAÇÃO LEGÍVEL POR COMPUTADOR É descrita uma unidade de sintetização de imagem (156) de uma câmera que recebe os valores de pixel de uma linha de 1/4, 1/16 e 1/64 depois das imagens desmosaicadas provenientes de um filtro de pirâmide provido em um estágio prévio e usado para reduzir um quadro de uma imagem em movimento capturada em uma pluralidade de etapas. A unidade de sintetização de imagem (156), então, conecta os valores de pixel recebidos sob uma regra predeterminada para gerar uma imagem sintetizada virtual e transmite a imagem sintetizada virtual gerada como um fluxo contínuo. Uma unidade de controle (164) de uma unidade de transmissão de imagem (151) notifica uma unidade de seleção de dados (154) de uma solicitação proveniente de um terminal hospedeiro. A unidade de seleção de dados (154) seleciona e extrai dados necessários dos fluxos contínuos dos dados de uma imagem sintetizada, uma imagem RAW e uma imagem 1/1 depois de desmosaicada, que são respectivamente inseridos a partir da unidade de sintetização de imagem (156) e uma unidade de aquisição de imagem e uma unidade de desmosaicagem, ambas providas em um estágio (...).

Description

CAMPO DA INVENÇÃO

[001] A presente invenção refere-se a uma tecnologia para realizar processamento de informação de acordo com o movimento de um objeto. FUNDAMENTOS DA INVENÇÃO

[002] Na tecnologia relacionada, são conhecidos jogos nos quais a imagem de uma parte do corpo de um usuário, tal como uma cabeça, é capturada por uma câmera de vídeo, em que uma área predeterminada para um olho, uma boca, uma mão ou similares é, então, extraída, e em que a área é substituída por uma outra imagem para exibição em uma tela (por exemplo, Documento de Patente N° 1). Também é conhecida uma interface de usuário que recebe, como uma instrução para operar uma aplicação, o movimento de uma boca ou uma mão capturado por uma câmera de vídeo. [Documento de Patente N° 1] Pedido de Patente Europeu 0999518

DESCRIÇÃO DA INVENÇÃO PROBLEMA A SER RESOLVIDO PELA INVENÇÃO

[003] Em uma técnica, tal como aquela supradescrita, uma imagem em alta resolução é necessária para extrair uma área predeterminada para boca, mão ou similares de um usuário. Entretanto, à medida que o desempenho de um elemento de tratamento de imagem de uma câmera de vídeo aumenta, a quantidade de dados torna-se maior devido a uma melhoria na resolução ou similares. Assim, surge um problema em que custos de processamento de mineração de dados para filtragem, escalonamento, corte e similares para prover, em uma escala apropriada, informação necessária para compressão para transferência, processamento de expansão e reconhecimento, detecção, processamento de medição e similares aumentam e em que latência da entrada da câmera em relação a cada saída de processamento torna-se maior. O uso da câmera como uma interface de usuário cria um problema em que um aumento na latência reduz dramaticamente a usabilidade. Da forma descrita, mesmo quando o desempenho de um elemento de tratamento de imagem de uma câmera de vídeo aumentar, o desempenho de um sistema como um todo pode ser reduzido.

[004] Nestas circunstâncias, um propósito da presente invenção é prover uma tecnologia de processamento de imagem para suprimir a latência do tempo de captura de imagem em relação ao tempo de exibição de imagem usando os dados desta ao mesmo tempo em que se usa um elemento de tratamento de imagem de alto desempenho.

MEIO PARA RESOLVER O PROBLEMA

[005] Uma modalidade da presente invenção refere-se a um dispositivo de captura de imagem em movimento. O dispositivo de captura de imagem em movimento compreende: uma unidade de geração de dados de imagem configurada para gerar respectivas partes de dados de uma pluralidade de imagens com diferentes resoluções, cada qual em uma ordem de pixel predeterminada, pela redução, em múltiplos estágios, de cada quadro de uma imagem em movimento adquirida pela captura de imagem de um objeto e para transmitir sequencialmente as partes de dados na forma de fluxos contínuos; uma unidade de síntese de imagem configurada para gerar, pela conexão, para cada linha de pixels para uma única linha horizontal de uma imagem ou para cada linha de pixels em uma faixa menor, das respectivas partes de dados de uma pluralidade de imagens predeterminadas dentre as respectivas partes de dados da pluralidade de imagens transmitidas pela unidade de geração de dados de imagem e, então, pela transmissão das respectivas partes de dados da pluralidade de imagens predeterminadas na forma de fluxos contínuos, uma imagem sintetizada virtual que contém a pluralidade de imagens predeterminadas; e uma unidade de transmissão de imagem configurada para gerar um fluxo contínuo de dados a ser transmitido, mediante recepção de uma solicitação para transmitir os dados a partir de um terminal hospedeiro no qual a unidade de transmissão de imagem é conectada, pela extração de dados para pixels incluídos em uma imagem e uma área que são solicitados a partir de uma pluralidade de fluxos contínuos que são transmitidos a partir da unidade de geração de dados de imagem e da unidade de síntese de imagem e para transmitir o fluxo contínuo de dados ao terminal hospedeiro.

[006] Uma outra modalidade da presente invenção também refere-se a um dispositivo de captura de imagem em movimento. O dispositivo de captura de imagem em movimento compreende um par de câmeras para capturar uma imagem de um único objeto a partir de diferentes pontos de visualização direito e esquerdo, em que cada uma do par de câmeras inclui: uma unidade de geração de dados de imagem configurada para gerar respectivas partes de dados de uma pluralidade de imagens com diferentes resoluções, cada qual em uma ordem de pixel predeterminada, pela redução, em múltiplos estágios, de cada quadro de uma imagem em movimento adquirida pela captura de uma imagem do objeto e para transmitir sequencialmente as partes de dados na forma de fluxos contínuos; e uma unidade de síntese de imagem configurada para gerar, pela conexão, para cada linha de pixels para uma única linha horizontal de uma imagem ou para cada linha de pixels em uma faixa menor, das respectivas partes de dados de uma pluralidade de imagens predeterminadas dentre as respectivas partes de dados da pluralidade de imagens transmitidas pela unidade de geração de dados de imagem e, então, pela transmissão das respectivas partes de dados da pluralidade de imagens predeterminadas na forma de fluxos contínuos, uma imagem sintetizada virtual que contém a pluralidade de imagens predeterminadas, e em que o dispositivo de captura de imagem em movimento compreende adicionalmente: uma unidade de processamento de correspondência estéreo configurada para gerar uma imagem com profundidade que indica a posição do objeto em um espaço tridimensional em uma ordem de pixel predeterminada pela realização de correspondência estéreo nas respectivas partes de dados das imagens com uma resolução predeterminada dentre respectivas partes de dados das imagens de diferentes pontos de visualização que são geradas pelo par de câmeras e para transmitir sequencialmente a imagem com profundidade na forma de fluxos contínuos; e uma unidade de transmissão de imagem configurada para gerar um fluxo contínuo de dados a ser transmitido, mediante recepção de uma solicitação para transmitir dados a partir de um terminal hospedeiro no qual a unidade de transmissão de imagem é conectada, pela extração de dados de pixels incluídos em uma imagem e uma área que são solicitados a partir de uma pluralidade de fluxos contínuos que são transmitidos a partir da unidade de geração de dados de imagem, da unidade de síntese de imagem e da unidade de processamento de correspondência estéreo e para transmitir o fluxo contínuo de dados ao terminal hospedeiro.

[007] Uma ainda outra modalidade da presente invenção refere-se a um sistema de processamento de informação. O sistema de processamento de informação compreende: um dispositivo de captura de imagem em movimento para capturar uma imagem de um objeto e gerar dados de uma imagem em movimento; e um terminal hospedeiro para adquirir uma parte dos dados da imagem em movimento a partir do dispositivo de captura de imagem em movimento e exibir uma imagem depois da realização de um processo de imagem predeterminado usando a parte dos dados, em que o dispositivo de captura de imagem em movimento inclui: uma unidade de geração de dados de imagem configurada para gerar respectivas partes de dados de uma pluralidade de imagens com diferentes resoluções, cada qual em uma ordem de pixel predeterminada, pela redução, em múltiplos estágios, de cada quadro de uma imagem em movimento adquirida pela captura de imagem e para transmitir sequencialmente as partes de dados na forma de fluxos contínuos; uma unidade de síntese de imagem configurada para gerar, pela conexão, para cada linha de pixels para uma única linha horizontal de uma imagem ou para cada linha de pixels em uma faixa menor, das respectivas partes de dados de uma pluralidade de imagens predeterminadas dentre as respectivas partes de dados da pluralidade de imagens transmitidas pela unidade de geração de dados de imagem e, então, pela transmissão das respectivas partes de dados da pluralidade de imagens predeterminadas na forma de fluxos contínuos, uma imagem sintetizada virtual que contém a pluralidade de imagens predeterminadas; e uma unidade de transmissão de imagem configurada para gerar um fluxo contínuo de dados a ser transmitido pela extração de dados para pixels incluídos em uma imagem e uma área que são solicitados a partir de uma pluralidade de fluxos contínuos que são transmitidos a partir da unidade de geração de dados de imagem e da unidade de síntese de imagem e, então, para transmitir o fluxo contínuo de dados ao terminal hospedeiro.

[008] Uma ainda outra modalidade da presente invenção refere-se a um dispositivo de processamento de informação. O dispositivo de processamento de informação compreende: uma unidade de solicitação de dados configurada para solicitar que uma câmera que captura de uma imagem de um objeto transmita dados de imagem de um quadro de uma imagem em movimento pela especificação de uma resolução e uma área em uma imagem; uma unidade de implementação de dados configurada para implementar os dados de imagem, que são transmitidos a partir da câmera de acordo com uma solicitação, em um estado de um fluxo contínuo no qual valores de pixel da área especificada são conectados para cada linha de pixels, como dados de imagem bidimensional; e uma unidade de processamento de dados configurada para exibir uma imagem depois da realização de um processo de imagem predeterminado usando os dados de imagem bidimensional, em que a unidade de solicitação de dados especifica uma imagem sintetizada, que é gerada no interior da câmera, na qual uma pluralidade de imagens com diferentes resoluções obtidas pela redução do quadro da imagem em movimento em múltiplos estágios são arranjadas em respectivas áreas retangulares predeterminadas, e em que a unidade de implementação de dados realiza separação de imagem pela implementação da imagem sintetizada transmitida a partir da câmera em uma parte de dados de imagem bidimensional individual para cada uma das imagens submetidas à síntese.

[009] Uma ainda outra modalidade da presente invenção refere-se a um método de processamento de dados de imagem. O método de processamento de dados de imagem realizado por um dispositivo de captura de imagem em movimento compreende: gerar respectivas partes de dados de uma pluralidade de imagens com diferentes resoluções, cada qual em uma ordem de pixel predeterminada pela redução, em múltiplos estágios, de cada quadro de uma imagem em movimento adquirida pela captura de uma imagem de um objeto e sequencial transmissão das partes de dados na forma de fluxos contínuos; gerar, pela conexão, para cada linha de pixels para uma única linha horizontal de uma imagem ou para cada linha de pixels em uma faixa menor, das respectivas partes de dados de uma pluralidade de imagens predeterminadas dentre as respectivas partes de dados da pluralidade de imagens transmitidas na transmissão e, então, pela transmissão das respectivas partes de dados da pluralidade de imagens predeterminadas na forma de fluxos contínuos, uma imagem sintetizada virtual que contém a pluralidade de imagens predeterminadas; e gerar um fluxo contínuo de dados a ser transmitido, mediante recepção de uma solicitação para transmitir dados a partir de um terminal hospedeiro no qual a unidade de transmissão de imagem é conectada, pela extração de dados para pixels incluídos em uma imagem e uma área que são solicitados a partir de uma pluralidade de fluxos contínuos transmitidos na transmissão e na geração e transmissão do fluxo contínuo de dados ao terminal hospedeiro.

[0010] Combinações opcionais dos supramencionados elementos constituintes e implementações da invenção na forma de métodos, aparelhos, sistemas, programas de computador e mídia de gravação que grava programas de computador também podem ser praticadas como modos adicionais da presente invenção.

VANTAGEM DA INVENÇÃO

[0011] De acordo com a presente invenção, latência do tempo de captura de imagem em relação ao tempo de exibição de imagem usando os dados desta pode ser suprimida.

BREVE DESCRIÇÃO DOS DESENHOS

[0012] A Fig. 1 é um diagrama que ilustra a íntegra da configuração de um sistema de câmera de baixa latência de acordo com uma primeira modalidade; a Fig. 2 é um diagrama que ilustra a configuração de uma câmera de acordo com a primeira modalidade; a Fig. 3 é um diagrama que ilustra, com detalhes, a configuração de uma unidade de síntese de imagem e a configuração de uma unidade de transmissão de imagem da câmera na primeira modalidade; a Fig. 4 é um diagrama que ilustra a configuração de um circuito interno de um terminal hospedeiro na primeira modalidade; a Fig. 5 é um diagrama que ilustra esquematicamente uma transição básica da forma de dados na câmera e no terminal hospedeiro na primeira modalidade; a Fig. 6 é um gráfico de tempo que ilustra sincronismo de entrada dos respectivos valores de pixel de uma imagem desmosaicada em 1/4, uma imagem desmosaicada em 1/16 e uma imagem desmosaicada em 1/64 provenientes de uma unidade de filtro de pirâmide na primeira modalidade; a Fig. 7 ilustra esquematicamente um estado em que respectivas partes de dados para linhas de pixel de uma pluralidade de imagens são conectadas pela unidade de síntese de imagem na primeira modalidade; a Fig. 8 é um diagrama que ilustra a configuração relacionada a um processo de solicitação de dados do terminal hospedeiro e a um processo de transmissão de dados da câmera na primeira modalidade; a Fig. 9 é um diagrama que ilustra uma variação exemplar da configuração da unidade de transmissão de imagem na primeira modalidade; a Fig. 10 é um diagrama que ilustra a configuração de uma câmera de acordo com uma segunda modalidade; a Fig. 11 é um diagrama que ilustra a configuração de uma câmera de acordo com uma terceira modalidade; a Fig. 12 é um diagrama que ilustra um fluxograma que mostra um exemplo de um procedimento de processamento de um processo de imagem realizado por um terminal hospedeiro e uma câmera estéreo em cooperação um com o outro na terceira modalidade e que ilustra exemplos de imagem que são produzidos; a Fig. 13 é um diagrama que ilustra um fluxograma que mostra um outro exemplo do procedimento de processamento do processo de imagem realizado pelo terminal hospedeiro e pela câmera estéreo em cooperação um com o outro na terceira modalidade e que ilustra exemplos de imagem que são produzidos; e a Fig. 14 é um diagrama que ilustra um fluxograma que mostra um outro exemplo do procedimento de processamento do processo de imagem realizado pelo terminal hospedeiro e pela câmera estéreo em cooperação um com o outro na terceira modalidade e que ilustra exemplos de imagem que são produzidos.

MELHOR MODO PARA REALIZAR A INVENÇÃO Primeira Modalidade

[0013] A Fig. 1 ilustra a íntegra da configuração de um sistema de câmera de baixa latência 10 de acordo com a presente modalidade. Neste sistema, uma imagem em movimento de um usuário 6 é capturada por uma câmera 100 e um processo de imagem é realizado com base nos dados desta em um terminal hospedeiro 20. Então, um resultado deste é mostrado em uma tela 4 ou transmitido a um destino de comunicação predeterminado por meio de uma rede 12, tais como a Internet ou uma LAN (Rede de Área Local).

[0014] A câmera 100 é uma câmera de vídeo digital provida com um elemento de tratamento de imagem, tais como um CCD (Dispositivo de Carga Acoplada) ou um CMOS (Semicondutor de Óxido de Metal Complementar), e é provida no topo de um alojamento da tela 4 da forma mostrada na figura. A tela 4 é, por exemplo, uma televisão de cristal líquido, uma televisão de plasma, uma tela de PC ou similares. Normalmente, o usuário 6 fica em frente da tela 4, de maneira tal que uma imagem da íntegra ou de uma parte do corpo do usuário seja capturada pela câmera 100.

[0015] Uma imagem mostrada na tela 4 varia, dependendo de uma aplicação executada no sistema de câmera de baixa latência 10. Por exemplo, quando o sistema de câmera de baixa latência 10 for usado como uma interface de usuário (UI) que reconhece o movimento ou a expressão do usuário 6 e interpreta o movimento ou a expressão como algum tipo de instrução de operação, uma imagem 8 mostrada na tela 4 é uma imagem de uma parte do usuário 6, tais como uma face ou uma mão, ou da íntegra do corpo. Quando o sistema de câmera de baixa latência 10 for usado para conversação por vídeo, a imagem 8 mostrada na tela 4 é uma imagem de uma face de um parceiro de conversa e uma imagem do usuário 6 é mostrada em uma tela do parceiro de conversa por meio da rede 12.

[0016] À luz de um modo de uso, tais como aqueles supradescritos, a câmera 100 é mais adequadamente provida no topo da tela 4. Entretanto, desde que uma imagem da íntegra ou de uma parte do corpo do usuário 6 possa ser capturada, a câmera 100 pode ser colocada em um local diferente da proximidade da tela 4, por exemplo, na proximidade do terminal hospedeiro 20 ou ao redor do usuário. Em vez de prover a câmera 100 como uma única estrutura, a câmera 100 pode ser embutida no alojamento da tela 4 ou similares. Em vez de usar um elemento de tratamento de imagem na câmera 100, uma imagem analógica pode passar por conversão analógico para digital (A/D) para uso.

[0017] O terminal hospedeiro 20 é um terminal de computador, tais como um computador pessoal ou um dispositivo de jogos, que é provido com uma função de processamento de imagem. O terminal hospedeiro 20 capta sequencialmente, em ordem cronológica, cada quadro ou vários dados que podem ser obtidos a partir de cada quadro de uma imagem em movimento obtida pela captura de imagem do usuário 6 usando a câmera 100 e realiza um processo de imagem predeterminado. No caso de uma aplicação de conversa em vídeo, uma imagem do usuário 6 é transmitida a um parceiro de conversa por meio da rede 12 em tempo real. No caso de uma aplicação de interface de usuário, um processo de informação predeterminado é realizado com base em uma imagem do usuário 6, em vários dados que podem ser obtidos a partir da imagem ou similares, e um resultado deste é, então, transmitido à tela 4.

[0018] Por exemplo, uma imagem de um caractere que se move em resposta ao movimento do usuário 6 ou uma imagem na qual um item, tal como uma espada, é colocado em uma mão do usuário 6 são transmitidas à tela 4 em 0tempo real. Um processo de detecção de face para o usuário 6 e um processo de rastreamento para uma parte específica, que são necessários em uma aplicação como esta, podem ser realizados pelo terminal hospedeiro 20. Alternativamente, estes processos podem ser realizados pela câmera 100, da forma descrita posteriormente, e um resultado destes pode ser transmitido ao terminal hospedeiro 20 como uma parte dos “vários dados”.

[0019] Na aplicação de conversa em vídeo, um processo pode ser realizado, tal como mostrar apenas uma área da face do usuário 6, que é obtida em decorrência do processo de detecção de face, em alta resolução. Além dos processos de imagem expostos, o terminal hospedeiro 20 também é capaz de sintetizar uma imagem de objeto, tais como um menu ou um cursor, para a execução de várias aplicações e, então, exibir a imagem sintetizada na tela 4.

[0020] Da forma descrita, há uma variedade de possíveis processos que podem ser realizados usando uma imagem em movimento que é capturada pela câmera 100 no sistema de câmera de baixa latência 10, e os detalhes dos processos não são particularmente limitados. Durante a realização de qualquer um dos processos, a câmera 100 captura de uma imagem em movimento e também realiza algum tipo de processo usando a imagem em movimento que é capturada para gerar uma pluralidade de tipos de dados, na presente modalidade. Há muitos possíveis processos que são realizados pela câmera 100 e, mesmo, as respectivas configurações desta, dependendo de uma aplicação, da capacidade de processamento da câmera e do terminal hospedeiro e similares.

[0021] Na presente modalidade, a câmera 100 gera dados de imagem em movimento que mostram, em uma pluralidade de resoluções, uma imagem de vídeo que é capturada pela câmera 100 e transmite ao terminal hospedeiro 20 apenas uma parte necessária dos dados de acordo com uma solicitação proveniente do terminal hospedeiro 20 em tempo real. Considera-se que o terminal hospedeiro 20 é capaz de especificar uma maneira de mostrar a íntegra de uma imagem, tais como resolução, um sistema de cores e componentes desta, bem como especificar uma área em um quadro.

[0022] Por exemplo, pela aquisição, a partir da câmera 100, de dados da íntegra de uma imagem de baixa resolução e de dados de imagem de apenas uma área a ser notada de uma imagem de uma alta resolução e, então, combinação destas imagens em um plano da imagem, uma imagem em movimento pode ser exibida, em que a área a ser notada é mostrada com detalhes, ao mesmo tempo em que se reduz uma carga de transmissão de dados. Este exemplo é efetivo para aplicações de conversação por vídeo ou similares se uma área da face obtida pela realização do processo de detecção de face no terminal hospedeiro 20 for definida como uma área a ser notada.

[0023] A Fig. 2 ilustra a configuração da câmera 100 de acordo com a modalidade. Recursos mostrados na figura e nas Figs. 3, 4 e 8 - 11, que são descritos posteriormente, podem ser implementados por configurações, tais como uma CPU (Unidade de Processamento Central), uma RAM (Memória de Acesso Aleatório), uma ROM (Memória Exclusiva de Leitura) e um circuito de renderização em termos de HARDWARE, e por programas para prover várias funções, tais como entrada de dados, armazenamento de dados, processamento de imagem e renderização em termos de SOFTWARE. Estas Figs. ilustram blocos funcionais implementados pela cooperação destes componentes. Portanto, estes blocos funcionais podem ser implementados em uma variedade de formas por combinações de HARDWARE e SOFTWARE. A fim de facilitar a explicação, a Fig. 2 inclui um diagrama esquemático que ilustra uma parte de imagem processada em cada bloco funcional.

[0024] A câmera 100 compreende uma unidade de aquisição de imagem 102, uma unidade de desmosaicagem 104, uma unidade de filtro de pirâmide 170, uma unidade de síntese de imagem 156, uma unidade de transmissão de imagem 151 e uma unidade de comunicação 108. A unidade de aquisição de imagem 102 lê, em sincronismo predeterminado (por exemplo, 60 vezes/s), uma imagem exposta por um elemento de tratamento de imagem, tais como um CCD ou um CMOS. Na seguinte explicação, considera-se que esta imagem tem uma largura de “W” pixels em uma direção horizontal e uma largura de “H” pixels em uma direção vertical. Esta imagem é uma assim denominada imagem RAW. A unidade de aquisição de imagem 102 transmite a imagem RAW à unidade de desmosaicagem 104 e à unidade de transmissão de imagem 151 toda vez que a exposição for concluída para uma única linha horizontal da imagem RAW.

[0025] A unidade de desmosaicagem 104 tem um armazenamento temporário PEPS (Primeiro a Entrada - Primeiro a Sair) 105 com uma capacidade de W pixels e uma unidade de processamento de desmosaicagem simples 106. Informação de pixel de uma única linha horizontal da imagem RAW é inserida e armazenada no armazenamento temporário PEPS 105 até que pixels para uma linha horizontal subsequente sejam inseridos na unidade de desmosaicagem 104. Mediante recepção dos pixels para as duas linhas horizontais, a unidade de processamento de desmosaicagem simples 106 realiza, usando os pixels recebidos, um processo de desmosaicagem para complementar informação de cor para cada pixel com base nos pixels circundantes deste e, então, criar uma imagem a cores completa.

[0026] Como é conhecido pelos versados na técnica, há muitos métodos para este processo de desmosaicagem. Entretanto, um processo de desmosaicagem simples que usa apenas os pixels para duas linhas horizontais é suficiente neste caso. Como um exemplo, quando um pixel para o qual um correspondente valor YCbCr deve ser calculado tiver apenas um valor G, um valor RGB é obtido pelo uso de um valor R obtido pela adoção de uma média dos respectivos valores R dos pixels direito e esquerdo adjacentes, do valor G e de um valor B de um pixel acima ou abaixo do pixel para um valor R, um valor G e um valor B deste, respectivamente, e, então, substituído em uma equação de conversão predeterminada para calcular o valor YCbCr. Já que um processo de desmosaicagem como este é bem conhecido, uma explicação detalhada adicional deste é omitida. Um espaço de cor dos dados da imagem que são gerados pela unidade de desmosaicagem 104 ou em um processo subsequente não é limitado a YCbCr.

[0027] O motivo pelo qual um processo de desmosaicagem simples é suficiente é em virtude de a imagem RAW poder ser usada quando uma imagem com alta qualidade for necessária. Em uma variação de um processo de desmosaicagem simples, um método de formação de um valor YCbCr de um único pixel a partir de quatro pixels de RGB pode ser usado. Neste caso, uma imagem desmosaicada de 1/4 do tamanho da imagem RAW pode ser obtida. Assim, um primeiro filtro 110 descrito a seguir não é necessário.

[0028] Da forma mostrada na figura, a unidade de processamento de desmosaicagem simples 106 converte RGB de quatro pixels, que são dois pixels horizontais por dois pixels verticais, em sinais de cor YCbCr, por exemplo. Um bloco composto por estes quatro pixels é transferido à unidade de transmissão de imagem 151 como uma imagem desmosaicada em 1/1 e também é transmitido à unidade de filtro de pirâmide 170.

[0029] A unidade de filtro de pirâmide 170 tem uma função de hierarquizar uma dada imagem em uma pluralidade de resoluções e transmitir a imagem hierarquizada. Um filtro de pirâmide é, no geral, provido com filtros de redução 1/4 com base no número de níveis de resoluções que são necessários. Na presente modalidade, o filtro de pirâmide tem filtros de três níveis: um primeiro filtro 110 até um terceiro filtro 130. Cada filtro realiza um processo de interpolação bilinear de quatro pixels que são adjacentes uns aos outros e, então, computação de um valor de pixel médio dos quatro pixels. Portanto, um tamanho de imagem obtida depois do processo torna-se 1/4 do tamanho da imagem antes do processo. Versados na técnica devem perceber facilmente que o mesmo se aplica mesmo quando filtros diferentes dos filtros de três níveis forem usados.

[0030] Antes do primeiro filtro 110, um único armazenamento temporário PEPS 112 para W pixels é correspondentemente provido para cada um dos sinais Y, Cb e Cr. Cada um destes armazenamentos temporários PEPS 112 tem um papel de armazenamento de pixels YCbCr para uma única linha horizontal até que pixels para uma linha horizontal subsequente sejam transmitidos a partir da unidade de processamento de desmosaicagem simples 106. O tempo de armazenamento dos pixels é determinado de acordo com a velocidade do escaneamento de linha de um elemento de tratamento de imagem. Mediante a inserção dos pixels para duas linhas horizontais, o primeiro filtro 110 calcula a média dos valores de pixel Y, Cb e Cr para quatro pixels de dois pixels horizontais por dois pixels verticais. Pela repetição deste processo, o comprimento de uma imagem desmosaicada em 1/1 torna-se 1/2 tanto verticalmente quanto horizontalmente, de maneira tal que a imagem seja convertida para ter 1/4 do tamanho como um todo. A imagem desmosaicada em 1/4 convertida é transmitida à unidade de síntese de imagem 156 e também é transferida ao subsequente segundo filtro 120.

[0031] Antes do segundo filtro 120, um único armazenamento temporário PEPS 122 para W/2 pixels é correspondentemente provido para cada um dos sinais Y, Cb e Cr. Cada um destes armazenamentos temporários PEPS 122 também tem um papel de armazenamento de pixels YCbCr para uma única linha horizontal até que pixels para uma linha horizontal subsequente sejam transmitidos a partir do primeiro filtro 110. Mediante a inserção dos pixels para duas linhas horizontais, o segundo filtro 120 calcula a média dos valores de pixel Y, Cb e Cr para quatro pixels de dois pixels horizontais por dois pixels verticais. Pela repetição deste processo, o comprimento da imagem desmosaicada em 1/4 torna-se 1/2 tanto verticalmente quanto horizontalmente, de maneira tal que a imagem seja convertida para ter 1/16 do tamanho como um todo. A imagem desmosaicada em 1/16 convertida é transmitida à unidade de síntese de imagem 156 e também é transferida ao subsequente terceiro filtro 130.

[0032] Na frente do terceiro filtro 130, armazenamentos temporários PEPS 132 para W/4 pixels são providos. Diferente disto, os processos iguais àqueles supradescritos são repetidos. Uma imagem desmosaicada de 1/64 do tamanho é, então, transmitida à unidade de síntese de imagem 156. Já que um filtro de pirâmide, tal como aqueles mostrados anteriormente é bem conhecido, da forma descrita no Documento de Patente N° 1, uma explicação detalhada adicional deste é omitida na especificação em questão.

[0033] Da forma descrita, transmissões das imagens que foram reduzidas para 1/4 uma por uma são inseridas na unidade de síntese de imagem 156 a partir dos respectivos filtros da unidade de filtro de pirâmide 170. Como fica evidente a partir disto, o tamanho de um armazenamento temporário PEPS que é necessário antes de cada filtro fica menor à medida que o número de filtros passados fica grande na unidade de filtro de pirâmide 170. O número de filtros não é limitado a três, e pode ser determinado apropriadamente, dependendo de uma amplitude de resolução que é exigida.

[0034] A unidade de síntese de imagem 156 recebe os respectivos valores YCbCr de pixel da imagem desmosaicada em 1/4, da imagem desmosaicada em 1/16 e da imagem desmosaicada em 1/64 a partir do primeiro filtro 110, do segundo filtro 120 e do terceiro filtro 130, respectivamente. Então, a unidade de síntese de imagem 156 gera uma nova linha de pixels em que respectivas linhas de pixels da imagem desmosaicada em 1/4, da imagem desmosaicada em 1/16 e da imagem desmosaicada em 1/64 são conectadas para cada um dos valores de pixel Y, Cb e Cr pela conexão de uma linha de pixels para uma única linha horizontal de cada uma das imagens ou de uma linha de pixels em uma faixa menor que a única linha uma com a outra em uma regra predeterminada. A linha de pixels que foi gerada é transmitida à unidade de transmissão de imagem 151.

[0035] De acordo com uma solicitação de dados recebida a partir do terminal hospedeiro 20 por meio da unidade de comunicação 108, a unidade de transmissão de imagem 151 seleciona dados necessários dentre uma pluralidade de tipos de dados de imagem que foram inseridos. A unidade de transmissão de imagem 151 empacota os dados selecionados e transmite os dados empacotados à unidade de comunicação 108. Na presente modalidade, um processo realizado pela câmera 100 é realizado na ordem de rasterização, começando na parte superior esquerda de uma imagem e repetindo um processo da esquerda para a direita na direção para baixo. Pixels para uma única linha horizontal são definidos como uma unidade de processamento básica. O formato de dados de cada tipo de imagem a ser inserida na unidade de transmissão de imagem 151 e o formato de dados de uma imagem a ser transmitida ao terminal hospedeiro 20 são, basicamente, fluxos contínuos nos quais partes de dados, cada uma das quais é para uma única linha horizontal de uma imagem, são conectadas a partir do topo.

[0036] A unidade de comunicação 108 transmite o pacote ao terminal hospedeiro 20, por exemplo de acordo com um protocolo predeterminado, tais como USB 1.0/2.0, ou similares. A comunicação com o terminal hospedeiro 20 não é limitada a uma comunicação com fios. Por exemplo, a comunicação pode ser comunicação em LAN sem fios, tais como IEEE 802.11a/b/g ou similares, ou comunicação por infravermelho, tais como IrDA ou similares. Na Fig. 2, dados para Y, dados para Cb e dados para Cr são expressados separadamente, e setas para entrada e saída de dados são mostradas para cada dados. Entretanto, a fim de impedir que Figs. fiquem complicadas, os componentes são mostrados em um único conjunto a seguir.

[0037] Na presente modalidade, dados gerados pela unidade de síntese de imagem 156 compreendem um fluxo contínuo de uma série de valores de pixel no qual respectivas linhas de pixels das três imagens desmosaicadas são misturadas. Portanto, falando estritamente, uma imagem de um plano bidimensional não é gerada em decorrência da conexão das três imagens desmosaicadas. Entretanto, da forma descrita com detalhes a seguir, quando o número de pixels correspondente ao número de pixels para uma única linha horizontal de uma imagem for definido para um fluxo contínuo que é transmitido pela unidade de síntese de imagem 156, processos subsequentes são iguais àqueles nos dados de uma imagem RAW ou uma imagem 1/1 nas quais a unidade de síntese de imagem 156 não está envolvida. Em decorrência disto, a unidade de síntese de imagem 156 gera, substancialmente, uma imagem na qual a imagem desmosaicada em 1/4, a imagem desmosaicada em 1/16 e a imagem desmosaicada em 1/64 são combinadas. A seguir, esta imagem virtual é referida como uma “imagem sintetizada”.

[0038] A Fig. 3 ilustra as respectivas configurações da unidade de síntese de imagem 156 e da unidade de transmissão de imagem 151 da câmera 100. A unidade de síntese de imagem 156 tem armazenamentos temporários PEPS 149 e 150 para armazenar temporariamente, respectivamente, dados para uma única linha horizontal da imagem desmosaicada em 1/16 e dados para uma única linha horizontal da imagem desmosaicada em 1/64, que foram respectivamente adquiridos a partir do segundo filtro 120 e do terceiro filtro 130.

[0039] Da forma descrita com detalhes a seguir, a unidade de síntese de imagem 156 conecta, nos dados para pixels para uma única linha horizontal da imagem desmosaicada em 1/4 provenientes do primeiro filtro 110, dados para metade dos pixels de uma linha de pixels para a única linha horizontal da imagem desmosaicada em 1/16 provenientes do segundo filtro 120 e dados para um quarto dos pixels de uma linha de pixels para a única linha horizontal da imagem desmosaicada em 1/64 provenientes do terceiro filtro 130 na dita ordem para formar dados para uma única linha horizontal da imagem sintetizada virtual.

[0040] A unidade de transmissão de imagem 151 tem uma unidade de seleção de dados 154, uma unidade de empacotamento 162 e uma unidade de controle 164. Com base em uma solicitação proveniente do terminal hospedeiro 20, a unidade de controle 164 da unidade de transmissão de imagem 151 indica à unidade de seleção de dados 154 que uma das várias partes de dados de imagem deve ser transmitida como um pacote. Usando, como dados de entrada, dados para uma linha de pixels da imagem RAW que foi inserida a partir da unidade de aquisição de imagem 102, dados para uma linha de pixels da imagem desmosaicada em 1/1 que foram inseridos a partir da unidade de desmosaicagem 104 e dados para uma linha de pixels da imagem sintetizada que foi inserida a partir da unidade de síntese de imagem 156, a unidade de seleção de dados 154 seleciona e extrai dados indicados pela unidade de controle 164 e transmite os dados à unidade de empacotamento 162.

[0041] Neste momento, dependendo da solicitação proveniente do terminal hospedeiro 20, a unidade de seleção de dados 154 transmite um fluxo contínuo de certos dados de imagem como um todo ou transmite apenas dados para uma parte de uma faixa incluída na área a ser notada, como exposto. No último caso, um fluxo contínuo é reconstruído pela conexão das partes de dados a serem transmitidas. A unidade de empacotamento 162 empacota, para cada tamanho de acordo com um protocolo da unidade de comunicação 108, um fluxo contínuo que foi inserido a partir da unidade de seleção de dados 154 e grava o fluxo contínuo empacotado em um armazenamento temporário de pacote interno (não mostrado). Por exemplo, no caso de um USB, a unidade de empacotamento 162 empacota um fluxo contínuo para cada tamanho de um ponto final.

[0042] A unidade de comunicação 108 transmite um pacote no armazenamento temporário de pacote ao terminal hospedeiro 20 de acordo com um protocolo de comunicação predeterminado. Quando respectivas partes de dados de uma pluralidade de imagens forem solicitadas dentre os dados da imagem RAW, os dados da imagem desmosaicada em 1/1 e os dados da imagem sintetizada, a unidade de seleção de dados 154 insere uma pluralidade de fluxos contínuos que correspondem àquelas partes de dados na unidade de empacotamento 162. Transmissão de dados com latência inferior pode ser alcançada pela provisão de uma pluralidade de canais para transmissão a partir da unidade de seleção de dados 154, inserção e transmissão a partir da unidade de empacotamento 162, e inserção e transmissão a partir da unidade de comunicação 108, de forma que a pluralidade de partes de dados que foram solicitadas sejam transmitidas em paralelo. Uma descrição detalhada seguirá considerando este caso.

[0043] A Fig. 4 ilustra a configuração de um circuito interno do terminal hospedeiro 20. O terminal hospedeiro 20 inclui uma CPU (Unidade de Processamento Central) 50, uma GPU (Unidade de Processamento de Elementos Gráficos) 52, uma unidade de controle de exibição 54, uma unidade de armazenamento 56, uma memória principal 58 e uma unidade de comunicação 60. A CPU 50 processa um sinal ou controla um componente de constituição interna com base em programas, tais como um sistema operacional ou uma aplicação. A GPU 52 realiza um processo de imagem de acordo com uma solicitação da CPU 50. A unidade de controle de exibição 54 gera um sinal de vídeo para exibir, na tela 4, dados de imagem desenhados pela GPU 52 em um armazenamento temporário de quadro (não mostrado).

[0044] A unidade de armazenamento 56 é composta por uma unidade de disco rígido, uma memória não volátil ou similares e armazena um programa e dados necessários para operar o sistema de câmera de baixa latência 10. A memória principal 58 é composta por uma RAM (Memória de Acesso Aleatório) ou similares e armazena dados que são transmitidos a partir da câmera 100 bem como um programa carregado e dados. A unidade de comunicação 60 é uma interface periférica, tais como um USB ou IEEE 1394, ou uma interface de rede LAN com fios ou sem fios. Particularmente na presente modalidade, a unidade de comunicação 60 transmite um sinal de solicitação de dados à câmera 100 e recebe dados transmitidos a partir da câmera 100. Estes componentes são mutuamente conectados uns nos outros por meio de um barramento 62. A GPU 52 pode ler diretamente dados, que são necessários para processamento, tais como dados de textura provenientes da memória principal 58 por meio do barramento 62.

[0045] A Fig. 5 ilustra esquematicamente uma transição básica da forma de dados na câmera 100 e no terminal hospedeiro 20. Neste caso, como um exemplo, é considerada uma situação em que dados da íntegra de uma imagem de quadro 200 com uma largura de “W” pixels em uma direção horizontal e uma largura de “H” pixels em uma direção vertical são transmitidos ao terminal hospedeiro 20 a partir da câmera 100. Como exposto, a geração, a seleção e a transmissão de dados de imagem são realizadas na ordem de rasterização de pixels, e linhas de pixels, cada qual para uma única linha horizontal, são sequencialmente conectadas e processadas em um formato de fluxo contínuo na presente modalidade.

[0046] Dados que são transmitidos pela unidade de seleção de dados 154 em uma situação como esta compreendem um fluxo contínuo 202. Na figura, o eixo geométrico horizontal do fluxo contínuo 202 representa a passagem de tempo, e retângulos L1, L2, ... e LH, que constituem o fluxo contínuo 202, representam respectivas partes de dados de pixels de uma primeira linha, pixels de uma segunda linha, . e pixels de uma H-ésima linha da imagem de quadro 200. Quando o tamanho de dados de um único pixel for definido como d bytes, o tamanho de dados de cada retângulo é W * d bytes.

[0047] A unidade de empacotamento 162 rompe o fluxo contínuo 202 para cada tamanho predeterminado para gerar pacotes P1, P2, P3, P4, P5, .. Isto permite que os pacotes, P2, P3, P4, P5, . sejam transmitidos ao terminal hospedeiro 20 a partir da câmera 100 na dita ordem. Quando o terminal hospedeiro 20 receber os pacotes P1, P2, P3, P4, P5, . por meio da unidade de comunicação 60, o terminal hospedeiro 20 armazena os pacotes na memória principal 58 sob o controle da CPU 50.

[0048] Neste momento, pelo arranjo das respectivas partes de dados dos pacotes na ordem de rasterização na memória principal 58, de maneira tal que os dados arranjados tenham uma largura horizontal que considera o número (“W”) dos pixels da imagem de quadro original 200 na direção horizontal, os dados são implementados em endereços contínuos de W * d * H bytes para reproduzir uma imagem 204. Na figura, retângulos que constituem a imagem 204 representam partes de dados de respectivos pacotes. Sob o controle da CPU 50, a GPU 52 renderiza uma imagem a ser exibida na tela 4 pelo processamento da imagem 204 implementada na memória principal 58 ou combinação da imagem 204 com uma outra imagem.

[0049] Agora, é dada uma explicação considerando um método para sintetizar uma imagem desmosaicada em 1/4, uma imagem desmosaicada em 1/16 e uma imagem desmosaicada em 1/64 pela unidade de síntese de imagem 156. A Fig. 6 é um gráfico de tempo que ilustra o sincronismo de entrada dos respectivos valores de pixel de uma imagem desmosaicada em 1/4, uma imagem desmosaicada em 1/16 e uma imagem desmosaicada em 1/64 provenientes dos respectivos filtros de uma unidade de filtro de pirâmide 170. Na figura, etapas de tempo S1, S2, S3, S4, ... representam respectivos períodos nos quais os respectivos valores de pixel da primeira linha, da segunda linha, da terceira linha, da quarta linha, . da imagem desmosaicada em 1/4 são inseridos.

[0050] Como no caso da imagem desmosaicada em 1/4 exposta, dentre imagens incluídas em uma imagem sintetizada, uma imagem com a resolução mais alta tem a taxa de geração de dados mais alta na unidade de filtro de pirâmide 170. Assim, um período no qual valores de pixel para uma única linha horizontal da imagem com a resolução mais alta são inseridos é definido como uma etapa de tempo de referência, e a etapa de tempo é associada com uma linha de pixels para uma única linha horizontal da imagem sintetizada. Em outras palavras, dados para uma única linha horizontal da imagem sintetizada são gerados usando, como um ciclo de referência, um período no qual valores de pixel para uma única linha horizontal da imagem com a resolução mais alta são inseridos.

[0051] A linha superior, a linha do meio e a linha inferior da figura mostram sincronismo de entrada de uma imagem desmosaicada em 1/4, sincronismo de entrada de uma imagem desmosaicada em 1/16 e sincronismo de entrada de uma imagem desmosaicada em 1/64, respectivamente, e um único retângulo corresponde à entrada para um único pixel. Primeiro, na etapa de tempo S1, valores de pixel de uma linha de pixel L(1/4)1 da primeira linha da imagem desmosaicada em 1/4 são inseridos começando a partir do pixel esquerdo. Nesta etapa de tempo, a imagem desmosaicada em 1/16 e a imagem desmosaicada em 1/64 não são geradas e, assim, não são inseridas.

[0052] Então, na etapa de tempo S2, valores de pixel de uma linha de pixel L(1/4)2 da segunda linha da imagem desmosaicada em 1/4 são inseridos começando a partir do pixel esquerdo. Neste momento, uma linha de pixel L(1/16)1 da primeira linha da imagem desmosaicada em 1/16 é gerada na unidade de filtro de pirâmide 170 usando valores de pixel da linha de pixel L(1/4)1 da primeira linha e valores de pixel da linha de pixel L(1/4)2 da segunda linha da imagem desmosaicada em 1/4. Assim, valores de pixel da linha de pixel também são inseridos na etapa de tempo S2.

[0053] Por exemplo, valores de pixel que são inseridos em um período 210 na extremidade esquerda da linha de pixel L(1/16)1 da primeira linha da imagem desmosaicada em 1/16 são gerados usando tanto os valores de pixel de dois pixels que são inseridos em um período 206 na linha de pixel L(1/4)1 da primeira linha da imagem desmosaicada em 1/4 quanto os valores de pixel de dois pixels que são inseridos em um período 208 na linha de pixel L(1/4)2 da segunda linha. Portanto, na etapa de tempo S2, sincronismo de entrada dos valores de pixel da linha de pixel L(1/16)1 fica atrasado em pelo menos dois pixels, comparado com o sincronismo de entrada dos valores de pixel dos pixels que correspondem à linha de pixel L(1/4)2.

[0054] Na subsequente etapa de tempo S3, valores de pixel de uma linha de pixel L(1/4)3 da terceira linha da imagem desmosaicada em 1/4 são inseridos. Nesta etapa de tempo, valores de pixel da segunda linha da imagem desmosaicada em 1/16 não são gerados, e a imagem desmosaicada em 1/64 não é gerada tampouco. Assim, nenhum deles é inserido. Na subsequente etapa de tempo S4, isto é, em um período no qual valores de pixel de uma linha de pixel L(1/4)4 da quarta linha da imagem desmosaicada em 1/4 são inseridos, valores de pixel de uma linha de pixel L(1/16)2 da segunda linha da imagem desmosaicada em 1/16 também são inseridos, como no caso da etapa de tempo S2.

[0055] Além do mais, uma linha de pixel L(1/64)1 da primeira linha de uma imagem desmosaicada em 1/64 é gerada na unidade de filtro de pirâmide 170 usando valores de pixel da linha de pixel L(1/16)1 da primeira linha e valores de pixel da linha de pixel L(1/16)2 da segunda linha da imagem desmosaicada em 1/16. Assim, valores de pixel da linha de pixel também são inseridos na etapa de tempo S4. Por exemplo, valores de pixel que são inseridos em um primeiro período 218 em uma linha de pixel L(1/64)1 da primeira linha da imagem desmosaicada em 1/64 são gerados usando tanto os valores de pixel de dois pixels que são inseridos nos períodos 210 e 212 na linha de pixel L(1/16)1 da primeira linha da imagem desmosaicada em 1/16 quanto os valores de pixel de dois pixels que são inseridos nos períodos 214 e 216 na linha de pixel L(1/16)2 da segunda linha.

[0056] Portanto, na etapa de tempo S4, o sincronismo de entrada da linha de pixel L(1/64)1 fica atrasado em pelo menos dois pixels, se comparado com o sincronismo de entrada dos valores de pixel dos pixels que correspondem à linha de pixel L(1/16)2. A seguir, pela repetição da entrada dos respectivos valores de pixel das imagens da mesma maneira, todos os respectivos valores de pixel da imagem desmosaicada em 1/4, da imagem desmosaicada em 1/16 e da imagem desmosaicada em 1/64 são inseridos na unidade de síntese de imagem 156.

[0057] Da forma supradescrita, os respectivos valores de pixel das imagens são inseridos na ordem de rasterização como fluxos contínuos individuais a partir dos correspondentes filtros da unidade de filtro de pirâmide 170. A unidade de síntese de imagem 156 conecta estes fluxos contínuos para formar um único fluxo contínuo e transmite o fluxo contínuo à unidade de transmissão de imagem 151. A maneira mais simples possível é conectar respectivas partes de dados dos valores de pixel na ordem do tempo de entrada, independente das imagens originais. Neste caso, embora um processo de síntese seja fácil em si mesmo, classificação e extração das partes de dados para cada linha individual são necessárias para cada uma das imagens nos processos subsequentes e, assim, os processos tornam-se complicados.

[0058] Também é possível coletar valores de pixel para cada uma das imagens em cada etapa de tempo para formar linhas de pixel e, então, conectar estas linhas de pixel em série. Neste caso, embora valores de pixel que são inseridos nas etapas de tempo S1 e S3 sejam apenas dados da imagem desmosaicada em 1/4, aqueles que são inseridos, por exemplo, na etapa S4 são dados das três imagens: a imagem desmosaicada em 1/4; a imagem desmosaicada em 1/16; e a imagem desmosaicada em 1/64. Da forma descrita, o comprimento dos dados que são transmitidos varia enormemente, dependendo de uma etapa de tempo. Assim, para imagens com etapas de tempo durante as quais dados não são inseridos, alguns valores de pixel que foram inseridos mais recentemente são transmitidos usando as etapas de tempo para quase equalizar o comprimento dos dados que são transmitidos em cada uma das etapas de tempo na presente modalidade.

[0059] A Fig. 7 ilustra esquematicamente um estado em que respectivas partes de dados para linhas de pixel de uma pluralidade de imagens são conectadas pela unidade de síntese de imagem 156. Na figura, S0, S1, S2, S3, ..., são etapas de tempo que são similares àquelas mostradas na Fig. 6, e valores de pixels para uma única linha da imagem desmosaicada em 1/4 são inseridos em cada período. A figura mostra, em um retângulo diferentemente sombreado para cada uma das imagens, uma linha de pixel para a qual dados são transmitidos em cada etapa de tempo. Da forma explicada em relação à Fig. 6, na etapa de tempo S1, os valores de pixel de uma linha de pixel L(1/4)1 da primeira linha da imagem desmosaicada em 1/4 são inseridos, e a unidade de síntese de imagem 156, assim, transmite os valores de pixel diretamente. Quando o valor de pixel da imagem RAW original na direção horizontal for definido como W, o número de pixels para uma única linha da imagem desmosaicada em 1/4 é W/2, da forma mostrada na figura.

[0060] Na subsequente etapa de tempo S2, os valores de pixel da linha de pixel L(1/4)2 da segunda linha da imagem desmosaicada em 1/4 e os valores de pixel da linha de pixel L(1/16)1 da primeira linha da imagem desmosaicada em 1/16 são inseridos em paralelo no sincronismo mostrado na Fig. 6. Destes valores de pixel, a unidade de síntese de imagem 156 armazena temporariamente os valores de pixel da linha de pixel L(1/16)1 da primeira linha da imagem desmosaicada em 1/16 no armazenamento temporário PEPS 149 e transmite sequencialmente os valores de pixel da linha de pixel L(1/4)2 da segunda linha da imagem desmosaicada em 1/4 primeiro.

[0061] Mediante conclusão da transmissão de todos os valores de pixel da linha de pixel L(1/4)2 da segunda linha da imagem desmosaicada em 1/4, a unidade de síntese de imagem 156 lê sucessivamente a linha de pixel L(1/16)1 da primeira linha da imagem desmosaicada em 1/16 a partir do armazenamento temporário PEPS 149 e transmite a linha de pixel L(1/16)1. Neste momento, em consideração da quantidade de valores de pixel que devem ser transmitidos na subsequente etapa de tempo S3, a unidade de síntese de imagem 156 transmite apenas os valores de pixel da primeira metade (metade esquerda no plano da imagem) de todos os pixels da linha de pixel L(1/16)1 da primeira linha da imagem desmosaicada em 1/16 e continua a armazenar o resto no armazenamento temporário PEPS 149.

[0062] Na subsequente etapa de tempo S3, apenas valores de pixel da linha de pixel L(1/4)3 da terceira linha da imagem desmosaicada em 1/4 são inseridos. A unidade de síntese de imagem 156 transmite diretamente os valores de pixel da linha de pixel. Subsequentemente, a unidade de síntese de imagem 156 lê os valores de pixel da última metade (metade direita no plano da imagem), que não foram transmitidos, da linha de pixel L(1/16)1 da primeira linha da imagem desmosaicada em 1/16 a partir de uma memória interna e transmite os valores de pixel.

[0063] Na subsequente etapa de tempo S4, os valores de pixel da linha de pixel L(1/4)4 da quarta linha da imagem desmosaicada em 1/4 e os valores de pixel da linha de pixel L(1/16)2 da segunda linha da imagem desmosaicada em 1/16 e a linha de pixel L(1/64)1 da primeira linha da imagem desmosaicada em 1/64 são inseridos em paralelo no sincronismo mostrado na Fig. 6. Destes valores de pixel, a unidade de síntese de imagem 156 armazena temporariamente os valores de pixel da linha de pixel L(1/16)2 da segunda linha da imagem desmosaicada em 1/16 e os valores de pixel da linha de pixel L(1/64)1 da primeira linha da imagem desmosaicada em 1/64 nos armazenamentos temporários PEPS 149 e 150, respectivamente, e transmite sequencialmente os valores de pixel da linha de pixel L(1/4)4 da quarta linha da imagem desmosaicada em 1/4 primeiro.

[0064] Mediante conclusão da transmissão de todos os valores de pixel da linha de pixel L(1/4)4 da quarta linha da imagem desmosaicada em 1/4, a unidade de síntese de imagem 156 lê sucessivamente a primeira metade da linha de pixel L(1/16)2 da segunda linha da imagem desmosaicada em 1/16 a partir do armazenamento temporário PEPS 149 e transmite a primeira metade da linha de pixel L(1/16)2. Então, a unidade de síntese de imagem 156 transmite a linha de pixel L(1/64)1 da primeira linha da imagem desmosaicada em 1/64. Neste momento, em consideração da quantidade de valores de pixel que devem ser transmitidos nas seguintes três etapas de tempo S5, S6, e S7, a unidade de síntese de imagem 156 divide a linha de pixel L(1/64)1 da primeira linha da imagem desmosaicada em 1/64 em quatro quartos e transmite apenas os valores de pixel do primeiro quarto. A unidade de síntese de imagem 156 armazena o resto no armazenamento temporário PEPS 150.

[0065] Na subsequente etapa de tempo S5, apenas valores de pixel de uma linha de pixel L(1/4)5 da quinta linha da imagem desmosaicada em 1/4 são inseridos. A unidade de síntese de imagem 156 transmite diretamente os valores de pixel da linha de pixel. Subsequentemente, a unidade de síntese de imagem 156 lê os valores de pixel da última metade, que não foram transmitidos, da linha de pixel L(1/16)2 da segunda linha da imagem desmosaicada em 1/16 a partir do armazenamento temporário PEPS 149 e transmite os valores de pixel. Além do mais, a unidade de síntese de imagem 156 transmite os valores de pixel do segundo quarto dos dados, que não foram transmitidos e foram divididos em quatro quartos, da linha de pixel L(1/64)1 da primeira linha da imagem desmosaicada em 1/64.

[0066] Similarmente, na subsequente etapa de tempo S6, a unidade de síntese de imagem 156 transmite os valores de pixel de uma linha de pixel L(1/4)6 da sexta linha da imagem desmosaicada em 1/4, os valores de pixel da primeira metade da linha de pixel L(1/16)3 da terceira linha da imagem desmosaicada em 1/16 e os valores de pixel do terceiro quarto dos dados, que não foram transmitidos e foram divididos em quatro quartos, da linha de pixel L(1/64)1 da primeira linha da imagem desmosaicada em 1/64. Na subsequente etapa de tempo S7, a unidade de síntese de imagem 156 transmite os valores de pixel de uma linha de pixel L(1/4)7 da sétima linha da imagem desmosaicada em 1/4, os valores de pixel da última metade da linha de pixel L(1/16)3 da terceira linha da imagem desmosaicada em 1/16 e os valores de pixel do último quarto dos dados, que foram divididos em quatro quartos, da linha de pixel L(1/64)1 da primeira linha da imagem desmosaicada em 1/64.

[0067] Em outras palavras, a linha de pixel L(1/16)1 da primeira linha da imagem desmosaicada em 1/16 é transmitida, uma metade de cada vez, nas duas etapas de tempo S2 e S3. A linha de pixel L(1/64)1 da primeira linha da imagem desmosaicada em 1/64 é transmitida um quarto de cada vez nas quatro etapas de tempo S4, S5, S6 e S7. Quando o valor de pixel da imagem RAW na direção horizontal for definido como W, o número de pixels de uma única linha horizontal da imagem desmosaicada em 1/16 e o número de pixels de uma única linha horizontal da imagem desmosaicada em 1/64 são W/4 e W/8, respectivamente. Assim, da forma mostrada na figura, dados para (W/4)/2 pixels e dados para (W/8)/4 pixels são transmitidos, cada um por etapa de tempo, respectivamente.

[0068] Os processos de transmissão expostos são repetidos através das respectivas linhas de base das imagens. Neste caso, no momento em que os dados para a linha de base de pixel da imagem desmosaicada em 1/4 forem transmitidos, os dados para a última metade da linha de base de pixel da imagem desmosaicada em 1/16 e os dados para os três quartos restantes dos pixels da linha de base da imagem desmosaicada em 1/64 ainda não são transmitidos. Assim, em uma etapa de tempo S(H/2 + 1) que segue imediatamente, a unidade de síntese de imagem 156 transmite os dados para a última metade da linha de base de pixel da imagem desmosaicada em 1/16 e os dados para o segundo quarto da linha de base de pixel, que foram divididos em quatro quartos, da imagem desmosaicada em 1/64.

[0069] Neste momento, a unidade de síntese de imagem 156, primeiro, transmite dados inválidos como dados para W/2 pixels, para os quais os dados da imagem desmosaicada em 1/4 foram transmitidos até este momento e, então, transmite os dados da imagem desmosaicada em 1/16 e os dados da imagem desmosaicada em 1/64. Nas seguintes duas etapas de tempo S(H/2 + 2) e S(H/2 + 3), a unidade de síntese de imagem 156, primeiro, transmite dados inválidos como dados para W/2 + (W/4)/2 pixels, para os quais os dados da imagem desmosaicada em 1/4 e os dados para a imagem desmosaicada em 1/16 foram transmitidos até este momento e, então, transmite as respectivas partes de dados dos terceiro e quarto quartos da linha de base de pixel, que foram divididos em quatro quartos, da imagem desmosaicada em 1/64.

[0070] Da forma mostrada na figura, dados para [W/2 + (W/4)/2 + (W/8)/4 = 21W/32] pixels são transmitidos em todos os momentos, exceto para as primeiras três etapas de tempo e as últimas três etapas de tempo, em que a transmissão é realizada como exposto. Para transmitir valores de pixel para uma única linha, exige-se uma etapa de tempo para a imagem desmosaicada em 1/4, duas etapas de tempo para a imagem desmosaicada em 1/16 e quatro etapas para a imagem desmosaicada em 1/64. Assim, o número de etapas de tempo exigido para transmitir dados de imagem para um único quadro é idêntico para todos, como segue: H/2 = (H/4) * 2 = (H/8) * 4. Em decorrência disto, o número total de etapas de tempo exigido para transmitir dados das três imagens que representam um único quadro é H/2 + 3.

[0071] Da forma supradescrita, dados que são transmitidos pela unidade de síntese de imagem 156 compreende uma linha de valores de pixel. Pela provisão, antecipadamente, do número de pixels que correspondem a cada etapa de tempo, isto é, 21W/32, como o número de pixels de uma única linha horizontal, a unidade de transmissão de imagem 151 trata dados que são transmitidos em cada etapa de tempo como dados para uma única linha de uma imagem, como no caso da imagem RAW e da imagem desmosaicada em 1/1.

[0072] Portanto, pelo mapeamento de cada etapa de tempo aos pixels de uma imagem na direção vertical, o processo de transmissão torna-se equivalente a um processo de geração de uma imagem sintetizada 220 mostrada por uma área retangular geral na Fig. 7. Pela fixação de uma faixa ocupada pelos dados de cada imagem em uma linha de pixel que é transmitida em cada etapa de tempo, como exposto, cada um dos dados da imagem desmosaicada em 1/4, dos dados da imagem desmosaicada em 1/16 e dos dados da imagem desmosaicada em 1/64 forma uma área de bloco retangular na imagem sintetizada 220. Portanto, segmentação de dados em uma base imagem por imagem pode ser facilmente realizada usando a localidade.

[0073] A Fig. 8 ilustra a configuração relacionada a um processo de solicitação de dados do terminal hospedeiro 20 e um processo de transmissão de dados da câmera 100. Na figura, números de referência idênticos representam blocos funcionais que são idênticos àqueles mostrados nas Figs. 3 e 4, e a descrição destes é parcialmente omitida. O terminal hospedeiro 20 e a câmera 100 trocam vários dados por meio de respectivas unidades de comunicação destes, como exposto. Entretanto, na figura, as respectivas unidades de comunicação são omitidas. A CPU 50 do terminal hospedeiro 20 tem uma unidade de solicitação de dados 64, uma unidade de processamento de dados 66 e uma unidade de implementação de dados 68. A unidade de seleção de dados 154 da unidade de transmissão de imagem 151 da câmera 100 tem uma unidade de seleção de fluxo contínuo 166 e uma unidade de corte 168.

[0074] A unidade de solicitação de dados 64 da CPU 50 transmite à câmera 100 um sinal de solicitação de dados que especifica uma imagem que solicitou-se transmitir e uma área desta. É especificada como a imagem que solicitou-se transmitir, por exemplo, tanto uma imagem RAW quanto uma imagem desmosaicada de cada tamanho. São especificadas para a área, por exemplo, as coordenadas superior esquerda e as larguras nas direções horizontal e vertical da área no plano da imagem. Além destas, a unidade de solicitação de dados 64 da CPU 50 transmite à câmera 100 um sinal que solicita início ou término da captura de imagem, um sinal que especifica condições de captura da imagem ou similares. As condições de captura da imagem são, por exemplo, uma taxa de quadro, velocidade do obturador, equilíbrio de branco, um ângulo de visualização e similares, e são determinadas com base no desempenho da câmera 100, em uma aplicação que está sendo executada pela CPU 50 ou similares.

[0075] Mediante recepção do sinal de solicitação de dados a partir da unidade de solicitação de dados 64, a unidade de controle 164 da unidade de transmissão de imagem 151 provê informação desta à unidade de seleção de dados 154. Quando a unidade de controle 164 receber um sinal que solicita início ou término da captura de imagem, um sinal que especifica condições de captura da imagem ou similares, a unidade de controle 164 provê apropriadamente informação desta à unidade de aquisição de imagem 102 da câmera 100. Já que uma técnica comumente usada pode ser aplicada neste caso, uma explicação detalhada desta é omitida.

[0076] A unidade de seleção de fluxo contínuo 166 da unidade de seleção de dados 154 lê fluxos contínuos da imagem RAW, da imagem desmosaicada em 1/1 e dados de imagem sintetizados em paralelo a partir da unidade de aquisição de imagem 102, da unidade de desmosaicagem 104 e da unidade de síntese de imagem 156, respectivamente, e seleciona apenas dados de imagem especificados pelo sinal de solicitação de dados para transmitir os dados à unidade de corte 168. A unidade de corte 168 extrai apenas dados para pixels incluídos em uma área retangular especificada pelo sinal de solicitação de dados a partir dos dados para pixels que foram inseridos e transmite os dados extraídos à unidade de empacotamento 162.

[0077] O processo realizado pela unidade de corte 168 é igual a um processo de corte comumente usado em que uma área desnecessária é removida pelo corte de uma área retangular especificada em uma imagem. Na presente modalidade, um objeto de processamento não é um plano da imagem, mas uma unidade de linhas de pixel. Entretanto, pela provisão de informação para o número de pixels de uma única linha horizontal de uma imagem original antecipadamente, coordenadas bidimensionais de um plano da imagem podem ser facilmente mapeadas a coordenadas unidimensionais em um fluxo contínuo, e especificação de pixels a serem cortados pode ser similarmente realizada.

[0078] Na presente modalidade, os dados da imagem desmosaicada em 1/4, da imagem desmosaicada em 1/16 e da imagem desmosaicada em 1/64 são agrupados em áreas retangulares em uma imagem sintetizada, tal como aquela mostrada na Fig. 7. Assim, as três imagens podem ser facilmente cortadas por este processo de corte. Por exemplo, no caso da imagem sintetizada mostrada na Fig. 7, a íntegra da área da imagem desmosaicada em 1/16 pode ser cortada pela especificação de uma área com um vértice superior esquerdo nas coordenadas (W/2,1), uma largura de W/8 na direção horizontal e uma largura de H/2 na direção vertical.

[0079] A unidade de seleção de dados 154 repete os processos expostos, desse modo, transmitindo sequencialmente os dados da área na imagem especificada pelo sinal de solicitação de dados em um formato de fluxo contínuo no qual linhas de pixel são conectadas. Fluxos contínuos recebidos pela unidade de empacotamento 162 são empacotados para cada tamanho predeterminado com base na política de PEPS e, então, sequencialmente transmitidos ao terminal hospedeiro 20.

[0080] A unidade de implementação de dados 68 do terminal hospedeiro 20 implementa pacotes, que são recebidos a partir da câmera 100, como um plano da imagem na memória principal 58, da forma mostrada na Fig. 5. Usando a imagem implementada, a unidade de processamento de dados 66 realiza um processo de acordo com uma aplicação que está sendo executada. Se necessário, a unidade de processamento de dados 66 pode solicitar que a GPU 52 realize o processo de imagem, e a GPU 52 pode ler a imagem a partir da memória principal 58 para processar e sintetizar a imagem. Dados de imagem implementadas na memória principal 58 são iguais àqueles dados de imagem comumente usados e, assim, também podem ser lidos como textura.

[0081] A unidade de processamento de dados 66 pode adquirir a posição de uma área da face ou de um objeto de rastreamento pela análise da imagem implementada na memória principal 58 e provê informação da área à unidade de solicitação de dados 64. A unidade de solicitação de dados 64 pode especificar a área e transmitir um novo sinal de solicitação de dados à câmera 100 neste momento. Neste caso, a unidade de corte 168 da câmera 100 muda uma área, que deve ser extraída de acordo com a especificação no momento do processamento de um novo quadro de imagem.

[0082] A Fig. 9 ilustra uma variação exemplar da configuração da unidade de transmissão de imagem. Na figura, números de referência iguais representam blocos com blocos funcionais iguais mostrados na Fig. 8, e a descrição destes é parcialmente omitida. Neste exemplo, uma saída da unidade de transmissão de imagem 151 e uma entrada e uma saída da unidade de comunicação 108 têm uma pluralidade de canais. Pela provisão da pluralidade de canais, respectivas partes de dados de diferentes imagens e de diferentes áreas podem ser extraídas em paralelo e transmitidas ao terminal hospedeiro 20 em paralelo.

[0083] Neste caso, o número dos canais não é particularmente limitado. Na figura, pela provisão de três canais, três tipos de dados são transmitidos ao mesmo tempo. Portanto, a unidade de transmissão de imagem 151 é provida com três unidades de seleção de dados: uma primeira unidade de seleção de dados 154a; uma segunda unidade de seleção de dados 154b; e uma terceira unidade de seleção de dados 154c, e três unidades de empacotamento: uma primeira unidade de empacotamento 162a; uma segunda unidade de empacotamento 162b; e uma terceira unidade de empacotamento 162c. A primeira unidade de seleção de dados 154a, a segunda unidade de seleção de dados 154b e a terceira unidade de seleção de dados 154c são conectadas em série na primeira unidade de empacotamento 162a, na segunda unidade de empacotamento 162b e na terceira unidade de empacotamento 162c, respectivamente, para selecionar, extrair e empacotar respectivas partes de dados pelas quais as unidades são responsáveis.

[0084] Portanto, a primeira unidade de seleção de dados 154a, a segunda unidade de seleção de dados 154b e a terceira unidade de seleção de dados 154c têm um conjunto de uma unidade de seleção de fluxo contínuo 166a e uma unidade de corte 168a, um conjunto de uma unidade de seleção de fluxo contínuo 166b e uma unidade de corte 168b e um conjunto de uma unidade de seleção de fluxo contínuo 166c e uma unidade de corte 168c, respectivamente. A unidade de controle 164 atribui, uma a cada uma das três unidades de seleção de dados, respectivas partes de informação para um máximo de três imagens e áreas especificadas por um sinal de solicitação de dados a partir do terminal hospedeiro 20.

[0085] As partes de informação para as imagens e áreas a serem atribuídas a diferentes canais podem representar imagens que são todas diferentes ou podem representar diferentes áreas de uma única imagem. Um processo realizado por cada conjunto de uma unidade de seleção de dados e uma unidade de empacotamento é igual àquele realizado pela unidade de seleção de dados 154 e pela unidade de empacotamento 162 mostradas na Fig. 8. Os pacotes dos três fluxos contínuos transmitidos em paralelo a partir da unidade de transmissão de imagem 151 da forma supradescrita são respectivamente inseridos em três canais, isto é, um primeiro canal 172a, um segundo canal 172b e um terceiro canal 172c, que são providos na unidade de comunicação 108 e transmitidos em paralelo ao terminal hospedeiro 20. As partes de dados transmitidas são implementadas como imagens individuais na memória principal 58 do terminal hospedeiro 20.

[0086] De acordo com a presente modalidade supradescrita, em um sistema que inclui uma câmera para capturar o movimento de um usuário ou similares e um terminal hospedeiro para exibir uma imagem usando a câmera, uma imagem em movimento que foi capturada é transformada em dados com uma pluralidade de resoluções no interior da câmera. Os dados, então, são transformados em um fluxo contínuo no qual valores de pixel são conectados na ordem de rasterização de pixels para cada tipo e resolução de uma imagem. Então, uma parte destes é transmitida de acordo com uma solicitação proveniente do terminal hospedeiro para construir uma imagem em uma memória do terminal hospedeiro. Da forma descrita, pela realização sequencial de processos em um estado de uma linha de pixel sem implementação dos dados como uma imagem de quadro no interior da câmera, o tamanho de uma memória a ser provida na câmera pode ser mantido em um mínimo. Também, já que não surge necessidade de esperar por todos os dados para que um único quadro esteja pronto até a transmissão ao terminal hospedeiro depois da captura de imagem, o sistema como um todo é capaz de exibição da imagem correspondente ao movimento em baixa latência.

[0087] Também, dados de imagem de uma pluralidade de resoluções são incluídos em um único fluxo contínuo pela conexão, para cada valor de pixel para uma única linha, de respectivas partes dos dados. Uma taxa na qual o “valor de pixel para uma única linha” é gerado varia, dependendo de uma resolução. Assim, no caso de uma imagem com uma baixa resolução na qual dados são gerados em uma baixa taxa, alocação é realizada, de maneira tal que os dados sejam incluídos uniformemente em um fluxo contínuo mesmo durante um período no qual os dados não são gerados. Com isto, o tamanho dos dados a serem processados e transmitidos por unidade tempo fica igual. Assim, estimativa do tempo exigido até a transmissão, de uma largura de banda de transmissão a ser usada e do tempo exigido para transmissão torna- se fácil, e uma possibilidade de esgotamento da largura de banda de transmissão devido a um aumento inesperado no tamanho dos dados diminui.

[0088] Em um processo subsequente, um fluxo contínuo gerado da forma descrita pode ser tratado da mesma maneira que um fluxo contínuo composto apenas por dados de imagem de uma única resolução. Assim, é substancialmente gerada uma imagem sintetizada que é composta por uma imagem com uma pluralidade de resoluções. Pela conexão de respectivas partes de dados, como exposto, cada imagem a ser combinada forma uma área retangular em uma imagem sintetizada. Assim, pela especificação de uma área na imagem sintetizada, respectivas partes de dados de uma pluralidade de imagens que coexistem em um único fluxo contínuo podem ser facilmente separadas por um processo de imagem comumente usado chamado de corte.

[0089] Além do mais, pela provisão, à câmera, de uma pluralidade de mecanismos para a seleção de um fluxo contínuo, a extração de uma parte de dados e o empacotamento de acordo com a especificação pelo terminal hospedeiro, uma pluralidade de partes de dados podem ser transmitidas em paralelo, e o tempo de transmissão pode ser encurtado. Também, já que cada um dos mecanismos é responsável por um único fluxo contínuo, de maneira tal que transmissão ao terminal hospedeiro seja realizada para cada fluxo contínuo, um processo de separação de dados no terminal hospedeiro pode ser omitido.

Segunda Modalidade

[0090] Na primeira modalidade, a câmera 100 gera dados de imagem em movimento com uma pluralidade de resoluções a partir de uma imagem de vídeo que foi capturada e transmite ao terminal hospedeiro 20 apenas uma parte necessária dos dados de acordo com uma solicitação proveniente do terminal hospedeiro 20 em tempo real. Na presente modalidade, uma imagem de diferença de movimento interquadros é adicionalmente gerada e torna-se submetida a uma solicitação pelo terminal hospedeiro 20. Além do mais, na câmera 100, qualquer imagem é analisada na câmera 100, e o resultado desta é adicionado como metadados nos dados de imagem a serem transmitidos ao terminal hospedeiro 20.

[0091] A presente modalidade pode ser alcançada por um sistema similar ao sistema de câmera de baixa latência 10 mostrado na Fig. 1. O terminal hospedeiro 20 tem uma configuração similar àquela mostrada na Fig. 4. A seguir, uma explicação é dada, principalmente, focalizando em pontos que são diferentes daqueles de acordo com a primeira modalidade, e uma explicação considerando os pontos que são iguais é apropriadamente omitida.

[0092] A Fig. 10 ilustra a configuração de uma câmera de acordo com a presente modalidade. Como no caso da câmera 100 de acordo com a primeira modalidade, uma câmera 100a compreende uma unidade de aquisição de imagem 102, uma unidade de desmosaicagem 104, uma unidade de filtro de pirâmide 170, uma unidade de síntese de imagem 156, uma unidade de transmissão de imagem 151a e uma unidade de comunicação 108. A câmera 100a tem adicionalmente uma unidade de geração de imagem de diferença 174 e uma unidade de análise da imagem 176.

[0093] A unidade de aquisição de imagem 102, a unidade de desmosaicagem 104 e a unidade de filtro de pirâmide 170 operam exatamente como os blocos funcionais correspondentes de acordo com a primeira modalidade. A unidade de geração de imagem de diferença 174 gera uma imagem de diferença entre uma imagem com uma resolução predeterminada que é transmitida pela unidade de filtro de pirâmide 170 e uma imagem de um outro quadro com a mesma resolução que foi transmitida previamente. Portanto, a unidade de geração de imagem de diferença 174 é provida com uma memória interna (não mostrada) que armazena temporariamente dados de imagem para um único quadro.

[0094] A unidade de geração de imagem de diferença 174 obtém uma diferença entre um valor de pixel que é inovadoramente transmitido a partir da unidade de filtro de pirâmide 170 e um valor de pixel de um pixel correspondente de um quadro prévio que é armazenado na memória interna e transmite um resultado desta à unidade de síntese de imagem 156 como o valor de pixel de uma imagem de diferença. Este processo também é realizado na ordem de rasterização. Assim, dados que são transmitidos ficam em um fluxo contínuo, como no caso de outras imagens.

[0095] Dependendo de um propósito para usar uma imagem de diferença pelo terminal hospedeiro 20, tal como um caso de realização de uma estimativa grosseira de uma área com movimento, frequentemente, não exige- se que a imagem de diferença tenha uma alta resolução. Assim, a unidade de geração de imagem de diferença 174 gera a imagem de diferença a partir de uma imagem com a resolução mais baixa gerada pela unidade de filtro de pirâmide 170, de maneira tal que a imagem de diferença seja submetida à síntese pela unidade de síntese de imagem 156. Uma vez que a imagem de diferença se tornar uma parte de uma imagem sintetizada, os dados da imagem de diferença podem ser transmitidos ao terminal hospedeiro 20 quando a unidade de transmissão de imagem 151a e a unidade de comunicação 108 operarem exatamente da maneira descrita na primeira modalidade.

[0096] A unidade de análise da imagem 176 realiza análise da imagem predeterminada em uma imagem com uma resolução predeterminada que é transmitida pela unidade de filtro de pirâmide 170 e provê um resultado desta à unidade de transmissão de imagem 151a. Na figura, uma imagem com a mesma resolução deve ser processada pela unidade de geração de imagem de diferença 174 e pela unidade de análise da imagem 176. Entretanto, a presente modalidade não é limitada a isto, e as respectivas imagens com respectivas resoluções podem ser processadas.

[0097] A análise da imagem realizada pela unidade de análise da imagem 176 é um processo de detecção de face, rastreamento de um objeto com uma forma predeterminada ou similares. Portanto, um resultado de análise que é provido à unidade de transmissão de imagem 151a é informação em relação à posição e ao tamanho de uma área da face ou da área do objeto, um valor de avaliação que mostra precisão de detecção / rastreamento ou similares. De acordo com uma aplicação a ser executada, a câmera 100 é notificada antecipadamente, a partir do terminal hospedeiro 20, das condições para análise, tais como um tipo de análise a ser realizada e informação da forma do objeto, por exemplo, no momento em que a aplicação for iniciada.

[0098] A unidade de empacotamento 162 (mostrada na Fig. 3) da unidade de transmissão de imagem 151a insere, como metadados, um resultado da análise da imagem realizada pela unidade de análise da imagem 176 imediatamente depois de um fluxo contínuo para um único quadro de dados de imagem a serem transmitidos ao terminal hospedeiro 20 ou em uma posição predeterminada no fluxo contínuo para o único quadro. Então, a unidade de empacotamento 162 realiza empacotamento em um tamanho predeterminado, como no caso em que a análise da imagem não é realizada.

[0099] Neste caso, o terminal hospedeiro 20 implementa uma parte de dados de imagem dos dados transmitidos a partir da câmera 100 em uma memória principal como uma imagem e usa os metadados para um processo, tais como processamento ou síntese da imagem. Usando os metadados, o terminal hospedeiro 20 pode especificar de forma inovadora dados a serem solicitados à câmera 100 considerando quadros subsequentes. Uma distinção pode ser feita entre os dados de imagem e os metadados pela determinação antecipada de uma área na qual os metadados são adicionados no plano da imagem quando se considera que todos os fluxos contínuos recebidos representam uma imagem, ou pela adição de informação para identificar os metadados nos próprios metadados.

[00100] Na presente modalidade, tanto a unidade de geração de imagem de diferença 174 quanto a unidade de análise da imagem 176 são providas na câmera 100a. Entretanto, apenas cada uma delas pode ser provida. Também, a informação adicionada como os metadados pode não ser um resultado da análise da imagem e pode ser, por exemplo, um registro de tempo para quando a imagem RAW original foi adquirida. Neste caso, informação em relação a um registro de tempo gerada pela unidade de aquisição de imagem 102 para cada quadro precisa ser adquirida diretamente pela unidade de transmissão de imagem 151a e, então, inserida em um fluxo contínuo, como no caso supradescrito.

[00101] De acordo com a presente modalidade supradescrita, um mecanismo para gerar uma imagem de diferença é provido no interior da câmera, além da configuração de acordo com a primeira modalidade. Em um modo em que uma área com movimento é detectada usando uma imagem de diferença, mesmo uma imagem com baixa resolução, frequentemente, funciona suficientemente. Assim, por exemplo, uma imagem de diferença gerada é incluída em uma imagem sintetizada para uma imagem com a resolução mais baixa. Com isto, separação pode ser facilmente realizada por um processo de corte, também, para uma imagem de diferença, além das vantagens descritas na primeira modalidade. Em decorrência disto, mesmo em um caso em que deseja-se que uma área com movimento seja detectada, processos a serem realizados por um terminal hospedeiro podem ser minimizados.

[00102] Além do mais, um mecanismo para detecção de uma área da face ou rastreamento de um objeto com uma forma predeterminada é provido no interior de uma câmera, e um resultado deste é inserido como metadados em um fluxo contínuo de dados de imagem em unidades de quadros. Com isto, por exemplo, em um caso em que deseja-se que uma área da face ou a área de um objeto sejam processadas ou em que deseja-se que informação detalhada da área seja obtida, processos a serem realizados por um terminal hospedeiro podem ser minimizados.

Terceira Modalidade

[00103] Na presente modalidade, a câmera 100 do sistema de câmera de baixa latência 10 mostrada na Fig. 1 é formada por uma câmera estéreo que inclui um par de câmeras para capturar uma imagem de um único objeto a partir de diferentes pontos de visualização direito e esquerdo. Na câmera estéreo, correspondência estéreo é realizada usando respectivos quadros de duas imagens em movimento capturadas a partir da direita e da esquerda para gerar uma imagem com profundidade que mostra a posição do objeto na direção da profundidade. Como no caso de outras imagens, esta imagem com profundidade é transmitida como necessário de acordo com uma solicitação proveniente do terminal hospedeiro 20. O terminal hospedeiro 20 pode ter a mesma configuração descrita na primeira modalidade. A seguir, uma explicação é dada, principalmente, focalizando em pontos que são diferentes daqueles de acordo com a primeira e a segunda modalidades, e uma explicação considerando os pontos que são iguais é omitida.

[00104] A Fig. 11 ilustra a configuração de uma câmera de acordo com a presente modalidade. Uma câmera estéreo 100b compreende uma primeira câmera 190a, uma segunda câmera 190b, uma unidade de processamento de correspondência estéreo 192, uma unidade de transmissão de imagem 151b e uma unidade de comunicação 108. Cada uma da primeira câmera 190a e da segunda câmera 190b tem quase a mesma configuração da câmera 100 mostrada na primeira modalidade e da câmera 100a mostrada na segunda modalidade. A unidade de transmissão de imagem 151b e a unidade de comunicação 108 são compartilhadas pela primeira câmera 190a, pela segunda câmera 190b e pela unidade de processamento de correspondência estéreo 192.

[00105] A primeira câmera 190a tem uma unidade de aquisição de imagem 102a, uma unidade de desmosaicagem 104a, uma unidade de filtro de pirâmide 170a, uma unidade de síntese de imagem 156a e uma unidade de análise da imagem 176a. Similarmente, a segunda câmera 190b tem uma unidade de aquisição de imagem 102b, uma unidade de desmosaicagem 104b, uma unidade de filtro de pirâmide 170b, uma unidade de síntese de imagem 156b e uma unidade de análise da imagem 176b. Um elemento de tratamento de imagem provido na unidade de aquisição de imagem 102a e um elemento de tratamento de imagem provido na unidade de aquisição de imagem 102b capturam uma imagem de um único objeto a partir de diferentes pontos de visualização direito e esquerdo. A configuração dos elementos de tratamento de imagem como HARDWARE pode ser igual àquela de uma câmera estéreo comumente usada.

[00106] Os blocos funcionais da primeira câmera 190a e da segunda câmera 190b operam exatamente como os blocos funcionais correspondentes explicados na primeira e na segunda modalidades. A unidade de processamento de correspondência estéreo 192 adquire, em uma taxa predeterminada, um dos quadros da imagem em movimento direito e esquerdo com uma resolução predeterminada a partir da unidade de desmosaicagem 104a ou da unidade de filtro de pirâmide 170a da primeira câmera 190a e o outro a partir da unidade de desmosaicagem 104b ou da unidade de filtro de pirâmide 170b da segunda câmera 190b.

[00107] Então, a unidade de processamento de correspondência estéreo 192 realiza correspondência estéreo usando imagens direita e esquerda adquiridas no mesmo sincronismo para gerar uma imagem com profundidade. A imagem com profundidade é uma imagem cujo valor de pixel no plano da imagem é um valor que mostra a posição de um objeto na direção da profundidade e mostra informação de posição do objeto em um espaço tridimensional. Para o processo de correspondência estéreo que é realizado, qualquer um de vários métodos que foram sugeridos até aqui podem ser usado. Por exemplo, um método de correlação de área ou similares podem ser usados, em que pontos correspondentes são adquiridos pela definição de uma janela de correlação em uma das imagens direita e esquerda e pelo cálculo do coeficiente de correlação mútua com uma imagem com a janela de correlação ao mesmo tempo em que move uma janela de busca da outra imagem para obter informação de posição tridimensional usando o princípio de triangulação com base na paralaxe entre estes pontos correspondentes.

[00108] Em cada caso, as respectivas partes de dados das imagens direita e esquerda que foram inseridas são processadas em uma base linha por linha para determinar um valor de pixel de uma imagem com profundidade na ordem de rasterização, e o valor de pixel é sequencialmente transmitido à unidade de transmissão de imagem 151b. Juntamente com as partes de dados da imagem com profundidade, a unidade de transmissão de imagem 151b adquire respectivas partes de dados das imagens RAW direita e esquerda, das imagens desmosaicadas 1/1 e das imagens sintetizadas da primeira câmera 190a e a segunda câmera 190b.

[00109] A partir da unidade de análise da imagem 176a da primeira câmera 190a e da unidade de análise da imagem 176b da segunda câmera 190b, a unidade de transmissão de imagem 151b recebe resultados da análise de imagem exatamente da forma explicada na segunda modalidade. Como no caso explicado na primeira modalidade, a unidade de transmissão de imagem 151b seleciona dados solicitados pelo terminal hospedeiro 20 e extrai e, então, empacota apenas uma área solicitada, conforme necessário. Da forma explicada na segunda modalidade, a unidade de transmissão de imagem 151b insere o resultado da análise da imagem adquirida a partir das unidades de análise da imagem 176a e 176b como metadados neste momento, dependendo de uma solicitação proveniente do terminal hospedeiro 20.

[00110] Um processo realizado pela unidade de comunicação 108 é da forma explicada até aqui. Na figura, uma saída da unidade de transmissão de imagem 151b e uma entrada e uma saída da unidade de comunicação 108 são, cada qual, mostradas por uma seta. Alternativamente, da forma mostrada na Fig. 9, uma pluralidade de canais podem ser providos, de forma que uma pluralidade de partes de dados sejam transmitidas em paralelo.

[00111] É agora mostrado um exemplo da operação do sistema de câmera de baixa latência 10 que pode ser realizado pelas configurações descritas até aqui. O exemplo da operação que é aqui mostrado pode ser alcançado pelo sistema que inclui a câmera estéreo 100b explicada na terceira modalidade. Entretanto, as configurações descritas na primeira e na segunda modalidades também são apropriadamente combinadas.

[00112] A Fig. 12 ilustra um fluxograma que mostra um exemplo de um procedimento de processamento de um processo de imagem realizado pelo terminal hospedeiro 20 e pela câmera estéreo 100b em cooperação um com o outro e ilustra exemplos de imagem que são produzidos. Fluxogramas mostrados nas Figs. 12 até 14 são iniciados quando um usuário inserir no terminal hospedeiro 20 uma instrução para iniciar uma aplicação. Etapas são mostradas pelos respectivos retângulos conectados em série a fim de facilitar o entendimento. Considera-se que estas etapas são realizadas repetidamente e em paralelo para cada linha de pixel e cada quadro durante um período no qual uma imagem em movimento está sendo capturada.

[00113] O terminal hospedeiro 20, primeiro, especifica condições iniciais e dados necessários que são definidos para um programa de aplicação ou similares e provê à câmera estéreo 100b uma instrução para iniciar a captura de imagem e uma solicitação para transmitir dados (S10). As condições iniciais incluem as respectivas resoluções e taxas de quadro de imagens em movimento capturadas pelas duas câmeras da câmera estéreo 100b, uma resolução e uma taxa de quadro das imagens para as quais a unidade de processamento de correspondência estéreo 192 realiza correspondência estéreo, informação de forma de um objeto de rastreamento e similares. Para as respectivas resoluções e taxas de quadro das imagens em movimento capturadas pelas câmeras, condições de definição para exposição pelos elementos de tratamento de imagem podem ser mudadas. Alternativamente, as resoluções e as taxas de quadro podem ser mudadas pela realização de um ajuste, tal como redução de dados provenientes dos elementos de tratamento de imagem em um estágio subsequente.

[00114] Neste caso, por exemplo, as condições iniciais são especificadas como segue: Primeira câmera: resolução 1.280 * 720, taxa de quadro 60 fps; Segunda câmera: resolução 1.280 * 720, taxa de quadro 60 fps; Correspondência estéreo: resolução 1.280 * 720, taxa de quadro 60 fps.

[00115] Da forma supradescrita, para a especificação dos dados necessários, metadados podem ser especificados, bem como especificação do tipo e da resolução de uma imagem e uma área na imagem. Neste caso, por exemplo, três partes de dados são especificadas como segue: Dados 1: (imagem esquerda, YUV422: 16 bits, 0, 0, 1.280, 720) Dados 2: (imagem esquerda sintetizada, YUV422: 16 bits, 0, 0, 850, 367, área da face, área do objeto, registro de tempo) Dados 3: (imagem com profundidade, Z: 16 bits, 0, 0, 1.280, 720)

[00116] Os dados 1 representam uma área cujas coordenadas superior esquerda são (0,0) com larguras de (1.280, 720) nas direções horizontal e vertical em uma imagem desmosaicada em 1/1 (YUV422: 16 bits) de uma imagem capturada por uma câmera do lado esquerdo da câmera estéreo 100b. Em consideração da resolução especificada nas condições iniciais expostas, esta área pode ser descoberta como a íntegra da área da imagem capturada.

[00117] Os dados 2 representam uma área cujas coordenadas superior esquerda são (0,0) com larguras de (850, 357) nas direções horizontal e vertical em uma imagem sintetizada (YUV422: 16 bits) da imagem capturada pela câmera do lado esquerdo. Considera-se que imagens sintetizadas nos exemplos mostrados nas Figs. 12 - 14 incluem uma imagem de diferença obtida em decorrência disto da adoção de uma diferença interquadros da imagem desmosaicada em 1/256 com a imagem desmosaicada em 1/4, a imagem desmosaicada em 1/16 e a imagem desmosaicada em 1/64 mostradas na Fig. 7. Esta imagem de diferença é adicionada na borda direita da imagem sintetizada mostrada na Fig. 7 como uma área da imagem de (W / 16)/8 * H/2 sob uma regra similar a outras.

[00118] Uma área especificada pelos dados 2 compreende a íntegra da área desta imagem sintetizada. Nos dados 2, a área de uma face obtida em decorrência da realização de um processo de detecção de face, a área de um objeto obtida em decorrência da realização de um processo de rastreamento e um registro de tempo no momento da captura da imagem original da imagem sintetizada são adicionalmente especificados como adicionados na imagem sintetizada como metadados. Os dados 3 representam uma área cujas coordenadas superior esquerda são (0,0) com larguras de (1.280, 720) nas direções horizontal e vertical em uma imagem com profundidade (cujos pixels são representados pela informação de posição de 16 bits na direção da profundidade) gerada pela unidade de processamento de correspondência estéreo 192. Esta também é a íntegra da área.

[00119] Mediante recepção da especificação das condições iniciais e da solicitação dos dados, a primeira câmera 190a e a segunda câmera 190b da câmera estéreo 100b iniciam a captura de uma imagem em movimento sob as condições iniciais (S12). Quando a primeira câmera 190a, a segunda câmera 190b e a unidade de processamento de correspondência estéreo 192 realizarem processos da forma supradescrita usando um quadro de imagem que foi capturado, respectivas partes de dados de uma imagem RAW do lado esquerdo e de uma imagem desmosaicada em 1/1 230, uma imagem sintetizada do lado esquerdo 232, uma imagem com profundidade 234, uma imagem RAW do lado direito e uma imagem desmosaicada em 1/1 236, e uma imagem sintetizada do lado esquerdo 238 são geradas (S14).

[00120] A figura mostra a íntegra da área de cada uma das imagens. As partes reais dos dados de imagem são sequencialmente inseridas na unidade de transmissão de imagem 151b em um estado de fluxos contínuos dos valores de pixel. O mesmo se aplica às Figs. 13 e 14. Então, a unidade de transmissão de imagem 151b seleciona e extrai apenas os dados especificados em S10, gera dados de transmissão pelo empacotamento dos dados na forma e transmite os dados de transmissão (S16).

[00121] Mediante recepção dos dados, o terminal hospedeiro 20 implementa imagens na memória principal 58. Em decorrência disto, a íntegra da área 240 de uma imagem desmosaicada em 1/1, a íntegra da área 242 de uma imagem desmosaicada em 1/4, a íntegra da área 244 de uma imagem desmosaicada em 1/16, a íntegra da área 246 de uma imagem desmosaicada em 1/64, uma imagem de diferença 248 de uma imagem desmosaicada em 1/256, metadados 250 que contém a área de uma face, a área de um objeto e um registro de tempo, e uma imagem com profundidade 252 são armazenados na memória principal 58.

[00122] A CPU 50 e a GPU 52 do terminal hospedeiro 20 geram uma imagem a ser exibida usando estas partes de dados e exibem a imagem na tela 4 (S18, S20). Por exemplo, a CPU 50 e a GPU 52 detectam uma área com movimento da imagem de diferença de movimento 248 e adquire informação de profundidade do objeto na área da imagem com profundidade 252. A CPU 50 e a GPU 52 reconhecem um gesto de um usuário que é um indivíduo pela continuação deste por uma pluralidade de quadros. Então, a CPU 50 e a GPU 52 exibem uma imagem obtida pela realização de um processo predeterminado de acordo com o gesto, em uma área da face ou similares na íntegra da área 240 da imagem desmosaicada em 1/1.

[00123] O tamanho dos dados transmitidos da câmera estéreo 100b ao terminal hospedeiro 20 por unidade tempo nesta modalidade exemplar é 2,1 Gbps no total, da forma mostrada a seguir: Dados 1: (1.280 * 720 pixels) * (60 fps) * (16 bits) = 885 Mbps Dados 2: (850 * 370 pixels) * (60 fps) * (16 bits) = 300 Mbps Dados 3: (1.280 * 720 pixels) * (60 fps) * (16 bits) = 885 Mbps

[00124] A Fig. 13 ilustra um fluxograma que mostra um outro exemplo de um procedimento de processamento do processo de imagem realizado pelo terminal hospedeiro 20 e pela câmera estéreo 100b em cooperação um com o outro e ilustra exemplos de imagem que são produzidos. Como no caso da Fig. 12, o terminal hospedeiro 20 especifica condições iniciais e dados necessários e provê à câmera estéreo 100b uma instrução para iniciar a captura de imagem e uma solicitação para transmitir dados (S22).

[00125] Considera-se que as condições iniciais neste exemplo são iguais àquelas no exemplo mostrado na Fig. 12. Como os dados necessários, uma única parte de dados é especificada como segue: Dados 1: (imagem sintetizada esquerda, YUV422: 16 bits, 0, 0, 850, 367, área da face, área do objeto, registro de tempo)

[00126] Estes dados são iguais aos dados 2 no exemplo mostrado na Fig. 12.

[00127] Mediante recepção da especificação das condições iniciais e da solicitação dos dados, a primeira câmera 190a e a segunda câmera 190b da câmera estéreo 100b iniciam a captura de uma imagem em movimento sob as condições iniciais (S24). Cada uma da primeira câmera 190a, da segunda câmera 190b, da unidade de processamento de correspondência estéreo 192 gera uma parte de dados de imagem (S26). Os dados de imagem gerados neste momento são iguais aos dados de imagem gerados em S14 mostrados na Fig. 12.

[00128] Então, a unidade de transmissão de imagem 151b seleciona e extrai apenas os dados especificados em S22, gera dados de transmissão pelo empacotamento dos dados na forma de fluxos contínuos e transmite os dados de transmissão (S28). Mediante recepção dos dados, o terminal hospedeiro 20 implementa imagens na memória principal 58. Em decorrência disto, a íntegra da área 242 de uma imagem desmosaicada em 1/4, a íntegra da área 244 de uma imagem desmosaicada em 1/16, a íntegra da área 246 de uma imagem desmosaicada em 1/64, uma imagem de diferença 248 de uma imagem desmosaicada em 1/256 e metadados 250 que contêm a área de uma face, a área de um objeto e um registro de tempo são armazenados na memória principal 58.

[00129] A CPU 50 do terminal hospedeiro 20 determina, como uma área de interesse, uma área com movimento especificada a partir da imagem de diferença 248 ou uma área de uma faixa predeterminada que inclui a área da face ou a área do objeto contidas nos metadados 250 (S30). Então, a CPU 50 especifica a área de interesse e faz uma solicitação de dados de forma inovadora (S32). Neste caso, por exemplo, duas partes de dados são especificadas como segue: Dados 2: (imagem esquerda, RAW: 16 bits, Fx, Fy, Fw, Fh) Dados 3: (imagem com profundidade, RAW: 8 bits, Hx, Hy, Hw, Hh)

[00130] Os dados 2 representam uma área cujas coordenadas superior esquerda são (Fx, Fy) com larguras de (Fw, Fh), que é determinada como a área de interesse que incluindo a área da face, nas direções horizontal e vertical em uma imagem RAW (16 bits) capturada pela câmera do lado esquerdo da câmera estéreo 100b. Os dados 3 representam uma área cujas coordenadas superior esquerda são (Hx, Hy) com larguras de (Hw, Hh), que é determinada como a área de interesse que inclui a área do objeto, nas direções horizontal e vertical em uma imagem com profundidade (cujos pixels são representados pela informação de posição de 8 bits na direção da profundidade) gerada pela unidade de processamento de correspondência estéreo 192.

[00131] A unidade de transmissão de imagem 151b da câmera estéreo 100b extrai respectivas partes de dados das áreas especificadas da imagem RAW e da imagem com profundidade no momento em que um novo quadro de cada uma das imagens for inserido, gera dados de transmissão pelo empacotamento das respectivas partes de dados na forma de fluxos contínuos e transmite os dados empacotados (S34). Mediante recepção dos dados, o terminal hospedeiro 20 implementa imagens na memória principal 58. Em decorrência disto, uma imagem RAW da área que inclui a face e uma imagem com profundidade 256 da área que inclui o objeto são armazenadas na memória principal 58.

[00132] A CPU 50 e a GPU 52 do terminal hospedeiro 20 geram uma imagem a ser exibida usando estas partes de dados e exibem a imagem na tela 4 (S36, S38). Por exemplo, pela sintetização da imagem RAW 254 da área que inclui a face com um plano de fundo da imagem desmosaicada em 1/4, a CPU 50 e a GPU 52 exibem uma imagem na qual apenas a área da face que mostra uma mudança na expressão facial ou similares está nítida ao mesmo tempo em que suprime um tamanho dos dados. Além do mais, a CPU 50 e a GPU 52 podem adquirir a informação de profundidade do objeto a partir da imagem com profundidade 256, reconhecer o gesto do usuário e realizar um processo predeterminado de acordo com o gesto.

[00133] Pela repetição dos processos em S30 - S38, mesmo quando a face e o objeto forem movidos, dados necessários relacionados ao movimento podem ser adquiridos constantemente sem nenhum desperdício e refletidos na exibição da imagem. Em decorrência disto, o tamanho dos dados a serem transmitidos da câmera estéreo 100b ao terminal hospedeiro 20 pode ser suprimido.

[00134] Se for considerado, na especificação de dados exposta, que (Fw, Fh) é (400, 600) e que (Hw, Hh) é (320, 450), o tamanho dos dados transmitidos da câmera estéreo 100b ao terminal hospedeiro 20 por unidade tempo nesta modalidade exemplar é 600 Mbps no total, da forma mostrada a seguir: Dados 1: (850 * 370 pixels) * (60 fps) * (16 bits) = 300 Mbps Dados 2: (400 * 600 pixels) * (60 fps) * (16 bits) = 230 Mbps Dados 3: (320 * 450 pixels) * (60 fps) * (8 bits) = 70 Mbps

[00135] A Fig. 14 ilustra um fluxograma que mostra um outro exemplo de um procedimento de processamento do processo de imagem realizado pelo terminal hospedeiro 20 e pela câmera estéreo 100b em cooperação um com o outro e ilustra exemplos de imagem que são produzidos. Como no caso da Fig. 12, o terminal hospedeiro 20 especifica condições iniciais e dados necessários e provê à câmera estéreo 100b uma instrução para iniciar a captura de imagem e uma solicitação para transmitir dados (S40).

[00136] As condições iniciais neste exemplo são especificadas como segue: Primeira câmera: resolução 1.280 * 720, taxa de quadro 30 fps Segunda câmera: resolução 1.280 * 720, taxa de quadro 15 fps Correspondência estéreo: resolução 320 * 180, taxa de quadro 15 fps Os dados necessários são especificados como segue: Dados 1: (imagem sintetizada esquerda, Y (diferença de movimento): 8 bits, 840, 8, 10, 360, registro de tempo) Dados 2: (imagem sintetizada esquerda, YUV422: 16 bits, 800, 0, 4, 40, 360, área da face, registro de tempo) Dados 3: (imagem com profundidade, Z: 8 bits, 20, 15, 280, 150, registro de tempo)

[00137] Os dados 1 representam a área de uma imagem de diferença em uma imagem Y, isto é, uma área cujas coordenadas superior esquerda são (840,8) com larguras de (10, 360) nas direções horizontal e vertical em uma imagem sintetizada de uma imagem capturada pela câmera do lado esquerdo. Adicionalmente nos dados 1, um registro de tempo no momento da captura da imagem original é especificado como adicionado como metadados.

[00138] Os dados 2 representam uma área cujas coordenadas superior esquerda são (800,4) com larguras de (40, 360) nas direções horizontal e vertical em uma imagem sintetizada (YUV422: 16 bits) da imagem capturada pela câmera do lado esquerdo, isto é, a área de uma imagem desmosaicada em 1/64. Adicionalmente nos dados 2, a área de uma face obtida em decorrência da realização de um processo de detecção de face e um registro de tempo no momento da captura da imagem original são especificados como adicionados como metadados. Informação de área das imagens incluídas na imagem sintetizada que são especificadas pelos dados 1 e pelos dados 2 pode ser especificada de acordo com a regra para o arranjo mostrado na Fig. 7.

[00139] Os dados 3 representam uma área cujas coordenadas superior esquerda são (20,15) com larguras de (280, 150) nas direções horizontal e vertical em uma imagem com profundidade (cujos pixels são representados pela informação de posição de 8 bits na direção da profundidade) gerada pela unidade de processamento de correspondência estéreo 192. Esta é uma área obtida pelo corte da borda de topo e da borda de base da imagem com profundidade, cada qual em uma quantidade de 15 pixels e pelo corte da borda esquerda e da borda direita, cada qual em uma quantidade de 20 pixels. A área é considerada como uma área que tem um significado como informação de profundidade. O tamanho dos dados também pode ser suprimido desta maneira. Adicionalmente nos dados 3, um registro de tempo no momento da captura da imagem original é especificado como adicionado como metadados.

[00140] Mediante recepção da especificação das condições iniciais e da solicitação dos dados, a primeira câmera 190a e a segunda câmera 190b da câmera estéreo 100b iniciam a captura de uma imagem em movimento sob as condições iniciais (S42). Cada uma da primeira câmera 190a, da segunda câmera 190b, da unidade de processamento de correspondência estéreo 192 gera uma parte de dados de imagem (S44). Uma imagem obtida neste caso é simples, se comparada com os exemplos mostrados nas Figs. 12 e 13 em termos do tamanho da imagem, de um espaço de cor, de uma taxa de quadro e similares.

[00141] Então, a unidade de transmissão de imagem 151b seleciona e extrai apenas os dados especificados em S40, gera dados de transmissão pelo empacotamento dos dados na forma de fluxos contínuos e transmite os dados de transmissão (S46). Mediante recepção dos dados, o terminal hospedeiro 20 implementa imagens na memória principal 58. Em decorrência disto, uma imagem de diferença 260 de uma imagem desmosaicada em 1/256, um registro de tempo 262 da imagem original desta, a íntegra da área 260 de uma imagem desmosaicada em 1/64, metadados 266 que contêm a área de uma face e um registro de tempo, uma imagem com profundidade 268 cuja periferia foi cortada e um registro de tempo 270 da imagem original desta são armazenados na memória principal 58.

[00142] A CPU 50 e a GPU 52 do terminal hospedeiro 20 geram uma imagem a ser exibida usando estas partes de dados e exibem a imagem na tela 4 (S48, S50). Por exemplo, a CPU 50 e a GPU 52 detectam uma área com movimento da imagem de diferença 260 e adquirem informação de profundidade do objeto na área da imagem com profundidade 268. Isto permite que a CPU 50 e a GPU 52 reconheçam um gesto de um usuário que é um sujeito e, então, exibam uma imagem obtida pela realização de um processo predeterminado de acordo com o gesto, em uma área da face ou similares obtida a partir dos metadados 266 na íntegra da área 260 da imagem desmosaicada em 1/64.

[00143] Neste exemplo, pela diminuição de uma taxa de quadro ou transmissão apenas de uma imagem com uma baixa resolução, a quantidade de consumo de um recurso que inclui uma largura de banda de transmissão é suprimida, ao mesmo tempo em que se mantém a íntegra da área como um alvo para transmissão e processamento. Já que a íntegra da área é transmitida, a etapa adaptativa para especificar uma área mostrada na Fig. 13 pode ser omitida. Mesmo quando um tamanho dos dados para um único quadro for diferente em três partes de dados que são transmitidas, de maneira tal que dados para um único quadro cheguem no terminal hospedeiro 20 em um sincronismo diferente, dependendo de uma parte de dados, um relacionamento de correspondência entre as partes de dados pode ser facilmente identificado pela adição, para cada quadro, de um registro de tempo no momento da captura da imagem original.

[00144] O tamanho dos dados transmitidos da câmera estéreo 100b ao terminal hospedeiro 20 por unidade tempo nesta modalidade exemplar é 9,5 Mbps no total, da forma mostrada a seguir: Dados 1: (10 * 360 pixels) * (30 fps) * (8 bits) = 864 kbps Dados 2: (160 * 90 pixels) * (15 fps) * (16 bits) = 3.5 Mbps Dados 3: (280 * 150 pixels) * (15 fps) * (8 bits) = 5 Mbps

[00145] De acordo com a presente modalidade supradescrita, recursos na primeira e na segunda modalidades são aplicados em uma câmera estéreo. Adicionalmente, um mecanismo para realizar correspondência estéreo é provido na câmera estéreo. Neste caso, dados especificados pelo terminal hospedeiro podem ser transmitidos com baixa latência dentre dados diversificados, tais como uma imagem RAW gerada por cada câmera, uma imagem desmosaicada em 1/1, uma imagem sintetizada e uma imagem com profundidade obtidas em decorrência da correspondência estéreo, informação de uma área da face obtida em decorrência da detecção de face e informação da área de um objeto obtida em decorrência de um processo de rastreamento. Portanto, uma carga de processamento do terminal hospedeiro é reduzida, e pelo efeito sinérgico com um aumento na eficiência da transmissão de dados a partir de uma câmera, exibição de imagem que segue o movimento de um sujeito com baixa latência torna-se possível.

[00146] Foi supradescrita uma explicação da presente invenção com base nas modalidades. Pretende-se que as modalidades sejam ilustrativas somente, e ficará óbvio aos versados na técnica que várias modificações nos elementos constituintes e processos podem ser desenvolvidas e que tais modificações também estão no escopo da presente invenção.

DESCRIÇÃO DOS NÚMEROS DE REFERÊNCIA

[00147] 4 tela, 10 sistema de câmera de baixa latência, 20 terminal hospedeiro, 50 CPU, 52 GPU, 58 memória principal, 60 unidade de comunicação, 64 unidade de solicitação de dados, 66 unidade de processamento de dados, 68 unidade de implementação de dados, 100 câmera, 104 unidade de desmosaicagem, 108 unidade de comunicação, 149 armazenamento temporário PEPS, 150 armazenamento temporário PEPS, 151 unidade de transmissão de imagem, 156 unidade de síntese de imagem, 154 unidade de seleção de dados, 162 unidade de empacotamento, 164 unidade de controle, 166 unidade de seleção de fluxo contínuo, 168 unidade de corte, 170 unidade de filtro de pirâmide, 172a primeiro canal, 172b segundo canal, 172c terceiro canal, 174 unidade de geração de imagem de diferença, 176 unidade de análise da imagem, 190a primeira câmera, 190b segunda câmera, 192 unidade de processamento de correspondência estéreo

APLICABILIDADE INDUSTRIAL

[00148] Da forma supradescrita, a presente invenção é aplicável em um dispositivo de processamento de informação, tais como um computador, uma câmera, um dispositivo de jogos e um dispositivo de exibição de imagem.

Claims

1. Dispositivo de captura de imagem em movimento (100), caracterizado pelo fato de que compreende: uma unidade de geração de dados de imagem (104, 170) configurada para gerar respectivas partes de dados de uma pluralidade de imagens com diferentes resoluções, cada qual em uma ordem de pixel predeterminada, pela redução, em múltiplos estágios, de cada quadro de uma imagem em movimento adquirida pela captura de imagem de um objeto e para transmitir sequencialmente as partes de dados em uma forma de fluxos contínuos; uma unidade de síntese de imagem (156) configurada para gerar, pela conexão, para cada linha de pixels para uma única linha horizontal de uma imagem ou para cada linha de pixels em uma faixa menor, das respectivas partes de dados de uma pluralidade de imagens predeterminadas dentre as respectivas partes de dados da pluralidade de imagens transmitidas pela unidade de geração de dados de imagem e, então, pela transmissão das respectivas partes de dados da pluralidade de imagens predeterminadas em uma forma de fluxos contínuos, uma imagem sintetizada virtual que contém a pluralidade de imagens predeterminadas; e uma unidade de transmissão de imagem (151) configurada para gerar um fluxo contínuo de dados a ser transmitido, mediante recepção de uma solicitação para transmitir os dados a partir de um terminal hospedeiro, pela extração de dados para pixels incluídos em uma imagem e uma área que são solicitados a partir de uma pluralidade de fluxos contínuos que são transmitidos a partir da unidade de geração de dados de imagem e da unidade de síntese de imagem e para transmitir o fluxo contínuo de dados ao terminal hospedeiro.

2. Dispositivo de captura de imagem em movimento de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de síntese de imagem (156) transmite dados para uma única linha de pixels da imagem sintetizada usando, como um ciclo de referência, um período no qual dados para uma única linha de pixels de uma imagem com a resolução mais alta são gerados dentre imagens submetidas à síntese e ajusta a faixa de linhas de pixels a ser conectada, de maneira tal que dados sejam uniformemente transmitidos neste ciclo de geração para uma imagem com uma resolução diferente para a qual dados para uma única linha são gerados em um ciclo que é mais longo que o ciclo de referência.

3. Dispositivo de captura de imagem em movimento de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de transmissão de imagem (151) inclui uma unidade de corte (168) para cortar, em unidades de linhas de pixels que constituem um fluxo contínuo, uma área retangular em uma imagem para a qual transmissão de dados é solicitada pelo terminal hospedeiro (20), em que a unidade de síntese de imagem (156) conecta respectivas partes de dados das imagens submetidas à síntese, de maneira tal que cada uma das imagens constitua uma área retangular na imagem sintetizada, e em que a unidade de corte (168) corta qualquer uma das imagens submetidas à síntese a partir da imagem sintetizada em unidades de linhas de pixels e transmite uma imagem que é cortada ao terminal hospedeiro (20) de acordo com uma solicitação proveniente do terminal hospedeiro (20).

4. Dispositivo de captura de imagem em movimento de acordo com a reivindicação 1, caracterizado pelo fato de que compreende adicionalmente: uma unidade de geração de imagem de diferença (174) configurada para gerar uma imagem de diferença com uma resolução predeterminada pela adoção de uma diferença interquadros das imagens com a resolução predeterminada dentre a pluralidade de imagens com diferentes resoluções, e a unidade de síntese de imagem (156) inclui a imagem de diferença como uma imagem submetida à síntese.

5. Dispositivo de captura de imagem em movimento de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de transmissão de imagem (151) lê uma pluralidade de fluxos contínuos que são transmitidos a partir da unidade de geração de dados de imagem e da unidade de síntese de imagem (156) em paralelo e gera um fluxo contínuo a ser transmitido por pelo menos uma parte de um fluxo contínuo selecionado a partir da pluralidade de fluxos contínuos de acordo com uma solicitação proveniente do terminal hospedeiro (20).

6. Dispositivo de captura de imagem em movimento de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de transmissão de imagem (151) inclui uma pluralidade de canais de saída para realizar transmissão de dados ao terminal hospedeiro (20) e transmite, quando respectivas partes de dados de uma pluralidade de áreas forem solicitadas pelo terminal hospedeiro (20), respectivos fluxos contínuos gerados para as partes de dados em paralelo a partir da pluralidade de canais de saída.

7. Dispositivo de captura de imagem em movimento de acordo com a reivindicação 1, caracterizado pelo fato de que compreende adicionalmente: uma unidade de detecção de face configurada para identificar a área de uma face humana, que é um objeto, pela realização de um processo de detecção de face em qualquer uma da pluralidade de imagens, e em que de acordo com uma solicitação proveniente do terminal hospedeiro (20), a unidade de transmissão de imagem (151) insere, como metadados, dados relacionados à área da face identificada pela unidade de detecção de face em uma posição predeterminada de um fluxo contínuo de dados de imagem que foi gerado e transmite o fluxo contínuo ao terminal hospedeiro (20).

8. Dispositivo de captura de imagem em movimento de acordo com a reivindicação 1, caracterizado pelo fato de que compreende adicionalmente: uma unidade de rastreamento configurada para adquirir informação de forma de um objeto a ser rastreado a partir do terminal hospedeiro (20) e para realizar um processo de rastreamento do objeto com base na informação de forma, e em que de acordo com uma solicitação proveniente do terminal hospedeiro (20), a unidade de transmissão de imagem (151) insere, como metadados, dados relacionados à posição do objeto identificado pela unidade de rastreamento em uma posição predeterminada de um fluxo contínuo de dados de imagem que foi gerado e transmite o fluxo contínuo ao terminal hospedeiro (20).

9. Dispositivo de captura de imagem em movimento, caracterizado pelo fato de que compreende um par de câmeras para capturar uma imagem de um único objeto a partir de diferentes pontos de visualização direito e esquerdo, em que cada uma do par de câmeras (100b) inclui: uma unidade de geração de dados de imagem (104, 170) configurada para gerar respectivas partes de dados de uma pluralidade de imagens com diferentes resoluções, cada qual em uma ordem de pixel predeterminada, pela redução, em múltiplos estágios, de cada quadro de uma imagem em movimento adquirida pela captura de uma imagem do objeto e para transmitir sequencialmente as partes de dados em uma forma de fluxos contínuos; e uma unidade de síntese de imagem (156) configurada para gerar, pela conexão, para cada linha de pixels para uma única linha horizontal de uma imagem ou para cada linha de pixels em uma faixa menor, das respectivas partes de dados de uma pluralidade de imagens predeterminadas dentre as respectivas partes de dados da pluralidade de imagens transmitidas pela unidade de geração de dados de imagem e, então, pela transmissão das respectivas partes de dados da pluralidade de imagens predeterminadas em uma forma de fluxos contínuos, uma imagem sintetizada virtual que contém a pluralidade de imagens predeterminadas, e em que o dispositivo de captura de imagem em movimento compreende adicionalmente: uma unidade de processamento de correspondência estéreo (192) configurada para gerar uma imagem com profundidade que indica a posição do objeto em um espaço tridimensional em uma ordem de pixel predeterminada pela realização de correspondência estéreo nas respectivas partes de dados das imagens com uma resolução predeterminada dentre respectivas partes de dados das imagens de diferentes pontos de visualização que são geradas pelo par de câmeras e para transmitir sequencialmente a imagem com profundidade em uma forma de fluxos contínuos; e uma unidade de transmissão de imagem (151) configurada para gerar um fluxo contínuo de dados a ser transmitido, mediante recepção de uma solicitação para transmitir dados a partir de um terminal hospedeiro, pela extração de dados de pixels incluídos em uma imagem e uma área que são solicitados a partir de uma pluralidade de fluxos contínuos que são transmitidos a partir da unidade de geração de dados de imagem, da unidade de síntese de imagem (156) e da unidade de processamento de correspondência estéreo (192) e para transmitir o fluxo contínuo de dados ao terminal hospedeiro (20).

10. Sistema de processamento de informação, caracterizado pelo fato de que compreende: um dispositivo de captura de imagem em movimento para capturar uma imagem de um objeto e gerar dados de uma imagem em movimento; e um terminal hospedeiro (20) para adquirir uma parte dos dados da imagem em movimento a partir do dispositivo de captura de imagem em movimento e exibir uma imagem depois da realização de um processo de imagem predeterminado usando a parte dos dados, em que o dispositivo de captura de imagem em movimento inclui: uma unidade de geração de dados de imagem configurada para gerar respectivas partes de dados de uma pluralidade de imagens com diferentes resoluções, cada qual em uma ordem de pixel predeterminada, pela redução, em múltiplos estágios, de cada quadro de uma imagem em movimento adquirida pela captura de imagem e para transmitir sequencialmente as partes de dados em uma forma de fluxos contínuos; uma unidade de síntese de imagem (156) configurada para gerar, pela conexão, para cada linha de pixels para uma única linha horizontal de uma imagem ou para cada linha de pixels em uma faixa menor, das respectivas partes de dados de uma pluralidade de imagens predeterminadas dentre as respectivas partes de dados da pluralidade de imagens transmitidas pela unidade de geração de dados de imagem e, então, pela transmissão das respectivas partes de dados da pluralidade de imagens predeterminadas em uma forma de fluxos contínuos, uma imagem sintetizada virtual que contém a pluralidade de imagens predeterminadas; e uma unidade de transmissão de imagem (151) configurada para gerar um fluxo contínuo de dados a ser transmitido pela extração de dados para pixels incluídos em uma imagem e uma área que são solicitados a partir de uma pluralidade de fluxos contínuos que são transmitidos a partir da unidade de geração de dados de imagem e da unidade de síntese de imagem (156) e, então, para transmitir o fluxo contínuo de dados ao terminal hospedeiro (20).

11. Dispositivo de processamento de informação, caracterizado pelo fato de que compreende: uma unidade de solicitação de dados (64) configurada para solicitar que uma câmera (100) que captura de uma imagem de um objeto transmita dados de imagem de um quadro de uma imagem em movimento pela especificação de uma resolução e uma área em uma imagem; uma unidade de implementação de dados (68) configurada para implementar os dados de imagem, que são transmitidos a partir da câmera de acordo com uma solicitação, em uma forma de um fluxo contínuo no qual valores de pixel da área especificada são conectados para cada linha de pixels, como dados de imagem bidimensional; e uma unidade de processamento de dados (66) configurada para exibir uma imagem depois da realização de um processo de imagem predeterminado usando os dados de imagem bidimensional, em que a unidade de solicitação de dados especifica uma imagem sintetizada, que é gerada no interior da câmera, na qual uma pluralidade de imagens com diferentes resoluções obtidas pela redução do quadro da imagem em movimento em múltiplos estágios são arranjadas em respectivas áreas retangulares predeterminadas, e em que a unidade de implementação de dados realiza separação de imagem pela implementação da imagem sintetizada transmitida a partir da câmera em uma parte de dados de imagem bidimensional individual para cada uma das imagens submetidas à síntese.

12. Método de processamento de dados de imagem realizado por um dispositivo de captura de imagem em movimento, caracterizado pelo fato de que compreende: gerar respectivas partes de dados de uma pluralidade de imagens com diferentes resoluções, cada qual em uma ordem de pixel predeterminada pela redução, em múltiplos estágios, de cada quadro de uma imagem em movimento adquirida pela captura de uma imagem de um objeto e sequencial transmissão das partes de dados em uma forma de fluxos contínuos; gerar, pela conexão, para cada linha de pixels para uma única linha horizontal de uma imagem ou para cada linha de pixels em uma faixa menor, das respectivas partes de dados de uma pluralidade de imagens predeterminadas dentre as respectivas partes de dados da pluralidade de imagens transmitidas na transmissão e, então, pela transmissão das respectivas partes de dados da pluralidade de imagens predeterminadas em uma forma de fluxos contínuos, uma imagem sintetizada virtual que contém a pluralidade de imagens predeterminadas; e gerar um fluxo contínuo de dados a ser transmitido, mediante recepção de uma solicitação para transmitir dados a partir de um terminal hospedeiro (20), pela extração de dados para pixels incluídos em uma imagem e uma área que são solicitados a partir de uma pluralidade de fluxos contínuos transmitidos na transmissão e na geração e transmissão do fluxo contínuo de dados ao terminal hospedeiro (20).

13. Mídia de gravação legível por computador não transitória, caracterizada pelo fato de que tem, incorporado em si, instruções legíveis por computador, quando executadas em um processador, fazem com que o computador realize as etapas de: gerar respectivas partes de dados de uma pluralidade de imagens com diferentes resoluções, cada qual em uma ordem de pixel predeterminada, pela redução, em múltiplos estágios, de cada quadro de uma imagem em movimento adquirida pela captura de uma imagem de um objeto e para transmitir sequencialmente as partes de dados em uma forma de fluxos contínuos; gerar, pela conexão, para cada linha de pixels para uma única linha horizontal de uma imagem ou para cada linha de pixels em uma faixa menor, das respectivas partes de dados de uma pluralidade de imagens predeterminadas dentre as respectivas partes de dados da pluralidade de imagens transmitidas ao transmitir as partes de dados e, então, pela transmissão das respectivas partes de dados da pluralidade de imagens predeterminadas em uma forma de fluxos contínuos, uma imagem sintetizada virtual que contém a pluralidade de imagens predeterminadas; e gerar um fluxo contínuo de dados a ser transmitido, mediante recepção de uma solicitação para transmitir dados a partir de um terminal hospedeiro, pela extração de dados para pixels incluídos em uma imagem e uma área que são solicitados a partir de uma pluralidade de fluxos contínuos que são transmitidos ao transmitir as partes de dados e ao gerar a imagem sintetizada virtual e para transmitir o fluxo contínuo de dados ao terminal hospedeiro.