BRPI0716810A2 - Método de codificação e método de decodificação de imagens, aparelhos para tal, aparelho de decodificação de imagem, programa para tal e meios de armazenamento para armazenar os programas. - Google Patents

Método de codificação e método de decodificação de imagens, aparelhos para tal, aparelho de decodificação de imagem, programa para tal e meios de armazenamento para armazenar os programas. Download PDF

Info

Publication number
BRPI0716810A2
BRPI0716810A2 BRPI0716810-1A2A BRPI0716810A BRPI0716810A2 BR PI0716810 A2 BRPI0716810 A2 BR PI0716810A2 BR PI0716810 A BRPI0716810 A BR PI0716810A BR PI0716810 A2 BRPI0716810 A2 BR PI0716810A2
Authority
BR
Brazil
Prior art keywords
image
vector
pseudorange
target
coding
Prior art date
Application number
BRPI0716810-1A2A
Other languages
English (en)
Inventor
Shinya Shimizu
Masaki Kitahara
Kazuto Kamikura
Yoshiyuki Yashima
Original Assignee
Nippon Telegraph & Telephone
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph & Telephone filed Critical Nippon Telegraph & Telephone
Publication of BRPI0716810A2 publication Critical patent/BRPI0716810A2/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/523Motion estimation or motion compensation with sub-pixel accuracy

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Relatório Descritivo da Patente de Invenção para "MÉTODO DE CODIFICAÇÃO E MÉTODO DE DECODIFICAÇÃO DE IMAGENS, APA- RELHOS PARA TAL, PROGRAMA PARA TAL E MEIOS DE ARMAZE- NAMENTO PARA ARMAZENAR OS PROGRAMAS".
CAMPO TÉCNICO
A presente invenção refere-se à técnicas de codificação e deco- dificação de imagens de múltiplos pontos de vista.
Prioridade é reivindicada em relação ao Pedido de Patente Ja- ponês No. 2006 -253845, depositado em 20 de setembro de 2006, cujos conteúdos são aqui incorporados através de referência. TÉCNICA ANTERIOR
As imagens de múltiplos pontos de vista são imagens obtidas através de fotografia do mesmo objeto e seu fundo por meio do uso de uma pluralidade de câmeras e imagens de vídeo de múltiplos pontos de vista. Abaixo, uma imagem de vídeo obtida por uma única câmera é chamada uma "imagem de vídeo bidimensional" e um conjunto de múltiplas imagens de vídeo obtidas através de fotografia do mesmo objeto e seu fundo é chamado uma "imagem de vídeo de múltiplos pontos de vista".
Como há uma forte correlação entre imagens de vídeo bidimen- sionais, a sua eficiência da codificação é aperfeiçoada pelo uso de uma cor- relação. Por outro lado, quando as câmeras para obtenção de imagens de múltiplos pontos de vista ou imagens de vídeo de múltiplos pontos de vista estão sincronizadas umas com as outras, as imagens (das câmeras) corres- pondentes ao mesmo tempo capturaram o objeto cuja imagem é formada e seu fundo totalmente no mesmo estado de diferentes posições, de modo que há uma forte correlação entre as câmeras. A eficiência da codificação das imagens de múltiplos pontos de vista ou das imagens de vídeo de múltiplos pontos de vista pode ser aperfeiçoada usando essa correlação.
Primeiro, técnicas convencionais referentes à codificação de i- magens de vídeo bidimensionais serão mostradas.
Em muitos métodos conhecidos de codificação de imagens de vídeo bidimensionais, tais como H.264, MPEG-2, MPEG-4 (que são padrões de codificação internacionais) e similares, codificação altamente eficiente é realizada por meio de compensação de movimento, transformação ortogo- nal, quantificação, codificação de entropia ou similar.
Por exemplo, o documento não-patente 1 descreve técnicas de-
talhadas de compensação de movimento usadas em H.264. Seguem suas explanações gerais.
De acordo com a compensação de movimento em H.264, um quadro-alvo para codificação pode ser dividido em blocos de qualquer tama- nho e cada bloco pode ter vetor de movimento e imagem de referência indi- viduais. Além disso, a imagem de referência é submetida à filtragem de mo- do a gerar uma imagem de vídeo baseada em posição de meio ou um quarto de pixel, assim, implementando a compensação de movimento de uma pre- cisão mais fina de um nível de pixel de um quarto e, desse modo, implemen- tando a codificação tendo uma eficiência maior em comparação com a codi- ficação com base em qualquer padrão de codificação internacional conven- cional.
A seguir, um método de codificação convencional de imagens de múltiplos pontos de vista ou imagens de vídeo de múltiplos pontos de vista será explicado.
A diferença entre a codificação de imagens de múltiplos pontos de vista e a codificação de imagens de vídeo de múltiplos pontos de vista é que as imagens de vídeo de múltiplos pontos de visão têm não só uma cor- relação entre as câmeras, mas também uma correlação temporal. Contudo, o mesmo método usando a correlação entre as câmeras pode ser aplicado às imagens de múltiplos pontos de vista e às imagens de vídeo de múltiplos pontos de vista. Portanto, métodos usados na codificação de imagens de vídeo de múltiplos pontos de vista serão explicados abaixo.
Como a codificação de imagens de vídeo de múltiplos pontos de vista usa uma correlação entre câmeras, as imagens de vídeo de múltiplos pontos de vista são alta e eficientemente codificadas em um método conhe- cido, que usa "compensação de paralaxe (ou disparidade)", em que com- pensação de movimento é aplicada às imagens obtidas por diferentes câme- ras ao mesmo tempo. Aqui, "paralaxe" (ou disparidade) é a diferença entre posições, para as quais o mesmo ponto em um objeto cuja imagem é forma- da é projetado, nos planos de imagens de câmeras que são dispostas em posições diferentes.
A figura 8 é uma vista esquemática mostrando o conceito de pa- ralaxe gerado entre essas câmeras. Na vista esquemática da figura 8, pla- nos de imagens de câmeras, cujos eixos óticos são paralelos uns aos ou- tros, são procurados (verticalmente) de seu lado superior para baixo. Em geral, esses pontos, para os quais o mesmo ponto em um objeto cuja ima- gem é formada é projetada, em planos de imagens de câmeras diferentes, são chamados "pontos correspondentes".
Em compensação de paralaxe, com base na relação correspon- dente acima, cada valor de pixel de um quadro-alvo para codificação é predi- to usando um quadro de referência e o resíduo de predição relevante e da- dos de paralaxe e dados de paralaxe, que indicam a relação corresponden- te, são codificados.
Através do uso de parâmetros de câmeras e da restrição de ge- ometria Epipolar1 a relação correspondente acima pode ser representada por uma quantidade unidimensional, tal como uma distância de uma (como um padrão) das câmeras até o objeto cuja imagem é formada, sem usar um ve- tor bidimensional.
A figura 9 é uma vista esquemática mostrando o conceito da res- trição de geometria Epipolar. De acordo com a restrição de geometria Epipo- lar, quando um ponto em uma imagem de uma câmera corresponde a um ponto em uma imagem de outra câmera, o ponto de outra câmera é restrin- gido em uma linha reta chamada uma "linha Epipolar". Nesse caso, se a dis- tância da câmera até o objeto cuja imagem é formada for obtida para o pixel relevante, o ponto correspondente pode ser determinado na linha Epipolar em uma maneira de correspondência de um para um.
Por exemplo, conforme mostrado na figura 9, um ponto do objeto cuja imagem é formada, que é projetado na posição "m" em uma imagem de câmera A, é projetado (em uma imagem de câmera B) em (i) a posição m' na linha Epipolar, quando o ponto correspondente do objeto cuja imagem é for- mada no espaço real é a posição M', (ii) a posição m" na linha Epipolar, quando o ponto correspondente do objeto cuja imagem é formada no espaço real é a posição M" e (iii) a posição m'" na linha Epipolar, quando o ponto correspondente do objeto cuja imagem é formada no espaço real é a posi- ção M"\
A figura 10 é um diagrama para explicar que pontos correspon- dentes podem ser obtidos entre uma pluralidade de câmeras, quando a dis- tância de uma das câmeras até o objeto cuja imagem é formada é propor- cionada.
De um modo geral, paralaxe varia dependendo do quadro-alvo para codificação e, desse modo, dados de paralaxe devem ser codificados para cada quadro-alvo. Contudo, a distância de uma câmera até o objeto cuja imagem é formada é determinada de acordo com estados físicos do objeto cuja imagem é formada e, desse modo, os pontos correspondentes em imagens da pluralidade de câmeras podem ser representados usando apenas dados da distância de uma câmera até o objeto cuja imagem é for- mada.
Por exemplo, conforme mostrado na figura 10, o ponto corres-
pondente mb em uma imagem de câmera Beo ponto correspondente mc em uma imagem de câmera C, que correspondem, cada um deles, ao ponto ma em uma imagem de câmera A, podem ser representados usando apenas dados da distância da posição do ponto de vista da câmera A até o ponto M no objeto cuja imagem é formada.
De acordo com as características acima, quando os dados de paralaxe são representados pela distância de uma câmera da imagem de referência relevante até o objeto cuja imagem é formada, é possível imple- mentar compensação de paralaxe da imagem de referência relevante para todos os quadros obtidos pelas outras câmeras ao mesmo tempo, onde as relações posicionais entre as câmeras foram obtidas. No documento não- patente 2, o número de itens de dados de paralaxe que devem ser codifica- dos é diminuído, usando as características acima, de modo a realizar codifi- cação altamente eficiente de imagens de vídeo de múltiplos pontos de vista.
No documento não-patente 3 é um documento da técnica anteri- or que descreve uma técnica referida em uma modalidade (explicada mais tarde) da presente invenção e explanações referentes aos parâmetros para indicar relações posicionais entre uma pluralidade de câmeras e parâmetros para indicar dados de projeção (por uma câmera) em um plano de imagem.
Documento não-patente 1: ITU-T Rec.H.264/ISO/IEC 11496-10, "Editor's Proposed Draft Text Modifications for Joint Video Specification (ITU- T Rec. H.264 / ISO/IEC 14496-10 AVC), Draft 7", Final Committee Draft, Do- cument JVT-E022, pp. 10-13, and 62-68, September 2002.
Documento não-patente 2: Shinya SHIMIZU, Masaki KITAHARA, Kazuto KAMIKURA and Yoshiyuki YASHIMA, "Multi-view Video Coding ba- sed on 3-D Warping with Depth Map", In Proceedings of Picture Coding Symposium 2006, SS3-6, April, 2006.
Documento não-patente Patente 3: Oliver Faugeras, Three- Dimension Computer Vision-MIT Press; BCTC/UFF-006.37 F259 1993- ISBN:0-262-06158-9, pp. 33-68. DESCRIÇÃO DA INVENÇÃO Problema a Ser Resolvido pela Invenção
Certamente, de acordo com o método descrito no documento não-patente 2, é possível codificar dados de paralaxe com uma quantidade menor de código em comparação com um caso em que dados de paralaxe são codificados para cada imagem-alvo para codificação. Como a codificação de imagens de múltiplos pontos de vista tem
um objeto para codificar cada pixel da imagem-alvo para codificação, é ne- cessário na compensação de paralaxe predizer o valor de cada pixel na i- magem-alvo. Contudo, em um método para fornecimento da distância de uma câmera até o objeto cuja imagem é formada para cada pixel na imagem de referência, o ponto correspondente na imagem de referência é fixo e, as- sim, o ponto correspondente na imagem-alvo para codificação nem sempre coincide com o pixel relevante. Nesse caso, os três métodos a seguir pode ser facilmente antecipados como um método para predizer os valores de todos os pixels na imagem-alvo para codificação.
No primeiro método, a determinação da distância, de modo que cada ponto correspondente na imagem-alvo sempre coincide com a posição de pixel relevante.
Contudo, para uma pluralidade de imagens alvo para codifica- ção, a distância para sempre implementar essa coincidência com a posição de pixel relevante é limitada. Portanto, esse método não pode obter uma compensação de paralaxe para reduzir o erro de predição e, assim, degrada a eficiência total da codificação.
No segundo método, o ponto correspondente determinado na imagem-alvo para codificação é arredondado de modo a coincidir com o pi- xel mais próximo.
Neste método, compensação de paralaxe quase precisa pode ser realizada. Contudo, o processo de arredondamento causa não pouca degradação da precisão de predição. Além disso, os dados que foram obti- dos usando os dados de paralaxe codificados são arredondados. Portanto, em comparação com um caso de codificação de dados arredondados, dados em excesso são codificados. No terceiro método, após o ponto correspondente nas imagens
alvo (para codificação) para cada pixel na imagem de referência ser obtido, cada pixel na imagem-alvo é submetido à interpolação usando valores de pixels dos pontos correspondentes obtidos em torno do pixel relevante.
No terceiro método, todos os dados de paralaxe codificados po- dem ser usados. Contudo, nesse método, os valores de pixels de toda a i- magem-alvo para codificação serão determinados por interpolação, usando valores de pixels distintos, o que requer custo de computação muito alto, de modo a realizar interpolação altamente precisa. Além disso, erro de predição devido à compensação de paralaxe é obtido apenas após os pontos corres- pondentes de todos os pixels serem determinados. Portanto, a fim de obter uma distância para codificação que pode minimizar o erro de predição, o processo a seguir deve ser repetido para todas as combinações de itens de dados de paralaxe, onde o processo inclui a suposição de dados de paralaxe para todos os pixels; determinação de pontos correspondentes na imagem- alvo (para codificação) para todos os pixels na imagem de referência rele- vante através do uso dos dados de paralaxe supostos; e geração de uma imagem predita para a imagem-alvo por meio de sujeição da imagem rele- vante, para a qual valores de pixels distintos foram obtidos, à interpolação, de modo a computar erro de predição. Em conseqüência, a quantidade de computação necessária é muito grande e, assim, é muito difícil obter um conjunto de itens de dados de paralaxe ótimos. Além disso, no método (como descrito no documento não-
patente 2) de fornecimento da distância da câmera até o objeto cuja imagem é formada para cada pixel na imagem de referência, cada ponto correspon- dente na imagem de referência é sempre posicionado em uma posição de pixel inteiro. Portanto, é impossível realizar compensação altamente precisa para movimento fino baseado em valores de pixels em posições de pixels decimais (por exemplo, metade ou um quarto de posições de pixels) na ima- gem de referência, como definido em predição de movimento de H.264.
De um modo geral, para pixels em posições de pixels decimais (por exemplo, meia ou um quarto de posições de pixels) na imagem de refe- rência, compensação de paralaxe altamente precisa pode ser realizada atra- vés do fornecimento da distância da câmera até o objeto cuja imagem é for- mada. Contudo, o número de itens de dados de paralaxe, que devem ser codificados, aumenta, o que degrada a eficiência de codificação.
Além disso, mesmo quando a distância para uma posição de pixel decimal é estimada e uma distância determinada para uma posição de pixel inteiro, a quantidade de computação para obtenção do ponto corres- pondente é aumentado por um múltiplo do mesmo.
À luz das circunstâncias acima, um objetivo da presente inven- ção é proporcionar técnicas de codificação e decodificação de imagem pelas quais, quando compensação de paralaxe para uma imagem-alvo para codifi- cação é realizada, usando dados de paralaxe, que são representados com base na distância para a imagem de referência da câmera até o objeto cuja imagem é formada, alta eficiência de codificação pode ser proporcionada através da realização de compensação de paralaxe com base em posições de pixels decimais, enquanto usando a quantidade máxima de dados de pa- ralaxe que foram usados para codificação, sem aumentar o número de itens de dados de paralaxe, que devem ser codificados. Meios para Resolver o Problema
A fim de resolver os problemas descritos acima, a presente in- venção proporciona um método de codificação de imagens de codificação de imagens de múltiplos pontos de vista, obtidas por uma pluralidade de câme- ras enquanto se realiza predição de imagens intercâmeras por meio do uso de uma imagem de referência já codificada e uma distância de uma das câ- meras que foi usada para obter a imagem de referência até um objeto cuja imagem é formada, o método compreendendo:
uma etapa de determinação de vetor de paralaxe de: determinação de um ponto correspondente em cada imagem-
alvo para codificação, que corresponde a cada pixel em uma imagem de re- ferência, com base na distância proporcionada para cada pixel na imagem de referência e uma relação posicionai entre a câmera usada para obtenção da imagem de referência e a câmera usada para obtenção de cada imagem- alvo; e
computação de um vetor de paralaxe da posição do pixel na i- magem de referência até o ponto correspondente na imagem-alvo em um espaço de pixel;
uma etapa de determinação de vetor preditivo alvo de computa- ção de um vetor preditivo alvo e componentes obtidos pelo arredondamento dos componentes do vetor de paralaxe para inteiros através da omissão da parte decimal de cada componente do vetor de paralaxe ou da seleção de um inteiro mais perto do valor de cada componente do vetor de paralaxe;
uma etapa de determinação de vetor de referência alvo de com- putação de um vetor de referência alvo tendo o mesmo ponto de partida que o vetor de paralaxe e o mesmo tamanho e direção que o vetor diferencial entre o vetor preditivo alvo e o vetor de paralaxe; e uma etapa de predição de imagens intercâmeras de realização da predição de imagens intercâmeras pelo ajuste de um valor predito de um pixel na imagem-alvo, que é indicado pelo vetor preditivo alvo, para um valor de pixel em uma posição de pixel inteiro ou decimal na imagem de referên- cia, que é indicada pelo vetor de referência alvo.
Em conseqüência, dados de um ponto correspondente (que não está sempre posicionado em uma posição de pixel inteiro) na imagem-alvo para codificação, os dados sendo proporcionados para cada posição de pixel inteiro em uma imagem de referência, são usados de modo a realizar predi- ção de imagem por meio de compensação de paralaxe, usando um valor de pixel em uma posição de pixel decimal na imagem de referência, para uma posição de pixel inteiro correspondente na imagem-alvo, assim, proporcio- nando uma alta eficiência de codificação.
Em um exemplo típico, o método de codificação de imagem po- de ainda compreender:
uma etapa de determinação de pseudodistância para determina- ção de uma pseudodistância para cada pixel na imagem de referência, onde a pseudodistância indica um ponto correspondente usado para predição de uma imagem-alvo para codificação da imagem de referência com base na restrição de geometria Epipolar; e
uma etapa de codificação de pseudodistância para codificação de pseudodistância determinada na etapa de determinação de pseudodis- tância,
em que, na etapa de determinação de vetor de paralaxe, a pseudodistância é usada como a distância proporcionada para cada pixel na imagem de referência.
A pseudodistância tem um valor pelo qual um ponto da linha reta Epipolar (na imagem-alvo) para um pixel na imagem de referência é especi- ficado. Mais especificamente, o valor indica uma distância estimada da câ- mera relevante até um objeto obtido no pixel relevante na imagem de refe- rência. A pseudodistância pode ser uma distância propriamente dita, uma distância estimada obtida, por exemplo, através de estéreo correspondência ou um índice correspondente a essa distância.
De acordo com o método acima, mesmo quando uma distância clara da câmera até o objeto cuja imagem é formada não pode ser obtida, compensação de paralaxe, usando um parâmetro de distância, pode ser rea- Iizada por meio da comunicação de um parâmetro, que foi usado em com- pensação de paralaxe no lado de codificação, para o lado de decodificação.
Em um exemplo preferível para o exemplo típico, a etapa de de- terminação de pseudodistância inclui:
determinação de um vetor de paralaxe estimado no espaço de pixel, em que o ponto final do vetor é um ponto correspondente na imagem- alvo, que é computado com base em uma pseudodistância estimada, deter- minada através de estimativa de um valor possível e uma relação posicionai entre as câmeras e o ponto de partida do vetor é definido em um pixel na imagem de referência, para o qual a pseudodistância estimada é proporcio- nada;
determinação de um vetor preditivo alvo estimado, obtido atra- vés de arredondamento do ponto final do vetor de paralaxe estimado para uma posição de pixel inteiro;
determinação de um vetor de referência alvo estimado, tendo o mesmo ponto de partida que o vetor de paralaxe estimado e o mesmo tama- nho e a mesma direção que o vetor diferencial entre o vetor preditivo alvo estimado e o vetor de paralaxe estimado e o vetor de paralaxe estimado; e
ajuste da pseudodistância até a pseudodistância estimada, o que produz a soma total mínima de erros de predição obtida quando a predi- ção de imagens intercâmeras, usando o vetor preditivo alvo estimado e o vetor preditivo alvo estimado, é aplicada a cada imagem-alvo obtida através de fotografia do objeto cuja imagem é formada em um único estado.
Isto é, na etapa de determinação de pseudodistância, (i) o vetor de paralaxe estimado é determinado através de um processo similar àquele realizado na etapa de determinação do vetor de paralaxe, (ii) o vetor prediti- vo alvo estimado é determinado através de um processo que é similar àque- le realizado na etapa de determinação de vetor preditivo alvo e aplicado ao vetor de paralaxe estimado, (iii) o vetor de referência alvo estimado é deter- minado através de um processo que é similar àquele realizado na etapa de determinação de vetor de referência alvo e aplicado ao vetor de paralaxe estimado e ao vetor preditivo alvo estimado, e (iv) a pseudodistância é ajus- tada à pseudodistância estimada, o que produz a soma total mínima de erros de predição, obtida quando a predição de imagem usando o vetor preditivo alvo estimado e o vetor de referência alvo estimado é aplicada à cada ima- gem-alvo através de fotografia do objeto em um estado único.
O método de arredondamento para obtenção do vetor preditivo alvo estimado pode ser um método de omissão da parte decimal ou um mé- todo de arredondamento do valor alvo para o pixel inteiro mais próximo, on- de o método selecionado coincidirá com o processo correspondente realiza- do na compensação de paralaxe.
Quando a distância da câmera até o objeto cuja imagem é for- mada para um pixel é proporcionada, pode ser suposto que a distância da câmera até o objeto cuja imagem é formada para uma posição que é ligei- ramente deslocada do pixel é quase a mesma que a distância proporcionada para o pixel; porém, as duas distâncias nem sempre coincidem perfeitamen- te uma com a outra. Portanto, mesmo quando uma pseudodistância, que está extremamente perto da distância real, é usada (não mencionar um caso de uso de uma pseudodistância adequada), compensação de paralaxe pode ser executada usando um ponto correspondente que produz um grande erro de predição.
Contudo, na presente invenção, uma pseudodistância, que pro- duz um erro de predição (para compensação de paralaxe) menor do que aquele produzido pelas outras distâncias, é usada. Portanto, é possível im- pedir um ponto correspondente que produz um grande erro de predição de ser usado na compensação de paralaxe, assim, proporcionando uma alta eficiência de codificação. Adicionalmente, uma pseudodistância para minimizar um custo
de distorção de taxa pode ser obtida, onde o custo de distorção de taxa é computado através da adição de erro de predição relevante a um valor obti- do através da multiplicação de um valor predito da quantidade de códigos necessária para codificar a pseudodistância por um peso específico. A pseudodistância obtida é mais preferível em consideração da eficiência de codificação embora possa aumentar o erro de predição.
Se uma distorção ocorre na codificação da pseudodistância, en-
tão, uma pseudodistância decodificada, que é obtida pela decodificação da pseudodistância, pode ser usada como a distância na etapa de determina- ção de vetor de paralaxe, de modo que os lados de codificação e decodifica- ção podem usar os mesmos parâmetros, assim, impedindo um desvio que é uma distorção de codificação.
Em outro exemplo preferível para o exemplo típico, o método de codificação de imagem pode ainda compreender:
uma etapa de ajuste de divisão de área para ajustar uma divisão de área na imagem de referência, em que: na etapa de determinação de pseudodistância, a pseudodistân-
cia é determinada para cada área ajustada na etapa de ajuste de divisão de área; e
na etapa de codificação de pseudodistância, a pseudodistância é codificada para cada ajuste de área na etapa de ajuste de divisão de área. Na maioria dos casos, a distância da câmera até o objeto cuja
imagem é formada não muda tão freqüentemente em uma imagem e uma área apropriadamente limitada tem o mesmo valor de distância. Portanto, o número de pseudodistâncias a serem codificadas pode ser reduzido pelo ajuste de uma divisão de área apropriada e determinação e codificação de uma pseudodistância para cada área dividida, assim, reduzindo a quantida- de relevante de código.
Nesse caso, os dados que indicam a divisão de área também serão codificados e transmitidos para o lado de decodificação. Se toda a i- magem de referência tiver sido submetida a uma divisão de área, e cada área dividida tiver sido codificada junto com os dados de divisão de área , o que indica a divisão de área, então a divisão de área para determinação de cada pseudodistância pode coincidir com divisão de área de acordo com os dados de divisão de área incluídos em dados codificados da imagem de re- ferência, assim, omitindo a codificação de dados de divisão de área para a pseudodistância.
Em um ajuste de divisão de área para codificação de imagem, a forma de cada área dividida freqüentemente corresponde à forma de cada objeto cuja imagem é formada. Além disso, a distância da câmera até o obje- to cuja imagem é formada deve ter quase o mesmo valor em cada objeto cuja imagem é formada. Portanto, a quantidade de códigos requerida para os dados de divisão de área pode ser reduzida, eficientemente, pela coinci- dência descrita acima para os dados de divisão de área.
Contudo, a divisão de área para codificação de imagem pode ser ajustada em consideração de diferença na textura (ou na aparência). Portan- to, uma diferença pode ocorrer entre um ajuste de divisão de área para a codificação de imagem e uma divisão de área que produz uma pseudodis- tância correspondente a cada distância relevante. Nesse caso, quando ape- nas dados que indicam a diferença são codificados, a geração de uma gran- de quantidade de códigos, o que é causado pela codificação com relação ao ajuste de divisão de área em toda a imagem, pode ser impedida e a degra- dação na eficiência de predição devido a um erro na divisão de área também pode ser impedida.
Adicionalmente, a distância da câmera até o objeto cuja imagem é formada não muda consideravelmente entre pixels adjacentes e áreas em consideração de características espaciais do objeto cuja imagem é formada no espaço real. Em conseqüência, quando da codificação da pseudodistân- cia, uma pseudodistância já codificada pode ser selecionada e os dados que indicam a pseudodistância já codificada e a diferença entre a pseudodistân- cia-alvo para codificação e a pseudodistância selecionada podem ser codifi- cados, de modo a reduzir a quantidade de código requerido para codificação da pseudodistância.
Além disso, um conjunto de pseudodistância proporcionado para
uma imagem de referência pode ser considerado como uma imagem. Por- tanto, essa imagem pode ser codificada usando um método de codificação de imagem, tal como JPEG ou JPEG 2000, de modo a codificar eficiente- mente a pseudodistância.
A distância da câmera até o objeto cuja imagem é formada não muda consideravelmente também de modo temporário. Portanto, quando imagens de vídeo de múltiplos pontos de vista estão codificando através da aplicação do método da presente invenção para um conjunto de imagens obtidas ao mesmo tempo, um conjunto de pseudodistâncias para cada tem- po pode ser considerado como uma imagem e um conjunto dessas imagens pode ser considerado como uma imagem de vídeo. Nesse caso, todas as pseudodistâncias podem ser codificadas usando um método de codificação de vídeo, tal como MPEG-2 ou H.264/AVC, de modo a codificar eficiente- mente a pseudodistância.
Na etapa de determinação de vetor preditivo alvo, o vetor predi- tivo alvo pode ser determinado como um vetor, cada um de seus componen- tes é um múltiplo integral do tamanho de bloco para codificação onde o múl- tiplo integral está mais perto do componente correspondente do vetor de pa- ralaxe.
A fim de implementar codificação altamente eficiente de todas as imagens de vídeo de múltiplos pontos de vista, um resíduo da compensação de paralaxe será alta e eficientemente codificado, enquanto se reduz a quan- tidade de código da pseudodistância. Isto é, quando da estimativa da pseu- dodistância para cada bloco a ser processado na codificação relevante, é necessário considerar não apenas a quantidade de código requerida para codificação da pseudodistância, mas também a quantidade de código reque- rida para o resíduo do bloco que foi submetida à compensação de paralaxe, usando a pseudodistância relevante. Contudo, um bloco submetido à com- pensação de paralaxe usando uma pseudodistância proporcionada para um bloco-alvo (para codificação) na imagem de referência pode se estender a- través de uma pluralidade de blocos (a serem processados) na imagem-alvo para codificação. Nesse caso, é muito difícil avaliar a quantidade de código requerida para o resíduo da compensação de paralaxe para o bloco relevan- te e, assim, é impossível realizar precisamente uma otimização para imple- mentar codificação altamente eficiente.
Em contraste, se o vetor preditivo alvo for determinado como um vetor, cada um de seus componentes é um múltiplo integral do tamanho do bloco para codificação, onde o múltiplo integral está mais perto do compo- nente correspondente do vetor de paralaxe, conforme descrito acima, então, é suposto que um bloco (na imagem-alvo para codificação) submetido à compensação de paralaxe sempre coincide com um bloco a ser processado na codificação. Portanto, a quantidade de código necessária para codifica- ção do resíduo da compensação de paralaxe para o bloco relevante pode ser computada em consideração do método de codificação para o resíduo da compensação de paralaxe. Como um resultado, em geral, codificação altamente eficiente de imagens de múltiplos pontos de vista pode ser reali- zada.
Quando da codificação (ou decodificação) de imagens de múlti- pios pontos de vista, um conjunto de quadros correspondentes pertencentes ao mesmo tempo podem ser considerados como imagens de múltiplos pon- tos de vista, às quais o método de codificação (ou decodificação) de ima- gens da presente invenção pode ser aplicado.
Adicionalmente, para imagens de vídeo de múltiplos pontos de vista, toda a imagem pode ser codificada, não só pelo uso do método de co- dificação de imagem da presente invenção, mas também através de seleção apropriada de outro método, tal como uma compensação de movimento, que usa correlação temporal, para cada alvo, para codificação, assim, aperfeiço- ando a eficiência da codificação. Efeito da Invenção
De acordo com a presente invenção, é possível computar, preci- samente, uma posição de pixel decimal em uma imagem de referência, a qual corresponde a uma posição de pixel inteiro em uma imagem de refe- rência, que corresponde a uma posição de pixel inteiro em uma imagem-alvo para codificação com baixo custo, pelo uso de dados de pontos correspon- dentes na imagem-alvo, que é proporcionada com base em posições de pi- xels inteiros na imagem de referência. Portanto, é possível implementar compensação de paralaxe para paralaxe menor e, assim, a codificação de imagens altamente eficiente de todas as imagens de múltiplos pontos de vista.
BREVE DESCRIÇÃO DOS DESENHOS A figura 1 é um diagrama mostrando as relações entre vetores
da presente invenção.
A figura 2 é um diagrama mostrando um exemplo da estrutura de um aparelho de codificação de imagens como uma modalidade da pre- sente invenção.
A figura 3 é um fluxograma mostrando o processo de codificação
de imagem por meio de um aparelho de codificação de imagens.
A figura 4 é um fluxograma mostrando o processo de geração de imagem de distância por uma unidade de geração de imagem de distância.
A figura 5 é um fluxograma mostrando o processo de geração de
imagem com compensação de paralaxe por uma unidade de geração de i- magem com compensação de paralaxe.
A figura 6 é um diagrama mostrando um exemplo da estrutura do aparelho de decodificação de imagem como uma modalidade da presente invenção.
A figura 7 é um fluxograma mostrando o processo de decodifica-
ção de imagem através de um aparelho de decodificação da imagem.
A figura 8 é uma vista esquemática mostrando o conceito de pa- ralaxe gerado entre câmeras.
A figura 9 é uma vista esquemática mostrando o conceito de res-
trição de geometria Epipolar.
A figura 10 é um diagrama para explicar que pontos correspon- dentes podem ser obtidos entre uma pluralidade de câmeras, quando a dis- tância de uma das câmeras até o objeto cuja imagem é formada é propor- cionada.
MELHOR MODO PARA REALIZAÇÃO DA INVENÇÃO
Abaixo, a presente invenção será explicada em detalhes de a- cordo com as modalidades. Primeiro, o princípio da presente invenção será explicado com referência à figura 1.
Na primeira etapa, para cada pixel na imagem de referência, o ponto correspondente na imagem-alvo para codificação é determinado atra- vés de referência à distância (atribuída para cada pixel na imagem de refe- rência) da câmera até o objeto cuja imagem é formada e a relação posicionai entre câmeras. Nesta etapa, um vetor que é definido em um espaço de pixel e tem o ponto de partida em um pixel na imagem de referência e um ponto final no pixel correspondente na imagem-alvo para codificação é chamado um "vetor de paralaxe". Nesse caso, o ponto de partida do vetor de paralaxe é sempre definido em uma posição de pixel inteiro.
A seguir, para cada vetor de paralaxe, um vetor tendo o mesmo ponto de partida que o vetor de paralaxe é computado, onde partes decimais dos componentes horizontais e verticais do vetor computado são omitidas e esse vetor é chamado um "vetor preditivo alvo".
O vetor preditivo alvo está presente em um retângulo definido pelos pontos de partida e final do vetor de paralaxe relevante (isto é, um re- tângulo cuja diagonal é o vetor de paralaxe e que é definido pelas coordena- das dos pontos de partida e final em um plano de coordenadas) e tem um ponto final definido em uma posição de pixel inteiro mais perto do ponto final do vetor de paralaxe.
Na etapa seguinte, para cada vetor de paralaxe, um vetor que também tem o mesmo ponto de partida que o vetor de paralaxe é computa- do, onde o tamanho e a direção do vetor computado são iguais aqueles de um vetor que é obtido pela subtração do vetor de paralaxe relevante do vetor preditivo alvo computado na etapa anterior. O vetor correntemente computa- do é chamado um "vetor de referência alvo" e o seu ponto final não é sem- pre definido em uma posição de pixel inteiro.
Na presente invenção, para cada conjunto do vetor preditivo alvo e do vetor de referência alvo, que são computados como descrito acima, o valor da posição (na imagem de referência) indicado pelo vetor de referência alvo é usado como um valor predito da posição de pixel (indicada pelo vetor preditivo alvo) na imagem-alvo para codificação, assim, implementando a predição de imagem entre as câmeras relevantes.
Na presente invenção, cada ponto correspondente é determina- do com base em uma suposição de que a distância da câmera até o objeto cuja imagem é formada em uma posição que é apenas ligeiramente deslo- cada de um pixel é quase a mesma que a distância da câmera até o objeto cuja imagem é formada no pixel. Isto é, quanto mais simples a forma da dis- tância da câmera até o objeto cuja imagem é formada, mais precisa a predi- ção de imagem.
Em contraste, o segundo e o terceiro método descritos acima
(que podem ser facilmente antecipados) empregam uma suposição de que a textura (isto é, a aparência) do objeto cuja imagem é formada é quase a mesma entre partes adjacentes. Isto é, quanto mais simples a forma da tex- tura, mais precisa a predição de imagem. Quando a forma da distância é comparada com aquela da textu-
ra para uma imagem natural, a forma da distância tende a ser mais simples em consideração de uma restrição na continuidade no espaço real. Portanto, em comparação com os métodos descritos acima, que podem ser facilmente antecipados, o método de acordo com a presente invenção podem imple- mentar uma predição de imagem mais precisa e aperfeiçoar a eficiência da codificação.
Quando o vetor preditivo alvo é computado, a parte decimal po- de ser omitida como descrito acima. Contudo, o valor relevante pode ser ar- redondado para o inteiro mais próximo. Nesse caso de arredondamento do valor para o inteiro mais próximo, uma suposição é usada de modo que um ponto que está mais perto de um pixel alvo na imagem de referência (do que os outros pontos) tem uma distância igual àquela do pixel alvo, assim, im- plementando uma compensação de paralaxe que pode reduzir o erro de pre- dição. Contudo, nesse caso, o custo da computação pode ser mais alto em comparação com o caso de omissão da parte decimal.
Em uma modalidade explicada mais tarde, as imagens de múlti- plos pontos de vista obtidas por duas câmeras AeB são codificadas, onde as imagens da câmera B são codificadas usando as imagens da câmera A como imagens de referência.
Na modalidade, parâmetros externos, que indicam a relação po- sicionai entre as câmeras A e B, e parâmetros internos, que indicam dados de projeção (pela câmera relevante) no plano de imagem, são proporciona- dos, separadamente.
Esses parâmetros, que são explicados em detalhes no docu- mento não-patente 3, podem ser determinados quando as câmeras são ajus- tadas ou avaliadas pelo uso de um par das imagens obtidas. A figura 2 é um diagrama mostrando um exemplo da estrutura
de um aparelho de codificação de imagens como uma modalidade da pre- sente invenção.
O aparelho de codificação de imagens 100 inclui uma unidade de entrada de imagem 101 em que uma imagem original (isto é, a imagem- alvo para codificação) da câmera B é introduzida; uma unidade de entrada de imagem de referência 102, em que uma imagem decodificada (como uma imagem de referência) da câmera A é introduzida; uma unidade de entrada de imagem de referência 102, em que uma imagem decodificada (como uma imagem de referência) da câmera A é introduzida; uma memória de imagem de referência 103 para armazenamento de cada imagem de referência; uma unidade de geração de imagens à distância 104 para geração de uma ima- gem de distância; uma unidade de codificação de imagem de distância 105 para codificação da imagem de distância; uma unidade de decodificação de imagem de distância 106 para decodificar a imagem de distância codificada; uma unidade de geração de imagem com compensação de paralaxe 107 para geração de uma imagem com compensação de paralaxe, com base na imagem de referência e na imagem de distância decodificada; e uma unida- de de codificação da imagem-alvo 108 para codificação de uma imagem- alvo (para codificação) pelo uso da imagem com compensação de paralaxe. Em cada um dentre um aparelho de codificação de imagens 100
e um aparelho de decodificação de imagens 200 (vide a figura 6) explicado mais tarde, isto é, quando cada aparelho opera, uma imagem de distância que indica a distância da câmera real até o objeto cuja imagem é formada não é distinguida de uma imagem de pseudodistância, que indica uma pseu- dodistância usada para compensação de paralaxe. Portanto, na explanação a seguir, ambas as distâncias não são distinguidas e cada uma é chamada simplesmente uma "imagem de distância". Além disso, uma distância e uma pseudodistância (indicada pela imagem de distância) também não são dis- tinguidas e são descritas, cada uma, simplesmente como uma "distância".
Abaixo, o processo de codificação de imagem realizado pelo a- parelho de codificação de imagens 100, tendo a estrutura mostrada na figura 2, será explicado em detalhes com referência aos fluxogramas nas figuras de 3 a 5.
A figura 3 é um fluxograma que mostra o processo de codifica- ção de imagem pelo aparelho de codificação de imagem, e mostra o fluxo geral do processo completo de codificação de imagem realizado pelo apare- Iho de codificação de imagem 100.
No aparelho de codificação de imagem 100, uma imagem da câmera B é introduzida na unidade de entrada 101, (veja a etapa 10). Aqui, uma imagem decodificada da câmera A foi introduzida na memória de ima- gem de referência 103 por meio da unidade de entrada de imagem de refe- rência 102.
Abaixo, a imagem de entrada da câmera B é chamada de uma "imagem-alvo" para codificar, e a imagem na memória de imagem de refe- rência 103 de uma "imagem de referência".
A seguir, uma imagem de distância para a imagem de referência é gerada pela unidade de geração de imagem de distância 104 pelo uso da imagem-alvo e da imagem de referência (vide etapa S11).
A fim de que o aparelho de codificação de imagens 100 e o apa- relho de decodificação de imagens 200 gerem, cada um deles, uma imagem com compensação de paralaxe, usando completamente os mesmos dados, a imagem de distância gerada é codificada pela unidade de codificação de imagem de distância 105 (vide a etapa S13).
A seguir, uma imagem com compensação de paralaxe é gerada pela unidade de geração de imagem com compensação de paralaxe 107 pelo uso da imagem de distância, que foi obtida pela decodificação e a ima- gem de referência (vide a etapa S14). Finalmente, a imagem-alvo para codi- ficação é codificada pela unidade de codificação da imagem-alvo 108 pelo uso da imagem com compensação de paralaxe gerada (vide a etapa S15).
O processo de codificação de imagem da figura 3 é realizado quando uma imagem da câmera B é codificada. As imagens de vídeo de múltiplos pontos de vista podem ser codificadas pela aplicação, repetida- mente, do processo de codificação de imagem a uma imagem de cada vez.
Na unidade de codificação de imagem de distância 105, qual- quer método de codificação conhecido pode ser empregado. Por exemplo, um método de codificação de imagem como JPEG2000 para uma imagem fixa pode ser usado; um método de codificação de vídeo, tal como H.264, pode ser usado junto com uma imagem de distância que foi gerada para uma imagem de referência em outro momento; ou os valores de pixels rele- vantes podem ser simplesmente submetidos à codificação de comprimento variável.
Contudo, a unidade de decodificação de imagem de distância 106 será um dispositivo que pode decodificar os dados codificados gerados pela unidade de codificação de imagem de distância 105.
Além disso, quando a presente invenção é aplicada à codifica- ção de vídeos de múltiplos pontos de vista, a unidade de codificação da i- magem-alvo 108 pode empregar qualquer método de codificação que use uma imagem com compensação de paralaxe.
O que segue são métodos possíveis, tais como um método para gerar e codificar uma imagem diferencial entre a imagem com compensação de paralaxe e a imagem-alvo para codificação; um método para não codificar diretamente a imagem diferencial, mas realizando a codificação pelo uso de imagens diferenciais em tempos diferentes e compensação de movimento empregada em H.264; e um método para realização da codificação pelo uso de um método de predição que tem uma alta eficiência de predição e é de- terminado por comparação de uma predição de vídeo usando uma imagem com compensação de paralaxe com uma predição de vídeo usando com- pensação de movimento.
Na presente modalidade, uma imagem de distância é gerada no aparelho de codificação de imagens 100. Contudo, uma imagem de distân- cia, que é gerada por um dispositivo externo pelo uso de um sensor ou simi- lar, pode ser usada diretamente. Nesse caso, a unidade de geração de ima- gem de distância 104 é desnecessária e a etapa S11 no fluxograma da figu- ra 3 pode ser omitida.
Além disso, se um método de codificação reversível for usado na unidade de codificação de imagem de distância 105, então, a unidade de decodificação de imagem de distância 106 é desnecessária e a etapa S13 no fluxograma da figura 3 pode ser omitida. Nesse caso, a imagem de dis- tância é introduzida diretamente na unidade de geração de imagem com compensação de paralaxe 107. A figura 4 é um fluxograma mostrando o processo de geração de
imagem à distância pela unidade de geração de imagem de distância 104.
Abaixo, o processo de geração de imagem de distância para ge- rar uma imagem de distância pelo uso da imagem-alvo e da imagem de refe- rência (vide a etapa S11 na figura 3) será explicado em mais detalhes. No fluxograma da figura 4, a imagem de referência é dividida em
uma pluralidade de blocos e a distância é computada para cada bloco. Quando o tamanho de cada bloco for determinado pra ser 1x1 (pixel), a dis- tância será computada para cada pixel.
Também é preferível que o bloco acima como a unidade para a computação de distância coincida com o bloco usado no processo de codifi- cação para dividir a imagem de referência em uma pluralidade de área e co- dificar cada área.
Aqui, "blk" é um índice para indicar cada bloco e "maxBlk" indica o número de blocos definidos em uma imagem. Após a inicialização de "blk" para zero (vide a etapa S20), o pro-
cesso da etapa S21 até a etapa S36 é realizado repetidamente para cada bloco, enquanto "blk" é incrementado por um (vide a etapa S35), até que "blk" alcance "maxBlk" (vide a etapa S36).
No processo aplicado a cada bloco, primeiro, a posição do bloco (indicada pelo índice "blk") no espaço de pixel é obtida e é indicada pelo "blk_pos" (vide a etapa S21).
Aqui, "profundidade" é um índice para fornecimento de candida-
tas para a distância e o seu valor mínimo e o seu valor máximo são repre- sentados, respectivamente, por "minDepth" e "maxDepth", que são parâme- tros usados na codificação e proporcionados voluntariamente em considera- ção de uma cena para fotografia. Além disso, cada candidata para a distância é estimada nas eta-
pas a seguir, onde o valor máximo que não pode ser obtido como o valor estimado é representado por "maxCost". Adicionalmente, a fim de realizar, repetidamente, a estimativa, o melhor valor estimado é representado por "minCost" e o índice para a candidata â distância correspondente a "min- Cost" é representado por "bestDepth".
Após "depth" e "minCost" serem, respectivamente, inicializados para "minDepth" e "maxCost" (vide etapa S22), o processo da etapa S23 até a etapa S33 é realizado, repetidamente, para cada candidata à distância, enquanto "depth" é incrementado por um (vide a etapa S32), até que "depth" alcance "maxDepth" (vide a etapa S33).
Quando "depth" alcança "maxDepth", é determinado que o valor que foi armazenado como "bestDepth" deve ser atribuído como o valor da distância ao índice de bloco "blk" (vide etapa S34).
Abaixo, o processo (da etapa S23 até S33) realizado para cada candidata à distância será explicado.
Primeiro, em consideração ao método de codificação usado na unidade de codificação de imagem de distância 105, a quantidade de código requerida para codificar "depth" (isto é, quando a distância para a posição "blk_pos" na imagem de distância é "depth") é computada e o valor compu- tado é representado por "rate (vide a etapa S23). Nesse processo, "rate" po- de ser a quantidade real de código ou um valor predito da mesma.
Em seguida, o valor obtido quando "depth" é codificado e, então, decodificado é computado e é representado por "dec_depth" (vide a etapa S24). Então, um vetor de paralaxe, que é determinado quando a distância da câmera até o objeto cuja imagem é formada na posição "blk_pos" é propor- cionada por "dec_depth", é computada e é representada por "DISP_V" (vide a etapa S25). Esse vetor de paralaxe pode ser computado através da se- guinte fórmula (1): [Fórmula 1]
3p E.blk_pos
ê-A^^A^ + tr-O
DISP_V = ρ - e (1)
Na fórmula (1), variáveis indicadas por letras em negrito são ve- tores e variáveis indicadas por letras maiúsculas são matrizes. Especificamente, a matriz A é uma matriz dos parâmetros inter-
nos de cada câmera e a matriz R é uma matriz de rotação definida para ca- da câmera e o vetor "t" é um vetor translacional de cada câmera, onde o subscrito "t" indica que os parâmetros relevantes pertencem à câmera pela qual a imagem-alvo foi obtida e o subscrito "r" indica que os parâmetros re- levantes pertencem à câmera pela qual a imagem de referência foi obtida.
Além disso, "d" é a distância (indicada pelo índice de distância "dec_depth") da câmera até o objeto cuja imagem é formada e "~x" é disposto em "x") indica um vetor homogêneo (entre vetores homogêneos do vetor x) cujo componente final é 1. Aqui, cada vetor homogêneo de um vetor N-dimensional tem N+1 componentes. O vetor, cujos primeiros Nésimos com- ponentes são obtidos pela divisão dos primeiros Nésimos componentes do ve- tor homogêneo pelo (N+1)ésimo componente do vetor homogêneo é um vetor comum (isto é, vetor x, no exemplo acima), correspondendo ao vetor homo- gêneo relevante. Isto é, para o vetor N-dimensional, a seguinte relação pode ser obtida: [Fórmula 2] f ~ \
\xNj
OX =
ír > x\ 'αχ, ^ • O X = • xN axN l 1 J κ a J
em que * 0
Após DISP_V ser obtido, cada componente do mesmo é trans- formado em um inteiro, de modo a obter um vetor preditivo alvo "TAR_V" tendo cada componente inteiro (vide etapa S26). O método para transformar cada componente em um inteiro, ambos dos seguintes métodos podem ser empregados:
(1) um método de omissão da parte decimal; e
(2) um método de arredondamento de cada componente para o número inteiro mais próximo.
Então, um vetor de referência alvo "REF_V" é computado pela
seguinte fórmula (2) (vide a etapa S27).
REF V = TAR_V - DISP_V (2)
Aqui, para cada pixel "p" incluído em "blk_pos", a posição "p+TAR_V" na imagem-alvo e a posição "p+REF_V" na imagem de referên- cia são pontos correspondentes em relação uma à outra.
Um valor estimado que indica a probabilidade dos pontos cor- respondentes, isto é, um erro de predição, quando um bloco na posição "blk_pos+TAR_V" na imagem-alvo é predito, usando um bloco na posição "blk_pos+DISP_V" na imagem de referência, é computado e é representado por "diff" (vide etapa S28).
A fim de estimar a probabilidade, qualquer medida pode ser u- sada, tal como a soma de valores absolutos de diferenças, a soma de erros quadrados, uma dispersão de valores diferenciais ou um coeficiente de cor- relação. Por exemplo, a fórmula a seguir (3) é uma fórmula de estimativa empregando a soma de valores absolutos das diferenças. [Fórmula 3]
diff= ^ lxt + TAR_V)~ Ir (p + REF_V )|
(3)
pQ>lk_pos Na fórmula (3), Ί" é uma função que retorna um valor de pixel (da imagem relevante) na posição indicada pelo argumento. Embora "p+TARV" sempre indique uma posição de pixel inteiro, "p+REF_V" nem sempre indica uma posição de pixel inteiro.
O valor de cada outra posição que não posições de pixels intei-
ros pode ser gerado usando valores de pixels periféricos, através da realiza- ção de filtragem ou similar. Além disso, é desnecessário computar o valor que corresponde, estritamente, a uma posição designada. Portanto, apenas posições de pixels decimais limitadas podem ser submetidas a essa compu- tação de valor e o valor no ponto mais próximo pode ser usado.
Para "rate" e "diff", que foram computados como descrito acima, um custo de distorção de taxa (chamado "cost") obtido pela fórmula (4) a seguir é computado de modo a estimar cada candidata à distância em con- sideração da eficiência da codificação de imagens de vídeo de múltiplos pontos de vista (vide a etapa S29).
cost = diff + Xxrate (4)
Na fórmula (4), λ é um multiplicador de Lagrange indefinido e é um valor pré-determinado. Se cada candidata à distância for simplesmente estimada com base no erro de predição (sem considerar a eficiência da codi- ficação), λ = 0. Adicionalmente, quanto menor o valor de "cost", melhor o resultado da estimativa.
Então, o "cost" de valor estimado da candidata à distância "dep- th" é comparado com o melhor valor estimado "minCost" para as candidatas à distância anteriores (vide a etapa S30). Se o presente resultado de estima- tiva for melhor, a candidata "depth" é armazenada como a melhor candidata "bestDepth" e o melhor valor estimado "minCost" é atualizado por "cost" (vi- de a etapa S31).
Após o índice da candidata à distância "depth" ser incrementado por 1 (vide a etapa S32), se houver outra candidata à distância, um processo similar é aplicado à candidata (vide etapa S33).
A figura 5 é um fluxograma mostrando o processo de geração de imagem com compensação de paralaxe pela unidade de geração de imagem com compensação de paralaxe 107. Abaixo, o processo de geração de ima- gem com compensação de paralaxe para geração de uma imagem com compensação de paralaxe pelo uso da imagem de distância e da imagem de referência (vide a etapa S14 na figura 3) será explicado em mais detalhes.
No fluxograma da figura 5, para cada bloco (na imagem de refe-
rência) ao qual a distância é proporcionada, uma imagem com compensação de paralaxe é gerada, onde o índice para indicar cada bloco é "blk" e o nú- mero de blocos incluídos em uma imagem é representado por "makBlk".
Após a inicialização de "blk" para zero (vide a etapa S40), o pro- cesso da etapa S41 até a Etapa S48 é realizado, repetidamente, para cada bloco enquanto "blk" é incrementado por um (vide a etapa S47), até que "blk" alcance "maxBlk" (vide a etapa S48).
No processo aplicado a cada bloco, primeiro a posição do bloco (indicada pelo índice "blk") no espaço de pixel é obtida e é indicada por "blk_pos" (vide a etapa S41) e a distância "d" do bloco "blk" é determinada por meio da imagem de distância (vide a etapa S42).
Então, um vetor de paralaxe, que é determinado quando a dis- tância da câmera até o objeto cuja imagem é formada na posição "blk_pos" é proporcionada por "d", é computado e é representado por "DISP_V" (vide a etapa S43), onde DISP_V pode ser computado pela fórmula a seguir (5). [Fórmula 5]
3pEblk_pos
AlR^RA1Pd+ tr-t,) DISP_V = ρ - e (5)
Similar à fórmula (1), na fórmula (5), variáveis indicadas por le- tras em negrito são vetores e as variáveis indicadas por letras maiúsculas são matrizes. Adicionalmente, a matriz A é uma matriz dos parâmetros inter- nos de cada câmera e a matriz R é uma matriz de rotação definida para ca- da câmera e o vetor "t" é um vetor translacional de cada câmera, onde o subscrito "t" indica que os parâmetros relevantes pertencem à câmera pela qual a imagem-alvo foi obtida e o subscrito "r" indica que os parâmetros re- levantes pertencem à câmera pela qual a imagem de referência foi obtida. Além disso, "~x" é disposto em "x") indica um vetor homogêneo (entre vetores homogêneos do vetor x) cujo componente final é 1.
Após DISP_V ser obtido, cada um de seus componentes é trans- formado em um inteiro, de modo a obter um vetor preditivo alvo "TAR_V", tendo cada componente de inteiro (vide a etapa S44). Como o método para transformar cada componente em um inteiro, ambos os métodos a seguir podem ser empregados:
(1) um método de omissão da parte decimal; e
(2) um método de arredondamento de cada componente para o número inteiro mais próximo.
Se a geração de imagem de distância foi realizada, um método similar àquele usado na etapa S26 na figura 4 (realizado pela unidade de geração de imagem de distância 104) é usado.
Então, um vetor de referência alvo "REF_V" é computado pela fórmula a seguir (6) (vide a etapa S45).
REF V = TAR V - DISP_V (6)
Então, para cada pixel P incluído em "blk_pos", o valor de pixel na posição "p+TAR_V" na imagem com compensação de paralaxe é com- pensado com o valor na posição "p+REF_V na imagem de referência (vide a etapa S46).
Aqui, "p+REF_V nem sempre indica uma posição de pixel intei- ro. O valor de cada outra posição que não as posições de pixels inteiros po- de ser gerado usando valores de pixels periféricos, através da realização de filtragem ou similar. Além disso, é desnecessário computar um valor que cor- responde estritamente a uma posição designada. Portanto, apenas posições de pixels decimais limitadas podem ser submetidas a essa computação de valor e o valor no ponto mais próximo pode ser usado. Contudo, se a ima- gem de distância foi gerada na unidade de geração de imagem de distância 104, um método similar àquele usado na etapa S28 na figura 4 é utilizado. Na modalidade descrita acima, se o tamanho do bloco for fixado
em 1 χ 1, a distância relevante será obtida para cada pixel. Contudo, a ima- gem de referência pode ser dividida em blocos, cada um tendo η χ m pixels (nem são variáveis), de modo a determinar a distância (pseudodistância) para cada área dividida (isto é, bloco) e dados para indicar a divisão de área e a distância (pseudodistância) para cada área podem ser codificados.
Nesse caso de determinação da distância (pseudodistância) pa- ra cada bloco obtido pela divisão de área da imagem de referência, se toda a imagem de referência tiver sido dividida em áreas e cada área for submetida à codificação de modo a proporcionar dados codificados que incluem dados de divisão de área, então, uma divisão de área similar pode ser determinada de acordo com os dados de divisão de área, de modo a omitir a codificação de dados de divisão de área.
Além disso, se a divisão de área para cada bloco (para codifica- ção) na imagem de referência difere da divisão de área para determinar a distância descrita acima, então, na codificação de dados, que indicam a divi- são de área usada para determinar cada bloco ao qual a distância é atribuí- da, apenas dados que indicam a diferença da divisão de área indicada pelos dados de divisão de área incluídos nos dados codificados da imagem de re- ferência, podem ser codificados de modo a impedir um aumento na quanti- dade relevante de código.
Adicionalmente, na codificação da distância (pseudodistância) descrita acima, uma distância de referência pode ser selecionada dentre dis- tâncias já codificadas e dados para indicar a distância de referência e a dife- rença entre uma distância-alvo para codificação e a distância de referência pode ser codificada de modo a impedir um aumento na quantidade relevante de código.
Também na codificação da distância (pseudodistância) descrita
acima, um conjunto de pseudodistâncias proporcionado para uma imagem de referência pode ser considerado como uma imagem de modo a codificar o conjunto de pseudodistâncias pelo uso de um método específico de codifi- cação de imagens, tal como JPEG. A seguir, o aparelho de decodificação de imagens 200, de acor-
do com a presente invenção, que decodifica dados codificados gerados co- mo descrito acima, será explicado. A figura 6 é um diagrama mostrando um exemplo da estrutura do aparelho de decodificação de imagens como uma modalidade da presen- te invenção.
Isto é, o aparelho de decodificação de imagens 200 tem uma unidade de decodificação de imagem de distância 201 para decodificação da imagem de distância; uma memória de imagem de referência 202 para ar- mazenamento de cada imagem decodificada da câmera A como uma ima- gem de referência; uma unidade de geração de imagem com compensação de paralaxe 203 para gerar uma imagem com compensação de paralaxe baseada na imagem de distância decodificada e na imagem de referência; e uma unidade de decodificação de imagem-alvo 204 para decodificar os da- dos codificados da imagem-alvo (para codificação através de referência à imagem com compensação de paralaxe gerada.
A figura 7 é um fluxograma mostrando o processo de decodifica- ção de imagem pelo aparelho de decodificação de imagens e mostra o fluxo da decodificação de um quadro em uma imagem da câmera B. Abaixo, o fluxograma da figura 7 será explicado em detalhes.
Aqui, o quadro da câmera A ao mesmo tempo que o quadro a ser decodificado já foi decodificado e a imagem decodificada relevante foi armazenada como uma imagem de referência na memória de imagem de referência 202, antecipadamente.
Primeiro, na unidade de decodificação de imagem de distância 201, dados codificados da imagem de distância são decodificados (vide a etapa S50). A seguir, uma imagem com compensação de paralaxe é gerada na unidade de geração de imagem com compensação de paralaxe 203 pelo uso da imagem de distância decodificada e a imagem de referência armaze- nada na memória de imagem de referência 202 (vide a etapa S51). Final- mente, dados codificados da imagem-alvo para codificação são decodifica- dos na unidade de decodificação de imagem-alvo 204 através de referência à imagem com compensação de paralaxe gerada (vide a etapa S52).
Aqui, um método de codificação usado na unidade de codifica- ção da imagem-alvo 108 do aparelho de codificação de imagens 100 é apli- cado, correspondentemente, ao processo realizado pela unidade de decodi- ficação da imagem-alvo 204. Isto é, se um método para codificação da dife- rença entre a imagem com compensação de paralaxe e a imagem-alvo for usado na unidade de codificação da imagem-alvo 108, a unidade de decodi- ficação de imagem-alvo 204 decodifica os dados codificados proporcionados e adiciona os mesmos à imagem com compensação de paralaxe, de modo a obter a imagem decodificada da imagem-alvo.
A unidade de decodificação de imagem de distância 201 no apa- relho de decodificação de imagens 200 realiza o mesmo processo que aque- Ie realizado na unidade de decodificação de imagem de distância 106 do aparelho de codificação de imagens 100.
Adicionalmente, a unidade de geração de imagem com compen- sação de paralaxe 203 no aparelho de decodificação de imagens 200 realiza o mesmo processo (vide a figura 5) que aquele realizado na unidade de ge- ração de imagem com compensação de paralaxe 107 do aparelho de codifi- cação de imagens 100.
Na presente modalidade, dados codificados da imagem de dis- tância são proporcionados. Contudo, se uma imagem de distância for pro- porcionada por outro método, a unidade de decodificação de imagem de dis- tância 201 é desnecessária e o processo na etapa S50 no fluxograma da figura 7 pode ser omitido. Nesse caso, a imagem de distância proporcionada é usada, diretamente, na unidade de geração de imagem com compensação de paralaxe.
A fim de gerar TAR_V nos processos da etapa S26 no fluxogra- ma da figura 4 e na etapa S44 no fluxograma da figura 5, cada componente pode ser transformado não só em um inteiro, mas também em um múltiplo integral do tamanho de bloco definido para codificação, onde o múltiplo inte- gral está mais perto do componente correspondente do vetor de paralaxe.
Nesse caso, na etapa S28 do fluxograma na figura 4, "blk_pos+TAR_V" sempre indica um bloco (para codificação). Portanto, a imagem de distância pode ser gerada em consideração da relação entre a quantidade real de código e a qualidade de imagem, por meio da computa- ção da quantidade (chamada "código") de código necessário para codificar o bloco (da imagem-alvo) indicado por "blk_pos+TAR_V; a soma SSD de erros quadrados entre a imagem original e a imagem decodificada após a codifi- cação relevante é realizada; e "diff" indicado pela fórmula a seguir (7).
diff = SSD + Â'xcode (7)
Na fórmula (7), λ' é um multiplicador de Lagrange indefinido e é um valor pré-determinado.
Na modalidade acima, uma câmera é usada para obter a ima- gem-alvo para codificação. Contudo, mesmo quando o número dessas câ- meras é dois ou mais, a codificação e a decodificação de imagens podem ser realizadas por meio dos mesmos processos que aqueles explicados a- cima, exceto para o processo a seguir.
Isto é, quando o número de câmeras é dois ou mais, o processo da etapa S25 até S28 no fluxograma do processo de geração de imagem de distância (vide a figura 4) é aplicado a cada imagem-alvo para codificação e a soma dos valores de "diff' obtidos em cada processo é usada como "diff' de modo a realizar a estimativa de candidatas à distância e gera a imagem de distância.
O processo de codificação de imagem descrito acima pode ser implementada, não só por um recurso de hardware ou firmware, mas tam- bém por um computador e um programa de software. Esse programa pode ser proporcionado através do armazenamento do mesmo em um meio de armazenamento legível em computador ou por meio de uma rede.
Embora modalidades da presente invenção tenham sido descri- tas com referência aos desenhos, deve ser compreendido que essas são modalidades exemplificativas da invenção e não devem ser consideradas como limitadoras. Adições, omissões ou substituições de elementos estrutu- rais e outras modificações para as modalidades descritas acima podem ser feitas sem afastamento do conceito e do escopo da presente invenção. APLICABILIDADE INDUSTRIAL
De acordo com a presente invenção, é possível computar preci- samente uma posição de pixel decimal em uma imagem de referência, que corresponde a uma posição de pixel inteiro em uma imagem-alvo, que é pro- porcionada com base nas posições de pixels inteiros na imagem de referên- cia. Portanto, é possível implementar compensação de paralaxe para para- Iaxe menor e, desse modo, codificação de imagem altamente eficiente de todas as imagens de múltiplos pontos de vista. Iaxe
Listagem de Referência
100 aparelho de codificação de imagens
101 unidade de entrada de imagem
102 unidade de entrada de imagem de referência
103 memória de imagem de referência
104 unidade de geração de imagens à distância
105 unidade de codificação de imagem de distância
106 unidade de decodificação de imagem de distância
107 unidade de geração de imagem com compensação de para-
108 unidade de codificação da imagem-alvo
200 aparelho de decodificação de imagem
201 unidade de decodificação de imagem de distância
202 memória de imagem de referência
203 unidade de geração de imagem com compensação de para-
Iaxe
204 unidade de decodificação de imagem-alvo

Claims (28)

1. Método de codificação de imagens de codificação de imagens de múltiplos pontos de vista, obtidas por uma pluralidade de câmeras en- quanto se realiza predição de imagens intercâmeras por meio do uso de uma imagem de referência já codificada e uma distância de uma das câme- ras que foi usada para obter a imagem de referência até um objeto cuja ima- gem é formada, o método compreendendo: uma etapa de determinação de vetor de paralaxe de: determinação de um ponto correspondente em cada imagem- alvo para codificação, que corresponde a cada pixel em uma imagem de re- ferência, com base na distância proporcionada para cada pixel na imagem de referência e uma relação posicionai entre a câmera usada para obtenção da imagem de referência e a câmera usada para obtenção de cada imagem- alvo; e computação de um vetor de paralaxe da posição do pixel na i- magem de referência até o ponto correspondente na imagem-alvo em um espaço de pixel; uma etapa de determinação de vetor preditivo alvo de computa- ção de um vetor preditivo alvo e componentes obtidos pelo arredondamento dos componentes do vetor de paralaxe para inteiros através da omissão da parte decimal de cada componente do vetor de paralaxe ou da seleção de um inteiro mais perto do valor de cada componente do vetor de paralaxe; uma etapa de determinação de vetor de referência alvo de com- putação de um vetor de referência alvo tendo o mesmo ponto de partida que o vetor de paralaxe e o mesmo tamanho e direção que o vetor diferencial entre o vetor preditivo alvo e o vetor de paralaxe; e uma etapa de predição de imagens intercâmeras de realização da predição de imagens intercâmeras pelo ajuste de um valor predito de um pixel na imagem-alvo, que é indicado pelo vetor preditivo alvo, para um valor de pixel em uma posição de pixel inteiro ou decimal na imagem de referên- cia, que é indicada pelo vetor de referência alvo.
2. Método de codificação de imagens de acordo com a reivindi- cação 1, ainda compreendendo: uma etapa de determinação de pseudodistância para determina- ção de uma pseudodistância para cada pixel na imagem de referência, onde a pseudodistância indica um ponto correspondente usado para predição de uma imagem-alvo para codificação da imagem de referência com base na restrição de geometria Epipolar; e uma etapa de codificação de pseudodistância para codificação de pseudodistância determinada na etapa de determinação de pseudodis- tância, em que, na etapa de determinação de vetor de paralaxe, a pseudodistância é usada como a distância proporcionada para cada pixel na imagem de referência.
3. Método de codificação de imagens de acordo com a reivindi- cação 2, em que a etapa de determinação de pseudodistância inclui: determinação de um vetor de paralaxe estimado no espaço de pixel, em que o ponto final do vetor é um ponto correspondente na imagem- alvo, que é computado com base em uma pseudodistância estimada, deter- minada através de estimativa de um valor possível e uma relação posicionai entre as câmeras e o ponto de partida do vetor é definido em um pixel na imagem de referência, para o qual a pseudodistância estimada é proporcio- nada; determinação de um vetor preditivo alvo estimado, obtido atra- vés de arredondamento do ponto final do vetor de paralaxe estimado para uma posição de pixel inteiro; determinação de um vetor de referência alvo estimado, tendo o mesmo ponto de partida que o vetor de paralaxe estimado e o mesmo tama- nho e a mesma direção que o vetor diferencial entre o vetor preditivo alvo estimado e o vetor de paralaxe estimado e o vetor de paralaxe estimado; e ajuste da pseudodistância até a pseudodistância estimada, o que produz a soma total mínima de erros de predição obtida quando a predi- ção de imagens intercâmeras, usando o vetor preditivo alvo estimado e o vetor preditivo alvo estimado, é aplicada a cada imagem-alvo obtida através de fotografia do objeto cuja imagem é formada em um único estado.
4. Método de codificação de imagens de acordo com a reivindi- cação 3, em que, na etapa de determinação de pseudodistância, a pseudo- distância é determinada de modo a minimizar o custo de distorção de taxa representado pela soma total dos erros de predição e um valor obtido pela pesagem da quantidade de código necessária para codificar a pseudodis- tância estimada.
5. Método de codificação de imagens de acordo com a reivindi- cação 2, ainda compreendendo: uma etapa de decodificação de pseudodistância já codificada de decodificação de dados codificados da pseudodistância codificada na etapa de codificação de pseudodistância; em que na etapa de determinação de vetor de paralaxe, a pseu- dodistância decodificada obtida pela decodificação na etapa de decodifica- ção de pseudodistância já codificada é usada como a distância proporciona- da para cada pixel na imagem de referência.
6. Método de codificação de imagens de acordo com a reivindi- cação 2, ainda compreendendo: uma etapa de ajuste de divisão de área para ajustar uma divisão de área na imagem de referência, em que: na etapa de determinação de pseudodistância, a pseudodistân- cia é determinada para cada área ajustada na etapa de ajuste de divisão de área; e na etapa de codificação de pseudodistância, a pseudodistância é codificada para cada ajuste de área na etapa de ajuste de divisão de área.
7. Método de codificação de imagens de acordo com a reivindi- cação 6, ainda compreendendo: uma etapa de codificação de divisão de área de codificação de dados que indica a divisão de área estabelecida na etapa de ajuste de divi- são de área.
8. Método de codificação de imagens de acordo com a reivindi- cação 6, em que, se toda a imagem de referência tiver sido submetida a uma divisão de área, e cada área dividida tiver sido codificada junto com os da- dos de divisão de área, o que indica a divisão de área, então, na etapa de ajuste de divisão de área, uma divisão de área similar é estabelecida, de acordo com os dados de divisão de área, que são incluídos em dados codifi- cados da imagem de referência.
9. Método de codificação de imagens de acordo com a reivindi- cação 7, em que, se toda a imagem de referência tiver sido submetida a uma divisão de área, e cada área dividida tiver sido codificada junto com os da- dos de divisão de área, o que indica a divisão de área, então, na etapa de codificação de divisão de área, apenas dados que indicam uma diferença da divisão de área indicada pelos dados de divisão de área incluídos em dados codificados da imagem de referência são codificados.
10. Método de codificação de imagens de acordo com a reivindi- cação 2, em que, na etapa de codificação de pseudodistância, uma das pseudodistâncias já codificadas é selecionada como uma pseudodistância de referência e dados para indicar a pseudodistância de referência e a dife- rença entre a pseudodistância determinada na etapa de determinação de pseudodistância e a pseudodistância de referência correspondente são codi- ficados.
11. Método de codificação de imagens de acordo com a reivindi- cação 2, em que, na etapa de codificação de pseudodistância, um conjunto de pseudodistâncias, determinado para uma imagem de referência, é consi- derado como uma imagem e o conjunto de pseudodistâncias são codificados por um método de codificação de imagem pré-determinado.
12. Método de codificação de imagens de acordo com a reivindi- cação 1, em que, na etapa de determinação de vetor preditivo alvo, o vetor preditivo alvo é determinado como um vetor, cada um de seus componentes é um múltiplo integral do tamanho do bloco para codificação onde o múltiplo integral está mais perto do componente correspondente do vetor de parala- xe.
13. Método de decodificação de imagens de decodificação de imagens de múltiplos pontos de vista, obtidas por uma pluralidade de câme- ras enquanto se realiza predição de imagens intercâmeras por meio do uso de uma imagem de referência já decodificada e uma distância de uma das câmeras que foi usada para obter a imagem de referência até um objeto cuja imagem é formada, o método compreendendo: uma etapa de determinação de vetor de paralaxe de: determinação de um ponto correspondente em cada imagem- alvo para codificação, que corresponde a cada pixel em uma imagem de re- ferência, com base na distância proporcionada para cada pixel na imagem de referência e uma relação posicionai entre a câmera usada para obtenção da imagem de referência e a câmera usada para obtenção de cada imagem- alvo; e computação de um vetor de paralaxe da posição do pixel na i- magem de referência até o ponto correspondente na imagem-alvo em um espaço de pixel; uma etapa de determinação de vetor preditivo alvo de computa- ção de um vetor preditivo alvo e componentes obtidos pelo arredondamento dos componentes do vetor de paralaxe para inteiros através da omissão da parte decimal de cada componente do vetor de paralaxe ou da seleção de um inteiro mais perto do valor de cada componente do vetor de paralaxe; uma etapa de determinação de vetor de referência alvo de com- putação de um vetor de referência alvo tendo o mesmo ponto de partida que o vetor de paralaxe e o mesmo tamanho e direção que o vetor diferencial entre o vetor preditivo alvo e o vetor de paralaxe; e uma etapa de predição de imagens intercâmeras de realização da predição de imagens intercâmeras pelo ajuste de um valor predito de um pixel na imagem-alvo, que é indicado pelo vetor preditivo alvo, para um valor de pixel em uma posição de pixel inteiro ou decimal na imagem de referên- cia, que é indicada pelo vetor de referência alvo.
14. Método de decodificação de imagens de acordo com a rei- vindicação 13, ainda compreendendo: uma etapa de decodificação de pseudodistância para decodifi- cação de uma pseudodistância dos dados codificados, onde a pseudodis- tância indica um ponto correspondente usado para predição de uma ima- gem-alvo para decodificação da imagem de referência com base na restrição de geometria Epipolar; em que, na etapa de determinação de vetor de paralaxe, a pseudodistância é usada como a distância proporcionada para cada pixel na imagem de referência.
15. Método de decodificação de imagens de acordo com a rei- vindicação 13, ainda compreendendo: uma etapa de decodificação de divisão de área de decodificação de dados, o que indica uma divisão de área aplicada à imagem de referên- cia, dos dados codificados, em que: na etapa de decodificação de pseudodistância, a pseudodistân- cia até cada área indicada pelos dados decodificados na etapa de decodifi- cação de divisão de área é decodificada.
16. Método de decodificação de imagens de acordo com a rei- vindicação 15, em que, se toda a imagem de referência tiver sido submetida a uma divisão de área, e cada área dividida tiver sido codificada junto com os dados de divisão de área, o que indica a divisão de área, então, na etapa de decodificação de divisão de área, os dados de divisão de área, que são incluídos em dados codificados da imagem de referência, são decodificados.
17. Método de decodificação de imagens de acordo com a rei- vindicação 15, em que, se toda a imagem de referência tiver sido submetida a uma divisão de área, e cada área dividida tiver sido codificada junto com os dados de divisão de área, o que indica a divisão de área, então, na etapa de decodificação de divisão de área, o que indica uma diferença da divisão de área indicada pelos dados de divisão de área incluídos em dados codifi- cados da imagem de referência são decodificados e uma divisão de área é estabelecida usando os dados de divisão de área incluídos nos dados codifi- cados da imagem de referência e os dados que indicam a diferença.
18. Método de decodificação de imagens de acordo com a rei- vindicação 14, em que, na etapa de decodificação de pseudodistância, a pseudodistância é decodificada pela decodificação dos dados codificados, dados que indicam uma pseudodistância de referência selecionada entre pseudodistâncias já codificadas e dados que indicam uma diferença entre uma pseudodistância-alvo para decodificação e a pseudodistância de refe- rência.
19. Método de decodificação de imagens de acordo com a rei- vindicação 14, em que, na etapa de decodificação de pseudodistâncias, um conjunto de pseudodistâncias proporcionadas para uma imagem de referên- cia é considerado como uma imagem e o conjunto das pseudodistâncias é decodificado dos dados codificados pelo uso de um método de decodifica- ção de imagens pré-determinado.
20. Método de decodificação de imagens de acordo com a rei- vindicação 13, em que, na etapa de determinação de vetor preditivo alvo, o vetor preditivo alvo é determinado como um vetor, cada um de seus compo- nentes é um múltiplo integral do tamanho de bloco para decodificação, onde o múltiplo integral está mais perto do componente correspondente do vetor de paralaxe.
21. Aparelho de codificação de imagens tendo dispositivos para realizar as etapas no método de codificação de imagem como definido na reivindicação 1.
22. Aparelho de codificação de imagens tendo dispositivos para realizar as etapas no método de codificação de imagem como definido na reivindicação 2.
23. Programa de codificação de imagens pelo qual um computa- dor executa as etapas no método de codificação de imagens como definido na reivindicação 1.
24. Programa de codificação de imagens pelo qual um computa- dor executa as etapas no método de codificação de imagens como definido na reivindicação 2.
25. Meio de armazenamento legível em computador, que arma- zena um programa de codificação de imagens pelo qual um computador e- xecuta as etapas no método de codificação de imagens como definido na reivindicação 1.
26. Aparelho de decodificação de imagens, tendo dispositivos para realizar as etapas no método de decodificação de imagens como defi- nido na reivindicação 13.
27. Programa de decodificação de imagens pelo qual um compu- tador executa as etapas no método de decodificação de imagens como defi- nido na reivindicação 13.
28. Meio de armazenamento legível em computador, que arma- zena um programa de decodificação de imagens pelo qual o computador executa etapas no método de decodificação de imagens como definido na reivindicação 13.
BRPI0716810-1A2A 2006-09-20 2007-09-18 Método de codificação e método de decodificação de imagens, aparelhos para tal, aparelho de decodificação de imagem, programa para tal e meios de armazenamento para armazenar os programas. BRPI0716810A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006-253845 2006-09-20
JP2006253845 2006-09-20
PCT/JP2007/068065 WO2008035665A1 (fr) 2006-09-20 2007-09-18 procédé DE CODAGE D'IMAGE, PROCÉDÉ DE DÉCODAGE, DISPOSITIF associÉ, DISPOSITIF DE DÉCODAGE D'IMAGE, programme associÉ, et support de stockage contenant le programme

Publications (1)

Publication Number Publication Date
BRPI0716810A2 true BRPI0716810A2 (pt) 2013-11-05

Family

ID=39200491

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0716810-1A2A BRPI0716810A2 (pt) 2006-09-20 2007-09-18 Método de codificação e método de decodificação de imagens, aparelhos para tal, aparelho de decodificação de imagem, programa para tal e meios de armazenamento para armazenar os programas.

Country Status (10)

Country Link
US (2) US8290289B2 (pt)
EP (1) EP2066133A4 (pt)
JP (1) JP4999854B2 (pt)
KR (1) KR101023262B1 (pt)
CN (1) CN101518090B (pt)
BR (1) BRPI0716810A2 (pt)
CA (1) CA2663672C (pt)
RU (1) RU2407220C2 (pt)
TW (1) TWI346509B (pt)
WO (1) WO2008035665A1 (pt)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5024962B2 (ja) * 2008-07-11 2012-09-12 日本電信電話株式会社 多視点距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP5219199B2 (ja) * 2008-07-11 2013-06-26 日本電信電話株式会社 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
WO2010021666A1 (en) * 2008-08-20 2010-02-25 Thomson Licensing Refined depth map
KR20110126103A (ko) 2009-01-07 2011-11-22 톰슨 라이센싱 조인트 깊이 추정
WO2011021240A1 (ja) * 2009-08-20 2011-02-24 トムソン ライセンシング ステレオ画像符号化方法、ステレオ画像符号化装置及びステレオ画像符号化プログラム
JP2011082683A (ja) * 2009-10-05 2011-04-21 Sony Corp 画像処理装置、画像処理方法、及び、プログラム
CN102576154A (zh) * 2009-10-30 2012-07-11 惠普发展公司,有限责任合伙企业 立体显示系统
KR101594048B1 (ko) * 2009-11-09 2016-02-15 삼성전자주식회사 카메라들의 협력을 이용하여 3차원 이미지를 생성하는 방법 및 상기 방법을 위한 장치
KR20120131170A (ko) * 2010-02-25 2012-12-04 톰슨 라이센싱 디스패러티의 시간 변화에 대한 디스패러티 추정 및 한계를 가진 입체적인 자막 달기
KR101628383B1 (ko) * 2010-02-26 2016-06-21 연세대학교 산학협력단 영상 처리 장치 및 방법
JP5281623B2 (ja) * 2010-09-29 2013-09-04 日本電信電話株式会社 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置およびそれらのプログラム
JP5248583B2 (ja) 2010-12-13 2013-07-31 株式会社東芝 動画像復号装置及び動画像復号方法
JP5092011B2 (ja) 2010-12-17 2012-12-05 株式会社東芝 動画像復号装置及び動画像復号方法
RU2480941C2 (ru) * 2011-01-20 2013-04-27 Корпорация "Самсунг Электроникс Ко., Лтд" Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности
JP5357199B2 (ja) * 2011-03-14 2013-12-04 日本電信電話株式会社 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラムおよび画像復号プログラム
EP3267398A3 (en) * 2011-03-18 2018-03-28 Sony Corporation Image processing apparatus and image processing method
US9648334B2 (en) * 2011-03-21 2017-05-09 Qualcomm Incorporated Bi-predictive merge mode based on uni-predictive neighbors in video coding
CA2838088C (en) * 2011-06-30 2021-06-08 Sony Corporation Image processing device and image processing method
JP5749595B2 (ja) * 2011-07-27 2015-07-15 日本電信電話株式会社 画像伝送方法、画像伝送装置、画像受信装置及び画像受信プログラム
JP2013110643A (ja) * 2011-11-22 2013-06-06 Sharp Corp 画像符号化方法、画像符号化装置、画像復号方法、画像復号装置およびそれらのプログラム
BR112014013969B1 (pt) * 2011-12-28 2022-05-10 JVC Kenwood Corporation Dispositivo de codificação de vídeo, método de codificação de vídeo, programa de codificação de vídeo, dispositivo de decodificação de vídeo, método de decodificação de vídeo, programa de decodificação de vídeo
JP2013258577A (ja) * 2012-06-13 2013-12-26 Canon Inc 撮像装置、撮像方法及びプログラム、画像符号化装置、画像符号化方法及びプログラム
JP5531282B2 (ja) * 2012-06-18 2014-06-25 日本電信電話株式会社 多視点画像符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
US9667942B2 (en) * 2012-11-20 2017-05-30 Qualcomm Incorporated Adaptive luminance compensation in three dimensional video coding
US9350970B2 (en) 2012-12-14 2016-05-24 Qualcomm Incorporated Disparity vector derivation
CN107318027B (zh) 2012-12-27 2020-08-28 日本电信电话株式会社 图像编码/解码方法、图像编码/解码装置、以及图像编码/解码程序
US20150350678A1 (en) * 2012-12-27 2015-12-03 Nippon Telegraph And Telephone Corporation Image encoding method, image decoding method, image encoding apparatus, image decoding apparatus, image encoding program, image decoding program, and recording media
CN103118256B (zh) * 2013-01-29 2017-02-15 北京大学深圳研究生院 基于方向和距离判别的运动矢量预测方法
JP6551743B2 (ja) * 2013-06-05 2019-07-31 ソニー株式会社 画像処理装置および画像処理方法
EP3142366A1 (en) 2015-09-14 2017-03-15 Thomson Licensing Method and apparatus for encoding and decoding a light field based image, and corresponding computer program product
US9716875B2 (en) 2015-09-18 2017-07-25 Intel Corporation Facilitating quantization and compression of three-dimensional graphics data using screen space metrics at computing devices
EP3171598A1 (en) * 2015-11-19 2017-05-24 Thomson Licensing Methods and devices for encoding and decoding a matrix of views obtained from light-field data, corresponding computer program and non-transitory program storage device
EP3383035A1 (en) * 2017-03-29 2018-10-03 Koninklijke Philips N.V. Image generation from video
JP7168848B2 (ja) * 2018-11-21 2022-11-10 日本電信電話株式会社 評価装置、評価方法、及びプログラム。
US10638130B1 (en) * 2019-04-09 2020-04-28 Google Llc Entropy-inspired directional filtering for image coding

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2030119C1 (ru) 1991-04-19 1995-02-27 Смирнов Александр Иванович Устройство формирования стереотелевизионного изображения подвижного объекта
US5790086A (en) 1995-01-04 1998-08-04 Visualabs Inc. 3-D imaging system
US6055012A (en) * 1995-12-29 2000-04-25 Lucent Technologies Inc. Digital multi-view video compression with complexity and compatibility constraints
JPH09261653A (ja) * 1996-03-18 1997-10-03 Sharp Corp 多視点画像符号化装置
JP3693407B2 (ja) * 1996-04-04 2005-09-07 シャープ株式会社 多視点画像符号化装置および復号装置
FR2756399B1 (fr) 1996-11-28 1999-06-25 Thomson Multimedia Sa Procede et dispositif de compression video pour images de synthese
JP4013286B2 (ja) * 1997-01-22 2007-11-28 松下電器産業株式会社 画像符号化装置と画像復号化装置
JP3519594B2 (ja) * 1998-03-03 2004-04-19 Kddi株式会社 ステレオ動画像用符号化装置
US7015951B1 (en) * 1998-05-08 2006-03-21 Sony Corporation Picture generating apparatus and picture generating method
JP4608136B2 (ja) 2001-06-22 2011-01-05 オリンパス株式会社 動きベクトル及び視差ベクトル検出装置
KR100481732B1 (ko) * 2002-04-20 2005-04-11 전자부품연구원 다 시점 동영상 부호화 장치
CN1204757C (zh) * 2003-04-22 2005-06-01 上海大学 一种立体视频流编码/解码器及其立体视频编解码系统
US7778328B2 (en) 2003-08-07 2010-08-17 Sony Corporation Semantics-based motion estimation for multi-view video coding
CN100584013C (zh) 2005-01-07 2010-01-20 日本电信电话株式会社 视频编码方法及装置、视频解码方法及装置
JP2006253845A (ja) 2005-03-08 2006-09-21 Ricoh Co Ltd 画像処理システム、画像処理装置、設定変更方法、設定変更プログラム、および該プログラムを記録した記録媒体
KR101276720B1 (ko) * 2005-09-29 2013-06-19 삼성전자주식회사 카메라 파라미터를 이용하여 시차 벡터를 예측하는 방법,그 방법을 이용하여 다시점 영상을 부호화 및 복호화하는장치 및 이를 수행하기 위한 프로그램이 기록된 기록 매체
CN100463527C (zh) * 2005-10-18 2009-02-18 宁波大学 一种多视点视频图像视差估计的方法
US7903737B2 (en) * 2005-11-30 2011-03-08 Mitsubishi Electric Research Laboratories, Inc. Method and system for randomly accessing multiview videos with known prediction dependency
EP1971154A4 (en) * 2006-01-05 2010-10-27 Nippon Telegraph & Telephone VIDEO CODING METHOD AND DECODING METHOD, DEVICE THEREFOR, DEVICE THEREFOR AND STORAGE MEDIUM WITH THE PROGRAM
TW200806040A (en) * 2006-01-05 2008-01-16 Nippon Telegraph & Telephone Video encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
CN101491101B (zh) * 2006-07-18 2011-11-16 汤姆森许可贸易公司 用于自适应参考滤波的方法和装置

Also Published As

Publication number Publication date
CA2663672A1 (en) 2008-03-27
EP2066133A4 (en) 2015-11-18
JP4999854B2 (ja) 2012-08-15
KR101023262B1 (ko) 2011-03-21
US8290289B2 (en) 2012-10-16
CN101518090A (zh) 2009-08-26
EP2066133A1 (en) 2009-06-03
CN101518090B (zh) 2011-11-16
CA2663672C (en) 2014-08-12
US20100021072A1 (en) 2010-01-28
WO2008035665A1 (fr) 2008-03-27
KR20090053820A (ko) 2009-05-27
RU2009109204A (ru) 2010-09-20
RU2407220C2 (ru) 2010-12-20
TWI346509B (en) 2011-08-01
JPWO2008035665A1 (ja) 2010-01-28
US20130058584A1 (en) 2013-03-07
TW200822762A (en) 2008-05-16

Similar Documents

Publication Publication Date Title
BRPI0716810A2 (pt) Método de codificação e método de decodificação de imagens, aparelhos para tal, aparelho de decodificação de imagem, programa para tal e meios de armazenamento para armazenar os programas.
KR101031624B1 (ko) 화상 부호화 방법 및 복호 방법, 그 장치 및 그 프로그램을 기록한 기억매체
RU2527737C2 (ru) Способ кодирования многопроекционного видео, способ декодирования многопроекционного видео, устройство кодирования многопроекционного видео, устройство декодирования многопроекционного видео, и программа
JP4414379B2 (ja) 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
RU2522309C2 (ru) Способ оценки вектора движения, способ кодирования многовидового видеосигнала, способ декодирования многовидового видеосигнала, устройство оценки вектора движения, устройство кодирования многовидового видеосигнала, устройство декодирования многовидового видеосигнала. программа оценки вектора движения, программа кодирования многовидового видеосигнала и программа декодирования многовидового видеосигнала
BRPI0706214A2 (pt) método de codificação e decodificação de vìdeo, aparelhos para os mesmos, programas para os mesmos e meios de armazenamento para armazenar os programas
BRPI0620645A2 (pt) método para codificação e método para decodificação, aparelhos para tal, programas para tal, e meio de armazenagem para armazenar os programas
BRPI0721077A2 (pt) Método de codificação e método de decodificação de vídeo, aparelhos para os mesmos, programas para os mesmos, e meio de armazenamento o qual armazena os programas
BR112014011425B1 (pt) Codificação de multi-visualização eficiente utilizando estimativa e atualização de mapa por profundidade
BRPI0714233A2 (pt) mÉtodos e aparelho para filtragem de referÊncia adaptativa
JP6053200B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
US20020131500A1 (en) Method for determining a motion vector for a video signal
KR20120095611A (ko) 다시점 비디오 부호화/복호화 방법 및 장치
JP2004362572A (ja) 較正された多視点画像シーケンスの圧縮のための動き推定
JP4944046B2 (ja) 映像符号化方法,復号方法,符号化装置,復号装置,それらのプログラムおよびコンピュータ読み取り可能な記録媒体
Paul et al. Self-supervised learning of perceptually optimized block motion estimates for video compression
Garcia et al. An efficient and direct nonplanar rotation estimation algorithm for video applications

Legal Events

Date Code Title Description
B08F Application fees: application dismissed [chapter 8.6 patent gazette]
B08K Patent lapsed as no evidence of payment of the annual fee has been furnished to inpi [chapter 8.11 patent gazette]
B15K Others concerning applications: alteration of classification

Ipc: H04N 19/527 (2014.01), H04N 19/147 (2014.01), H04N