BR112013019031B1 - método e aparelho para comparar uma primeira imagem com uma segunda imagem, e, sistema para comparar imagens. - Google Patents

método e aparelho para comparar uma primeira imagem com uma segunda imagem, e, sistema para comparar imagens. Download PDF

Info

Publication number
BR112013019031B1
BR112013019031B1 BR112013019031-0A BR112013019031A BR112013019031B1 BR 112013019031 B1 BR112013019031 B1 BR 112013019031B1 BR 112013019031 A BR112013019031 A BR 112013019031A BR 112013019031 B1 BR112013019031 B1 BR 112013019031B1
Authority
BR
Brazil
Prior art keywords
distance
key point
image
key points
key
Prior art date
Application number
BR112013019031-0A
Other languages
English (en)
Other versions
BR112013019031A2 (pt
Inventor
Giovanni Cordara
Gianluca Francini
Skjalg Lepsoy
Pedro Porto Buarque De Gusmao
Original Assignee
Telecom Italia S.P.A.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom Italia S.P.A. filed Critical Telecom Italia S.P.A.
Publication of BR112013019031A2 publication Critical patent/BR112013019031A2/pt
Publication of BR112013019031B1 publication Critical patent/BR112013019031B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

MÉTODO E APARELHO PARA COMPARAR UMA PRIMEIRA IMAGEM COM UMA SEGUNDA IMAGEM, E, SISTEMA Um método para comparar uma primeira imagem com uma segunda imagem é fornecido. O método compreende identificar primeiros pontos chaves na primeira imagem e segundos pontos chaves na segunda imagem e associar cada primeiro ponto chave com um correspondente segundo ponto chave de modo a formar uma correspondente coincidência de ponto chave. Para cada par de primeiros pontos chaves, o método ainda compreende calcular a distância entre eles para obter um correspondente primeiro comprimento. De forma similar, para cada par de segundos pontos chaves, o método compreende calcular a distância entre eles para obter um correspondente segundo comprimento. O método ainda compreende calcular uma pluralidade de proporções de distância; cada proporção de distância é com base em uma proporção de comprimento entre um selecionado um entre um primeiro comprimento e um segundo comprimento e um correspondente selecionado um entre um segundo comprimento e um primeiro comprimento, respectivamente. O método ainda inclui calcular uma distribuição de estatísticas de uma pluralidade de proporções de distância e gerar uma função de modelo expressando uma distribuição de estatísticas de proporções de distância adicionais correspondendo a uma seleção aleatória de pontos (...).

Description

Conhecimento da Invenção Campo da Invenção
[001] A presente invenção se refere ao campo de análise de imagem análise.
Descrição da técnica relacionada
[002] No campo da análise de imagem, uma operação comum fornece para comparar duas imagens de modo a encontrar uma relação ocorrendo entre elas no caso de ambas as imagens incluem pelo menos uma porção de uma mesma cena ou de um mesmo objeto.
[003] Entre um alto número de aplicações, a comparação de imagem é da maior importância para calibrar câmera de vídeos pertencendo a um sistema de múltiplas câmeras, para confirmar o movimento ocorrendo entre dois quadros de um instantâneo de vídeo, e para o reconhecimento de um objeto dentro de uma imagem (por ex., uma figura). A última aplicação está agora assumindo mais e mais importância devido ao recente desenvolvimento de algoritmos de reconhecimento de objeto especificamente projetados para serem empregados nos assim chamados mecanismos de pesquisa visual, i.e., serviços automatizados que, começando a partir de uma figura, são capazes de identificar o objeto(s) desenhado nela e oferecer informação relacionada ao objeto(s) identificado. Exemplos de serviços conhecidos deste tipo incluem Google Goggles, Nokia Point&Find, e kooaba Smart Visuals. Uma aplicação de reconhecimento de objeto fornece para comparar uma primeira imagem - no jargão, referida como “imagem de indagação” - descrevendo um objeto a ser reconhecido com uma pluralidade de imagens de referência, cada um descrevendo um respectivo objeto conhecido; isto permite efetuar uma comparação entre o objeto representado na imagem de indagação e os objetos representados nas imagens de referência.
[004] As imagens de referência são tipicamente arrumadas em um apropriado banco de dados de referência. Quanto maior o número de imagens de referência incluído no banco de dados, maior o número de operações de comparação a ser efetuado. Em alguns casos o banco de dados de referência pode se tornar muito grande, negativamente afetando a eficiência do processo de reconhecimento de objeto. Por exemplo, no caso o reconhecimento de objeto é explorado em um cenário de shopping on-line, caracterizado pelo fato de que cada imagem de referência corresponde a um item oferecido por uma loja on-line (por ex., a figura de uma capa de livro, uma capa de DVD e/ou uma capa de CD), o número de imagens de referência pode exceder poucos milhões de unidades. Mais ainda, de modo à eficientemente gerenciar tal enorme quantidade de dados, as operações de comparação devem ser efetuadas por uma unidade de processamento fornecido com uma suficiente energia de processamento.
[005] Na última década, diferentes algoritmos foram propostos para reduzir o tempo requerido para efetuar reconhecimento de objeto. Esses algoritmos fornecem para pesadamente reduzir o número de imagens de referência que são candidatas para incluir o objeto representado na imagem de indagação.
[006] Um caminho muito eficiente para efetuar operações de comparação entre duas imagens fornece para selecionar um conjunto de pontos - no jargão, referido como pontos chaves - na primeira imagem e então coincidindo cada ponto chave do conjunto para um correspondente ponto chave na segunda imagem. A seleção de que o ponto da primeira imagem tem de se tornar um ponto chave é realizada levando em consideração características locais da área da imagem envolvendo o próprio ponto. A esse respeito, ver “Distinctive image features from scale-invariant jeypoints” by David G. Lowe, International Journal of computer vision, 2004.
[007] Se uma correspondência entre um ponto chave da primeira imagem e um correspondente ponto chave da segunda imagem é corrigida, no sentido que ambos pontos chaves correspondem ao mesmo ponto de um mesmo objeto (representado em ambas as duas imagens), tal correspondência de ponto chave é referida como “inlier”.
[008] Reciprocamente, se uma correspondência entre um ponto chave da primeira imagem e um correspondente ponto chave da segunda imagem é incorreta, no sentido que os dois pontos chaves não correspondem a um mesmo ponto do mesmo objeto, tal correspondência de ponto chave é referida como “outlier”.
[009] Por conseguinte, de modo a obter um resultado confiável, um procedimento capaz de distinguir os inliers a partir dos outliers é vantajosamente efetuado após o ponto chave que coincidente ter sido determinado.
[0010] Vários exemplos de procedimentos deste tipo são já conhecidos na técnica.
[0011] A maioria do procedimento usado faz uso do algoritmo de RANSAC divulgado em “Random sample consensus: A paradigm for model fitting sith applications to image analysis and automated cartography” por Martin A. Fischler e Robert C. Bolles, Communications of the ACM, 24(6):381-395, Junho de 1981. Contudo, este algoritmo é demorado, porque é com base em uma abordagem iterativa.
[0012] Os algoritmos divulgados em “Fast geometric re-ranking for image-based retrieval” por Sam S. Tsai, Davide Chen, Gabriel Takacs, Vijay Chandrasekhar, Ramakrishna Vedantham, Radek Grzeszczuk, Bernd Girod, International Conference on Image Processing, Outubro de 2010, e no pedido de patente internacional WO2009/130451 são com base no fato que a razão entre as distâncias de pontos chaves é uma invariante sob translação, rotação, e dimensionamento. Algoritmos adicionais deste tipo são também divulgados em “Adding Affine Invariant Geometric Constraint for Partial-Duplicate Image Retrieval” por Zhipeng Wu, Qianqian Xu, Shuqiang Jiang, Qingming Huang, Peng Cui, Liang Li, International Conference on Patterne Recognition, Agosto de 2010, páginas 842 - 845, e em “Using Local Affine Invariants to IMprove Image Matching” por Daniel Fleck, Zoran Duric, 20th International Conference on Pattern Recognition, 2010, páginas 1844 - 1847.
[0013] Além disso, US 2010/0135527 Al divulga um algoritmo de reconhecimento de imagem incluindo uns pontos chaves com base em comparação e uma região com base em comparação de cor. Um método de identificar uma imagem alvo usando o algoritmo inclui: receber uma entrada em um dispositivo de processamento, a entrada incluindo dados relacionados à imagem alvo; efetuando uma etapa de recuperação incluindo recuperar uma imagem a partir de um banco de dados de imagens, e, até a imagem é ou aceita ou rejeitada, designando a imagem como uma imagem candidata; efetuando uma etapa de reconhecimento de imagem incluindo usando o dispositivo de processamento para efetuar um algoritmo de reconhecimento de imagem no alvo e imagens de candidato de modo a obter uma saída de algoritmo de reconhecimento de imagem; e efetuar uma etapa de comparação incluindo: se a saída do algoritmo de reconhecimento de imagem está dentro de um pré-selecionado intervalo, aceitando a imagem candidata como a imagem alvo; e se a saída do algoritmo de reconhecimento de imagem não está dentro do intervalo pré-selecionado, rejeitando a imagem candidata e repetindo a recuperação, reconhecimento de imagem, e etapas de comparação.
[0014] US2010/0183229 Al se refere a um método, sistema e produto de programa de computador para coincidir imagem. As imagens a serem coincididas são representadas por pontos de características e vetores de características e orientações associadas com os pontos de características. Primeiro, correspondências supostas são determinas usando vetores de características. Um subconjunto de correspondências supostas é selecionado e a equivalência topológica do subconjunto é determinada. O subconjunto topologicamente equivalente de correspondências supostas é usado para estabelecer um modelo de estimativa de movimentos. Um teste de consistência de orientação é efetuado nas correspondências supostas e na correspondente transformação de estimativa de movimento que é determinada, para evitar uma transformação infactível. Um teste de cobertura é efetuado na correspondência que satisfaz o teste de consistência de orientação. As correspondências de candidatos que não cobrem uma porção significativa de uma das imagens são rejeitadas. As imagens de correspondência final são fornecidas na ordem de diminuir correspondência, no caso de múltiplas imagens satisfazendo todos os requisitos de teste.
Sumário da Invenção
[0015] O Requerente encontrou que as abordagens conhecidas mencionadas acima para implementar serviços de reconhecimento de objetos são afetados por vários inconvenientes. Em particular, essas abordagens são demoradas, sendo com base em procedimentos iterativos e/ou requerendo uma enorme quantidade de dados a serem processados.
[0016] O Requerente abordou o problema de como melhorar essas abordagens em termos de consumo de tempo e quantidade de dados a serem processados.
[0017] Em particular, o Requerente abordou o problema de fornecer um método para comparar imagem que é confiável em termos de processamento de dados e tem bom desempenho em termos de consumo de tempo.
[0018] O Requerente encontrou que iniciando a partir dados de exibição um conjunto de pontos chaves gerados em uma primeira imagem (imagem de indagação) e associados para um correspondente conjunto de pontos chaves gerados em uma segunda imagem (imagem de referência) a fim de formar um correspondente conjunto de correspondências de pontos chaves, um método para comparar imagem de acordo com a presente invenção pode incluir uma principal fase e duas subsequentes fases opcionais.
[0019] A principal fase é aplicada após a geração das correspondências de ponto chave, e fornece para estatisticamente processar as correspondências de ponto chave e consequentemente confirmando, através de uma verificação de consistência geométrica, se a imagem de indagação e a imagem de referência podem representar um mesmo objeto ou não. Mais em detalhe, após a geração de uma função de modelo expressando uma distribuição de estatísticas das correspondências incorretas (outliers), um teste bom de ajuste é realizado a fim de decidir se a imagem de referência contém uma visão de um objeto presente na imagem de indagação.
[0020] No caso afirmativo, o método é capaz de computar uma pontuação a ser usada para classificar a similaridade efetiva entre o objeto retratado na imagem de referência e o um retratado na imagem de indagação.
[0021] A segundo fase permite confirmar quantas correspondências de ponto chave são inliers entre o conjunto completo de correspondência de ponto chave.
[0022] Esta fase pode ser vantajosamente efetuada para aumentar a precisão nas aplicações de pesquisa visual.
[0023] A terceira fase permite especificamente identificar que correspondência de ponto chave são inliers, e que correspondência de ponto chave são outliers.
[0024] Tal fase pode ser vantajosamente realizada em algumas aplicações particulares, tal como a realidade aumentada.
[0025] Mais especificamente, de acordo com um aspecto da presente invenção se refere a um método para comparar uma primeira imagem com uma segunda imagem. O método compreende: identificar primeiros pontos chaves na primeira imagem e segundos pontos chaves na segunda imagem e associar cada primeiro ponto chave com um correspondendo segundo ponto chave de modo a formar uma correspondente correspondência de ponto chave. Para cada par de primeiros pontos chaves, o método ainda compreende calcular a distância entre eles para um correspondente primeiro comprimento. De forma similar, para cada par de segundos pontos chaves, o método compreende calcular a distância entre eles para obter um correspondente segundo comprimento. O método ainda compreende calcular uma pluralidade de razões de distância; cada razão de distância é com base em uma razão de comprimento entre um selecionado um entre um primeiro comprimento e um segundo comprimento e um correspondente selecionado um entre um segundo comprimento e um primeiro comprimento, respectivamente. O método ainda inclui calcular uma distribuição de estatísticas de uma pluralidade de razões de distância e gerar uma função de modelo expressando uma distribuição de estatísticas de razões de distância adicionais correspondendo a uma seleção aleatória de pontos chaves na primeira e segunda imagens. O método inclui comparar a distribuição de estatísticas mencionada de uma pluralidade de razões de distância com a função de modelo mencionada, e confirmar se a primeira imagem contém uma visão de um objeto representado na segunda imagem com base na comparação mencionada.
[0026] De acordo com uma modalidade da presente invenção, o método inclui arrumar uma distribuição de uma pluralidade de razões de distância na forma de um histograma tendo uma pluralidade de bins ordenados cada um correspondendo a um respectivo intervalo de valores de razão de distância; o histograma enumera para cada bin um correspondente número de razões de distância de uma distribuição tendo valores compreendidos dentro do respectivo intervalo. Para cada bin, o método ainda inclui gerar uma correspondente probabilidade de modelo correspondendo à integral da função de modelo sobre o bin mencionado. O comparar mencionado de uma distribuição de uma pluralidade de razões de distância com a função de modelo mencionada inclui comparar o histograma com as probabilidades do modelo.
[0027] Preferencialmente, o comparar mencionado do histograma com as probabilidades de modelo compreende efetuar um teste de chi- quadrado de Pearson.
[0028] Vantajosamente, o calcular mencionado das razões de distância prevê calcular o logaritmo das razões de comprimento.
[0029] De acordo com uma modalidade da presente invenção, o método ainda compreende estimar um número de correspondências de ponto chave incorretas (uma correspondência de ponto chave incorreta é formada por um primeiro e um segundo pontos chaves que não correspondem ao mesmo ponto de um mesmo objeto representado na primeira e segunda imagens). O estimar mencionado do número de correspondências de ponto chave incorretas inclui inicializar um parâmetro de ponderação para um valor inicial e repetir: a) ponderar as probabilidades de modelo com o parâmetro de ponderação, e b) aumentar o valor do parâmetro de ponderação, até o valor de pelo menos uma probabilidade de modelo ponderada atingir o número de razões de distância enumerado pelo histograma no bin correspondendo á probabilidade do modelo. O método ainda compreende determinar o número de correspondências de ponto chave incorretas com base no último valor assumido pelo parâmetro de ponderação.
[0030] De acordo com uma modalidade da presente invenção, o método ainda compreende estimar um número de correspondências de ponto chave corretas (uma correspondência de ponto chave correta é formada por um primeiro e um segundo pontos chaves que correspondem ao mesmo ponto de um mesmo objeto representado na primeira e segunda imagens). O estimar mencionado do número de correspondências de ponto chave corretas é com base no número da primeira correspondência de ponto chave multiplicado por um termo igual à raiz quadrada de um menos o último valor assumido pelo parâmetro de ponderação.
[0031] De acordo com uma modalidade adicional da presente invenção, o método ainda compreende calcular uma matriz; cada elemento da matriz corresponde a um respectivo par de pontos chaves coincidentes e tem um valor correspondendo à diferença entre o valor assumido pelo histograma no bin incluindo a razão de distância do respectivo par de pontos chaves coincidentes e a probabilidade de modelo ponderada correspondendo ao bin mencionado. O método ainda compreende encontra o vetor próprio dominante da matriz, e identificar que correspondências de ponto são mais prováveis de serem correspondências de ponto de chave corretas com base no vetor próprio dominante mencionado.
[0032] O identificar mencionado de que correspondências de ponto chave são mais prováveis de serem correspondências de ponto chave corretas inclui identificar os elementos do vetor próprio tendo os mais altos valores absolutos.
[0033] Um outro aspecto da presente invenção fornece um aparelho para comparar uma primeira imagem com uma segunda imagem. O aparelho compreende uma primeira unidade de identificação configurada para identificar primeiros pontos chaves na primeira imagem e segundos pontos chaves na segunda imagem, e uma unidade de associação configurada para associar cada primeiro ponto chave com um correspondente segundo ponto chave de modo a formar uma correspondência de ponto chave. Uma primeira unidade de cálculo é configurada para calcular, para cada par de primeiros pontos chaves, a distância entre eles para obter um correspondente primeiro comprimento, enquanto uma segunda unidade de cálculo é configurada para calcular, para cada par de segundos pontos chaves, a distância entre eles para obter um correspondente segundo comprimento. O aparelho ainda compreende uma terceira unidade de cálculo configurada para calcular uma pluralidade de razões de distância; cada razão de distância é com base em uma razão de comprimento entre um selecionado um entre um primeiro comprimento e um segundo comprimento e um correspondente selecionado um entre um segundo comprimento e um primeiro comprimento, respectivamente. O aparelho ainda compreende uma quarta unidade de cálculo configurada para calcular a distribuição de estatísticas de uma pluralidade de razões de distância e uma primeira unidade de geração configurada para gerar uma função de modelo expressando uma distribuição de estatísticas de razões de distância adicionais correspondendo a uma seleção aleatória de pontos chaves na primeira e segunda imagens. O aparelho compreende uma primeira unidade de comparação configurada para comparar a distribuição de estatísticas mencionada de uma pluralidade de razões de distância com a função de modelo mencionada, e uma unidade de confirmação configurada para confirmar se a primeira imagem contém uma visão de um objeto representado na segunda imagem com base na comparação mencionada.
[0034] De acordo com uma modalidade da presente invenção, o aparelho ainda compreende uma unidade de arrumação configurada para arrumar uma distribuição de uma pluralidade de razões de distância na forma de um histograma tendo uma pluralidade de bins ordenados cada um correspondendo a um respectivo intervalo de valores de razão de distância; o histograma enumera para cada bin um correspondente número de razões de distância de uma distribuição tendo valores compreendidos dentro do respectivo intervalo. O aparelho ainda compreende uma segunda unidade de geração configurada para gerar, para cada bin, uma correspondente probabilidade de modelo correspondendo à integral da função de modelo sobre o bin mencionado. A primeira unidade de comparação mencionada inclui uma segunda unidade de comparação configurada para comparar o histograma com as probabilidades do modelo.
[0035] De acordo com uma modalidade adicional da presente invenção, o aparelho compreende uma primeira unidade de estimativa configurada para estimar um número de correspondências de ponto chave incorretas; uma correspondência de ponto chave incorreta é formada por um primeiro e um segundo pontos chaves que não correspondem ao mesmo ponto de um mesmo objeto representado na primeira e segunda imagens. A primeira unidade de estimativa inclui uma unidade de inicialização configurada para inicializar um parâmetro de ponderação para um valor inicial e uma unidade de ponderação configurada para repetir as operações: a) ponderar as probabilidades do modelo com o parâmetro de ponderação, e b) aumentar o valor do parâmetro de ponderação, até o valor de pelo menos uma probabilidade de modelo ponderada atingir o número de razões de distância enumerado pelo histograma no bin correspondendo à probabilidade do modelo. O aparelho ainda incluindo uma unidade de determinação configurada para determinar o número de correspondências de ponto chave incorretas com base no último valor assumido pelo parâmetro de ponderação.
[0036] Preferencialmente, o aparelho ainda compreende uma segunda unidade de estimativa configurada para estimar um número de correspondências de ponto chave corretas; a segunda unidade de estimativa mencionada é configurada para estimar o número de correspondências de ponto chave corretas com base no número das primeiras correspondências de ponto chave multiplicado por um termo igual à raiz quadrada de um menos o último valor assumido pelo parâmetro de ponderação.
[0037] De acordo com uma ainda modalidade adicional da presente invenção, o aparelho ainda inclui uma quinta unidade de cálculo configurada para calcular uma matriz; cada elemento da matriz corresponde a um respectivo par de pontos chaves coincidentes e tem um valor correspondendo à diferença entre o valor assumido pelo histograma no bin incluindo a razão de distância do respectivo par de pontos chaves coincidentes e a probabilidade de modelo ponderada correspondendo ao bin mencionado. O aparelho ainda incluindo uma unidade de encontrar configurada para encontrar o vetor próprio dominante da matriz, e uma segunda unidade de identificação configurada para identificar que correspondências de ponto chave são mais prováveis de serem correspondências de ponto chave corretas com base no vetor próprio dominante.
[0038] Um ainda aspecto adicional da presente invenção fornece um sistema, que inclui uma unidade de detecção de ponto chave configurada para receber uma imagem de indagação e identificar correspondentes primeiro pontos chaves na imagem mencionada e uma unidade de computação de características configurada para descrever o aspecto local dos primeiros pontos chaves mencionados através de correspondentes primeiros descritores locais. O sistema ainda inclui um banco de dados de referência armazenando uma pluralidade de imagens de referência; para cada imagem de referência, o banco de dados de referência ainda armazena correspondentes segundos pontos chaves e correspondentes segundos descritores locais dos segundos pontos chaves. O sistema ainda inclui uma unidade de correspondência de características configurada para comparar, para cada imagem de referência de pelo menos um grupo de imagens de referência, os primeiros descritores locais com os segundos descritores locais da imagem de referência mencionada, e consequentemente associar os primeiros pontos chaves com os segundos pontos chaves da imagem de referência mencionada para gerar um correspondente conjunto de correspondências de pontos chaves. O sistema ainda inclui uma unidade de seleção adicional configurada para selecionar um subconjunto de figuras de referência com base nas comparações realizada pela unidade de correspondência de características, e uma unidade de otimização configurada para calcular, para cada par compreendendo a imagem de indagação e a imagem de referência do subconjunto, o número de correspondências de ponto chave corretas.
[0039] De acordo com uma modalidade da presente invenção, o sistema ainda compreende um servidor de pesquisa visual e uma pluralidade de terminais configurados para trocar dados com o servidor de pesquisa visual através de uma rede.
[0040] De acordo com uma modalidade da presente invenção, o servidor de pesquisa visual inclui a unidade de detecção de ponto chave, a unidade de computação de características, o banco de dados de referência, a unidade de correspondência de características, a unidade de seleção e a unidade de otimização.
[0041] De acordo com uma outra modalidade da presente invenção, o servidor de pesquisa visual inclui o banco de dados de referência, a unidade de correspondência de características, a unidade de seleção e a unidade de otimização, e cada terminal inclui uma respectiva unidade de detecção de ponto chave e uma respectiva unidade de computação de características.
[0042] De acordo com uma ainda modalidade adicional da presente invenção, o servidor de pesquisa visual inclui o banco de dados de referência, e cada terminal inclui uma respectiva unidade de detecção de ponto chave, uma respectiva unidade de computação de características, uma respectiva unidade de correspondência de características, uma respectiva unidade de seleção, uma respectiva unidade de otimização e um respectivo banco de dados local. Cada terminal é configurado para receber proveniente do servidor de pesquisa visual um respectivo conjunto de segundos pontos chaves e correspondentes segundos descritores locais dos segundos pontos chaves armazenados no banco de dados de referência, e o banco de dados local do terminal é configurado para armazenar o conjunto recebido de segundos pontos chaves e segundos descritores locais; o conjunto armazenado mencionado de segundos pontos chaves e segundos descritores locais corresponde às imagens de referência do pelo menos um grupo de imagens de referência.
Breve descrição dos desenhos
[0043] Essas e outras características e vantagens da presente invenção serão tornadas mais evidentes pela seguinte descrição de algumas modalidades exemplares e não limitativas da mesma, a serem lidas em conjunto com os desenhos anexos, caracterizados pelo fato de que: A Figura 1A ilustra um exemplo no qual pontos chaves de duas imagens estão associados cada um ao outro para formar pontos chaves coincidentes; a Figura IB ilustra o exemplo da Figura 1A, no qual somente as inliers estão representadas; a Figura 1C ilustra um histograma de LDR correspondendo ao exemplo da Figura 1 A; a Figura 2 ilustra a forma de uma função de modelo de outlier de acordo com uma modalidade da invenção; a Figuras 3A - 3F ilustra vários exemplos de histogramas de LDR gerados a partir de par de imagem; a Figura 4 ilustra um caso exemplar no qual a imagem de indagação em adição em adição, imagem de referência representam um mesmo objeto planar visto a partir de diferentes ângulos; a Figuras 5A e 5B ilustra dois casos exemplares nos quais objetos planares próximos são mostrados com diferenças moderada nos ângulos de visão; a Figura 6 mostra um exemplo de dimensionar as probabilidades de modelo para estimar o número de inliers de acordo com uma modalidade da presente invenção; a Figura 7A é um fluxograma ilustrando as etapas principais da primeira fase do método de acordo com uma modalidade da presente invenção; a Figura 7B é um fluxograma ilustrando as etapas principais da segunda fase do método de acordo com uma modalidade da presente invenção; a Figura 7C é um fluxograma ilustrando as etapas principais da terceira fase do método de acordo com uma modalidade da presente invenção; a Figura 8, de forma esquemática, ilustra um possível cenário caracterizado pelo fato de que o método de acordo com uma modalidade da presente invenção pode ser explorado para implementar um serviço de pesquisa visual; a Figura 9A ilustra um sistema implementando um serviço de pesquisa visual de acordo com uma modalidade da presente invenção; a Figura 9B ilustra um sistema implementando um serviço de pesquisa visual de acordo com uma modalidade adicional da presente invenção; a Figura 9C ilustra um sistema implementando um serviço de pesquisa visual de acordo com uma ainda modalidade adicional da presente invenção, e a Figura 10 é um fluxograma ilustrando etapas principais de um método de calibração de câmera de vídeo automático de acordo com uma modalidade da presente invenção.
Descrição detalhada das modalidades exemplares da invenção
[0044] Conforme já mencionado acima, uma comparação entre duas imagens prevê coincidir pontos chaves da primeira imagem com correspondentes pontos chaves da segunda imagem. Uma correspondência de ponto chave é dita ser correta (inlier) se os correspondentes pontos chaves das duas imagens correspondem ao mesmo ponto de um mesmo objeto (representado em ambas as duas imagens); reciprocamente, uma correspondência de ponto chave é dita ser incorreta (outlier) se os dois pontos chaves não correspondem ao mesmo ponto do mesmo objeto. No exemplo ilustrado na figura 1A, caracterizado pelo fato de que cada imagem é uma figura de um mesmo objeto (uma igreja), cada correspondência de ponto chave é representada com uma respectiva linha sólida. As correspondências de pontos chaves ilustradas no caso exemplar da Figura 1A inclui ambas inliers e outliers. A versão do mesmo caso exemplar no qual as outliers forma removidas está em vez disso representado na figura 1B.
[0045] Na discussão seguinte da presente descrição será apresentado um novo método de comparação de imagem. Iniciando a partir de um conjunto de pontos chaves gerado em uma primeira imagem - referida como imagem de indagação, ou simplesmente indagação - associada a um correspondente conjunto de pontos chaves gerados em uma segunda imagem - referida como imagem de referência - a fim de formar um correspondente conjunto de correspondências de pontos chaves, o método proposto inclui uma fase principal e duas subsequentes fases opcionais: 1) A principal fase é aplicada após a geração das correspondências de pontos chaves, e prevê estatisticamente processar as correspondências de pontos chaves e consequentemente confirmar, através de um verificação de consistência geométrica, se a imagem de indagação e a imagem de referência podem representar um mesmo objeto ou não. Mais em detalhe, após a geração de um modelo probabilístico das correspondências incorretas (outliers), um teste bom de ajuste é realizado a fim de decidir se a imagem de referência contém uma visão de um objeto presente na imagem de indagação. No caso afirmativo, o método é capaz de computar uma pontuação a ser usada para classificar a similaridade efetiva entre o objeto retratado na imagem de referência e o um retratado na imagem de indagação. 2) A segunda (opcional) fase permite confirmar quantas correspondências de pontos de chaves são inliers entre completo conjunto de correspondência de ponto chave. Esta fase pode ser vantajosamente efetuada para aumentar a precisão nas aplicações de pesquisa visual. 3) A terceira fase (também opcional) permite especificamente identificar que correspondências de pontos chaves são inliers, e que correspondências de pontos chaves são outliers. Tal fase pode ser vantajosamente realizada em algumas particulares aplicações, tal como a realidade aumentada.
[0046] Na seção 1 da presente descrição será introduzido as propriedades da particular estatística usada neste método, e o conceito de razão de distância de registro, ambos para correspondência correta e incorreta. As seguintes três seções (Seções 2 - 4) divulga aspectos matemáticos e estatísticos dos três estágios do método proposto. Seção 5 divulga as etapas principais dos três estágios do método. A última seção (Seção 6) é direcionada para aplicações exemplares do método proposto. Seção 1 - A estatística de razão de distância
[0047] Que seja considerado um conjunto de N pontos chaves coincidentes
Figure img0001
onde xi contém as coordenadas do z-ésimo ponto chave na imagem de indagação e yi , contém as coordenadas de seu ponto chave coincidente na imagem de referência. Um par (x1 , y1) é chamado um inlier se os dois pontos chaves são corretamente coincidentes. Reciprocamente, um par é chamado um outlier se os pontos chaves não são incorretamente coincidentes.
[0048] O método proposto faz uso da assim chamada razão de distância de registro (por abreviação LDR) proposta no documento citado acima por Tsai et al. :
Figure img0002
[0049] Os pontos chaves precisam ser distintos, i.e., xi t xj, yi, yj, e a LDR é indefinida para i = j. A LDR é uma função da razão de comprimento, uma invariante para similaridades. Graças à presença do operador logaritmo, se a imagem de indagação é trocada com a imagem de referência (x se torna y e vice versa), a LDR inverte sinal.
[0050] Dado um conjunto de N pontos chaves coincidentes (xi , yi) - incluindo N pontos chaves xi na imagem de indagação e N correspondentes pontos chaves yi na imagem de referência -, existe um número FVR COPIAR IGUALDADE de razões de distância de registro. A distribuição de estatísticas de tais razões de distância de registro é expressa na forma de um correspondente histograma, aqui referido como “histograma de LDR”. O histograma de LDR será denotado pela matriz h = [h1 . . . hx ]T. h é uma matriz de frequências que surge quando contando as razões de distância de registro observadas contidas dentro cada um dos K pré-definidos intervalos T1 . . . TK, daqui em diante referido como bins. Por exemplo, tais bins podem ser os 25 intervalos de largura à 0,2 entre o valor inferior de -2,5 e o valor superior 2.5, i.e. :
Figure img0003
[0051] Um exemplo de histograma de LDR correspondendo ao caso da Figura 1A é ilustrado na figura 1C.
[0052] A principal vantagem da LDR é que se comporta de modo diferente para pares inlier e outlier. Para muitas transformações de imagem (que governa como os inliers se comportam) a LDR é restrita a um intervalo. Para os outliers a LDR se estende para fora de tais intervalos e ela tem um a função de densidade de probabilidade distintiva que pode ser usada para testes bom de ajuste.
[0053] A LDR é uma função de dois pares de pontos chaves genéricos , i.e., (xi , yi) e (xj , yi). Três possíveis condições podem ocorrer: ou ambos pares são outliers, ambos são inliers, ou um par é um inlier enquanto o outro é um outlier. 1.1 - A LDR quando ambos pares são outliers
[0054] O processo de correspondência não é restringido por qualquer conhecimento sobre a geometria da cena nas imagens - já que tal conhecimento não está disponível antes da correspondência ser realizada. Não há nenhum mecanismo que previna correspondências de erros, mesmo se as duas imagens mostrem o mesmos objetos. Se as duas imagens não mostram o mesmo ou objetos muito similares, então qualquer correspondência precisa ser considerada incorreta.
[0055] Mesmo embora o processo de correspondência seja determinístico, as posições dos pontos chaves incorretamente coincidentes não são prognosticados. Em geral é impossível descobrir qualquer padrão geométrico para os outliers, e não há primeiros princípios a partir dos quais tal um padrão poderia ser deduzido. Por conseguinte, a correspondência incorreta é considerada como um processo aleatório, e o comportamento de outliers é modelado através de uma apropriada função de densidade, referida como função de modelo de outlier.
[0056] Definição da função de modelo de outlier. Vamos deixar A e B serem retângulos. Suponha que xi, xj e A e yi, yj e B são pontos desenhados aleatoriamente, correspondendo às variáveis aleatórias Xi, Xj e Yi, Yj . Deixemos a variável aleatória C ser a LDR C = ldr (Xi , Xj , Yi , Yj) .
[0057] A função de modelo de outlier é uma função de densidade de probabilidade fc(c ) para C.
[0058] A função de modelo de outlier pode ser expressa para dois tipos de distribuições de pontos chaves: normal e uniforme.
[0059] Coordenadas de pontos chaves normalmente distribuídas. A suposição que os pontos chaves são normalmente distribuídos conduz a uma formulação simples da função de modelo de outlier, que é uma boa aproximação de casos reais.
[0060] Isto é suposto que os pontos chaves da imagem de indagação são independentes e identicamente distribuídos (i.i.d.), comportando-se como uma variável aleatória que é distribuída normalmente com média μ e variância (1/2)/I:
Figure img0004
[0061] É assumido que as coordenadas foram forma adequada dimensionadas tal que os pontos chaves são distribuídos sobre a imagem completa (note que a variância é a mesma nas direções horizontal e vertical.) Então, a diferença entre dois pontos chaves tem, da mesma forma, uma distribuição normal:
Figure img0005
[0062] Suponha que os pontos chaves {Yn} na imagem de referência têm as mesmas estatísticas que {Xn} e que ponto chave Xn é coincidente com um ponto chave Yn. Então, a razão de distância quadrada tem uma distribuição F com (2, 2) graus de liberdade.
Figure img0006
como mostrado, por ex., em “An introduction to Mathematical Statistics and its Applications” por R.J. Larsen e M.L. Marx, NewJersey, página 338, Prentice-Hall, segunda edição, 1986.
[0063] A função de densidade de probabilidade F (2,2) é
Figure img0007
caracterizado pelo fato de que o símbolo para a variável aleatória R da Equação 5 foi substituída por S, por motivos de simplicidade. Já que a razão de distância de registro está sendo considerada (e não a porção de distância quadrada), a raiz quadrada e logaritmo são aplicados à variável aleatória S = Rij2 . Além disso, de modo a levar em conta diferentes tamanhos de duas imagens ou para diferentes distribuições dos pontos chaves nas duas imagens, a função é estendida para tais casos multiplicando a variável aleatória por um parâmetro para corresponder às razões do desvio padrão dos pontos chaves nas duas imagens, i.e. :
Figure img0008
[0064] Essas modificações para a F(2,2) p.d.f. conduzem à seguinte função de modelo de outlier.
[0065] Função de modelo de outlier. Deixemos duas imagens terem pontos chaves {Xn} e {Yn} aleatórios, todos dos quais têm uma distribuição normal bivariada com variâncias oX na primeira imagem e ay2 na segunda imagem. Deixe a2 ser a razão das variâncias,
Figure img0009
[0066] Requerentes determinaram que a razão de distância de registro tem uma função de densidade de probabilidade:
Figure img0010
[0067] A função de modelo de outlier da Equação 7 está na base do método proposto. A forma da função de modelo de outliers é ilustrada na figura 2. Tem de ser notado que esta função de modelo de outliers não leva em conta a razão de aspecto de imagens retangulares, já que as variâncias horizontal e vertical variâncias são supostas serem a mesma.
[0068] As Figuras 3A - 3F ilustra vários exemplos, cada um mostrando um respectivo par de imagens (imagem de indagação - imagem de referência) tomadas a partir do Banco de Dados de Imagens de Construção de Zurich (consistindo de 1005 imagens, em 5 visões cada um de 201 construções). Os pontos chaves estão indicados por círculos, enquanto as linhas apontam para as posições dos pontos coincidentes na outra imagem. Para cada par de imagem, há ilustrado o histograma de LDR e a correspondente função de modelo de outliers, na formulação da Equação 7. Deve ser notado que toda as correspondências de pontos chaves precisam ser consideradas como outliers, já que as imagens mostram diferentes construções. A partir desses exemplos, pode ser visto que a função de modelo de outlier se aproxima bem do histograma de LDR sempre que todas correspondências são outliers. 1.2 - A LDR quando ambos pares são inliers
[0069] Em geral, o histograma de LDR para o caso no qual todas as correspondências de pontos chaves são inliers é frequentemente muito diferente do histograma de LDR para outliers. Em um grande número de casos práticos, o histograma de LDR para somente inliers é mais estreito do que o histograma de LDR para somente outliers, i.e., é igual à zero sobre um número de bins (especificamente, aqueles laterais) onde o histograma de LDR para outlier é não zero.
[0070] Já que associados pontos chaves xi e yi nas duas imagens estão relacionados através de um mapeamento do mesmo ponto no objeto visto, é vantajoso considerar os limites superior e inferior dos histogramas de LDR em vez de usar modelagem probabilística.
[0071] O estudo aqui realizado é limitado aos pontos nas superfícies planares na cena em 3D, com a primária preocupação de reconhecer objetos com variações limitadas em profundidade. Superfícies planares se aproximam da porção visível de muitos objetos interessantes nas imagens, tal como construções, livros e letreiros.
[0072] Duas imagens de pontos em uma superfície planar são relacionados através de um homografia H,
Figure img0011
onde x e y são coordenadas das projeções do mesmo ponto em duas imagens. Pares de inlier na mesma superfície planar são, por conseguinte, relacionadas através da mesma homografia. As características dos histogramas de LDR para fins de transformações e homográficas em geral serão agora divulgadas.
[0073] Transformações a fim. Uma transformação a fim é um caso especial de uma homografia
Figure img0012
[0074] A razão de distância é confinada a um intervalo dado pelos valores singulares da matriz K de 2 - 2,
Figure img0013
[0075] Neste caso a LDR está no intervalo
Figure img0014
[0076] A largura da porção de não zero do histograma de LDR, por conseguinte, depende de quanto às transformações a fim deformam os objetos. Para uma transformação de similaridade, os dois valores singulares são iguais, tal que o histograma de LDR tem somente um bin diferente de zero. Se a transformação a fim comprime os comprimentos no máximo até um terço e expande no máximo de um fator de 2, então os dois valores singulares são 1/3 e 2, e o intervalo para valores não zero da LDR é
Figure img0015
[0077] Homografias. Suponha que xi , xj e yi ,yj são relacionados através de uma homografia
Figure img0016
como nas Equações 8 e 9. A LDR é também neste caso restrita a um intervalo
Figure img0017
onde a é o número maior e b e o menor tal que
Figure img0018
[0078] Para casos mais práticos de homografias este intervalo é estreito com relação ao histograma da LDR para outliers, principalmente devido à natureza das características que são empregadas. Recursos como SIFT (Scale-Invariant Feature Transform) e SURF (Speeded Up Robust Features) são invariantes para transformações de similaridade, mas não para transformações a fim, deixemos homografias sozinhas. Isto significa que se a perspectiva de distorção é severa tal que [- ln b,-ln a] poderia teoricamente ser largo, os pontos chaves que poderiam produzir valores de LDR extremos não estarão associados com sua características e vão ter diferentes descritores. Consequentemente, o histograma de inlier para pontos chaves corretamente associados são prováveis de permanecer em uma intervalo relativamente estreito.
[0079] Figura 4 ilustra um caso exemplar no qual a imagem de indagação e a imagem de referência representam um mesmo objeto planar (um retângulo) visto de ângulos muito diferentes (no exemplo em questão, -75 e 0 graus). O diagrama da base da Figura 4 representa um histograma de LDR e uma função de modelo de outliers calculada a partir do para de imagem.
[0080] Figuras 5A e 5B ilustra dois casos exemplares nos quais planar objetos planares próximos (faces de edifícios) são mostrados com moderadas diferenças nos ângulos de visão. Os diagramas da base da Figuras 5 A e 5B representam os correspondentes histogramas de LDR e as funções de modelo de outliers. 1.3 - A LDR com pares de ambos os tipos
[0081] A terceira alternativa prevê que o par xi , yi é um inlier e xj , yj é um outlier (ou vice versa). Neste caso da mesma forma, é assumido que os pontos chaves em uma imagem estão aleatoriamente distribuídos, como alguém não pode conhecer antecipadamente qualquer padrão ou regra geométrica que restringe a localização de pontos chaves contidos em uma imagem desconhecida.
[0082] Cada ponto chave pode, por conseguinte, ser representado por uma variável aleatória, por exemplo, com uma distribuição normal, como na Equação 3. TO vetor de diferença entre dois pontos chaves é modelado como na Equação 4, já que um é considerado ser um inlier e o outro ser um outlier, e não pode haver correlação entre eles.
[0083] Contudo, a distribuição de F da Equação 5 não se mantém exatamente, já que o numerador e denominador não são independentes, contrariamente as hipótese para a distribuição de F. Os pontos chaves no caso de um par de inlier/outlier são
Figure img0019
onde π é o mapeamento (embora não conhecido) do ponto chave inlier em um imagem na outra imagem. A variável aleatória representando a razão de distância quadrada seria neste caso
Figure img0020
onde o numerador e denominador claramente não são independentes, já que ambos são funções de xj. Encontrar a densidade de probabilidade para a variável na Equação 13 é muito difícil, mas tanto quanto o método proposto está envolvido, isto poderia não ser necessário. A experiência trazida assume que, com pequeno erro, é possível modelar o histograma do LDR para esses dois casos (ambos pares inlier como oposto a um par inlier/outlier) com as mesmas probabilidades do modelo: a função de modelo de outlier da Equação 7. Seção 2 - Rejeição de imagens não coincidentes (fase 1 do método proposto)
[0084] O histograma de LDR pode ser usado para identificar um objeto que é visível em uma imagem (a imagem de indagação). Aqui, meios de 'identificação' encontram uma imagem de referência contendo uma vista de um objeto representado em uma imagem de indagação entre as imagens de referência de uma coleção de referência (o banco de dados de referência). A fase 1 do método proposto permite identificar objetos sem a necessidade de explicitamente detectar os pares de pontos chaves inlier entre a imagem de indagação e a imagem de referência.
[0085] Fase 1 do método proposto é uma verificação de consistência de geometria, que prevê fazer uma decisão binária entre as hipóteses: H0: A imagem de referência não corresponde à da indagação; Hi . A imagem de referência corresponde à da indagação.
[0086] A hipótese H0 representa o estado esperado de coisas: estado esperado de coisas: é conhecido que quase todas as imagens de referência não contêm visão do objeto na indagação. Uma determinada quantidade de evidência é necessária de modo a rejeitar H0 e aceitar Hi (o evento excepcional). Esta evidência é encontrada na relação entre o histograma de LDR e a função de modelo de outlier. Se o histograma encaixa bem com a função de modelo de outlier, então a hipótese H0 é aceita; se não, a hipótese Hi é aceita.
[0087] De modo a testar tais hipóteses, o método proposto prevê realizar o teste de chi-quadrado de Pearson (ver, por exemplo, páginas 402403 do já citado trabalho de R.J. Larsen et al.).
[0088] Antes de aplicar o teste de Pearson, o conceito de “função de modelo de outlier em forma discreta”, é introduzido.
[0089] Deixemos os bins, i.e. os intervalos para valores de LDR usados para compor o histograma de LDR, serem denotados por Tk , k = I, . , ., K . A função de modelo de outlier em forma discreta atribui valores de probabilidade para cada um dos K bins,
Figure img0021
tal que em cada k-ésimo bin o valor é igual à integral da função de modelo de outlier sobre aquele bin,
Figure img0022
e caracterizado pelo fato de que cada valor p(k) é chamado “probabilidade do modelo”. Para uniformidade de notação, as probabilidades do modelo serão consideradas como elementos de uma sequência pk :
Figure img0023
[0090] O teste de chi-quadrado de Pearson será efetuado entre o histograma de LDR e a função de modelo de outlier em forma discreta.
[0091] Teste de Pearson. No nível α de significância, a hipótese Hi é aceita se
Figure img0024
onde n = N(N-l)/2 é o número total de observações usado para construir o histograma de LDR, i. e., o número de pares de correspondência de ponto chave (xi , yi), (xj , yj). O limite X21-α, k-1é é 100 (l- α) percentual da distribuição de chi-quadrado com K - 1 graus de liberdade.
[0092] Aceitação da hipótese Hi significa que a imagem de referência é um candidato para representar um objeto na imagem de indagação. A margem pelo qual o limite é excedido pode ser usado como uma medida de semelhança entre as duas imagens:
Figure img0025
ver Equação 15. O (índice de) da imagem de referência que foi o maior p pode ser selecionado como a identidade para o objeto na imagem de indagação.
[0093] Se mais do que umas imagens de referência têm um grande p, então ou a imagem de indagação mostra várias objetos presentes em todas as imagens de referência mencionadas, ou as imagens de referência ao contrário através de conhecimento da tarefa de identificação em mãos.
[0094] O parâmetro α é a probabilidade de aceitar uma imagem de referência errada, no evento que o histograma de LDR realmente originam a partir de uma fonte com a função de modelo de outliers como densidade de probabilidade. Seção 3 - Estimativa do número de inliers (fase 2 do método proposto)
[0095] É frequentemente interessante conhecer o número de inliers que estão presentes em um conjunto de correspondências de pontos chaves associadas. Tal um número pode ser útil em sua própria direita, ou pode ser necessário separar os inliers dos outliers, conforme será mostrado na seção 4.
[0096] Este número pode ser estimado explorando o histograma de LDR. Já que a correspondência de ponto chave cai em duas categorias distintas, o histograma é formado pelos dois termos chamados componentes de histograma, um para cada categoria. Os histogramas para inliers e outliers são muito diferentes, e de fato esta diferença é útil para separar os dois componentes e expressar suas relativas ponderações.
[0097] Como anteriormente argumentado, se as correspondências de pontos chaves são outliers então o histograma parece como a função de modelo de outliers. Mais ainda, se o histograma se assemelha a função de modelo de outliers, então os pares são outliers. Mais em geral, se o histograma pode ser decomposto em dois termos onde um termo parece com a função de modelo de outliers, então aquele termo é devido às outliers. Este princípio será usado para conjeturar o número de outliers e mesmo para identificá-los.
[0098] Um par de correspondências de pontos chaves é um inlier se ambos (xi, yi) e (xj , yj) estão corretamente associados. Se um ou ambos das correspondências de pontos chaves são de forma correta associadas, então o par de correspondências de pontos chaves é um outlier. Pin denota a probabilidade que um par de correspondências de pontos chaves contém somente inliers e Pout a probabilidade que pelo menos um dos elementos no par é um outlier. Deixe z ser o valor da LDR para um par de correspondências de pontos chaves, e deixe p(z|in) e p(z|out) denotar as densidades de probabilidade condicionais. A probabilidade condicional para os outliers é assumido ser a função de modelo de outliers da Equação 7,
Figure img0026
[0099] Então a densidade de probabilidade total tem a forma
Figure img0027
[00100] Esta equação corresponde à decomposição do histograma de LDR em dois termos
Figure img0028
onde hk denota o histograma de LDR, dk é seu componente devido às inliers, e gk é o componente devido às outliers. O método para estimar o número de inliers é com base na suposição que o componente de outlier componente gk é bem aproximado pelo seu valor esperado, que conduz à
Figure img0029
onde a probabilidade de modelo Pk é a integral da função de modelo de outliers sobre o k-ésimo intervalo de bin e n = N(N-l)/2 é o número de pares de correspondências de pontos chaves usado para construir o histograma de LDR. Há duas quantidades desconhecidas na Equação 19: a probabilidade de outlier Pout e o componente de inlier dk . Já que o componente de inlier precisa ser não negativo, Equação 19 pode ser reescrito como
Figure img0030
que elimina o componente de inlier a partir da equação. Nós assumimos que o componente de inlier é zero sobre alguns intervalos, como argumentado na seção 1, assim sobre aquele intervalo o componente de outlier precisa ser igual aos valores de histograma. Isto significa que a probabilidade de outlier Pout deve ser grande bastante para fazer a diferença na Equação 20 atingir o limite inferior 0 para algum bin com índice k. Por conseguinte, a pesquisa é efetuada para encontrar o maior valor possível da probabilidade de outlier em um pequeno conjunto de valores pré-definidos.
[00101] Pesquisa para a probabilidade de outlier. Deixe hk, k =1 ,.,.,K denotar os bins no histograma de LDR. Deixe pk denotar as probabilidades do modelo, e deixe n denotar o número de pares de correspondências de pontos chaves que são usadas para construir o histograma. Deixe B = {βi,.,.,βL} c [0 ,1] ser um conjunto de pré-definidos valores elegíveis para Pout. Requerentes determinaram que, a probabilidade estimada que um par correspondência de pontos chaves contém pelo menos um outlier é
Figure img0031
[00102] A probabilidade 1 - Pout é a relativa fração de inliers entre todos os pares de correspondências de pontos chaves (xi , yi), (xj , yj). De modo a obter o número de pares de inlier (xi, yi), tem de ser considerado o número N de pares de pontos chaves e o número n = N(N-l)/2 de pares of correspondência de pontos chaves, já que o histograma é feito contanto todos os pares (xi , y), (xj , yj) tal que i < j . Se o número de pares de inlier é denotado por m, então a fração de par de pontos chaves que consiste de inliers é
Figure img0032
[00103] Sendo com base em estimativas e suposições o similar sobre distribuições, Equação 22 tem um baixo grau de precisão. Por conseguinte, a solução que se aproxima para m é preferível.
[00104] O número estimado de pares de pontos chaves inlier é então
Figure img0033
[00105] A Figura 6 mostra um exemplo de dimensionamento das probabilidades do modelo para estimar o número de inliers. Neste exemplo, um mesmo objeto (uma casa) é representada em duas imagens. O diagrama da base mostra o histograma de LDR hk (desenhado com uma linha sólida) e o histograma de outlier estimado (desenhado como uma linha pontilhada tracejada). Neste caso, o número de inliers foi estimado para ser um terço do número total de pontos chaves. Seção 4 - identificação do inliers mais prováveis (fase 3 do método proposto)
[00106] Após as etapas precedentes terem sido concluídas, todas as quantidades necessárias estão disponíveis para determinar o componente de histograma de inlier,
Figure img0034
(ver Equação 19). Este componente pode ser usado para separar inliers e outliers, conforme mostrado nesta seção.
[00107] Cada par de correspondências de pontos chaves correspondem a um valor de razão de distância de registro, e o componente de histograma de inlier expresso quão provável é que o par contém inliers. Esta informação é usada para formular a função de probabilidade com um valor binário para cada para de pontos chaves como parâmetros; o valor 1 significa que o par é um inlier, 0 significa que ele é um outlier. Com um determinado número de inliers como uma restrição, os parâmetros que maximizam esta função de probabilidade vai indicar o mais provável conjunto de inliers.
[00108] Deixe N ser o número de correspondências de pontos chaves, e deixe u ser um vetor binário de N elementos
Figure img0035
[00109] Elementos com valor 1 indicam que os correspondentes pares de pontos chaves são inliers, aqueles com valor 0 indicam outliers. Um procedimento como o um na seção anterior produz uma estimativa de número m de inliers (Equação 22), só é possível para adicionar a restrição
Figure img0036
[00110] A LDR da Equação 2 é conhecida para cada par de correspondências de pontos chaves,
Figure img0037
[00111] Idealmente, se alguém tinha conhecido a densidade de probabilidade condicional para inliers, alguém poderia atribuir um valor de probabilidade para qualquer hipótese de conjuntos de inlier, simplesmente somando todas as probabilidades para os inliers,
Figure img0038
[00112] Como u é binário, esta soma pode ser escrita
Figure img0039
[00113] O vetor binário u que maximiza L na Equação 27 sob as restrições das Equações 23 e 24 representa o mais provável conjunto de m inliers.
[00114] Equação 27 precisa ser modificada para conduzir a um algoritmo prático. Na ausência de uma forma fechada para a densidade de probabilidade de inlier p(z|in), ela é substituída pelo componente de histograma de inlier d da Equação 19. De modo a ver esta passagem, isto é útil para introduzir um operador de quantização q
Figure img0040
que produz o índice para o bin central (entre todos os bins centras Zi, ■■■, ZK) isto é próximo ao valor z. Isto permite para a aproximação
Figure img0041
[00115] A seguinte equação mostra que este valor aproximado de uma probabilidade é proporcional ao valor esperado para o componente de inlier do histograma de LDR:
Figure img0042
onde as constantes de proporcionalidade são : n, o número total de pares de correspondências de pontos chaves; Pin, a probabilidade que ambos pares em um acoplamento sejam inliers; e δ, a largura de um bin.
[00116] A função de probabilidade ideal na Equação 27 pode agora ser substituída por
Figure img0043
onde os fatores constantes da Equação 31 foram omitidos, conforme eles não movem a solução que maximiza G(u).
[00117] Na forma de matriz a equação acima se torna:
Figure img0044
onde a matriz D contém valores a partir do histograma de inlier com
Figure img0045
como elemento i, j.
[00118] O problema de identificação de inlier pode agora ser expresso
Figure img0046
[00119] Quando a matriz D tem total classificação, o ótimo é muito difícil de computar. Uma rota para uma solução aproximada é fornecida em “Improving shape retrieval by spectral matching and met similarity” por A. Egozi, Y. Keller e H. Guterman, IEEE Transactions on Image Processing, vol 19, páginas 1319-1326, Maio de 2010, que confronta um problema similar àquele da Equação 33. Aqui, a otimização binária é substituída por um mais simples
Figure img0047
onde a solução é o vetor próprio dominante de D (o vetor próprio que corresponde ao maior valor próprio). Os elementos deste vetor estão frequentemente ou próximo a zero ou próximo a um valor máximo sinal foi escolhido tal que os maiores valores são positivos). Então, o vetor próprio w é usado para obter um vetor binário u, pegando seus m maiores elementos (m é o número estimado de inliers da Equação 22), de acordo com as seguintes relações;
Figure img0048
caracterizado pelo fato de que sort(w, 'descend') é a função de Matlab (por MathWorks) que ordena os elementos da matriz w em ordem descendente, gerando uma correspondente matriz w ordenada. A função sort(w, 'descend') gera um matriz i adicional cujos elementos são os índices dos elementos da matriz w, ordenada como na matriz w .
[00120] O resultado u é uma boa aproximação do conjunto de inlier, como é possível verificar nos experimentos práticos.
[00121] Computação de vetor próprio rápida. Os inliers estimados correspondem aos m maiores elementos no vetor próprio dominante de D. O objetivo é manter a computação do vetor próprio tão rápido quanto possível, também às custas de alguma precisão. Métodos para encontrar o vetor próprio dominante são conhecidos na técnica (ver, por exemplo, a iteração de potência e a iteração de quociente de Rayleigh divulgado em “Numerical Linear Algebra” por L. Tredethen e D. Bau, The Society for Industrial e Applied Mathematics, 1997).
[00122] Ambos os métodos são iterativos e se baseiam em uma estimativa inicial do vetor próprio dominante, e um candidato aproximado e pronto é a coluna média que chega perto de uma matriz de entrada não negativa como D. Seção 5 - Etapas principais do método
[00123] As etapas principais do método anteriormente descrito será agora ilustrado nas Figuras 7A - 7C.
[00124] Especificamente, Figura 7A é um fluxograma ilustrando as etapas principais da primeira fase do método de acordo com uma modalidade da presente invenção. Conforme já mencionado acima, a primeira fase do método prevê confirmar se uma primeira imagem e uma segunda imagem representam o mesmo objeto ou não.
[00125] É assumido iniciar com um par de imagens a serem comparadas, i.e., uma primeira imagem (a imagem de indagação) caracterizada pelo fato de compreender N pontos chaves xi e uma segunda imagem (a imagem de referência) caracterizada pelo fato de compreender N pontos chaves yi . Cada ponto chave xi na imagem de indagação é associada para um correspondente ponto chave yi na imagem de referência a fim de definir uma respectiva correspondência de ponto chave (xi , yi).
[00126] A primeira etapa prevê gerar um histograma de razão de distância a partir das correspondências de ponto chave (xi , yi) usando uma função de razão de distância que é invariante para similaridades. Por exemplo, o histograma de Razão de Distância de Registro (LDR) é gerado a partir das correspondências de pontos chaves (xi , yi) usando a Equação 2 (bloco 702).
[00127] Uma correspondente função de modelo de outlier é então gerada usando uma função de densidade de probabilidade associada a uma função de razão de distância usada na primeira etapa, por exemplo, usando a Equação 7 (bloco 704) no caso de uma função de Razão de Distância de Registro (LDR) conforme definido na Equação 2.
[00128] A próxima etapa consiste de colocar em modo discreto a função de modelo de outlier anteriormente calculada (bloco 706), por exemplo, aplicando a Equação 14 para a função de modelo de outlier anteriormente calculada de modo a obter uma versão em forma discreta da mesma.
[00129] O histograma de LDR é então comparado para a função de modelo de outlier em forma discreta usando teste de Pearson (Equação 15) para confirmar se todas as correspondências de pontos chaves são para serem consideradas aleatórias (bloco 708).
[00130] Especificamente, no caso o resultado do teste de Pearson implica em uma boa adequação do histograma de LDR com o modelo de outlier em forma discreto (ramo de saída Y do bloco 710), isto significa que todas ou quase todas as correspondências de pontos chaves são outliers, e assim sendo a imagem de referência não mostra qualquer objeto representado na imagem de indagação. Então, o método termina.
[00131] Reciprocamente, se o resultado do teste de Pearson implica que o histograma de LDR não se encaixa ao modelo de outlier em forma discreta (ramo de saída N do bloco 710), isto significa que muitas das correspondências de pontos chaves são prováveis de serem inliers, e assim sendo a imagem de referência pode provavelmente mostrar um objeto já representado na imagem de indagação. Neste último caso, se desejado, o método prossegue para a segunda fase.
[00132] A Figura 7B é um fluxograma ilustrando as etapas principais da segunda fase do método de acordo com uma modalidade da presente invenção. Esta fase, com base na “pesquisa para probabilidade de outlier” anteriormente descrito, permite confirmar quantas correspondências de pontos chaves são inliers entre o conjunto de correspondências de pontos chaves.
[00133] A primeira etapa fornece para inicializar o fator β da Equação 21 (bloco 712); por exemplo, β é inicializado para zero.
[00134] O fator β é usado para ponderar a função de modelo de outlier em forma discreta a ser comparada com o histograma de LDR. O objetivo desta etapa é para estimar a probabilidade que qualquer dado par de correspondências de pontos chaves contenha pelo menos um outlier através da Equação 21. Especificamente, uma vez que nβpk é calculado para cada k (bloco 714) e o termo β é atualizado adicionando uma pré-determinada quantidade para o valor anteriormente assumido (bloco 716), a comparação é feita entre o anteriormente calculado nβpk e o correspondente hk (para cada k).
[00135] Se, para cada k, hk resulta ser maior do que o anteriormente calculado nβpk (ramo de saída Y do bloco 718), significando que a função de modelo de outliers em forma discreta ponderada é inferior do que o histograma de LDR, um novo cálculo de nβpk é realizado explorando o valor atualizado de β (retornar ao bloco 714).
[00136] Quando em vez disso nβpk atinge hk para pelo menos um k (ramo de saída N do bloco 718), isto significa que porções da função de modelo de outliers em forma discreta ponderada (especificamente, as extremidades laterais do mesmo) atingiu - ou excedeu - correspondente porções do histograma de LDR. Assim sendo, de acordo com a Equação 21, a probabilidade Pout que os pares de correspondências de pontos chaves contêm pelo menos um outlier é estimado para ser igual ao último valor assumido pelo β (bloco 720). A probabilidade estimada Pin que os pares de correspondências de pontos chaves contêm pelo menos um inlier é assim sendo configurado igual a 1 - Pout (bloco 722).
[00137] O número m de inliers é então calculado explorando a Equação 23 (bloco 724).
[00138] Neste ponto, se desejado, o método prossegue para a terceira fase.
[00139] A Figura 7C é um fluxograma ilustrando as etapas principais da terceira fase do método de acordo com uma modalidade da presente invenção. Esta fase permite especificamente identificar que correspondências de pontos chaves são inliers, e que correspondências de pontos chaves são outliers, resolvendo o problema de maximização 36.
[00140] A primeira etapa prevê construir a matriz de inlier D conforme representado na relação 34 (bloco 726).
[00141] O problema de maximização 36 é então resolvido para encontrar o vetor próprio dominante w da matriz de inlier D (bloco 728).
[00142] Finalmente, uma aproximação do conjunto de inlier é calculado usando o vetor próprio w anteriormente encontrado nas relações 37 e 38 (bloco 730).
[00143] As etapas do método descrito nesta seção podem ser realizadas por apropriadas unidades de processamento, cuja estrutura e função depende do específico campo de aplicação para o qual elas são destinadas. Por exemplo, cada unidade de processamento pode ser uma unidade de hardware especificamente designada para efetuar uma ou mais etapas do método. Mais ainda, as etapas do método podem ser realizadas por uma máquina programável (por ex., um computador) sob o controle de um correspondente conjunto de instruções. Seção 6 - Algumas aplicações exemplares do método
[00144] A Figura 8, de forma esquemática, ilustra um possível cenário caracterizado pelo fato de que o método anteriormente descrito pode ser explorado para implementar um serviço de pesquisa visual de acordo com modalidades da presente invenção. O cenário da Figura 8 - identificado com a referência 800 - é estruturado de acordo com uma configuração cliente - servidor, caracterizado pelo fato de que um servidor de pesquisa visual 810 é configurado para interagir com uma pluralidade de terminais 820 para trocar dados através de uma rede externa 830, tal como uma MAN, uma WAN, uma VPN, Internet ou uma rede de telefonia. Cada terminal 820 pode ser um computador pessoal, um notebook, um laptop, um assistente digital pessoal, um telefone inteligente, ou qualquer dispositivo eletrônico capaz de gerenciar uma imagem digital.
[00145] De acordo com uma modalidade da presente invenção ilustrada na figura 9A, todas as operações principais do serviço de pesquisa visual são realizadas pelo servidor de pesquisa visual 810.
[00146] Um usuário de um terminal 820 solicitando informação relacionada a um objeto representado em uma figura, envia a figura mencionada (que se torna a imagem de indagação) para o servidor de pesquisa visual 810 através de uma rede 830.
[00147] O servidor de pesquisa visual 810 inclui uma interface de servidor 902 adaptado para interagir com uma rede 830 para receber/transmitir dados proveniente/para os terminais 820, através da interface de servidor 902, o servidor de pesquisa visual 810 recebe a imagem de indagação a ser analisada.
[00148] A imagem de indagação é fornecido para a unidade de detecção de ponto chave 904 configurada para identificar os pontos chaves incluídos na imagem mencionada.
[00149] Uma vez que os pontos chaves são gerados, o aspecto local do mesmo é descrito por uma unidade de computação de características 906. Esta operação é realizada pela unidade de computação de características 906 usando conhecidos descritores locais, tal como o Scale-Invariant Feature Transform (SIFT) e Speeded Up Robust Feature (SURF).
[00150] O servidor de pesquisa visual 810 ainda inclui uma unidade de correspondência de características 908 acoplada com um banco de dados de referência 910 armazenando as imagens de referência a serem exploradas para um reconhecimento de imagem. A comparação entre os descritores locais extraídos a partir da imagem de indagação e descritores locais da imagens de referência armazenados no banco de dados de referência é realizada pela unidade de correspondência de características 908 usando conhecidas técnicas de comparação de características de imagens, por exemplo, com base na distância Euclidianas entre descritores. A unidade de correspondência de características 908 emite uma correspondente lista incluindo, para cada imagem de referência do banco de dados de referência, um correspondente conjunto de correspondências de pontos chaves. Esta lista pode ser esvaziada no caso que os objetos representados nas imagens de indagação não correspondem a qualquer objeto representado em qualquer imagem de referência.
[00151] Com base na lista gerada pela unidade de correspondência de características 908, a unidade de seleção 912 seleciona as primeiras q imagens de referência que compartilham o maior número de correspondências de pontos chaves com a imagem de indagação. Essas imagens de referência são supostas serem os melhores candidatos para incluir um objeto representado na imagem de indagação.
[00152] De acordo com uma modalidade da presente invenção, o servidor de pesquisa visual 810 ainda inclui uma unidade de otimização 914 configurada para implementar o método anteriormente descrito. A unidade de otimização 914 aplica o método mencionado para as correspondências de pontos chaves correspondendo ao conjunto de q imagens de referência selecionadas pela unidade de seleção 912: para cada par consistindo na imagem de indagação e na imagem de referência do conjunto, a unidade de otimização 914 calcula o número de correspondências de ponto chave corretas (inliers). Este cálculo é realizado de acordo com a primeira fase do método, preferencialmente de acordo com as primeiras duas fases do método (i.e., as fases ilustradas nas Figuras 7A e 7B). Se a terceira fase do método ilustrada na figura 7C é efetuada bem como (por exemplo, quando é desejado obter uma indicação de onde os objetos representados na imagem de indagação estão localizados nas imagens de referência), a unidade de otimização 914 é capaz de especificamente identificar que correspondência de pontos chaves são para serem consideradas inliers. As imagens de referência do conjunto que resulta incluir um suficiente número de pontos chaves corretamente coincidentes com correspondentes pontos chaves das imagens de indagação são consideradas para incluir pelo menos (uma porção de) um mesmo objeto representado na imagem de indagação. Essas últimas imagens de referência são então enviadas de volta para o terminal 820 através da rede 830 como um resultado da solicitação de pesquisa visual, possivelmente ordenado com base no número de inliers contadas.
[00153] De acordo com uma modalidade adicional da presente invenção ilustrada na figura 9B, a unidade de detecção de ponto chave 904 e a unidade de computação de características 906 estão incluídas nos terminais 820 em vez de ser incluídas no servidor de pesquisa visual 810. Neste caso, em vez de enviar uma imagem de indagação para o servidor de pesquisa visual 810, cada terminal 820 é capaz de diretamente enviar os descritores locais localmente gerados a partir da imagem de indagação.
[00154] Comparado à modalidade anterior, esta solução requer a transmissão de uma menor quantidade de dados (o descritor local em vez da inteira imagem de indagação). Mais ainda, de acordo com esta modalidade a carga computacional a ser gerenciada pelo servidor de pesquisa visual 810 é reduzida, permitindo à última gerencia mais solicitações de pesquisa de imagem ao mesmo tempo.
[00155] De acordo com uma ainda modalidade adicional da presente invenção ilustrada na figura 9C, quase todas as principais operações do serviço de pesquisa visual são realizadas pelos terminais 820, com o servidor de pesquisa visual 810 que apenas armazena os pontos chaves e os descritores locais das imagens de referência, e envia selecionados subconjuntos deles para os terminais com base na específica pesquisa visual solicitada pelos usuários dos terminais. Por exemplo, no caso que o terminal 820 é um telefone inteligente equipado com um sistema de GPS e a imagem de indagação é uma figura capturada com a câmera do próprio telefone inteligente, a seleção de que pontos chaves e descritores locais são para serem enviados pelo servidor de pesquisa visual 810 pode ser com base na posição efetiva do terminal 820; esta solução pode ser vantajosamente explorada para alguns serviços de pesquisa visual tal como o serviços de reconhecimento de monumento.
[00156] De modo à ser capaz de gerenciar as operações de comparação de imagem, o terminal 820 é fornecido com um banco de dados de referência local 916 e uma unidade de atualizador 920, o último sendo adaptado para receber os pontos chaves e os descritores locais transmitidos pelo servidor de pesquisa visual 810 e consequentemente atualiza o anterior. Tem de ser apreciado que ele não é estritamente necessário para atualizar o banco de dados local de referência 916 cada vez que uma comparação de imagem tem de ser realizada, sendo suficiente explorar os pontos chaves e os descritores locais já armazenados nele. Por exemplo, o banco de dados local de referência 916 pode ser atualizado pelo servidor de pesquisa visual 810 somente uma vez ao dia.
[00157] Comparado com as anteriores modalidades, esta solução é mais rápida, já que a quantidade de dados a ser transmitida é fortemente reduzida. Por conseguinte, esta solução é particularmente adequada para aplicações de realidade aumentadas.
[00158] Uma ainda possível aplicação do método proposto é a calibração automática de câmeras de vídeos pertencendo a um sistema de câmera estéreo. O objetivo da calibração é a geração da assim chamada matriz fundamental, i.e., uma matriz que descreve os parâmetros intrínsecos e extrínsecos do sistema de aquisição. Os parâmetros intrínsecos descrevem as configurações de câmera (por ex., o comprimento focal), enquanto os parâmetros extrínsecos descrevem a posição da câmera dentro do espaço.
[00159] Como ilustrado na carta de fluxo esquemático da Figura 10, uma primeira câmera 1002 adquire uma primeira imagem (bloco 1004), que é processada de modo para identificar correspondentes primeiros pontos chaves (bloco 1006). Uma vez que os primeiros pontos chaves são identificados, o aspecto local do mesmo é descrito através de correspondentes primeiros descritores locais (bloco 1008). De forma similar, uma segunda câmera 1010 adquire uma segunda imagem (bloco 1012), que é processada de modo a encontrar correspondentes segundos pontos chaves (bloco 1014). Então, o aspecto local daqueles pontos chaves é descrito através de correspondentes segundos descritores locais (bloco 1016).
[00160] Comparando os primeiros descritores locais com os segundos descritores locais, correspondências de pontos chaves entre a primeira e segunda imagens são geradas (bloco 1018). Então, aplicando as três fases do método ilustradas na Figuras 7A - 7C, as correspondências de pontos chaves que são inliers são identificadas (bloco 1020).
[00161] Uma vez que as inliers foram identificadas, um procedimento iterativo é realizado para estimar a matriz fundamental (bloco 1022) de modo a encontrar nova correspondência de ponto chave (bloco 1024). Essas operações podem ser realizadas seguindo o procedimento descrito e, “In defense of the Eight-Point Algorithm” por R.Hartley, IEEE Transactions on pattern analysus and machine intelligence, Vol 19, No. 6, Junho de1997. As novas correspondências de pontos chaves são então processadas de novo com as três fases do método ilustradas na Figuras 7A - 7C de modo a identificar as inliers (bloco 1026). Este procedimento (i.e., o um correspondendo aos blocos 1022, 1024 e 1026) é reiterado até o número de inliers ser estável.
[00162] A descrição anterior apresenta e discute em detalhes várias modalidades da presente invenção; todavia, várias mudanças para as descritas modalidades, assim como diferentes modalidades da invenção são possíveis, sem fugir do escopo definido pelas reivindicações anexas.
[00163] Por exemplo, embora na presente descrição referência foi feita para a razão de distância de registros (LDR), considerações similares aplicam se os histogramas são construídos com uma diferença de razão de distância, tal com um razão de distância plana, se o logaritmo; mais ainda, considerações similares se aplicam se os histogramas são construídos com múltiplos e/ou potências da razão de distância de registros.
[00164] Além disso, nada impede de expressar a distribuição de estatísticas das razões de distância com uma diferente representação de um histograma; neste caso, o teste de Pearson deve ser substituído por um teste equivalente compatível com a representação específica escolhido.
[00165] Mais ainda, os conceitos da presente invenção podem ser aplicados mesmo se as larguras dos bins dos histogramas são diferentes cada uma da outra.

Claims (17)

1. Método para comparar uma primeira imagem com uma segunda imagem, caracterizado pelo fato de compreender: - identificar primeiros pontos chaves na primeira imagem e segundos pontos chaves na segunda imagem; - associar cada primeiro ponto chave com um correspondente segundo ponto chave de modo para formar uma correspondente correspondência de ponto chave; - calcular uma pluralidade de razões de distância selecionando pares de correspondências de ponto chave e, para cada par selecionado de correspondências de ponto chave, calcular uma razão de distância entre uma primeira distância e uma segunda distância ou uma razão de distância entre a segunda distância e a primeira distância, a primeira distância sendo a distância entre os primeiros pontos chave do referido par de correspondências de pontos chave e a segunda distância sendo a distância entre os segundos pontos chave do referido par de correspondências de pontos chave; - calcular uma distribuição de estatística da pluralidade de razões de distância calculadas; - calcular uma pluralidade de razões de distância externas, selecionando aleatoriamente conjuntos de quatro pontos chave, cada conjunto contendo dois primeiros pontos chave sorteados aleatoriamente e dois segundos pontos chave sorteados aleatoriamente, e calculando a razão de distância entre a distância entre os referidos primeiros pontos chave sorteados aleatoriamente e a distância entre o referido segundos pontos chave sorteados aleatoriamente, ou calculando a razão da distância entre a distância entre os referidos segundos pontos chave sorteados aleatoriamente e a distância entre os referidos primeiros pontos chave sorteados aleatoriamente; - gerar uma função de modelo expressando uma distribuição de estatísticas das razões de distância fora da curva; - comparar a distribuição de estatísticas da pluralidade de razões de distância com a função de modelo, e - confirmar se a primeira imagem contém uma vista de um objeto representado na segunda imagem com base na comparação.
2. Método de acordo com a reivindicação 1, caracterizado pelo fato de incluir adicionalmente: - arrumar uma distribuição estatística da pluralidade de razões de distância na forma de um histograma tendo uma pluralidade de bins ordenados, cada um correspondendo a um respectivo intervalo de valores de razão de distância, o histograma enumerando para cada bin um número correspondente de razões de distância da distribuição estatística tendo valores compreendidos dentro do respectivo intervalo, e - para cada bin, gerar uma correspondente modelo de probabilidade correspondendo à integral da função de modelo sobre o bin mencionado, em que: - a etapa de comparar a distribuição estatística da pluralidade de razões de distância mencionada com a função de modelo inclui comparar o histograma com os modelos de probabilidades.
3. Método de acordo com a reivindicação 2, caracterizado pelo fato de que a comparação do histograma com os modelos de probabilidades compreende efetuar um teste de chi-quadrado de Pearson.
4. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o calcular das razões de distância fornece calcular o logaritmo das razões de distância.
5. Método de acordo com om a reivindicação 2 ou 3, caracterizado pelo fato de compreender adicionalmente estimar um número de correspondências de pontos chaves incorretas, uma correspondência de ponto chave incorreta sendo formada por um primeiro e um segundo pontos chaves que não correspondem ao mesmo ponto de um mesmo objeto representado na primeira e segunda imagens, o estimar do número de correspondências de pontos chaves incorretas incluindo: - inicializar um parâmetro de ponderação para um valor inicial; - repetir as operações a) e b): a) ponderar as probabilidades de modelo com o parâmetro de ponderação; b) aumentar o valor do parâmetro de ponderação, até o valor de pelo menos um modelo de probabilidade ponderado atingir o número de razões de distância enumerados pelo histograma no bin correspondendo à probabilidade de modelo mencionada, e c) determinar o número de correspondência de pontos chaves incorretas com base no último valor assumido pelo parâmetro de ponderação.
6. Método de acordo com a reivindicação 5, caracterizado pelo fato de compreender adicionalmente estimar um número de correspondências de pontos chaves corretas, uma correspondência de ponto chave correta sendo formada por um primeiro e um segundo pontos chaves que correspondem a um mesmo ponto de um mesmo objeto representado na primeira e segunda imagens, o estimar mencionado do número de correspondências de pontos chaves corretas sendo com base no número da primeira correspondência de ponto chave multiplicado por um termo igual à raiz quadrada de um menos raiz quadrada de um menos o último valor assumido pelo parâmetro de ponderação.
7. Método de acordo com a reivindicação 6, caracterizado pelo fato de compreender adicionalmente: - calcular uma matriz, cada elemento da matriz correspondendo a um respectivo par de pontos chaves coincidentes e tendo um valor correspondendo à diferença entre o valor assumido pelo histograma no bin incluindo a razão de distância do respectivo par de pontos chaves coincidentes e a probabilidade de modelo ponderado correspondendo ao bin mencionado; - achar um vetor próprio dominante da matriz correspondente ao maior vetor próprio da matriz, e - identificar que correspondências de pontos chaves são mais prováveis de serem correspondências de pontos chaves corretas com base no vetor próprio dominante.
8. Método de acordo com a reivindicação 7, caracterizado pelo fato de que identificar quais correspondências de pontos chaves são mais prováveis de serem correspondências de pontos chaves corretas inclui identificar os elementos do vetor próprio tendo os maiores valores absolutos.
9. Aparelho para comparar uma primeira imagem com uma segunda imagem, caracterizado pelo fato de o aparelho compreender: - uma primeira unidade de identificação configurada para identificar primeiros pontos chaves na primeira imagem e segundos pontos chaves na segunda imagem; - uma unidade de associação configurada para associar cada primeiro ponto chave com um correspondente segundo ponto chave de modo a formar uma correspondente correspondência de ponto chave; - uma primeira unidade de cálculo configurada para calcular uma pluralidade de razões de distância selecionando pares de correspondências de ponto chave e, para cada par selecionado de correspondências de ponto chave, calcular uma razão de distância entre uma primeira distância e uma segunda distância ou uma razão de distância entre a segunda distância e a primeira distância, a primeira distância sendo a distância entre os primeiros pontos chave do referido par de correspondências de pontos chave e a segunda distância sendo a distância entre os segundos pontos chave do referido par de correspondências de pontos chave; - uma segunda unidade de cálculo configurada para calcular uma distribuição estatísticas da pluralidade de razões de distância calculadas; - uma terceira unidade de cálculo configurada para calcular uma pluralidade de razões de distância fora da curva, selecionando aleatoriamente conjuntos de quatro pontos chave, cada conjunto contendo dois primeiros pontos chave sorteados aleatoriamente e dois segundos pontos chave sorteados aleatoriamente, e calculando a razão de distância entre a distância entre os referidos primeiros pontos chave sorteados aleatoriamente e a distância entre o referido segundos pontos chave sorteados aleatoriamente, ou calculando a razão da distância entre a distância entre os referidos segundos pontos chave sorteados aleatoriamente e a distância entre os referidos primeiros pontos chave sorteados aleatoriamente; - uma primeira unidade de geração configurada para gerar uma função de modelo expressando uma distribuição de estatísticas das razões de distância fora da curva; - uma primeira unidade de comparação configurada para comparar a distribuição estatística da pluralidade de razões de distância com a função de modelo, e - uma unidade de confirmação configurada para confirmar se a primeira imagem contém uma visão de um objeto representado na segunda imagem com base na comparação.
10. Aparelho de acordo com a reivindicação 9, caracterizado pelo fato de incluir adicionalmente: - uma unidade de arrumação configurada para arrumar a distribuição estatística da pluralidade de razões de distância na forma de um histograma tendo uma pluralidade de bins ordenados cada um correspondendo a um respectivo intervalo de valores de razão de distância, o histograma enumerando para cada bin um correspondente número de razões de distância da distribuição estatísticas tendo valores compreendidos dentro do respectivo intervalo, e - uma segunda unidade de geração configurada para gerar, para cada bin, um correspondente modelo de probabilidade correspondendo à integral da função de modelo sobre o bin, em que: - a primeira unidade de comparação inclui uma segunda unidade de comparação configurada para comparar o histograma com as probabilidades de modelo.
11. Aparelho de acordo com a reivindicação 10, caracterizado pelo fato de compreender adicionalmente uma primeira unidade de estimativa configurada para estimar um número de correspondência de pontos chaves incorretas, uma correspondência de ponto chave incorreta sendo formada por um primeiro e um segundo pontos chaves que não correspondem a um mesmo ponto de um mesmo objeto representado na primeira e segunda imagens, a primeira unidade de estimativa incluindo: - uma unidade de inicialização configurada para inicializar um parâmetro de ponderação para um valor inicial; - uma unidade de ponderação configurada para repetir as operações a) e b): a) ponderar o modelo de probabilidade com o parâmetro de ponderação; b) aumentar o valor do parâmetro de ponderação, - até o valor de pelo menos um modelo de probabilidade ponderado atingir o número de razões de distância enumerados pelo histograma no bin correspondente à probabilidade de modelo, e - uma unidade de determinação configurada para determinar o número de correspondências de pontos chaves incorretas com base no último valor assumido pelo parâmetro de ponderação.
12. Aparelho de acordo com a reivindicação 11, caracterizado pelo fato de compreender adicionalmente uma segunda unidade de estimativa configurada para estimar um número de correspondências de pontos chaves corretas, uma correspondência de ponto de chave correta sendo formada por um primeiro e a segundo pontos chaves que correspondem ao mesmo ponto de um mesmo objeto representado na primeira e segunda imagens, a segunda unidade de estimativa sendo configurada para estimar o número de correspondências de pontos chaves corretas com base no número de primeiras correspondências de pontos chaves multiplicados por um termo igual à raiz quadrada de um subtraído do último valor assumido pelo parâmetro de ponderação.
13. Aparelho de acordo com a reivindicação 12, caracterizado pelo fato de compreender adicionalmente: - uma quinta unidade de cálculo configurado para calcular uma matriz, cada elemento da matriz correspondendo e um respectivo par de pontos chaves coincidentes e tendo um valor correspondendo à diferença entre o valor assumido pelo histograma no bin incluindo a razão de distância do respectivo par de pontos chaves coincidentes e o modelo de probabilidade ponderado correspondendo ao bin mencionado; - uma unidade de encontrar configurada para encontrar um vetor próprio dominante da matriz correspondente ao maior vetor próprio da matriz, e - uma segunda unidade de identificação configurada para identificar que correspondências de pontos chaves são mais prováveis de serem correspondências de pontos chaves corretas com base no vetor próprio dominante mencionado.
14. Sistema para comparar imagens, caracterizado pelo fato de incluir: - uma unidade de detecção de ponto chave configurada para receber uma imagem de indagação e identificar correspondentes primeiros pontos chaves na imagem; - uma unidade de computação de características para descrever o aspecto local dos primeiros pontos chaves através de correspondentes primeiros descritores locais; - um banco de dados de referência armazenando uma pluralidade de imagens de referência, para cada imagem de referência, o banco de dados de referência ainda armazenando correspondentes segundos pontos chaves e correspondentes segundos descritores locais dos segundos pontos chaves; - uma unidade de correspondência de características configurada para comparar, para cada imagem de referência de pelo menos um grupo de imagens de referência, os primeiros descritores locais com os segundos descritores locais da imagem de referência mencionada, e consequentemente associar os primeiros pontos chaves com os segundos pontos chaves da imagem de referência para gerar um correspondente conjunto de correspondências de pontos chaves; - uma unidade de seleção configurada para selecionar um subconjunto de figuras de referência com base nas comparações realizadas pela unidade de correspondência de características, e - uma unidade de otimização configurada para calcular, para cada par compreendendo a imagem de indagação e a imagem de referência do subconjunto, o número de correspondências de pontos chaves corretas, em que a unidade de otimização inclui o aparelho como definido na reivindicação 12 ou 13.
15. Sistema de acordo com a reivindicação 14, caracterizado pelo fato de compreender um servidor de pesquisa visual e uma pluralidade de terminais configurados para fornecer imagens de indagação para o servidor de pesquisa visual através de uma rede, em que: - o servidor de pesquisa visual inclui a unidade de detecção de pontos chaves, a unidade de computação de características, o banco de dados de referência, a unidade de correspondência de características, a unidade de seleção e a unidade de otimização.
16. Sistema de acordo com a reivindicação 14, caracterizado pelo fato de compreender adicionalmente um servidor de pesquisa visual e uma pluralidade de terminais configurados para fornecer imagens de indagação para o servidor de pesquisa visual através de uma rede, em que: - o servidor de pesquisa visual inclui o banco de dados de referência, a unidade de correspondência de características, a unidade de seleção e a unidade de otimização, e cada terminal inclui uma respectiva unidade de detecção de ponto chave e uma respectiva unidade de computação de características.
17. Sistema de acordo com a reivindicação 14, caracterizado pelo fato de compreender adicionalmente um servidor de pesquisa visual e uma pluralidade de terminais configurados para trocar dados com o servidor de pesquisa visual através de uma rede, em que: - o servidor de pesquisa visual inclui o banco de dados de referência, e cada terminal inclui uma respectiva unidade de detecção de ponto chave, uma respectiva unidade de computação de características, uma respectiva unidade de correspondência de características, uma respectiva unidade de seleção, uma respectiva unidade de otimização e um respectivo banco de dados local, em que: cada terminal é configurado para receber proveniente do servidor de pesquisa visual um respectivo conjunto de segundos pontos chaves e correspondentes segundos descritores locais dos segundos pontos chaves armazenados no banco de dados de referência, e o banco de dados local do terminal é configurado para armazenar o recebido conjunto de segundos pontos chaves e segundos descritores locais, o conjunto armazenado dos segundos pontos chaves e segundos descritores locais correspondendo às imagens de referência do pelo menos um grupo de imagens de referência.
BR112013019031-0A 2011-01-25 2011-01-25 método e aparelho para comparar uma primeira imagem com uma segunda imagem, e, sistema para comparar imagens. BR112013019031B1 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2011/050994 WO2012100819A1 (en) 2011-01-25 2011-01-25 Method and system for comparing images

Publications (2)

Publication Number Publication Date
BR112013019031A2 BR112013019031A2 (pt) 2017-03-28
BR112013019031B1 true BR112013019031B1 (pt) 2021-03-09

Family

ID=44020527

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112013019031-0A BR112013019031B1 (pt) 2011-01-25 2011-01-25 método e aparelho para comparar uma primeira imagem com uma segunda imagem, e, sistema para comparar imagens.

Country Status (8)

Country Link
US (1) US9008424B2 (pt)
EP (1) EP2668618B1 (pt)
JP (1) JP5734460B2 (pt)
KR (1) KR101531618B1 (pt)
CN (1) CN103403739B (pt)
AR (1) AR085030A1 (pt)
BR (1) BR112013019031B1 (pt)
WO (1) WO2012100819A1 (pt)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5896207B2 (ja) * 2011-11-24 2016-03-30 富士ゼロックス株式会社 分布評価装置、分布決定装置、画像処理装置およびプログラム
US9245204B2 (en) 2012-01-02 2016-01-26 Telecom Italia S.P.A. Method and system for comparing images
ITVI20120041A1 (it) * 2012-02-22 2013-08-23 St Microelectronics Srl Rilevazione di caratteristiche di un'immagine
US9727586B2 (en) 2012-10-10 2017-08-08 Samsung Electronics Co., Ltd. Incremental visual query processing with holistic feature feedback
CN105164700B (zh) 2012-10-11 2019-12-24 开文公司 使用概率模型在视觉数据中检测对象
WO2015113608A1 (en) * 2014-01-30 2015-08-06 Huawei Technologies Co., Ltd. Method for recognizing objects
US20160012594A1 (en) * 2014-07-10 2016-01-14 Ditto Labs, Inc. Systems, Methods, And Devices For Image Matching And Object Recognition In Images Using Textures
GB2529427B (en) * 2014-08-19 2021-12-08 Zebra Tech Corp Processing query image data
US10354143B2 (en) * 2014-10-13 2019-07-16 Telecom Italia S.P.A. Method and system for comparing video shots
JP6541334B2 (ja) 2014-11-05 2019-07-10 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム
CN105759605A (zh) * 2015-12-15 2016-07-13 江南大学 基于自适应参数模型粒子滤波的非线性系统缺陷检测与定位算法
EP3398164B1 (en) 2015-12-30 2020-04-01 Telecom Italia S.p.A. System for generating 3d images for image recognition based positioning
US20170323149A1 (en) * 2016-05-05 2017-11-09 International Business Machines Corporation Rotation invariant object detection
US10922582B2 (en) * 2016-05-30 2021-02-16 The Graffter S.L. Localization of planar objects in images bearing repetitive patterns
WO2018106663A1 (en) * 2016-12-06 2018-06-14 Ebay Inc. Anchored search
EP3563295A1 (en) 2016-12-27 2019-11-06 Telecom Italia S.p.A. Method and system for identifying targets in scenes shot by a camera
WO2018125812A1 (en) * 2017-01-02 2018-07-05 Gauss Surgical, Inc. Tracking surgical items with prediction of duplicate imaging of items
DE102017216065A1 (de) * 2017-09-12 2019-03-14 Robert Bosch Gmbh Verfahren und Vorrichtung zum Bewerten von Bildern, Betriebsassistenzverfahren und Betriebsvorrichtung
JP6832268B2 (ja) * 2017-11-15 2021-02-24 日本電信電話株式会社 検証装置、方法、及びプログラム
CN108305281B (zh) * 2018-02-09 2020-08-11 深圳市商汤科技有限公司 图像的校准方法、装置、存储介质、程序产品和电子设备
CN108596197B (zh) * 2018-05-15 2020-08-25 汉王科技股份有限公司 一种印章匹配方法及装置
CN109117854B (zh) * 2018-07-25 2021-01-29 北京达佳互联信息技术有限公司 关键点匹配方法、装置、电子设备以及存储介质
US10997232B2 (en) * 2019-01-23 2021-05-04 Syracuse University System and method for automated detection of figure element reuse
CN110309815B (zh) * 2019-07-11 2021-05-11 广州方硅信息技术有限公司 一种人脸识别数据的处理方法及系统
US11610391B2 (en) 2019-12-30 2023-03-21 Industrial Technology Research Institute Cross-domain image comparison method and system using semantic segmentation
CN111291729B (zh) * 2020-03-26 2023-09-01 北京百度网讯科技有限公司 一种人体姿态估计方法、装置、设备及存储介质
US11741728B2 (en) * 2020-04-15 2023-08-29 Toyota Research Institute, Inc. Keypoint matching using graph convolutions
US11854287B2 (en) 2021-11-23 2023-12-26 International Business Machines Corporation Visual mode image comparison

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10251787A1 (de) * 2002-11-05 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren, Vorrichtung und Computerprogramm zur Erfassung von Punktkorrespondenzen in Punktmengen
US7650030B2 (en) 2004-12-03 2010-01-19 Sarnoff Corporation Method and apparatus for unsupervised learning of discriminative edge measures for vehicle matching between non-overlapping cameras
KR100813168B1 (ko) * 2006-06-08 2008-03-17 삼성전자주식회사 사전 모양 정보를 이용한 디지털 영상에서의 물체를추출하기 위한 방법 및 상기 방법을 수행하는 시스템
CN101398896B (zh) * 2007-09-28 2012-10-17 三星电子株式会社 用于成像设备的提取有强识别力的颜色特征的设备和方法
GB0807411D0 (en) 2008-04-23 2008-05-28 Mitsubishi Electric Inf Tech Scale robust feature-based indentfiers for image identification
US8391615B2 (en) * 2008-12-02 2013-03-05 Intel Corporation Image recognition algorithm, method of identifying a target image using same, and method of selecting data for transmission to a portable electronic device
US8401342B2 (en) * 2009-01-16 2013-03-19 A9.Com, Inc. System and method to match images using topologically equivalent correspondences
US8199248B2 (en) * 2009-01-30 2012-06-12 Sony Corporation Two-dimensional polynomial model for depth estimation based on two-picture matching
CN101567045B (zh) * 2009-05-22 2011-09-07 北京大学 一种人脸特征点精确定位方法
CN101777129B (zh) * 2009-11-25 2012-05-23 中国科学院自动化研究所 一种基于特征检测的图像匹配方法
US20120011119A1 (en) * 2010-07-08 2012-01-12 Qualcomm Incorporated Object recognition system with database pruning and querying
CN101937511B (zh) * 2010-07-09 2012-07-25 中国人民解放军国防科学技术大学 基于随机并行优化算法的快速图像匹配方法

Also Published As

Publication number Publication date
AR085030A1 (es) 2013-08-07
EP2668618B1 (en) 2017-03-15
JP5734460B2 (ja) 2015-06-17
JP2014508349A (ja) 2014-04-03
CN103403739B (zh) 2017-06-13
US9008424B2 (en) 2015-04-14
KR101531618B1 (ko) 2015-07-06
KR20130122662A (ko) 2013-11-07
BR112013019031A2 (pt) 2017-03-28
WO2012100819A1 (en) 2012-08-02
EP2668618A1 (en) 2013-12-04
CN103403739A (zh) 2013-11-20
US20130308861A1 (en) 2013-11-21

Similar Documents

Publication Publication Date Title
BR112013019031B1 (pt) método e aparelho para comparar uma primeira imagem com uma segunda imagem, e, sistema para comparar imagens.
Campbell et al. Solving the blind perspective-n-point problem end-to-end with robust differentiable geometric optimization
Hong et al. Image-based three-dimensional human pose recovery by multiview locality-sensitive sparse retrieval
Zhang et al. Learning noise-aware encoder-decoder from noisy labels by alternating back-propagation for saliency detection
Torresani et al. Feature correspondence via graph matching: Models and global optimization
BR112014016301B1 (pt) Método e aparelho para comparar uma primeira imagem com uma segunda imagem, sistema, e, método para recuperar imagens
GB2550567A (en) Point Cloud Matching Method
Gao et al. A robust and outlier-adaptive method for non-rigid point registration
Zhang et al. Affinity fusion graph-based framework for natural image segmentation
Sharma et al. Voxel-based 3D occlusion-invariant face recognition using game theory and simulated annealing
CN113920382B (zh) 基于类一致性结构化学习的跨域图像分类方法和相关装置
Armiti et al. Geometric graph matching and similarity: A probabilistic approach
Qi et al. Fast and robust homography estimation method with algebraic outlier rejection
Wang et al. Contour matching using the affine‐invariant support point set
Sun et al. Progressive match expansion via coherent subspace constraint
Birane et al. A fast level set image segmentation driven by a new region descriptor
Dan et al. Multifeature energy optimization framework and parameter adjustment-based nonrigid point set registration
Nagar Robust extrinsic symmetry estimation in 3D point clouds
Yang et al. Robust image registration using adaptive coherent point drift method
Yang et al. Wide baseline stereo matching based on scale invariant feature transformation with hybrid geometric constraints
Zhou et al. Large scale image retrieval with DCNN and local geometrical constraint model
Abeysinghe et al. Semi‐isometric Registration of Line Features for Flexible Fitting of Protein Structures
Medeiros et al. Scalable image segmentation via decoupled sub-graph compression
Zhang et al. Robust Pose Estimation Based on Maximum Correntropy Criterion
Tan et al. Extra facial landmark localization via global shape reconstruction

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 09/03/2021, OBSERVADAS AS CONDICOES LEGAIS.