BR112012002815B1 - método implementado por computador de processamento de uma consulta visual, sistema motor de busca para processamento de uma consulta visual,e, mídia de armazenamento não temporária legível por computador - Google Patents

método implementado por computador de processamento de uma consulta visual, sistema motor de busca para processamento de uma consulta visual,e, mídia de armazenamento não temporária legível por computador Download PDF

Info

Publication number
BR112012002815B1
BR112012002815B1 BR112012002815A BR112012002815A BR112012002815B1 BR 112012002815 B1 BR112012002815 B1 BR 112012002815B1 BR 112012002815 A BR112012002815 A BR 112012002815A BR 112012002815 A BR112012002815 A BR 112012002815A BR 112012002815 B1 BR112012002815 B1 BR 112012002815B1
Authority
BR
Brazil
Prior art keywords
search
results
visual query
visual
query
Prior art date
Application number
BR112012002815A
Other languages
English (en)
Other versions
BR112012002815B8 (pt
Inventor
Petrou David
Original Assignee
Google Inc
Google Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google Inc, Google Llc filed Critical Google Inc
Publication of BR112012002815B1 publication Critical patent/BR112012002815B1/pt
Publication of BR112012002815B8 publication Critical patent/BR112012002815B8/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)

Abstract

método implementado por computador de processamento de uma consulta visual, sistema motor de busca para processamento de uma consulta visual, e, mídia de armazenamento não temporária legível por computador uma consulta visual, tais como uma fotografia, uma captura de tela, uma imagem digitalizada, um quadro de vídeo ou uma imagem criada por uma aplicação de autoria de conteúdo, é submetida a um sistema de busca de consulta visual. o sistema de busca processa a consulta visual pelo envio desta a uma pluralidade de sistemas de busca paralelos, cada qual implementando um distinto processo de busca de consulta visual. estes sistemas de busca paralelos podem incluir, mas sem limitações, reconhecimento ótico de caractere (ocr), reconhecimento facial, reconhecimento de produto, reconhecimento de código de barras, reconhecimento de objeto ou categoria de objeto, reconhecimento de entidade nomeada e reconhecimento de cor. então, pelo menos um resultado da busca é enviado ao sistema cliente. em algumas modalidades, quando a consulta visual for uma imagem que contém um elemento textual e um elemento não textual, pelo menos um resultado da busca inclui um resultado do reconhecimento ótico de caractere para o elemento textual e pelo menos um resultado de correspondência de imagem para o elemento não textual.

Description

“MÉTODO IMPLEMENTADO POR COMPUTADOR DE PROCESSAMENTO DE UMA CONSULTA VISUAL, SISTEMA MOTOR DE BUSCA PARA PROCESSAMENTO DE UMA CONSULTA VISUAL, E, MIDI A DE ARMAZENAMENTO NÃO TEMPORÁRIA LEGÍVEL POR 5 COMPUTADOR”
CAMPO DA INVENÇÃO
As modalidades divulgadas dizem respeito, no geral, a uma arquitetura de sistema servidor que abrange uma pluralidade de sistemas de t busca paralelos para processamento de uma consulta visual.
FUNDAMENTOS DA INVENÇÃO
Uma busca com base em texto ou com base em termo, em que um usuário insere uma palavra ou frase em um motor de busca e recebe uma variedade de resultados é uma ferramenta usada para busca. Entretanto, * consultas com base em termo exigem que um usuário possa inserir um termo relevante. Algumas vezes, um usuário pode desejar conhecer informação sobre uma imagem. Por exemplo, um usuário pode desejar conhecer o nome de uma pessoa em uma fotografia, ou um usuário pode desejar conhecer o nome de uma flor ou pássaro em uma figura. Desta maneira, um sistema que pode receber uma consulta visual e prover resultados de busca será desejável.
SUMÁRIO DA INVENÇÃO
De acordo com algumas modalidades, há um método de processamento de uma consulta visual implementado em computador em um sistema servidor. Uma consulta visual é recebida a partir de um sistema cliente. A consulta visual é processada pelo envio da consulta visual a uma 25 pluralidade de sistemas de busca paralelos para processamento simultâneo. Cada um da pluralidade de sistemas de busca implementa um processo de busca de consulta visual distinto de uma pluralidade de processos de busca de consulta visual. A pluralidade de processos de busca de consulta visual inclui pelo menos: reconhecimento ótico de caractere (OCR), reconhecimento facial e um primeiro processo de consulta por imagem diferente de OCR e de reconhecimento facial. Uma pluralidade de resultados de busca é recebida a partir de um ou mais da pluralidade de sistemas de busca paralelos. Pelo menos um da pluralidade de resultados de busca é enviado ao sistema cliente.
Em algumas modalidades, o método inclui adicionalmente, quando pelo menos dois dos resultados de busca recebidos satisfizerem critérios pré-defmidos, ranquear os resultados de busca recebidos que satisfazem os critérios pré-defmidos e enviar pelo menos um resultado de busca dos resultados de busca ranqueados ao sistema cliente.
Em algumas modalidades, o primeiro processo de consulta por imagem é reconhecimento de produto, reconhecimento de código de barras, reconhecimento de objeto ou categoria de objeto, reconhecimento de entidade nomeada ou reconhecimento de cor.
Em algumas modalidades, a consulta visual é uma fotografia, uma captura de tela, uma imagem digitalizada ou um quadro de vídeo. O sistema cliente pode ser um dispositivo móvel, um dispositivo de mesa ou outro dispositivo.
Em algumas modalidades, a consulta visual é recebida a partir de uma aplicação cliente executada pelo sistema cliente, tais como uma aplicação de busca, um plug-in de motor de busca para uma aplicação de navegador ou uma extensão de motor de busca para uma aplicação de navegador. Em algumas modalidades, a consulta visual é recebida a partir de uma aplicação de autoria de conteúdo executada pelo sistema cliente.
Quando a consulta visual for uma imagem que contém um elemento textual e um elemento não textual, em algumas modalidades, o resultado de busca inclui um resultado do reconhecimento ótico de caractere para o elemento textual e pelo menos um resultado de correspondência de imagem para o elemento não textual.
Em algumas modalidades, quando a consulta visual for uma imagem que contém um elemento textual e um elemento não textual, o resultado de busca inclui um documento de resultados interativos que compreende um primeiro identificador visual para o elemento textual com uma ligação a um resultado de busca produzido por um processo de reconhecimento ótico de caractere e um segundo identificador visual para o elemento não textual com uma ligação a um resultado de busca produzido por um processo de correspondência de imagem.
Em algumas modalidades, o método inclui adicionalmente combinar pelo menos dois da pluralidade de resultados de busca em um resultado de busca composto.
De acordo com algumas modalidades, um sistema motor de busca é provido para processamento de uma consulta visual. O sistema inclui uma ou mais unidades centrais de processamento para executar programas e memória que armazena um ou mais programas a serem executados pelas uma ou mais unidades centrais de processamento. Os um ou mais programas incluem instruções para realizar o seguinte. Uma consulta visual é recebida a partir de um sistema cliente. A consulta visual é processada pelo envio da consulta visual a uma pluralidade de sistemas de busca paralelos para processamento simultâneo. Cada um da pluralidade de sistemas de busca implementa um processo de busca de consulta visual distinto de uma pluralidade de processos de busca de consulta visual. A pluralidade de processos de busca de consulta visual inclui pelo menos: reconhecimento ótico de caractere (OCR), reconhecimento facial e um primeiro processo de consulta por imagem diferente de OCR e de reconhecimento facial. Uma pluralidade de resultados de busca é recebida a partir de um ou mais da pluralidade de sistemas de busca paralelos. Pelo menos um da pluralidade de resultados de busca é enviado ao sistema cliente. Um sistema como este também pode incluir instruções de programa para executar as opções adicionais supradiscutidas.
De acordo com algumas modalidades, uma mídia de armazenamento legível por sistema de computador para processamento de uma consulta visual é provida. A mídia de armazenamento legível por computador armazena um ou mais programas configurados para execução por um computador, os um ou mais programas compreendendo instruções para realizar o seguinte. Uma consulta visual é recebida a partir de um sistema cliente. A consulta visual é processada pelo envio da consulta visual a uma pluralidade de sistemas de busca paralelos para processamento simultâneo. Cada um da pluralidade de sistemas de busca implementa um processo de busca de consulta visual distinto de uma pluralidade de processos de busca de consulta visual. A pluralidade de processos de busca de consulta visual inclui pelo menos: reconhecimento ótico de caractere (OCR), reconhecimento facial e um primeiro processo de consulta por imagem diferente de OCR e de reconhecimento facial. Uma pluralidade de resultados de busca é recebida a partir de um ou mais da pluralidade de sistemas de busca paralelos. Pelo menos um da pluralidade de resultados de busca é enviado ao sistema cliente. Uma mídia de armazenamento legível por computador como esta também pode incluir instruções de programa para executar as opções adicionais supradiscutidas.
DESCRIÇÃO RESUMIDA DOS DESENHOS
A figura 1 é um diagrama de blocos que ilustra uma rede de computador que inclui um sistema servidor de consulta visual.
A figura 2 é um fluxograma que ilustra o processo para responder a uma consulta visual de acordo com algumas modalidades.
A figura 3 é um fluxograma que ilustra o processo para responder a uma consulta visual com um documento de resultados interativos de acordo com algumas modalidades.
A figura 4 é um fluxograma que ilustra as comunicações entre um cliente e um sistema servidor de consulta visual de acordo com algumas modalidades.
A figura 5 é um diagrama de blocos que ilustra um sistema cliente de acordo com algumas modalidades.
A figura 6 é um diagrama de blocos que ilustra um sistema servidor de processamento de consulta visual em interface inicial de acordo com algumas modalidades.
A figura 7 é um diagrama de blocos que ilustra um sistema genérico dos sistemas de busca paralelos utilizados para processar uma consulta visual de acordo com algumas modalidades.
A figura 8 é um diagrama de blocos que ilustra um sistema de busca OCR utilizado para processar uma consulta visual de acordo com algumas modalidades.
A figura 9 é um diagrama de blocos que ilustra um sistema de busca de reconhecimento facial utilizado para processar uma consulta visual de acordo com algumas modalidades.
A figura 10 é um diagrama de blocos que ilustra um sistema de busca de imagem por termos utilizado para processar uma consulta visual de acordo com algumas modalidades.
A figura 11 ilustra um sistema cliente com uma captura de tela de uma consulta visual exemplar de acordo com algumas modalidades.
As figuras 12A e 12B, cada, ilustram um sistema cliente com uma captura de tela de um documento de resultados interativos com caixas de confinamento de acordo com algumas modalidades.
A figura 13 ilustra um sistema cliente com uma captura de tela de um documento de resultados interativos que é codificado por tipo de acordo com algumas modalidades.
A figura 14 ilustra um sistema cliente com uma captura de tela de um documento de resultados interativos com rótulos de acordo com algumas modalidades.
A figura 15 ilustra uma captura de tela de um documento de resultados interativos e consulta visual exibidos concorrentemente com uma lista de resultados de acordo com algumas modalidades.
Números de referência iguais dizem respeito a partes correspondentes por todos os desenhos.
DESCRIÇÃO DAS MODALIDADES
Agora, referência será feita com detalhes às modalidades, cujos exemplos são ilustrados nos desenhos anexos. Na seguinte descrição detalhada, inúmeros detalhes específicos são apresentados a fim de prover um criterioso entendimento da presente invenção. Entretanto, ficará aparente aos versados na técnica que a presente invenção pode ser praticada sem estes detalhes específicos. Em outros casos, métodos, procedimentos, componentes, circuitos, e redes bem conhecidos não foram descritos com detalhes para não obscurece desnecessariamente aspectos das modalidades.
Também entende-se que, embora os termos primeiro, segundo, etc. possam ser aqui usados para descrever vários elementos, estes elementos não devem ser limitados por estes termos. Estes termos são usados somente para distinguir um elemento de um outro. Por exemplo, um primeiro contato pode ser chamado de um segundo contato e, similarmente, um segundo contato pode ser chamado de um primeiro contato, sem fugir do escopo da presente invenção. Tanto o primeiro contato quanto o segundo contato são contatos, mas eles não são o mesmo contato.
Aqui, a terminologia usada na descrição da invenção é com o propósito somente de descrever modalidades em particular e não pretende-se que limite a invenção. Da forma usada na descrição da invenção e nas reivindicações anexas, pretende-se que as formas singulares um, uma, o e a também incluam as formas plurais, a menos que o contexto indique claramente o contrário. Também entende-se que o termo e/ou, da forma aqui usada, diz respeito e abrange todas e quaisquer possíveis combinações de um ou mais dos itens listados associados. Entende-se adicionalmente que os termos compreende e/ou compreendendo, quando usados nesta especificação, especificam a presença de recursos, números inteiros, etapas, operações, elementos e/ou componentes declarados, mas não preclui a presença ou adição de um ou mais outros recursos, números inteiros, etapas, operações, elementos, componentes e/ou grupos destes.
Da forma aqui usada, o termo se pode ser interpretado para significar quando ou mediante ou em resposta à determinação ou em resposta à detecção, dependendo do contexto. Similarmente, a frase se for determinado ou se for detectado pode ser interpretada para significar mediante determinação ou em resposta à determinação ou mediante detecção (a condição ou o evento declarados) ou em resposta à detecção (a condição ou o evento declarados), dependendo do contexto.
A figura 1 é um diagrama de blocos que ilustra uma rede de computador que inclui um sistema servidor de consulta visual de acordo com algumas modalidades. A rede de computador 100 inclui um ou mais sistemas clientes 102 e um sistema servidor de consulta visual 106. Uma ou mais redes de comunicações 104 interconectam estes componentes. A rede de comunicações 104 pode ser qualquer uma de uma variedade de redes, incluindo redes de área local (LAN), redes de área ampla (WAN), redes sem fios, redes com fios, a Internet ou uma combinação de tais redes.
O sistema cliente 102 inclui uma aplicação cliente 108, que é executada pelo sistema cliente, para receber uma consulta visual (por exemplo, consulta visual 1102 da figura 11). Uma consulta visual é uma imagem que é submetida como uma consulta a um motor de busca ou sistema de busca. Exemplos de consultas visuais incluem, sem limitações, fotografias, documentos e imagens digitalizados e desenhos. Em algumas modalidades, a aplicação cliente 108 é selecionada a partir do conjunto que consiste em uma aplicação de busca, um plug-in de motor de busca para uma aplicação de navegador e uma extensão de motor de busca para uma aplicação de navegador. Em algumas modalidades, a aplicação cliente 108 é uma caixa de busca onívora, que permite que um usuário arraste e solte qualquer formato de imagem no interior da caixa de busca para ser usado como a consulta visual.
Um sistema cliente 102 envia consultas e recebe dados a partir do sistema servidor de consulta visual 106. O sistema cliente 102 pode ser qualquer computador ou outro dispositivo que pode comunicar com o sistema servidor de consulta visual 106. Exemplos incluem, sem limitação, computadores de mesa e portáteis, computadores de grande porte, computadores servidores, dispositivos móveis, tais como telefones celulares e assistentes pessoais digitais, terminais de rede e receptores / decodificadores integrados.
O sistema servidor de consulta visual 106 inclui um servidor de processamento de consulta visual em interface inicial 110. O servidor de interface inicial 110 recebe uma consulta visual a partir do cliente 102 e envia a consulta visual a uma pluralidade de sistemas de busca paralelos 112 para processamento simultâneo. Cada um dos sistemas de busca 112 implementa um processo de busca de consulta visual distinto e acessa suas bases de dados correspondentes 114, conforme necessário, para processar a consulta visual por seu processo de busca distinto. Por exemplo, um sistema de busca de reconhecimento de face 112-A acessará uma base de dados de imagem facial 114-A para procurar correspondências faciais em relação à consulta de imagem. Como será explicado com mais detalhes em relação à figura 9, se a consulta visual contiver uma face, o sistema de busca de reconhecimento facial 112-A retomará um ou mais resultados de busca (por exemplo, nomes, faces correspondentes, etc.) a partir da base de dados de imagem facial 114-A. Em um outro exemplo, o sistema de busca por reconhecimento ótico de caractere (OCR) 112-B converte qualquer texto reconhecível na consulta visual em texto para retomo como um ou mais resultados de busca. No sistema de busca por reconhecimento ótico de caractere (OCR) 112-B, uma base de dados OCR 114-B pode ser acessada para reconhecer fontes ou padrões de texto em particular da forma explicada com mais detalhes em relação à figura 8.
Qualquer número de sistemas de busca paralelos 112 pode ser usado. Alguns exemplos incluem um sistema de busca de reconhecimento facial 112-A, um sistema de busca OCR 112-B, um sistema de busca de imagem por termos 112-C (que pode reconhecer um objeto ou uma categoria de objeto), um sistema de busca de reconhecimento de produto (que pode ser configurado para reconhecer imagens 2D, tais como capas de livro e CDs, e também pode ser configurado para reconhecer imagens 3D, tais como móveis), sistema de busca de reconhecimento de código de barras (que reconhece códigos de barras estilos ID e 2D), um sistema de busca de reconhecimento de entidade nomeada, reconhecimento de ponto de referência (que pode ser configurado para reconhecer pontos de referência famosos em particular, como a Torre Eiffel, e também pode ser configurado para reconhecer um corpo de imagens específicas, tais como painéis de propaganda), reconhecimento de local auxiliado por informação de geolocalização provida por um receptor GPS no sistema cliente 102 ou rede de telefonia celular, um sistema de busca por reconhecimento de cor e um sistema de busca de imagem similar (que busca e identifica imagens similares a uma consulta visual). Sistemas de busca adicionais podem ser adicionados como sistemas de busca paralelos adicionais representados na figura 1 pelo sistema 112-N. Aqui, todos os sistemas de busca, exceto o sistema de busca OCR, são coletivamente definidos como sistemas de busca que realizam um processo de correspondência de imagem. Todos os sistemas de busca que incluem o sistema de busca OCR são coletivamente referidos como sistemas de busca de consulta por imagem. Em algumas modalidades, o sistema servidor de consulta visual 106 inclui um sistema de busca de reconhecimento facial 112-A, um sistema de busca OCR 112-B e pelo menos um outro sistema de busca de consulta por imagem 112.
Cada um dos sistemas de busca paralelos 112 processa individualmente a consulta de busca visual e retoma seus resultados ao sistema servidor de interface inicial 110. Em algumas modalidades, o servidor de interface inicial 100 pode realizar uma ou mais análises nos resultados de busca, tais como um ou mais de: agregar os resultados em um documento composto, escolher um subconjunto dos resultados para exibição e ranquear os resultados, como será explicado com mais detalhes em relação à figura 6. O servidor de interface inicial 110 comunica os resultados de busca ao sistema cliente 102.
O sistema cliente 102 apresenta os um ou mais resultados de busca ao usuário. Os resultados podem ser apresentados em uma tela, por um alto-falante em áudio ou qualquer outro dispositivo usado para comunicar informação a um usuário. O usuário pode interagir com os resultados de busca por uma variedade de maneiras. Em algumas modalidades, as seleções, anotações e outras interações do usuário com os resultados de busca são transmitidas ao sistema servidor de consulta visual 106 e gravadas juntamente com a consulta visual em uma base de dados de consulta e anotação 116. Informação na base de dados de consulta e anotação pode ser usada para melhorar resultados da consulta visual. Em algumas modalidades, a informação proveniente da base de dados de consulta e anotação 116 é periodicamente enviada aos sistemas de busca paralelos 112, que incorporam todas as partes relevantes da informação em suas respectivas bases de dados individuais 114.
A rede de computador 100 inclui, opcionalmente, um sistema servidor de consulta por termo 118 para realizar buscas em resposta a consultas por termo. Uma consulta por termo é uma consulta que contém um ou mais termos, em oposição a uma consulta visual, que contém uma imagem. O sistema servidor de consulta por termo 118 pode ser usado para gerar resultados de busca que complementam a informação produzida pelos vários motores de busca no sistema servidor de consulta visual 106. Os resultados retomados a partir do sistema servidor de consulta por termo 118 podem incluir qualquer formato. O sistema servidor de consulta por termo 118 pode incluir documentos textuais, imagens, vídeo, etc. Embora o sistema servidor de consulta por termo 118 seja mostrado como um sistema separado na figura 1, opcionalmente, o sistema servidor de consulta visual 106 pode incluir um sistema servidor de consulta por termo 118.
Informação adicional sobre a operação do sistema servidor de consulta visual 106 é provida a seguir em relação aos fluxogramas das figuras 2-4.
A figura 2 é um fluxograma que ilustra um método do sistema servidor de consulta visual para responder a uma consulta visual de acordo com certas modalidades da invenção. Cada uma das operações mostradas na figura 2 pode corresponder às instruções armazenadas em uma memória de computador ou mídia de armazenamento legível por computador.
O sistema servidor de consulta visual recebe uma consulta visual a partir de um sistema cliente (202). O sistema cliente, por exemplo, pode ser um dispositivo de computação de mesa, um dispositivo móvel ou um outro dispositivo similar (204), da forma explicada em relação à figura 1. Uma consulta visual exemplar em um sistema cliente exemplar é mostrada na figura 11.
A consulta visual é um documento em imagem de qualquer formato adequado. Por exemplo, a consulta visual pode ser uma fotografia, uma captura de tela, uma imagem digitalizada ou um quadro ou uma sequência de múltiplos quadros de um vídeo (206). Em algumas modalidades, a consulta visual é um desenho produzido por um programa de autoria de conteúdo (736, figura 5). Como tal, em algumas modalidades, o usuário desenha a consulta visual, enquanto que, em outras modalidades, o usuário digitaliza ou fotografa a consulta visual. Algumas consultas visuais são criadas usando uma aplicação de geração de imagem, tal como Acrobat, um programa de edição de fotografia, um programa de desenho ou um programa de edição de imagem. Por exemplo, uma consulta visual pode vir de um usuário que tira uma fotografia de seu amigo em seu telefone celular e, então, submete a fotografia como a consulta visual ao sistema servidor. A consulta visual também pode vir de um usuário que digitaliza uma página de uma revista ou tira uma captura de tela de uma página da Internet em um computador de mesa e, então, submete a digitalização ou captura de tela como a consulta visual ao sistema servidor. Em algumas modalidades, a consulta visual é submetida ao sistema servidor 106 através de uma extensão de motor de busca de uma aplicação de navegador, através de um plug-in para uma aplicação de navegador ou por uma aplicação de busca executada pelo sistema cliente 102. Consultas visuais também podem ser submetidas por outros programas de aplicação (executados por um sistema cliente) que suportam ou geram imagens que podem ser transmitidas a um servidor remotamente localizado pelo sistema cliente.
A consulta visual pode ser uma combinação de elementos textuais e não textuais (208). Por exemplo, uma consulta pode ser uma digitalização de uma página de revista que contém imagens e texto, tal como uma pessoa de pé próximo a uma placa de trânsito. Uma consulta visual pode incluir uma imagem da face de uma pessoa, seja tirada por uma câmera embutida no sistema cliente ou em um documento digitalizado ou de outra forma recebido pelo sistema cliente. Uma consulta visual também pode ser uma digitalização de um documento que contém somente texto. A consulta visual também pode ser uma imagem de inúmeros sujeitos distintos, tais como diversos pássaros em uma floresta, uma pessoa e um objeto (por exemplo, carro, banco de parque, etc.), uma pessoa e um animal (por exemplo, animal doméstico, animal de fazenda, borboleta, etc.). Consultas visuais podem ter dois ou mais elementos distintos. Por exemplo, uma consulta visual pode incluir um código de barras e uma imagem de um produto ou nome de produto em uma embalagem de produto. Por exemplo, a consulta visual pode ser uma figura de uma capa de livro que inclui o título do livro, arte da capa e um código de barras. Em alguns casos, uma consulta visual produzirá dois ou mais resultados de busca distintos correspondentes a diferentes partes da consulta visual, da forma discutida com mais detalhes a seguir.
O sistema servidor processa a consulta visual, como segue. O sistema servidor de interface inicial envia a consulta visual a uma pluralidade de sistemas de busca paralelos para processamento simultâneo (210). Cada sistema de busca implementa um processo de busca de consulta visual distinto, isto é, um sistema de busca individual processa a consulta visual por seu próprio esquema de processamento.
Em algumas modalidades, um dos sistemas de busca ao qual a consulta visual é enviada para processamento é um sistema de busca por reconhecimento ótico de caractere (OCR). Em algumas modalidades, um dos sistemas de busca ao qual a consulta visual é enviada para processamento é um sistema de busca de reconhecimento facial. Em algumas modalidades, a pluralidade de sistemas de busca que executa processos de busca de consulta visual distintos inclui pelo menos: reconhecimento ótico de caractere (OCR), reconhecimento facial e um outro processo de consulta por imagem diferente de OCR e de reconhecimento facial (212). O outro processo de consulta por imagem é selecionado a partir de um conjunto de processos que inclui, mas sem limitações, reconhecimento de produto, reconhecimento de código de barras, reconhecimento de objeto ou categoria de objeto, reconhecimento de entidade nomeada e reconhecimento de cor (212).
Em algumas modalidades, reconhecimento de entidade nomeada ocorre como um pós-processo do sistema de busca OCR, em que o resultado do texto do OCR é analisado em relação a pessoas, locais e objetos famosos, e congêneres, e, então, os termos identificados como entidades nomeadas são buscados no sistema servidor de consulta por termo (118, figura 1). Em outras modalidades, imagens de pontos de referência, logotipos, pessoas, capas de álbum, marcas registradas, etc. famosos são reconhecidas por um sistema de busca de imagem por termos. Em outras modalidades, um processo de consulta por imagem de entidade nomeada distinto separado do sistema de busca de imagem por termos é utilizado. O sistema de reconhecimento de objeto ou categoria de objeto reconhece tipos de resultado genéricos, como carro. Em algumas modalidades, este sistema também reconhece marcas de produto, modelos de produto em particular e congêneres, e provê descrições mais específicas, como Porsche. Alguns dos sistemas de busca podem ser sistemas de busca específicos do usuário especiais. Por exemplo, versões em particular de reconhecimento de cor e de reconhecimento facial podem ser sistemas de busca especiais usados pelo cego.
O sistema servidor de interface inicial recebe resultados a partir dos sistemas de busca paralelos (214). Em algumas modalidades, os resultados são acompanhados por um escore de busca. Para algumas consultas visuais, alguns dos sistemas de busca não encontrarão resultados relevantes. Por exemplo, se a consulta visual era uma figura de uma flor, o sistema de busca de reconhecimento facial e o sistema de busca de código de barras não encontrarão nenhum resultado relevante. Em algumas modalidades, se nenhum resultado relevante for encontrado, um escore de busca nulo ou zero é recebido a partir deste sistema de busca (216). Em algumas modalidades, se o servidor de interface inicial não receber nenhum resultado a partir de um sistema de busca depois de um período de tempo pré-definido (por exemplo, 0,2, 0,5, 1, 2 ou 5 segundos), ele processará os resultados recebidos como se este servidor com tempo esgotado tivesse produzido um escore de busca nulo e processará os resultados recebidos a partir dos outros sistemas de busca.
Opcionalmente, quando pelo menos dois dos resultados de busca recebidos satisfizerem critérios pré-definidos, eles são ranqueados (218). Em algumas modalidades, um dos critérios pré-definidos exclui resultados vazios. Um critério pré-definido é que os resultados não são vazios. Em algumas modalidades, um dos critérios pré-definidos exclui resultados com escore numérico (por exemplo, para um fator de relevância) que cai abaixo de um escore mínimo pré-definido. Opcionalmente, a pluralidade de resultados de busca é filtrada (220). Em algumas modalidades, os resultados são filtrados somente se o número total de resultados exceder um limite prédefinido. Em algumas modalidades, todos os resultados são ranqueados, mas os resultados que caem abaixo de um escore mínimo pré-definido são excluídos. Para algumas consultas visuais, o conteúdo dos resultados é filtrado. Por exemplo, se alguns dos resultados contiverem informação privada ou informação pessoal protegida, estes resultados são eliminados por filtragem.
Opcionalmente, o sistema servidor de consulta visual cria um resultado de busca composto (222). Uma modalidade deste é quando mais de um sistema de resultado de busca for embutido em um documento de resultados interativos, da forma explicada em relação à figura 3. O sistema servidor de consulta por termo (118, figura 1) pode aumentar os resultados provenientes de um dos sistemas de busca paralelos com resultados provenientes de uma busca por termo, em que os resultados adicionais são tanto ligações a documentos ou a fontes de informação quanto texto e/ou imagens que contêm informação adicional que pode ser relevante à consulta visual. Assim, por exemplo, o resultado de busca composto pode conter um resultado de OCR e uma ligação a uma entidade nomeada no documento OCR (224).
Em algumas modalidades, o sistema de busca OCR (112-B, figura 1) ou o servidor de processamento de consulta visual em interface inicial (110, figura 1) reconhecem palavras provavelmente relevantes no texto. Por exemplo, eles podem reconhecer entidades nomeadas, tais como pessoas ou lugares famosos. As entidades nomeadas são submetidas como termos de consulta ao sistema servidor de consulta por termo (118, figura 1). Em algumas modalidades, os resultados de consulta por termo produzidos pelo sistema servidor de consulta por termo são incorporados no resultado da consulta visual como uma ligação. Em algumas modalidades, os resultados de consulta por termo são retomados como ligações separadas. Por exemplo, se uma figura de uma capa de livro foi a consulta visual, é provável que um sistema de busca por reconhecimento de objeto produza um alto acerto de escore para o livro. Como tal, uma consulta por termo para o título do livro será executada no sistema servidor de consulta por termo 118 e os resultados de consulta por termo são retomados juntamente com os resultados da consulta visual. Em algumas modalidades, os resultados de consulta por termo são apresentados em um grupo rotulado para distingui-los dos resultados da consulta visual. Os resultados podem ser buscados individualmente, ou uma busca pode ser realizada usando todas as entidades nomeadas reconhecidas na consulta de busca para produzir resultados adicionais de busca particularmente relevantes. Por exemplo, se a consulta visual for um guia de viagens digitalizado sobre Paris, o resultado retomado pode incluir ligações ao sistema servidor de consulta por termo 118 para iniciar uma busca sobre uma consulta por termo Notre Dame. Similarmente, resultados de busca compostos incluem resultados provenientes de buscas de texto para imagens famosas reconhecidas. Por exemplo, no mesmo guia de viagens, ligações dinâmicas aos resultados de consulta por termo em relação a destinos famosos mostrados como figuras no guia, como Torre Eiffel e Louvre, também podem ser mostradas (mesmo se os termos Torre Eiffel e Louvre não aparecerem no próprio guia).
Então, o sistema servidor de consulta visual envia pelo menos um resultado ao sistema cliente (226). Tipicamente, se o servidor de processamento de consulta visual receber uma pluralidade de resultados de busca a partir de pelo menos alguns da pluralidade de sistemas de busca, então, ele enviará pelo menos um da pluralidade de resultados de busca ao sistema cliente. Para algumas consultas visuais, somente um sistema de busca retomará resultados relevantes. Por exemplo, em uma consulta visual que contém somente uma imagem de texto, somente os resultados do servidor OCR podem ser relevantes. Para algumas consultas visuais, somente um resultado proveniente de um sistema de busca pode ser relevante. Por exemplo, somente o produto relacionado a um código de barras digitalizado pode ser relevante. Nestes casos, o servidor de processamento visual em interface inicial retomará somente o(s) resultado(s) de busca relevante(s). Para algumas consultas visuais, uma pluralidade de resultados de busca é enviada ao sistema cliente, e a pluralidade de resultados de busca inclui resultados de busca provenientes de mais de um dos sistemas de busca paralelos (228). Isto pode ocorrer quando mais de uma imagem distinta estiver na consulta visual. Por exemplo, se a consulta visual era uma figura de uma pessoa montando um cavalo, resultados do reconhecimento facial da pessoa podem ser exibidos juntamente com os resultados de identificação de objeto para o cavalo. Em algumas modalidades, todos os resultados para uma consulta em particular pelo sistema de busca de imagem são agrupados e apresentados juntamente. Por exemplo, os primeiros N resultados de reconhecimento facial são exibidos sob um tópico resultados de reconhecimento facial e os primeiros N resultados de reconhecimento de objeto são exibidos juntamente sob um tópico resultados de reconhecimento de objeto. Altemativamente, da forma discutida a seguir, os resultados de busca provenientes de um sistema de busca de imagem em particular podem ser agrupados por região da imagem. Por exemplo, se a consulta visual incluir duas faces, ambas as quais produzem resultados de reconhecimento facial, os resultados para cada face serão apresentados como um grupo distinto. Para algumas consultas visuais (por exemplo, uma consulta visual que inclui uma imagem tanto de texto quanto de um ou mais objetos), os resultados de busca podem incluir tanto resultados do OCR quanto um ou mais resultados de correspondência de imagem (230).
Em algumas modalidades, o usuário pode desejar aprender mais sobre um resultado de busca em particular. Por exemplo, se a consulta visual foi uma figura de um golfinho e o sistema de busca de imagem por termos retomar os seguintes termos água, golfinho, azul e Flipper, o usuário pode desejar executar uma busca por termo por consulta com base em texto sobre Flipper. Quando o usuário desejar executar uma busca sobre uma consulta por termo (por exemplo, da forma indicada pelo usuário que clica ou de outra forma seleciona uma ligação correspondente nos resultados de busca), o sistema servidor de consulta por termo (118, figura 1) é acessado, e a busca sobre o(s) termo(s) selecionado(s) é executada. Os correspondentes resultados da busca por termo são exibidos no sistema cliente tanto separadamente quanto em conjunto com os resultados da consulta visual (232). Em algumas modalidades, o servidor de processamento de consulta visual em interface inicial (110, figura 1) escolhe automaticamente (isto é, sem receber nenhum comando do usuário diferente da consulta visual inicial) um ou mais principais resultados de texto em potencial para a consulta visual, executa estes resultados de texto no sistema servidor de consulta por termo 118 e, então, retoma estes resultados de consulta por termo juntamente com o resultado da consulta visual ao sistema cliente como uma parte do envio de pelo menos um resultado de busca ao sistema cliente (232). No exemplo exposto, se Flipper foi o primeiro resultado de termo para a figura da consulta visual de um golfinho, o servidor de interface inicial executa uma consulta por termo sobre Flipper e retoma estes resultados de consulta por termo juntamente com os resultados da consulta visual ao sistema cliente. Esta modalidade, em que um resultado de termo que é considerado como provavelmente selecionado pelo usuário é automaticamente executado antes do envio dos resultados de busca da consulta visual ao usuário, economiza o tempo do usuário. Em algumas modalidades, estes resultados são exibidos como um resultado de busca composto (222), da forma explicada anteriormente. Em outras modalidades, os resultados são parte de uma lista de resultado de busca em vez de, ou além de, um resultado de busca composto.
A figura 3 é um fluxograma que ilustra o processo para responder a uma consulta visual com um documento de resultados interativos. As três primeiras operações (202, 210, 214) são supradescritas em relação à figura 2. A partir dos resultados de busca que são recebidos a partir dos sistemas de busca paralelos (214), um documento de resultados interativos é criado (302).
A criação do documento de resultados interativos (302) será agora descrita com detalhes. Para algumas consultas visuais, o documento de resultados interativos inclui um ou mais identificadores visuais das respectivas subpartes da consulta visual. Cada identificador visual tem pelo menos uma ligação selecionável pelo usuário a pelo menos um dos resultados de busca. Um identificador visual identifica uma respectiva subparte da consulta visual. Para algumas consultas visuais, o documento de resultados interativos tem somente um identificador visual com uma ligação selecionável pelo usuário a um ou mais resultados. Em algumas modalidades, uma respectiva ligação selecionável pelo usuário a um ou mais dos resultados de busca tem uma região de ativação, e a região de ativação corresponde à subparte da consulta visual que é associada com um identificador visual correspondente.
Em algumas modalidades, o identificador visual é uma caixa de confínamento (304). Em algumas modalidades, a caixa de confinamento confina uma subparte da consulta visual, da forma mostrada na figura 12A. A caixa de confinamento não precisa ser uma caixa de forma quadrada ou retangular, mas pode ter qualquer tipo de forma, incluindo circular, oval, conformai (por exemplo, em relação a um objeto, entidade ou região da consulta visual), irregular ou qualquer outra forma, da forma mostrada na figura 12B. Para algumas consultas visuais, a caixa de confinamento delineia o limite de uma entidade identificável em uma subparte da consulta visual (306) . Em algumas modalidades, cada caixa de confinamento inclui uma ligação selecionável pelo usuário a um ou mais resultados de busca, em que a ligação selecionável pelo usuário tem uma região de ativação correspondente a uma subparte da consulta visual circundada pela caixa de confinamento. Quando o espaço no interior da caixa de confinamento (a região de ativação da ligação selecionável pelo usuário) for selecionado pelo usuário, resultados de busca que correspondem à imagem na subparte delineada são retomados.
Em algumas modalidades, o identificador visual é um rótulo (307) , da forma mostrada na figura 14. Em algumas modalidades, o rótulo inclui pelo menos um termo associado com a imagem na respectiva subparte da consulta visual. Cada rótulo é formatado para apresentação no documento de resultados interativos na respectiva subparte, ou próximo dela. Em algumas modalidades, os rótulos são codificados por cor.
Em algumas modalidades, cada um dos respectivos identificadores visuais é formatado para apresentação de uma maneira visualmente distintiva de acordo com um tipo de entidade reconhecida na respectiva subparte da consulta visual. Por exemplo, da forma mostrada na figura 13, cada uma das caixas de confinamento ao redor de um produto, uma pessoa, uma marca registrada e das duas áreas textuais são apresentadas com padrões de hachurado distintos, representando caixas de confinamento transparentes diferentemente coloridas. Em algumas modalidades, os identificadores visuais são formatados para apresentação de maneiras visualmente distintivas, tais como cor de sobreposição, padrão de sobreposição, cor de fundo do rótulo, padrão de fundo do rótulo, cor da fonte do rótulo e cor de borda.
Em algumas modalidades, a ligação selecionável pelo usuário no documento de resultados interativos é uma ligação a um documento ou objeto que contém um ou mais resultados relacionados à correspondente subparte da consulta visual (308). Em algumas modalidades, pelo menos um resultado de busca inclui dados relacionados à correspondente subparte da consulta visual. Como tal, quando o usuário selecionar a ligação selecionável associada com a respectiva subparte, o usuário é direcionado aos resultados de busca correspondentes à entidade reconhecida na respectiva subparte da consulta visual.
Por exemplo, se uma consulta visual era uma fotografia de um código de barras, pode haver partes da fotografia que são partes irrelevantes da embalagem sobre a qual o código de barras estava afixado. O documento de resultados interativos pode incluir uma caixa de confinamento ao redor somente do código de barras. Quando o usuário selecionar o interior da caixa de confinamento do código de barras delineada, o resultado de busca do código de barras é exibido. O resultado de busca do código de barras pode incluir um resultado, o nome do produto correspondente a este código de barras, ou os resultados do código de barras podem incluir diversos resultados, tais como uma variedade de locais nos quais este produto pode ser adquirido, analisado, etc.
Em algumas modalidades, quando a subparte da consulta visual correspondente a um respectivo identificador visual contiver texto que compreende um ou mais termos, os resultados de busca correspondentes ao respectivo identificador visual incluem resultados de uma busca de consulta por termo sobre pelo menos um dos termos do texto. Em algumas modalidades, quando a subparte da consulta visual correspondente a um respectivo identificador visual contiver a face de uma pessoa para a qual foi encontrada pelo menos uma correspondência (isto é, resultado de busca) que satisfaz critérios de confiabilidade (ou outros) pré-definidos, os resultados de busca correspondentes ao respectivo identificador visual incluem um ou mais de: nome, identificador, informação de contato, informação de conta, informação de endereço, local atual de um dispositivo móvel relacionado associado com a pessoa cuja face está contida na subparte selecionável, outras imagens da pessoa cuja face está contida na subparte selecionável e potenciais correspondências de imagem para a face da pessoa. Em algumas modalidades, quando a subparte da consulta visual correspondente a um respectivo identificador visual contiver um produto para o qual foi encontrada pelo menos uma correspondência (isto é, resultado de busca) que satisfaz critérios de confiabilidade (ou outros) pré-definidos, os resultados de busca correspondentes ao respectivo identificador visual incluem um ou mais de: informação do produto, uma avaliação do produto, uma opção para iniciar a aquisição do produto, uma opção para iniciar uma oferta ao produto, uma lista de produtos similares e uma lista de produtos relacionados.
Opcionalmente, uma respectiva ligação selecionável pelo usuário no documento de resultados interativos inclui texto de âncora, que é exibido no documento sem precisar ativar a ligação. O texto de âncora provê informação, tais como uma palavra ou termo chaves, relacionada à informação obtida quando a ligação está ativada. Texto de âncora pode ser exibido como parte do rótulo (307), em uma parte de uma caixa de confinamento (304) ou como informação adicional exibida quando um usuário pairar um cursor sobre uma ligação selecionável pelo usuário por um período de tempo pré-determinado, tal como 1 segundo.
Opcionalmente, uma respectiva ligação selecionável pelo usuário no documento de resultados interativos é uma ligação a um motor de busca para buscar informação ou documentos correspondentes a uma consulta com base em texto (algumas vezes aqui chamada de uma consulta por termo). A ativação da ligação ocasiona a execução da busca pelo motor de busca, em que a consulta e o motor de busca são especificados pela ligação (por exemplo, o motor de busca é especificado por uma URL na ligação e a consulta de busca com base em texto é especificada por um parâmetro de URL da ligação), com resultados retomados ao sistema cliente. Opcionalmente, a ligação neste exemplo pode incluir texto de âncora que especifica o texto ou os termos na consulta de busca.
Em algumas modalidades, o documento de resultados interativos produzido em resposta a uma consulta visual pode incluir uma pluralidade de ligações que correspondem os resultados provenientes do mesmo sistema de busca. Por exemplo, uma consulta visual pode ser uma imagem ou figura de um grupo de pessoas. O documento de resultados interativos pode incluir caixas de confinamento ao redor de cada pessoa que, quando ativadas retomam resultados provenientes do sistema de busca de reconhecimento facial para cada face no grupo. Para algumas consultas visuais, uma pluralidade de ligações no documento de resultados interativos corresponde aos resultados de busca provenientes de mais de um sistema de busca (310). Por exemplo, se uma figura de uma pessoa e um cão foi submetida como a consulta visual, caixas de confinamento no documento de resultados interativos podem delinear a pessoa e o cão separadamente. Quando a pessoa (no documento de resultados interativos) for selecionada, resultados de busca provenientes do sistema de busca de reconhecimento facial são retomados e, quando o cão (no documento de resultados interativos) for selecionado, resultados provenientes do sistema de busca de imagem por termos são retomados. Para algumas consultas visuais, o documento de resultados interativos contém um resultado de OCR e um resultado de correspondência de imagem (312). Por exemplo, se uma figura de uma pessoa em pé próximo de uma placa foi submetida como uma consulta visual, o documento de resultados interativos pode incluir identificadores visuais para a pessoa e para o texto na placa. Similarmente, se uma digitalização de uma revista foi usada como a consulta visual, o documento de resultados interativos pode incluir identificadores visuais para fotografias ou marcas registradas em anúncios na página, bem como um identificador visual para o texto de um artigo também nesta página.
Depois que o documento de resultados interativos foi criado, ele é enviado ao sistema cliente (314). Em algumas modalidades, o documento de resultados interativos (por exemplo, documento 1200, figura 15) é enviado em conjunto com uma lista de resultados de busca proveniente de um ou mais sistemas de busca paralelos, da forma supradiscutida em relação à figura 2. Em algumas modalidades, o documento de resultados interativos é exibido no sistema cliente acima ou de outra forma adjacente a uma lista de resultados de busca proveniente de um ou mais sistemas de busca paralelos (315), da forma mostrada na figura 15.
Opcionalmente, o usuário interagirá com o documento de resultados pela Seleção de um identificador visual no documento de resultados. O sistema servidor recebe, a partir do sistema cliente, informação em relação à Seleção do usuário de um identificador visual no documento de resultados interativos (316). Da forma supradiscutida, em algumas modalidades, a ligação é ativada pela Seleção de uma região de ativação no interior de uma caixa de confinamento. Em outras modalidades, a ligação é ativada por uma Seleção do usuário de um identificador visual de uma subparte da consulta visual, que não é uma caixa de confinamento. Em algumas modalidades, o identificador visual ligado é um botão rápido, um rótulo localizado próximo da subparte, uma palavra sublinhada no texto ou outra representação de um objeto ou sujeito na consulta visual.
Em modalidades em que a lista de resultados de busca é apresentada com o documento de resultados interativos (315), quando o usuário selecionar uma ligação selecionável pelo usuário (316), o resultado de busca na lista de resultados de busca correspondente à ligação selecionada é identificado. Em algumas modalidades, o cursor saltará ou se moverá automaticamente para o primeiro resultado correspondente à ligação selecionada. Em algumas modalidades nas quais a tela do cliente 102 é muito pequena para exibir tanto o documento de resultados interativos quanto a íntegra da lista de resultados de busca, a Seleção de uma ligação no documento de resultados interativos faz com que a lista de resultados de busca role ou salte para exibir pelo menos um primeiro resultado correspondente à ligação selecionada. Em algumas outras modalidades, em resposta à Seleção do usuário de uma ligação no documento de resultados interativos, a lista de resultados é reordenada de maneira tal que o primeiro resultado correspondente à ligação seja exibido no topo da lista de resultados.
Em algumas modalidades, quando o usuário selecionar a ligação selecionável pelo usuário (316), o sistema servidor de consulta visual envia pelo menos um subconjunto dos resultados, relacionado a uma correspondente subparte da consulta visual, ao cliente para exibição ao usuário (318). Em algumas modalidades, o usuário pode selecionar múltiplos identificadores visuais concorrentemente e receberá um subconjunto dos resultados para todos os identificadores visuais selecionados ao mesmo tempo. Em outras modalidades, resultados de busca correspondentes às ligações selecionáveis pelo usuário são pré-carregados sobre o cliente antes da Seleção pelo usuário de qualquer uma das ligações selecionáveis pelo usuário para prover resultados de busca ao usuário de forma virtualmente instantânea em resposta à Seleção pelo usuário de uma ou mais ligações no documento de resultados interativos.
A figura 4 é um fluxograma que ilustra as comunicações entre um cliente e um sistema servidor de consulta visual. O cliente 102 recebe uma consulta visual a partir de um usuário / consultante (402). Em algumas modalidades, consultas visuais somente podem ser aceitas a partir de usuários que assinaram ou aderiram ao sistema de consulta visual. Em algumas modalidades, buscas por correspondências de reconhecimento facial são realizadas somente para usuários que assinaram o sistema de consulta visual de reconhecimento facial, enquanto outros tipos de consultas visuais são realizados para qualquer um, independente se eles aderiram à parte de reconhecimento facial.
Como exposto, o formato da consulta visual pode tomar muitas formas. Provavelmente, a consulta visual conterá um ou mais sujeitos localizados em subpartes do documento de consulta visual. Para algumas consultas visuais, o sistema cliente 102 realiza pré-processamento de reconhecimento de tipo na consulta visual (404). Em algumas modalidades, o sistema cliente 102 busca padrões reconhecíveis em particular neste sistema de pré-processamento. Por exemplo, para algumas consultas visuais, o cliente pode reconhecer cores. Para algumas consultas visuais, o cliente pode reconhecer que é provável que uma subparte em particular contenha texto (em virtude de esta área ser constituída por pequenos caracteres escuros circundados por espaço de luz, etc.) O cliente pode conter qualquer número de pré-processamentos de reconhecimento de tipo ou de módulos de reconhecimento de tipo. Em algumas modalidades, o cliente terá um módulo de reconhecimento de tipo (reconhecimento de código de barras 406) para reconhecer códigos de barras. Ele pode fazê-lo pelo reconhecimento do padrão listrado distintivo em uma área retangular. Em algumas modalidades, o cliente terá um módulo de reconhecimento de tipo (detecção de face 408) para reconhecer que é provável que um sujeito ou subparte da consulta visual em particular contenha uma face.
Em algumas modalidades, o tipo reconhecido é retomado ao usuário para verificação. Por exemplo, o sistema cliente 102 pode retomar uma mensagem que declara que um código de barras foi encontrado em sua consulta visual, você está interessado em receber resultados da consulta de código de barras?. Em algumas modalidades, a mensagem ainda pode indicar a subparte da consulta visual onde o tipo foi encontrado. Em algumas modalidades, esta apresentação é similar ao documento de resultados interativos discutido em relação à figura 3. Por exemplo, ela pode delinear uma subparte da consulta visual e indicar que é provável que a subparte contenha uma face, e perguntar ao usuário se ele está interessado em receber resultados de reconhecimento facial.
Depois que o cliente 102 realizar o pré-processamento opcional da consulta visual, o cliente envia a consulta visual ao sistema servidor de consulta visual 106, especificamente, ao servidor de processamento de consulta visual em interface inicial 110. Em algumas modalidades, se o pré-processamento produziu resultados relevantes, isto é, se um dos módulos de reconhecimento de tipo produziu resultados acima de um certo limite, indicando que é provável que a consulta ou uma subparte da consulta sejam de um tipo em particular (face, texto, código de barras etc.), o cliente transferirá informação em relação aos resultados do préprocessamento. Por exemplo, o cliente pode indicar que o módulo de reconhecimento de face tem 75 % de certeza que uma subparte em particular da consulta visual contém uma face. Mais no geral, os resultados de préprocessamento, se houver, incluem um ou mais valores de tipo do sujeito (por exemplo, código de barras, face, texto, etc.). Opcionalmente, os resultados de pré-processamento enviados ao sistema servidor de consulta visual incluem um ou mais de: para cada valor de tipo de sujeito nos resultados de préprocessamento, informação que identifica uma subparte da consulta visual correspondente ao valor de tipo de sujeito e, para cada valor de tipo de sujeito nos resultados de pré-processamento, um valor de confiança que indica um nível de confiança no valor de tipo de sujeito e/ou a identificação de uma correspondente subparte da consulta visual.
O servidor de interface inicial 110 recebe a consulta visual a partir do sistema cliente (202). A consulta visual recebida pode conter a informação de pré-processamento supradiscutida. Como exposto, o servidor de interface inicial envia a consulta visual a uma pluralidade de sistemas de busca paralelos (210). Se o servidor de interface inicial 110 recebeu informação de pré-processamento em relação à probabilidade de que uma subparte continha um sujeito de um certo tipo, o servidor de interface inicial pode transferir esta informação a um ou mais dos sistemas de busca paralelos. Por exemplo, ele pode transferir a informação de que é provável que uma subparte em particular seja uma face, de forma que o sistema de busca de reconhecimento facial 112-A possa processar primeiro esta subseção da consulta visual. Similarmente, o envio da mesma informação (que é provável que uma subparte em particular seja uma face) pode ser usado pelos outros sistemas de busca paralelos para ignorar esta subparte ou analisar outras subpartes primeiro. Em algumas modalidades, o servidor de interface inicial não transferirá a informação de pré-processamento aos sistemas de busca paralelos, mas, em vez disto, usará esta informação para aumentar a maneira na qual ele processa os resultados recebidos a partir dos sistemas de busca paralelos.
Da forma explicada em relação à figura 2, para algumas consultas visuais, o servidor de interface inicial 110 recebe uma pluralidade de resultados de busca a partir dos sistemas de busca paralelos (214). Então, o servidor de interface inicial pode realizar uma variedade de ranqueamento e filtragem e pode criar um documento do resultado de busca interativo, da forma explicada em relação às figuras 2 e 3. Se o servidor de interface inicial 110 recebeu informação de pré-processamento em relação à probabilidade de que uma subparte continha um sujeito de um certo tipo, ele pode filtrar e ordenar, dando preferência àqueles resultados que correspondem ao tipo de sujeito reconhecido pré-processado. Se o usuário indicou que um tipo de resultado em particular foi solicitado, o servidor de interface inicial levará as solicitações do usuário em consideração durante o processamento dos resultados. Por exemplo, o servidor de interface inicial pode eliminar por filtragem todos os outros resultados se o usuário solicitou somente informação de código de barras, ou o servidor de interface inicial listará todos os resultados que dizem respeito ao tipo solicitado antes da listagem dos outros resultados. Se um documento de consulta visual interativo for retomado, o servidor pode pré-buscar as ligações associadas com o tipo de resultado ao qual o usuário indicou interesse, embora somente provendo ligações para realizar buscas relacionadas a outros sujeitos indicados no documento de resultados interativos. Então, o servidor de interface inicial 110 envia os resultados de busca ao sistema cliente (226).
O cliente 102 recebe os resultados a partir do sistema servidor (412). Quando aplicável, estes resultados incluirão os resultados que correspondem ao tipo de resultado encontrado no estágio de préprocessamento. Por exemplo, em algumas modalidades, eles incluirão um ou mais resultados do código de barras (414) ou um ou mais resultados de reconhecimento facial (416). Se os módulos de pré-processamento do cliente tiverem indicado que um tipo de resultado em particular era provável, e este resultado foi encontrado, os resultados encontrados deste tipo serão listados proeminentemente.
Opcionalmente, o usuário selecionará ou anotará um ou mais dos resultados (418). O usuário pode selecionar um resultado de busca, pode selecionar um tipo de resultado de busca em particular e/ou pode selecionar uma parte de um documento de resultados interativos (420). A seleção de um resultado é realimentação implícita de que o resultado retomado foi relevante para a consulta. Tal informação de realimentação pode ser utilizada em futuras operações de processamento de consulta. Uma anotação provê realimentação explícita sobre o resultado retomado que também pode ser utilizada em futuras operações de processamento de consulta. Anotações tomam a forma de correções de partes do resultado retomado (como uma correção de uma palavra mal reconhecida por OCR) ou de uma anotação separada (tanto em forma livre quanto estruturada).
A seleção do usuário de um resultado de busca, no geral, selecionando o resultado correto a partir de diversos do mesmo tipo (por exemplo, escolher o correto resultado a partir de um servidor de reconhecimento facial), é um processo que é referido como uma seleção entre interpretações. A seleção pelo usuário de um tipo de resultado de busca em particular, no geral, seleção do resultado tipo de interesse a partir de diversos diferentes tipos de resultados retomados (por exemplo, escolher o texto reconhecido por OCR de um artigo em uma revista em vez de, também, os resultados visuais para os anúncios na mesma página), é um processo que é referido como desambiguação de intenção. Um usuário pode selecionar similarmente palavras ligadas em particular (tais como entidades nomeadas reconhecidas) em um documento reconhecido por OCR, da forma explicada com detalhes em relação à figura 8.
O usuário pode desejar alternativa ou adicionalmente anotar resultados de busca em particular. Esta anotação pode ser feita em estilo de forma livre ou em um formato estruturado (422). As anotações podem ser descrições do resultado ou podem ser análises do resultado. Por exemplo, elas podem indicar o nome do(s) sujeito(s) no resultado ou elas podem indicar este é um bom livro ou este produto quebrou em um ano a partir da compra. Um outro exemplo de uma anotação é uma caixa de confinamento desenhada pelo usuário ao redor de uma subparte da consulta visual e texto provido pelo usuário que identificam o objeto ou sujeito no interior da caixa de confinamento. Anotações de usuário são explicadas com mais detalhes em relação à figura 5.
As seleções de usuário dos resultados de busca e outras anotações são enviadas ao sistema servidor (424). O servidor de interface inicial 110 recebe as seleções e anotações e as processa adicionalmente (426). Se a informação foi uma seleção de um objeto, sub-região ou termo em um documento de resultados interativos, informação adicional em relação a esta seleção pode ser solicitada, conforme apropriado. Por exemplo, se a seleção foi de um resultado visual, mais informação sobre este resultado visual será solicitada. Se a seleção foi uma palavra (tanto a partir do servidor OCR quanto a partir do servidor de imagem por termos), uma busca textual desta palavra será enviada ao sistema servidor de consulta por termo 118. Se a seleção foi de uma pessoa a partir de um sistema de busca por reconhecimento de imagem facial, perfil desta pessoa será solicitado. Se a seleção foi de uma parte em particular de um documento do resultado de busca interativo, os resultados inerentes da consulta visual serão solicitados.
Se o sistema servidor receber uma anotação, a anotação é armazenada em uma base de dados de consulta e anotação 116 explicada em relação à figura 5. Então, a informação proveniente da base de dados de anotação 116 é periodicamente copiada para bases de dados de anotação individuais para um ou mais dos sistemas servidores paralelos, da forma discutida a seguir em relação às figuras 7-10.
A figura 5 é um diagrama de blocos que ilustra um sistema cliente 102 de acordo com uma modalidade da presente invenção. Tipicamente, o sistema cliente 102 inclui uma ou mais unidades de processamento (CPUs) 702, uma ou mais redes ou outras interfaces de comunicações 704, memória 712 e um ou mais barramentos de comunicação 714 para interconectar estes componentes. O sistema cliente 102 inclui uma interface de usuário 705. A interface de usuário 705 inclui um dispositivo de exibição 706 e, opcionalmente, inclui um dispositivo de entrada, tais como um teclado, mouse ou outros botões de entrada 708. Altemativamente, ou além do mais, o dispositivo de exibição 706 inclui uma superfície sensível ao toque 709, em cujo caso a tela 706 / 709 é uma tela sensível ao toque. Em sistemas clientes que têm uma tela sensível ao toque 706 / 709, um teclado físico é opcional (por exemplo, um teclado em software pode ser exibido quando entrada no teclado for necessária). Além do mais, alguns sistemas clientes usam um microfone e reconhecimento de voz para complementar ou substituir o teclado. Opcionalmente, o cliente 102 inclui um receptor GPS (satélite de posicionamento global) ou outro aparelho de detecção de local 707 para determinar o local do sistema cliente 102. Em algumas modalidades, são providos serviços de busca de consulta visual que exigem que o sistema cliente 102 proveja o sistema servidor de consulta visual para receber informação de local que indica o local do sistema cliente 102.
O sistema cliente 102 também inclui um dispositivo de captura de imagem 710, tais como uma câmera ou digitalizador. A memória 712 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outros dispositivos de armazenamento não voláteis em sólido estado. A memória 712 pode incluir opcionalmente um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 702. A memória 712 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis) na memória 712 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 712 ou a mídia de armazenamento legível por computador da memória 712 armazena os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:
• um sistema operacional 716 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 718 que é usado para conectar o sistema cliente 102 em outros computadores por meio de uma ou mais interfaces de comunicação em rede 704 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;
• um módulo de captura de imagem 720 para processamento de uma respectiva imagem capturada pelo dispositivo / câmera de captura de imagem 710, em que a respectiva imagem pode ser enviada (por exemplo, por um módulo de aplicação cliente) como uma consulta visual ao sistema servidor de consulta visual;
• um ou mais módulos de aplicação cliente 722 para tratar vários aspectos de consulta por imagem, incluindo, mas sem limitações: um módulo de submissão de consulta por imagem 724 para submeter consultas visuais ao sistema servidor de consulta visual; opcionalmente, um módulo de seleção de região de interesse 725 que detecta uma seleção (tal como um gesto na tela sensível ao toque 706 / 709) de uma região de interesse em uma imagem e prepara esta região de interesse como uma consulta visual; um navegador de resultados 726 para exibir os resultados da consulta visual; e, opcionalmente, um módulo de anotação 728 com módulos opcionais para entrada de texto de anotação estruturada 730, tais como preenchimento em um formulário ou para entrada de texto de anotação em forma livre 732, que pode aceitar anotações a partir de uma variedade de formatos, e um módulo de seleção da região da imagem 734 (algumas vezes aqui referido como módulo de seleção de resultado) que permite que um usuário selecione uma subparte em particular de uma imagem para anotação;
• um(as) aplicação(ões) de autoria de conteúdo opcional(is) 736 que permite que um usuário seja autor de uma consulta visual pela criação ou edição de uma imagem em vez de somente capturar uma por meio do dispositivo de captura de imagem 710; opcionalmente, uma ou mais aplicações 736 podem incluir instruções que habilitam um usuário a selecionar uma subparte de uma imagem para uso como uma consulta visual;
• um módulo de análise de imagem local opcional 738 que préprocessa a consulta visual antes de enviá-la ao sistema servidor de consulta visual. A análise de imagem local pode reconhecer tipos de imagens em particular, ou sub-regiões em uma imagem. Exemplos de tipos de imagem que podem ser reconhecidos por tais módulos 738 incluem um ou mais de: tipo facial (imagem facial reconhecida em consulta visual), tipo de código de barras (código de barras reconhecido na consulta visual) e tipo de texto (texto reconhecido na consulta visual); e • aplicações clientes opcionais adicionais 740, tais como uma aplicação de correio eletrônico, uma aplicação de telefone, uma aplicação de navegador, uma aplicação de mapeamento, aplicação de mensagens instantâneas, aplicação de rede social, etc. Em algumas modalidades, a aplicação correspondente a um resultado de busca acionável apropriado pode ser iniciada ou acessada quando o resultado de busca acionável for selecionado.
Opcionalmente, o módulo de seleção da região da imagem 734 que permite que um usuário selecione uma subparte em particular de uma imagem para anotação também permite que o usuário escolha um resultado de busca como um acerto correto sem, necessariamente, anotá-lo adicionalmente. Por exemplo, pode-se apresentar ao usuário as N primeiras correspondências de reconhecimento facial e o usuário pode escolher a pessoa correta a partir desta lista de resultados. Para algumas consultas de busca, mais de um tipo de resultado será apresentado e o usuário escolherá um tipo de resultado. Por exemplo, a consulta de imagem pode incluir uma pessoa em pé próximo a uma árvore, mas somente os resultados em relação à pessoa são de interesse ao usuário. Portanto, o módulo de seleção de imagem 734 permite que o usuário indique qual tipo de imagem é o tipo correto, isto é, o tipo que ele está interessado em receber. O usuário também pode desejar anotar o resultado de busca pela adição de comentários pessoais ou palavras descritivas usando tanto o módulo de entrada de texto de anotação 730 (para preencher um formulário) quanto o módulo de entrada de texto de anotação em forma livre 732.
Em algumas modalidades, o módulo de análise de imagem local opcional 738 é uma parte da aplicação cliente (108, figura 1). Além do mais, em algumas modalidades, o módulo de análise de imagem local opcional 738 inclui um ou mais programas para realizar análise de imagem local para pré-processar ou categorizar a consulta visual ou uma parte desta. Por exemplo, a aplicação cliente 722 pode reconhecer que a imagem contém um código de barras, uma face ou texto, antes de submeter a consulta visual a um motor de busca. Em algumas modalidades, quando o módulo de análise de imagem local 738 detectar que a consulta visual contém um tipo de imagem em particular, o módulo pergunta ao usuário se ele está interessado em um tipo de resultado de busca correspondente. Por exemplo, o módulo de análise de imagem local 738 pode detectar uma face com base em suas características gerais (isto é, sem determinar qual face da pessoa) e prover realimentação imediata ao usuário antes do envio da consulta ao sistema servidor de consulta visual. Ele pode retomar um resultado como, Uma face foi detectada, você está interessado em receber correspondências de reconhecimento facial para esta face?. Isto pode economizar tempo para o sistema servidor de consulta visual (106, figura 1). Para algumas consultas visuais, o servidor de processamento de consulta visual em interface inicial (110, figura 1) somente envia a consulta visual ao sistema de busca 112 correspondente ao tipo de imagem reconhecido pelo módulo de análise de imagem local 738. Em outras modalidades, a consulta visual no sistema de busca 112 pode enviar a consulta visual a todos os sistemas de busca 112A-N, mas ranqueará resultados do sistema de busca 112 correspondentes ao tipo de imagem reconhecido pelo módulo de análise de imagem local 738. Em algumas modalidades, a maneira na qual a análise de imagem local impacta na operação do sistema servidor de consulta visual depende da configuração do sistema cliente, ou dos parâmetros de configuração ou de processamento associados tanto com o usuário quanto com o sistema cliente. Além do mais, o conteúdo real de qualquer consulta visual em particular e os resultados produzidos pela análise de imagem local podem fazer com que diferentes consultas visuais sejam tratadas diferentemente tanto no sistema cliente quanto no sistema servidor de consulta visual.
Em algumas modalidades, o reconhecimento de código de barras é realizado em duas etapas, com a análise se a consulta visual inclui um código de barras realizada no sistema cliente no módulo de análise de imagem local 738. Então, a consulta visual é passada a um sistema de busca de código de barras somente se o cliente determinar que é provável que a consulta visual inclui um código de barras. Em outras modalidades, o sistema de busca de código de barras processa cada consulta visual.
Opcionalmente, o sistema cliente 102 inclui aplicações clientes adicionais 740.
A figura 6 é um diagrama de blocos que ilustra um sistema servidor de processamento de consulta visual em interface inicial 110 de acordo com uma modalidade da presente invenção. Tipicamente, o servidor de interface inicial 110 inclui uma ou mais unidades de processamento (CPUs) 802, uma ou mais interfaces de rede ou outras interfaces de comunicações 804, memória 812 e um ou mais barramentos de comunicação 814 para interconectar estes componentes. A memória 812 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outro dispositivos de armazenamento não voláteis em sólido estado. A memória 812 pode incluir, opcionalmente, um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 802. A memória 812 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis)(eis) na memória 812 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 812 ou a mídia de armazenamento legível por computador da memória 812 armazenam os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:
• um sistema operacional 816 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 818 que é usado para conectar o sistema servidor de interface inicial 110 em outros computadores por meio de uma ou mais interfaces de comunicação em rede 804 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;
• um gerenciador de consulta 820 para tratar as consultas visuais de entrada provenientes do sistema cliente 102 e enviá-las a dois ou mais sistemas de busca paralelos; da forma descrita em outro local deste documento, em algumas situações especiais, uma consulta visual pode ser direcionada a somente um dos sistemas de busca, tal como quando a consulta visual incluir uma instrução gerada por cliente (por exemplo, somente busca de reconhecimento facial);
• um módulo de filtragem de resultados 822 para filtrar opcionalmente os resultados provenientes dos um ou mais sistemas de busca paralelos e enviar os principais resultados ou resultados relevantes ao sistema cliente 102 para apresentação;
• um módulo de ranqueamento e formatação de resultados 824 para ranquear opcionalmente os resultados provenientes dos um ou mais sistemas de busca paralelos e para formatar os resultados para apresentação;
• um módulo de criação do documento de resultados 826 é usado, quando apropriado, para criar um documento de resultados de busca interativos; o módulo 826 pode incluir submódulos, incluindo, mas sem limitações, um módulo de criação de caixa de confinamento 828 e um módulo de criação de ligação 830;
• um módulo de criação de rótulo 831 para criar rótulos que são identificadores visuais das respectivas subpartes de uma consulta visual;
• um módulo de anotação 832 para receber anotações de um usuário e enviá-las a uma base de dados de anotação 116;
• um módulo resultados de busca acionáveis 838 para gerar, em resposta a uma consulta visual, um ou mais elementos do resultado de busca acionáveis, cada qual configurado para iniciar uma ação do lado do cliente; exemplos de elementos do resultado de busca acionáveis são botões para iniciar uma chamada telefônica, para iniciar mensagem de correio eletrônico, para mapear um endereço, para fazer uma reserva de restaurante e para prover uma opção para adquirir um produto; e • uma base de dados de consulta e anotação 116 que compreende a própria base de dados 834 e um índice para a base de dados 836.
O módulo de ranqueamento e formatação de resultados 824 ranqueia os resultados retomados a partir dos um ou mais sistemas de busca paralelos (112-A - 112-N, figura 1). Como exposto, para algumas consultas visuais, somente os resultados provenientes de um sistema de busca podem ser relevantes. Em um caso como este, somente os resultados de busca relevantes provenientes de um sistema de busca são ranqueados. Para algumas consultas visuais, diversos tipos de resultados de busca podem ser relevantes. Nestes casos, em algumas modalidades, o módulo de ranqueamento e formatação dos resultados 824 ranqueia todos os resultados provenientes do sistema de busca com o resultado mais relevante (por exemplo, o resultado com o escore de relevância mais alto) acima dos resultados para os sistemas de busca menos relevantes. Em outras modalidades, o módulo de ranqueamento e formatação dos resultados 824 ranqueia um principal resultado proveniente de cada sistema de busca relevante acima dos resultados restantes. Em algumas modalidades, o módulo de ranqueamento e formatação dos resultados 824 ranqueia os resultados de acordo com um escore de relevância computado para cada um dos resultados de busca. Para algumas consultas visuais, consultas textuais aumentadas são realizadas além da busca em sistemas de busca visual paralelos. Em algumas modalidades, quando consultas textuais também forem realizadas, seus resultados são apresentados de uma maneira visualmente distintiva em relação aos resultados do sistema de busca visual.
O módulo de ranqueamento e formatação de resultados 824 também formata os resultados. Em algumas modalidades, os resultados são apresentados em um formato de lista. Em algumas modalidades, os resultados são apresentados por meio de um documento de resultados interativos. Em algumas modalidades, tanto um documento de resultados interativos quanto uma lista de resultados são apresentados. Em algumas modalidades, o tipo de consulta indica como os resultados são apresentados. Por exemplo, se mais de um sujeito buscável for detectado na consulta visual, então, um documento de resultados interativos é produzido, embora, se somente um sujeito buscável for detectado, os resultados sejam exibidos somente em formato de lista.
O módulo de criação do documento de resultados 826 é usado para criar um documento de resultados de busca interativos. O documento de resultados de busca interativos pode ter um ou mais sujeitos detectados e buscados. O módulo de criação de caixa de confinamento 828 cria uma caixa de confinamento ao redor de um ou mais dos sujeitos buscados. As caixas de confinamento podem ser caixas retangulares ou podem delinear a(s) forma(s) do(s) sujeito(s). O módulo de criação de ligação 830 cria ligações os resultados de busca associados com seu respectivo sujeito no documento de resultados de busca interativos. Em algumas modalidades, clicar na área da caixa de confinamento ativa a correspondente ligação inserida pelo módulo de criação de ligação.
A base de dados de consulta e anotação 116 contém informação que pode ser usada para melhorar resultados da consulta visual. Em algumas modalidades, o usuário pode anotar a imagem depois que os resultados da consulta visual forem apresentados. Além do mais, em algumas modalidades, o usuário pode anotar a imagem antes de enviá-la ao sistema de busca de consulta visual. Pré-anotação pode ajudar o processamento de consulta visual pela focalização dos resultados, ou pela execução de buscas com base em texto nas palavras anotadas em paralelo com as buscas de consulta visual. Em algumas modalidades, versões anotadas de uma figura podem se tomar públicas (por exemplo, quando o usuário tiver dado permissão para publicação, por exemplo, pela designação da imagem e da(s) anotação(ões) como não privadas) para serem retomadas como um acerto de correspondência de imagem em potencial. Por exemplo, se um usuário tomar uma figura de uma flor e anotar a imagem dando informação detalhada de gênero e espécie sobre esta flor, o usuário pode desejar que a imagem seja apresentada a qualquer um que realiza uma pesquisa de consulta visual procurando esta flor. Em algumas modalidades, a informação proveniente da base de dados de consulta e anotação 116 é periodicamente transferida aos sistemas de busca paralelos 112, que incorporam partes relevantes da informação (se houver) em suas respectivas bases de dados individuais 114.
A figura 7 é um diagrama de blocos que ilustra um dos sistemas de busca paralelos utilizados para processar uma consulta visual. A figura 7 ilustra um sistema servidor genérico 112-N de acordo com uma modalidade da presente invenção. Este sistema servidor é genérico somente em que ele representa qualquer um dos servidores de busca de consulta visual 112-N. Tipicamente, o sistema servidor genérico 112-N inclui uma ou mais unidades de processamento (CPUs) 502, uma ou mais interfaces de rede ou outras interfaces de comunicações 504, memória 512 e um ou mais barramentos de comunicação 514 para interconectar estes componentes. A memória 512 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outros dispositivos de armazenamento não voláteis em sólido estado. A memória 512 pode incluir opcionalmente um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 502. A memória 512 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis) na memória 512 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 512 ou a mídia de armazenamento legível por computador da memória 512 armazenam os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:
• um sistema operacional 516 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 518 que é usado para conectar o sistema servidor genérico 112-N em outros computadores por meio de uma ou mais interfaces de comunicação em rede 504 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;
• uma aplicação de busca 520 específica para o sistema servidor em particular pode ser, por exemplo, uma aplicação de busca de código de barras, uma aplicação de busca por reconhecimento de cor, uma aplicação de busca por reconhecimento de produto, uma aplicação de busca de objeto ou de categoria de objeto ou congêneres;
• um índice opcional 522 se a aplicação de busca em particular utilizar um índice;
• uma base de dados de imagem opcional 524 para armazenar as imagens relevantes para a aplicação de busca em particular, em que os dados de imagem armazenados, se houver, dependem do tipo de processo de busca;
• um módulo de ranqueamento de resultados opcional 526 (algumas vezes chamado de um módulo de definição de escore de relevância) para ranquear os resultados da aplicação de busca, o módulo de ranqueamento podendo atribuir um escore de relevância para cada resultado da aplicação de busca e, se nenhum resultado alcançar um escore mínimo pré-definido, pode retomar um escore de valor nulo ou zero ao servidor de processamento de consulta visual em interface inicial que indica que os resultados provenientes deste sistema servidor não são relevantes; e • um módulo de anotação 528 para receber informação de anotação a partir de uma base de dados de anotação (116, figura 1) que determina se alguma da informação de anotação é relevante para a aplicação de busca em particular e incorporar todas as partes relevantes da informação de anotação determinadas na respectiva base de dados de anotação 530.
A figura 8 é um diagrama de blocos que ilustra um sistema de busca OCR 112-B utilizado para processar uma consulta visual de acordo com uma modalidade da presente invenção. Tipicamente, o sistema de busca OCR 112-B inclui uma ou mais unidades de processamento (CPUs) 602, uma ou mais interfaces de rede ou outras interfaces de comunicações 604, memória 612 e um ou mais barramentos de comunicação 614 para interconectar estes componentes. A memória 612 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outro dispositivos de armazenamento não voláteis em sólido estado. A memória 612 pode incluir, opcionalmente, um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 602. A memória 612 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis)(eis) na memória 612 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 612 ou a mídia de armazenamento legível por computador da memória 612 armazenam os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:
• um sistema operacional 616 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 618 que é usado para conectar o sistema de busca OCR 112-B em outros computadores por meio de uma ou mais interfaces de comunicação em rede 604 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;
• um módulo de Reconhecimento Ótico de Caractere (OCR) 620 que tenta reconhecer texto na consulta visual e converte as imagens de letras em caracteres;
• uma base de dados OCR opcional 114-B que é utilizada pelo módulo OCR 620 para reconhecer fontes, padrões de texto e outras características em particular exclusivas para reconhecimento de letra;
• um módulo de verificação de soletração opcional 622 que melhora a conversão de imagens de letras em caracteres pela verificação das palavras convertidas em relação a um dicionário e substituição de letras potencialmente mal convertidas em palavras que de outra forma correspondem a uma palavra do dicionário;
• um módulo de reconhecimento de entidade nomeada opcional 624 que busca entidades nomeadas no texto convertido, envia as entidades nomeadas reconhecidas como termos em uma consulta por termo ao sistema servidor de consulta por termo (118, figura 1), e provê os resultados provenientes do sistema servidor de consulta por termo como ligações incorporadas no texto reconhecido por OCR associado com as entidades nomeadas reconhecidas;
• uma aplicação de correspondência de texto opcional 632 que melhora a conversão de imagens de letras em caracteres pela verificação de segmentos convertidos (tais como sentenças e parágrafos convertidos) em relação a uma base de dados de segmentos de texto e substituição de letras potencialmente mal convertidas em segmentos de texto reconhecidos por OCR que de outra forma correspondem a um segmento de texto da aplicação de correspondência de texto, em algumas modalidades, o segmento de texto encontrado pela aplicação de correspondência de texto é provido como uma ligação ao usuário (por exemplo, se o usuário digitalizou uma página do New York Times, a aplicação de correspondência de texto pode prover uma ligação à íntegra do artigo postado na página da Internet do New York Times);
• um módulo de ranqueamento e formatação de resultados 626 para formatar os resultados reconhecidos por OCR para apresentação e formatação de ligações opcionais a entidades nomeadas e, também, ranquear opcionalmente todos os resultados relacionados provenientes da aplicação de correspondência de texto; e • um módulo de anotação opcional 628 para receber informação de anotação a partir de uma base de dados de anotação (116, figura 1) que determina se alguma das informações de anotação é relevante para o sistema de busca OCR e para incorporar todas as partes relevantes da informação de anotação determinadas na respectiva base de dados de anotação 630.
A figura 9 é um diagrama de blocos que ilustra um sistema de busca de reconhecimento facial 112-A utilizado para processar uma consulta visual de acordo com uma modalidade da presente invenção. Tipicamente, o sistema de busca de reconhecimento facial 112-A inclui uma ou mais unidades de processamento (CPUs) 902, uma ou mais interfaces de rede ou outras interfaces de comunicações 904, memória 912 e um ou mais barramentos de comunicação 914 para interconectar estes componentes. A memória 912 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outros dispositivos de armazenamento não voláteis em sólido estado. A memória 912 pode incluir opcionalmente um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 902. A memória 912 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis)(eis) na memória 912 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 912 ou a mídia de armazenamento legível por computador da memória 912 armazenam os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:
• um sistema operacional 916 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 918 que é usado para conectar o sistema de busca de reconhecimento facial 112-A em outros computadores por meio de uma ou mais interfaces de comunicação em rede 904 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;
• uma aplicação de busca de reconhecimento facial 920 para buscar imagens faciais que correspondem à(s) face(s) apresentada(s) na consulta visual em uma base de dados de imagem facial 114-A e buscar, na base de dados da rede social 922, informação em relação a cada correspondência encontrada na base de dados de imagem facial 114-A;
• uma base de dados de imagem facial 114-A para armazenar uma ou mais imagens faciais para uma pluralidade de usuários; opcionalmente, a base de dados de imagem facial inclui imagens faciais para pessoas diferentes dos usuários, tais como membros da família e outros conhecidos dos usuários e que foram identificados como presentes nas imagens incluídas na base de dados de imagem facial 114-A; opcionalmente, a base de dados de imagem facial inclui imagens faciais obtidas a partir de fontes externas, tais como revendedores de imagens faciais que estão legalmente no domínio público;
• opcionalmente, uma base de dados da rede social 922 que contém informação em relação a usuários da rede social, tais como nome, endereço, ocupação, associações no grupo, conexões de rede social, localização GPS atual do dispositivo móvel, preferências de compartilhamento, interesses, idade, cidade natal, estatística pessoal, informação de trabalho, etc., da forma discutida com mais detalhes em relação à figura 12A;
• um módulo de ranqueamento e formatação de resultados 924 para ranquear (por exemplo, atribuir uma relevância e/ou escore de qualidade de correspondência) as potenciais correspondências faciais provenientes da base de dados de imagem facial 114-A e formatar os resultados para apresentação; em algumas modalidades, o ranqueamento ou definição de escore dos resultados utilizam informação relacionada recuperada a partir da supramencionada base de dados da rede social; em algumas modalidades, os resultados formatados da busca incluem as potenciais correspondências de imagem bem como um subconjunto de informação proveniente da base de dados da rede social; e • um módulo de anotação 926 para receber informação de anotação a partir de uma base de dados de anotação (116, figura 1) que determina se alguma das informações de anotação é relevante para o sistema de busca de reconhecimento facial e para armazenar todas as partes relevantes da informação de anotação determinadas na respectiva base de dados de anotação 928.
A figura 10 é um diagrama de blocos que ilustra um sistema de busca de imagem por termos 112-C utilizado para processar uma consulta visual de acordo com uma modalidade da presente invenção. Em algumas modalidades, o sistema de busca de imagem por termos reconhece objetos (reconhecimento de instância) na consulta visual. Em outras modalidades, o sistema de busca de imagem por termos reconhece categorias de objeto (reconhecimento de tipo) na consulta visual. Em algumas modalidades, o sistema de imagem por termos reconhece tanto objetos quanto categorias de objeto. O sistema de busca de imagem por termos retoma correspondências de termo em potencial para imagens na consulta visual. Tipicamente, o sistema de busca de imagem por termos 112-C inclui uma ou mais unidades de processamento (CPUs) 1002, uma ou mais interfaces de rede ou outras interfaces de comunicações 1004, memória 1012 e um ou mais barramentos de comunicação 1014 para interconectar estes componentes. A memória 1012 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outros dispositivos de armazenamento não voláteis em sólido estado. A memória 1012 pode incluir opcionalmente um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 1002. A memória 1012 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis) na memória 1012 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 1012 ou a mídia de armazenamento legível por computador da memória 1012 armazenam os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:
• um sistema operacional 1016 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 1018 que é usado para conectar o sistema de busca de imagem por termos 112-C em outros computadores por meio de uma ou mais interfaces de comunicação em rede 1004 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;
• uma aplicação de busca de imagem por termos 1020 que busca imagens que correspondem ao sujeito ou aos sujeitos na consulta visual na base de dados de busca de imagem 114-C;
• uma base de dados de busca de imagem 114-C que pode ser buscada pela aplicação de busca 1020 para encontrar imagens similares ao(s) sujeito(s) da consulta visual;
• um índice inverso de termos por imagem 1022 que armazena os termos textuais usados pelos usuários durante a busca de imagens usando um motor de busca de consulta com base em texto 1006;
• um módulo de ranqueamento e formatação de resultados 1024 para ranquear as potenciais correspondências de imagem e/ou ranquear termos associados com as potenciais correspondências de imagem identificadas no índice inverso de termos por imagem 1022; e • um módulo de anotação 1026 para receber informação de anotação a partir de uma base de dados de anotação (116, figura 1) que determina se alguma das informações de anotação é relevante para o sistema de busca de imagem por termos 112-C e para armazenar todas as partes relevantes da informação de anotação determinadas na respectiva base de dados de anotação 1028.
Pretende-se que as figuras 5-10 sejam entendidas mais como descrições funcionais dos vários recursos que podem estar presentes em um conjunto de sistemas de computador do que como uma representação estrutural esquemática das modalidades aqui descrita. Na prática, e da forma reconhecida pelos versados na técnica, itens mostrados separadamente podem ser combinados e alguns itens podem ser separados. Por exemplo, alguns itens mostrados separadamente nestas figuras podem ser implementados em servidores individuais e itens individuais podem ser implementados por um ou mais servidores. O número real de sistemas usados para implementar o processamento de consulta visual e como os recursos são alocados entre eles variarão de uma implementação para uma outra.
Cada um dos métodos aqui descritos pode ser gerenciado por instruções que são armazenadas em uma mídia de armazenamento legível por computador não temporária e que são executadas por um ou mais processadores de um ou mais servidores ou clientes. Os módulos ou programas supraidentificados (isto é, conjuntos de instruções) não precisam ser implementados como programas de software, procedimentos ou módulos separados e, assim, vários subconjuntos destes módulos podem ser combinados ou de outra forma rearranjados em várias modalidades. Cada uma das operações mostradas nas figuras 5-10 pode corresponder às instruções armazenadas em uma memória de computador ou mídia de armazenamento legível por computador não temporária.
A figura 11 ilustra um sistema cliente 102 com uma captura de tela de uma consulta visual exemplar 1102. O sistema cliente 102 mostrado na figura 11 é um dispositivo móvel, tais como um telefone celular, tocador portátil de música ou dispositivo de correio eletrônico portátil. O sistema cliente 102 inclui uma tela 706 e um ou mais dispositivos de entrada 708, tais como os botões mostrados nesta figura. Em algumas modalidades, a tela 706 é uma tela sensível ao toque 709. Em modalidades com uma tela sensível ao toque 709, opcionalmente, botões em software exibidos na tela 709 podem substituir alguns ou todos os botões eletromecânicos 708. As telas sensíveis ao toque também são úteis na interação com os resultados da consulta visual, da forma explicada com mais detalhes a seguir. O sistema cliente 102 também inclui um mecanismo de captura de imagem, tal como uma câmera 710.
A figura 11 ilustra uma consulta visual 1102 que é uma fotografia ou quadro de vídeo de uma embalagem em uma prateleira de uma loja. Nas modalidades aqui descritas, a consulta visual é uma imagem bidimensional com uma resolução correspondente ao tamanho da consulta visual em pixels em cada uma das duas dimensões. Neste exemplo, a consulta visual 1102 é uma imagem bidimensional de objetos tridimensionais. A consulta visual 1102 inclui elementos de fundo, uma embalagem de produto 1104 e uma variedade de tipos de entidades na embalagem, incluindo uma imagem de uma pessoa 1106, uma imagem de uma marca registrada 1108, uma imagem de um produto 1110 e uma variedade de elementos textuais 1112.
Da forma explicada em relação à figura 3, a consulta visual 1102 é enviada ao servidor de interface inicial 110, que envia a consulta visual 1102 a uma pluralidade de sistemas de busca paralelos (112A-N), recebe os resultados e cria um documento de resultados interativos.
Cada uma das figuras 12A e 12B ilustra um sistema cliente 102 com uma captura de tela de uma modalidade de um documento de resultados interativos 1200. O documento de resultados interativos 1200 inclui um ou mais identificadores visuais 1202 de respectivas subpartes da consulta visual 1102 que, cada qual, incluem uma ligação selecionável pelo usuário a um subconjunto de resultados de busca. As figuras 12A e 12B ilustram um documento de resultados interativos 1200 com identificadores visuais que são caixas de confinamento 1202 (por exemplo, caixas de confinamento 1202-1, 1202-2, 1202-3). Nas modalidades mostradas nas figuras 12A e 12B, o usuário ativa a exibição dos resultados de busca correspondentes a uma subparte em particular dando um tapinha na região de ativação no interior do espaço delineado por sua caixa de confinamento 1202. Por exemplo, o usuário ativará os resultados de busca correspondentes à imagem da pessoa dando um tapinha em uma caixa de confinamento 1306 (figura 13) que circunda a imagem da pessoa. Em outras modalidades, a ligação selecionável é selecionada usando um mouse ou teclado em vez de uma tela sensível ao toque. Em algumas modalidades, o primeiro resultado de busca correspondente é exibido quando um usuário pré-visualizar uma caixa de confinamento 1202 (isto é, quando o usuário der um único clique, der um único tapinha ou pairar um ponteiro sobre a caixa de confinamento). O usuário ativa a exibição de uma pluralidade de resultados de busca correspondentes quando o usuário selecionar a caixa de confinamento (isto é, quando o usuário der duplo clique, der dois tapinhas ou usar um outro mecanismo para indicar a seleção).
Nas figuras 12A e 12B os identificadores visuais são caixas de confinamento 1202 que circundam subpartes da consulta visual. A figura 12A ilustra caixas de confinamento 1202 que são quadradas ou retangulares. A figura 12B ilustra uma caixa de confinamento 1202 que delineia o contorno de uma entidade identificável na subparte da consulta visual, tal como a caixa de confinamento 1202-3 para uma garrafa de bebida. Em algumas modalidades, uma respectiva caixa de confinamento 1202 inclui caixas de confinamento menores 1202 em si. Por exemplo, nas figuras 12A e 12B, a caixa de confinamento que identifica a embalagem 1202-1 circunda a caixa de confinamento que identifica a marca registrada 1202-2 e todas as outras caixas de confinamento 1202. Algumas modalidades que incluem texto também incluem ligações rápidas ativas 1204 para alguns dos termos textuais. A figura 12B mostra um exemplo em que Active Drink e Estados Unidos são exibidos como ligações rápidas 1204. Os resultados de busca correspondentes a estes termos são os resultados recebidos a partir do sistema servidor de consulta por termo 118, enquanto que os resultados correspondentes às caixas de confinamento são resultados da consulta por sistemas de busca por imagem.
A figura 13 ilustra um sistema cliente 102 com uma captura de tela de um documento de resultados interativos 1200 que é codificado por tipo de entidade reconhecida na consulta visual. A consulta visual da figura 11 contém uma imagem de uma pessoa 1106, uma imagem de uma marca registrada 1108, uma imagem de um produto 1110 e uma variedade de elementos textuais 1112. Como tal, o documento de resultados interativos 1200 exibido na figura 13 inclui caixas de confinamento 1202 ao redor de uma pessoa 1306, de uma marca registrada 1308, de um produto 1310 e das duas áreas textuais 1312. Cada uma das caixas de confinamento da figura 13 é apresentada com hachurado separado que representa caixas de confinamento transparentes diferentemente coloridas 1202. Em algumas modalidades, os identificadores visuais das caixas de confinamento (e/ou rótulos ou outros identificadores visuais no documento de resultados interativos 1200) são formatados para apresentação de maneiras visualmente distintivas, tais como cor de sobreposição, padrão de sobreposição, cor de fundo do rótulo, padrão de fundo do rótulo, cor da fonte do rótulo e cor de borda da caixa de confinamento. A codificação de tipo para entidades reconhecidas em particular é mostrada em relação às caixas de confinamento da figura 13, mas codificação por tipo também pode ser aplicada em identificadores visuais que são rótulos.
A figura 14 ilustra um dispositivo cliente 102 com uma captura de tela de um documento de resultados interativos 1200 com rótulos 1402 sendo os identificadores visuais das respectivas subpartes da consulta visual 1102 da figura 11. Cada um dos identificadores visuais de rótulo 1402 inclui uma ligação selecionável pelo usuário a um subconjunto de correspondentes resultados de busca. Em algumas modalidades, a ligação selecionável é identificada por texto descritivo exibido na área do rótulo 1402. Algumas modalidades incluem uma pluralidade de ligações em um rótulo 1402. Por exemplo, na figura 14, o rótulo que paira sobre a imagem de uma mulher bebendo inclui uma ligação aos resultados de reconhecimento facial para a mulher e uma ligação aos resultados de reconhecimento de imagem para esta figura em particular (por exemplo, imagens de outros produtos ou anúncios usando a mesma figura).
Na figura 14, os rótulos 1402 são exibidos como áreas parcialmente transparentes com texto que ficam localizadas sobre suas respectivas subpartes do documento de resultados interativos. Em outras modalidades, um respectivo rótulo é posicionado próximo, mas não localizado sobre sua respectiva subparte do documento de resultados interativos. Em algumas modalidades, os rótulos são codificados por tipo, da mesma maneira discutida em relação à figura 13. Em algumas modalidades, o usuário ativa a exibição dos resultados de busca correspondentes a uma subparte em particular correspondente a um rótulo 1302 dando um tapinha na região de ativação no interior do espaço delineado pelas bordas ou na periferia do rótulo 1302. As mesmas funções de pré-visualização e seleção supradiscutidas em relação às caixas de confinamento das figuras 12A e 12B também se aplicam aos identificadores visuais que são rótulos 1402.
A figura 15 ilustra uma captura de tela de um documento de resultados interativos 1200 e da consulta visual original 1102 exibida concorrentemente com uma lista de resultados 1500. Em algumas modalidades, o documento de resultados interativos 1200 é exibido por si mesmo, da forma mostrada nas figuras 12 - 14. Em outras modalidades, o documento de resultados interativos 1200 é exibido concorrentemente com a consulta visual original, da forma mostrada na figura 15. Em algumas modalidades, a lista de resultados da consulta visual 1500 é concorrentemente exibida, juntamente com a consulta visual original 1102 e/ou com o documento de resultados interativos 1200. O tipo de sistema cliente e a quantidade de espaço na tela 706 pode determinar se a lista de resultados 1500 é exibida concorrentemente com o documento de resultados interativos 1200. Em algumas modalidades, o sistema cliente 102 recebe (em resposta a uma consulta visual submetida ao sistema servidor de consulta visual) tanto a lista de resultados 1500 quanto o documento de resultados interativos 1200, mas somente exibe a lista de resultados 1500 quando o usuário rolar o documento de resultados interativos 1200 para baixo. Em algumas destas modalidades, o sistema cliente 102 exibe os resultados correspondentes a um identificador visual selecionado pelo usuário 1202 / 1402 sem precisar consultar novamente o servidor em virtude de a lista de resultados 1500 ser recebida pelo sistema cliente 102 em resposta à consulta visual e, então, armazenada localmente no sistema cliente 102.
Em algumas modalidades, a lista de resultados 1500 é organizada em categorias 1502. Cada categoria contém pelo menos um resultado 1503. Em algumas modalidades, os títulos de categorias são destacados para distingui-los dos resultados 1503. As categorias 1502 são ordenadas de acordo com seu peso de categoria calculado. Em algumas modalidades, o peso de categoria é uma combinação dos pesos dos N resultados mais altos naquela categoria. Como tal, a categoria que, provavelmente, produziu mais resultados relevantes é exibida primeiro. Em modalidades em que mais de uma categoria 1502 é retomada para a mesma entidade reconhecida (tais como a correspondência de reconhecimento de imagem facial e a correspondência de imagem mostradas na figura 15), a categoria exibida primeiro tem um peso de categoria mais alto.
Da forma explicada em relação à figura 3, em algumas modalidades, quando uma ligação selecionável no documento de resultados interativos 1200 for selecionada por um usuário do sistema cliente 102, o cursor se moverá automaticamente para a categoria apropriada 1502 ou para o primeiro resultado 1503 naquela categoria. Altemativamente, quando uma ligação selecionável no documento de resultados interativos for selecionada por um usuário do sistema cliente 102, a lista de resultados 1500 é reordenada de maneira tal que a categoria ou as categorias relevantes para a ligação selecionada sejam exibidas primeiro. Isto é realizado, por exemplo, tanto por codificação das ligações selecionáveis com informação que identifica os correspondentes resultados de busca quanto por codificação dos resultados de busca para indicar as correspondentes ligações selecionáveis ou para indicar as correspondentes categorias do resultado.
Em algumas modalidades, as categorias dos resultados de busca correspondem ao sistema de busca de consulta por imagem que produz estes resultados de busca. Por exemplo, na figura 15, algumas das categorias são correspondência de produto 1506, correspondência de logotipo 1508, correspondência de reconhecimento facial 1510, correspondência de imagem 1512. A consulta visual original 1102 e/ou um documento de resultados interativos 1200 podem ser similarmente exibidos com um título de categoria, tal como a consulta 1504. Similarmente, resultados provenientes de qualquer busca por termo realizada pelo servidor de consulta por termo também podem ser exibidos como uma categoria separada, tais como resultados da Internet 1514. Em outras modalidades, mais de uma entidade em uma consulta visual produzirá resultados a partir do mesmo sistema de busca de consulta por imagem. Por exemplo, a consulta visual pode incluir duas faces diferentes que retomarão resultados separados provenientes do sistema de busca de reconhecimento facial. Como tal, em algumas modalidades, as categorias 1502 são divididas por entidade reconhecida em vez de pelo sistema de busca. Em algumas modalidades, uma imagem da entidade reconhecida é exibida no cabeçalho da categoria da entidade reconhecida 1502, de maneira tal que os resultados para esta entidade reconhecida sejam distinguíveis dos resultados para uma outra entidade reconhecida, mesmo embora ambos os resultados sejam produzidos pela mesma consulta pelo sistema de busca de imagem. Por exemplo, na figura 15, a categoria de correspondência de produto 1506 inclui duas entidades de produto e, como tal, duas categorias de entidade 1502, um produto encaixotado 1516 e um produto engarrafado 1518, cada qual tendo uma pluralidade de correspondentes resultados de busca 1503. Em algumas modalidades, as categorias podem ser divididas por entidades reconhecidas e tipo de sistema de consulta por imagem. Por exemplo, na figura 15, há duas entidades separadas que retomaram resultados relevantes sob a categoria de correspondência de produto.
Em algumas modalidades, os resultados 1503 incluem imagens em miniatura. Por exemplo, da forma mostrada para os resultados da correspondência de reconhecimento facial da figura 15, pequenas versões (também chamadas de imagens em miniatura) das figuras das correspondências faciais para Atriz X e Amigo da Rede Social Y são exibidas juntamente com alguma descrição textual, tal como o nome da pessoa na imagem.
A descrição exposta, com propósito de explicação, foi dada em relação às modalidades específicas. Entretanto, não pretende-se que as discussões ilustrativas expostas sejam completas ou limitem a invenção às precisas formas divulgadas. Muitas modificações e variações são possíveis em vista dos preceitos expostos. As modalidades foram escolhidas e descritas a fim de mais bem explicar os princípios da invenção e suas aplicações práticas 10 para, desse modo, habilitar outros versados na técnica a mais bem utilizar a invenção e várias modalidades com várias modificações adequadas ao uso em particular contemplado.

Claims (3)

  1. REIVINDICAÇÕES
    1. Método de processamento de uma consulta visual implementado por computador, caracterizado pelo fato de que compreende:
    em um sistema servidor com um ou mais processadores e memória que armazena instruções para execução pelos um ou mais processadores:
    obter, a partir de um sistema cliente, uma consulta visual tendo dois ou mais objetos incluindo:
    (i) um primeiro objeto tendo um primeiro tipo de objeto; e (ii) um segundo objeto tendo um segundo tipo de objeto distinto do primeiro tipo de objeto, os primeiro e segundo tipos de objeto são selecionados a partir do grupo que consiste em:
    caracteres OCR, um rosto de uma pessoa, um objeto não humano e um código de barras;
    particionar a consulta visual em duas ou mais regiões incluindo uma primeira região e uma segunda região, em que a primeira região inclui o primeiro objeto, e a segunda região inclui o segundo objeto;
    processar a consulta visual pela obtenção simultanea de resultados de busca de consulta visual incluindo:
    (i) um primeiro conjunto de resultados obtidos de acordo com o primeiro objeto;
    (ii) um segundo conjunto de resultados obtidos de acordo com o segundo objeto;
    formatar para exibição simultânea (i) o primeiro conjunto de resultados, e (ii) o segundo conjunto de resultados para um usuário;
    obter uma ou mais anotações do usuário de um resultado de busca particular no primeiro conjunto de resultados de busca ou no segundo
    Petição 870190105962, de 18/10/2019, pág. 16/20 conjunto de resultados de busca, em que a uma ou mais anotações do usuário indicam uma ação tomada por um usuário que indica uma respectiva relevância dos resultados de busca, ou falta dela, para a consulta visual;
    obter uma segunda consulta visual; e em resposta a obter a segunda consulta visual, obter uma segunda pluralidade de resultados de busca com base em pelo menos uma anotação na uma ou mais anotações do usuário.
  2. 2. Método implementado por computador, de acordo com a reivindicação 1, caracterizado pelo fato de que a consulta visual é selecionada a partir do grupo que consiste em: uma fotografia, uma captura de tela, uma imagem digitalizada, um quadro de vídeo, e uma pluralidade de quadros de vídeo.
  3. 3. Sistema motor de busca, para processamento de uma consulta visual, caracterizado pelo fato de que compreende:
    uma ou mais unidades centrais de processamento para executar instruções;
    memória que armazena instruções a serem executadas pelas uma ou mais unidades centrais de processamento;
    as instruções realizando as seguintes etapas:
    obter, a partir de um sistema cliente, uma consulta visual tendo dois ou mais objetos incluindo:
    (i) um primeiro objeto tendo um primeiro tipo de objeto; e (ii) um segundo objeto tendo um segundo tipo de objeto distinto do primeiro tipo de objeto, os primeiro e segundo tipos de objeto são selecionados a partir do grupo que consiste em:
    caracteres OCR, um rosto de uma pessoa, um objeto não humano e um código de barras;
    particionar a consulta visual em duas ou mais regiões
BR112012002815A 2009-08-07 2010-08-05 método implementado por computador de processamento de uma consulta visual, sistema motor de busca para processamento de uma consulta visual,e, mídia de armazenamento não temporária legível por computador BR112012002815B8 (pt)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US23239709P 2009-08-07 2009-08-07
US26611609P 2009-12-02 2009-12-02
US12/850,483 US9135277B2 (en) 2009-08-07 2010-08-04 Architecture for responding to a visual query
PCT/US2010/044603 WO2011017557A1 (en) 2009-08-07 2010-08-05 Architecture for responding to a visual query

Publications (2)

Publication Number Publication Date
BR112012002815B1 true BR112012002815B1 (pt) 2020-06-09
BR112012002815B8 BR112012002815B8 (pt) 2020-10-06

Family

ID=42752283

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112012002815A BR112012002815B8 (pt) 2009-08-07 2010-08-05 método implementado por computador de processamento de uma consulta visual, sistema motor de busca para processamento de uma consulta visual,e, mídia de armazenamento não temporária legível por computador

Country Status (9)

Country Link
US (3) US9135277B2 (pt)
EP (1) EP2462520B1 (pt)
JP (3) JP2013501975A (pt)
KR (2) KR101725885B1 (pt)
CN (1) CN102625937B (pt)
AU (2) AU2010279333B2 (pt)
BR (1) BR112012002815B8 (pt)
CA (2) CA2771094C (pt)
WO (1) WO2011017557A1 (pt)

Families Citing this family (187)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327235A1 (en) * 2008-06-27 2009-12-31 Google Inc. Presenting references with answers in forums
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US9135277B2 (en) 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
EP2341450A1 (en) * 2009-08-21 2011-07-06 Mikko Kalervo Väänänen Method and means for data searching and language translation
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US9405772B2 (en) 2009-12-02 2016-08-02 Google Inc. Actionable search results for street view visual queries
US9176986B2 (en) 2009-12-02 2015-11-03 Google Inc. Generating a combination of a visual query and matching canonical document
US9852156B2 (en) 2009-12-03 2017-12-26 Google Inc. Hybrid use of location sensor data and visual query to return local listings for visual query
US9143603B2 (en) 2009-12-31 2015-09-22 Digimarc Corporation Methods and arrangements employing sensor-equipped smart phones
US8600173B2 (en) * 2010-01-27 2013-12-03 Dst Technologies, Inc. Contextualization of machine indeterminable information based on machine determinable information
WO2012050251A1 (ko) * 2010-10-14 2012-04-19 엘지전자 주식회사 이동 단말기 및 그 제어방법
US8861896B2 (en) * 2010-11-29 2014-10-14 Sap Se Method and system for image-based identification
US8995775B2 (en) * 2011-05-02 2015-03-31 Facebook, Inc. Reducing photo-tagging spam
JP5316582B2 (ja) * 2011-05-23 2013-10-16 コニカミノルタ株式会社 画像処理システム、画像処理装置、端末装置、および制御プログラム
EP2533141A1 (en) * 2011-06-07 2012-12-12 Amadeus S.A.S. A personal information display system and associated method
JP5830784B2 (ja) * 2011-06-23 2015-12-09 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
KR101814120B1 (ko) * 2011-08-26 2018-01-03 에스프린팅솔루션 주식회사 이미지를 전자문서에 삽입하는 방법 및 이를 수행하는 장치
KR20140064969A (ko) 2011-09-23 2014-05-28 디지맥 코포레이션 콘텍스트―기반 스마트폰 센서 로직
US8878785B1 (en) 2011-10-05 2014-11-04 Google Inc. Intent determination using geometric shape input
US8930393B1 (en) 2011-10-05 2015-01-06 Google Inc. Referent based search suggestions
US10013152B2 (en) 2011-10-05 2018-07-03 Google Llc Content selection disambiguation
US8825671B1 (en) * 2011-10-05 2014-09-02 Google Inc. Referent determination from selected content
US8890827B1 (en) 2011-10-05 2014-11-18 Google Inc. Selected content refinement mechanisms
US9305108B2 (en) 2011-10-05 2016-04-05 Google Inc. Semantic selection and purpose facilitation
US9032316B1 (en) 2011-10-05 2015-05-12 Google Inc. Value-based presentation of user-selectable computing actions
US8589410B2 (en) * 2011-10-18 2013-11-19 Microsoft Corporation Visual search using multiple visual input modalities
EP2587745A1 (en) 2011-10-26 2013-05-01 Swisscom AG A method and system of obtaining contact information for a person or an entity
TWI451347B (zh) * 2011-11-17 2014-09-01 Univ Nat Chiao Tung 物品資料查詢系統及方法
US8891907B2 (en) 2011-12-06 2014-11-18 Google Inc. System and method of identifying visual objects
US9355317B2 (en) 2011-12-14 2016-05-31 Nec Corporation Video processing system, video processing method, video processing device for mobile terminal or server and control method and control program thereof
JP2015062090A (ja) * 2011-12-15 2015-04-02 日本電気株式会社 映像処理システム、映像処理方法、携帯端末用またはサーバ用の映像処理装置およびその制御方法と制御プログラム
US10115127B2 (en) 2011-12-16 2018-10-30 Nec Corporation Information processing system, information processing method, communications terminals and control method and control program thereof
US10146795B2 (en) * 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
TWI492166B (zh) 2012-01-12 2015-07-11 Kofax Inc 行動影像擷取和處理的系統和方法
US8620021B2 (en) 2012-03-29 2013-12-31 Digimarc Corporation Image-related methods and arrangements
US8935246B2 (en) 2012-08-08 2015-01-13 Google Inc. Identifying textual terms in response to a visual query
US8868598B2 (en) * 2012-08-15 2014-10-21 Microsoft Corporation Smart user-centric information aggregation
CN102930263A (zh) * 2012-09-27 2013-02-13 百度国际科技(深圳)有限公司 一种信息处理方法及装置
CN102902771A (zh) * 2012-09-27 2013-01-30 百度国际科技(深圳)有限公司 一种图片搜索方法、装置及服务器
US8990194B2 (en) * 2012-11-02 2015-03-24 Google Inc. Adjusting content delivery based on user submissions of photographs
US20140149257A1 (en) * 2012-11-28 2014-05-29 Jim S. Baca Customized Shopping
US9298712B2 (en) 2012-12-13 2016-03-29 Microsoft Technology Licensing, Llc Content and object metadata based search in e-reader environment
CA2900765A1 (en) * 2013-02-08 2014-08-14 Emotient Collection of machine learning training data for expression recognition
US10235358B2 (en) * 2013-02-21 2019-03-19 Microsoft Technology Licensing, Llc Exploiting structured content for unsupervised natural language semantic parsing
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9208176B2 (en) * 2013-03-12 2015-12-08 International Business Machines Corporation Gesture-based image shape filtering
US9258597B1 (en) 2013-03-13 2016-02-09 Google Inc. System and method for obtaining information relating to video images
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US10127636B2 (en) 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US9247309B2 (en) 2013-03-14 2016-01-26 Google Inc. Methods, systems, and media for presenting mobile content corresponding to media content
US9705728B2 (en) 2013-03-15 2017-07-11 Google Inc. Methods, systems, and media for media transmission and management
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
US20140330814A1 (en) * 2013-05-03 2014-11-06 Tencent Technology (Shenzhen) Company Limited Method, client of retrieving information and computer storage medium
NZ630397A (en) * 2013-05-21 2017-06-30 Fmp Group (Australia) Pty Ltd Image recognition of vehicle parts
US10176500B1 (en) * 2013-05-29 2019-01-08 A9.Com, Inc. Content classification based on data recognition
US10228242B2 (en) 2013-07-12 2019-03-12 Magic Leap, Inc. Method and system for determining user input based on gesture
GB201314642D0 (en) * 2013-08-15 2013-10-02 Summerfield Gideon Image Identification System and Method
CN104424257A (zh) * 2013-08-28 2015-03-18 北大方正集团有限公司 信息检索装置和信息检索方法
CN103455590B (zh) * 2013-08-29 2017-05-31 百度在线网络技术(北京)有限公司 在触屏设备中进行检索的方法和装置
EP3044731A4 (en) * 2013-09-11 2017-02-22 See-Out Pty Ltd. Image searching method and apparatus
US10095833B2 (en) * 2013-09-22 2018-10-09 Ricoh Co., Ltd. Mobile information gateway for use by medical personnel
US9386235B2 (en) 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US10002191B2 (en) 2013-12-31 2018-06-19 Google Llc Methods, systems, and media for generating search results based on contextual information
US9456237B2 (en) 2013-12-31 2016-09-27 Google Inc. Methods, systems, and media for presenting supplemental information corresponding to on-demand media content
US9491522B1 (en) 2013-12-31 2016-11-08 Google Inc. Methods, systems, and media for presenting supplemental content relating to media content on a content interface based on state information that indicates a subsequent visit to the content interface
US9411825B2 (en) * 2013-12-31 2016-08-09 Streamoid Technologies Pvt. Ltd. Computer implemented system for handling text distracters in a visual search
US10024679B2 (en) 2014-01-14 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10360907B2 (en) 2014-01-14 2019-07-23 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9915545B2 (en) 2014-01-14 2018-03-13 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10248856B2 (en) 2014-01-14 2019-04-02 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
KR101791518B1 (ko) 2014-01-23 2017-10-30 삼성전자주식회사 사용자 인증 방법 및 장치
US9832353B2 (en) 2014-01-31 2017-11-28 Digimarc Corporation Methods for encoding, decoding and interpreting auxiliary data in media signals
JP6208898B2 (ja) 2014-02-10 2017-10-04 ジーニー ゲゼルシャフト ミット ベシュレンクテル ハフツング 画像特徴式認識のためのシステムおよび方法
US9811592B1 (en) 2014-06-24 2017-11-07 Google Inc. Query modification based on textual resource context
US9830391B1 (en) 2014-06-24 2017-11-28 Google Inc. Query modification based on non-textual resource context
US9916328B1 (en) 2014-07-11 2018-03-13 Google Llc Providing user assistance from interaction understanding
KR101690528B1 (ko) * 2015-06-05 2016-12-28 오드컨셉 주식회사 검색 정보를 표시하는 방법, 장치 및 컴퓨터 프로그램
US10062099B2 (en) * 2014-07-25 2018-08-28 Hewlett Packard Enterprise Development Lp Product identification based on location associated with image of product
US10024667B2 (en) 2014-08-01 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable earpiece for providing social and environmental awareness
US9965559B2 (en) 2014-08-21 2018-05-08 Google Llc Providing automatic actions for mobile onscreen content
JP6220079B2 (ja) * 2014-09-08 2017-10-25 日本電信電話株式会社 表示制御装置、表示制御方法および表示制御プログラム
US10024678B2 (en) 2014-09-17 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable clip for providing social and environmental awareness
US9922236B2 (en) * 2014-09-17 2018-03-20 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable eyeglasses for providing social and environmental awareness
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
CN104391938B (zh) * 2014-11-24 2017-10-10 武汉海川云谷软件技术有限公司 一种实物资产管理中的图片批量导入数据库的方法及系统
CN104615639B (zh) * 2014-11-28 2018-08-24 北京百度网讯科技有限公司 一种用于提供图片的呈现信息的方法和设备
CN104536995B (zh) * 2014-12-12 2016-05-11 北京奇虎科技有限公司 基于终端界面触控操作进行搜索的方法及系统
CN104572986A (zh) * 2015-01-04 2015-04-29 百度在线网络技术(北京)有限公司 信息搜索方法和装置
US11120478B2 (en) 2015-01-12 2021-09-14 Ebay Inc. Joint-based item recognition
US20160217157A1 (en) * 2015-01-23 2016-07-28 Ebay Inc. Recognition of items depicted in images
US10490102B2 (en) 2015-02-10 2019-11-26 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for braille assistance
US9586318B2 (en) 2015-02-27 2017-03-07 Toyota Motor Engineering & Manufacturing North America, Inc. Modular robot with smart device
US9811752B2 (en) 2015-03-10 2017-11-07 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable smart device and method for redundant object identification
US9922271B2 (en) 2015-03-20 2018-03-20 Netra, Inc. Object detection and classification
US9760792B2 (en) 2015-03-20 2017-09-12 Netra, Inc. Object detection and classification
US9972216B2 (en) 2015-03-20 2018-05-15 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for storing and playback of information for blind users
CN104794220A (zh) * 2015-04-28 2015-07-22 百度在线网络技术(北京)有限公司 信息搜索方法和信息搜索装置
US9703541B2 (en) 2015-04-28 2017-07-11 Google Inc. Entity action suggestion on a mobile device
US10062015B2 (en) 2015-06-25 2018-08-28 The Nielsen Company (Us), Llc Methods and apparatus for identifying objects depicted in a video using extracted video frames in combination with a reverse image search engine
US10628009B2 (en) 2015-06-26 2020-04-21 Rovi Guides, Inc. Systems and methods for automatic formatting of images for media assets based on user profile
CA2952461A1 (en) * 2015-06-26 2016-12-26 Rovi Guides, Inc. Systems and methods for automatic formatting of images for media assets based on user profile
CN105518678B (zh) * 2015-06-29 2018-07-31 北京旷视科技有限公司 搜索方法、搜索装置和用户设备
US10769200B1 (en) * 2015-07-01 2020-09-08 A9.Com, Inc. Result re-ranking for object recognition
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
CN105069083B (zh) 2015-07-31 2019-03-08 小米科技有限责任公司 关联用户的确定方法及装置
US9898039B2 (en) 2015-08-03 2018-02-20 Toyota Motor Engineering & Manufacturing North America, Inc. Modular smart necklace
CN108431829A (zh) * 2015-08-03 2018-08-21 奥兰德股份公司 用于在目录中搜索产品的系统和方法
ITUB20153277A1 (it) * 2015-08-28 2017-02-28 St Microelectronics Srl Procedimento per ricerche visuali, sistema, apparecchiatura e prodotto informatico corrispondenti
US10970646B2 (en) 2015-10-01 2021-04-06 Google Llc Action suggestions for user-selected content
US11055343B2 (en) 2015-10-05 2021-07-06 Pinterest, Inc. Dynamic search control invocation and visual search
US11609946B2 (en) * 2015-10-05 2023-03-21 Pinterest, Inc. Dynamic search input selection
JP6204957B2 (ja) * 2015-10-15 2017-09-27 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
US20180004845A1 (en) * 2015-10-16 2018-01-04 Carlos A. Munoz Web Based Information Search Method
US10178527B2 (en) 2015-10-22 2019-01-08 Google Llc Personalized entity repository
US10055390B2 (en) 2015-11-18 2018-08-21 Google Llc Simulated hyperlinks on a mobile device based on user intent and a centered selection of text
US20170185670A1 (en) * 2015-12-28 2017-06-29 Google Inc. Generating labels for images associated with a user
US9881236B2 (en) * 2015-12-28 2018-01-30 Google Llc Organizing images associated with a user
US10043102B1 (en) * 2016-01-20 2018-08-07 Palantir Technologies Inc. Database systems and user interfaces for dynamic and interactive mobile image analysis and identification
US9779293B2 (en) * 2016-01-27 2017-10-03 Honeywell International Inc. Method and tool for post-mortem analysis of tripped field devices in process industry using optical character recognition and intelligent character recognition
US10024680B2 (en) 2016-03-11 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Step based guidance system
US10445355B2 (en) * 2016-04-07 2019-10-15 RELX Inc. Systems and methods for providing a visualizable results list
US11003667B1 (en) 2016-05-27 2021-05-11 Google Llc Contextual information for a displayed resource
US9958275B2 (en) 2016-05-31 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for wearable smart device communications
US10152521B2 (en) 2016-06-22 2018-12-11 Google Llc Resource recommendations for a displayed resource
US10353950B2 (en) * 2016-06-28 2019-07-16 Google Llc Visual recognition using user tap locations
US10802671B2 (en) 2016-07-11 2020-10-13 Google Llc Contextual information for a displayed resource that includes an image
US10561519B2 (en) 2016-07-20 2020-02-18 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device having a curved back to reduce pressure on vertebrae
US10489459B1 (en) 2016-07-21 2019-11-26 Google Llc Query recommendations for a displayed resource
US10051108B2 (en) 2016-07-21 2018-08-14 Google Llc Contextual information for a notification
US10467300B1 (en) 2016-07-21 2019-11-05 Google Llc Topical resource recommendations for a displayed resource
MX2019002626A (es) * 2016-09-06 2019-10-02 Walmart Apollo Llc Selector de imagenes de una pieza de un producto.
EP3479259A4 (en) * 2016-09-08 2020-06-24 Goh Soo, Siah VIDEO DETECTION FRAME FOR VISUAL SEARCH PLATFORM
US10949605B2 (en) * 2016-09-13 2021-03-16 Bank Of America Corporation Interprogram communication with event handling for online enhancements
US10212113B2 (en) 2016-09-19 2019-02-19 Google Llc Uniform resource identifier and image sharing for contextual information display
US10535005B1 (en) 2016-10-26 2020-01-14 Google Llc Providing contextual actions for mobile onscreen content
US10346727B2 (en) * 2016-10-28 2019-07-09 Adobe Inc. Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US10432851B2 (en) 2016-10-28 2019-10-01 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device for detecting photography
USD827143S1 (en) 2016-11-07 2018-08-28 Toyota Motor Engineering & Manufacturing North America, Inc. Blind aid device
US10012505B2 (en) 2016-11-11 2018-07-03 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable system for providing walking directions
US10521669B2 (en) 2016-11-14 2019-12-31 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing guidance or feedback to a user
US11237696B2 (en) 2016-12-19 2022-02-01 Google Llc Smart assist for repeated actions
US20180218237A1 (en) * 2017-01-30 2018-08-02 International Business Machines Corporation System, method and computer program product for creating a contact group using image analytics
US11449495B2 (en) * 2017-02-01 2022-09-20 United Parcel Service Of America, Inc. Indexable database profiles comprising multi-language encoding data and methods for generating the same
JP6807268B2 (ja) * 2017-04-18 2021-01-06 日本電信電話株式会社 画像認識エンジン連携装置およびプログラム
KR102368847B1 (ko) 2017-04-28 2022-03-02 삼성전자주식회사 객체에 대응하는 콘텐트를 출력하기 위한 방법 및 그 전자 장치
JP6353118B1 (ja) * 2017-05-10 2018-07-04 ヤフー株式会社 表示プログラム、情報提供装置、表示装置、表示方法、情報提供方法および情報提供プログラム
US11928482B2 (en) * 2017-06-13 2024-03-12 Google Llc Interaction with electronic chat interfaces
US10679068B2 (en) 2017-06-13 2020-06-09 Google Llc Media contextual information from buffered media data
JP6890720B2 (ja) * 2017-06-16 2021-06-18 マーカブル インコーポレイテッドMarkable,Inc. 画像処理システム
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
EP3438853A1 (en) 2017-08-01 2019-02-06 Samsung Electronics Co., Ltd. Electronic device and method for providing search result thereof
KR102469717B1 (ko) * 2017-08-01 2022-11-22 삼성전자주식회사 오브젝트에 대한 검색 결과를 제공하기 위한 전자 장치 및 이의 제어 방법
KR102586170B1 (ko) * 2017-08-01 2023-10-10 삼성전자주식회사 전자 장치 및 이의 검색 결과 제공 방법
JP6938680B2 (ja) 2017-09-13 2021-09-22 グーグル エルエルシーGoogle LLC 関連コンテンツを使用した画像の効率的な増強
US11126653B2 (en) 2017-09-22 2021-09-21 Pinterest, Inc. Mixed type image based search results
US10942966B2 (en) 2017-09-22 2021-03-09 Pinterest, Inc. Textual and image based search
US11841735B2 (en) 2017-09-22 2023-12-12 Pinterest, Inc. Object based image search
KR102599947B1 (ko) 2017-10-27 2023-11-09 삼성전자주식회사 관련 이미지를 검색하기 위한 전자 장치 및 이의 제어 방법
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
EP3732588A1 (en) * 2017-12-29 2020-11-04 eBay, Inc. Computer vision and image characteristic search
US10740394B2 (en) * 2018-01-18 2020-08-11 Oath Inc. Machine-in-the-loop, image-to-video computer vision bootstrapping
CN108270794B (zh) * 2018-02-06 2020-10-09 腾讯科技(深圳)有限公司 内容发布方法、装置及可读介质
KR102068535B1 (ko) * 2018-02-28 2020-01-21 엔에이치엔 주식회사 대화방 내 상담 메시지를 기초로 서비스를 예약하는 방법
US10558857B2 (en) * 2018-03-05 2020-02-11 A9.Com, Inc. Visual feedback of process state
JP6684846B2 (ja) * 2018-04-23 2020-04-22 株式会社ワコム 物品検索システム
US10810457B2 (en) * 2018-05-09 2020-10-20 Fuji Xerox Co., Ltd. System for searching documents and people based on detecting documents and people around a table
CN108897841A (zh) * 2018-06-27 2018-11-27 百度在线网络技术(北京)有限公司 全景图搜索方法、装置、设备、服务器及存储介质
KR102661596B1 (ko) 2018-08-08 2024-04-29 삼성전자주식회사 이미지에 대한 인식 정보, 인식 정보와 관련된 유사 인식 정보, 및 계층 정보를 이용하여 외부 객체에 대한 인식 결과를 제공하는 전자 장치 및 그의 동작 방법
KR102544781B1 (ko) 2018-08-08 2023-06-19 삼성전자주식회사 우선 순위에 기반하여 상품과 관련된 정보를 제공하는 방법 및 그 전자 장치
US10699112B1 (en) * 2018-09-28 2020-06-30 Automation Anywhere, Inc. Identification of key segments in document images
WO2020106524A2 (en) * 2018-11-25 2020-05-28 Google Llc Finding and filtering elements of a visual scene
JP6934855B2 (ja) * 2018-12-20 2021-09-15 ヤフー株式会社 制御プログラム
KR101982990B1 (ko) * 2018-12-27 2019-05-27 건국대학교 산학협력단 챗봇을 이용한 질의 응답 방법 및 장치
KR101982991B1 (ko) * 2018-12-28 2019-05-27 건국대학교 산학협력단 복수의 챗봇을 이용한 질의 응답 방법 및 장치
US11494884B2 (en) 2019-02-21 2022-11-08 Canon U.S.A., Inc. Method and system for evaluating image sharpness
KR102245774B1 (ko) 2019-11-06 2021-04-27 연세대학교 산학협력단 공정성 분류 네트워크를 이용한 시각 질의 응답 방법 및 장치
KR102368560B1 (ko) 2020-01-31 2022-02-25 연세대학교 산학협력단 선택적 잔여학습을 이용한 시각 질의 응답 방법 및 장치
KR102104246B1 (ko) * 2020-02-17 2020-04-24 주식회사 비에이템 화면 분할을 이용한 이미지 병렬 검색 시스템
CN111539438B (zh) * 2020-04-28 2024-01-12 北京百度网讯科技有限公司 文本内容的识别方法、装置及电子设备
US20220092105A1 (en) * 2020-09-18 2022-03-24 Google Llc Intelligent Systems and Methods for Visual Search Queries
CN112733779B (zh) * 2021-01-19 2023-04-07 三星电子(中国)研发中心 一种基于人工智能的视频海报展示方法和系统
CN112766269B (zh) * 2021-03-04 2024-03-12 深圳康佳电子科技有限公司 一种图片文本检索方法、智能终端及存储介质
US20220300550A1 (en) * 2021-03-19 2022-09-22 Google Llc Visual Search via Free-Form Visual Feature Selection
CN114969479B (zh) * 2021-04-21 2023-08-15 中移互联网有限公司 一种搜索方法、装置及存储介质
KR102392513B1 (ko) * 2021-08-09 2022-05-02 쿠팡 주식회사 검색 정보를 제공하는 전자 장치의 동작 방법 및 이를 지원하는 전자 장치
US11835995B2 (en) 2022-02-10 2023-12-05 Clarifai, Inc. Automatic unstructured knowledge cascade visual search

Family Cites Families (219)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4888690A (en) 1985-01-11 1989-12-19 Wang Laboratories, Inc. Interactive error handling means in database management
US4899292A (en) 1988-03-02 1990-02-06 Image Storage/Retrieval Systems, Inc. System for storing and retrieving text and associated graphics
CA2048306A1 (en) 1990-10-02 1992-04-03 Steven P. Miller Distributed configuration profile for computing system
US5649183A (en) 1992-12-08 1997-07-15 Microsoft Corporation Method for compressing full text indexes with document identifiers and location offsets
US5574898A (en) 1993-01-08 1996-11-12 Atria Software, Inc. Dynamic software version auditor which monitors a process to provide a list of objects that are accessed
US5544051A (en) 1993-09-17 1996-08-06 Digital Equipment Corporation Document management system using multiple threaded processes and having asynchronous repository responses and no busy cursor
JP2813728B2 (ja) 1993-11-01 1998-10-22 インターナショナル・ビジネス・マシーンズ・コーポレイション ズーム/パン機能付パーソナル通信機
US5560005A (en) 1994-02-25 1996-09-24 Actamed Corp. Methods and systems for object-based relational distributed databases
US6216138B1 (en) 1994-04-22 2001-04-10 Brooks Automation Inc. Computer interface system for automatically generating graphical representations of computer operations linked together according to functional relationships
US6029195A (en) 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US5764799A (en) 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
AU6849196A (en) 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5963940A (en) 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6026388A (en) 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5815415A (en) 1996-01-19 1998-09-29 Bentley Systems, Incorporated Computer system for portable persistent modeling
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5778378A (en) 1996-04-30 1998-07-07 International Business Machines Corporation Object oriented information retrieval framework mechanism
US6014661A (en) 1996-05-06 2000-01-11 Ivee Development Ab System and method for automatic analysis of data bases and for user-controlled dynamic querying
US6101515A (en) 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
JPH09330336A (ja) 1996-06-11 1997-12-22 Sony Corp 情報処理装置
US5870739A (en) 1996-09-20 1999-02-09 Novell, Inc. Hybrid query apparatus and method
JP3099756B2 (ja) 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
US6480194B1 (en) 1996-11-12 2002-11-12 Silicon Graphics, Inc. Computer-related method, system, and program product for controlling data visualization in external dimension(s)
US6498921B1 (en) 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5966126A (en) 1996-12-23 1999-10-12 Szabo; Andrew J. Graphic user interface for database system
US5946692A (en) 1997-05-08 1999-08-31 At & T Corp Compressed representation of a data base that permits AD HOC querying
CA2242158C (en) 1997-07-01 2004-06-01 Hitachi, Ltd. Method and apparatus for searching and displaying structured document
US5987448A (en) 1997-07-25 1999-11-16 Claritech Corporation Methodology for displaying search results using character recognition
US6188403B1 (en) 1997-11-21 2001-02-13 Portola Dimensional Systems, Inc. User-friendly graphics generator using direct manipulation
US6105030A (en) 1998-02-27 2000-08-15 Oracle Corporation Method and apparatus for copying data that resides in a database
US6173287B1 (en) 1998-03-11 2001-01-09 Digital Equipment Corporation Technique for ranking multimedia annotations of interest
US6269188B1 (en) 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US6327574B1 (en) 1998-07-07 2001-12-04 Encirq Corporation Hierarchical models of consumer attributes for targeting content in a privacy-preserving manner
US6137907A (en) 1998-09-23 2000-10-24 Xerox Corporation Method and apparatus for pixel-level override of halftone detection within classification blocks to reduce rectangular artifacts
US6529900B1 (en) 1999-01-14 2003-03-04 International Business Machines Corporation Method and apparatus for data visualization
US6377943B1 (en) 1999-01-20 2002-04-23 Oracle Corp. Initial ordering of tables for database queries
GB9903451D0 (en) 1999-02-16 1999-04-07 Hewlett Packard Co Similarity searching for documents
US6584464B1 (en) 1999-03-19 2003-06-24 Ask Jeeves, Inc. Grammar template query system
US6263328B1 (en) 1999-04-09 2001-07-17 International Business Machines Corporation Object oriented query model and process for complex heterogeneous database queries
US20030195872A1 (en) 1999-04-12 2003-10-16 Paul Senn Web-based information content analyzer and information dimension dictionary
US6304864B1 (en) 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
US6629097B1 (en) 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
JP2000331006A (ja) 1999-05-18 2000-11-30 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
US6721713B1 (en) 1999-05-27 2004-04-13 Andersen Consulting Llp Business alliance identification in a web architecture framework
EP1058236B1 (en) 1999-05-31 2007-03-07 Nippon Telegraph and Telephone Corporation Speech recognition based database query system
US6408293B1 (en) * 1999-06-09 2002-06-18 International Business Machines Corporation Interactive framework for understanding user's perception of multimedia data
US6873982B1 (en) 1999-07-16 2005-03-29 International Business Machines Corporation Ordering of database search results based on user feedback
US6341306B1 (en) 1999-08-13 2002-01-22 Atomica Corporation Web-based information retrieval responsive to displayed word identified by a text-grabbing algorithm
CA2281331A1 (en) 1999-09-03 2001-03-03 Cognos Incorporated Database management system
JP4770875B2 (ja) 1999-09-27 2011-09-14 三菱電機株式会社 画像特徴データ生成装置、画像特徴判定装置および画像検索システム
US6105020A (en) 1999-10-11 2000-08-15 International Business Machines Corporation System and method for identifying and constructing star joins for execution by bitmap ANDing
US6850896B1 (en) 1999-10-28 2005-02-01 Market-Touch Corporation Method and system for managing and providing sales data using world wide web
US6546388B1 (en) 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6606659B1 (en) 2000-01-28 2003-08-12 Websense, Inc. System and method for controlling access to internet sites
US20030120659A1 (en) 2000-03-20 2003-06-26 Sridhar Mandayam Anandampillai Systems for developing websites and methods therefor
US6643641B1 (en) 2000-04-27 2003-11-04 Russell Snyder Web search engine with graphic snapshots
US7325201B2 (en) 2000-05-18 2008-01-29 Endeca Technologies, Inc. System and method for manipulating content in a hierarchical data-driven search and navigation system
US7401131B2 (en) 2000-05-22 2008-07-15 Verizon Business Global Llc Method and system for implementing improved containers in a global ecosystem of interrelated services
US6754677B1 (en) 2000-05-30 2004-06-22 Outlooksoft Corporation Method and system for facilitating information exchange
US7328349B2 (en) 2001-12-14 2008-02-05 Bbn Technologies Corp. Hash-based systems and methods for detecting, preventing, and tracing network worms and viruses
US7640489B2 (en) 2000-08-01 2009-12-29 Sun Microsystems, Inc. Methods and systems for inputting data into spreadsheet documents
US7100083B2 (en) 2000-08-04 2006-08-29 Sun Microsystems, Inc. Checks for product knowledge management
US20030217052A1 (en) 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
AU2001284369A1 (en) 2000-08-24 2002-03-04 Olive Software Inc. System and method for automatic preparation and searching of scanned documents
WO2002019228A1 (en) 2000-09-01 2002-03-07 Togethersoft Corporation Methods and systems for improving a workflow based on data mined from plans created from the workflow
US6832218B1 (en) 2000-09-22 2004-12-14 International Business Machines Corporation System and method for associating search results
US6823084B2 (en) 2000-09-22 2004-11-23 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
US20020065815A1 (en) 2000-10-04 2002-05-30 Xcelerix, Inc. Systems and methods for searching a database
US7016532B2 (en) 2000-11-06 2006-03-21 Evryx Technologies Image capture and identification system and process
US6785688B2 (en) 2000-11-21 2004-08-31 America Online, Inc. Internet streaming media workflow architecture
US7013308B1 (en) 2000-11-28 2006-03-14 Semscript Ltd. Knowledge storage and retrieval system and method
US6781599B2 (en) 2001-01-04 2004-08-24 At&T System and method for visualizing massive multi-digraphs
JP2002223105A (ja) * 2001-01-26 2002-08-09 Sanyo Electric Co Ltd 同軸共振器、並びにこれを用いた誘電体フィルタ及び誘電体デュプレクサ
JP4077608B2 (ja) 2001-02-27 2008-04-16 株式会社エヌ・ティ・ティ・ドコモ 特徴領域抽出方法およびその装置ならびに情報提供方法およびその装置
US6748398B2 (en) * 2001-03-30 2004-06-08 Microsoft Corporation Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR)
US6920477B2 (en) 2001-04-06 2005-07-19 President And Fellows Of Harvard College Distributed, compressed Bloom filter Web cache server
US7031955B1 (en) 2001-04-27 2006-04-18 I2 Technologies Us, Inc. Optimization using a multi-dimensional data model
US6961723B2 (en) 2001-05-04 2005-11-01 Sun Microsystems, Inc. System and method for determining relevancy of query responses in a distributed network search mechanism
US7398201B2 (en) 2001-08-14 2008-07-08 Evri Inc. Method and system for enhanced data searching
US7403938B2 (en) 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US7313617B2 (en) 2001-09-28 2007-12-25 Dale Malik Methods and systems for a communications and information resource manager
JP2003150617A (ja) 2001-11-12 2003-05-23 Olympus Optical Co Ltd 画像処理装置およびプログラム
US6826572B2 (en) 2001-11-13 2004-11-30 Overture Services, Inc. System and method allowing advertisers to manage search listings in a pay for placement search system using grouping
JP3931214B2 (ja) 2001-12-17 2007-06-13 日本アイ・ビー・エム株式会社 データ解析装置およびプログラム
US6988018B2 (en) 2001-12-26 2006-01-17 Eames John D System and method for analyzing controlling forming sections of a paper machine in operation
US20030154071A1 (en) 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
US7343365B2 (en) 2002-02-20 2008-03-11 Microsoft Corporation Computer system architecture for automatic context associations
US6928436B2 (en) 2002-02-28 2005-08-09 Ilog Sa Interactive generation of graphical visualizations of large data structures
US7043521B2 (en) 2002-03-21 2006-05-09 Rockwell Electronic Commerce Technologies, Llc Search agent for searching the internet
US20040030731A1 (en) 2002-04-03 2004-02-12 Liviu Iftode System and method for accessing files in a network
US20030208665A1 (en) 2002-05-01 2003-11-06 Jih-Kwon Peir Reducing data speculation penalty with early cache hit/miss prediction
US7158983B2 (en) 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
DE10245900A1 (de) 2002-09-30 2004-04-08 Neven jun., Hartmut, Prof.Dr. Bildbasiertes Anfragesystem für Suchmaschinen für mobile Endgeräte mit eingebauter Kamera
JP2006509307A (ja) 2002-12-06 2006-03-16 アテンシティ コーポレーション 混合データ統合サービスの提供システム及び提供方法
US7181450B2 (en) 2002-12-18 2007-02-20 International Business Machines Corporation Method, system, and program for use of metadata to create multidimensional cubes in a relational database
US7278111B2 (en) 2002-12-26 2007-10-02 Yahoo! Inc. Systems and methods for selecting a date or range of dates
US7472110B2 (en) 2003-01-29 2008-12-30 Microsoft Corporation System and method for employing social networks for information discovery
US7146538B2 (en) 2003-03-28 2006-12-05 Hewlett-Packard Development Company, L.P. Bus interface module
US7111025B2 (en) 2003-04-30 2006-09-19 International Business Machines Corporation Information retrieval system and method using index ANDing for improving performance
US7853508B2 (en) 2003-05-19 2010-12-14 Serena Software, Inc. Method and system for object-oriented management of multi-dimensional data
US7926103B2 (en) 2003-06-05 2011-04-12 Hewlett-Packard Development Company, L.P. System and method for preventing replay attacks
US7836391B2 (en) 2003-06-10 2010-11-16 Google Inc. Document search engine including highlighting of confident results
US8321470B2 (en) 2003-06-20 2012-11-27 International Business Machines Corporation Heterogeneous multi-level extendable indexing for general purpose annotation systems
US9026901B2 (en) 2003-06-20 2015-05-05 International Business Machines Corporation Viewing annotations across multiple applications
US7162473B2 (en) 2003-06-26 2007-01-09 Microsoft Corporation Method and system for usage analyzer that determines user accessed sources, indexes data subsets, and associated metadata, processing implicit queries based on potential interest to users
US7274822B2 (en) * 2003-06-30 2007-09-25 Microsoft Corporation Face annotation for photo management
US7565425B2 (en) 2003-07-02 2009-07-21 Amazon Technologies, Inc. Server architecture and methods for persistently storing and serving event data
US7814093B2 (en) 2003-07-25 2010-10-12 Microsoft Corporation Method and system for building a report for execution against a data store
US7444515B2 (en) 2003-08-14 2008-10-28 Washington University Method and apparatus for detecting predefined signatures in packet payload using Bloom filters
US7174328B2 (en) 2003-09-02 2007-02-06 International Business Machines Corp. Selective path signatures for query processing over a hierarchical tagged data structure
US7409406B2 (en) 2003-09-08 2008-08-05 International Business Machines Corporation Uniform search system and method for selectively sharing distributed access-controlled documents
US20050057566A1 (en) 2003-09-11 2005-03-17 International Business Machines Corporation Rich graphic visualization generation from abstract data representation
US7236982B2 (en) 2003-09-15 2007-06-26 Pic Web Services, Inc. Computer systems and methods for platform independent presentation design
US7496560B2 (en) 2003-09-23 2009-02-24 Amazon Technologies, Inc. Personalized searchable library with highlighting capabilities
JP2005107978A (ja) 2003-09-30 2005-04-21 Nec Corp 撮影機能付き情報端末による情報検索装置、及び、情報検索方法
US7370034B2 (en) 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US7620624B2 (en) 2003-10-17 2009-11-17 Yahoo! Inc. Systems and methods for indexing content for fast and scalable retrieval
US20050083413A1 (en) 2003-10-20 2005-04-21 Logicalis Method, system, apparatus, and machine-readable medium for use in connection with a server that uses images or audio for initiating remote function calls
US7415456B2 (en) 2003-10-30 2008-08-19 Lucent Technologies Inc. Network support for caller identification based on biometric measurement
JP2005165461A (ja) 2003-11-28 2005-06-23 Nifty Corp 情報提供装置及び情報提供プログラム
US7872669B2 (en) 2004-01-22 2011-01-18 Massachusetts Institute Of Technology Photo-based mobile deixis system and related techniques
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
JP4413633B2 (ja) 2004-01-29 2010-02-10 株式会社ゼータ・ブリッジ 情報検索システム、情報検索方法、情報検索装置、情報検索プログラム、画像認識装置、画像認識方法および画像認識プログラム、ならびに、販売システム
US20050187898A1 (en) 2004-02-05 2005-08-25 Nec Laboratories America, Inc. Data Lookup architecture
US7751805B2 (en) 2004-02-20 2010-07-06 Google Inc. Mobile image-based information retrieval system
US7451185B2 (en) 2004-02-27 2008-11-11 Fotomedia Technologies, Llc Method and system for providing links to resources related to a specified resource
US20050216464A1 (en) 2004-03-27 2005-09-29 Microsoft Corporation Automated authoring tool and method to facilitate inclusion of maps and other geographical data into travelogues
US20050219929A1 (en) 2004-03-30 2005-10-06 Navas Julio C Method and apparatus achieving memory and transmission overhead reductions in a content routing network
WO2005114476A1 (en) 2004-05-13 2005-12-01 Nevengineering, Inc. Mobile image-based information retrieval system
US20050268212A1 (en) 2004-05-28 2005-12-01 Michael Dagel System, apparatus, and method for desktop-based creation and publication of a periodic community newsletter
US7685112B2 (en) 2004-06-17 2010-03-23 The Regents Of The University Of California Method and apparatus for retrieving and indexing hidden pages
US8051207B2 (en) 2004-06-25 2011-11-01 Citrix Systems, Inc. Inferring server state in s stateless communication protocol
US7493335B2 (en) 2004-07-02 2009-02-17 Graphlogic Inc. Object process graph relational database interface
US20060020582A1 (en) 2004-07-22 2006-01-26 International Business Machines Corporation Method and system for processing abstract derived entities defined in a data abstraction model
WO2006022977A2 (en) 2004-07-23 2006-03-02 Digimarc Corporation Facial database methods and systems
US7890871B2 (en) 2004-08-26 2011-02-15 Redlands Technology, Llc System and method for dynamically generating, maintaining, and growing an online social network
JP2006085379A (ja) 2004-09-15 2006-03-30 Canon Inc 情報処理装置及びその制御方法、プログラム
US8489583B2 (en) 2004-10-01 2013-07-16 Ricoh Company, Ltd. Techniques for retrieving documents using an image capture device
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US7809763B2 (en) 2004-10-15 2010-10-05 Oracle International Corporation Method(s) for updating database object metadata
US20060085386A1 (en) 2004-10-19 2006-04-20 Microsoft Corporation Two pass calculation to optimize formula calculations for a spreadsheet
WO2006043319A1 (ja) 2004-10-20 2006-04-27 Fujitsu Limited 端末及びサーバ
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
US20060149700A1 (en) 2004-11-11 2006-07-06 Gladish Randolph J System and method for automatic geospatial web network generation via metadata transformation
US7464090B2 (en) 2006-01-27 2008-12-09 Google Inc. Object categorization for information extraction
US20060150119A1 (en) 2004-12-31 2006-07-06 France Telecom Method for interacting with automated information agents using conversational queries
EP2264621A3 (en) 2004-12-31 2011-11-23 Nokia Corp. Provision of target specific information
JP4282612B2 (ja) 2005-01-19 2009-06-24 エルピーダメモリ株式会社 メモリ装置及びそのリフレッシュ方法
US20060173824A1 (en) 2005-02-01 2006-08-03 Metalincs Corporation Electronic communication analysis and visualization
JPWO2006082979A1 (ja) 2005-02-07 2008-06-26 松下電器産業株式会社 画像処理装置および画像処理方法
JP4267584B2 (ja) 2005-02-28 2009-05-27 株式会社東芝 機器制御装置及びその方法
EP1859378A2 (en) 2005-03-03 2007-11-28 Washington University Method and apparatus for performing biosequence similarity searching
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US7765231B2 (en) 2005-04-08 2010-07-27 Rathus Spencer A System and method for accessing electronic data via an image search engine
US7773822B2 (en) 2005-05-02 2010-08-10 Colormax, Inc. Apparatus and methods for management of electronic images
US7783135B2 (en) * 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
US7809192B2 (en) 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
US7760917B2 (en) 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US7945099B2 (en) * 2005-05-09 2011-05-17 Like.Com System and method for use of images with recognition analysis
US7519200B2 (en) 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
KR100754656B1 (ko) 2005-06-20 2007-09-03 삼성전자주식회사 이미지와 관련한 정보를 사용자에게 제공하는 방법 및시스템과 이를 위한 이동통신단말기
US20080005064A1 (en) 2005-06-28 2008-01-03 Yahoo! Inc. Apparatus and method for content annotation and conditional annotation retrieval in a search context
US7702681B2 (en) * 2005-06-29 2010-04-20 Microsoft Corporation Query-by-image search and retrieval system
JP2007018166A (ja) 2005-07-06 2007-01-25 Nec Corp 情報検索装置、情報検索システム、情報検索方法及び情報検索プログラム
JP2007018456A (ja) 2005-07-11 2007-01-25 Nikon Corp 情報表示装置及び情報表示方法
US20070022085A1 (en) 2005-07-22 2007-01-25 Parashuram Kulkarni Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US8666928B2 (en) 2005-08-01 2014-03-04 Evi Technologies Limited Knowledge repository
US7457825B2 (en) 2005-09-21 2008-11-25 Microsoft Corporation Generating search requests from multimodal queries
US20090060289A1 (en) 2005-09-28 2009-03-05 Alex Shah Digital Image Search System And Method
US7876978B2 (en) 2005-10-13 2011-01-25 Penthera Technologies, Inc. Regions of interest in video frames
US20070098303A1 (en) 2005-10-31 2007-05-03 Eastman Kodak Company Determining a particular person from a collection
US8849821B2 (en) 2005-11-04 2014-09-30 Nokia Corporation Scalable visual search system simplifying access to network and device functionality
US7826665B2 (en) 2005-12-12 2010-11-02 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
US7725477B2 (en) 2005-12-19 2010-05-25 Microsoft Corporation Power filter for online listing service
US7555471B2 (en) 2006-01-27 2009-06-30 Google Inc. Data object visualization
US20070179965A1 (en) 2006-01-27 2007-08-02 Hogue Andrew W Designating data objects for analysis
US8874591B2 (en) 2006-01-31 2014-10-28 Microsoft Corporation Using user feedback to improve search results
US9336333B2 (en) 2006-02-13 2016-05-10 Linkedin Corporation Searching and reference checking within social networks
US7668405B2 (en) 2006-04-07 2010-02-23 Eastman Kodak Company Forming connections between image collections
US7917514B2 (en) * 2006-06-28 2011-03-29 Microsoft Corporation Visual and multi-dimensional search
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US20080031506A1 (en) 2006-08-07 2008-02-07 Anuradha Agatheeswaran Texture analysis for mammography computer aided diagnosis
US7934156B2 (en) 2006-09-06 2011-04-26 Apple Inc. Deletion gestures on a portable multifunction device
JP2008071311A (ja) 2006-09-15 2008-03-27 Ricoh Co Ltd 画像検索装置、画像検索方法、画像検索プログラム、及び、情報記憶媒体
KR100865973B1 (ko) 2007-02-08 2008-10-30 (주)올라웍스 동영상에서 특정인을 검색하는 방법, 동영상에서 특정인에대한 저작권 보고서를 생성하는 방법 및 장치
US9058370B2 (en) 2007-02-27 2015-06-16 International Business Machines Corporation Method, system and program product for defining imports into and exports out from a database system using spread sheets by use of a control language
US8861898B2 (en) 2007-03-16 2014-10-14 Sony Corporation Content image search
CN101286092A (zh) 2007-04-11 2008-10-15 谷歌股份有限公司 具有第二语言模式的输入法编辑器
US20080267504A1 (en) * 2007-04-24 2008-10-30 Nokia Corporation Method, device and computer program product for integrating code-based and optical character recognition technologies into a mobile visual search
US7917518B2 (en) * 2007-07-20 2011-03-29 Hewlett-Packard Development Company, L.P. Compositional balance and color driven content retrieval
US9596308B2 (en) 2007-07-25 2017-03-14 Yahoo! Inc. Display of person based information including person notes
JP5207688B2 (ja) 2007-08-30 2013-06-12 キヤノン株式会社 画像処理装置および統合ドキュメント生成方法
US8145660B2 (en) 2007-10-05 2012-03-27 Fujitsu Limited Implementing an expanded search and providing expanded search results
KR101435140B1 (ko) 2007-10-16 2014-09-02 삼성전자 주식회사 영상 표시 장치 및 방법
US9237213B2 (en) 2007-11-20 2016-01-12 Yellowpages.Com Llc Methods and apparatuses to initiate telephone connections
US20090144056A1 (en) 2007-11-29 2009-06-04 Netta Aizenbud-Reshef Method and computer program product for generating recognition error correction information
KR100969298B1 (ko) 2007-12-31 2010-07-09 인하대학교 산학협력단 얼굴인식을 통한 영상에서의 사람 상호관계 추론 방법
US20090237546A1 (en) 2008-03-24 2009-09-24 Sony Ericsson Mobile Communications Ab Mobile Device with Image Recognition Processing Capability
US8190604B2 (en) 2008-04-03 2012-05-29 Microsoft Corporation User intention modeling for interactive image retrieval
US8406531B2 (en) * 2008-05-15 2013-03-26 Yahoo! Inc. Data access based on content of image recorded by a mobile device
US20090299990A1 (en) 2008-05-30 2009-12-03 Vidya Setlur Method, apparatus and computer program product for providing correlations between information from heterogenous sources
JP5109836B2 (ja) 2008-07-01 2012-12-26 株式会社ニコン 撮像装置
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US8452794B2 (en) 2009-02-11 2013-05-28 Microsoft Corporation Visual and textual query suggestion
US9135277B2 (en) 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US8670597B2 (en) 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding
US9087059B2 (en) 2009-08-07 2015-07-21 Google Inc. User interface for presenting search results for multiple regions of a visual query
US8370358B2 (en) * 2009-09-18 2013-02-05 Microsoft Corporation Tagging content with metadata pre-filtered by context
US8805079B2 (en) 2009-12-02 2014-08-12 Google Inc. Identifying matching canonical documents in response to a visual query and in accordance with geographic information
US9183224B2 (en) 2009-12-02 2015-11-10 Google Inc. Identifying matching canonical documents in response to a visual query
US9405772B2 (en) 2009-12-02 2016-08-02 Google Inc. Actionable search results for street view visual queries
US9176986B2 (en) 2009-12-02 2015-11-03 Google Inc. Generating a combination of a visual query and matching canonical document
US20110128288A1 (en) 2009-12-02 2011-06-02 David Petrou Region of Interest Selector for Visual Queries
US8811742B2 (en) 2009-12-02 2014-08-19 Google Inc. Identifying matching canonical documents consistent with visual query structural information
US8977639B2 (en) 2009-12-02 2015-03-10 Google Inc. Actionable search results for visual queries
US9852156B2 (en) 2009-12-03 2017-12-26 Google Inc. Hybrid use of location sensor data and visual query to return local listings for visual query
US8189964B2 (en) 2009-12-07 2012-05-29 Google Inc. Matching an approximately located query image against a reference image set
US8489589B2 (en) 2010-02-05 2013-07-16 Microsoft Corporation Visual search reranking

Also Published As

Publication number Publication date
AU2013205924B2 (en) 2015-12-24
KR101725885B1 (ko) 2017-04-11
CA3068761C (en) 2022-09-13
KR20160092045A (ko) 2016-08-03
US10534808B2 (en) 2020-01-14
US20190012334A1 (en) 2019-01-10
KR101667346B1 (ko) 2016-10-18
BR112012002815B8 (pt) 2020-10-06
CA2771094C (en) 2020-03-24
JP6148367B2 (ja) 2017-06-14
US9135277B2 (en) 2015-09-15
AU2010279333A1 (en) 2012-03-15
KR20120058538A (ko) 2012-06-07
US20140164406A1 (en) 2014-06-12
EP2462520A1 (en) 2012-06-13
JP5933677B2 (ja) 2016-06-15
US20110125735A1 (en) 2011-05-26
CN102625937A (zh) 2012-08-01
JP2013501975A (ja) 2013-01-17
AU2010279333B2 (en) 2013-02-21
CA2771094A1 (en) 2011-02-10
AU2013205924A1 (en) 2013-06-06
CA3068761A1 (en) 2011-02-10
JP2015064901A (ja) 2015-04-09
WO2011017557A1 (en) 2011-02-10
EP2462520B1 (en) 2014-07-02
CN102625937B (zh) 2014-02-12
JP2016139424A (ja) 2016-08-04

Similar Documents

Publication Publication Date Title
BR112012002815B1 (pt) método implementado por computador de processamento de uma consulta visual, sistema motor de busca para processamento de uma consulta visual,e, mídia de armazenamento não temporária legível por computador
CA2770186C (en) User interface for presenting search results for multiple regions of a visual query
US9183224B2 (en) Identifying matching canonical documents in response to a visual query
US9087059B2 (en) User interface for presenting search results for multiple regions of a visual query
CA2781845C (en) Actionable search results for visual queries
CA2770239C (en) Facial recognition with social network aiding
AU2011336445B2 (en) Identifying matching canonical documents in response to a visual query
US20110128288A1 (en) Region of Interest Selector for Visual Queries
AU2016200659B2 (en) Architecture for responding to a visual query

Legal Events

Date Code Title Description
B25D Requested change of name of applicant approved

Owner name: GOOGLE LLC (US)

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 05/08/2010, OBSERVADAS AS CONDICOES LEGAIS.

B16C Correction of notification of the grant [chapter 16.3 patent gazette]

Free format text: REF. RPI 2579 DE 09/06/2020 QUANTO AO QUADRO REIVINDICATORIO.