BR112012002815B1

BR112012002815B1 - método implementado por computador de processamento de uma consulta visual, sistema motor de busca para processamento de uma consulta visual,e, mídia de armazenamento não temporária legível por computador

Info

Publication number: BR112012002815B1
Application number: BR112012002815A
Authority: BR
Inventors: Petrou David
Original assignee: Google Inc; Google Llc
Priority date: 2009-08-07
Filing date: 2010-08-05
Publication date: 2020-06-09
Also published as: AU2013205924B2; KR101725885B1; CA3068761C; KR20160092045A; US10534808B2; US20190012334A1; KR101667346B1; BR112012002815B8; CA2771094C; JP6148367B2; US9135277B2; AU2010279333A1; KR20120058538A; US20140164406A1; EP2462520A1; JP5933677B2; US20110125735A1; CN102625937A; JP2013501975A; AU2010279333B2

Abstract

método implementado por computador de processamento de uma consulta visual, sistema motor de busca para processamento de uma consulta visual, e, mídia de armazenamento não temporária legível por computador uma consulta visual, tais como uma fotografia, uma captura de tela, uma imagem digitalizada, um quadro de vídeo ou uma imagem criada por uma aplicação de autoria de conteúdo, é submetida a um sistema de busca de consulta visual. o sistema de busca processa a consulta visual pelo envio desta a uma pluralidade de sistemas de busca paralelos, cada qual implementando um distinto processo de busca de consulta visual. estes sistemas de busca paralelos podem incluir, mas sem limitações, reconhecimento ótico de caractere (ocr), reconhecimento facial, reconhecimento de produto, reconhecimento de código de barras, reconhecimento de objeto ou categoria de objeto, reconhecimento de entidade nomeada e reconhecimento de cor. então, pelo menos um resultado da busca é enviado ao sistema cliente. em algumas modalidades, quando a consulta visual for uma imagem que contém um elemento textual e um elemento não textual, pelo menos um resultado da busca inclui um resultado do reconhecimento ótico de caractere para o elemento textual e pelo menos um resultado de correspondência de imagem para o elemento não textual.

Description

“MÉTODO IMPLEMENTADO POR COMPUTADOR DE PROCESSAMENTO DE UMA CONSULTA VISUAL, SISTEMA MOTOR DE BUSCA PARA PROCESSAMENTO DE UMA CONSULTA VISUAL, E, MIDI A DE ARMAZENAMENTO NÃO TEMPORÁRIA LEGÍVEL POR 5 COMPUTADOR”

CAMPO DA INVENÇÃO

As modalidades divulgadas dizem respeito, no geral, a uma arquitetura de sistema servidor que abrange uma pluralidade de sistemas de t busca paralelos para processamento de uma consulta visual.

FUNDAMENTOS DA INVENÇÃO

Uma busca com base em texto ou com base em termo, em que um usuário insere uma palavra ou frase em um motor de busca e recebe uma variedade de resultados é uma ferramenta usada para busca. Entretanto, * consultas com base em termo exigem que um usuário possa inserir um termo relevante. Algumas vezes, um usuário pode desejar conhecer informação sobre uma imagem. Por exemplo, um usuário pode desejar conhecer o nome de uma pessoa em uma fotografia, ou um usuário pode desejar conhecer o nome de uma flor ou pássaro em uma figura. Desta maneira, um sistema que pode receber uma consulta visual e prover resultados de busca será desejável.

SUMÁRIO DA INVENÇÃO

De acordo com algumas modalidades, há um método de processamento de uma consulta visual implementado em computador em um sistema servidor. Uma consulta visual é recebida a partir de um sistema cliente. A consulta visual é processada pelo envio da consulta visual a uma 25 pluralidade de sistemas de busca paralelos para processamento simultâneo. Cada um da pluralidade de sistemas de busca implementa um processo de busca de consulta visual distinto de uma pluralidade de processos de busca de consulta visual. A pluralidade de processos de busca de consulta visual inclui pelo menos: reconhecimento ótico de caractere (OCR), reconhecimento facial e um primeiro processo de consulta por imagem diferente de OCR e de reconhecimento facial. Uma pluralidade de resultados de busca é recebida a partir de um ou mais da pluralidade de sistemas de busca paralelos. Pelo menos um da pluralidade de resultados de busca é enviado ao sistema cliente.

Em algumas modalidades, o método inclui adicionalmente, quando pelo menos dois dos resultados de busca recebidos satisfizerem critérios pré-defmidos, ranquear os resultados de busca recebidos que satisfazem os critérios pré-defmidos e enviar pelo menos um resultado de busca dos resultados de busca ranqueados ao sistema cliente.

Em algumas modalidades, o primeiro processo de consulta por imagem é reconhecimento de produto, reconhecimento de código de barras, reconhecimento de objeto ou categoria de objeto, reconhecimento de entidade nomeada ou reconhecimento de cor.

Em algumas modalidades, a consulta visual é uma fotografia, uma captura de tela, uma imagem digitalizada ou um quadro de vídeo. O sistema cliente pode ser um dispositivo móvel, um dispositivo de mesa ou outro dispositivo.

Em algumas modalidades, a consulta visual é recebida a partir de uma aplicação cliente executada pelo sistema cliente, tais como uma aplicação de busca, um plug-in de motor de busca para uma aplicação de navegador ou uma extensão de motor de busca para uma aplicação de navegador. Em algumas modalidades, a consulta visual é recebida a partir de uma aplicação de autoria de conteúdo executada pelo sistema cliente.

Quando a consulta visual for uma imagem que contém um elemento textual e um elemento não textual, em algumas modalidades, o resultado de busca inclui um resultado do reconhecimento ótico de caractere para o elemento textual e pelo menos um resultado de correspondência de imagem para o elemento não textual.

Em algumas modalidades, quando a consulta visual for uma imagem que contém um elemento textual e um elemento não textual, o resultado de busca inclui um documento de resultados interativos que compreende um primeiro identificador visual para o elemento textual com uma ligação a um resultado de busca produzido por um processo de reconhecimento ótico de caractere e um segundo identificador visual para o elemento não textual com uma ligação a um resultado de busca produzido por um processo de correspondência de imagem.

Em algumas modalidades, o método inclui adicionalmente combinar pelo menos dois da pluralidade de resultados de busca em um resultado de busca composto.

De acordo com algumas modalidades, um sistema motor de busca é provido para processamento de uma consulta visual. O sistema inclui uma ou mais unidades centrais de processamento para executar programas e memória que armazena um ou mais programas a serem executados pelas uma ou mais unidades centrais de processamento. Os um ou mais programas incluem instruções para realizar o seguinte. Uma consulta visual é recebida a partir de um sistema cliente. A consulta visual é processada pelo envio da consulta visual a uma pluralidade de sistemas de busca paralelos para processamento simultâneo. Cada um da pluralidade de sistemas de busca implementa um processo de busca de consulta visual distinto de uma pluralidade de processos de busca de consulta visual. A pluralidade de processos de busca de consulta visual inclui pelo menos: reconhecimento ótico de caractere (OCR), reconhecimento facial e um primeiro processo de consulta por imagem diferente de OCR e de reconhecimento facial. Uma pluralidade de resultados de busca é recebida a partir de um ou mais da pluralidade de sistemas de busca paralelos. Pelo menos um da pluralidade de resultados de busca é enviado ao sistema cliente. Um sistema como este também pode incluir instruções de programa para executar as opções adicionais supradiscutidas.

De acordo com algumas modalidades, uma mídia de armazenamento legível por sistema de computador para processamento de uma consulta visual é provida. A mídia de armazenamento legível por computador armazena um ou mais programas configurados para execução por um computador, os um ou mais programas compreendendo instruções para realizar o seguinte. Uma consulta visual é recebida a partir de um sistema cliente. A consulta visual é processada pelo envio da consulta visual a uma pluralidade de sistemas de busca paralelos para processamento simultâneo. Cada um da pluralidade de sistemas de busca implementa um processo de busca de consulta visual distinto de uma pluralidade de processos de busca de consulta visual. A pluralidade de processos de busca de consulta visual inclui pelo menos: reconhecimento ótico de caractere (OCR), reconhecimento facial e um primeiro processo de consulta por imagem diferente de OCR e de reconhecimento facial. Uma pluralidade de resultados de busca é recebida a partir de um ou mais da pluralidade de sistemas de busca paralelos. Pelo menos um da pluralidade de resultados de busca é enviado ao sistema cliente. Uma mídia de armazenamento legível por computador como esta também pode incluir instruções de programa para executar as opções adicionais supradiscutidas.

DESCRIÇÃO RESUMIDA DOS DESENHOS

A figura 1 é um diagrama de blocos que ilustra uma rede de computador que inclui um sistema servidor de consulta visual.

A figura 2 é um fluxograma que ilustra o processo para responder a uma consulta visual de acordo com algumas modalidades.

A figura 3 é um fluxograma que ilustra o processo para responder a uma consulta visual com um documento de resultados interativos de acordo com algumas modalidades.

A figura 4 é um fluxograma que ilustra as comunicações entre um cliente e um sistema servidor de consulta visual de acordo com algumas modalidades.

A figura 5 é um diagrama de blocos que ilustra um sistema cliente de acordo com algumas modalidades.

A figura 6 é um diagrama de blocos que ilustra um sistema servidor de processamento de consulta visual em interface inicial de acordo com algumas modalidades.

A figura 7 é um diagrama de blocos que ilustra um sistema genérico dos sistemas de busca paralelos utilizados para processar uma consulta visual de acordo com algumas modalidades.

A figura 8 é um diagrama de blocos que ilustra um sistema de busca OCR utilizado para processar uma consulta visual de acordo com algumas modalidades.

A figura 9 é um diagrama de blocos que ilustra um sistema de busca de reconhecimento facial utilizado para processar uma consulta visual de acordo com algumas modalidades.

A figura 10 é um diagrama de blocos que ilustra um sistema de busca de imagem por termos utilizado para processar uma consulta visual de acordo com algumas modalidades.

A figura 11 ilustra um sistema cliente com uma captura de tela de uma consulta visual exemplar de acordo com algumas modalidades.

As figuras 12A e 12B, cada, ilustram um sistema cliente com uma captura de tela de um documento de resultados interativos com caixas de confinamento de acordo com algumas modalidades.

A figura 13 ilustra um sistema cliente com uma captura de tela de um documento de resultados interativos que é codificado por tipo de acordo com algumas modalidades.

A figura 14 ilustra um sistema cliente com uma captura de tela de um documento de resultados interativos com rótulos de acordo com algumas modalidades.

A figura 15 ilustra uma captura de tela de um documento de resultados interativos e consulta visual exibidos concorrentemente com uma lista de resultados de acordo com algumas modalidades.

Números de referência iguais dizem respeito a partes correspondentes por todos os desenhos.

DESCRIÇÃO DAS MODALIDADES

Agora, referência será feita com detalhes às modalidades, cujos exemplos são ilustrados nos desenhos anexos. Na seguinte descrição detalhada, inúmeros detalhes específicos são apresentados a fim de prover um criterioso entendimento da presente invenção. Entretanto, ficará aparente aos versados na técnica que a presente invenção pode ser praticada sem estes detalhes específicos. Em outros casos, métodos, procedimentos, componentes, circuitos, e redes bem conhecidos não foram descritos com detalhes para não obscurece desnecessariamente aspectos das modalidades.

Também entende-se que, embora os termos primeiro, segundo, etc. possam ser aqui usados para descrever vários elementos, estes elementos não devem ser limitados por estes termos. Estes termos são usados somente para distinguir um elemento de um outro. Por exemplo, um primeiro contato pode ser chamado de um segundo contato e, similarmente, um segundo contato pode ser chamado de um primeiro contato, sem fugir do escopo da presente invenção. Tanto o primeiro contato quanto o segundo contato são contatos, mas eles não são o mesmo contato.

Aqui, a terminologia usada na descrição da invenção é com o propósito somente de descrever modalidades em particular e não pretende-se que limite a invenção. Da forma usada na descrição da invenção e nas reivindicações anexas, pretende-se que as formas singulares um, uma, o e a também incluam as formas plurais, a menos que o contexto indique claramente o contrário. Também entende-se que o termo e/ou, da forma aqui usada, diz respeito e abrange todas e quaisquer possíveis combinações de um ou mais dos itens listados associados. Entende-se adicionalmente que os termos compreende e/ou compreendendo, quando usados nesta especificação, especificam a presença de recursos, números inteiros, etapas, operações, elementos e/ou componentes declarados, mas não preclui a presença ou adição de um ou mais outros recursos, números inteiros, etapas, operações, elementos, componentes e/ou grupos destes.

Da forma aqui usada, o termo se pode ser interpretado para significar quando ou mediante ou em resposta à determinação ou em resposta à detecção, dependendo do contexto. Similarmente, a frase se for determinado ou se for detectado pode ser interpretada para significar mediante determinação ou em resposta à determinação ou mediante detecção (a condição ou o evento declarados) ou em resposta à detecção (a condição ou o evento declarados), dependendo do contexto.

A figura 1 é um diagrama de blocos que ilustra uma rede de computador que inclui um sistema servidor de consulta visual de acordo com algumas modalidades. A rede de computador 100 inclui um ou mais sistemas clientes 102 e um sistema servidor de consulta visual 106. Uma ou mais redes de comunicações 104 interconectam estes componentes. A rede de comunicações 104 pode ser qualquer uma de uma variedade de redes, incluindo redes de área local (LAN), redes de área ampla (WAN), redes sem fios, redes com fios, a Internet ou uma combinação de tais redes.

O sistema cliente 102 inclui uma aplicação cliente 108, que é executada pelo sistema cliente, para receber uma consulta visual (por exemplo, consulta visual 1102 da figura 11). Uma consulta visual é uma imagem que é submetida como uma consulta a um motor de busca ou sistema de busca. Exemplos de consultas visuais incluem, sem limitações, fotografias, documentos e imagens digitalizados e desenhos. Em algumas modalidades, a aplicação cliente 108 é selecionada a partir do conjunto que consiste em uma aplicação de busca, um plug-in de motor de busca para uma aplicação de navegador e uma extensão de motor de busca para uma aplicação de navegador. Em algumas modalidades, a aplicação cliente 108 é uma caixa de busca onívora, que permite que um usuário arraste e solte qualquer formato de imagem no interior da caixa de busca para ser usado como a consulta visual.

Um sistema cliente 102 envia consultas e recebe dados a partir do sistema servidor de consulta visual 106. O sistema cliente 102 pode ser qualquer computador ou outro dispositivo que pode comunicar com o sistema servidor de consulta visual 106. Exemplos incluem, sem limitação, computadores de mesa e portáteis, computadores de grande porte, computadores servidores, dispositivos móveis, tais como telefones celulares e assistentes pessoais digitais, terminais de rede e receptores / decodificadores integrados.

O sistema servidor de consulta visual 106 inclui um servidor de processamento de consulta visual em interface inicial 110. O servidor de interface inicial 110 recebe uma consulta visual a partir do cliente 102 e envia a consulta visual a uma pluralidade de sistemas de busca paralelos 112 para processamento simultâneo. Cada um dos sistemas de busca 112 implementa um processo de busca de consulta visual distinto e acessa suas bases de dados correspondentes 114, conforme necessário, para processar a consulta visual por seu processo de busca distinto. Por exemplo, um sistema de busca de reconhecimento de face 112-A acessará uma base de dados de imagem facial 114-A para procurar correspondências faciais em relação à consulta de imagem. Como será explicado com mais detalhes em relação à figura 9, se a consulta visual contiver uma face, o sistema de busca de reconhecimento facial 112-A retomará um ou mais resultados de busca (por exemplo, nomes, faces correspondentes, etc.) a partir da base de dados de imagem facial 114-A. Em um outro exemplo, o sistema de busca por reconhecimento ótico de caractere (OCR) 112-B converte qualquer texto reconhecível na consulta visual em texto para retomo como um ou mais resultados de busca. No sistema de busca por reconhecimento ótico de caractere (OCR) 112-B, uma base de dados OCR 114-B pode ser acessada para reconhecer fontes ou padrões de texto em particular da forma explicada com mais detalhes em relação à figura 8.

Qualquer número de sistemas de busca paralelos 112 pode ser usado. Alguns exemplos incluem um sistema de busca de reconhecimento facial 112-A, um sistema de busca OCR 112-B, um sistema de busca de imagem por termos 112-C (que pode reconhecer um objeto ou uma categoria de objeto), um sistema de busca de reconhecimento de produto (que pode ser configurado para reconhecer imagens 2D, tais como capas de livro e CDs, e também pode ser configurado para reconhecer imagens 3D, tais como móveis), sistema de busca de reconhecimento de código de barras (que reconhece códigos de barras estilos ID e 2D), um sistema de busca de reconhecimento de entidade nomeada, reconhecimento de ponto de referência (que pode ser configurado para reconhecer pontos de referência famosos em particular, como a Torre Eiffel, e também pode ser configurado para reconhecer um corpo de imagens específicas, tais como painéis de propaganda), reconhecimento de local auxiliado por informação de geolocalização provida por um receptor GPS no sistema cliente 102 ou rede de telefonia celular, um sistema de busca por reconhecimento de cor e um sistema de busca de imagem similar (que busca e identifica imagens similares a uma consulta visual). Sistemas de busca adicionais podem ser adicionados como sistemas de busca paralelos adicionais representados na figura 1 pelo sistema 112-N. Aqui, todos os sistemas de busca, exceto o sistema de busca OCR, são coletivamente definidos como sistemas de busca que realizam um processo de correspondência de imagem. Todos os sistemas de busca que incluem o sistema de busca OCR são coletivamente referidos como sistemas de busca de consulta por imagem. Em algumas modalidades, o sistema servidor de consulta visual 106 inclui um sistema de busca de reconhecimento facial 112-A, um sistema de busca OCR 112-B e pelo menos um outro sistema de busca de consulta por imagem 112.

Cada um dos sistemas de busca paralelos 112 processa individualmente a consulta de busca visual e retoma seus resultados ao sistema servidor de interface inicial 110. Em algumas modalidades, o servidor de interface inicial 100 pode realizar uma ou mais análises nos resultados de busca, tais como um ou mais de: agregar os resultados em um documento composto, escolher um subconjunto dos resultados para exibição e ranquear os resultados, como será explicado com mais detalhes em relação à figura 6. O servidor de interface inicial 110 comunica os resultados de busca ao sistema cliente 102.

O sistema cliente 102 apresenta os um ou mais resultados de busca ao usuário. Os resultados podem ser apresentados em uma tela, por um alto-falante em áudio ou qualquer outro dispositivo usado para comunicar informação a um usuário. O usuário pode interagir com os resultados de busca por uma variedade de maneiras. Em algumas modalidades, as seleções, anotações e outras interações do usuário com os resultados de busca são transmitidas ao sistema servidor de consulta visual 106 e gravadas juntamente com a consulta visual em uma base de dados de consulta e anotação 116. Informação na base de dados de consulta e anotação pode ser usada para melhorar resultados da consulta visual. Em algumas modalidades, a informação proveniente da base de dados de consulta e anotação 116 é periodicamente enviada aos sistemas de busca paralelos 112, que incorporam todas as partes relevantes da informação em suas respectivas bases de dados individuais 114.

A rede de computador 100 inclui, opcionalmente, um sistema servidor de consulta por termo 118 para realizar buscas em resposta a consultas por termo. Uma consulta por termo é uma consulta que contém um ou mais termos, em oposição a uma consulta visual, que contém uma imagem. O sistema servidor de consulta por termo 118 pode ser usado para gerar resultados de busca que complementam a informação produzida pelos vários motores de busca no sistema servidor de consulta visual 106. Os resultados retomados a partir do sistema servidor de consulta por termo 118 podem incluir qualquer formato. O sistema servidor de consulta por termo 118 pode incluir documentos textuais, imagens, vídeo, etc. Embora o sistema servidor de consulta por termo 118 seja mostrado como um sistema separado na figura 1, opcionalmente, o sistema servidor de consulta visual 106 pode incluir um sistema servidor de consulta por termo 118.

Informação adicional sobre a operação do sistema servidor de consulta visual 106 é provida a seguir em relação aos fluxogramas das figuras 2-4.

A figura 2 é um fluxograma que ilustra um método do sistema servidor de consulta visual para responder a uma consulta visual de acordo com certas modalidades da invenção. Cada uma das operações mostradas na figura 2 pode corresponder às instruções armazenadas em uma memória de computador ou mídia de armazenamento legível por computador.

O sistema servidor de consulta visual recebe uma consulta visual a partir de um sistema cliente (202). O sistema cliente, por exemplo, pode ser um dispositivo de computação de mesa, um dispositivo móvel ou um outro dispositivo similar (204), da forma explicada em relação à figura 1. Uma consulta visual exemplar em um sistema cliente exemplar é mostrada na figura 11.

A consulta visual é um documento em imagem de qualquer formato adequado. Por exemplo, a consulta visual pode ser uma fotografia, uma captura de tela, uma imagem digitalizada ou um quadro ou uma sequência de múltiplos quadros de um vídeo (206). Em algumas modalidades, a consulta visual é um desenho produzido por um programa de autoria de conteúdo (736, figura 5). Como tal, em algumas modalidades, o usuário desenha a consulta visual, enquanto que, em outras modalidades, o usuário digitaliza ou fotografa a consulta visual. Algumas consultas visuais são criadas usando uma aplicação de geração de imagem, tal como Acrobat, um programa de edição de fotografia, um programa de desenho ou um programa de edição de imagem. Por exemplo, uma consulta visual pode vir de um usuário que tira uma fotografia de seu amigo em seu telefone celular e, então, submete a fotografia como a consulta visual ao sistema servidor. A consulta visual também pode vir de um usuário que digitaliza uma página de uma revista ou tira uma captura de tela de uma página da Internet em um computador de mesa e, então, submete a digitalização ou captura de tela como a consulta visual ao sistema servidor. Em algumas modalidades, a consulta visual é submetida ao sistema servidor 106 através de uma extensão de motor de busca de uma aplicação de navegador, através de um plug-in para uma aplicação de navegador ou por uma aplicação de busca executada pelo sistema cliente 102. Consultas visuais também podem ser submetidas por outros programas de aplicação (executados por um sistema cliente) que suportam ou geram imagens que podem ser transmitidas a um servidor remotamente localizado pelo sistema cliente.

A consulta visual pode ser uma combinação de elementos textuais e não textuais (208). Por exemplo, uma consulta pode ser uma digitalização de uma página de revista que contém imagens e texto, tal como uma pessoa de pé próximo a uma placa de trânsito. Uma consulta visual pode incluir uma imagem da face de uma pessoa, seja tirada por uma câmera embutida no sistema cliente ou em um documento digitalizado ou de outra forma recebido pelo sistema cliente. Uma consulta visual também pode ser uma digitalização de um documento que contém somente texto. A consulta visual também pode ser uma imagem de inúmeros sujeitos distintos, tais como diversos pássaros em uma floresta, uma pessoa e um objeto (por exemplo, carro, banco de parque, etc.), uma pessoa e um animal (por exemplo, animal doméstico, animal de fazenda, borboleta, etc.). Consultas visuais podem ter dois ou mais elementos distintos. Por exemplo, uma consulta visual pode incluir um código de barras e uma imagem de um produto ou nome de produto em uma embalagem de produto. Por exemplo, a consulta visual pode ser uma figura de uma capa de livro que inclui o título do livro, arte da capa e um código de barras. Em alguns casos, uma consulta visual produzirá dois ou mais resultados de busca distintos correspondentes a diferentes partes da consulta visual, da forma discutida com mais detalhes a seguir.

O sistema servidor processa a consulta visual, como segue. O sistema servidor de interface inicial envia a consulta visual a uma pluralidade de sistemas de busca paralelos para processamento simultâneo (210). Cada sistema de busca implementa um processo de busca de consulta visual distinto, isto é, um sistema de busca individual processa a consulta visual por seu próprio esquema de processamento.

Em algumas modalidades, um dos sistemas de busca ao qual a consulta visual é enviada para processamento é um sistema de busca por reconhecimento ótico de caractere (OCR). Em algumas modalidades, um dos sistemas de busca ao qual a consulta visual é enviada para processamento é um sistema de busca de reconhecimento facial. Em algumas modalidades, a pluralidade de sistemas de busca que executa processos de busca de consulta visual distintos inclui pelo menos: reconhecimento ótico de caractere (OCR), reconhecimento facial e um outro processo de consulta por imagem diferente de OCR e de reconhecimento facial (212). O outro processo de consulta por imagem é selecionado a partir de um conjunto de processos que inclui, mas sem limitações, reconhecimento de produto, reconhecimento de código de barras, reconhecimento de objeto ou categoria de objeto, reconhecimento de entidade nomeada e reconhecimento de cor (212).

Em algumas modalidades, reconhecimento de entidade nomeada ocorre como um pós-processo do sistema de busca OCR, em que o resultado do texto do OCR é analisado em relação a pessoas, locais e objetos famosos, e congêneres, e, então, os termos identificados como entidades nomeadas são buscados no sistema servidor de consulta por termo (118, figura 1). Em outras modalidades, imagens de pontos de referência, logotipos, pessoas, capas de álbum, marcas registradas, etc. famosos são reconhecidas por um sistema de busca de imagem por termos. Em outras modalidades, um processo de consulta por imagem de entidade nomeada distinto separado do sistema de busca de imagem por termos é utilizado. O sistema de reconhecimento de objeto ou categoria de objeto reconhece tipos de resultado genéricos, como carro. Em algumas modalidades, este sistema também reconhece marcas de produto, modelos de produto em particular e congêneres, e provê descrições mais específicas, como Porsche. Alguns dos sistemas de busca podem ser sistemas de busca específicos do usuário especiais. Por exemplo, versões em particular de reconhecimento de cor e de reconhecimento facial podem ser sistemas de busca especiais usados pelo cego.

O sistema servidor de interface inicial recebe resultados a partir dos sistemas de busca paralelos (214). Em algumas modalidades, os resultados são acompanhados por um escore de busca. Para algumas consultas visuais, alguns dos sistemas de busca não encontrarão resultados relevantes. Por exemplo, se a consulta visual era uma figura de uma flor, o sistema de busca de reconhecimento facial e o sistema de busca de código de barras não encontrarão nenhum resultado relevante. Em algumas modalidades, se nenhum resultado relevante for encontrado, um escore de busca nulo ou zero é recebido a partir deste sistema de busca (216). Em algumas modalidades, se o servidor de interface inicial não receber nenhum resultado a partir de um sistema de busca depois de um período de tempo pré-definido (por exemplo, 0,2, 0,5, 1, 2 ou 5 segundos), ele processará os resultados recebidos como se este servidor com tempo esgotado tivesse produzido um escore de busca nulo e processará os resultados recebidos a partir dos outros sistemas de busca.

Opcionalmente, quando pelo menos dois dos resultados de busca recebidos satisfizerem critérios pré-definidos, eles são ranqueados (218). Em algumas modalidades, um dos critérios pré-definidos exclui resultados vazios. Um critério pré-definido é que os resultados não são vazios. Em algumas modalidades, um dos critérios pré-definidos exclui resultados com escore numérico (por exemplo, para um fator de relevância) que cai abaixo de um escore mínimo pré-definido. Opcionalmente, a pluralidade de resultados de busca é filtrada (220). Em algumas modalidades, os resultados são filtrados somente se o número total de resultados exceder um limite prédefinido. Em algumas modalidades, todos os resultados são ranqueados, mas os resultados que caem abaixo de um escore mínimo pré-definido são excluídos. Para algumas consultas visuais, o conteúdo dos resultados é filtrado. Por exemplo, se alguns dos resultados contiverem informação privada ou informação pessoal protegida, estes resultados são eliminados por filtragem.

Opcionalmente, o sistema servidor de consulta visual cria um resultado de busca composto (222). Uma modalidade deste é quando mais de um sistema de resultado de busca for embutido em um documento de resultados interativos, da forma explicada em relação à figura 3. O sistema servidor de consulta por termo (118, figura 1) pode aumentar os resultados provenientes de um dos sistemas de busca paralelos com resultados provenientes de uma busca por termo, em que os resultados adicionais são tanto ligações a documentos ou a fontes de informação quanto texto e/ou imagens que contêm informação adicional que pode ser relevante à consulta visual. Assim, por exemplo, o resultado de busca composto pode conter um resultado de OCR e uma ligação a uma entidade nomeada no documento OCR (224).

Em algumas modalidades, o sistema de busca OCR (112-B, figura 1) ou o servidor de processamento de consulta visual em interface inicial (110, figura 1) reconhecem palavras provavelmente relevantes no texto. Por exemplo, eles podem reconhecer entidades nomeadas, tais como pessoas ou lugares famosos. As entidades nomeadas são submetidas como termos de consulta ao sistema servidor de consulta por termo (118, figura 1). Em algumas modalidades, os resultados de consulta por termo produzidos pelo sistema servidor de consulta por termo são incorporados no resultado da consulta visual como uma ligação. Em algumas modalidades, os resultados de consulta por termo são retomados como ligações separadas. Por exemplo, se uma figura de uma capa de livro foi a consulta visual, é provável que um sistema de busca por reconhecimento de objeto produza um alto acerto de escore para o livro. Como tal, uma consulta por termo para o título do livro será executada no sistema servidor de consulta por termo 118 e os resultados de consulta por termo são retomados juntamente com os resultados da consulta visual. Em algumas modalidades, os resultados de consulta por termo são apresentados em um grupo rotulado para distingui-los dos resultados da consulta visual. Os resultados podem ser buscados individualmente, ou uma busca pode ser realizada usando todas as entidades nomeadas reconhecidas na consulta de busca para produzir resultados adicionais de busca particularmente relevantes. Por exemplo, se a consulta visual for um guia de viagens digitalizado sobre Paris, o resultado retomado pode incluir ligações ao sistema servidor de consulta por termo 118 para iniciar uma busca sobre uma consulta por termo Notre Dame. Similarmente, resultados de busca compostos incluem resultados provenientes de buscas de texto para imagens famosas reconhecidas. Por exemplo, no mesmo guia de viagens, ligações dinâmicas aos resultados de consulta por termo em relação a destinos famosos mostrados como figuras no guia, como Torre Eiffel e Louvre, também podem ser mostradas (mesmo se os termos Torre Eiffel e Louvre não aparecerem no próprio guia).

Então, o sistema servidor de consulta visual envia pelo menos um resultado ao sistema cliente (226). Tipicamente, se o servidor de processamento de consulta visual receber uma pluralidade de resultados de busca a partir de pelo menos alguns da pluralidade de sistemas de busca, então, ele enviará pelo menos um da pluralidade de resultados de busca ao sistema cliente. Para algumas consultas visuais, somente um sistema de busca retomará resultados relevantes. Por exemplo, em uma consulta visual que contém somente uma imagem de texto, somente os resultados do servidor OCR podem ser relevantes. Para algumas consultas visuais, somente um resultado proveniente de um sistema de busca pode ser relevante. Por exemplo, somente o produto relacionado a um código de barras digitalizado pode ser relevante. Nestes casos, o servidor de processamento visual em interface inicial retomará somente o(s) resultado(s) de busca relevante(s). Para algumas consultas visuais, uma pluralidade de resultados de busca é enviada ao sistema cliente, e a pluralidade de resultados de busca inclui resultados de busca provenientes de mais de um dos sistemas de busca paralelos (228). Isto pode ocorrer quando mais de uma imagem distinta estiver na consulta visual. Por exemplo, se a consulta visual era uma figura de uma pessoa montando um cavalo, resultados do reconhecimento facial da pessoa podem ser exibidos juntamente com os resultados de identificação de objeto para o cavalo. Em algumas modalidades, todos os resultados para uma consulta em particular pelo sistema de busca de imagem são agrupados e apresentados juntamente. Por exemplo, os primeiros N resultados de reconhecimento facial são exibidos sob um tópico resultados de reconhecimento facial e os primeiros N resultados de reconhecimento de objeto são exibidos juntamente sob um tópico resultados de reconhecimento de objeto. Altemativamente, da forma discutida a seguir, os resultados de busca provenientes de um sistema de busca de imagem em particular podem ser agrupados por região da imagem. Por exemplo, se a consulta visual incluir duas faces, ambas as quais produzem resultados de reconhecimento facial, os resultados para cada face serão apresentados como um grupo distinto. Para algumas consultas visuais (por exemplo, uma consulta visual que inclui uma imagem tanto de texto quanto de um ou mais objetos), os resultados de busca podem incluir tanto resultados do OCR quanto um ou mais resultados de correspondência de imagem (230).

Em algumas modalidades, o usuário pode desejar aprender mais sobre um resultado de busca em particular. Por exemplo, se a consulta visual foi uma figura de um golfinho e o sistema de busca de imagem por termos retomar os seguintes termos água, golfinho, azul e Flipper, o usuário pode desejar executar uma busca por termo por consulta com base em texto sobre Flipper. Quando o usuário desejar executar uma busca sobre uma consulta por termo (por exemplo, da forma indicada pelo usuário que clica ou de outra forma seleciona uma ligação correspondente nos resultados de busca), o sistema servidor de consulta por termo (118, figura 1) é acessado, e a busca sobre o(s) termo(s) selecionado(s) é executada. Os correspondentes resultados da busca por termo são exibidos no sistema cliente tanto separadamente quanto em conjunto com os resultados da consulta visual (232). Em algumas modalidades, o servidor de processamento de consulta visual em interface inicial (110, figura 1) escolhe automaticamente (isto é, sem receber nenhum comando do usuário diferente da consulta visual inicial) um ou mais principais resultados de texto em potencial para a consulta visual, executa estes resultados de texto no sistema servidor de consulta por termo 118 e, então, retoma estes resultados de consulta por termo juntamente com o resultado da consulta visual ao sistema cliente como uma parte do envio de pelo menos um resultado de busca ao sistema cliente (232). No exemplo exposto, se Flipper foi o primeiro resultado de termo para a figura da consulta visual de um golfinho, o servidor de interface inicial executa uma consulta por termo sobre Flipper e retoma estes resultados de consulta por termo juntamente com os resultados da consulta visual ao sistema cliente. Esta modalidade, em que um resultado de termo que é considerado como provavelmente selecionado pelo usuário é automaticamente executado antes do envio dos resultados de busca da consulta visual ao usuário, economiza o tempo do usuário. Em algumas modalidades, estes resultados são exibidos como um resultado de busca composto (222), da forma explicada anteriormente. Em outras modalidades, os resultados são parte de uma lista de resultado de busca em vez de, ou além de, um resultado de busca composto.

A figura 3 é um fluxograma que ilustra o processo para responder a uma consulta visual com um documento de resultados interativos. As três primeiras operações (202, 210, 214) são supradescritas em relação à figura 2. A partir dos resultados de busca que são recebidos a partir dos sistemas de busca paralelos (214), um documento de resultados interativos é criado (302).

A criação do documento de resultados interativos (302) será agora descrita com detalhes. Para algumas consultas visuais, o documento de resultados interativos inclui um ou mais identificadores visuais das respectivas subpartes da consulta visual. Cada identificador visual tem pelo menos uma ligação selecionável pelo usuário a pelo menos um dos resultados de busca. Um identificador visual identifica uma respectiva subparte da consulta visual. Para algumas consultas visuais, o documento de resultados interativos tem somente um identificador visual com uma ligação selecionável pelo usuário a um ou mais resultados. Em algumas modalidades, uma respectiva ligação selecionável pelo usuário a um ou mais dos resultados de busca tem uma região de ativação, e a região de ativação corresponde à subparte da consulta visual que é associada com um identificador visual correspondente.

Em algumas modalidades, o identificador visual é uma caixa de confínamento (304). Em algumas modalidades, a caixa de confinamento confina uma subparte da consulta visual, da forma mostrada na figura 12A. A caixa de confinamento não precisa ser uma caixa de forma quadrada ou retangular, mas pode ter qualquer tipo de forma, incluindo circular, oval, conformai (por exemplo, em relação a um objeto, entidade ou região da consulta visual), irregular ou qualquer outra forma, da forma mostrada na figura 12B. Para algumas consultas visuais, a caixa de confinamento delineia o limite de uma entidade identificável em uma subparte da consulta visual (306) . Em algumas modalidades, cada caixa de confinamento inclui uma ligação selecionável pelo usuário a um ou mais resultados de busca, em que a ligação selecionável pelo usuário tem uma região de ativação correspondente a uma subparte da consulta visual circundada pela caixa de confinamento. Quando o espaço no interior da caixa de confinamento (a região de ativação da ligação selecionável pelo usuário) for selecionado pelo usuário, resultados de busca que correspondem à imagem na subparte delineada são retomados.

Em algumas modalidades, o identificador visual é um rótulo (307) , da forma mostrada na figura 14. Em algumas modalidades, o rótulo inclui pelo menos um termo associado com a imagem na respectiva subparte da consulta visual. Cada rótulo é formatado para apresentação no documento de resultados interativos na respectiva subparte, ou próximo dela. Em algumas modalidades, os rótulos são codificados por cor.

Em algumas modalidades, cada um dos respectivos identificadores visuais é formatado para apresentação de uma maneira visualmente distintiva de acordo com um tipo de entidade reconhecida na respectiva subparte da consulta visual. Por exemplo, da forma mostrada na figura 13, cada uma das caixas de confinamento ao redor de um produto, uma pessoa, uma marca registrada e das duas áreas textuais são apresentadas com padrões de hachurado distintos, representando caixas de confinamento transparentes diferentemente coloridas. Em algumas modalidades, os identificadores visuais são formatados para apresentação de maneiras visualmente distintivas, tais como cor de sobreposição, padrão de sobreposição, cor de fundo do rótulo, padrão de fundo do rótulo, cor da fonte do rótulo e cor de borda.

Em algumas modalidades, a ligação selecionável pelo usuário no documento de resultados interativos é uma ligação a um documento ou objeto que contém um ou mais resultados relacionados à correspondente subparte da consulta visual (308). Em algumas modalidades, pelo menos um resultado de busca inclui dados relacionados à correspondente subparte da consulta visual. Como tal, quando o usuário selecionar a ligação selecionável associada com a respectiva subparte, o usuário é direcionado aos resultados de busca correspondentes à entidade reconhecida na respectiva subparte da consulta visual.

Por exemplo, se uma consulta visual era uma fotografia de um código de barras, pode haver partes da fotografia que são partes irrelevantes da embalagem sobre a qual o código de barras estava afixado. O documento de resultados interativos pode incluir uma caixa de confinamento ao redor somente do código de barras. Quando o usuário selecionar o interior da caixa de confinamento do código de barras delineada, o resultado de busca do código de barras é exibido. O resultado de busca do código de barras pode incluir um resultado, o nome do produto correspondente a este código de barras, ou os resultados do código de barras podem incluir diversos resultados, tais como uma variedade de locais nos quais este produto pode ser adquirido, analisado, etc.

Em algumas modalidades, quando a subparte da consulta visual correspondente a um respectivo identificador visual contiver texto que compreende um ou mais termos, os resultados de busca correspondentes ao respectivo identificador visual incluem resultados de uma busca de consulta por termo sobre pelo menos um dos termos do texto. Em algumas modalidades, quando a subparte da consulta visual correspondente a um respectivo identificador visual contiver a face de uma pessoa para a qual foi encontrada pelo menos uma correspondência (isto é, resultado de busca) que satisfaz critérios de confiabilidade (ou outros) pré-definidos, os resultados de busca correspondentes ao respectivo identificador visual incluem um ou mais de: nome, identificador, informação de contato, informação de conta, informação de endereço, local atual de um dispositivo móvel relacionado associado com a pessoa cuja face está contida na subparte selecionável, outras imagens da pessoa cuja face está contida na subparte selecionável e potenciais correspondências de imagem para a face da pessoa. Em algumas modalidades, quando a subparte da consulta visual correspondente a um respectivo identificador visual contiver um produto para o qual foi encontrada pelo menos uma correspondência (isto é, resultado de busca) que satisfaz critérios de confiabilidade (ou outros) pré-definidos, os resultados de busca correspondentes ao respectivo identificador visual incluem um ou mais de: informação do produto, uma avaliação do produto, uma opção para iniciar a aquisição do produto, uma opção para iniciar uma oferta ao produto, uma lista de produtos similares e uma lista de produtos relacionados.

Opcionalmente, uma respectiva ligação selecionável pelo usuário no documento de resultados interativos inclui texto de âncora, que é exibido no documento sem precisar ativar a ligação. O texto de âncora provê informação, tais como uma palavra ou termo chaves, relacionada à informação obtida quando a ligação está ativada. Texto de âncora pode ser exibido como parte do rótulo (307), em uma parte de uma caixa de confinamento (304) ou como informação adicional exibida quando um usuário pairar um cursor sobre uma ligação selecionável pelo usuário por um período de tempo pré-determinado, tal como 1 segundo.

Opcionalmente, uma respectiva ligação selecionável pelo usuário no documento de resultados interativos é uma ligação a um motor de busca para buscar informação ou documentos correspondentes a uma consulta com base em texto (algumas vezes aqui chamada de uma consulta por termo). A ativação da ligação ocasiona a execução da busca pelo motor de busca, em que a consulta e o motor de busca são especificados pela ligação (por exemplo, o motor de busca é especificado por uma URL na ligação e a consulta de busca com base em texto é especificada por um parâmetro de URL da ligação), com resultados retomados ao sistema cliente. Opcionalmente, a ligação neste exemplo pode incluir texto de âncora que especifica o texto ou os termos na consulta de busca.

Em algumas modalidades, o documento de resultados interativos produzido em resposta a uma consulta visual pode incluir uma pluralidade de ligações que correspondem os resultados provenientes do mesmo sistema de busca. Por exemplo, uma consulta visual pode ser uma imagem ou figura de um grupo de pessoas. O documento de resultados interativos pode incluir caixas de confinamento ao redor de cada pessoa que, quando ativadas retomam resultados provenientes do sistema de busca de reconhecimento facial para cada face no grupo. Para algumas consultas visuais, uma pluralidade de ligações no documento de resultados interativos corresponde aos resultados de busca provenientes de mais de um sistema de busca (310). Por exemplo, se uma figura de uma pessoa e um cão foi submetida como a consulta visual, caixas de confinamento no documento de resultados interativos podem delinear a pessoa e o cão separadamente. Quando a pessoa (no documento de resultados interativos) for selecionada, resultados de busca provenientes do sistema de busca de reconhecimento facial são retomados e, quando o cão (no documento de resultados interativos) for selecionado, resultados provenientes do sistema de busca de imagem por termos são retomados. Para algumas consultas visuais, o documento de resultados interativos contém um resultado de OCR e um resultado de correspondência de imagem (312). Por exemplo, se uma figura de uma pessoa em pé próximo de uma placa foi submetida como uma consulta visual, o documento de resultados interativos pode incluir identificadores visuais para a pessoa e para o texto na placa. Similarmente, se uma digitalização de uma revista foi usada como a consulta visual, o documento de resultados interativos pode incluir identificadores visuais para fotografias ou marcas registradas em anúncios na página, bem como um identificador visual para o texto de um artigo também nesta página.

Depois que o documento de resultados interativos foi criado, ele é enviado ao sistema cliente (314). Em algumas modalidades, o documento de resultados interativos (por exemplo, documento 1200, figura 15) é enviado em conjunto com uma lista de resultados de busca proveniente de um ou mais sistemas de busca paralelos, da forma supradiscutida em relação à figura 2. Em algumas modalidades, o documento de resultados interativos é exibido no sistema cliente acima ou de outra forma adjacente a uma lista de resultados de busca proveniente de um ou mais sistemas de busca paralelos (315), da forma mostrada na figura 15.

Opcionalmente, o usuário interagirá com o documento de resultados pela Seleção de um identificador visual no documento de resultados. O sistema servidor recebe, a partir do sistema cliente, informação em relação à Seleção do usuário de um identificador visual no documento de resultados interativos (316). Da forma supradiscutida, em algumas modalidades, a ligação é ativada pela Seleção de uma região de ativação no interior de uma caixa de confinamento. Em outras modalidades, a ligação é ativada por uma Seleção do usuário de um identificador visual de uma subparte da consulta visual, que não é uma caixa de confinamento. Em algumas modalidades, o identificador visual ligado é um botão rápido, um rótulo localizado próximo da subparte, uma palavra sublinhada no texto ou outra representação de um objeto ou sujeito na consulta visual.

Em modalidades em que a lista de resultados de busca é apresentada com o documento de resultados interativos (315), quando o usuário selecionar uma ligação selecionável pelo usuário (316), o resultado de busca na lista de resultados de busca correspondente à ligação selecionada é identificado. Em algumas modalidades, o cursor saltará ou se moverá automaticamente para o primeiro resultado correspondente à ligação selecionada. Em algumas modalidades nas quais a tela do cliente 102 é muito pequena para exibir tanto o documento de resultados interativos quanto a íntegra da lista de resultados de busca, a Seleção de uma ligação no documento de resultados interativos faz com que a lista de resultados de busca role ou salte para exibir pelo menos um primeiro resultado correspondente à ligação selecionada. Em algumas outras modalidades, em resposta à Seleção do usuário de uma ligação no documento de resultados interativos, a lista de resultados é reordenada de maneira tal que o primeiro resultado correspondente à ligação seja exibido no topo da lista de resultados.

Em algumas modalidades, quando o usuário selecionar a ligação selecionável pelo usuário (316), o sistema servidor de consulta visual envia pelo menos um subconjunto dos resultados, relacionado a uma correspondente subparte da consulta visual, ao cliente para exibição ao usuário (318). Em algumas modalidades, o usuário pode selecionar múltiplos identificadores visuais concorrentemente e receberá um subconjunto dos resultados para todos os identificadores visuais selecionados ao mesmo tempo. Em outras modalidades, resultados de busca correspondentes às ligações selecionáveis pelo usuário são pré-carregados sobre o cliente antes da Seleção pelo usuário de qualquer uma das ligações selecionáveis pelo usuário para prover resultados de busca ao usuário de forma virtualmente instantânea em resposta à Seleção pelo usuário de uma ou mais ligações no documento de resultados interativos.

A figura 4 é um fluxograma que ilustra as comunicações entre um cliente e um sistema servidor de consulta visual. O cliente 102 recebe uma consulta visual a partir de um usuário / consultante (402). Em algumas modalidades, consultas visuais somente podem ser aceitas a partir de usuários que assinaram ou aderiram ao sistema de consulta visual. Em algumas modalidades, buscas por correspondências de reconhecimento facial são realizadas somente para usuários que assinaram o sistema de consulta visual de reconhecimento facial, enquanto outros tipos de consultas visuais são realizados para qualquer um, independente se eles aderiram à parte de reconhecimento facial.

Como exposto, o formato da consulta visual pode tomar muitas formas. Provavelmente, a consulta visual conterá um ou mais sujeitos localizados em subpartes do documento de consulta visual. Para algumas consultas visuais, o sistema cliente 102 realiza pré-processamento de reconhecimento de tipo na consulta visual (404). Em algumas modalidades, o sistema cliente 102 busca padrões reconhecíveis em particular neste sistema de pré-processamento. Por exemplo, para algumas consultas visuais, o cliente pode reconhecer cores. Para algumas consultas visuais, o cliente pode reconhecer que é provável que uma subparte em particular contenha texto (em virtude de esta área ser constituída por pequenos caracteres escuros circundados por espaço de luz, etc.) O cliente pode conter qualquer número de pré-processamentos de reconhecimento de tipo ou de módulos de reconhecimento de tipo. Em algumas modalidades, o cliente terá um módulo de reconhecimento de tipo (reconhecimento de código de barras 406) para reconhecer códigos de barras. Ele pode fazê-lo pelo reconhecimento do padrão listrado distintivo em uma área retangular. Em algumas modalidades, o cliente terá um módulo de reconhecimento de tipo (detecção de face 408) para reconhecer que é provável que um sujeito ou subparte da consulta visual em particular contenha uma face.

Em algumas modalidades, o tipo reconhecido é retomado ao usuário para verificação. Por exemplo, o sistema cliente 102 pode retomar uma mensagem que declara que um código de barras foi encontrado em sua consulta visual, você está interessado em receber resultados da consulta de código de barras?. Em algumas modalidades, a mensagem ainda pode indicar a subparte da consulta visual onde o tipo foi encontrado. Em algumas modalidades, esta apresentação é similar ao documento de resultados interativos discutido em relação à figura 3. Por exemplo, ela pode delinear uma subparte da consulta visual e indicar que é provável que a subparte contenha uma face, e perguntar ao usuário se ele está interessado em receber resultados de reconhecimento facial.

Depois que o cliente 102 realizar o pré-processamento opcional da consulta visual, o cliente envia a consulta visual ao sistema servidor de consulta visual 106, especificamente, ao servidor de processamento de consulta visual em interface inicial 110. Em algumas modalidades, se o pré-processamento produziu resultados relevantes, isto é, se um dos módulos de reconhecimento de tipo produziu resultados acima de um certo limite, indicando que é provável que a consulta ou uma subparte da consulta sejam de um tipo em particular (face, texto, código de barras etc.), o cliente transferirá informação em relação aos resultados do préprocessamento. Por exemplo, o cliente pode indicar que o módulo de reconhecimento de face tem 75 % de certeza que uma subparte em particular da consulta visual contém uma face. Mais no geral, os resultados de préprocessamento, se houver, incluem um ou mais valores de tipo do sujeito (por exemplo, código de barras, face, texto, etc.). Opcionalmente, os resultados de pré-processamento enviados ao sistema servidor de consulta visual incluem um ou mais de: para cada valor de tipo de sujeito nos resultados de préprocessamento, informação que identifica uma subparte da consulta visual correspondente ao valor de tipo de sujeito e, para cada valor de tipo de sujeito nos resultados de pré-processamento, um valor de confiança que indica um nível de confiança no valor de tipo de sujeito e/ou a identificação de uma correspondente subparte da consulta visual.

O servidor de interface inicial 110 recebe a consulta visual a partir do sistema cliente (202). A consulta visual recebida pode conter a informação de pré-processamento supradiscutida. Como exposto, o servidor de interface inicial envia a consulta visual a uma pluralidade de sistemas de busca paralelos (210). Se o servidor de interface inicial 110 recebeu informação de pré-processamento em relação à probabilidade de que uma subparte continha um sujeito de um certo tipo, o servidor de interface inicial pode transferir esta informação a um ou mais dos sistemas de busca paralelos. Por exemplo, ele pode transferir a informação de que é provável que uma subparte em particular seja uma face, de forma que o sistema de busca de reconhecimento facial 112-A possa processar primeiro esta subseção da consulta visual. Similarmente, o envio da mesma informação (que é provável que uma subparte em particular seja uma face) pode ser usado pelos outros sistemas de busca paralelos para ignorar esta subparte ou analisar outras subpartes primeiro. Em algumas modalidades, o servidor de interface inicial não transferirá a informação de pré-processamento aos sistemas de busca paralelos, mas, em vez disto, usará esta informação para aumentar a maneira na qual ele processa os resultados recebidos a partir dos sistemas de busca paralelos.

Da forma explicada em relação à figura 2, para algumas consultas visuais, o servidor de interface inicial 110 recebe uma pluralidade de resultados de busca a partir dos sistemas de busca paralelos (214). Então, o servidor de interface inicial pode realizar uma variedade de ranqueamento e filtragem e pode criar um documento do resultado de busca interativo, da forma explicada em relação às figuras 2 e 3. Se o servidor de interface inicial 110 recebeu informação de pré-processamento em relação à probabilidade de que uma subparte continha um sujeito de um certo tipo, ele pode filtrar e ordenar, dando preferência àqueles resultados que correspondem ao tipo de sujeito reconhecido pré-processado. Se o usuário indicou que um tipo de resultado em particular foi solicitado, o servidor de interface inicial levará as solicitações do usuário em consideração durante o processamento dos resultados. Por exemplo, o servidor de interface inicial pode eliminar por filtragem todos os outros resultados se o usuário solicitou somente informação de código de barras, ou o servidor de interface inicial listará todos os resultados que dizem respeito ao tipo solicitado antes da listagem dos outros resultados. Se um documento de consulta visual interativo for retomado, o servidor pode pré-buscar as ligações associadas com o tipo de resultado ao qual o usuário indicou interesse, embora somente provendo ligações para realizar buscas relacionadas a outros sujeitos indicados no documento de resultados interativos. Então, o servidor de interface inicial 110 envia os resultados de busca ao sistema cliente (226).

O cliente 102 recebe os resultados a partir do sistema servidor (412). Quando aplicável, estes resultados incluirão os resultados que correspondem ao tipo de resultado encontrado no estágio de préprocessamento. Por exemplo, em algumas modalidades, eles incluirão um ou mais resultados do código de barras (414) ou um ou mais resultados de reconhecimento facial (416). Se os módulos de pré-processamento do cliente tiverem indicado que um tipo de resultado em particular era provável, e este resultado foi encontrado, os resultados encontrados deste tipo serão listados proeminentemente.

Opcionalmente, o usuário selecionará ou anotará um ou mais dos resultados (418). O usuário pode selecionar um resultado de busca, pode selecionar um tipo de resultado de busca em particular e/ou pode selecionar uma parte de um documento de resultados interativos (420). A seleção de um resultado é realimentação implícita de que o resultado retomado foi relevante para a consulta. Tal informação de realimentação pode ser utilizada em futuras operações de processamento de consulta. Uma anotação provê realimentação explícita sobre o resultado retomado que também pode ser utilizada em futuras operações de processamento de consulta. Anotações tomam a forma de correções de partes do resultado retomado (como uma correção de uma palavra mal reconhecida por OCR) ou de uma anotação separada (tanto em forma livre quanto estruturada).

A seleção do usuário de um resultado de busca, no geral, selecionando o resultado correto a partir de diversos do mesmo tipo (por exemplo, escolher o correto resultado a partir de um servidor de reconhecimento facial), é um processo que é referido como uma seleção entre interpretações. A seleção pelo usuário de um tipo de resultado de busca em particular, no geral, seleção do resultado tipo de interesse a partir de diversos diferentes tipos de resultados retomados (por exemplo, escolher o texto reconhecido por OCR de um artigo em uma revista em vez de, também, os resultados visuais para os anúncios na mesma página), é um processo que é referido como desambiguação de intenção. Um usuário pode selecionar similarmente palavras ligadas em particular (tais como entidades nomeadas reconhecidas) em um documento reconhecido por OCR, da forma explicada com detalhes em relação à figura 8.

O usuário pode desejar alternativa ou adicionalmente anotar resultados de busca em particular. Esta anotação pode ser feita em estilo de forma livre ou em um formato estruturado (422). As anotações podem ser descrições do resultado ou podem ser análises do resultado. Por exemplo, elas podem indicar o nome do(s) sujeito(s) no resultado ou elas podem indicar este é um bom livro ou este produto quebrou em um ano a partir da compra. Um outro exemplo de uma anotação é uma caixa de confinamento desenhada pelo usuário ao redor de uma subparte da consulta visual e texto provido pelo usuário que identificam o objeto ou sujeito no interior da caixa de confinamento. Anotações de usuário são explicadas com mais detalhes em relação à figura 5.

As seleções de usuário dos resultados de busca e outras anotações são enviadas ao sistema servidor (424). O servidor de interface inicial 110 recebe as seleções e anotações e as processa adicionalmente (426). Se a informação foi uma seleção de um objeto, sub-região ou termo em um documento de resultados interativos, informação adicional em relação a esta seleção pode ser solicitada, conforme apropriado. Por exemplo, se a seleção foi de um resultado visual, mais informação sobre este resultado visual será solicitada. Se a seleção foi uma palavra (tanto a partir do servidor OCR quanto a partir do servidor de imagem por termos), uma busca textual desta palavra será enviada ao sistema servidor de consulta por termo 118. Se a seleção foi de uma pessoa a partir de um sistema de busca por reconhecimento de imagem facial, perfil desta pessoa será solicitado. Se a seleção foi de uma parte em particular de um documento do resultado de busca interativo, os resultados inerentes da consulta visual serão solicitados.

Se o sistema servidor receber uma anotação, a anotação é armazenada em uma base de dados de consulta e anotação 116 explicada em relação à figura 5. Então, a informação proveniente da base de dados de anotação 116 é periodicamente copiada para bases de dados de anotação individuais para um ou mais dos sistemas servidores paralelos, da forma discutida a seguir em relação às figuras 7-10.

A figura 5 é um diagrama de blocos que ilustra um sistema cliente 102 de acordo com uma modalidade da presente invenção. Tipicamente, o sistema cliente 102 inclui uma ou mais unidades de processamento (CPUs) 702, uma ou mais redes ou outras interfaces de comunicações 704, memória 712 e um ou mais barramentos de comunicação 714 para interconectar estes componentes. O sistema cliente 102 inclui uma interface de usuário 705. A interface de usuário 705 inclui um dispositivo de exibição 706 e, opcionalmente, inclui um dispositivo de entrada, tais como um teclado, mouse ou outros botões de entrada 708. Altemativamente, ou além do mais, o dispositivo de exibição 706 inclui uma superfície sensível ao toque 709, em cujo caso a tela 706 / 709 é uma tela sensível ao toque. Em sistemas clientes que têm uma tela sensível ao toque 706 / 709, um teclado físico é opcional (por exemplo, um teclado em software pode ser exibido quando entrada no teclado for necessária). Além do mais, alguns sistemas clientes usam um microfone e reconhecimento de voz para complementar ou substituir o teclado. Opcionalmente, o cliente 102 inclui um receptor GPS (satélite de posicionamento global) ou outro aparelho de detecção de local 707 para determinar o local do sistema cliente 102. Em algumas modalidades, são providos serviços de busca de consulta visual que exigem que o sistema cliente 102 proveja o sistema servidor de consulta visual para receber informação de local que indica o local do sistema cliente 102.

O sistema cliente 102 também inclui um dispositivo de captura de imagem 710, tais como uma câmera ou digitalizador. A memória 712 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outros dispositivos de armazenamento não voláteis em sólido estado. A memória 712 pode incluir opcionalmente um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 702. A memória 712 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis) na memória 712 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 712 ou a mídia de armazenamento legível por computador da memória 712 armazena os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:

• um sistema operacional 716 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 718 que é usado para conectar o sistema cliente 102 em outros computadores por meio de uma ou mais interfaces de comunicação em rede 704 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;

• um módulo de captura de imagem 720 para processamento de uma respectiva imagem capturada pelo dispositivo / câmera de captura de imagem 710, em que a respectiva imagem pode ser enviada (por exemplo, por um módulo de aplicação cliente) como uma consulta visual ao sistema servidor de consulta visual;

• um ou mais módulos de aplicação cliente 722 para tratar vários aspectos de consulta por imagem, incluindo, mas sem limitações: um módulo de submissão de consulta por imagem 724 para submeter consultas visuais ao sistema servidor de consulta visual; opcionalmente, um módulo de seleção de região de interesse 725 que detecta uma seleção (tal como um gesto na tela sensível ao toque 706 / 709) de uma região de interesse em uma imagem e prepara esta região de interesse como uma consulta visual; um navegador de resultados 726 para exibir os resultados da consulta visual; e, opcionalmente, um módulo de anotação 728 com módulos opcionais para entrada de texto de anotação estruturada 730, tais como preenchimento em um formulário ou para entrada de texto de anotação em forma livre 732, que pode aceitar anotações a partir de uma variedade de formatos, e um módulo de seleção da região da imagem 734 (algumas vezes aqui referido como módulo de seleção de resultado) que permite que um usuário selecione uma subparte em particular de uma imagem para anotação;

• um(as) aplicação(ões) de autoria de conteúdo opcional(is) 736 que permite que um usuário seja autor de uma consulta visual pela criação ou edição de uma imagem em vez de somente capturar uma por meio do dispositivo de captura de imagem 710; opcionalmente, uma ou mais aplicações 736 podem incluir instruções que habilitam um usuário a selecionar uma subparte de uma imagem para uso como uma consulta visual;

• um módulo de análise de imagem local opcional 738 que préprocessa a consulta visual antes de enviá-la ao sistema servidor de consulta visual. A análise de imagem local pode reconhecer tipos de imagens em particular, ou sub-regiões em uma imagem. Exemplos de tipos de imagem que podem ser reconhecidos por tais módulos 738 incluem um ou mais de: tipo facial (imagem facial reconhecida em consulta visual), tipo de código de barras (código de barras reconhecido na consulta visual) e tipo de texto (texto reconhecido na consulta visual); e • aplicações clientes opcionais adicionais 740, tais como uma aplicação de correio eletrônico, uma aplicação de telefone, uma aplicação de navegador, uma aplicação de mapeamento, aplicação de mensagens instantâneas, aplicação de rede social, etc. Em algumas modalidades, a aplicação correspondente a um resultado de busca acionável apropriado pode ser iniciada ou acessada quando o resultado de busca acionável for selecionado.

Opcionalmente, o módulo de seleção da região da imagem 734 que permite que um usuário selecione uma subparte em particular de uma imagem para anotação também permite que o usuário escolha um resultado de busca como um acerto correto sem, necessariamente, anotá-lo adicionalmente. Por exemplo, pode-se apresentar ao usuário as N primeiras correspondências de reconhecimento facial e o usuário pode escolher a pessoa correta a partir desta lista de resultados. Para algumas consultas de busca, mais de um tipo de resultado será apresentado e o usuário escolherá um tipo de resultado. Por exemplo, a consulta de imagem pode incluir uma pessoa em pé próximo a uma árvore, mas somente os resultados em relação à pessoa são de interesse ao usuário. Portanto, o módulo de seleção de imagem 734 permite que o usuário indique qual tipo de imagem é o tipo correto, isto é, o tipo que ele está interessado em receber. O usuário também pode desejar anotar o resultado de busca pela adição de comentários pessoais ou palavras descritivas usando tanto o módulo de entrada de texto de anotação 730 (para preencher um formulário) quanto o módulo de entrada de texto de anotação em forma livre 732.

Em algumas modalidades, o módulo de análise de imagem local opcional 738 é uma parte da aplicação cliente (108, figura 1). Além do mais, em algumas modalidades, o módulo de análise de imagem local opcional 738 inclui um ou mais programas para realizar análise de imagem local para pré-processar ou categorizar a consulta visual ou uma parte desta. Por exemplo, a aplicação cliente 722 pode reconhecer que a imagem contém um código de barras, uma face ou texto, antes de submeter a consulta visual a um motor de busca. Em algumas modalidades, quando o módulo de análise de imagem local 738 detectar que a consulta visual contém um tipo de imagem em particular, o módulo pergunta ao usuário se ele está interessado em um tipo de resultado de busca correspondente. Por exemplo, o módulo de análise de imagem local 738 pode detectar uma face com base em suas características gerais (isto é, sem determinar qual face da pessoa) e prover realimentação imediata ao usuário antes do envio da consulta ao sistema servidor de consulta visual. Ele pode retomar um resultado como, Uma face foi detectada, você está interessado em receber correspondências de reconhecimento facial para esta face?. Isto pode economizar tempo para o sistema servidor de consulta visual (106, figura 1). Para algumas consultas visuais, o servidor de processamento de consulta visual em interface inicial (110, figura 1) somente envia a consulta visual ao sistema de busca 112 correspondente ao tipo de imagem reconhecido pelo módulo de análise de imagem local 738. Em outras modalidades, a consulta visual no sistema de busca 112 pode enviar a consulta visual a todos os sistemas de busca 112A-N, mas ranqueará resultados do sistema de busca 112 correspondentes ao tipo de imagem reconhecido pelo módulo de análise de imagem local 738. Em algumas modalidades, a maneira na qual a análise de imagem local impacta na operação do sistema servidor de consulta visual depende da configuração do sistema cliente, ou dos parâmetros de configuração ou de processamento associados tanto com o usuário quanto com o sistema cliente. Além do mais, o conteúdo real de qualquer consulta visual em particular e os resultados produzidos pela análise de imagem local podem fazer com que diferentes consultas visuais sejam tratadas diferentemente tanto no sistema cliente quanto no sistema servidor de consulta visual.

Em algumas modalidades, o reconhecimento de código de barras é realizado em duas etapas, com a análise se a consulta visual inclui um código de barras realizada no sistema cliente no módulo de análise de imagem local 738. Então, a consulta visual é passada a um sistema de busca de código de barras somente se o cliente determinar que é provável que a consulta visual inclui um código de barras. Em outras modalidades, o sistema de busca de código de barras processa cada consulta visual.

Opcionalmente, o sistema cliente 102 inclui aplicações clientes adicionais 740.

A figura 6 é um diagrama de blocos que ilustra um sistema servidor de processamento de consulta visual em interface inicial 110 de acordo com uma modalidade da presente invenção. Tipicamente, o servidor de interface inicial 110 inclui uma ou mais unidades de processamento (CPUs) 802, uma ou mais interfaces de rede ou outras interfaces de comunicações 804, memória 812 e um ou mais barramentos de comunicação 814 para interconectar estes componentes. A memória 812 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outro dispositivos de armazenamento não voláteis em sólido estado. A memória 812 pode incluir, opcionalmente, um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 802. A memória 812 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis)(eis) na memória 812 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 812 ou a mídia de armazenamento legível por computador da memória 812 armazenam os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:

• um sistema operacional 816 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 818 que é usado para conectar o sistema servidor de interface inicial 110 em outros computadores por meio de uma ou mais interfaces de comunicação em rede 804 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;

• um gerenciador de consulta 820 para tratar as consultas visuais de entrada provenientes do sistema cliente 102 e enviá-las a dois ou mais sistemas de busca paralelos; da forma descrita em outro local deste documento, em algumas situações especiais, uma consulta visual pode ser direcionada a somente um dos sistemas de busca, tal como quando a consulta visual incluir uma instrução gerada por cliente (por exemplo, somente busca de reconhecimento facial);

• um módulo de filtragem de resultados 822 para filtrar opcionalmente os resultados provenientes dos um ou mais sistemas de busca paralelos e enviar os principais resultados ou resultados relevantes ao sistema cliente 102 para apresentação;

• um módulo de ranqueamento e formatação de resultados 824 para ranquear opcionalmente os resultados provenientes dos um ou mais sistemas de busca paralelos e para formatar os resultados para apresentação;

• um módulo de criação do documento de resultados 826 é usado, quando apropriado, para criar um documento de resultados de busca interativos; o módulo 826 pode incluir submódulos, incluindo, mas sem limitações, um módulo de criação de caixa de confinamento 828 e um módulo de criação de ligação 830;

• um módulo de criação de rótulo 831 para criar rótulos que são identificadores visuais das respectivas subpartes de uma consulta visual;

• um módulo de anotação 832 para receber anotações de um usuário e enviá-las a uma base de dados de anotação 116;

• um módulo resultados de busca acionáveis 838 para gerar, em resposta a uma consulta visual, um ou mais elementos do resultado de busca acionáveis, cada qual configurado para iniciar uma ação do lado do cliente; exemplos de elementos do resultado de busca acionáveis são botões para iniciar uma chamada telefônica, para iniciar mensagem de correio eletrônico, para mapear um endereço, para fazer uma reserva de restaurante e para prover uma opção para adquirir um produto; e • uma base de dados de consulta e anotação 116 que compreende a própria base de dados 834 e um índice para a base de dados 836.

O módulo de ranqueamento e formatação de resultados 824 ranqueia os resultados retomados a partir dos um ou mais sistemas de busca paralelos (112-A - 112-N, figura 1). Como exposto, para algumas consultas visuais, somente os resultados provenientes de um sistema de busca podem ser relevantes. Em um caso como este, somente os resultados de busca relevantes provenientes de um sistema de busca são ranqueados. Para algumas consultas visuais, diversos tipos de resultados de busca podem ser relevantes. Nestes casos, em algumas modalidades, o módulo de ranqueamento e formatação dos resultados 824 ranqueia todos os resultados provenientes do sistema de busca com o resultado mais relevante (por exemplo, o resultado com o escore de relevância mais alto) acima dos resultados para os sistemas de busca menos relevantes. Em outras modalidades, o módulo de ranqueamento e formatação dos resultados 824 ranqueia um principal resultado proveniente de cada sistema de busca relevante acima dos resultados restantes. Em algumas modalidades, o módulo de ranqueamento e formatação dos resultados 824 ranqueia os resultados de acordo com um escore de relevância computado para cada um dos resultados de busca. Para algumas consultas visuais, consultas textuais aumentadas são realizadas além da busca em sistemas de busca visual paralelos. Em algumas modalidades, quando consultas textuais também forem realizadas, seus resultados são apresentados de uma maneira visualmente distintiva em relação aos resultados do sistema de busca visual.

O módulo de ranqueamento e formatação de resultados 824 também formata os resultados. Em algumas modalidades, os resultados são apresentados em um formato de lista. Em algumas modalidades, os resultados são apresentados por meio de um documento de resultados interativos. Em algumas modalidades, tanto um documento de resultados interativos quanto uma lista de resultados são apresentados. Em algumas modalidades, o tipo de consulta indica como os resultados são apresentados. Por exemplo, se mais de um sujeito buscável for detectado na consulta visual, então, um documento de resultados interativos é produzido, embora, se somente um sujeito buscável for detectado, os resultados sejam exibidos somente em formato de lista.

O módulo de criação do documento de resultados 826 é usado para criar um documento de resultados de busca interativos. O documento de resultados de busca interativos pode ter um ou mais sujeitos detectados e buscados. O módulo de criação de caixa de confinamento 828 cria uma caixa de confinamento ao redor de um ou mais dos sujeitos buscados. As caixas de confinamento podem ser caixas retangulares ou podem delinear a(s) forma(s) do(s) sujeito(s). O módulo de criação de ligação 830 cria ligações os resultados de busca associados com seu respectivo sujeito no documento de resultados de busca interativos. Em algumas modalidades, clicar na área da caixa de confinamento ativa a correspondente ligação inserida pelo módulo de criação de ligação.

A base de dados de consulta e anotação 116 contém informação que pode ser usada para melhorar resultados da consulta visual. Em algumas modalidades, o usuário pode anotar a imagem depois que os resultados da consulta visual forem apresentados. Além do mais, em algumas modalidades, o usuário pode anotar a imagem antes de enviá-la ao sistema de busca de consulta visual. Pré-anotação pode ajudar o processamento de consulta visual pela focalização dos resultados, ou pela execução de buscas com base em texto nas palavras anotadas em paralelo com as buscas de consulta visual. Em algumas modalidades, versões anotadas de uma figura podem se tomar públicas (por exemplo, quando o usuário tiver dado permissão para publicação, por exemplo, pela designação da imagem e da(s) anotação(ões) como não privadas) para serem retomadas como um acerto de correspondência de imagem em potencial. Por exemplo, se um usuário tomar uma figura de uma flor e anotar a imagem dando informação detalhada de gênero e espécie sobre esta flor, o usuário pode desejar que a imagem seja apresentada a qualquer um que realiza uma pesquisa de consulta visual procurando esta flor. Em algumas modalidades, a informação proveniente da base de dados de consulta e anotação 116 é periodicamente transferida aos sistemas de busca paralelos 112, que incorporam partes relevantes da informação (se houver) em suas respectivas bases de dados individuais 114.

A figura 7 é um diagrama de blocos que ilustra um dos sistemas de busca paralelos utilizados para processar uma consulta visual. A figura 7 ilustra um sistema servidor genérico 112-N de acordo com uma modalidade da presente invenção. Este sistema servidor é genérico somente em que ele representa qualquer um dos servidores de busca de consulta visual 112-N. Tipicamente, o sistema servidor genérico 112-N inclui uma ou mais unidades de processamento (CPUs) 502, uma ou mais interfaces de rede ou outras interfaces de comunicações 504, memória 512 e um ou mais barramentos de comunicação 514 para interconectar estes componentes. A memória 512 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outros dispositivos de armazenamento não voláteis em sólido estado. A memória 512 pode incluir opcionalmente um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 502. A memória 512 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis) na memória 512 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 512 ou a mídia de armazenamento legível por computador da memória 512 armazenam os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:

• um sistema operacional 516 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 518 que é usado para conectar o sistema servidor genérico 112-N em outros computadores por meio de uma ou mais interfaces de comunicação em rede 504 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;

• uma aplicação de busca 520 específica para o sistema servidor em particular pode ser, por exemplo, uma aplicação de busca de código de barras, uma aplicação de busca por reconhecimento de cor, uma aplicação de busca por reconhecimento de produto, uma aplicação de busca de objeto ou de categoria de objeto ou congêneres;

• um índice opcional 522 se a aplicação de busca em particular utilizar um índice;

• uma base de dados de imagem opcional 524 para armazenar as imagens relevantes para a aplicação de busca em particular, em que os dados de imagem armazenados, se houver, dependem do tipo de processo de busca;

• um módulo de ranqueamento de resultados opcional 526 (algumas vezes chamado de um módulo de definição de escore de relevância) para ranquear os resultados da aplicação de busca, o módulo de ranqueamento podendo atribuir um escore de relevância para cada resultado da aplicação de busca e, se nenhum resultado alcançar um escore mínimo pré-definido, pode retomar um escore de valor nulo ou zero ao servidor de processamento de consulta visual em interface inicial que indica que os resultados provenientes deste sistema servidor não são relevantes; e • um módulo de anotação 528 para receber informação de anotação a partir de uma base de dados de anotação (116, figura 1) que determina se alguma da informação de anotação é relevante para a aplicação de busca em particular e incorporar todas as partes relevantes da informação de anotação determinadas na respectiva base de dados de anotação 530.

A figura 8 é um diagrama de blocos que ilustra um sistema de busca OCR 112-B utilizado para processar uma consulta visual de acordo com uma modalidade da presente invenção. Tipicamente, o sistema de busca OCR 112-B inclui uma ou mais unidades de processamento (CPUs) 602, uma ou mais interfaces de rede ou outras interfaces de comunicações 604, memória 612 e um ou mais barramentos de comunicação 614 para interconectar estes componentes. A memória 612 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outro dispositivos de armazenamento não voláteis em sólido estado. A memória 612 pode incluir, opcionalmente, um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 602. A memória 612 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis)(eis) na memória 612 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 612 ou a mídia de armazenamento legível por computador da memória 612 armazenam os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:

• um sistema operacional 616 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 618 que é usado para conectar o sistema de busca OCR 112-B em outros computadores por meio de uma ou mais interfaces de comunicação em rede 604 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;

• um módulo de Reconhecimento Ótico de Caractere (OCR) 620 que tenta reconhecer texto na consulta visual e converte as imagens de letras em caracteres;

• uma base de dados OCR opcional 114-B que é utilizada pelo módulo OCR 620 para reconhecer fontes, padrões de texto e outras características em particular exclusivas para reconhecimento de letra;

• um módulo de verificação de soletração opcional 622 que melhora a conversão de imagens de letras em caracteres pela verificação das palavras convertidas em relação a um dicionário e substituição de letras potencialmente mal convertidas em palavras que de outra forma correspondem a uma palavra do dicionário;

• um módulo de reconhecimento de entidade nomeada opcional 624 que busca entidades nomeadas no texto convertido, envia as entidades nomeadas reconhecidas como termos em uma consulta por termo ao sistema servidor de consulta por termo (118, figura 1), e provê os resultados provenientes do sistema servidor de consulta por termo como ligações incorporadas no texto reconhecido por OCR associado com as entidades nomeadas reconhecidas;

• uma aplicação de correspondência de texto opcional 632 que melhora a conversão de imagens de letras em caracteres pela verificação de segmentos convertidos (tais como sentenças e parágrafos convertidos) em relação a uma base de dados de segmentos de texto e substituição de letras potencialmente mal convertidas em segmentos de texto reconhecidos por OCR que de outra forma correspondem a um segmento de texto da aplicação de correspondência de texto, em algumas modalidades, o segmento de texto encontrado pela aplicação de correspondência de texto é provido como uma ligação ao usuário (por exemplo, se o usuário digitalizou uma página do New York Times, a aplicação de correspondência de texto pode prover uma ligação à íntegra do artigo postado na página da Internet do New York Times);

• um módulo de ranqueamento e formatação de resultados 626 para formatar os resultados reconhecidos por OCR para apresentação e formatação de ligações opcionais a entidades nomeadas e, também, ranquear opcionalmente todos os resultados relacionados provenientes da aplicação de correspondência de texto; e • um módulo de anotação opcional 628 para receber informação de anotação a partir de uma base de dados de anotação (116, figura 1) que determina se alguma das informações de anotação é relevante para o sistema de busca OCR e para incorporar todas as partes relevantes da informação de anotação determinadas na respectiva base de dados de anotação 630.

A figura 9 é um diagrama de blocos que ilustra um sistema de busca de reconhecimento facial 112-A utilizado para processar uma consulta visual de acordo com uma modalidade da presente invenção. Tipicamente, o sistema de busca de reconhecimento facial 112-A inclui uma ou mais unidades de processamento (CPUs) 902, uma ou mais interfaces de rede ou outras interfaces de comunicações 904, memória 912 e um ou mais barramentos de comunicação 914 para interconectar estes componentes. A memória 912 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outros dispositivos de armazenamento não voláteis em sólido estado. A memória 912 pode incluir opcionalmente um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 902. A memória 912 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis)(eis) na memória 912 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 912 ou a mídia de armazenamento legível por computador da memória 912 armazenam os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:

• um sistema operacional 916 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 918 que é usado para conectar o sistema de busca de reconhecimento facial 112-A em outros computadores por meio de uma ou mais interfaces de comunicação em rede 904 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;

• uma aplicação de busca de reconhecimento facial 920 para buscar imagens faciais que correspondem à(s) face(s) apresentada(s) na consulta visual em uma base de dados de imagem facial 114-A e buscar, na base de dados da rede social 922, informação em relação a cada correspondência encontrada na base de dados de imagem facial 114-A;

• uma base de dados de imagem facial 114-A para armazenar uma ou mais imagens faciais para uma pluralidade de usuários; opcionalmente, a base de dados de imagem facial inclui imagens faciais para pessoas diferentes dos usuários, tais como membros da família e outros conhecidos dos usuários e que foram identificados como presentes nas imagens incluídas na base de dados de imagem facial 114-A; opcionalmente, a base de dados de imagem facial inclui imagens faciais obtidas a partir de fontes externas, tais como revendedores de imagens faciais que estão legalmente no domínio público;

• opcionalmente, uma base de dados da rede social 922 que contém informação em relação a usuários da rede social, tais como nome, endereço, ocupação, associações no grupo, conexões de rede social, localização GPS atual do dispositivo móvel, preferências de compartilhamento, interesses, idade, cidade natal, estatística pessoal, informação de trabalho, etc., da forma discutida com mais detalhes em relação à figura 12A;

• um módulo de ranqueamento e formatação de resultados 924 para ranquear (por exemplo, atribuir uma relevância e/ou escore de qualidade de correspondência) as potenciais correspondências faciais provenientes da base de dados de imagem facial 114-A e formatar os resultados para apresentação; em algumas modalidades, o ranqueamento ou definição de escore dos resultados utilizam informação relacionada recuperada a partir da supramencionada base de dados da rede social; em algumas modalidades, os resultados formatados da busca incluem as potenciais correspondências de imagem bem como um subconjunto de informação proveniente da base de dados da rede social; e • um módulo de anotação 926 para receber informação de anotação a partir de uma base de dados de anotação (116, figura 1) que determina se alguma das informações de anotação é relevante para o sistema de busca de reconhecimento facial e para armazenar todas as partes relevantes da informação de anotação determinadas na respectiva base de dados de anotação 928.

A figura 10 é um diagrama de blocos que ilustra um sistema de busca de imagem por termos 112-C utilizado para processar uma consulta visual de acordo com uma modalidade da presente invenção. Em algumas modalidades, o sistema de busca de imagem por termos reconhece objetos (reconhecimento de instância) na consulta visual. Em outras modalidades, o sistema de busca de imagem por termos reconhece categorias de objeto (reconhecimento de tipo) na consulta visual. Em algumas modalidades, o sistema de imagem por termos reconhece tanto objetos quanto categorias de objeto. O sistema de busca de imagem por termos retoma correspondências de termo em potencial para imagens na consulta visual. Tipicamente, o sistema de busca de imagem por termos 112-C inclui uma ou mais unidades de processamento (CPUs) 1002, uma ou mais interfaces de rede ou outras interfaces de comunicações 1004, memória 1012 e um ou mais barramentos de comunicação 1014 para interconectar estes componentes. A memória 1012 inclui memória de acesso aleatório em alta velocidade, tais como DRAM, SRAM, RAM DDR ou outros dispositivos de memória de acesso aleatório em estado sólido; e pode incluir memória não volátil, tais como um ou mais dispositivos de armazenamento em disco magnético, dispositivos de armazenamento em disco ótico, dispositivos de memória flash ou outros dispositivos de armazenamento não voláteis em sólido estado. A memória 1012 pode incluir opcionalmente um ou mais dispositivos de armazenamento remotamente localizados em relação à(s) CPU(s) 1002. A memória 1012 ou, altemativamente, o(s) dispositivo(s) de memória não volátil(eis) na memória 1012 compreendem uma mídia de armazenamento legível por computador não temporária. Em algumas modalidades, a memória 1012 ou a mídia de armazenamento legível por computador da memória 1012 armazenam os seguintes programas, módulos e estruturas de dados, ou um subconjunto destes:

• um sistema operacional 1016 que inclui procedimentos para tratar vários serviços de sistema básicos e para realizar tarefas dependentes de hardware', • um módulo de comunicação em rede 1018 que é usado para conectar o sistema de busca de imagem por termos 112-C em outros computadores por meio de uma ou mais interfaces de comunicação em rede 1004 (com fios ou sem fios) e uma ou mais redes de comunicação, tais como a Internet, outras redes de área ampla, redes de área local, redes de área metropolitana e congêneres;

• uma aplicação de busca de imagem por termos 1020 que busca imagens que correspondem ao sujeito ou aos sujeitos na consulta visual na base de dados de busca de imagem 114-C;

• uma base de dados de busca de imagem 114-C que pode ser buscada pela aplicação de busca 1020 para encontrar imagens similares ao(s) sujeito(s) da consulta visual;

• um índice inverso de termos por imagem 1022 que armazena os termos textuais usados pelos usuários durante a busca de imagens usando um motor de busca de consulta com base em texto 1006;

• um módulo de ranqueamento e formatação de resultados 1024 para ranquear as potenciais correspondências de imagem e/ou ranquear termos associados com as potenciais correspondências de imagem identificadas no índice inverso de termos por imagem 1022; e • um módulo de anotação 1026 para receber informação de anotação a partir de uma base de dados de anotação (116, figura 1) que determina se alguma das informações de anotação é relevante para o sistema de busca de imagem por termos 112-C e para armazenar todas as partes relevantes da informação de anotação determinadas na respectiva base de dados de anotação 1028.

Pretende-se que as figuras 5-10 sejam entendidas mais como descrições funcionais dos vários recursos que podem estar presentes em um conjunto de sistemas de computador do que como uma representação estrutural esquemática das modalidades aqui descrita. Na prática, e da forma reconhecida pelos versados na técnica, itens mostrados separadamente podem ser combinados e alguns itens podem ser separados. Por exemplo, alguns itens mostrados separadamente nestas figuras podem ser implementados em servidores individuais e itens individuais podem ser implementados por um ou mais servidores. O número real de sistemas usados para implementar o processamento de consulta visual e como os recursos são alocados entre eles variarão de uma implementação para uma outra.

Cada um dos métodos aqui descritos pode ser gerenciado por instruções que são armazenadas em uma mídia de armazenamento legível por computador não temporária e que são executadas por um ou mais processadores de um ou mais servidores ou clientes. Os módulos ou programas supraidentificados (isto é, conjuntos de instruções) não precisam ser implementados como programas de software, procedimentos ou módulos separados e, assim, vários subconjuntos destes módulos podem ser combinados ou de outra forma rearranjados em várias modalidades. Cada uma das operações mostradas nas figuras 5-10 pode corresponder às instruções armazenadas em uma memória de computador ou mídia de armazenamento legível por computador não temporária.

A figura 11 ilustra um sistema cliente 102 com uma captura de tela de uma consulta visual exemplar 1102. O sistema cliente 102 mostrado na figura 11 é um dispositivo móvel, tais como um telefone celular, tocador portátil de música ou dispositivo de correio eletrônico portátil. O sistema cliente 102 inclui uma tela 706 e um ou mais dispositivos de entrada 708, tais como os botões mostrados nesta figura. Em algumas modalidades, a tela 706 é uma tela sensível ao toque 709. Em modalidades com uma tela sensível ao toque 709, opcionalmente, botões em software exibidos na tela 709 podem substituir alguns ou todos os botões eletromecânicos 708. As telas sensíveis ao toque também são úteis na interação com os resultados da consulta visual, da forma explicada com mais detalhes a seguir. O sistema cliente 102 também inclui um mecanismo de captura de imagem, tal como uma câmera 710.

A figura 11 ilustra uma consulta visual 1102 que é uma fotografia ou quadro de vídeo de uma embalagem em uma prateleira de uma loja. Nas modalidades aqui descritas, a consulta visual é uma imagem bidimensional com uma resolução correspondente ao tamanho da consulta visual em pixels em cada uma das duas dimensões. Neste exemplo, a consulta visual 1102 é uma imagem bidimensional de objetos tridimensionais. A consulta visual 1102 inclui elementos de fundo, uma embalagem de produto 1104 e uma variedade de tipos de entidades na embalagem, incluindo uma imagem de uma pessoa 1106, uma imagem de uma marca registrada 1108, uma imagem de um produto 1110 e uma variedade de elementos textuais 1112.

Da forma explicada em relação à figura 3, a consulta visual 1102 é enviada ao servidor de interface inicial 110, que envia a consulta visual 1102 a uma pluralidade de sistemas de busca paralelos (112A-N), recebe os resultados e cria um documento de resultados interativos.

Cada uma das figuras 12A e 12B ilustra um sistema cliente 102 com uma captura de tela de uma modalidade de um documento de resultados interativos 1200. O documento de resultados interativos 1200 inclui um ou mais identificadores visuais 1202 de respectivas subpartes da consulta visual 1102 que, cada qual, incluem uma ligação selecionável pelo usuário a um subconjunto de resultados de busca. As figuras 12A e 12B ilustram um documento de resultados interativos 1200 com identificadores visuais que são caixas de confinamento 1202 (por exemplo, caixas de confinamento 1202-1, 1202-2, 1202-3). Nas modalidades mostradas nas figuras 12A e 12B, o usuário ativa a exibição dos resultados de busca correspondentes a uma subparte em particular dando um tapinha na região de ativação no interior do espaço delineado por sua caixa de confinamento 1202. Por exemplo, o usuário ativará os resultados de busca correspondentes à imagem da pessoa dando um tapinha em uma caixa de confinamento 1306 (figura 13) que circunda a imagem da pessoa. Em outras modalidades, a ligação selecionável é selecionada usando um mouse ou teclado em vez de uma tela sensível ao toque. Em algumas modalidades, o primeiro resultado de busca correspondente é exibido quando um usuário pré-visualizar uma caixa de confinamento 1202 (isto é, quando o usuário der um único clique, der um único tapinha ou pairar um ponteiro sobre a caixa de confinamento). O usuário ativa a exibição de uma pluralidade de resultados de busca correspondentes quando o usuário selecionar a caixa de confinamento (isto é, quando o usuário der duplo clique, der dois tapinhas ou usar um outro mecanismo para indicar a seleção).

Nas figuras 12A e 12B os identificadores visuais são caixas de confinamento 1202 que circundam subpartes da consulta visual. A figura 12A ilustra caixas de confinamento 1202 que são quadradas ou retangulares. A figura 12B ilustra uma caixa de confinamento 1202 que delineia o contorno de uma entidade identificável na subparte da consulta visual, tal como a caixa de confinamento 1202-3 para uma garrafa de bebida. Em algumas modalidades, uma respectiva caixa de confinamento 1202 inclui caixas de confinamento menores 1202 em si. Por exemplo, nas figuras 12A e 12B, a caixa de confinamento que identifica a embalagem 1202-1 circunda a caixa de confinamento que identifica a marca registrada 1202-2 e todas as outras caixas de confinamento 1202. Algumas modalidades que incluem texto também incluem ligações rápidas ativas 1204 para alguns dos termos textuais. A figura 12B mostra um exemplo em que Active Drink e Estados Unidos são exibidos como ligações rápidas 1204. Os resultados de busca correspondentes a estes termos são os resultados recebidos a partir do sistema servidor de consulta por termo 118, enquanto que os resultados correspondentes às caixas de confinamento são resultados da consulta por sistemas de busca por imagem.

A figura 13 ilustra um sistema cliente 102 com uma captura de tela de um documento de resultados interativos 1200 que é codificado por tipo de entidade reconhecida na consulta visual. A consulta visual da figura 11 contém uma imagem de uma pessoa 1106, uma imagem de uma marca registrada 1108, uma imagem de um produto 1110 e uma variedade de elementos textuais 1112. Como tal, o documento de resultados interativos 1200 exibido na figura 13 inclui caixas de confinamento 1202 ao redor de uma pessoa 1306, de uma marca registrada 1308, de um produto 1310 e das duas áreas textuais 1312. Cada uma das caixas de confinamento da figura 13 é apresentada com hachurado separado que representa caixas de confinamento transparentes diferentemente coloridas 1202. Em algumas modalidades, os identificadores visuais das caixas de confinamento (e/ou rótulos ou outros identificadores visuais no documento de resultados interativos 1200) são formatados para apresentação de maneiras visualmente distintivas, tais como cor de sobreposição, padrão de sobreposição, cor de fundo do rótulo, padrão de fundo do rótulo, cor da fonte do rótulo e cor de borda da caixa de confinamento. A codificação de tipo para entidades reconhecidas em particular é mostrada em relação às caixas de confinamento da figura 13, mas codificação por tipo também pode ser aplicada em identificadores visuais que são rótulos.

A figura 14 ilustra um dispositivo cliente 102 com uma captura de tela de um documento de resultados interativos 1200 com rótulos 1402 sendo os identificadores visuais das respectivas subpartes da consulta visual 1102 da figura 11. Cada um dos identificadores visuais de rótulo 1402 inclui uma ligação selecionável pelo usuário a um subconjunto de correspondentes resultados de busca. Em algumas modalidades, a ligação selecionável é identificada por texto descritivo exibido na área do rótulo 1402. Algumas modalidades incluem uma pluralidade de ligações em um rótulo 1402. Por exemplo, na figura 14, o rótulo que paira sobre a imagem de uma mulher bebendo inclui uma ligação aos resultados de reconhecimento facial para a mulher e uma ligação aos resultados de reconhecimento de imagem para esta figura em particular (por exemplo, imagens de outros produtos ou anúncios usando a mesma figura).

Na figura 14, os rótulos 1402 são exibidos como áreas parcialmente transparentes com texto que ficam localizadas sobre suas respectivas subpartes do documento de resultados interativos. Em outras modalidades, um respectivo rótulo é posicionado próximo, mas não localizado sobre sua respectiva subparte do documento de resultados interativos. Em algumas modalidades, os rótulos são codificados por tipo, da mesma maneira discutida em relação à figura 13. Em algumas modalidades, o usuário ativa a exibição dos resultados de busca correspondentes a uma subparte em particular correspondente a um rótulo 1302 dando um tapinha na região de ativação no interior do espaço delineado pelas bordas ou na periferia do rótulo 1302. As mesmas funções de pré-visualização e seleção supradiscutidas em relação às caixas de confinamento das figuras 12A e 12B também se aplicam aos identificadores visuais que são rótulos 1402.

A figura 15 ilustra uma captura de tela de um documento de resultados interativos 1200 e da consulta visual original 1102 exibida concorrentemente com uma lista de resultados 1500. Em algumas modalidades, o documento de resultados interativos 1200 é exibido por si mesmo, da forma mostrada nas figuras 12 - 14. Em outras modalidades, o documento de resultados interativos 1200 é exibido concorrentemente com a consulta visual original, da forma mostrada na figura 15. Em algumas modalidades, a lista de resultados da consulta visual 1500 é concorrentemente exibida, juntamente com a consulta visual original 1102 e/ou com o documento de resultados interativos 1200. O tipo de sistema cliente e a quantidade de espaço na tela 706 pode determinar se a lista de resultados 1500 é exibida concorrentemente com o documento de resultados interativos 1200. Em algumas modalidades, o sistema cliente 102 recebe (em resposta a uma consulta visual submetida ao sistema servidor de consulta visual) tanto a lista de resultados 1500 quanto o documento de resultados interativos 1200, mas somente exibe a lista de resultados 1500 quando o usuário rolar o documento de resultados interativos 1200 para baixo. Em algumas destas modalidades, o sistema cliente 102 exibe os resultados correspondentes a um identificador visual selecionado pelo usuário 1202 / 1402 sem precisar consultar novamente o servidor em virtude de a lista de resultados 1500 ser recebida pelo sistema cliente 102 em resposta à consulta visual e, então, armazenada localmente no sistema cliente 102.

Em algumas modalidades, a lista de resultados 1500 é organizada em categorias 1502. Cada categoria contém pelo menos um resultado 1503. Em algumas modalidades, os títulos de categorias são destacados para distingui-los dos resultados 1503. As categorias 1502 são ordenadas de acordo com seu peso de categoria calculado. Em algumas modalidades, o peso de categoria é uma combinação dos pesos dos N resultados mais altos naquela categoria. Como tal, a categoria que, provavelmente, produziu mais resultados relevantes é exibida primeiro. Em modalidades em que mais de uma categoria 1502 é retomada para a mesma entidade reconhecida (tais como a correspondência de reconhecimento de imagem facial e a correspondência de imagem mostradas na figura 15), a categoria exibida primeiro tem um peso de categoria mais alto.

Da forma explicada em relação à figura 3, em algumas modalidades, quando uma ligação selecionável no documento de resultados interativos 1200 for selecionada por um usuário do sistema cliente 102, o cursor se moverá automaticamente para a categoria apropriada 1502 ou para o primeiro resultado 1503 naquela categoria. Altemativamente, quando uma ligação selecionável no documento de resultados interativos for selecionada por um usuário do sistema cliente 102, a lista de resultados 1500 é reordenada de maneira tal que a categoria ou as categorias relevantes para a ligação selecionada sejam exibidas primeiro. Isto é realizado, por exemplo, tanto por codificação das ligações selecionáveis com informação que identifica os correspondentes resultados de busca quanto por codificação dos resultados de busca para indicar as correspondentes ligações selecionáveis ou para indicar as correspondentes categorias do resultado.

Em algumas modalidades, as categorias dos resultados de busca correspondem ao sistema de busca de consulta por imagem que produz estes resultados de busca. Por exemplo, na figura 15, algumas das categorias são correspondência de produto 1506, correspondência de logotipo 1508, correspondência de reconhecimento facial 1510, correspondência de imagem 1512. A consulta visual original 1102 e/ou um documento de resultados interativos 1200 podem ser similarmente exibidos com um título de categoria, tal como a consulta 1504. Similarmente, resultados provenientes de qualquer busca por termo realizada pelo servidor de consulta por termo também podem ser exibidos como uma categoria separada, tais como resultados da Internet 1514. Em outras modalidades, mais de uma entidade em uma consulta visual produzirá resultados a partir do mesmo sistema de busca de consulta por imagem. Por exemplo, a consulta visual pode incluir duas faces diferentes que retomarão resultados separados provenientes do sistema de busca de reconhecimento facial. Como tal, em algumas modalidades, as categorias 1502 são divididas por entidade reconhecida em vez de pelo sistema de busca. Em algumas modalidades, uma imagem da entidade reconhecida é exibida no cabeçalho da categoria da entidade reconhecida 1502, de maneira tal que os resultados para esta entidade reconhecida sejam distinguíveis dos resultados para uma outra entidade reconhecida, mesmo embora ambos os resultados sejam produzidos pela mesma consulta pelo sistema de busca de imagem. Por exemplo, na figura 15, a categoria de correspondência de produto 1506 inclui duas entidades de produto e, como tal, duas categorias de entidade 1502, um produto encaixotado 1516 e um produto engarrafado 1518, cada qual tendo uma pluralidade de correspondentes resultados de busca 1503. Em algumas modalidades, as categorias podem ser divididas por entidades reconhecidas e tipo de sistema de consulta por imagem. Por exemplo, na figura 15, há duas entidades separadas que retomaram resultados relevantes sob a categoria de correspondência de produto.

Em algumas modalidades, os resultados 1503 incluem imagens em miniatura. Por exemplo, da forma mostrada para os resultados da correspondência de reconhecimento facial da figura 15, pequenas versões (também chamadas de imagens em miniatura) das figuras das correspondências faciais para Atriz X e Amigo da Rede Social Y são exibidas juntamente com alguma descrição textual, tal como o nome da pessoa na imagem.

A descrição exposta, com propósito de explicação, foi dada em relação às modalidades específicas. Entretanto, não pretende-se que as discussões ilustrativas expostas sejam completas ou limitem a invenção às precisas formas divulgadas. Muitas modificações e variações são possíveis em vista dos preceitos expostos. As modalidades foram escolhidas e descritas a fim de mais bem explicar os princípios da invenção e suas aplicações práticas 10 para, desse modo, habilitar outros versados na técnica a mais bem utilizar a invenção e várias modalidades com várias modificações adequadas ao uso em particular contemplado.

Claims

REIVINDICAÇÕES

1. Método de processamento de uma consulta visual implementado por computador, caracterizado pelo fato de que compreende:

em um sistema servidor com um ou mais processadores e memória que armazena instruções para execução pelos um ou mais processadores:

obter, a partir de um sistema cliente, uma consulta visual tendo dois ou mais objetos incluindo:

(i) um primeiro objeto tendo um primeiro tipo de objeto; e (ii) um segundo objeto tendo um segundo tipo de objeto distinto do primeiro tipo de objeto, os primeiro e segundo tipos de objeto são selecionados a partir do grupo que consiste em:

caracteres OCR, um rosto de uma pessoa, um objeto não humano e um código de barras;

particionar a consulta visual em duas ou mais regiões incluindo uma primeira região e uma segunda região, em que a primeira região inclui o primeiro objeto, e a segunda região inclui o segundo objeto;

processar a consulta visual pela obtenção simultanea de resultados de busca de consulta visual incluindo:

(i) um primeiro conjunto de resultados obtidos de acordo com o primeiro objeto;

(ii) um segundo conjunto de resultados obtidos de acordo com o segundo objeto;

formatar para exibição simultânea (i) o primeiro conjunto de resultados, e (ii) o segundo conjunto de resultados para um usuário;

obter uma ou mais anotações do usuário de um resultado de busca particular no primeiro conjunto de resultados de busca ou no segundo

Petição 870190105962, de 18/10/2019, pág. 16/20 conjunto de resultados de busca, em que a uma ou mais anotações do usuário indicam uma ação tomada por um usuário que indica uma respectiva relevância dos resultados de busca, ou falta dela, para a consulta visual;

obter uma segunda consulta visual; e em resposta a obter a segunda consulta visual, obter uma segunda pluralidade de resultados de busca com base em pelo menos uma anotação na uma ou mais anotações do usuário.
2. Método implementado por computador, de acordo com a reivindicação 1, caracterizado pelo fato de que a consulta visual é selecionada a partir do grupo que consiste em: uma fotografia, uma captura de tela, uma imagem digitalizada, um quadro de vídeo, e uma pluralidade de quadros de vídeo.
3. Sistema motor de busca, para processamento de uma consulta visual, caracterizado pelo fato de que compreende:

uma ou mais unidades centrais de processamento para executar instruções;

memória que armazena instruções a serem executadas pelas uma ou mais unidades centrais de processamento;

as instruções realizando as seguintes etapas:

obter, a partir de um sistema cliente, uma consulta visual tendo dois ou mais objetos incluindo:

(i) um primeiro objeto tendo um primeiro tipo de objeto; e (ii) um segundo objeto tendo um segundo tipo de objeto distinto do primeiro tipo de objeto, os primeiro e segundo tipos de objeto são selecionados a partir do grupo que consiste em:

caracteres OCR, um rosto de uma pessoa, um objeto não humano e um código de barras;

particionar a consulta visual em duas ou mais regiões