BRPI0710701B1

BRPI0710701B1 - memória, método e dispositivo de computação para anotação por pesquisa

Info

Publication number: BRPI0710701B1
Application number: BRPI0710701-3A
Authority: BR
Inventors: Lei Zhang; Xin-Jing Wang; Feng Jing; Wei-Ying Ma
Original assignee: Microsoft Technology Licensing, Llc
Priority date: 2006-05-19
Filing date: 2007-05-17
Publication date: 2021-02-09
Also published as: KR101354755B1; US8341112B2; BRPI0710701A8; KR20090012243A; WO2007136861A3; MX2008013657A; EP2021959A4; US20070271226A1; CN101449271B; WO2007136861A2; CN101449271A; RU2008145584A; EP2021959A2; JP5346279B2; BRPI0710701A2; JP2009537901A; RU2439686C2

Abstract

ANOTAÇÃO POR PESQUISA. Anotação por pesquisa é descrita. Em um aspecto, um armazenamento de dados é pesquisado por imagens que estão semanticamente relacionadas a uma anotação de linha base de uma imagem dada e visualmente similar à imagem dada. A imagem dada é depois anotada com conceitos comuns de anotações associadas a pelo menos um subconjunto das imagens semântica e visualmente relacionadas.

Description

ANTECEDENTES

[0001] Um método tradicional para anotar imagens digitais émanualmente anotar cada imagem digital com uma ou mais palavras- chaves semanticamente relacionadas. Tais palavras-chaves são frequentemente usadas para facilitar a pesquisa de imagem com base em palavra-chave e operações de recuperação em ambientes de pesquisa com base em computador (por exemplo, ao longo de dispositivos de computação, bases de dados, a Internei, etc.). Por causa do número muito grande de imagens digitais que em geral existem em tais ambientes de pesquisa, anotação manual de imagens digitais para facilitar a pesquisa de imagem e operações de recuperação representa um trabalho muito intensivo e tarefa morosa.

SUMÁRIO

[0002] Anotação por pesquisa é descrita. Em um aspecto, umarmazenamento de dados é pesquisado para imagens que são semanticamente relacionadas a uma anotação de linha base de uma imagem dada e visualmente similares à imagem dada. A imagem dada é depois anotada com conceitos comuns de anotações associadas a pelo menos um subconjunto das imagens semântica e visualmente relacionadas.

[0003] Este Sumário é fornecido para introduzir uma seleção deconceitos em uma forma simplificada que é também descrita abaixo na descrição detalhada. Este Sumário não é intencionado identificar características relevantes ou essenciais do assunto reivindicado, nem é intencionado ser usado como uma ajuda em determinar o escopo do assunto reivindicado.

BREVE DESCRIÇÃO DOS DESENHOS

[0004] Nas Figuras, o dígito mais à esquerda de um número dereferência do componente identifica a Figura particular em que o componente aparece primeiro.

[0005] Fig. 1 mostra um sistema exemplar para anotação porpesquisa, de acordo com uma modalidade.

[0006] Fig. 2 mostram um procedimento exemplar para anotaçãopor pesquisa, de acordo com uma modalidade.

[0007] Fig. 3 mostra uns dados exemplares e fluxo de processopara anotação por pesquisa, de acordo com uma modalidade.

DESCRIÇÃO DETALHADA VISÃO GERAL

[0008] Sistemas e métodos para anotação por pesquisa sãodescritos. Os sistemas e métodos executam uma pesquisa baseada em palavra-chave de base(s) de dados Iocal(is) e/ou remota(s) para localizar imagens digitais que são semanticamente relacionadas a uma anotação de linha base de imagem dada. Os sistemas e métodos medem similaridade visual de cada uma das imagens semanticamente relacionadas à imagem dada. Estas medições de similaridade visual são usadas para selecionar imagens que são mais relevantes no espaço visual à imagem dada que outras das imagens semanticamente relacionadas. Estas imagens selecionadas são similares em texto e espaço visual à imagem dada. Anotações complementares candidatas associadas às imagens selecionadas são extraídas dos respectivos contextos das imagens selecionadas. As anotações extraídas são agrupadas. Cada agrupamento inclui anotações com conceito(s) comum(ns) ou relacionado(s). Por exemplo, um agrupamento de anotações associadas a uma imagem de uma abelha em uma rosa pode conter anotações relacionadas a uma abelha, uma rosa, etc. Os sistemas e métodos classificam relevância dos conceitos usando um ou mais critérios de classificação para identificar um conjunto de conceitos de classificação máxima. Os sistemas e métodos anotam a imagem dada com pelo menos um subconjunto da informação fornecida pelos conceitos de classificação máxima.

[0009] Estes e outros aspectos dos sistemas e métodos paraanotação por pesquisa são agora descritos em maior detalhe.

UM SISTEMA EXEMPLAR

[00010] Embora não requerido, sistemas e métodos para anotação por pesquisa são descritos no contexto geral de instruções executáveispor computador executadas por um dispositivo de computação tal como um computador pessoal. Módulos de programa em geral incluem rotinas, programas, objetos, componentes, estruturas de dados, etc., que executam tarefas particulares ou implementam tipos de dados de resumo particulares. Embora os sistemas e métodos sejam descritos no contexto precedente, ações e operações descritas doravante podem também ser implementadas em hardware.

[00011] Fig. 1 mostra um sistema 100 exemplar para anotar imagens, de acordo com uma modalidade. Sistema 100 inclui, por exemplo, um dispositivo de computação 102. Dispositivo de computação102 representa qualquer tipo de dispositivo de computação tal como um dispositivo de computação de propósito geral, um servidor, um laptop, um dispositivo de computação móvel, etc. Dispositivo de computação 102 inclui um ou mais processadores 104 acoplados à memória do sistema 106. A memória do sistema 106 inclui memória volátil (por exemplo, RAM) e memória não-volátil (por exemplo, ROM, instantânea, disco rígido, óptico, etc.). Memória do sistema 106 inclui módulos de programa de computador 108 e dados de programa 110. Processador(es) 104 irá(ão) buscar e executar instruções de programa de computador dos respectivos módulos de programa 108. Módulos de programa 108 incluem, por exemplo, módulo de anotação 112 para automaticamente anotar uma imagem dada 114 com anotações relevantes e complementares 116 de vocabulário ilimitado. Módulos de programa 108 também incluem, por exemplo, outros módulos de programa 118 tais como um sistema operacional para fornecer um ambiente de tempo de execução, uma aplicação de pesquisa baseada em palavra-chave, uma comparação de imagem e aplicação de classificação, uma aplicação de agrupamento de texto/documento, uma aplicação de rastejador de rede, e/ou assim por diante.

[00012] Para identificar anotações relevantes e complementares 116, o módulo de anotação 112 executa uma pesquisa baseada em palavra-chave padrão da(s) base(s) de dados remota(s) 119 e/ou base(s) de dados local(is) para localizar um conjunto de imagens digitais (isto é, imagens minadas 120) que são semanticamente relacionadas a uma anotação de linha base 122 da imagem dada 114. Em uma implementação, anotação de linha base 122 representa uma localização, um nome de evento, um nome de pasta, uma descrição, etc. associado à imagem dada 114, texto circundando a imagem dada 114 em uma página de rede, texto associado a outras imagens relacionadas (por exemplo, em uma mesma página de rede, em uma mesma pasta, etc.) com a imagem dada 114, entrada de consulta recebida de um usuário, e/ou assim por diante. As bases de dados locais e/ou remotas representam qualquer tipo de armazenamento de dados para imagens digitais. Por exemplo, o(s) armazenamento(s) de dados pode(m) ser um ou mais de um CD, disco flexível e/ou em qualquer outro meio de armazenamento removível, um disco rígido, etc. Para propósitos de ilustração exemplar, base(s) de dados local(is) é/são mostrada(s) como uma respectiva porção de “outros dados de programa” 124. Em uma implementação, as bases de dados locais e/ou remotas foram povoadas com imagens digitais anotadas por um módulo de programa de rastejador, transferidas por indivíduos, e/ou assim por diante. Nesta implementação, base de dados remota 119 é mostrada acoplada ao dispositivo de computação 102 na rede 123. Rede 123 pode incluir qualquer combinação de uma rede local (LAN) e uns ambientes de comunicação gerais de rede de longa distância (WAN), tais como aqueles que são comuns em escritórios, redes de computador de grandes empresas, intranets, e a internet.

MEDIÇÃO DE SIMILARIDADE VISUAL

[00013] As operações de pesquisa com base em palavra-chave descritas retornam imagens minadas 120 que são semanticamente relacionadas à anotação de linha base 122. Porém, vocabulários usados por autores de conteúdo podem variar grandemente, e a maioria das palavras na linguagem natural tem ambiguidade inerente. Como resultado, palavras-chaves não são sempre descritores bons de conteúdos de documento relevantes. Tal ambiguidade frequentemente resulta em problemas de disparidade do termo palavra-chave/docu- mento de pesquisa com base em palavra-chave. Porque as palavras- chaves representando anotações podem ser ambíguas, o módulo de anotação 112 também avalia as imagens minadas 120 para identificar a(s) imagem(ns) que é/são também pelo menos conceitualmente relacionada(s) em espaço visual à imagem dada 114 (a(s) imagem(ns) identificada(s)) poderia(m) também ser duplicada(s) e/ou de modo substancial visualmente similar(es) à imagem dada 114). Mais particularmente, o módulo de anotação 112 compara as características visuais das imagens minadas 120 às características visuais da imagem dada 114 para gerar medições de similaridade visual (isto é, classificações) para identificar as imagens que estão não apenas relacionadas em espaço de texto (isto é, semanticamente relacionadas), mas também em espaço visual à imagem dada 114. (As medições de similaridade visual são mostradas como uma respectiva porção de “outros dados de programa” 124). Há muitas técnicas conhecidas para comparar similaridade visual entre imagens digitais.

[00014] Nesta implementação, por exemplo, o módulo de anotação 112 codifica as características visuais da imagem dada 114 e imagens minadas 120 para gerar as respectivas assinaturas de valores hash para cada imagem digital como segue. Nesta implementação, o módulo de anotação 112 cria os respectivos vetores de característica para imagem dada 114 e cada imagem minada 120 usando operações com base em correlograma de cor de Ncaixa bem conhecida (por exemplo, uma caixa 36). Outras técnicas conhecidas, além daquelas com base em um correlograma de cor, podem também ser usadas para gerar os vetores de característica. Módulo de anotação 112 multiplica os vetores de característica gerados com um modelo de transformação de PCA gerado de um número grande de imagens digitais (por exemplo, milhões de imagens) para quantização subsequente em bits binários para comparação. Por exemplo, se um elemento de um vetor de característica for maior que uma média do vetor Eigen maior associado ao modelo de transformação de PCA, o módulo de anotação 112 quantiza (codifica) o elemento para 1, do contrário o elemento é codificado para 0. Estas codificações binárias representam as respectivas assinaturas valores hash.

[00015] Módulo de anotação 112 usa a assinatura de valores hash de cada imagem minada 120 e a assinatura de valores hash da imagem dada 114 para medir uma similaridade visual entre cada imagem minada 120 e imagem dada 114. O módulo de anotação 120 pode usar uma ou mais técnicas conhecidas para medir tal similaridade visual. Por exemplo, o módulo de anotação 112 pode implementar uma ou mais de múltiplas técnicas de medição de distância de espaço visual de imagem digital tal como de-duplicação de código de valores hash mais distância Euclidiana, distância de código valores hash, distância ponderada de código de valores hash, ou outras técnicas podem ser usadas para medir similaridade visual. Em uma implementação, por exemplo, o módulo de anotação 112 usa de- duplicação de código de valores hash mais distância Euclidiana para medir a similaridade visual entre uma imagem minada 120 e a imagem dada 114. Neste exemplo, o módulo de anotação 112 utiliza fragmentos de n bits mais altos da assinatura de valores hash da imagem dada 114 como um índice para medir a similaridade visual. (Bits mais altos correspondem aos valores Eigen maiores que a distância média maior no espaço visual). Módulo de anotação 112 calcula a distância Euclidiana com base nos correlogramas associados às imagens semanticamente relacionadas.

[00016] Em outro exemplo, o módulo de anotação 112 usa distância de código de valores hash para medir a similaridade visual entre uma imagem minada 120 e a imagem dada 114. Por exemplo, em uma implementação o modelo de anotação 112 utiliza a distância de Hamming para medir o número de bits diferentes entre as duas respectivas imagens e determina uma medida de similaridade de imagem. Com respeito em usar distância ponderada de código de valores hash, e porque os bits mais altos são em geral considerados ser mais significativos que os bits mais baixos, o módulo de anotação 112 fornece a diferença entre os bits mais altos (associados às imagens sendo comparadas) com mais peso que a diferença entre os bits mais baixos. O módulo de anotação 112 separa uniformemente as assinaturas de valores hash em caixas (por exemplo, códigos de valores hash de 32-bits em 8 caixas), e pondera a ji caixa por 288-i, 1 < i< 8. Esta equação pode ser modificada para ajustar-se aos melhores resultados. Por exemplo, se o número de caixas não for igual a oito, a equação é ajustada para representar o número de caixas sendo usadas. Desta maneira, a distância visual (classificação) entre uma primeira imagem e uma segunda imagem é a distância de Hamming ponderada.

[00017] Módulo de anotação 112 identifica N imagens de classificação máxima 126 das magens minadas 120 com base nas medições de similaridade visual entre as respectivas das imagens minadas 120 e imagem dada 114. Nesta implementação, o parâmetro N é configurável com base na implementação particular do sistema 100. Por exemplo, em uma implementação, Né igual a 2000, embora N possa também ser um valor diferente.

PREDIÇÃO DE ANOTAÇÃO EXEMPLAR

[00018] Módulo de anotação 112 recupera ou extrai outras anotações associadas à(s) imagem(ns) de classificação máxima 126. Estas outras anotações são mostradas como anotação(ões) extraída(s) 128. Estes outras anotações são recuperadas pelo módulo de anotação (ou de um módulo de programa diferente tal como um módulo rastejador de rede) do(s) contexto(s) da(s) imagem(ns) de classificação máxima 126 em suas respectivas localizações nas bases de dados locais e/ou remotas. Tais contextos incluem, por exemplo, um título de um recurso (uma imagem de classificação máxima 126), um nome de uma pasta de diretório associado ao recurso, uma descrição do recurso, texto em associação com o recurso em uma página de rede ou em um documento, texto associado a outras imagens em relação (por exemplo, em uma mesma página de rede, em uma mesma pasta, documento, etc.) ao recurso, um Identificador de Recurso Universal (URI) especificando uma localização do recurso, uma categoria do recurso, e/ou assim por diante.

[00019] Módulo de anotação 112 agrupa as anotações extraídas 128 (isto é, trata cada uma das anotações extraídas 128 como um respectivo documento) para identificar conceitos de classificação máxima (por exemplo, palavras e/ou frases) das anotações extraídas 128. Para propósitos de ilustração exemplar, tais agrupamentos e conceitos são mostrados como respectivas porções de “outros dados de programa” 124. Em uma implementação, por exemplo, o módulo de anotação 112 identifica estes conceitos implementando (ou do contrário acessando de “outros módulos de programa” 118) operações de agrupamento tais como aquelas descritas em “Learning to Cluster Web Search Results”, Zeng, H. J., He, Q. C., Chen, Z., e Ma, W.-Y, 27a Annual lnternational Conference on Research and Development in lnformation Retrieval, Sheffield, Reino Unido, (julho de 2004), págs. 21 0-21 7, embora diferentes técnicas de agrupamento possam também ser usadas. As operações de agrupamento geram vários agrupamentos, cada agrupamento sendo atribuído a um respectivo conceito comum (ou frase relevante).

[00020] Para obter um conceito comum para cada agrupamento (um nome de agrupamento), as operações de agrupamento extraem frases (n-gramas) das anotações extraídas 128, e calcula uma ou mais propriedades para cada frase extraída (por exemplo, frequências de frase, frequências de documento (isto é, frequências de frase-para- anotação), etc.). As operações de agrupamento aplicam um modelo de regressão pré-configurado para combinar as propriedades calculadas em uma classificação de relevância simples para cada agrupamento. Usando a classificação de relevância, as operações de agrupamento usam as frases de classificação máxima como os conceitos comuns (nomes) de agrupamentos candidatos. Estes agrupamentos cândida- tos são também fundidos de acordo com seus documentos correspondentes (isto é, imagens digitais associadas) para atribuir uma classificação de relevância final a cada agrupamento.

[00021] Nesta implementação, e para cada agrupamento, um limiar é usado para fundir (filtrar) imagens candidato de classificação máxima 126 para o agrupamento (outras técnicas podem também ser usadas para fundir imagens com os respectivos agrupamentos). O limiar é igual a um peso de similaridade de imagem * uma classificação de similaridade visual média. Nesta implementação, o peso de similaridadeé selecionado de uma faixa de 0,8—1,6 com base na implementação da operação de agrupamento específica, embora outras faixas possam ser usadas também. Por exemplo, nesta implementação, o peso de similaridade é igual a 1,2 (quando o peso de similaridade for igual a 1,6 imagens não suficientes foram usadas para o agrupamento, enquanto que quando o peso de similaridade foi ajustado em 0,08, quase todas imagens foram usadas para o agrupamento). A classificação de similaridade visual de imagem média é igual à SOMA da similaridade visual de imagem i para a imagem dada 114 (isto é, produzida pelas operações acima descritas de palavra-chave e de filtração visual) dividido pelo número de imagens minadas 120.

[00022] A classificação de relevância final de um agrupamento pode ser determinada usando vários critérios. Por exemplo, classificações de relevância dos agrupamentos podem ser determinadas usando critério de tamanho de agrupamento máximo, critério de classificação média de imagem de membro, etc. Com respeito ao critério de tamanho de agrupamento máximo que é estimação de Maximum a Posteriori (MAP), este critério assume que conceitos comuns com a maior relevância para imagem dada 114 são frases de conceitos dominantes das imagens de membro de agrupamento. Desse modo, de acordo com esta técnica, a classificação de relevância final de um agrupamento é igual ao número de suas imagens de membro. Nesta implementação, por exemplo, o critério de tamanho de agrupamento máximo é utilizado e os 3 agrupamentos maiores (e nomes de agrupamento associados) são selecionados.

[00023] Com respeito em usar critério de classificação média de imagem de membro para atribuir classificações de relevância aos agrupamentos, esta técnica usa uma média de similaridade de imagem de membro como a classificação de um agrupamento. Se todas as imagens em um agrupamento forem as mais relevantes para anotação de linha base 122, o conceito comum deste agrupamento provavelmente representa o da imagem dada 114. Para este fim, um limiar (ou outros critérios) é usado como um intervalo para determinar se agrupamentos de classificação mais baixa serão omitidos do conjunto final de agrupamentos. Nesta implementação, o limiar é fixado de acordo com o seguinte: 0,95 * (classificação do agrupamento que classificou i-1), em que i representa uma classificação de um agrupamento atual. Se a classificação do agrupamento atual (isto é, o agrupamento que classificou i) for menor que este limiar, o agrupamento atual e todos os outros agrupamentos de variação mais baixa não são usados. Se mais que um número particular de agrupamentos (por exemplo, 3 ou algum outro número de agrupamentos) exceder este limiar, apenas o número particular de classificação máxima (por exemplo, 3 ou algum outro número) de agrupamentos será usado para identificar os conceitos extraídos finais.

[00024] Nesta implementação, o módulo de anotação 112 gera anotações relevantes e complementares 116 removendo palavras- chaves duplicadas, termos, etc., dos conceitos comuns (nomes de agrupamento) associados aos agrupamentos que têm classificações de relevância finais (classificações) que excedem o limiar. Módulo de anotação 112 anota a imagem dada 114 com anotações relevantes e complementares 116.

UM PROCEDIMENTO EXEMPLAR

[00025] Fig. 2 mostra um procedimento exemplar 200 paraanotação por pesquisa, de acordo com uma modalidade. Para propósitos de ilustração e descrição exemplares, as operações de procedimento 200 são descritas com respeito aos componentes da Fig. 1. No bloco 202, um conjunto de imagens digitais (isto é, imagens minadas 120) que são semanticamente relacionadas a uma anotação de linha base 122 de uma imagem dada 114 são identificadas. Como um exemplo, o módulo de anotação 112 executa uma pesquisa baseada em palavra-chave de base(s) de dados local(is) e/ou remota(s) para localizar um conjunto de imagens digitais (isto é, imagens minadas 120) que estão semanticamente relacionadas a uma anotação de linha base 122 da imagem dada 114. Em uma implementação, a imagem dada 114 e anotação de linha base 122 representam uma consulta de pesquisa (mostrada em “outros dados de programa” 124) de um usuário do dispositivo de computação 102. Um usuário pode entrar os comandos e informação no computador 102 por meio de dispositivos de entrada (não mostrados) tais como teclado, dispositivo de apontamento, reconhecimento de voz, etc. Em outra implementação, a imagem dada 114 e anotação de linha base 122 representam uma consulta de pesquisa 130 de um usuário do dispositivo de computação remoto 132 que está acoplado ao dispositivo de computação 102 na rede 123. Por exemplo, um usuário do dispositivo de computação remoto 130.

[00026] No bloco 204, similaridade visual de cada uma da imagem minada 120 à imagem dada 114 é medida (classificada). Em uma implementação, por exemplo, o módulo de anotação 112 mede a similaridade visual de cada imagem minada 120 à imagem dada 114. Existem múltiplas possíveis técnicas para medir similaridade visual entre cada imagem minada 120 à imagem dada 114. Tais técnicas incluem, por exemplo, de-duplicação de código de valores hash mais distância Euclidiana, distância de código de valores hash, distância ponderada de código de valores hash, etc

[00027] No bloco 206, as imagens de classificação máxima 126 das imagens minadas 120 que são visualmente similares à imagem dada 114 são identificadas (derivadas). Em um exemplo, o módulo de anotação 112 identifica as imagens de classificação máxima 126 das imagens minadas 120 com base nas medições de similaridade visual (isto é, as classificações de similaridade visual) entre as respectivas das imagens minadas 120 e imagem dada 114. Nesta implementação, o número de imagens de classificação máxima 126 é configurável com base na implementação particular do sistema 100. No bloco 208, outras anotações (isto é, anotação(ões) extraída(s) 128) associadas às imagem(ns) de classificação máxima 126 são dos contextos de imagens de classificação máxima 126. Tais contextos incluem, por exemplo, um título de um recurso (uma imagem de classificação máxima 126), um nome de uma pasta de diretório associada ao recurso, uma descrição do recurso, texto em associação com o recurso em uma página de rede ou em um documento, texto associado a outras imagens em relação (por exemplo, em uma mesma página de rede, em uma mesma pasta, documento, etc.) ao recurso, um Identificador de Recurso Universal (URI) especificando uma localização do recurso, uma categoria do recurso, e/ou assim por diante. Em um exemplo, o módulo de anotação 112 recupera ou extrai outras anotações (isto é, anotação(ões) extraída(s) 128) associadas à(s) imagem(ns) de classificação máxima 126.

[00028] No bloco 210, as anotações extraídas 128 são agrupadas para identificar conceitos comuns de classificação máxima (por exemplo, palavras e/ou frases que compreendem anotações relevantes e complementares 116) das anotações extraídas 128. Estes conceitos comuns de classificação máxima são mostrados como anotações relevantes e complementares 116. Em uma implementação, o módulo de anotação 112 agrupa as anotações extraídas 128 para identificar as anotações relevantes e complementares 116. No bloco 212, imagem dada 114 (suplementada) é anotada com pelo menos um subconjunto de anotações relevantes e complementares 116. Por exemplo, em uma implementação, palavras-chaves duplicadas, termos, etc. são removidos das anotações relevantes e complementares 116 antes de anotar a imagem dada 114 com anotações relevantes e complementares 116. Em uma implementação, o módulo de anotação 112 anota a imagem dada 114 com pelo menos um subconjunto de anotações relevantes e complementares 116.

[00029] Fig. 3 mostra estrutura exemplar 300 de dados e fluxo de processo para anotação por pesquisa do sistema 100, de acordo com uma modalidade. Para propósitos de descrição e referência exemplares, aspectos de estrutura 300 são descritos com respeito aos componentes e/ou operações das Figs. 1 e 2. Na descrição, o numeral mais à esquerda de um número de referência indica a primeira figura em que o componente ou operação é apresentada.

[00030] Referindo à Fig. 3, estrutura 300 mostra três estágios para anotação por pesquisa, incluindo um estágio de pesquisa baseado em palavra-chave (mostrado pelo numeral (1)), um estágio de pesquisa de característica visual (mostrado pelo numeral (2)), e um agrupamento de anotação, ou estágio de aprendizagem (mostrado por numeral (3)). Dados 302 representam uma consulta associada a uma imagem 304 (isto é, imagem dada 114) e uma legenda 306 (isto é, anotação de linha base 122). Em uma implementação, a consulta 302 é uma consulta de pesquisa recebida de um usuário do dispositivo de computação 102 ou dispositivo de computação remoto 132 (por exemplo, por favor vide consulta 130 da Fig. 1). Neste exemplo, imagem de consulta 304 é uma paisagem incluindo pelo menos um lago, nuvens e árvores. Pode ser apreciado, que imagem de consulta 304 possa representar qualquer tipo de imagem. Neste exemplo, a legenda 306 indica a palavra “pôr-do-sol” para anotar a imagem de consulta 304.

[00031] Operação 308, usando a legenda 306 (“pôr-do-sol”), executa uma pesquisa baseada em palavra-chave da base de dados 310 para identificar um conjunto de imagens 312 (isto é, imagens minadas 120) que estão semanticamente relacionadas à imagem de consulta. Base de dados 310 representa qualquer combinação de bases de dados de imagem locais e/ou remotas do sistema 100 da Fig. 1. Fluxo de dados de informação associada à legenda 306 é mostrado na Fig. 3 com linhas sólidas. Operação 309 gera os respectivos mapas/assinaturas de valores hash 314 para cada uma da imagem de consulta 304 e imagens semanticamente relacionadas 312 para operações de pesquisa de similaridade subsequentes. Fluxo de dados de informação associada à imagem dada 114 é mostrado na Fig. 3 com linhas tracejadas.

[00032] Operação 316 classifica (isto é, mede) similaridade visual de imagens semanticamente relacionadas 312 à imagem de consulta 304 usando a respectiva assinatura de valores hash 314 de cada imagem 312 e a assinatura de valores hash 314 da imagem de consulta 304. Há várias técnicas para medir esta similaridade visual (ou distância) com assinaturas de valores hash 314. Tais técnicas incluem, por exemplo, de- duplicação de código de valores hash mais distância Euclidiana, distância de código de valores hash, distância ponderada de código de valores hash, etc. Estrutura 300 usa as classificações de similaridade visual para selecionar um número configurável das imagens 312 que são visualmente mais similares à imagem de consulta 304 que outra das imagens 312. Estas imagens visualmente mais similares 312 são mostradas como imagens 318 de classificação máxima (318-1 a 318-N). Imagens de classificação máxima 318 representam imagens de classificação máxima 126 da Fig. 1.

[00033] Estrutura 300 extrai anotações de contextos associados às imagens de classificação máxima 318. Como debatido acima, tais contextos incluem, por exemplo, um título de uma imagem 318, um nome de uma pasta de diretório associado a uma imagem 318, uma descrição de uma imagem 318, texto em associação com uma imagem 318 em uma página de rede ou em um documento, texto associado a outras imagens em relação (por exemplo, em uma mesma página de rede, em uma mesma pasta, documento, etc.) a uma imagem 318, um Identificador de Recurso Universal (URI) especificando uma localização de uma imagem 318, uma categoria de uma imagem 318, e/ou assim por diante. Estas anotações extraídas são mostradas como anotações extraídas 320 (isto é, anotações extraídas 128 da Fig. 1). Fluxo de dados associado às anotações extraídas 320 é mostrado com linhas tracejadas e pontilhadas associadas ao estágio (3).

[00034] No bloco 322, a estrutura 300 executa as operações de agrupamento de resultado de pesquisa (isto é, agrupamento) para identificar os conceitos comuns de classificação máxima (por exemplo, anotações complementares 324-1 a 324-N) dos agrupamentos (por exemplo, agrupamentos 326-1 326-N) das anotações extraídas 320. Nesta implementação, estes conceitos comuns são determinados usando as operações descritas em “Learning to Cluster Web Search Results”, Zeng, H J., He, Q. C., Chen, Z., e Ma, W.,-Y, 27th Annual International Conference on Research and Developlment in Information Retrieval, Sheffield, Reino Unido, (julho de 2004), págs. 210-217, embora técnicas de agrupamento diferentes pudessem também ser usadas.

[00035] Embora cada agrupamento 326 seja ilustrado com um respectivo conjunto de imagens e um conceito comum subjacente 324, os agrupamentos 326 não contêm imagens. Do contrário, cada agrupamento 326 inclui certas anotações extraídas 320. Esta ilustração de imagens em um agrupamento é meramente simbólica para mostrar a relação de cada conceito comum 324 a cada imagem de classificação máxima 318 associada a uma ou mais das respectivas anotações extraídas 320. Estrutura 300 remove palavras-chaves duplicadas, termos, e/ou assim por diante, dos conceitos comuns 324 para gerar anotações complementares 328. Anotações complementares 328 representam anotações relevantes e complementares 116 da Fig. 1. Nas operações 330, a estrutura 300 anota a imagem de consulta 304 com anotações complementares 328.

[00036] Em uma implementação, as operações descritas da estrutura 300 são executadas por um respectivo módulo de programa 108 da Fig. 1. Por exemplo, em uma implementação, módulo de anotação 112 implementa as operações de estrutura 300.

CONCLUSÃO

[00037] Embora os sistemas e métodos para anotação por pesquisa tenham sido descritos em linguagem específica às características estruturais e/ou operações ou ações metodológicas, é entendido que as implementações definidas nas reivindicações em anexo não necessáriamente são limitadas às características ou ações específicas descritas acima. Por exemplo, embora o sistema 100 tenha sido descrito como identificando primeiro imagens semanticamente relacionadas e depois determinando similaridade visual das imagens semanticamente relacionadas para gerar imagens de classificação máxima 126, em outra implementação, o sistema 100 gera imagens de classificação máxima 126 usando apenas um de: (a) as operações de pesquisa por palavra- chave descritas; ou (b) uma pesquisa de bases de dados locais e/ou remotas para imagens visualmente similares. Quando as imagens de classificação máxima 126 são geradas de apenas imagens visualmente similares, a imagem dada 114 pode ser entrada como uma imagem de consulta independente da anotação de linha base 122. Em outro exemplo, em uma implementação o dispositivo de computação 102 fornece uma anotação através de serviço de pesquisa aos dispositivos de computação remotos 132 na rede 123. Em vista do acima, as características e operações específicas do sistema 100 são reveladas como formas exemplares de implementar o assunto reivindicado.

Claims

1. Memória que armazena um método caracterizado pelo fato de que compreende: pesquisar um ou mais armazenamentos de dados para imagens que são semanticamente relacionadas a uma anotação de linha base de uma determinada imagem e visualmente semelhantes à imagem fornecida; medir a semelhança visual das imagens semanticamente relacionadas com a imagem dada, em que pelo menos um subconjunto das imagens é selecionado a partir de algumas das imagensdeterminadas como sendo mais semelhantes visualmente à imagem dada do que outras das imagens; calcular propriedades para frases extraídas das respectivas anotações associadas a pelo menos um subconjunto das imagens, as anotações sendo agrupadas em um respectivo cluster de múltiplos clusters; combinar, para cada cluster, as propriedades associadas para gerar uma classificação de relevância para o cluster, em que conceitos comuns estão associados a um ou mais clusters com classificações de relevância mais altas em comparação com as classificações de relevância associadas a outros dos clusters; e anotar a imagem fornecida com conceitos comuns de anotações associadas a pelo menos um subconjunto das imagens que são semanticamente relacionadas e visualmente semelhantes à imagem fornecida.

2. Memória, de acordo com a reivindicação 1, caracterizada pelo fato de que ainda compreende a remoção de termos duplicados dos conceitos comuns antes de anotar a imagem dada.

3. Memória, de acordo com a reivindicação 1, caracterizada pelo fato de que ainda compreende receber uma consulta de pesquisa que compreende a imagem dada e a anotação de linha base.

4. Memória, de acordo com a reivindicação 1, caracterizada pelo fato de que ainda compreende: recuperar as imagens que estão semanticamente relacionadas a um ou mais armazenamentos de dados sendo pesquisados; e determinar um conceito comum de anotações com base em pelo menos um ou mais grupos ponderados de anotações associados a pelo menos um subconjunto das imagens sendo recuperadas, em que a anotação inclui anotar a imagem dada com o conceito comum de anotações.

5. Método implementado por computador caracterizado pelo fato de que compreende: pesquisar um primeiro conjunto de imagens semânticamente relacionadas a uma anotação de linha base de uma determinada imagem; avaliar cada imagem no primeiro conjunto de imagens para identificar um segundo conjunto de imagens que estão pelo menos conceitualmente relacionadas no espaço visual com a imagem dada; identificar anotações associadas ao segundo conjunto de imagens; determinação de conceitos comuns entre as respectivas anotações, em que a determinação de conceitos compreende: agrupar as anotações em uma pluralidade de clusters de modo que cada cluster dos clusters seja associado a um conceito relevante do cluster; determinar as classificações de relevância para cada conceito relevante de vários conceitos relevantes associados aos clusters; selecionar um conjunto de conceitos de relevância com classificação máxima a partir de vários conceitos relevantes com base nos respectivos das classificações de relevância, em que pelo menos um subconjunto dos conceitos de relevância com classificação máxima são as anotações complementares; e anotar a imagem fornecida com pelo menos um subconjunto dos conceitos como anotações complementares.

6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que ainda compreende receber entrada compreendendo a imagem dada e a anotação de linha base.

7. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que a pesquisa ainda compreende correlacionar a anotação de linha base com textos associados ao primeiro conjunto de imagens.

8. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que a avaliação ainda compreende comparar recursos visuais codificados por assinatura hash da imagem dada com os respectivos recursos visuais codificados por assinatura hash de cada imagem no primeiro conjunto de imagens.

9. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que a avaliação ainda compreende: medir a semelhança visual de cada imagem no primeiro conjunto de imagens com a imagem dada; identificar, com base em medições de similaridade visual determinadas na medição, um conjunto de imagens com classificação máxima que estão mais visualmente relacionadas à imagem dada do que outras imagens do primeiro conjunto de imagens; e em que o segundo conjunto de imagens são as imagens com classificação máxima.

10. Método, de acordo com a reivindicação 5, caracte- rizado pelo fato de que identificar anotações compreende ainda extrair texto de contextos do segundo conjunto de imagens.

11. Dispositivo de computação, caracterizado pelo fato de que compreende: um processador; e uma memória acoplada ao processador, a memória tendo um método caracterizado por compreender: receber uma consulta de pesquisa que compreende uma determinada imagem e uma anotação de linha base da imagem dada; pesquisar um primeiro conjunto de imagens semânticamente relacionadas à anotação de linha base da imagem dada; avaliar cada imagem no primeiro conjunto de imagens para identificar um segundo conjunto de imagens que estão visualmente relacionadas com a imagem dada, em que o segundo conjunto de imagens compreende certas imagens determinadas a serem mais visualmente relacionadas com a imagem dada do que outras das imagens ; calcular propriedades para frases extraídas das respectivas das anotações, as anotações sendo agrupadas em um respectivo cluster de múltiplos clusters; combinar, para cada cluster, as propriedades associadas para gerar uma classificação de relevância para o cluster, em que conceitos comuns estão associados a um ou mais clusters com classificações de relevância mais altas em comparação com as classificações de relevância associadas a outros dos clusters; e suplementar a imagem dada com anotações adicionais associadas ao segundo conjunto de imagens, cada imagem no primeiro segundo conjunto de imagens sendo visualmente semelhante à imagem dada e associada a anotações que estão semanticamente relacionadas à anotação de linha base, em que as anotações adicionais são selecionadas a partir de anotações de imagens e não de uma lista predeterminada.

12. Dispositivo de computação, de acordo com a reivindicação 11, caracterizado pelo fato de que as anotações adicionais representam um ou mais dentre um título, uma descrição, uma categoria, informações de uma página da web, um nome de pasta, pelo menos uma parte de um Identificador de Recurso Uniforme, e texto em associação com uma imagem diferente que não está no primeiro conjunto de imagens.

13. Dispositivo de computação, de acordo com a reivindicação 11, caracterizado pelo fato de que ainda compreende derivar o primeiro conjunto de imagens por mineração das imagens de um ou mais bancos de dados de imagens, cada imagem no primeiro conjunto de imagens sendo extraída com base no texto associado à imagem dada.

14. Dispositivo de computação, de acordo com a reivindicação 11, caracterizado pelo fato de que ainda compreende: realizar uma pesquisa baseada em palavras-chave para localizar o primeiro conjunto de imagens que estão semanticamente relacionadas à anotação de linha base; pesquisar o primeiro conjunto de imagens por uma ou mais imagens que tenham semelhança visual substancial com a imagem dada; extrair texto de um ou mais contextos de uma ou mais imagens que têm semelhança visual substancial com a imagem dada; e em que o texto compreende pelo menos anotações adicionais.

15. Dispositivo de computação, de acordo com a reivindicação 14, caracterizado pelo fato de que ainda compreende: identificar frases no texto; atribuir classificações de relevância às frases com base nas respectivas propriedades da frase; e em que as anotações adicionais compreendem pelo menos uma parte do texto com classificações de relevância mais altas em comparação com as classificações de relevância associadas a outras partes do texto.

16. Dispositivo de computação, de acordo com a reivindi-cação 15, caracterizado pelo fato de que as respectivas propriedades de frase compreendem uma ou mais das frequências de frase e frequências de frase para anotação.