BRPI0520649A2

BRPI0520649A2 - busca por dados estruturados

Info

Publication number: BRPI0520649A2
Application number: BRPI0520649-9A
Authority: BR
Inventors: Bindu Reddy; Jonathan Brunsman; Ning Mosberger; Gaurav Ravindra Bhaya; Sarah Sirajudding; David Kale; Jennifer L Kozenski; Arvind Sundararajan; Puneet Agarwal; Marshall Spight
Original assignee: Google Inc
Priority date: 2005-10-23
Filing date: 2005-12-13
Publication date: 2010-04-06
Also published as: CA2626860C; AU2005337489A1; US8762372B2; KR20080066818A; WO2007046830A3; CN101341464A; CA2626860A1; AU2005337489B2; KR101222253B1; JP5560258B2; WO2007046830A2; EP1952273A2; JP2012043477A; JP2009512954A; EP1952273B1; JP5112324B2; AU2012200884A1; US7933900B2; CN101341464B; US20070168331A1

Abstract

BUSCA POR DADOS ESTRUTURADOS. A presente invenção refere-se a um usuário que pode refinar uma busca por dados estruturados ao especificar que um rótulo ou um valor de atributo seja usado para a filtração adicional dos resultados de uma consulta.

Description

Relatório Descritivo da Patente de Invenção para "BUSCA POR DADOS ESTRUTURADOS".

Pedidos Relacionados

Este pedido reivindica os benefícios segundo o 35 U.S.C. §119(e) para o Pedido de Utilidade U.S. Ne de Série 11/257.282, intitulado"Search Over Structured Data", de Reddy et al., depositado em 23 de outubro de 2005.

Este pedido está relacionado ao Pedido U.S. NQ de Série11/256.883, intitulado "Adding Attributes and Labels to Structured Data", deReddy et al., depositado em 23 de outubro de 2005, e os quais são incorporados aqui como referência.

Antecedentes da Invenção

Os agentes de busca convencionais são capazes de buscaremem coleções extremamente grandes de informação, tais como a rede mundial ou bancos de dados muito grandes. Conforme o tamanho de coleçõesde dados a serem buscadas cresce, não é mais suficiente retornar corretamente os resultados de consulta que combinarem com os termos de consulta introduzidos por um usuário. Ao invés disso, é desejável prover um mecanismo para ajudar ao usuário a classificar pela grande quantidade de dadosretornados a partir de uma busca.

Vários agentes de busca convencionais atualmente usam váriosmétodos para a organização dos dados retornados em um resultado de consulta. A meta de um método de organização como esse é decidir qual resultado de consulta interessará mais ao usuário. Os agentes de busca convencionais usam geralmente uma variedade de técnicas para a priorizaçao dosresultados de uma busca, mas estas técnicas não são ideais, porque elasdevem fazer hipóteses sobre o tipo de informação o qual o usuário está buscando.

Por exemplo, se o usuário introduzir "jobs", ele poderia estar buscando postagens de serviço, informação sobre Steve Jobs, estatísticas de serviço para um país em particular, ou qualquer número de outros itens. Assim,quando usando um agente de busca convencional, um usuário não introduziria apenas "jobs" como um termo de consulta. Provavelmente ele tambémintroduziria termos de consulta adicionais que estreitassem a busca. Infeliz-mente, ele também pode perder listagens relevantes que não contêm ostermos de estreitamento.

Atualmente, é difícil buscar outros tipos diferentes de dados quepodem ou não ser armazenados na rede mundial. Os agentes de busca convencionais usualmente operam em dados a partir de umas poucas fontes.

Por exemplo, agentes de busca baseados na web tradicionalmente permitemque um usuário busque em páginas na rede mundial. Os agentes de buscada web freqüentemente têm uma "back end" que indexa a coleção de informação, de modo a torná-la buscável. Por exemplo, agentes de busca baseados na web periodicamente varrem metodicamente a rede mundial e criamíndices das páginas e dos sítios varridos metodicamente. Outros agentes debusca permitem que um usuário busque em bancos de dados existentes.

Esses agentes de busca se baseiam em uma organização predeterminadado banco de dados. Por exemplo, se um banco de dados tiver campos e atributos conhecidos, o usuário pode buscar nestes atributos. Por exemplo, osbancos de dados em XML apenas aceitam entradas em XML bem formadas.Se os dados a serem buscados não forem organizados dessa forma, osbancos de dados em XML geralmente não serão capazes de aceitarem osdados ou organizarem os dados para uma busca.

Outros agentes de busca permitem que um usuário busque embancos de dados ou pesquise documentos de texto tendo uma organizaçãosimples. Esses agentes de busca devem ter conhecimento sobre a organização do banco de dados e a organização dos documentos dentro dele. Avariedade de localizações e de formatos nos quais os dados são armazenados significa que os usuários devem freqüentemente buscar em múltiplaslocalizações em múltiplos bancos de dados para encontrarem a informaçãode que eles necessitam.

Seria desejável que uma coleção de documentos fosse buscávelatravés de um agente de busca baseado na web e, assim, facilmente acessível para a maioria das pessoas enquanto, ao mesmo tempo, contivesseuma variedade de tipos de documentos e formatos de dados. Mais ainda,seria desejável que as coleções buscáveis de documentos fossem organiza-das de formas que pudessem ajudar os usuários a fazerem uma sintonia finaem suas buscas.

Sumário da Invenção

As modalidades descritas da presente invenção associam rótulos evalores de atributo com itens de dados a serem buscados. Os provedores podem associar atributos e rótulos a seus dados ou atributos e rótulospodem ser adicionados a dados existentes. Uma modalidade preferida permite que um provedor de conteúdo anexe seus próprios rótulos e atributospersonalizados a itens ou use rótulos e atributos predefinidos. Os provedores podem transferir (via upload) dados usando uma interface de usuário ouum mecanismo de transferência (via upload) em volume. Um usuário poderefinar uma busca ao especificar que um rótulo ou um valor de atributo sejausado para filtrar adicionalmente os resultados de uma consulta.

Breve Descrição dos Desenhos

Os ensinamentos da presente invenção podem ser prontamenteentendidos pela consideração da descrição detalhada a seguir em conjuntocom os desenhos associados. Números de referência iguais são usados para elementos iguais nos desenhos associados.

A Figura 1 (a) é um diagrama de blocos que mostra um sistemade processamento de dados de acordo com uma modalidade preferida dapresente invenção.

A Figura 1(b) é um diagrama de blocos que mostra um outro sistema de processamento de dados de acordo com uma modalidade preferidada presente invenção.

A Figura 1 (c) é um diagrama de arquitetura de acordo com umamodalidade preferida da presente invenção.

A Figura 2(a) é um fluxograma que mostra uma visão geral decriação de uma coleção de itens de dados buscáveis de acordo com umamodalidade preferida da presente invenção.

A Figura 2(b) é um fluxograma que mostra uma visão geral debusca na coleção de documentos e refinamento da busca de acordo comuma modalidade preferida da presente invenção.A Figura 3(a) é um fluxograma que mostra um método de extração de rótulos e atributos a partir de uma coleção de itens de dados.

A Figura 3(b) é um fluxograma que mostra um método de recebimento de um termo de consulta e exibição de um resultado de consulta.

A Figura 3(c) é um fluxograma que mostra um método de determinação de quais atributos exibir para um dado resultado de consulta.

A Figura 3(d) é um fluxograma que mostra um método de permitir que o usuário refine o resultado de consulta exibido usando rótulos e/ouvalores de atributo.

A Figura 3(e) mostra um método realizado periodicamente paradeterminar se quaisquer atributos novos providos por provedor devem seradicionados aos atributos de Núcleo para um tipo de informação.

A Figura 4(a) é um instantâneo de tela de exemplo de um agentede busca e um termo de consulta introduzido por um usuário.

As Figura 4(c) a 4(g) são instantâneos de tela de exemplo mostrando atributos e rótulos adicionais e como um usuário poderia estreitar estabusca usando atributos e/ou rótulos.

A Figura 5(a) mostra um formato de dados usado para o armazenamentode atributos e rótulos para uma coleção de dados buscáveis.

A Figura 5(b) mostra um exemplo de um atributo armazenadousando o formato da Figura 5(a).

A Figura 5(c) mostra um exemplo de um rótulo armazenado usandose o formato da Figura 5(a).

A Figura 5(d) mostra uma estrutura de dados de exemplo paramapeamento de tipos de informação para seus atributos.

A Figura 5(e) mostra um exemplo de um tipo de informação mapeado para alguns atributos de exemplo para aquele tipo de informação.

As Figura 6(a) a 6(e) são instantâneos de tela de exemplo mostrando uma interface de usuário que permite que um provedor edite e introduza dados no sistema.

A Figura 7 é um instantâneo de tela de exemplo mostrando umainterface de usuário para registro de um arquivo de transferência (via upload)em volume.

As Figura 8(a) a 8(d) mostram como um provedor faz uma transferência (via upload) em volume de dados e valores de atributo.

As figuras descrevem modalidades da presente invenção parafins de ilustração apenas. Aqueles versados na técnica prontamente reconhecerão a partir da discussão a seguir que modalidades alternativas dasestruturas e métodos ilustrados aqui podem ser empregadas sem se desviardos princípios da invenção descritos aqui.

Descrição Detalhada de Modalidades

Os parágrafos a seguir descrevem várias modalidades de umsistema para transferência (via upload) e busca de dados estruturados deacordo com a presente invenção.

A Figura 1 (a) é um diagrama de blocos 100 que mostra um sistema de processamento de dados de acordo com uma modalidade preferidada presente invenção. A Figura 1(a) inclui uma pluralidade de sistemas deprocessamento de dados de cliente 110a... 110n, uma rede 130 e um sistema de processamento de dados de servidor 120. Na Figura, um sistema deprocessamento de dados de usuário de exemplo 110a inclui um processador140, um navegador 150 e uma memória 160. O sistema de processamentode dados de usuário 100 ou seus componentes podem ser qualquer sistemade processamento de dados apropriado incluindo, mas não limitando, umcomputador pessoal, um computador em rede com fio, um computador derede sem fio, um telefone móvel ou um dispositivo contendo um telefonemóvel, um dispositivo portátil, um dispositivo de cliente leve, alguma combinação dos acima,e assim por diante. A rede 130 pode ser qualquer redeque permita uma comunicação entre um ou mais dos sistemas de processamento de dados de usuário 110 e o sistema de processamento de dadosde servidor 120. Por exemplo, a rede 130 pode ser, mas não está limitada àInternet, uma LAN e uma WAN, uma rede com fio, uma rede sem fio, umarede de telefone móvel, uma rede transmitindo mensagens de texto, algumacombinação das acima.

Em uma modalidade preferida da invenção, o sistema de pro-cessamento de dados de usuário 110a inclui um software de navegador 150em uma memória 160 que é executada pelo processador 140 para se permitir que o usuário se comunique com o sistema de servidor 120. Conformedescrito em detalhes abaixo, um navegador 150 como esse permite que ousuário se comunique com o sistema de processamento de dados de servidor 120 para o envio de termos de consulta para o sistema de processamento de dados de servidor 120 e para o recebimento de resultados de consultaa partir do sistema 120. Conforme adicionalmente descrito abaixo, o navegador 150 permite que o usuário receba rótulos e atributos associados ao resultado de consulta e use os rótulos e atributos para definir adicionalmenteum resultado de consulta. Embora as modalidades discutidas aqui sejambaseadas em navegador, a invenção não está limitada a uma busca baseada em navegador, e qualquer mecanismo apropriado para comunicação entre o usuário 110 e o servidor 120 pode ser usado, sem se desviar do espírito e do escopo da invenção.

Alguns de todos os softwares e as instruções executáveis emcomputador discutidos aqui são capazes de serem armazenados como umproduto de programa de computador em um meio que pode ser lido emcomputador, incluindo, mas não limitando: uma memória de um sistema deprocessamento de dados, um CD-ROM, uma memória flash, um disco flexível, ou capazes de serem transmitidos como sinais por uma rede ou entre componentes de sistema.

O sistema de processamento de dados de servidor 120 inclui umprocessador 170 que executa um software de agente de busca e consulta185 para habilitar o sistema de servidor 120 a buscar em uma coleção dedados estruturados 190 quanto a um termo de consulta. (O agente de buscae consulta 185 também é denominado "agente de busca".) Um exemplo dedados estruturados é de dados em campos, isto é, itens de dados, cada umtendo um ou mais campos de dados (tais como Name (Nome), address (endereço), status, etc).

A memória 180 também inclui um depósito de atributo 195, oqual armazena os atributos (e rótulos) para alguns ou todos os itens de da-dos nos dados estruturados 190. O depósito é discutido abaixo em relação àFigura 5. Embora o depósito 195 seja mostrado como sendo parte de umacoleção de dados estruturados 190, o depósito 195 também pode ser separado da coleção de dados 190.

O agente de busca 185, o depósito 195 e a coleção de dadosestruturados 190 são todos mostrados na Figura 1(a) como estando em umamemória única 180, embora um agente de busca grande e uma coleçãogrande de dados possam ser armazenados de muitas formas, incluindo, masnão limitando, sistemas de processamento de dados distribuídos, sistemasde processamento de dados de cooperação, sensores de pressão de redese assim por diante. O agente de busca 185 pode ser um software, um hardware, um firmware ou qualquer combinação destes.

Em uma modalidade preferida, um termo de consulta é introduzido por um usuário através de um ou mais da pluralidade de sistemas de usuário 110 e transmitido para o sistema de processamento de dados deservidor 120 através da rede 130. Os detalhes de métodos usados pelo servidor 120 para recebimento, indexação e busca das coleções de dados são discutidos em detalhes aqui.

A Figura 1 (b) é um diagrama de blocos 111 que mostra um outrosistema de processamento de dados de acordo com uma modalidade preferida da presente invenção. Na Figura 1 (b), o usuário armazena uma coleção de dados pessoais 190 em sua máquina 110. É contemplado que um agentede busca pessoal acessará e organizará estes dados para torná-los buscáveis pelo usuário e, possivelmente, por outros usuários pela rede 130.

Um sistema como esse também permitiria que bancos de dados e outros tiposde coleções de dados fossem adicionadas ao grupo de documentos buscáveis que são acessíveis pelo agente de busca central.

Na modalidade da Figura 1(b), a coleção de dados 190 é armazenada em um sistema de processamento de dados de usuário 110 ou um servidor de empresa (não mostrado) e pode ser tornado disponível para umgrupo selecionado de pessoas ou indivíduos, tal como apenas par ao usuário, apenas para um subconjunto menor de usuários, ou para todos os usuá-rios que estiverem cientes de como acessar a coleção de dados 190. Nessecaso, a capacidade de filtrar buscas através de atributos e rótulos, conformedescrito aqui, pode ser parte de um agente de busca pessoal 185 que rodelocalmente em um computador ou em uma rede local de computadores.

Por exemplo, a ferramenta Google Desktop Search, disponível a partir do Google, Inc. de Mountain View, CA, é uma ferramenta de busca que roda em umcomputador de mesa de usuário e indexa dados em seu computador pessoal. Uma implementação do Google Desktop Search incorporando a presente invenção proporcionaria ao usuário a capacidade de buscar em bancos de dados e outros tipos de coleções de dados armazenados em ou acessíveis a partir do seu computador de mesa.

Isto também proporcionaria ao usuário a capacidade de organizar seus dados com atributos e rótulos úteis. Por exemplo, uma biblioteca de universidade pode tornar toda a sua coleção on-line disponível para estudantes, faculdades e graduados da universidade. Em um caso como esse, ainformação não estaria no servidor publicamente disponível, mas seria armazenada em um servidor da universidade e seria acessível e buscável apenas por aquelas pessoas (e programas) com acesso permitido pelo provedor de dados da universidade. No exemplo a universidade também seria capaz de controlar quais provedores teriam a capacidade de adicionar algo à coleção de dados.

A Figura 1(c) é um diagrama de arquitetura 131 de acordo comuma modalidade preferida da invenção. Na modalidade descrita, os provedores podem usar uma ou mais de três vias de introdução de dados e atributos no sistema. Uma front end voltada para provedor 132 (vide, por exemplo, aFigura 6(b)) permite que um provedor introduza itens de dados e atributosusando uma interface de usuário provida para aquela finalidade. O provedortambém pode realizar uma transferência (via upload) em volume 133 de itens de dados (vide, por exemplo, as Figura 8(a) a 8(d)). O provedor também pode transferir (via upload) 134 itens a partir de um URL específico (por exemplo, usando FTP). O agente de Busca e Consulta 185 indexa itens nacoleção de dados 190, preferencialmente incluindo os atributos introduzidose seus valores para os itens de dados para a produção de um índice de todos os dados 137. O agente de busca 185 também permite que um usuário introduza uma consulta (vide, por exemplo, a Figura 4(a)). O sistema também inclui uma Interface de Programa Aplicativo (API) para permitir que programas de software consultem os dados através do agente de busca 185.

A Figura 2(a) é um fluxograma 200 que mostra uma visão geralde criação de uma coleção de itens de dados buscaveis de acordo com umamodalidade preferida da presente invenção. Conforme é discutido abaixo emrelação às Figura 6(a) a 6(e) e às Figura 8(a) a 8(d), o servidor 120 recebe202 uma coleção de itens de dados. Estes dados podem ser recebidos comoresultado de uma varredura metódica da web padrão ou podem ser providospor um ou mais provedores que desejarem que seus dados se tornem buscaveis. A coleção recebida de itens de dados é processada para a extração de rótulos, atributos e valores de atributo, conforme descrito abaixo, e aqueles rótulos, atributos e valores de atributo são associados aos vários tipos deinformação. Em certas circunstâncias, um usuário provera nomes de atributoe/ou valores de atributo para alguns ou todos os dados introduzidos. Comoum exemplo, um usuário pode transferir (via upload) um banco de dados queele criou para manter uma coleção de revistas de medicina. Ele pode ter especificado atributos para estas revistas com valores refletindo nomes de atributo, tais como "Journal", "year of publication", "Journal Name" ("Revista","ano de publicação" e "nome da revista"). Ele também pode introduzir zeroou mais rótulos para cada revista, tais como "Medicai", "Dental" e "From Harvard" ("Médica", "Dentária" e "De Harvard"), e assim por diante.

Rótulos são um tipo especial de atributo (também denominado um tag sem valor) quenão têm valores associados a eles. Os detalhes do elemento 204 são discutidos em relação à Figura 3(a).

A Figura 2(b) é um fluxograma 210 que mostra uma visão geralde busca da coleção de documentos e refinamento da busca de acordo comuma modalidade preferida da presente invenção. Em uma modalidade descrita, o usuário introduz 212 um ou mais termos de consulta (tais como "câncer receptor" (receptor de câncer) 402 no instantâneo de tela 400 da Figura4(a)).

Em certas modalidades, o usuário também pode introduzir nomes de atributo e valores como parte de uma consulta digitada na área 402.

Por exemplo, o usuário poderia digital o seguinte na área 402:câncer receptor attr(JournalType: medicai).

Se o usuário souber que alguns itens no resultado de consultativerem um atributo denominado JournalType, mas que o atributo não é parte do conjunto de Núcleo de atributos, e o usuário quer retornar apenas revistas médicas.

O sistema determina 213 um resultado de consulta, conformediscutido em maiores detalhes abaixo em relação à Figura 3(b). Em algumasmodalidades, o resultado de consulta é exibido 213 neste ponto. Em outrasmodalidades, o resultado de consulta não é exibido ainda, mas, ao invésdisso, é perguntado ao usuário se é para refinar adicionalmente esta buscapela seleção de rótulos e/ou atributos específicos para o termo de consulta.

Conforme mostrado, por exemplo, na Figura 3(d), o usuário pode refinar suabusca 214 pela especificação de rótulos e atributos.

A Figura 3(a) é um fluxograma 300 que mostra um método deextração de rótulos e atributos a partir de uma coleção de itens de dados.

Este método é parte do processo de configuração usado para a organizaçãode coleções de dados, de modo que elas possam ser buscadas.

Uma vez que os itens de dados sejam recebidos, para cada itemde dados tendo um tipo de informação, o sistema determina 304 rótulos eatributos para este tipo de informação. Um atributo é um par de nome / valor(name/value) tendo um nome, tal como "journal", o qual então tem um oumais valores possíveis dos nomes de revistas.

Em uma modalidade preferida, os atributos e os rótulos são especificados por um provedor de dados. Assim, a determinação de atributos é meramente uma questão de identificação de atributos providos por usuário e rótulos.

Em certos casos, um provedor de dados não especifica atributose rótulos para seus itens. Por exemplo, se os itens forem páginas da weblocalizadas por um "web crawler", os proprietários das páginas da web nãotêm a oportunidade de especificar atributos ou rótulos para suas páginas.Assim, em uma outra modalidade preferida, os rótulos e atributos são derivados por software para uma coleção de dados. A derivação de rótulos eatributos pode envolver um processo puramente automatizado, no qual valores potenciais para uma lista predeterminada de rótulos e atributos são encontrados na coleção por software. Por exemplo, em uma listagem de itenspara venda (por exemplo, sistema Google's Froogle), quantias de preço seadequando a critérios predeterminados são atribuídas como valores de umatributo "Price" para aquele item. Em uma outra modalidade preferida, osoftware realiza um processo interativo com o provedor no qual o softwarepropõe pares de atributo / valor, os quais então são aceitos ou rejeitadopelo provedor. Em uma outra modalidade preferida, tags de html são escaneados e uma informação descoberta é usada para a derivação de valores de atributo para as páginas tendo os tags. Como um exemplo, se uma página contivesse um comentário em html:

<! Current price is at http://www.todayspricesforbigco.com %id=32423490 !>.

O software obteria um preço atual a partir do URL indicado e otornaria o valor de um atributo Price para aquela página da web.

Uma vez que atributos e rótulos tenham sido associados 306 aitens de dados, os itens de dados são indexados 309, de modo que elespossam ser buscados. Em uma primeira modalidade preferida, os atributos erótulos e seus valores também são indexados, embora em outras modalidades preferidas eles possam ser buscados separadamente ou indexados separadamente.

A Figura 5(a) mostra um exemplo de um formato 500 usado parao armazenamento de rótulos e atributos no depósito 195. Cada item é associado a atributos e rótulos específicos apropriados para seu tipo. Por exemplo, uma postagem de serviço pode ter os atributos job function - "product"management, employer - ABC Corporation e job type - Professional. Os atributos e rótulos em uma modalidade preferida podem ter os valores dos tipos a seguir:BOOLEANINTFLOATURLSTRINGLOCATIONDATEDATE RANGE

Os atributos e rótulos são indicados em um armazenamento pormetatags, conforme se segue:

name</end name><start value>value</end value>

Assim, em uma modalidade preferida, cada atributo é um par denome / valor, tal como um nome de atributo de "journal" e um valor para oatributo "journal" de "Journal of Inflammation" (vide a Figura 5(b)). Cada rótulo tem apenas um nome, tal como "Medicai", o qual indicaria que uma revistaem particular é uma revista médica (vide a Figura 5(c)). Em uma modalidadepreferida, o tipicamente pode informação de um item de dados também é onome de um de seus rótulos. Assim, um item de dados tendo um tipo de informação de "Events and Activities" (Eventos e Atividades) teria também um rótulo com o mesmo nome. Dessa forma, um usuário pode buscar por dadostendo um tipo de informação em particular pela especificação de um rótulocom o mesmo nome que o tipo de informação de item de dados.

A Figura 5(d) mostra uma estrutura de dados de exemplo paramapeamento de tipos de informação para seus atributos. Assim, se um itemem uma coleção de dados 190 tiver um tipo de informação de "product", osatributos do item poderão ser determinados pelo acesso à estrutura de dados da Figura 5(c), a qual inclui os atributos e seu tipo de atributo para o tipode informação "product".

Conforme mostrado na Figura 5(d), cada tipo de informação tematributos predefinidos. Assim, um tipo de informação de "Journal" tem umatributo de "Journal name" com valores de string de tipo de atributo e umrótulo de "Medicai" com valores nulos. Esses atributos permitiriam, por exemplo, que um usuário buscasse um título de revista em particular ou buscasse em todas as revistas médicas. De modo similar, o tipo de informaçãode "product" tem um atributo de "NumAvail", o qual indica um número de umproduto em particular que esteja disponível para venda e tem um tipo de atributo de inteiro. Todos os atributos são opcionais. Os provedores podem escolher preencher qualquer um dos atributos sugeridos para eles ou criarseus próprios.

A Figura 3(b) é um fluxograma 310 que mostra um método deexibição de um resultado de consulta em resposta a um termo ou a termosde consulta recebidos. Em uma modalidade preferida, um resultado de consulta é determinado pelo agente de busca 185. Por exemplo, uma consulta de "câncer receptor" 402 (vide a Figura 4(a)) poderia retornar 312 um resultado de consulta 406 de itens tendo atributos 404, tais como aqueles mostrados na Figura 4(b). Conforme mencionado anteriormente, algumas modalidades da presente invenção determinam, mas não exibem, o resultado deconsulta 406 neste ponto.

Uma vez que um resultado de consulta seja determinado parauma consulta (e opcionalmente exibido), pelo menos alguns dos nomes erótulos de atributo para o resultado de consulta são exibidos 322. Os itensde dados no conjunto de dados 406 têm certos tipos de informação. Os atributos 404 que são inicialmente exibidos são alguns ou todos os atributos para os tipos de informação dos itens de dados no resultado de consulta406. O resultado de consulta terá itens de dados, cada um dos quais tendoatributos diferentes. Os atributos que são mostrados em cima no topo doresultado de consulta são os atributos que são mais comuns no resultado deconsulta e aqueles que foram cucados ou refinados por buscadores ao máximo. Por exemplo, uma consulta "housing" tem uma grande quantidade deitens com quartos e banheiros como atributos e os buscadores sempre refinaram pelos atributos "bathrooms" e "bedrooms" para a consulta housing.

Assim, quartos e banheiros devem aparecer na linha de topo acima dos resultados de busca.

A Figura 4(b) mostra um resultado de consulta 406 e uma pluralidade de nomes de atributo e rótulo 404 ("journal", "pubmed", "news source", "authors"). Os números após cada atributo indicam o número de itens noresultado de consulta 406 que têm o atributo associado a ele. Por exemplo,na Figura 4(b), o resultado de consulta 406 inclui 2050 itens tendo um atributo / rótulo "journal" associado. Assim, o número e a identidade dos atributos mostrados com um resultado de consulta em particular é dependente deconsulta, e ainda é dependente dos atributos e rótulos escolhidos mais tardepara estreitamento da busca.

A Figura 3(c) é um fluxograma 340 que mostra um método dedeterminação de quais atributos exibir para um dado resultado de consulta406. Quando um usuário final realiza uma busca, os resultados q mais relevantes são determinados 341 pelo agente de busca 185 e os n atributos mais populares são determinados 342 para os resultados q mais relevantes.

Para os nomes n de atributo de topo, o sistema determina 344 os valores mde atributo / rótulo de topo. Ele então calcula 348 histogramas, ou oferececontagens, ao contar o número de ofertas combinando no conjunto de resultados relevantes. Os valores q, n e m são todos configuráveis. Os valores de exemplo, os quais não devem ser tomados em um sentido limitativo são: q-1.000 - 100.000 K (q também pode ser regulado para ALL (TODOS) os resultados que combinarem com um termo de consulta em particular). N está na faixa de 10Os e M está na faixa de 20-100.

Em uma modalidade preferida, os atributos são normalizadosantes de histogramas serem determinados. Em certas implementações, umacerta quantidade de limpeza e normalização de dados é feita, quando osdados forem inicialmente armazenados na coleção de dados 190. Na modalidade descrita, uma normalização de dados é feita em andamento, com base no termo de consulta sendo buscado (por exemplo, quando o termo deconsulta é "autos" (carros), faz sentido normalizar todos os atributos de"brand" para "make", embora, se a consulta fosse "handbag", fizesse sentidonormalizar todos os atributos make para "brand"). Outras modalidades podem fazer mais normalização no momento em que os dados são recebidos na coleção de dados 190. Uma normalização de dados é realizada em umamodalidade preferida por:

1. Redução de palavra à raiz - por exemplo, "restaurant = restaurants".

2. Abreviações - por exemplo, sz = "size" (tamanho).

3. Equivalência de unidades - por exemplo, "weight" = "ounces", "Ibs", etc.

4. Correção de grafia tentada.

A redução de palavra à raiz é particularmente útil em sistemasem que os provedores especificam seus próprios nomes de atributo, permitindo que variações e erros de grafia se insinuem na coleção de dados 190.A redução de palavra à raiz, por exemplo, permite que o usuário filtre pornomes de atributo de "Journal", "journasl", "Journsl" e assim por diante comuma única seleção do atributo reduzido à raiz "Journals".

Em certas modalidades preferidas, os atributos adicionais pelos provedores são do tipo checado. Por exemplo, os atributos URL, DateTime,Number, String, Location, Boolean são checados para se ver se eles sãovalores válidos. Algumas modalidades dão um ping em cada valor de URLpara ver se ele está ativo, embora isto seja opcional para várias implementações.

Para uma modalidade preferida, as localizações são geocodificadas, de modo que elas possam ser referenciadas por um serviço de mapeamentoon-line, tal como, por exemplo, GoogleMaps. Em certas modalidades, osatributos de "location" que não puderem ser geocodificados são considerados inválidos.

Uma vez que os atributos populares e rótulos sejam determinados e exibidos em 322 (Figura 3(b)), o usuário tem permissão para especificar 324 um ou mais dos rótulos exibidos e valores de atributo para o resultado de consulta (vide a Figura 3(d)).A Figura 4(c) mostra um exemplo no qual um usuário selecionouo atributo "journal" a partir da Figura 4(b) e está se preparando para introduzir no campo de revistas a qual ele deseja restringir sua busca. Note que o termo de consulta 402 é agora "câncer receptor filter: journal." O atributo"journal" desapareceu dos atributos de Core (Núcleo) listados 404.

De modo similar, na Figura 4(d), o usuário seleciona um segundo atributo "year" (ano) 410 e introduz um ano ou uma faixa de anos pela qual ele deseja buscar no termo de consulta de revistas especificado. O atributo year é de um tipo de atributo "range of years". Note que o termo de consulta 402 é agora "câncer receptor filter: journal filter: year". O atributo "year" desapareceu dos atributos listados 404. Se o usuário selecionar o botão GO 411, a busca será realizada de novo usando-se os atributos selecionados como filtros e uma exibição, tal como aqueles da Figura 4(e) é exibida. Assim, o usuário pode selecionar um ou mais atributos populares para um resultado de consulta exibido e pode filtrar uma busca inicial de acordocom os atributos (ou rótulos) exibidos. Se o usuário deixar um valor de atributo em branco, todos os valores de atributo serão combinados. Por exemplo, se o usuário selecionar o atributo Journal, mas não introduzir um nomede revista, todos os itens de dados com um atributo de journal (e, de modo similar, atributos denominados) serão selecionados como candidatos possíveis para o resultado de consulta. Os itens de dados não tendo um atributo de Journal não são selecionados para o resultado de consulta.

A Figura 4(d) mostra um exemplo em que um usuário selecionoumais de um atributo ou rótulo para estreitamento da busca. Na modalidadedescrita, múltiplos rótulos e atributos são selecionados ao se clicar em múltiplos rótulos e atributos dos rótulos e atributos 404. Outras modalidades preferidas permitem que rótulos e atributos sejam introduzidos na janela debusca 402. Por exemplo, se um atributo "Price" existisse, o usuário poderiadigitar o seguinte como um termo de consulta:

Attribute(Price: $150).

Esta consulta localizaria itens de dados no resultado de consultaatual tendo um atributo de Price e um valor de atributo de $150.Como um outro exemplo, o usuário poderia digitar:

Attribute(Price: $ 150) AND Label(SmallerThanABreadBox).

Esta consulta localizaria itens de dados no resultado de consultaatual tendo um atributo de "Price" e um valor de atributo de $150, e um rótulo de SmallerThanABreadBox. Outras modalidades preferidas usariam outros elementos de interface de usuário apropriados para se permitir que umusuário combinasse logicamente atributos e rótulos.

A Figura 4(e) mostra um resultado de consulta limitado a revistasem particular de um ano em particular ou de uma faixa de anos, conformeespecificado na Figura 4(d). O usuário tem permissão para decidir se elequer continuar a buscar em revistas 412 ou se quer buscar na coleção inteirade itens de dados (por exemplo, "Search ali of Googlebase" (Buscar em todaa base do Google)) 413. No exemplo, é oferecida ao usuário a escolha devários rótulos na área 414 ("biotechnology", "medicai" e "photography", osquais estão respectivamente associados a 30, 15, e 6 itens no resultado deconsulta 406'). No exemplo, ao usuário ainda é oferecida a escolha de especificarvalores para os atributos na área 416: Date, author, pubmed, citation.

Ao usuário também é oferecida a opção de classificar 416 o resultado deconsulta 406' por relevância, atributo de data ou qualquer um dos atributosque o usuário tenha definido (por exemplo, price, location, etc).

Na Figura 4(f), o usuário selecionou o atributo "Date" (Data) apartir da área 414 da Figura 4(e) e recebe uma chance de introduzir umadata 420. Quando o usuário seleciona o operador suspenso "between" (entre), a ele é dada a oportunidade de selecionar uma faixa de data (conformemostrado). O atributo "Date" desapareceu dos atributos listados 418. Nesteexemplo, o atributo de "Author" desapareceu dos atributos 414. Os atributosdesaparecem se eles não forem mais relevantes para a consulta e o resultado de consulta.

O fato que o usuário não filtrou pela revista agora assumeque ele está procurando apenas no conjunto de item restrito. O usuário seleciona o botão Go para realizar uma busca e o termo autor reaparece.

A Figura 4(g) mostra o usuário especificando um nome de autor422. Conforme a consulta está sendo refinada, novos atributos e rótulos apa-recém, uma vez que os atributos e rótulos são baseados no resultado deconsulta e o resultado de consulta muda constantemente. Quando o usuáriopressiona o botão Go 423, uma outra busca é realizada, filtrando-se mais oresultado de consulta para refletir os atributos e valores de atributo especificados pelo usuário.

Os parágrafos a seguir discutem o acesso do depósito de atributo 195 durante uma busca ou durante um estreitamento de uma busca usando-se atributos e rótulos.

As consultas e a indexação que referenciam o depósito 195 preferencialmente suportam os operadores a seguir:

Number - Is, Between, Greater Than, Less Than, Number Rangesuggestions

String - Is, Has

Date- Range, Before, After, Is (faixa, antes, depois, é)Location - Within

O depósito 195 pode ser consultado pelo menos das formas aseguir:

-Give me ali items that match a particular attribute name-typepair

-Sort these items based on the value of the attribute-value

-Sorts for the following types of attributes are supported

-DateTime (Data e Hora)

-Number (Número)

-Int, Float-String

-Location - Distance from user entered location

Esta capacidade de consulta permite que o usuário introduza ostipos a seguir de consultas de atributo:

-Give me ali items that have a particular name-type pair-Given these items sort it by attribute value (e.g. Give me ali items that have event_date and give it to me sorted in an ascending order)

-Give me ali items are in-between valuel and value2 for a parti-cular name-type attribute

Exemplos

-Give me ali items that have cooking_type as an attribute andhave values between 15 and 30 where the unit is minutes

-Give me ali items that have size as an attribute and have values1 and 15 with no unit

-Give me ali items that have an event_date and have a valueless than today

-Give me ali items that have a publication_date and have a valuein the yearof 1925

Os operadores a seguir são suportados:

-For number - int, float

-Less than

-Greaterthan

-Between

Para dateTime -

-Is

-Before

-After

-Between

-Scoring of Items

Atualmente, há 2 sinais principais pelos quais os itens são classificados:

-Query Dependent Rank - Mainly IR score

Query Independem Rank - Mixture of page rank and item rank

O ranking de página é o ranking de página de website do provedor.

O ranking de página não existe em casos em que os itens são mantidosem uma coleção de dados 190 e/ou itens não têm um link (não são ligados)ou não são conectados a outros itens.

O ranking de item pode ser determinado por vários fatores. Osdois sinais principais são:

- Sinais específicos de provedor (por exemplo, classificação)- Sinais específicos de oferta (por exemplo, comprimento dedesc, número de atributos, rótulos, ilustrações, etc.)

- o item Rank pode ser definido pelos sinais a seguir:

-Length of Desc

-Length of Title

-Number of Labels

-Number of Attributes

-Pictures

-Number of times offer has been reported as spam

-Rating of the provider

-Recency of the offer

Os itens são classificados como - Query Dependent Rank *

Query Independent Rank

Para classificações padronizadas, o Rank é a classificação padronizada.

Em uma modalidade preferida, certos parâmetros podem serregulados no sistema. Estes parâmetros incluem um número máximo de itens por provedor. Isto impede uma varredura metódica da página por umprovedor específico.

Quando o usuário seleciona atributos e/ou rótulos para estreitamento de uma busca, o sistema busca rótulos, títulos, descrição e valores deatributo. Os nomes de atributo também devem ser buscáveis como nomescompletos. Frases são ponderadas pesadamente, se comparadas com palavras que ocorrem distantes. Os rótulos são ponderados mais pesadamentedo que títulos, os quais são ponderados mais pesadamente do que descrições. Os valores de atributo são ponderados da mesma forma que os rótulos. Uma varredura metódica de comerciante por cada provedor pode serligada ou desligada pelo usuário para regular se um número de página deitens de um provedor individual é ou não exibido como resultado de umabusca. Dependendo da busca realizada, uma varredura metódica de comerciante pode ou não ser desejável.

Em uma modalidade preferida, o sistema define uma estruturade um tipo em particular de um novo item, com base nos atributos associados a outros itens do mesmo tipo ou de um similar (por exemplo, se a maioria dos itens do tipo de informação "Jobs" tem atributos de Job function, Jobtype e Employer do que a estrutura de atributo comum para o item de dadosde tipo de informação "job" será padronizada para ser job type, employer ejob function). Os buscadores e outros programas podem consultar o conjuntode dados com consultas tais como "Give me ali jobs whose employer is ABCCorporation and whose job-type is "product" management".

Será entendido que, embora os exemplos descritos aqui se refiram a um usuário humano, outras modalidades da presente invenção podem ser projetadas para operarem com um usuário não humano, tal como umprograma de software de inteligência artificial ou com uma entidade se comunicando com a web que poderia ser humana ou não humana. Se o usuário não humano for um programa de software, poderá não ser necessárioexibir os resultados e atributos, conforme descrito aqui. Ao invés disso, umaimplementação como essa poderia meramente comunicar os atributos potenciais que poderiam ser usados para estreitamento do resultado de consulta. Em uma modalidade como essa, uma opção maior de atributos pode serexibida, uma vez que inteligências artificiais não humanas não são sobrecarregadas por um número grande de atributos a partir dos quais escolher. Emuma modalidade como essa, elementos do método, tal como determinar histogramas, podem não ser necessários, e eles poderiam ser usados apenaspara se ranquearem escolhas de atributo e não para limitação de um númerode escolhas de atributo disponíveis.

Será entendido que periodicamente os atributos de Núcleo paraos vários tipos de informação nos dados estruturados 190 podem precisarser atualizados. Conforme dados são adicionados à coleção de dados estruturados, certos atributos podem se tornar populares, que não eram inicialmente populares. Por exemplo, um atributo "Season" tendo um tipo de atribuição de inteiro poderia especificar de qual temporada de um show de televisão é uma ilustração de elenco pode não ter sido inicialmente contemplado pelos atributos de núcleo iniciais para o tipo de informação "TV shows", maspode se tornar mais popular, conforme cada vez mais ilustrações de elencoforem adicionadas à coleção de dados. Em algumas modalidades, os atribu-tos de núcleo também são auto-atualizados, com base na popularidade ouna sazonalidade e após passar através de um filtro de spam.

A Figura 3(e) mostra um método 350 realizado periodicamentepara se determinar se quaisquer atributos novos providos por provedor de-vem ser promovidos a atributos de Núcleo para um dado tipo de informação.O grupo de núcleo de atributos para um tipo de informação de item é dosatributos que são automaticamente oferecidos sempre que um provedor adi-cionar um novo item do tipo de informação. Em uma modalidade preferida,apenas atributos de Núcleo são oferecidos para diminuição da possibilidadede um provedor fazer um spam de atributos, de modo a forçar sua formapara os atributos exibidos. Para cada tipo de informação, o método olha paraos atributos adicionados por usuário mais populares para aquele tipo de in-formação 322 e promove os atributos mais populares a atributos de Núcleopara aquele tipo de informação.

"Mais populares" conforme usado para decidir quais atributospromover a atributos de Núcleo é definido diferentemente para modalidadesdiferentes. Por exemplo, os mais populares podem ser o atributo não nosAtributos de Núcleo que seja mais freqüentemente selecionado 352 por usu-ários por um período de tempo predeterminado, tal como uma semana ouum mês, por exemplo. Como um outro exemplo, mais popular pode ser oatributo não nos Atributos de Núcleo que tenha itens de dados aparecendomais freqüentemente no resultado de consulta por um período de tempopredeterminado. Como um outro exemplo, mais popular pode ser o atributonão nos Atributos de Núcleo que aparece em um número maior de dados deprovedor por um período de tempo predeterminado. Mais popular pode serdeterminado de qualquer forma apropriada, desde que faça com que os atri-butos que são úteis em um estreitamento de busca sejam adicionados aosAtributos de Núcleo.

Por exemplo, os provedores podem ter começado a adicionarum atributo de "blogged" para um tipo de informação de item de artigo paraindicar que o artigo foi mencionado em um blog. Um atributo como esse teriaum atributo de tipo de URL, indicando o URL do blog em que o item foi mencionado. Se um número de limite 354 de provedores ou usuários únicos usarum novo atributo em particular para um tipo de informação, o atributo seráadicionado 356 ao grupo de Núcleo de atributos para aquele tipo de informação. Em uma modalidade preferida, um valor de Threshold será baseado nonúmero total de provedores usando o sistema. Ele começará com algumacoisa tão baixa quanto 2-3 e será aumentado para números maiores. Ummétodo similar é realizado para rótulos para a adição de rótulos populares aum conjunto de núcleo de rótulos. Em certas modalidades preferidas, os atributos promovidos serão checados quanto à sensatez por um ser humanoou por um método implementado em software ou hardware apropriado.

Os parágrafos prévios discutiram geralmente formas para sebuscarem e atualizarem dados introduzidos em uma coleção de dados estruturados 190. Os parágrafos a seguir discutem formas como os provedorespodem introduzir dados ou adicionar dados a uma coleção de dados estruturados 190. Os provedores também podem especificar, em certas modalidades preferidas, novos atributos para seus dados.

As Figura 6(a) a 6(e) são instantâneos de tela de exemplo mostrando como um provedor pode editar itens em uma coleção de dados. Umprovedor é qualquer um que adicione ou seja capaz de adicionar conteúdo àcoleção de dados 190. Na modalidade descrita, uma coleção de dados 190 éde dados possuídos por um ou mais provedores, tais como um indivíduo,uma organização sem fins lucrativos ou uma companhia. A modalidade permite que esses provedores configurem e preencham suas próprias coleçõesde dados estruturados (por exemplo, bancos de dados) através da web etornem aquelas coleções buscáveis através da web ou de uma rede similar.

É contemplado que provedores estejam desejando armazenar dados em umdepósito central, por um honorário ou em troca de sua permissão para sepermitir que os dados sejam buscados por outros. Em uma situação comoessa, a coleção de dados pode ser buscada através de uma web ou redebaseada em navegador, tal como um navegador do Google ou um agente debusca de computador de mesa do Google, em uma versão que contenhaapenas parte ou toda a funcionalidade descrita aqui.

As Figuras 6(a) a 6(e) são instantâneos de tela de exemplo quemostram uma interface de usuário que permite que um provedor edite e in-traduza dados no sistema.

A Figura 6(a) mostra uma interface de usuário 600 que permiteque um provedor vide e edite itens de dados na coleção de dados 190. Ainterface de usuário também pode ser usada para a adição de itens à cole-ção de dados 190. Uma área 602 contém uma listagem parcial de itens nacoleção de dados 190. No exemplo aqui, esta listagem inclui o título de item601, um tipo de item (também denominado um tipo de informação) 605, Sta-tus 603, uma data de Expiração, um número de impressões (o número devezes que um item foi exibido), um número de cliques no objeto, a taxa declique, o número de vezes que um item foi clicado em resultados de consul-ta. No exemplo, um subconjunto de todos os itens na coleção de dados émostrado na área 602, mas um provedor também pode buscar em sua cole-ção de dados pessoal 620 ou pesquisar na coleção de dados inteira 622. Oprovedor também pode ver itens inativos 615 ou transferir (via upload) arqui-vos em volume 618. Cada item de dados tem um link "edit" associado 619.

Em uma modalidade preferida, um provedor pode editar apenas seus pró-prios itens de dados. Uma área 604 permite que o provedor exiba um dispo-sitivo de seleção, tal como um menu suspenso mostrando os tipos de infor-mação existentes (Events and Activities, Housing, etc). Se o provedor sele-cionar um tipo de informação, ele poderá adicionar uma descrição do tipo deinformação na área 606 para seus dados.

A Figura 6(b) mostra uma interface de usuário que permite a umprovedor ver e editar 610 itens de dados na coleção de dados 190. Os itenstêm um tipo de informação de "News and Articles". Se o provedor tivesseselecionado um item de dados na área 602 da Figura 6(a), aquela informa-ção de item seria exibida nos campos da área 611. No exemplo, contudo, oprovedor não selecionou um item; então, o provedor está livre para introduzirum novo item de dados. No exemplo, um tipo de informação de "News andArticles" 610 contém os campos a seguir: Title, Pictures, Description (Título,Ilustrações, Descrição) e um link 614 (por exemplo, a URL) a ser exibido emum resultado de consulta.

A interface de usuário da Figura 6(b) também permite que o pro-vedor edite os atributos e rótulos do item. Note que, embora cada tipo deinformação tenha atributos associados, nem todos os itens de dados de umtipo em particular têm valores para todos os atributos possíveis para aqueletipo de informação. No exemplo, conforme mostrado pelo número de refe-rência 612, o provedor indicou que uma quantidade de "1" do item está dis-ponível ou existe. Nenhum valor é especificado para os atributos Author ouNews Source para este item. Cada um daqueles atributos tem um tipo deatributo de "text". O provedor está livre para adicionar um valor para os atri-butos de itens de dados individuais. O provedor também pode adicionar umatributo usando a área 613. Aqui, o provedor pode adicionar um nome deatributo e um valor de atributo.

O provedor também pode prover valores de atributo relativos àinformação de contato na área 618. O provedor pode prover valores de atri-buto relativos a uma informação de localização na área 619.

O provedor também pode adicionar rótulos ao item na área 619.

Em certas modalidades, o tipo de informação é um nome de atributo padrão.Aqui, o tipo de informação é News and Articles e isto também é um rótulo.

A Figura 6(c) mostra a interface de usuário da Figura 6(b) quepermite que um provedor vide e edite 610 itens de dados na coleção de da-dos 190. No exemplo, o provedor pode adicionar um nome e um valor paraum novo atributo definido por provedor 613. Embora o tipo de atributo pa-drão seja "text", o provedor pode escolher um outro tipo de atributo, tais co-mo number unit, number, data range, large text, URL, Boolean, e location(unidade de número, número, faixa de dados, texto grande, URL, booleano elocalização).

A Figura 6(d) mostra uma interface de usuário que permite queum provedor vide e edite 610 itens de dados na coleção de dados 190. Ositens têm um tipo de informação de "products" 630. Se o provedor tiver sele-cionado um item de dados na área 602 da Figura 6(a), aquela informação deitem seria exibida nos campos de área 611. No exemplo, contudo, o prove-dor não selecionou um item; então, o provedor está livre para introduzir umnovo item usando a interface de usuário 630. No exemplo, um tipo de infor-mação de "products" contém os campos a seguir: Title, Pictures, Descriptione um link 634 (por exemplo, um URL) a ser exibido em um resultado de consulta.

A interface de usuário da Figura 6(d) também permite que o pro-vedor edite os atributos e os rótulos do item. Note que, embora cada tipo deinformação tenha atributos associados, nem todos os itens de dados de umtipo de informação em particular têm valores para todos os atributos possí-veis para aquele tipo de informação. No exemplo, conforme mostrado pelonúmero de referência 632, o provedor indicou que um Preço de $150 poritem (em oposição a por libra ou por dúzia, por exemplo). Uma quantidadede "1" é especificada. O tipo de "Price" é o tipo de preço que o provedor estáregulando (por exemplo, Best offer, negotiable, fixed, etc). Nenhum valor éespecificado para a opção Price, Brand, Condition e "product" Type para es-te item. Cada um daqueles atributos tem um tipo de atributo de "text". Nestamodalidade, o provedor pode mudar o tipo de atributo para aqueles atributosque ele especificou. O provedor está livre para adicionar valores para os a-tributos de itens de dados individuais. O provedor também pode adicionarum atributo usando a área 613. Aqui, o provedor pode adicionar um nome deatributo e um valor de atributo.

Nesta modalidade, os atributos que um provedor adiciona sãoadicionados a todos os seus itens do tipo de informação atual. Aqui, por e-xemplo, a todos os itens de provedor de tipo "products" é dado o atributorecém adicionado 613, uma vez que ele seja definido. Os valores para cadaitem são normalmente adicionados de forma individual. Certas modalidadestambém permitem que um provedor especifique um valor para todos os seusitens de um tipo de informação especificado. Conforme discutido acima, épossível que o novo atributo gradue para o conjunto de Núcleo de atributos.Em outras modalidades, novos atributos nem sempre são adicionados a to-dos os itens do tipo de informação. Em outras modalidades, os provedorespodem concordar que um grupo definido de provedores todo terá os mes-mos atributos, de modo que quando um provedor adicionar um atributo osoutros no grupo também tenham o mesmo atributo.

O provedor pode prover valores de atributo relativos a uma in-formação de contato na área 618. O provedor também pode prover valoresde atributo relativos a uma informação de localização na área 619. O prove-dor também pode prover valores de atributo relativos a métodos de "Pay-ment" na área 638.

O provedor também pode adicionar rótulos ao item na área 616.Em certas modalidades, o tipo de informação é um nome de atributo padro-nizado. Aqui, o tipo de informação é "products" e isto também é um rótulo.Nesta modalidade, os rótulos que um provedor adiciona não são adicionadosa todos os seus itens do tipo atual (exceto pelos rótulos que estão no tipo deinformação). Conforme discutido acima, é possível que um novo rótulo gra-due para o conjunto de Núcleo de rótulos. Em outras modalidades, novosrótulos são sempre adicionados a todos os itens do tipo de informação.

A Figura 6(e) mostra a interface de usuário da Figura 6(d) quepermite que um provedor vide e edite 630 itens em uma coleção de dados190. Neste exemplo, Contacts, Payments, e Location são todos atributos dotipo de informação de "product". Eles são atributos tendo um tipo complexo(não apenas inteiros ou simples strings). No exemplo, o provedor pode adi-cionar valores relativos aos contatos 618 para itens de tipo de informação de"products". Aqui, o provedor especifica parte ou todos dentre Nickname,phone number, email address (valores potenciais tirados de um banco dedados de informação de provedor, não mostrado). No exemplo, o provedorpode adicionar valores relativos a Payments 638 para itens de tipo de infor-mação de "products". Aqui, o provedor especifica parte ou tudo de PaymentMethod e Notes. No exemplo, o provedor pode adicionar valores relativos aLocations 619 para itens de tipo de informação de "products". Aqui, o prove-dor especifica parte ou tudo de "Text notes" (por exemplo, "Fremont, CA").Nesta modalidade, também há caixas de verificação para indicar se os con-sumidores podem pegar a partir de sua localização e o raio de entrega.

No exemplo, os valores de Contact, Payment e Location são introduzidos separadamente para cada item. Os valores que um provedor pode adicionar não são adicionados a todos os seus itens do tipo de informação atual. Aqui, por exemplo, nem a todos os itens de provedor de tipo deinformação de "products" são dados os valores Contact, Payment e Locationmostrados na Figura 6(e). Os valores para cada item normalmente são adicionados individualmente. Certas modalidades também permitem que umprovedor especifique valores para todos os seus itens de um tipo de informação específico. Por exemplo, a informação de pagamento pode ser amesma para todos os "products" de um provedor.

Os promotores também podem introduzir itens através da Ul daFigura 6 ou através de um método de transferência (via upload) em volumemostrado nas Figuras 7 e 8.

A Figura 7 é um instantâneo de tela de exemplo 700 que mostrauma interface de usuário para registro de um arquivo de transferência (viaupload) em volume. O arquivo de transferência (via upload) em volume éusado para a criação de ou a adição a uma coleção de dados 190. Nesteexemplo, um arquivo simples de itens que são todos do mesmo tipo de informação é para ser adicionado. No exemplo o File Name 712 é "local inventory". O provedor escolhe um tipo de dados 714 que é um tipo de informaçãopredefinido ou um tipo de informação de consumidor. O provedor escolheuma linguagem 716 para strings de texto nos dados. Quando o provedor seleciona o botão "Register bulk upload file" (via upload) 718, o arquivo tendo onome de arquivo 712 é registrado e o provedor terá permissão para transferir(via upload) o arquivo. Um provedor pode transferir (via upload) arquivosusando uma interface de transferência (via upload) baseada na web ou usando um outro mecanismo, tal como FTP (Protocolo de Transferência deArquivo) ou um RSS.

A Figura 8(a) mostra um formato 801 para um arquivo delimitadopor tabulação a ser transferido (via upload) em volume. A seguir estão asexigências de formato para arquivos de transferência (via upload) em volu-me:

- texto simples delimitado por tabulação.

- a primeira linha do arquivo é o cabeçalho - deve conter nomesde atributo (descritos abaixo), separados por tabulações.

- um item por linha; cada atributo deve ser separado por umatabulação.

- não ter tabulações ao final no fim de linhas.

- o arquivo deve ser salvo em uma codificação LATIN1 ou UTF-

8. ASCII também é aceitável, já que é um subconjunto de LATIN1.

- URLs de link e imagem devem ser plenamente qualificados.

Isto é, eles devem incluir a porção http://, por exemplo,http://www.example.com/imaqe.qif.

- tabulações, retornos de carro (tecla enter) ou caracteres denova linha - se qualquer um destes aparecerem em um atributo, ele não será capaz de exibir aquele item.

- tags de HTML, comentários e seqüências de escape - nenhumhtml é removido de uma transferência (via upload) em volume, mas, parauma aparência melhor, nenhum HTML deve ser incluído.

Em uma modalidade preferida, os itens de dados são uma partedo arquivo de transferência (via upload) em volume que também contém a-tributos. Em outras modalidades preferidas, os itens de dados e atributossão transferidos (via upload) em arquivos separados que são construídos demodo que seja claro quais valores de atributo pertencem a quais itens dedados.

A Figura 8(b) é um fluxograma 800 de um método de exemplousado por um provedor para a criação de um arquivo de transferência (viaupload) em volume. Um provedor pode ser um ser humano, ou um hardwareou um software.

Elemento 802: Abrir um novo arquivo em um programa de planilha.

O método descrito usa um programa de planilha, tal como o Mi-crosoft Excel, para a criação de um arquivo de transferência (via upload) emvolume. Usar um programa de planilha como o Microsoft Excel torna maisfácil criar uma transferência (via upload) em volume e convertê-la no formatoapropriado. Outros métodos podem ser usados, que resultem em um arquivoformatado apropriadamente.

Elemento 804: criar uma linha de cabeçalho

Como um exemplo, a linha de cabeçalho para uma transferência(via upload) em volume de produto poderia parecer com a linha 832 na Figu-ra 8(c). Especificar cada uma das colunas na transferência (via upload) emvolume de acordo com o tipo de informação de item que o provedor gostariade submeter (vide 714 da Figura 7). Na primeira linha da planilha 832, intro-duzir o nome de cada um dos atributos que o provedor gostaria de incluirpara descrever seus itens. Esta é a linha de cabeçalho. O conteúdo da linhade cabeçalho dependerá do tipo de informação submetido e de se o prove-dor está enviando um tipo de informação definido, ou um que ele mesmocriasse.

Tipos de Informação de Consumidor:

As transferências (via upload) em volume podem ser usadas pa-ra a submissão de qualquer tipo de informação. Se um provedor estivesseenviando seu próprio tipo de informação, ele poderia usar qualquer combi-nação de atributos predefinidos. Em uma modalidade preferida, é fortementerecomendado que os provedores usem os atributos predefinidos. Um prove-dor também pode incluir um número ilimitado de atributos de consumidor:um provedor deve pegar um conjunto de atributos que melhor descreva seusitens.

Tipos de Informação Definidos:

Um provedor pode enviar uma transferência (via upload) em vo-lume para um dos tipos de informação definidos. É fortemente recomendadoque um provedor os inclua em sua transferência (via upload) em volume.Eles permitem uma combinação mais acurada de itens com consultas debusca. Quanto mais informação um provedor proporcionar, mais fácil serápara os usuários localizarem os itens. Em uma modalidade preferida, umprovedor deve incluir estes atributos recomendados para se permitir que ositens de um provedor apareçam em uma porção significativa das buscas feitas.

Elemento 806: introduzir uma informação de item

Em cada linha 834, um provedor introduz uma informação paraum item em sua coleção de dados. Cada pedaço de informação deve refletiro cabeçalho da coluna em que estiver. (Por exemplo, um preço de produtodeve estar sob o cabeçalho de "preço".) Cada linha inclui apenas um itempor linha. Vide a Figura 8(c).

Elemento 808: converter a transferência (via upload) em volume em um textosimples delimitado por tabulacão

Converta a planilha em um arquivo de texto delimitado por tabu-lacão (.txt) usando o nome de arquivo previamente registrado (vide a Figura7). Após o provedor ter introduzido todos os itens na planilha, ele salva aplanilha no formato de texto delimitado por tabulacão (.txt). O nome de ar-quivo registrado pode ser reusado para transferências (via upload) subse-qüentes. Se um arquivo transferido (via upload) tiver um nome não registra-do, os itens no arquivo não serão adicionados à coleção de dados 190. Emuma modalidade preferida, uma transferência (via upload) em volume atuali-zada deve ser enviada pelo menos uma vez a cada 30 dias, para se garantirque os itens permaneçam na coleção de dados 190.

Elemento 810: transferir (via upload) um arquivo

A Figura 8(d) mostra uma interface de usuário 840 para transferência (via upload) de um arquivo.

Elemento 812: checar a transferência (via upload) em volume quanto a erros

Após um provedor ter enviado uma transferência (via upload) emvolume, ele pode ver o status da transferência (via upload) em volume aofazer um login em um website central. Se o resultado estiver listado comoum 'Success', a transferência (via upload) em volume não precisará ser alterada. Caso contrário, o provedor pode clicar no nome de arquivo de transferência (via upload) em volume para ver uma informação sobre como corrigiro(s) erro(s).Após uma transferência (via upload) em volume ser transferida(via upload), o arquivo será processado para a adição de itens, atributos erótulos à coleção de dados 190 e à estrutura de dados da Figura 5. Uma vezque uma transferência (via upload) tenha sido aprovada, quaisquer atualizações futuras com o mesmo nome de arquivo serão processadas automaticamente.

Embora a presente invenção tenha sido descrita acima com respeito a várias modalidades, várias modificações podem ser feitas no escopoda presente invenção. Por exemplo, certas modalidades preferidas incluemmétodos e sistemas para a detecção de atributos e rótulos inválidos ou "despam". É indesejável para um provedor adicionar atributos a estes dadosque permitirão que os itens de dados vão para o topo de uma busca. Algunsmétodos que são usados para evitação destes atributos incluem uso de listanegra, distribuições de histogramas específicas e assim por diante.

Em outras modalidades preferidas, os atributos e rótulos de topoexibidos são determinados com base não apenas na popularidade das tuplas de tipo de chave de atributo e rótulos, mas na distribuição de valores(quanto mais discreta a distribuição, melhor, e quanto maior o desvio melhor). Por exemplo, 5 valores populares para um atributo são melhores doque 50 valores distribuídos uniformemente. Por exemplo, se uma cor é umatributo e nós vemos Vermelho, Azul e Verde como as cores de topo do queseria um bom atributo para refinamento. Por outro lado, ter 100 valores paracor, cada um dos quais ocorrendo três vezes, não é tão útil.

Uma outra modalidade preferida realiza escores de confiançasofisticados com base no número de provedores que usam um atributo, oranking de item / ranking de oferta de cada oferta.

Uma outra modalidade preferida usa sinais de clique a partir deusuários para determinar quais atributos exibir para o usuário. Os atributos eos rótulos são classificados em escore por alguma coisa definida como o ranking de popularidade:

PR = Popularidade no resultado de consulta X CTR para aquelaconsulta em particular.Em uma outra modalidade preferida, se usuários "always 2" atribuírem restrições para uma consulta em particular (por exemplo, Ipod para ocaso de 90% sempre é restrito a preço e localização, o sistema restringe porpreço e localização indo adiante quando os usuários digitarem ipod), mostrará aquelas restrições já aplicadas ao resultado de consulta.

Assim sendo, pretende-se que a descrição da presente invençãoseja ilustrativa, mas não limitativa, do escopo da invenção, o qual é estabelecido nas reivindicações a seguir.

Claims

1. Método para permitir que um usuário realize uma busca base-ada na web em dados estruturados, que compreende:permitir que o usuário introduza um termo de consulta em umagente de busca;determinar um resultado de consulta de acordo com o termo de consulta;permitir que o usuário especifique um ou mais atributos associados a pelo menos um item de dados no resultado de consulta, onde o atributo é um par de nome de atributo / valor de atributo, o valor de atributo tendoum tipo de atributo; eredeterminar um segundo resultado de consulta de acordo comos atributos especificados.

2. Método, de acordo com a reivindicação 1, onde permite que ousuário introduza um termo de consulta inclui permitir que o usuário especifique um atributo e um valor de atributo como termos de consulta, antes de determinar o resultado de consulta.

3. Método, de acordo com a reivindicação 1, que ainda inclui aexibição do resultado de consulta, antes de se permitir que o usuário especifique um ou mais atributos.

4. Método, de acordo com a reivindicação 1, que ainda inclui aexibição de uma pluralidade de nomes de atributo, antes de se permitir que ousuário especifique um ou mais atributos.

5. Método, de acordo com a reivindicação 1, que ainda inclui aadição de um atributo mais popular por um período de tempo predeterminado para uma pluralidade de Atributos de Núcleo.

6. Método, de acordo com a reivindicação 5, onde o atributomais popular é mais popular com usuários realizando uma busca, pelo período de tempo predeterminado.

7. Método, de acordo com a reivindicação 5, onde o atributomais popular é um atributo que tem um número maior de itens de dados noresultado de consulta pelo período de tempo predeterminado.

8. Método, de acordo com a reivindicação 5, onde o atributomais popular é o atributo mais freqüentemente selecionado pelos usuáriospor um período de tempo predeterminado.

9. Método, de acordo com a reivindicação 1, onde permite que ousuário especifique um ou mais atributos associados a pelo menos um itemde dados no resultado de consulta inclui:determinar um conjunto de nomes de atributo de núcleo maispopulares com itens de dados no resultado de consulta; eexibir apenas os nomes dos valores de atributo de Núcleo associados aos itens de dados no resultado de consulta.

10. Método, de acordo com a reivindicação 9, onde determinaum conjunto de atributos de núcleo mais populares inclui:determinar os resultados q mais relevantes no resultado de consulta;para os resultados q mais relevantes, determinar os atributos mmais populares associados àqueles resultados; epara os n atributos mais populares, determinar os m pares deatributo / valor de topo.

11. Método, de acordo com a reivindicação 1, onde a busca érealizada em um agente de busca baseado na web, recebendo a consultapor uma rede.

12. Método para permitir que um usuário realize uma busca baseada na web em dados estruturados, que compreende:permitir que o usuário introduza um termo de consulta em umagente de busca;determinar um resultado de consulta de acordo com o termo deconsulta;permitir que o usuário especifique um ou mais de uma pluralidade de rótulos associados a pelo menos um item de dados no resultado de consulta, onde um rótulo é um tag sem valor; eredeterminar um segundo resultado de consulta de acordo comum ou mais rótulos selecionados.

13. Método, de acordo com a reivindicação 12, que ainda inclui aexibição do resultado de consulta e da pluralidade de rótulos, antes de sepermitir que o usuário especifique um ou mais rótulos.

14. Método, de acordo com a reivindicação 12, que ainda inclui aexibição da pluralidade de rótulos antes de se permitir que o usuário especifique um ou mais rótulos.

15. Método, de acordo com a reivindicação 12, onde permite queo usuário especifique um ou mais rótulos inclui permitir que o usuário combine logicamente os rótulos.

16. Método, de acordo com a reivindicação 12, que ainda inclui aadição de um rótulo mais popular por um período de tempo predeterminadoa uma pluralidade de Rótulos de Núcleo.

17. Método, de acordo com a reivindicação 12, onde a busca érealizada em um agente de busca baseado na web, recebendo a consultapor uma rede.

18. Aparelho para se permitir que um usuário realize uma buscabaseada na web em dados estruturados, que compreende:um meio para se permitir que o usuário introduza um termo deconsulta em um agente de busca;um meio para se determinar um resultado de consulta de acordocom o termo de consulta;um meio para se permitir que o usuário especifique um ou maisatributos associados a pelo menos um item de dados no resultado de consulta, onde o atributo é um par de nome de atributo / valor de atributo, o valor de atributo tendo um tipo de atributo; eum meio para se redeterminar um segundo resultado de consulta de acordo com os atributos especificados.

19. Aparelho para se permitir que um usuário realize uma buscabaseada na web em dados estruturados, que compreende:um agente de busca que permite que o usuário introduza umtermo de consulta em um agente de busca;uma interface de usuário que permite que o usuário especifiqueum ou mais atributos associados a pelo menos um item de dados em umprimeiro resultado de consulta, de acordo com o termo de consulta, onde umatributo é um par de nome de atributo / valor de atributo, o valor de atributotendo um tipo de atributo; eum agente de consulta que determina o primeiro resultado deconsulta de acordo com o termo de consulta e que subseqüentemente redetermina um segundo resultado de consulta de acordo com os atributos especificados.

20. Produto de programa de computador que tem instruções emum meio que pode ser lido em computador, as instruções capazes de fazerem com que um sistema de processamento de dados realize um método, que compreende:permitir que o usuário introduza um termo de consulta em umagente de busca;determinar um resultado de consulta de acordo com o termo deconsulta;permitir que o usuário especifique um ou mais atributos associados a pelo menos um item de dados no resultado de consulta, onde o atributo é um par de nome de atributo / valor de atributo, o valor de atributo tendoum tipo de atributo; eredeterminar um segundo resultado de consulta de acordo comos atributos especificados.