BRPI0204257B1

BRPI0204257B1 - método implementado por computador para agrupar uma pluralidade de documentos em uma estrutura hierárquica de dados, método implementado por computador para agrupar dados que refletem usuários em uma estrutura hierárquica de dados e método implementado por computador para agrupar uma pluralidade de imagens baseadas em texto associado às imagens em uma estrutura hierárquica de dados

Info

Publication number: BRPI0204257B1
Application number: BRPI0204257A
Authority: BR
Inventors: Ashok C Popat; Eric Gaussier; Francine R Chen
Original assignee: Xerox Corp
Priority date: 2001-10-19
Filing date: 2002-10-18
Publication date: 2016-05-17
Also published as: EP1304627A3; BR0204257A; JP2003140942A; US20030101187A1; US7644102B2; JP4384398B2; EP1304627B1; EP1304627A2

Abstract

"métodos, sistemas e artigos de fabricação para grupamento hierárquico temporário de objetos coocorrentes". métodos, sistemas e artigos de fabricação consistentes com determinados princípios relacionados à presente invenção possibilitam que um sistema de computação execute grupamento hierárquico topical de dados de texto em função de modelagem estatística de coocorrências de pares (documento, palavra). o sistema de computação pode ser configurado para receber uma coleção de documentos, cada documento incluindo uma pluralidade de palavras, e executar um processo de expectativa-maximização (em) modificado de recozimento determinístico na coleção para produzir uma hierarquia de nós atribuída temporariamente ("softly"). o processo pode envolver atribuir documentos e fragmentos de documentos a múltiplos nós na hierarquia baseada em palavras incluídas na hierarquia, com isto eliminando a atribuição rígida de documentos na hierarquia.

Description

Relatório Descritivo da Patente de Invenção para "MÉTODO IMPLEMENTADO POR COMPUTADOR PARA AGRUPAR UMA PLURALIDADE DE DOCUMENTOS EM UMA ESTRUTURA HIERÁRQUICA DE DADOS, MÉTODO IMPLEMENTADO POR COMPUTADOR PARA AGRUPAR DADOS QUE REFLETEM USUÁRIOS EM UMA ESTRUTURA HIERÁRQUICA DE DADOS E MÉTODO IMPLEMENTADO POR COMPUTADOR PARA AGRUPAR UMA PLURALIDADE DE IMAGENS BASEADAS EM TEXTO ASSOCIADO ÀS IMAGENS EM UMA ESTRUTURA HIERÁRQUICA DE DADOS".

Campo da Invenção Trata a presente invenção de grupamento hierárquico de objetos e, mais particularmente, de métodos, sistemas e artigos de fabricação para o grupamento hierárquico temporário de objetos baseado na co-ocorrência de pares de objetos.

Antecedentes da Invenção A atratividade da categorização de dados continua em crescimento, baseada, principalmente em parte, na disponibilidade de dados através de diversos meios de acesso, tais como a Internet. À medida que aumenta a popularidade de tais meios, também cresce a responsabilidade dos provedores de dados de oferecer um acesso rápido e eficiente de dados. Sendo assim, estes provedores incorporaram diversas técnicas para garantir que os dados sejam acessados de forma eficiente. Uma destas técnicas é a organização de dados usando grupamentos. O grupamento permite que dados sejam agrupados (ou ajuntados) hierarquicamente em função de suas características. A premissa por trás destas técnicas de grupamento é que objetos, tais como dados de texto em documentos, que são semelhantes entre si, sejam colocados em um grupo comum em uma hierarquia. Por exemplo, catálogos de assuntos oferecidos por provedores de dados, tais como Yahoo , podem categorizar dados criando uma hierarquia de grupos em que os grupos de categoria geral são colocados em níveis de topo, folhas de grupos de nível inferior são associadas a tópicos mais específicos.

Embora as técnicas convencionais de organização, tais como grupamento hierárquico, permitam que objetos comuns sejam agrupados juntos, a hierarquia resultante geralmente inclui uma atribuição rígida de objetos a grupos. Uma atribuição rígida se refere à prática de designar objetos a apenas um grupo na hierarquia. Esta forma de atribuição limita o potencial de um objeto, tal como um documento textual, ser associado a mais de um grupo. Por exemplo, em um sistema que gera tópicos para uma coleção de documentos, uma atribuição rígida de um documento (objeto) a um grupo (tópico) impede que o documento seja incluído em outros grupos (tópicos). Como se pode perceber, as técnicas de grupamento hierárquico que resultam em atribuições rígidas de objetos, tais como dados de texto, podem impedir que estes objetos sejam localizados eficazmente durante operações específicas, tais como buscas de texto em uma coleção de documentos.

Portanto, é desejável possuir um método e sistema para agrupar objetos hierarquicamente de tal modo que qualquer dado objeto possa ser designado para mais de um grupo em uma hierarquia.

Os métodos, sistemas e artigos de fabricação consistentes com determinados princípios relacionados à presente invenção possibilitam que um sistema de computação receba uma coleção de documentos, cada documento incluindo uma pluralidade de palavras, e atribuir partes de um documento a um ou mais grupos em uma hierarquia com base em uma co-ocorrência de cada parte com uma ou mais palavras incluídas no documento. Os métodos, sistemas e artigos de fabricação consistentes com determinados princípios relacionados à presente invenção podem executar as características de atribuição descritas acima definindo cada documento em uma coleção como um primeiro objeto (por exemplo, "/") e as palavras de um dado documento como um segundo objeto (por exemplo, Inicialmente, a coleção pode ser atribuída a uma única classe que pode representar um grupo de uma única raiz de uma hierarquia. Um processo de Expectativa-Maximização (EM) modificado consistente com determinados princípios relacionados à presente invenção pode ser executado baseado em cada par de objetos (/, j) definido dentro da classe até que a classe de raiz seja dividida em duas classes inferiores. Cada classe inferior é em seguida submetida ao mesmo processo EM modificado até que a classe inferior respectiva seja novamente dividida em duas outras classes inferiores. O processo se repete até que imposições selecionadas, associadas à hierarquia, sejam atendidas, tal como quando a hierarquia atinge um número máximo de grupos terminais. A hierarquia resultante pode incluir grupos que incluem, cada um, objetos que foram designados a outros grupos na hierarquia, inclusive grupos que não são antecessores um do outro.

BREVE DESCRIÇÃO DOS DESENHOS

Os desenhos anexos, que estão incorporados nesse relatório descritivo e constituem uma parte do mesmo, ilustram diversos aspectos da invenção e, junto com a descrição servem para explicar os princípios da invenção. Nos desenhos. A fig. 1 ilustra um meio físico de sistema de computação exem-plificativo do qual podem ser implementados métodos, sistemas e artigos de fabricação consistentes com determinados princípios relacionados à presente invenção; A fig. 2 ilustra um diagrama de blocos exemplificativo que representa o comportamento de um primeiro modelo de grupamento hierárquico; A fig. 3 ilustra um diagrama de blocos exemplificativo que representa um modelo associado a um segundo modelo de grupamento hierárquico; A fig. 4 ilustra um diagrama de blocos exemplificativo que representa um terceiro modelo de grupamento hierárquico; A fig. 5 ilustra um diagrama de blocos exemplificativo associado a um modelo de grupamento hierárquico consistente com determinadas características e princípios relacionados à presente invenção; A fig. 6 ilustra um fluxograma de um processo exemplificativo que pode ser executado por métodos, sistemas e artigos de fabricação consistentes com determinadas características e princípios relacionados à presente invenção; e A fig. 7 ilustra uma hierarquia de tópicos exemplificativa associada a uma coleção de documentos que pode ser produzida por métodos, sis- temas e artigos de fabricação consistentes com determinadas características relacionadas à presente invenção.

DESCRIÇÃO DETALHADA Métodos, sistemas e artigos de fabricação consistentes com características e princípios da presente invenção possibilitam que um sistema de computação execute grupamento hierárquico temporário de uma coleção de documentos de tal modo que qualquer documento possa ser atribuído a mais de um tópico em uma hierarquia de tópicos, com base em palavras incluídas no documento. Métodos, sistemas e artigos de fabricação consistentes com características da presente invenção podem executar as funções acima implementando um processo de Expectativa-Maximização (EM) modificado sobre pares de objetos que refletem documentos e palavras, respectivamente, de tal modo que uma dada classe dos objetos abranja todos os nós de uma hierarquia de tópicos, e a atribuição de um documento a um tópico deve se basear em qualquer antecessor da citada classe. Além disto, a atribuição de um dado documento a qualquer tópico na hierarquia pode se basear em um par específico (documento, palavras) que está sendo considerado durante o processo. Métodos, sistemas e artigos de fabricação consistentes com determinados princípios da presente invenção podem executar o processo EM modificado para cada classe inferior gerada de um antecessor até que imposições selecionadas, associadas à hierarquia de tópicos, sejam atendidas. Uma representação da hierarquia resultante de grupamentos locais pode ser produzida e colocada à disposição de entidades que solicitam os tópicos da coleção de documentos.

Faz-se referência agora, em detalhes, aos aspectos exemplifica-tivos da invenção, exemplos dos quais estão ilustrados nos desenhos anexos. Sempre que possível, os mesmos números de referência serão usados por todos os desenhos para designar as mesmas partes, ou parte análogas.

As características mencionadas acima e outros aspectos e princípios da presente invenção podem ser implementados em diversos meio físicos. Tais meio físicos e aplicações correlatos podem ser especialmente realizados para executar os diversos processos e operações da invenção, ou podem incluir um computador ou plataforma de computação de uso geral ativado ou re-configurado seletivamente por código de programa para prover a funcionalidade necessária. Os processos aqui apresentados não estão inerentemente relacionados a qualquer computador particular ou outro aparelho, e podem ser implementados por uma combinação adequada de hardware, software e/ou suporte lógico inalterável. Por exemplo, diversas máquinas de uso geral podem ser usadas com programas escritos de acordo com os ensinamentos da invenção, ou pode ser mais conveniente construir um aparelho ou sistema especializado para executar os métodos e técnicas exigidos. A presente invenção refere-se também a suportes legíveis por computador que incluem instruções de programa ou código de programa para executar diversas operações implementadas por computador com base nos métodos e processos da invenção. As instruções de programa podem ser aquelas especialmente projetadas e realizadas para os propósitos da invenção, ou podem ser do tipo bastante conhecido e disponível para aqueles versados na técnica de software de computadores. Exemplos de instruções de programa incluem, por exemplo, código de máquina, tal como aquele produzido por um compilador, e arquivos que contêm um código de alto nível que pode ser executado pelo computador usando um intérprete. A fig. 1 ilustra um meio físico de sistema de computação exem-plificativo no qual podem ser implementadas características e princípios consistentes com a presente invenção. Conforme mostrado, o meio físico de sistema de computação pode incluir um sistema de computador 100 que pode ser um computador de mesa, estação de trabalho, estrutura principal, cliente, servidor, laptop, assistente pessoal digital ou qualquer outro sistema de computador semelhante, específico de aplicação ou de uso geral, conhecido na técnica. Por exemplo, o computador 100 pode incluir um processador 102, uma memória principal 104, uma memória suplementar 106, um barramento 108 e numerosos outros elementos e funcionalidades disponíveis em sistemas de computador. Estes elementos podem estar associados a diversos dispositivos de entrada/saída, através do barramento 108, tais como um teclado 110, monitor 112, conector à rede 114 e armazenamento de massa 116. O processador 102 pode ser qualquer processador de uso geral ou dedicado conhecido na técnica que executa operações lógicas e matemáticas consistentes com determinadas características relacionadas à presente invenção. Embora a fig. 1 mostre apenas um processador 102 incluído no computador 100, aqueles versados na técnica perceberão que diversas arquiteturas diferentes podem ser implementadas por métodos, sistemas e artigos de fabricação consistentes com determinados princípios relacionados à presente invenção. Por exemplo, adicionalmente, o processador 102 pode ser substituído, ou suplementado, por uma pluralidade de processadores que executam operações de múltiplas tarefas. A memória principal 104 e a memória suplementar 106 podem ser de qualquer tipo conhecido de dispositivo de armazenamento que armazena dados. A memória principal 104 e a memória suplementar 106 podem incluir - sem estar limitadas a - dispositivos de armazenamento do tipo magnético, semicondutor e/ou ótico. A memória suplementar 106 pode ser um dispositivo de armazenamento que permite um acesso rápido a dados pelo processador 102, tal como uma memória cache. Em uma configuração consistente com características selecionadas relacionadas à presente invenção, a memória principal 104 e a memória suplementar 106 podem armazenar dados a serem agrupados, dados agrupados e instruções de programa para implementar métodos consistentes com determinadas características relacionadas à presente invenção. O barramento 108 pode ser uma configuração de um único barramento e/ou de múltiplos barramentos que permite a transferência de dados entre componentes do computador 100 e componentes externos, tais como os dispositivos de entrada/saída que compreendem o teclado 110, monitor 112, conector a rede 114 e armazenamento de massa 116. O teclado 110 pode permitir que um usuário do meio físico de sistema de computação interaja com o computador 100, e pode ser substituído e/ou suplementado por outros dispositivos de entrada, tais como um mouse, componentes de tela de toque, ou semelhante. O monitor 112 pode apresentar informações ao usuário, como já conhecido na técnica. O conector a rede 114 pode ser qualquer dispositivo de conexão que permita ligar o computador 100 a - e trocar informações com - uma rede, tal como uma rede de área de tópicos, ou a Internet. O armazenamento de massa 116 pode ser qualquer dispositivo de armazenamento, externo ao computador 100, que armazena dados. O armazenamento de massa 116 pode consistir em dispositivos de armazenamento do tipo magnético, semicondutor ótico e/ou de fita, e pode armazenar dados a serem agrupados, dados agrupados e/ou instruções de programa que podem ser efetuadas pelo processador 102 para executar métodos consistentes com determinadas características relacionadas à presente invenção. O computador 100 pode ser configurado para executar grupamento hierárquico temporário de objetos, tais como documentos textuais que incluem, cada um, uma pluralidade de palavras. Existem diversas maneiras pelas quais o grupamento hierárquico temporário pode ser executado, tais como usando probabilidade máxima e uma variante determinística do algoritmo de Expectativa-Maximização (EM). A técnica de probabilidade máxima objetiva encontrar valores de parâmetro que maximizem a probabilidade de observar dados, e é uma estrutura natural de técnicas de grupamento. O algoritmo de EM é um algoritmo conhecido usado para aprender os parâmetros de um modelo probabilístico dentro de probabilidade máxima. Uma descrição adicional do algoritmo de EM pode ser encontrada na publicação "The EM Algorithm and Extensions", de G. J. McLachlan e T. Krishnan, da Wiley, Nova Iorque, 1997, que é aqui incorporada por referência. Uma variante do algoritmo de EM, conhecida como EM de reforço determinístico, executa grupamento hierárquico de objetos. Em determinados casos, entretanto, tal grupamento hierárquico pode resultar em atribuição rígida dos objetos. Informações adicionais sobre EM de reforço determinístico podem ser encontradas na publicação "Statistical Mechanics and Phase Transitions in Cluste-ring,", de Rose et al., da Physical Review Letters, Vol. 65, N° 8, American Physical Society, 20 de agosto de 1990, páginas 945-948, que é aqui incorporada por referência. A EM de reforço determinístico apresenta diversas vantagens sobre o algoritmo de EM padrão. EM de Reforço Determinístico Dada uma amostra de dados observáveis x(X), com densidade p(x; Θ), na qual Θ é o parâmetro da distribuição de densidades a ser estimada, existe um espaço de medida Y de dados não-observáveis que corresponde a X.

Além disto, dadas mostras de dados incompletas {X = xr\ r = 1, ..., L}, o objetivo do algoritmo de EM é computar a estimativa de probabilidade máxima de Θ que maximiza a função de probabilidade. Isto corresponde a maximizar a função log-probabilidade para dados completos, designada por Lc, e é definida por: Além disto, o procedimento iterativo, o qual, começando com uma estimativa inicial de Θ, alterna as duas etapas seguintes, mostrou que converge para um máximo de tópicos da função log-probabilidade {dados completos). Este procedimento é chamado de algoritmo de EM.

Etapa-E: Calcular a função Q como: Etapa-M: Fazer Θ(t+1) igual a Θ para maximizar Οβ(Θ; Θ^).

Substituindo Lc(®i ®°) pode ser escrito como: E, como pode-se obter Q(0; Θ^), que pode ser escrito como: A variante de reforço determinístico do algoritmo de EM inclui parametrizar a probabilidade posterior em p(yv| xr; ®(t)) com um parâmetro β, da seguinte maneira: Como se pode notar, quando β é igual a 1, f(yr I xr, Θ) - p(yrI xr, Θ) 5encj0 assjm) quando a probabilidade p(yr\xr; 0(t>) definida na fórmula por Q(0; B(t)) substitui Hyr\xr; Θ), a função Qp coincide com a função Q do algoritmo de EM. Isto sugere o algoritmo de EM de reforço determinístico. As propriedades do algoritmo de EM de reforço determinístico podem ser encontradas na publicação "Advances in Neural Information Processing Systems 7", de Ueda et al., Capítulo sobre variante de Reforço Determinístico do Algoritmo de EM, MIT Press, 1995, que descreve o processo como: 1. Fazer β = βίη/η) 0 < βη-ι/π « 1 ^ 2. Escolher arbitrariamente uma estimativa inicial Θ(0), e fazer t = 0; 3. Fazer a iteração das duas etapas seguintes até a convergência: Etapa-E: calcular: Etapa-M: Fazer B(t+1) igual a Θ, com isto maximizando Qp(0; e(t); 4. Aumentar β; e 5. Se β < β/ríax; fazer t = t+1, e repetir o processo a partir da etapa 3; em caso contrário, parar. O processo de EM de reforço determinístico descrito acima apresenta três vantagens principais sobre o algoritmo de EM padrão: (1) a sua convergência para um máximo global é mais provável do que o algoritmo de EM padrão; (2) evita ajustamento em excesso fazendo < 1; e (3) como o número de grupos necessário para explicar dados depende de β, induz uma hierarquia de grupos. A fim de auxiliar a induzir uma hierarquia de objetos, foram pro- postas variações de EM de reforço determinístico. Um modelo desta natureza, chamado Modelo de Grupamento Assimétrico Hierárquico (HACM), inclui uma técnica referida como grupamento distribucional. Informações adicionais sobre o HACM podem ser encontradas na publicação "Statistical Mo-dels for Co-Occurrence Data", de Hoffman et al., A. I. Memo No. 1625, Mas-sachusetts Institute of Technology, 1998. O HACM depende de duas variáveis ocultas. A primeira, lfa, descreve a atribuição de um objeto a uma classe α. A segunda, Vrav, descreve a escolha de uma classe vem uma hierarquia, uma classe oc e objetos i e j sendo dados. A notação (/, j) representa uma ocorrência conjunta do objeto / com o objeto j, em que (/, j) e IXJ, e todos os dados são numerados e coletados em um conjunto de amostras S = (i (r), j (r) , r) : 1 < r < L. As duas variáveis ha e Vrav são avaliadas em binário, o que conduz a uma versão simplificada da função de probabilidade. A figura 2 mostra um diagrama de blocos que exemplifica o modo de operação do HACM, conforme mostrado na publicação "Statistical Models for Co-Occurrence Data", de Hoffman et al., A. I. Memo No. 1625, Massachusetts Institute of Technology, 1998. Conforme mostra a figura 2, a hierarquia 200 inclui diversos nós que possuem nós antecessores 210-220, e nós de folha 222-228. De acordo com o HACM, cada objeto / é atribuído a um nó de folha de hierarquia 200 usando a variável ha- Por exemplo, o nó de folha 226 é mostrado em preto como tendo sido atribuído do objeto /. Além disto, para qualquer objeto / atribuído a um nó de folha, tal como o nó 226, as escolhas para gerar níveis para objetos j ficam restritas ao caminho vertical ativo a partir do nó de folha atribuído até a raiz da hierarquia. Outrossim, todos os objetos associados a um objeto /, designados por n,·, são gerados a partir do mesmo caminho vertical, com a variável Víav controlando a escolha de um nó no caminho vertical. Por exemplo, conforme mostra a figura 2, o objeto /'pode ser escolhido apenas a partir do caminho de nós que inclui os nós 210-216, que são levemente sombreados na figura, baseado na variável V ijov- Para explicar adicionalmente o HACM, a fig. 3 mostra uma representação exemplificativa deste modelo. As dependências para o HACM incluem dados observados e não observados. O HACM modela diretamente a geração de um conjunto de amostras S/, que representa uma distribuição empírica n,|/ sobre I (o conjunto incluindo o objeto /), em que η^,-η^/η^η, - | S, |, e iV =£,«,·. Qorforme mostrado, o HACM permite que sejam gerados objetos / através da probabilidade p(/), que depende de i. Além disto, a geração do objeto j de qualquer par (/(r), j(t)) tal que i(r) = / é determinada por uma classe α através de lict. Sendo assim, pode-se ver que a geração do objeto j depende de / e o conjunto de antecessores depende de a, através da variável Vrav. O HACM se baseia na seguinte probabilidade: em que u(t) reflete uma ciasse usada para gerar S, para um dado /, e ν{ή reflete uma classe usada para gerar/(r), dado α(/).

Entretanto, como existem exatamente n, objetos para os quais i(r) = /, e como Vrov são avaliadas em binário, e iguais a 0 para todas menos a classe (desconhecida) ν(ή usada para gerar 1 pode ser re- escrita como: A fórmula de modelo completa para p(S/) pode ser obtida somando em a(/), e pode ser escrita como: Embora a probabilidade p(Si) apresentada acima represente uma versão simplificada do HACM porque vé condicionado apenas por a, e não por α e i (p(v|a, i) = (p(v|oc)), aqueles versados na técnica podem perceber que as características e operações do HACM aqui descrito se aplicam também à versão complexa.

Cumpre notar que o produto é realizado em pares (/, /), em que / é fixo. Conseqüentemente, o produto pode ser visto como sendo relativo apenas a j. A partir do modelo acima, a fórmula para p(S/) é o log-probabilidade para dados completos Lc, e pode ser representado por: Uma outra variante de reforço determinístico de EM está descrita na publicação "A Hierarchical Probabilistic Model for Novelty Detection in Text", de L. D. Baker et al., Neural Information Processing Systems, 1998. O modelo descrito em Baker et al. pode ser referido como Modelo Hierárquico de Markov (HMLM). Como o HACM, o HMLM modela diretamente p(Sl) baseado na seguinte fórmula: O log-probabilidade para dados completos pode ser obtido para o HMLM a partir de p(S/), e pode ser escrito como: A fig. 4 mostra uma representação exemplificativa do HMLM. Conforme mostrado, a única diferença entre o HACM e HMLM é que a probabilidade anterior p(/) de observar um conjunto S, não é usada no HMLM. No entanto, aqueles versados na técnica perceberão que probabilidades anteriores uniformes para conjuntos S, podem ser desejadas em determinadas aplicações, tais como na categorização de texto, onde não é dada preferência a documentos em um conjunto de treinamento. Neste caso, a diferença entre HMLM e HACM mencionada acima é removida.

Embora o HACM e HMLM possam proporcionar grupamento hierárquico temporário ("soft") de objetos, é importante ter em mente que estes modelos podem resultar ainda em atribuições rígidas ("hard") devido a duas propriedades associadas aos modelos: Primeiro, a classe α abrange apenas folhas da hierarquia, e a classe v abrange apenas os antecessores de a; e, segundo, as contribuições provenientes de objetos j são coletadas diretamente em um produto. A primeira propriedade mostra que objetos /' serão atribuídos apenas às folhas de uma hierarquia induzida. Por exemplo, com referência à figura 2, o HACM e HMLM atribuirão objetos / apenas aos nós 224-230. A segunda propriedade mostra que, dado um objeto /, todos os objetos j relacionados a objeto / precisam ser explicados pelos antecessores da mesma folha a. Ou seja, se um objeto j relacionado a / não puder ser explicado por qualquer antecessor de a, então / não pode ser atribuído a a. Sendo assim, esta limitação relativa à atribuição de i geralmente conduz a uma atribuição rígida de objetos /e/ou j na hierarquia induzida. Conseqüen-temente, em sistemas de categorização de texto, a implementação do HACM e HMLM pode conduzir à criação de tópicos que estão limitados quanto a granularidade com base na atribuição rígida de documentos e/ou palavras destes documentos a grupos particulares.

Os métodos, sistemas e artigos de fabricação consistentes com determinados princípios relacionados à presente invenção eliminam a dependência apenas em nós de folha, e permitem que qualquer conjunto S, seja explicado por uma combinação de quaisquer nós de folhas e/ou de antecessores incluídos em uma hierarquia induzida. Ou seja, objetos i não podem ser considerados blocos, mas sim pedaços que podem ser atribuídos em uma hierarquia baseada em quaisquer objetos j que ocorrem em conjunto com os mesmos. Por exemplo, em uma configuração consistente com determinadas características e princípios relacionados à presente invenção, uma aplicação de grupamento de tópicos executada pelo computador 100 pode atribuir partes de um documento i a diferentes nós em uma hierarquia induzida para diferentes palavras j incluídas no documento /. Isto contrasta com o HACM e HMLM nos quais se supõe que cada documento i está associado ao mesmo nó de folha em uma hierarquia para todas as palavras j incluídas no documento /.

Uma modalidade da presente invenção pode modelar diretamente a probabilidade de observar qualquer par de objetos co-ocorrentes, tais como documentos e palavras (/', j), definindo uma variável lra (que controla a atribuição de documentos à hierarquia), de tal modo que seja dependente do documento específico e do par de palavras (/, j) em consideração durante um processo de grupamento de tópicos. Em uma configuração consistente com determinados princípios relacionados à presente invenção, a classe α pode abranger todos os nós na hierarquia induzida a fim de atribuir um documento (objeto /) a qualquer nó na hierarquia, não apenas folhas.

Além disto, a classe v pode ser definida como qualquer antecessor de α na hierarquia. A imposição de vassegura que os nós sejam organizados hierarquicamente. A figura 5 mostra uma representação exemplificativa de um modelo implementado por uma modalidade da presente invenção. Uma diferença entre os modelos discutidos previamente e uma modalidade da presente invenção é que, na presente invenção, a probabilidade ρ(ΐ(ή,](ή) é modelada em vez de p(S;), como no caso do HACM e HMLM: Uma formulação alternativa à p(/(r),)(r)) consiste em substituir ρ(α)ρ(ι{ή I a) por ρ(ι\ή)ρ(α \ i(r), ambos os quais são iguais a p(oc,/(r)). Conse-qüentemente, a equação alternativa seria: Por outro lado, a formulação igual alternativa podería ser usada para obter o mesmo resultado que a equação original para ρ(ΐ{ή,Κή).

Para ilustrar mais claramente as diferenças entre os modelos anteriores e a presente invenção, pode-se obter p(S,) para a presente invenção, já que Conseqüentemente, p(S/) pode ser escrita como: A função log-probabilidade para dados completos poderia então ser dada por: Como se pode observar pela fórmula obtida para p(S/), os objetos /, para uma dada classe a, não são coletados em um produto, como no caso de HACM e HMLM. Em vez disto, a presente invenção determina a probabilidade p(SI} de modo que o produto seja tomado apenas após a mistura por todas as classes a. Portanto, diferentes objetos j podem ser gerados a partir de diferentes caminhos verticais de uma hierarquia induzida. Ou seja, os caminhos na hierarquia associados a valores não nulos de lia. A imposição nos modelos HACM e HMLM de que todos os objetos j sejam gerados dos mesmos caminhos verticais em uma hierarquia obriga que /,« possua valores binários. Os métodos, sistemas e artigos de fabricação que implementam o modelo representado na fig. 5 removem a imposição comum a HACM e HMLM, e todos os casos da variável oculta ha podem obter valores reais após uma nova estimativa usando um processo de EM modificado, conforme descrito abaixo. Além disto, como a pode ser qualquer nó na hierarquia, os objetos / podem ser atribuídos a diferentes níveis da hierarquia. Sendo assim, a implementação do modelo pelos métodos ilustrados na fig. 5 podem resultar em um puro grupamento hierárquico temporário de ambos os objetos i e j mediante a eliminação de todas as atribuições rígidas destes objetos.

Conforme mencionado anteriormente, uma modalidade da presente invenção pode executar um processo de EM modificado de reforço determinístico para implementar o modelo mostrado na fig. 5. Em uma configuração consistente com os princípios relacionados à presente invenção, Θ na probabilidade p(xr, yr; Θ) está associado ao conjunto corrente de estimativas dadas pela probabilidade ρ(ί{ή,Αή). Sendo assim, a função Q consistente com as características e princípios da presente invenção pode ser definida por: em que: Os métodos, sistemas e artigos de fabricação consistentes com determinadas características da presente invenção podem implementar também uma etapa M e E modificada do processo de EM de reforço determinístico para determinar as probabilidades associadas ao modelo mostrado na fig. 5. Por exemplo, como o processo de Etapa-E é derivado diretamente de Qp, e dado um /', e haé igual a zero para todos exceto uma classe a, e dados /, j e a, Vijav é igual a zero para todos menos v, a função Q Qp(0; Θ(ί)) = A + B, em que: Entretanto, como A na equação acima pode ser definido como: De maneira semelhante à determinação de A, B pode ser obtido da seguinte forma: Conforme descrito, < liJa>p e, < /íaVíw >β correspondem ao processo de etapa E do processo de EM modificado de reforço determinístico consistente com determinados princípios relacionados à presente invenção. Além disto, < lija V,^ >p corresponde à atribuição a qualquer antecessor na hierarquia induzida dada a classe a. O processo de etapa M modificada executado por uma modalidade da presente invenção objetiva encontrar o parâmetro Θ que maximiza Qp(0; Θ(ή). Inerente a tais distribuições de probabilidade é a restrição de otimização imposta, associada às imposições que possuem a forma: Em uma configuração consistente com determinados princípios relacionados à presente invenção, podem ser usados multiplicadores de La- grange para a busca do máximo sem imposição, correspondente. Por exemplo, para obter a probabilidade p(a) implementada no modelo mostrado na fig. 5, os multiplicadores de Lagrange são introduzidos para encontrar p(x; Θ), de tal modo que: o que, utilizando a imposição ^ resulta em: Usando o mesmo princípio que acima, podem ser obtidas as probabilidades restantes implementadas no modelo mostrado na fig. 5, o que resulta no seguinte: Conforme descrito, as probabilidades ρ(α; Θ), p(í | α; Θ), p(v [ a\ Θ), e P(i Iv> ®) definem os processos de reesti-mativa de etapa M usados no processo de EM modificado de reforço deter-minístico implementado pela presente invenção.

Os métodos, sistemas e artigos de fabricação consistentes com determinados princípios relacionados à presente invenção podem ser configurados para implementar o modelo ilustrado na fig. 5 para uma variedade de aplicações, dependendo do significado dado aos objetos i e j. Uma tal configuração pode ser aplicada a grupamento de documentos baseado em detecção de tópico. Em uma configuração assim, objetos / podem representar documentos, e objetos / podem representar palavras incluídas nos documentos, e grupos e/ou tópicos de documentos são dados por folhas e/ou nós de uma hierarquia induzida. Os tópicos associados à coleção de documentos podem ser obtidos interpretando qualquer grupo como um tópico definido pelas distribuições de probabilidade de palavra, p(J | v) mostradas na fig. 5. O modelo hierárquico temporário consistente com determinados princípios relacionados à presente invenção pode levar em consideração diversas propriedades ao interpretar os grupos, tais como: (1) um documento pode abranger (ou ser explicado por) diversos tópicos (atribuição temporária de objetos / fornecidos por p(/ | a)); (2) um tópico é descrito melhor por um conjunto de palavras, que podem pertencer a diferentes tópicos, devido a polissemia (a propriedade de uma palavra apresentar diversos sentidos diferentes, porém relacionados) e especialização (atribuição temporária de objetos j fornecidos por p(J | i/)); e (3) os tópicos podem ser organizados hierarquicamente, o que corresponde à hierarquia induzida por grupos. Em uma configuração consistente com determinados princípios relacionados à presente invenção, o modelo probabilístico geral para hierarquias pode processar coleções de documentos nas quais os tópicos não podem ser organizados hierarquicamente (ou sejam, modelos planos). Neste caso, as probabilidades p(v | tí) se concentram em v = α, o que resulta em um conjunto plano de tópicos, em vez de uma hierarquia. A fig. 6 mostra um fluxograma referente a um processo de grupamento de documentos exemplificativo que pode ser executado por uma modalidade da presente invenção. Em uma configuração consistente com determinados princípios relacionados à presente invenção, o computador 100 pode ser configurado para agrupar documentos mediante a identificação de tópicos abrangidos por um conjunto, ou coleção, de documentos (objetos /), em que cada documento pode incluir uma pluralidade de palavras (objetos /). O computador 100 pode executar as características de grupamento consistentes com determinados princípios relacionados à presente invenção baseado em uma solicitação de uma entidade solicitante. A entidade solici-tante pode ser um usuário interagindo com o computador 100 através de componentes de entrada/saída associados ao sistema de computação da fig. 1, ou pode ser um usuário situado remotamente em relação ao computador 100. Um usuário remoto pode interagir com o computador 100 a partir de um local remoto, por exemplo, um outro sistema de computação ligado a uma rede, usando o conector à rede 114. Além disto, a entidade solicitante pode ser um processo ou uma entidade de computação que solicita os serviços do computador 100. Por exemplo, uma entidade solicitante pode estar associada a um outro sistema de computação (localizado remotamente através de uma rede, ou ligado localmente ao barramento 108) que solicita uma operação de grupamento associada a uma coleção de documentos. Por exemplo, um servidor que fornece operações de busca associadas a coleções de documentos pode solicitar ao computador 100 determinar os tópicos de uma coleção de documentos específica. Neste exemplo, o computador 100 pode receber uma solicitação para agrupar uma coleção de documentos e colocar os resultados da operação de grupamento disponíveis para a entidade solicitante. Cumpre notar que aqueles versados na técnica perceberão que diversos tipos diferentes de entidades solicitantes, e tipos de solicitações, podem ser implementados sem se afastar do espírito e escopo da presente invenção.

Uma coleção de documentos pode estar situada em qualquer uma das memórias 104, 106 e 116. Além disto, uma coleção de documentos pode estar situada afastada do meio físico de computação mostrado na fig. 1, tal como em um servidor ligado a rede. Neste caso, o computador 100 pode ser configurado para receber a coleção através do conector a rede 114. Aqueles versados na técnica perceberão que a localização da coleção de documentos não está limitada aos exemplos acima, e o computador 100 pode ser configurado para obter acesso a estes locais utilizando métodos e sistemas conhecidos na técnica.

Com referência à figura 6, em uma configuração consistente com determinados princípios relacionados à presente invenção, o computador 100 pode iniciar técnicas de grupamento consistentes com determinados princípios relacionados à presente invenção mediante a definição de uma ou mais condições associadas a uma hierarquia (árvore) que pode ser induzida (Etapa 605). As condições podem permitir que o computador 100 determine quando uma hierarquia induzida atinge uma estrutura desejada em relação aos grupos definidos na mesma. Por exemplo, pode ser definida uma condi- ção que instrui o processador 102 (que pode estar realizando instruções e/ou código de programa para implementar o modelo hierárquico temporário consistente com características da presente invenção) para parar de localizar objetos co-ocorrentes (/, j) em uma coleção de documentos que está sendo agrupada. Uma tal condição pode estar baseada em um número predeterminado de folhas, e/ou em um nível de hierarquia induzida. Em uma configuração consistente com determinados princípios relacionados à presente invenção, o computador 100 pode receber as condições a partir de um usuário através de um dispositivo de entrada/saída, tal como o teclado 110. Por exemplo, um usuário pode ser instigado pelo computador 100 a fornecer uma condição, ou o computador 100 pode ser instruído pelo usuário para determinar as condições autonomamente, baseado no tamanho da coleção de documentos. Aqueles versados na técnica perceberão que diversas outras condições podem ser implementadas sem se afastar do espírito e escopo da presente invenção.

Com referência novamente à figura 6, uma vez definidas uma ou mais condições, o computador 100 pode receber (ou recuperar) uma coleção de documentos destinada a grupamento (Etapa 610). Assim que a coleção estiver accessível pelo computador 100, o processador 102 pode atribuir toda a coleção de documentos a uma classe a (Etapa 618). Inicialmente, a classe α pode representar um nó de raiz ou grupo que representa um tópico ou tópicos principal(ais) associado(s) à coleção de documentos. Além disto, o processador 102 pode também fixar um parâmetro β em um valor inicial (Etapa 620). Em uma modalidade, o parâmetro β pode ser um valor que controla a complexidade do próprio valor de parâmetro. O valor inicial de β pode ser muito baixo (ou seja, 0,01), para o qual apenas um grupo é necessário para encontrar o máximo singular da função objetiva, e variar até 1.0 valor de β pode ser determinado autonomamente pelo processador 102 baseado no tamanho da coleção, ou pode também ser fornecido por um usuário através de um dispositivo de entrada/saída, tal como o teclado 110. A seguir, o processador 102 pode executar a etapa E modificada no processo de EM modificado de reforço determinístico consistente com determinados princípios relacionados à presente invenção (Etapa 625). Sendo assim, Ορ(Θ; Θ(ί)) pode ser computado de acordo com as fórmulas descritas definidas acima, consistente com características e princípios relacionados à presente invenção [ou seja, Qp(0; Θ(0) = A + B], dados a classe a e o valor definido do parâmetro β. O processador 102 pode também executar o processo de maxi-mização dados a classe α e o valor definido do parâmetro β de acordo com determinados princípios relacionados à presente invenção (Etapa 630). Ou seja, são determinadas as distribuições de probabilidade ρ(α; Θ), p(i | α; Θ), p(v | a; Θ) e p(j | v; Θ). Uma vez executado o processo de EM modificado de reforço determinístico consistente com determinados princípios relacionados à presente invenção, o processador 102 pode determinar se a classe α foi dividida em duas classes inferiores (Etapa 635).

Em uma configuração consistente com determinados princípios relacionados à presente invenção, o processador 102 pode reconhecer uma divisão de classe a com base na distribuição de probabilidades p(/' I tí). Inicialmente, quando o parâmetro β é fixado em um valor muito baixo, todos os documentos e palavras (/ e j) incluídos na coleção de documentos possuem a mesma probabilidade de serem atribuídos à classe a. No entanto, como o valor do parâmetro β aumenta, a mesma probabilidade associada a diferentes documentos baseados em diferentes palavras incluídas nestes documentos começa a divergir de um para outro. Esta divergência pode fazer com que sejam realizadas duas classes (ou grupos) de documentos a partir de uma classe de antecessor, com o que cada classe inferior inclui documentos que possuem um valor de probabilidade p(/ | a) semelhante baseado em diferentes palavras incluídas em cada documento respectivo. Por exemplo, suponhamos que a coleção de documentos que é inicialmente atribuída à classe a na Etapa 615 inclua o documento DOC1, que contém palavras W1, W2 e W3, e o documento DOC2 que contém palavras W4, W5 e W6. Esta classe α inicial que inclui DOC1 e DOC2 pode produzir a mesma probabilidade p(/ | a) para cada documento na coleção em um valor inicial do parâmetro β baseado nas palavras em cada documento respectivo. En- tretanto, a um valor maior de β, a mesma classe α pode resultar em uma primeira probabilidade p(/ | ct) associada a DOC1 com base em W1, e em uma segunda probabilidade associada a DOC1 com base em W2. Similarmente, a um valor maior de β, DOC2 pode estar associado à primeira probabilidade baseada em W4, W5 e W6. Cumpre notar que, de acordo com determinados princípios relacionados à presente invenção, um único documento, tal como DOC1, pode ser atribuído a duas classes (ou grupos) com base nas palavras incluídas no documento único.

Na etapa 635, o processador 102 pode ser configurado para determinar se a probabilidade p(/' | οή associada a cada documento na coleção é a mesma, ou incide em um dentre dois valores de probabilidade correspondentes ao resto dos documentos na coleção. No caso do processador 102 determinar que houve uma divisão da classe α (Etapa 635; SIM), pode então determinar se as condições definidas na Etapa 605 foram atendidas (Etapa 640). Neste estágio do processo, está sendo induzida uma hierarquia (ou seja, a divisão da classe α em duas classes inferiores). Sendo assim, se o processador 102 determinar que uma condição (por exemplo, um número máximo de folhas) foi satisfeita (Etapa 640; SIM), a hierarquia induzida terá sido concluída, e os documentos foram agrupados baseados nos tópicos associados às palavras incluídas em cada documento, e o processo de grupamento termina (Etapa 645).

Se o processador 102 determina que a classe α inicial não foi dividida no valor corrente do parâmetro β (Etapa 635; NÃO), o valor do parâmetro β pode ser aumentado (Etapa 650), e o processo retorna para a Etapa 625 usando o valor majorado do parâmetro β. A maneira pela qual o parâmetro β aumenta pode ser controlada usando um valor de etapa, que pode ser predeterminado por um usuário, ou computado a partir do valor inicial do parâmetro β e de parâmetros adicionais fornecidos pelo usuário (quais sejam, o número de grupos, a profundidade da hierarquia, etc). Além disto, no caso da classe α inicial ter sido dividida em duas classes inferiores (cada uma das quais é definida como uma classe α separada) (Etapa 635; SIM), porém as condições da hierarquia não foram atendidas (Etapa 640; NÃO), o processador 102 pode fixar o parâmetro β para cada nova classe inferior α no valor que fez com que a classe a inicial se dividisse (Etapa 655). O processador 102 pode então executar as mesmas etapas para cada nova classe inferior a (Etapas 625-655) até que as condições da hierarquia tenham sido atendidas (Etapa 640; SIM), e o processo de grupamento termina (Etapa 645).

Em uma configuração consistente com determinados princípios relacionados à presente invenção, o fim do processo de grupamento (Etapa 645) pode ter prosseguimento com a criação pelo computador 100 de uma representação associada à hierarquia induzida, e pode ser armazenado em uma memória (ou seja, as memórias 106, 104 e/ou 116). A representação pode refletir os tópicos associados à coleção de documentos agrupada, e pode ser produzida em uma variedade de formas, tais como - sem estar limitada a - uma ou mais tabelas, listas, gráficos, representações gráficas da hierarquia e/ou grupos, e qualquer outro tipo de representação que reflita a hierarquia induzida e os grupos associados a tópicos da coleção de documentos. O computador 100 pode tornar a representação armazenada disponível para uma entidade solicitante, conforme descrito acima, em resposta a uma solicitação para executar uma operação de grupamento (ou seja, determinar tópicos de uma coleção de documentos). A representação pode ficar disponível para uma entidade através do conector a rede 114, ou bar-ramento 108, e pode ser enviada pelo computador 100 ou recuperada pela entidade. Além disto, o computador 100 pode ser configurado para enviar a representação da hierarquia para uma memória (tal como uma base de dados) para recuperação e/ou uso por uma entidade. Por exemplo, um servidor situado afastado do computador 100 pode acessar uma base de dados que contém uma ou mais representações associadas a uma ou mais hierarquias providas pelo computador 100. As hierarquias podem incluir grupos de tópicos associados a uma ou mais coleções de documentos. Por exemplo, o servidor pode acessar a base de dados para processar uma operação de busca em uma coleção de documentos específica. Em uma outra modalidade consistente com determinados princípios relacionados à presente inven- ção, o computador 100 pode produzir uma representação disponível para um usuário através do monitor 112. Nesta configuração, o computador 100 pode criar uma representação gráfica que reflete a hierarquia induzida e os tópicos refletidos pelos grupos de hierarquia, e fornecer a representação ao monitor 122 para ser vista por um usuário.

Para descrever adicionalmente determinadas configurações consistentes com a presente invenção, a fig. 7 mostra uma hierarquia de tópicos exemplificativa 700 para uma coleção de documentos exemplificativa que pode ser criada pela presente invenção. A hierarquia 700 pode refletir uma coleção de documentos que inclui um determinado número de documentos (ou seja, 273 documentos separados) associados a novos artigos relacionados à explosão de bomba em Oklahoma City. Neste exemplo, os documentos podem conter 7.684 palavras não-vazias diferentes. As palavras vazias podem se referir a palavras tais como determinadores, preposições, etc, e podem ter sido removidas da coleção usando técnicas conhecidas na técnica, tais como uma lista de parada. Antes de gerar a hierarquia 700, o processador 102 pode ter definido uma condição de hierarquia que reflete um máximo de quatro folhas para a hierarquia induzida 700.

Conforme mostrado, a hierarquia 700 inclui sete nós (710-770) e quatro folhas (740-770). Cada nó pode estar associado às cinco primeiras palavras na coleção para as quais a probabilidade p(J / v) é a mais alta. Durante a geração da hierarquia 700 pela presente invenção, a coleção de documentos associada ao nó 710 (definido dentro da classe ai com o parâmetro β1) pode ser sido separada em dois tópicos/grupos inferiores quando uma divisão de classe ai foi determinada após o aumento do valor do parâmetro β1. Na hierarquia 700 exemplificativa, os dois tópicos/grupos inferiores estão associados aos nós 720 e 730, definidos por classes an e ai2, respectivamente, e a divisão de classe ai pode ter ocorrido em um valor de parâmetro igual a β2.

Durante a geração subseqüente, cada classe an e cq2 pode ter partido em dois tópicos/grupos inferiores quando o valor de parâmetro aumentou de β2 a β3. Conforme mostrado, o nó 720, definido pela classe an, pode ter partido em nós 740 e 750, definidos por classes a2i e a22, respectivamente. O nó 730, definido pela classe ai2, por outro lado, pode ter partido em nós 760 e 770, definidos por classes a23 e a24, respectivamente.

Conforme mostra a figura 7, a presente invenção pode agrupar a coleção de documentos exemplificativa em tópicos selecionados com base na co-ocorrência de pares (documentos, palavras). Por exemplo, na hierarquia 700, o nó 720 pode refletir um tópico/grupo relacionado à investigação da explosão de bomba, enquanto o nó 730 pode refletir um tópico/grupo associado ao próprio evento de explosão de bomba. O nó 720 pode se dividir em mais dois tópicos relacionados à própria investigação (nó 740), e o julgamento associado à explosão (nó 750). O nó 730, por outro lado, pode ter sido dividido em dois tópicos relacionados à descrição de explosão e das vítimas (nó 760), e do trabalho das equipes de salvamento no de tópicos da explosão (nó 770). Na hierarquia 700 exemplificativa, foram usados nós de nível superior para descrever um dado tópico, através de p(v | d) e p(j | v). Sendo assim, as palavras que aparecem freqüentemente em todos os documentos, tais como "Oklahoma", são melhor explicadas atribuindo-lhes um lote de tópicos/grupos na hierarquia 700.

Cumpre notar que, em uma modalidade, o "título" dos tópicos associados a cada grupo/nó da hierarquia 700 pode ser fornecido pelo usuário. Por exemplo, o usuário pode receber as N palavras mais prováveis associadas a cada grupo/nó. A partir destas palavras, o usuário pode então inferir um "título" para o grupo/nó que está associado a um tópico. Altemati-vamente, o "título" para cada grupo/nó pode ser determinado automaticamente pelo processador 102. Nesta configuração, o processador 102 pode extrair os n-gramas mais freqüentes a partir dos documentos associados a um grupo/nó específico, e determinar um "título" para o grupo/nó baseado nos n-gramas extraídos.

Em uma configuração consistente com determinados princípios relacionados à presente invenção, o computador 100 pode ser configurado para avaliar a adequação de uma hierarquia de tópicos induzida por uma modalidade da presente invenção. Nesta configuração, o processador 102 pode executar instruções ou código de programa que permitem que os grupos incluídos em uma hierarquia induzida baseada em uma coleção de documentos de teste sejam comparados com um conjunto de rótulos manuais previamente atribuídos à coleção de teste. Para efetuar esta avaliação, o processador 102 pode usar a média da função de Gini para os rótulos e grupos incluídos na hierarquia induzida, e pode ser definido por: Gi = J_ Σ Σ Σ ρ(α 10 ρ(α' 10; L / α η'^ο 0 Ga = iZ Σ Σ P(í I «) Ρ(Γ I α) ■ Λ a l Ι'φΙ Nas funções de Gini acima, L refere-se ao número de rótulos diferentes, e Ω representa o número de grupos diferentes. Além disto, Gi mede a impureza dos grupos α obtidos em relação aos rótulos /, e reciprocamente para G„. Valores menores da funções de Gini Gi e Ga indicam melhores resultados pelo fato dos grupos e rótulos estarem em correspondência mais próxima. Ou seja, se os grupos de dados e os grupos de rótulos contêm os mesmos documentos com os mesmos pesos, o índice de Gini é 0. As funções de Gini Gf e Ga possuem, cada uma, um limite superior de I.

Sendo assim, quando o sistema de computador 100 procura avaliar a eficácia das operações de grupamento hierárquico temporário consistentes com determinados princípios relacionados à presente invenção, uma coleção de documentos de teste pode ser acessada e o processo mostrado na fig. 6 pode ser executado na coleção para produzir uma hierarquia de tópicos. Os resultados da execução das funções de Gini nos grupos podem ser fornecidos na forma de índices de Gini. O processador 102 pode ser configurado para analisar a função de Gini resultante para determinar se o processo de grupamento consistente com características da presente invenção está produzindo resultados de tópicos apropriados.

Em uma configuração consistente com determinados princípios relacionados à presente invenção, os índices de Gini associados ao processo mostrado na fig. 6 podem ser comparados com os índices de Gini associados a outros processos de grupamento, tais como os modelos HMLM e de grupamento plano, que atribuem documentos apenas a folhas de uma hie- rarquia induzida, tal como um Modelo de Mistura Separável (SMM). Por exemplo, a tabela 1 mostra uma tabela exemplificativa de índices de Gini associada a uma coleção de documentos de teste que pode ter sido agrupada pelo processador 102 usando o processo de grupamento hierárquico temporário consistente com características da presente invenção, um processo de grupamento baseado em HMLM, e um processo de grupamento de SMM. Conforme mostra a figura 1, os índices de Gini associados ao processo de grupamento hierárquico temporário consistente com características da presente invenção são menores que aqueles associados aos outros dois modelos (HMLM, e os rótulos). Tais resultados podem dar ao sistema de computador 100 uma indicação da eficácia dos grupos de tópicos gerados pela execução do processo de grupamento consistente com determinados princípios relacionados à presente invenção, em comparação com outros processos de grupamento. G| Ga SMM 0,34 0,30 HMLM 0,40 0,45 Modelo Consistente com Determinados 0,20 0,16 Princípios Relacionados à Presente Invenção Tabela 1. Comparação de índices de Gini Conforme descrito, a presente invenção possibilita que um sistema de computação produza grupos de tópicos a partir de uma coleção de documentos e palavras, de tal modo que cada grupo pode estar associado a documentos atribuídos a outros grupos. Sendo assim, a atribuição rígida de objetos em uma hierarquia induzida de grupos é eliminada. A presente invenção não está limitada a implementação e configurações descritas acima. Por exemplo a presente invenção pode permitir que uma hierarquia de grupos de tópicos associados a uma coleção de documentos seja atualizada baseada em um novo documento (ou documentos) adicionados à coleção. Nesta configuração o computador 100 pode permitir que uma coleção de documentos seja atualizada com a adição de um ou mais novos documentos, e execute, na coleção modificada, uma operação de grupamento consistente com determinados princípios relacionados à presente invenção. Sendo assim, a presente invenção pode ser implementada para modificar uma hierarquia de tópicos associada a uma coleção de documentos de documentos, cada vez que um novo documento (ou um conjunto de documentos) é acrescentado à coleção.

Além disto, a presente invenção pode ser empregada para agrupar usuários em função das ações realizadas em uma coleção de documentos (por exemplo, gravação, impressão, navegação). Nesta configuração, os objetos '7' representariam os objetivos "i" irão representar os usuários e os objetos "j" não representam os documentos. Adicionalmente, a presente invenção pode ser empregada para agrupar imagens baseadas no texto que é associado às imagens. Por exemplo, o texto associado pode refletir o título de uma imagem ou pode ser um texto contornando a imagem tal como em uma página da web. Nessa configuração, os objetos "i" irão representar as imagens e os objetos "j" irão representam as palavras contidas no título de cada imagem.

Além disso, a presente invenção pode ser empregada para agrupar companhias baseada em seus domínios de atividade ou relações com consumidor. Por exemplo, nesta última aplicação, os objetos T representariam as companhias e os objetos representariam a relação entre as companhias e seus consumidores (por exemplo, "vender para"). Ou seja, uma ou mais entidades de negócios podem possuir um conjunto de fregueses que adquiriram das entidades de negócios diferentes tipos de produtos e/ou serviços. Sendo assim, de acordo com determinados aspectos da presente invenção, os grupos de uma hierarquia podem representar grupos de fregueses que adquiriram das entidades de negócios tipos de produtos e/ou serviços semelhantes (por exemplo, compras de hardware, compras de software de computador, compras de peças de roteador, etc). Conseqüen-temente, nesta configuração, '7' pode representar os fregueses, e "/' pode representar as entidades de negócios. Alternativamente, uma outra configuração pode incluir um conjunto de fregueses que adquiriram, de tipos espe- cíficos de entidades de negócios, diversos tipos de produtos e/ou serviços. Nesta configuração, os grupos da hierarquia podem representar grupos de tipos de produtos e/ou serviços (por exemplo, vendas de hardware, vendas de software de computador, vendas de produtos de papel, etc). Nesta configuração, pode representar as entidades de negócios e pode representar os fregueses. Sendo assim, aqueles versados na técnica perceberão que a presente invenção pode ser aplicada ao grupamento de qualquer tipo de objetos co-ocor rentes.

Além disto, embora aspectos da presente invenção estejam descritos associados a dados armazenados na memória e em outros meios físicos de armazenamento, aqueles versados na técnica perceberão que estes aspectos podem também ser armazenados em - ou lidos de - outros tipos de meios físicos legíveis por computador, tais como dispositivos de armazenamento secundário, como discos rígidos, disquetes ou CD ROM; uma onda transportadora da Internet, ou outras formas de RAM ou ROM. Sendo assim, a invenção não está limitada aos aspectos descritos acima da invenção, porém, em vez disto, é definida pelas reivindicações apensas considerando o seu escopo integral de equivalentes.

Claims

1. Método implementado por computador (100) para agrupar uma pluralidade de documentos em uma estrutura hierárquica de dados (200, 700) constituída por uma pluralidade de grupos, em que cada documento inclui uma pluralidade de palavras, o método compreendendo as etapas de: acessar uma coleção de documentos; executar um processo de grupamento que cria uma hierarquia de grupos que reflete uma segregação de documentos na coleção baseada nas palavras incluídas nos documentos, em que a hierarquia de grupos é uma árvore de nós que representa tópicos associados à coleção de documentos com base nas palavras na coleção de documentos, a árvore de nós incluindo um nó de raiz associado a uma pluralidade de subnós; armazenar uma representação da hierarquia de grupos em uma memória (104, 106); e tornara representação disponível para uma entidade em resposta a uma solicitação associada à coleção de documentos, em que um ou mais documentos incluídos na coleção de documentos são atribuídos a uma pluralidade de grupos na hierarquia usando uma variável lra que controla a atribuição de documentos à hierarquia de grupos de modo que qualquer documento na coleção pode ser atribuído a um primeiro grupo e a um segundo grupo na hierarquia baseados em diferentes segmentos do documento, respectivamente, o primeiro e o segundo grupos sendo associados a diferentes trajetórias da estrutura hierárquica de dados, em que a variável lra depende de uma classe a associada ao respectivo grupo e abrangendo todos os nós da hierarquia, e em um par de objetos de coocorrência / e j, o objeto / representando um documento da coleção de documentos e o objeto j representando uma palavra incluída na coleção de documentos, a etapa de executar o processo de grupamento compreendendo: executar um processo de Expectativa-Maximização (EM) de variante determinística modificado, que envolve: atribuir a coleção de documentos a uma primeira classe; caracterizado pelo fato de que ainda compreende: estabelecer um parâmetro (β) para um valor inicial; e determinar, para cada documento na coleção, no valor do parâmetro (β), uma probabilidade de uma atribuição do documento na coleção para um grupo na hierarquia com base em uma palavra incluída no documento e na primeira classe, o parâmetro (β) controlando uma divergência dos valores de probabilidade associados aos diferentes documentos com base em diferentes palavras incluídas nesses documentos, a etapa de determinar incluindo: calcular uma probabilidade de coocorrência de objetos / e j em pares (/, /); determinar se a primeira classe foi dividida em duas classes inferiores, com base na atribuição de probabilidades determinada, em que cada classe inferior reflete um grupo descendente de um grupo inicial refletido pela primeira classe; e aumentar o valor do parâmetro (β) baseado na determinação de se a primeira classe foi dividida em duas classes inferiores; e repetir a etapa de determinar, para cada documento na coleção no valor do parâmetro (β), e a etapa de aumentar o valor do parâmetro (β) até a primeira classe ter sido dividida em duas classes inferiores; o método compreendendo ainda: repetir o processo de grupamento para cada nova classe inferior de modo que uma hierarquia de grupos é criada, até que uma condição predeterminada associada à hierarquia seja alcançada.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a condição predeterminada é uma dentre um número máximo de folhas associadas à hierarquia e a um nível de profundidade da hierarquia.

3. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que: qualquer nó na árvore pode incluir uma palavra que é compartilhada por outro nó; fragmentos de um ou mais documentos incluídos na coleção são atribuídos a nós múltiplos na árvore com base na coocorrência de objetos / e j em pares (/, y); e a representação é tornada disponível para operações de processamento associadas à coleção de documentos.

4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a etapa de atribuir inclui: associar um conjunto de documentos na coleção de documentos com uma classe que reflete todos os nós na árvore, em que o conjunto de documentos pode incluir todos ou alguns dos documentos na coleção; definir uma segunda classe refletindo qualquer nó antecessor de um nó na classe que reflete todos os nós na árvore; determinar, para cada documento no conjunto, uma probabilidade de que diferentes palavras incluídas em um respectivo documento coo-corra com o respectivo documento em qualquer nó na árvore com base na classe que reflete todos os nós na árvore e na segunda classe; e atribuir um ou mais fragmentos de qualquer documento no conjunto a qualquer nó na árvore com base na dita probabilidade.

5. Método implementado por computador (100) para agrupar dados que refletem usuários em uma estrutura hierárquica de dados (200, 700) incluindo um nó de raiz associado a uma pluralidade de subnós, em que cada subnó representa uma ação que é executada em uma coleção de documentos, o método compreendendo as etapas de: acessar uma coleção de dados de usuário que reflete uma pluralidade de usuários, cada um dos quais executa pelo menos uma ação na coleção de documentos, em que cada ação pode ser única; executar um processo de grupamento que cria uma hierarquia de grupos que reflete uma segregação de usuários com base em ações rea- lizadas pelos usuários na coleção de documentos; armazenar uma representação da hierarquia de grupos em uma memória (104, 106); e tornara representação disponível para uma entidade em resposta a uma solicitação associada à coleção de dados de usuário, em que um ou mais dados de usuário incluídos na coleção de dados de usuário são atribuídos a uma pluralidade de grupos na hierarquia usando uma variável lra que controla a atribuição de dados de usuário à hierarquia de grupos de modo que qualquer dado de usuário na coleção de dados de usuário pode ser atribuído a um primeiro grupo e a um segundo grupo na hierarquia baseados em primeira e segunda ações executadas pelos usuários na coleção de documentos, respectivamente, o primeiro e o segundo grupos sendo associados a diferentes trajetórias da estrutura hierárquica de dados, em que a variável lra depende da classe a associada ao respectivo grupo e abrangendo todos os nós da hierarquia, e em um par r de objetos de coocorrência / e j, o objeto /' representando um dado de usuário na coleção de dados de usuário e o objeto j representando um documento incluído na coleção de documentos, em que o processamento de grupamento compreende: executar um processo de Expectativa-Maximização (EM) de variante determinística modificado, que envolve: atribuir a coleção de dados de usuário a uma primeira classe; caracterizado pelo fato de que ainda comprende: estabelecer um parâmetro (β) para um valor inicial; e determinar, para cada dado de usuário na coleção de dados de usuário, no valor do parâmetro (β), uma probabilidade de uma atribuição do dados de usuário para um grupo na hierarquia com base em um documento incluído na coleção de documentos e na primeira classe, o parâmetro (β) controlando uma divergência nos valores de probabilidade associados aos diferentes dados de usuário com base em diferentes documentos, a etapa de determinar incluindo: calcular uma probabilidade de coocorrência de objetos / e j em pares (/, /); determinar se a primeira classe foi dividida em duas classes inferiores, com base na probabilidade determinada, em que cada classe inferior reflete um grupo descendente de um grupo inicial refletido pela primeira classe; e aumentar o valor do parâmetro (β) com base na determinação de se a primeira classe foi dividida em duas classes inferiores; e repetir a etapa de determinar, para cada dado de usuário na coleção de dados de usuário no valor do parâmetro (β), e a etapa de aumentar o valor do parâmetro (β), até a primeira classe ter sido dividida em duas classes inferiores; o método compreendendo ainda: repetir o processo de grupamento para cada nova classe inferior de modo que uma hierarquia de grupos é criada, até que uma condição predeterminada associada à hierarquia seja alcançada.

6. Método implementado por computador (100) para agrupar uma pluralidade de imagens baseadas em texto associado às imagens em uma estrutura hierárquica de dados (200, 700) que inclui um nó de raiz associado a uma pluralidade de subnós, em que cada subnó representa um tópico diferente, o método compreendendo as etapas de: acessar uma coleção de imagens; executar um processo de grupamento que cria uma hierarquia de grupos que reflete uma segregação de imagens na coleção com base em texto associado às imagens; armazenar uma representação da hierarquia de grupos em uma memória (104, 106); e tornara representação disponível para uma entidade em resposta a uma solicitação associada à coleção de imagens, em que uma ou mais imagens incluídas na coleção de imagens são atribuídas a uma pluralidade de grupos na hierarquia usando uma variável !ra que controla a atribuição de imagens à hierarquia de grupos de modo que qualquer imagem na coleção de imagens pode ser atribuída a um primeiro grupo e a um segundo grupo na hierarquia baseados em diferentes porções de texto associadas à imagem, respectivamente, em que a variável lra depende da classe a associada ao respectivo grupo e abrangendo todos os nós da hierarquia, e em um par r de objetos de coocorrência / e j, o objeto / representando uma imagem na coleção de imagens e o objeto j representando uma porção de texto associada à imagem; a etapa de executar o processo de grupamento compreendendo: executar um processo de Expectativa-Maximização (EM) de variante determinística modificado, que envolve: atribuir a coleção de imagens a uma primeira classe; caracterizado pelo fato de que ainda compreende: estabelecer um parâmetro (β) para um valor inicial; e determinar, para cada imagem na coleção de imagens, no valor do parâmetro (β), uma probabilidade de uma atribuição da imagem para um grupo na hierarquia com base em uma primeira classe e em uma porção de texto associada à imagem, o parâmetro (β) controlando uma divergência nos valores de probabilidade associados a diferentes imagens com base em diferentes porções de texto associadas a essas imagens, a etapa de determinar incluindo: calcular uma probabilidade de coocorrência de objetos / e j em pares (/, /); determinar se a primeira classe foi dividida em duas classes inferiores, com base na probabilidade de atribuições determinada, em que cada classe inferior reflete um grupo descendente de um grupo inicial refletido pela primeira classe; e aumentar o valor do parâmetro (β) com base na determinação de se a primeira classe foi dividida em du- as classes inferiores; e repetir a etapa de determinar, para cada imagem na coleção de imagens no valor do parâmetro (β) até a primeira classe ter sido dividida em duas classes inferiores; o método compreendendo ainda: repetir o processo de grupamento para cada nova classe inferior de modo que uma hierarquia de grupos é criada, até que uma condição predeterminada associada à hierarquia seja alcançada.

7. Método, de acordo com a reivindicação 5 ou 6, caracterizado pelo fato de que a condição predeterminada é uma dentre um número máximo de folhas associadas à hierarquia e a um nível e profundidade da hierarquia.