BR102015031789B1 - Método e sistema de interpretação de dados para interpretar um conjunto de dados que compreende uma pluralidade de itens - Google Patents

Método e sistema de interpretação de dados para interpretar um conjunto de dados que compreende uma pluralidade de itens Download PDF

Info

Publication number
BR102015031789B1
BR102015031789B1 BR102015031789-1A BR102015031789A BR102015031789B1 BR 102015031789 B1 BR102015031789 B1 BR 102015031789B1 BR 102015031789 A BR102015031789 A BR 102015031789A BR 102015031789 B1 BR102015031789 B1 BR 102015031789B1
Authority
BR
Brazil
Prior art keywords
rule
rules
data
coverage
representative
Prior art date
Application number
BR102015031789-1A
Other languages
English (en)
Other versions
BR102015031789A2 (pt
Inventor
Puneet Agarwal
Gautam Shroff
Sarmimala SAIKIA
Ashwin Srinivasan
Original Assignee
Tata Consultancy Services Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Limited filed Critical Tata Consultancy Services Limited
Publication of BR102015031789A2 publication Critical patent/BR102015031789A2/pt
Publication of BR102015031789B1 publication Critical patent/BR102015031789B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

MÉTODO E SISTEMA DE INTERPRETAÇÃO DE DADOS PARA INTERPRETAR UM CONJUNTO DE DADOS QUE COMPREENDE UMA PLURALIDADE DE ITENS; E MEIO LEGÍVEL POR COMPUTADOR NÃO TRANSITÓRIO. A presente invenção refere-se a um método e um sistema para interpretar um conjunto de dados que compreende uma pluralidade de itens. O método pode incluir computar um conjunto de regras que pertence ao conjunto de dados, gerar uma cobertura de regra, calcular uma pluralidade de distâncias entre a pluralidade de pares de regras na cobertura de regra e gerar uma matriz de distância com base na pluralidade de distâncias calculada entre a pluralidade de pares de regras, armazenar a pluralidade de distâncias calculada entre a pluralidade de pares de regras, agrupar as regras sobrepostas dentro da cobertura de regra com o uso da matriz de distância; selecionar uma regra representativa a partir de cada agrupamento, determinar pelo menos uma exceção para cada regra representativa na cobertura de regra selecionada a partir de cada agrupamento e interpretar o conjunto de dados com o uso das regras representativas e a pelo menos uma exceção determinada para cada regra representativa no conjunto de regras.

Description

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS E PRIORIDADE
[001] O presente pedido reivindica a prioridade a partir do Pedido de Patente Provisório nº IN 4066/MUM/2014, depositado em 17 de dezembro de 2014, sendo que a totalidade do qual está incorporada no presente documento a título de referência.
CAMPO DA TÉCNICA
[002] A presente matéria refere-se à interpretação de dados, e, particularmente, mas não exclusivamente, à interpretação de um conjunto de dados.
ANTECEDENTES
[003] Em tempos recentes, a indústria de análises está amadurecendo e, portanto, a competição está aumentando dentro da indústria de análises. No atual ambiente de negócios global de rápido crescimento, a demanda para competentes soluções analíticas é maior que anteriormente. Geralmente, as empresas armazenam quantidades significativas de dados como ativos de informações. Tais dados são analisados para fornecer um significado para os dados com base em que os dados podem ser usados para tomada de decisão. Por exemplo, empresas empregam várias aplicações de análises de dados para identificar relações dentre os conjuntos de dados armazenados e age de acordo com as relações identificadas.
SUMÁRIO DA INVENÇÃO
[004] Antes do presente método, sistema e habilitação de hardware serem descritos, deve-se compreender que essa invenção não se limita ao sistema particular e à metodologia descrita, visto que pode haver múltiplas modalidades possíveis da presente invenção que não são expressamente ilustradas na presente revelação. Também devese compreender que a terminologia usada na descrição é para o propósito de descrever somente as versões ou modalidades particulares, e não é destinada a limitar o escopo da presente invenção que será limitado somente pelas reivindicações anexas.
[005] O presente pedido fornece um método e sistema para interpretação de um conjunto de dados.
[006] O presente pedido fornece um método para interpretação de um conjunto de dados, sendo que o dito método compreende as etapas implantadas por processador para computar um conjunto de regras que pertencem ao conjunto de dados, em que cada regra dentro do conjunto de regras compreende um consequente predeterminado com base em um ou mais antecedentes; e gerar uma cobertura de regra que compreende uma pluralidade de regras, em que a cobertura de regra pertence a um subconjunto do conjunto de regras que usa um módulo de geração de regra (120); calcular uma pluralidade de distâncias entre a pluralidade de pares de regras e gerar uma matriz de distância com base na pluralidade de distâncias calculada entre a pluralidade de pares de regras na cobertura de regra e armazenar a pluralidade de distâncias calculada entre a pluralidade de pares de regras; agrupar as regras sobrepostas dentro da cobertura de regra que usa a matriz de distância, em que as regras sobrepostas pertencem a um conjunto comum de transações nos dados; selecionar uma regra representativa de cada agrupamento, em que a regra representativa representa transações cobertas pelas regras contidas dentro de cada agrupamento; determinar pelo menos uma exceção para cada regra representativa no conjunto de regras selecionado a partir de cada agrupamento, em que a pelo menos uma exceção é determinada quando os um ou mais antecedentes fornecem um resultado diferente do consequente predeterminado; e interpretar o conjunto de dados que usa as regras representativas e a pelo menos uma exceção determinada para cada regra representativa no conjunto de regras que usa um módulo de interpretação (122).
[007] O presente pedido fornece um sistema (102) para interpretação de um conjunto de dados, sendo que o sistema compreende um processador (110), um módulo de geração de regra (120) adaptado para computar um conjunto de regras que pertencem ao conjunto de dados, em que cada regra dentro do conjunto de regras compreende um consequente predeterminado com base em um ou mais antecedentes, gerar uma cobertura de regra que compreende uma pluralidade de regras, em que a cobertura de regra pertence a um subconjunto do conjunto de regras; um módulo de interpretação (122) adaptado para calcular uma pluralidade de distâncias entre a pluralidade de pares de regras na cobertura de regra e gerar uma matriz de distância com base na pluralidade de distâncias calculada entre a pluralidade de pares de regras e armazenar a pluralidade de distâncias calculada entre a pluralidade de pares de regras; agrupar as regras sobrepostas dentro da cobertura de regra que usa a matriz de distância, em que as regras sobrepostas pertencem a um conjunto comum de transações nos dados; selecionar uma regra representativa de cada agrupamento, em que a regra representativa representa transações cobertas pelas regras contidas dentro de cada agrupamento; determinar pelo menos uma exceção para cada regra representativa no conjunto de regras selecionado a partir de cada agrupamento, em que a pelo menos uma exceção é determinada quando os um ou mais antecedentes fornecem um resultado diferente do consequente predeterminado; interpretar o conjunto de dados que usa as regras representativas e a pelo menos uma exceção determinada para cada regra representativa no conjunto de regras e um banco de dados (108) adaptado para armazenar o conjunto de dados.
BREVE DESCRIÇÃO DAS FIGURAS
[008] A descrição detalhada é descrita com referência às Figuras anexas. Nas Figuras, o(s) dígito(s) mais à esquerda de um número de referência identifica(m) a Figura na qual o número de referência aparece primeiro. Os mesmos números são usados por todas as Figuras para se referir a recursos e componentes semelhantes. Algumas modalidades de sistema e/ou métodos de acordo com as modalidades da presente matéria são descritas agora, somente a título de exemplo, e com referência às Figuras anexas, em que:
[009] A Figura 1 ilustra um ambiente de rede que implanta um sistema de interpretação de dados, de acordo com uma modalidade da presente matéria.
[010] A Figura 2 ilustra um método para interpretar um conjunto de dados que tem uma pluralidade de conjuntos de itens, de acordo com outra modalidade da presente matéria.
[011] Deve ser entendido por aqueles versados na técnica que quaisquer diagramas de blocos no presente documento representam vistas conceituais de sistemas ilustrativos que incorporam os princípios da presente matéria. De maneira semelhante, será observado que quaisquer fluxogramas, diagramas de fluxo, diagramas de transição de estado, pseudocódigo e semelhantes representam vários processos que podem ser substancialmente representados no meio legível por computador e, então, executados por um computador ou processador, independente de se tal computador ou processador for explicitamente mostrado.
DESCRIÇÃO DAS MODALIDADES
[012] A presente matéria se refere a sistemas e métodos para interpretar um conjunto de dados que tem uma pluralidade de conjuntos de itens. Um conjunto de dados pode ser compreendido como uma coleção de dados. Em um exemplo o conjunto de dados pode pertencer a dados de cesta de compras ou dados de consumidor e semelhantes.
[013] Em geral, as empresas armazenam quantidades significativas de dados como ativos de informações. Entretanto, esses dados são frequentemente volumosos, por exemplo, o número de transações em um supermercado pode ser volumoso, e é difícil resumir os dados que usam técnicas computacionais. A finalidade da análise de mineração de dados é apresentar um pequeno conjunto de regras que são aprendidas a partir dos dados e auxiliar o analista de negócios na compreensão de padrões importantes. Entretanto, tais técnicas frequentemente retornam um amplo número de resultados redundantes e torna-se difícil interpretar os mesmos e resumir os dados determinados.
[014] Tradicionalmente, existem diversas maneiras de lidar com o agrupamento de regras de associação e de encontrar exceções para as mesmas. Entretanto, as mesmas são tratadas separadamente e nenhuma das técnicas existentes incorpora ambas. Além disso, as regras top-K identificadas ordenando-se as regras que usam medidas estatísticas de interesse fornecem baixa cobertura, isto é, a maioria das regras reduzidas cobre uma pequena fração dos dados de entrada e, portanto, não fornece uma imagem clara sobre os dados de entrada. A ausência de uma vista abrangente dos dados de entrada desencadeia uma variedade de problemas.
[015] Convencionalmente, as empresas têm sido incapazes de potencializar apropriadamente os dados disponíveis, tais como os pertencentes a diferentes clientes, armazenados em múltiplos locais de fonte de dados e podem somente obter uma vista fragmentada de um cliente e a relação do cliente com várias empresas. Nenhuma das técnicas existentes tem a capacidade de potencializar todos os dados de cliente para criar e manter uma vista unificada e abrangente de um cliente através de múltiplas fontes de dados distintas. Frequentemente se torna relevante analisar todas as relações possíveis antes de estabelecer qualquer uma das relações. Portanto, as técnicas existentes não analisam os dados de relação que expressam holisticamente a relação entre várias entidades associadas com uma empresa.
[016] Consequentemente, a presente matéria fornece um sistema e um método para interpretar um conjunto de dados que compreende uma pluralidade de conjuntos de itens armazenada dentro de um banco de dados, tal como um banco de dados de transação ou um Repositório Exploratório de Dados (EDR). O EDR pode incluir dados associados que têm um ou mais conjuntos de itens. Em um exemplo, o EDR pode incluir dados associados pertencentes a qualquer campo, tal como comportamento de consumidor, dados de veículo e dados de sensor. Além disso, o EDR pode ser criado ou pode ser obtido de uma fonte externa. A presente matéria pode incluir um sistema de interpretação de dados. O sistema de interpretação de dados pode fornecer diferentes interpretações da pluralidade de conjuntos de itens.
[017] Uma vez que o EDR é obtido ou criado, o sistema de interpretação de dados pode identificar uma pluralidade de conjuntos de itens de ocorrência frequente dentro do banco de dados de transação. Em um exemplo, os conjuntos de itens de ocorrência frequente podem ser identificados por empregar quaisquer das técnicas de mineração de padrão frequente. Em um exemplo, cada um dentre a pluralidade de conjuntos de itens de ocorrência frequente forma uma regra para um consequente predeterminado com base em um ou mais antecedentes. Além disso, para cada um dentre os conjuntos de itens de ocorrência frequente, o sistema de interpretação de dados pode avaliar o valor de pelo menos um parâmetro que pode ser associado com a regra. Em um exemplo, o pelo menos um parâmetro pode incluir um suporte da regra, uma confiança da regra e uma elevação da regra.
[018] Em uma implantação, uma vez que os valores pertencentes ao pelo menos um parâmetro associado com a regra são avaliados, o sistema de interpretação de dados pode computar um conjunto de regras pertencente aos conjuntos de itens. Em uma implantação, o conjunto de regras pode ser computado com base em uma técnica de mineração de regra de associação. Em um exemplo, as regras de associação podem ser compreendidas como declarações se/então que facilitam na compreensão de relações entre os conjuntos de itens em um repositório de informações, tal como o EDR. Na presente implantação, o conjunto de regras é gerado para o consequente com base no valor do pelo menos um parâmetro. Em um exemplo, somente aquelas regras são consideradas no conjunto de regras que tem o suporte e a confiança acima de um valor limite predefinido.
[019] Uma vez que o conjunto de regras é gerado, o sistema de interpretação de dados pode identificar uma cobertura de regra do conjunto de regras. Em uma implantação, o sistema de interpretação de dados pode dispor as regras em uma ordem decrescente de suporte. Subsequentemente, aquelas regras são selecionadas para que a cobertura das regras esteja acima de um valor limite predefinido. Subsequentemente, somente um subconjunto de regras é selecionado que cobre quase a mesma quantidade de dados que as cobertas pelos conjuntos de regras original. Essas regras formam a cobertura de regra para o consequente. Em uma implantação, muitas das regras identificadas, na cobertura, podem se sobrepor umas às outras, isto é, as mesmas podem cobrir muitas das mesmas transações nos dados de entrada. Em um exemplo, o sistema de interpretação de dados pode calcular o grau de sobreposição entre as regras escolhidas.
[020] Com base no grau de sobreposição, é calculada uma distância entre os pares de regras e é computada uma matriz de distância e o sistema de interpretação de dados pode agrupar as regras na cobertura de regra. Em uma implantação, o agrupamento pode ser desempenhado por aplicações de agrupamento de dados, tal como o Agrupamento Espacial com Base em Densidade de Aplicações com Ruído (DBSCAN). Em um exemplo, o sistema de interpretação de dados pode empregar qualquer medida de distância, tal como distância entre centroides dos agrupamentos, para determinar a distância entre agrupamento.
[021] Uma vez que todas as regras do banco de dados de transação são agrupadas com base nas etapas mencionadas acima, o sistema de interpretação de dados pode selecionar uma regra de cada agrupamento para interpretar o agrupamento. Em uma implantação, o sistema de interpretação de dados pode selecionar uma regra de cada agrupamento empregando-se um modo por lote ou uma técnica de modo interativo. Por exemplo, no modo por lote, a uma regra é selecionada com base nos parâmetros associados com a regra, tal como a regra que tem suporte mais elevado ou que tem confiança mais elevada, pode ser automaticamente selecionada pelo sistema de interpretação de dados de cada agrupamento. No modo interativo, um usuário pode interativamente selecionar regras alternativas de cada agrupamento, fornecendo, desse modo, múltiplas explicações para o mesmo agrupamento.
[022] Em uma implantação, o sistema de interpretação de dados pode determinar um conjunto de exceções para toda regra selecionada a partir de cada agrupamento. Por exemplo, o conjunto de exceções pode ser computado para os antecedentes para um resultado diferente do consequente. As exceções podem indicar desvios dos padrões usuais e, portanto, facilitar o planejamento estratégico.
[023] Assim, a presente matéria facilita em fornecer múltiplas explicações do mesmo conjunto de dados. Além disso, a presente matéria fornece várias exceções que podem ser associadas com cada regra para permitir que os analistas compreendam vários desvios da regra. Além disso, as explicações fornecidas pela presente matéria são de natureza abrangente, uma vez que as mesmas são baseadas nas regras que têm uma cobertura acima de um valor limite predefinido.
[024] Embora os aspectos de sistema(s) e método(s) descritos de interpretação de um conjunto de dados possam ser implantados em qualquer número de diferentes dispositivos de computação, ambientes e/ou configurações, as implantações são descritas no contexto do(s) sistema(s) e método(s) exemplificativos seguintes.
[025] A Figura 1 ilustra um ambiente de rede 100 que implanta um sistema de interpretação de dados 102 para interpretar um conjunto de dados, de acordo com um exemplo da presente matéria. O sistema de interpretação de dados 102 pode ser implantado como, mas sem limitação, computadores do tipo desktop, dispositivos de mão, computadores do tipo laptop, ou outros computadores portáteis, computador do tipo tablet, e semelhantes. O ambiente de rede 100, separado do sistema de interpretação de dados 102, inclui um ou mais dispositivos de computação 104- 1, 104-2,…., 104-N. Para o propósito de explicação e clareza, os dispositivos de computação 104-1, 104-2,…., 104-N, são coletivamente referidos doravante no presente documento como dispositivos de computação 104 e individualmente referidos doravante no presente documento como dispositivo de computação 104. No ambiente de rede 100, o sistema de interpretação de dados 102 é conectado aos dispositivos de computação 104 através de uma rede 106.
[026] A rede 106 pode ser uma rede sem fio, uma rede com fio, ou uma combinação das mesmas. A rede 106 pode ser implantada como uma dentre os diferentes tipos de redes, tal como intranet, rede de telecom, rede elétrica, rede de área local (LAN), rede de área estendida (WAN), rede privada virtual (VPN), interconexão de rede, rede de área global (GAN), a Internet, e semelhantes. A rede 106 tanto pode ser uma rede dedicada quanto uma rede compartilhada, que representa uma associação de diferentes tipos de redes que usam uma variedade de protocolos, por exemplo, Protocolo de Transferência de Hipertexto (HTTP), Protocolo de Controle de Transmissão/Protocolo de Internet (TCP/IP), Protocolo de Aplicativo Sem Fio (WAP), etc., para se comunicarem entre si. Além disso, a rede 106 pode incluir uma variedade de dispositivos de rede, incluindo roteadores, pontes, servidores, dispositivos de computação e dispositivos de armazenagem.
[027] Embora o sistema de interpretação de dados 102 e os dispositivos de computação 104 sejam mostrados para serem conectados através de uma rede 106, deve ser verificado por aqueles versados na técnica que o sistema de interpretação de dados 102 e os dispositivos de computação 104 podem ser distribuídos localmente ou através de uma ou mais localizações geográficas e podem ser física ou logicamente conectados entre si.
[028] Em uma implantação, o sistema de interpretação de dados 102 pode ser acoplado a um banco de dados 108. Embora não mostrado na Figura, será compreendido que o banco de dados 108 também pode ser conectado à rede 106 ou qualquer outra rede no ambiente de rede 100. Em uma implantação, o banco de dados 108 pode incluir um ou mais conjuntos de dados que podem ser usados pelo sistema de interpretação de dados 102. Em uma implantação, o banco de dados 108 pode ser fornecido como um banco de dados relacional e pode armazenar dados em vários formatos, tais como tabelas relacionais, tabelas relacionais de orientação de objeto, tabelas indexadas. Entretanto, será compreendido que o banco de dados 108 pode ser fornecido como outros tipos de bancos de dados, tais como bancos de dados operacionais, bancos de dados analíticos, bancos de dados hierárquicos e bancos de dados distribuídos ou de rede.
[029] O sistema de interpretação de dados 102 pode ser acoplado aos dispositivos de computação 104 para vários propósitos. Por exemplo, o sistema de interpretação de dados 102 pode ser conectado a um dispositivo de computação 104 para fornecer acesso a um repositório de informações, tal como o EDR, pertencente a uma empresa. A implantação e funcionamento do sistema de interpretação de dados 102 para interpretar um conjunto de dados é como descrito abaixo.
[030] Em uma implantação, o sistema de interpretação de dados 102 inclui um ou mais processador(es) 110, interface(s) 112, e uma memória 114, acoplada ao(s) processador(es) 110. O(s) processador(es) 110 pode(m) ser uma única unidade ou diversas unidades de processamento, todas as quais podem incluir múltiplas unidades de computação. O(s) processador(es) 110 pode(m) ser implantado(s) como um ou mais microprocessadores, microcomputadores, microcontroladores, processadores de sinal digital, unidades centrais de processamento, máquinas de estado, circuitos lógicos e/ou quaisquer dispositivos que manipulam sinais com base em instruções operacionais. Dentre outras capacidades, o(s) processador(es) 110 é (são) configurado(s) para buscar e executar instruções legíveis por computador e dados armazenados na memória 114.
[031] As funções dos vários elementos mostrados na Figura, que inclui quaisquer blocos funcionais rotulados como “processador(es)”, podem ser fornecidas através do uso de hardware dedicado assim como de hardware que tem a capacidade de executar software em associação com o software apropriado. Quando fornecidas por um processador, as funções podem ser fornecidas por um único processador dedicado, por um único processador compartilhado, ou por uma pluralidade de processadores individuais, alguns dos quais podem ser compartilhados. Além disso, o uso explícito do termo “processador” pode não ser interpretado para se referir exclusivamente a hardware que tem a capacidade de executar software, e pode incluir implicitamente, sem limitação, hardware de processador de sinal digital (DSP), processador de rede, circuito integrado de aplicação específica (ASIC), arranjo de portas programável em campo (FPGA), memória somente de leitura (ROM) para armazenar software, memória de acesso aleatório (RAM), e armazenamento não volátil. Outro hardware, convencional, e/ou sob medida, também pode ser incluído.
[032] A(s) interface(s) 112 pode(m) incluir uma variedade de interfaces de software e de hardware, por exemplo, interfaces para dispositivo(s) periférico(s), tal como um teclado, um mouse, uma memória externa e uma impressora. A(s) interface(s) 112 pode(m) facilitar múltiplas comunicações dentro de uma ampla variedade de redes e tipos de protocolos, incluindo redes com fio, por exemplo, rede de área local (LAN), cabo, etc., e redes sem fio, tal como LAN Sem Fio (WLAN), celular ou satélite. Para o propósito, a(s) interface(s) 112 pode(m) incluir uma ou mais portas para conectar o sistema de interpretação de dados 102 a diversos dispositivos de computação 104. Em várias implantações exemplificativas discutidas abaixo, o sistema de interpretação de dados 102 se comunica com os dispositivos de computação 104 por meio das interfaces 112.
[033] A memória 114 pode incluir qualquer meio legível por computador conhecido na técnica que inclui, por exemplo, memória volátil, tais como memória de acesso estática aleatória (SRAM) e memória de acesso dinâmica aleatória (DRAM), e/ou memória não volátil, tais como memória somente de leitura (ROM), ROM apagável e programável, memórias rápidas, discos rígidos, discos ópticos e fitas magnéticas. O sistema de interpretação de dados 102 também inclui módulos 116 e dados 118.
[034] Os módulos 116, entre outras coisas, incluem rotinas, programas, objetos, componentes, estruturas de dados, etc., que desempenham tarefas particulares ou implantam tipos de dados abstratos particulares. Os módulos 116 incluem um módulo de geração de regra 120, um módulo de interpretação 122 e outro(s) módulo(s) 124. O(s) outro(s) módulo(s) 124 pode(m) incluir programas ou instruções codificadas que suplementam aplicativos e funções do sistema de interpretação de dados 102.
[035] Por outro lado, os dados 118, entre outros, servem como um repositório para armazenar dados processados, recebidos e gerados por um ou mais dentre os módulos 116. Os dados 118 incluem, por exemplo, dados de conjuntos de regras 126, dados de interpretação 128 e outros dados 130. Os outros dados 130 incluem dados gerados como um resultado da execução de um ou mais módulos no(s) outro(s) módulo(s) 124.
[036] Em uma implantação, o módulo de geração de regra 120 pode identificar uma pluralidade de conjuntos de itens de ocorrência frequente em um conjunto de dados. Em um exemplo, cada transação pode conter um ou mais itens do conjunto de dados. Por exemplo, cada resposta de pesquisa pode ser compreendida como uma transação, em que os itens podem ser respostas do cliente para cada pergunta feita. De modo similar, em dados de múltiplos sensores, cada etapa de tempo pode ser compreendida como uma transação em que os valores individuais de diferentes sensores formam itens do conjunto de dados. O conjunto de dados pode ser representado como:
Figure img0001
[037] Em um exemplo, um subconjunto de D pode ser referido como um conjunto de item. Além disso, os conjuntos de itens de ocorrência frequente podem ser compreendidos como aqueles itens que co-ocorrem mais frequentemente que outros conjuntos de itens no conjunto de dados. Em um exemplo, o conjunto de dados pode ser armazenado dentro do banco de dados 108 associado com o sistema de interpretação de dados 102. Tais conjuntos de itens de ocorrência frequente podem formar uma regra para um consequente predeterminado com base em um ou mais antecedentes. Um consequente pode ser compreendido como um resultado da ocorrência dos conjuntos de itens. Cada conjunto de itens frequente, tal como pode formar uma regra para um consequente predeterminado de interesse (COI), tal como . Nesse caso, o subconjunto de itens, pode ser considerado como um antecedente, isto é, ----> . Em uma implantação, o sistema de interpretação de dados 102 pode empregar um mecanismo de crescimento FP para determinar os conjuntos de itens de ocorrência frequente no conjunto de dados.
[038] Por exemplo, considerando que o conjunto de dados pertence a uma loja de varejo em que os conjuntos de itens de ocorrência frequente podem ser a compra de pão, leite e manteiga por cliente. Com base no comportamento de compra do cliente, pode ser notado uma regra tal como: se um cliente compra pão e leite, o mesmo/a mesma também compra manteiga. Consequentemente, pão e leite podem ser compreendidos como os antecedentes que resultam no consequente, que nesse caso é a manteiga.
[039] Em uma implantação, o módulo de geração de regra 120 pode avaliar pelo menos um parâmetro associado com a regra. Por exemplo, o pelo menos um parâmetro pode incluir um suporte da regra . Em um exemplo, o suporte da regra pode ser determinado avaliando-se uma porcentagem de transações que contêm todos os itens no conjunto de itens frequente. Além disso, o pelo menos um parâmetro pode incluir valor de confiança de uma regra . A confiança de uma regra é identificada avaliando-se a probabilidade de ocorrência do consequente com base nos antecedentes. Em outras palavras, a confiança de uma regra é representada como = . Além disso, o pelo menos um parâmetro pode incluir a elevação de uma regra que pode ser compreendida como uma medida de interesse da regra. A elevação de uma regra pode ser definida como relação de confiança da regra e probabilidade de ocorrência do consequente. Em outras palavras, a elevação da regra pode ser representada como = .
Figure img0002
[040] Além disso, o módulo de geração de regra 120 pode computar uma pluralidade de conjuntos de regras pertencente ao conjunto de dados com base no pelo menos um parâmetro. Em uma implantação, o módulo de geração de regra 120 pode aplicar uma técnica de mineração de regra de associação para computar uma pluralidade de conjuntos de regras. Em um exemplo, a pluralidade de conjuntos de regras pode ser gerada com base no suporte das regras e na confiança da regra. Por exemplo, a pluralidade de conjuntos de regras (R) é gerada para um predeterminado COI com suporte maior que e confiança maior que . Em uma implantação, a pluralidade de conjuntos de regras é gerada com base nos conjuntos de itens de ocorrência frequente. O módulo de geração de regra 120 pode armazenar os detalhes sobre os conjuntos de regras como os dados de conjunto de regras 126. Em um exemplo, e podem ser compreendidos como valores limites predefinidos que podem ser definidos por um administrador de sistema. Portanto, todos os conjuntos de regras (R) que são gerados para um consequente comum (y) e têm o suporte e confiança acima dos valores limites predefinidos podem ser representados como:
Figure img0003
[041] Em uma implantação, o módulo de interpretação 122 pode, com base nos conjuntos de regras, computar uma cobertura de regra . Em um exemplo, a cobertura de uma regra pode indicar a porcentagem de transação em que a regra é satisfeita fora daquelas que contêm o consequente de interesse . Em um exemplo, a cobertura de uma regra pode ser representada como:
Figure img0004
[042] Portanto, para o conjunto de regras (R), que tem um consequente comum , a cobertura de regra é definida como:
Figure img0005
[043] Em uma implantação, pode ser compreendido como um subconjunto de , que cobre quase o mesmo conjunto de transações conforme coberto por .
[044] Em um exemplo, a fim de computar a cobertura de regra, o módulo de interpretação 122 pode pesquisar ou listar os conjuntos de regras em ordem decrescente de suporte. Além disso, o módulo de interpretação 122 pode adicionar as regras listadas para a cobertura de regra até que um número predefinido de transações que têm o COI seja coberto. Em um exemplo alternativo, o módulo de interpretação 122 pode selecionar as regras top-K e incluir as mesmas na cobertura de regra. Uma vez que a cobertura de regra é identificada, o módulo de interpretação 122 pode determinar um grau de sobreposição entre duas regras. Por exemplo, muitas regras podem cobrir o mesmo conjunto de transações nos dados, portanto, o módulo de interpretação 122 pode quantificar o grau de sobreposição entre duas regras como:
Figure img0006
[045] Além disso, o módulo de interpretação 122 pode, com base no grau de sobreposição, agrupar as regras que usam uma medida de distância . Em uma implantação, o módulo de interpretação 122 pode empregar um agrupamento espacial com base em densidade de aplicativos com técnica de ruído (DBSCAN) para agrupar as regras com base no grau de sobreposição. Em um exemplo, a medida de distância entre um par de regras pode ser definida como: em que é uma pequena constante e é igual a 0,01.
Figure img0007
[046] Uma vez que os agrupamentos tenham sido identificados, o módulo de interpretação 122 pode selecionar uma regra representativa de cada agrupamento para resumir o agrupamento. Em um exemplo, a uma regra pode ser compreendida para fornecer uma interpretação de todos os conjuntos de itens dentro do agrupamento. A regra representativa fornece uma interpretação de todo o conjunto de transações cobertas pelas regras presentes naquele agrupamento. Em uma implantação, o módulo de interpretação 122 pode empregar um modo por lote para selecionar uma regra para cada agrupamento. Em um exemplo, o modo por lote inclui selecionar automaticamente uma regra para resumir o agrupamento com base em um parâmetro predefinido. Em um exemplo, a regra que tem o suporte mais elevado no agrupamento pode ser automaticamente selecionada para interpretar o agrupamento. Em outro exemplo, a regra que tem a confiança mais elevada no agrupamento pode ser automaticamente selecionada no modo por lote. Em outra implantação, o módulo de interpretação 122 pode facilitar um usuário a interativamente selecionar a regra para resumir o agrupamento. Em um exemplo, o usuário pode interativamente escolher regras alternativas de cada agrupamento para obter múltiplas interpretações do mesmo conjunto de transações. O módulo de interpretação 122 pode armazenar as explicações sobre os agrupamentos como dados de interpretação 128.
[047] Além disso, o módulo de interpretação 122 pode determinar pelo menos uma exceção para cada regra representativa selecionada dos agrupamentos no conjunto de regras. Em um exemplo, para determinar a exceção, o módulo de interpretação 122 pode identificar o resultado dos mesmos antecedentes quando o consequente for diferente. Por exemplo, se um consequente predefinido for , o módulo de interpretação 122 pode determinar várias transações quando o consequente for . Tal exercício pode fornecer um conjunto de exceções para toda regra no conjunto de regras. Em uma implantação, as exceções para toda regra são determinadas com base em um limite de confiança . Por exemplo, para uma regra, ---> , o limite de confiança pode ser definido como: em que é um intervalo de confiança para a regra .
Figure img0008
[048] Em um exemplo, se a confiança da regra é 85%, que indica que restam 15% do time, a regra não é satisfeita. Em outras palavras, o consequente não é alcançado e as exceções são satisfeitas para 15%. Em uma implantação, as etapas descritas acima foram aplicadas a vários conjuntos de dados, tal como conjunto de dados Mushroom, conjunto de dados de pesquisa de Car, e conjunto de dados de sensor. A técnica, como descrito na presente matéria, forneceu resultados sucintos em termos de regras e exceções. Além disso, a presente matéria fornecia múltiplas interpretações do mesmo conjunto de transações dos dados de entrada, fornecendo, desse modo, uma vista holística sobre o conjunto de dados.
[049] Consequentemente, a presente matéria facilita em fornecer uma cobertura com base em explicação para um conjunto de dados. A presente matéria leva em consideração qualquer sobreposição que acontece entre as regras e, consequentemente, fornece múltiplas interpretações do mesmo conjunto de transações. Além disso, a presente matéria determina exceções nas regras, isto é, desvios de padrões usuais. Tal análise do conjunto de dados facilita na tomada de decisão e determina estratégias que podem ser relevantes para a empresa.
[050] A Figura 2 ilustra um método 200 para interpretar um conjunto de dados que compreende uma pluralidade de conjuntos de itens, de acordo com uma modalidade da presente matéria. Os métodos 200 podem ser descritos no contexto geral de instruções executáveis por computador. Em geral, as instruções executáveis por computador podem incluir rotinas, programas, objetos, componentes, estruturas de dados, procedimentos, módulos, funções que desempenham funções particulares ou implantam tipos de dados abstratos particulares. O método 200 também pode ser praticado em um ambiente de computação distribuída em que as funções são desempenhadas por dispositivos de processamento remoto que são ligados através de uma rede de comunicação. Em um ambiente de computação distribuída, as instruções executáveis por computador podem ser localizadas tanto em meios de armazenamento de computador local quanto remoto, incluindo dispositivos de armazenagem de memória.
[051] A ordem em que o método 200 é descrito não tem a intenção de ser interpretada como uma limitação, e qualquer número dentre os blocos de método descritos pode ser combinado em qualquer ordem para implantar o método 200 ou métodos alternativos. De modo adicional, blocos individuais podem ser excluídos do método 200 sem se afastar do espírito e escopo da matéria descrita no presente documento. Além disso, o método 200 pode ser implantado em qualquer hardware, software, firmware adequados, ou combinação dos mesmos.
[052] Em referência à Figura 2, no bloco 202, o método 200 pode incluir identificar uma pluralidade de conjuntos de itens de ocorrência frequente no conjunto de dados. Cada um dentre a pluralidade de conjuntos de itens de ocorrência frequente forma uma regra para um consequente predeterminado com base em um ou mais antecedentes. Em uma implantação, o módulo de geração de regra 120 pode identificar a pluralidade de conjuntos de itens de ocorrência frequente no conjunto de dados. Em um exemplo, o módulo de geração de regra 120 pode empregar uma técnica de crescimento FP ou qualquer técnica de mineração de conjunto de itens frequente para identificar a pluralidade de conjuntos de itens de ocorrência frequente.
[053] No bloco 204, o método 200 pode incluir avaliar pelo menos um parâmetro associado com a regra. Em uma implantação, o módulo de geração de regra 120 pode avaliar o pelo menos um parâmetro. Por exemplo, o parâmetro pode incluir uma confiança da regra, um suporte da regra e uma elevação da regra.
[054] Além disso, no bloco 206, o método 200 pode incluir computar uma pluralidade de conjuntos de regras pertencentes ao conjunto de dados. Em uma implantação, o módulo de geração de regra 120 pode computar a pluralidade de conjuntos de regras com base no pelo menos um parâmetro. Em um exemplo, o módulo de geração de regra 120 pode empregar uma técnica de mineração de regra de associação para computar uma pluralidade de conjuntos de regras.
[055] Além disso, no bloco 208, o método 200 pode incluir gerar uma cobertura de regra. A cobertura de regra pode compreender uma pluralidade de regras.
[056] Além disso, no bloco 210, o método 200 pode incluir calcular uma pluralidade de distâncias entre a pluralidade de pares de regras e gerar uma matriz de distância com base na pluralidade de distâncias calculada entre a pluralidade de pares de regras e armazenar a pluralidade de distâncias calculada entre a pluralidade de pares de regras.
[057] Além disso, no bloco 212, o método 200 pode incluir agrupar regras sobrepostas dentro do conjunto de dados. As regras sobrepostas podem ser compreendidas como aquelas regras que pertencem às transações comuns do conjunto de dados. Em uma implantação, o módulo de interpretação 122 pode agrupar as regras sobrepostas. Para isso, o módulo de interpretação 122 pode identificar as regras sobrepostas através do uso de uma medida de distância. Uma vez que as regras sobrepostas são identificadas, o módulo de interpretação 122 pode agrupar as regras sobrepostas com base em um grau de sobreposição e selecionar uma regra de cada agrupamento. A pelo menos uma regra interpreta as transações cobertas pelas regras contidas dentro de cada agrupamento. Em uma implantação, o módulo de interpretação 122 pode selecionar uma regra a partir de cada agrupamento para interpretar ou fornecer uma explicação das transações cobertas pelas regras dentro do agrupamento. Em um exemplo, o módulo de interpretação 122 pode selecionar a pelo menos uma regra através do uso de um modo por lote. No modo por lote, a regra é automaticamente selecionada com base em um parâmetro predefinido. Em outro exemplo, o módulo de interpretação 122 pode facilitar o usuário para selecionar a regra para obter a explicação para o agrupamento. O usuário pode selecionar outra regra para o mesmo agrupamento para obter múltiplas explicações para o mesmo agrupamento.
[058] Além disso, no bloco 214, o método 200 pode incluir determinar pelo menos uma exceção para cada regra representativa selecionada a partir dos agrupamentos no conjunto de regras. A exceção pode fornecer um resultado diferente do consequente da regra. Em uma implantação, o módulo de interpretação 122 pode determinar a exceção para cada regra no conjunto de regras. Em um exemplo, a exceção pode ser compreendida como um desvio dos padrões usuais.
[059] Embora as modalidades para os métodos e sistemas para a presente matéria tenham sido descritas em uma linguagem específica a recursos e/ou métodos estruturais, deve-se compreender que a presente matéria não é necessariamente limitada aos recursos ou métodos específicos descritos. Em vez disso, os recursos e métodos específicos são revelados como modalidades exemplificativas para a presente matéria.

Claims (10)

1. MÉTODO PARA INTERPRETAR UM CONJUNTO DE DADOS QUE COMPREENDE UMA PLURALIDADE DE ITENS, em que o método é caracterizado por compreender um processador (110) implantado com as etapas de: computar, por um módulo de geração de regra (120), um conjunto de regras que pertence ao conjunto de dados por: identificar uma pluralidade de conjuntos de itens de ocorrência frequente no conjunto de dados, em que cada um dentre a pluralidade de conjuntos de itens de ocorrência frequente forma uma regra dentro do conjunto de regras, em que cada regra dentro do conjunto de regras compreende um consequente predeterminado com base em um ou mais antecedentes; e avaliar um valor de pelo menos um parâmetro associado à regra dentro do conjunto de regras, em que o conjunto de regras é computada para o consequente predeterminado com base no valor de pelo menos um parâmetro; gerar uma cobertura de regra que compreende uma pluralidade de regras, em que a cobertura de regra pertence a um subconjunto do conjunto de regras com o uso de um módulo de geração de regra (120); calcular uma pluralidade de distâncias entre a pluralidade de pares de regras, com base em um grau de sobreposição da pluralidade de regras na cobertura de regra, e gerar uma matriz de distância com base na pluralidade de distâncias calculada entre a pluralidade de pares de regras na cobertura de regra e armazenar a pluralidade de distâncias calculada entre a pluralidade de pares de regras; agrupar regras sobrepostas dentro da cobertura de regra com o uso da matriz de distância, em que as regras sobrepostas pertencem ao conjunto comum de transações nos dados; selecionar uma regra representativa a partir de cada agrupamento, em que a regra representativa representa transações cobertas pelas regras contidas dentro de cada agrupamento; determinar pelo menos uma exceção para cada regra representativa no conjunto de regras selecionado a partir de cada agrupamento, em que a pelo menos uma exceção é determinada quando os um ou mais antecedentes fornecem um resultado diferente do consequente predeterminado; e interpretar o conjunto de dados com o uso da regra representativa e a pelo menos uma exceção determinada para cada regra representativa no conjunto de regras com o uso de um módulo de interpretação (122).
2. MÉTODO, de acordo com a reivindicação 1, caracterizado pela pluralidade de itens pertencer a uma pluralidade de campos exclusivos em um banco de dados transacional.
3. MÉTODO, de acordo com a reivindicação 1, caracterizado pela computação do conjunto de regras ser baseada em uma técnica de mineração de regras de associação.
4. MÉTODO, de acordo com a reivindicação 1, caracterizado por pelo menos um parâmetro compreender um suporte da regra, uma confiança da regra e um lift da regra.
5. MÉTODO, de acordo com a reivindicação 1, caracterizado pela cobertura de regra ser indicativa de suporte cumulativo das regras no conjunto de dados.
6. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo agrupamento compreender quantificar um grau de sobreposição entre as regras sobrepostas.
7. MÉTODO, de acordo com a reivindicação 1, caracterizado pela regra representativa ser selecionada por uma técnica de modo de lote ou uma técnica de modo interativo.
8. MÉTODO, de acordo com a reivindicação 1, caracterizado por pelo menos uma exceção ser determinada com base em um limite de confiança pré-definido.
9. MÉTODO, de acordo com a reivindicação 1, caracterizado por compreender, ainda, o armazenamento do conjunto de dados em um banco de dados (108).
10. SISTEMA DE INTERPRETAÇÃO DE DADOS (102) PARA INTERPRETAR UM CONJUNTO DE DADOS QUE TEM UMA PLURALIDADE DE ITENS, em que o sistema de interpretação de dados (102) é caracterizado por compreender: um processador (110); um módulo de geração de regra (120), adaptado para computar um conjunto de regras que pertence ao conjunto de dados por: identificar uma pluralidade de conjuntos de itens de ocorrência frequente no conjunto de dados, em que cada um dentre a pluralidade de conjuntos de itens de ocorrência frequente forma uma regra dentro do conjunto de regras, em que cada regra dentro do conjunto de regras compreende um consequente predeterminado com base em um ou mais antecedentes; e avaliar um valor de pelo menos um parâmetro associado à regra dentro do conjunto de regras, em que o conjunto de regras é computada para o consequente predeterminado com base no valor de pelo menos um parâmetro; e gerar uma cobertura de regra que compreende uma pluralidade de regras, em que a cobertura de regra pertence a um subconjunto do conjunto de regras; um módulo de interpretação (122), adaptado para calcular uma pluralidade de distâncias entre a pluralidade de pares de regras, com base em um grau de sobreposição da pluralidade de regras na cobertura de regra, e gerar uma matriz de distância com base na pluralidade de distâncias calculada entre a pluralidade de pares de regras e armazenar a pluralidade de distâncias calculada entre a pluralidade de pares de regras; agrupar regras sobrepostas dentro da cobertura de regra com o uso da matriz de distância, em que as regras sobrepostas pertencem a um conjunto comum de transações nos dados; selecionar uma regra representativa a partir de cada agrupamento, em que a regra representativa representa transações cobertas pelas regras contidas dentro de cada agrupamento; determinar pelo menos uma exceção para cada regra representativa no conjunto de regras selecionado a partir de cada agrupamento, em que a pelo menos uma exceção é determinada quando os um ou mais antecedentes fornecem um resultado diferente do consequente predeterminado; e interpretar o conjunto de dados com o uso das regras representativas e a pelo menos uma exceção determinada para cada regra representativa no conjunto de regras um banco de dados (108) adaptado para armazenar o conjunto de dados.
BR102015031789-1A 2014-12-17 2015-12-17 Método e sistema de interpretação de dados para interpretar um conjunto de dados que compreende uma pluralidade de itens BR102015031789B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN4066/MUM/2014 2014-12-17
IN4066MU2014 2014-12-17

Publications (2)

Publication Number Publication Date
BR102015031789A2 BR102015031789A2 (pt) 2016-09-27
BR102015031789B1 true BR102015031789B1 (pt) 2023-04-11

Family

ID=55027296

Family Applications (1)

Application Number Title Priority Date Filing Date
BR102015031789-1A BR102015031789B1 (pt) 2014-12-17 2015-12-17 Método e sistema de interpretação de dados para interpretar um conjunto de dados que compreende uma pluralidade de itens

Country Status (7)

Country Link
US (1) US10579931B2 (pt)
EP (1) EP3035274A1 (pt)
JP (1) JP6647849B2 (pt)
AU (2) AU2015268759A1 (pt)
BR (1) BR102015031789B1 (pt)
CA (1) CA2915563C (pt)
MX (1) MX2015017587A (pt)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991141B (zh) * 2017-03-21 2020-12-11 北京邮电大学 一种基于深度剪枝策略的关联规则挖掘方法
US20190197428A1 (en) * 2017-12-27 2019-06-27 Cerner Innovation, Inc. Systems and methods for refactoring a knowledge model to increase domain knowledge and reconcile electronic records
US11451554B2 (en) * 2019-05-07 2022-09-20 Bank Of America Corporation Role discovery for identity and access management in a computing system
CN111598153B (zh) * 2020-05-13 2023-02-24 腾讯科技(深圳)有限公司 数据聚类的处理方法、装置、计算机设备和存储介质
CN113641726B (zh) * 2021-08-06 2024-01-30 国网北京市电力公司 基于生成对抗网络的无监督护层电流数据挖掘系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6651049B1 (en) 1999-10-22 2003-11-18 International Business Machines Corporation Interactive mining of most interesting rules
US6651048B1 (en) * 1999-10-22 2003-11-18 International Business Machines Corporation Interactive mining of most interesting rules with population constraints
US6415287B1 (en) * 2000-01-20 2002-07-02 International Business Machines Corporation Method and system for mining weighted association rule
US9785953B2 (en) * 2000-12-20 2017-10-10 International Business Machines Corporation System and method for generating demand groups
US7103222B2 (en) * 2002-11-01 2006-09-05 Mitsubishi Electric Research Laboratories, Inc. Pattern discovery in multi-dimensional time series using multi-resolution matching
US8401986B1 (en) * 2004-08-05 2013-03-19 Versata Development Group, Inc. System and method for efficiently generating association rules
WO2006090781A1 (ja) * 2005-02-24 2006-08-31 Nec Corporation フィルタリングルール分析方法及びシステム
US7672865B2 (en) * 2005-10-21 2010-03-02 Fair Isaac Corporation Method and apparatus for retail data mining using pair-wise co-occurrence consistency
US7711734B2 (en) * 2006-04-06 2010-05-04 Sas Institute Inc. Systems and methods for mining transactional and time series data
US7870149B2 (en) 2007-07-09 2011-01-11 International Business Machines Corproation Data mining method for finding deviations in data
US7979362B2 (en) * 2007-08-10 2011-07-12 Motorola Solutions, Inc. Interactive data mining system
US7840506B1 (en) * 2008-01-09 2010-11-23 The United States Of America As Represented By The Secretary Of The Navy System and method for geodesic data mining
US8688480B1 (en) * 2009-04-28 2014-04-01 Accretive Health, Inc. Automated accounts receivable management system with a self learning engine driven by current data
US9021409B2 (en) * 2011-07-11 2015-04-28 The Board Of Trustees Of The University Of Illinois Integration of data mining and static analysis for hardware design verification
US9489627B2 (en) 2012-11-19 2016-11-08 Bottomline Technologies (De), Inc. Hybrid clustering for data analytics
CA2907208C (en) * 2013-03-15 2023-10-24 Trans Union Llc System and method for developing business rules for decision engines

Also Published As

Publication number Publication date
AU2015268759A1 (en) 2016-07-07
CA2915563A1 (en) 2016-06-17
CA2915563C (en) 2023-09-26
AU2021203512B2 (en) 2022-05-26
JP6647849B2 (ja) 2020-02-14
BR102015031789A2 (pt) 2016-09-27
EP3035274A1 (en) 2016-06-22
US20160180229A1 (en) 2016-06-23
AU2021203512A1 (en) 2021-07-01
JP2016115359A (ja) 2016-06-23
US10579931B2 (en) 2020-03-03
MX2015017587A (es) 2017-11-17

Similar Documents

Publication Publication Date Title
US11354282B2 (en) Classifying an unmanaged dataset
ur Rehman et al. Big data reduction framework for value creation in sustainable enterprises
BR102015031789B1 (pt) Método e sistema de interpretação de dados para interpretar um conjunto de dados que compreende uma pluralidade de itens
Foody Sample size determination for image classification accuracy assessment and comparison
Mennis et al. Spatial data mining and geographic knowledge discovery—An introduction
US10565528B2 (en) Analytic system for feature engineering improvement to machine learning models
CN107430611B (zh) 过滤数据沿袭图
US20130097138A1 (en) Discovering representative composite ci patterns in an it system
US10803192B2 (en) Detecting attacks on databases based on transaction characteristics determined from analyzing database logs
Morales‐Castilla et al. Combining phylogeny and co‐occurrence to improve single species distribution models
Kaur et al. Fog computing: Building a road to IoT with fog analytics
US20170090916A1 (en) Analysis method and analysis apparatus
Botella‐Rocamora et al. Spatial moving average risk smoothing
Xing et al. A land use/land cover change geospatial cyberinfrastructure to integrate big data and temporal topology
Gao et al. Quantifying animal trajectories using spatial aggregation and sequence analysis: a case study of differentiating trajectories of multiple species
Srivastava et al. Hybrid machine learning model for anomaly detection in unlabelled data of wireless sensor networks
Sommer et al. Modularity-driven kernel k-means for community detection
Venkat et al. Clustering of huge data with fuzzy c-means and applying gravitational search algorithm for optimization
Lin et al. Using clustering algorithm to visualize spatial-temporal internet of things data in process of agricultural product circulation
Lee et al. Incorporating big data and social sensors in a novel early warning system of dengue outbreaks
KR102469117B1 (ko) 데이터 클러스터링에 기반한 부동산 매물의 위험도 분석 방법
Rodrigo et al. CGLAD: Using GLAD in crowdsourced large datasets
Fouedjio A spectral clustering method for large-scale geostatistical datasets
US20240168857A1 (en) Utilizing digital twins for data-driven risk identification and root cause analysis of a distributed and heterogeneous system
Diván et al. A load-shedding technique based on the measurement project definition

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 17/12/2015, OBSERVADAS AS CONDICOES LEGAIS