BR102014027639B1

BR102014027639B1 - Método para resolver as entidades de uma pluralidade de documentos, e sistema de resolução de entidade para a resolução de entidade de uma pluralidade de documentos

Info

Publication number: BR102014027639B1
Application number: BR102014027639-4A
Authority: BR
Inventors: Puneet Agarwal; Gautam Shroff; Pankaj Malhotra
Original assignee: Tata Consultancy Services Limited
Priority date: 2014-01-17
Filing date: 2014-11-05
Publication date: 2022-05-03
Also published as: AU2014253497A1; MX355195B; BR102014027639A2; US10311093B2; EP2897054A3; CA2868540A1; AU2014253497B2; CA2868540C; MX2014013314A; EP2897054A2; IN2014MU00169A; BR102014027639A8; US20150205803A1

Abstract

TODO PARA RESOLVER AS ENTIDADES DE UMA PLURALIDADE DE DOCUMENTOS; E SISTEMA DE RESOLUÇÃO DE ENTIDADE PARA A RESOLUÇÃO DE ENTIDADE DE UMA PLURALIDADE DE DOCUMENTOS. Trata-se de urna resolução de entidade e, particularmente, ao fornecimento de urna resolução de entidade a partir de documentos. O método compreende obter a pluralidade de documentos a partir de pelo menos urna fonte de dados. A pluralidade de documentos é bloqueada em pelo menos urna partição com base na similaridade textual e nas referências entre documentos dentre a pluralidade de documentos. Ademais, no interior de cada partição, um documento mesclado para cada entidade pode ser criado com base em um conjunto de procedimento de mescla de correspondência interativa. O conjunto de procedimento de mescla de correspondência interativa identifica, a partir da pluralidade de documentos, pelo menos urn par correspondente de documentos e mescla o pelo menos urn par correspondente de documentos para criar o documento mesclado para cada entidade. Os documentos mesclados podem ser mesclados para gerar urn documento de entidade resolvida para cada entidade com base em um conj unto de procedimento de aglomeração de gráficos.

Description

CAMPO DA TÉCNICA

[001] A presente matéria refere-se, em geral, à resolução de entidade e, particularmente, porém não exclusivamente, à resolução de entidade a partir de uma pluralidade de documentos.

ANTECEDENTES

[002] Em geral, quando dados de diferentes fontes são analisados, frequentemente múltiplos registros pertencem à mesma entidade de mundo real, tal como o mesmo cliente, o mesmo produto e a mesma organização. A fim de encontrar registros diferentes que pertencem à mesma entidade, um conjunto de procedimentos conhecido como Resolução de Entidade (ER) é amplamente utilizado. Em várias disciplinas, a ER também é referida como relacionamento de registro, desduplicação, resolução da correferência, reconciliação de referência, consolidação de objeto, incerteza de identidade e proteção de banco de dados. A ER tem um escopo amplo de aplicação, por exemplo, em dados do governo e de saúde pública, busca na web, shopping e aplicação da lei. Na prática, a dinâmica pertencente à ER pode continuar mudando, por exemplo, conjunto de dados correspondentes pode continuar mudando em um período de temo. Portanto, a fim de acomodar tais mudanças associadas aos dados, a ER tem que ser realizada regularmente para atualizar um conjunto de entidades resolvidas de resultado de ER.

BREVE DESCRIÇÃO DOS DESENHOS

[003] A descrição detalhada é descrita com referência às figuras em anexo. Nas figuras, o(s) dígito(s) mais à esquerda de um número de referência identifica a figura em que o número de referência primeiro aparece. Os mesmos números são utilizados em todos os desenhos para fazer referência a recursos e componentes similares.

[004] A Figura 1 ilustra um ambiente de rede que implanta um sistema de resolução de entidade, de acordo com uma modalidade da presente matéria.

[005] A Figura 1(a) ilustra bloquear de uma pluralidade de documentos com base na similaridade textual e nas referências entre documentos, e regras de amostra para determinar documentos correspondentes, de acordo com uma modalidade da presente matéria.

[006] A Figura 1 (b) ilustra um resultado de resolução de entidade a partir de uma pluralidade de documentos, de acordo com uma modalidade da presente matéria.

[007] A Figura 2 ilustra um método para resolução de entidade a partir de uma pluralidade de documentos, de acordo com uma modalidade da presente matéria.

DESCRIÇÃO DETALHADA

[008] Sistema(s) e método(s) para resolução de entidade a partir de uma pluralidade de documentos são descritos. 0(s) sistema(s) e o(s) método(s) podem ser implantados em uma variedade de dispositivos de computação, tais como computadores do tipo laptop, computadores do tipo desktop, estações de trabalho, computadores do tipo tablet- PC, computadores do tipo notebook, computadores portáteis, computador do tipo tablet, aplicações da internet e similar sistemas. No entanto, um indivíduo versado na técnica compreenderá que as modalidades da presente matéria não são limitadas a qualquer sistema computacional particular, arquitetura ou dispositivo de aplicativo, visto que as mesmas podem ser adaptadas a novos sistemas e plataformas computacionais conforme os mesmos se tornem disponíveis.

[009] Nas últimas décadas, a Resolução de Entidade (ER) emergiu como um desafio crescente para indústrias que lidam com o domínio de gerenciamento de dados. Frequentemente, múltiplos registros disponíveis em várias fontes de dados podem pertencem às mesmas entidades de mundo real. Uma entidade de mundo real pode incluir, porém sem limitação, um indivíduo, um produto e uma organização. Para resolver tais situações, a análise de ER é realizada. A análise de ER tem o objetivo de identificar aqueles registros que se referem à mesma entidade e, uma vez identificada, mesclar aqueles registros. Em um exemplo, tais registros podem ser referidos de modo intercambiável como documentos textuais. Portanto, na análise de ER, uma pluralidade de documentos de texto obtidos a partir das várias fontes de dados pode ser correspondida, em pares, para determinar a similaridade dentre a pluralidade de documentos de texto. Com base na determinação, um conjunto de documentos de texto relacionados a uma entidade pode ser identificado e o conjunto de documentos de texto identificado pode, então, ser combinado para criar um documento mesclado para a entidade. Conforme seria compreendido, o documento mesclado de uma entidade pode incluir todos os detalhes revelados em cada um dentre o conjunto de documentos de texto identificado.

[010] De modo geral, um cenário de ER pode incluir recuperar dados de um banco de dados de registros. Por propósito de discussão, para fornecer mais clareza sobre a análise de ER, uma entidade pode ser considerada um cidadão de um país. Em geral, cada cidadão possui uma ou mais provas de identidade, tais como um passaporte, um título de eleitor, uma carteira de motorista, um cartão de crédito, um Número de Conta Permanente (Permanent Account Number - PAN), um número de telefone e um número de conta bancária. Em um exemplo, tais registros podem existir na forma de documentos textuais. Considerando que cada cidadão possui uma média de 3 das IDs mencionadas acima, cada cidadão tem pelo menos 3 documentos textuais correspondentes relacionados ao mesmo/à mesma. Levando em consideração agora que a população do país, por exemplo, como N, bem como o número de documentos textuais associados a cada cidadão, pode existir aproximadamente 3N documentos textuais para realizar a análise de ER. Adicionalmente, em luz dos documentos textuais serem comparados em pares, aproximadamente (3N)2 comparações podem ter que ser feitas para resolver entidades a partir da pluralidade de documentos textuais. Além disso, em um exemplo, a pluralidade de documentos textuais pode ser comparada mais que uma vez e, portanto, o número de comparações pode aumentar consequentemente. Em outro exemplo, duas organizações de mescla podem desejar combinar seus registros de cliente. Em tal caso, as duas organizações podem ter uma grande base de clientes, e cada cliente pode ser adicionalmente representado por múltiplos. Conforme pode ser deduzido a partir dos exemplos mencionados acima, grandes conjuntos de dados precisam ser processados para resolver as entidades envolvidas, o que pode ser uma tarefa complexa e cara.

[011] A fim de tornar a análise de ER escalável, os conjuntos de procedimentos de bloqueio são geralmente utilizados. Os conjuntos de procedimentos de bloqueio podem dividir os registros em vários blocos com base em alguns parâmetros predefinidos. Por exemplo, os documentos textuais podem ser divididos em diferentes blocos com base na similaridade textual dentre os documentos textuais. Portanto, cada bloco pode conter um número relativamente pequeno de documentos textuais potencialmente correspondentes, e os documentos textuais em um bloco podem, então, ser comparados. No entanto, possuir um número grande de atributos associados a um documento textual, um bloqueio preciso de documentos textuais é sempre um desafio. Por exemplo, um indivíduo pode ter seu nome como John Smith em sua carteira de motorista. Por outro lado, em um passaporte, seu nome pode aparecer como John S. Portanto, mesmo apesar de a carteira de motorista e o passaporte se referirem ao mesmo indivíduo, porém por conta de ser textualmente diferentes, os documentos textuais correspondentes podem acabar em diferentes blocos. Adicionalmente, visto que os documentos textuais são comparados em um bloco, os dois documentos textuais podem nunca ser comparados. Portanto, a precisão do conjunto de procedimentos de bloqueio é comprometida, que, por sua vez, pode afetar, também, uma precisão da análise de ER.

[012] Além disso, visto que as dinâmicas associadas à análise de ER podem mudar em um período de tempo, a análise de ER se torna um processo recorrente. Por exemplo, com referência a um dos exemplos mencionados acima, a base de clientes de uma organização podem continuar em expansão. Portanto, os resultados de análise de ER podem ter que serem atualizados para acomodar a base de clientes em expansão consequentemente. No entanto, em geral, em tais casos, a análise de ER é realizada do zero. Em outras palavras, todo o conjunto de dados, isto é, os registros existentes bem como novos registros podem ser processados novamente par resolver as entidades envolvidas. Executar a análise de ER novamente, para acomodar qualquer mudança no conjunto de dados, é um processo temporalmente extensivo. Além disso, isso pode levar a desperdício de recursos também, o que, por sua vez, pode afetar adversamente a faceta econômica da análise de ER. Como é evidente, os conjuntos de procedimentos de ER convencionais seguem uma abordagem fragmentada e oferecem uma proposição temporalmente extensiva, ineficiente, imprecisa e expansiva para a análise de ER.

[013] De acordo com a presente matéria, um sistema de resolução de entidade, doravante referido como um sistema, para resolução de entidade a partir de uma pluralidade de documentos é revelado. Em uma implantação, o sistema pode obter a pluralidade de documentos que corresponde a uma pluralidade de entidades a partir de pelo menos uma fonte de dados. A pluralidade de documentos pode ser bloqueada dentro pelo menos uma partição, com base na similaridade textual e nas referências entre documentos dentre a pluralidade de documentos. Adicionalmente, em cada partição, um conjunto de procedimento de mescla de correspondência interativa pode ser adotado para resolver a pluralidade de documentos dentro de entidades e, consequentemente, criar um documento mesclado para cada entidade. Uma vez que a pluralidade de documentos é resolvida dentro de entidades em cada partição, um conjunto de procedimento de aglomeração de gráficos pode ser utilizado para consolidar os documentos mesclados, a partir de diferentes partições, que pertencem a cada entidade. Como resultado, um documento de entidade resolvida para cada entidade pode ser gerado.

[014] Em uma implantação, a pluralidade de documentos pode ser referida de modo intercambiável como registros. Conforme é compreendido de modo geral, registros podem incluir objetos tangíveis, tais como documentos em papel como certidões de nascimento, carteiras de motorista, raios-X médicos, bem como informações digitais, tais como documentos de escritório eletrônicos, dados em bancos de dados de aplicativos, conteúdo de site da web e correio eletrônico (e-mail). Adicionalmente, a pelo menos uma fonte de dados pode incluir, porém sem limitação, um banco de dados externo e/ou um banco de dados interno. Uma vez que a pluralidade de documentos textuais é obtida, um conjunto de procedimentos de cruzamento de gráfico pode ser empregado para bloquear a pluralidade de documentos textuais com base em referências entre documentos dentre a pluralidade de documentos. As referências entre documentos são indicativas de relações na pluralidade de documentos. Por exemplo, quando for tirar um passaporte, um indivíduo pode fornecer o número de sua carteira de motorista como uma prova de identidade. Portanto, o passaporte do indivíduo pode se referir ao número de sua carteira de motorista e, consequentemente, os dois documentos textuais, que se referem à mesma entidade, se tornam relacionados.

[015] Junto com o bloqueio da pluralidade de documentos textuais com base no conjunto de procedimentos de cruzamento de gráfico, a pluralidade de documentos textuais pode ser, também, bloqueada utilizando-se outro conjunto de procedimentos de bloqueio conhecido como Hashing Sensível à Localidade (Locality Sensitive Hashing - LSH) . Em uma implantação, o conjunto de procedimentos de LSH pode utilizar funções de hashing para agrupar ou bloquear a pluralidade de documentos textuais com base na similaridade textual dentre a pluralidade de documentos textuais. A ideologia por trás da determinação da similaridade textual é que é provável que os documentos textuais com conteúdo similar pertençam à mesma entidade de mundo real. Por exemplo, se atributos, tais como um nome, um endereço e um número de telefone, forem os mesmos em dois documentos textuais, pode haver uma possibilidade de que os dois documentos textuais sejam relacionados ao mesmo indivíduo. De modo similar, se o nome for o mesmo em dois documentos textuais enquanto que o endereço e o número de telefone diferem, a possibilidade dos dois documentos textuais serem relacionados ao mesmo indivíduo é relativamente menor. Portanto, a fim de evitar comparações desnecessárias dentre a pluralidade de documentos textuais, as referências entre documentos e a similaridade textual podem ser utilizadas para bloquear a pluralidade de documentos textuais dentro de partições. Por exemplo, os documentos textuais que são determinados serem textualmente similares e aqueles que são relacionados com base nas referências entre documentos podem ser agrupados na mesma partição.

[016] Seguindo o bloqueio da pluralidade de documentos dentro de partições, uma comparação em par de os documentos textuais em cada partição é realizada para identificar um conjunto de documentos textuais relacionados a uma entidade. Em uma implantação, a comparação dentre os documentos textuais pode ser realizada por um conjunto de procedimento de mescla de correspondência interativa (IMM). De acordo com o conjunto de procedimento de mescla de correspondência interativa, dois documentos textuais podem ser considerados serem correspondentes com base nos critérios predefinidos. Por exemplo, uma regra pode ser definida em que dois documentos textuais são ditos serem correspondentes se os dois documentos textuais tiverem entradas similares em um nome, um endereço, uma ID de e-mail e uma seção de número de contato. Portanto, com base nos critérios predefinidos, em cada partição, um conjunto de documentos textuais que pertencem a cada entidade pode ser identificada. Seguindo à identificação, o conjunto de documentos textuais pode ser mesclado para criar um documento mesclado para cada entidade. O documento mesclado de uma entidade pode conter todas as informações conforme revelado em cada um dentre o conjunto de documentos textuais que pertencem à entidade. Portanto, em cada bloco, os documentos textuais são resolvidos para entidades, e tais entidades resolvidas são referidas como as entidades parciais.

[017] Conforme mencionado acima, a combinação do conjunto de procedimentos de cruzamento de gráfico e do conjunto de procedimentos de LSH resulta em partições de documentos textuais similares que são resolvidos dentro de entidades parciais criando-se um documento mesclado para cada entidade. No entanto, devido à natureza probabilística do conjunto de procedimentos de LSH, uma possibilidade pode existir em que dois documentos textuais que pertencem a uma única entidade pode ser bloqueada dentro de mais de uma partição. Por exemplo, em uma instância, o conjunto de procedimentos de LSH pode bloquear a pluralidade de documentos textuais com base em um atributo de nome. Em outra instância, o conjunto de procedimentos de LSH pode bloquear a pluralidade de documentos textuais com base em um atributo de endereço. Portanto, apesar de dois documentos textuais poderem se referir à mesma entidade, os dois documentos textuais podem ser bloqueados dentro de diferentes partições. Adicionalmente, para a mesma entidade, um documento mesclado pode ser criado em mais de uma partição. Em outras palavras, como um resultado do conjunto de procedimentos de IMM, múltiplas entidades parciais que pertencem à mesma entidade podem ser obtidas a partir de múltiplas partições.

[018] Em uma implantação, entidades parciais de diferentes partições podem ser conectadas pelo fato de que as entidades parciais podem compartilhar o mesmo documento textual. Por propósitos de discussão, cada documento textual pode ser visualizado como um nó em um gráfico de documentos textuais de acordo com o conjunto de procedimento de aglomeração de gráficos. Conforme mencionado anteriormente, cada entidade parcial pode ter inúmeros documentos textuais associados, e cada documento textual pode ser representado por um nó no gráfico. Adicionalmente, para cada entidade parcial, um dos nós pode ser considerado um nó central, e uma borda entre o nó central e cada um dos nós restantes da entidade parcial é criada. Estruturas similares de nó e borda podem ser criadas para cada entidade parcial. Em um caso, um documento textual é compartilhado por um par de entidades parciais, o documento textual pode aparecer na estrutura de nó e borda de cada uma dentre do par de entidades parciais. Em tal caso, todos os nós que pertencem às duas entidades parciais podem ser conectados e podem ser considerados serem pertencentes à mesma entidade. Portanto, os nós conectados, isto é, os documentos textuais conectados podem ser consolidados para formar um documento de entidade resolvida para a entidade. Conforme será concluído, um documento de entidade resolvida de uma entidade pode incluir todas as informações que pertencem à entidade conforme revelado em cada da pluralidade de documentos textuais.

[019] Em uma implantação, um novo conjunto de documentos textuais pode ser adicionado à fonte de dados for análise de ER. Em tal implantação, a análise de ER pode ser continuada sem ser reiniciada e o novo conjunto de documentos textuais pode ser acomodado na análise com base na análise de ER já realizada. 0 novo conjunto de documentos textuais pode ser processado com uso do conjunto de procedimentos de cruzamento de gráfico, do conjunto de procedimentos de LSH, do conjunto de procedimentos de IMM e do conjunto de procedimento de aglomeração de gráficos conforme mencionado acima. Na presente matéria, ao invés de executar a análise de ER do zero, o novo conjunto de documentos textuais pode ser diretamente analisado em relação às entidades já resolvidas e aos documentos correspondentes de entidade resolvida, economizando, dessa forma, tempo tirado para a análise. Em uma implantação, mediante o recebimento do novo conjunto de documentos textuais, um documento textual novo pode ser associado a entidades previamente resolvidas. Em outra implantação, um documento textual novo ou o novo conjunto de os documentos textuais pode formar uma nova.

[020] Conforme será concluído, a utilização do conjunto de procedimentos de cruzamento de gráfico em combinação com conjunto de procedimentos de LSH, para bloquear os documentos textuais, garante melhor precisão de bloqueio dos documentos textuais. Adicionalmente, a utilização do conjunto de procedimento de aglomeração de gráficos pode assistir em uma resolução precisa das entidades. Além disso, um novo conjunto de documentos textuais pode ser facilmente acomodado na análise de ER sem ter que reiniciar o processo de ER do zero. Isso economizaria recursos e tempo a serem utilizados para a reanálise. Além disso, o custo associado de operação pode ser reduzido consequentemente. Portanto, a presente matéria fornece uma abordagem compreensiva e exaustiva para uma análise de ER economizadora de tempo, precisa e barata.

[021] Essas e outras vantagens da presente matéria serão descritas em mais detalhes em conjunto com as seguintes figuras. Embora aspectos do(s) sistema(s) e método(s) descritos para resolução de entidade a partir de documentos possam ser implantados em inúmeros sistemas, ambientes e/ou configurações computacionais diferentes, as modalidades são descritas no contexto do(s) seguinte (s) sistema(s) exemplificativo(s).

[022] A Figura 1 ilustra um ambiente de rede 100 que implanta um sistema de resolução de entidade 102,também referido como sistema 102, de acordo com uma modalidade da presente matéria. No ambiente de rede 100, o sistema 102 é conectado a uma rede 104. Adicionalmente, o sistema 102 é conectado a um banco de dados 106. Adicionalmente, o ambiente de rede 100 inclui um ou mais dispositivos de usuário 108-1, 108-2...108-N, coletivamente referidos como dispositivos de usuário 108 e individualmente referidos como dispositivo de usuário 108, conectado à rede 104 .

[023] 0 sistema 102 pode ser implantado como qualquer conjunto de dispositivos de computação conectado à rede 104. Por exemplo, o sistema 102 pode ser implantado como estações de trabalho, computadores individuais, computadores do tipo desktop, sistemas com múltiplos processadores, computadores de laptop, computadores de rede, minicomputadores, servidores e similares. Além disso, o sistema 102 pode incluir múltiplos servidores para realizar tarefas espelhadas para os usuários.

[024] Adicionalmente, o sistema 102 pode ser conectado aos dispositivos de usuário 108 através da rede 104. Exemplos dos dispositivos de usuário 108 incluem, porém sem limitação, computadores individuais, computadores do tipo desktop, telefones inteligentes, PDAs e computadores do tipo laptop. Os enlaces de comunicação entre os dispositivos de usuário 108 e o sistema 102 são habilitados através de várias formas de conexões, por exemplo, por meio de conexões de modem de conexão discada, enlaces de cabo, linhas de assinatura digital (DSL), enlaces sem fio ou por satélite, ou qualquer outra forma adequada de comunicação.

[025] Ademais, a rede 104 pode ser uma rede sem fio, uma rede com fio ou uma combinação das mesmas. A rede 104 pode ser, também, uma rede individual ou uma coleção de muitas dessas redes individuais interconectadas uma com a outra e que funcionam como uma única rede grande, por exemplo, a internet ou uma intranet. A rede 104 pode ser implantada como uma dentre os diferentes tipos de redes, tais como intranet, rede de área local (LAN), rede de área ampla (WAN), a internet e assim por diante. A rede 104 pode ou ser uma rede dedicada ou uma rede compartilhada, que representa uma associação dos diferentes tipos de redes que utilizam uma variedade de protocolos, por exemplo, Protocolo de Transferência de Hipertexto (HTTP), Protocolo de Controle de Transmissão/Protocolo de Internet (TCP/IP), etc., para se comunicarem entre si. Adicionalmente, a rede 104 pode incluir rede dispositivos, tais como comutadores de rede, hubs, roteadores, adaptadores de barramento do host (HBAs), para fornecer um enlace entre o sistema 102 e os dispositivos de usuário 108. Os dispositivos de rede na rede 104 podem interagir com o sistema 102 e os dispositivos de usuário 108 através de enlaces de comunicação.

[026] Na dita modalidade, o sistema 102 inclui um ou mais processador(es) 110, interface (s) 112 e uma memória 114 acoplada ao processador 110. O processador 110 pode ser uma unidade de processamento única ou inúmeras unidades, em que todas podem incluir, também, múltiplas unidades de computação. 0 processador 110 pode ser implantado como um ou mais microprocessadores, microcomputadores, microcontroladores, processadores de sinal digital, unidades de processamento central, máquinas de estado, conjuntos de circuitos lógicos e/ou qualquer dispositivo que manipula sinais com base em instruções operacionais. Dentre outras capacidades, o processador 110 é configurado para buscar e executar instruções legíveis por computador e dados armazenados na memória 114.

[027] As interfaces 112 podem incluir uma variedade de interfaces, de software e hardware por exemplo, interface para dispositivo(s) periférico (s), tais como um teclado, um mouse, uma memória externa e uma impressora. Adicionalmente, as interfaces 112 podem habilitar o sistema 102 a se comunicar com outros dispositivos de computação, tais como servidores da web, e repositórios de dados externos, tal como o banco de dados 106, no ambiente de rede 100. As interfaces 112 podem facilitar múltiplas comunicações em uma variedade ampla de protocolos e redes, tal como uma rede 104, incluído redes com fio, por exemplo, LAN, cabo, etc., e redes sem fio, por exemplo, WLAN, celular, satélite, etc. As interfaces 112 podem incluir uma ou mais portas para conectar o sistema 102 a inúmeros dispositivos de computação.

[028] A memória 114 pode incluir qualquer meio legível por computador não transitório na técnica que inclui, por exemplo, memória volátil, tais como memória de acesso aleatório estática (SRAM) e memória de acesso aleatório dinâmica (DRAM) e/ou memória não volátil, tais como memória somente de leitura (ROM), ROM programável apagável, memórias flash, discos rígidos, discos ópticos e fitas magnéticas. O meio legível por computador não transitório, no entanto, exclui um sinal de propagação transitório.

[029] O sistema 102 também inclui módulo(s) 116 e dados 118. 0(s) módulo(s) 116 incluem rotinas, programas, objetos, componentes, estruturas de dados, etc., que realiza(m) tarefas particulares ou implantam tipos de dados abstratos particulares. Em uma implantação, o(s) módulo(s) 116 incluem um módulo de bloqueio 120, um módulo de mescla 122, um módulo de atualização 124 e outro (s) módulo (s) 126. O(s) outro(s) módulo (s) 126 pode (m) incluir programas ou instruções codificadas que suplementam aplicativos e funções do sistema 102.

[030] Por outro lado, os dados 118, entre outros, servem como um repositório para armazenar dados processados, recebidos e gerados por um ou mais do(s) módulo(s) 116. Os dados 118 incluem, por exemplo, dados de mescla 128, dados de atualização 130 e outros dados 132. Os outros dados 132 incluem dados gerados como um resultado da execução de um ou mais módulos no(s) módulo(s) 116.

[031] Em uma implantação, o sistema 102 pode resolver entidades a partir de uma pluralidade de documentos, que podem ser referidos de modo intercambiável como registros. Conforme é, em geral, compreendido, os registros podem incluir objetos tangíveis, tais como documentos em papel como certidões de nascimento, carteiras de motorista raios-X médicos, em como informações digitais, tais como documentos de escritório eletrônicos, dados em bancos de dados de aplicativos, conteúdo de site da web e correio eletrônico (e-mail). Para isso, em uma implantação, o módulo de bloqueio 120 pode obter a pluralidade de documentos a partir de pelo menos uma fonte de dados. Cada um dentre a pluralidade de documentos pode pertencer a uma entidade de mundo real, por exemplo, um indivíduo, um produto ou uma organização. Em geral, a pluralidade de documentos pode existir na forma de documentos textuais e pode incluir pelo menos um atributo. Por exemplo, um passaporte pode ter atributos, tais como nome, nome do pai, endereço, data de nascimento e número de contato. Os atributos podem ser adicionalmente categorizados como atributos suaves, atributos rígidos e atributos únicos.

[032] Em um documento textual, um atributo suave pode ser compreendido como um atributo para o qual duas entradas ou valores podem ser considerados ser correspondentes mesmo se as duas entradas não forem textualmente idênticas. Por exemplo, diferentes variações do nome de um indivíduo podem ser consideradas ser correspondentes mesmo se as mesmas não forem textualmente idênticas, por exemplo, R Scott e Roger Scott. Por outro lado, um atributo rígido pode ser compreendido como um atributo para o qual duas entradas podem consideradas ser correspondentes somente se as duas dois entradas forem textualmente idênticas, por exemplo, um número de telefone. Adicionalmente, um atributo único pode ser compreendido como um atributo que tem uma entrada única para cada entidade, por exemplo, um número de passaporte. Conforme é compreendido de modo geral, cada indivíduo pode ter somente um número de passaporte e, portanto, duas entidades podem não compartilhar o mesmo número de passaporte.

[033] Adicionalmente, uma entidade pode ter múltiplos valores para um atributo suave e um atributo rígido, porém não para um atributo único. Por exemplo, um indivíduo pode ter múltiplas maneiras de escrever seu nome e múltiplos números de telefone. No entanto, um indivíduo pode não ter múltiplos números de passaporte. Além disso, duas entidades podem ter o mesmo valor para um atributo suave e um atributo rígido, porém não pode ter o mesmo valor para um atributo único. Por exemplo, mais de um indivíduo pode compartilhar o mesmo nome e o mesmo número de telefone, porém não podem compartilhar o mesmo número de passaporte.

[034] Em uma implantação, um documento textual pode conter uma referência a outro documento textual quando um atributo do documento textual contiver um valor de um atributo rígido ou um atributo único do outro documento textual. Por exemplo, em um passaporte de uma entidade, um atributo de nome "Carteira de motorista ID" pode fornecer referência a uma carteira de motorista da entidade contendo- se o valor de id de carteira de motorista, que é um atributo único da carteira de motorista. Tais atributos de um documento textual, que podem fornecer uma referência a outro documento textual, são chamados atributos referenciais. Portanto, os atributos referenciais pode fornecer referências entre documentos dentre a pluralidade de documentos textuais.

[035] Em uma implantação, os atributos referenciais podem ser adicionalmente categorizados como atributos referenciais explícitos e atributos referenciais implícitos. Um atributo referencial explícito pode ser compreendido como um atributo cujo valor pode ser um valor exato de um atributo rígido ou um atributo único de um documento textual referido. Por exemplo, se um passaporte documento tiver um atributo "Carteira de motorista ID" com um valor igual a "DL123", então o documento de passaporte faz uma referência explícita a uma carteira de motorista documento com um número de registro "DL123". Por outro lado, no caso de um atributo referencial implícito, uma parte de seu valor pode conter um atributo rígido ou um atributo único de outro documento textual. Por exemplo, se um valor de um campo de "Descrição" no documento de passaporte for "DL# do Requerente DL123", então o documento de passaporte está fazendo uma referência implícita à carteira de motorista documento.

[036] Considere um exemplo em que o módulo de bloqueio 120 pode obter 11 documentos textuais, di, d2, d3, d4, d5, d6, d7, d8, d9, di0, e dn que pertencem a 4 entidades, ei» e2, e3, θ e4. Os 11 documentos textuais são tabulados com seus detalhes correspondentes na Tabela 1. O exemplo é fornecido com o propósito de fornecer uma melhor clareza e compreensão da presente matéria e não deve ser interpretado como limitante.TABELA 1

[037] Conforme pode ser visto a partir da tabela 1, os documentos textuais di a d4 pertencem à entidade ei, os documentos textuais d5 a d7 pertencem à entidade e2, os documentos textuais d8 a d10 pertencem à entidade e3, e o documento textual dn pertence à entidade e4. Os documentos textuais citados na tabela 1 são de 4 tipos, isto é, documento de Número de Conta Permanente (PAN), documento de título eleitoral (VOT), documento de Carteira de Motorista (DL) e documento de Número de Conta Bancária (BAN). Adicionalmente, os atributos dos documentos textuais citados acima, que são considerados para a análise de ER, são ID de Documento, Nome, ID de E-mail, Número de Telefone, Data de Nascimento, Endereço, ID de Prova e Detalhes de Documento.

[038] Uma vez que o módulo de bloqueio 120 obtém a pluralidade de documentos textuais, o módulo de bloqueio 120 pode bloquear a pluralidade de documentos textuais com base em referências entre documentos empregando- se um conjunto de procedimentos de cruzamento de documento. O conjunto de procedimentos de cruzamento de documento é equivalente a um conjunto de procedimentos de cruzamento de gráfico, em que elementos que atuam como nós podem ser cruzados através de suas bordas de conexão para derivar detalhes sobre os elementos. Adicionalmente, as referências entre documentos são indicativas de relações na pluralidade de documentos textuais. Conforme mencionado anteriormente, as referências entre documentos dentre a pluralidade de documentos textuais podem ser identificadas a través dos atributos referenciais correspondentes.

[039] Agora, a fim de obter uma melhor compreensão da aplicação do conjunto de procedimentos de cruzamento de documento para resolução de entidade, a pluralidade de documentos textuais pode ser visualizada como nós em um gráfico, e as referências entre documentos podem ser consideradas como bordas direcionadas. Por exemplo, se um documento textual di pode se referir a um documento textual dj, seja explicita ou implicitamente, então uma borda pode ser direcionada de di, isto é, um documento textual de fonte, a dj, isto é, um documento textual referido. Portanto, com base nas referências entre documentos, o módulo de bloqueio 120 pode gerar um conjunto de cruzamento para cada documento textual. Um conjunto de cruzamento de um documento textual pode ser compreendido como um conjunto de documentos textuais conectado ao documento textual, seja através de referências explícitas ou referências implícitas.

[040] Em uma implantação, o conjunto de procedimentos de cruzamento de documento pode ser dividido em duas etapas, a saber, um cruzamento a jusante (DST) e um cruzamento a montante (UST). Em tal uma implantação, o módulo de bloqueio 120 pode gerar um conjunto de cruzamento para um documento textual combinando-se um conjunto de cruzamento a jusante e um conjunto de cruzamento a montante. 0 DST pode ser compreendido como se movendo para baixo no gráfico, isto é, começando de um nó (documento textual), e cruzando o gráfico ao longo da direção das bordas. Portanto, no DST, o módulo de bloqueio 120 pode cruzar a pluralidade de documentos textuais começando-se a parir de um documento textual de fonte e movendo na direção de um documento textual referido correspondente. Adicionalmente, utilizando-se o DST, o módulo de bloqueio 120 pode utilizar os atributos referenciais explícitos, isto é, as referências explícitas entre documentos na pluralidade de documentos textuais.

[041] A fim de fornecer uma melhor clareza sobre o DST, o exemplo citado na tabela 1 pode ser considerado. Conforme pela tabela 1, considerando as referências explícitas citadas, o documento textual di fornece uma referência explícita ao documento textual d2. De modo similar, o documento textual d3 pode fornecer uma referência explícita ao documento textual d2. Portanto, um conjunto de cruzamento a jusante para os documentos textuais di e d3 é {d2} . Conforme pode ser visto, não há outra referência explícita dentre os 11 documentos textuais citados na tabela 1.

[042] Considerando outro exemplo, em que um documento textual r3 se refere explicitamente a um documento textual r2, o documento textual r2 se refere explicitamente um documento textual r3, e o documento textual r3 se refere explicitamente um documento textual r4 e um documento textual r5. No presente exemplo, um conjunto de cruzamento a jusante para os documentos textuais ri, r2 e r3 é {r2, r3, r4, r5}, {r3, r4, r5} e {r4, r5}, respectivamente. Por outro lado, um conjunto de cruzamento a jusante para os documentos textuais r4 e r5 é {/}, isto é, nulo.

[043] Adicionalmente, no presente contexto, o UST pode ser compreendido como cruzando a pluralidade de documentos textuais em uma direção oposta à direção de borda, isto é, a partir de um documento textual referido na direção de um documento textual de fonte correspondente. O módulo de bloqueio 120 pode utilizar as referências explícitas bem como as referências implícitas da pluralidade de documentos textuais utilizando-se o UST. Referindo-se ao exemplo citado na tabela 1, o módulo de bloqueio 120 pode gerar um conjunto de cruzamento a montante para o documento textual d7, o documento textual d9 e o documento textual d2 como {d6}, {dn} e {di, d3}, respectivamente. Por outro lado, um conjunto de cruzamento a montante para o resto dos documentos textuais é {/}, isto é, nulo.

[044] Continuando com o exemplo mencionado anteriormente, o documento textual rx faz uma referência implícita ao documento textual r2, que, por sua vez, faz referências implícitas ao documento textual r3 e ao documento textual r4. Adicionalmente, o documento textual rx faz uma referência explícita ao documento textual r5. Nesse caso, o módulo de bloqueio 120 pode gerar um conjunto de cruzamento a montante para o documento textual r2 as {ri} . De modo similar, um conjunto de cruzamento a montante para o documento textual r3 e o documento textual r4 pode ser gerado como {r2}. Adicionalmente, um conjunto de cruzamento a montante para o documento textual r5 e o documento textual rx pode ser gerado como {rx} e {/}, respectivamente.

[045] Para cada documento textual, que se segue à geração de um conjunto de cruzamento a montante e um conjunto de cruzamento a jusante, o módulo de bloqueio 120 pode combinar o conjunto de cruzamento a montante e o conjunto de cruzamento a jusante para gerar um conjunto de cruzamento correspondente. Em uma implantação, para gerar um conjunto de cruzamento para um documento textual, doravante referido como um documento textual inicial, o módulo de bloqueio 120 pode realizar uma única etapa do DST no documento textual inicial, e um conjunto de cruzamento a jusante obtido assim é adicionado a um conjunto de cruzamento correspondente. Subsequentemente, o módulo de bloqueio 120 pode realizar uma única etapa do UST para os documentos textuais coletados no conjunto de cruzamento e o próprio documento textual inicial. O módulo de bloqueio 120 pode adicionar adicionalmente documentos textuais recuperados, por conta da execução da única etapa do UST, ao conjunto de cruzamento. O módulo de bloqueio 120 pode continuar executando a etapa de DST-UST repetidamente nos documentos textuais que são adicionados ao conjunto de cruzamento após cada etapa de DST-UST.

[046] Em certos casos, o módulo de bloqueio 120 pode, executando-se o UST em um documento textual, recuperar um grande número de documentos textuais que podem nem ao menos pertencer à mesma entidade. Por exemplo, um Localizador-Padrão de Recursos (Unique Resource Location - URL) de página inicial de uma organização pode aparecer como uma referência implícita em documentos textuais que pertencem a empregados da organização. Além disso, se a URL da página inicial também aparece como um valor de um atributo referencial explícito em um documento textual, então o UST para esse documento textual pode recuperar um número grande de documentos textuais. De fato, é muito improvável que a maioria dos documentos textuais recuperados dessa maneira pertença à mesma entidade à qual o documento textual pode pertencer. A fim de evitar tais situações, o módulo de bloqueio 120 pode definir um limite para inúmeros documentos textuais recuperados em uma única etapa de UST para um documento textual. Portanto, quando o número de documentos textuais recuperados for maior que um limite, o módulo de bloqueio 120 pode não adicionar os documentos textuais recuperados ao conjunto de cruzamento.

[047] Conforme será concluído, uma vez que o módulo de bloqueio 120 pode bloquear a pluralidade de documentos textuais com base nas referências entre documentos, cada documento textual pode ter um conjunto de cruzamento correspondente que inclui documentos textuais que potencialmente pertencem à mesma entidade as o documento textual.

[048] Além disso, o módulo de bloqueio 120 pode utilizar um conjunto de procedimentos de Hashing Sensível à Localidade (LSH) (Locality Sensitive Hashing) para bloquear, também, a pluralidade de documentos textuais. O conjunto de procedimentos de LSH pode utilizar funções de hashing para bloquear a pluralidade de documentos textuais dentro de uma ou mais partições com base em similaridade textual dentre a pluralidade de documentos textuais. Em uma implantação, o módulo de bloqueio 120 pode codificar com hashing a pluralidade de documentos textuais com IDs de partição. Portanto, é provável que documentos textuais com alta similaridade textual obtenham pelo menos um mesmo valor de hashing, isto é, mesma ID de partição. Por outro lado, é menos provável que os documentos textuais que não são textualmente similares sejam codificados com na mesma partição.

[049] Adicionalmente, no caso de dois documentos textuais A e B terem um número grande de palavras em comum, os documentos textuais A e B podem ser considerados para comparações adicionais como comparados com um par de documentos textuais, que pode variar textualmente. Em uma implantação, o módulo de bloqueio 120 pode codificar por hashing documentos textuais potencialmente correspondentes com o mesmo valor e, portanto, pode bloquear os documentos textuais potencialmente correspondentes codificados com hashing com o mesmo valor na mesma partição. Adicionalmente, para cada documento textual, o módulo de bloqueio 120 pode colocar um conjunto de cruzamento correspondente de documentos textuais na mesma partição à qual o documento textual pertence, a fim de utilizar resultados de bloqueio alcançados executando-se o cruzamento de documento.

[050] Em uma implantação, cada partição pode ser compreendida como um par de valores - chave. A chave pode ser compreendida como uma Ide de partição correspondente, e o valor é um grupo de documentos textuais, que podem ser codificados com hashing para essa "chave" junto com seu conjunto de cruzamentos. Portanto, uma vez que o módulo de bloqueio 120 pode codificar por hashing cada um dentre a pluralidade de documentos textuais para suas respectivas IDs de partição, cada partição pode conter documentos textuais, que podem ter alta similaridade textual ou compartilhar referências explicitas e/ou implícitas. Referindo-se ao exemplo citados na tabela 1, o documento textual d5 e o documento textual d7 têm alta similaridade textual e, portanto, o módulo de bloqueio 120 pode bloquear o documento textual d5 e o documento textual d7 na mesma partição codificando-se com hashing o documento textual d5 e o documento textual d7 com a mesma ID de partição. Além disso, visto que o conjunto de cruzamento para o documento textual d7 é {d6}, o módulo de bloqueio 120 pode bloquear, também, o documento textual d6 junto com o documento textual d7 na mesma partição.

[051] Com referência aos documentos textuais citados no exemplo mencionado na tabela 1, a Figura 1(a) ilustra o bloqueio dos documentos textuais dx, d2, d3, ... dn por meio do módulo de bloqueio 120 com base na similaridade textual e nas referências entre documentos. Conforme ilustrado na Figura 1(a), blocos circulares ou ovais retratam o bloqueio dos documentos textuais com base em conjunto de procedimentos de cruzamento de documento, isto é, referências entre documentos. De modo similar, blocos retangulares retratam o bloqueio dos documentos textuais com base em conjuntos de procedimentos de LSH, isto é, similaridade textual. Adicionalmente, para uma melhor clareza e compreensão da presente matéria, a Figura 1 (a) deve ser referida em conjunto com a Figura 1. Em uma implantação, detalhes que pertencem ao módulo de bloqueio 120 podem ser armazenados nos dados de mescla 128.

[052] Seguindo-se o bloqueio da pluralidade de documentos textuais dentro de partições, o módulo de mescla 122 pode realizar uma comparação em par dos documentos textuais em cada partição para identificar um conjunto de documentos textuais relacionados a uma entidade. Em uma implantação, o módulo de mescla 122 pode realizar a comparação dentre os documentos textuais através de um conjunto de procedimento de mescla de correspondência interativa (IMM). Em outra implantação, o módulo de mescla 122 pode empregar um conjunto de procedimentos de IMM baseado em R-swoosh para realizar a comparação.

[053] Em uma implantação, o módulo de mescla 122 pode considerar dois documentos textuais como "Correspondentes" se os dois documentos textuais puderem retornar um valor, por exemplo, "Verdadeiro" em alguma some função de correspondência. Em uma implantação, uma função de correspondência pode ser uma função Booleana definida nos dois documentos textuais que pode retornar "Verdadeiro", quando os dois documentos textuais são determinados pertencerem à mesma entidade. Por outro lado, caso os dois documentos textuais pode retornar um valor "Falso", os dois documentos textuais são determinados não serem correspondentes. Adicionalmente, as funções de correspondência podem ser implantadas de múltiplas maneiras. Em uma implantação, uma função de correspondência pode ser baseada em pelo menos uma regra definida em valores de atributo dos dois documentos textuais que são comparados. Por exemplo, uma função de correspondência pode ser definida de que os dois documentos textuais podem retornar "Verdadeiro", se (nome for correspondente) E (endereço for correspondente) E (data de nascimento for correspondente). Do contrário, os dois documentos textuais podem retornar "Falso".

[054] Em uma implantação, em uma partição, o módulo de mescla 122 pode dividir os documentos textuais em dois conjuntos, por exemplo, um conjunto X e um conjunto Y. 0 conjunto X pode conter todos os documentos textuais a partir de uma partição, e o conjunto Y pode conter os documentos textuais, que já pode ter sido comparado entre si. Conforme será concluído, no início da execução do conjunto de procedimentos de IMM, o conjunto Y pode estar vazio. Em tal implantação, o módulo de mescla 122 pode, dentro de cada partição, comparar dois documentos textuais para começar a execução do conjunto de procedimentos de IMM. Simultaneamente, o conjunto Y pode incluir pelo menos um documento textual que é comparado com pelo menos um dos documentos textuais da partição, o módulo de mescla 122 pode iterar em cada um dos documentos textuais no conjunto A. Por exemplo, o módulo de mescla 122 pode remover um documento textual D do conjunto A e pode comparar, então, o documento textual D com cada documento textual disponível no conjunto B. No caso de o documento textual D não poder ter um documento textual correspondente no conjunto B, o módulo de mescla 122 pode adicionar o documento textual D ao conjunto B.

[055] Por outro lado, se o documento textual D puder ter um documento textual correspondente P no conjunto B, então o módulo de mescla 122 pode remover o documento textual P do conjunto B. Em continuação da remoção do documento textual P do conjunto B, o módulo de mescla 122 pode mesclar o documento textual D e o documento textual P para criar um documento textual mesclado DP. Adicionalmente, o módulo de mescla 122 pode adicionar o documento textual mesclado DP ao conjunto A. Conforme será concluído, apesar de o documento textual D poder não corresponder a qualquer outro documento textual no conjunto B, o documento textual mesclado DP pode corresponder a um documento textual no conjunto B. Portanto, no fim do processo de IMM, o conjunto A pode estar vazio e o conjunto B pode conter o resultado final do processo de IMM, isto é, os documentos mesclados que correspondem a uma pluralidade de entidades. Conforme será concluído, em cada partição, o módulo de mescla 122 pode criar um documento mesclado para cada entidade. 0 documento mesclado de uma entidade pode conter todas as informações conforme revelado em cada um dos documentos textuais, dentro da partição, que pertencem à entidade. Em outras palavras, em cada bloco, o módulo de mescla 122 pode resolver os documentos textuais para entidades. As entidades resolvidas a partir dos documentos textuais em um bloco são referidas como entidades parciais.

[056] Adicionalmente, o módulo de mescla 122 pode não comparar um par de documentos textuais duas vezes. Em uma implantação, o módulo de mescla 122 pode manter dois conjuntos de documentos textuais. Um dos conjuntos pode pertencer a pares correspondentes de documentos textuais, e o outro conjunto pode pertencer a pares não correspondentes de documentos textuais. No caso de um par de documentos textuais, que já podem ter sido comparados em uma partição, ser encontrado novamente em outra partição, o módulo de mescla 122 pode não comparar o par de documentos textuais computando-se uma "Função de correspondência" novamente. De fato, em tais situações, se o par de documentos textuais existir no conjunto de pares correspondentes, então o módulo de mescla 122 pode assumir o valor de Função de correspondência como "Verdadeiro". No entanto, se o par de documentos textuais existir no conjunto de pares não correspondentes, então o módulo de mescla 122 pode assumir o valor de "Falso". No entanto, se o par de documentos textuais pode não existir em qualquer um dos dois conjuntos, o módulo de mescla 122 pode computar, então, a "Função de correspondência" para aquele par. Com base em um valor de retorno da Função de correspondência, o módulo de mescla 122 pode atualizar o conjunto de pares correspondentes ou o conjunto de não pares correspondentes consequentemente.

[057] Em uma implantação, os documentos textuais que pertencem à mesma entidade podem coocorrer em múltiplas partições. Adicionalmente, como um resultado do conjunto de procedimentos de IMM executado pelo módulo de mescla 122, a mesma entidade pode ser obtida a partir de múltiplas partições. Portanto, as entidades obtidas a partir de cada partição podem ser referidas como entidades parciais. Em uma implantação, o módulo de mescla 122 pode combinar as entidades parciais a partir de todas as partições para obter entidades resolvidas finais.

[058] No caso de quaisquer duas entidades parciais que pertencem a diferentes partições compartilharem um documento textual comum, o módulo de mescla 122 pode combinar as entidades parciais, isto é, os documentos mesclados que correspondem a cada uma das entidades parciais podem ser mesclados novamente para criar um documento de entidade resolvida para cada entidade. Em outras palavras, o módulo de mescla 122 pode combinar todos os documentos textuais que pertencem às duas entidades parciais para obter uma entidade.

[059] Com referência aos documentos textuais citados no exemplo mencionado na tabela 1, a Figura 1(b) ilustra os documentos textuais di, d2, d3, ... d13 que são resolvidos em partições pelo módulo de mescla 122. Para uma melhor compreensão e clareza da presente matéria, a Figura 1(b) deve ser referida em conjunto com a Figura 1. Agora, conforme pode ser deduzido a partir da tabela 1, os documentos textuais d8, d9, e di0 que pertencem à mesma entidade e3 não compartilham qualquer referência entre si. Adicionalmente, conforme mostrado na Figura 1(b), o documento textual d8 e o documento textual d9 podem terminar em uma partição b3 com base em similaridade textual. De modo similar, os documentos textuais d8 e d30 terminam na partição b4. Portanto, conforme será concluído, pode não haver uma partição que tenha todos os documentos textuais que pertencem a e3 na mesma. Na partição b3, o módulo de mescla 122 emprega o conjunto de procedimentos de IMM para produzir uma entidade parcial e,3 = Mesclar (d8, d9) . Na partição b4, o módulo de mescla 122 pode resolve outra entidade parcial e''3 = Mesclar (de» dio) •

[060] Em uma implantação, o módulo de mescla 122 pode combinar tais entidades parciais identificando-se componentes conectados (CC) em um gráfico não direcionado. Por questões de compreensão, a pluralidade de documentos textuais pode ser considerada nós de um gráfico não direcionado. Portanto, para cada documento textual, há um nó no gráfico. Agora, para cada entidade parcial, o módulo de mescla 122 pode selecionar arbitrariamente um dos nós como um nó central. Então, o módulo de mescla 122 pode fornecer uma borda entre o nó central e cada um dos nós restantes da entidade parcial. Portanto, todos os nós de uma entidade parcial são conectados entre si através do nó central.

[061] Conforme pode ser visto a partir da Figura 1(a), uma partição bx pode ter uma entidade parcial e.x = Mesclar (di, d2, d3, d4) . No caso de o módulo de mescla 122 poder selecionar o documento textual d3 como o nó central for elz as bordas formadas podem ser {di-d2, d3-d3, d3-d4} . Agora, no caso de quaisquer duas entidades parciais terem algum nó, isto é, um documento textual em comum, então pode-se compreender que todos os nós nas duas entidades parciais são conectados e, portanto, pertencem à mesma entidade. Conforme será concluído, um componente conectado no gráfico corresponde a uma entidade. Portanto, o módulo de mescla 122 pode consolidar os resultados das partições encontrando-se componentes conectados no gráfico por um conjunto de procedimento de aglomeração de gráficos.

[062] Continuando com o exemplo citado na tabela 1, o módulo de mescla 122 pode adicionar o par d8-d9 a uma lista de borda da partição b3, e o par d8-di0 à lista de borda da partição b4. Em uma implantação, o módulo de mescla 122 pode identificar o d8-d9-d10 como um único componente conectado c3. Adicionalmente, o módulo de mescla 122 pode mesclar os documentos textuais d8, d9, e di0 para obter uma entidade resolvida final e3 = Mesclar (d8, d9, di0) e, portanto, o documento de entidade resolvida correspondente.

[063] Para fornecer uma melhor clareza da presente matéria, uma tabela 2 é fornecida abaixo. A tabela 2 tabula, com referência à tabela 1, um resultado da análise mencionada anteriormente. Adicionalmente, a tabela 2 é fornecida para fornecer uma melhor compreensão da matéria e não deve ser interpretada como limitante.TABELA 2

[064] Em uma implantação, o módulo de bloqueio 12 0 pode obter um lote novo de documentos textuais. Uma vez que o lote novo de documentos textuais pode ser obtido, o módulo de atualização 124 pode bloquear o lote novo de documentos textuais em blocos através do conjunto de procedimentos de cruzamento de documento conforme mencionado anteriormente. 0 módulo de atualização 124, para cada documento textual, pode gerar um conjunto de cruzamento correspondente. Na presente implantação, o conjunto de cruzamento pode incluir documentos textuais do lote novo de documentos textuais bem como o lote antigo de documentos textuais. Para a presente implantação, a pluralidade de documentos textuais obtidos inicialmente pelo módulo de bloqueio 120 pode ser referida como um lote antigo de documentos textuais.

[065] No caso de um conjunto de cruzamento para um documento textual novo poder incluir um documento textual do lote antigo, o módulo de atualização 124 pode substituir o documento textual por uma entidade resolvida já resolvida. Portanto, o conjunto de cruzamento de um documento textual novo pode conter documentos textuais bem como entidades. Adicionalmente, um documento textual no conjunto de cruzamento de o documento textual novo pode ter que ser do lote novo de documentos textuais, e as entidades são aquelas que foram previamente resolvidas.

[066] Conforme mencionado anteriormente, seguindo-se a geração de conjunto de cruzamentos para cada documento textual novo, o módulo de atualização 124 pode bloquear o lote novo dos documentos textuais por meio do conjunto de procedimentos de LSH. Em uma implantação, o módulo de atualização 124 pode codificar por hashing os documentos textuais novos com ids de partição, que podem ter sido criadas anteriormente durante o bloqueio do lote antigo de documentos textuais.

[067] 0 módulo de atualização 124 pode recuperar as IDs dos documentos textuais antigos que foram codificadas com hashing para tais ids de partição de um índice de LSH previamente criado. O índice de LSH pode ser compreendido como um banco de dados da pluralidade de documentos textuais com suas IDs correspondentes ou marcas hash, e as IDs de partição em que os mesmos são bloqueados. O módulo de atualização 124 pode recuperar adicionalmente entidades resolvidas antigas para essas ids de documento. Portanto, pode haver dois tipos de partições existentes agora. Um dos dois tipos de partições pode incluir entidades antigas, que são obtidas através de cruzamento de documento ou através de LSH em um documento textual novo. 0 segundo tipo de partição pode incluir documentos textuais do lote novo de documentos textuais.

[068] Uma vez que o lote novo de documentos textuais pode ser bloqueado nos dois tipos de partições, o módulo de atualização 124, em cada partição, pode empregar o conjunto de procedimentos de IMM nos documentos textuais novos bem como nas entidades. Na presente implantação, a entidade parcial criada dessa maneira pode incluir um dentre pelo menos um documento textual novo, pelo menos um documento textual novo e pelo menos uma entidade antiga e uma entidade antiga não atualizada. No caos de uma entidade parcial pode incluir pelo menos um documento textual novo ou uma entidade antiga não atualizada, o módulo de atualização 124 pode identificar as listas de borda conforme explicado anteriormente.

[069] Por outro lado, se uma entidade parcial puder incluir pelo menos um documento textual novo e pelo menos uma entidade antiga, o módulo de atualização 124 pode criar uma lista de borda para o pelo menos um documento textual e a pelo menos uma entidade antiga. Conforme mencionado em uma implantação anterior, um documento textual (nó) pode ser considerado um nó central e os documentos textuais restantes (nós) são conectado ao mesmo. Em tal implantação, o módulo de atualização 124 pode identificar componentes conectados aos documentos textuais (nós), que são uma parte das entidades parciais obtidas para o lote novo de documentos textuais, e não para o lote antigo. Portanto, no caso de obter do lote novo de documentos textuais, o módulo de atualização 124 pode empregar o conjunto de procedimento de aglomeração de gráficos para todos os documentos textuais novos e alguns dos documentos textuais antigos. Em uma implantação, o módulo de atualização 124 pode atualizar o documento de entidade resolvida para alguns dos documentos textuais antigos. Por exemplo, as entidades previamente separadas podem ser mescladas devido às novas informações obtidas a partir do lote novo de documentos textuais.

[070] Continuando o exemplo citado na tabela 1, considere que o documento textual d3 não foi incluído no lote antigo de documentos textuais. Na ausência do documento textual d3, pode não ser possível obter os documentos textuais di, d2, e d4 na mesma partição. Portanto, pode haver duas entidades que correspondem à entidade e3, isto é, e-i = Mesclar (dlf d2) , e e.<i= d4, que podem estar presentes na coleção de documento de entidade previamente resolvida. Agora, na presente implantação, quando o documento textual d3 pode vir como uma parte do lote novo de documentos textuais, o documento textual d3 pode ser ligado aos documentos textuais di e d2 na base de cruzamento de documento. Adicionalmente, visto que o documento textual d3 tem alta similaridade textual com o documento textual d4, o módulo de atualização 124 pode gerar pelo menos uma id de partição que inclui o documento textual d3 bem como o documento textual d4. Portanto, o documento textual d3 com o conjunto de cruzamento correspondente {e.3} pode estar presente em uma partição com a entidade e"x. Conforme será concluído, os documentos textuais novos e entidades previamente resolvidas que pertencem à entidade ex podem terminar na mesma partição e, portanto, a entidade e3 pode ser resolvida. Adicionalmente, ao mesmo tempo, a inconveniência de resolver novamente toda a coleção de documento é evitada.

[071] A Figura 2 ilustra um método 200 para fornecer uma resposta automática a uma retroalimentação, de acordo com uma modalidade da presente matéria. O método 200 pode ser implantado em uma variedade de sistemas computacionais de várias maneiras. Por exemplo, o método 200, descrito no presente documento, pode ser implantado com uso de um sistema de resolução de entidade 102, conforme descrito acima.

[072] O método 200, completa ou parcialmente, pode ser descrito no contexto geral de instruções executáveis por computador. Em geral, instruções executáveis por computador podem incluir rotinas, programas, objetos, componentes, estruturas de dados, procedimentos, módulos, funções, etc., que realizam funções particulares ou implantam tipos de dados abstratos particulares. Um indivíduo versado na técnica reconhecerá prontamente que etapas do método podem ser realizadas por computadores programados. No presente documento, algumas modalidades também são destinadas a cobrir dispositivos de armazenamento de programa, por exemplo, meios de armazenamento de dados digitais, que sejam legíveis por máquina ou computador e codifiquem programas de instruções executáveis por máquina ou executáveis por computador, em que as ditas instruções realizam parte ou todas as etapas do método descrito 200.

[073] A ordem em que o método 200 é descrito não é destinada a ser interpretada como uma limitação, e qualquer número dos blocos de método descritos pode ser combinado em qualquer ordem para implantar o método ou um método alternativo. Adicionalmente, blocos individuais podem ser deletados do método sem se separar do espírito e escopo da matéria descrita no presente documento. Adicionalmente, os métodos podem ser implantados em qualquer hardware, software, firmware adequados ou combinação dos mesmos. Deve-se compreender que apesar de o método 200 ser descrito com referência ao sistema 102, a descrição pode ser estendida a outros sistemas também.

[074] Com referência à descrição da Figura 2, por questão de brevidade, os detalhes dos componentes do sistema de resolução de entidade 102 não são discutidos aqui. Tais detalhes podem ser compreendidos como fornecidos na descrição fornecida com referência à Figura 1.

[075] 0 método 200 pode fornecer uma resolução de entidade a partir de uma pluralidade de documentos. No bloco 202, uma pluralidade de documentos que corresponde a uma pluralidade de entidades pode ser obtida a partir de pelo menos uma fonte de dados. Em uma implantação, a pluralidade de documentos pode ser documentos textuais. Em uma implantação, o módulo de bloqueio 120 do sistema de resolução de entidade 102 pode obter a pluralidade de documentos.

[076] Seguindo a obtenção da pluralidade de documentos textuais, no bloco 204, a pluralidade de documentos textuais pode ser bloqueada dentro de pelo menos uma partição com base na similaridade textual e nas referências entre documentos. Em uma implantação, um conjunto de procedimentos de cruzamento de gráfico pode ser empregado para bloquear a pluralidade de documentos textuais com base em referências entre documentos dentre a pluralidade de documentos textuais. Em continuação ao bloqueio da pluralidade de documentos textuais com base no conjunto de procedimentos de cruzamento de documento, outro conjunto de procedimentos de bloqueio conhecido como Hashing Sensível à Localidade (LSH) pode ser adotado. Em uma implantação, o conjunto de procedimentos de LSH pode utilizar funções de hashing para agrupar ou bloquear a pluralidade de documentos textuais com base em similaridade textual dentre a pluralidade de documentos textuais. Em uma implantação, a pluralidade de documentos textuais pode ser codificada com hashing com IDs de partição. Portanto, os documentos textuais que são determinados serem textualmente similares e são relacionados com base nas referências entre documentos podem ser agrupados na mesma partição. Em uma implantação, o módulo de bloqueio 120 do sistema de resolução de entidade 102 pode bloquear a pluralidade de documentos textuais dentro de uma ou mais partições.

[077] No bloco 206, em cada partição, um documento mesclado para cada entidade pode ser criado com base em um conjunto de procedimento de mescla de correspondência interativa (IMM). Em uma implantação, uma comparação em par dos documentos textuais em cada partição é realizada para identificar um conjunto de documentos textuais relacionado a uma entidade. Adicionalmente, dois documentos textuais podem ser considerados serem correspondentes com base em uma função de correspondência, isto é, um critério predefinido. Portanto, com base no critério predefinido, em cada partição, um conjunto de documentos textuais que pertence a cada entidade pode ser identifico. Em uma implantação, o conjunto de documentos textuais pode ser mesclado para criar um documento mesclado para cada entidade. Portanto, em cada bloco, os documentos textuais são resolvidos para entidades. As entidades resolvidas a partir do documento textual em um bloco são referidas como entidades parciais. Em uma implantação, o módulo de mescla 122 do sistema de resolução de entidade 102 pode criar um documento mesclado para cada entidade.

[078] Adicionalmente, para a mesma entidade, um documento mesclado pode ser criado em mais de uma partição. Em outras palavras, como um resultado do conjunto de procedimentos de IMM, a mesma entidade pode ser resolvida a partir de múltiplas partições. No bloco 208, um documento de entidade resolvida para cada entidade pode ser gerado consolidando-se os documentos mesclados a partir de cada partição. Em uma implantação, um conjunto de procedimento de aglomeração de gráficos pode ser empregado para gerar o documento de entidade resolvida. Adicionalmente, múltiplas entidades parciais que emergem das múltiplas partições podem ser conectadas pelo fato de que os mesmos documentos textuais podem ser utilizados em diferentes partições para resolver múltiplas entidades parciais.

[079] A fim de obter uma melhor compreensão do conjunto de procedimento de aglomeração de gráficos, cada documento textual pode ser visualizado como um nó em um gráfico de documentos textuais. Nesse caso, duas entidades parciais podem compartilhar um documento textual, isto é, um nó, os nós das duas entidades parciais podem ser conectados através do nó comum. Portanto, todos os documentos textuais que correspondem aos nós que pertencem às duas entidades parciais podem ser consolidados para formar um documento de entidade resolvida. Em uma implantação, o módulo de mescla 122 do sistema de resolução de entidade 102 pode criar o documento de entidade resolvidas.

[080] No bloco 210, a coleção de documento de entidade resolvida pode ser atualizada mediante recebimento de um lote novo de documentos textuais. O lote novo de documentos textuais pode ser processado com uso do conjunto de procedimentos de cruzamento de gráfico, do conjunto de procedimentos de LSH, do conjunto de procedimentos de IMM e do conjunto de procedimento de aglomeração de gráficos conforme mencionado acima. Na presente matéria, ao invés de executar a análise de ER do zero, o novo conjunto de documentos textuais pode ser analisado diretamente em relação às entidades já resolvidas e aos documentos de entidade já resolvida, economizando, dessa forma, tempo tirado para a análise.

[081] Apesar de implantações de um método para resolver entidades a partir de uma pluralidade de documentos ter sido descrito em linguagem específica a recursos e/ou métodos estruturais, deve-se compreender que a presente matéria não é necessariamente limitada aos recursos ou métodos específicos descritos.

Claims

1. MÉTODO PARA RESOLVER AS ENTIDADES DE UMA PLURALIDADE DE DOCUMENTOS, caracterizado pelo método compreender: obter, por meio de um processador (110), a pluralidade de documentos correspondentes a uma pluralidade de entidades a partir de pelo menos uma fonte de dados; bloquear, por meio do processador (110), a pluralidade de documentos no interior de uma ou mais partições com base na similaridade textual e referências entre documentos dentre a pluralidade de documentos, em que as referências entre documentos são indicativas de relações na pluralidade de documentos, em que as referências entre documentos são identificadas através de atributos referenciais correspondentes, em que os atributos referenciais são selecionados a partir de um de um atributo referencial rígido e um atributo referencial único de um referido documento, em que o referencial rígido é um atributo para o qual duas entradas são consideradas correspondentes apenas se as duas entradas forem textualmente idênticas e o atributo referencial único é um atributo que possui uma entrada única para cada entidade na pluralidade de documentos, em que os atributos referenciais são um de um atributo referencial implícito e um atributo referencial explícito, em que o atributo referencial implícito compreende uma parte do seu valor igual a um atributo referencial rígido e o atributo referencial único do documento referido, em que o atributo referencial explícito é um valor exato de um do atributo referencial rígido e o atributo referencial único do documento referido e em que a técnica Hashing Sensível à Localidade (LSH) em combinação com uma técnica de passagem de documento é usada para bloquear a pluralidade de documentos em uma ou mais partições; executar uma comparação em pares da pluralidade de documentos em cada partição para identificar um conjunto de documentos relacionados a uma entidade usando uma técnica de mescla de correspondência iterativa (IMM) com base em critérios predefinidos, em que o conjunto de procedimento de mescla de correspondência interativa identifica, a partir da pluralidade de documentos, pelo menos um par correspondente de documentos e mescla o pelo menos um par correspondente de documentos para criar pelo menos um documento mesclado para cada entidade nas uma ou mais partições, em que o pelo menos um documento mesclado para cada entidade das uma ou mais partições é referido como entidades parciais da uma ou mais partições; conectar as entidades parciais da uma ou mais partições que compartilham o mesmo documento para gerar uma estrutura de nó e borda para cada uma das entidades parciais de uma ou mais partições, em que cada entidade parcial possui vários documentos associados e cada documento é representado por um nó na estrutura de nó e borda, em que todos os nós pertencentes a duas entidades parciais que compartilham o mesmo documento estão conectados e considerados pertencentes à mesma entidade; e mesclar todos os documentos conectados que representam nós conectados das estruturas de nó e borda das entidades parciais, pertencentes à mesma entidade, de uma ou mais partições para formar um documento de entidade resolvida para cada entidade.

2. MÉTODO, de acordo com a reivindicação 1, caracterizado por compreender adicionalmente atualizar uma coleção de documento de entidade resolvida mediante o recebimento de um novo conjunto de documentos, em que a análise de resolução de entidade é continuada sem ser reiniciada quando o novo conjunto de documentos é recebido e o novo conjunto de documentos é acomodado na análise de resolução de entidade com base na análise de resolução de entidade já realizada, em que a atualização é realizada com base na similaridade textual e referências entre documentos dentre o novo conjunto de documentos e os documentos de entidade resolvida.

3. MÉTODO, de acordo com a reivindicação 1, caracterizado por o pelo menos um par correspondente de documentos ser identificado com base na similaridade textual e nas referências entre documentos dentre a pluralidade de documentos.

4. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo documento mesclado para cada entidade ser criado com o uso de um conjunto de procedimento de R-Swoosh.

5. SISTEMA DE RESOLUÇÃO DE ENTIDADE (102) PARA A RESOLUÇÃO DE ENTIDADE DE UMA PLURALIDADE DE DOCUMENTOS, caracterizado pelo sistema de resolução de entidade (102) compreender: um processador (110); um módulo de bloqueio (120) acoplado ao processador (110) para obter a pluralidade de documentos que correspondem a uma pluralidade de entidades de pelo menos uma fonte de dados; e bloquear a pluralidade de documentos em uma ou mais partições com base na similaridade textual e nas referências entre documentos dentre a pluralidade de documentos, em que as referências entre documentos são indicativas de relações na pluralidade de documentos, em que as referências entre documentos são identificadas através de atributos referenciais correspondentes, em que os atributos referenciais são selecionados a partir de um de um atributo referencial rígido e um atributo referencial único de um referido documento, em que o referencial rígido é um atributo para o qual duas entradas são consideradas correspondentes apenas se as duas entradas forem textualmente idênticas e o atributo referencial único é um atributo que possui uma entrada única para cada entidade na pluralidade de documentos, em que os atributos referenciais são um de um atributo referencial implícito e um atributo referencial explícito, em que o atributo referencial implícito compreende uma parte do seu valor igual a um atributo referencial rígido e o atributo referencial único do documento referido, em que o atributo referencial explícito é um valor exato de um do atributo referencial rígido e o atributo referencial único do documento referido e em que a técnica Hashing Sensível à Localidade (LSH) em combinação com uma técnica de passagem de documento é usada para bloquear a pluralidade de documentos em uma ou mais partições; e um módulo de mescla (122) acoplado ao processador (110) para executar uma comparação em pares da pluralidade de documentos em cada partição para identificar um conjunto de documentos relacionados a uma entidade usando uma técnica de mescla de correspondência iterativa (IMM) com base em critérios predefinidos, em que o conjunto de procedimento de mescla de correspondência interativa identifica, a partir da pluralidade de documentos, pelo menos um par correspondente de documentos e mescla o pelo menos um par correspondente de documentos para criar pelo menos um documento mesclado para cada entidade nas uma ou mais partições, em que o pelo menos um documento mesclado para cada entidade das uma ou mais partições é referido como entidades parciais da uma ou mais partições; conectar as entidades parciais da uma ou mais partições que compartilham o mesmo documento para gerar uma estrutura de nó e borda para cada uma das entidades parciais de uma ou mais partições, em que cada entidade parcial possui vários documentos associados e cada documento é representado por um nó na estrutura de nó e borda, em que todos os nós pertencentes a duas entidades parciais que compartilham o mesmo documento estão conectados e considerados pertencentes à mesma entidade; e mesclar todos os documentos conectados que representam nós conectados das estruturas de nó e borda das entidades parciais, pertencentes à mesma entidade, de uma ou mais partições para formar um documento de entidade resolvida para cada entidade.

6. SISTEMA DE RESOLUÇÃO DE ENTIDADE (102), de acordo com a reivindicação 5, caracterizado por compreender adicionalmente um módulo de atualização (124) acoplado ao processador (110) para atualizar uma coleção de documentos de entidade resolvida mediante o recebimento de um novo conjunto de documentos, em que a resolução de entidades é continuada sem ser reiniciada quando o novo conjunto de documentos é recebido e o novo conjunto de documentos é acomodado na resolução de entidades com base na resolução de entidades já realizada, em que a atualização é realizada com base na similaridade textual e referências entre documentos dentre o novo conjunto de documentos e os documentos de entidade resolvida.

7. SISTEMA DE RESOLUÇÃO DE ENTIDADE (102), de acordo com a reivindicação 5, caracterizado por o pelo menos um par correspondente de documentos ser identificado com base na similaridade textual e nas referências entre documentos dentre a pluralidade de documentos.

8. SISTEMA DE RESOLUÇÃO DE ENTIDADE (102), de acordo com a reivindicação 5, caracterizado pelo módulo de mescla (122) criar o documento mesclado para cada entidade com o uso de um conjunto de procedimentos de R-Swoosh.