BR102014027639A2 - método para resolver as entidades de uma pluralidade de documentos; e sistema de resolução de entidade para a resolução de entidade de uma pluralidade de documentos - Google Patents

método para resolver as entidades de uma pluralidade de documentos; e sistema de resolução de entidade para a resolução de entidade de uma pluralidade de documentos Download PDF

Info

Publication number
BR102014027639A2
BR102014027639A2 BR102014027639A BR102014027639A BR102014027639A2 BR 102014027639 A2 BR102014027639 A2 BR 102014027639A2 BR 102014027639 A BR102014027639 A BR 102014027639A BR 102014027639 A BR102014027639 A BR 102014027639A BR 102014027639 A2 BR102014027639 A2 BR 102014027639A2
Authority
BR
Brazil
Prior art keywords
documents
entity
textual
document
partition
Prior art date
Application number
BR102014027639A
Other languages
English (en)
Other versions
BR102014027639B1 (pt
BR102014027639A8 (pt
Inventor
Gautam Shroff
Pankaj Malhotra
Puneet Agarwal
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of BR102014027639A2 publication Critical patent/BR102014027639A2/pt
Publication of BR102014027639A8 publication Critical patent/BR102014027639A8/pt
Publication of BR102014027639B1 publication Critical patent/BR102014027639B1/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

resumo método para resolver as entidades de uma pluralidade de documentos; e sistema de resolução de entidade para a resolução de entidade de uma pluralidade de documentos trata-se de urna resolução de entidade e, particularmente, ao fornecimento de urna resolução de entidade a partir de documentos. o método compreende obter a pluralidade de documentos a partir de pelo menos urna fonte de dados. a pluralidade de documentos é bloqueada em pelo menos urna partição corn base na similaridade textual e nas referências entre documentos dentre a pluralidade de documentos. adernais, no interior de cada partição, urn documento mesclado para cada entidade pode ser criado corn base em um conjunto de procedimento de mescla de correspondência interativa. o conjunto de procedimento de mescla de correspondência interativa identifica, a partir da pluralidade de documentos, pelo menos urn par correspondente de documentos e mescla o pelo menos urn par correspondente de documentos para criar o documento mesclado para cada entidade. os documentos mesclados podem ser mesclados para gerar urn documento de entidade resolvida para cada entidade com base em um conj unto de procedimento de aglomeração de gráficos.

Description

MÉTODO PARA RESOLVER AS ENTIDADES DE UMA PLURALIDADE DE DOCUMENTOS, E SISTEMA DE RESOLUÇÃO DE ENTIDADE PARA A RESOLUÇÃO DE ENTIDADE DE UMA PLURALIDADE DE DOCUMENTOS
CAMPO DA TÉCNICA
[001] A presente matéria refere-se, em geral, â resolução de entidade e, particularmente, porém não exciusivamente, â resolução de entidade a partir de uma pluralidade de documentos, ANTECEDENTES
[ 0 C 2 ] Em geral, quando dados de diferentes fontes são analisados, frequentemente múltiplos registros pertencem à mesma entidade de mundo real, tal como o mesmo cliente, c mesmo produto a a mesma organização. A fim de encontrar registres diferentes que pertencem à mesma an ti dade, u m c o njunto de p rocedíme n t os c onhecido como Resolução de Entidade (ER) é amplamente utilizado. Em várias disciplinas, a ER também é referida como relacionamento de registro, denàuplicação, resolução da correferência, reconciliação de referência, consolidação de objeto, incerteza de identidade e proteção de banco de dados. A ER tem um escopo amplo de aplicação, por exemple, em dados do governo e de saúde pública, busca na web, shopping e aplicação da lei. Na prática, a dinâmica pertencente à SR poda continuar mudando, por exemplo, conjunto de dados correspondentes pede continuar mudando em um período de temo. Portanto, a fim de acomodar tais mudanças associadas aos dados, a ER tem que. ser realizada regularmente para atualizar um conjunto de entidades resolvidas de resultado de ER.
BREVE DESCRIÇÃO DOS DESENHOS
[003] A descrição detalhada é descrita com referência às figuras era anexa. Mas figuras, ols) dígito{a) naia à esquerda de um número de referência identifica a figura em que o número de referência primei ro aparece. Os mesmos números são utilizadas em todos cs desenhos para faser referencia a recursos e componentes similares.
[304] A Figura i ilustra um ambiente de rede que implanta um sistema de resolução de entidade, de acordo com uma modalidade da presente matéria.
[ 0 C 5 ] A Figura lia.’ ilustra bloquear de uma pluralidade de documentos com base na similaridade textual e nas referências entre documentos, e regras de amostra para determinar documentos correspondentes, de acordo com, uma modalidade da presente matéria.
[006] A Figura l(b] ilustra um resultado de resolução de entidade a partir de uma pluralidade de documentos, de acordo com uma modalidade da presente matéria.
[007] A Figura 2 ilustra um método para resolução de entidade a partir de unia pluralidade de documentos, de acordo com uma modalidade da presente matéria, DESCRIÇÃO DETALHADA
[008] Sistema(s) e método(s) para resolução de entidade a partir de uma pluralidade de documentos são descritos. O(s) sistema;s: e o(s) método(s) podem ser implantados em uma variedade de dispositivos de computação, tais como computadores do tipo Laptop, computadores do tipo desktop, estações de trabalho, computadores do tipo tablet -PC, computadores do tipo notebook, computadores portáteis, computador do tipo tablet, aplicações da internet e similar sistemas. No entanto, um indivíduo versado na técnica compreenderá que as modalidades da presente matéria não são li m.: Inm - alq le si ' =r· . "outaeior ai particular arquitetura ou dispositivo de aplicativo, visto que as mesmas podem ser adaptadas a novos sistemas e clata formas compu tacíonais conforta cs mesmos se tornem disponíveis . f 'd·-' Mas úl t í mas decaias , - I s :: 1 - s ;o -; t tnnniatc lf-; c -t: mu como um desafio crescente pata 3 idús aí [ue lidatn : iominíc . g mcisirií t e mi m Frequentemente, múltiplos re :;i;doos disponíveis em vár mm; • - r de dados podem pertencem às mesmas entidades de mundo real» Uma entidade de mundo real s i no 1 c ... r ou- oo 1imi o . . · u j , rgan :ac Para raeciter tais situações, a análise de SR é realizada:. A -» MA .. " - - ,··· : · ;p,u ís - ;-· » M·. ud,or aqueles registros r · - - entidade : tma vez id í es aq lei - - . - , t ex ura 1 c - s egi t podem aer referidos cie modo índercamilâvel como documentos textuais. Portanto, na análise de SR, uma pluralidade de documentos de texto, obtidos a partir das várias £o-ntes; de dados pode ser cor respond. i da, em pares, para determinar a similaridade dentre a pluralidade de documentos de texto. Com base na detr- . : r, um conjunto de documentos de texto .. . M· -11 .. - ! ut idade ; mu - _ . Identifxeade - t' ί ms : -· ; :· . ; j texto identificado pode, então, sei nn . im i x r .ur. documenl seladc ai a ent í Conforme seria cotpreer.di dc» c documento mesclado de uma croniade p · incl r t ic as d ítall , 3 . evel - ir · id dentre o corpuxito de documentos de texto identificado, 1 d ; t · . jet a · :mmn P -1 ; . io incluir recuperar dados de um banco de dados de registros. Por propósito de discussão, para fornecer mais clareza sobre a análise de unia entidade pode ser ncnsíàaraia um cidadão de um caís. Em geral, cada cidadão possuí uma ou mala provas de identidade, cais como um passaporte, um título de eleitor, uma carteira de motorista, um cartão de crédito, um Número de ui n lerm; nei t P na t Accc mt d : t - FMI) im nür e c • telefone <- ι rd tr da conta bane ... Em ura xiempl . . : p * . ΐ · . . i fora; - tme t e-xtuai C isxdei . iue ia Ia : i p 3 ui una 1 édí a if 5a E 1 · n í 1 . idadã te >elo mei - ex ai í orresptndenc.es ai ; dos s esi levando em consideração agora que a população do país, por . x ;n; d s nr η ·η ; : liuei le dcctu ent 3 t *r u is íUitmai-i; - Ld âc pode exist iproxí darnent ÍN • · etrt < : · 1 . r \ 1 i z . utuál í r Admictia] tente, ar dr dos documentos textuais serem , ... - . . Ξ p ti «ma darnent t d · cc mj arações · dt 1 . set feitas ; 1 resolvei . dei 1 t :u- pluralidade do docutettos arre is. Além disso, em um exemt 1c a pli r ' : mie 1« 1 n ei í o t ctuais ; • a · , _ .·· · · . . portant a comparações pode aumentar consequentemente. Em outro e:a . . duas organizações de mescla podem desejar combinar seus -.nr · · u m, ; -i < - ç. · ac duas organizações podem ter uma grande base de clientes, s cada cliente pode ser adicionalmente representado por múltiplos. Conforme pode ser deduzido a partir dos exemplos m:-; m,..mtd acima, grandt o ttunn.i cr li i .m çu:di;aíii ser processados para resoõmt as entidudsu envolvidas, o que puir ~er uma to..ríd tomplen- r r* yA Τ' A :; :.:õ;dõddçõ rlitl: id i v 1 p p dc id-m gg dd ib : m m it: i úúgúlú d d; :ΐ:1ζ:·1ν iiiitid õçlg UU ú u/-: :-,uCÇ·: ,Cu 3O:: 3-,:,: ,/:3.,30.::,3, 3333,333,:3.::,:,/:-,:.-.:-v,./:.·:·: -3-3::3:33.3:· LCl.ll A t; í r íe toi ai a análise 1 E Γ ascalávei, os conjuntos de pr o rs :lí o sos r; ie rlor^oo ceo : geralmente utilizados·. Os conjuntos de procedimentos de ί - ; ; em r 3íi: os registrc t v . . :os i em alguns parâmetros predefinidos, Por exetvpio, os documentos :e>; ai áer ser dividi - diferences bl:: u:;; - i: similaridade textual ir: · - - * r - r : t r-t ,< t. . ^ cada bloco pode conter um número relativamente pequeno d : documentos textuais potencialmente correspondentes» e os . rt itcs t «tua; - r bloco poden ;ntà ,o - par ac mtan o i * : > < , , Je a; b : issociadof ϊ g ’ í i - : .atuais é sempre um desafio. Por exemplo, um indivíduo pode ter seu ncue coto John Smith em sua carteira de motorista. ã< . cot: lud er - j sosaport·: ~eu : no g · · ··. ·: :n .Portanto tesmc pe 3 a carteira 3. * .! ríst crtssnf t e · :u ir·; ;smc . d ·! I o pcr^t po : ít a de ser textual mente dif e ter tos, os doranemos textuais correspondentes podem acenar em dícarentes blocos. Adi c í ona Irne n t; e, visto que os documentos textuais são comparados em um bloco, os dois documentos textuais podem nunca ser comparados. Portanto, a precisão do conjunto de ; procedimentos de bloqueio ê comprometida, que, :por sua vez, afet ; precisão da análi ie ER ' : 1 d r i i : t , ; st ; - I C. n- ’ associadas à análise 'de ER .podem mudar erc um período, de tempo, a análise is th se torna um processo recorrente. Por uxerpb con tenhi: . a ios exemp s mencionad . i. ' - 3. · ___' c. r ‘ v h: : - t; expansão. Portanto, OS resultados de análise de ER podem ter a - ererr st a . para accncds a ba le li€ cites < : expansão consequent enien: e . Xo entanto, em geral, em cais > , a nálise . - S ealizada c . c. r t ir a £ l:í ,οτη, :j>. - conjunto de dados, isto- é, n ; :pus:,:'it; existentes bem :: mm novos registros podem ser processados novam.cnte s rso tive a entidade e o, s-lvid s. Ixecuta; análise de SR novamenfce, para sai ca-d o m m: ora u *m conjunto de dados, é um processo têmpora Imente extensivo. 1.1 ms; I ira iesperdící le recurso; · bér , 'x - - - f ·; t.a itíversamente í a r - i econômica da análise1 de ER. Como ê evidente, os:conjuntos; de : : autos de ER convenciona.it : ::i uma abordagem fragmentada e - sem urna proposição temporalmente mso, siv eficient mpreciss ϊχρ iva pa nálise de ER., : ; 1 1 - um i a - · rm: nr - - - sistema de resolução de entidade, doravante referido corno um η ema pé i soii çâo :miiuad. - poc: i : pluralidade de documentos é rev . . Sm uma implantação, o sistema pode obter a pluralidade de documentos que crr . c κ i uma pl ι rali ide ie entidade a parti: ie je3 o nu nos uma fonte de dados. A pluralidade de documentos pode ser bloqueada dentro pelo certos urna partição, com base na ilaridad textual - ias refe i - tre k um dentre a pluralidade de documentos. ftdícionalnente, em cada partiç , 1 ; junto de procedimen: 1 correspondência interativa pode ser adotado para resolver a plural i ó ade de doo .itooo os doutro de entidades e, consequentemente, crinur -.oo documento mesclado para caca entidade Orna re ru i a; í : ie ie 3t......o om >i d ' η _ _ η o o -- uu part çã u rm coi juc procedimento de aglomeração de gráficos pode ser utilizado para consolidar os documentos mesclados, a partir de diferentes partições, cue pertencem a cada entidade. Como resultado, um documento de entidade resolvida para cada entidade pode ser gerado.
[014] Sm uma implantação, a pluralidade de documentos pode ser referida de modo intercambiâvel como registros. Conforme é compreendido de modo geral, registros podem incluir objetos tangíveis, tais como documentos em papel como certidões de nascimento, carteiras de motorista, raios-X médicos, bem como informações digitais, tais como documentos de escritório eletrônicos, dados em. bancos de dados de aplicativos, conteúdo de site da web e correio eletrônico (e-mail). Adicionalmente, a pelo menos uma fonte de dados pode incluir, porém sem limitação, um banco de dados externo e/ou um banco de dados interno. Uma vez que a pluralidade de documentos textuais é obtida, um conjunto de procedimentos de cruzamento de gráfico pode ser empregado para bloquear a pluralidade de documentos textuais com base em referências entre documentos dentre a pluralidade de documentos. As referências entre documentos são indicativas de relações na pluralidade de documentos. Por exemplo, quando for tirar um passaporte, um indivíduo pode fornecer c número de sua carteira de motorista como uma prova de identidade. Portanto, o passaporte do indivíduo pode se referir ao número de sua carteira de motorista e, consequentemente, os deis documentos textuais, que se referem a mesma entidade, se tornam relacionados.
[Cl 5] Junto com o bloqueio da pluralidade de documentos textuais com base no conjunto de procedimentos de • : ν. 1- . j í p :u ra i . - . , d o surrem m- - _ i i: pode ser, também, bloqueada ib. : j· e ourro conjunto de n ' C n- . g is loquei ll cid * · d s : 1 r a -u : £ n Localidade {Loca 1 ·;. ty Senaitive Haahing - LSH) , Sm urna it t 1 tr.t çãc · n h oe lime ítos de LSI ’ le tilizai í · : ;3es de lashing j_ gr ip i > bloquear ι ; ralidade de . - n nu - >:·*,- . t ' b · m . : . ,< r t b b t * r - r pluralidade de documentos textuais, A ideologia por trás da 1 a inação da · irai lar ídadí xtual - <- * - · - , 1 ur ; documentos textuais com conteúdo similar pertençam à mesma i t ;dut , . : Per xu ;,i m ‘ r , i r; r i : -u t ut ocos, ·. endereço e um número de telefone, forem os mesmos • r, d; i c :1 r ji - t xt is x t . r \ . ; ssibi 1 idade ie :jnt ii Jocur, * t - o · i , , · - loruii. indivíduo. De modo similar, se o nome for o mesmo em dois documentos textuais enquanto que c 'endereço e o numero' de telefone diferem, a possifaílidade des dois documentos trxiua ί s : « i · a i - meou - rela í ar ante et or ibo i :m o- d* _ impa -m- Lesnece ã entre rí n .. a i . d.' , im no.: > i c as referências enti-a documentos e a sua lar idade textual poders sei ri li 3 ? i a clcçiear ; 1 d ir, de rr nt _ textua.i: c ir r u. t · ^ t i m , ou d it o uicios textuais que são determinados serem textualmente Lar< - âcjuel ; Aj "1 >i m - Lo - : referências entre documentos . podem ser agrupados na mesma paro, i ção. í, - ....o j .mm . · pl u n * ... λ l: documentos dentro de partições, uma comparação em par ao tu documentos textuais em cada partição é realizada para , χ . f ícé * · 11o c ;un textuí ι s ir i ' tid s. Eí1 itT implantaç , c ração dentre . · : - ' · s . Í : T ; , o . - ~ 1 r o r r r procedimento de mescla de correspondência interativa í1MM). De acordo com o conjunto de procedimento de mescla de correspondência interativa, dois documentos textuais podem ser considerados serem, correspondentes com ba.o· - r r t s e r i r s·definidos ? xerrit .i igi a % ode mm £ tida eir ju ; iocurnentos · tuaís sâ dito cor espondentes i ccument f - tiverem en. . a 13 a n nome, um endereço, uma ID de e~ma.il e uma seção ; de número· de : contato. Portanto, com base nos critérios predefíoidcs, et cada partição, um. ; conjunto 'de documentos textuais ; que . •er: t-neo i r.t i lado j - . Identificada. E u, j ; t .ΟΠ c:açã-u r. à iot r.t i r m. :r c 1 mesclado para criar um documento mesclado para cada entidade, iocument ; 1 -: 4 . 11 da t poc Lr:fo çces conforrm selado »d u . .· r · t mtc documentos textuais que pertencem à entidade. Fcrtarot, eo cad 1 · ei 4 u textual. sà . η 1 ó s : t a o.ttcfud :p . iuu dadas resc ti da são referida tt t idt dc; t arci a3 S , Γ lo*n Conforme mencionado aoitr.a, a combinação 1 con itc pre s - · n - ru; im r.cc s gráfic t o ;r; t c m.u.dxrru, :l~ .d"·; m.sulta em partições de documentos textuais similares que são resolvidos dentro de entidades parciais . ' i-.do-se um documento mesclado itititb d. uroc , cr udt 1 o,-pureza probabiií stica br tt.uto de procedimentos de LSH, uri r sf . 1> 31 : 0*1 ;i - tvt -ostii 3 · , s d nentos tora . sertencei -i ρ - blocgt · ada 5entre s . -o- : rt içàc r ' exemple · · . r :r > ", ;r.t ; '--li"'- " · * i- · ele ;ê .ix; o o documentos textuais ::c- case em um atributo de nome. Em outra instância, e conjunto de procedimentos de dSH pode bloquear a plural i 1 .> · to documentos textu-s . · .- :-t . -·· , . ,, . , , o o - a n :le -po . Pco r. -,r t r -o; k ; s locumentc te st x - is poderes í tal - t a u:: ; í c _ . : 3 :m «tua is pode · i:; o ar crentes parti es Adicionalmen para a esrr.a na - ãa l-r, ' iocument - lad r 1· ar í ade ar ' ' na pr,o i>,j Lu -»u ] j 1 >t- ; esul tad ic urjuncc de :; e I ir = r - .u · : ;uni. uu ί ia:u r:::nu que pertencem â mesma entidade podem ser obtidas a paroir de múltiplas partições. í i. : d 1" ama implantação, entídads o: p, 1,·, diferentes partições podem ser coccru rs pelo fato <;.·:» qrt as : entidades parciais. podem compartilhar . o mesmo documento textual. Por propósitos de discusir, cada documento textual j ί = ' isualirade : t it - t i grá f - o · ti men ;textuais de acordo : com o conjunto ' de procedimento : de ; aglí π t" a pã 3 jr f : s, Cor.for · meric: ona th nteriot m e .. . ade parcial pode ter inúmeros documentos textua . o u;5sr.t:ios, e cada documento textual pode ser representado l · ο i 1 : o 1 - o >: b' - t ·, para :ada e to, i - n puos fo- :f o o ti "o ^ :« ido ; nó central , t ma i . . i itre c i ntral :ada π i 3s re itant ss da o u. 3ac - parcia] é c..... Es o s sir liares df - ia } de seu .-.-1,. p.rro c : .ti parcial ’ r o · textua tiparui.hado r: ^ 1 ^oriulo; parciais, c documento textual poct o irecer na estrutura de nó e borda de cada uma dentre do par de entidades parciais. :'· * ’ .* m, _ . _ : nós que pertencem às duas ;d.-> Imt ar ri 3 pode er cor.ec los pt : e onsiderados serei ttencentes I sesia erxídade. I ca c - όε ceados reto ê, os documentos textuais conectados peders ser ;onsol±< par 1 . : dst. ento i ** : n c i dam 1 ·.- ir lonf o i será :ic b 1 .i t ' _ r t> tidad 301 v ida ·' f ί : ; ir fc i m es ' 1« : ei ;nc = ntxo 2 :onforme r< re id • : *, j.d sralii o im; · t ç :. . n .
[019] Em uma implantação, : um novo conjunto de documentos textuais poete ser adicionado à fonte de dados for r . I ‘ * arre í a’ - e KE ps o continuada sem ser reiniciada e o novo conitrttc de documentos ; ext » . r env-d r ... * l - 1 i .. 2a iõ ' into d loc ume o textual í o - ser processado com uso do conjunto de procedimentos de cruzamento de grãf 1 m: , .d- mujunto de procedimentos de LSK, í 1 t.tir. r : í ti - r. _ · d*!M t quiiiit m dín 1 · 3 leme ração d ·. 1 ’ . lonforme nenc ionad t: ser.te matéria, nvés : 1 .... SE. do zero, o novo ' -r ponto de documentos textuais pode ser i. . - r is : pão I -um 1 o -> u ; á j sc ridas e .· .. àccument ... : andbj tes de em. ;; t : resolví ia , jeonomizando, i 1 * temp tiro:. ;:a a lis Er ma L plarrt açãc ídiante o e< 1 _mm m .rum - m, ::m m.tntt * · η 1 ru : tex . . * c p< T i - . saco £ nt · if p ev nr rm. nmmd * dn , Ct r . o implantação, um documente textual : too ou o novo conjunto de : cumentos textuais pode formai: um ionf τ será concluído, * m 1 Lm rã cmj.iom de procedimentos de cruzamento de gráfico en .combinação cora conjunto de : procedimentos de ; LSH, para : t Io: ma i : ic u :,s; arar - melh pi cisa ce l ' os · - entoí textua . Adie lmentt , . : procediment 3 · ; 3ficas od ass sei ' »τη it ;c ;*âo precisa entidades. Além disso., um novo conjunto de documentas 0 .... . ; - , , - - · , í 1? - i - irtàc ter que reiniciar o processo de- EH do zero. Isso: economizaria -recursos e rompe a retem utilizados para a reanálíse, Além s . ( as: :i ade r peraçac . . sei reduzí d g nquenc emente Portanto, presente atêri íorriec abordagem compreensiva e exauí- · " · ecoriomizadora de tempo, precisa e barata. 1 ] s utras /antagen : pres ; matéria serão descritas em jfnais detalhes em conjunta cora as Juintes mim tol m ~ - _ . rim n método Cs} descritos para resolução de entidade e ono: do :urr.entos possa - mj n t mm « núm ; 3.1 st ambientes e/ou configurações comput acionais :3 i. ri«re nLes , to 1 ial Íadeí sãc sser itas r ontex:; do £ t ter. i st ena ' s exen ; líf i cat ίο ! e . p n ilustra m nvl ant ; de k . jm sistema de resolução de entí também referido corr.c sistema 102, de acordo com uma toda iade da presente matéria. I ambient _ i 1 o mec:ad · m rede - tóicionalmente, sistema 102 ê conectado a um banco de dados 106. lalmente > fcí ent 3e ede 30 incl r mis dispositivos de usuário 108-1, 138-2 ...108-N, coletivamente referidos como dispositivos de usuário 133 e individualmente referidos como, dispositivo de usuário 108, conectado à rede 104 .
[023] O sistema 102 pode ser implantado como qualquer conjunto de dispositivos de computação conectado à rede 104. Por exemple, o sistema 102 pode ser implantado como estações de trabalho, computadores individuais, computadores do tipo desktop, sistemas com múltiplos processadores, computadores de laptop, computadores de rede, minicomput adores, servidores e similares. Além disso, o sistema 102 pede incluir múltiplos servidores para realizar tarefas espelhadas para os usuários.
[ 024 ] Adiciona Imente, o sistema 102 pode set conectado acs dispositivos de usuário 108 através da rede 104. Exemplos dos dispositivos de usuário 108 incluem, perém sem limitação, computadores individuais, computadores do tipo desktop, telefones inteligentes, PDAs e computadores do tipo laptop. Os enlaces de comunicação entre os dispositivos de usuário 108 e o sistema 102 são habilitados através de várias formas de conexões, por exemplo, por meio de conexões de modem de conexão discada, enlaces de cabo, linhas de assinatura digital (D3L), enlaces sem fio ou por satélite, ou qualquer outra forma adequada de comunicação.
[025] Ademais, a rede 104 pode ser uma rede sem fie, uma rede com fio ou uma combinação das mesmas. A rede 104 pode ser, também, uma rede individual ou uma coleção de muitas dessas redes individuais interconectadas uma com a outra e que funcionam como uma única rede grande, por exemplo, a internet ou uma intranet . A rede 104 pede ser implantada como uma dentre os diferentes tipos de redes, tais como intranet, rede de área local (LAN), rede de área ampla {W AN), a internet e assir. por diante. A rede 104 pode ou ser uma rede dedicada ou uma rede compartilhada, que representa uma associação dos diferentes tipos de redes que utilizam uma variedade de protocolos, por exemplo, Protocolo de Transferência de Hipertexto (HTTP), Protocolo de Controle de Transmissão/Protocolo de Internet (TCP/IP), etc., para se comunicarem entre si. Adicionalmente, a rede 104 pode incluir rede dispositivos, tais corto comut adores de rede, hubs, roteadores, adaptadores de barramento do host (HBAs5, para fornecer um enlace entre o sistema 102 e os dispositivos de usuário 108. Cs dispositivos de rede na rede 104 podem interagir com o sistema 102 e os dispositivos de usuário 108 através de enlaces de comunicação.
[026; Na dita modalidade, o sistema 102 inclui um ou mais processador(es > 110, interface (s) 112 e uma memória 114 acoplada ao processador 110. O processador 110 pode ser uma unidade de processamento única ou inúmeras unidades, em que todas podem incluir, também, múltiplas unidades de computação. O processador 120 pode ser implantado como um ou mais microprocessadores, microcomputadores, mi c roccnt roladores , processadores de sinal digital, unidades de processamento central, máquinas de estado, conjuntos de circuitos lógicos e/cu qualquer dispositivo que manipula sinais com base em instruções operacionais. Dentre outras capacidades, o processador 110 é configurado para buscar e executar instruções legíveis por computador e dadcs armazenados na memória 114. í C 2 7 ] As i r. t erf aces 112 podem i nc 1 u i r uma variedade de interfaces, de software e hardware por exemplo, interface para dispositivo(s) periférico(s) , tais como um teclado, um mouse, uma memória externa e urna impressora. Adiciona1mente, as interfaces 112 podem habilitar o sistema 102 a se comunicar com. outros dispositivos de computação, tais como servidores da web, e repositórios de dados externos, tal como o banco de dados 106, na ambiente de rede 100. As interfaces 112 podem facilitar múltiplas comunicações em uma variedade ampla de protocolos e redes, tal como uma rede 104, incluído redes com fio, por exemplo, LAN, cabo, etc., e redes sem fio, per exemplo, WLAN, celular, satélite, etc. As interfaces J12 podem incluir uma ou mais portas para conectar o sistema 102 a inúmeros dispositivos de computação.
[026] A memória 114 pude incluir qualquer meio legível por computador não transitório na técnica que inclui, por exemplo, memória volátil, tais como memória de acesso aleatório estática (SRAM) e memória de acesso aleatório dinâmica (DRAM) e/ou memória não volátil, tais como memória semente de leitura (ROM), ROM programável apagável, memórias flash, discos rígidos, discos ópticos e fitas magnéticas. O melo legível por computador não transitório, no entanto, excluí um sinal de propagação transitório.
[029] O sistema 102 também inclui, modulo (s) 116 e dados 116. 0(s) módulo(s) 116 incluem rotinas, programas, objetos, componentes, estruturas de dados, etc., que realizaím) tarefas particulares ou implantam tipos de dados abstratos particulares. Em uma implantação, o (s) móduloís) 116 incluem um módulo de bloqueio 120, um módulo da mescla 1Ξ 2, um módulo de atualização 124 e outro ís) módulo(s) 126. O(s) outroís) módulo(s) 126 podeím) incluir programas ou instruções codificadas que suplementam aplicativos e funções do sistema 102.
[030] For outro lado, os dados 118, entre outros, servem corno um repositório para armazenar dados processados, recebidos e gerados por um ou mais doísí módulo (s) 116. Os dados 118 incluem, per exerr.plo, dados de mescla 12 8, dados de atualização 130 e outros dados 132. Os outros dados 132 incluem dados gerados como ura resultado da execução do um ou mais módulos noís) módulo(s) 116.
[03 1] Fim uma implantação, o sistema 102 pode resolver entidades a partir de uma pluralidade de documentos, que podem ser referidos de modo ír.tercambiável como registros. Conforme é, em geral, compreendido, os registros podem incluir objetos tangíveis, tais como documentos em papel como certidões de nascimento, carteiras de motorista raios-X médicos, em corno informações digitais, tais como documentos de escritório eletrônicos, dados em bancos de dados de aplicativos, conteúdo de site da web e correio eletrônico (e-maii) . Para isso, em uma implantação, o módulo de bloqueie 120 pode obter a pluralidade de documentos a partir de pelo menos uma fonte de dados. Cada um dentre a pluralidade de documentos pode pertencer a uma entidade de mundo real, por exemplo, um indivíduo, um produto ou uma organização. Err. geral, a pluralidade de documentos pode existir na forma de documentos textuais e pode incluir pelo menos um atributo. Per exemplo, um passaporte pode ter atributos, tais corno nome, nome do pai, endereço, data de nascimento e número de contato. Gs atributos podem ser adicionalmente categorizados como atributos suaves, atributos rígidos e atributos únicos.
[032] Em um documento textual, um atributo suave pode ser compreendido ccmo urr. atributo para o qual duas entradas ou valeres podem ser considerados ser correspondentes mesmo se as duas entradas riãc forem textualmente idênticas. Per exemplo, diferentes variações do norte de um indivíduo podem ser consideradas ser correspondentes mesmo se as mesmas não forem textualmente idênticas, per exemplo, R Scott e Roger Scoct. Por outro lado, um atributo rígido pode ser compreendido como um atributo para o qual duas entradas podem consideradas ser correspondentes somente se as duas dois entradas forem textualmente idênticas, por exemplo, um número de telefone. Adicicnalmente, um atributo únicc poda ser compreendido como um atributo que tem uma entrada única para cada entidade, por exemplo, um número de passaporte. Cor.forme é compreendido de modo geral, cada indivíduo pode ter somente urr. número de passaporte e, portanto, duas entidades podem não compartilhar o mesmo número de passaporte.
[033] Adicionalmente, uma entidade pode ter múltiplos valores para um atributo suave e um atributo rígido, porém não para um atributo único. Por exemplo, um indivíduo pode ter múltiplas maneiras de escrever seu nome e múltiplos números de telefone. entanto, urr. indivíduo pode não ter múltiplos números de passaporte. Além disso, duas entidades podem ter o mesmo valor para um atributo suave e um atributo rígido, porém não pode ter c mesmo valor para um atributo único. Por exemplo, mais de urr. indivíduo pode compartilhar o mesmo nome c o mesmo número do telefone, porem não podem compartilhar o mesmo número de passaporte.
[034] Em uma implantação, um documento textual ter uma e£ tx docut text lande atríbu do dcci nt texc tív r > • ' : : ti :loc t sxtuí - I >1 1 . - - in pas sapo: te dc ur ,i e it i : ide atributo de ncaé "Carteira de motorista ID" pode fornecer rênci - 2 ira de r rista da entíí a de conte :;d alar :: - ir:e a d otorist q na otd: : :a od-oc i> >t orista Cais a ibuí. íoctmc-t.to tcxtuc ; · j foi aecei o - ferênci · itro ; · , sàc chamados atributos :- F r r . - ! ; : t: 1 r ~ : : - " i r ::i - * vr :11.-0, : u r d ri: ; e it i u lei os dentre a pl il 1 àe < mro: te o * [ , -1 lí a olant a; o o at íbutos ,· adicionalmente categorizados como - , - . - ‘ . .tos referenc ais rtocro . d” atributo referenciai explícito poda aei: c mpϊ ( enc 1 :omi atríbut si ; tal01 pode εο a" v h Lr j u odbuto rígido - at butc nico rr o · - : ’. - a : r of . o * 3 f -o · - ir. etcícs oiaíra de mc 1 uot I ’ valor igual a ’Ίόϋί' , então o documento de passaporte faz ume af erêm í tt:: a ? π :tei: ie muro rua documento com um número de registro "DL123". Por outro lado, nc - o- - ie , . íb it< ef erencial implícito part de : seu valor pode conter:um atributo rígido ou um atributo único : ie cuti o dc :ume r : textual. Po > xemp t se v loi campo de "Descrição" no documenta :lt pasasço t:e f .:c d:: Requerente I , entãc ocumento c passaporte fazendo uma ref erênci a, mal:cita à carteira de itotoioni documento.
[036} Considere um exemple em que o módulo de foi rafei ; p i :· fot; . ; -mment i t xtuaie i :í , t ; p e r t e n i entidades - . r * . . : _ locuraem textuais sã< ....................... k com s····.:?: d atalhes correspondentes na T-·-.. 1 i ' . , 1 fcmecid · pós i t de fornece i , - mel . larez compreensão da presente matéria e nãc mn-r-i- mr interpretado - como límítante. TABELA 1 T ^ I r.D 1 - i-, 11; -3- ·. - , : . , - t- ... . . . J , , , i, - . _ m.t - , . mm- r, ç-j l· -.,-,- i , πο:Λ HA· t.r ,-A ' ,iA j ..>A. :l rnr Ü : - - r;;;r, mie .i.r At , - : LP|1 - * ’} t 1 } ;.· .: - - th :::: lí ab : ________ _ __________ _ - _ - ~d__ ___________ ________________ . . ....... b , ....... a, " r i e .....- . : - ..... i - - Se., tn n· n r 1 [---- - --------------------------- — ------ — ί ——------------------------í ... ,T . b 1 ,< :.-: . ... ! U , - 77 -------------- _ ------ ------------------ .. — - ---------------- -------- - t .4.-0 ϊ - t 1 ~ -j - ·.· ..... . ... : 1D de j tfp.iíred _ _ r. · ; e . - - .*. j i ba:::·· tela ; ’ -::::.: rcim | ' p f :dg|fípl 1 vól 1111¾¾¾¾¾¾¾ a : :':r-/ I m c» i:m- «inifred isy.ee fS1 m-ri- | : _ ; -: i : r · I : ...... | ..._ ____ ., .„_ ...... _ __. ________ . , . ......I Ο'··"··'.:·;.:.· m e« V0T89 *Cm-BÍ:e:m ceg.co ^ 24-06- ^ ; F-u.,m x ji:f e- d, BAN91 J B Rui* c®9·co 8es < ..p* lí- RS1, ; ; a ;? --- —-----------..............— — -------------—__---------------j.— . . Jíarncsers céa.co . ,r t4-*t· : : - , I I i b I > Kúimic : . · : :: ' Ί · - m j · . i â : tm u [037] Conforme pode ser visto a partir da tabela 1, os document.08 textuais a. d,; pertencem à entidade iocumentos textuais - pertencei gnt-------------is e2, c rumentro teu - - - r ;s t. troem entidade t , :documento textual dn pertence â entidade e4. Qs documentas -textuais citados na tabela 1 são de ã tipos, xsto é, 1: · · : r - d de a: nr a Per anents PAI doer v.e it t título eleitoral lrCT;, documento de Carteira de Motorista !t , r rntm 3e Núrrt ' le cr ta Battcâri = BAN Adicionalmente, os atributos des document · . · . acirta, que são com .. Je: ou par- „ análise de EA» são ID ca t.cnt π ; i - , II it 3 - ria i 1 ’ ún erc àe e ;d * Data de P m o í rr.-i f :: , bá-n- η II ot luva e Detalhes de Documento, [03 8] Uma vez que o módulo de bloqueio 120 obtém a pluralidade de documentos tem. rl,· m t 1 oloquear a Luralídad de âocur i textuais com base em referências entre documentos emp reoamt ·· urc.jun.to de procedimentos de cruzamento de documento. O s mjunto de procedimentos de cm armto de documente é um :: m de procedimentos de cruzamento de gráfico, em que elementos que atuam como nós podem ser meados através de suas bordas de conexão para derivar ' smldm trlt: i meimmos, Adí ciona.lm.ent e, as referir d u it π c cum.t icos sac ínc : cas ie re. t n: e - m pi n.nim de documentos textuais. · s · -i mencionado anteriormente, referências entre ò >r muu- r m-im . i ]ru·' ;lr i - ; ~ loc ntos 1 ϊχϊ , ; ρ f · .dent if içadas é m a r it atributos referenciais correspondentes. ;
[019] Ag a, - f ,irr b obtei , mel compreensão da aplicação do conjunto de procc : o., cruzamento de documento para resobuiMo de eu:: jade, a pluralidade de documentos textuais pode ser visualizada coto xis - :v oponde - ae et 2 isr :u as uo" >. Socutrentcs poder sei ιε ieradas c oord s lí recícriada Por exeo pio dccur ente t sxt uai 3 pode se referí: . r <3cc\ ente t »xt d-, sepa explícita ou implicitamente» então uma borda pode ser direcionada de d:, isto é, um documento textual de fonte» a j i s 11 - , - do cume extras ef erido. Έ i : i * c c - 1 r - Cerên as e:___Ιο: ritos - d . 1 3 bloca···it 12 3 pode gerai ;n 3 cru a - t: : a :s Ia doer s to textual. Um conjunto de cruzamento de um documento textual · tinto de documentos textuais conectado ao documento textual» seja através de referências e> :íxi: rdedr ; : π.ρ 1 ; : = u jdt ín. uma ímplantaçao, o' conjunto de proc 3ir .o 3 :ruza ent 3 cuirerio pode sei âividid er duas etapas, a saber, um cruzamento a jusante (DST, e um cruzamento a montante (UST). Sm tal uma implantação, o módulo de loque it 12 | de jera im punte de t r.a ente para „,t documento textual combinando--se um coro .· : : .· . - ' t . jusante e ura conjunto de cruzamento a montante , O DST pode ser compreendido corno se movendo para baixo no gráfico, isto tmeçand ie r.c ãoeumen: : ext,, tl ‘ , - r rur r 11 ; xd: rr: lurpc da direção das bordas. Portanto, :tc: UST, c ' t i . -tloqueio 120 pode cruzar . it„ u.ít: u; textuais começando-se a pariu de .. it z r. z textual de fonte e movendo xa direção de um documento textual referido correspondente. AdicioruIr.rr-p ucílizandc-se o DST, ^ f r O - _ 1 ’ -I - i - í U lira ;· ub * v referenciais explicites, roto é, as referências explícitas r ' · cut ent os : plural d ade de dc uraei toa t nr . ais [041} -A fim de fornecer uma melhor clareia sobre o DST, o :exemplo citado na tabela 0 pode ser .siderado. Conforme pela tabela 1, considerando as re f erênc £ axp 1 í ci s · 5 3 nmento irual fornece uma referência explícita ac documento textual b.. b: mod sími r iccuraentc textual 1 r:b £ srneoe : - i.a explícita ao documento textual d,.. Portanto, um ccrrjurzo de cruzamento a jusante para os documentos textuais C....- ?od< - v ã< u nutra oi * explí . do ntos ext it «. 1c na - abei a l .
[04 rníuTt.nè nn cempl i curr · textual dei * · i 1 iraentf ε u · η 11 c ο ό i al i r . r ...t i : rei ; expli * ent UH documente textual r (, e o documento textual rt se refere i t i ent · Joeurre ttxn 1 · - - 1 mux ru.d present exemj im ijuntc le ent asur. i iocument * ixt ua - r ; é * r, , :· r ' . . , r, r c i . , r· - , respec t i vam rn.o. For outro lado, um conjunto de cruzamento a jusante para o© documentos textuais '· ; é f rste ,, nlrt • ij Adi c ionalmente, no p: : UST pode ser compreendido como cruzando a pluralidade de iocurnentc xcuaií 2nr - reçãc s ϊ ϊ direçê de borda a ps___ documente t xtusl re í e , . i de um d;: aumento textual de fonte corre spc zoe ot e . O módulo de itrpuo·: dl £ no; mfzi.mn os referências explicitas bem como as referências implícitas da pluralidade de documentos textuais utilicsncc se o UST. Referindo-se ao exemplo citado abei l,o d le bloqueie j e gera conj oo:te> de cruzamento a montante para o documento textual dho o : documento textual da e o documento textual d2 como {d6}, (du} : • -d : pec t ivamente ' - *: r I ado r r it ie Ό ’·= · · *-;. a τ * ' v ' para c resto aos documentos textuais é { , i oco ê milc i 144] Continuando : - ex 1c ncí ox » 3c ncerior t * iocument textual . as ref êncí ür r. ] í cita ao documento textual r. cr: r ::r e u a mnm f mr referências implícitas ao documento textual r, e ac documento ; ea 1 r*, Adicionalmente, o documento textual rp faz una; : .· e i· . ír ί ta ao documento textual r5. Nesse . v.v módulo de bloqueio 120 pode gerar um conjunto de' cruzamento a Tr.cn tant paio eumente textr similar, um conjunto de cruzamento a montante para' o lojíicrr: te xtual rr e o documento textual r* pode ser gerado como {r2} . Ad.i . . um conjunto de cr .o a tant para o docurne textuc - 1 u ; textual < - s - jei ido comc ·· r ' - t r; e :t ivamente ] 1 pp * -rs t : , puraenfco torre ‘ , que se segue à geração de um conjunto cie cruzamento a montante e um - ; .zamento a jusante, o môdulc · · . pode combinar o ca. : de cruzamento a monta. ::orr unto de cruzamento a jusante para gerar rr: rrrurr le cruzamento correspondente. Em uma ir : . ; :* ,·ιρ urtm ;k- crmiírr para um documento textual, ioravccte re feri do como um d:. · . : bloqueio 12 0 pode real irar única etapa do DST no im ma r-·* m -:cm d,. , - ' "t: um. .e r; . ntre m jusante tbc xdo assim. é adicionado a um conjunta de cruzamento correspondente, Subsequentemente, c módulo de bloqueio 12 1 • d r e a - i z ai o, luto aps - US Γ para os ; - - u »nt s lai-.t ií . 2 -1 b - _ r u, j untc b· cru r: prôpj >rur tc textual „r r i r 1 . "b ;bb · oi gm; _: adicionar adicionalmente documentos textuais re^upt: ecos, rum-o .. b-, .· ’·" ;u λ u * ΊΓ t: tc ui * .> nuns- ect< C módu 1 d fal : .e * 2b ; q: de o cr tu euecuuando a etapa de dí~-UST repetidamente nos documentos -extuaís que são adicionados ac conjunto de cruzamento após c a cl a e t a p a cl e 2 S T - (J 5 T , ' 1 4 s' Em certos casos, o módulo de bloqueio 120 pede exe cutand se c ET * - :b rcc:j cx ub · pen um grande número da documentos textuais quo podem nem ao menos pertencer à mesma erctcdacíe... Por exemplo, um Localizador-Padrão de' T: turnos .'Uní que Resource Locatioh URI - ãgína ín í c uma orgai açã pode aparece i bi, -11 1 í cit 3 rb textual jue pertencer a empregados da organização. Além cl: . i: _ -b camião ap sen romc : a2 r de um ct;ril nnbnmcicl cg; 1 1 s í t - 3oc nto textual ent ST pnes — s s - :k: cor to textual pode recuperar um núme;: t gsaude de documentos textuais. De fato, é muito improvável que a; · J«. s nemo : textuais recuperados dessa π ·η.·:η' perten :a à ms c-iu. 1 :btd< à jual k: iment text al ttt :k pe encer. f i - evita tai :t jatctK nó:: j i .c 11ou. e i ; -1 imite par^ número i tuentos u Kti i± recuperad ei i inít tu o h LdET j 1. c iment o textrua] - t.nt:m nílmer< - io t mei t >s : e x -1 a í s i e c up erade f c maior : xe limite o rac d - 1 o :1o bloquí - r s n adiciona s iocumertos t ctuais ; : recuperados ao conjunto cie cruzartenta , [04 7} Conforme será concluído, uma vez que o .ôdulc · · bloque pc Loquea luralxdadí · - c ntos cext cc se - rêncí *ntn? • · ,n eu - , * ‘ a koaner.1: toxtua pode : ' . í c c: cruzamento cor csundexe que inclui documentos tsxtua: a sg cotencíalmente pei: mesma ent.id-- . i: ::c;: e:c textual.
[049] Além disse, o· módulo de bloqueio 120 pode r:t lis ac snjur.t ie procedimentos ; Hashing S sr sível : Localidade (LSH) {Locality Sensítive Hashing) para bloquear, também, a pluralidade d& documter: toa textuais. C conjunto de ; procedimentos de LSH: pode utilizar funções de .hashing para . ί u , = 1: * * ' < aruaía dent i i part · ’ < on se € , π [u: · ! ;ext ua 1 dentre plura la I - > documentos κ11 a 1 s 3n implant módulo de clcurio 120 pede codificar com hashing a pluralidade de duccioectos textuais com XDs de part.içàc. Portanto, é provável que doou : · -d ti:: lud tu·: . ext uai obtenham pelo menos um mesmo valor de isshíng íst é mesma - de partição Pce ou . io nenos pi ivá e . · . - ~ - * -u . - textualmente similares sejam; codificados com na mesma partição.
[049] Adicional mente u: roeu le i: : 3 i; imentos extu s A i r r.kero grandí h ivr : em comum, os documentos textuais A e B podem ser; considerados para comparações adicionais corno ccmp · -· - dccurn c text tis , . - _ * : . c: .· o· r.L n . a implantação, o módulo de tolor. · : : iílee ng documentos textuais potencialmente correspc:l<:. r. t 4* com o mesmo valor e, portanto, pode bloquear os documentos textuais potencialnetite correspondentes codificados com has ig n - ~ a mesma partição Ac ícnaImente para cada documento textual, o módulo de bloqueio 120 pode : ‘ r' -Ί : ie · tzame 1:1 - r _ _ ç ’ 1 1 cument í xtua ι ia me smo t a cru:; a p. - o a ; cexcual pei ence a : : t_za.i esultados 1 bloq ei< rnr:; : u:.und< ·* rt;za nr ie ; nen: 100] ui mplantaça :u o . * , * t; ;o lompreend - o pa :n ulor . ... . - ; i< .••m o ;.u,p re e.ul; Is c-v·: una Ide de partição correspondente, e c V.· 1 o;· é um grupo de documentos rextuaur cr -- pds:, u : uní ί r ; coulr o un e-oviiog para essa "chave" junto rum. soo conjunto de ca;m cos. Portanto, uma vez que c ouviu; cs; eio 120 pode ; :ar pc hasi g ientre a plural i.d · r ! menti ex ai para suai * j as λ-; i r. 1 - u parti qão po 1»: v.* . .ic rui ar t 3 exti t - i; - . _ poder ter __. νονν ic 5 t * e;*r; ,1 a 1 ou ;or pa rt ilh 2 rrfv árurs rodudua meu irivíc:: v Ref< indo-se a< -:<enp 1 ;.va:i;e rs releia 1, o documento textual ds e o Ic:: r mu c u-ruud, :u r èm alta similaridade textual 2 ortant mõdul I r. loç se 1 le blocp, locumc ::r textual d; e o ciccrmento textual d- na mesma partição cod ificando-se com hashing o documento textual d,, e o documento textual d- com a mesma ID de partição, Além disso, o para o documento textual - * } , o módvl · bloq o d: vii· nltier iuou d"·, 1 ; 1 iocument extuu . .·,· particão, ] jΐ1 ] i eferêr i aos d irrcint.cs extuais citados no exemplo mencionado na tabela 1» a Figura 1 ía:· ilustra o bicouaíc dos documentos textuais d_ :h ;i . . . . :1 por meio do m 5 bl jue · :or i 3 ta sir laridadí : " . . · ' - ioc\ entos :onr lustrado lí gui 1 , bl c tutdarss : 3 et ratam loque o dos doei aer to; cextraís sc base er sonjunto procedimentos de crucarnenr.c de documento, isto é, referências entre documentos. De modo similar, blocos retangulares retratar eloque: i: , u erb t€ xt uai ε ac bas< ccnuntos de procedimentos de LSH, iate é, similaridade t xtual. Adiei cnalmente, i c a ::lhn rd uco compreensão da presente matéria, a Figura 1 u: deme ser Cer s ;onjunte om a Fie i. Sn ma mdmn ; ή :·. detalhes :, p e r * rm m - isÔdul ie l 1 r :d -7 arrnaoenadoe nos dados de mescla 12 S, [052] guindo-se loquei d plura 11 c a~ 1 e < - . _ - - e r t í es o ódulo ie sscla 122 ; ie realizai u a cor paj içãc - pai 1 o ; ent m textuais em cada partição para identificar um conjunto de documentos textuais relacionados a uma entidade. Em uns í mp 1a nta çãο, ο η 16du1c . m";o:scbi úentie os documentos textuais através de um n rp tnte de procedimento de * : . - correspond§r c. s irmouia (IMF) . Fm oura implantação, o módulo de 'Ά· :m ti 12 2 | íe en rega t ; i i~ r mu: < s i: d i u ml em R-suoooh para. realizar a comparação, [0 53] Err ima implantação : c 1c de ssls 121 pc · tns dei . dois J; ouro i exti.a - > *u "Correspondentes" se os dois documentos textuais puderem retornar um valor, por exemplo, "Verdadeiro" em alguma some função de correspondência. Em uma implantação, uma função de correspondência pode ser uma função Booleana definida nos dois documentos textuais que pede retornar "Verdadeiro", quando os dois documentos textuais são determinados pertencerem ã mesma entidade. Por outro lado, caso os dois documentos textuais pode retornar um valor "Falso", os dois documentos textuais são determinados não serem correspondentes. Adicionalmente, as funções de correspondência podem ser implantadas de múltiplas maneiras. Em uma implantação, uma função de correspondência pode ser baseada em pelo menos urna regra definida em valores de atributo dos dois documentos textuais que sào comparados. Por exemplo, uma função de correspondência pode ser definida de que cs deis documentos textuais podem retornar "Verdadeiro", se {nome for correspondente? E (endereço for correspondente) E (data de nascimento for correspondente) . Do contrário, os dois documentos textuais podem retornar "Falso".
[054] Em uma implantação, em uma partição, o módulo de mescla 122 pode dividir os documentos textuais em dois conjuntos, por exemplo, um conjunto X e um conjunto Y. 0 conjunto X pode conter todos os documentos textuais a partir de uma partição, e o conjunto Y pode conter og documentos textuais, cue j ã pode ter sido comparado entre si. Conforme será concluído, no inicio da execução do conjunto de procedimentos de IMM, o conjunto Y pode estar vazio. Sm tal implantação, c módulo de mescla 122 pode, dentro de cada partição, comparar dois documentos textuais para começar a execução do conjunto de procedimentos de IMM.
Simultaneamente, o conjunto Y pode incluir pelo menos um documento textual que é comparado com pelo menos um dos documentos textuais da partição, o módulo de mescla 122 pode iterar em cada um dos documentos textuais no conjunto A. Por exemplo, o módulo de mescla 122 pode remover um documento textual D do conjunto A e pode comparar, então, o documente textual D com cada documento textual disponível no conjunto B. No caso de o documento textual D não poder ter um documento textual correspondente no conjunto B, o módulo de mescla 122 pode adicionar o documento textual D ao conjunto B .
[055] Por outro lado, se o documento textual D puder ter um documento textual correspondente P no conjunto B, então o medulo de mescla 122 pode remover o documento textual P do conjunto B. Em continuação da remoção do documento textual P do conjunto B, o módulo de mescla 122 pode mesclar o documento textual D e o documento textual P para criar um documento textual mesclado DP. Adicionalmente, o módulo de mescla 122 pode adicionar o documento textual mesclado DP ao conjunto A. Conforme será concluído, apesar de o documento textual D poder não corresponder a qualquer outro documento textual no conjunto B, o documento textual mesclado DP pode corresponder a um documento textual no conjunto B. Portanto, no fim do processe de IMM, o conjunto A pode estar vazio e o conjunto B pode conter o resultado final do processo de IMM, isto é, os documentos mesclados que correspondem a uma pluralidade de entidades. Conforme será concluído, em cada partição, o módulo de mescla 122 pode criar um documento mesclado para cada entidade. 0 documento mesclado de uma entidade pode conter todas as informações conforme revelado era cada um dos documentos textuais, dentro da partição, que pertencem ã entidade. Em outras palavras, era cada bloco, o módulo de mescla 122 pode resolver os documentos textuais para entidades. As entidades resolvidas a partir dos documentos textuais em um bloco são referidas como entidades parc1ais.
[056] Adicionalmente, o módulo de mescla 122 pode não comparar um par de documentos textuais duas vezes. Em uma implantação, o módulo de mescla 122 pode manter dois conjuntos de documentos textuais. Um dos conjuntos pode pertencer a pares correspondentes de documentos textuais, e c outro conjunto pode pertencer a pares não correspondentes de documentos textuais. No caso de um par de documentos textuais, crue já podem ter a ide comparados em uma partição, ser encontrado novamente em outra partição, o módulo de mescla 122 pode não comparar o par de documentos textuais computando - se uma "Função de correspondência” novamente. De fato, em tais situações, se o par de documentos textuais existir no conjunto de pares correspondentes, então o módulo de mescla 122 pode assumir o valor de Função de correspondência como "Verdadeiro”. No entanto, se o par de documentos textuais existir no conjunto de pares não correspondentes, então o módulo de mescla 122 pode assumir o valor de ''Falso". No entanto, se o par de documentos textuais pode não existir em qualquer um dos dois conjuntos, o módulo de mescla 122 pode computar, então, a "Função de correspondência” para aquele par. Com base em um valor de retorno da Função de correspondência, o módulo de mescla 122 pode atualizar o conjunto de pares correspondentes ou o conjunto de não pares correspondentes consequentemente.
[057] Em ' uma ' implantação, os; ^ documentos . textuais que pertencem à mesma et:i 1 tcs podem coocorrer mu 'múltiplas partições.; Adicionalmente, como um resultado do : ;n;uot: e pr: :* · irra π oí 3< · xecutado pe] môdt d mescla 122, a mesma entidade pede ser obtida a partir de múltiplas partições:.: Portanto, 'as entidades obtidas a partir ri b c a. .ia partição pedem ser referidas como entiuaã-s partiu;.?. 7 im implantação * c c ~ de scl 122 pode c binar s a i o 3 parci a parti * *s tartíc se: c; a >k t ? e η t a. d a ά e s r e s o 1 vi ci a a f i n a í s , £058; II o caso de quaisquer duas entidades pmt: ms :ru; :: r: omets a diferentes partições compartilharem um documento textual :m;~ ,:n, c módulo de mescla 122 pode combinar as entidades parciais, isto ê, os documentos :mesclados que correspondem a cada uma das entidades parciais podem ser mesclados novamente para criar u-~ imut;:? :;e ida< esolvida p cad tidade. Etr. outras p m ia 122 pode. combinar todos ou : h í s q ei : e \ s t. Idades pa t .t t e nt i da i a .
[059' Com referência aos documentos textuais citados no exemplo mencionado na tabela 1, a Figura 1 (b) i i as t x - - . ' entos text s 3 , , d . . 1 qt sãc resolvidos em partições pelo módulo de mescla 122. Para uma. melhor compreensão e clareza da presente matéria, a Figura ! :, i > e r rida e n ?uj into t · - 1 . Agors cnl rme j c de . :;;m vir ti i : u - , - . . - Λ os t cr. is dd, d e d que tenc em à n sn. : entidade e3 não compartilham qualquer .referência entre :si . : s 2 nent , c í orre ;straao ta Figm 1 - i; i- t : · s o documen tex c ,· · - . · i . - - • t - en íir lar idade extual I ma do sirr.ilar, os documentos textuais d* e d:,: terminam na partição : b4, Portanto, conforme será concluído; - pode nló haver: uma ; t:í âc que t.e :i a todos « 3 iment · text aa 6 gu« ; rt sncem a e a π 3ma Na partição i : nóduio d r sela 12 err.p ega con nto de p iimentos ãe I I paz c z í ma en c i da ie t ·;. 3: = u-sslsr ! ;i . u ' : i çãc i t module de mescla 122 pode resolve outra entidade parcial e ' 1 = Mesclar (d a , d ί ο) '112: En i > implanta ;ão . aódulc ie ascla : 122 pode combinar .tais entidades parciais identificando-se componentes conectados (CC) em um gráfico não direcionado. - i luest Ses M jrapreensã ~ ri ral id 3e ie 3o . entoa : textuais pode ser' ; considerada nós -de um grãf ico ; uião . m ?·: rtante - . · cai documente textus há u •J i: - ’ - - : - I « . - *M ’ i Uí r- ' 1 u < i - - .. .. i ela 122 pode selecionar arbitrariamente um dos nós como u-:ó ce r ral Ent ão : t 5d ilc ie mescla 25 r h fornece bord entx : nó ent ral e cads 3 nós t ante s ia entidade parcial. Portanto, rodos os nós de uma entidade : ial sãc - nectadcs entx es at avés k ic cento al . 3 11 ; j : r : j ” - : to - s-rr ri c: ; ; r. c _ Is Figura l(a), uma partição b3 pode ter uma entidade parcial e ; = Mesc : 1 d ã : : mu de módt 1c de m os ;1 a 15 2 pode selecionar o ãocuit κ~ ’ i ο π o mr t. · _ rdas f orrt ss poden d , ^ r p:: - , no caso dl quaisquer duas entidades parciais terem algum nó, · t cume ite; ext ia a .: nr u antSc j ie e compreender que todos os nós nas duas eatuincti parciais sãc· conectados e, portanto, pertencem à mesma entidade. Conforme será concluído, urr componente conectado no gráfico corresponde a uma entidade. Portanto, o módulo de mescla 122 pode consolidar cs resultados das partições encontrando-se componentes conectados no crãíico por um conjunto de procedimento de aglomeração de gráficos. (062; Continuando com o exemplo citado na tabela 1, o módulo de mescla 122 pode adicionar o par d.-dy a uma lista de borda da partição b>, ao par dH-d-n, à lista de borda da partição b* . Em uma implantação, o medulo de mescla 122 pode identificar o d3-ds-d; ·, como um único componente conectado c. . Adícionalmente, o módulo de mescla 122 pode mesclar os documentos textuais d., d,, e d;o para obter uma entidade resolvida final e. - Mesclar (du, d3, d·;.) e, portanto, o documento de entidade resolvida correspondente.
[063] Para fornecer uma melhor clareza da presente matéria, uma tabela 2 é fornecida abaixo. A tabela 2 tabula, com referência à tabela 1, um resultado da análise mencionada anterfermente. AdicionaIrnente, a tabela 2 é fornecida para fornecer uma melhor compreensão da matéria e náo deve ser interpretada como 1 imitarte. TABELA 2 : : Documentos i . agrupados Ipor LSH ícorn ; *· . Locuirer.tc , seu cornur.ee , . TJ de , " s ........ Lista componente Entidades de ,, dntidades , * _ . .
Partiça; , resmtant . as s reso.ivi.da : cruzamento} parciais _ . , o , es na Borda3 ecr.ect.aaos s tinais n - de -artnição ; , Documente: ; (Cor.junte de : : cruzamento} , , , . , e*' : Mesclar . C- :{d., d,, e:;: bl ;ij' ' .. ’! * {dj, d , d., Ul d,, dh Mesclar r' · ' ã<:{: °4 d»} <3--d, c : {d., d.s, (dj, d·, ;..........................._.....].............di-d., . i . j·' d‘·___ ! . : d-vd, d j. ' C‘ e : id»: (}, , , . '*j': Mesclar . , , Mesclar ; b- ,·- :<,< p' 3 · ik. *. d ; d-'d "··· « *· > >i„ d , d— d: d·.) -— —i—* *·*·* — ——— —— - ^ j, *“·— ---- L π Λ ! «i' i Mesclar * 10 . : fc. d3:;5'- d‘s d,, d„ d,, { d;., d..; f * 1 · } e,' : d., ] £" ' ’ , [7 , - , , , L . V,. Mescla r * . b, ;d,, d- : { |o,, <3., ; \ ' ã , , ««: d., [064] Era uma implantação, o módulo de bloqueio 120 pode cbter um lote novo de documentos textuais. Uma vez que o lote novo de documentos textuais pode ser obtido, o módulo de atualização 124 pode bloquear o lote novo de documentos textuais em blocos através do conjunto de procedimentos áe cruzamento de documento conforme mencionado ar.t ari crmente. O módulo de atualização 124, para cada documento textual, pode gerar um conjunto de cruzamento correspondente. Na presente implantação, o conjunto de cruzamento pode incluir documentos textuais do lote nove de documentos textuais bem como o lote antigo de documentos textuais. Para a presente implantação, a pluralidade de documentos textuais obtidos inicialmente pelo módulo de bloqueio 120 pode ser referida como um lota antigo de documentos textuais.
[065] No caso de ura conjunto de cruzamento para um documento textual novo poder incluir um documento textual do lote antigo, o módulo de atualização 124 pode substituir c documento textual por uma. entidade resolvida já resolvida. Portanto, o conjunto de cruzamento de um documento textual novo pode conter documentos textuais bem como entidades. Adicionalmente, um documento textual no conjunto de cruzamento de o documento textual nove pode ter que ser do lote novo de documentes textuais, e as entidades são aquelas que foram previamente resolvidas.
[066] Conforme mencionado anteriormente, seguindo-se a geração de conjunto de cruzamentos para cada documento textual novo, o módulo de atualização 114 pode bloquear o lote novo dos documentos textuais por meio do conjunto de procedimentos de LSH. Em uma implantação, o módulo de atualização 124 pode codificar por hashing os documentos textuais novos com ids de partição, que podem ter side criadas anteriormente durante o bloqueio do lote antigo de documentos textuais.
[067] 0 módulo de atualização 124 pode recuperar as IDs dos documentos textuais antigos que foram codificadas cora hashing para tais ids de partição de um índice de LSH previamente criado. O índice de LSH pode ser compreendido como um banco de dados da pluralidade de documentos textuais ccm suas IDs correspondentes ou marcas hash, e as IDs de partição em que os mesmos são bloqueados. O módulo de atualização 124 pode recuperar' adie ionalmerste entidades resolvidas antigas para essas ids de documento. Portanto, pode haver dois tipos de partições existentes agora. Urr. dos dois tipos de partições pode incluir entidades antigas, que sàc obtidas através de cruzamento de documento ou através de LSH em um documento textual novo. 0 segundo tipo de partição pede incluir documentos textuais do Lote novo de documentos textuais.
[068] Uma vez que o lote novo de documentos textuais pode ser bloqueado nos dois tipos de partições, o modulo de atualização 124, em cada partição, pode empregar o conjunto de procedimentos de IMM nos documentos textuais '· -:? όβΠ β : : - l . - i · - - * t _ ; · ; - - nti iad part______1 :::r_ ada ;i i riei pods ncl li nr dentrf pelo menos um documento textual novo, pelo menos um documento uai novo e pelo menos uma ent .i ur 3,;: . r « e:e i .b-:i i - oõ ;t. 1 ícn;e. d aai 3a a er.t i ia 3e c arei al pede ir.cluir pelo menos um documente oaooi r.c vo ou uma entidade iga asra i í zada, mcdul e atualizaç 24 t; r identificar as liara s cie corda concerno- exr lí <: ado ; anteriormente. o; c i- íc," . r; t; n - , s;; , cn a:it i d ;;de 1 a r <:a puder incluir pele menos um documento textual novo e pelo ódulo de atualização 124 pode - - 1 . Ia e J p->: - 1 r t a. I ime ϊ í atual e a pelo menos uma entidade antiga. Conú - o · , c iu 1 <. u irplrrot çat . cria: - ioe nv ;x . « r.··" : - . • 5 >0 fe si k i rentral e < 3o cume ritos ext.ua res - - . sàc nect ido 3 mesmt ES implantação, o módulo de atualização 124 pode identific-- componentes conectados aos documentos textuais (nós), que são - c - f i · ides p iíais btidas j t c documentos textuais, para lote antigo. ?: rt c ct . • 30 ãe obtei dc : ao’ de: dc lumento; : ctu is, c module cie atualização 224 podo empregar o conjunto de procedimento : dí iglc-nv . * e gráfico.1 pc i todos 0= locumentc x 11 3 ιονοε e Ig 3 k I it - - rí ariti o s. Et ma ix pianta ;ãc 3 3di - - atualizaçic 24 pode 1: alizai : documento cie en.ti.dade resolvida para alguns dos documentos extrai nt i g 2o: - xo pl 1 entidades pre iar n e separadas podem ser mescladas devido âs novas informações : ollxos*) a ;e::n :io l.-tt· novo de documentos textuais.
[070] Continuando o exemplo citado na tabela 1, considere que o documento textual d< não foi incluído no lote antigo de documentos textuais. Na ausência do documento textual d:í, pode não ser possível obter os documentos textuais dt, d2, e d«, na mesma partição. Portanto, pode haver duas entidades que correspondem à entidade elf isto é, e- j = Mesclar (d lt d2) , e e -1= d«, que podem estar presentes na coleção de documento de entidade prevíamente resolvida. Agora, na presente implantação, quando o documento textual d-, pode vir como uma parte do lote novo de documentos textuais, o documente textual d;. pode ser ligado aos documentos textuais d: e d, na base de cruzamento de documento. Adicionalmente, visto que o documento textual d, tem alta similaridade textual com o documento textual d-, o módulo de atualização 124 pede gerar pelo menos uma id de partição que incluí o documento textual d·, bem como o documento textual d4. Portanto, o documento textual d2 com o conjunto de cruzamento correspondente {e :} pode estar presente em uma partição com a entidade e" Conforme será concluído, os documentos textuais novos e entidades previamente resolvidas que pertencem à entidade e- podem terminar na mesma partição e, portanto, a entidade e. pode ser resolvida. Adicionalmente, ao mesmo tempo, a inconveniência de resolver novamente toda a coleção de documento é evitada.
[0711 A Figura 2 ilustra um método 200 para fornecer uma resposta automática a uma retroa1imeritação, de acordo com uma modalidade da presente matéria. 0 método 200 pode sei' implantado em uma variedade de sistemas computacionais de várias maneiras. Por exemplo, c método 200, descrito no presente documente, pode ser implantado com uso de i.ti siaies de resolução de entidade 102, ctnfotue descrito a c ima, : _ , t- · )d _ · - · - : , : Ί 1 t _ , . c 1 i < o i '' s · n t j * jei 1 de ;sr ruç cec áve t s I _ cornpi - io E eral, instruções m computador podetn : incluir rotinas, ; programas, objetos, ; mt . o r , - ...... 1 i-i 1 . prore d i ent os f . d . or.i ' ' i r-1 ; lunç s part ί cu 1 a z. es ou _ m* ,i tipos do dados abstratos particulares. Um indivíduo versado )i“· e t " h o lorc; - ΐ 1' t ~c e * ser sa 1 i das por o: o .n adoi j ramados Nc n re s :r,t e documento, algumas modalidades também são destinadas a cobrir sposit ivc - a rir enamen! ie rograma de armazenamento de dadcs digitais, que sejam legíveis per ti a i 1 ' itl t m li ·_η . ) t it tur· -n execut áveis poi áquin o xecutá eis po omputadc er jue ; „ . iia ; 11 --1 ;ul .t ; ( :i ct * - das as etapas : ιοί : d; dem it [173} A ordem em que o método 2C0 é descrito stinada m nterj 51 a d a s otr a lí a çB ί ; a loa ú í ics bl ocos 1 nétr do les t ; - _ - : finado e qualquer e par< planta - * i ur inélodo alternativo, i- l:o c.õ; t:t , blocos individuais podem . v. i b - - -1 i ’ é ·. sen í paia 3o espirito c ; s t . 1’ t ' . u . u - : m u u .c.iraentQ, Adicionalmente, tu mérutti viu, nr implantados em qualquer hardware, software, firatare adequados ou combinação dos mesmos. Deve-se compreender que apesar de c método 202 ser descrito com - aí 2 t . st : ' ·; r " , .. p u- s . . .·. . = rr ros 3 is e a s t amfaém. \ c ? 4 ; por questão de brev. d . '-.talhes dos componentes do s:st sua de resolução de entrrso 102 não sãc discutidos aqui. Tais detalhes podem ser compreendidos como fornecidos 11a iescríçãc fornecí ia :c e rêrxía à Fig 5' mé:oqo 2 pode fornecer c 3 resolução ie entidade a j t ' ur pi ilidade de documentos Nc blc 2 3 pl alidade de d c rr atos gue corre ponde uma pluralidade de entidades pode ser obtida a partir de pelo ma f te ie dados, d ma impiant açàc , a pluralidade de documentos pode ser documentes textuais. Em uma implantação, c módulo de bloqueio 120 do sistema de resolução de entidade 102 pode obter a pluralidade de documentos.
[ 0 7 6 ΐ Seguindo a obtenção da pluralidade de entos - s : ais, το 11 : * - 5 j ural idade documentos textuais pode ser bloqueada dentro de pelo menos urna partição com base na similaridade textual e nas referências entre documentos. Em, uma implantação, um conjunto ie prccí men - z rito de gráfico pode se empregade para Moq a 1 rali f de 1 íocumentos t ext tu .s n ba; :? ref erênc i ent á rurnent o ít re plural i - de d .
Sccur entos textuais . Er ot nua u· : bloqueio 3a rb a 1 idade : >n textu 3 com base nc conjunto c procedimentos de cruzamento de documento, outro conjunto de p . edi ite de oloqu :onhecidc soit Hashí - Sensível Localidade (LEE pode ser adotado. Em uma implantação, o ,uto de procedimentos de LSH pode utilir . : ou bloquear a plural : .· ;e documentos textuais cora base em similar-dado- textual decore a pluralidade de documentos textuais. Em uma ímpia:.- 1 - .. . a ρ a _ ± ' - - ο cume π ; textuais poàe ser c:;:ií;:. hashnng com IDs de partição. Portanto, os documentos textuais só í te ínades ere text lalmente similares - o relacionados to base tas referências entre documentos podem ser ag ; los esma partição. En ir mpl ant ção, o módulc de bloqueio 120 do sistema de resolução de entidade 102 poda rl’> - i : . _ o i t -.· “ ;c . -- 11 ir a C t iUi i O . i . d et .. ]” ‘ do rlcct d: t , et · · tu:.; tio documento mesclado para cada entidade pode ser criado com im · sujunte de um i-scm cm ; f cada da •trr uc i i iterativa {IHI 2' m impiant pãe ama comparação em par dos documentos textuais em cada partição é realizada para identiftt xuiunt e m; ente - t um id^ ti i ma ti _ . A i or.almer iois documentos i d ei consid ados et :orresp I tes base em uma função de ccr respor.dênc xa, isca ê, ura critério ;miat:r,.ir Ftc.r.r r - : : rítério predefinida cada partição, om conjunto de documentos textuais que no r- entida td ser ãentifi b t j li ;l,u: "x > . tu ,i u "s ncuis tutiur u ·· mesclado para criar um documento mesclado para cada entidade. Portanto, em cada bloco, cs documentos textuais são _ - _ _ . ; : ~ - - - * r * i. d _ i . 1 -t j - t 1c i( : t: r:t te ai t ; 1 c:: s_ - €3 corno entidades parciais. Em una implantação, c module de mescla 122 do sistema de resoluçãt te en: is ;t 1 ode criai η, o rj e mescladc pai cada entidade. do] dic‘ctbm:t ura a mes en Jade, documento mesclado pode ser criado em mais de uma partição.
Em ' tiras palavras, c :n rer ;lt a> : xc :v r * : o ia p r o c e cl i men tos de IMM , a. mesma entidade pode ser resolvida a partir de múltiplas partições, No bloco 2C9, um documento de entidade resolvida para cada entiiaoe pode ser gerado nsolidando-se d . : ; v · - s . - *ai . t ele : partição. Em uma implantação, tra conjunto de procedimento de : •ιοί imeraçâo de grâf rrv pode ser empregado para ge.en o : documento de entidade resolvida. Adícionalmente, múltiplas entidades parciais que emergem das múltiplas porrlo; os dom : ser conectadas pelo: fato de que os mesmos documentos textuais , ;r utilizados em diferentes part . múltiplas entidades parciais.
[17 9] A fio de obter . melhor compreensão do cornvnPo de pro o. mento de aglomeração de gráficos, ta.k-doc iroer.t . texto * íe ísu ' ado :om xt m un gráfico de documentos textuais', desse caso, doas errf: idadss mento t.er: , i · >m no, os nós das duas entidades parciais podem ser conectados através co nó c,,m.r . -ortanto, rodos os documentos textuais que correspondem aos; nós que: pertencem às duas entidades iaí - m í i lidados pa fc - - - iocument .A ent íd : reoolvic i:d tt í τ 1 nt rà: - .d i ç>, : sisi íπia 1 - , tluçãc enti ide · poc v m . documento de entidade resolvidas. E 0 8 0 ] d - 1; I :v; I . m : . nr · <9 ;le r-i- r> v . - - , h-v :b . r vi medíani r 1 mu : · o 1ct;c : ie .... o . r os * extu is. 1 1 s: e :r ’· :h: iocune: rs cext r ; i :essad isc io conjunto k t: rocedimentos 1 lament d rãf ic 1c corrj ur.t íe procedimentos de LSH, do conjunto de procedimentos de IMM e do conjunto de procedimento de aglomeração de gráficos conforme mencionado acima. Na presente matéria, ao invés de executar a análise de ER do zero, o nove conjunto de documentos textuais pode ser analisado diretamente em relação às entidades já resolvidas e aos documentos de entidade já resolvida, economizando, dessa forma, tempo tirado para a anã li se.
[031] Apesar de implantações de um método para resolver entidades a partir de uma pluralidade de documentos ter sido descrito em linguagem específica a recursos e/ou métodos estruturais, deve-se compreender* que a presente matéria não é necessariamente 1 imitada aos recursos ou métodos específicos descritos.

Claims (12)

1 . MÉTODO PARA RESOLVER AS ENTIDADES DE UMA PLURALIDADE DE DOCUMENTOS, caracterizado pelo método compreender obter, por meio de um processador '110) , a pluralidade de documentos correspondentes a uma pluralidade de entidades a partir de pelo menos uma fonte de dados; bloquear, por meio dc processador (110) , a pluralidade de documentos no interior de pele menos uma partição com base na similaridade textual e referências entre documentos dentre a pluralidade de documentos; criar, por meio do processador (110), no interior de cada partição, um documento mesclado para cada entidade ccm base em um conjunto de procedimento de mescla de correspondência interativa, em que o conjunto de procedimento de mescla de correspondência interativa identifica, a partir da pluralidade de documentos, pelo menos um par correspondente de documentos e mescla o pelo menos um par correspondente de documentos para criar o documento mesclado para cada entidade; e gerar, por meio do processador (110), um documento de entidade resolvida para cada entidade consolidando-se os documentos mesclados que pertencem a cada entidade de cada partição com base em um conjunto de procedimento de aglomeração de gráficos.
2. MÉTODO, de acordo com a reivindicação 1, caracterizado por compreender adicionalmente atualizar uma coleção de documento de entidade resolvida mediante o recebimento de um novo conjunto de documentos, em que a atualização é realizada com base na similaridade textual e referências entre documentos dentre o novo conjunto de documentos e os documentos de entidade resolvida.
3. MÉTODO, de acordo com a reivindicação 1, caracterizado por, o pelo mencs um par correspondente de documentos ser identificado com base na similaridade textual e nas referências entre documentos dentre a pluralidade de documentos.
4. MÉTODO, de acordo com a reivindicação 1, caracterizado pelos documentas textualmente similares serem codificados com hashing com o uso de conjuntos de procedimentos de Lccality Sensitive Hashing (LSH) (Hashing Sensível â Localidade).
5. MÉTODO, de acordo com a reivindicação 1, caracterizado pelas referências entre as documentos dentre a pluralidade de documentos serem determinadas com o uso de um conjunto de procedimentos de cruzamento de documente.
6. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo documento mesclado para cada entidade ser criado com o uso de um conjunto de procedimento de R~Svraosh.
7. SISTEMA DE RESOLUÇÃO DE ENTIDADE (102) PARA A RESOLUÇÃO DE ENTIDADE DE UMA PLURALIDADE DE DOCUMENTOS, caracterizado pelo sistema de resolução de entidade (102) compreender ·. um processador (110) ; um módulo de bloqueio (120( acoplado ao processador (110) para obter a pluralidade de documentos que correspondem a uma pluralidade de entidades de pelo menos uma fonte de dados ,· e bloquear a pluralidade de documentos em pelo menos una partição r;ra base na si > - ride ie texto, a a roas : iferõnriuo -r.it·-- loorero cotn a il ;ral ia is x do aumentose ' tio i t selo : acoplado i processadoi í 11 0 } para criar, ion: - -» ^ parrrodo, o- iirtr r.t i •'•creia;; ara atoa aoticad* or l se r m tonjur.to r i i υα.ο r.o on wr~-p c·. icn nrej-------------o v ; it t · c.s · ; · . · oi - aia ic rocaoj, nciênc a ornar:· . , o rc _ a a t lut 3 1 í dao< o ic inerrc .
8. r.í meu m pai orrespondent 1 rotor cot ;o te t:c - * - par cru -c-.rj :r,à-.o:·? :« k urceat a : ra ríai t documento mesclado para cada eiit dadeè jer u: io ime - : ie er.ticadt esc r ia para o entoiedo ;onsol idando se ds documçr.t ; mesrorio puc pertencer cada ntoiad re : ' m base em cord vatto de presedimente de jlomeraçãc de p':o c.s. S . 11 d 11HA 11 H1 'kl. Dl ErtTIlAll1 , de s___ r c ·· - reivii íicaçã ca racterk, pc ccm| eei dei adicion I ente um míb; :o - · -o : .. : ; i .
9. p retesarem >11 r. > cr ________-~r a o - eç 1. m ooii:.oi:cj oc e:it o iic . sclvian medi tnte re e >ir ente de un i vc or j ur * icroireu*· í p - - rooiirirã ê ϊ a li zada cot 1 se τ aridad textua * rkrèncías entre docunent ienti novo conjunto de documentos e os documentos de entidade resolvida. d. iiiTiMA ia: . : ;r- emtuaei . de a :v r :u m - relvo l:oscà< " msn ri ca d po . c pel r nos im pai ccrresr: n ente o i · - - £ sei id itíficad lor base si mil ide textual s referências entre 3 mentes dentre a pluralidade de documentos.
10. SISTEMA DE RESOLUÇÃO DE ENTIDADE (102}, de acordo com a reivindicação 7, caracterizado pelo módulo de bloqueio (120) codificar com hashing os documentos textualmente similares com o uso de um coniunto de procedimentos de Hashing Sensível à Localidade (LSH).
11. SISTEMA DE RESOLUÇÃO DE ENTIDADE (102), de acordo com a reivindicação 7, caracterizado pelo módulo de bloqueio (120} determinar as referências entre documentos dentre a pluralidade de documentos com o uso de um conjunto de procedimentos de cruzamento de documento.
12. SISTEMA. DE RESOLUÇÃO DE ENTIDADE (102) , de acordo com a reivindicação 7, caracterizado pelo módulo de mescla (122} criar o documento mesclado para cada entidade cora o uso de um conjunto de procedimentos de R-Swoosh.
BR102014027639-4A 2014-01-17 2014-11-05 Método para resolver as entidades de uma pluralidade de documentos, e sistema de resolução de entidade para a resolução de entidade de uma pluralidade de documentos BR102014027639B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN169MU2014 IN2014MU00169A (pt) 2014-01-17 2014-01-17
IN169/MUM/2014 2014-01-17

Publications (3)

Publication Number Publication Date
BR102014027639A2 true BR102014027639A2 (pt) 2016-05-24
BR102014027639A8 BR102014027639A8 (pt) 2021-08-24
BR102014027639B1 BR102014027639B1 (pt) 2022-05-03

Family

ID=51625852

Family Applications (1)

Application Number Title Priority Date Filing Date
BR102014027639-4A BR102014027639B1 (pt) 2014-01-17 2014-11-05 Método para resolver as entidades de uma pluralidade de documentos, e sistema de resolução de entidade para a resolução de entidade de uma pluralidade de documentos

Country Status (7)

Country Link
US (1) US10311093B2 (pt)
EP (1) EP2897054A3 (pt)
AU (1) AU2014253497B2 (pt)
BR (1) BR102014027639B1 (pt)
CA (1) CA2868540C (pt)
IN (1) IN2014MU00169A (pt)
MX (1) MX355195B (pt)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165291B (zh) * 2018-06-29 2021-07-09 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109635114A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法和装置
FR3104282B1 (fr) * 2019-12-05 2024-01-19 Codexo Sauvegarde de documents en blocs
US20210342541A1 (en) * 2020-05-01 2021-11-04 Salesforce.Com, Inc. Stable identification of entity mentions
CN111882165A (zh) * 2020-07-01 2020-11-03 国网河北省电力有限公司经济技术研究院 一种综合项目造价分析数据拆分装置及方法
WO2024036394A1 (en) * 2022-08-18 2024-02-22 9197-1168 Québec Inc. Systems and methods for identifying documents and references

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7213198B1 (en) * 1999-08-12 2007-05-01 Google Inc. Link based clustering of hyperlinked documents
JP2006505873A (ja) * 2002-11-06 2006-02-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 機密データ共用および匿名エンティティ解決
US8683312B2 (en) * 2005-06-16 2014-03-25 Adobe Systems Incorporated Inter-document links involving embedded documents
US20090204590A1 (en) * 2008-02-11 2009-08-13 Queplix Corp. System and method for an integrated enterprise search
US8805861B2 (en) * 2008-12-09 2014-08-12 Google Inc. Methods and systems to train models to extract and integrate information from data sources
US20110119268A1 (en) * 2009-11-13 2011-05-19 Rajaram Shyam Sundar Method and system for segmenting query urls
CN102906686A (zh) * 2010-01-11 2013-01-30 潘吉瓦公司 针对金融投资决策而评估供应交易的公共记录
US8949227B2 (en) * 2010-03-12 2015-02-03 Telefonaktiebolaget L M Ericsson (Publ) System and method for matching entities and synonym group organizer used therein
US9189473B2 (en) * 2012-05-18 2015-11-17 Xerox Corporation System and method for resolving entity coreference
US9442929B2 (en) * 2013-02-12 2016-09-13 Microsoft Technology Licensing, Llc Determining documents that match a query
US10140664B2 (en) * 2013-03-14 2018-11-27 Palantir Technologies Inc. Resolving similar entities from a transaction database

Also Published As

Publication number Publication date
US10311093B2 (en) 2019-06-04
AU2014253497A1 (en) 2015-08-06
MX2014013314A (es) 2016-03-15
CA2868540A1 (en) 2015-07-17
CA2868540C (en) 2020-09-22
IN2014MU00169A (pt) 2015-08-28
AU2014253497B2 (en) 2020-05-28
EP2897054A2 (en) 2015-07-22
MX355195B (es) 2018-04-06
EP2897054A3 (en) 2015-09-16
US20150205803A1 (en) 2015-07-23
BR102014027639B1 (pt) 2022-05-03
BR102014027639A8 (pt) 2021-08-24

Similar Documents

Publication Publication Date Title
BR102014027639A2 (pt) método para resolver as entidades de uma pluralidade de documentos; e sistema de resolução de entidade para a resolução de entidade de uma pluralidade de documentos
Yu Data integration, manipulation and visualization of phylogenetic trees
US11544578B2 (en) Method, device and equipment for fusing different instances describing same entity
Wang et al. Finding similar consensus between trees: an algorithm and a distance hierarchy
US9990410B2 (en) Data sanitization and normalization and geocoding methods
Lalou et al. Component-cardinality-constrained critical node problem in graphs
Andersen et al. Efficient computation in the IM model
Ene et al. Towards nearly-linear time algorithms for submodular maximization with a matroid constraint
El-Mabrouk Reconstructing an ancestral genome using minimum segments duplications and reversals
Uffink The principle of the common cause faces the Bernstein paradox
Šubelj Convex skeletons of complex networks
US20180060485A1 (en) Privacy-preserving similar patient query systems and methods
Michimae et al. Robust ridge regression for estimating the effects of correlated gene expressions on phenotypic traits
Allard et al. Exact solution of bond percolation on small arbitrary graphs
Wang et al. BIMLR: a method for constructing rooted phylogenetic networks from rooted phylogenetic trees
Navarro et al. Reporting consecutive substring occurrences under bounded gap constraints
Bordewich et al. Accuracy guarantees for phylogeny reconstruction algorithms based on balanced minimum evolution
Alipanahi et al. Disentangled long-read de Bruijn graphs via optical maps
Araujo et al. Finiteness results for subgroups of finite extensions
Avram et al. Algorithmic approach for a unique definition of the next-generation matrix
Kuboyama et al. A theoretical analysis of alignment and edit problems for trees
Antoniou et al. Application of suffix trees for the acquisition of common motifs with gaps in a set of strings
Likhosherstov et al. Tractable minor-free generalization of planar zero-field Ising models
Yu et al. Advancing Divide-and-Conquer Phylogeny Estimation using Robinson-Foulds Supertrees✶
Wasa et al. Polynomial delay and space discovery of connected and acyclic sub-hypergraphs in a hypergraph

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B03H Publication of an application: rectification [chapter 3.8 patent gazette]

Free format text: REFERENTE A RPI 2368 DE 24/05/2016, QUANTO AO ITEM (54).

B09A Decision: intention to grant [chapter 9.1 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G06F 17/22 , G06F 17/27 , G06F 17/30

Ipc: G06F 16/35 (2006.01), G06F 16/901 (2006.01), G06F

B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 05/11/2014, OBSERVADAS AS CONDICOES LEGAIS.