CN104866625A - 一种用于实体匹配的方法及系统 - Google Patents

一种用于实体匹配的方法及系统 Download PDF

Info

Publication number
CN104866625A
CN104866625A CN201510329196.3A CN201510329196A CN104866625A CN 104866625 A CN104866625 A CN 104866625A CN 201510329196 A CN201510329196 A CN 201510329196A CN 104866625 A CN104866625 A CN 104866625A
Authority
CN
China
Prior art keywords
entity
attribute
similarity
entities
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510329196.3A
Other languages
English (en)
Other versions
CN104866625B (zh
Inventor
李直旭
杨强
蒋俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Zhangjiagang Institute of Industrial Technologies Soochow University
Original Assignee
Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangjiagang Institute of Industrial Technologies Soochow University filed Critical Zhangjiagang Institute of Industrial Technologies Soochow University
Priority to CN201510329196.3A priority Critical patent/CN104866625B/zh
Publication of CN104866625A publication Critical patent/CN104866625A/zh
Application granted granted Critical
Publication of CN104866625B publication Critical patent/CN104866625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种用于实体匹配的方法及系统,该方法包括:根据两个待处理实体的属性值分布分别确定各自的属性区分度;根据所述两个待处理实体的非主属性的值计算得到所述两个待处理实体的属性相似度;将所述属性区分度和所述属性相似度加权求和得到所述两个待处理实体的实体相似度;将所述实体相似度与相似度阈值进行对比,判断所述两个待处理实体的相似性。该方法能够通过利用非主属性的值以及属性分布求得实体相似度,进而进行实体匹配,较好的识别出相同的实体,节约了时间提高了效率。

Description

一种用于实体匹配的方法及系统
技术领域
本申请涉及数据库技术领域,尤其涉及一种用于实体匹配的方法及系统。
背景技术
在信息化不断发展的当今社会,每天都有各种各样的信息涌入我们的生活。然而,在这些信息当中不乏那些重复的信息,即实例对,这不仅导致了信息的冗余,而且极有可能带来数据不一致的问题。
数据表中包含着多个实体,在两个数据表中可能存在相同的实体,这两个实体构成一个实例对表示同一个实体。由于这些实体可能以不同的方式表示,也可能在涵盖信息的广度上有所不同,使得在进行信息整合时无法较好的识别出这些相同的实体,不仅耗时耗力,而且效率低下,因此需要找出这些实例对,对它们加以识别,以便于信息的融合。
发明内容
有鉴于此,本申请提供了一种用于实体匹配的方法及系统,以克服现有技术中由于无法较好的识别出相同的实体,导致在进行信息整合时不仅耗时耗力,而且效率低下的问题。
为实现上述目的,本申请提供以下技术方案:
一种用于实体匹配的方法,该方法包括:
根据两个待处理实体的属性值分布分别确定各自的属性区分度;
根据所述两个待处理实体的非主属性的值计算得到所述两个待处理实体的属性相似度;
将所述属性区分度和所述属性相似度加权求和得到所述两个待处理实体的实体相似度;
将所述实体相似度与相似度阈值进行对比,判断所述两个待处理实体的相似性。
优选的,所述属性区分度的计算公式为:
d i f S c o r e ( A i , T ) = d i s t i n c t ( A i , T ) | T |
其中,difScore(Ai,T)表示数据表T中属性Ai的区分度,distinct(Ai,T)表示数据表T中属性Ai不同值的个数,|T|表示数据表T中的实体数目。
优选的,所述属性相似度的计算公式为:
Similarity(A)=sim(ti[A],si[A])
其中,Similarity(A)表示两个待处理实体中属性A的相似度,ti[A]表示实体ti中属性A的值,si[A]表示实体si中属性A的值。
优选的,所述实体相似度的计算公式为:
F b a s e l i n e ( t , s ) = Σ A ∈ S N K ( d i f S c o r e ( A ) * S i m i l a r i t y ( A ) ) Σ A ∈ S N K d i f S c o r e ( A )
其中,Fbaseline(t,s)表示实体t和实体s的实体相似度,SNK表示实体的非主属性构成的集合,difScore(A)表示实体t中属性A的区分度与实体s中属性A的区分度的平均值。
一种用于实体匹配的系统,该系统包括:
确定单元,用于根据两个待处理实体的属性值分布分别确定各自的属性区分度;
计算单元,用于根据所述两个待处理实体的非主属性的值计算得到所述两个待处理实体的属性相似度;
求和单元,用于将所述属性区分度和所述属性相似度加权求和得到所述两个待处理实体的实体相似度;
判断单元,用于将所述实体相似度与相似度阈值进行对比,判断所述两个待处理实体的相似性。
优选的,所述属性区分度的计算公式为:
d i f S c o r e ( A i , T ) = d i s t i n c t ( A i , T ) | T |
其中,difScore(Ai,T)表示数据表T中属性Ai的区分度,distinct(Ai,T)表示数据表T中属性Ai不同值的个数,|T|表示数据表T中的实体数目。
优选的,所述属性相似度的计算公式为:
Similarity(A)=sim(ti[A],si[A])
其中,Similarity(A)表示两个待处理实体中属性A的相似度,ti[A]表示实体ti中属性A的值,si[A]表示实体si中属性A的值。
优选的,所述实体相似度的计算公式为:
F b a s e l i n e ( t , s ) = Σ A ∈ S N K ( d i f S c o r e ( A ) * S i m i l a r i t y ( A ) ) Σ A ∈ S N K d i f S c o r e ( A )
其中,Fbaseline(t,s)表示实体t和实体s的实体相似度,SNK表示实体的非主属性构成的集合,difScore(A)表示实体t中属性A的区分度与实体s中属性A的区分度的平均值。
由以上技术方案可知,本申请提供了一种用于实体匹配的方法及系统,该方法包括:根据两个待处理实体的属性值分布分别确定各自的属性区分度;根据所述两个待处理实体的非主属性的值计算得到所述两个待处理实体的属性相似度;将所述属性区分度和所述属性相似度加权求和得到所述两个待处理实体的实体相似度;将所述实体相似度与相似度阈值进行对比,判断所述两个待处理实体的相似性。该方法能够通过利用非主属性的值以及属性分布求得实体相似度,进而进行实体匹配,较好的识别出相同的实体,节约了时间提高了效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例一提供的一种用于实体匹配的方法的流程图;
图2为本申请实施例二提供的一种用于实体匹配的系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为克服现有技术中由于无法较好的识别出相同的实体,导致在进行信息整合时不仅耗时耗力,而且效率低下的问题,本申请提供了一种基于非主属性的用于实体匹配的方法及系统,具体方案如下所述:
实施例一
本申请实施例一提供了一种用于实体匹配的方法,如图1所示,图1为本申请实施例一提供的一种用于实体匹配的方法的流程图。该方法包括:
S101:根据两个待处理实体的属性值分布分别确定各自的属性区分度。
属性的识别度,即属性区分度是指属性区别一实体与另一实体的能力,即判别实例对是否为同一实体的能力,识别度越高说明属性区分实例对的能力越高。
本申请主要使用非主属性区别一实体与其它实体的能力,并将这种能力定义为属性的区分度得分-difScore,它反映了属性值的离散程度。如果属性值的种类越多,那么该属性的离散值就越高,也就说明了该属性能够较好的区分实体。
对于两个数据表T1={t1,t2,...,tn}和T2={s1,s2,...,sm},T1中的任一实体ti(1≤i≤n),T2的中的任一实体sj(1≤j≤m),实体匹配就是找出指代同一实体的实例对(ti,sj)。
本申请中我们提出了一种基于非主属性的实体匹配方法-NokeaRM。对于给定的两个数据表T1={t1,t2,...,tn}和T2={s1,s2,...,sm},我们假定这两个表具有共同的属性集合SNK={A1,A2,...,Ap},NokeaRM旨在找到这样一个函数F(ti,sj)和一个阈值τ,T1中的任一实体ti(1≤i≤n),T2的中的任一实体sj(1≤i≤m),当且仅当F(ti,sj)≥τ,对T2中任意的sk,有F(ti,sj)≥F(ti,sk)。
具体的,属性区分度的计算公式为:
d i f S c o r e ( A i , T ) = d i s t i n c t ( A i , T ) | T |
其中,difScore(Ai,T)表示数据表T中属性Ai的区分度,distinct(Ai,T)表示数据表T中属性Ai不同值的个数,即可表示数据表T中属性Ai的值的分布,|T|表示数据表T中的实体数目。
在本申请中,需要对实体的每一个非主属性进行计算其属性区分度。
S102:根据两个待处理实体的非主属性的值计算得到两个待处理实体的属性相似度。
具体的,属性相似度的计算公式为:
Similarity(A)=sim(ti[A],si[A])
其中,Similarity(A)表示两个待处理实体中属性A的相似度,ti[A]表示实体ti中属性A的值,si[A]表示实体si中属性A的值。
需要说明的是,需要对实体的每个属性都进行相似度计算,sim(·,·)表示字符串相似度算法,如Jacard、Consine、Edit-distance等,本申请中使用的为Edit-distance相似度算法。
S103:将属性区分度和属性相似度加权求和得到两个待处理实体的实体相似度。
具体的,实体相似度的计算公式为:
F b a s e l i n e ( t , s ) = Σ A ∈ S N K ( d i f S c o r e ( A ) * S i m i l a r i t y ( A ) ) Σ A ∈ S N K d i f S c o r e ( A )
其中,Fbaseline(t,s)表示实体t和实体s的实体相似度,SNK表示实体的非主属性构成的集合,difScore(A)表示实体t中属性A的区分度与实体s中属性A的区分度的平均值。
该公式中的求和部分其限制条件为A∈SNK,即表示了对实体的每个非主属性都进行运算,其中SNK是由非主属性组成的集合。
S104:将实体相似度与相似度阈值进行对比,判断两个待处理实体的相似性。
具体的,当实体相似度大于或等于相似度阈值时,可以判定两个待处理的实体为实例对。
在我们的实验当中方案一能够识别出近一半的实例对,其召回率为45-55%,准确率为80%左右,具有较高的准确率和召回率。该方案的时间复杂度为O(pnm),其中|T1|=n,|T2|=m,|SNK|=p,其中,n、m、p取值范围没有限制,是由具体的数据集所决定的。
由以上技术方案可知,本申请实施例一提供了一种用于实体匹配的方法,该方法包括:根据两个待处理实体的属性值分布分别确定各自的属性区分度;根据所述两个待处理实体的非主属性的值计算得到所述两个待处理实体的属性相似度;将所述属性区分度和所述属性相似度加权求和得到所述两个待处理实体的实体相似度;将所述实体相似度与相似度阈值进行对比,判断所述两个待处理实体的相似性。该方法能够通过利用非主属性的值以及属性分布求得实体相似度,进而进行实体匹配,较好的识别出相同的实体,节约了时间提高了效率。
实施例二
在实施例一的基础上,本申请实施例二提供了一种用于实体匹配的系统,如图2所示,图2为本申请实施例二提供的一种用于实体匹配的系统的结构示意图。该系统包括:确定单元201、计算单元202、求和单元203和判断单元204,其中,
确定单元201,用于根据两个待处理实体的属性值分布分别确定各自的属性区分度。
其中,属性区分度的计算公式为:
d i f S c o r e ( A i , T ) = d i s t i n c t ( A i , T ) | T |
其中,difScore(Ai,T)表示数据表T中属性Ai的区分度,distinct(Ai,T)表示数据表T中属性Ai不同值的个数,即可表示数据表T中属性Ai的值的分布,|T|表示数据表T中的实体数目。
在本申请中,需要对实体的每一个非主属性进行计算其属性区分度。
计算单元202,用于根据两个待处理实体的非主属性的值计算得到两个待处理实体的属性相似度。
其中,属性相似度的计算公式为:
Similarity(A)=sim(ti[A],si[A])
其中,Similarity(A)表示两个待处理实体中属性A的相似度,ti[A]表示实体ti中属性A的值,si[A]表示实体si中属性A的值。
需要说明的是,需要对实体的每个属性都进行相似度计算,sim(·,·)表示字符串相似度算法,如Jacard、Consine、Edit-distance等,本申请中使用的为Edit-distance相似度算法。
求和单元203,用于将属性区分度和属性相似度加权求和得到两个待处理实体的实体相似度。
其中,实体相似度的计算公式为:
F b a s e l i n e ( t , s ) = Σ A ∈ S N K ( d i f S c o r e ( A ) * S i m i l a r i t y ( A ) ) Σ A ∈ S N K d i f S c o r e ( A )
其中,Fbaseline(t,s)表示实体t和实体s的实体相似度,SNK表示实体的非主属性构成的集合,difScore(A)表示实体t中属性A的区分度与实体s中属性A的区分度的平均值。
该公式中的求和部分其限制条件为A∈SNK,即表示了对实体的每个非主属性都进行运算,其中SNK是由非主属性组成的集合。
判断单元204,用于将实体相似度与相似度阈值进行对比,判断两个待处理实体的相似性。
具体的,当实体相似度大于或等于相似度阈值时,可以判定两个待处理的实体为实例对。
需要说明的是,在本实施例中,其他内容不再赘述,详细可参见实施例一的描述。
由以上技术方案可知,本申请实施例二提供的该用于实体匹配的系统,能够通过利用非主属性的值以及属性分布求得实体相似度,进而进行实体匹配,较好的识别出相同的实体,节约了时间提高了效率。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种用于实体匹配的方法,其特征在于,该方法包括:
根据两个待处理实体的属性值分布分别确定各自的属性区分度;
根据所述两个待处理实体的非主属性的值计算得到所述两个待处理实体的属性相似度;
将所述属性区分度和所述属性相似度加权求和得到所述两个待处理实体的实体相似度;
将所述实体相似度与相似度阈值进行对比,判断所述两个待处理实体的相似性。
2.根据权利要求1所述的方法,其特征在于,所述属性区分度的计算公式为:
d i f S c o r e ( A i , T ) = d i s t i n c t ( A i , T ) | T |
其中,difScore(Ai,T)表示数据表T中属性Ai的区分度,distinct(Ai,T)表示数据表T中属性Ai不同值的个数,|T|表示数据表T中的实体数目。
3.根据权利要求1所述的方法,其特征在于,所述属性相似度的计算公式为:
Similarity(A)=sim(ti[A],si[A])
其中,Similarity(A)表示两个待处理实体中属性A的相似度,ti[A]表示实体ti中属性A的值,si[A]表示实体si中属性A的值。
4.根据权利要求1所述的方法,其特征在于,所述实体相似度的计算公式为:
F b a s e l i n e ( t , s ) = Σ A ∈ S N K ( d i f S c o r e ( A ) * S i m i l a r i t y ( A ) ) Σ A ∈ S N K d i f S c o r e ( A )
其中,Fbaseline(t,s)表示实体t和实体s的实体相似度,SNK表示实体的非主属性构成的集合,difScore(A)表示实体t中属性A的区分度与实体s中属性A的区分度的平均值。
5.一种用于实体匹配的系统,其特征在于,该系统包括:
确定单元,用于根据两个待处理实体的属性值分布分别确定各自的属性区分度;
计算单元,用于根据所述两个待处理实体的非主属性的值计算得到所述两个待处理实体的属性相似度;
求和单元,用于将所述属性区分度和所述属性相似度加权求和得到所述两个待处理实体的实体相似度;
判断单元,用于将所述实体相似度与相似度阈值进行对比,判断所述两个待处理实体的相似性。
6.根据权利要求5所述的系统,其特征在于,所述属性区分度的计算公式为:
d i f S c o r e ( A i , T ) = d i s t i n c t ( A i , T ) | T |
其中,difScore(Ai,T)表示数据表T中属性Ai的区分度,distinct(Ai,T)表示数据表T中属性Ai不同值的个数,|T|表示数据表T中的实体数目。
7.根据权利要求5所述的系统,其特征在于,所述属性相似度的计算公式为:
Similarity(A)=sim(ti[A],si[A])
其中,Similarity(A)表示两个待处理实体中属性A的相似度,ti[A]表示实体ti中属性A的值,si[A]表示实体si中属性A的值。
8.根据权利要求5所述的系统,其特征在于,所述实体相似度的计算公式为:
F b a s e l i n e ( t , s ) = Σ A ∈ S N K ( d i f S c o r e ( A ) * S i m i l a r i t y ( A ) ) Σ A ∈ S N K d i f S c o r e ( A )
其中,Fbaseline(t,s)表示实体t和实体s的实体相似度,SNK表示实体的非主属性构成的集合,difScore(A)表示实体t中属性A的区分度与实体s中属性A的区分度的平均值。
CN201510329196.3A 2015-06-15 2015-06-15 一种用于实体匹配的方法及系统 Active CN104866625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510329196.3A CN104866625B (zh) 2015-06-15 2015-06-15 一种用于实体匹配的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510329196.3A CN104866625B (zh) 2015-06-15 2015-06-15 一种用于实体匹配的方法及系统

Publications (2)

Publication Number Publication Date
CN104866625A true CN104866625A (zh) 2015-08-26
CN104866625B CN104866625B (zh) 2018-08-17

Family

ID=53912451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510329196.3A Active CN104866625B (zh) 2015-06-15 2015-06-15 一种用于实体匹配的方法及系统

Country Status (1)

Country Link
CN (1) CN104866625B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354787A (zh) * 2016-08-24 2017-01-25 齐鲁工业大学 一种基于相似度的实体共指消解方法
CN106934020A (zh) * 2017-03-10 2017-07-07 东南大学 一种基于多域实体索引的实体链接方法
CN106940702A (zh) * 2016-01-05 2017-07-11 富士通株式会社 连接短文本中实体提及与语义知识库中实体的方法和设备
CN107341220A (zh) * 2017-06-28 2017-11-10 阿里巴巴集团控股有限公司 一种多源数据融合方法和装置
CN108388556A (zh) * 2018-02-02 2018-08-10 北京云知声信息技术有限公司 同类实体的挖掘方法及系统
CN108959577A (zh) * 2018-07-06 2018-12-07 中国民航大学 基于非主属性离群点检测的实体匹配方法和计算机程序
CN110874755A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 店铺数据的处理方法、装置及电子设备
CN112328633A (zh) * 2020-10-16 2021-02-05 安徽精益测绘有限公司 一种数据库建设用测量数据属性智能化匹配与识别模块
CN112784609A (zh) * 2021-03-16 2021-05-11 云知声智能科技股份有限公司 确定病历中是否包括会诊意见的方法、装置、设备和介质
CN112966027A (zh) * 2021-03-22 2021-06-15 青岛科技大学 一种基于动态探针的实体关联挖掘方法
CN113127573A (zh) * 2019-12-31 2021-07-16 奇安信科技集团股份有限公司 相关数据的确定方法、装置、计算机设备和存储介质
CN113760995A (zh) * 2021-09-09 2021-12-07 上海明略人工智能(集团)有限公司 一种实体链接方法及系统、设备和存储介质
US11544578B2 (en) 2016-02-14 2023-01-03 Alibaba Group Holding Limited Method, device and equipment for fusing different instances describing same entity

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN104484461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及系统
CN104537065A (zh) * 2014-12-29 2015-04-22 北京奇虎科技有限公司 一种搜索结果的推送方法及系统
US20150142841A1 (en) * 2008-11-12 2015-05-21 Gunther Stuhec Data model optimization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150142841A1 (en) * 2008-11-12 2015-05-21 Gunther Stuhec Data model optimization
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN104484461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及系统
CN104537065A (zh) * 2014-12-29 2015-04-22 北京奇虎科技有限公司 一种搜索结果的推送方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940702A (zh) * 2016-01-05 2017-07-11 富士通株式会社 连接短文本中实体提及与语义知识库中实体的方法和设备
US11544578B2 (en) 2016-02-14 2023-01-03 Alibaba Group Holding Limited Method, device and equipment for fusing different instances describing same entity
CN106354787A (zh) * 2016-08-24 2017-01-25 齐鲁工业大学 一种基于相似度的实体共指消解方法
CN106934020A (zh) * 2017-03-10 2017-07-07 东南大学 一种基于多域实体索引的实体链接方法
CN107341220B (zh) * 2017-06-28 2020-05-12 阿里巴巴集团控股有限公司 一种多源数据融合方法和装置
CN107341220A (zh) * 2017-06-28 2017-11-10 阿里巴巴集团控股有限公司 一种多源数据融合方法和装置
CN108388556B (zh) * 2018-02-02 2021-08-17 云知声智能科技股份有限公司 同类实体的挖掘方法及系统
CN108388556A (zh) * 2018-02-02 2018-08-10 北京云知声信息技术有限公司 同类实体的挖掘方法及系统
CN108959577A (zh) * 2018-07-06 2018-12-07 中国民航大学 基于非主属性离群点检测的实体匹配方法和计算机程序
CN110874755A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 店铺数据的处理方法、装置及电子设备
CN110874755B (zh) * 2018-08-31 2024-04-12 阿里巴巴集团控股有限公司 店铺数据的处理方法、装置及电子设备
CN113127573A (zh) * 2019-12-31 2021-07-16 奇安信科技集团股份有限公司 相关数据的确定方法、装置、计算机设备和存储介质
CN112328633A (zh) * 2020-10-16 2021-02-05 安徽精益测绘有限公司 一种数据库建设用测量数据属性智能化匹配与识别模块
CN112784609A (zh) * 2021-03-16 2021-05-11 云知声智能科技股份有限公司 确定病历中是否包括会诊意见的方法、装置、设备和介质
CN112966027A (zh) * 2021-03-22 2021-06-15 青岛科技大学 一种基于动态探针的实体关联挖掘方法
CN112966027B (zh) * 2021-03-22 2022-10-21 青岛科技大学 一种基于动态探针的实体关联挖掘方法
CN113760995A (zh) * 2021-09-09 2021-12-07 上海明略人工智能(集团)有限公司 一种实体链接方法及系统、设备和存储介质

Also Published As

Publication number Publication date
CN104866625B (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN104866625A (zh) 一种用于实体匹配的方法及系统
CN104756106A (zh) 表征数据存储系统中的数据源
Pipino et al. Developing measurement scales for data-quality dimensions
Deng et al. Moving surface spline interpolation based on Green’s function
CN106971205A (zh) 一种基于k近邻互信息估计的嵌入式动态特征选择方法
Arneodo et al. Thermodynamics of fractal signals based on wavelet analysis: application to fully developed turbulence data and DNA sequences
CN105630988A (zh) 一种快速检测空间数据变化并更新的方法及系统
CN105183814A (zh) 一种物联网数据清洗方法
CN105045863A (zh) 一种用于实体匹配的方法及系统
CN106327340A (zh) 一种金融网络的异常节点集合侦测方法及装置
Smarandache α-discounting method for multi-criteria decision making (α-d MCDM)
CN106055689A (zh) 一种基于时序相关性的空间聚类方法
Xie et al. Tetradic motif profiles of horizontal visibility graphs
CN104715399A (zh) 一种评分预测方法与系统
CN109614074A (zh) 基于概率转移矩阵模型的近似加法器可靠度计算方法
CN104699761A (zh) 一种最小函数依赖的增量计算方法
CN106651630A (zh) 关键用电行业识别方法和系统
Xu An algorithm for comparing similarity between two trees
CN109978675B (zh) 一种税务监控方法和装置
Xiong et al. Time irreversibility and intrinsics revealing of series with complex network approach
Zhao et al. Distribution of eigenvalues of detrended cross-correlation matrix
Khan et al. A comparison between numerical methods for solving Fuzzy fractional differential equations
Bryant et al. Confirmatory Factor Analysis of Ordinal Data Using Full‐Information Adaptive Quadrature
Bertrand et al. Overfitting of Hurst estimators for multifractional Brownian motion: A fitting test advocating simple models
Afsar et al. Scaling behaviour for recurrence-based measures at the edge of chaos

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180704

Address after: No. 10, mayor Jinglu Road, Zhangjiagang, Suzhou, Jiangsu

Applicant after: Zhangjiagang Institute of Industrial Technologies Soochow University

Applicant after: Soochow University

Address before: No. 10, mayor Jinglu Road, Zhangjiagang, Suzhou, Jiangsu

Applicant before: Zhangjiagang Institute of Industrial Technologies Soochow University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant