CN107133257A - 一种基于中心连通子图的相似实体识别方法及系统 - Google Patents

一种基于中心连通子图的相似实体识别方法及系统 Download PDF

Info

Publication number
CN107133257A
CN107133257A CN201710170682.4A CN201710170682A CN107133257A CN 107133257 A CN107133257 A CN 107133257A CN 201710170682 A CN201710170682 A CN 201710170682A CN 107133257 A CN107133257 A CN 107133257A
Authority
CN
China
Prior art keywords
similarity
center connected
semantic
connected subgraph
structural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710170682.4A
Other languages
English (en)
Inventor
赵淦森
廖智锐
庄序填
吴杰超
任雪琦
余达明
汤庸
马朝辉
王欣明
聂瑞华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201710170682.4A priority Critical patent/CN107133257A/zh
Publication of CN107133257A publication Critical patent/CN107133257A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明公开了一种基于中心连通子图的相似实体识别方法及系统,方法包括:将需要比较的实体转化为通过中心连通子图进行描述;对中心连通子图进行相似度计算,得到总相似度;判断总相似度是否大于预设的相似度阈值,若是,则判定为相似;反之,则判定为不相似。系统包括转换单元、相似度计算单元和相似度判断单元。本发明通过将实体转换为中心连通子图,从而能进行整体的相似计算,相对于现有技术中的只能针对于数据库,所研究的实体更为抽象,应用更加广泛,而且本发明还能结合结构和语义信息进行相似性的比较,有效提高相似性计算的准确性。本发明可广泛应用于数据库领域中。

Description

一种基于中心连通子图的相似实体识别方法及系统
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于中心连通子图的相似实体识别方法及系统。
背景技术
数据融合能够成为计算机领域内的研究热点,与实际需求和数据融合技术的巨大潜能息息相关。数据融合最初是由于军事作战需求而提出,为使多种作战设备上的多传感器的数据信息能够协调、整合与集成而形成的一种数据横向综合信息处理技术。因而,国内早期研究数据融合的研究者,从技术的观点,把数据融合理解为一种技术思路,视为多源信息协调处理技术的总称。随着计算机科学技术的迅猛发展,数据融合概念已经不再局限于多传感器数据融合技术领域,概念的覆盖领域进一步扩充。在计算机领域,随着硬件设备性能和软件服务能力的不断提升,面对多源数据系统的数据融合,数据集成的技术手段不再缺乏。,而在如何构建多源数据的集成模型,提供给用户统一的数据视图的问题上,国外数据研究者Lenzerini M提出了自己的一些思考与想法。他针对各种数据源和全局数据模式之间如何建立关联关系,提出了global-as-view和local-as-view两种基础方法论,并对如何在数据整合中处理查询,如何处理数据源不一致性问题等提出了相关的观点和方法。
实体识别是融合技术实现中的一个关键过程。周傲英等在中文章提出了一种基于模式的实体解析算法,通过将相似的记录合并成记录集合并尝试生成对应的记录模式,然后进行模式之间的两两比较来产生一个边界值,以确定对应的记录集合是否需要进行进一步的精确比较,从而判断相似的记录是否属于同一个实体。该方法能有效过滤一些不可能相似的记录,大大提高了实体解析的效率。基于图模式做实体识别是一种新的技术思路。传统实体识别方法主要是计算两个对象的对应属性的相似度并将其加权求和得到综合的相似度,然后将该相似度与给定阈值进行比较来决定两个对象是否匹配。但是传统的实体识别方法不太适用于存在关联的数据对象。孙琛琛等提出一种基于图的、迭代的联合式实体识别方法,该方法与领域无关,适合于任何关联的数据,实现了准确高效的联合式实体识别。但是现实应用中有许多数据是具有复杂的结构信息的,同一实体具有不同复杂数据描述方式,例如有关系数据库、可建模成图的RDF等多种复杂形式。在复杂数据上的实体识别不同于传统文本和关系数据上的实体识别,王宏志等对复杂数据上的实体识别做了相关研究,并且指出针对图数据的实体识别技术主要集中在描述同一实体的图数据的判定上,而该判定主要基于图数据的结构的相似性。其中一类方法是基于图之间的结构映射关系进行实体判定,即若两个图之间的点满足某种映射关系,则这两个图判定为匹配,即为描述同一实体。另一类方法是基于图的相似性或距离判定图是否匹配,如果两个图的相似性大于某个阈值或距离小于某个阈值,则认为其描述同一实体。为了解决图匹配判定问题,这类判定方法有基于图同构的近似匹配,图同态和同构拓展为p同态和1-1p同态等。胡小华等在中提出一种基于句法特征、语义特征的实体关系抽取方法,与以往的实体关系抽取方法相比,新增了句法分析结果和语义分析结果作为实体关系的特征,实验结果表明效果明显。
现有的技术主要有两种方式,一种是基于结构的相似性比较另一种是基于语义的相似性比较。基于结构的相似性比较方法多数只适用于同构的信息网络,在关系型数据库来说既表的实例比较,不适用于异构信息网络中的数据表的比较。对于基于语义的相似性比较方法,它适用于异构信息网络。在关系型数据库来说既是不同数据库的表或实例通过语义关系进行实体识别。但是关系型数据库的关系是异构的,要理解其表之间的语义关系需要用到领域的知识,需要领域专家进行逻辑梳理。但是逻辑梳理过程是复杂的,或者成本相对高昂。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能有效提高相似性识别准确性的一种基于中心连通子图的相似实体识别方法及系统。
本发明所采取的技术方案是:
一种基于中心连通子图的相似实体识别方法,包括以下步骤:
将需要比较的实体转化为通过中心连通子图进行描述;
对中心连通子图进行相似度计算,得到总相似度;
判断总相似度是否大于预设的相似度阈值,若是,则判定为相似;反之,则判定为不相似。
作为所述的一种基于中心连通子图的相似实体识别方法的进一步改进,所述的对中心连通子图进行相似度计算,得到总相似度,这一步骤具体包括:
获取输入的两个中心连通子图;
对两个中心连通子图进行结构相似度计算和语义相似度计算,得到结构相似度和语义相似度;
根据结构相似度和语义相似度,对其进行加权计算,计算得到总相似度。
作为所述的一种基于中心连通子图的相似实体识别方法的进一步改进,所述的结构相似度计算,其具体包括:
对两个中心连通子图的节点集合中的结构信息进行相似性比较,计算其之间的距离,得到节点结构相似度;
对两个中心连通子图的边进行相似性比较,计算其之间的距离,得到边结构相似度;
根据节点结构相似度和边结构相似度,计算得到结构相似度。
作为所述的一种基于中心连通子图的相似实体识别方法的进一步改进,所述的语义相似度计算,其具体为:
对两个中心连通子图的节点集合中的语义信息,计算其之间的距离,作为语义相似度。
本发明所采用的另一技术方案是:
一种基于中心连通子图的相似实体识别系统,包括:
转换单元,用于将需要比较的实体转化为通过中心连通子图进行描述;
相似度计算单元,用于对中心连通子图进行相似度计算,得到总相似度;
相似度判断单元,用于判断总相似度是否大于预设的相似度阈值,若是,则判定为相似;反之,则判定为不相似。
作为所述的一种基于中心连通子图的相似实体识别系统的进一步改进,所述相似度计算单元包括:
获取单元,用于获取输入的两个中心连通子图;
结构语义计算单元,用于对两个中心连通子图进行结构相似度计算和语义相似度计算,得到结构相似度和语义相似度;
总计算单元,用于根据结构相似度和语义相似度,对其进行加权计算,计算得到总相似度。
作为所述的一种基于中心连通子图的相似实体识别系统的进一步改进,所述的结构相似度计算,其具体包括:
节点结构相似度计算单元,用于对两个中心连通子图的节点集合中的结构信息进行相似性比较,计算其之间的距离,得到节点结构相似度;
边结构相似度计算单元,用于对两个中心连通子图的边进行相似性比较,计算其之间的距离,得到边结构相似度;
根据节点结构相似度和边结构相似度,计算得到结构相似度。
作为所述的一种基于中心连通子图的相似实体识别系统的进一步改进,所述的语义相似度计算,其具体为:
对两个中心连通子图的节点集合中的语义信息,计算其之间的距离,作为语义相似度。
本发明的有益效果是:
本发明一种基于中心连通子图的相似实体识别方法及系统通过将实体转换为中心连通子图,从而能进行整体的相似计算,相对于现有技术中的只能针对于数据库,所研究的实体更为抽象,应用更加广泛,而且本发明还能结合结构和语义信息进行相似性的比较,有效提高相似性计算的准确性。
附图说明
下面结合附图对本发明的具体实施方式作进一步说明:
图1是本发明一种基于中心连通子图的相似实体识别方法的步骤流程图;
图2是本发明一种基于中心连通子图的相似实体识别方法中相似度计算的步骤流程图;
图3是本发明一种基于中心连通子图的相似实体识别系统的模块方框图;
图4是本发明实施例中的中心连通子图示意图。
具体实施方式
参考图1,本发明一种基于中心连通子图的相似实体识别方法,包括以下步骤:
将需要比较的实体转化为通过中心连通子图进行描述;
对中心连通子图进行相似度计算,得到总相似度;
判断总相似度是否大于预设的相似度阈值,若是,则判定为相似;反之,则判定为不相似。
参考图2,进一步作为优选的实施方式,所述的对中心连通子图进行相似度计算,得到总相似度,这一步骤具体包括:
获取输入的两个中心连通子图;
对两个中心连通子图进行结构相似度计算和语义相似度计算,得到结构相似度和语义相似度;
根据结构相似度和语义相似度,对其进行加权计算,计算得到总相似度。
其中,总相似度的计算公式为:
Similarity=λ×SimilarityStructure+(1-λ)×SimilaritySemantic
Similarity表示总相似度,SimilarityStructure表示结构相似度,SimilaritySemantic表示语义相似度,λ表示预设的总相似度计算系数。
进一步作为优选的实施方式,所述的结构相似度计算,其具体包括:
对两个中心连通子图的节点集合中的结构信息进行相似性比较,计算其之间的距离,得到节点结构相似度;
对两个中心连通子图的边进行相似性比较,计算其之间的距离,得到边结构相似度;
根据节点结构相似度和边结构相似度,计算得到结构相似度。
其中,所述结构相似度的计算公式为:
SimilarityStructure=μ×O(V1,V2)+(1-μ)×O(E1,E2);
O(V1,V2)表示节点结构相似度,O(E1,E2)表示边结构相似度,μ表示预设的结构相似度计算系数。
进一步作为优选的实施方式,所述的语义相似度计算,其具体为:
对两个中心连通子图的节点集合中的语义信息,计算其之间的距离,作为语义相似度。
参考图3,本发明一种基于中心连通子图的相似实体识别系统,包括:
转换单元,用于将需要比较的实体转化为通过中心连通子图进行描述;
相似度计算单元,用于对中心连通子图进行相似度计算,得到总相似度;
相似度判断单元,用于判断总相似度是否大于预设的相似度阈值,若是,则判定为相似;反之,则判定为不相似。
进一步作为优选的实施方式,所述相似度计算单元包括:
获取单元,用于获取输入的两个中心连通子图;
结构语义计算单元,用于对两个中心连通子图进行结构相似度计算和语义相似度计算,得到结构相似度和语义相似度;
总计算单元,用于根据结构相似度和语义相似度,对其进行加权计算,计算得到总相似度。
进一步作为优选的实施方式,所述的结构相似度计算,其具体包括:
节点结构相似度计算单元,用于对两个中心连通子图的节点集合中的结构信息进行相似性比较,计算其之间的距离,得到节点结构相似度;
边结构相似度计算单元,用于对两个中心连通子图的边进行相似性比较,计算其之间的距离,得到边结构相似度;
根据节点结构相似度和边结构相似度,计算得到结构相似度。
进一步作为优选的实施方式,所述的语义相似度计算,其具体为:
对两个中心连通子图的节点集合中的语义信息,计算其之间的距离,作为语义相似度。
本发明实施例中,采用有向图描述数据库具体如下:
G=<V,E>:有向无环图(DAG),表示数据库的关系图,其中
vi:图中的一个节点,对应数据库中的一个表i。
V={v1,v2,···,vk|1≤k≤n}:图中的点集,表示数据库中所有表的集合。
e=(vi,vj):图中的一条有向边,表示数据库中表ti外键引用表tj。其中ti:表示数据库中的一个表,T:表示数据库中表的集合。
E={(vi,vj)|1≤i,j≤n,i≠j}:图中的边集,表示数据库中所有外键引用关系以及逻辑依赖关系的集合。
实体是对物理或抽象存在的事物的一个描述。因此,对事物的不同方面的描述应该是能够唯一地关联和绑定在一起,形成对实体的相对更加全面的刻画。
参考图4,实体的映射图是一个中心连通图,即该图中存在一个中心节点,对图中任何一个点,都存在一条从该点到中心节点的路径。中心连通图数学化描述如下:
对于一个图G=<V,E>,G是一个中心连通图当且仅当 至少存在一条从v到v_0的路径。基于此,一个图中的每一个中心连通子图可能都对应一个实体。
在此描述方式下,本发明假设已知中心连通子图是一个实体,具有实体的结构信息及其语义信息。
描述模型当中,节点包括表结构信息及语义信息,以数据表的外键关系为边与以数据库表结构及语义信息为节点构建图描述模型。将图中所有中心连通子图提取出来,进行相似性比较。
本发明实施例中,将需要比较的实体转化为通过中心连通子图进行描述,将数据库中表的结构及语义信息都包含到节点中,具体的节点描述如下:
节点包括表结构部分及语义部分:
1、结构信息:
结构部分主要是节点包含对应数据表的所有信息,包括表结构、字段、字段类型、具体值等信息。
2、语义信息:
将节点对应的数据表及其属性进行规范化定义,将其语义信息包含到节点当中。数据项是指数据表中的一个属性,数据项的语义与它所属的数据表的语义环境相关,数据项的语义信息存在语义及应用场景的特定条件约束。
一个数据项(属性)Si的语义可表示为一个四元关系组:
Si=<Table,Name,IsKey,Constraint>,其中Table是属性所在的数据表名,Name是属性名称,IsKey表示是否为主键,Constraint是属性的约束条件。
一个数据表St的语义可表示为一个三元关系组:
St=<Tablename,Context,DataItems>,Tablename是数据表的名称,Context是数据表所在的应用语境,DataItems是数据表所有数据项(属性)的集合,存在一定的隐含约束条件。
因此,节点V=(St,Items),其中数据表的语义关系St,数据项信息Items={S,T},数据项的语义关系集合S={S1,S2,…,Si,…,Sn},数据项的结构信息集合T={T1,T2,…,Tn},数据项结构信息Ti=(Table,Name,Value,ValClass),其中Table是属性所在的数据表名,Name是属性名称,Value是数据项值向量,ValClass是数据项值类型。
从上述内容可知,本发明一种基于中心连通子图的相似实体识别方法及系统通过将实体转换为中心连通子图,从而能进行整体的相似计算,相对于现有技术中的只能针对于数据库,所研究的实体更为抽象,应用更加广泛,而且本发明还能结合结构和语义信息进行相似性的比较,有效提高相似性计算的准确性。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种基于中心连通子图的相似实体识别方法,其特征在于,包括以下步骤:
将需要比较的实体转化为通过中心连通子图进行描述;
对中心连通子图进行相似度计算,得到总相似度;
判断总相似度是否大于预设的相似度阈值,若是,则判定为相似;反之,则判定为不相似。
2.根据权利要求1所述的一种基于中心连通子图的相似实体识别方法,其特征在于:所述的对中心连通子图进行相似度计算,得到总相似度,这一步骤具体包括:
获取输入的两个中心连通子图;
对两个中心连通子图进行结构相似度计算和语义相似度计算,得到结构相似度和语义相似度;
根据结构相似度和语义相似度,对其进行加权计算,计算得到总相似度。
3.根据权利要求2所述的一种基于中心连通子图的相似实体识别方法,其特征在于:所述的结构相似度计算,其具体包括:
对两个中心连通子图的节点集合中的结构信息进行相似性比较,计算其之间的距离,得到节点结构相似度;
对两个中心连通子图的边进行相似性比较,计算其之间的距离,得到边结构相似度;
根据节点结构相似度和边结构相似度,计算得到结构相似度。
4.根据权利要求2所述的一种基于中心连通子图的相似实体识别方法,其特征在于:所述的语义相似度计算,其具体为:
对两个中心连通子图的节点集合中的语义信息,计算其之间的距离,作为语义相似度。
5.一种基于中心连通子图的相似实体识别系统,其特征在于,包括:
转换单元,用于将需要比较的实体转化为通过中心连通子图进行描述;
相似度计算单元,用于对中心连通子图进行相似度计算,得到总相似度;
相似度判断单元,用于判断总相似度是否大于预设的相似度阈值,若是,则判定为相似;反之,则判定为不相似。
6.根据权利要求5所述的一种基于中心连通子图的相似实体识别系统,其特征在于:所述相似度计算单元包括:
获取单元,用于获取输入的两个中心连通子图;
结构语义计算单元,用于对两个中心连通子图进行结构相似度计算和语义相似度计算,得到结构相似度和语义相似度;
总计算单元,用于根据结构相似度和语义相似度,对其进行加权计算,计算得到总相似度。
7.根据权利要求6所述的一种基于中心连通子图的相似实体识别系统,其特征在于:所述的结构相似度计算,其具体包括:
节点结构相似度计算单元,用于对两个中心连通子图的节点集合中的结构信息进行相似性比较,计算其之间的距离,得到节点结构相似度;
边结构相似度计算单元,用于对两个中心连通子图的边进行相似性比较,计算其之间的距离,得到边结构相似度;
根据节点结构相似度和边结构相似度,计算得到结构相似度。
8.根据权利要求6所述的一种基于中心连通子图的相似实体识别系统,其特征在于:所述的语义相似度计算,其具体为:
对两个中心连通子图的节点集合中的语义信息,计算其之间的距离,作为语义相似度。
CN201710170682.4A 2017-03-21 2017-03-21 一种基于中心连通子图的相似实体识别方法及系统 Pending CN107133257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710170682.4A CN107133257A (zh) 2017-03-21 2017-03-21 一种基于中心连通子图的相似实体识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710170682.4A CN107133257A (zh) 2017-03-21 2017-03-21 一种基于中心连通子图的相似实体识别方法及系统

Publications (1)

Publication Number Publication Date
CN107133257A true CN107133257A (zh) 2017-09-05

Family

ID=59721710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710170682.4A Pending CN107133257A (zh) 2017-03-21 2017-03-21 一种基于中心连通子图的相似实体识别方法及系统

Country Status (1)

Country Link
CN (1) CN107133257A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886107A (zh) * 2017-09-26 2018-04-06 赵淦森 一种大数据的融合方法、系统和装置
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
WO2020168901A1 (zh) * 2019-02-19 2020-08-27 阿里巴巴集团控股有限公司 一种数据计算方法及引擎
CN113743467A (zh) * 2021-08-03 2021-12-03 浙江工商大学 基于最大公共子图计算的用例图相似性判断方法
US11500876B2 (en) 2020-04-29 2022-11-15 International Business Machines Corporation Method for duplicate determination in a graph
US11531656B1 (en) 2021-06-08 2022-12-20 International Business Machines Corporation Duplicate determination in a graph
US11941056B2 (en) 2020-04-29 2024-03-26 International Business Machines Corporation Method for weighting a graph

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482876A (zh) * 2008-12-11 2009-07-15 南京大学 基于权重的链接多属性的实体识别方法
US20140250120A1 (en) * 2011-11-24 2014-09-04 Microsoft Corporation Interactive Multi-Modal Image Search
CN104239553A (zh) * 2014-09-24 2014-12-24 江苏名通信息科技有限公司 一种基于Map-Reduce框架的实体识别方法
CN105045826A (zh) * 2015-06-29 2015-11-11 华东师范大学 一种基于图模型的实体链接算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482876A (zh) * 2008-12-11 2009-07-15 南京大学 基于权重的链接多属性的实体识别方法
US20140250120A1 (en) * 2011-11-24 2014-09-04 Microsoft Corporation Interactive Multi-Modal Image Search
CN104239553A (zh) * 2014-09-24 2014-12-24 江苏名通信息科技有限公司 一种基于Map-Reduce框架的实体识别方法
CN105045826A (zh) * 2015-06-29 2015-11-11 华东师范大学 一种基于图模型的实体链接算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙琛琛等: "面向关联数据的联合式实体识别方法", 《计算机学报》 *
王卓: "《基于可靠性的海洋机器人软件建模方法及仿真》", 30 April 2010, 国防工业出版社 *
黎玲利: "实体识别关键技术的研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886107A (zh) * 2017-09-26 2018-04-06 赵淦森 一种大数据的融合方法、系统和装置
CN107886107B (zh) * 2017-09-26 2021-03-30 赵淦森 一种大数据的融合方法、系统和装置
CN108763321A (zh) * 2018-05-02 2018-11-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN108763321B (zh) * 2018-05-02 2021-07-06 深圳智能思创科技有限公司 一种基于大规模相关实体网络的相关实体推荐方法
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN108804599B (zh) * 2018-05-29 2022-01-04 浙江大学 一种相似交易模式的快速查找方法
TWI723535B (zh) * 2019-02-19 2021-04-01 開曼群島商創新先進技術有限公司 資料計算方法及引擎
WO2020168901A1 (zh) * 2019-02-19 2020-08-27 阿里巴巴集团控股有限公司 一种数据计算方法及引擎
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
US11500876B2 (en) 2020-04-29 2022-11-15 International Business Machines Corporation Method for duplicate determination in a graph
US11941056B2 (en) 2020-04-29 2024-03-26 International Business Machines Corporation Method for weighting a graph
US11531656B1 (en) 2021-06-08 2022-12-20 International Business Machines Corporation Duplicate determination in a graph
CN113743467A (zh) * 2021-08-03 2021-12-03 浙江工商大学 基于最大公共子图计算的用例图相似性判断方法
CN113743467B (zh) * 2021-08-03 2024-01-12 浙江工商大学 基于最大公共子图计算的用例图相似性判断方法

Similar Documents

Publication Publication Date Title
CN107133257A (zh) 一种基于中心连通子图的相似实体识别方法及系统
CN104598569B (zh) 一种基于关联规则的mbd数据集完整性检查方法
CN105550268B (zh) 大数据流程建模分析引擎
Rhee et al. Active and semi-supervised learning for object detection with imperfect data
CN106126577A (zh) 一种基于数据源划分矩阵的加权关联规则挖掘方法
CN105740891B (zh) 基于多层次特征提取和上下文模型的目标检测
CN106971205A (zh) 一种基于k近邻互信息估计的嵌入式动态特征选择方法
CN102402615B (zh) 一种基于结构化查询语言语句的源信息追踪方法
WO2019001429A1 (zh) 一种多源数据融合方法和装置
Gadepally et al. Big data dimensional analysis
CN102663447B (zh) 基于判别相关分析的跨媒体检索方法
Liu et al. A new classification algorithm using mutual nearest neighbors
KR20190053616A (ko) 빅데이터 분석을 위한 데이터 병합 장치 및 방법
CN104216993A (zh) 一种标签共现的标签聚类方法
CN105975547A (zh) 基于内容与位置特征的近似web文档检测方法
CN112508269A (zh) 法律判决预测方法及系统
CN105279524A (zh) 基于无权超图分割的高维数据聚类方法
WO2016004744A1 (zh) 基于复杂对应系统的用户行为一致性度测量方法
Li et al. Symmetry discovery and retrieval of nonrigid 3D shapes using geodesic skeleton paths
Rajkumar et al. Dynamic web page segmentation based on detecting reappearance and layout of tag patterns for small screen devices
Cao et al. A bootstrapping framework with interactive information modeling for network alignment
Wang et al. Dominant skyline query processing over multiple time series
Kim et al. Inference of relevant BIM objects using CNN for visual-input based auto-modeling
Chittor Sundaram et al. Harnessing spatio‐temporal patterns in data for nominal attribute imputation
KR20150057497A (ko) 온라인 텍스트 문서의 계층적 트리 기반 주제탐색 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170905