CN105786980A - 对描述同一实体的不同实例进行合并的方法、装置及设备 - Google Patents

对描述同一实体的不同实例进行合并的方法、装置及设备 Download PDF

Info

Publication number
CN105786980A
CN105786980A CN201610084741.1A CN201610084741A CN105786980A CN 105786980 A CN105786980 A CN 105786980A CN 201610084741 A CN201610084741 A CN 201610084741A CN 105786980 A CN105786980 A CN 105786980A
Authority
CN
China
Prior art keywords
node
connection
relationship
module
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610084741.1A
Other languages
English (en)
Other versions
CN105786980B (zh
Inventor
杨扬
穆冠宇
华能威
张伟
吴嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201610084741.1A priority Critical patent/CN105786980B/zh
Publication of CN105786980A publication Critical patent/CN105786980A/zh
Priority to US16/046,166 priority patent/US11544578B2/en
Priority to PCT/CN2017/072995 priority patent/WO2017137000A1/zh
Application granted granted Critical
Publication of CN105786980B publication Critical patent/CN105786980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对描述同一实体的不同实例进行合并的方法、装置及设备。所述方法包括:获取包含多个实例的连接图,其中,连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;基于实例关系,识别出连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新连接图;在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接实例对所对应的节点的连线;迭代执行基于实例关系更新连接图的步骤和在更新后的连接图中增添连线的步骤,直到满足指定条件。利用本发明的方法、装置及设备能够较为充分地挖掘出描述同一实体的实例对。

Description

对描述同一实体的不同实例进行合并的方法、装置及设备
技术领域
本发明总体上涉及计算机技术领域,特别是涉及一种对描述同一实体的不同实例进行合并的方法、装置及设备。
背景技术
知识图谱旨在描述真实世界中存在的各种实体或概念。知识图谱中的每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。每个属性-值对(attribute-valuepair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。
在知识图谱的构建过程中,需要用到不同来源的数据来构建图谱中的实体及关系,例如,为了使得构建的知识图谱可以更加全面,可以用来自百度百科、维基百科、搜狗百科等多种百科类站点来源的数据来构建知识图谱。而实体在不同来源数据中往往会存在差异化、表述不同的实例。直接使用未融合的实例数据将给知识图谱带来冗余和错误信息,因此对描述相同实体的不同实例进行融合是知识图谱构建中一个重要的任务和步骤。
目前常见的融合方法主要是通过计算不同实例间的属性相似度,将属性相似度超过阈值的实例对进行融合。这种融合方法虽然在一定程度上也能识别出描述同一实体的不同实例,但是由于这种融合方法仅以属性相似度作为融合实例的标准,使得其对融合过程中所使用的属性模糊匹配规则的要求比较高,在所使用的属性模糊匹配规则设置不完善的情况下,很容易将表述同一实体的实例对识别为不同的实例,对知识图谱的构建带来冗余的数据。
由此,需要一种可以较为充分地识别出描述同一实体的不同实例的方案。
发明内容
本发明主要解决的技术问题是提供一种对描述同一实体的不同实例进行合并的方法、装置及设备,其能够较为充分地识别出描述同一实体的实例对。
根据本发明的一个方面,提供了一种计算设备,包括:存储器,用于存储包含多个实例的连接图,其中,连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;处理器,与存储器相连接,处理器能够从存储器获取连接图,该处理器配置为:基于实例关系,识别出连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新连接图;在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接实例对所对应的节点的连线;迭代执行基于实例关系更新连接图的步骤和在更新后的连接图中增添连线的操作,直到满足指定条件。
由此,本发明的设备采用连接图的方式对多个待判定实例中的等价实例进行合并。而在合并的过程中又利用了实例关系,并基于合并后的图模型,扩充实例关系,然后迭代执行上述合并、扩充的步骤,使得可以较为充分地挖掘出连接图中存在的等价实例。
根据本发明的另一个方面,提供了一种对描述同一实体的不同实例进行合并的装置,包括:获取模块,用于获取包含多个实例的连接图,其中,连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;合并模块,用于基于实例关系,识别出连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新连接图;扩充模块,用于在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接实例对所对应的节点的连线;迭代模块,用于使得合并模块和扩充模块迭代执行更新连接图的操作和增添连线的操作,直到满足指定条件。
可选地,上述装置中述及的扩充模块可以包括:关联度计算模块,用于对于更新后的连接图中的任一节点,计算该节点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之间的关联度,其中N大于等于1;第一识别模块,用于将关联度达到预定关联度阈值的两个节点所对应的实例对识别为存在实例关系的实例对,并增添连接这两个节点之间的连线。由于等价实例的合并,合并后的连接图中的实例关系也会发生一定的变化。此时,可以通过计算节点间的关联度,来发现存在实例关系的实例对。
可选地,上述装置中述及的指定条件可以设定为,扩充模块在更新后的连接图中识别出的未发现的存在实例关系的实例对的数目为零。
可选地,上述装置中述及的合并模块可以包括:分组模块,用于对多个实例进行分组;相似度计算模块,用于针对每个分组,基于实例关系计算组内任意两个实例之间的相似度;第二识别模块,用于将相似度达到预定相似度阈值的实例对识别为描述同一实体的实例对。
可选地,对于来自不同来源的两个实例,相似度计算模块可以根据以下公式计算这两个实例之间的相似度Sim:
Sim=Jacij/Uniq
Jac i j = C i ∩ C j C i ∪ C j
Uniq=Log(Max(CntsourceA,i,CntsourceB,j)+1)
其中,Ci为与实例i具有实例关系的实例集合,Cj为与实例j具有实例关系的实例集合,Jacij为实例i、j之间的实例关系相似度,Uniq为实例的唯一性度量,CntsourceA,i为实例i在来源A中的同名实例的个数、CntsourceB,j为实例j在来源B中的同名实例的个数。
可选地,上述装置中述及的获取模块还可以包括:属性相似度计算模块可以计算连接图中任意两个节点所对应的实例之间的属性相似度;和第二合并模块,可以将属性相似度超过预定属性相似度阈值的两个实例所对应的节点合并为一个节点。
根据本发明的另一个方面,提供了一种对描述同一实体的不同实例进行合并的方法,该方法包括:获取包含多个实例的连接图,其中,连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;基于实例关系,识别出连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新连接图;在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接实例对所对应的节点的连线;迭代执行基于实例关系更新连接图的步骤和在更新后的连接图中增添连线的步骤,直到满足指定条件。
可选地,上述方法中述及的在更新后的连接图中识别出未发现的存在实例关系的实例对的步骤可以包括:对于更新后的连接图中的任一节点,计算该节点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之间的关联度,其中N大于等于1;将关联度达到预定关联度阈值的两个节点所对应的实例对识别为存在实例关系的实例对,增添连接这两个节点之间的连线。
可选地,上述方法中述及的指定条件可以设定为,在更新后的连接图中识别出的未发现的存在实例关系的实例对的数目为零。
可选地,上述方法中述及的基于实例关系,识别出连接图中描述同一实体的不同实例的步骤可以包括:对多个实例进行分组;针对每个分组,基于实例关系计算组内任意两个实例之间的相似度;将相似度达到预定相似度阈值的实例对识别为描述同一实体的实例对。
可选地,对于来自不同来源的两个实例,可以根据以下公式计算这两个实例之间的相似度Sim:
Sim=Jacij/Uniq
Jac i j = C i ∩ C j C i ∪ C j
Uniq=Log(Max(CntsourceA,i,CntsourceB,j)+1)
其中,Ci为与实例i具有实例关系的实例集合,Cj为与实例j具有实例关系的实例集合,Jacij为实例i、j之间的实例关系相似度,Uniq为实例的唯一性度量,CntsourceA,i为实例i在来源A中的同名实例的个数、CntsourceB,j为实例j在来源B中的同名实例的个数。
可选地,上述方法中述及的获取包含多个实例的连接图的步骤还可以包括:计算连接图中任意两个节点所对应的实例之间的属性相似度;和将属性相似度超过预定属性相似度阈值的两个实例所对应的节点合并为一个节点。
本发明的对描述同一实体的不同实例进行合并的方法、装置及设备采用图模型的方式对多个实例中的等价实例进行合并,其中,在合并的过程中利用了图模型中存在的实例关系,并基于合并后的图模型扩充实例关系,然后再基于扩充的实例关系进一步发现图模型中存在的等价实例,以此类推,迭代执行上述合并、扩充的步骤,使得基于本发明的方案可以较为充分地识别出描述同一实体的实例对。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了本发明述及的连接图的示意图。
图2示出了根据本发明一实施例的计算设备的结构示意图。
图3示出了根据本发明一实施例的对描述同一实体的不同实例进行合并的装置的功能模块示意图。
图4示出了根据本发明另一实施例的对描述同一实体的不同实例进行合并的装置的功能模块示意图。
图5示出了根据本发明一实施例的对描述同一实体的不同实例进行合并的方法的示意性流程图。
图6示出了图5中的步骤S110可以包括的子步骤的示意性流程图。
图7示出了图5中的步骤S120可以包括的子步骤的示意性流程图。
图8示出了图5中的步骤S130可以包括的子步骤的示意性流程图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在介绍本发明前,首先对本发明涉及的几个概念做以简要说明。
实体:知识图谱中的知识单元,具有唯一确定的ID标识。
实例:在构建知识图谱中的实体的过程中用到的各种来源的数据。
实例关系:实例间存在的关系,对于不同的数据来源,这里的关系可以是属性关系、引用关系、链接关系等多种关系。
同名实例:名称相同,但描述的实体(内容)不同的实例。
等价实例:描述同一实体(内容)的实例。
举例来说,百度百科中的各种词条就是实例。百度百科中的词条“李宁”是一个多义词,有指代著名体操运动员的李宁,也有指代魔术师的李宁。这里,指代魔术师的李宁和指代体操运动员的李宁就是一个同名实例。在指代著名体操运动员的李宁的词条下,还存在着“奥运冠军”、“金牌”等词条,这里,我们就可以认为“李宁”和“奥运冠军”、“金牌”存在实例关系。而百度百科中指代体操运动员的“李宁”和搜狗百科中的“体操王子”就属于等价实例。
本发明主要提出了一种在众多实例中识别等价实例的方案。该方案主要基于连接图的方式识别出等价实例,并不断对连接图进行更新,以识别出更多的等价实例。
具体地说,可以首先构建包含多个实例的连接图,如图1所示,连接图中的节点表示实例,节点间的连线表示实例关系。对于连接图中的多个实例,可以根据连接图中存在的实例关系,识别出存在的等价实例,对识别出的等价实例所对应的节点进行合并。其中,在根据实例关系对连接图中的节点进行合并后,可以基于一定的识别规则,找出连接图中未发现的实例关系,根据所找到的实例关系更新连接图。然后重复执行上述基于实例关系找到等价实例的步骤和基于合并后的连接图,寻找未发现的实例关系的步骤,直到满足指定条件。
这里的指定条件可以是找不到新的实例关系或找不到新的等价实例或重复步骤达到一定次数,当然还可以是其它指定条件。另外,对本方案中的对等价实例进行合并并更新连接图的步骤来说,可以是在对连接图中的所发现的等价实例全部合并后再更新连接图。
本发明的方案可以实现为一种如图2所示的计算设备。该计算设备可以配置为包括存储器1和处理器2。存储器1可以存储包含多个实例的连接图。处理器2与存储器1连接,可以从存储器1获取连接图,并可以执行实现上述方案中的相关步骤的操作。
本发明的方案还可以实现为一种包含多个功能模块的装置。其中,图2示出的处理器2的功能可以由该装置中相应的功能模块实现。
参见图3,本发明的对描述同一实体的不同实例进行合并的装置可以包括获取模块21、合并模块22、扩充模块23以及迭代模块24。其中,获取模块21、合并模块22、扩充模块23以及迭代模块24可以执行实现上述方案中的相应步骤的操作。简单地说,获取模块21可以获取连接图。合并模块22可以基于连接图中存在的实例关系识别出连接图中存在的等价实例,并对识别到的等价实例所对应的节点进行合并。扩充模块23可以识别出连接图中未发现的实例关系。迭代模块24可以使得合并模块22和扩充模块23迭代执行相应的操作,直到满足指定条件。
参见图4,获取模块21可以包括属性相似度计算模块211和第二合并模块212。合并模块22可以包括分组模块221、相似度计算模块222以及第二识别模块223。扩充模块23可以包括关联度计算模块231和第一识别模块232。对于图4所示的结构来说,获取模块21、合并模块22及扩充模块23的功能可以由其包括的相应子模块实现,此处暂不做具体描述。
图5至图8详细示出了执行本发明的方案的流程图。其中,图5至图8所示的各个步骤都可以由上文提及的处理器或装置中的相应的功能模块实现,下面结合图5至图8对本发明的方案的工作流程进行详细说明。
参见图5,在步骤S110,由处理器2或者获取模块21,获取包含多个实例的连接图。
这里述及的获取连接图的步骤可以是获取事先构建好的连接图。例如,可以事先根据多个实例构建连接图,然后存储在存储器中,需要处理时,由处理器2或获取模块21从存储器获取。
也可以是根据需要判定的实例数据构建连接图。例如,可以根据待判定的多个实例数据及实例数据中存在的实例关系,构建连接图。对于构建好的连接图,可以将其存储在存储器中,需要处理时,再由处理器2或获取模块21从存储器获取连接图,当然也可以将构建好的连接图直接发送给处理器2或获取模块21。
在执行步骤S110的过程中,还可以基于一定的识别规则识别出连接图中存在的等价实例,并合并等价实例所对应的节点。这里述及的识别规则可以是现有的识别等价实例的规则,如可以是图6所示的属性相似度的识别方式。
如图6所示,在步骤S1110,由处理器2或者由获取模块21中的属性相似度计算模块211计算连接图中任意两个节点所对应的实例间的属性相似度。
在步骤S1120,由处理器2或者由获取模块21中的第二合并模块212将属性相似度超过预定属性相似度阈值的实例所对应的节点合并为一个节点。
应该知道,在步骤S110中对连接图中的节点进行合并的步骤(步骤S110、步骤S1120)是本发明的一个可选方案,这样使得可以基于现有的计算方式初步发现连接图中存在的等价实例,并对其进行合并,以降低后续步骤的复杂度。
返回步骤S110,在执行完步骤S110后,就可以执行步骤S120,由处理器2或者由合并模块21,基于实例关系,识别出连接图中描述同一实体的不同实例(即等价实例),对识别出的等价实例所对应的节点进行合并,并更新连接图。
其中,可以有多种基于实例关系识别连接图中的等价实例的方式。例如,可以在计算实例间的相似度的过程中,将与当前实例存在实例关系的实例参与到相似度的计算的过程中,然后将相似度超过阈值的实例对识别为等价实例。
图7示出了一种基于实例关系识别出等价实例的具体实施方式。
如图7所示,在步骤S1210,由处理器2或者由合并模块22中的分组模块221,对连接图中的多个实例进行分组。
其中,可以有多种分组方式,如可以根据名称进行分组,还可以根据属性值进行。当然根据具体情况,还有其它分组方式,此处不再赘述。
在步骤S1220,针对每个分组,可以由处理器2或者由分组模块22中的相似度计算模块222,基于实例关系计算组内任意两个实例之间的相似度。
其中,对于来自不同数据来源的两个实例来说,可以根据下述公式计算这两个实例间的相似度Sim:
Sim=Jacij/Uniq
Jac i j = C i ∩ C j C i ∪ C j
Uniq=Log(Max(CntsourceA,i,CntsourceB,j)+1)
其中,Ci为与实例i具有实例关系的实例集合,Cj为与实例j具有实例关系的实例集合,Jacij为实例i、j之间的实例关系相似度,Uniq为实例的唯一性度量,CntsourceA,i为实例i在来源A中的同名实例的个数、CntsourceB,j为实例j在来源B中的同名实体的个数。
其中,对于不同来源的实例数据来说,上述公式可以有不同形式的变形。以实例数据来源为百科词条来说,可以基于下列公式计算来自不同百科的两个实例间的相似度Sim:
Sim=(α×Jacout+(1-α)×Jacin)/Uniq
Jac o u t = C i o u t ∩ C j o u t C i o u t ∪ C j o u t , Jac i n = C i i n ∩ C j i n C i i n ∩ C j i n
Uniq=Log(Max(CntsourceA,i,CntsourceB,j)+1)
其中,α为权重系数,Ciout为待判定实例i链出的实例的个数,Cjout为待判定实例j链出的实例的个数,Ciin为待判定实例i被链入的实例的个数,Cjin为待判定实例j被链入的实例的个数,Jacout为待判定实例i、j链出的实例的相似度,Jacin为待判定实例i、j被链入的实体的相似度,Uniq为实例的唯一性度量,CntsourceA,i为待判定实例i在来源A中的同名实例的个数、CntsourceB,j为待判定实例j在来源B中的同名实体的个数。
以百度百科和搜狗百科为例对上述变形公式加以说明。以百度百科中的词条“李宁”和搜狗百科中的词条“李宁”来说。在百度百科中,词条“李宁”具有60个同名实例,在搜狗百科中,词条“李宁”具有52个同名实例。而对于表示体操运动员的“李宁”,该词条在百度百科中存在着“奥运冠军”、“金牌”、“自由体操”等内链词条,这些词条与“李宁”就存在实例关系,这些词条就可以看成是词条“李宁”的链出的词条(实例)。而词条“体操王子”下存在词条“李宁”,此时,“体操王子”就是“李宁”被链入的词条(实例),词条“体操王子”与词条“李宁”也存在实例关系。此时,基于上述变形公式就可以计算出百度百科中的词条“李宁”和搜狗百科中的词条“李宁”之间的相似度。
其中,上述计算公式可以在分布式计算平台如SPARK上并行实现,达到大规模并行化图计算的目的。另外,应该知道,对于其它来源的实例数据来说,还可以有其它基于实例关系计算相似度的方式,此处不再赘述。
在步骤S1230,由处理器2或者由分组模块22中的第二识别模块223将相似度达到预定相似度阈值的实例对识别为等价实例。由此,就可以基于实例关系识别出连接图中存在的等价实例。
下面返回步骤S120,在执行完步骤S120后,就可以执行步骤S130,由处理器2或者由扩充模块23,在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接实例对所对应的节点的连线。
对于执行步骤S120后的连接图,由于等价实例的合并,合并后的连接图中的实例关系也会发生一定的变化。此时,可以使用一定的识别规则识别出连接图中新增的存在实例关系的实例对。
图8示出了一种识别出连接图中未发现的实例关系的具体实施方式。
如图8所示,在步骤S1310,对于更新后的连接图中的任一节点,由处理器2或者由扩充模块23中的关联度计算模块231计算该节点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之间的关联度,N大于等于1。
在步骤S1320,由处理器2或者由扩充模块23中的第一识别模块232将关联度达到预定关联度阈值的两个节点所对应的实例对识别为存在实例关系的实例对,增添连接这两个节点之间的连线。
其中,可以有多种计算关联度的方式。例如,对于图1中的节点D和节点L来说,节点D和节点L通过节点A、节点E两个节点进行连接,这样就可以通过分析节点A和节点E之间的相似度的大小,来判断节点D和E之间是否存在关联度。
下面返回步骤S130,对于经过步骤S130扩充后实例关系的连接图,可以执行步骤S140,由处理器2或者可以由迭代模块24判断是否满足指定条件,在不满足指定条件的情况下,返回步骤S120,重复执行S120、S130、S140的步骤。直至满足指定条件,输出合并后的连接图。
其中,步骤S140中的指定条件可以是重复执行步骤S120、S130、S140的次数达到一定值。也可以是在重复执行步骤S120、S130、S140的过程中,在步骤S120,在扩充后实例关系的连接图中找不到新的等价实例(作为优选,可以是步骤S120连续多次识别不到新的等价实例)。还可以是在S130的执行过程中,找不到新的实例关系。作为优选,可以将在S130的执行过程中,找不到新的实例关系作为指定条件。
至此,参考附图详细描述了根据本发明的对描述同一实体的不同实例进行合并的方法、装置及设备。通过上述描述可知,本发明的对描述同一实体的不同实例进行合并的方法、装置及设备采用图模型的方式对多个实例中的等价实例进行合并。其中,在合并的过程中利用了图模型中存在的实例关系,并基于合并后的图模型扩充实例关系,然后再基于扩充的实例关系进一步发现图模型中存在的等价实例,以此类推,迭代执行上述合并、扩充的步骤,使得图模型可以并行化传播,并使得基于本发明的方案可以更充分地挖掘出等价实例。
此外,根据本发明的方法还可以实现为一种计算机程序,该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (13)

1.一种计算设备,包括:
存储器,用于存储包含多个实例的连接图,其中,所述连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;以及
处理器,与所述存储器相连接,所述处理器能够从所述存储器获取所述连接图,该处理器配置为:
基于所述实例关系,识别出所述连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新所述连接图;
在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接所述实例对所对应的节点的连线;
迭代执行所述基于实例关系更新连接图的步骤和所述在更新后的连接图中增添连线的操作,直到满足指定条件。
2.一种对描述同一实体的不同实例进行合并的装置,包括:
获取模块,用于获取包含多个实例的连接图,其中,所述连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;
合并模块,用于基于所述实例关系,识别出所述连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新所述连接图;
扩充模块,用于在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接所述实例对所对应的节点的连线;
迭代模块,用于使得所述合并模块和所述扩充模块迭代执行更新所述连接图的操作和增添连线的操作,直到满足指定条件。
3.根据权利要求2所述的装置,其中,所述扩充模块包括:
关联度计算模块,用于对于更新后的连接图中的任一节点,计算该节点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之间的关联度,其中N大于等于1;
第一识别模块,用于将所述关联度达到预定关联度阈值的两个节点所对应的实例对识别为存在实例关系的实例对,并增添连接这两个节点之间的连线。
4.根据权利要求2或3所述的装置,其中,所述指定条件被设定为,
所述扩充模块在更新后的连接图中识别出的未发现的存在实例关系的实例对的数目为零。
5.根据权利要求1所述的装置,其中,所述合并模块包括:
分组模块,用于对所述多个实例进行分组;
相似度计算模块,用于针对每个分组,基于实例关系计算组内任意两个实例之间的相似度;
第二识别模块,用于将相似度达到预定相似度阈值的实例对识别为描述同一实体的实例对。
6.根据权利要求5所述的装置,其中,对于来自不同来源的两个实例,所述相似度计算模块根据以下公式计算这两个实例之间的相似度Sim:
Sim=Jacij/Uniq
Jac i j = C i ∩ C j C i ∪ C j
Uniq=Log(Max(CntsourceA,i,CntsourceB,j)+1)
其中,Ci为与实例i具有实例关系的实例集合,Cj为与实例j具有实例关系的实例集合,Jacij为实例i、j之间的实例关系相似度,Uniq为实例的唯一性度量,CntsourceA,i为实例i在来源A中的同名实例的个数、CntsourceB,j为实例j在来源B中的同名实例的个数。
7.根据权利要求1所述的装置,其中,所述获取模块还包括:
属性相似度计算模块,用于计算连接图中任意两个节点所对应的实例之间的属性相似度;和
第二合并模块,用于将所述属性相似度超过预定属性相似度阈值的两个实例所对应的节点合并为一个节点。
8.一种对描述同一实体的不同实例进行合并的方法,包括:
获取包含多个实例的连接图,其中,所述连接图中的不同节点表示不同实例,节点间的连线表示节点所对应的实例之间的实例关系;
基于所述实例关系,识别出所述连接图中描述同一实体的不同实例,对识别出的实例所对应的节点进行合并,并更新所述连接图;
在更新后的连接图中识别出未发现的存在实例关系的实例对,并增添用以连接所述实例对所对应的节点的连线;
迭代执行所述基于所述实例关系更新所述连接图的步骤和所述在更新后的连接图中增添连线的步骤,直到满足指定条件。
9.根据权利要求8所述的方法,其中,所述在更新后的连接图中识别出未发现的存在实例关系的实例对的步骤包括:
对于更新后的连接图中的任一节点,计算该节点所对应的实例和与该节点通过N个节点进行连接的节点所对应的实例之间的关联度,其中N大于等于1;
将所述关联度达到预定关联度阈值的两个节点所对应的实例对识别为存在实例关系的实例对,增添连接这两个节点之间的连线。
10.根据权利要求8或9所述的方法,其中,所述指定条件被设定为,
在更新后的连接图中识别出的未发现的存在实例关系的实例对的数目为零。
11.根据权利要求8所述的方法,其中,所述基于实例关系,识别出连接图中描述同一实体的不同实例的步骤包括:
对所述多个实例进行分组;
针对每个分组,基于所述实例关系计算组内任意两个实例之间的相似度;
将相似度达到预定相似度阈值的实例对识别为描述同一实体的实例对。
12.根据权利要求11所述的方法,其中,对于来自不同来源的两个实例,根据以下公式计算这两个实例之间的相似度Sim:
Sim=Jacij/Uniq
Jac i j = C i ∩ C j C i ∪ C j
Uniq=Log(Max(CntsourceA,i,CntsourceB,j)+1)
其中,Ci为与实例i具有实例关系的实例集合,Cj为与实例j具有实例关系的实例集合,Jacij为实例i、j之间的实例关系相似度,Uniq为实例的唯一性度量,CntsourceA,i为实例i在来源A中的同名实例的个数、CntsourceB,j为实例j在来源B中的同名实例的个数。
13.根据权利要求8所述的方法,其中,所述获取包含多个实例的连接图的步骤还包括:
计算连接图中任意两个节点所对应的实例之间的属性相似度;和
将所述属性相似度超过预定属性相似度阈值的两个实例所对应的节点合并为一个节点。
CN201610084741.1A 2016-02-14 2016-02-14 对描述同一实体的不同实例进行合并的方法、装置及设备 Active CN105786980B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610084741.1A CN105786980B (zh) 2016-02-14 2016-02-14 对描述同一实体的不同实例进行合并的方法、装置及设备
US16/046,166 US11544578B2 (en) 2016-02-14 2017-02-06 Method, device and equipment for fusing different instances describing same entity
PCT/CN2017/072995 WO2017137000A1 (zh) 2016-02-14 2017-02-06 对描述同一实体的不同实例进行合并的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610084741.1A CN105786980B (zh) 2016-02-14 2016-02-14 对描述同一实体的不同实例进行合并的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN105786980A true CN105786980A (zh) 2016-07-20
CN105786980B CN105786980B (zh) 2019-12-20

Family

ID=56402221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610084741.1A Active CN105786980B (zh) 2016-02-14 2016-02-14 对描述同一实体的不同实例进行合并的方法、装置及设备

Country Status (3)

Country Link
US (1) US11544578B2 (zh)
CN (1) CN105786980B (zh)
WO (1) WO2017137000A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017137000A1 (zh) * 2016-02-14 2017-08-17 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
CN108038183A (zh) * 2017-12-08 2018-05-15 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质
CN108205564A (zh) * 2016-12-19 2018-06-26 北大方正集团有限公司 知识体系构建方法及系统
CN109145178A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 一种关系图处理方法及装置
CN109492027A (zh) * 2018-11-05 2019-03-19 南京邮电大学 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN109558468A (zh) * 2018-12-13 2019-04-02 北京百度网讯科技有限公司 资源的处理方法、装置、设备和存储介质
CN109597856A (zh) * 2018-12-05 2019-04-09 北京知道创宇信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110427436A (zh) * 2019-07-31 2019-11-08 北京百度网讯科技有限公司 实体相似度计算的方法及装置
CN110674360A (zh) * 2019-09-27 2020-01-10 厦门美亚亿安信息科技有限公司 一种用于数据关联图谱的构建和数据的溯源方法和系统
CN111191715A (zh) * 2019-12-27 2020-05-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111597351A (zh) * 2020-05-14 2020-08-28 上海德拓信息技术股份有限公司 可视化文档图谱构建方法
CN113705236A (zh) * 2021-04-02 2021-11-26 腾讯科技(深圳)有限公司 实体比较方法、装置、设备及计算机可读存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614162B2 (en) * 2016-05-27 2020-04-07 Ricoh Company, Ltd. Apparatus, system, and method of assisting information sharing, and recording medium
CN110298445A (zh) * 2019-05-30 2019-10-01 合肥阿拉丁智能科技有限公司 深度学习自主运行方法
US11275777B2 (en) 2019-08-22 2022-03-15 International Business Machines Corporation Methods and systems for generating timelines for entities
CN112579770A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 知识图谱的生成方法,装置,存储介质及设备
CN113160956A (zh) * 2021-04-21 2021-07-23 复旦大学附属中山医院 一种基于多身份数据融合的患者管理方法和系统
CN115203436B (zh) * 2022-07-15 2023-12-15 国网江苏省电力有限公司信息通信分公司 一种基于有向图数据融合的电力知识图谱构建方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1658234A (zh) * 2004-02-18 2005-08-24 国际商业机器公司 生成语义网络的分层可视化
US20090307213A1 (en) * 2008-05-07 2009-12-10 Xiaotie Deng Suffix Tree Similarity Measure for Document Clustering
CN101714142A (zh) * 2008-10-06 2010-05-26 易搜比控股公司 文件群集的合并方法
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN105045863A (zh) * 2015-07-13 2015-11-11 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105069039A (zh) * 2015-07-22 2015-11-18 山东大学 一种基于spark平台的内存迭代的重叠社区并行发现方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689526B2 (en) * 2007-01-25 2010-03-30 Fair Isaac Corporation Knowledge base with clustered data objects
TW201013426A (en) * 2008-09-19 2010-04-01 Esobi Inc Combination method for document clusters
US8335754B2 (en) * 2009-03-06 2012-12-18 Tagged, Inc. Representing a document using a semantic structure
CN101667201A (zh) * 2009-09-18 2010-03-10 浙江大学 基于树合并的Deep Web查询接口集成方法
US9461876B2 (en) * 2012-08-29 2016-10-04 Loci System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
CN104462084B (zh) * 2013-09-13 2019-08-16 Sap欧洲公司 基于多个查询提供搜索细化建议
US20150169758A1 (en) * 2013-12-17 2015-06-18 Luigi ASSOM Multi-partite graph database
CN104866625B (zh) 2015-06-15 2018-08-17 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105786980B (zh) 2016-02-14 2019-12-20 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
US10671668B2 (en) * 2016-07-11 2020-06-02 Hewlett Packard Enterprise Development Lp Inferring graph topologies

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1658234A (zh) * 2004-02-18 2005-08-24 国际商业机器公司 生成语义网络的分层可视化
US20090307213A1 (en) * 2008-05-07 2009-12-10 Xiaotie Deng Suffix Tree Similarity Measure for Document Clustering
CN101714142A (zh) * 2008-10-06 2010-05-26 易搜比控股公司 文件群集的合并方法
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN105045863A (zh) * 2015-07-13 2015-11-11 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105069039A (zh) * 2015-07-22 2015-11-18 山东大学 一种基于spark平台的内存迭代的重叠社区并行发现方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544578B2 (en) 2016-02-14 2023-01-03 Alibaba Group Holding Limited Method, device and equipment for fusing different instances describing same entity
WO2017137000A1 (zh) * 2016-02-14 2017-08-17 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
CN108205564A (zh) * 2016-12-19 2018-06-26 北大方正集团有限公司 知识体系构建方法及系统
CN108205564B (zh) * 2016-12-19 2021-04-09 北大方正集团有限公司 知识体系构建方法及系统
CN109145178A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 一种关系图处理方法及装置
CN108038183B (zh) * 2017-12-08 2020-11-24 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质
CN108038183A (zh) * 2017-12-08 2018-05-15 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质
US11782981B2 (en) 2017-12-08 2023-10-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, server, and storage medium for incorporating structured entity
CN109492027A (zh) * 2018-11-05 2019-03-19 南京邮电大学 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN109492027B (zh) * 2018-11-05 2022-02-08 南京邮电大学 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN109597856B (zh) * 2018-12-05 2020-12-25 北京知道创宇信息技术股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN109597856A (zh) * 2018-12-05 2019-04-09 北京知道创宇信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN109558468A (zh) * 2018-12-13 2019-04-02 北京百度网讯科技有限公司 资源的处理方法、装置、设备和存储介质
CN110427436A (zh) * 2019-07-31 2019-11-08 北京百度网讯科技有限公司 实体相似度计算的方法及装置
CN110427436B (zh) * 2019-07-31 2022-03-22 北京百度网讯科技有限公司 实体相似度计算的方法及装置
CN110674360A (zh) * 2019-09-27 2020-01-10 厦门美亚亿安信息科技有限公司 一种用于数据关联图谱的构建和数据的溯源方法和系统
CN111191715A (zh) * 2019-12-27 2020-05-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111597351A (zh) * 2020-05-14 2020-08-28 上海德拓信息技术股份有限公司 可视化文档图谱构建方法
CN113705236A (zh) * 2021-04-02 2021-11-26 腾讯科技(深圳)有限公司 实体比较方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
WO2017137000A1 (zh) 2017-08-17
US20190005392A1 (en) 2019-01-03
US11544578B2 (en) 2023-01-03
CN105786980B (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN105786980A (zh) 对描述同一实体的不同实例进行合并的方法、装置及设备
Baek et al. Learning to extrapolate knowledge: Transductive few-shot out-of-graph link prediction
WO2019238109A1 (zh) 一种故障根因分析的方法及装置
CN111339313A (zh) 一种基于多模态融合的知识库构建方法
JP7155739B2 (ja) Apiドキュメンテーションの収集
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN108304380B (zh) 一种融合学术影响力的学者人名消除歧义的方法
CN105824802A (zh) 一种获取知识图谱向量化表示的方法以及装置
CN107590139B (zh) 一种基于循环矩阵翻译的知识图谱表示学习方法
CN107391542A (zh) 一种基于文件知识图谱的开源软件社区专家推荐方法
CN105095969A (zh) 面向共享知识的自主学习模型
TWI590095B (zh) 軟體功能驗證系統及其驗證方法
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN111680498B (zh) 实体消歧方法、装置、存储介质及计算机设备
CN115879547A (zh) 基于lstm和注意力机制的开放世界知识图谱补全方法及系统
CN109086463A (zh) 一种基于区域卷积神经网络的问答社区标签推荐方法
CN116821373A (zh) 基于图谱的prompt推荐方法、装置、设备及介质
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
CN113158051B (zh) 一种基于信息传播和多层上下文信息建模的标签排序方法
CN110598003A (zh) 基于公共数据资源目录的知识图谱构建系统及构建方法
US7032192B2 (en) Performing latch mapping of sequential circuits
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN116383398A (zh) 一种专业领域术语实体词向量自校正方法、系统及装置
CN113419951B (zh) 人工智能模型优化方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200813

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01

Patentee before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right