CN113641707B - 知识图谱消歧方法、装置、设备及存储介质 - Google Patents

知识图谱消歧方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113641707B
CN113641707B CN202110851340.5A CN202110851340A CN113641707B CN 113641707 B CN113641707 B CN 113641707B CN 202110851340 A CN202110851340 A CN 202110851340A CN 113641707 B CN113641707 B CN 113641707B
Authority
CN
China
Prior art keywords
entity
spo
processed
candidate
candidate entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110851340.5A
Other languages
English (en)
Other versions
CN113641707A (zh
Inventor
方舟
冯知凡
陆超
张扬
朱勇
李莹
徐也
王述
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110851340.5A priority Critical patent/CN113641707B/zh
Publication of CN113641707A publication Critical patent/CN113641707A/zh
Application granted granted Critical
Publication of CN113641707B publication Critical patent/CN113641707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了知识图谱消歧方法、装置、设备及存储介质,其中方法包括:针对待处理的SPO,从知识库中拉取候选实体;分别获取各候选实体对应的预定特征;根据获取到的预定特征对各候选实体进行排序,选出排序后处于第一位的候选实体;将待处理的SPO中的O关联到选出的候选实体上。应用本发明所述方案,能够提高建边结果的准确性等。

Description

知识图谱消歧方法、装置、设备及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及基于人工智能的实体建边方法、装置、设备及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
在构建海量知识库的过程中,实体建边是极为重要的部分,可丰富知识图谱边关系,提高知识图谱连通度,还能够辅助知识理解等。在应用上可以支持搜索场景的关系推理,还可以支持展示实体卡片之间的关联关系等。
结构化实体,是大量主谓宾三元组(SPO)的集合,S即subject,P即predict,O即object。实体建边是指对SPO中的O进行实体消歧,在知识库中找到对应的相同概念的实体。
现有技术中提出了各种实体建边方式,如比较常用的有:通过机器学习方法将知识库中的实体与关系都转化为向量表达,向量之间的距离表示了实体与实体、实体与关系之间的联系等,但这种方式需要对所有实体与属性进行训练,训练时间较长,处理效率低下。
【发明内容】
有鉴于此,本发明提供了基于人工智能的实体建边方法、装置、设备及存储介质。
具体技术方案如下:
一种基于人工智能的实体建边方法,包括:
针对待处理的主谓宾三元组SPO,从知识库中拉取候选实体;
分别获取各候选实体对应的预定特征;
根据所述预定特征对各候选实体进行排序,选出排序后处于第一位的候选实体;
将所述待处理的SPO中的O关联到选出的候选实体上。
根据本发明一优选实施例,所述从知识库中拉取候选实体包括:
基于多维分区技术,从知识库中拉取候选实体。
根据本发明一优选实施例,所述多维分区技术包括:
基于schema分区、基于语义边关系分区、基于语义实体向量聚类分区以及基于模糊检索分区。
根据本发明一优选实施例,所述分别获取各候选实体对应的预定特征包括:
针对每个候选实体,分别获取所述候选实体对应的对特征pair_features以及组特征group_features;
所述pair_features为衡量所述待处理的SPO与所述候选实体之间的相似性的特征;
所述group_features为衡量包括所述待处理的SPO在内的一组SPO与所述候选实体之间的相似性的特征,所述一组SPO为从所述待处理的SPO所在的实体中抽取出的全部或部分SPO。
根据本发明一优选实施例,所述根据所述预定特征对各候选实体进行排序包括:
根据所述预定特征,利用排序模型对各候选实体进行排序。
根据本发明一优选实施例,该方法进一步包括:
在选出排序后处于第一位的候选实体之后,通过决策模型确定所述待处理的SPO中的O对应的实体是否存在于知识库中,若是,则将所述待处理的SPO中的O关联到选出的候选实体上。
根据本发明一优选实施例,该方法进一步包括:
在选出排序后处于第一位的候选实体之后,确定选出的候选实体是否与所述待处理的SPO存在冲突,若否,则将所述待处理的SPO中的O关联到选出的候选实体上。
根据本发明一优选实施例,该方法进一步包括:
在构建知识库时的实体数据挖掘阶段,基于网页内链数据的挖掘,将原始数据来源的边关系保存到知识库中。
根据本发明一优选实施例,该方法进一步包括:
预先确定能够进行词典建边的P,能够进行词典建边包括:对应的O的范围是一个有限的闭集合;
针对每个能够进行词典建边的P,分别构建映射词典,所述映射词典中记录有所述P对应的O以及每个O分别对应的实体;
若存在对应的映射词典,则将所述待处理的SPO中的O关联到所述映射词典中所记录的所述O对应的实体上。
一种基于人工智能的实体建边装置,包括:算法建边模块,所述算法建边模块中包括:拉取单元、获取单元、排序单元以及关联单元;
所述拉取单元,用于针对待处理的主谓宾三元组SPO,从知识库中拉取候选实体;
所述获取单元,用于分别获取各候选实体对应的预定特征;
所述排序单元,用于根据所述预定特征对各候选实体进行排序,选出排序后处于第一位的候选实体;
所述关联单元,用于将所述待处理的SPO中的O关联到选出的候选实体上。
根据本发明一优选实施例,所述拉取单元基于多维分区技术,从知识库中拉取候选实体。
根据本发明一优选实施例,所述多维分区技术包括:
基于schema分区、基于语义边关系分区、基于语义实体向量聚类分区以及基于模糊检索分区。
根据本发明一优选实施例,所述获取单元针对每个候选实体,分别获取所述候选实体对应的对特征pair_features以及组特征group_features;
所述pair_features为衡量所述待处理的SPO与所述候选实体之间的相似性的特征;
所述group_features为衡量包括所述待处理的SPO在内的一组SPO与所述候选实体之间的相似性的特征,所述一组SPO为从所述待处理的SPO所在的实体中抽取出的全部或部分SPO。
根据本发明一优选实施例,所述排序单元根据所述预定特征,利用排序模型对各候选实体进行排序。
根据本发明一优选实施例,所述算法建边模块中进一步包括:决策单元;
所述决策单元,用于通过决策模型确定所述待处理的SPO中的O对应的实体是否存在于知识库中;
所述关联单元进一步用于,当所述决策单元确定所述待处理的SPO中的O对应的实体存在于知识库中时,将所述待处理的SPO中的O关联到选出的候选实体上。
根据本发明一优选实施例,所述算法建边模块中进一步包括:冲突消解单元;
所述冲突消解单元,用于确定选出的候选实体是否与所述待处理的SPO存在冲突;
所述关联单元进一步用于,当所述冲突消解单元确定选出的候选实体与所述待处理的SPO不存在冲突时,将所述待处理的SPO中的O关联到选出的候选实体上。
根据本发明一优选实施例,所述装置中进一步包括:自然建边模块;
所述自然建边模块,用于在构建知识库时的实体数据挖掘阶段,基于网页内链数据的挖掘,将原始数据来源的边关系保存到知识库中。
根据本发明一优选实施例,所述装置中进一步包括:词典建边模块;
所述词典建边模块,用于预先确定能够进行词典建边的P,能够进行词典建边包括:对应的O的范围是一个有限的闭集合;针对每个能够进行词典建边的P,分别构建映射词典,所述映射词典中记录有所述P对应的O以及每个O分别对应的实体;若存在对应的映射词典,则将所述待处理的SPO中的O关联到所述映射词典中所记录的所述O对应的实体上。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,针对待处理的SPO,可首先从知识库中拉取候选实体,之后可分别获取各候选实体对应的预定特征,并可根据获取到的预定特征对各候选实体进行排序,进而选出排序后处于第一位的候选实体,将待处理的SPO中的O关联到选出的候选实体上,相比于现有技术,本发明所述方案中无需进行训练等操作,从而提高了处理效率。
【附图说明】
图1为本发明所述基于人工智能的实体建边方法实施例的流程图。
图2为本发明所述实体数据挖掘阶段获取到的实体信息的示意图。
图3为本发明所述基于人工智能的实体建边方法总体实现过程示意图。
图4为本发明所述基于人工智能的实体建边装置实施例的组成结构示意图。
图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述基于人工智能的实体建边方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,针对待处理的SPO,从知识库中拉取候选实体。
在102中,分别获取各候选实体对应的预定特征。
在103中,根据获取到的预定特征对各候选实体进行排序,选出排序后处于第一位的候选实体。
在104中,将待处理的SPO中的O关联到选出的候选实体上。
以“周**”(一人名)的百度百科这一实体为例,其中可抽取出多个SPO,如其中的一个SPO为“周**妻子*凌”(另一人名),在这个SPO中,“周**”为S,“妻子”为P,“*凌”为O,假设要为“*凌”进行实体建边,那么“周**妻子*凌”即为待处理的SPO。
SPO中的P也可称为属性,O可称为属性P的值。
针对待处理的SPO,图1所示实施例中采用了一种算法建边方式,其实现可包括以下子过程:候选实体拉取、特征提取以及排序,另外还可进一步包括:决策以及冲突消解等子过程。
以下分别对上述各子过程的具体实现进行详细说明。
1)候选实体拉取
针对待处理的SPO,可首先从知识库中拉取候选实体。较佳地,可基于多维分区技术,从知识库中拉取候选实体。
在面对海量知识库时,候选实体拉取能够大大降低后续处理的数据量,将需要进行后续处理的实体限制在一定范围内,减少了绝大部分冗余计算,保证了处理海量数据的效率。同时,多维分区技术则在各个维度上有效地保证了候选实体的覆盖,尽可能地确保了正确的建边实体能够被召回,进入到下一阶段的处理中。
本发明中所述的多维分区技术可包括:基于模式(schema)分区、基于语义边关系分区、基于语义实体向量聚类分区以及基于模糊检索分区等。
其中,基于schema分区:该分区支持按照schema映射进行候选实体拉取,即查询返回结果针对类别(type)加以限定,其次type又扩展出根据schema得到的子类的type。比如,待处理的SPO属于“人物”类别,而某一实体属于“歌曲”类别,那么则可不将该实体作为候选实体召回。
基于语义边关系分区:该分区假设存在大量边关系重合的实体可能是相似实体,在拉取候选实体时,即使实体名称(name)如“周**”完全不一致,存在大量边关系重合的实体也会被返回。
基于语义实体向量聚类分区:该分区是按照实体的语义向量进行聚合的,同样即使name完全不一致,但语义向量相似度很高,也会返回该实体;这是从另一个维度来衡量实体的距离,和语义边关系分区相似,可以扩大候选实体的范围,从而保证正确实体能够被召回。
基于模糊检索分区:该分区是按照name、别名(alias)拉取候选实体,在实现上采用match+search相结合的方式,即采用严格匹配与模糊查询相结合的方式,严格匹配通过查询实体name字段来实现,完全相同则作为候选实体,模糊查询只查询实体的alias字段(alias字段包含name字段的信息),返回相似度最高的topN结果,N为正整数。如“周**”这一实体,name可为“周**”,alias可为“周董”等。
上述各分区技术的具体实现均为现有技术。另外,需要说明的是,上述拉取候选实体的方式仅为举例说明,并不用于限制本发明的技术方案,如果采用本领域技术人员能够想到的其它方式,也是完全可以的。
2)特征提取
在拉取到各候选实体后,可分别获取各候选实体对应的预定特征。较佳地,可针对每个候选实体,分别获取该候选实体对应的对特征(pair_features)以及组特征(group_features)。
其中,pair_features为衡量待处理的SPO与候选实体之间的相似性的特征,如可包括name相似度(是否一致、编辑距离等)、基于schema的相特征(P的type约束与O的type是否一致、P的type与O的type是否存在schema父子类关系、P的中文语义与O的文本描述的主题相似度、P的中文语义是否出现在O的描述中、PP属性关系的互逆性、O的文本是否包含P相关的关键词等),以及,S和O之间关系(S是否在O的描述文本中出现、S是否在O的SPO集合中出现等)等。
group_features为衡量包括待处理的SPO在内的一组SPO与候选实体之间的相似性的特征,所述一组SPO为从待处理的SPO所在的实体中抽取出的全部或部分SPO。较佳地,所述一组SPO中可包括从待处理的SPO所在的实体中抽取出的全部SPO。相应地,group_features如可包括:文本之间的plsa相似度(S的SPO组与O的SPO组的plsa相似度、S的SPO组与O的文本描述的plsa相似度等),以及,S与O实体的各种共现关系(O的SPO组与S的文本描述的共现次数、S的SPO组与O的SPO组的共现次数、S的SPO组与O的文本描述的共现次数等)等。
需要说明的是,上述各特征仅为举例说明,并不用于限制本发明的技术方案,如果采用本领域技术人员能够想到的其它能够衡量上述相似性的特征,也是完全可以的。
3)排序
针对每个候选实体,假设分别获取到了10个pair_features以及5个group_features,那么可利用这15个特征组成一个特征向量。
之后,可根据各候选实体的特征向量来对各候选实体进行排序。较佳地,可根据各候选实体的特征向量,利用排序模型来对各候选实体进行排序。
对于实体建边来说,排序只需要关心top1实体,所以在特征设计上只需设计01排序即可,具体地,可采用ranksvm模型来对各候选实体进行排序。
在选出排序后处于第一位的候选实体后,可将待处理的SPO中的O关联到选出的候选实体上,即将待处理的SPO中的O映射到选出的实体上。
比如,将“周**妻子*凌”中的“*凌”映射到“*凌”这一实体上。以百度百科为例,当完成映射后,在“周**”的百度百科中点击“妻子*凌”中的“*凌”,即可跳转到周**的妻子“*凌”的百度百科。
4)决策
在实际应用中,可能会出现以下情况:基于之前的介绍可知,候选实体均为从知识库中拉取的实体,也就是说,候选实体均为知识库中已存在的实体,但是,有可能待处理的SPO中的O对应的实体并不存在于知识库中,即知识库中并不存在正确的实体,那么按照上述方式进行处理后,就会将O关联到错误的实体上。
为避免上述情况的出现,本发明所述方案中提出:在选出排序后处于第一位的候选实体后,可通过决策模型确定出待处理的SPO中的O对应的实体是否存在于知识库中,若是,则将待处理的SPO中的O关联到选出的候选实体上,否则,不进行关联。
也就是说,可进行NIL决策,对经过上述处理后的消歧结果作二分类,可通过决策模型确定待处理的SPO中的O对应的实体是否存在于知识库中,较佳地,决策模型可采用支持向量机(SVM)模型。
可在获取到的选出的候选实体的预定特征的基础上,添加统计特征及打分结果分布特征等,将这些特征作为决策模型的输入,从而得到决策模型输出的二分类结果,比如,输出结果为1,则可确定待处理的SPO中的O对应的实体存在于知识库中,输出结果为0,则可确定待处理的SPO中的O对应的实体不存在于知识库中。
假设拉取到的候选实体的个数为10,分别为候选实体1~候选实体10,并假设选出的候选实体为候选实体3,那么可将以下特征输入决策模型:候选实体3的预定特征如10个pair_features以及5个group_features、各候选实体的打分结果的平均值、各候选实体的打分结果分布特征等。排序模型在对各候选实体进行排序时,会根据各候选实体的预定特征对各候选实体进行打分,从而可分别得到各候选实体的打分结果。
5)冲突消解
本发明所述方案中还提出,可进一步进行冲突消解,筛选掉有明显冲突的建边结果,即确定选出的候选实体是否与待处理的SPO存在冲突,若否,则将待处理的SPO中的O关联到选出的候选实体上,若是,则不进行关联。
具体地,可利用预先设定的规则来确定选出的候选实体是否与待处理的SPO存在冲突。比如,规则中可包括:当SPO中的P为“妻子”时,O对应的实体必须为女性人物。假设待处理的SPO为“周**妻子*凌”,而选出的候选实体为男性人物,那么则可确定选出的候选实体与待处理的SPO存在冲突,从而不将待处理的SPO中的O关联到选出的候选实体上。
在实际应用中,除了可以采用以上所述的算法建边方式外,还可以采用其它建边方式,如自然建边方式以及词典建边方式等。
其中,自然建边方式是指在构建知识库时的实体数据挖掘阶段,基于网页内链数据的挖掘,将原始数据来源的边关系保存到知识库中,从而充分利用了天然形成的边关系,并能够有效解决冷启动的问题。
图2为本发明所述实体数据挖掘阶段获取到的实体信息的示意图。如图2所示,在收录电影《不能说的**》这一实体时,来源网站“豆*”本身就包含了大量的边关系,比如导演周**,主演桂**(一人名)等。以“周**”为例,点击“周**”,则会跳转到“周**”的页面,那么在对“不能说的**导演周**”这一SPO中的“周**”建边的时候,自然而然的会利用这部分信息,将导演关联到实体“周**”上,同时,实体“周**”也会生成作品《不能说的**》的SPO,并将其中的O关联到电影《不能说的**》这一实体上。
词典建边是一种低成本且有效的建边方式。对于数量较少且在闭集合中的O,可以采用词典建边的方式。
具体地,可预先确定能够进行词典建边的P,能够进行词典建边包括:对应的O的范围是一个有限的闭集合。
比如,星座、联赛、国家等均为能够进行词典建边的P。
针对每个能够进行词典建边的P,可分别构建映射词典,映射词典中可记录有P对应的O以及每个O分别对应的实体。
比如,P为星座,其对应的O可包括:白羊座、金牛座、双子座、巨蟹座、狮子座、处女座、天秤座、天蝎座、射手座、摩羯座、水瓶座以及双鱼座,每个O分别对应一个实体。
在实际应用中,有可能相同的名字对应不同的实体,比如星座“摩羯座”和歌曲“摩羯座”,可通过不同的实体ID来进行区分。
对于待处理的SPO,若存在对应的映射词典,那么则可将待处理的SPO中的O关联到对应的映射词典中所记录的所述O对应的实体上。
比如,待处理的SPO为“周**星座摩羯座”,那么可将其中的O“摩羯座”映射到对应的映射词典中所记录的“摩羯座”对应的实体即星座“摩羯座”实体上。
基于上述介绍,图3为本发明所述基于人工智能的实体建边方法总体实现过程示意图。
如图3所示,针对任一实体,可从中抽取出待处理的SPO,并可针对抽取出的SPO,采用自然建边、词典建边或算法建边中的适合方式进行建边,并得到汇总后的建边结果,其中,算法建边过程可依次包括候选实体拉取、特征提取、排序、决策以及冲突消解等子过程。
总之,相比于现有技术,本发明所述方案中无需进行训练等操作,从而提高了处理效率,而且,本发明所述方案中可采用多维建边方式,包括自然建边、词典建边以及算法建边等,从而可得到完善的建边结果。
另外,本发明所述方案中的算法建边中,可采用多维分区技术进行候选实体的拉取,而在面对海量知识库时,候选实体拉取能够大大降低后续处理的数据量,将需要进行后续处理的实体限制在一定范围内,减少了绝大部分冗余计算,保证了处理海量数据的效率,同时,多维分区技术在各个维度上有效地保证了候选实体的覆盖,尽可能地确保了正确的实体能够被召回,进入到下一阶段的处理中,并且,通过排序,可筛选出最有可能的实体输出,大大减少了下一阶段的计算量并为后续计算提供了分布特征等,进一步地,还可通过决策以及冲突消解处理,尽可能地避免将O关联到错误的实体上,从而提高了建边结果的准确性等。
另外,本发明所述方案对于实体以及属性没有已入库的要求,对新增的实体的属性等也可进行有效处理,具有良好的拓展性,能够适应不断增长的知识库要求。
再有,本发明所述方案不受特定领域限制,可适用于娱乐人物、影视、小说、景点、餐馆、音乐、游戏、书籍、体育、生物、组织机构、地点等各领域的实体建边,具有普遍适用性。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图4为本发明所述基于人工智能的实体建边装置实施例的组成结构示意图。如图4所示,包括:算法建边模块401,算法建边模块401中又可具体包括:拉取单元4011、获取单元4012、排序单元4013以及关联单元4016。
拉取单元4011用于针对待处理的SPO,从知识库中拉取候选实体。
获取单元4012用于分别获取各候选实体对应的预定特征。
排序单元4013用于根据预定特征对各候选实体进行排序,选出排序后处于第一位的候选实体。
关联单元4016用于将待处理的SPO中的O关联到选出的候选实体上。
针对待处理的SPO,可首先由拉取单元4011从知识库中拉取候选实体。较佳地,可基于多维分区技术,从知识库中拉取候选实体。
本发明中所述的多维分区技术可包括:基于schema分区、基于语义边关系分区、基于语义实体向量聚类分区以及基于模糊检索分区等。
在拉取到各候选实体后,获取单元4012可分别获取各候选实体对应的预定特征。较佳地,可针对每个候选实体,分别获取该候选实体对应的pair_features以及group_features。
其中,pair_features为衡量待处理的SPO与候选实体之间的相似性的特征。group_features为衡量包括待处理的SPO在内的一组SPO与候选实体之间的相似性的特征,所述一组SPO为从待处理的SPO所在的实体中抽取出的全部或部分SPO。
针对每个候选实体,假设分别获取到了10个pair_features以及5个roup_features,那么可利用这15个特征组成一个特征向量。
排序单元4013可根据各候选实体的特征向量来对各候选实体进行排序。较佳地,可根据各候选实体的特征向量,利用排序模型来对各候选实体进行排序。所述排序模型可为ranksvm模型。
排序单元4013可选出排序后处于第一位的候选实体,并可由关联单元4016将待处理的SPO中的O关联到选出的候选实体上。
在实际应用中,有可能会出现以下情况:基于之前的介绍可知,候选实体均为从知识库中拉取的实体,也就是说,候选实体均为知识库中已存在的实体,但是,有可能待处理的SPO中的O对应的实体并不存在于知识库中,即知识库中并不存在正确的实体,那么按照上述方式进行处理后,就会将O关联到错误的实体上。
为避免上述情况的出现,图4所示算法建边模块401中还可进一步包括:决策单元4014。
决策单元4014可用于通过决策模型确定待处理的SPO中的O对应的实体是否存在于知识库中。当决策单元4014确定待处理的SPO中的O对应的实体存在于知识库中时,关联单元4016可将待处理的SPO中的O关联到选出的候选实体上,否则,不进行关联。
也就是说,可进行NIL决策,对经过上述处理后的消歧结果作二分类,可通过决策模型确定待处理的SPO中的O对应的实体是否存在于知识库中,较佳地,决策模型可为SVM模型。
另外,图4所示算法建边模块401中还可进一步包括:冲突消解单元4015。
冲突消解单元4015可用于确定选出的候选实体是否与待处理的SPO存在冲突。当冲突消解单元4015确定选出的候选实体与待处理的SPO不存在冲突时,关联单元4016可将待处理的SPO中的O关联到选出的候选实体上。
具体地,可利用预先设定的规则来确定选出的候选实体是否与待处理的SPO存在冲突。比如,所述规则中可包括:当SPO中的P为“妻子”时,O对应的实体必须为女性人物。
较佳地,当决策单元4014确定待处理的SPO中的O对应的实体存在于知识库中且冲突消解单元4015确定选出的候选实体与待处理的SPO不存在冲突时,由关联单元4016将待处理的SPO中的O关联到选出的候选实体上。
另外,图4所示装置中还可进一步包括:自然建边模块402以及词典建边模块403。
自然建边模块402可用于在构建知识库时的实体数据挖掘阶段,基于网页内链数据的挖掘,将原始数据来源的边关系保存到知识库中。
词典建边模块403可用于预先确定能够进行词典建边的P,能够进行词典建边包括:对应的O的范围是一个有限的闭集合;针对每个能够进行词典建边的P,分别构建映射词典,映射词典中记录有P对应的O以及每个O分别对应的实体;若存在对应的映射词典,则将待处理的SPO中的O关联到对应的映射词典中所记录的所述O对应的实体上。
图4所示装置实施例中的各组成部分的具体功能/实现请参见前述方法实施例中的相应说明,不再赘述。
图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图5显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法,如针对待处理的SPO,从知识库中拉取候选实体,分别获取各候选实体对应的预定特征,根据获取到的预定特征对各候选实体进行排序,选出排序后处于第一位的候选实体,将待处理的SPO中的O关联到选出的候选实体上等。
具体实现请参照前述各实施例中的相关说明,不再赘述。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种知识图谱消歧方法,包括:
针对待处理的主谓宾三元组SPO,从知识库中拉取候选实体;
分别获取各候选实体对应的预定特征,其中,针对任一候选实体,所述预定特征包括:衡量所述待处理的SPO与所述候选实体之间的相似性的特征,以及,衡量包括所述待处理的SPO在内的一组SPO与所述候选实体之间的相似性的特征,所述一组SPO为从所述待处理的SPO所在的实体中抽取出的全部或部分SPO;
根据所述预定特征对各候选实体进行排序,选出排序后处于第一位的候选实体;
将所述待处理的SPO中的O关联到选出的候选实体上。
2.根据权利要求1所述的方法,其中,所述从知识库中拉取候选实体包括:
基于多维分区技术,从知识库中拉取候选实体。
3.根据权利要求2所述的方法,其中,所述多维分区技术包括:
基于schema分区、基于语义边关系分区、基于语义实体向量聚类分区以及基于模糊检索分区。
4.根据权利要求1所述的方法,其中,所述根据所述预定特征对各候选实体进行排序包括:
根据所述预定特征,利用排序模型对各候选实体进行排序。
5.根据权利要求1所述的方法,还包括:
在选出排序后处于第一位的候选实体之后,通过决策模型确定所述待处理的SPO中的O对应的实体是否存在于知识库中,若是,则将所述待处理的SPO中的O关联到选出的候选实体上。
6.根据权利要求1所述的方法,还包括:
在选出排序后处于第一位的候选实体之后,确定选出的候选实体是否与所述待处理的SPO存在冲突,若否,则将所述待处理的SPO中的O关联到选出的候选实体上。
7.根据权利要求1所述的方法,还包括:
在构建知识库时的实体数据挖掘阶段,基于网页内链数据的挖掘,将原始数据来源的边关系保存到知识库中。
8.根据权利要求1所述的方法,还包括:
预先确定能够进行词典建边的P,能够进行词典建边包括:对应的O的范围是一个有限的闭集合;
针对每个能够进行词典建边的P,分别构建映射词典,所述映射词典中记录有所述P对应的O以及每个O分别对应的实体;
若存在对应的映射词典,则将所述待处理的SPO中的O关联到所述映射词典中所记录的所述O对应的实体上。
9.一种知识图谱消歧装置,包括:
算法建边模块,所述算法建边模块中包括:拉取单元、获取单元、排序单元以及关联单元;
所述拉取单元,用于针对待处理的主谓宾三元组SPO,从知识库中拉取候选实体;
所述获取单元,用于分别获取各候选实体对应的预定特征,其中,针对任一候选实体,所述预定特征包括:衡量所述待处理的SPO与所述候选实体之间的相似性的特征,以及,衡量包括所述待处理的SPO在内的一组SPO与所述候选实体之间的相似性的特征,所述一组SPO为从所述待处理的SPO所在的实体中抽取出的全部或部分SPO;
所述排序单元,用于根据所述预定特征对各候选实体进行排序,选出排序后处于第一位的候选实体;
所述关联单元,用于将所述待处理的SPO中的O关联到选出的候选实体上。
10.根据权利要求9所述的装置,其中,
所述拉取单元基于多维分区技术,从知识库中拉取候选实体。
11.根据权利要求10所述的装置,其中,
所述多维分区技术包括:
基于schema分区、基于语义边关系分区、基于语义实体向量聚类分区以及基于模糊检索分区。
12.根据权利要求9所述的装置,其中,
所述排序单元根据所述预定特征,利用排序模型对各候选实体进行排序。
13.根据权利要求9所述的装置,其中,
所述算法建边模块中进一步包括:决策单元;
所述决策单元,用于通过决策模型确定所述待处理的SPO中的O对应的实体是否存在于知识库中;
所述关联单元进一步用于,当所述决策单元确定所述待处理的SPO中的O对应的实体存在于知识库中时,将所述待处理的SPO中的O关联到选出的候选实体上。
14.根据权利要求9所述的装置,其中,
所述算法建边模块中进一步包括:冲突消解单元;
所述冲突消解单元,用于确定选出的候选实体是否与所述待处理的SPO存在冲突;
所述关联单元进一步用于,当所述冲突消解单元确定选出的候选实体与所述待处理的SPO不存在冲突时,将所述待处理的SPO中的O关联到选出的候选实体上。
15.根据权利要求9所述的装置,还包括:自然建边模块;
所述自然建边模块,用于在构建知识库时的实体数据挖掘阶段,基于网页内链数据的挖掘,将原始数据来源的边关系保存到知识库中。
16.根据权利要求9所述的装置,还包括:词典建边模块;
所述词典建边模块,用于预先确定能够进行词典建边的P,能够进行词典建边包括:对应的O的范围是一个有限的闭集合;针对每个能够进行词典建边的P,分别构建映射词典,所述映射词典中记录有所述P对应的O以及每个O分别对应的实体;若存在对应的映射词典,则将所述待处理的SPO中的O关联到所述映射词典中所记录的所述O对应的实体上。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的方法。
CN202110851340.5A 2018-01-25 2018-01-25 知识图谱消歧方法、装置、设备及存储介质 Active CN113641707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110851340.5A CN113641707B (zh) 2018-01-25 2018-01-25 知识图谱消歧方法、装置、设备及存储介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110851340.5A CN113641707B (zh) 2018-01-25 2018-01-25 知识图谱消歧方法、装置、设备及存储介质
CN201810073882.2A CN108304381B (zh) 2018-01-25 2018-01-25 基于人工智能的实体建边方法、装置、设备及存储介质

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201810073882.2A Division CN108304381B (zh) 2018-01-25 2018-01-25 基于人工智能的实体建边方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113641707A CN113641707A (zh) 2021-11-12
CN113641707B true CN113641707B (zh) 2023-07-21

Family

ID=62866540

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810073882.2A Active CN108304381B (zh) 2018-01-25 2018-01-25 基于人工智能的实体建边方法、装置、设备及存储介质
CN202110851340.5A Active CN113641707B (zh) 2018-01-25 2018-01-25 知识图谱消歧方法、装置、设备及存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201810073882.2A Active CN108304381B (zh) 2018-01-25 2018-01-25 基于人工智能的实体建边方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (2) CN108304381B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684625B (zh) * 2018-10-31 2021-01-12 百度在线网络技术(北京)有限公司 实体处理方法、装置和存储介质
CN109670024B (zh) * 2018-12-17 2021-06-04 北京百度网讯科技有限公司 逻辑表达式确定方法、装置、设备和介质
CN109871428B (zh) * 2019-01-30 2022-02-18 北京百度网讯科技有限公司 用于确定文本相关度的方法、装置、设备和介质
CN114003735B (zh) * 2021-12-24 2022-03-18 北京道达天际科技有限公司 基于情报文档面向知识图谱问答的实体消歧方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6946715B2 (en) * 2003-02-19 2005-09-20 Micron Technology, Inc. CMOS image sensor and method of fabrication
US9785671B2 (en) * 2013-07-15 2017-10-10 Capricorn Holdings Pte. Ltd. Template-driven structured query generation
US10152488B2 (en) * 2015-05-13 2018-12-11 Samsung Electronics Co., Ltd. Static-analysis-assisted dynamic application crawling architecture
CN105138631B (zh) * 2015-08-20 2019-10-11 小米科技有限责任公司 知识库的构建方法及装置
CN106528676B (zh) * 2016-10-31 2019-09-03 北京百度网讯科技有限公司 基于人工智能的实体语义检索处理方法及装置
CN107544960B (zh) * 2017-08-29 2020-01-14 中国科学院自动化研究所 一种基于变量绑定和关系激活的自动问答方法
CN107622126A (zh) * 2017-09-28 2018-01-23 联想(北京)有限公司 对数据集合中的实体数据进行归类的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识图谱库的中文影评实体链指;吴玲玲;翟恒志;周子力;种晓阳;;电子技术(第12期);全文 *

Also Published As

Publication number Publication date
CN108304381B (zh) 2021-09-21
CN113641707A (zh) 2021-11-12
CN108304381A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
US10963794B2 (en) Concept analysis operations utilizing accelerators
US11216504B2 (en) Document recommendation method and device based on semantic tag
WO2021000676A1 (zh) 问答方法、问答装置、计算机设备及存储介质
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
CN106446148B (zh) 一种基于聚类的文本查重方法
CN110245259B (zh) 基于知识图谱的视频打标签方法及装置、计算机可读介质
US10025819B2 (en) Generating a query statement based on unstructured input
CN108460011B (zh) 一种实体概念标注方法及系统
US9898773B2 (en) Multilingual content based recommendation system
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN113641707B (zh) 知识图谱消歧方法、装置、设备及存储介质
CN103544266B (zh) 一种搜索建议词生成的方法以及装置
Cheung et al. Sequence clustering and labeling for unsupervised query intent discovery
CN107402954A (zh) 建立排序模型的方法、基于该模型的应用方法和装置
US11514034B2 (en) Conversion of natural language query
US9734238B2 (en) Context based passage retreival and scoring in a question answering system
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
US20170193085A1 (en) Entailment knowledge base in natural language processing systems
US10528662B2 (en) Automated discovery using textual analysis
US20150006528A1 (en) Hierarchical data structure of documents
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN113569018A (zh) 问答对挖掘方法及装置
Zhang et al. Snap-and-ask: Answering multimodal question by naming visual instance
CN103136221B (zh) 一种生成需求模板的方法、需求识别的方法及其装置
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant