CN111753027B - 一种面向多实体的隐式知识图谱表示的方法及装置 - Google Patents

一种面向多实体的隐式知识图谱表示的方法及装置 Download PDF

Info

Publication number
CN111753027B
CN111753027B CN202010605881.5A CN202010605881A CN111753027B CN 111753027 B CN111753027 B CN 111753027B CN 202010605881 A CN202010605881 A CN 202010605881A CN 111753027 B CN111753027 B CN 111753027B
Authority
CN
China
Prior art keywords
entity
classified
characteristic field
implicit knowledge
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010605881.5A
Other languages
English (en)
Other versions
CN111753027A (zh
Inventor
常志军
钱力
谢靖
王玉菊
王颖
于倩倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Science Library Chinese Academy Of Sciences
Original Assignee
National Science Library Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Science Library Chinese Academy Of Sciences filed Critical National Science Library Chinese Academy Of Sciences
Priority to CN202010605881.5A priority Critical patent/CN111753027B/zh
Publication of CN111753027A publication Critical patent/CN111753027A/zh
Application granted granted Critical
Publication of CN111753027B publication Critical patent/CN111753027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Abstract

本发明公开了一种面向多实体的隐式知识图谱表示的方法及装置,涉及数据处理技术领域,包括:定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;根据所述每个实体的特征字段与所述特征值获得实体识别工具;根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。达到了构建全面、准确的实体关系图谱,确保数据一致性的技术效果。

Description

一种面向多实体的隐式知识图谱表示的方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种面向多实体的隐式知识图谱表示的方法及装置。
背景技术
随着信息化技术的发展,知识图谱是知识服务技术发展到一定阶段的产物。在信息服务领域,从基础的数据中抽象出实体的概念,并对实体之间的关系进行存储,从而构建全面、准确的实体关系图谱,更好的解释知识之间的信息是新一代知识服务的主要特征。文献知识服务领域也从传统基于文献集的检索服务发展到基于海量知识图谱的知识服务。多实体文献知识图谱的构建和维护是服务质量的核心。基于知识图谱的文献服务除了提供基础的文献检索服务,还可展示关联实体信息,如合作学者、常发表刊物、研究方向变迁等。传统三元组知识图谱表示方法对于固定数据表现优异,但对于像文献数据,经常因名称规范、学者规范、期刊规范等因此数据实体的变化或纠错,联动需要处理由于一个实体变化引起的多关系变化。尤其像文献领域中的机构实体、期刊实体等,一旦发生变化,会同时触发大量的学者、论文等实体的变化,需要改动海量的数据关系数据。
但本申请发明人在实现本申请实施例中技术方案的过程中,发现上述现有技术至少存在如下技术问题:
现有技术中知识图谱中的实体发生变化,存在多种因素导致数据的不一致性,从而导致无法全量、正确的处理关系数据。
申请内容
本申请实施例通过提供一种面向多实体的隐式知识图谱表示的方法及装置,用以解决现有技术中知识图谱中的实体发生变化,存在多种因素导致数据的不一致性,从而导致无法全量、正确的处理关系数据技术问题,达到了构建全面、准确的实体关系图谱,确保数据一致性,保障知识服务的准确性,提升用户体验感的技术效果。
为了解决上述问题,第一方面,本申请实施例提供了一种面向多实体的隐式知识图谱表示的方法,所述方法包括:定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;根据所述每个实体的特征字段与所述特征值获得实体识别工具;根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。
优选地,所述将所述第一实体和所述第二实体存储入对应的分类实体库,包括:
获得所述每个实体的实体类别信息;根据所述实体类别信息建立第一分类实体库,其中,所述第一分类实体集包括第一分类实体集与第二分类实体集;获得所述第一实体的第一类别信息;获得所述第二实体的第二类别信息;根据所述第一类别信息将所述第一实体存储入所述第一分类实体库中对应的所述第一分类实体集或所述第二分类实体集;根据所述第二类别信息将所述第二实体存储入所述第一分类实体库中对应的所述第一分类实体集或所述第二分类实体集。
优选地,所述对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系,包括:
获得所述第一实体的第一特征字段;获得所述第二实体的第二特征字段;根据特征字段隐式关系发现工具判断所述第一特征字段是否存在于所述第二特征字段中;当所述第一特征字段存在于所述第二特征字段中,确定所述第一实体和所述第二实体存在第一关联关系。
优选地,所述方法还包括:
对第三文献进行特征字段识别,获得第三实体;对所述第三实体和所述第一实体进行实体关系识别,获得所述第三实体和所述第一实体之间的第二关联关系;根据所述第二关联关系和所述第一关联关系、所述第一实体、所述第二实体、所述第三实体输出第二隐式知识图谱。
优选地,所述方法还包括:
获得所述第一隐式知识图谱的第一数据类别信息;获得所述第二隐式知识图谱的第二数据类别信息;判断所述第一数据类别信息与所述第二数据类别信息的关联度是否满足预设条件;当所述第一数据类别信息与所述第二数据类别信息的关联度满足预设条件时,获得第一类隐式知识图谱。
优选地,所述判断所述第一数据类别信息与所述第二数据类别信息的关联度是否满足预设条件中,所述预设条件,包括:所述第一数据类别信息与所述第二数据类别信息的关联度达到80%以上。
优选地,所述方法还包括:
获得第三隐式知识图谱,其中,所述第三隐式知识图谱与所述第一隐式知识图谱具有关联度;获得所述第三隐式知识图谱中的第四实体与第五实体;判断所述第四实体与所述第一实体和/或所述第二实体之间是否具有第一关联关系;当所述第四实体与所述第一实体和/或所述第二实体之间不具有第一关联关系时,将所述第四实体从所述第三隐式知识图谱中删除,将所述第五实体加入所述第一类隐式知识图谱中。
第二方面,本申请实施例还提供了一种面向多实体的隐式知识图谱表示的装置,所述装置包括:
第一定义单元,所述第一定义单元用于定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;
第一获得单元,所述第一获得单元用于根据所述每个实体的特征字段与所述特征值获得实体识别工具;
第二获得单元,所述第二获得单元用于根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;
第三获得单元,所述第三获得单元用于对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;
第一输出单元,所述第一输出单元用于根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。
优选地,所述将所述第一实体和所述第二实体存储入对应的分类实体库,包括:
第四获得单元,所述第四获得单元用于获得所述每个实体的实体类别信息;
第一建立单元,所述第一建立单元用于根据所述实体类别信息建立第一分类实体库,其中,所述第一分类实体集包括第一分类实体集与第二分类实体集;
第五获得单元,所述第五获得单元用于获得所述第一实体的第一类别信息;
第六获得单元,所述第六获得单元用于获得所述第二实体的第二类别信息;
第一存储单元,所述第一存储单元用于根据所述第一类别信息将所述第一实体存储入所述第一分类实体库中对应的所述第一分类实体集或所述第二分类实体集;
第二存储单元,所述第二存储单元用于根据所述第二类别信息将所述第二实体存储入所述第一分类实体库中对应的所述第一分类实体集或所述第二分类实体集。
优选地,所述对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系,包括:
第七获得单元,所述第七获得单元用于获得所述第一实体的第一特征字段;
第八获得单元,所述第八获得单元用于获得所述第二实体的第二特征字段;
第一判断单元,所述第一判断单元用于根据特征字段隐式关系发现工具判断所述第一特征字段是否存在于所述第二特征字段中;
第一确定单元,所述第一确定单元用于当所述第一特征字段存在于所述第二特征字段中,确定所述第一实体和所述第二实体存在第一关联关系。
优选地,所述装置还包括:
第九获得单元,所述第九获得单元用于对第三文献进行特征字段识别,获得第三实体;
第十获得单元,所述第十获得单元用于对所述第三实体和所述第一实体进行实体关系识别,获得所述第三实体和所述第一实体之间的第二关联关系;
第二输出单元,所述第二输出单元用于根据所述第二关联关系和所述第一关联关系、所述第一实体、所述第二实体、所述第三实体输出第二隐式知识图谱。
优选地,所述装置还包括:
第十一获得单元,所述第十一获得单元用于获得所述第一隐式知识图谱的第一数据类别信息;
第十二获得单元,所述第十二获得单元用于获得所述第二隐式知识图谱的第二数据类别信息;
第二判断单元,所述第二判断单元用于判断所述第一数据类别信息与所述第二数据类别信息的关联度是否满足预设条件;
第十三获得单元,所述第十三获得单元用于当所述第一数据类别信息与所述第二数据类别信息的关联度满足预设条件时,获得第一类隐式知识图谱。
优选地,所述判断所述第一数据类别信息与所述第二数据类别信息的关联度是否满足预设条件中,所述预设条件,包括:所述第一数据类别信息与所述第二数据类别信息的关联度达到80%以上。
优选地,所述装置还包括:
第十四获得单元,所述第十四获得单元用于获得第三隐式知识图谱,其中,所述第三隐式知识图谱与所述第一隐式知识图谱具有关联度;
第十五获得单元,所述第十五获得单元用于获得所述第三隐式知识图谱中的第四实体与第五实体;
第三判断单元,所述第三判断单元用于判断所述第四实体与所述第一实体和/或所述第二实体之间是否具有第一关联关系;
第一操作单元,所述第一操作单元用于当所述第四实体与所述第一实体和/或所述第二实体之间不具有第一关联关系时,将所述第四实体从所述第三隐式知识图谱中删除,将所述第五实体加入所述第一类隐式知识图谱中。
第三方面,本申请实施例还提供了一种面向多实体的隐式知识图谱表示的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;根据所述每个实体的特征字段与所述特征值获得实体识别工具;根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;根据所述每个实体的特征字段与所述特征值获得实体识别工具;根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例通过提供一种面向多实体的隐式知识图谱表示的方法及装置,所述方法包括:定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;根据所述每个实体的特征字段与所述特征值获得实体识别工具;根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。解决了现有技术中知识图谱中的实体发生变化,存在多种因素导致数据的不一致性,导致无法全量、正确的处理关系数据技术问题,达到了构建全面、准确的实体关系图谱,确保数据一致性,保障知识服务的准确性,提升用户体验感的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本发明实施例中一种面向多实体的隐式知识图谱表示的方法的流程示意图;
图2为本发明实施例中一种面向多实体的隐式知识图谱表示的装置的结构示意图;
图3为本发明实施例中另一种面向多实体的隐式知识图谱表示的装置的结构示意图。
附图标记说明:第一定义单元11,第一获得单元12,第二获得单元13,第三获得单元14,第一输出单元15,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本申请实施例提供了一种面向多实体的隐式知识图谱表示的方法及装置,解决了现有技术中知识图谱中的实体发生变化,存在多种因素导致数据的不一致性,导致无法全量、正确的处理关系数据技术问题。
为了解决上述技术问题,本申请提供的技术方案总体思路如下:通过定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;根据所述每个实体的特征字段与所述特征值获得实体识别工具;根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。达到了构建全面、准确的实体关系图谱,确保数据一致性,保障知识服务的准确性,提升用户体验感的技术效果。
下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
实施例一
图1为本发明实施例中一种面向多实体的隐式知识图谱表示的方法的流程示意图,所述方法包括:
步骤110:定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值。
步骤120:根据所述每个实体的特征字段与所述特征值获得实体识别工具。
具体而言,知识图谱(Knowledge Graph)指在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。大规模文献知识图谱实体包括论文、专利、项目、学者、机构、期刊、基金、报告、会议、专著、软著等。由于图谱的持续更新和维护主要面临两个方面的挑战:实体的持续更新;实体关系的关联更新。首先,定义每个实体的特征字段,以及根据每个实体的特征字段确定特征值,同时,定义实体之间的关系。其中,特征值作为该实体的唯一标识。本申请实施例中,研发基于实体特征字段的实体识别工具,实体识别工具中输入为文献资源,如期刊论文、会议论文、学位论文、专利、报告、标准等。其输出为实体,如学者、机构、期刊、基金项目、专著等。
步骤130:根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库。
进一步的,所述将所述第一实体和所述第二实体存储入对应的分类实体库,包括:获得所述每个实体的实体类别信息;根据所述实体类别信息建立第一分类实体库,其中,所述第一分类实体集包括第一分类实体集与第二分类实体集;获得所述第一实体的第一类别信息;获得所述第二实体的第二类别信息;根据所述第一类别信息将所述第一实体存储入所述第一分类实体库中对应的所述第一分类实体集或所述第二分类实体集;根据所述第二类别信息将所述第二实体存储入所述第一分类实体库中对应的所述第一分类实体集或所述第二分类实体集。
具体而言,根据实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体。本申请实施例中的第一文献、第二文献不特指某一件文献,而是表示多件大规模文献。对文献进行特征字段识别输出实体后,需要对大规模实体数据的存储,本申请实施例采用搜索引擎技术作为实体存储的技术方案,目的为后面隐式关系发现提供强大的计算和检索能力。首先,获得每个实体的实体类别信息,根据实体类别信息建立第一分类实体库,其中,第一分类实体库包括第一分类实体集与第二分类实体集。其次,获得第一实体的第一类别信息与第二实体的第二类别信息,根据第一类别信息将第一实体存储入第一分类实体库中对应的第一分类实体集或第二分类实体集。根据第二类别信息将第二实体存储入第一分类实体库中对应的第一分类实体集或第二分类实体集。也就是说,对实体类别分类建立各种实体库,并将识别的实体写入到对应实体集中,体现实体存储的规范化和丰富性。
步骤140:对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系。
进一步的,所述对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系,包括:获得所述第一实体的第一特征字段;获得所述第二实体的第二特征字段;根据特征字段隐式关系发现工具判断所述第一特征字段是否存在于所述第二特征字段中;当所述第一特征字段存在于所述第二特征字段中,确定所述第一实体和所述第二实体存在第一关联关系。
步骤150:根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。
具体而言,本申请实施例研发基于特征实体的隐式关系发现工具,通过获得第一实体的第一特征字段与第二实体的第二特征字段。根据特征字段隐式关系发现工具对实体关系识别以及关系加工,判断第一特征字段是否存在于第二特征字段中,当第一特征字段存在于第二特征字段中,确定第一实体和第二实体存在第一关联关系。即判断在第一实体在第二实体中是否存第二特征字段,如果在第一实体在第二实体中存第二特征字段,则表示第一实体和第二实体存在第一关联关系。其中,第一关联关系比如合作关系、归属关系、出版关系、地址关系、贡献关系等。也就是说,根据特征字段隐式关系发现工具输入为实体,如学者、机构、论文、专利等,其输出为实体之间的关系。将实体数据和关联关系数据进行封装,即根据第一关联关系和第一实体、第二实体输出第一隐式知识图谱进行封装,输出的第一隐式知识图谱可用于实体检索服务、图谱探索、定向应用、图谱可视化等。本申请实施例用于多实体知识图谱服务领域,尤其是实体数据存在多次修改的应用场景,如基于知识图谱的文献服务、领域知识图谱服务等。通过配合针对实体特征字段的识别工具和隐式关系的发现工具来达到对实体的持续更新和对实体关系的自动关联发现,通过设定特征字段表征单个实体,与传统的通过实体id方式相比,特征字段方式具有更大的信息量也是隐式关系发现的前提。隐式关系发现主要通过实体的特征字段进行探寻。本申请实施例解耦了关系的强存储性,避免了主题、客体、关系必须通过一条数据来存储的技术要求,进而达到了构建全面、准确的实体关系图谱,确保数据一致性。
进一步的,所述方法还包括:对第三文献进行特征字段识别,获得第三实体;对所述第三实体和所述第一实体进行实体关系识别,获得所述第三实体和所述第一实体之间的第二关联关系;根据所述第二关联关系和所述第一关联关系、所述第一实体、所述第二实体、所述第三实体输出第二隐式知识图谱。
具体而言,为方便服务调用隐式知识图谱,可以对实体进行增、删、改等基本操作,通过对第三文献进行特征字段识别,获得第三实体,并对第三实体和第一实体进行实体关系识别,即通过对第三实体与第一实体之间的特征字段的识别,获得第三实体和第一实体之间的第二关联关系。根据第二关联关系和第一关联关系、第一实体、第二实体、第三实体输出第二隐式知识图谱,也就是对第一隐式知识图谱中实体进行增加的过程,并提供所有的关联关系数据。
进一步的,所述方法还包括:获得所述第一隐式知识图谱的第一数据类别信息;获得所述第二隐式知识图谱的第二数据类别信息;判断所述第一数据类别信息与所述第二数据类别信息的关联度是否满足预设条件;当所述第一数据类别信息与所述第二数据类别信息的关联度满足预设条件时,获得第一类隐式知识图谱。
进一步的,所述判断所述第一数据类别信息与所述第二数据类别信息的关联度是否满足预设条件中,所述预设条件,包括:所述第一数据类别信息与所述第二数据类别信息的关联度达到80%以上。
具体而言,通过获得第一隐式知识图谱的第一数据类别信息与第二隐式知识图谱的第二数据类别信息,其中,第一数据类别信息与第二数据类别信息均表示结果数据的类别信息,如实体类别以及实体关系类别信息等。判断第一数据类别信息与第二数据类别信息的关联度是否满足预设条件,其中,预设条件为第一数据类别信息与第二数据类别信息的关联度达到80%以上。比如第一数据类别信息中的合作学者与第二数据类别信息的合作学者具有同一作者等,第一数据类别信息中的某一学者与第二数据类别信息中的某一学者的研究领域接近或具有衔接性等。当第一数据类别信息与第二数据类别信息的关联度满足预设条件时,则对第一隐式知识图谱与第二隐式知识图谱进行聚类处理,获得第一类隐式知识图谱,进而满足服务级别的分面、分类获取知识的需求。
进一步的,所述方法还包括:获得第三隐式知识图谱,其中,所述第三隐式知识图谱与所述第一隐式知识图谱具有关联度;获得所述第三隐式知识图谱中的第四实体与第五实体;判断所述第四实体与所述第一实体和/或所述第二实体之间是否具有第一关联关系;当所述第四实体与所述第一实体和/或所述第二实体之间不具有第一关联关系时,将所述第四实体从所述第三隐式知识图谱中删除,将所述第五实体加入所述第一类隐式知识图谱中。
具体而言,通过获得第三隐式知识图谱,其中,第三隐式知识图谱与第一隐式知识图谱具有关联度,即第三隐式知识图谱与第一隐式知识图谱的结果数据的分类信息中的关联度超过80%。获得第三隐式知识图谱中的第四实体与第五实体,判断第四实体与第一实体和/或所述第二实体之间是否具有第一关联关系,即判断第三隐式知识图谱中的任一个实体与第一隐式知识图谱中的任一个实体之间是否具有关联关系,当第四实体与第一实体和/或第二实体之间不具有第一关联关系时,将第四实体从第三隐式知识图谱中删除,将第五实体加入第一类隐式知识图谱中,也就是说,对第四实体进行修改,依然保证其他实体的关系数据得到正确的修改。
实施例二
基于与前述实施例中一种面向多实体的隐式知识图谱表示的方法同样的发明构思,本发明还提供一种面向多实体的隐式知识图谱表示的装置,如图2所示,所述装置包括:
第一定义单元11,所述第一定义单元11用于定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;
第一获得单元12,所述第一获得单元12用于根据所述每个实体的特征字段与所述特征值获得实体识别工具;
第二获得单元13,所述第二获得单元13用于根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;
第三获得单元14,所述第三获得单元14用于对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;
第一输出单元15,所述第一输出单元15用于根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。
进一步的,所述将所述第一实体和所述第二实体存储入对应的分类实体库,包括:
第四获得单元,所述第四获得单元用于获得所述每个实体的实体类别信息;
第一建立单元,所述第一建立单元用于根据所述实体类别信息建立第一分类实体库,其中,所述第一分类实体集包括第一分类实体集与第二分类实体集;
第五获得单元,所述第五获得单元用于获得所述第一实体的第一类别信息;
第六获得单元,所述第六获得单元用于获得所述第二实体的第二类别信息;
第一存储单元,所述第一存储单元用于根据所述第一类别信息将所述第一实体存储入所述第一分类实体库中对应的所述第一分类实体集或所述第二分类实体集;
第二存储单元,所述第二存储单元用于根据所述第二类别信息将所述第二实体存储入所述第一分类实体库中对应的所述第一分类实体集或所述第二分类实体集。
进一步的,所述对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系,包括:
第七获得单元,所述第七获得单元用于获得所述第一实体的第一特征字段;
第八获得单元,所述第八获得单元用于获得所述第二实体的第二特征字段;
第一判断单元,所述第一判断单元用于根据特征字段隐式关系发现工具判断所述第一特征字段是否存在于所述第二特征字段中;
第一确定单元,所述第一确定单元用于当所述第一特征字段存在于所述第二特征字段中,确定所述第一实体和所述第二实体存在第一关联关系。
进一步的,所述装置还包括:
第九获得单元,所述第九获得单元用于对第三文献进行特征字段识别,获得第三实体;
第十获得单元,所述第十获得单元用于对所述第三实体和所述第一实体进行实体关系识别,获得所述第三实体和所述第一实体之间的第二关联关系;
第二输出单元,所述第二输出单元用于根据所述第二关联关系和所述第一关联关系、所述第一实体、所述第二实体、所述第三实体输出第二隐式知识图谱。
进一步的,所述装置还包括:
第十一获得单元,所述第十一获得单元用于获得所述第一隐式知识图谱的第一数据类别信息;
第十二获得单元,所述第十二获得单元用于获得所述第二隐式知识图谱的第二数据类别信息;
第二判断单元,所述第二判断单元用于判断所述第一数据类别信息与所述第二数据类别信息的关联度是否满足预设条件;
第十三获得单元,所述第十三获得单元用于当所述第一数据类别信息与所述第二数据类别信息的关联度满足预设条件时,获得第一类隐式知识图谱。
进一步的,所述判断所述第一数据类别信息与所述第二数据类别信息的关联度是否满足预设条件中,所述预设条件,包括:所述第一数据类别信息与所述第二数据类别信息的关联度达到80%以上。
进一步的,所述装置还包括:
第十四获得单元,所述第十四获得单元用于获得第三隐式知识图谱,其中,所述第三隐式知识图谱与所述第一隐式知识图谱具有关联度;
第十五获得单元,所述第十五获得单元用于获得所述第三隐式知识图谱中的第四实体与第五实体;
第三判断单元,所述第三判断单元用于判断所述第四实体与所述第一实体和/或所述第二实体之间是否具有第一关联关系;
第一操作单元,所述第一操作单元用于当所述第四实体与所述第一实体和/或所述第二实体之间不具有第一关联关系时,将所述第四实体从所述第三隐式知识图谱中删除,将所述第五实体加入所述第一类隐式知识图谱中。
前述图1实施例一中的一种面向多实体的隐式知识图谱表示的方法的各种变化方式和具体实例同样适用于本实施例的一种面向多实体的隐式知识图谱表示的装置,通过前述对一种面向多实体的隐式知识图谱表示的方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种面向多实体的隐式知识图谱表示的装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种面向多实体的隐式知识图谱表示的方法同样的发明构思,本发明还提供一种面向多实体的隐式知识图谱表示的装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种面向多实体的隐式知识图谱表示的方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
实施例四
基于与前述实施例中一种面向多实体的隐式知识图谱表示的方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;根据所述每个实体的特征字段与所述特征值获得实体识别工具;根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。
在具体实施过程中,该程序被处理器执行时,还可以实现实施例一中的任一方法步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例通过提供一种面向多实体的隐式知识图谱表示的方法及装置,所述方法包括:定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;根据所述每个实体的特征字段与所述特征值获得实体识别工具;根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。解决了现有技术中知识图谱中的实体发生变化,存在多种因素导致数据的不一致性,导致无法全量、正确的处理关系数据技术问题,达到了构建全面、准确的实体关系图谱,确保数据一致性,保障知识服务的准确性,提升用户体验感的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种面向多实体的隐式知识图谱表示的方法,其特征在于,所述方法包括:
定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;
根据所述每个实体的特征字段与所述特征值获得实体识别工具;
根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;
对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;
根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。
2.如权利要求1所述的方法,其特征在于,所述将所述第一实体和所述第二实体存储入对应的分类实体库,包括:
获得所述每个实体的实体类别信息;
根据所述实体类别信息建立第一分类实体库,其中,所述第一分类实体库 包括第一分类实体集与第二分类实体集;
获得所述第一实体的第一类别信息;
获得所述第二实体的第二类别信息;
根据所述第一类别信息将所述第一实体存储入所述第一分类实体库中对应的所述第一分类实体集或所述第二分类实体集;
根据所述第二类别信息将所述第二实体存储入所述第一分类实体库中对应的所述第一分类实体集或所述第二分类实体集。
3.如权利要求1所述的方法,其特征在于,所述对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系,包括:
获得所述第一实体的第一特征字段;
获得所述第二实体的第二特征字段;
根据特征字段隐式关系发现工具判断所述第一特征字段是否存在于所述第二特征字段中;
当所述第一特征字段存在于所述第二特征字段中,确定所述第一实体和所述第二实体存在第一关联关系。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
对第三文献进行特征字段识别,获得第三实体;
对所述第三实体和所述第一实体进行实体关系识别,获得所述第三实体和所述第一实体之间的第二关联关系;
根据所述第二关联关系和所述第一关联关系、所述第一实体、所述第二实体、所述第三实体输出第二隐式知识图谱。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
获得所述第一隐式知识图谱的第一数据类别信息;
获得所述第二隐式知识图谱的第二数据类别信息;
判断所述第一数据类别信息与所述第二数据类别信息的关联度是否满足预设条件;
当所述第一数据类别信息与所述第二数据类别信息的关联度满足预设条件时,获得第一类隐式知识图谱。
6.如权利要求5所述的方法,其特征在于,所述判断所述第一数据类别信息与所述第二数据类别信息的关联度是否满足预设条件中,所述预设条件,包括:所述第一数据类别信息与所述第二数据类别信息的关联度达到80%以上。
7.如权利要求5所述的方法,其特征在于,所述方法还包括:
获得第三隐式知识图谱,其中,所述第三隐式知识图谱与所述第一隐式知识图谱具有关联度;
获得所述第三隐式知识图谱中的第四实体与第五实体;
判断所述第四实体与所述第一实体和/或所述第二实体之间是否具有第一关联关系;
当所述第四实体与所述第一实体和/或所述第二实体之间不具有第一关联关系时,将所述第四实体从所述第三隐式知识图谱中删除,将所述第五实体加入所述第一类隐式知识图谱中。
8.一种面向多实体的隐式知识图谱表示的装置,其特征在于,所述装置包括:
第一定义单元,所述第一定义单元用于定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;
第一获得单元,所述第一获得单元用于根据所述每个实体的特征字段与所述特征值获得实体识别工具;
第二获得单元,所述第二获得单元用于根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;
第三获得单元,所述第三获得单元用于对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;
第一输出单元,所述第一输出单元用于根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。
9.一种面向多实体的隐式知识图谱表示的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;
根据所述每个实体的特征字段与所述特征值获得实体识别工具;
根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;
对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;
根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
定义每个实体的特征字段,以及根据所述每个实体的特征字段确定特征值;
根据所述每个实体的特征字段与所述特征值获得实体识别工具;
根据所述实体识别工具分别对第一文献和第二文献进行特征字段识别,获得第一实体和第二实体,将所述第一实体和所述第二实体存储入对应的分类实体库;
对所述分类实体库中的所述第一实体和所述第二实体进行实体关系识别,获得所述第一实体和所述第二实体之间的第一关联关系;
根据所述第一关联关系和所述第一实体、所述第二实体输出第一隐式知识图谱。
CN202010605881.5A 2020-06-29 2020-06-29 一种面向多实体的隐式知识图谱表示的方法及装置 Active CN111753027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010605881.5A CN111753027B (zh) 2020-06-29 2020-06-29 一种面向多实体的隐式知识图谱表示的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010605881.5A CN111753027B (zh) 2020-06-29 2020-06-29 一种面向多实体的隐式知识图谱表示的方法及装置

Publications (2)

Publication Number Publication Date
CN111753027A CN111753027A (zh) 2020-10-09
CN111753027B true CN111753027B (zh) 2023-03-14

Family

ID=72678046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010605881.5A Active CN111753027B (zh) 2020-06-29 2020-06-29 一种面向多实体的隐式知识图谱表示的方法及装置

Country Status (1)

Country Link
CN (1) CN111753027B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115237971B (zh) * 2022-09-22 2022-12-20 北京智源人工智能研究院 一种基于实体融合的信息推荐方法、系统、装置及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置
CN110309316A (zh) * 2018-06-08 2019-10-08 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN110489561A (zh) * 2019-07-12 2019-11-22 平安科技(深圳)有限公司 知识图谱构建方法、装置、计算机设备和存储介质
CN111324609A (zh) * 2020-02-17 2020-06-23 腾讯云计算(北京)有限责任公司 知识图谱构建方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309316A (zh) * 2018-06-08 2019-10-08 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置
CN110489561A (zh) * 2019-07-12 2019-11-22 平安科技(深圳)有限公司 知识图谱构建方法、装置、计算机设备和存储介质
CN111324609A (zh) * 2020-02-17 2020-06-23 腾讯云计算(北京)有限责任公司 知识图谱构建方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111753027A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
US11093698B2 (en) Method and apparatus and computer device for automatic semantic annotation for an image
CN107885499A (zh) 一种接口文档生成方法及终端设备
WO2017215370A1 (zh) 构建决策模型的方法、装置、计算机设备及存储设备
US8719299B2 (en) Systems and methods for extraction of concepts for reuse-based schema matching
CN110554958B (zh) 图数据库测试方法、系统、设备和存储介质
CN113032862B (zh) 一种建筑信息模型检查方法、检查装置及终端设备
CN104408584A (zh) 一种交易关联性的分析方法及系统
Ledur et al. Towards a domain-specific language for geospatial data visualization maps with big data sets
CN111461164A (zh) 样本数据集的扩容方法及模型的训练方法
CN112907358A (zh) 贷款用户信用评分方法、装置、计算机设备和存储介质
CN111753027B (zh) 一种面向多实体的隐式知识图谱表示的方法及装置
Hasan et al. Graphettes: Constant-time determination of graphlet and orbit identity including (possibly disconnected) graphlets up to size 8
CN106294530B (zh) 规则匹配的方法和系统
CN111966836A (zh) 知识图谱向量表示方法、装置、计算机设备及存储介质
CN110019969B (zh) 处理半结构化数据的方法和系统
CN104050264A (zh) 一种生成sql语句的方法和装置
CN116560629A (zh) 一种数据传输对象的序列化方法、装置、介质和设备
CN110941662A (zh) 科研合作关系的图示化方法、系统、存储介质、及终端
CN113742488B (zh) 基于多任务学习的嵌入式知识图谱补全方法和装置
CN110704635A (zh) 一种知识图谱中三元组数据的转换方法及装置
CN113190582B (zh) 一种数据实时交互式挖掘流建模分析系统
CN115543428A (zh) 一种基于策略模板的模拟数据生成方法和装置
CN111598239B (zh) 一种基于图神经网络提取文章的过程体系的方法和装置
CN110517070B (zh) 一种消费者人群圈选方法及装置
US20070168857A1 (en) Transformation of Source Data in a Source Markup Language to Target Data in a Target Markup Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant