CN113392220A - 一种知识图谱生成方法、装置、计算机设备及存储介质 - Google Patents
一种知识图谱生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113392220A CN113392220A CN202011144430.2A CN202011144430A CN113392220A CN 113392220 A CN113392220 A CN 113392220A CN 202011144430 A CN202011144430 A CN 202011144430A CN 113392220 A CN113392220 A CN 113392220A
- Authority
- CN
- China
- Prior art keywords
- entity
- information
- similarity
- knowledge graph
- entity information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012545 processing Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000010276 construction Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种知识图谱生成方法、装置、计算机设备及存储介质,本申请实施例可以获取实体信息,实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息;提取实体信息对应的局部特征和全局特征;根据局部特征和全局特征确定第一实体和第二实体之间的第一相似度;当第一相似度小于预设阈值时,对第一实体信息、第二实体信息和关联信息进行融合,得到融合后实体信息;根据融合后实体信息确定第一实体和第二实体之间的第二相似度;当第二相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱。提高了知识图谱生成的准确性和可靠性。
Description
技术领域
本申请涉及互联网技术领域,具体涉及一种知识图谱生成方法、装置、计算机设备及存储介质。
背景技术
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
目前,在构建知识图谱的过程中,基于内链方案,通过爬虫技术将独立的外源数据中的链接关系抓取下来,然后利用人工干预的推理规则,比如反边关系来建知识图谱的边,此时构建的知识图谱只能通过内链跳转到内部数据源,使得内链方案中外部数据源的链接关系不完善,并且存在可能丢失链接关系或链接不到不同数据源的问题,从而构建得到的知识图谱的准确性和可靠性较低。
发明内容
本申请实施例提供一种知识图谱生成方法、装置、计算机设备及存储介质,可以提高知识图谱生成的准确性和可靠性。
为解决上述技术问题,本申请实施例提供以下技术方案:
本申请实施例提供了一种知识图谱生成方法,包括:
获取实体信息,所述实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及所述第一实体和所述第二实体之间的关联信息;
提取所述实体信息对应的局部特征和全局特征;
根据所述局部特征和全局特征确定所述第一实体和第二实体之间的第一相似度;
当所述第一相似度小于预设阈值时,对所述第一实体信息、所述第二实体信息和所述关联信息进行融合,得到融合后实体信息;
根据所述融合后实体信息确定所述第一实体和第二实体之间的第二相似度;
当所述第二相似度大于或等于所述预设阈值时,基于所述第二实体信息生成所述第一实体对应的知识图谱。
根据本申请的一个方面,还提供了一种知识图谱生成方法,包括:
接收服务器发送对应第一实体的知识图谱,其中,所述知识图谱基于实体信息筛选出与所述第一实体的相似度大于或等于预设阈值的第二实体的第二实体信息生成,所述实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及所述第一实体和所述第二实体之间的关联信息;
根据所述知识图谱,显示所述第一实体对应的第一信息显示页面,所述第一信息显示页面包括所述知识图谱中至少一个所述第二实体的跳转控件,响应针对所述跳转控件的触发操作,显示所述第二实体的第二信息显示页面。
根据本申请的一个方面,还提供了一种知识图谱生成装置,包括:
获取单元,用于获取实体信息,所述实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及所述第一实体和所述第二实体之间的关联信息;
提取单元,用于提取所述实体信息对应的局部特征和全局特征;
第一确定单元,用于根据所述局部特征和全局特征确定所述第一实体和第二实体之间的第一相似度;
融合单元,用于当所述第一相似度小于预设阈值时,对所述第一实体信息、所述第二实体信息和所述关联信息进行融合,得到融合后实体信息;
第二确定单元,用于根据所述融合后实体信息确定所述第一实体和第二实体之间的第二相似度;
生成单元,用于当所述第二相似度大于或等于所述预设阈值时,基于所述第二实体信息生成所述第一实体对应的知识图谱。
根据本申请的一个方面,还提供了一种知识图谱生成装置,包括:
接收单元,用于接收服务器发送对应第一实体的知识图谱,其中,所述知识图谱基于实体信息筛选出与所述第一实体的相似度大于或等于预设阈值的第二实体的第二实体信息生成,所述实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及所述第一实体和所述第二实体之间的关联信息;
显示单元,用于根据所述知识图谱,显示所述第一实体对应的第一信息显示页面,所述第一信息显示页面包括所述知识图谱中至少一个所述第二实体的跳转控件,响应针对所述跳转控件的触发操作,显示所述第二实体的第二信息显示页面。
根据本申请的一个方面,还提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种知识图谱生成方法。
根据本申请的一个方面,还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种知识图谱生成方法。
本申请实施例可以获取实体信息,该实体信息可以包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息;然后可以提取实体信息对应的局部特征和全局特征,根据局部特征和全局特征确定第一实体和第二实体之间的第一相似度;当第一相似度小于预设阈值时,对第一实体信息、第二实体信息和关联信息进行融合,得到融合后实体信息,此时可以根据融合后实体信息确定第一实体和第二实体之间的第二相似度;当第二相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱。该方案基于实体信息对应的局部特征和全局特征准确地确定第一实体和第二实体之间的第一相似度,以及基于第一实体信息、第二实体信息和关联信息进行融合得到的融合后实体信息,精准确定第一实体和第二实体之间的第二相似度,当第二相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱,提高了知识图谱生成的准确性和可靠性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的知识图谱生成系统的场景示意图;
图2是本申请实施例提供的知识图谱生成方法的流程示意图;
图3是本申请实施例提供的获取实体信息的示意图;
图4是本申请实施例提供的获取实体信息的另一示意图;
图5是本申请实施例提供的知识图谱生成方法的另一流程示意图;
图6是本申请实施例提供的显示信息显示页面的示意图;
图7是本申请实施例提供的知识图谱生成方法的另一流程示意图;
图8是本申请实施例提供的知识图谱生成装置的示意图;
图9是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种知识图谱生成方法、装置、计算机设备及存储介质。
请参阅图1,图1为本申请实施例所提供的知识图谱生成系统的场景示意图,该知识图谱生成系统可以包括知识图谱生成装置,该知识图谱生成装置具体可以集成在服务器10中,该服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
其中,数据库(Database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、以及删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
服务器10与终端20之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。该终端20可以是手机、平板电脑、笔记本电脑、台式电脑、或者可穿戴设备等。
其中,服务器10可以用于获取实体信息,该实体信息可以包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息,然后可以提取实体信息对应的局部特征和全局特征,根据局部特征和全局特征确定第一实体和第二实体之间的第一相似度。当第一相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱;当第一相似度小于预设阈值时,对第一实体信息、第二实体信息和关联信息进行融合,得到融合后实体信息,此时可以根据融合后实体信息确定第一实体和第二实体之间的第二相似度。当第二相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱,提高了知识图谱生成的准确性和可靠性。在得到知识图谱后,服务器10可以将该第一实体的知识图谱发送给终端20,以使得终端20可以根据知识图谱显示第一实体对应的第一信息显示页面,第一信息显示页面包括知识图谱中至少一个第二实体的跳转控件,响应针对跳转控件的触发操作,显示第二实体的第二信息显示页面,以供用户查看。
需要说明的是,图1所示的知识图谱生成系统的场景示意图仅仅是一个示例,本申请实施例描述的知识图谱生成系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着知识图谱生成系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例提供的知识图谱生成方法可以涉及人工智能中的机器学习技术等技术,下面先对人工智能技术和机器学习技术进行说明。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、以及机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、以及算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、以及式教学习等技术。
在本实施例中,将从知识图谱生成装置的角度进行描述,该知识图谱生成装置具体可以集成在服务器等计算机设备中。
请参阅图2,图2是本申请一实施例提供的知识图谱生成方法的流程示意图。该知识图谱生成方法可以包括:
S101、获取实体信息,实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息。
本实施例中可以应用于搜索引擎的知识图谱的构建或是应用于特定领域的知识图谱的构建等。其中,第一实体可以是某个人物、动物、植物或者物品等,例如第一实体可以是用户A,第二实体可以包括至少一个任人物、动物、植物或者物品等,该第二实体可以是可能与第一实体之间存在关联的候选实体,该关联信息可以是第一实体和候选实体之间的初始关联信息。例如,第二实体可以包括用户B、用户C、用户D和用户E等。实体信息可以包括实体的属性信息或特征信息等,例如,当第一实体为用户A时,第一实体信息可以包括用户A的出生日、出生地、生肖、星座、职业、血型以及作品等,第二实体信息可以包括用户B用户C、用户D和用户E等的出生日、出生地、生肖、星座、职业、血型以及作品等,第一实体和第二实体之间的关联信息可以包括妻子、丈夫、女儿、儿子、侄子、外甥、舅舅、父亲或母亲等。
例如,第一实体、第二实体、以及第一实体和第二实体之间的关联信息可以是SPO三元组,其中,SPO是英文(Subject,Predicate,Object)的首字母缩写,翻译成中文可以理解为:S可以表示第一实体,P可以表示第一实体与第二实体之间的关联信息,O可以表示第二实体。应用于知识图谱的构建过程,可以基于语义匹配等进行知识图谱实体建边,其中,建边可以是指在SPO三元组中,找到O对应的知识图谱中的实体id(路称为o_id),该实体id可以是实体的链接地址。例如,可以获取知识图谱中所有待建边的SPO三元组,然后基于本实施例的知识图谱生成方法找到O对应的知识图谱中的实体id,从而完成知识图谱的实体建边流程,使得实体信息更加丰富,以提升知识图谱的丰富度和联通度。
需要说明的是,实体信息、第一实体信息、第二实体信息、以及关联信息等,还可以根据实际需要进行灵活设置,具体内容在此处不作限定。
在一实施方式中,获取实体信息可以包括:从多个不同的网站上获取关于第一实体和第二实体的数据源;对数据源进行结构对齐处理,得到对齐后数据;对对齐后数据进行归一化处理,得到归一化后数据;对归一化后数据进行消歧处理,得到消歧后数据;对消歧后数据进行属性融合处理,得到实体信息。
为了提高实体信息获取的便捷性和灵活性,可以从多个不同的网站上获取关于第一实体的数据源和第二实体的数据源,例如,如图3中的异构数据可以包括第一实体的数据源和第二实体的数据源。然后,可以分别对第一实体的数据源和第二实体的数据源进行结构对齐处理,得到对齐后数据(即图3中的同构数据),即对齐后数据可以包括第一实体对应的对齐后数据,以及第二实体对应的对齐后数据。例如,如图4所示,当第一实体为用户A时,从网站A获取得到的用户A的数据源包括:1961年9月27日出生香港等,从网站B获取得到的用户A的数据源包括:1961-9-27中国香港等,此时可以对从不同网站获取得到的用户A的数据源进行结构对齐处理,得到对齐后数据包括:出生日期:1961年9月27日,出生地:香港,来源:网站A;出生日期:1961-9-27,出生地:中国香港,来源:网站B;等等。其次,可以对对齐后数据进行归一化处理(即图3中的数据清洗),得到归一化后数据(即图3中的规整数据,可以按照字典进行数据规整处理,例如,将中国香港和香港规整为中国香港),例如,图4中,得到的归一化后数据可以包括:出生日期:1961年9月27日,出生地:中国香港,来源:网站A;出生日期:1961年9月27日,出生地:中国香港,来源:网站B;等等。此时可以对归一化后数据进行消歧处理(即实体融合处理),得到消歧后数据(即图3中的消歧数据),如图4所示,可以根据实体信息将同一个实体合并,消歧后数据可以将用户A为老师的数据消除,仅保留用户A为明星的数据。对消歧后数据进行属性融合处理,得到实体信息(即图3中的初始实体数据)。例如,图4中,得到的实体信息可以包括用户A的出生日期、妻子、出生地以及作品等,图3中,后续可以对初始实体数据进行关系建设(即建边,以下实施将进行详细说明),得到包含链接地址的实体数据,此时可以将实体数据写入图引擎,以生成知识图谱。
为了提高知识图谱生成的准确性和便捷性,可以基于语义匹配进行知识图谱实体建边,以对知识图谱中那些未建边的SPO三元组完成建边,其中语义匹配的方式可以根据实际需要进行灵活设置,例如,如图5所示,语义匹配可以包括先验语义知识阶段、浅层语义匹配阶段、以及深层语义匹配阶段等三个阶段,以下将进行详细说明。
在一实施方式中,提取实体信息对应的局部特征和全局特征之前,知识图谱生成方法还可以包括:当第一实体和第二实体之间的关联信息满足预设条件时,通过先验语义知识匹配第二实体;基于匹配完成的第二实体的第二实体信息生成第一实体对应的知识图谱。
为了提高知识图谱生成的效率和便捷性,在得到包含第一实体信息、第二实体信息、以及第一实体和第二实体之间的关联信息的实体信息后,可以判断该关联信息是否满足预设条件,该预设条件可以根据实际需要进行灵活设置,例如,当关联信息为星座时,由于星座有12个,则说明该关联信息不满足预设条件,又例如,当关联信息为出生地时,由于出生地具有唯一性,则说明该关联信息满足预设条件。当第一实体和第二实体之间的关联信息满足预设条件时,可以通过先验语义知识匹配第二实体,其中,先验语义知识可以是指一些在事实发生之前就知道的知识。例如,图5所示,可以基于枚举字典的先验语义知识匹配第二实体。此时可以基于匹配完成的第二实体的第二实体信息(例如第二实体名称等)生成第一实体对应的知识图谱,图5中输出结果可以包括匹配到的第二实体的实体信息,还可以包括生成的知识图谱。当第一实体和第二实体之间的关联信息不满足预设条件时,可以进入浅层语义匹配阶段。
具体地,图5中先验语义知识阶段的输入可以包括第一实体的链接地址s_id和第一实体的名称s_name等第一实体信息,第二实体名称o_name等第二实体信息,以及关联信息的名称p_name和关联信息对应的链接地址p_id等关联信息,输出可以包括通过先验语义知识基于枚举字典和输入的信息对第二实体的O值进行枚举,以输出第一实体的链接地址o_id。对于先验语义知识阶段:先验语义知识可以是指一些在事实发生之前就知道的知识,对于建边而言,比如SPO三元组为(用户A、星座、天秤座),因为星座只有十二个,这是先验的语义知识,基于星座即可获知只有12个选择,如果有个12星座到知识图谱id的枚举映射字典,那么很容易就能将天秤座映射为知识图谱的id。这个先验语义知识阶段的核心是如何才能挖掘这个枚举映射字典,可以包括两个要点:一是符合先验语义知识,二是值为有限个。具体做法可以包括:统计数据库中不同关联信息P下,O值的个数,通过O值的个数降序排列,还可以辅助人工判断P是否可用于构建映射字典。
S102、提取实体信息对应的局部特征和全局特征。
例如,如图5所示,在进入浅层语义匹配阶段时,可以提取实体信息对应的局部特征和全局特征。
在一实施方式中,提取第一实体信息、第二实体信息和关联信息的局部特征和全局特征可以包括:提取第一实体信息与第二实体信息之间的共现特征,得到局部特征;提取关联信息与第二实体信息之间的共现特征得到全局特征。
为了提高局部特征和全局特征提取的准确性和可靠性,可以提取第一实体信息与第二实体信息之间的共现特征(即共有的特征),得到局部特征,例如,当第一实体为用户A,第二实体为用户B时,可以将用户A的名称(即第一实体信息包括第一实体的名称)与用户B的名称、作品、出生地、星座、以及职业等(即第二实体信息包括第二实体的名称、作品、出生地、星座、以及职业等,这些信息可以称为第二实体的kv信息)进行比较,以提取共现特征,从而可以得到第一局部特征。以及将用户A的名称、作品、出生地、星座、以及职业等(即第一实体信息名称、作品、出生地、星座、以及职业等kv信息),与用户A的名称、作品、出生地、星座、以及职业等(即第二实体信息的kv信息)进行比较,以提取共现特征,从而可以得到第二局部特征,将第一局部特征和第二局部特征设置为局部特征。以及,可以提取第一实体和第二实体之间的关联信息与第二实体信息之间的共现特征,得到全局特征。
例如,为了定义共现特征,从建边的SPO三元组来说,目的是找到哪个知识图谱中的候选实体是正确答案(即从多个第二实体中筛选出正确的一个第二实体),因此,可以从以下多个个角度来构建第一实体信息、第二实体信息以及关联信息的共现模式:(1)单纯SPO组,即只看SPO三个词与候选实体kv信息(即第二实体信息)的共现,是一种局部特征。(2)S扩展信息与候选实体,即S实体的kv信息与候选实体的kv信息的共现,是一种局部特征。(3)P扩展信息(即关联信息)与候选实体,即关联信息与候选实体的kv信息的共现,是一种全局特征。即(1)和(2)可以得到局部特征,(3)可以得到全局特征。
S103、根据局部特征和全局特征确定第一实体和第二实体之间的第一相似度。
在一实施方式中,根据局部特征和全局特征确定第一实体和第二实体之间的第一相似度可以包括:基于局部特征和全局特征通过预设的相似度计算模型,计算第一实体和第二实体之间的概率分布值;根据概率分布值确定第一实体和第二实体之间的第一相似度。
为了提高第一相似度计算的准确性,可以通过预设的相似度计算模型来计算第一相似度,其中,预设的相似度计算模型可以是训练后的相似度计算模型,该相似度计算模型可以根据实际需要进行灵活设置,例如,相似度计算模型可以是梯度提升模型(eXtremeGradient Boosting,xgboost)。可以基于局部特征和全局特征通过xgboost模型,计算第一实体和第二实体之间的概率分布值,当第二实体包括多个时,可以计算第一实体和每个第二实体之间的概率分布值,该概率分布值的取值范围可以是0至1区间,包括0和1,此时可以根据概率分布值确定第一实体和第二实体之间的第一相似度,例如,可以将第一实体和第二实体之间的概率分布值,作为第一实体和第二实体之间的第一相似度,或者对概率分布值进行运算后得到第一相似度等。
其中,xgboost模型的训练过程可以包括:获取一个目标实体以及多个样本实体,获取目标实体的目标实体信息以及多个样本实体的样本实体信息,以及获取目标实体与每个样本实体之间的目标关联信息,提取目标实体信息、样本实体信息以及目标关联信息对应的局部特征和全局特征,根据局部特征和全局特征确定目标实体与每个样本实体之间的相似度,并将该相似度与预先标注的真实的相似度进行收敛,以调整xgboost模型的参数至合适数值,得到训练后的xgboost模型。
在一实施方式中,根据局部特征和全局特征确定第一实体和第二实体之间的第一相似度之后,知识图谱生成方法还包括:当第一相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱。
在得到第一实体和第二实体之间的第一相似度后,可以判断第一相似度是否小于预设阈值,该预设阈值可以根据实际需要进行灵活设置,当第一相似度小于预设阈值时,可以进入深层语义匹配阶段。当第一相似度大于或等于预设阈值时,说明该第二实体为与第一实体具有关联的正确的实体,即第二实体与第一实体匹配,此时可以基于第二实体信息(例如第二实体名称和链接地址等)生成第一实体对应的知识图谱,例如,可以将第二实体名称和链接地址等写入第一实体的知识图谱的图引擎。
需要说明的是,当第二实体包括多个候选实体时,可以分别计算第一实体和每个候选实体之间的相似度,得到多个第一相似度,如果存在多个第一相似度均大于预设阈值,则选择第一相似度最大的候选实体作为第二实体,如果存在多个第一相似度均大于预设阈值,且大于预设阈值多个第一相似度中最大的存在多个,则任意选其中一个第一相似度中最大的候选实体作为第二实体。
S104、当第一相似度小于预设阈值时,对第一实体信息、第二实体信息和关联信息进行融合,得到融合后实体信息。
在一实施方式中,对第一实体信息、第二实体信息和关联信息进行融合,得到融合后实体信息可以包括:通过预设字符对第一实体信息、第二实体信息和关联信息进行拼接,得到融合后实体信息。
其中,预设字符可以根据实际需要进行灵活设置,例如,预设字符可以包括[CLS]和[SEP]等,为了提高深层语义匹配阶段对融合后实体信息获取的可靠性,可以通过预设字符对第一实体信息、第二实体信息和关联信息进行拼接,得到融合后实体信息。其中,拼接方式可以根据实际需要进行灵活设置,例如,可以对第一实体信息、第二实体信息和关联信息进行首尾拼接,或者可以先在第一实体信息、第二实体信息和关联信息的尾部分别设置预设字符,该预设字符可以用于标识第一实体信息、第二实体信息和关联信息的尾部位置,然后依次对设置预设字符后的标识第一实体信息、关联信息和第二实体信息进行首尾拼接,还可以在第一实体信息的首部设置区别于尾部的预设字符(例如分类标签);等等。
在一实施方式中,预设字符包括第一预设字符、第二预设字符、第三预设字符和第四预设字符,通过预设字符对第一实体信息、第二实体信息和关联信息进行拼接,得到融合后实体信息可以包括:将第一预设字符设置在第一实体信息的首部,以及通过设置在第一实体信息的尾部的第二预设字,将第一实体信息和关联信息进行拼接;通过设置在关联信息的尾部的第三预设字符,将关联信息和第二实体信息进行拼接,并在第二实体信息的尾部设置第四预设字符,得到融合后实体信息。
其中,第一预设字符、第二预设字符、第三预设字符以及第四预设字符可以相同或不同,第一预设字符、第二预设字符、第三预设字符以及第四预设字符可以根据实际需要进行灵活设置,具体内容在此处不做限定。为了提高拼接的灵活性和便捷性,可以将第一预设字符设置在第一实体信息的首部,将第二预设字设置在第一实体信息的尾部,将第三预设字符设置在关联信息的尾部,将第四预设字符设置在第二实体信息的尾部,然后可以通过第二预设字将第一实体信息和关联信息进行拼接,通过第三预设字符将关联信息和第二实体信息进行拼接,得到融合后实体信息。
例如,如图5所示,拼接得到的融合后实体信息可以是:[第一预设字符]第一实体信息[第二预设字符]关联信息[第三预设字符]第二实体信息[第四预设字符],即[CLS]第一实体信息[SEP]关联信息[SEP]第二实体信息[SEP],此时可以通过第一预设字符查询第一实体信息的首部位置,通过第二预设字符查询第一实体信息的尾部位置,通过第二预设字符查询关联信息的首部位置,以及通过第三预设字符查询关联信息的尾部位置,通过第三预设字符查询第二实体信息的首部位置,通过第四预设字符查询第二实体信息的尾部位置,第一预设字符还可以用于输出第一实体和第二实体对应的分类标签。
需要说明的是,第一实体信息和第二实体信息均可以包括不同主题类型的实体信息(例如,不同主题类型的kv信息对),以SPO三元组为例,可以在深层语义匹配阶段可以输入S的kv对(即kv信息对,例如星座为天秤座为一对kv对)、p_name(即关联信息,也可以称为语义关系)、多个候选O的kv对,然后可以通过预设字符[CLS]和[SEP]对S的kv对、p_name、多个候选O的kv对进行拼接,可以生成长度为512的字符串,以输入语义匹配模型(例如kg-bert模型)。
对于深层语义匹配阶段:语义匹配模型(例如kg-bert模型)是为了解决通过语义关系(例如人、物品)才能判断出候选实体是或不是的问题。由于知识图谱中实体的各类信息很多且很杂,为了能够将实体的各类信息更好的编码在一起,本实施例可以利用语义匹配模型进行语义匹配,具体使用哪种语义匹配模型,这个相对灵活,本实施例可以使kg-bert模型。首先,拿到S对应的实体信息和候选O对应的实体信息。然后构建kg-bert模型的输入,实体信息可以是kv对(例如出生地和香港是一个kv对)的形式,因此为了尽可能多的融入kv对的信息,可以对每一组kv对进行长度限制(例如可以截取每一kv对前20个字符),并且限制同一个主题类型(例如出生地、或作品等)下kv对的个数,让模型能编码更多的信息。对于建边来说,语义匹配模型的核心出发点是判断候选的SPO三元组是不是合理的三元组,因此可以是一个二分类问题,所以最后对语义匹配模型的输出,可以进行二分类,以计算S和O之间的第二相似度,通过第二相似度与预设阈值的比较,进行最终判断。
需要说明的是,针对语义匹配模型,还可以辅助加以局部特征和全局特征,或者融入先验知识,以进一步提高准确率,还可以对语义匹配模型的输出层,进行不同的分类方式,比如不用[CLS]向量,可以用其他位置向量的max pooling,从多个维度去汇总编码实体信息,从而提升准确率。
S105、根据融合后实体信息确定第一实体和第二实体之间的第二相似度。
在一实施方式中,根据融合后实体信息确定第一实体和第二实体之间的第二相似度可以包括:通过预设的语义匹配模型的语言处理层,对融合后实体信息进行数值向量化处理,得到向量特征;通过语义匹配模型的全连接分类网络层,对向量特征进行分类处理,得到第一实体和第二实体之间的第二相似度。
为了提高第二相似度计算的准确性,可以通过语义匹配模型计算第一实体和第二实体之间的第二相似度,该语义匹配模型可以训练后的语义匹配模型,其中,语义匹配模型的类型可以根据实际需要进行灵活设置,例如,语义匹配模型可以是基于知识图谱的预训练语言模型(Knowledge Graph Bidirectional Encoder Representations fromTransformer,kg-bert)。
可以通过语义匹配模型的语言处理层,对融合后实体信息进行数值向量化处理,得到向量特征,例如,可以将融合后实体信息转换(也可以称为编码)为能够表征融合后实体信息的数值或字符等,然后基于数值对S的kv对和候选O的kv对进行交互(例如比较),可以得到712维的向量特征,该向量特征可以用于表征数值或字符本身的高层语义,以及S和O之间的关系(例如是否为同一类型)。然后可以通过语义匹配模型的全连接分类网络层,对向量特征进行分类处理,得到第一实体和第二实体之间的第二相似度,如图5所示。例如,当第二实体包括多个时,可以计算第一实体和每个第二实体之间的概率分布值,该概率分布值的取值范围可以是0至1区间,包括0和1,此时可以根据概率分布值确定第一实体和第二实体之间的第二相似度,例如,可以将第一实体和第二实体之间的概率分布值,作为第一实体和第二实体之间的第二相似度,或者对概率分布值进行运算后得到第二相似度等。
其中,语义匹配模型的训练过程可以包括:获取一个目标实体以及多个样本实体,获取目标实体的目标实体信息以及多个样本实体的样本实体信息,以及获取目标实体与每个样本实体之间的目标关联信息,对目标实体信息、样本实体信息和目标关联信息进行融合,得到目标融合后实体信息,根据目标融合后实体信息确定第一实体和第二实体之间的相似度,并将该相似度与预先标注的真实的相似度进行收敛,以调整语义匹配模型的参数至合适数值,得到训练后的语义匹配模型。
本实施例首先在先验语义知识阶段用枚举方式,解决语义鸿沟很明显并且值个数有限的情况,其次,在浅层语义匹配阶段通过挖掘局部特征和全局特征构建xgboost模型,保证较高的准确性。然后在深层语义匹配阶段基于预训练语言模型(即kg-bert模型)从语义层面去建模SPO三元组和知识图谱中的实体,提高了建边的准确率和召回率。利用语义匹配思路,将知识图谱中的SPO三元组尽可能多的找到O对应的实体,让整个知识图谱中的实体彼此有了更多的关联,对下游应用有很大价值。
S106、当第二相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱。
在得到第一实体和第二实体之间的第二相似度后,可以判断第二相似度是否小于预设阈值,该预设阈值可以根据实际需要进行灵活设置,当第二相似度小于预设阈值时,说明无法匹配到与第一实体关联的第二实体,此时可以结果流程,还可以输出无法匹配的相关提示信息。当第二相似度大于或等于预设阈值时,说明该第二实体为与第一实体具有关联的正确的实体,即第二实体与第一实体匹配,此时可以基于第二实体信息生成第一实体对应的知识图谱,例如,可以将第二实体名称和链接地址写入第一实体的知识图谱的图引擎。
需要说明的是,当第二实体包括多个候选实体时,可以分别计算第一实体和每个候选实体之间的相似度,得到多个第二相似度,如果存在多个第二相似度均大于预设阈值,则选择第二相似度最大的候选实体作为第二实体,如果存在多个第二相似度均大于预设阈值,且大于预设阈值多个第二相似度中最大的存在多个,则任意选其中一个第二相似度中最大的候选实体作为第二实体。
需要说明的是,由于第二实体信息可以包括第二实体的链接地址,因此当第一实体与第二实体之间的相似度(例如,第一相似度或第二相似度)大于或等于预设阈值时,说明该第二实体为与第一实体具有关联的正确的实体,即第二实体与第一实体匹配,此时可以将第二实体的链接地址进行存储,例如可以通过数据表的形式或其他形式进行存储,以使得在显示知识图谱的过程中,若知识图谱中的第二实体对应的跳转控件存在触发操作,则可以基于第二实体的链接地址跳转显示第二实体的信息显示页面。
在一实施方式中,基于第二实体信息生成第一实体对应的知识图谱之后,知识图谱生成方法还可以包括:将知识图谱发送给终端,以供终端根据知识图谱显示第一实体对应的第一信息显示页面,第一信息显示页面包括知识图谱中至少一个第二实体的跳转控件;响应针对跳转控件的触发操作,在终端上显示第二实体对应的第二信息显示页面。
在得到知识图谱后,可以将知识图谱发送给终端,以供终端根据知识图谱显示第一实体对应的第一信息显示页面,其中,第一信息显示页面可以包括知识图谱中至少一个第二实体的跳转控件,还可以包括用于显示第一实体的第一实体信息的显示区域等,跳转控件的显示方式可以是隐藏显示或非隐藏显示等,跳转控件的类型可以是按钮或者是实体所在区域等,该跳转控件的显示方式、类型、显示位置以及大小等可以根据实际需要进行灵活设置,具体内容在此处不做限定。然后,可以响应针对跳转控件的触发操作,获取预先存储的第二实体的链接地址,基于链接地址在终端上显示第二实体对应的第二信息显示页面。例如,如图6所示,可以响应针对用户D所在区域的跳转控件的触发操作,在终端上显示知识图谱中用户D的信息显示页面。
本申请实施例可以获取实体信息,该实体信息可以包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息;然后可以提取实体信息对应的局部特征和全局特征,根据局部特征和全局特征确定第一实体和第二实体之间的第一相似度;当第一相似度小于预设阈值时,对第一实体信息、第二实体信息和关联信息进行融合,得到融合后实体信息,此时可以根据融合后实体信息确定第一实体和第二实体之间的第二相似度;当第二相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱。该方案基于实体信息对应的局部特征和全局特征准确地确定第一实体和第二实体之间的第一相似度,以及基于第一实体信息、第二实体信息和关联信息进行融合得到的融合后实体信息,精准确定第一实体和第二实体之间的第二相似度,当第二相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱,提高了知识图谱生成的准确性和可靠性。
在本实施例中,将从知识图谱生成方法应用于终端中为例进行详细说明,请参阅图7,图7是本申请一实施例提供的知识图谱生成方法的流程示意图。该知识图谱生成方法可以包括:
S201、接收服务器发送对应第一实体的知识图谱,其中,知识图谱基于实体信息筛选出与第一实体的相似度大于或等于预设阈值的第二实体的第二实体信息生成,实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息。
S202、根据知识图谱,显示第一实体对应的第一信息显示页面,第一信息显示页面包括知识图谱中至少一个第二实体的跳转控件,响应针对跳转控件的触发操作,显示第二实体的第二信息显示页面。
其中,服务器可以按照上述知识图谱生成方法生成知识图谱,在得到知识图谱后,服务器可以将对应第一实体的知识图谱发送给终端,此时终端可以接收服务器发送的第一实体的知识图谱。然后终端可以根据知识图谱显示第一实体对应的第一信息显示页面。其中,第一信息显示页面可以包括知识图谱中至少一个第二实体的跳转控件,还可以包括用于显示第一实体的第一实体信息的显示区域等,跳转控件的显示方式可以是隐藏显示或非隐藏显示等,跳转控件的类型可以是按钮或者是实体所在区域等,该跳转控件的显示方式、类型、显示位置以及大小等可根据实际需要进行灵活设置,具体内容在此处不做限定。
其中,知识图谱可以为第一实体的知识图谱,知识图谱可以是基于实体信息筛选出与第一实体的相似度(例如第一相似度或第二相似度)大于或等于预设阈值的第二实体的第二实体信息生成,实体信息可以包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息。例如,当第一实体和第二实体之间的关联信息满足预设条件时,服务器可以通过先验语义知识匹配第二实体,基于匹配完成的第二实体的第二实体信息生成第一实体对应的知识图谱。当第一实体和第二实体之间的关联信息不满足预设条件时,服务器可以提取实体信息对应的局部特征和全局特征,根据局部特征和全局特征确定第一实体和第二实体之间的第一相似度。当第一相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱;当第一相似度小于预设阈值时,对第一实体信息、第二实体信息和关联信息进行融合,得到融合后实体信息,根据融合后实体信息确定第一实体和第二实体之间的第二相似度。当第二相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱。
然后,可以响应针对跳转控件的触发操作,获取预先存储的第二实体的链接地址,终端可以基于链接地址显示第二实体的第二信息显示页面,该二信息显示页面内可以包括第二实体的相关信息。例如,如图6所示,可以响应针对用户D所在区域的跳转控件的触发操作,在终端上显示知识图谱中用户D的信息显示页面。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对知识图谱生成方法的详细描述,此处不再赘述。
本申请实施例终端可以根据知识图谱显示第一实体对应的第一信息显示页面,并响应第一信息显示页面内针对跳转控件的触发操作,显示知识图谱中第二实体的第二信息显示页面,以供用户查看,提高了对知识图谱中实体的信息查询的便捷性和效率。
为便于更好的实施本申请实施例提供的知识图谱生成方法,本申请实施例还提供一种基于上述知识图谱生成方法的装置。其中名词的含义与上述知识图谱生成方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图8,图8为本申请实施例提供的知识图谱生成装置的结构示意图,其中该知识图谱生成装置可以包括获取单元301、提取单元302、第一确定单元303、融合单元304、第二确定单元305以及第一生成单元306等。
其中,获取单元301,用于获取实体信息,实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息。
提取单元302,用于提取实体信息对应的局部特征和全局特征。
第一确定单元303,用于根据局部特征和全局特征确定第一实体和第二实体之间的第一相似度。
融合单元304,用于当第一相似度小于预设阈值时,对第一实体信息、第二实体信息和关联信息进行融合,得到融合后实体信息。
第二确定单元305,用于根据融合后实体信息确定第一实体和第二实体之间的第二相似度。
第一生成单元306,用于当第二相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱。
在一实施方式中,提取单元302具体可以用于:提取第一实体信息与第二实体信息之间的共现特征,得到局部特征;提取关联信息与第二实体信息之间的共现特征得到全局特征。
在一实施方式中,第一确定单元303具体可以用于:基于局部特征和全局特征通过预设的相似度计算模型,计算第一实体和第二实体之间的概率分布值;根据概率分布值确定第一实体和第二实体之间的第一相似度。
在一实施方式中,融合单元304可以包括:
拼接子单元,用于通过预设字符对第一实体信息、第二实体信息和关联信息进行拼接,得到融合后实体信息。
在一实施方式中,预设字符包括第一预设字符、第二预设字符、第三预设字符和第四预设字符,拼接子单元具体可以用于:将第一预设字符设置在第一实体信息的首部,以及通过设置在第一实体信息的尾部的第二预设字,将第一实体信息和关联信息进行拼接;通过设置在关联信息的尾部的第三预设字符,将关联信息和第二实体信息进行拼接,并在第二实体信息的尾部设置第四预设字符,得到融合后实体信息。
在一实施方式中,第二确定单元305具体可以用于:通过预设的语义匹配模型的语言处理层,对融合后实体信息进行数值向量化处理,得到向量特征;通过语义匹配模型的全连接分类网络层,对向量特征进行分类处理,得到第一实体和第二实体之间的第二相似度。
在一实施方式中,知识图谱生成装置还可以包括:
匹配单元,用于当第一实体和第二实体之间的关联信息满足预设条件时,通过先验语义知识匹配第二实体,基于匹配完成的第二实体的第二实体信息生成第一实体对应的知识图谱。
在一实施方式中,知识图谱生成装置还可以包括:
第二生成单元,用于当第一相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱。
在一实施方式中,获取单元301具体可以用于:从多个不同的网站上获取关于第一实体和第二实体的数据源;对数据源进行结构对齐处理,得到对齐后数据;对对齐后数据进行归一化处理,得到归一化后数据;对归一化后数据进行消歧处理,得到消歧后数据;对消歧后数据进行属性融合处理,得到实体信息。
在一实施方式中,知识图谱生成还可以包括:
发送单元,用于将知识图谱发送给终端,以供终端根据知识图谱显示第一实体对应的第一信息显示页面,第一信息显示页面包括知识图谱中至少一个第二实体的跳转控件;
显示单元,用于响应针对跳转控件的触发操作,在终端上显示第二实体对应的第二信息显示页面。
本申请实施例可以由获取单元301获取实体信息,该实体信息可以包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息;然后可以由提取单元302提取实体信息对应的局部特征和全局特征,由第一确定单元303根据局部特征和全局特征确定第一实体和第二实体之间的第一相似度;当第一相似度小于预设阈值时,由融合单元304对第一实体信息、第二实体信息和关联信息进行融合,得到融合后实体信息,此时可以由第二确定单元305根据融合后实体信息确定第一实体和第二实体之间的第二相似度;当第二相似度大于或等于预设阈值时,可以由第一生成单元306基于匹配完成的第二实体的第二实体信息生成第一实体对应的知识图谱。该方案基于实体信息对应的局部特征和全局特征准确地确定第一实体和第二实体之间的第一相似度,以及基于第一实体信息、第二实体信息和关联信息进行融合得到的融合后实体信息,精准确定第一实体和第二实体之间的第二相似度,当第二相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱,提高了知识图谱生成的准确性和可靠性。
为便于更好的实施本申请实施例提供的知识图谱生成方法,本申请实施例还提供一种基于上述知识图谱生成方法的装置。其中名词的含义与上述知识图谱生成方法中相同,具体实现细节可以参考方法实施例中的说明。
其中该知识图谱生成装置可以包括接收单元和显示单元等。
其中,接收单元,用于接收服务器发送对应第一实体的知识图谱,其中,知识图谱基于实体信息筛选出与第一实体的相似度大于或等于预设阈值的第二实体的第二实体信息生成,实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息。
显示单元,用于根据知识图谱,显示第一实体对应的第一信息显示页面,第一信息显示页面包括知识图谱中至少一个第二实体的跳转控件,响应针对跳转控件的触发操作,显示第二实体的第二信息显示页面。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对知识图谱生成方法的详细描述,此处不再赘述。
本申请实施例还提供一种计算机设备,该计算机设备可以是服务器或终端等,如图9所示其示出了本申请实施例所涉及的服务器的结构示意图,具体地:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图9中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
当该计算机设备为服务器时,可以获取实体信息,实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息;提取实体信息对应的局部特征和全局特征;根据局部特征和全局特征确定第一实体和第二实体之间的第一相似度;当第一相似度小于预设阈值时,对第一实体信息、第二实体信息和关联信息进行融合,得到融合后实体信息;根据融合后实体信息确定第一实体和第二实体之间的第二相似度;当第二相似度大于或等于预设阈值时,基于第二实体信息生成第一实体对应的知识图谱。
当该计算机设备为终端时,可以接收服务器发送对应第一实体的知识图谱,其中,知识图谱基于实体信息筛选出与第一实体的相似度大于或等于预设阈值的第二实体的第二实体信息生成,实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及第一实体和第二实体之间的关联信息;根据知识图谱,显示第一实体对应的第一信息显示页面,第一信息显示页面包括知识图谱中至少一个第二实体的跳转控件,响应针对跳转控件的触发操作,显示第二实体的第二信息显示页面。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对知识图谱生成方法的详细描述,此处不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机指令来完成,或通过计算机指令控制相关的硬件来完成,该计算机指令可以存储于计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有计算机程序,该计算机程序包括计算机指令,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种知识图谱生成方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种知识图谱生成方法中的步骤,因此,可以实现本申请实施例所提供的任一种知识图谱生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种知识图谱生成方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (14)
1.一种知识图谱生成方法,其特征在于,包括:
获取实体信息,所述实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及所述第一实体和所述第二实体之间的关联信息;
提取所述实体信息对应的局部特征和全局特征;
根据所述局部特征和全局特征确定所述第一实体和第二实体之间的第一相似度;
当所述第一相似度小于预设阈值时,对所述第一实体信息、所述第二实体信息和所述关联信息进行融合,得到融合后实体信息;
根据所述融合后实体信息确定所述第一实体和第二实体之间的第二相似度;
当所述第二相似度大于或等于所述预设阈值时,基于所述第二实体信息生成所述第一实体对应的知识图谱。
2.根据权利要求1所述的知识图谱生成方法,其特征在于,所述提取所述实体信息对应的局部特征和全局特征包括:
提取所述第一实体信息与所述第二实体信息之间的共现特征,得到局部特征;
提取所述关联信息与所述第二实体信息之间的共现特征得到全局特征。
3.根据权利要求1所述的知识图谱生成方法,其特征在于,所述根据所述局部特征和全局特征确定所述第一实体和第二实体之间的第一相似度包括:
基于所述局部特征和全局特征通过预设的相似度计算模型,计算所述第一实体和第二实体之间的概率分布值;
根据所述概率分布值确定所述第一实体和第二实体之间的第一相似度。
4.根据权利要求1所述的知识图谱生成方法,其特征在于,所述对所述第一实体信息、所述第二实体信息和所述关联信息进行融合,得到融合后实体信息包括:
通过预设字符对所述第一实体信息、所述第二实体信息和所述关联信息进行拼接,得到融合后实体信息。
5.根据权利要求4所述的知识图谱生成方法,其特征在于,所述预设字符包括第一预设字符、第二预设字符、第三预设字符和第四预设字符,所述通过预设字符对所述第一实体信息、所述第二实体信息和所述关联信息进行拼接,得到融合后实体信息包括:
将所述第一预设字符设置在所述第一实体信息的首部,以及通过设置在所述第一实体信息的尾部的所述第二预设字,将所述第一实体信息和所述关联信息进行拼接;
通过设置在所述关联信息的尾部的所述第三预设字符,将所述关联信息和所述第二实体信息进行拼接,并在所述第二实体信息的尾部设置所述第四预设字符,得到融合后实体信息。
6.根据权利要求1所述的知识图谱生成方法,其特征在于,所述根据所述融合后实体信息确定所述第一实体和第二实体之间的第二相似度包括:
通过预设的语义匹配模型的语言处理层,对所述融合后实体信息进行数值向量化处理,得到向量特征;
通过所述语义匹配模型的全连接分类网络层,对所述向量特征进行分类处理,得到所述第一实体和第二实体之间的第二相似度。
7.根据权利要求1所述的知识图谱生成方法,其特征在于,所述提取实体信息对应的局部特征和全局特征之前,所述知识图谱生成方法还包括:
当所述第一实体和所述第二实体之间的关联信息满足预设条件时,通过先验语义知识匹配所述第二实体;
基于匹配完成的所述第二实体的第二实体信息生成所述第一实体对应的知识图谱。
8.根据权利要求1所述的知识图谱生成方法,其特征在于,所述根据所述局部特征和全局特征确定所述第一实体和第二实体之间的第一相似度之后,所述知识图谱生成方法还包括:
当所述第一相似度大于或等于所述预设阈值时,基于所述第二实体信息生成所述第一实体对应的知识图谱。
9.根据权利要求1所述的知识图谱生成方法,其特征在于,所述获取实体信息包括:
从多个不同的网站上获取关于所述第一实体和所述第二实体的数据源;
对所述数据源进行结构对齐处理,得到对齐后数据;
对所述对齐后数据进行归一化处理,得到归一化后数据;
对所述归一化后数据进行消歧处理,得到消歧后数据;
对所述消歧后数据进行属性融合处理,得到所述实体信息。
10.根据权利要求1至9任一项所述的知识图谱生成方法,其特征在于,所述基于所述第二实体信息生成所述第一实体对应的知识图谱之后,所述知识图谱生成方法还包括:
将所述知识图谱发送给终端,以供所述终端根据所述知识图谱显示所述第一实体对应的第一信息显示页面,所述第一信息显示页面包括所述知识图谱中至少一个所述第二实体的跳转控件;
响应针对所述跳转控件的触发操作,在所述终端上显示所述第二实体对应的第二信息显示页面。
11.一种知识图谱生成方法,其特征在于,包括:
接收服务器发送对应第一实体的知识图谱,其中,所述知识图谱基于实体信息筛选出与所述第一实体的相似度大于或等于预设阈值的第二实体的第二实体信息生成,所述实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及所述第一实体和所述第二实体之间的关联信息;
根据所述知识图谱,显示所述第一实体对应的第一信息显示页面,所述第一信息显示页面包括所述知识图谱中至少一个所述第二实体的跳转控件,响应针对所述跳转控件的触发操作,显示所述第二实体的第二信息显示页面。
12.一种知识图谱生成装置,其特征在于,包括:
获取单元,用于获取实体信息,所述实体信息包括第一实体的第一实体信息、第二实体的第二实体信息、以及所述第一实体和所述第二实体之间的关联信息;
提取单元,用于提取所述实体信息对应的局部特征和全局特征;
第一确定单元,用于根据所述局部特征和全局特征确定所述第一实体和第二实体之间的第一相似度;
融合单元,用于当所述第一相似度小于预设阈值时,对所述第一实体信息、所述第二实体信息和所述关联信息进行融合,得到融合后实体信息;
第二确定单元,用于根据所述融合后实体信息确定所述第一实体和第二实体之间的第二相似度;
第一生成单元,用于当所述第二相似度大于或等于所述预设阈值时,基于所述第二实体信息生成所述第一实体对应的知识图谱。
13.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至11任一项所述的知识图谱生成方法。
14.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行权利要求1至11任一项所述的知识图谱生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011144430.2A CN113392220B (zh) | 2020-10-23 | 2020-10-23 | 一种知识图谱生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011144430.2A CN113392220B (zh) | 2020-10-23 | 2020-10-23 | 一种知识图谱生成方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392220A true CN113392220A (zh) | 2021-09-14 |
CN113392220B CN113392220B (zh) | 2024-03-26 |
Family
ID=77616509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011144430.2A Active CN113392220B (zh) | 2020-10-23 | 2020-10-23 | 一种知识图谱生成方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392220B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115801483A (zh) * | 2023-02-10 | 2023-03-14 | 北京京能高安屯燃气热电有限责任公司 | 一种信息共享处理方法及系统 |
CN118444620A (zh) * | 2024-07-08 | 2024-08-06 | 青岛科技大学 | 一种面向终端设备的智能场景生成方法及智慧家庭系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150279182A1 (en) * | 2014-04-01 | 2015-10-01 | Objectvideo, Inc. | Complex event recognition in a sensor network |
CN106250412A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 基于多源实体融合的知识图谱构建方法 |
CN106844723A (zh) * | 2017-02-10 | 2017-06-13 | 厦门大学 | 基于问答系统的医学知识库构建方法 |
CN107368468A (zh) * | 2017-06-06 | 2017-11-21 | 广东广业开元科技有限公司 | 一种运维知识图谱的生成方法及系统 |
CN108363688A (zh) * | 2018-02-01 | 2018-08-03 | 浙江大学 | 一种融合先验信息的命名实体链接方法 |
CN109145119A (zh) * | 2018-07-02 | 2019-01-04 | 北京妙医佳信息技术有限公司 | 健康管理领域的知识图谱构建装置及构建方法 |
CN109189942A (zh) * | 2018-09-12 | 2019-01-11 | 山东大学 | 一种专利数据知识图谱的构建方法及装置 |
CN109213871A (zh) * | 2018-07-26 | 2019-01-15 | 南京邮电大学 | 患者信息知识图谱构建方法、可读存储介质和终端 |
CN109684625A (zh) * | 2018-10-31 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 实体处理方法、装置和存储介质 |
CN110147401A (zh) * | 2019-05-22 | 2019-08-20 | 苏州大学 | 融合先验知识和上下文相关度的知识库抽取方法 |
CN110245131A (zh) * | 2019-06-05 | 2019-09-17 | 江苏瑞中数据股份有限公司 | 一种知识图谱中实体对齐方法、系统及其存储介质 |
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
CN110727741A (zh) * | 2019-09-29 | 2020-01-24 | 全球能源互联网研究院有限公司 | 一种电力系统的知识图谱构建方法及系统 |
US20200166922A1 (en) * | 2018-05-07 | 2020-05-28 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for data collection, learning, and streaming of machine signals for analytics and predicted maintenance using the industrial internet of things |
CN111767368A (zh) * | 2020-05-27 | 2020-10-13 | 重庆邮电大学 | 一种基于实体链接的问答知识图谱构建方法及存储介质 |
WO2021175009A1 (zh) * | 2020-03-02 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 预警事件图谱的构建方法、装置、设备及存储介质 |
-
2020
- 2020-10-23 CN CN202011144430.2A patent/CN113392220B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150279182A1 (en) * | 2014-04-01 | 2015-10-01 | Objectvideo, Inc. | Complex event recognition in a sensor network |
CN106250412A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 基于多源实体融合的知识图谱构建方法 |
CN106844723A (zh) * | 2017-02-10 | 2017-06-13 | 厦门大学 | 基于问答系统的医学知识库构建方法 |
CN107368468A (zh) * | 2017-06-06 | 2017-11-21 | 广东广业开元科技有限公司 | 一种运维知识图谱的生成方法及系统 |
CN108363688A (zh) * | 2018-02-01 | 2018-08-03 | 浙江大学 | 一种融合先验信息的命名实体链接方法 |
US20200166922A1 (en) * | 2018-05-07 | 2020-05-28 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for data collection, learning, and streaming of machine signals for analytics and predicted maintenance using the industrial internet of things |
CN109145119A (zh) * | 2018-07-02 | 2019-01-04 | 北京妙医佳信息技术有限公司 | 健康管理领域的知识图谱构建装置及构建方法 |
CN109213871A (zh) * | 2018-07-26 | 2019-01-15 | 南京邮电大学 | 患者信息知识图谱构建方法、可读存储介质和终端 |
CN109189942A (zh) * | 2018-09-12 | 2019-01-11 | 山东大学 | 一种专利数据知识图谱的构建方法及装置 |
CN109684625A (zh) * | 2018-10-31 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 实体处理方法、装置和存储介质 |
CN110147401A (zh) * | 2019-05-22 | 2019-08-20 | 苏州大学 | 融合先验知识和上下文相关度的知识库抽取方法 |
CN110245131A (zh) * | 2019-06-05 | 2019-09-17 | 江苏瑞中数据股份有限公司 | 一种知识图谱中实体对齐方法、系统及其存储介质 |
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
CN110727741A (zh) * | 2019-09-29 | 2020-01-24 | 全球能源互联网研究院有限公司 | 一种电力系统的知识图谱构建方法及系统 |
WO2021175009A1 (zh) * | 2020-03-02 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 预警事件图谱的构建方法、装置、设备及存储介质 |
CN111767368A (zh) * | 2020-05-27 | 2020-10-13 | 重庆邮电大学 | 一种基于实体链接的问答知识图谱构建方法及存储介质 |
Non-Patent Citations (2)
Title |
---|
NICOLAS HEIST: "Towards Knowledge Graph Construction from Entity Co-occurrence", 《INTERNATIONAL CONFERENCE KNOWLEDGE ENGINEERING AND KNOWLEDGE MANAGEMENT 2018》, 31 December 2018 (2018-12-31), pages 1 - 9 * |
金初阳: "面向测试案例的领域知识图谱构建及应用", 《中国优秀硕士学位论文全文数据库 信息科技》, 15 June 2020 (2020-06-15), pages 138 - 340 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115801483A (zh) * | 2023-02-10 | 2023-03-14 | 北京京能高安屯燃气热电有限责任公司 | 一种信息共享处理方法及系统 |
CN118444620A (zh) * | 2024-07-08 | 2024-08-06 | 青岛科技大学 | 一种面向终端设备的智能场景生成方法及智慧家庭系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113392220B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131366B (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
EP4116885A1 (en) | Processing method for neural network model, and related device | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN111259653A (zh) | 基于实体关系消歧的知识图谱问答方法、系统以及终端 | |
CN110472002B (zh) | 一种文本相似度获取方法和装置 | |
CN111767385A (zh) | 一种智能问答方法及装置 | |
US11321370B2 (en) | Method for generating question answering robot and computer device | |
CN111143569A (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN113590863A (zh) | 图像聚类方法、装置及计算机可读存储介质 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
CN113836303A (zh) | 一种文本类别识别方法、装置、计算机设备及介质 | |
CN113392220B (zh) | 一种知识图谱生成方法、装置、计算机设备及存储介质 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN114782722A (zh) | 图文相似度的确定方法、装置及电子设备 | |
US12106045B2 (en) | Self-learning annotations to generate rules to be utilized by rule-based system | |
CN113342944B (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
WO2024125155A1 (zh) | 一种实体链接方法、装置、计算机设备和存储介质 | |
Ruiz et al. | Median activation functions for graph neural networks | |
CN113486659A (zh) | 文本匹配方法、装置、计算机设备及存储介质 | |
CN109977194B (zh) | 基于无监督学习的文本相似度计算方法、系统、设备及介质 | |
CN111414755A (zh) | 一种基于细粒度情感字典的网络情绪分析方法 | |
CN113672522B (zh) | 测试资源压缩方法以及相关设备 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN115129930A (zh) | 一种视频的信息处理方法、装置、计算机设备和存储介质 | |
CN115510203A (zh) | 问题答案确定方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40051770 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |