CN115659985B - 电力知识图谱实体对齐方法、装置和计算机设备 - Google Patents
电力知识图谱实体对齐方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN115659985B CN115659985B CN202211575798.3A CN202211575798A CN115659985B CN 115659985 B CN115659985 B CN 115659985B CN 202211575798 A CN202211575798 A CN 202211575798A CN 115659985 B CN115659985 B CN 115659985B
- Authority
- CN
- China
- Prior art keywords
- power
- power entity
- entity
- sub
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本申请涉及一种电力知识图谱实体对齐方法、装置和计算机设备。通过基于待对齐电力知识图谱中各电力实体的语义类型分类为第一电力实体子图谱,按照语言类型分类为第二电力实体子图谱,对每个第二电力实体子图谱基于图注意力机制进行特征聚合,对多个第二电力实体子图谱间进行第二特征聚合,得到各第一电力实体子图谱对应的多个第二电力实体向量,根据多个待对齐电力知识图谱分别对应的多个第二电力实体向量确定相似度矩阵,基于相似度矩阵确定电力知识图谱间电力实体的对齐结果。相较于传统的基于翻译模型进行对齐,本方案通过两种分类方式,细分实体后再进行多次聚合,基于聚合后的实体向量进行基于图注意力的实体对齐,提高了实体对齐的准确度。
Description
技术领域
本申请涉及电力技术领域,特别是涉及一种电力知识图谱实体对齐方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
电力知识图谱实体对齐任务。电力实体对齐是指将两个或多个不同知识图谱中所存在的指向同一个真实对象的电力实体识别出来。对于电力行业,其知识体系呈现出开放式、扁平化、边界模糊化的特征,这进一步加深了电力领域知识的复杂性。电力领域知识图谱构建的过程中,电力数据来源广、体量大,知识多样性显著,同样的电力知识与电力实体可能存在于不同业务的知识图谱中,因此需要将不同图谱中指代同一个电力对象的电力实体识别出来。目前对电力实体进行对齐的方式通常是基于翻译模型的表示学习方法来进行对齐。然而,通过翻译模型的对齐方法,会在对齐时混入重复或关联性不高的信息,导致对齐准确度下降。
因此,目前对电力知识图谱中电力实体对齐的方法存在准确度不高的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确度的电力知识图谱实体对齐方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种电力知识图谱实体对齐方法,所述方法包括:
获取待对齐电力知识图谱;所述待对齐电力知识图谱中包括多种类型的电力实体;
根据所述电力实体对应的语义类型,对待对齐电力知识图谱进行第一分类,得到多个第一电力实体子图谱;每个第一电力实体子图谱中电力实体对应的语义类型相同;
根据所述电力实体对应的电力实体属性的语言类型,在每个所述第一电力实体子图谱中进行第二分类,得到各个第一电力实体子图谱对应的多个第二电力实体子图谱;每个第二电力实体子图谱中电力实体属性的语言相同;
针对每个第二电力实体子图谱,根据图注意力机制,对该第二电力实体子图谱中的各个电力实体进行第一特征聚合,得到该第二电力实体子图谱对应的多个第一电力实体向量,根据所述图注意力机制,对多个第二电力实体子图谱中的多个第一电力实体向量进行第二特征聚合,得到各个第一电力实体子图谱对应的多个第二电力实体向量;
根据所述待对齐电力知识图谱的多个第一电力实体子图谱对应的多个第二电力实体向量,与其他待对齐电力知识图谱的多个其他第一电力实体子图谱对应的多个第二电力实体向量确定相似度矩阵,根据所述相似度矩阵确定所述待对齐电力知识图谱与所述其他待对齐电力知识图谱对应的电力实体对齐结果。
在其中一个实施例中,所述根据所述电力实体对应的语义类型,对待对齐电力知识图谱进行第一分类,得到多个第一电力实体子图谱,包括:
根据所述电力实体对应的语义类型,将所述待对齐电力知识图谱分类为地名类电力实体子图谱、组织机构类电力实体子图谱、设备类电力实体子图谱和数据类电力实体子图谱中的至少两种,作为多个第一电力实体子图谱。
在其中一个实施例中,所述根据所述电力实体对应的电力实体属性的语言类型,在每个所述第一电力实体子图谱中进行第二分类,得到各个第一电力实体子图谱对应的多个第二电力实体子图谱,包括:
针对每个第一电力实体子图谱,根据该第一电力实体子图谱中各个电力实体对应的电力实体属性对应的语言类型,将该第一电力实体子图谱分类为文字属性电力实体子图谱和数值属性电力实体子图谱,作为多个第二电力实体子图谱。
在其中一个实施例中,所述针对每个第二电力实体子图谱,根据图注意力机制,对该第二电力实体子图谱中的各个电力实体进行第一特征聚合,得到该第二电力实体子图谱对应的多个第一电力实体向量,根据所述图注意力机制,对多个第二电力实体子图谱中的多个第一电力实体向量进行第二特征聚合,得到各个第一电力实体子图谱对应的多个第二电力实体向量,包括:
针对每个第二电力实体子图谱,由预设语义表示模型根据该第二电力实体子图谱中的各个电力实体以及各个电力实体对应的电力实体属性,生成多个电力实体向量;
将所述多个电力实体向量输入第一目标特征聚合模型,由所述第一目标特征聚合模型基于各个电力实体向量对应的电力实体属性的数量、各个所述电力实体属性的注意力系数、各个所述电力实体属性之间的相似度以及预设激活函数,将所述多个电力实体向量进行聚合,得到聚合后的多个第一电力实体向量;所述第一目标特征聚合模型基于多个电力实体向量样本对图注意力框架中的待训练特征聚合模型训练得到;
将多个第二电力实体子图谱对应的多个第一电力实体向量输入第二目标特征聚合模型,由所述第二目标特征聚合模型基于各个第一电力实体向量对应的电力实体属性的数量、各个所述电力实体属性的注意力系数、各个所述电力实体属性之间的相似度以及预设激活函数,将所述多个第一电力实体向量进行聚合,得到聚合后的多个第二电力实体向量;所述第二目标特征聚合模型基于多个第一电力实体向量样本对图注意力框架中的待训练特征聚合模型训练得到。
在其中一个实施例中,所述根据所述待对齐电力知识图谱的多个第一电力实体子图谱对应的多个第二电力实体向量,与其他待对齐电力知识图谱的多个其他第一电力实体子图谱对应的多个第二电力实体向量确定相似度矩阵,根据所述相似度矩阵确定所述待对齐电力知识图谱与所述其他待对齐电力知识图谱对应的电力实体对齐结果,包括:
针对所述待对齐电力知识图谱对应的每个第一电力实体子图谱,根据该第一电力实体子图谱对应的多个第二电力实体向量,与所述其他第一电力实体子图谱的多个第二电力实体向量的相似度,确定该第一电力实体子图谱与所述其他第一电力实体子图谱间的第一相似度矩阵;
根据最小二乘支持向量机算法,以及各个第一电力实体子图谱对应的第一相似度矩阵,确定目标权重矩阵;所述目标权重矩阵中包括各个第一电力实体子图谱对应的第一相似度矩阵的目标权重;
根据多个第一电力实体子图谱对应的多个第一相似度矩阵,以及所述目标权重矩阵中各个目标权重,确定所述待对齐电力知识图谱与所述其他待对齐电力知识图谱对应的目标相似度矩阵;
根据所述目标相似度矩阵中各个元素的数值,确定各个元素对应于所述待对齐电力知识图谱中的电力实体与所述其他待对齐电力知识图谱中的电力实体的电力实体对齐结果。
在其中一个实施例中,所述根据最小二乘支持向量机算法,以及各个第一电力实体子图谱对应的第一相似度矩阵,确定目标权重矩阵,包括:
获取所述第一相似度矩阵中各个元素对应于所述待对齐电力知识图谱中的第一电力实体与所述其他待对齐电力知识图谱中的第二电力实体的第一相似度;
根据各个第一相似度矩阵对应的第一相似度、所述第一电力实体与所述第二电力实体是否在预设对齐电力实体对集合中以及预设惩罚系数,确定所述目标权重矩阵。
第二方面,本申请提供了一种电力知识图谱实体对齐装置,所述装置包括:
获取模块,用于获取待对齐电力知识图谱;所述待对齐电力知识图谱中包括多种类型的电力实体;
第一分类模块,用于根据所述电力实体对应的语义类型,对待对齐电力知识图谱进行第一分类,得到多个第一电力实体子图谱;每个第一电力实体子图谱中电力实体对应的语义类型相同;
第二分类模块,用于根据所述电力实体对应的电力实体属性的语言类型,在每个所述第一电力实体子图谱中进行第二分类,得到各个第一电力实体子图谱对应的多个第二电力实体子图谱;每个第二电力实体子图谱中电力实体属性的语言相同;
聚合模块,用于针对每个第二电力实体子图谱,根据图注意力机制,对该第二电力实体子图谱中的各个电力实体进行第一特征聚合,得到该第二电力实体子图谱对应的多个第一电力实体向量,根据所述图注意力机制,对多个第二电力实体子图谱中的多个第一电力实体向量进行第二特征聚合,得到各个第一电力实体子图谱对应的多个第二电力实体向量;
对齐模块,用于根据所述待对齐电力知识图谱的多个第一电力实体子图谱对应的多个第二电力实体向量,与其他待对齐电力知识图谱的多个其他第一电力实体子图谱对应的多个第二电力实体向量确定相似度矩阵,根据所述相似度矩阵确定所述待对齐电力知识图谱与所述其他待对齐电力知识图谱对应的电力实体对齐结果。
第三方面,本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
上述电力知识图谱实体对齐方法、装置、计算机设备、存储介质和计算机程序产品,通过基于待对齐电力知识图谱中各电力实体的语义类型,对电力实体进行第一分类,并基于第一分类得到的子图谱,按照语言类型进行第二分类,得到第二电力实体子图谱,对每个第二电力实体子图谱基于图注意力机制进行特征聚合,再对多个第二电力实体子图谱之间进行第二特征聚合,得到各个第一电力实体子图谱对应的多个第二电力实体向量,根据待对齐电力知识图谱对应的多个第二电力实体向量以及其他电力知识图谱的多个第二电力实体向量确定相似度矩阵,基于相似度矩阵确定电力知识图谱间电力实体的对齐结果。相较于传统的基于翻译模型进行对齐,本方案通过两种分类方式,细分电力实体后再进行多次聚合,基于聚合后的电力实体向量进行基于图注意力的电力实体对齐,提高了电力实体对齐的准确度。
附图说明
图1为一个实施例中电力知识图谱实体对齐方法的流程示意图;
图2为一个实施例中电力知识图谱实体对齐装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种音电力知识图谱实体对齐方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现,包括以下步骤:
步骤S202,获取待对齐电力知识图谱;待对齐电力知识图谱中包括多种类型的电力实体。
其中,知识图谱可以是知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。电力知识图谱中可以包括电力系统中的供电主体、各个电力设备以及各个电力设备的属性信息等。其中供电主体、电力设备等可以称为电力实体,电力知识图谱可以有多种来源,例如不同电力系统可以对应不同的电力知识图谱,各个电力知识图谱中对同种电力实体的名称会不一致,因此需要将多个电力知识图谱存在的指向同一个真实对象的电力实体识别出来,实现电力实体间的对齐。则待对齐电力知识图谱可以有多个。终端可以基于不同数据来源,获取多个待对齐电力知识图谱,例如终端可以获取两个待对齐电力知识图谱,从而终端可以对每个待对齐电力知识图谱进行相应处理后,将处理后的两个待对齐电力知识图谱中的各个电力实体进行对齐。其中,上述待对齐电力知识图谱中包括多种类型的电力实体,包括电力系统中各类供电主体、电力设备、属性信息和地理位置等。
步骤S204,根据电力实体对应的语义类型,对待对齐电力知识图谱进行第一分类,得到多个第一电力实体子图谱;每个第一电力实体子图谱中电力实体对应的语义类型相同。
其中,语义类型可以是电力知识图谱中各电力实体所属的语义的类型,对于每个待对齐电力知识图谱,终端可以根据待对齐电力知识图谱中各电力实体的语义类型,对待对齐电力知识图谱进行第一分类,得到多个第一电力实体子图谱。其中,每个第一子图谱分别代表了一种语义类型的电力实体的图谱,即每个第一电力实体子图谱中电力实体对应的语义类型相同。并且,由于上述待对齐电力知识图谱中包含多种语义类型的电力实体,则基于第一分类得到的第一电力实体子图谱可以有多个。
步骤S206,根据电力实体对应的电力实体属性的语言类型,在每个第一电力实体子图谱中进行第二分类,得到各个第一电力实体子图谱对应的多个第二电力实体子图谱;每个第二电力实体子图谱中电力实体属性的语言相同。
其中,上述待对齐电力知识图谱中可以包括多个电力实体,各个电力实体可以对应有电力实体属性,例如在电力系统中,电力设备可以作为一种电力实体,电力设备所处理的数据可以作为该电力实体的电力实体属性。一个电力实体可以对应有一种或多种电力实体属性,各个电力实体属性可以有不同的语言类型,例如字符类型或数值类型等。终端可以根据各个第一电力实体子图谱中各个电力实体对应的电力实体属性的语言类型,在每个第一电力实体子图谱中进行第二分类,具体可以是对每个第一电力实体子图谱中的各个电力实体进行图谱内的分类,从而得到各个第一电力实体子图谱对应的多个第二电力实体子图谱。其中,上述各个第二电力实体子图谱中电力实体属性的语言相同,由于每个第一电力实体子图谱中的电力实体对应的电力实体属性可以不同,不同语言类型的属性值具有不同的相似度度量规则,因此终端可以将具有相同语言类型的电力实体属性对应的电力实体进行集合,使得缩小了电力实体规模,令电力实体间相似度提高。
步骤S208,针对每个第二电力实体子图谱,根据图注意力机制,对该第二电力实体子图谱中的各个电力实体进行第一特征聚合,得到该第二电力实体子图谱对应的多个第一电力实体向量,根据图注意力机制,对多个第二电力实体子图谱中的多个第一电力实体向量进行第二特征聚合,得到各个第一电力实体子图谱对应的多个第二电力实体向量。
其中,第二电力实体子图谱可以有多个,对于每个第二电力实体子图谱,终端可以利用图注意力机制,对第二电力实体子图谱中的各个电力实体进行第一特征聚合,得到第二电力实体子图谱对应的多个第一电力实体向量。其中,第二电力实体子图谱中包括多个同语言类型的电力实体,且每个电力实体带有对应的电力实体属性,终端可以利用预设的语言模型将第二电力实体子图谱中的各个电力实体转换为向量,例如通过BERT(BidirectionalEncoder Representations fromTransformer,基于Transformer的双向编码器表示)模型进行转换,并将转换得到的电力实体向量进行特征聚合得到多个第一电力实体向量。则上述多个第一电力实体向量的数量可以小于由第二电力实体子图谱中的各个电力实体转换得到的电力实体向量的数量。终端还可以基于图注意力机制,对多个第二电力实体子图谱中的多个第一电力实体向量进行第二特征聚合,得到第一电力实体子图谱对应的多个第二电力实体向量。其中,第一特征聚合可以是每个第二电力实体子图谱内部的电力实体向量的特征聚合,第二特征聚合可以是多个第二电力实体子图谱之间的特征聚合,即终端将所有第二电力实体子图谱的第一电力实体向量作为待聚合的电力实体向量,并基于图注意力机制聚合多个第一电力实体向量,向这些电力实体向量重新统一到同一个图谱中,从而得到各个第一电力实体子图谱对应的多个第二电力实体向量。
步骤S210,根据待对齐电力知识图谱的多个第一电力实体子图谱对应的多个第二电力实体向量,与其他待对齐电力知识图谱的多个其他第一电力实体子图谱对应的多个第二电力实体向量确定相似度矩阵,根据相似度矩阵确定待对齐电力知识图谱与其他待对齐电力知识图谱对应的电力实体对齐结果。
其中,终端可以将待对齐电力知识图谱与其他待对齐电力知识图谱进行两个图谱间电力实体的对齐。即终端可以对每个待对齐电力知识图谱均进行上述的向量转换和特征聚合等步骤。在对齐阶段,终端可以获取待对齐电力知识图谱的多个第一电力实体子图谱,并获取多个第一电力实体子图谱对应的多个第二电力实体向量。终端可以以语义类型为单位,将每个第一电力实体子图谱之间的电力实体进行对齐。例如,终端可以基于待对齐电力知识图谱的多个第一电力实体子图谱对应的多个第二电力实体向量,与其他待对齐电力知识图谱的多个其他第一电力实体子图谱对应的多个第二电力实体向量,确定相似度矩阵。其中相似度矩阵中包括各个第一电力实体子图谱对应的电力实体间的相似度信息。从而终端可以根据相似度矩阵,确定上述待对齐电力知识图谱与其他待对齐电力知识图谱对应的电力实体对齐结果。例如,上述相似度矩阵中的每个矩阵元素可以是一个待对齐电力知识图谱中的一个电力实体与其他待对齐电力知识图谱中与该电力实体的语义类型对应的另一个电力实体的相似度,从而终端可以根据相似度矩阵中各个矩阵元素的数值,确定各个矩阵元素对应的电力实体对是否可以对齐,从而得到待对齐电力知识图谱与其他待对齐电力知识图谱之间的电力实体对齐结果。
上述电力知识图谱实体对齐方法中,通过基于待对齐电力知识图谱中各电力实体的语义类型,对电力实体进行第一分类,并基于第一分类得到的子图谱,按照语言类型进行第二分类,得到第二电力实体子图谱,对每个第二电力实体子图谱基于图注意力机制进行特征聚合,再对多个第二电力实体子图谱之间进行第二特征聚合,得到各个第一电力实体子图谱对应的多个第二电力实体向量,根据待对齐电力知识图谱对应的多个第二电力实体向量以及其他电力知识图谱的多个第二电力实体向量确定相似度矩阵,基于相似度矩阵确定电力知识图谱间电力实体的对齐结果。相较于传统的基于翻译模型进行对齐,本方案通过两种分类方式,细分电力实体后再进行多次聚合,基于聚合后的电力实体向量进行基于图注意力的电力实体对齐,提高了电力实体对齐的准确度。
在一个实施例中,根据电力实体对应的语义类型,对待对齐电力知识图谱进行第一分类,得到多个第一电力实体子图谱,包括:根据电力实体对应的语义类型,将待对齐电力知识图谱分类为地名类电力实体子图谱、组织机构类电力实体子图谱、设备类电力实体子图谱和数据类电力实体子图谱中的至少两种,作为多个第一电力实体子图谱。
本实施例中,上述第一分类可以是基于语义类型进行的分类,终端可以根据上述待对齐电力知识图谱中电力实体的语义类型,将待对齐电力知识图谱分类为地名类电力实体子图谱、组织机构类电力实体子图谱、设备类电力实体子图谱和数据类电力实体子图谱中的至少两种,作为多个第一电力实体子图谱。即电力知识图谱中的电力实体对应的语义类型可以包括地名、组织机构、设备和数据等电力实体。终端可以将待对齐电力知识图谱中的电力实体按照上述语义类型分为多个包含相同语义类型的电力实体的子图谱。具体地,终端可以将电力数据电力实体进行语义分类,确定需要划分的电力实体类别,其中电力数据对应的电力知识图谱中包含的不同类型的电力实体包括地名类电力实体,例如用电地区;组织机构类时,如用电企业、供电局等;设备类电力实体,如变压器、电表等;量测类电力实体,如用电量、电压、电价等。其中,终端可以将不同语义类型的电力实体使用不同的标识进行标注。例如,对于用电地区,即上述地名,终端可以用数字00标注;对于组织机构类电力实体,如用电企业、供电局等,终端可以用数字01标注;对设备类电力实体,如变压器、电表等,终端可以用数字02标注;对于量测数据类电力实体,如用电量、电压、电价等,终端可以用数字03标注,从而终端可以基于数字标注进行不同语义类型的电力实体的分类。需要说明的是,上述电力知识图谱还可以包括除上述公开的语义类型外的其他语义类型的电力实体,并且终端可以使用其他形式的标注来区分不同语义类型的电力实体。
通过本实施例,终端可以对待对齐电力知识图谱中的电力实体进行基于语义类型的分类,从而终端可以基于分类后得到的各个第一电力实体子图谱进行电力实体对齐,提高了电力实体对齐的准确度。
在一个实施例中,根据电力实体对应的电力实体属性的语言类型,在每个第一电力实体子图谱中进行第二分类,得到各个第一电力实体子图谱对应的多个第二电力实体子图谱,包括:针对每个第一电力实体子图谱,根据该第一电力实体子图谱中各个电力实体对应的电力实体属性对应的语言类型,将该第一电力实体子图谱分类为文字属性电力实体子图谱和数值属性电力实体子图谱,作为多个第二电力实体子图谱。
本实施例中,上述第二分类可以是基于语言类型进行的分类,终端可以根据上述各个第一电力实体子图谱中电力实体的电力实体属性对应的语言类型,将第一电力实体子图谱分类为文字属性电力实体子图谱和数值属性电力实体子图谱,作为该第一电力实体子图谱对应的多个第二电力实体子图谱。即每个第一电力实体子图谱中的电力实体对应的语言类型可以包括中文、英文和阿拉伯数字等类型。例如,若电力实体为变压器,其对应的电力实体属性可以包括运行中和变压器的尺寸数据等,则运行中可以作为上述变压器的中文属性值,尺寸数据可以作为变压器的数值类属性值。终端可以将每个第一电力实体子图谱中的电力实体按照上述语言类型,分为多个包含相同语言类型的电力实体的子图谱。具体地,终端在基于电力数据的电力实体属性进行分类时,在上述语义分类的基础上,终端可以再按照电力实体所具有的属性值的不同,分别在地名类电力实体子图谱、组织机构类电力实体子图谱、设备类电力实体子图谱和数据类电力实体子图谱四个图谱中进行二次分类;由于不同语言类型的属性值具有不同的相似度度量规则,因此终端进行二次电力实体分类的标准是将电力实体划分为具有中文属性值的电力实体、具有英文属性值的两类电力实体和具有阿拉伯数字的电力实体,其中,中文属性值和英文属性值可以表示字符类型的语言,阿拉伯数字可以表示数值类型的语言。从而终端可以在更为细分的维度上完成电力实体的特征聚合与向量表示。
通过本实施例,终端可以在第一分类的基础上基于语言类型进行第二分类,从而终端可以通过将第二分类后得到的相同语言类型的电力实体进行聚合,将属于相似度较高的电力实体向量进行基于特征的聚合,并基于聚合后的电力实体向量进行电力实体对齐,提高了电力实体对齐的准确度。
在一个实施例中,针对每个第二电力实体子图谱,根据图注意力机制,对该第二电力实体子图谱中的各个电力实体进行第一特征聚合,得到该第二电力实体子图谱对应的多个第一电力实体向量,根据图注意力机制,对多个第二电力实体子图谱中的多个第一电力实体向量进行第二特征聚合,得到各个第一电力实体子图谱对应的多个第二电力实体向量,包括:针对每个第二电力实体子图谱,由预设语义表示模型根据该第二电力实体子图谱中的各个电力实体以及各个电力实体对应的电力实体属性,生成多个电力实体向量;将多个电力实体向量输入第一目标特征聚合模型,由第一目标特征聚合模型基于各个电力实体向量对应的电力实体属性的数量、各个电力实体属性的注意力系数、各个电力实体属性之间的相似度以及预设激活函数,将多个电力实体向量进行聚合,得到聚合后的多个第一电力实体向量;第一目标特征聚合模型基于多个电力实体向量样本对图注意力框架中的待训练特征聚合模型训练得到;将多个第二电力实体子图谱对应的多个第一电力实体向量输入第二目标特征聚合模型,由第二目标特征聚合模型基于各个第一电力实体向量对应的电力实体属性的数量、各个电力实体属性的注意力系数、各个电力实体属性之间的相似度以及预设激活函数,将多个第一电力实体向量进行聚合,得到聚合后的多个第二电力实体向量;第二目标特征聚合模型基于多个第一电力实体向量样本对图注意力框架中的待训练特征聚合模型训练得到。
本实施例中,终端可以基于对各个电力实体子图谱中的各个电力实体进行特征聚合。终端通过第二分类得到多个第二电力实体子图谱后,每个第二电力实体子图谱中包括携带有相同语言类型的属性值的电力实体。对于每个第二电力实体子图谱,终端可以由预设语义表示模型,根据该第二电力实体子图谱中的各个电力实体以及各个电力实体对应的电力实体属性,生成多个电力实体向量。从而终端可以将多个电力实体向量输入第一目标特征聚合模型,由第一目标特征聚合模型基于各个电力实体向量对应的电力实体属性的数量、各个电力实体属性的注意力系数、各个电力实体属性之间的相似度以及预设激活函数,将多个电力实体向量进行聚合,得到聚合后的多个第一电力实体向量。其中,上述第一目标特征聚合模型基于多个电力实体向量样本对图注意力框架中的待训练特征聚合模型训练得到。即终端可以首先在每个第二电力实体子图谱内部进行特征聚合。
终端对上述第二电力实体子图谱中的多个电力实体向量进行聚合后,可以进行第二电力实体子图谱之间的特征聚合。例如,终端可以将多个第二电力实体子图谱对应的多个第一电力实体向量输入第二目标特征聚合模型,由第二目标特征聚合模型基于各个第一电力实体向量对应的电力实体属性的数量、各个电力实体属性的注意力系数、各个电力实体属性之间的相似度以及预设激活函数,将多个第一电力实体向量进行聚合,得到聚合后的多个第二电力实体向量。其中,上述第二目标特征聚合模型基于多个第一电力实体向量样本对图注意力框架中的待训练特征聚合模型训练得到。即终端可以将各个第二电力实体子图谱对应的第一电力实体向量进行聚合,得到统一到第一电力实体子图谱的第二电力实体向量。
具体地,对电力实体进行特征聚合时,终端可以构造基于图注意力网络的电力实体特征聚合通道,以此聚合各图谱中电力实体的特征,终端可以在各个属性分类电力实体子图内部应用图神经网络进行特征聚合,得到新的电力实体向量,即得到上述第一电力实体向量,终端还可以在不同类别属性子图之间应用图注意力机制完成属子图间的电力实体特征聚合,将各电力实体向量重新统一到同一个图谱中,即得到上述第二电力实体向量。其中终端可以基于上述各个属性值,训练出不同语言类型对应的图注意力框架的特征聚合模型,从而分别用于聚合相同语言类型的电力实体向量以及不同语言类型的电力实体向量。例如上述电力实体属性包括字符型的属性和数值型的属性,其中字符型中包括中文和英文等类型,终端可以分别设计基于图注意力网络的特征聚合通道,为具有三种不同属性值的电力实体进行特征聚合操作。其中,图注意力网络可以是一种基于图结构数据的新型神经网络架构,利用隐藏的自我注意层来解决之前基于图卷积或其近似的方法的不足。终端可以通过上述BERT初始化得到文字属性值对应的电力实体的特征向量以及数值属性值对应的电力实体的特征向量。终端可以通过两个GAT(Graph attention networks,图注意力网络)框架GAT1和GAT2,分别作用在由具有字符型属性的电力实体和具有数值型属性的电力实体所构成的子图谱中,另外,终端还可以再上述同类属性中的聚合完成后,再使用另一个图注意力框架GAT3完成对前两类子图所得出的电力实体的特征聚合操作。即中文属性的电力实体和英文属性的电力实体均可以基于GAT1进行特征聚合,阿拉伯数字属性的电力实体可以基于GAT2进行特征聚合。在每次聚合中,终端可以在GAT中以属性值为节点,属性关系为边,将电力实体链接到图中,从而使用图注意力机制学习电力实体的嵌入。聚合时使用的聚合公式如下所示:
其中,上述公式可以作为上述目标特征聚合模型,表示图注意力层的输出向量,为图注意力层的输入向量,例如输入的电力实体向量,αj是归一化后的电力实体属性值注意力系数,W1和u是可通过学习得到的参数矩阵。n表示与电力实体有关联的属性数量,σ()表示激活函数,例如可以是ELU()激活函数。终端可以通过预先训练得到上述目标特征聚合模型。在训练过程中,终端可以预先构建数据集,数据集中包括预先对齐的种子电力实体,终端通过缩小数据集中预先对齐的种子电力实体对之间的距离,将不同图谱的电力实体向量统一到同一向量空间中,在其中进行训练并不断更新注意力系数和其它参数,实现对目标特征聚合模型的训练。其中,终端可以通过利用包含相同语言类型的电力实体属性的电力实体的数据集,训练得到多个用于聚合相同语言类型的电力实体的目标特征聚合模型。例如使用包含字符属性的电力实体的数据集训练得到用于聚合中文和英文属性的电力实体的第一目标特征聚合模型,使用包含数值属性的电力实体的数据集训练得到用于聚合数字属性的电力实体的第一目标特征聚合模型。并且终端还可以通过利用包含多种语言类型的电力实体属性的电力实体的数据集,训练得到用于聚合不同语言类型的电力实体的目标特征聚合模型。例如使用包含字符属性和数值属性的电力实体的数据集,训练得到用于聚合中文、英文和字符属性的电力实体。
具体地,终端可以通过预训练模型BERT来随机初始化生成每个电力实体和电力实体属性的向量,对于数值型和字符型属性电力实体子图谱,终端可以初始化特征向量维度为128;在训练过程中,终端可以将数据集以3:7的比例划分为训练集和测试集,使用Adagrad算法作为训练优化器来优化待训练特征聚合模型的模型参数,终端可以对每个子图训练50个轮次。其中,GAT框架使用双层的的图注意力层进行结合,终端可以根据GPU内存大小,每个训练批次对每个电力实体选择至多20个属性三元组进行训练。其中,属性三元组可以以(电力实体,关系,属性)的方式表示。终端还可以对每个电力实体随机选择20个负样本,学习率设置为0.001,相似度矩阵集成通道中的惩罚C的值设置为10-3,L2正则化参数设置为10-3,超参数γ设置为1.0。从而终端可以基于上述训练过程,得到各个特征聚合过程中所使用的目标特征聚合模型。
通过本实施例,终端可以基于不同语言类型的数据集,训练得到用于聚合对应语言类型属性的电力实体的多个目标特征聚合模型,并基于各个目标特征聚合模型聚合携带不同语言类型的属性的电力实体向量,基于聚合后的电力实体进行电力实体对齐,提高了电力实体对齐准确度。
在一个实施例中,根据待对齐电力知识图谱的多个第一电力实体子图谱对应的多个第二电力实体向量,与其他待对齐电力知识图谱的多个其他第一电力实体子图谱对应的多个第二电力实体向量确定相似度矩阵,根据相似度矩阵确定待对齐电力知识图谱与其他待对齐电力知识图谱对应的电力实体对齐结果,包括:针对待对齐电力知识图谱对应的每个第一电力实体子图谱,根据该第一电力实体子图谱对应的多个第二电力实体向量,与其他第一电力实体子图谱的多个第二电力实体向量的相似度,确定该第一电力实体子图谱与其他第一电力实体子图谱间的第一相似度矩阵;根据最小二乘支持向量机算法,以及各个第一电力实体子图谱对应的第一相似度矩阵,确定目标权重矩阵;目标权重矩阵中包括各个第一电力实体子图谱对应的第一相似度矩阵的目标权重;根据多个第一电力实体子图谱对应的多个第一相似度矩阵,以及目标权重矩阵中各个目标权重,确定待对齐电力知识图谱与其他待对齐电力知识图谱对应的目标相似度矩阵;根据目标相似度矩阵中各个元素的数值,确定各个元素对应于待对齐电力知识图谱中的电力实体与其他待对齐电力知识图谱中的电力实体的电力实体对齐结果。
本实施例中,终端可以基于进行特征聚合后的电力实体向量,进行多个待对齐电力知识图谱之间的电力实体对齐。具体可以是基于电力实体相似度的对齐。终端聚合后,可以得到每个第一电力实体子图谱对应的第二电力实体向量。对于待对齐电力知识图谱对应的每个第一电力实体子图谱,终端可以获取该第一电力实体子图谱对应的多个第二电力实体向量,与其他第一电力实体子图谱的多个第二电力实体向量的相似度,并根据该相似度确定该第一电力实体子图谱与其他第一电力实体子图谱间的第一相似度矩阵。从而终端可以根据LS-SVM(Least Squares Support Vector Machines,最小二乘支持向量机)算法,以及各个第一电力实体子图谱对应的第一相似度矩阵,确定目标权重矩阵。其中目标权重矩阵中包括各个第一电力实体子图谱对应的第一相似度矩阵的目标权重,目标权重表示该第一相似度矩阵的重要程度。从而终端可以根据多个第一电力实体子图谱对应的多个第一相似度矩阵,以及目标权重矩阵中各个目标权重,确定待对齐电力知识图谱与其他待对齐电力知识图谱对应的目标相似度矩阵。其中,该目标相似度矩阵可以是总的矩阵,矩阵中的各个元素表示一个电力实体对的相似程度。例如大于或等于预设相似度阈值则元素值为1,小于预设相似度阈值则元素值为0。终端可以根据目标相似度矩阵中各个元素的数值,确定各个元素对应于待对齐电力知识图谱中的电力实体与其他待对齐电力知识图谱中的电力实体的电力实体对齐结果,例如将元素值为1对应的电力实体对中的两个电力实体确定为可以对齐的电力实体,即属于同一个真实对象;将元素值为0对应的电力实体对中的两个电力实体确定为不能对齐的电力实体,即属于不同的真实对象。
具体地,对于每两个待对齐电力知识图谱,这两个待对齐电力知识图谱中均可以包括多个第一电力实体子图谱。则终端可以确定两个待对齐电力知识图谱中的各第一电力实体子图谱的电力实体相似度。终端可以计算两个待对齐电力知识图谱中各第一电力实体子图谱之间的余弦相似度,得到地名类电力实体子图谱之间的相似度矩阵、组织机构类电力实体子图谱之间的相似度矩阵、设备类电力实体子图谱之间的相似度矩阵、数据类电力实体之间的相似度矩阵。各个相似度矩阵可以表示为Sk(k=1,2,3,4),终端计算得到上述电力实体相似度矩阵之后,可以通过LS-SVM算法来学习得到各相似度矩阵的重要性,加权求和得到总的相似度矩阵,即上述目标相似度矩阵。其具体公式可以如下所示:。其中,wk为各个相似度矩阵的权重。
终端可以从目标权重矩阵中确定各个相似度矩阵的权重。例如,在一些实施例中,终端可以获取上述第一相似度矩阵中各个元素对应于待对齐电力知识图谱中的第一电力实体与其他待对齐电力知识图谱中的第二电力实体的第一相似度,并根据各个第一相似度矩阵对应的第一相似度、第一电力实体与第二电力实体是否在预设对齐电力实体对集合中以及预设惩罚系数,确定目标权重矩阵。其中,预设对齐电力实体对集合可以包括多个预先对齐的电力实体对。即当第一相似度矩阵中属于上述预设对齐电力实体对集合中的第一电力实体和第二电力实体越多时,第一相似度矩阵的权重越大。具体地,目标权重矩阵可以是w=[w1,w2,w3,w4]。则目标权重矩阵的计算方法为:。其中,C为惩罚系数,C的值过大,模型越容易出现过拟合;C的值过小,模型越容易出现欠拟合;都会导致模型泛化能力变差。/>是相似度分数组成的向量。例如/>表示第一个第一相似度矩阵对应的相似度分数。E和e’分别为两个待对齐电力知识图谱中的两个电力实体,S为预设对齐电力实体对集合,若(e,e’)∈S,则y1=1,否则y1=0。
通过上述实施例,终端可以基于两个待对齐电力知识图谱中的各个第一电力实体子图谱之间的相似度矩阵,确定总的目标相似度矩阵,从而终端可以基于目标相似度矩阵中的元素的数值,确定两个待对齐电力知识图谱中的各个电力实体是否可以对齐,提高了电力知识图谱中电力实体对齐的准确度。
并且,通过本方案提供的实施例,通过首先将源电力知识图谱数据进行语义分类,分为地名类电力实体、组织机构类电力实体、设备类电力实体和量测类电力实体,并整理形成四个子图谱,完成一次分类任务。在此分类所形成的四个子图谱上,各再进行分类,根据电力实体所带有的属性值的不同,分为带有中文属性值的电力实体、带有英文属性值的电力实体,形成三个子图谱。在各属性子图谱中应用图注意力网络完成电力实体特征聚合,再在各语义电力实体子图谱之间应用图注意力网络,完成全部电力实体的特征聚合,得到电力实体的特征向量。计算电力实体间的相似度,得出对齐电力实体。为电力数据的电力实体分类提供了一种参考,使得可以在更为细分的维度上完成对电力电力实体的特征聚合,可以在不借助深度神经网络的基础上过滤掉一定的噪声,提升模型效率。并且使用图注意力网络,得到电力实体与其邻居电力实体之间的重要性系数,通过深度学习的方式达到电力实体特征聚合的优化。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的电力知识图谱实体对齐方法的电力知识图谱实体对齐装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个电力知识图谱实体对齐装置实施例中的具体限定可以参见上文中对于电力知识图谱实体对齐方法的限定,在此不再赘述。
在一个实施例中,如图2所示,提供了一种电力知识图谱实体对齐装置,包括:获取模块500、第一分类模块502、第二分类模块504、聚合模块506和对齐模块508,其中:
获取模块500,用于获取待对齐电力知识图谱;待对齐电力知识图谱中包括多种类型的电力实体。
第一分类模块502,用于根据电力实体对应的语义类型,对待对齐电力知识图谱进行第一分类,得到多个第一电力实体子图谱;每个第一电力实体子图谱中电力实体对应的语义类型相同。
第二分类模块504,用于根据电力实体对应的电力实体属性的语言类型,在每个第一电力实体子图谱中进行第二分类,得到各个第一电力实体子图谱对应的多个第二电力实体子图谱;每个第二电力实体子图谱中电力实体属性的语言相同。
聚合模块506,用于针对每个第二电力实体子图谱,根据图注意力机制,对该第二电力实体子图谱中的各个电力实体进行第一特征聚合,得到该第二电力实体子图谱对应的多个第一电力实体向量,根据图注意力机制,对多个第二电力实体子图谱中的多个第一电力实体向量进行第二特征聚合,得到各个第一电力实体子图谱对应的多个第二电力实体向量。
对齐模块508,用于根据待对齐电力知识图谱的多个第一电力实体子图谱对应的多个第二电力实体向量,与其他待对齐电力知识图谱的多个其他第一电力实体子图谱对应的多个第二电力实体向量确定相似度矩阵,根据相似度矩阵确定待对齐电力知识图谱与其他待对齐电力知识图谱对应的电力实体对齐结果。
在一个实施例中,上述第一分类模块502,具体用于根据电力实体对应的语义类型,将待对齐电力知识图谱分类为地名类电力实体子图谱、组织机构类电力实体子图谱、设备类电力实体子图谱和数据类电力实体子图谱中的至少两种,作为多个第一电力实体子图谱。
在一个实施例中,上述第二分类模块504,具体用于针对每个第一电力实体子图谱,根据该第一电力实体子图谱中各个电力实体对应的电力实体属性对应的语言类型,将该第一电力实体子图谱分类为文字属性电力实体子图谱和数值属性电力实体子图谱,作为多个第二电力实体子图谱。
在一个实施例中,上述聚合模块506,具体用于针对每个第二电力实体子图谱,由预设语义表示模型根据该第二电力实体子图谱中的各个电力实体以及各个电力实体对应的电力实体属性,生成多个电力实体向量;将多个电力实体向量输入第一目标特征聚合模型,由第一目标特征聚合模型基于各个电力实体向量对应的电力实体属性的数量、各个电力实体属性的注意力系数、各个电力实体属性之间的相似度以及预设激活函数,将多个电力实体向量进行聚合,得到聚合后的多个第一电力实体向量;第一目标特征聚合模型基于多个电力实体向量样本对图注意力框架中的待训练特征聚合模型训练得到;将多个第二电力实体子图谱对应的多个第一电力实体向量输入第二目标特征聚合模型,由第二目标特征聚合模型基于各个第一电力实体向量对应的电力实体属性的数量、各个电力实体属性的注意力系数、各个电力实体属性之间的相似度以及预设激活函数,将多个第一电力实体向量进行聚合,得到聚合后的多个第二电力实体向量;第二目标特征聚合模型基于多个第一电力实体向量样本对图注意力框架中的待训练特征聚合模型训练得到。
在一个实施例中,上述对齐模块508,具体用于针对待对齐电力知识图谱对应的每个第一电力实体子图谱,根据该第一电力实体子图谱对应的多个第二电力实体向量,与其他第一电力实体子图谱的多个第二电力实体向量的相似度,确定该第一电力实体子图谱与其他第一电力实体子图谱间的第一相似度矩阵;根据最小二乘支持向量机算法,以及各个第一电力实体子图谱对应的第一相似度矩阵,确定目标权重矩阵;目标权重矩阵中包括各个第一电力实体子图谱对应的第一相似度矩阵的目标权重;根据多个第一电力实体子图谱对应的多个第一相似度矩阵,以及目标权重矩阵中各个目标权重,确定待对齐电力知识图谱与其他待对齐电力知识图谱对应的目标相似度矩阵;根据目标相似度矩阵中各个元素的数值,确定各个元素对应于待对齐电力知识图谱中的电力实体与其他待对齐电力知识图谱中的电力实体的电力实体对齐结果。
在一个实施例中,上述对齐模块508,具体用于获取第一相似度矩阵中各个元素对应于待对齐电力知识图谱中的第一电力实体与其他待对齐电力知识图谱中的第二电力实体的第一相似度;根据各个第一相似度矩阵对应的第一相似度、第一电力实体与第二电力实体是否在预设对齐电力实体对集合中以及预设惩罚系数,确定目标权重矩阵。
上述电力知识图谱实体对齐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种电力知识图谱实体对齐方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的电力知识图谱实体对齐方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的电力知识图谱实体对齐方法。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的电力知识图谱实体对齐方法。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种电力知识图谱电力实体对齐方法,其特征在于,所述方法包括:
获取待对齐电力知识图谱;所述待对齐电力知识图谱中包括多种类型的电力实体;
根据所述电力实体对应的语义类型,对待对齐电力知识图谱进行第一分类,得到多个第一电力实体子图谱;每个第一电力实体子图谱中电力实体对应的语义类型相同;
根据所述电力实体对应的电力实体属性的语言类型,在每个所述第一电力实体子图谱中进行第二分类,得到各个第一电力实体子图谱对应的多个第二电力实体子图谱;每个第二电力实体子图谱中电力实体属性的语言相同;
针对每个第二电力实体子图谱,根据图注意力机制,对该第二电力实体子图谱中的各个电力实体进行第一特征聚合,得到该第二电力实体子图谱对应的多个第一电力实体向量,根据所述图注意力机制,对多个第二电力实体子图谱中的多个第一电力实体向量进行第二特征聚合,得到各个第一电力实体子图谱对应的多个第二电力实体向量;
根据所述待对齐电力知识图谱的多个第一电力实体子图谱对应的多个第二电力实体向量,与其他待对齐电力知识图谱的多个其他第一电力实体子图谱对应的多个第二电力实体向量确定相似度矩阵,根据所述相似度矩阵确定所述待对齐电力知识图谱与所述其他待对齐电力知识图谱对应的电力实体对齐结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述电力实体对应的语义类型,对待对齐电力知识图谱进行第一分类,得到多个第一电力实体子图谱,包括:
根据所述电力实体对应的语义类型,将所述待对齐电力知识图谱分类为地名类电力实体子图谱、组织机构类电力实体子图谱、设备类电力实体子图谱和数据类电力实体子图谱中的至少两种,作为多个第一电力实体子图谱。
3.根据权利要求1所述的方法,其特征在于,所述根据所述电力实体对应的电力实体属性的语言类型,在每个所述第一电力实体子图谱中进行第二分类,得到各个第一电力实体子图谱对应的多个第二电力实体子图谱,包括:
针对每个第一电力实体子图谱,根据该第一电力实体子图谱中各个电力实体对应的电力实体属性对应的语言类型,将该第一电力实体子图谱分类为文字属性电力实体子图谱和数值属性电力实体子图谱,作为多个第二电力实体子图谱。
4.根据权利要求3所述的方法,其特征在于,所述针对每个第一电力实体子图谱,根据该第一电力实体子图谱中各个电力实体对应的电力实体属性对应的语言类型,将该第一电力实体子图谱分类为文字属性电力实体子图谱和数值属性电力实体子图谱,作为多个第二电力实体子图谱,包括:
针对每个第一电力实体子图谱,根据该第一电力实体子图谱中各个电力实体对应的电力实体属性对应的语言类型,将该第一电力实体子图谱分类为中文属性电力实体子图谱、英文属性电力实体子图谱和数值属性电力实体子图谱,作为多个第二电力实体子图谱。
5.根据权利要求1所述的方法,其特征在于,所述针对每个第二电力实体子图谱,根据图注意力机制,对该第二电力实体子图谱中的各个电力实体进行第一特征聚合,得到该第二电力实体子图谱对应的多个第一电力实体向量,根据所述图注意力机制,对多个第二电力实体子图谱中的多个第一电力实体向量进行第二特征聚合,得到各个第一电力实体子图谱对应的多个第二电力实体向量,包括:
针对每个第二电力实体子图谱,由预设语义表示模型根据该第二电力实体子图谱中的各个电力实体以及各个电力实体对应的电力实体属性,生成多个电力实体向量;
将所述多个电力实体向量输入第一目标特征聚合模型,由所述第一目标特征聚合模型基于各个电力实体向量对应的电力实体属性的数量、各个所述电力实体属性的注意力系数、各个所述电力实体属性之间的相似度以及预设激活函数,将所述多个电力实体向量进行聚合,得到聚合后的多个第一电力实体向量;所述第一目标特征聚合模型基于多个电力实体向量样本对图注意力框架中的待训练特征聚合模型训练得到;
将多个第二电力实体子图谱对应的多个第一电力实体向量输入第二目标特征聚合模型,由所述第二目标特征聚合模型基于各个第一电力实体向量对应的电力实体属性的数量、各个所述电力实体属性的注意力系数、各个所述电力实体属性之间的相似度以及预设激活函数,将所述多个第一电力实体向量进行聚合,得到聚合后的多个第二电力实体向量;所述第二目标特征聚合模型基于多个第一电力实体向量样本对图注意力框架中的待训练特征聚合模型训练得到。
6.根据权利要求1所述的方法,其特征在于,所述根据所述待对齐电力知识图谱的多个第一电力实体子图谱对应的多个第二电力实体向量,与其他待对齐电力知识图谱的多个其他第一电力实体子图谱对应的多个第二电力实体向量确定相似度矩阵,根据所述相似度矩阵确定所述待对齐电力知识图谱与所述其他待对齐电力知识图谱对应的电力实体对齐结果,包括:
针对所述待对齐电力知识图谱对应的每个第一电力实体子图谱,根据该第一电力实体子图谱对应的多个第二电力实体向量,与所述其他第一电力实体子图谱的多个第二电力实体向量的相似度,确定该第一电力实体子图谱与所述其他第一电力实体子图谱间的第一相似度矩阵;
根据最小二乘支持向量机算法,以及各个第一电力实体子图谱对应的第一相似度矩阵,确定目标权重矩阵;所述目标权重矩阵中包括各个第一电力实体子图谱对应的第一相似度矩阵的目标权重;
根据多个第一电力实体子图谱对应的多个第一相似度矩阵,以及所述目标权重矩阵中各个目标权重,确定所述待对齐电力知识图谱与所述其他待对齐电力知识图谱对应的目标相似度矩阵;
根据所述目标相似度矩阵中各个元素的数值,确定各个元素对应于所述待对齐电力知识图谱中的电力实体与所述其他待对齐电力知识图谱中的电力实体的电力实体对齐结果。
7.根据权利要求6所述的方法,其特征在于,所述根据最小二乘支持向量机算法,以及各个第一电力实体子图谱对应的第一相似度矩阵,确定目标权重矩阵,包括:
获取所述第一相似度矩阵中各个元素对应于所述待对齐电力知识图谱中的第一电力实体与所述其他待对齐电力知识图谱中的第二电力实体的第一相似度;
根据各个第一相似度矩阵对应的第一相似度、所述第一电力实体与所述第二电力实体是否在预设对齐电力实体对集合中以及预设惩罚系数,确定所述目标权重矩阵。
8.一种电力知识图谱电力实体对齐装置,其特征在于,所述装置包括:
获取模块,用于获取待对齐电力知识图谱;所述待对齐电力知识图谱中包括多种类型的电力实体;
第一分类模块,用于根据所述电力实体对应的语义类型,对待对齐电力知识图谱进行第一分类,得到多个第一电力实体子图谱;每个第一电力实体子图谱中电力实体对应的语义类型相同;
第二分类模块,用于根据所述电力实体对应的电力实体属性的语言类型,在每个所述第一电力实体子图谱中进行第二分类,得到各个第一电力实体子图谱对应的多个第二电力实体子图谱;每个第二电力实体子图谱中电力实体属性的语言相同;
聚合模块,用于针对每个第二电力实体子图谱,根据图注意力机制,对该第二电力实体子图谱中的各个电力实体进行第一特征聚合,得到该第二电力实体子图谱对应的多个第一电力实体向量,根据所述图注意力机制,对多个第二电力实体子图谱中的多个第一电力实体向量进行第二特征聚合,得到各个第一电力实体子图谱对应的多个第二电力实体向量;
对齐模块,用于根据所述待对齐电力知识图谱的多个第一电力实体子图谱对应的多个第二电力实体向量,与其他待对齐电力知识图谱的多个其他第一电力实体子图谱对应的多个第二电力实体向量确定相似度矩阵,根据所述相似度矩阵确定所述待对齐电力知识图谱与所述其他待对齐电力知识图谱对应的电力实体对齐结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211575798.3A CN115659985B (zh) | 2022-12-09 | 2022-12-09 | 电力知识图谱实体对齐方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211575798.3A CN115659985B (zh) | 2022-12-09 | 2022-12-09 | 电力知识图谱实体对齐方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115659985A CN115659985A (zh) | 2023-01-31 |
CN115659985B true CN115659985B (zh) | 2023-03-31 |
Family
ID=85017409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211575798.3A Active CN115659985B (zh) | 2022-12-09 | 2022-12-09 | 电力知识图谱实体对齐方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659985B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116010626B (zh) * | 2023-03-24 | 2023-06-27 | 南方电网数字电网研究院有限公司 | 电力用户知识图谱分析方法、装置和计算机设备 |
CN116610820B (zh) * | 2023-07-21 | 2023-10-20 | 智慧眼科技股份有限公司 | 一种知识图谱实体对齐方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202041A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 一种解决知识图谱中的实体对齐问题的方法和装置 |
CN110929041A (zh) * | 2019-11-20 | 2020-03-27 | 北京邮电大学 | 基于分层注意力机制的实体对齐方法及系统 |
CN113641826A (zh) * | 2021-06-29 | 2021-11-12 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
CN115391568A (zh) * | 2022-09-22 | 2022-11-25 | 国网河北省电力有限公司信息通信分公司 | 基于知识图谱的实体分类方法、系统、终端及存储介质 |
-
2022
- 2022-12-09 CN CN202211575798.3A patent/CN115659985B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202041A (zh) * | 2016-07-01 | 2016-12-07 | 北京奇虎科技有限公司 | 一种解决知识图谱中的实体对齐问题的方法和装置 |
CN110929041A (zh) * | 2019-11-20 | 2020-03-27 | 北京邮电大学 | 基于分层注意力机制的实体对齐方法及系统 |
CN113641826A (zh) * | 2021-06-29 | 2021-11-12 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
CN115391568A (zh) * | 2022-09-22 | 2022-11-25 | 国网河北省电力有限公司信息通信分公司 | 基于知识图谱的实体分类方法、系统、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115659985A (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Examining the sensitivity of spatial scale in cellular automata Markov chain simulation of land use change | |
CN115659985B (zh) | 电力知识图谱实体对齐方法、装置和计算机设备 | |
CN113535984B (zh) | 一种基于注意力机制的知识图谱关系预测方法及装置 | |
Fisher et al. | Modelling the errors in areal interpolation between zonal systems by Monte Carlo simulation | |
Zhao et al. | Recognition of building group patterns using graph convolutional network | |
Chen et al. | Calibrating a Land Parcel Cellular Automaton (LP-CA) for urban growth simulation based on ensemble learning | |
CN111582538A (zh) | 一种基于图神经网络的社群价值预测方法及系统 | |
CN108540988A (zh) | 一种场景划分方法及装置 | |
Li et al. | Aggregative model-based classifier ensemble for improving land-use/cover classification of Landsat TM Images | |
CN109739995A (zh) | 一种信息处理方法及装置 | |
Tan et al. | Urban spatial organization, multifractals, and evolutionary patterns in large cities | |
Scheider et al. | Distinguishing extensive and intensive properties for meaningful geocomputation and mapping | |
CN112131261A (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
CN111581197A (zh) | 对数据集中的数据表进行抽样和校验的方法及装置 | |
Xiao et al. | A point selection method in map generalization using graph convolutional network model | |
CN113807278A (zh) | 一种基于深度学习的土地利用分类及变化预测方法 | |
CN114154557A (zh) | 癌症组织分类方法、装置、电子设备及存储介质 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
Yu et al. | A graph autoencoder network to measure the geometric similarity of drainage networks in scaling transformation | |
Zhang et al. | Differentiating population spatial behavior using representative features of geospatial mobility (refgem) | |
CN116611725A (zh) | 一种基于绿色生态指标的土地类型识别方法及装置 | |
CN116415957A (zh) | 异常交易对象识别方法、装置、计算机设备和存储介质 | |
CN115345257A (zh) | 飞行轨迹分类模型训练方法、分类方法、装置及存储介质 | |
Tang et al. | Discovering urban functional zones from biased and sparse points of interests and sparse human activities | |
Xin et al. | Confidence-Weighted Dual-Teacher Networks with Biased Contrastive Learning for Semi-Supervised Semantic Segmentation in Remote Sensing Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |