CN115204179A

CN115204179A - 基于电网公共数据模型的实体关系预测的方法及装置

Info

Publication number: CN115204179A
Application number: CN202210561543.5A
Authority: CN
Inventors: 沈亮; 欧阳红; 何鑫; 高士杰; 朱广新; 陈翔; 廖小琦; 张鹏宇; 李杏; 占震滨; 陈小明; 张伟; 颜克礼; 刘玉
Original assignee: Big Data Center Of State Grid Corp Of China; State Grid Zhejiang Electric Power Co Ltd; Beijing China Power Information Technology Co Ltd
Current assignee: Big Data Center Of State Grid Corp Of China; State Grid Zhejiang Electric Power Co Ltd; Beijing China Power Information Technology Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-10-18

Abstract

本发明提供了一种基于电网公共数据模型的实体关系预测的方法，包括：获取电网公共数据模型的实体文件和关系文件，提取第一类三元组数据集；将第一类三元组数据集，与电网公共数据模型的实体文件进行匹配，提取第二类三元组数据集；第一类三元组数据集和第二类三元组数据集，输入到不同的语义识别模型中，输出第一类三元组数据集和第二类三元组数据集的关系预测分数；将第一类三元组数据集合集的关系预测分数，与第二类三元组数据集的关系预测分数融合，输出关系预测结果。本发明减少人工关系推理可能出现的错误，以及人员对电网公共数据模型的理解不够而导致的匹配错误的情况，为电网公共数据模型的扩展提供可靠的依据。

Description

基于电网公共数据模型的实体关系预测的方法及装置

技术领域

本发明涉及大数据技术领域，尤其是涉及基于电网公共数据模型的实体关系预测的方法及装置。

背景技术

企业公共数据模型(SG-CIM)是国家电网公司贴合实际业务需求、同时遵循国际统一标准所形成的统一信息视图，被评为行业最佳的应用实践，是面向对象构建的企业级数据模型。目前包含上百个从问题域中抽象出的信息类作为主题及子主题域，例如：安全、财务、电网、客户、人员、市场、物资、项目、资产、综合域等，域下同时涵盖了近千种相关实体和近万种属性，被用作国家电网的统一编码规范，为业务应用系统提供统一的数据模型。

企业公共数据模型(SG-CIM)主要有两种不同的表现方式：逻辑模型、物理模型。它们的名称主要来源于数据仓库中的定义。分别介绍如下：

(1)逻辑模型，是数据模型的逻辑结构。在这里SG-CIM模型中的域下的相关实体及其信息。

(2)物理模型，也可直接称为模型，用来模拟物理对象。在这里表达的是实际存在的数据表和其相关信息。

具体来说，企业公共数据模型(SG-CIM)的实体数据主要构成部分包括：实体中文名、实体英文名、描述信息、特征信息等。关系数据主要包括：头实体中英文名、尾实体中英文名、关系类型等。图结构关系类型主要包括关联、依赖、泛化、组合、聚合五种关系。

2017年谷歌公司提出的Transformer是基于自我注意力机制的深度网络。Transformer提供了增强的并行化和更好的远程依赖模型化，主要用于自然语言处理领域。2018年，在Transformer的基础上，谷歌公司提出变压器的双向编码器模型(BidirectionalEncoder Representation from Transforme BERT)。BERT模型是Google公司以无监督的方式利用大量无标注文本训练得到的语言模型，其架构组成主要基于Transformer中的Encoder部分。该模型在语义信息识别上有着广泛应用，同时也出现了大量变种模型。百度提出了基于知识增强的知识增强语音表示模型(Enhanced Representation throughKnowlekge Integration ERNIE)。ERNIE模型通过建模海量数据中的实体概念等先验语义知识，学习真实世界的语义关系。具体来说，ERNIE模型通过对词、实体等语义单元的掩码，使得模型学习完整概念的语义表示。相较于BERT学习原始语言信号，ERNIE直接对先验语义知识单元进行建模，增强了模型语义表示能力。

SG-CIM公共数据模型的构建和完善是国家电网建设数据中台的基础，数据中台为企业各种数据分析应用提供统一的数据服务。现有技术中，SG-CIM模型作为对公司企业级数据的全面抽象，在模型版本不断更新过程中，引入新的实体，并对新引入的实体进行关系链接，但是，现有的关系链接通常是人工标注判断，有着大量消耗人工成本和容易发生错误的问题，限制新版本SG-CIM数据模型中新引入的实体数量。要实现SG-CIM数据模型的更新和迭代，就需要高效地完成SG-CIM数据模型中复杂关系预测的任务。

发明内容

本发明提供了基于电网公共数据模型的实体关系预测的方法，以解决现有技术中，面对电网大数据中电网公共模型数据，在电网实体关系关联，存在着大量依赖于人工而导致的缺少效率与准确度的问题。

本发明的一个目的在于提供一种基于电网公共数据模型的实体关系预测的方法，所述方法包括：

获取电网公共数据模型的实体文件和关系文件，提取以头实体语义信息和尾实体语义信息作为输入，关系类别作为输出，生成的三元组数据集，作为第一类三元组数据集；

将所述第一类三元组数据集，与所述电网公共数据模型的实体文件进行匹配，提取匹配的三元组数据集，作为第二类三元组数据集；

所述第一类三元组数据集和所述第二类三元组数据集，输入到不同的语义识别模型中，输出所述第一类三元组数据集和所述第二类三元组数据集的关系预测分数；

将所述第一类三元组数据集合集的关系预测分数，与所述第二类三元组数据集的关系预测分数融合，输出关系预测结果。

在一个实施例中，所述第一类三元组数据集包括英文名语义数据和中文名语义数据；

所述第二类三元组数据集包括描述数据和属性数据。

在一个实施例中，以所述第一类三元组数据集中的中文名语义数据，与电网公共数据模型的实体文件进行匹配，提取所述第二类三元组数据集。

在一个实施例中，所述英文名语义数据、中文名语义数据、描述数据和属性数据分别输入到不同的语义识别模型中，分别输出：

对应英文名语义数据的多种关系类型的预测分数、对应中文名语义数据的多种关系类型的预测分数、对应描述数据的多种关系类型的预测分数和对应属性数据的多种关系类型的预测分数。

在一个实施例中，将得到的所述英文名语义数据、中文名语义数据、描述数据和属性数据的种关系类型的预测分数进行加权融合，输出多种关系类型的预测结果

在一个实施例中，从输出的多种关系类型的预测结果中，选取概率值最大的关系类型作为最终的关系预测结果。

本发明的另一个方面在于提供一种适于并列型关系的实体关系预测的方法，所述方法包括：

获取电网公共数据模型的实体文件，将所有存在一对一关系的若干头实体和若干尾实体作为项集，其中，每一个实体为所述项集中的一项，

计算每一个项集内的不同实体的支持度概率，以及不同实体的置信度概率，以及

计算相连项集之间，相连实体的支持度概率，以及相连实体的置信度概率；

通过所述支持度概率和所述置信度概率，判断两项实体之间存在关系的可能性，

对可能存在关系的实体进行关系预测。

在一个实施例中，计算项集内的头实体与尾实体的支持度概率和置信度概率，

当某一头实体和某一尾实体的支持度概率和置信度概率均大于预设阈值，则该头实体和尾实体可能存在关系。

在一个实施例中，计算相连项集之间，相连的不同实体的支持度概率和置信度概率；

当不同项集中相连的实体的支持度概率和置信度概率大于预设阈值，则，则相连的实体可能存在关系。

本发明的再一个方面在于提供一种适于继承型关系的实体关系预测的方法，所述方法包括：

获取电网公共数据模型的实体文件，筛选存在一对多关系的实体作为第一项集，其中，以尾实体为第一父实体，头实体为第一子实体；

获取电网公共数据模型的实体文件，剔除所述第一项集内的每一项实体，将剩下的实体作为第二项集；

选取第二项集中与第一项集中的第一子实体相似的实体，作为第二子实体，并且，

将与第二项集中相似实体的第一子实体对应的第一父实体，作为第二父实体，

对第二子实体与第二父实体进行关系预测。

在一个实施例中，通过编辑距离或者编辑语义距离，判断第二项集中的每一项实体与第一项集中的第一子实体之间的相似性。

在一个实施例中，将第二子实体作为头实体，第二父实体作为尾实体进行关系预测。

本发明的再一个目的在于提供一种基于电网公共数据模型的实体关系预测的装置，所述装置包括：

文件获取模块，用于获取电网公共数据模型的实体文件和关系文件；

数据提取模块，用于以头实体语义信息和尾实体语义信息作为输入，关系类别作为输出，生成的三元组数据集，作为第一类三元组数据集；

语义识别模块，用于将所述第一类三元组数据集和所述第二类三元组数据集，输入到不同的语义识别模型中，输出所述第一类三元组数据集和所述第二类三元组数据集的关系预测分数；

关系预测模块，用于将所述第一类三元组数据集合集的关系预测分数，与所述第二类三元组数据集的关系预测分数融合，输出关系预测结果。

所述第二类三元组数据集包括描述数据和属性数据。

在一个实施例中，将得到的所述英文名语义数据、中文名语义数据、描述数据和属性数据的多种关系类型的预测分数进行加权融合，输出多种关系类型的预测结果。

本发明的再一个方面在于提供一种适于并列型关系的实体关系预测的装置，所述装置包括：

第一文件获取模块，用于获取电网公共数据模型的实体文件，将所有存在一对一关系的若干头实体和若干尾实体作为项集，其中，每一个实体为所述项集中的一项，

计算模块，用于计算每一个项集内的不同实体的支持度概率，以及不同实体的置信度概率，以及

实体关系判断模块，用于通过所述支持度概率和所述置信度概率，判断两项实体之间存在关系的可能性，

对可能存在关系的实体进行关系预测。

当某一头实体和某一尾实体的支持度概率和置信度概率均大于预设阈值，则该头实体和尾实体可能存在关系；

计算相连项集之间，相连的不同实体的支持度概率和置信度概率；

本发明的再一个方面在于提供一种适于继承型关系的实体关系预测的装置，所述装置包括：

第二文件获取模块，用于获取电网公共数据模型的实体文件，

实体划分模块，用于筛选存在一对多关系的实体作为第一项集，其中，以尾实体为第一父实体，头实体为第一子实体；

剔除所述第一项集内的每一项实体，将剩下的实体作为第二项集；

对第二子实体与第二父实体进行关系预测。

在一个实施例中，通过编辑距离或者语义距离，判断第二项集中的每一项实体与第一项集中的第一子实体之间的相似性。

本发明提供的基于电网公共数据模型的实体关系预测的方法及装置，能够保证业务应用符合电网公共数据模型的要求，减少人工关系推理可能出现的错误，以及人员对电网公共数据模型的理解不够而导致的匹配错误的情况，为电网公共数据模型的扩展提供可靠的依据。

本发明提供的基于电网公共数据模型的实体关系预测的方法及装置，实现电网公共数据模型的不断完善和快速更新。

本发明提供的基于电网公共数据模型的实体关系预测的方法及装置，能够保证业务应用符合电网公共数据模型的要求，减少人工关系推理可能出现的错误，以及人员对电网公共数据模型的理解不够而导致的匹配错误的情况，为电网公共数据模型的扩展提供可靠的依据，推动电网公共数据模型的不断完善升级。

本发明提供的基于电网公共数据模型的实体关系预测的方法及装置，对电力工业生产的实际业务需求和智能化落地项目带来一定推动作用，不仅可有效促使电网大数据驱动业务应用，解决模型应用转换难、落地难、效率低、智能化水平不高等问题，还可以推动电网公共数据模型的落地，提高业务应用对电网公共数据模型的遵从度，实现规范化的业务信息共享，降低业务应用间信息交换的成本，加强对业务应用的统一管控，最终促进业务应用规范化建设。

本发明一种基于电网公共数据模型的实体关系预测与优化方法，实现在关联、依赖、泛化、组合、聚合五种关系上电网实体-关系三元组自动推理和电网实体之间的关系预测，实现电网公共数据模型的实体复杂关系预测。

本发明提供适于并列型关系的实体关系预测，以及适于继承型关系的实体关系预测方法，将电网公共数据模型实体间不同关系进行聚类成多种类型，对不同类型的关系采取不同的预测算法，从而提高类别预测的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明由电网公共数据模型中提取第一类三元组数据集的示意图；

图2为本发明由第一类三元组数据集提出第二类三元组数据集的示意图；

图3为本发明一个实施例中基于电网公共数据模型的实体关系预测的流程示意图；

图4为本发明一个实施例中采用BERT模型进行英文语义识别的示意图；

图5为本发明基于电网公共数据模型的并列型关系和继承型关系的示意图。

以上附图中，各标号所代表的部件如下：

100、实体文件；200、关系文件；300、英文名语义数据；400、中文名语义数据；500、描述数据；600、属性数据。

具体实施方式

为了使本发明的上述以及其他特征和优点更加清楚，下面结合附图进一步描述本发明。应当理解，本文给出的具体实施例是出于向本领域技术人员解释的目的，仅是示例性的，而非限制性的。

为了解决现有技术中，面对电网大数据中电网公共模型数据，在电网实体关系关联，存在着大量依赖于人工而导致的缺少效率与准确度的技术问题，根据本发明的实施例，针对电网公共数据模型在智能匹配和关系预测，提供一种基于电网公共数据模型的实体关系预测的方法及装置，对电网公共数据模型中给定实体之间的关系进行预测和修正。

首先进行数据预处理与格式转化，对原始SG-CIM模型数据进行实体-关系识别与抽取，生成规范化三元组数据集。其次，提取图结构特征关系和语义信息，针对中文名、英文名、描述信息(Description)、属性信息(Attributes)这四种语义信息分别生成四种数据集，结合BERT模型和ERNIE模型进行融合，预测头实体和尾实体之间的关系类别。

本发明主要以SG-CIM模型数据的逻辑模型的关系预测为主，以以SG-CIM模型数据作为关系挖掘与预测的数据基础。

基于电网公共数据模型的实体关系预测

根据本发明的实施例，一种基于电网公共数据模型的实体关系预测的方法，包括以下方法步骤：

步骤1、获取电网公共数据模型的实体文件和关系文件，提取第一类三元组数据集。所述第一类三元组数据集是指包括英文名语义数据和中文名语义数据的三元组数据集。

SG-CIM模型主要有两部分组成，分别是SG-CIM模型实体文件与SG-CIM模型关系文件。在SG-CIM模型实体文件中，记录了实体的中文名、英文名、描述信息(Description)、属性信息(Attributes)。在SG-CIM模型关系文件，记录了头实体的中文名和英文名、尾实体的中文名和英文名、关系名称，其中图结构关系主要为关联(Association)、聚集(Aggregation)、泛化(Generalization)、依赖(Dependency)、组合(Composition)五种。

如图1所示本发明由电网公共数据模型中提取第一类三元组数据集的示意图，获取电网公共数据模型的实体文件100和关系文件200，提取第一类三元组数据集。根据本发明的实施例，以头实体语义信息和尾实体语义信息作为输入，图结构的关系类别作为输出，生成第一类三元组数据集，第一类三元组数据集包括英文名语义数据300和中文名语义数据400。

步骤2、将第一类三元组数据集，与电网公共数据模型的实体文件进行匹配，提取第二类三元组数据集。第二类三元组数据集是指包括描述数据(Description Datasets)和属性数据(Attributes Datasets)的三元组数据集。

第一类三元组数据集是通过关系文件和实体文件提取出来中英文名与关系类别，第二类三元组数据集是通过第一类中英文名与关系类别结果和实体文件提取出来描述数据和属性数据。

由于实体的描述信息(Description)和属性信息(Attributes)都是存储在SG-CIM模型实体文件中，根据本发明的实施例，如图2所示本发明由第一类三元组数据集提出第二类三元组数据集的示意图，以第一类三元组数据集中的中文名语义数据，与电网公共数据模型的实体文件进行匹配，提取第二类三元组数据集。第一类三元组数据集中的头实体语义信息和尾实体语义信息作为输入，关系类别作为输出，生成第二类三元组数据集。

即以SG-CIM模型提取第一类三元组数据在SG-CIM模型实体文件中查找对应的描述信息(Description)和属性信息(Attributes)，并将描述信息(Description)和属性信息(Attributes)总结成第二类三元组数据。

根据本发明的实施例，第二类三元组数据包括描述数据(Description Datasets)500和属性数据(Attributes Datasets)600。

在一些具体的实施例中，在进行信息查找匹配时，可以使用按域名分块与二分查找的方法提高描述信息(Description)和属性信息(Attributes)提取效率。由于在SG-CIM模型中，针对领域与范围的不同，将实体与关系分别以十大域名进行分块，如安全、财务、电网、客户、人员、市场、物资、项目、资产、综合域，同时这些域的实体之间是不存在关系连接的，所以在查找的时候，只需要在域中查找匹配即可。对于每个域内部，将实体中文名按照字典顺序进行排序，在按照中文名查找时候，可以使用二分查找的方法，代替顺序查找，提高查找效率。

步骤3、第一类三元组数据集和第二类三元组数据集，输入到不同的语义识别模型中，输出第一类三元组数据集和第二类三元组数据集的关系预测分数。

如图3所示本发明一个实施例中基于电网公共数据模型的实体关系预测的流程示意图，将SG-CIM模型中的图结构与语义信息提取为英文名语义数据300、中文名语义数据400、描述数据(Description Datasets)500和属性数据(Attributes Datasets)600。这四种数据集均为头实体语义信息和尾实体语义信息作为输入，关系预测类型作为输出的分类标签。

根据本发明的实施例，将英文名语义数据300、中文名语义数据400、描述数据500和属性数据600分别输入到不同的语义识别模型中，分别输出：对应英文名语义数据的多种关系类型的预测分数、对应中文名语义数据的多种关系类型的预测分数、对应描述数据的多种关系类型的预测分数和对应属性数据的多种关系类型的预测分数。

举例来说，英文名语义数据300识别模型选取BERT模型，中文名语义数据400、描述数据500和属性数据600由于是中文，采用中文处理效果较好的ERNIE模型进行语义信息识别。ERNIE为BERT类模型基础上该进得到，分别针对英文和中文语义信息处理任务有所侧重。

根据本发明的实施例，将提取得到的数据输入到不同的语义识别模型，每种语义识别模型都会输出对应数据集的连接预测结果，经过归一化后输出五种关系类别的概率。

语义识别模型是对输入的数据进行识别，输出连接预测结果的自动识别模型，例如基于自我注意力机制的深度网络、双向编码器模型(Bidirectional EncoderRepresentation from Transforme BERT)、基于知识增强的知识增强表示模型(EnhancedRepresentation through Knowledge Integration ERNIE)。

以识别模型BERT模型对英文名语义数据300进行为例，如图4所示本发明一个实施例中采用BERT模型进行英文语义识别的示意图，输出为概率分数如下格式：[0.83 0.100.01 0.03 0.03]，按照位置分别代表关联、依赖、泛化、组合、聚合五种关系的概率。

同样地，对于中文名语义数据400、描述数据500和属性数据600分别输入语识别模型ERNIE模型进行语义识别，分别输出对应于中文名语义数据400的五种关系类型的概率、对应于描述数据500的五种关系类型的概率和对应于属性数据600的五种关系类型的概率。

步骤4、将第一类三元组数据集合集的关系预测分数，与第二类三元组数据集的关系预测分数融合，输出关系预测结果。

根据本发明的实施例，将得到的英文名语义数据、中文名语义数据、描述数据和属性数据的多种关系类型的预测分数进行加权融合，输出关系类型的预测结果。从输出的多种关系类型的预测结果中，选取概率值最大的关系类型作为最终的关系预测结果。

具体地，实施例中通过如下算法对对中文名关系预测得分、英文名关系预测得分、描述(Description)关系预测得分、属性(Attribute)关系预测得分进行加权平均融合进行加权融合：

ω₁×E+ω₂×C+ω₃×D+ω₄×A＝S，

其中，E、C、D、A分别代表中文名关系预测得分、英文名关系预测得分、描述(Description)关系预测得分、属性(Attribute)关系预测得分，S代表最终的关系预测得分，ω₁、ω₂、ω₃、ω₄分别代表加权平均参数，满足ω₁+ω₂+ω₃+ω₄＝1。在最终的链接预测得分(Link Predication Score)向量中，选择概率最大的作为最终关系预测结果。

根据本发明为了提高关系预测效率，进一步提出适于并列型关系的实体关系预测的方法，以及适于继承型关系的实体关系预测的方法，对五种关系类型依(关联、依赖、泛化、组合、聚合)据实体之间的结构关系，分为并列型关系(关联、依赖)和继承型关系(泛化、组合、聚合)，如图5所示本发明基于电网公共数据模型的并列型关系和继承型关系的示意图。

使用频繁项挖掘可能存在并列型关系类型的实体对，使用K-近邻的方法挖掘可能存在继承型关系类型的实体对，再使用模型进行具体关系类别预测。

并列型关系的实体关系预测

需要说明的是，本发明中并列型关系预测与上文关系预测不同，并列型关系预测是指可能存在关系的实体对挖掘，是一种减少目标范围的优化方法，与上文中关系预测的具体关系类型的预测有所不同。

根据本发明的实施例，一种适于并列型关系的实体关系预测的方法，包括：

步骤1、获取电网公共数据模型的实体文件，将所有存在一对一关系的若干头实体和若干尾实体作为项集，其中，每一个实体为所述项集中的一项。

在并列型关系中，实体之间多数为一对一关系，频繁项挖掘对于挖掘这种相对独立的实体对有很好的表现效果。

步骤2、计算每一个项集内的不同实体的支持度概率，以及不同实体的置信度概率，以及计算相连项集之间，相连实体的支持度概率，以及相连实体的置信度概率。

本发明用支持度和置信度两个值来衡量关联关系成立的可能，本发明分为项集内的头实体和尾实体的情形、相连项集之间相互连接的项的情形两种情况。

对于项集内的头实体和尾实体的情形。计算项集内的头实体与尾实体的支持度概率和置信度概率，具体地，采取计数并计算交并比的方式来表征支持度概率：

Support(A，B)＝support_count(A∩B)/support_count(A∪B)，

其中，A为头实体，B为尾实体。

以头实体A、尾实体B共现数量分别占头实体A、尾实体B总数的比例来计算置信度概率：

对于相连项集之间相互连接的项的情形。计算相连项集之间，相连的不同实体的支持度概率和置信度概率，具体地计算方法与上述项集内的头实体和尾实体的情形的支持度概率和置信度概率计算方法相同，这里不再赘述。

步骤3、通过支持度概率和所述置信度概率，判断两项实体之间存在关系的可能性。

对于项集内的头实体和尾实体的情形，当某一头实体和某一尾实体的支持度概率和置信度概率均大于预设阈值，则该头实体和尾实体可能存在关系。

如果计算得到头实体A和尾实体B的支持度与置信度都大于预设的阈值，那么则认为头实体A、尾实体B是频繁项，二者可能存在关系。

对于相连项集之间相互连接的项的情形，当不同项集中相连的实体的支持度概率和置信度概率大于预设阈值，则相连的实体可能存在关系。

将上述两种情形下，相连的实体项并入新的项集中，最终得到的频繁项集，默认其中两两之间存在可挖掘的强关联规则。

步骤4、对可能存在关系的实体进行关系预测。

本发明对挖掘得到的频繁项集，采用本发明提供的基于电网公共数据模型的实体关系预测的方法进行关系预测，即将挖掘得到的频繁项集输入的关系预测模型中进行关系预测。只关注关联、依赖的关系预测概率大于泛化、组合、聚合的关系预测概率，如果继承型关系的预测概率结果大于并列型关系预测的概率，认为其不存在并列型关系。

继承型关系的实体关系预测

需要说明的是，本发明中继承型关系预测是指可能存在关系的实体对挖掘，是一种减少目标范围的优化方法。

在继承型关系中，实体之间多数为一对多关系，在这类关系中实体之间有明显的上下级继承型，同时多个子实体具有明显的语义相似性。根据这个性质，筛选出SG-CIM模型中已知的所有继承型关系模型，即包含泛化、组合、聚合的所有实体和关系，将其作为基础图。

根据本发明的实施例，一种适于继承型关系的实体关系预测的方法，包括：

步骤1、获取电网公共数据模型的实体文件，筛选存在一对多关系的实体作为第一项集，其中，以尾实体为第一父实体，头实体为第一子实体。

步骤2、获取电网公共数据模型的实体文件，剔除第一项集内的每一项实体，将剩下的实体作为第二项集。

步骤3、选取第二项集中与第一项集中的第一子实体相似的实体，作为第二子实体，并且，

将与第二项集中相似实体的第一子实体对应的第一父实体，作为第二父实体。

具体地实施例中，通过编辑距离或者编辑语义距离(K邻近算法)，判断第二项集中的每一项实体与第一项集中的第一子实体之间的相似性，在第二项集中，找出K个第一项集中的第一子实体最相似的实体，作为第二子实体。

在第一项集中，找出的与第二项集中存在相似性的K个第一子实体，将其对应的第一父实体，作为第二父实体。

步骤4、对第二子实体与第二父实体进行关系预测。

根据本发明的实施例，将第二子实体作为头实体，第二父实体作为尾实体，使用本发明提供的基于电网公共数据模型的实体关系预测的方法进行关系预测。

根据本发明的实施例，本发明提供的一种基于电网公共数据模型的实体关系预测的装置，包括：

文件获取模块，用于获取电网公共数据模型的实体文件和关系文件。

将所述第一类三元组数据集，与所述电网公共数据模型的实体文件进行匹配，提取匹配的三元组数据集，作为第二类三元组数据集。

第一类三元组数据集包括英文名语义数据和中文名语义数据；第二类三元组数据集包括描述数据和属性数据。

以第一类三元组数据集中的中文名语义数据，与电网公共数据模型的实体文件进行匹配，提取第二类三元组数据集。

语义识别模块，用于将所述第一类三元组数据集和所述第二类三元组数据集，输入到不同的语义识别模型中，输出所述第一类三元组数据集和所述第二类三元组数据集的关系预测分数。

英文名语义数据、中文名语义数据、描述数据和属性数据分别输入到不同的语义识别模型中，分别输出：

将得到的所述英文名语义数据、中文名语义数据、描述数据和属性数据的多种关系类型的预测分数进行加权融合，输出多种关系类型的预测结果。

从输出的多种关系类型的预测结果中，选取概率值最大的关系类型作为最终的关系预测结果。

根据本发明的实施例，本发明提供的一种适于并列型关系的实体关系预测的装置，包括：

第一文件获取模块，用于获取电网公共数据模型的实体文件，将所有存在一对一关系的若干头实体和若干尾实体作为项集，其中，每一个实体为所述项集中的一项。

计算相连项集之间，相连实体的支持度概率，以及相连实体的置信度概率，其中，

计算项集内的头实体与尾实体的支持度概率和置信度概率，

实体关系判断模块，用于通过所述支持度概率和所述置信度概率，判断两项实体之间存在关系的可能性。

本发明对挖掘得到的频繁项集，采用本发明提供的基于电网公共数据模型的实体关系预测的装置进行关系预测，即将挖掘得到的频繁项集输入的关系预测模型中进行关系预测。只关注关联、依赖的关系预测概率大于泛化、组合、聚合的关系预测概率，如果继承型关系的预测概率结果大于并列型关系预测的概率，认为其不存在并列型关系。

根据本发明的实施例，本发明提供的一种适于继承型关系的实体关系预测的装置，包括：

根据本发明的实施例，通过编辑距离或者语义距离，判断第二项集中的每一项实体与第一项集中的第一子实体之间的相似性。

根据本发明的实施例，将第二子实体作为头实体，第二父实体作为尾实体，使用本发明提供的基于电网公共数据模型的实体关系预测的装置进行关系预测。

本发明提供的基于电网公共数据模型的实体关系预测的方法及装置，作为电网公共数据模型自动化辅助设计工具，对业务应用所需的模型进行自动匹配和智能推送。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于电网公共数据模型的实体关系预测的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一类三元组数据集包括英文名语义数据和中文名语义数据；

所述第二类三元组数据集包括描述数据和属性数据。

3.根据权利要求2所述的方法，其特征在于，以所述第一类三元组数据集中的中文名语义数据，与电网公共数据模型的实体文件进行匹配，提取所述第二类三元组数据集。

4.根据权利要求2所述的方法，其特征在于，所述英文名语义数据、中文名语义数据、描述数据和属性数据分别输入到不同的语义识别模型中，分别输出：

5.根据权利要求4所述的方法，其特征在于，将得到的所述英文名语义数据、中文名语义数据、描述数据和属性数据的多种关系类型的预测分数进行加权融合，输出多种关系类型的预测结果。

6.根据权利要求5所述的方法，其特征在于，从输出的多种关系类型的预测结果中，选取概率值最大的关系类型作为最终的关系预测结果。

7.一种适于并列型关系的实体关系预测的方法，其特征在于，所述方法包括：

使用权利要求1至6中的任一权利要求所述的方法对可能存在关系的实体进行关系预测。

8.根据权利要求7所述的方法，其特征在于，计算项集内的头实体与尾实体的支持度概率和置信度概率，

9.一种适于继承型关系的实体关系预测的方法，其特征在于，所述方法包括：

使用权利要求1至6中的任一权利要求所述的方法对第二子实体与第二父实体进行关系预测。

10.根据权利要求9所述的方法，其特征在于，通过编辑距离或者语义距离，判断第二项集中的每一项实体与第一项集中的第一子实体之间的相似性。

11.一种基于电网公共数据模型的实体关系预测的装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述第一类三元组数据集包括英文名语义数据和中文名语义数据；

所述第二类三元组数据集包括描述数据和属性数据。

13.根据权利要求12所述的装置，其特征在于，以所述第一类三元组数据集中的中文名语义数据，与电网公共数据模型的实体文件进行匹配，提取所述第二类三元组数据集。

14.根据权利要求12所述的装置，其特征在于，所述英文名语义数据、中文名语义数据、描述数据和属性数据分别输入到不同的语义识别模型中，分别输出：

15.根据权利要求14所述的装置，其特征在于，将得到的所述英文名语义数据、中文名语义数据、描述数据和属性数据的多种关系类型的预测分数进行加权融合，输出多种关系类型的预测结果。

16.根据权利要求15所述的装置，其特征在于，从输出的多种关系类型的预测结果中，选取概率值最大的关系类型作为最终的关系预测结果。

17.一种适于并列型关系的实体关系预测的装置，其特征在于，所述装置包括：

使用权利要求11至16中的任一权利要求所述的装置对可能存在关系的实体进行关系预测。

18.根据权利要求17所述的装置，其特征在于，计算项集内的头实体与尾实体的支持度概率和置信度概率，

19.一种适于继承型关系的实体关系预测的装置，其特征在于，所述装置包括：

使用权利要求11至16中的任一权利要求所述的装置对第二子实体与第二父实体进行关系预测。

20.根据权利要求19所述的装置，其特征在于，通过编辑距离或者语义距离，判断第二项集中的每一项实体与第一项集中的第一子实体之间的相似性。