CN117574898A

CN117574898A - 基于电网设备的领域知识图谱更新方法及系统

Info

Publication number: CN117574898A
Application number: CN202311438171.8A
Authority: CN
Inventors: 郑文杰; 张峰达; 杨祎; 刘萌; 林颖; 李壮壮; 孙艺玮; 秦佳峰; 师伟; 李程启; 辜超; 崔其会; 慈文斌; 李勇; 邢海文; 乔木; 任敬国; 李笋; 李文博; 白德盟
Original assignee: Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-02-20

Abstract

本发明提供了一种基于电网设备的领域知识图谱更新方法及系统，属于电力数据处理技术领域。所述方法，包括：结合获取的非结构化文本数据，提取电网设备领域三元组构建知识图谱；对于知识图谱中未出现过的新关系，将此新关系的文本描述输入到关系嵌入生成器中，关系嵌入生成器生成关系嵌入，根据得到的关系嵌入进行知识图谱的补全更新；本发明将基于海量电网设备相关数据，构建面向电网设备领域的知识图谱，实现知识图谱的数据更新、版本管理和可视化，并基于知识图谱的知识推理能力实现知识图谱分级、相关文献推荐和全局搜索引擎等功能，为电网工人开展运检工作提供智能化支持。

Description

基于电网设备的领域知识图谱更新方法及系统

技术领域

本发明涉及电力数据处理技术领域，特别涉及一种基于电网设备的领域知识图谱更新方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术，并不必然构成现有技术。

电网设备作为带电力系统运转的核心，其自身状态与安全至关重要，然而电网设备的大部分部件都有使用寿命，在设备运行过程中这些部件不可避免的会出现损坏和故障，此时就需要电力检修工人进行状态评估、运维、试验和检修。由于可能引起电网设备状态异常的因素较多，电网工作人员在开展运检工作之前，往往需要事先查阅大量资料进行学习，之后再结合个人经验对电网设备进行操作。

发明人发现，上述的作业场景在电网行业工作中非常常见，而且会引发两个主要问题：(1)电网工作人员在查阅资料时要耗费大量精力和时间，可能会导致无法及时应对电网设备发生的紧急情况；(2)电网工作人员在开展运检工作时，高度依赖个人经验，而每个工作人员的工作经验存在较大差异，这意味着依赖个人经验无法保证运检工作的质量和效率。

发明内容

为了解决现有技术的不足，本发明提供了一种基于电网设备的领域知识图谱更新方法及系统，将基于海量电网设备相关数据，构建面向电网设备领域的知识图谱，实现知识图谱的数据更新、版本管理和可视化，并基于知识图谱的知识推理能力实现知识图谱分级、相关文献推荐和全局搜索引擎等功能，为电网工人开展运检工作提供智能化支持。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供了一种基于电网设备的领域知识图谱更新方法。

一种基于电网设备的领域知识图谱更新方法，包括以下过程：

结合获取的非结构化文本数据，利用基于MRA的生成式命名实体识别算法和面向领域知识图谱的实体链接算法提取电网设备领域三元组构建知识图谱；

对于知识图谱中未出现过的新关系，将此新关系的文本描述输入到关系嵌入生成器中，关系嵌入生成器生成关系嵌入，根据得到的关系嵌入进行知识图谱的补全更新；

将命名实体识别任务视为序列生成任务，针对命名实体识别中出现的扁平、嵌套和不连续实体，设计一种生成式的实体标注方法，在编码模块，提出了一种基于指称项与标签相关度的注意力机制，并融合到Transformer模型中Encoder-Decoder部分的Attention中，使得在编码时能充分结合上下文与标签的先验知识，而不是仅仅局限于实体本身；在解码模块，使用了指针网络，通过超参数控制当前生成的词是来自输入序列还是来自预定义词表；

针对电网文本中实体指称的歧义性问题，本发明将实体链接分为两个子任务：候选实体生成和候选实体排序；基于图卷积的候选实体排序模块利用BiLSTM动态学习文本中出现的指称项的词嵌入，利用图卷积学习知识图谱中的候选实体表示，最后利用BERT预训练模型学习实体指称上下文与候选实体上下文之间的深层语义知识，通过Softmax函数获取语义相似度，根据语义相似度对候选实体集合进行排序，选择相似度分数最高的候选实体作为目标候选实体。

作为本发明第一方面进一步的限定，对于知识图谱中每一个实体，设置实体分类、实体描述和实体版本；对于知识图谱中每一个关系，设置关系分类、关系描述和关系版本；

通过动态更新的电网设备领域数据以及实体和关系的版本号，动态地对知识图谱进行动态增量更新，动态增量更新时进行版本管理和回滚控制。

作为本发明第一方面更进一步的限定，版本管理和回滚控制，包括：

每次将新的三元组数据添加到知识图谱中的操作，视为一次知识图谱动态升级，知识图谱每次升级完成后都会获得一个全局唯一的版本号；

在知识图谱升级任务开始之前，版本升级服务先向变更日志中写入一条操作日志，所述操作日志包含所有与新版本相关的信息，标志上一版本知识图谱的数据日志的结束和新版本知识图谱数据日志的开始；

在操作日志写入成功之后，调用对应的执行器执行数据更新操作，知识图谱的数据更新看作是针对某些三元组进行增、删、改和查操作，每完成对一个三元组的改动后，向变更日志中写入一条数据日志，用以描述对三元组进行的具体操作；

当用户由于某些原因需要回滚时，需指定一个要回滚的知识图谱版本号，版本回滚服务提取对应版本的变更日志，对日志中数据更新的操作进行合并，并对所指定的待回滚版本之后的新版本数据日志进行检索；

针对变更日志生成一份临时的逆操作日志，将逆操作日志输入到版本升级服务中，执行对应的逆操作，实现版本回滚，回滚成功后依旧会产生一个新的版本号。

作为本发明第一方面进一步的限定，构建了一种基于文本知识转换和对齐的知识图谱补全模型(Knowledge Graph Completion Based on Text KnowledgeTransformation and Alignment,TKTA)，该模型可以根据关系的文本描述预测知识图谱中的新关系；基于新关系的文本描述，TKTA可以生成关系在知识图谱中的嵌入，从而完成开放域中的知识图谱补全任务；网络特征提取器提取n-step网络中包含的实体特征、关系特征和拓扑结构特征，将实体特征、关系特征和拓扑结构特征融合为关系r的最终特征向量，包括：

假设知识图谱中有x个包含关系r的三元组，最终将构建x个关系r的n-step网络，对于每个n-step网络，使用三个特征提取器来提取这个n-step网络中的特征信息，三种特征提取器分别是实体特征提取器、关系特征提取器和拓扑结构特征提取器；

实体特征提取器用于提取n-step网络中包含的所有实体的语义信息，关系特征提取器用于提取n-step网络中包含的所有关系的语义信息，拓扑结构特征提取器用于提取n-step网络拓扑结构中包含的语义信息，三个特征提取器在提取特征后会生成包含相应特征信息的特征向量，将这三个特征向量进行融合，输出一个最终的关系为r的特征向量；

对知识图谱中关系r的x个n-step网络进行上述处理，得到x个关系r的嵌入向量，通过对x嵌入向量计算平均值，得到知识图谱中关系r的最终向量表示。

作为本发明第一方面更进一步的限定，实体特征提取器的输入是关系r的n-step网络，输出是关系r的n-step网络的实体特征向量，包括：

从关系r的n-step网络中获取所有实体，在提取的所有实体的基础上，对关系r的n-step网络中的实体进行下采样，对下采样后得到的实体进行顺序编码，将得到的各个实体的向量进行连接压缩，得到关系r的实体特征的最终向量表示。

作为本发明第一方面更进一步的限定，关系特征提取器首先提取n-step网络中的所有n-step关系，然后通过知识图谱嵌入模型对所有n-step关系进行编码，分别得到它们的嵌入向量；

对从关系r的n-step网络中提取的所有关系进行随机下采样，在下采样获得每个关系的特征向量后，将特征向量连接并通过线性层对其进行压缩，在关系r的n-step网络中得到关系的特征向量；

拓扑特征提取器对接收到的n-step网络进行实体匿名化处理，去掉实体本身的语义信息，将所有实体替换为同一个匿名实体；对网络结构进行下采样，以关系r的邻居实体对为起点，在r的n-step网络中进行随机游走，随机游走后，得到n-step网络的匿名子图，将匿名化的网络拓扑输入到图神经网络中，提取结构特征，输出为特征向量，得到r的所有n-step网络的拓扑特征向量后，将它们拼接起来，通过一个线性网络层进行压缩，最后得到r的拓扑特征向量。

作为本发明第一方面进一步的限定，以动态更新的知识图谱为一级知识图谱，对于文本知识库中的每一篇文章，首先对其进行知识图谱分析，构建一个与此篇文本相关的小型知识图谱，作为二级知识图谱，二级知识图谱视为一级知识图谱的一个子集；

在对每一篇文本完成二级知识图谱构建后，对其进行可视化展示，用户可以从可视化的二级知识图谱中了解当前文本所涉及的主要内容；

基于二级知识图谱，对文本知识库中的所有文本进行关联性分析，计算每两篇文本所对应二级知识图谱之间的文本相似度。

第二方面，本发明提供了一种基于电网设备的领域知识图谱更新系统。

一种基于电网设备的领域知识图谱更新系统，包括：

知识图谱构建模块，被配置为：结合获取的非结构化文本数据，基于模板匹配、命名实体识别、实体关系抽取和实体链接技术从非结构化文本中提取出电网设备领域相关的事实三元组构建知识图谱；系统提供全局搜索与分类搜索功能；通过知识图谱查询功能对知识图谱信息进行检索及查询电网设备文本二级知识图谱信息；

知识图谱更新模块，被配置为：通过知识图谱编辑功能对知识图谱进行数据新增、数据删除和数据修改功能；可以查看每一次知识图谱数据变更任务的详细信息进行版本控制并可以执行回滚、删除、重试等操作；对于知识图谱中未出现过的新关系，将此新关系的文本描述输入到关系嵌入生成器中，关系嵌入生成器生成关系嵌入，根据得到的关系嵌入进行知识图谱的补全更新。

第三方面，本发明提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于电网设备的领域知识图谱更新方法中的步骤。

第四方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于电网设备的领域知识图谱更新方法中的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明创新性的构建了电网设备领域的大规模知识图谱数据集，本发明的知识图谱数据集基于电网设备领域文本数据提取，包括电网设备领域内的1079篇故障案例、3995篇标准文件、15093篇文献、2629篇百科词条、37965篇专业词汇解释、23222篇新闻和13685篇巡检报告，共计97687篇文本，基于这些文本数据，本发明通过将规则匹配、OCR识别、BiLSTM-CRF命名实体识别模型、基于远程监督和多示例学习的关系抽取模型、开放域零样本知识图谱补全模型、人工标注和人工分类等多种三元组提取方法相结合，共提取电网设备领域实体33512个，分为14个大类，提取电网设备领域关系86412条，分为12个大类。此数据集涵盖面广，专业程度高，能够为电网设备领域的文本推荐、智能问答等服务提供有力的数据支撑。

2、本发明创新性的提出了一种面向电网领域的命名实体识别统一方法，电网缺陷案例报告最明显的特点是包含了大量的嵌套和不连续实体。例如，“断路器带电检测”实体中嵌套了一个“断路器”实体，而“超声、特高频局部放电检测”应被识别为“超声局部放电检测”和“特高频局部放电检测”两个实体。现有的命名实体识别模型通常分别针对普通、嵌套或不连续实体，设计不同的识别方法；同时，传统的BIOES标注方法无法标注出文本中的嵌套和不连续实体，针对这一现象，本发明采用生成式标注方法标注文本中出现的复杂实体类型，提出了基于指称项与标签相关度的注意力机制，并将其结合到Encoder-Decoder结构中。通过指针方式控制生成的词汇来自原始输入文本还是标签列表，从而避免从词汇表中全量搜索，从而提升了解码效率。此方法能准确识别电网文本中扁平、嵌套和不连续的专业实体。

3、本发明创新性的提出了一种面向电网领域知识图谱的实体链接方法，针对电网文本中实体指称的歧义性问题，本发明将实体链接分为两个子任务：候选实体生成和候选实体排序。提出了基于百科和其他领域资料生成候选实体和基于图卷积的候选实体排序算法；其中，基于图卷积的候选实体排序模块利用BiLSTM动态学习文本中出现的指称项的词嵌入，利用图卷积学习知识图谱中的候选实体表示，最后利用BERT预训练模型学习实体指称上下文与候选实体上下文之间的深层语义知识，通过Softmax函数获取语义相似度，根据语义相似度对候选实体集合进行排序，选择相似度分数最高的候选实体作为目标候选实体。该方法能利用外部知识库，有效挖掘指称在文本中的上下文和候选实体在知识图谱中的上下文，进而利用语义相似度，找到目标候选实体。

4、本发明创新性的提出了一种电网设备领域的知识图谱动态更新方法，为便于对知识图谱中的数据进行更新，在增大知识图谱的数据规模并保证知识时效性的同时确保数据安全性和可靠性，需设计一种管理知识图谱数据变更事件的机制。为此，本发明设计了一种知识图谱动态更新方法，基于此方法，在知识图谱数据发生变更时，系统会在六种知识图谱升级执行器中选择其一对数据进行更新，同时记录操作日志和数据日志，升级完成后生成新的知识图谱版本号，在版本号机制基础上用户可以查看每一次知识图谱数据变更任务的详细信息并可以执行回滚、删除、重试等操作。对于知识图谱中每一个实体，将为其设置实体分类、实体描述和实体版本等信息，实体分类用于确定实体所属的类型，实体描述用于阐述实体本身的含义，实体版本通过给实体记录时间戳来控制实体本身的时效性。对于知识图谱中每一个关系，也将为其设置关系分类、关系描述和关系版本等标签信息，含义与实体的标签信息类似。此外，通过动态更新的电网设备领域数据以及实体和关系的版本号，会动态地对知识图谱进行动态增量更新；在更新时，通过动态升级技术进行版本管理和回滚机制，通过设置多种升级执行器实现多种不同的升级机制。

5、本发明创新性的提出了一种开放域零样本知识图谱补全模型TKTA，从电网设备领域文本中提取的三元组存在知识量不足的问题，会导致知识图谱产生链接缺失的现象，即部分实体之间事实上存在关系但未被发掘；为解决此问题，本发明基于知识图谱自身的知识推理能力和生成对抗学习的思路，设计了一种无需大量有标签领域训练数据集，即可补全新关系的开放域零样本知识图谱补全模型，此模型可以从每一个实体的n-step邻居网络中提取特征信息，用于关系预测。对于知识图谱中的一个关系r，首先以它为中心，构建它的n-step网络，记为N_r，并将这个网络输入到关系特征器；关系特征提取器将会提取N_r中包含的实体特征、N_r中包含的关系特征以及N_r中的拓扑结构特征；之后该模型会将这三个特征融合为关系r的最终特征向量；此方法增强了知识图谱补全模型的上下文捕捉能力，在知识图谱补全任务的实验中此模型性能优于多种业内先进模型。

6、本发明创新性的提出了一种知识图谱分级机制，此机制通过对知识图谱进行分级，将整个电网设备领域的知识图谱视为一级知识图谱，将每一篇电网设备领域的文本映射到一个一级知识图谱的子图，称作二级知识图谱；再基于图特征提取、图相似度计算等方式在一级知识图谱中对多个二级知识图谱之间的关系进行分析，得到知识库中的多源异构文本之间的联系，提升对电网设备知识图谱和领域文本的管理效率。

本发明的附加优点将在下面的描述中重点介绍，有些优点将在进一步的阐述中变得更加明显，或者会在实际应用本发明时得以体现。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于电网设备的领域知识图谱更新方法的整体示意图；

图2为本发明实施例1提供的知识图谱动态升级流程示意图；

图3为本发明实施例1提供的知识图谱动态升级机制架构示意图；

图4为本发明实施例1提供的知识图谱动态升级机制示意图；

图5为本发明实施例1提供的TKTA训练流程示意图；

图6为本发明实施例1提供的模型整体设计示意图；

图7为本发明实施例1提供的特征提取器网络结构示意图；

图8为本发明实施例1提供的基于电网设备的知识图谱系统前端首页。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1：

本发明实施例1提供了一种基于电网设备的领域知识图谱更新方法，包括以下过程：

S1：结合获取的非结构化文本数据，根据电网设备领域三元组构建知识图谱；

S2：对于知识图谱中未出现过的新关系，将此新关系的文本描述输入到关系嵌入生成器中，关系嵌入生成器生成关系嵌入，根据得到的关系嵌入进行知识图谱的补全更新。

本实施例所述方法涉及到的技术，包括：

(1)命名实体识别技术

命名实体识别是自然语言处理中一项广泛应用于多个领域的关键技术，涵盖知识图谱、文本推荐、智能问答和机器翻译等多个热门研究领域，它是诸多自然语言处理任务中的重要基础；命名实体识别任务的核心是获取非结构化或半结构化的自然语言编写的文本中那些指代人或者事物的词语。而电网设备运检场景中检修人员手工撰写的缺陷案例报告大多为非结构化的文本数据，因其格式不一导致人工查阅周期长，内含的知识无法被直接利用，并且缺陷案例报告具有专业性强、语义复杂、描述规范性弱等特点，为面向案例报告构建知识图谱带来了极大的困难；其中，电网缺陷案例报告最明显的特点是包含了大量的嵌套和不连续实体。例如，“断路器带电检测”实体中嵌套了一个“断路器”实体，而“超声、特高频局部放电检测”应被识别为“超声局部放电检测”和“特高频局部放电检测”两个实体。现有的命名实体识别模型通常分别针对普通、嵌套或不连续实体，设计不同的识别方法。同时，传统的BIOES标注方法无法标注出文本中的嵌套和不连续实体。

为表示出原始句子中嵌套和不连续的实体类型，本发明采用了一种生成式实体标注方法。给定长度为n的句子S＝s₁，s₂，...，s_n，其中s_i表示句子中的第i个字符，本发明使用G＝[g₁，g₂，...，g_l]表示实体的标签，则目标序列将是Y＝[s₁₁，e₁₁，...，s_1j，e_1j，t₁，...，s_i1，e_i1，...，s_ik，e_ik，t_i]，其中s，e分别为实体片段的开始和结束索引，t表示实体的类别。

由于一个实体包含一个(普通和嵌套实体)或者多个(不连续实体)片段，每个实体则可以表示为[s_i1，e_i1，...，s_ij，e_ij，t_i]，其中t_i为实体标签的索引，实体中每个片段的结束索引要大于开始索引。本发明使用G＝[g₁，g₂，...，g_l]表示实体的标签名称，比如“设备”、“部件”、“缺陷”等，其中l为实体标签的个数，因此，为了区分解码出的词是实体还是类型标签，限制t_i∈(n，n+l]。

为每个实体标签构造了一个查询语句，将输入文本中的语句与查询语句拼接作为输入序列。在命名实体识别数据集上训练了一个QA(QuestionAnswer)模型，以此生成指称项与查询语句的相关性分数。给定一个包含n个token的句子和一个包含m个token的查询语句，模型为每个token生成一个是开始索引的概率s∈(0，1)和一个是结束索引的概率e∈(0，1)。每个token与查询语句的相关度将通过公式(1)来计算：

其中，r∈(0，1)。

本发明提出了一种指称项相关性注意力机制(MentionRelevanceAttention，MRA)，以将token级指称项相关性分数纳入Transformer的解码器中，给定一个带有n个token的输入句子，生成一个最大程度为t的实体序列。表示第l个Transform编码器的输出，/>表示第l个Transformer解码器中自注意力层的输出，则Encoder-Decoder Attention的/>可以通过以下公式计算：

其中，W_Q和是权重，/>即为指称项与查询语句的相关性分数，由于原始指称项相关性分数是一个n维向量，因此重复t次以生成一个t×n的注意力矩阵，将MRA应用到Transformer所有的解码器层，以此来捕获输入句子中与实体标签相关的字符，然后通过指针生成机制将生成词限定在输入句子和标签构成的集合范围内。

输入序列将被输入到BART编码器中，用于获取单词的词向量表示，句子的指称项与标签的相关注意力分数由MRA模型生成，解码器使用指针机制生成原始句子和标签的索引，整体结构包含编码器和解码器两个部分。

本发明中，在输入句子X的末尾拼接上标签的描述语句Q形成输入序列每个词x_i(1≤i≤n+m+3)都会由一个词嵌入/>和一个位置嵌入/>来表示。Encoder Embedding层会将输入序列编码为向量H_e，其公式如下：

其中，d是隐藏层维度。

生成过程根据已解码出的词和编码器输入计算新token的条件概率。解码器就是得到每一步的索引概率分布P_t＝P(y_t|X，Y＜t)，但是，由于Y＜t包含指针和标签索引，所以不能直接输入到Decoder。

以这种方式转换每个y_t后，隐藏层向量可以通过以下公式得到：

然后，通过指针生成器网络来实现索引概率分布P_t，因为它允许通过指针从输入序列中复制单词，或是从固定的标签列表生成单词。这里定义了一个超参数来决定生成的新token是来自标签列表还是通过采用从输入序列中复制的token，最终得到以下概率分布：

G^d＝TokenEmbed(G) (6)

其中，TokenEmbed是编码器和解码器之间共享的嵌入， [·；·]表示在第一个维度进行连接操作，/>表示点乘，在训练阶段，使用负对数似然损失，在推理过程中，使用自回归的方式来生成目标序列。

(2)实体关系抽取技术

关系抽取指以命名实体为基础，结合实体本身信息与上下文语义，抽取出实体对之间存在的关系，关系抽取是知识抽取任务中的一个关键子任务，它是影响知识图谱质量的重要因素。

关系抽取任务可以被描述为给定一个目标实体对head^(j)，tail^(j)，和对应的句子s^(j)＝{x₁，x₂，...，x_n}，目标是学习一个监督模型y＝f(s)用于预测目标实体对的关系，其中y∈{Y₁，Y₂，...Y_m}。远程监督学习是一种增强的监督学习，它能够以现有的远程知识库为基础，学习其中的三元组知识，从而对自然语言文本进行自动化高效标注，以标注之后的数据为基础就可以训练出知识图谱知识模型，从而实现对大规模的文本数据集的三元组提取。这种基于远程监督的知识抽取方法有效地降低了传统有监督学习过程中数据标注导致的人力成本和时间成本，然而与此同时，远程监督也为知识抽取任务引入了不确定性，因为代标注的三元组是既定的，但是具有头实体h和尾实体t的自然语言文本有可能并未描述关系r，所以上述基于远程监督的标注方式会为数据集引入部分噪声。综上所述，当前以远程监督思想为基础的关系抽取技术有两个主要研究重点，第一，模型需要从远程知识库中学习到三元组知识，从而对文本中的关系进行预测抽取。第二，由于远程监督引入了标注错误的噪声数据，模型需针对此问题进行设计，使得这部分噪声对关系抽取模型训练的影响降至最低。

第一个研究点的问题可以通过设计远程监督学习模型得以解决，第二个研究点的问题可以通过多实例学习降低远程监督模型受到的噪声干扰从而得以解决。为降低远程监督模型训练过程中所受到的来自错误标注的影响，Riedel等人设计了一种以包标注为基础的多示例学习(Multi-Instance Learning)方法。这种方法定义了一种名为“包”(bag)的数据集合，一个包中包含多个句子，这些句子都包含某一特定实体对，将此实体对对应的关系设置为此“包”的标签，通过这种设计，关系抽取任务执行的目标数据就从单个自然语言句子转变为了由多个含有同一实体对的自然语言句子组成的集合，即一个“包”。与传统的远程监督方法有所差异，对于以包标注为基础的多示例学习方法，仅需要所构建的任意包当中，至少有一个实体对之间的关系正确地对应了包的标签，就可以将此包的标注结果视为正确。此定义方法对于关系的表达约束较少，使得训练出的模型能够容忍部分噪音数据，减少受到的来自错误标注的负面影响。在关系抽取任务的多示例学习中，会针对每一个事实三元组划分出一个包，所有此三元组的自然语言文本样本都被放入此包中，知识库中三元组的数量与所构建的包的数量一致。即给定一个远程知识库KB(Knowledge Base)，且(h_i，r_j，t_i)∈KB，其中h_i为头实体，t_i为尾实体，r_j为关系类。给定一堆样本X＝{B₁，B₂，...，B_k}，其中B_i＝{x_i1，x_i2，...，x_im|(h_i，r_j，t_i)}，目标为学习一个模型y＝f(X)，能够预测给定包B_i的关系类。基于上述的多示例学习的思想，Zheng等人提出在以远程监督为基础的关系抽取方法当中结合神经网络的特征表达能力，本发明对分段卷积神经网络(Piece-Wise-CNN，PCNN)与多示例学习思想相结合的关系抽取方法进行了研究。PCNN由于其模型结构中使用了分段池化的方法，使得其对于从自然语言中提取实体关系具有一定优势，目前大量远程监督关系抽取的研究都是基于PCNN开展的，PCNN的整体模型结构可以被划分为四层，分别是向量编码层，卷积层，池化层和softmax层。

①向量编码层的作用是从输入的文本序列中提取特征，构建句子的向量表示。句子中的向量由两种嵌入组成，分别是词嵌入与位置嵌入，将这两种嵌入进行拼接即构成句子的嵌入。针对词嵌入，通常基于skip-gram进行预训练得到，针对位置嵌入，基于PositionEmbeddings对句子中的各个单词至两个实体的相对位移进行表示。即：

d＝d_w+d_p*2 (9)

其中d代表句子中表示单个词汇的向量的总维度，d_w表示词向量的维度，d_p表示位置向量的维度。结合词嵌入和位置嵌入，句向量可表示为：

其中s表示句子长度，即单词数量。

②卷积层的输入为句子向量，对于长度为s的句子，在其首尾进行w-1长度的填充，则卷积核ω的输出为：

若使用n个卷积核，则卷积操作的输出为：

C＝{c₁，…，c_n}，c_ij＝w_iq_j-w+1；j，1≤i≤n (12)

③池化层用于提取主要特征。卷积层输出维度为由此可见输出的维度与句子的长度相关。然而为便于将其特征应用于下游的任务，卷积层的输出必须独立于序列长度。为解决这一问题，在特征提取时通常采用池化操作，其目的是仅保留每个feature map中的主要的特征，抛弃一些次要特征。但是使用常见的单一最大池化方法不能够同时得到头尾实体的特征，为弥补单一最大池化的这一不足，PCNN使用了分段最大池化方法，每个卷积核的输出c_i被两个实体划分为3部分，分段最大池化输出长度为3的向量，即：

p_i＝{p_i1，p_i2，p_i3}，p_ij＝max(c_ij)，1≤i≤n，1≤j≤3 (13)

在所有卷积核完成分段池化后，模型会每一个卷积核的池化结果进行统一拼接，得到拼接后的向量p_1：n，经非线性函数输出为：

④Softmax层负责将池化层的输出映射为类别分数：

本发明拟使用基于远程监督的多示例学习方法，从海量电网设备领域文本中挖掘出实体之间的关系。

(3)实体链接技术

实体链接(EntityLinking，EL)一直是知识图谱构建的子任务之一。即将从自然语言文本中识别到的实体指称对应到知识图谱中相应实体的过程。其中，实体指称是指实体出现在文本中的不同表达，如全名、别名和缩写等，在不同的上下文中可能代表不同的实体，具有一定的歧义性。而实体是现实世界中客观存在的事物，是构成知识图谱的基本元素，不同实体之间存在不同的关系，这些实体本身是没有歧义的。因此，需要通过实体链接任务将从非结构文本中识别到的实体指称对应到结构化的知识库或知识图谱相应的实体上。

传统的实体链接模型过多关注于原始文本中实体指称项的上下文关系，而忽略了与知识库的关联关系，导致实体链接的效果无法达到要求。随着深度学习在自然语言处理领域的应用与落地，许多研究者基于深度学习来学习实体指称和候选实体的向量表示，再根据欧氏距离等向量的相似度计算方法来决定实体链接的结果。不同于以往的工作，本发明基于百科知识库，结合外部辅助资料如电网用语规范标准及搜狗电力领域词汇等构建候选实体集合。在排序模块，不仅考虑了实体指称在原始文本中的上下文关系，还充分利用知识图谱中候选实体的邻居信息进行匹配计算相似度分数，从而提高实体的链接精度。

面向知识图谱的电网领域实体链接模型由三部分组成：①命名实体识别模块，采用研究点一提出的生成式命名实体统一框架，识别出案例报告中所有提及到的实体指称项；②候选实体生成模块：基于已有的知识图谱，结合Wikidata和电网用语规范，为从文本中识别到的实体指称构建候选实体集合；③排序模块：研究知识图谱的实体嵌入表示，通过候选实体的文本特征计算与指称项的相似度，对候选实体排序，从而找出目标实体。

(4)知识图谱关系补全技术

知识图谱关系补全指的是在构建知识图谱之后，针对图谱中关系缺失的问题，预测出三元组中缺失的关系，从而使得知识图谱变得更加完整。知识图谱的基础数据单元是三元组，如(法国,首都,巴黎)便是一个事实三元组，头实体是“法国”，尾实体是“巴黎”，头尾实体之间的关系是“首都”，为便于表示，一个标准的三元组可被记作(h,r,t)，此处h代表头实体，t代表尾实体，r代表头尾实体之间的关系。现实场景中，知识的规模往往在不断地动态扩大，因此知识图谱中的实体与关系无法涵盖所有的事实知识，故而需不断补充新的知识使其更加完善，知识图谱的关系补全就是完善知识图谱的重要方式之一，下面会介绍知识图谱补全的整体流程和用到的具体技术。

为了进行知识图谱的关系补全，第一步要做的是对知识图谱中的实体和关系进行恰当的表示，便于模型对知识进行分析与计算，这一过程称作知识图谱嵌入(KnowledgeGraph Embedding,KGE)。通过知识图谱嵌入，就可以将文本描述的三元组转化为向量空间中的低维向量。关于知识图谱嵌入的方法，主要可以分为人工和通过学习的方式。通过学习的方式也称为知识表示学习，通过机器学习的算法自动的从数据中获得知识图谱嵌入，此方法能够根据具体的任务学习到合适的特征，但是这种方法适用于特征连续且处于较低层次的领域。目前，最常见的知识表示学习方法是基于深度学习的知识图谱嵌入技术，这种方法能够根据较低层次的特征构建出适合任务的较高层次的语义特征。在完成知识图谱嵌入之后，便可以基于知识图谱的向量表示，对缺失的关系进行预测。

(4-1)知识图谱嵌入技术

知识图谱嵌入指的是将知识库中的实体和关系用嵌入的形式表达其语义，是进行知识图谱补全工作的基础。常用的知识图谱嵌入模型可以被划分为翻译模型、双线性模型和神经网络模型等。下面针对这几种嵌入模型的设计原理分别进行详细阐述。

①翻译模型是最简单的知识图谱嵌入模型，它将实体对之间的关系视为头实体与尾实体之间的翻译过程，TransE是最常见的翻译模型。TransE认为h+r≈t，即r是头尾实体之间的翻译关系，并定义评分函数为

模型优化的目标是最小化评分函数。TransE能够简单清晰地解决1-1类别的关系，但不能够很好的解决1-N，N-1，N-N关系。比如两个三元组，就构成了一个1-2关系，若某两个三元组的头实体h与关系r相同，则在TransE模型的向量空间中，两个三元组的尾实体t₁与t₂的低维向量就会相同，然而这显然是不合理的。

(2)双线性模型计算实体和关系在向量空间中潜在语义的可信度，包括RESCAL、DisMult、ComplEx等模型。RESCAL是最简单的双线性模型，后两者在其基础上进行了一定的改进。RESCAL把关系利用满秩矩阵表示，并定义评分函数为：

f_r(h，t)＝h^TM_rt (17)

在RESCAL嵌入模型中，头尾实体通过满秩矩阵与关系建立了联系，通过这种以矩阵为基础对关系语义进行表达的方式，模型能够挖掘出三元组潜在的语义信息，提高了语义表达能力。然而这种方法也存在着一些不足，RESCAL的模型结构较为简单，模型参数较少，因此经常会产生过拟合的问题，当关系数量增加时，满秩矩阵的维度也会随之升高，这为嵌入计算引入了较高的运算成本，因此在生产场景中很少使用这种嵌入方式。

基于RESCAL的上述不足，DisMult从模型设计角度进行了改进，其损失函数为：

f_r(h，t)＝h^Tdia g(M_r)t (18)

可见DisMult中的关系矩阵被替换为了对角矩阵，然而由于DisMult在对RESCAL进行改进的过程中，使得模型结构进一步简单，一定程度上对模型的关系表达能力进行了削弱，改进后的模型能够较好地对对称关系进行表达，但对于其它类型的关系则无法表达。

基于DisMult的上述不足，ComplEx利用复向量对知识图谱嵌入进行建模，借助复空间提升其关系表达能力，它的评分函数为：

其中头实体h和尾实体t通过复向量进行表达，表示t的共轭复数，Re(·)表示取得复数的实部，通过这种复空间中的知识图谱嵌入模型设计，ComplEx能够同时解决多种关系的表达问题，大大弥补了DiaMult的不足。

(3)神经网络模型是在神经网络发展兴起后，将神经网络应用于解决知识图谱补全问题的一种模型，ConvE是最典型的神经网络知识图谱嵌入模型。

ConvE的模型结构非常简单，对于一个三元组，它使用两个大小相同的二维向量分别表示头实体与关系，然后将两个向量拼接后输入到卷积层中提取特征，之后再经过一个隐藏层提取头实体与关系之间的交互信息，将输出与实体矩阵相乘，计算出此三元组的可信度，ConvE模型训练过程中的评分函数为：

表示二维向量，w表示卷积核，W表示矩阵。ConvE模型上没什么新颖之处，只不过是比较早的利用卷积神经网络来对KGE进行建模。

本发明将在以上三种知识图谱嵌入方法的基础之上设计一种新的知识图谱关系嵌入模型，并将此模型与上述三类传统嵌入模型应用在开放域零样本知识图谱补全任务中的效果进行对比分析。

(4-2)知识图谱关系预测技术

目前的知识图谱关系预测方法大多是基于某个具体领域的特点进行设计的，这种方法构建出的模型虽在个别领域内性能出色，但其泛化能力较差，一个领域的知识图谱关系预测模型无法被应用在其他领域。受到BERT(Devlin et al.，2018)，MoCo(He et al.，2020)等工作的启发，Qiu等人提出了Graph Contrastive Coding(GCC)图神经网络预训练框架，此框架用于图神经网络的预训练，能够从中学习到通用的图拓扑结构特征，利用对比学习的方法学习到内在的可迁移的图结构信息。

传统的图表示学习主要参考NLP的基于skip-gram词表示学习方法，如DeepWalk，LINE，node2Vec，metapath2vec等。这些方法主要针对节点的邻居相似性(neighborhoodsimilarity)进行建模。具体来说，网络中距离比较近的节点会被模型认为比较相似；此外，这类方法得到的表示往往缺乏通用性，局限于训练使用的特定网络。而Qiu等人提出的GCC则关注结构相似性(structural similarity)，希望两个局部结构相似的节点拥有相近的表示，并且我们希望学习得到的表征可以迁移到不同的网络上，具有通用性。

GCC采用了对比学习框架，其基本思想是对于某一实体，使其正例在嵌入空间中尽可能地接近该实体，使其负例在嵌入空间中尽可能地远离该实体。在对比学习中，给定查询表示q，对于候选集中K+1个表示k₀，k₁，k₂，...，k_K，其中包含正例k₊，目标为优化损失函数：

其中，q和k是样本x^q和样本x^k的低维表示，在GCC中，每一个样本被定义为针对知识图谱中一个特定实体的r阶邻居网络进行采样产生的一个子图。在针对某实体的邻居网络进行采样得到一对正负例之后，就可以通过图编码器对正负例子图中的特征进行提取，并开展模型的对比学习，GCC可以选择任意一种图神经网络作为编码器，最常用的做法是使用Graph Isomorphism Network(GIN)作为编码器。

GCC可以应用于许多下游的图学习任务，在本发明中，我们借鉴了GCC的预训练和特征提取思想，基于GCC框架，设计并实现了一种基于知识图谱拓扑结构相似度的知识图谱关系预测方法。

为了解决现有技术中存在的问题，本发明所设计的面向电网设备的知识图谱系统添加了知识图谱为核心为电网工人提供辅助支持功能。从运作流程上分析，第一，系统需要能够自动完成电网设备领域知识图谱的数据准备工作，并持续自动化地更新文本数据；第二，系统需要能够自动化地完成知识图谱构建工作，并基于深度学习算法实现知识图谱补全。第三，系统需要提供知识图谱版本控制功能，从而能够以图谱升级和回滚的方式对数据进行更新；第四，系统需要提供针对领域文本和知识图谱的可视化管理功能，提升数据管理效率；第五，系统需基于知识图谱提供的知识推理能力，实现相关文本推荐、知识图谱分级等功能。

具体的，如图1所示，包括以下过程：

(1)通过基于Python的网络爬虫技术从互联网获取到电网设备领域相关的数据，若存在PDF文件、图片等非文本数据，则通过光学识别OCR技术，从中提取出文本，最终形成一个非结构化文本数据集；

(2)基于Python数据处理工具对数据进行预处理，首先通过数据审核，将信息错误、时间过期、格式不符的数据排除掉。其次通过数据筛选，筛选出知识质量高、符合知识图谱构建要求的数据，最后通过数据集成，将来源不同、结构相异的数据统一形式，形成规范化、标准化的数据集；

(3)通过针对电网设备相关数据的领域特点，设计出规则匹配模板，结合命名实体识别和实体关系抽取技术，从文本数据中提取出电网设备领域的事实三元组，作为领域知识图谱的知识来源；

(4)对任务类型进行判断，任务类型分为两种，知识图谱构建和知识图谱更新；

(5)根据三元组构建电网设备领域知识图谱，基于Neo4j在JAVA中的API，通过Neo4j图数据库进行持久化存储；

(6)基于PyTorch深度学习框架，在电网设备领域知识图谱的基础上训练知识图谱嵌入模型，为知识图谱补全任务奠定基础；

(7)针对知识图谱中的关系缺失问题，以知识图谱嵌入的语义为基础，结合零样本学习技术，对缺失的关系进行补全，使得电网设备领域知识图谱信息更加全面；

(8)通过设置一个定时任务，即每隔一段时间产生一个通知信号，或通过人工发起同步任务，进一步触发知识图谱更新任务；

(9)通过实体和关系的版本号对知识图谱中的知识进行增量动态更新；

(10)基于Springboot、vue等开发框架实现知识图谱的可视化管理。

本发明将基于电网设备领域三元组构建动态知识图谱。通用领域知识图谱虽然发展相对成熟，但对于电网设备领域的专业知识覆盖不足，所涉及到的专业知识深度有限，无法满足电网设备领域运检工作的需要，因此急需构建一个包含专业知识的面向电网设备领域的知识图谱。

在通过数据预处理将多源异构的电网设备领域数据转化为三元组之后，便可以以此为基础构建一个面向电网设备领域的知识图谱，从而对文本数据中所蕴含的行业专业知识进行理解和利用。此外，由于电网设备领域的数据具有时效性强、更新迭代速度快的特点，因此在知识图谱构建完成后还需要对其进行动态维护，即不断更新原有旧数据，补充新数据以及清除过时的无效数据，实现知识图谱动态升级。本发明通过设计知识图谱动态升级机制实现这一功能，如图2所示。

知识图谱动态升级机制将基于模板匹配、命名实体识别和实体关系抽取技术从非结构化文本中提取出电网设备领域相关的事实三元组。

对于知识图谱中每一个实体，将为其设置实体分类、实体描述和实体版本等信息，实体分类用于确定实体所属的类型，实体描述用于阐述实体本身的含义，实体版本通过给实体记录时间戳来控制实体本身的时效性。

对于知识图谱中每一个关系，也将为其设置关系分类、关系描述和关系版本等标签信息，含义与实体的标签信息类似。

此外，通过动态更新的电网设备领域数据以及实体和关系的版本号，会动态地对知识图谱进行动态增量更新。在更新时，通过动态升级技术进行版本管理和回滚机制，通过设置多种升级执行器实现多种不同的升级机制。

知识图谱动态升级机制的架构如图3所示，该机制主要基于两项关键技术进行设计，即版本控制技术和知识更新技术。

版本控制技术用来进行知识图谱多版本的管理，并实现图数据库回滚机制。每次将新的三元组数据添加到知识图谱中的操作，都可以看作一次知识图谱动态升级，知识图谱每次升级完成后都会获得一个全局唯一的版本号，本发明设计的变更日志是版本控制技术实现的核心，它包含了两类日志信息，即操作日志和数据日志，现对这两种日志作如下解释。

在知识图谱升级任务开始之前，版本升级服务会先向变更日志中写入一条操作日志，这条操作日志包含了当前时间、当前版本、更新数据类型、升级任务触发方式、执行器类型、数据量、操作人等所有与新版本相关的信息，它标志着上一版本知识图谱的数据日志的结束和新版本知识图谱数据日志的开始。在操作日志写入成功之后，系统会调用对应的执行器执行数据更新操作。由于知识图谱本质上是多条三元组数据的集合，因此知识图谱的数据更新可以看作是针对某些三元组进行增、删、改、查操作，每完成对一个三元组的改动后，系统都会向变更日志中写入一条数据日志，用以描述对三元组进行的具体操作。基于变更日志，本发明的版本控制技术提供了版本回滚服务。当用户由于某些原因(例如误操作)需要回滚时，只需指定一个要回滚的知识图谱版本号，版本回滚服务会提取对应版本的变更日志并对其进行分析，主要对日志中数据更新的操作进行合并，并对所指定的待回滚版本之后的新版本数据日志进行检索，防止修改历史版本影响后续版本；

例如，版本v0.1中新增了实体A、实体B和实体C，最新的版本v0.2中新增了关系A-r-B，若想要回滚掉v0.1的数据，可删除掉实体C，而不可以删除掉A和B，因为删除A和B会影响后续版本v0.2中数据的变更；

分析完成后即可针对变更日志生成一份临时的逆操作日志，将逆操作日志输入到版本升级服务中，即可执行对应的逆操作，从而实现版本回滚。版本回滚服务本质上是通过逆操作日志进行了一次知识图谱动态升级，因此回滚成功后依旧会产生一个新的版本号，如图4所示。

在本发明中，构建了一种基于文本知识转换和对齐的知识图谱补全模型(Knowledge Graph Completion Based on Text Knowledge Transformation andAlignment，TKTA)，该模型可以根据关系的文本描述预测知识图谱中的新关系。基于新关系的文本描述，TKTA可以生成关系在知识图谱中的嵌入，从而完成开放域中的知识图谱补全任务。实验结果表明，TKTA在知识图谱开放域关系预测任务中取得了很好的性能。

TKTA训练流程如图5所示，对于知识图谱中已存在的关系“president_of_country”，首先需要通过词典、百科或搜索引擎获取该关系的一段文本描述，并将此段文本描述输入知识转化器(KnowledgeConverter，KC)获得一个该关系的特征向量v₁。之后从知识图谱中该关系的n-step网络中分别提取实体特征和拓扑特征，再对这两种特征进行融合得到该关系的另一个特征向量v₂。我们通过调整KC的网络参数，使v₁向v₂逼近，最终得到的KC可以作为关系的编码器，此编码器可以根据关系的自然语言文本描述生成包含关系语义的特征向量，基于此向量在嵌入空间中对知识图谱进行补全。

如图6所示，对于知识图谱中的一个关系r，我们首先以它为中心，构建它的n-step网络，记为N_r，并将这个网络输入到关系特征器。关系特征提取器将会提取N_r中包含的实体特征、N_r中包含的关系特征以及N_r中的拓扑结构特征。之后该模型会将这三个特征融合为关系r的最终特征向量。另一方面，本发明模型首先会获取到一段关于关系r的描述性文本，这些描述性文本可能来自字典或百科条目。关系r的文本描述将会被提供给关系嵌入生成器。关系嵌入生成器根据输入文本描述生成表示关系r特征的关系向量。此后，TKTA会将关系特征提取器从N_r中提取的关系r的嵌入向量v₁和关系嵌入生成器根据关系的文本描述生成的关系嵌入向量v₂一起输入到关系嵌入鉴别器中。关系嵌入判别器的作用是对输入向量进行二分类，区分两类向量。关系嵌入鉴别器将尝试将关系特征提取器生成的向量v₁标记为真，将关系嵌入生成器生成的向量v₂标记为假。

在训练时，我们首先固定关系嵌入生成器的参数，将其视为固定模型，训练关系嵌入判别器。对于每个关系r，我们可以获得它的两个嵌入向量。其中一个嵌入向量v₁来自关系特征提取器，其特征信息来自知识图谱中关系的n-step网络所包含的关系特征信息。另一个嵌入向量v₂来自关系嵌入生成器，其特征信息来自对关系的长文本描述。我们将关系特征提取器生成的关系向量v₁视为真关系向量，将关系嵌入生成器生成的向量v₂视为生成器伪造的假关系向量。

关系嵌入判别器的本质是一个二元分类器，需要区分这两个来源的向量。

当关系的特征向量到达关系嵌入鉴别器时，它必须判断输入的是真关系向量还是假关系向量。当我们完成关系嵌入鉴别器的一轮训练时，它的性能会提高，即此时关系嵌入鉴别器区分真实关系向量和假关系向量的能力得到了提升。

此时，我们固定关系嵌入判别器的参数，将其视为固定模型，训练关系嵌入生成器。关系嵌入生成器的输入是关系的长文本描述，可能来自百科解释或字典。关系嵌入生成器的主要工作是根据关系的文本描述生成尽可能真实的关系嵌入。这里“真实的关系嵌入”指的是能够成功骗过关系嵌入判别器，使关系嵌入判别器误认为关系嵌入生成器生成的向量是由关系特征提取器产生的。当我们完成一轮关系嵌入生成器的训练后，它生成关系嵌入的能力就可以得到提升，即关系嵌入生成器生成的关系嵌入有更高的概率成功地欺骗关系嵌入判别器，使其将关系嵌入误判为关系特征提取器生成的真实向量。

在纳什均衡之前，模型会进行多轮训练。在每一轮训练中，首先固定关系嵌入生成器的神经网络参数并训练关系嵌入鉴别器，再固定关系嵌入鉴别器的神经网络参数并训练关系嵌入生成器。通过这种方式，模型实现了关系嵌入生成器和关系嵌入鉴别器的对抗性学习。经过多个轮次的训练，最终关系嵌入生成器和关系嵌入判别器之间的对抗达到纳什均衡。这时候关系嵌入生成器根据关系的文本描述生成的关系嵌入高度逼真。关系嵌入鉴别器区分传入的关系嵌入是由关系嵌入生成器根据关系的文本描述生成或是由关系特征提取器根据知识图谱中关系的N-Step网络的特征生成的准确率为50％。

当训练完成后，对于知识图谱中从未出现过的新关系，我们可以将关系的文本描述输入到关系嵌入生成器中，关系嵌入生成器将生成一个非常逼真的关系嵌入。使用这种关系嵌入，我们可以完成新关系的知识图谱补全任务。

网络特征提取器的输入是一个关系，输出是一个包含这个关系特征的向量表示。网络特征提取器的整体结构如图7所示，在知识图谱中输入一个关系后，它首先去知识图谱中找到所有出现这个关系的位置，并构建这个关系的n-step网络。假设知识图谱中有x个包含关系r的三元组，那么我们最终将构建x个关系r的n-step网络。对于每个n-step网络，我们将使用三个特征提取器来提取这个n-step网络中的特征信息。三种特征提取器分别是实体特征提取器、关系特征提取器和拓扑结构特征提取器。实体特征提取器用于提取n-step网络中包含的所有实体的语义信息。关系特征提取器用于提取n-step网络中包含的所有关系的语义信息。拓扑结构特征提取器用于提取n-step网络拓扑结构中包含的语义信息。这三个特征提取器在提取特征后会生成包含相应特征信息的特征向量。然后我们将这三个特征向量输入到N-Step Network Fix Encoder中。N-Step Network Fix Encoder的作用是将以上三个特征提取器提取的特征信息进行融合，输出一个最终的关系为r的特征向量。

在训练以上三个特征提取器时，我们采用了对比学习的方法。对于知识图谱中具有相同关系的所有n-step网络，我们提取特征并使它们在向量空间中尽可能接近。因为同一关系的不同n-step网络所表达的语义是相同的，所以它们在向量空间中的语义也应该尽可能相似。对于具有不同关系的n-step网络，我们提取特征并使它们在向量空间中尽可能远离彼此。由于不同关系的n-step网络所表达的语义是不同的，因此也应该尽可能地最大化它们在向量空间中的语义差异。

这样，我们就得到了一个关系为r的n-step网络的特征向量。我们对知识图谱中关系r的x个n-step网络进行上述处理，就可以得到x个关系r的嵌入向量。通过对这些x嵌入向量计算平均值，我们可以获得知识图谱中关系r的最终向量表示。

下面对三种特征提取器进行解释：

(a)实体特征提取器：实体特征提取器的输入是关系r的n-step网络N_r，输出是关系r的n-step网络的实体特征向量。第一步，实体特征提取器首先从关系r的n-step网络中获取所有实体。第二步，实体特征提取器将在上一步提取的所有实体的基础上，对关系r的n-step网络中的实体进行下采样，选择一定比例的实体，本发明在训练中使用的下采样率是0.8。我们进行下采样的原因是每次随机去除一些实体，以避免某些个体实体对结果产生太大影响。第三步，对降采样后得到的实体进行顺序编码。这里我们借用经典的知识图谱嵌入模型TransE、DistMul等知识图谱嵌入模型来获取实体的向量表示。第四步，将得到的各个实体的向量进行连接压缩，得到关系r的实体特征的最终向量表示。

(b)关系特征提取器：输入关系r的n-step网络后，关系特征提取器首先提取n-step网络中的所有其他关系。然后通过知识图谱嵌入模型对这些n-step关系进行编码，分别得到它们的嵌入向量。由于在训练过程中可能存在较小的数据集，一些关系总是成对出现在训练集三元组中。在这种情况下，模型可能会错误地认为其中一个关系决定了另一个关系的语义。为了避免这种现象，我们对从关系r的n-step网络中提取的所有关系进行随机下采样，从而在每次训练中随机排除一些关系，从而提高模型的泛化能力。在采样获得每个关系的特征向量后，我们将特征向量的批次连接起来并通过线性层对其进行压缩。最后即可在关系r的n-step网络中得到关系的特征向量。

(c)拓扑特征提取器：拓扑特征提取器的作用是提取关系r的n-step网络中拓扑结构所包含的语义信息。在接收到关系为r的N步网络后，拓扑特征提取器总共执行四个步骤。第一步，拓扑特征提取器会对接收到的n-step网络进行实体匿名化处理，即去掉实体本身的语义信息，将所有实体替换为同一个匿名实体，这样做的目的是消除实体自身携带的信息对拓扑特性的影响。在第二步中，拓扑特征提取器对网络结构进行下采样。采样点法是以关系r的邻居实体对为起点，在r的n-step网络中进行随机游走。随机游走的重启概率决定了采样方式是广度优先还是深度优先。在本发明中，我们将随机游走的重启概率设置为0.7。随机游走后，我们得到了n-step网络的匿名子图。第三步，拓扑特征提取器将匿名化的网络拓扑输入到图神经网络中，提取结构特征，输出为特征向量。第四步，得到r的所有n-step网络的拓扑特征向量后，将它们拼接起来，通过一个线性网络层进行压缩，最后得到r的拓扑特征向量。

本实施例中，对于任何关系r，我们首先通过百科条目或字典获得关系r的文本描述。将关系r的文本描述输入关系嵌入生成器后，关系嵌入生成器首先直接基于预训练的词袋模型生成每个词的嵌入，之后取出关系r的文本描述中的每一个词，计算这个词的TF-IDF值，来衡量这个词对整个文本的重要性。每个词的TF-IDF值就是该词在文本中重要性的权重。然后我们将每个词的嵌入向量乘以该词的TF-IDF权重，然后将计算结果相加得到文本的向量表示。为了优化关系嵌入生成器的泛化能力，我们从两个方面引入了少量噪声。首先，我们在通过词袋模型生成词嵌入时不使用停用词列表，而是通过停用词引入噪声。其次，我们通过将文本的向量表示与服从正态分布的随机向量连接来引入随机噪声。最后将连接的结果作为最终生成的关系r的向量。

本实施例中，关系嵌入鉴别器的目标是对关系r的输入嵌入向量进行二元分类。分类结果是由关系特征提取器从知识图谱中提取的向量，即真实的嵌入向量，或者是关系嵌入生成器根据关系r的文本描述生成的向量，即伪造的嵌入向量。在训练过程中，最初关系嵌入鉴别器的表现会很差，因此很难区分输入向量是真还是假。在关系嵌入判别器和关系嵌入生成器的多轮交替训练过程中，由于关系嵌入判别器性能的提升，起初其分类准确率会逐渐提高。随着训练轮次的增加，关系嵌入生成器伪造的r的嵌入向量越来越真实，关系嵌入判别器的分类精度会逐渐下降。当关系嵌入生成器和关系嵌入判别器之间的博弈达到纳什均衡，即都不能提高生成对抗训练的效果时，关系嵌入判别器的分类准确率将稳定在50％。

本实施例中，对于文本知识库中的每一篇文章，首先对其进行知识图谱分析，构建一个与此篇文本相关的小型知识图谱，称为二级知识图谱。本发明所构建的面向电网设备的知识图谱称为一级知识图谱，二级知识图谱可以看做是一级知识图谱的一个子集。在对每一篇文本完成耳机知识图谱构建后，还需对其进行可视化展示，用户可以从可视化的二级知识图谱中了解当前文本所涉及的主要内容。第二，基于二级知识图谱，我们对文本知识库中的所有文本进行关联性分析，具体方法为计算每两篇文本所对应二级知识图谱之间的文本相似度，由于时间复杂度为o(n2)，在线计算会导致系统响应时间过长，因此此功能应基于离线计算技术实现。

本实施例中，所发明的基于电网设备的知识图谱系统前端首页如图8所示，包含三个大区，多个功能按键等部分。界面上方为功能按钮区，用户可在此点击跳转至指定功能，此处为可扩展区域，当未来系统功能增加时，新功能均可以在此处接入系统。界面下方为系统的全局搜索与分类搜索功能，用户可以在此处进行文本检索。界面右侧是系统当前的数据统计信息展示。

实施例2：

本发明实施例2提供了一种基于电网设备的领域知识图谱更新系统，包括：

知识图谱构建模块，被配置为：结合获取的非结构化文本数据，基于模板匹配、命名实体识别、实体关系抽取和实体链接技术从非结构化文本中提取出电网设备领域相关的事实三元组构建知识图谱；系统提供全局搜索与分类搜索功能；通过知识图谱查询功能对知识图谱信息进行检索及查询电网设备文本二级知识图谱信息。

其中，关系嵌入生成器的训练，包括：

以知识图谱中的任一个关系r为中心构建n-step网络，关系特征提取器提取n-step网络中包含的实体特征、关系特征和拓扑结构特征，将实体特征、关系特征和拓扑结构特征融合为关系r的最终特征向量；

获取关系r的描述性文本，关系嵌入生成器根据关系r的描述性文本生成关系r的关系特征向量；

根据多个关系的最终特征向量、关系特征向量以及关系嵌入鉴别器，先固定关系嵌入生成器的参数，训练关系嵌入判别器，然后固定关系嵌入判别器的参数，训练关系嵌入生成器，在达到纳什均衡之后，得到训练好的关系嵌入生成器。

所述系统的工作方法与实施例1中提供的方法相同，这里不再赘述。

实施例3：

本发明实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明实施例1所述的基于电网设备的领域知识图谱更新方法中的步骤。

实施例4：

本发明实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明实施例1所述的基于电网设备的领域知识图谱更新方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于电网设备的领域知识图谱更新方法，其特征在于，包括以下过程：

结合获取的非结构化文本数据，根据电网设备领域三元组构建知识图谱；

其中，关系嵌入生成器的训练，包括：以知识图谱中的任一个关系r为中心构建n-step网络，关系特征提取器提取n-step网络中包含的实体特征、关系特征和拓扑结构特征，将实体特征、关系特征和拓扑结构特征融合为关系r的最终特征向量；

获取关系r的描述性文本，关系嵌入生成器根据关系r的描述性文本生成关系r的关系特征向量；根据多个关系的最终特征向量、关系特征向量以及关系嵌入鉴别器，先固定关系嵌入生成器的参数，训练关系嵌入判别器，然后固定关系嵌入判别器的参数，训练关系嵌入生成器，在达到纳什均衡之后，得到训练好的关系嵌入生成器。

2.如权利要求1所述的基于电网设备的领域知识图谱更新方法，其特征在于，

或者,

将命名实体识别任务视为序列生成任务，针对命名实体识别中出现的扁平、嵌套和不连续实体，执行生成式的实体标注方法，在编码时采用基于指称项与标签相关度的注意力机制，并融合到Transformer模型中Encoder-Decoder部分的Attention中，在解时使用指针网络，通过超参数控制当前生成的词是来自输入序列还是来自预定义词表；

或者，

将实体链接分为两个子任务，分别为候选实体生成和候选实体排序，基于图卷积的候选实体排序中利用BiLSTM动态学习文本中出现的指称项的词嵌入，利用图卷积学习知识图谱中的候选实体表示；

利用BERT预训练模型学习实体指称上下文与候选实体上下文之间的深层语义知识，通过Softmax函数获取语义相似度，根据语义相似度对候选实体集合进行排序，选择相似度分数最高的候选实体作为目标候选实体；

或者，

对于知识图谱中每一个实体，设置实体分类、实体描述和实体版本；对于知识图谱中每一个关系，设置关系分类、关系描述和关系版本；

3.如权利要求2所述的基于电网设备的领域知识图谱更新方法，其特征在于，

版本管理和回滚控制，包括：

4.如权利要求1所述的基于电网设备的领域知识图谱更新方法，其特征在于，

构建基于文本知识转换和对齐的知识图谱补全模型，根据关系的文本描述预测知识图谱中的新关系，基于新关系的文本描述，生成关系在知识图谱中的嵌入，从而完成开放域中的知识图谱补全任务，网络特征提取器提取n-step网络中包含的实体特征、关系特征和拓扑结构特征，将实体特征、关系特征和拓扑结构特征融合为关系r的最终特征向量，包括：

5.如权利要求4所述的基于电网设备的领域知识图谱更新方法，其特征在于，

实体特征提取器的输入是关系r的n-step网络，输出是关系r的n-step网络的实体特征向量，包括：

6.如权利要求4所述的基于电网设备的领域知识图谱更新方法，其特征在于，

关系特征提取器首先提取n-step网络中的所有n-step关系，然后通过知识图谱嵌入模型对所有n-step关系进行编码，分别得到它们的嵌入向量；

7.如权利要求1-6任一项所述的基于电网设备的领域知识图谱更新方法，其特征在于，

以动态更新的知识图谱为一级知识图谱，对于文本知识库中的每一篇文章，首先对其进行知识图谱分析，构建一个与此篇文本相关的小型知识图谱，作为二级知识图谱，二级知识图谱视为一级知识图谱的一个子集；

8.一种基于电网设备的领域知识图谱更新系统，其特征在于，包括：

知识图谱构建模块，被配置为：结合获取的非结构化文本数据，根据电网设备领域三元组构建知识图谱；

知识图谱更新模块，被配置为：对于知识图谱中未出现过的新关系，将此新关系的文本描述输入到关系嵌入生成器中，关系嵌入生成器生成关系嵌入，根据得到的关系嵌入进行知识图谱的补全更新；

其中，关系嵌入生成器的训练，包括：

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于电网设备的领域知识图谱更新方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于电网设备的领域知识图谱更新方法中的步骤。