CN117273133A

CN117273133A - 配电网多源异构数据知识图谱的构建方法

Info

Publication number: CN117273133A
Application number: CN202311193080.2A
Authority: CN
Inventors: 冯杨; 朱家山; 陈武; 谢乔富; 樊金泽; 冯文斐; 詹兴旺; 徐丽琼
Original assignee: Qujing Power Supply Bureau Yunnan Power Grid Co Ltd
Current assignee: Qujing Power Supply Bureau Yunnan Power Grid Co Ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-12-22

Abstract

本发明涉及配电网数据计量管理技术领域，具体地说，涉及配电网多源异构数据知识图谱的构建方法。包括模式层构建：输电网知识内容体系框架的归纳和分析；分析配电网多源异构数据；定义实体类型、属性类型和实体关系；构建配电网知识的组织框架。数据层构建：多源异构数据接入及融合；数据预处理；知识抽取；知识融合；知识存储与更新。计量管理应用：实时监测与预警；异常数据排查；数据质量管理；统计分析和决策支持。本发明设计可以与各业务系统进行数据融合、应用集成；有效整合配电网多源异构数据，实现对配电网知识的组织和管理，促进电网的可持续发展；通过知识图谱的交互式展示和数据质量管理平台的应用，实现自动排查计量类异常数据。

Description

配电网多源异构数据知识图谱的构建方法

技术领域

本发明涉及配电网数据计量管理技术领域，具体地说，涉及配电网多源异构数据知识图谱的构建方法。

背景技术

配电网是电力系统中的一部分，其主要功能是将高压输电线路传输的电能转变为适用于家庭、工业和商业用户的低压电能，将电能分配到各个终端用户，满足他们的用电需求。配电网通常由变电站、配电变压器、电缆、开关设备等组成，是城市供电的关键组成部分。随着城市化进程和电力需求的增加，配电网的规模和复杂性不断增加，对配电网的运行和管理提出了更高的要求。

在配电网的运行和管理过程中，会产生大量的数据，这些数据来自不同的数据源，例如各种传感器、监测设备、操作记录等。这些数据的来源和类型各不相同，因此被称为多源异构数据。这些数据可能是结构化数据，如电压、电流等测量值，也可能是非结构化数据，如文字报告、日志文件等。多源异构数据的存在使得对配电网的综合分析和决策变得复杂，需要有效地将这些数据进行整合和处理，以提取有价值的信息和知识。

知识图谱是一种用于表示知识的图形结构，其中实体和关系被表示为图中的节点和边。知识图谱的构建过程包括从结构化和非结构化数据中抽取实体和关系，并将它们组织成一个有意义的图谱。知识图谱可以帮助人们理解和推理知识之间的关联，从而支持各种任务，如数据查询、信息检索、智能推荐等。

在配电网领域中，可以构建专门的知识图谱，称为领域知识图谱。这些领域知识图谱将专门关注配电网相关的知识和关系，如设备信息、电力运行状态、故障诊断等。领域知识图谱可以帮助配电网运营人员和管理者更好地理解配电网的状态和运行情况，从而做出更明智的决策，优化配电网的运行和管理。

计量管理是指对电力、水务、天然气等公共事业或工业生产中的能源和资源进行测量和监控的管理过程。在配电网多源异构数据知识图谱应用于计量管理方面，可以利用知识图谱中融合的实时数据对计量设备进行实时监测，发现异常情况并发出预警信息。同时，通过知识图谱的交互式展示，快速定位计量类异常数据，帮助数据管理员进行数据质量管理和排查异常数据，为管理部门提供统计分析和决策支持，从而优化配电网的运营管理。

综上所述，配电网作为城市供电的命脉，面临着日益增加的复杂性和挑战。多源异构数据的存在使得对配电网的综合分析和决策变得复杂，因此需要一种有效的方法来将这些数据进行整合和处理。知识图谱作为一种用于表示知识的图形结构，能够帮助我们理解和推理知识之间的关联，为配电网的运行和管理提供支持。鉴于此，我们提出了配电网多源异构数据知识图谱的构建方法。

发明内容

本发明的目的在于提供配电网多源异构数据知识图谱的构建方法，以解决上述背景技术中提出的问题。

为实现上述技术问题的解决，本发明的目的之一在于，提供了配电网多源异构数据知识图谱的构建方法，包括如下步骤：

S1、模式层构建：模式层构建是配电网多源异构数据知识图谱构建方法中的关键步骤之一，通过采用自顶向下的方式，对输电网知识内容体系框架进行归纳和分析；通过详细分析配电网多源异构数据进而从输电层、变电层、配电网层和用户层等方向出发，从而准确定义实体类型、属性类型和实体关系，构建配电网知识的组织框架；具体为：

S1.1、输电网知识内容体系框架的归纳和分析：首先，对输电网领域的知识内容进行归纳和分析，了解该领域中的重要概念、关键属性和实体之间的关系；

S1.2、详细分析配电网多源异构数据：在了解输电网知识内容后，对配电网多源异构数据进行详细分析；这包括从不同来源获取的各种数据，如监测数据、设备信息、操作记录等；

S1.3、定义实体类型、属性类型和实体关系：基于对多源异构数据的分析，确定配电网知识图谱的实体类型、属性类型和实体关系；

S1.4、构建配电网知识的组织框架：在确定实体类型、属性类型和实体关系后，通过将它们组织起来构建配电网知识的组织框架；

S2、数据层构建：配电网多源异构数据知识图谱可用G＝(E，R，S)表示，其中E为知识库中的实体集合，R为关系集合，S为“实体—关系—实体”三元组知识集合；数据层构建即在模式层组织框架指导下，从配电网多源异构数据中提取所需实体及关系；数据层构建的关键技术包括多源异构数据融合、数据预处理、知识抽取、知识融合和知识存储与更新；具体为：

S2.1、多源异构数据接入及融合：获取原始数据，通过接入不同类型的配电网多源异构数据产生有结构化数据、半结构化数据、非结构化数据；接着，采用多源异构数据融合技术将配电网来自不同数据源的多种数据进行汇总、关联和整合；

S2.2、数据预处理：对融合后的多源异构数据进行预处理，包括对结构化、半结构化数据清洗、去噪、规范化等操作，以确保数据的质量和一致性；对非结构化数据，如存在的大量文本，word、pdf等，进行结构化转化、中文分词、文本标注、构建词向量模型；

S2.3、知识抽取：采用规则和基于深度学习的知识抽取方式从预处理后的数据中提取所需的实体和关系信息；知识抽取的目标是将数据转化为“实体-关系-实体”三元组形式，从而形成知识图谱的基本结构；

S2.4、知识融合：将从不同数据源和不同知识抽取方法得到的知识进行融合，消除重复和冲突，形成一致的知识表示；知识融合有助于提高知识图谱的完整性和一致性；

S2.5、知识存储与更新：最后，利用Neo4j图数据库等知识存储技术将抽取和融合后的知识存储起来，形成配电网多源异构数据知识图谱；同时，定期更新知识图谱，以保持其与实际配电网数据的一致性和准确性；

S3、计量管理应用：利用Neo4j图数据库对配电网知识进行存储，可以形成一个完整且结构性的知识图谱，该图谱包含了配电网领域的各类实体、属性和关系的信息；Neo4j是一种图数据库，在计量管理业务场景中具有重要的应用价值；具体为：

S3.1、实时监测与预警：利用知识图谱中融合的配电网多源数据，实时数据监测计量设备状态；

S3.2、异常数据排查：通过知识图谱的交互式展示，快速定位计量类异常数据；

S3.3、数据质量管理：通过对数据层构建过程中的数据预处理和知识抽取，保证数据的质量和一致性；知识图谱中的数据可以作为数据质量管理平台的参考；

S3.4、统计分析和决策支持：配电网多源异构数据知识图谱可以将不同系统的数据进行整合，对公变、专变、低压用户的计量数据进行综合统计和分析。

作为本技术方案的进一步改进，所述步骤S1.3中，在模式层构建中定义实体类型、属性类型和实体关系；具体为：

实体类型指配电网中的各种具体对象，如电缆、变压器、开关等；

属性类型则是这些实体的特征和属性，如电压、电流、功率等；

实体关系表示实体之间的关联关系，如连接、属于等。

作为本技术方案的进一步改进，所述步骤S2.1中，数据层构建中多源异构数据接入时，多源异构数据可以从不同维度进行划分，包括时间维度、数据结构维度和业务领域维度；具体包括：

时间维度中，实时数据：即时采集的数据，反映配电网设备、线路、负荷等实时状态的数据；历史数据：过去一段时间内采集的数据，用于分析配电网的运行历史和趋势；预测数据：基于历史数据和模型进行预测的数据，用于预测未来的电力需求和负荷情况；

数据结构维度中，结构化数据：采用固定格式和模式存储的数据，如数据库中的表格数据，具有明确的字段和关系；半结构化数据：具有一定结构，但不符合传统关系数据库表格形式的数据，如XML、JSON等；非结构化数据：没有固定格式和模式的数据，如文本、图片、音频、视频等；

业务领域维度中包括：变电站数据，配电设备数据，电力线路数据，用户用电数据，电能质量数据，运维数据等。

作为本技术方案的进一步改进，所述步骤S2.1中，数据层构建中多源异构数据融合时，包含以下三个关键方面的工作：数据关联，多源异构数据估计，数据源管理；具体包括：

首先，通过数据关联的技术，将来自不同数据源的配电网数据进行关联，找出彼此之间的关系，确保它们反映同一配电网实体或事件，避免数据冗余和重复；

其次，采用多源数据估计技术，将来自不同数据源的信息进行综合，以改进对配电网目标的估计；

此外，数据源管理技术在数据融合过程中也起着重要作用。通过给定数据源的环境状态，对数据采集和处理源进行合理的分配，实现操作成本的优化；

对于配电网多源数据，可以根据不同传感器的位置、性能等因素，灵活地分配任务，提高数据采集和处理的效率和性能。

作为本技术方案的进一步改进，所述步骤S2.2中，数据层构建中数据预处理包括如下步骤：

首先对结构化数据：使用数据清洗工具进行数据清洗去除重复数据、缺失数据和错误数据，确保数据的准确性和完整性；通过滤波等技术处理噪声数据，进行数据去噪；并将数据转换统一格式，进行数据规范化；

其次，对非结构化数据：使用OCR技术、python中的docx2txt、PyPDF2库或文本提取工具将非结构化数据转换为可处理的文本格式；

依据BIO标注法对数据的各字符进行标注，该标注语料作为BERT词向量转换层的输入原始语料；

并利用预训练模型BERT对标注的原始语料映射为动态的字向量；该步骤作为下一层网络的输入；

最后，用中文分词工具对中文文本进行分词，将连续的中文文本切分成有意义的词语。

作为本技术方案的进一步改进，所述步骤S2.3中，数据层构建中进行知识抽取包括实体抽取、关系抽取、事件抽取；具体包括如下步骤：

Step1、采用规则和基于深度学习的知识抽取方式，基于规则的关键信息提取具有范围精准、准确性高的优点；利用此优点，编写一定的规则匹配出少而精确的对象，作为后续的语料导入；

Step2、此步将启用序列标注继续抽取关键信息，而步骤Step1输出的部分结果即可作为训练语料替代人工注入语料的过程；

Step3、利用步骤Step2输出的训练语料，基于BERT-BiLSTM-CRF算法，进行知识图谱建模；

Step4、利用步骤Step3的模型对步骤Step2中剩余的语料部分进行判断；如果模型判断结果显示模型达不到标准，则返回步骤Step1补充更多的语料；直到模型自动判断达到标准，跳出迭代，并将最近一次生成的模型作为最终模型。

作为本技术方案的进一步改进，所述步骤S2.4中，数据层构建中知识融合是将含义相同的多个实体用单一实体进行表示，即A＝{a₁，a₂，a₃，...，a_m}，其中a₁～a_m表示含义相同的m个实体，A为融合后的实体；用文本聚类算法进行知识融合，即遍历每个实体，计算该实体与其余实体的文本相似度，将相似度高于阈值的实体合并；实体语义相似度T计算公式如式所示：

式中，A_i、B_i分别为A、B两个实体名称经过分词后得到的词频向量，n为分词个数；语义相似度T越高，两个实体相似度越高；

最终，经过提取“实体—关系—实体”的三元组，将这些知识元素进行有效的编码和表示，从而构建了配电网多源异构数据知识图谱；这个知识图谱将配电网信息有机地组织在一起，以图形结构的形式呈现；将构建好的知识图谱存储在Neo4j图数据库中以便于对知识的存储和查询。

作为本技术方案的进一步改进，所述步骤S3.1中，计量管理应用中实时监测与预警具体包括：

首先，需要将来自不同系统和数据源的配电网多源异构数据进行接入；这些数据源可能包括营销管理系统、计量自动化系统、智能周转柜、差错防控系统等；需要进行数据预处理和融合，将其转化为统一的数据格式；

接入的数据需要进行实时传输和处理；使用数据流处理技术，确保数据能够及时传输到知识图谱系统，并进行实时处理；

在知识图谱中，实时监测计量设备状态的逻辑通过定义规则和查询语句实现。

作为本技术方案的进一步改进，所述步骤S3.2中，计量管理应用中异常数据排查时，包括：

在模式层构建阶段，定义计量管理中的异常数据类型；这可能包括表计离线、电压异常、电流异常、抄表异常、欠费等；

确定异常数据的特征和属性，以便后续的知识抽取和识别。

本发明的目的之二在于，提供了一种多源异构数据知识图谱的构建平台装置，包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序，处理器用于执行计算机程序时实现上述的配电网多源异构数据知识图谱的构建方法的步骤。

本发明的目的之三在于，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的配电网多源异构数据知识图谱的构建方法的步骤。

与现有技术相比，本发明的有益效果：

1.该配电网多源异构数据知识图谱的构建方法中，提供了一种高效、智能的方式来整合和管理配电网多源异构数据，为配电网的运行和管理提供了更加全面、准确和智能化的支持；并可以与各业务系统进行数据融合、应用集成；可以有效整合配电网多源异构数据，并构建具有结构性的知识图谱，在计量管理业务方面，配电网多源异构数据知识图谱有显著应用，最终实现对配电网知识的组织和管理，促进电网的可持续发展；

2.该配电网多源异构数据知识图谱的构建方法中，通过将该知识图谱与计量管理业务场景相结合，可以实现以下优化：自动排查计量类异常数据、提高异常数据处理效率、优化决策支持、数据集成和应用集成；通过知识图谱的交互式展示和数据质量管理平台的应用，实现了自动排查计量类异常数据，直观展现异常分析结果并预警，并自动同步发送超期预警信息至对应工作负责人；

3.该配电网多源异构数据知识图谱的构建方法中，在计量管理领域具有重要的应用价值，它为配电网管理提供了强大的数据支持和决策依据，推动整个配电网系统的优化发展；同时，通过自动化处理异常数据和预警功能，有效降低了计量管理部门的工作负担，提高了管理效率和数据处理速度。

附图说明

图1为本发明中示例性的配电网多源异构数据知识图谱构建方法的流程图；

图2为本发明中示例性的配电网多源异构数据类型图；

图3为本发明中示例性的利用BERT模型进行文本词向量生成示意图；

图4为本发明中示例性的用BERT-BiLSTM-CRF模型的知识图谱构建方法示意图；

图5为本发明中示例性的电子计算机平台装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1-图4所示，本实施例提供了配电网多源异构数据知识图谱的构建方法，该在计量管理领域具有重要的应用价值，它为配电网管理提供了强大的数据支持和决策依据，推动整个配电网系统的优化发展。同时，通过自动化处理异常数据和预警功能，有效降低了计量管理部门的工作负担，提高了管理效率和数据处理速度；如图1，该方法具体包括模式层构建、数据层构建、计量管理应用三个部分。

第一部分S1、模式层构建：模式层构建是配电网多源异构数据知识图谱构建方法中的关键步骤之一，通过采用自顶向下的方式，对输电网知识内容体系框架进行归纳和分析；通过详细分析配电网多源异构数据进而从输电层、变电层、配电网层和用户层等方向出发，从而准确定义实体类型、属性类型和实体关系，构建配电网知识的组织框架；具体为：

S1.2、详细分析配电网多源异构数据：在了解输电网知识内容后，对配电网多源异构数据进行详细分析；如图2所示，这包括从不同来源获取的各种数据，如监测数据、设备信息、操作记录等；

本步骤中，在模式层构建中定义实体类型、属性类型和实体关系；具体为：

实体关系表示实体之间的关联关系，如连接、属于等；

S1.4、构建配电网知识的组织框架：在确定实体类型、属性类型和实体关系后，通过将它们组织起来构建配电网知识的组织框架。

第二部分S2、数据层构建：配电网多源异构数据知识图谱可用G＝(E，R，S)表示，其中E为知识库中的实体集合，R为关系集合，S为“实体—关系—实体”三元组知识集合。数据层构建即在模式层组织框架指导下，从配电网多源异构数据中提取所需实体及关系；数据层构建的关键技术包括多源异构数据融合、数据预处理、知识抽取、知识融合和知识存储与更新；具体为：

本步骤中，数据层构建中多源异构数据接入时，多源异构数据可以从不同维度进行划分，包括时间维度、数据结构维度和业务领域维度；具体包括：

进一步地，数据层构建中多源异构数据融合时，包含以下三个关键方面的工作：数据关联，多源异构数据估计，数据源管理；具体包括：

其次，采用多源数据估计技术，将来自不同数据源的信息进行综合，以改进对配电网目标的估计；例如，可以将来自不同传感器的电流、电压等数据结合起来，获得更准确的电网状态估计结果，提高配电网数据的精度和可靠性；

本步骤中，数据层构建中数据预处理包括如下步骤：

首先对结构化数据：使用数据清洗工具(如Python中的pandas库)进行数据清洗去除重复数据、缺失数据和错误数据，确保数据的准确性和完整性；通过滤波等技术处理噪声数据，进行数据去噪；并将数据转换统一格式，进行数据规范化；

其次，对非结构化数据：使用OCR技术、python中的docx2txt、PyPDF2库或文本提取工具(如Tesseract、PDFMiner等)将非结构化数据转换为可处理的文本格式；

并利用预训练模型BERT对标注的原始语料映射为动态的字向量，如图3所示；该步骤作为下一层网络的输入；

本步骤中，数据层构建中进行知识抽取包括实体抽取、关系抽取、事件抽取；具体包括如下步骤：

Step2、此步将启用序列标注继续抽取关键信息，而步骤Step1输出的部分结果(如70％)即可作为训练语料替代人工注入语料的过程；

Step3、利用步骤Step2输出的训练语料，基于BERT-BiLSTM-CRF算法，进行知识图谱建模，如图4所示；

本步骤中，数据层构建中知识融合是将含义相同的多个实体用单一实体进行表示，即A＝{a₁，a₂，a₃，...，a_m}，其中a₁～a_m表示含义相同的m个实体，A为融合后的实体；用文本聚类算法进行知识融合，即遍历每个实体，计算该实体与其余实体的文本相似度，将相似度高于阈值的实体合并；实体语义相似度T计算公式如式所示：

最终，经过提取“实体—关系—实体”的三元组，将这些知识元素进行有效的编码和表示，从而构建了配电网多源异构数据知识图谱；这个知识图谱将配电网信息有机地组织在一起，以图形结构的形式呈现；为了方便对知识的存储和查询，我们将构建好的知识图谱存储在Neo4j图数据库中以便于对知识的存储和查询。在这个数据库中，我们可以高效地检索、更新和扩展配电网的知识，为配电网的运行和管理提供更加便捷和准确的支持。

S2.5、知识存储与更新：最后，利用Neo4j图数据库等知识存储技术将抽取和融合后的知识存储起来，形成配电网多源异构数据知识图谱；同时，定期更新知识图谱，以保持其与实际配电网数据的一致性和准确性。

第三部分S3、计量管理应用：利用Neo4j图数据库对配电网知识进行存储，可以形成一个完整且结构性的知识图谱，该图谱包含了配电网领域的各类实体、属性和关系的信息。

其中，Neo4j是一种图数据库，它以图的方式存储数据，其中节点表示实体，边表示实体之间的关系；这种数据存储方式非常适合表达复杂的关联关系，因此非常适用于配电网多源异构数据知识图谱的存储，在计量管理业务场景中具有重要的应用价值。它能够整合不同业务系统的数据，为管理人员提供全面、准确的决策支持和业务分析，帮助优化配电网运营管理，并推动整个配电网系统的优化发展。具体为：

本步骤中，计量管理应用中实时监测与预警具体包括：

在知识图谱中，实时监测计量设备状态的逻辑通过定义规则和查询语句实现。例如，可以设置规则来监测计量设备电流是否超过预设阈值，或者表计是否出现异常数据。当满足预警条件时，系统会自动触发预警机制，发送预警信息给相关人员，通知其及时处理异常情况。

本步骤中，计量管理应用中异常数据排查时，包括：

确定异常数据的特征和属性，以便后续的知识抽取和识别。

S3.3、数据质量管理：通过对数据层构建过程中的数据预处理和知识抽取，保证数据的质量和一致性；知识图谱中的数据可以作为数据质量管理平台的参考。

本实施例中，在上述方法的实施过程中，首先对实体进行标注，将抽取出的实体与相应的实体类型进行关联。例如，将提取出的电缆实体标注为“电缆”类型。

其次，对关系进行标注，将抽取出的关系与相应的关系类型进行关联。例如，将识别出的连接关系标注为“连接”类型。

然后，通过使用自然语言处理技术，对结构化和半结构化数据进行实体抽取。例如，通过识别特定的名称和属性信息，将数据中的实体(如电缆、变压器)提取出来。

再次，采用关系抽取算法，从数据中识别实体之间的关系。例如，通过分析数据中的连接、属于等关键词，确定实体之间的关联关系。

而后，将从不同数据源和不同知识抽取方法得到的知识进行融合，消除重复和冲突，形成一致的知识表示。知识融合有助于提高知识图谱的完整性和一致性。

最后，将标注和表示好的“实体—关系—实体”的三元组存储到图数据库中，如Neo4j。图数据库的优势在于能够高效地存储实体和实体之间的关系，以图形结构的形式呈现，便于查询和分析。

进一步地，将实体和关系导入到图数据库中，形成初始的知识图谱。在此阶段，图谱可能并不完整，还需进一步完善和扩展。

根据实际需求，对图谱进行扩充和更新。可以通过定期的数据采集和处理，持续更新图谱中的实体和关系信息，确保其与实际配电网数据保持一致性和准确性。

利用图数据库提供的查询和分析功能，对知识图谱进行探索和挖掘。可以通过查询特定实体的关联关系，分析配电网的拓扑结构，发现潜在的问题和优化方案。

使用可视化工具，将知识图谱以图形化形式展示。通过图形化展示，可以更直观地理解配电网中的实体和关系，帮助决策者做出更明智的决策。

具体地，本实施例应用于计量管理业务，通过知识图谱的交互式展示和数据质量管理平台的应用，可以自动排查计量类异常数据。这包括表计离线、电压、电流异常等问题。系统能够自动识别异常数据，并直观展现异常分析结果和预警信息，使得计量管理人员能够及时发现和解决问题。

进而，配电网多源异构数据知识图谱中的数据融合和知识抽取技术，使得从多个数据源中提取计量管理所需的信息变得高效且准确。这将帮助计量管理部门在处理大量数据时更加高效，并且降低了数据处理的错误率。

最后，配电网多源异构数据知识图谱的构建提供了对输电网、变电层、配电网和用户层的详细分析，从而准确定义实体类型、属性类型和实体关系。这将为计量管理部门提供全面、准确的决策支持，使得对公变、专变、低压用户表计失压、失流、断相、反极性、抄表异常、欠费、计量档案错误等情况的识别统计分析更加精准。

同时，通过与各业务系统的数据融合和应用集成，配电网多源异构数据知识图谱能够更好地与营销管理系统、计量自动化系统、智能周转柜、差错防控系统、数据质量管理平台等进行数据共享和交互，进一步提升数据质量管理效率。

综上所述，本发明通过深入分析配电网多源异构数据，并应用知识图谱构建方法，实现了对配电网知识的有效组织和管理。通过模式层构建，从输电网到用户层，对配电网知识进行归纳和分析，确定实体类型、属性类型和实体关系，构建了配电网知识的组织框架。在数据层构建中，采用多源异构数据融合技术将来自不同数据源的配电网数据进行关联和整合，形成知识图谱的基础。随后，通过数据预处理，清洗、去噪、规范化多源异构数据，确保数据质量和一致性。使用知识抽取技术，从预处理后的数据中提取实体和关系信息，并将其转化为“实体—关系—实体”的三元组形式，形成知识图谱的基本结构。知识融合的过程消除了不同数据源和抽取方法的重复和冲突，提高了知识图谱的完整性和一致性。

通过以上构建过程，本发明获得了配电网多源异构数据知识图谱，该知识图谱以图形结构的形式呈现了配电网信息，并存储在Neo4j等图数据库中。这使得知识的存储、查询和更新变得高效便捷，为配电网的运行和管理提供了有力的支持。知识图谱的应用能够探索和挖掘配电网的知识，支持智能化决策和优化，提供智能化的用户服务，快速故障排查和响应，实现了配电网管理的智能化和优化。同时，图谱的维护与更新确保了知识图谱的持续有效，不断优化其结构和性能，保持与实际数据的一致性和准确性。

在计量管理业务方面，本方案的配电网多源异构数据知识图谱有显著应用。通过知识图谱的交互式展示和数据质量管理平台的应用，实现了自动排查计量类异常数据，直观展现异常分析结果并预警，并自动同步发送超期预警信息至对应工作负责人。同时，通过整合营销管理系统、计量自动化系统、智能周转柜、差错防控系统、数据质量管理平台等系统数据，实现了对公变、专变、低压用户表计失压、失流、断相、反极性、抄表异常、欠费、计量档案错误等情况的识别统计分析。这些功能和应用为计量管理部门提供了全面、准确的决策支持和业务分析，帮助优化配电网运营管理，提升数据质量管理的效率。

总体来说，本方案通过深入分析配电网多源异构数据，构建了一个完整、高效、准确的知识图谱，为配电网的管理和运行提供了全方位的支持和指导，具有广泛的应用前景和经济效益。

如图5所示，本实施例还提供了一种多源异构数据知识图谱的构建平台装置，该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。

处理器包括一个或一个以上处理核心，处理器通过总线与存储器相连，存储器用于存储程序指令，处理器执行存储器中的程序指令时实现上述的配电网多源异构数据知识图谱的构建方法的步骤。

可选的，存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随时存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

此外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的配电网多源异构数据知识图谱的构建方法的步骤。

可选的，本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面配电网多源异构数据知识图谱的构建方法的步骤。

本领域普通技术人员可以理解，实现上述实施例的全部或部分步骤的过程可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.配电网多源异构数据知识图谱的构建方法，其特征在于，包括如下步骤：

S1、模式层构建：通过采用自顶向下的方式，对输电网知识内容体系框架进行归纳和分析；通过详细分析配电网多源异构数据进而从输电层、变电层、配电网层和用户层的方向出发，从而准确定义实体类型、属性类型和实体关系，构建配电网知识的组织框架；具体为：

S1.2、详细分析配电网多源异构数据：在了解输电网知识内容后，对配电网多源异构数据进行详细分析；

S2.2、数据预处理：对融合后的多源异构数据进行预处理，包括对结构化、半结构化数据清洗、去噪、规范化的操作，以确保数据的质量和一致性；对非结构化数据进行结构化转化、中文分词、文本标注、构建词向量模型；

S2.3、知识抽取：采用规则和基于深度学习的知识抽取方式从预处理后的数据中提取所需的实体和关系信息；

S2.4、知识融合：将从不同数据源和不同知识抽取方法得到的知识进行融合，消除重复和冲突，形成一致的知识表示；

S2.5、知识存储与更新：最后，利用Neo4j图数据库的知识存储技术将抽取和融合后的知识存储起来，形成配电网多源异构数据知识图谱；同时，定期更新知识图谱；

S3、计量管理应用：利用Neo4j图数据库对配电网知识进行存储，可以形成一个完整且结构性的知识图谱，该图谱包含了配电网领域的各类实体、属性和关系的信息；具体为：

2.根据权利要求1所述的配电网多源异构数据知识图谱的构建方法，其特征在于：所述步骤S1.3中，在模式层构建中定义实体类型、属性类型和实体关系；具体为：

实体类型指配电网中的各种具体对象；

属性类型则是这些实体的特征和属性；

实体关系表示实体之间的关联关系。

3.根据权利要求1所述的配电网多源异构数据知识图谱的构建方法，其特征在于：所述步骤S2.1中，数据层构建中多源异构数据接入时，多源异构数据可以从不同维度进行划分，包括时间维度、数据结构维度和业务领域维度；具体包括：

时间维度中，实时数据：即时采集的数据，反映配电网设备、线路、负荷的实时状态的数据；历史数据：过去一段时间内采集的数据，用于分析配电网的运行历史和趋势；预测数据：基于历史数据和模型进行预测的数据，用于预测未来的电力需求和负荷情况；

数据结构维度中，结构化数据：采用固定格式和模式存储的数据；半结构化数据：具有一定结构，但不符合传统关系数据库表格形式的数据；非结构化数据：没有固定格式和模式的数据；

业务领域维度中包括：变电站数据，配电设备数据，电力线路数据，用户用电数据，电能质量数据，运维数据。

4.根据权利要求3所述的配电网多源异构数据知识图谱的构建方法，其特征在于：所述步骤S2.1中，数据层构建中多源异构数据融合时，包含以下三个关键方面的工作：数据关联，多源异构数据估计，数据源管理；具体包括：

此外，数据源管理技术通过给定数据源的环境状态，对数据采集和处理源进行合理的分配，实现操作成本的优化；

对于配电网多源数据，可以根据不同传感器的位置、性能的因素，灵活地分配任务，提高数据采集和处理的效率和性能。

5.根据权利要求1所述的配电网多源异构数据知识图谱的构建方法，其特征在于：所述步骤S2.2中，数据层构建中数据预处理包括如下步骤：

首先对结构化数据：使用数据清洗工具进行数据清洗去除重复数据、缺失数据和错误数据，确保数据的准确性和完整性；通过滤波的技术处理噪声数据，进行数据去噪；并将数据转换统一格式，进行数据规范化；

并利用预训练模型BERT对标注的原始语料映射为动态的字向量；

6.根据权利要求1所述的配电网多源异构数据知识图谱的构建方法，其特征在于：所述步骤S2.3中，数据层构建中进行知识抽取包括实体抽取、关系抽取、事件抽取；具体包括如下步骤：

Step2、启用序列标注继续抽取关键信息，而步骤Step1输出的部分结果即可作为训练语料替代人工注入语料的过程；

7.根据权利要求1所述的配电网多源异构数据知识图谱的构建方法，其特征在于：所述步骤S2.4中，数据层构建中知识融合是将含义相同的多个实体用单一实体进行表示，即A＝{a₁，a₂，a₃，...，a_m}，其中a₁～a_m表示含义相同的m个实体，A为融合后的实体；用文本聚类算法进行知识融合，即遍历每个实体，计算该实体与其余实体的文本相似度，将相似度高于阈值的实体合并；实体语义相似度T计算公式如式所示：

8.根据权利要求1所述的配电网多源异构数据知识图谱的构建方法，其特征在于：所述步骤S3.1中，计量管理应用中实时监测与预警具体包括：

首先，需要将来自不同系统和数据源的配电网多源异构数据进行接入；需要进行数据预处理和融合，将其转化为统一的数据格式；

9.根据权利要求1所述的配电网多源异构数据知识图谱的构建方法，其特征在于：所述步骤S3.2中，计量管理应用中异常数据排查时，包括：

在模式层构建阶段，定义计量管理中的异常数据类型；

确定异常数据的特征和属性，以便后续的知识抽取和识别。