CN114090787A

CN114090787A - 一种基于互联网电力政策信息的知识图谱构建方法

Info

Publication number: CN114090787A
Application number: CN202111346515.3A
Authority: CN
Inventors: 王翀; 查易艺; 张明明; 徐青山; 许梦晗; 林杉; 宋玉
Original assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-25

Abstract

本发明提供一种基于互联网电力政策信息的知识图谱构建方法，包括如下步骤：S1、采集互联网上的电力领域知识，结构化存储电力数据，构建原始的电力领域知识数据库；S2、构建电力领域知识专用词典，对采集到的互联网上的电力领域知识用基于动态规划的维特比算法进行分词处理，并根据电力领域知识专用词典进行词性标注；S3、基于TextRank算法对文本词、句进行权重判别，提取文本关键词和关键句；S4、根据分词词性提取文中词句中的实体信息，将获取的实体信息、提取的关键词和关键句映射到一个语义空间，使用图数据库对实体信息及其关系进行存储，形成知识图谱。本发明可有效处理电力专业领域政策信息获取和分析的问题，提高电网决策智能化水平。

Description

一种基于互联网电力政策信息的知识图谱构建方法

技术领域

本发明属于电力领域决策辅助领域，具体涉及一种基于互联网电力政策信息的知识图谱构建方法。

背景技术

随着全世界对环境保护关注的日趋上升，以及各国对能源管理创新与改革的迫切需求，电力行业面临着节能环保和信息化的变革要求，对传统电力系统的改造和升级显得刻不容缓。对电力系统而言，构建电力知识图谱以及更新知识图谱的重要性表现在：一方面，电力系统每天都在产生新的知识，电力系统的调度和决策的高效执行必须建立在对这些新的知识进行不断的进行学习和获取的基础上。对于这种不断出现的新的知识，知识图谱可以不断的将其结构化，并扩充到知识库中，从而为电力系统各类业务提供参考。另一方面，电力系统旧有的知识每天都在变化，可能是实体的相关属性值发生了变化，或者是实体之间的链接关系发生改变。电力系统的知识不是一成不变的，而是处在不断变化的过程中，电力系统这种知识的不断产生和变化凸显了不断更新和完善知识图谱的重要性。

对于类似的信息处理问题，在通用领域知识图谱表现良好，而对于电力这一专业领域的信息分析而言，常用的词典无法较准确地分辨一些专有名词和概念，这就产生了分词已经确定实体关系的局限性。为此，将知识图谱引入互联网电力领域政策信息分析场景，提出一种基于互联网电力政策信息的知识图谱构建方法，对互联网上的电力领域知识做采集处理，使从结构化数据与非结构化文档中抽取各类知识成为可能。

发明内容

本发明要解决的技术问题是提供一种基于互联网电力政策信息的知识图谱构建方法，在较少牺牲实体抽取精度前提下节约了存储量和运算量，有效节约电力政策信息辅助决策所需的检索与分析时间，长时间的数据记录为后续的决策奠定了良好的基础。

为解决上述技术问题，本发明的实施例提供一种基于互联网电力政策信息的知识图谱构建方法，包括如下步骤：

S1、采集互联网上的电力领域知识，结构化存储电力数据，构建原始的电力领域知识数据库；

S2、构建电力领域知识专用词典，以步骤S1中采集到的互联网上的电力领域知识为文本用基于动态规划的维特比算法进行分词处理，并根据电力领域知识专用词典进行词性标注，得到文本词、文本句；

S3、基于TextRank算法对步骤S2得到的文本词和文本句进行权重判别，提取文本关键词和关键句；

S4、根据分词词性提取文中词和文本句中的实体信息，将获取的实体信息和步骤S3提取的关键词、关键句映射到一个语义空间，使用图数据库对实体信息及其关系进行存储，形成基于互联网电力政策信息的知识图谱。

其中，步骤S1的具体步骤包括：

S1.1、选取电力领域政策信息的可信网络数据源；

S1.2、对网络数据源上的文本信息通过聚焦网络爬虫进行抓取，并根据系统获取信息的需求设计上下层提取器对网络数据源进行判重和置信度分析，降低信息采集系统的运算量和存储量；

S1.3、根据采集到信息的不同数据作结构化存储，构建原始的电力领域知识数据库。

其中，步骤S2的具体步骤包括：

S2.1、收集多篇语料文档，通过人工手工分词，统计人工分词后的词频：①统计分词后的每个词出现的频率，得到一元核心词典；②统计两个词两两相邻出现的频率，得到二元核心词典；

根据贝叶斯公式计算词A和词B在语料库中共同出现的频率和词B在语料库中出现的频率，基于这两个频率计算出在给定词B的条件下，下一个词是A的概率；

贝叶斯公式如下：

P(A|B)＝P(A，B)P(B)＝count(A，B)count(B)；

其中，count(A，B)表示词A和词B在语料库中共同出现的频率；count(B)表示词B在语料库中出现的频率；

S2.2、Verterbi模型通过比较不同分词结果出现的可能性并选择最大者进行分词处理；

S2.3、根据通用词典和电力领域专用词典组成的词库，生成所有字可能组成的词网，通过遍历上述词网获取从一个词到另一个词的可能性，选择可能性最大的作为分词的结果，并根据电力领域知识专用词典进行词性标注。

其中，步骤S3包括：

S3.1、关键词的提取

将文本看作图，单词看作结点V_i，选取半径为2的窗口，每个单词V_i与自身前后固定窗口内的单词V_j连接，初始化时每个结点的权重TR(V_i)都是1，以迭代的方式更新每个结点的权重，权重最高的单词即是关键词；

每次迭代权重的公式如下：

其中，W_ji是单词V_j和V_i间的连接权重，一般设置为1；W_jk是单词V_j和V_k间的连接权重，一般设置为1；d是阻尼系数，一般设置为0.85；TR(V_j)是单词V_j的权重；

S3.2、关键句的提取

以句子作为结点s_i，考察句子间的相似度，相似度的计算公式如下：

其中，p_k为句子中的单词节点；

式中，分子是同时出现在两个句子中的同一个词的个数，分母是对句子中词的个数求对数之和；

如果两个句子有相似性，认为这两个句子对应的节点之间存在一条无向有权边，以迭代的方式更新每个结点的权重，句子的迭代公式如下：

其中，TR(S_i)为结点S_i的权重。

其中，步骤S4的具体步骤包括：

基于Verterbi模型对文本词的词性标注并对特定实体信息如机构和人名作提取，并将其与文本源作为核心结点构建知识图谱。将实体和实体间的关系映射到语义空间，采用向量的方法来表示实体和关系，导入Neo4j图数据库中保存为基于互联网电力政策信息的知识图谱。

本发明的上述技术方案的有益效果如下：

1、本发明将知识图谱引入互联网电力领域政策信息分析场景，提出了一种基于互联网电力政策信息的知识图谱构建方法，对互联网上的电力领域知识做采集处理，使从结构化数据与非结构化文档中抽取各类知识成为可能。

2、本发明采用知识图谱技术提供的图式的数据存储方式，相比传统存储方式，数据调取速度更快，实时图计算引擎真正实现人机互动的实时响应，做到即时决策。

附图说明

图1为本发明的基于互联网电力政策信息的知识图谱构建流程图；

图2为Verterbi模型结合电力领域专用词典分词流程图；

图3为基于TextRank算法的互联网电力政策信息关键词句提取原理图；

图4为基于互联网电力政策信息知识图谱结点示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明提供一种基于互联网电力政策信息的知识图谱构建方法，包括如下步骤：

步骤S1中考虑到互联网上电力领域政策信息的来自新闻发布平台、企业官网、政府机构公告和行业动态等不同的数据源，先采用对应的爬虫模块对知识作基础的采集，即分为源地址、可信度、事件标题、发布时间和具体内容，通过源地址作第一次数据去重，通过事件标题进一步过滤重复信息以节约运算量和存储规模。将采集到的数据结构化存储在关系型数据库MySQL中，构建出原始的电力领域知识数据库。

步骤S2中，传统的分词方式无法有效应对专有领域词汇划分的问题，本步骤采用基于多词典的Verterbi模型分词方式对步骤S1得到的文本信息进行分词处理。

收集了若干篇语料文档，通过人工手工分词，统计人工分词后的词频：①统计分词后的每个词出现的频率，得到一元核心词典；②统计两个词两两相邻出现的频率，得到二元核心词典。根据贝叶斯公式计算词A和词B在语料库中共同出现的频率和词B在语料库中出现的频率。基于这两个频率计算出在给定词B的条件下，下一个词是A的概率。

Verterbi模型通过比较不同分词结果出现的可能性并选择最大者来实现分词。根据词库，生成所有所有字可能组成的词(词网)，通过遍历上述词(词网)获取从一个词到另一个词的可能性，选择可能性最大的作为分词的结果，并标注分词所属词性。

S3、基于TextRank算法对文本词和文本句进行权重判别，提取文本关键词和关键句；

常用的提取文本关键词、句的方法主要是TF-IDF、TextRank和Word2Vec词向量聚类。TF-IDF选取词频最高作为关键词，TextRank选取关联最强作为关键词，Word2Vec词向量聚类选取聚类中心作为关键词，考虑到专业领域政策信息中高频词和关键词的关联度不高，Word2Vec在单文档中直接应用表现较差。

本步骤选取TextRank来完成对文本关键词句的提取，将步骤S1中获取的文本信息分词后过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词。构建候选关键词图G＝(V，E)，其中，V为保留词构成的节点集，选取半径为2的窗口，每个单词V_i与自身前后固定窗口内的单词V_j连接，初始化时每个结点的权重TR(V_i)都是1，以迭代的方式更新每个结点的权重，每次迭代权重的公式如下：

其中，W_ji是单词V_j和V_i间的连接权重，一般设置为1；W_jk是单词V_j和V_k间的连接权重，一般设置为1；d是阻尼系数，一般设置为0.85；TR(V_j)是单词V_j的权重。最后权重最高的单词即是关键词。

关键句的提取原理与关键词的类似，以句子作为结点S_i，但考察的是句子间的相似度，相似度的计算公式如下：

其中，p_k为句子中的单词节点；

式中，分子是同时出现在两个句子中的同一个词的个数，分母是对句子中词的个数求对数之和。

如果两个句子有相似性，那么认为这两个句子对应的节点之间存在一条无向有权边，以迭代的方式更新每个结点的权重，句子的迭代公式如下：

其中，TR(S_i)为结点S_i的权重。

基于步骤S2中Verterbi模型对文本单词的词性标注对特定实体信息如机构和人名作提取，并将其与文本源作为核心结点构建知识图谱。所属关系包含机构-事件、人名-事件、事件-事件、人名-机构和机构-机构。将步骤S3中得到的关键词句作为事件的信息摘要，方便决策者快速阅读核心内容并进行关联检索。将实体和实体间的关系映射到语义空间，采用向量的方法来表示实体和关系，导入Neo4j图数据库中保存为基于互联网电力政策信息的知识图谱。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于互联网电力政策信息的知识图谱构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法，其特征在于，步骤S1的具体步骤包括：

S1.1、选取电力领域政策信息的可信网络数据源；

3.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法，其特征在于，步骤S2的具体步骤包括：

贝叶斯公式如下：

P(A|B)＝P(A，B)P(B)＝count(A，B)count(B)；

其中，count(A,B)表示词A和词B在语料库中共同出现的频率；count(B)表示词B在语料库中出现的频率；

S2.3、根据词库，生成所有字可能组成的词网，通过遍历上述词网获取从一个词到另一个词的可能性，选择可能性最大的作为分词的结果，并根据电力领域知识专用词典进行词性标注。

4.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法，其特征在于，步骤S3包括：

S3.1、关键词的提取

每次迭代权重的公式如下：

其中，W_ji是单词V_j和V_i间的连接权重，设置为1；W_jk是单词V_j和V_k间的连接权重，设置为1；d是阻尼系数，设置为0.85；TR(V_j)是单词V_j的权重；

S3.2、关键句的提取

其中，p_k为句子中的单词节点；

其中，TR(S_i)为结点S_i的权重。

5.根据权利要求1所述的基于互联网电力政策信息的知识图谱构建方法，其特征在于，步骤S4的具体步骤包括：

基于Verterbi模型对文本词的词性标注并对特定实体信息作提取，将实体和实体间的关系映射到语义空间，采用向量的方法来表示实体和关系，导入Neo4j图数据库中保存为基于互联网电力政策信息的知识图谱。