CN111160022B

CN111160022B - 一种基于改进skip-gram模型的电网调度日志词向量提取方法

Info

Publication number: CN111160022B
Application number: CN201911263772.3A
Authority: CN
Inventors: 阎博; 曹宇; 蓝海波; 张鹏; 屈中山; 韩锴; 曹良晶; 李膨源; 徐忱; 刘慧勇; 张敬伟
Original assignee: State Grid Corp of China SGCC; Beijing Kedong Electric Power Control System Co Ltd; State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing Kedong Electric Power Control System Co Ltd; State Grid Jibei Electric Power Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2024-06-14
Anticipated expiration: 2039-12-10
Also published as: CN111160022A

Abstract

本发明公开了一种基于改进skip‑gram模型的电网调度日志词向量提取方法，所述方法包括：获取电网调度日志；对所述电网调度日志进行清洗处理；对所述清洗后的电网调度日志进行分词操作；通过改进skip‑gram模型将分词操作后的电网调度日志转换为词向量并提取。本发明根据电网调度日志的特点，对传统的skip‑gram模型进行改进，可以得到更为合理的词向量，使用所生成的词向量对电网调度日志进行分类可以提高分类的准确率。

Description

一种基于改进skip-gram模型的电网调度日志词向量提取方法

技术领域

本发明涉及电力系统技术领域，尤其涉及一种基于改进skip-gram模型的电网调度日志词向量提取方法。

背景技术

随着我国经济的快速发展，用电需求持续增长，发电装机逐年增长，电力网络规格不断扩大，网络结构也日趋复杂。电网调度工作是保证电网安全、稳定运行的关键，如何加强对电网调度运行的监控，提高电力调度的管理水平，是电力企业当前亟需解决的问题。

电网调度日志是反映电网运行情况的重要数据来源，是监控电网日常运行的重要手段。电网在运行过程中，时刻都会产生大量的调度日志。通过对这些日志进行内容分析与数据挖掘，电网调度人员可以获取大量有价值的、反映电网运行状态的信息。电网调度日志分类是对日志文本分析挖掘的一个重要应用，当前电网调度日志分类方法繁多，包括朴素贝叶斯方法、支持向量机、神经网络模型等。但是不论是何种分类方法，在进行模型的训练与分类之前，都需要对调度日志文本进行预处理，将其转换为向量的形式。

词向量可以直接对词之间的相似度进行刻画，与传统的独热向量相比，词向量可以缓解维数灾难的问题，并且由于词向量的学习是通过对上下文以及上下文与目标词之间的关系进行建模的，因此词向量保留了更丰富的上下文语义信息。目前使用词向量进行日志分析任务中取得了较好的效果，但主要集中在互联网领域，针对于电网调度日志的特征提取和词向量生成的工作较少。并且相较于传统的互联网系统日志，电网调度日志记录情况复杂多样，包含信息丰富，且来源广泛，现有技术无法对电网调度日志进行准确词向量提取，传统的词向量提取方法并不能很好的适应电网调度日志的特点。

发明内容

针对现有技术的不足，本发明的目的在于提供一种基于改进skip-gram模型的电网调度日志词向量提取方法，以解决现有技术中存在的词向量提取方法准确性较低的问题。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于改进skip-gram模型的电网调度日志词向量提取方法，所述方法包括：

获取电网调度日志；

对所述电网调度日志进行清洗处理；

对所述清洗后的电网调度日志进行分词操作；

通过改进skip-gram模型将分词操作后的电网调度日志转换为词向量。

进一步的，通过LSTM模型和专家系统的结合对调度日志进行分词操作。

进一步的，所述改进skip-gram模型的训练过程如下：

将分词结果中的所有词语转换为one-hot词向量，构建训练样本；

建立改进skip-gram模型的输入层、隐藏层和输出层；

通过输入训练样本，对改进skip-gram模型进行训练；

根据训练结果，获取训练完成后改进skip-gram模型的隐层权重，即为最后所需要的词向量。

进一步的，将传统skip-gram模型的输出层函数由softmax改进为分层softmax，以满足电网调度日志分类的实际业务需求。

进一步的，所述隐藏层每个输出的词汇单独创建一个输出矩阵。

进一步的，所述电网调度日志转换的方法包括：

获取调度日志的词频；

根据所述词频的大小对调度日志在Huffman树上的位置进行分类。

一种基于改进skip-gram模型的电网调度日志词向量提取系统，所述系统包括：

获取模块：用于获取电网调度日志；

清洗模块：用于对所述电网调度日志进行清洗处理；；

分词模块：用于对所述清洗后的电网调度日志进行分词操作；

转换模块：用于通过改进skip-gram模型将分词操作后的电网调度日志转换为词向量。

一种基于改进skip-gram模型的电网调度日志词向量提取系统，所述系统包括处理器和存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据上述所述方法的步骤。

计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述所述方法的步骤。

与现有技术相比，本发明的优点在于：

根据电网调度日志的特点，对传统的skip-gram模型进行改进，可以得到更为合理的词向量，使用所生成的词向量对电网调度日志进行分类可以提高分类的准确率；本发明将电网调度日志转换为词向量的形式，以此来提高电网调度日志分类的准确率；本发明通过专家系统于LSTM模型对调度日志进行分词处理，并使用改进的skip-gram模型最终生成词向量。

附图说明

图1为结合专家系统与LSTM模型分词流程图；

图2为传统skip-gram模型；

图3为改进skip-gram模型。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，将电网调度日志转换为词向量，主要需要两个步骤，第一是对原始调度日志进行分词操作，为之后的词向量转换做准备；第二是使用合适的方法将分词后的结果转换为词向量。其中，分词的效果对于最终的词向量生成有直接的影响。

1、中文分词指的是将一个汉字序列切分为一个一个单独的词。传统的中文分词方法包括基于规则的分词方法、基于统计的分词方法、基于语义的分词方法、基于理解的分词方法。电网调度日志因为其业务领域的特殊性，其中包含很多电力系统专业领域的专业名词，传统的中文分词并不能很好的对其进行识别。本文从电网调度的实际业务中抽取出常用的电网调度专用术语与名词，将这些词语汇聚为一个电网调度业务专用词语的知识库，从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独立出来，使知识库的维护与推理机的实现互不干扰，从而使知识库易于维护和管理。之后构建LSTM神经网络模型，使用LSTM模型对调度日志进行分词操作。对于输出的分词结果，当神经网络对新出现的词不能给出准确切分时，激活专家系统进行分析判断，依据知识库进行推理，得出初步分析，并启动学习机制对神经网络进行训练。

2、传统skip-gram模型对所输入词语的次序没有要求，即输入词语的顺序对于最后词向量的生成没有任何影响。但是，对于电网调度日志来说，词语的顺序确实尤为重要的，因为一条电网调度日志的记录可能包含多个关键词，其中既包含异常关键词，也包含正常关键词，这是因为一条电网调度日志会记录整个过程，这对于最后的分类判断是非常重要的。本文为了解决分词前后顺序的问题，对传统的skip-gram模型进行了改进。

在传统skip-gram模型中，对于给定的训练语料，我们会选取一个词作为输入词，即inputword。之后会定义一个叫做skipwindow的参数，表示从当前inputword的一侧选取词的数量，那么我们最终获得窗口中词的数量最多为2*skipwindow。将窗口中选取的不同的词作为outputword，得到最终训练样本格式为(inputword，outputword)。得到训练样本后，skip-gram模型会使用神经网络基于这些训练数据输出一个概率分布，这个概率代表着词典中每个词是outputword的可能性。传统的skip-gram模型结构如下图2所示：其中，输入向量为inputword的one-hot向量，隐藏层没有使用任何激活函数，输出层使用了softmax，最终输出一个概率分布。softmax函数如下所示：

其中，x为输入值，i为词的总数。

最终，隐层权重W就是最终需要的词向量。

在改进的skip-gram模型中，输出层使用分层softmax来代替softmax，这样从隐藏层到输出层的映射过程中，本文为每一个输出的词汇单独创建了一个输出矩阵，之后根据这个输出矩阵映射到每一个目标词。改进的skip-gram模型结构如图3所示。其中，W’₁、W’₂等为每一个单词的输出矩阵。

分层softmax的基本思想是，在模型的训练过程中，通过Huffman编码，构造了一棵庞大的Huffman树，同时会给非叶子结点赋予向量。我们要计算的是目标词的概率，这个概率的具体含义，是指从根节点结点开始随机走，走到目标词的概率。因此在途中路过非叶子结点时，需要分别知道往左走和往右走的概率。

将词典中的每个词按照词频大小构建出一棵Huffman树，保证词频较大的词处于相对比较浅的层，，即距离根节点较近。词频较低的词相应的处于Huffman树较深层的叶子节点，即距离根节点较远，每一个词都处于这棵Huffman树上的某个叶子节点。这样，将原本的一个|V|分类问题变成了log|V|次的二分类问题。其中，V为词典中词的总数。在分层softmax中，计算当前词在其上下文中的概率大小，就转换为了Huffman树中的路径预测问题，也就是一个二分类问题，用逻辑回归来进行计算。具体为：被划分为右子树的概率为：

划分为左子树的概率为：

P(左子树)＝1-P(右子树)

其中，为当前内部节点的词向量，θ则是我们需要从训练样本求出的逻辑回归的模型参数。

实施例

1、从各个电力系统中获取电网调度日志并整合，进行数据清洗与整理。

2、使用专家系统结合LSTM模型对调度日志进行分词操作，例如一条标签为“风力发电”的电网调度日志，原始日志如下：

2017-10-01 14:57:02普发集控(付晓健)报：14:40聚风风电场26号风机箱变C相引线断股，申请313开关所带3号风机线上#23-33共计11台风机处缺陪停，总容量16.5MW，冀北调度同意。15:02上述风机停机完毕。

分词结果：“聚风风电场风机箱变引信断股开关风机线风机处缺陪停总容量冀北调度统一上述风机停机完毕”。

3、使用改进的skip-gram模型，将调度日志转换为词向量的形式。传统skip-gram模型是根据中心词对上下文进行预测时，假设当窗口大小为d时，如果中心词在句子的句首或者句尾，窗口内没有那么多的词语，那么d的大小就会做相应的调整。也就是说，窗口定义为d时，实际的窗口大小是1到d的随机数。因为在窗口大小随机变化的特性上，改进的skip-gram模型保留了原有模型的机制，但是增加了0到2d个系数。

4、构造测试数据集，分别使用skip-gram模型和改进skip-gram模型将调入日志转换为词向量，之后分别将它们作为训练数据来训练朴素贝叶斯分类器、SVM分类器、LSTM分类器，对比两种不同的词向量对应于同一种分类器时的调度日志分类效果。结果如表1所示：

表1分类实验结果

获取模块：用于获取电网调度日志；

清洗模块：用于对所述电网调度日志进行清洗处理；；

所述存储介质用于存储指令；

通过上表可知，本文所提出的一种基于改进skip-gram模型的电网调度日志词向量提取方法可以得到更为合理的词向量，以适应电网调度日志的特点。通过对比实验分析，本文所提出的基于改skip-gram模型的电网调度日志词向量提取方法可以有效提高词向量的合理性，对于最终的电网调度日志分类影响很大，效果显著。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于改进skip-gram模型的电网调度日志词向量提取方法，其特征在于，所述方法包括：

获取电网调度日志；

对所述电网调度日志进行清洗处理；

对所述清洗后的电网调度日志进行分词操作；

通过改进skip-gram模型将分词操作后的电网调度日志转换为词向量；

所述改进skip-gram模型的训练过程如下：

构建训练样本；

建立输入层、隐藏层和输出层，即改进skip-gram模型；

通过训练样本对改进skip-gram模型进行训练，获取隐层权重，即所述词向量；

所述输出层的函数包括分层softmax；

所述隐藏层每个输出的词汇单独创建一个输出矩阵；

通过LSTM模型和专家系统的结合对调度日志进行分词操作；

所述电网调度日志转换的方法包括：

获取调度日志的词频；