CN113326380B

CN113326380B - 基于深度神经网络的设备量测数据处理方法、系统及终端

Info

Publication number: CN113326380B
Application number: CN202110885209.0A
Authority: CN
Inventors: 罗玮; 刘金全; 杨庚鑫; 许剑
Original assignee: Guoneng Daduhe Big Data Service Co ltd
Current assignee: Guoneng Daduhe Big Data Service Co ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-11-02
Anticipated expiration: 2041-08-03
Also published as: CN113326380A

Abstract

本发明公开了基于深度神经网络的设备量测数据处理方法、系统及终端，涉及电站设备数据处理技术领域，其技术方案要点是：通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别，得到以标签标注后用字符向量和词向量共同表示的短文本序列；将短文本序列扩充后输入卷积神经网络，通过学习短文本中的深度特征得到短文本深层语义，并依据短文本深层语义进行聚类处理后得到聚类设备量测数据；通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系，并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。本发明能够对不同设备进行统一、标准化自动编码处理。

Description

基于深度神经网络的设备量测数据处理方法、系统及终端

技术领域

本发明涉及电站设备数据处理技术领域，更具体地说，它涉及基于深度神经网络的设备量测数据处理方法、系统及终端。

背景技术

电站安全监测过程中涉及到多种不同类型的传感器设备、运行设备，且各个电站之间管理也存在一定的差异，从而使得数据共享时存在一定的困难。目前，各站的核心基础平台如监控系统、状态监测系统中设备量测数据的定义仅考虑各自系统实现，彼时尚无统一的设备量测数据定义标准。各站工作人员对设备量测数据主观性强，导致文本语言表述简单，包含词汇少，且描述多种多样，相较于PPIS数据规则用词相对不规范，从而导致执行标准和力度不一，各站设备量测数据难以融通。因此，如何研究设计一种基于深度神经网络的设备量测数据处理方法、系统及终端是我们目前急需解决的问题。

发明内容

为解决现有技术中的不足，本发明的目的是提供基于深度神经网络的设备量测数据处理方法、系统及终端。

本发明的上述技术目的是通过以下技术方案得以实现的：

第一方面，提供了基于深度神经网络的设备量测数据处理方法，包括以下步骤：

通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别，得到以标签标注后用字符向量和词向量共同表示的短文本序列；

将短文本序列扩充后输入卷积神经网络，通过学习短文本中的深度特征得到短文本深层语义，并依据短文本深层语义进行聚类处理后得到聚类设备量测数据；

通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系，并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。

进一步的，所述识别模型包括输入层、双向长短期记忆网络层、向量表示层、注意力层、条件随机场层；

输入层，用于采用word2vec模型对输入的字符进行预训练后得到字符嵌入序列；

双向长短期记忆网络层，用于将字符嵌入序列作为双向长短期记忆网络各个时间步的输入，并将正向长短期记忆网络输出的状态序列和反向长短期记忆网络在各个位置输出的状态序列进行拼接，得到由字符向量组成的字符向量序列；

向量表示层，用于通过预构建的词典对目标设备量测数据进行分词，并采用cw2vec模型以提取中文笔画n-gram特征的方式对分词得到的词进行预训练，得到由笔画信息的词嵌入向量组成的词向量序列；

注意力层，用于将词嵌入向量与相应的字符向量进行关注计算，并通过注意力机制模型动态决定笔画信息的使用信息量以获得词对预测目标的贡献矩阵，以及将词向量序列、字符向量序列融合得到的输出矩阵与贡献矩阵拼接后得到量测数据序列；

条件随机场层，用于采用条件随机场对量测数据序列进行标注，并以过去的标签和将来的标签来预测当前的标签，得到标签标注后的短文本序列。

进一步的，所述聚类设备量测数据的获得过程具体为：

利用行业标准术语库扩充短文本序列中的短文本数据；

采用word2vec模型对扩充后的文本数据进行训练，得到以字符向量进行文本表示的扩充后的短文本序列；

将扩充后的短文本序列输入卷积神经网络学习短文本中的深度特征，得到短文本深层语义；

采用k-means算法依据短文本深层语义进行聚类处理后得到聚类设备量测数据。

进一步的，所述新量测数据预测编码标签的获得过程具体为：

获取历史设备量测数据与标准编码，并对历史设备量测数据进行数据清洗以过滤冗余数据；

提取清洗后的历史设备量测数据中的词嵌入特征，并以词嵌入特征和标准编码组成训练集后输入到训练模型，训练得到历史设备量测数据与标准编码之间的映射关系；

提取目标设备量测数据中的词嵌入特征，并将词嵌入特征输入到训练模型后结合映射关系训练得到新量测数据预测编码标签。

进一步的，所述训练模型为卷积神经网络模型，包括：

卷积层，用于将以词嵌入特征构成表示诊断描述的词向量矩阵进行卷积产生窗口生成特征；词向量矩阵的维度为

；

表示每个设备量测数据描述含有词的个数；

表示每个词的词向量维数；

池化层，用于对窗口生成特征降维处理后得到保留最重要特征的简化特征；

全连接层，用于依据简化特征输出新量测数据预测编码标签。

进一步的，所述卷积层采用尺寸为3的卷积核，表示以3个词为一个窗口进行计算，卷积核的数量为64，卷积之后得到64个向量；

池化层采用max-pooling对每个向量降维，只保留每个特征中最大的特征项，并将最大的特征项拼接成整个设备数据描述的表示；

全连接层包括两层：第一层先采用Relu激活函数，将向量中小于0的值赋值为0，大于0的值不变；第二层采用Softmax函数得到设备数据描述于最终编码之间的映射关系的概率，且映射关系的概率排列输出新量测数据预测编码标签。

进一步的，所述窗口生成特征的计算公式具体为：

其中，

表示窗口生成特征；

表示第i个词

到第i+h-1个词

；

表示偏置顶；

表示非线性函数；

表示卷积核；h表示卷积核的高度，也表示词数量。

进一步的，该方法还包括对新量测数据预测编码标签进行合理性判断；若不合理，则将新量测数据预测编码标签修改后将相应的目标设备量测数据、预测编码重新加入训练集。

第二方面，提供了基于深度神经网络的设备量测数据处理系统，包括：

实体识别模块，用于通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别，得到以标签标注后用字符向量和词向量共同表示的短文本序列；

数据处理模块，用于将短文本序列扩充后输入卷积神经网络，通过学习短文本中的深度特征得到短文本深层语义，并依据短文本深层语义进行聚类处理后得到聚类设备量测数据；

自动编码模块，用于通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系，并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。

第三方面，提供了一种计算机终端，包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面中任意一项所述的基于深度神经网络的设备量测数据处理方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明对设备量测数据进行预处理，确定实验的训练集和测试集，并对数据进行标注；由于中文无明显的边界，本发明采用字符嵌入而不是词嵌入，从而避免分词结果影响识别结果，通过基本字符向量的双向长短期记忆神经网络（Bi-LSTM）得到字符向量表示；然而单个中文字符和由该字符组成的词语代表不同的含义，如果将字符视为原子单位，会忽略不同字符之间的形态相似性，因此采用中文汉字的笔画信息训练词向量（cw2vec），然后通过注意力机制融合向量表示；最后通过条件随机场（CRF）约束预测标签，确保预测的标签是合理的。

2、本发明通过扩充文本数据并结合深度学习和机器学习方法实现短文本聚类，不仅从数据本身改变文本长度避免数据稀疏造成的结果不理想，而且通过结合深度学习和聚类模型来提高聚类准确率；

3、本发明利用深度学习的方法来实现设备量测数据描述的自动编码，首先对设备量测数据添加标准的编码标签，然后对数据中各站给出的设备量测数据名称进行词频统计，选取高频词来训练词向量，最后将整个设备量测数据描述向量和采集的设备量测数据向量输入到卷积神经网中，从数据中学习输入与输出之间的映射关系，辅助高效解决测点标准化工作。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1是本发明实施例中的流程图；

图2是本发明实施例中的系统框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

专业术语解释

word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

n-gram模型是一种语言模型，一个基于概率的判别模型，它的输入是一句话（单词的顺序序列），输出是这句话的概率。N指当前指由N个单词组成。

max-pooling，最大池化，取局部接受域中值最大的点。

Relu，线性整流函数（Rectified Linear Unit, ReLU），又称修正线性单元，是一种人工神经网络中常用的激活函数（activation function），通常指代以斜坡函数及其变种为代表的非线性函数

Softmax，softmax将模型输出映射到0 ~ 1之间，共有n个类，对于每个样本，可以理解为它属于其中某一类别的概率。

k-means，k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。

cw2vec，cw2vec采用笔画信息作为特征，由于每个字符包含很多的笔画，类似于一个英文单词包含很多的拉丁字母，在这个基础之上，提出了笔画的n-gram特征。

实施例1：基于深度神经网络的设备量测数据处理方法，如图1所示，包括以下步骤：

步骤一，通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别，得到以标签标注后用字符向量和词向量共同表示的短文本序列。

识别模型包括输入层、双向长短期记忆网络层、向量表示层、注意力层、条件随机场层。

输入层：采用word2vec模型对输入的字符进行预训练后得到字符嵌入序列

。

双向长短期记忆网络层：将字符嵌入序列作为双向长短期记忆网络各个时间步的输入，并将正向长短期记忆网络输出的状态序列

和反向长短期记忆网络在各个位置输出的状态序列

进行拼接，得到由字符向量组成的字符向量序列

。

向量表示层：通过预构建的词典对目标设备量测数据进行分词，并采用cw2vec模型以提取中文笔画n-gram特征的方式对分词得到的词进行预训练，得到由笔画信息的词嵌入向量组成的词向量序列

。

注意力层：将词嵌入向量与相应的字符向量进行关注计算，并通过注意力机制模型动态决定笔画信息的使用信息量以获得词对预测目标的贡献矩阵，以及将词向量序列、字符向量序列融合得到的输出矩阵与贡献矩阵拼接后得到量测数据序列；

条件随机场层：采用条件随机场对量测数据序列进行标注，并以过去的标签和将来的标签来预测当前的标签，得到标签标注后的短文本序列。

本发明对设备量测数据进行预处理，确定实验的训练集和测试集，并对数据进行标注；由于中文无明显的边界，本发明采用字符嵌入而不是词嵌入，从而避免分词结果影响识别结果，通过基本字符向量的双向长短期记忆神经网络（Bi-LSTM）得到字符向量表示；然而单个中文字符和由该字符组成的词语代表不同的含义，如果将字符视为原子单位，会忽略不同字符之间的形态相似性，因此采用中文汉字的笔画信息训练词向量（cw2vec），然后通过注意力机制融合向量表示；最后通过条件随机场（CRF）约束预测标签，确保预测的标签是合理的。

步骤二，将短文本序列扩充后输入卷积神经网络，通过学习短文本中的深度特征得到短文本深层语义，并依据短文本深层语义进行聚类处理后得到聚类设备量测数据。

聚类设备量测数据的获得过程具体为：利用行业标准术语库扩充短文本序列中的短文本数据；采用word2vec模型对扩充后的文本数据进行训练，得到以字符向量进行文本表示的扩充后的短文本序列；将扩充后的短文本序列输入卷积神经网络学习短文本中的深度特征，得到短文本深层语义；采用k-means算法依据短文本深层语义进行聚类处理后得到聚类设备量测数据。

本发明通过扩充文本数据并结合深度学习和机器学习方法实现短文本聚类，不仅从数据本身改变文本长度避免数据稀疏造成的结果不理想，而且通过结合深度学习和聚类模型来提高聚类准确率。

步骤三，通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系，并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。

新量测数据预测编码标签的获得过程具体为：获取历史设备量测数据与标准编码，并对历史设备量测数据进行数据清洗以过滤冗余数据；提取清洗后的历史设备量测数据中的词嵌入特征，并以词嵌入特征和标准编码组成训练集后输入到训练模型，训练得到历史设备量测数据与标准编码之间的映射关系；提取目标设备量测数据中的词嵌入特征，并将词嵌入特征输入到训练模型后结合映射关系训练得到新量测数据预测编码标签。

训练模型为卷积神经网络模型。卷积神经网络模型包括卷积层、池化层和全连接层。

卷积层：将以词嵌入特征构成表示诊断描述的词向量矩阵进行卷积产生窗口生成特征；词向量矩阵的维度为

；

表示每个设备量测数据描述含有词的个数；

表示每个词的词向量维数。

池化层：窗口生成特征降维处理后得到保留最重要特征的简化特征。

全连接层：依据简化特征输出新量测数据预测编码标签。

在本实施例中，卷积层采用尺寸为3的卷积核，表示以3个词为一个窗口进行计算，卷积核的数量为64，卷积之后得到64个向量。

在本实施例中，池化层采用max-pooling对每个向量降维，只保留每个特征中最大的特征项，并将最大的特征项拼接成整个设备数据描述的表示；

在本实施例中，全连接层包括两层：第一层先采用Relu激活函数，将向量中小于0的值赋值为0，大于0的值不变；第二层采用Softmax函数得到设备数据描述于最终编码之间的映射关系的概率，且映射关系的概率排列输出新量测数据预测编码标签。

如单词

的窗口生成特征的计算公式具体为：

其中，

表示窗口生成特征；

表示第i个词

到第i+h-1个词

；

表示偏置顶；

表示非线性函数；

表示卷积核；h表示卷积核的高度，也表示词数量；

也表示卷积核的宽度。

此外，本发明还包括对新量测数据预测编码标签进行合理性判断；若不合理，则将新量测数据预测编码标签修改后将相应的目标设备量测数据、预测编码重新加入训练集。

本发明利用深度学习的方法来实现设备量测数据描述的自动编码，首先对设备量测数据添加标准的编码标签，然后对数据中各站给出的设备量测数据名称进行词频统计，选取高频词来训练词向量，最后将整个设备量测数据描述向量和采集的设备量测数据向量输入到卷积神经网中，从数据中学习输入与输出之间的映射关系，辅助高效解决测点标准化工作。

实施例2：基于深度神经网络的设备量测数据处理系统，如图2所示，包括实体识别模块、数据处理模块、自动编码模块。

实体识别模块，用于通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别，得到以标签标注后用字符向量和词向量共同表示的短文本序列。数据处理模块，用于将短文本序列扩充后输入卷积神经网络，通过学习短文本中的深度特征得到短文本深层语义，并依据短文本深层语义进行聚类处理后得到聚类设备量测数据。自动编码模块，用于通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系，并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度神经网络的设备量测数据处理方法，其特征是，包括以下步骤：

通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别，得到以标签标注后用字符向量和词向量共同表示的短文本序列；通过预构建的词典对目标设备量测数据进行分词，并采用cw2vec模型以提取中文笔画n-gram特征的方式对分词得到的词进行预训练，得到由笔画信息的词嵌入向量组成的词向量序列；

2.根据权利要求1所述的基于深度神经网络的设备量测数据处理方法，其特征是，所述识别模型包括输入层、双向长短期记忆网络层、向量表示层、注意力层、条件随机场层；

3.根据权利要求1所述的基于深度神经网络的设备量测数据处理方法，其特征是，所述聚类设备量测数据的获得过程具体为：

利用行业标准术语库扩充短文本序列中的短文本数据；

4.根据权利要求1所述的基于深度神经网络的设备量测数据处理方法，其特征是，所述新量测数据预测编码标签的获得过程具体为：

5.根据权利要求4所述的基于深度神经网络的设备量测数据处理方法，其特征是，所述训练模型为卷积神经网络模型，包括：

卷积层，用于将以词嵌入特征构成表示诊断描述的词向量矩阵进行卷积产生窗口生成特征；词向量矩阵的维度为n*d；n表示每个设备量测数据描述含有词的个数；d表示每个词的词向量维数；

6.根据权利要求5所述的基于深度神经网络的设备量测数据处理方法，其特征是，所述卷积层采用尺寸为3的卷积核，表示以3个词为一个窗口进行计算，卷积核的数量为64，卷积之后得到64个向量；

7.根据权利要求5所述的基于深度神经网络的设备量测数据处理方法，其特征是，所述窗口生成特征的计算公式具体为：

c_i＝f(W·x_i：i+h-1+b)

其中，c_i表示窗口生成特征；x_i：i+h-1表示第i个词x_i到第i+h-1个词x_i+h-1；b表示偏置顶；f表示非线性函数；W表示卷积核；h表示卷积核的高度，也表示词数量。

8.根据权利要求4所述的基于深度神经网络的设备量测数据处理方法，其特征是，该方法还包括对新量测数据预测编码标签进行合理性判断；若不合理，则将新量测数据预测编码标签修改后将相应的目标设备量测数据、预测编码重新加入训练集。

9.基于深度神经网络的设备量测数据处理系统，其特征是，包括：

实体识别模块，用于通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别，得到以标签标注后用字符向量和词向量共同表示的短文本序列；通过预构建的词典对目标设备量测数据进行分词，并采用cw2vec模型以提取中文笔画n-gram特征的方式对分词得到的词进行预训练，得到由笔画信息的词嵌入向量组成的词向量序列；

10.一种计算机终端，包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-8中任意一项所述的基于深度神经网络的设备量测数据处理方法。