CN111767397A

CN111767397A - 一种电力系统二次设备故障短文本数据分类方法

Info

Publication number: CN111767397A
Application number: CN202010608271.0A
Authority: CN
Inventors: 南东亮; 张路; 于永军; 王晓飞; 杨利民; 张良武; 周杰; 王利超; 孙永辉; 谭金龙; 王畅; 王斌春; 杨延栋; 刘威麟
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Xinjiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Xinjiang Electric Power Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-13

Abstract

本发明公开了一种电力系统二次设备故障短文本数据分类方法，所述方法基于主题词模型与卷积神经网络，通过使用主题词模型构建出主题词向量提取出全局性特征与使用词向量技术提取出的局部性特征，将两种特征相结合，作为卷积神经网络的输入层矩阵，提取出二次设备短文本数据信息的特征，对故障级别进行分类。本发明解决传统分类主要依靠人工经验对于故障数据分类的主观性，并且考虑到二次设备故障短文本信息的不同层次的特征，分别使用不同的模型，对文本信息的全局性特征与局部性特征二者进行结合，并使用卷积神经网络做特征提取并分类，提高了分类的准确率。

Description

一种电力系统二次设备故障短文本数据分类方法

技术领域

本发明属于中文自然语言处理技术，具体涉及一种电力二次设备故障短文本数据分类方法。

背景技术

在智能电网的建设运行过程中，电力大数据爆发式的出现，这些数据根据2013年中国电机工程学会信息化专委会编著的中国电力大数据发展白皮书大体可以分为俩类，一类是以输出功率、设备及其环境温湿度、光模块光强等为代表时序化的结构化数据，另一类是以文本、图像、音频等为代表的难以使用关系型数据库表达的半结构化与非结构化数据。结构化数据挖掘工作已较为成熟，然而由于电网运行过程中往往出现的都是正常数据，只有极少量的故障数据，所带来的数据价值密度较低问题制约着非结构化数据的挖掘。其中，对于二次设备运行过程中出现的短文本故障信息也是泛在物联网建设过程中重点关注的信息。

二次设备在运行过程中，积累了很多故障缺陷短文本数据，这些数据往往由运检人员手工纪录，完成对缺陷的等级分类工作，而由于运检人员的主观性与经验性的不同，难以做到准确分类，并且由于故障数据较多，需要大量人力参与，效率难以保证。随着中文文本分类技术的发展，利用机器学习的手段对电网生产管理系统中大量的故障短文本信息的自动分类成为可能。

目前，针对短文本分类，国外已经有通过自然语言处理对酒店评价做情感分类的研究，但是由于中英文结构不同，比如英文中对专有名词大写，词与词之间空格连接等特性在中文文本分类中行不通，英语的自然语言处理难以在中文中使用，并且由于行业的不同，在二次设备文本分类领域有很多专有名词，缺乏对分类模型的改进研究，大多基于传统的机器学习领域。并且由于纪录人员手工纪录的原因，口语化纪录较多，文本信息较短，目前尚不存在对二次设备短文本信息分类的方法公开。

发明内容

发明目的：针对智能电网运行过程中二次设备所纪录的故障短文本信息长度短、语义稀疏，并且记录和分类难等问题，本发明提供一种电力二次设备故障短文本数据分类方法。

技术方案：一种电力系统二次设备故障短文本数据分类方法，该方法包括对二次设备短文本数据建立LDA主题模型和基于卷积神经网络构建二次设备故障短文本信息分类模型，步骤如下：

(1)建立样本数据集，采集电力系统中二次设备在运行过程中产生的故障短文本数据，所述故障短文本数据按成不同的缺陷等级进行标记，并将故障短文文本数据划分为训练集、验证集和测试集；

(2)文本预处理，构建停用词词典和二次设备专业词典，所述的停用词词典用于过滤去除二次设备故障短文本信息中的噪声，所述的噪声为二次设备故障短文本信息中无实际物理意义的词汇和标点符号；所述的二次设备专业词典用于识别二次设备的属性数据，所述的属性数据包括二次设备的名称、型号、厂站名称和路线名称；

(3)对二次设备短文本数据建立LDA主题模型，包括对二次设备短文本数据进行LDA主题模型特征表示，对主体模型参数进行Gibbs采样估计，输出语料库中任意文本的主题-词语矩阵；

(4)对二次设备短文本数据进行词向量特征表示，使用Skip-gram模型作为词向量的训练器，将二次设备故障短文本信息经过预处理后作为输入，输出词向量，构建词向量矩阵；

(5)词向量拼接，根据步骤(3)得到的LDA主题-词语矩阵和步骤(4)得到的词向量矩阵，进行向量拼接，归一化处理得到同时包含潜在词义特征与主题特征的词向量，作为卷积神经网络的输入；

(6)构建卷积神经网络二次设备故障短文本信息分类模型，将步骤(5)以主题特征与潜在语义特征相结合得到的新的词向量作为模型的输入，采用Softmax分类器对二次设备故障短文本数据的特征向量进行分类，并输出最终的分类结果。

进一步的，步骤(1)中二次设备故障短文本数据的缺陷等级包括“严重缺陷”、“危急缺陷”、“一般缺陷”，按照7：2：1的比例对二次设备故障短文本数据划分为训练集、验证集和测试集。

进一步的，步骤(2)通过构建停用词词典过滤对故障描述无实际意义的噪声，故障短文本的噪声中无实际意义的词汇包括介词、连词、副词和形容词；通过构建二次设备专有词典，对故障信息中出现的二次设备的名称、型号、厂站和路线名称的低频词语与专有名词进行语义识别、划分。

进一步的，步骤(3)具体如下：

(31)初始化主题模型的参数先验参数文档-主题分布参数α与主题-词分布参数β以及主题数量K；

(32)遍历任一条二次设备故障短文本数据，按照词语分类，对于其中每一个词语w_i按照其相邻词列表L_i，构建θ_i＝Dirichlet(α)，其中θ_i表示文档-主题分布；

(33)对于每一个潜在的词语集合Z，假设满足Dirichlet先验分布，计算公式为φ_Z＝Dirichlet(β),其中φ_Z表示词语属于主题的概率分布，得到主题-词分布；

(34)对于L_i中的每个词语w_i选择潜在词语Z_j是服从θ_i的多项分布，选择w_i是服从φ_Zj的多项分布；得到文档形式表示的短文本，将二次设备短文本数据进行主题推断，推断的计算表达式如下：

其中，f_d(w_i)为文档中词的词频，len(d)为短文本d的长度；

(35)将文档生成词语的主题分布的期望作为文档生成主题的分布，计算表达式如下所示：

其中P(z|d)表示文本生成词语的概率，W_d表示短文本集，P(z|w_i)表示词语生成主题的概率；

(36)完成LDA主题生成模型，对主体模型参数进行Gibbs采样估计，设置迭代次数，模型训练结束后，输出语料库中任意文本的主题-词语矩阵。

进一步的，步骤(6)所述的卷积神经网络二次设备故障短文本信息分类模型包括输入层、卷积层、池化层和输出层，具体如下：

第一层为输入层：选取待分类文本数据、依照步骤(5)完成对文本数据的向量化，输出矩阵I∈R^m×n，m为文本的词数即输入层的行数，n为文本向量的维数即输入层的列数，按照步骤(5)的划分，将每个词数据划分为维数相等词向量，从而使输入层的列数相等，从而形成矩阵I∈R^m×n，在训练过程中，依靠随机梯度下降法对词向量进行调整；

第二层为卷积层：选择不同尺寸的卷积核，其中每个尺寸的卷积核有多个，分别对输入层输入的矩阵I∈R^m×n进行卷积运算从而提取出输入层的矩阵特征，得到卷积结果向量r_i,(i＝1,2,3,4，5，6，L)，公式如下所示：

r_i＝W·I_i:i+h-1

其中矩阵W表示权重系数，“·”表示点乘运算；

再将卷积结果通过激活函数ReLU激活，进行非线性处理，得到结果c_i，公式如下所示：

c_i＝ReLU(r_i+b)

将c_i，依照从左到右，从上到下的顺序，得到卷积层向量c∈R^s-h+1，公式如下:

c＝[c₁,c₂,K,c_s-h+1]

第三层为池化层：采用最大池化法进行池化，依据卷积层所提取的结果向量c∈R^s ^-h+1中最大的元素提取出作为特征值p_j，(j＝1,2,3,4，5，6，L，n)并将所有特征值p_j依次拼接为向量p∈R^n×1输入到第四层输出层，向量p代表文本数据的全局特征的向量；

第四层为输出层：将池化层与输出层进行全连接，以池化层的向量p作为输入，采用Softmax分类器对向量p进行分类，并输出最终的分类结果；Softmax分类计算概率如下：

其中函数L(p_j)表示属于二次设备类别的概率，选择概率最大的结果，输出二次设备故障的缺陷等级。

有益效果：与现有技术相比，本发明所述方法是基于主题词模型与卷积神经网络实现的一种电力系统二次设备故障短文本数据分类方法，解决传统分类主要依靠人工经验对于故障数据分类的主观性。另一方面，本发明考虑到二次设备故障短文本信息的不同层次的特征，分别使用不同的模型，对文本信息的全局性特征与局部性特征二者进行结合，并使用卷积神经网络做特征提取并分类，提高了分类的准确率。

附图说明

图1为本发明所述方法的实施步骤流程图。

具体实施方式

为了详细的说明本发明所公开的技术方案，下面结合说明书附图和具体实施例做进一步的阐述。

本发明所提供的是一种电力系统二次设备故障短文本数据分类方法，所述方法首先采集二次设备在运行过程中产生的故障短文本历史数据建立训练样本、验证样本和测试样本；接着构建停用词词典和二次设备专有词典，使用LDA主题模型对短文本信息进行主题特征提取，使用词向量模型对短文本信息进行词特征提取；然后将主题特征与词向量特征相结合作为卷积神经网络二次设备故障短文本信息分类模型的输入，输出二次设备故障短文本信息分类结果。

具体的，本发明所述方法的实施步骤如下：

步骤1：确定数据集；

收集二次设备在运行过程中产生的故障短文本数据，将其按照相关导则的要求，将故障类别划分为“严重缺陷”、“危急缺陷”、“一般缺陷”，将文本数据集划分为：训练集、验证集、测试集。

步骤2：文本预处理；

构建停用词词典，过滤去除二次设备故障短文本信息中的噪声，保留名词、动词、量词等具有具体实际意义的词语；构建二次设备专业词典，对设备名、设备型号等低频词以及设备所在厂站、线路等专有名词进行识别。

步骤3：对二次设备短文本数据建立LDA主题模型；

(32)遍历一条短文本数据，按照词语分类，对于其中每一个词语w_i按照其相邻词列表L_i，构建θ_i＝Dirichlet(α)，其中θ_i表示文档-主题分布；

(33)对于每一个潜在的词语集合Z，假设满足Dirichlet先验分布，计算公式为φ_Z＝Dirichlet(β),其中φ_Z表示词语属于主题的概率分布，即主题-词分布；

(34)对于L_i中的每个词语w_i选择潜在词语Z_j是服从θ_i的多项分布，选择w_i是服从φ_Zj的多项分布；得到文档形式表示的短文本，将二次设备短文本数据进行主题推断，依据表达式

其中，f_d(w_i)为文档中词的词频，len(d)为短文本d的长度

将文档生成词语的主题分布的期望作为文档生成主题的分布：

其中P(z|d)表示文本生成词语的概率，W_d表示短文本集，P(z|w_i)表示词语生成主题的概率。

完成LDA主题生成模型，对主体模型参数进行Gibbs采样估计，设置迭代次数，模型训练结束后，输出语料库中任意文本的主题分布矩阵。

步骤4：对二次设备短文本数据进行词向量特征表示；

使用Skip-gram模型作为词向量的训练器，将二次设备故障短文本信息经过预处理后作为输入，输出词向量，构建词向量矩阵。

步骤5：词向量拼接；

由步骤3得到的LDA主题模型特征表示与步骤4得到的词向量矩阵，依照向量拼接方式，即同时包含潜在词义特征与主题特征，表征成为新的词向量作为卷积神经网络的输入。

步骤6：构建卷积神经网络二次设备故障短文本信息分类模型；

设置四层卷积神经网络，具体的各层计算处理过程如下：

(a)第一层为输入层；

取出一条文本数据、依照步骤5完成对文本数据的向量化，作为矩阵I∈R^m×n并将其作为输入m为文本的词数即输入层的行数，n为文本向量的维数即输入层的列数，按照步骤5的化分，将每个词数据划分为维数相等词向量，从而使输入层的列数相等，从而形成矩阵I∈R^m×n，在训练过程中，依靠随机梯度下降法对词向量进行调整。

(b)第二层为卷积层；

选择不同尺寸的卷积核，其中每个尺寸的卷积核有多个，分别对输入层输入的矩阵I∈R^m×n进行卷积运算从而提取出输入层的矩阵特征，得到卷积结果向量r_i,(i＝1,2,3,4，5，6，L)，公式如下所示：

r_i＝W·I_i:i+h-1

其中矩阵W表示权重系数，“·”表示点乘运算。

c_i＝ReLU(r_i+b)

c＝[c₁,c₂,K,c_s-h+1]

(c)第三层为池化层；

本发明采用最大池化法进行池化，依据卷积层所提取的结果向量c∈R^s-h+1中最大的元素提取出作为特征值p_j，(j＝1,2,3,4，5，6，L，n)并将所有特征值p_j依次拼接为向量p∈R^n×1输入到第四层输出层，向量p即为代表文本数据的全局特征的向量，降低了特征的维度，提高分类的效率。

(d)第四层为输出层；

将池化层与输出层进行全连接，以池化层的向量p作为输入，采用Softmax分类器对向量p进行分类，并输出最终的分类结果。Softmax分类计算概率如下：

其中函数L(p_j)表示属于二次设备类别的概率。

步骤(6)构建卷积神经网络二次设备故障短文本信息分类模型选择概率最大的结果，输出二次设备的故障等级。

本发明所述方法绕二次设备运行生产管理系统中所产生的大量的故障短文本数据，开展基于卷积神经网络对文本自动分类的相关研究，并且通过使用主题词模型构建出主题词向量提取出全局性特征与使用词向量技术提取出的局部性特征，将两种特征相结合，作为卷积神经网络的输入层矩阵，提取出二次设备短文本数据信息的特征，对故障级别进行分类。

为了验证本发明方法的有效性，下面以二次设备故障短文本信息分类为例做详细介绍。

采用西北某省电网公司2015年到2019年继电保护动作统计表共2000条数据进行分析，去除重复、噪音太大等无效数据共1471条数据。按照7：2：1划分数据集，对每一条数据进行预处理，如短文本数据“220kv河园线b套保护光纤通道故障”分词为“220kv/河园线/b/套/保护/光纤通道/故障”。再对预处理后的文本数据进行主题模型建模与卷积神经网络模型训练。

评价分类性能一般使用三个指标：正确率、召回率、F1值：

表1分类结果混合矩阵

分类类别	人工标注为属于	人工标注为不属于
			分类器标注为属于	TP	TN
分类器标注为不属于	FP	FN

精确率(Precision)是指在分类结果中，分类器所有预测为正确的结果与实际应该被分为正确结果的比例，一般衡量分类器的查准率。其计算方式如下式所示：

召回率(Recall)是指在分类结果中，分类器分类预测正确占人工分类到属于该类别的比率，一般用来衡量模型的查全率。其计算方式如下式所示：

一般来说，不同的分类模型对于分类器精确率与召回率有着不同的要求，在垃圾短信的检测中，一般都需要预测的短信具有较高的准确率，但是在癌症病例分类中，对分类器一般要求要尽可能全面的发现所有癌症，因此对召回率具有较高要求，本发明基于二次设备文本信息的分类，应该综合考虑两者的优缺点，提出使用F1值组成一个较为全面的评价指标，计算方式如下式所示：

本发明分类结果如表2所示：

表2文本卷积神经模型分类结果评价指标

分类方法	F1值(％)
		LR	51.20
SVM	54.53
		KNN	51.20
WORD2VEC+CNN	63.63
		LDA+CNN	63.04
WORD2VEC+TEXTCNN	78.54
		WORD2VEC+LDA+TEXTCNN	81.69

与传统机器学习方法LR，SVM，KNN相比，由于本实施例中的语料库短文本占比较大，结果的F1值基本上都在50％附近，最高的SVM模型分类结果的准确率只有54.53％，传统机器学习的分类的效果并不理想。传统的LDA主题模型提取特征，缺乏上下文语义信息，在面对二次设备故障文本信息这类短文本数据时，难以取得理想结果，最后实验的F1值结果只有63.00％。相比较于传统的卷积神经网络网络，WORD2VEC+TEXTCNN的结构比WORD2VEC+CNN的F1值性能提高14.91％。文本在传统的LDA主题模型上做出改进，引入潜在语义特征向量，分类的F1值最高，高达81.69％，无论是与传统的机器学习算法还是传统的卷积神经网络模型相比，F1值结果都有显著提高。因此，本发明所构建的模型的泛化能力与实用性已经满足实际运用的可能。

Claims

1.一种电力系统二次设备故障短文本数据分类方法，其特征在于：包括对二次设备短文本数据建立LDA主题模型和基于卷积神经网络构建二次设备故障短文本信息分类模型，步骤如下：

2.根据权利要求1所述的电力系统二次设备故障短文本数据分类方法，其特征在于：步骤(1)中二次设备故障短文本数据的缺陷等级包括“严重缺陷”、“危急缺陷”、“一般缺陷”，按照7：2：1的比例对二次设备故障短文本数据划分为训练集、验证集和测试集。

3.根据权利要求1所述的电力系统二次设备故障短文本数据分类方法，其特征在于：步骤(2)通过构建停用词词典过滤对故障描述无实际意义的噪声，故障短文本的噪声中无实际意义的词汇包括介词、连词、副词和形容词；通过构建二次设备专有词典，对故障信息中出现的二次设备的名称、型号、厂站和路线名称的低频词语与专有名词进行语义识别、划分。

4.根据权利要求1所述的电力系统二次设备故障短文本数据分类方法，其特征在于：步骤(3)具体如下：

(34)对于L_i中的每个词语w_i选择潜在词语Z_j是服从θ_i的多项分布，选择w_i是服从

的多项分布；得到文档形式表示的短文本，将二次设备短文本数据进行主题推断，推断的计算表达式如下：

其中，f_d(w_i)为文档中词的词频，len(d)为短文本d的长度；

5.根据权利要求1所述的电力系统二次设备故障短文本数据分类方法，其特征在于：步骤(6)所述的卷积神经网络二次设备故障短文本信息分类模型包括输入层、卷积层、池化层和输出层，具体如下：

r_i＝W·I_i:i+h-1

其中矩阵W表示权重系数，“·”表示点乘运算；

c_i＝ReLU(r_i+b)

c＝[c₁,c₂,K,c_s-h+1]

第三层为池化层：采用最大池化法进行池化，依据卷积层所提取的结果向量c∈R^s-h+1中最大的元素提取出作为特征值p_j，(j＝1,2,3,4，5，6，L，n)并将所有特征值p_j依次拼接为向量p∈R^n×1输入到第四层输出层，向量p代表文本数据的全局特征的向量；