CN113111183A

CN113111183A - 一种牵引供电设备缺陷等级分类方法

Info

Publication number: CN113111183A
Application number: CN202110426623.5A
Authority: CN
Inventors: 冯玎; 路遥; 林圣�; 李主亮; 李良
Original assignee: Tonghao Changsha Rail Traffic Control Technology Co ltd; Southwest Jiaotong University
Current assignee: Tonghao Changsha Rail Traffic Control Technology Co ltd; Southwest Jiaotong University
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-13

Abstract

本发明公开一种牵引供电设备缺陷等级分类方法，具体为：对牵引供电设备缺陷文本进行分词、去停用词的预处理操作，将分词所得的所有词语构成词典；对词典中的词语按词频进行编号，使每条由多个词语组成的缺陷文本向量化；通过对每个词语进行训练，得到每个词语对应的向量表示；使用预训练的词向量自定义权重矩阵，代替卷积神经网络的嵌入层；最后经过卷积层、池化层与全连接层；在对历史缺陷文本的训练过程中调整神经网络的参数，当神经网络模型训练完成后，输入待分类的缺陷文本，对各条缺陷内容进行分类，输出待分类缺陷文本的分类结果及分类准确率。本发明提高了缺陷等级分类的准确率与效率，提高了牵引供电系统的智能化程度。

Description

一种牵引供电设备缺陷等级分类方法

技术领域

本发明属自然语言处理及深度学习领域，具体涉及一种牵引供电设备缺陷等级分类方法。

背景技术

在牵引供电系统的长期运行中，积累了大量的牵引供电设备缺陷记录数据，但是缺少对缺陷记录的系统挖掘与分析。目前针对缺陷数据的研究，主要集中于电网领域的电力设备，对于牵引供电系统的牵引供电设备的研究少之又少。由于牵引供电设备的缺陷记录数据中大多数为半结构化数据与非结构化数据，如文本、图像、音频等，而通过对半结构化数据与非结构化数据的挖掘与分析，有利于维护牵引供电系统的稳定运行，因此对牵引供电设备缺陷文本的研究十分重要。

对于牵引供电系统中的大量牵引供电设备缺陷记录单，目前仍主要依靠人工分类，缺点在于分类效率较低，且由于不同运检人员的知识水平与经验水平参差不齐，可能出现误分类的情况。而通过自然语言处理的方法对缺陷记录数据进行挖掘与分析，可以提高缺陷等级分类的效率与准确率，并且训练成熟的模型可以用于相似情景下的缺陷等级分类，同时能够提高牵引供电系统的智能化程度。

发明内容

为了将待分类的牵引供电设备缺陷文本的缺陷等级进行自动分类，减轻工作人员的任务量，以及提高缺陷等级分类的准确率与效率，提高牵引供电系统的智能化程度。本发明提供一种牵引供电设备缺陷等级分类方法。

本发明的一种牵引供电设备缺陷等级分类方法，包括以下步骤：

步骤A：将牵引供电设备缺陷记录数据中的n次缺陷的缺陷内容及其相应的缺陷等级，形成一份含有n条历史缺陷文本的csv格式文件。将每条缺陷内容与其缺陷等级放在同一行，两者之间以英文逗号分隔。其中缺陷等级由轻到重依次分为一般、重大、紧急三级。

步骤B：利用python的pandas模块的read函数读取步骤A中的n条历史缺陷文本，对缺陷文本进行分词与去停用词处理。

其中，利用python的jieba模块的load函数加载牵引供电领域的专业词典，使用jieba模块的精确分词模式对缺陷内容按行进行分词处理。通过jieba模块的load函数加载停用词词典，根据停用词词典剔除缺陷内容中的停用词，利用正则表达式按行去除缺陷内容中的中英文标点符号。

步骤C：将步骤B中对缺陷文本分词得到的全部词语的集合作为词典。

利用python的Tokenizer分词器模块，使用fit_on_text函数按照词频大小对每个词语从1开始依次编号。若词典中词语的个数为x，则各个词的编号为1到x。使步骤A中的n条缺陷文本各表示为一个向量，向量中每一维的数字代表缺陷文本中的一个词语。

利用python的pad_sequences模块，通过pad_sequences函数保证得到的各个向量维数相等，均为m：若向量的维数低于m，则在向量前不足m维的位置用0填补，若向量的维数高于m，则取其后m维。其中，m为步骤B完成之后n条缺陷文本中单条缺陷文本含有的最多词语数。

步骤D：文本表示：利用python的gensim库中的word2vec模块，利用word2vec词嵌入模型对步骤B中得到的经过分词与去停用词处理的n条缺陷文本进行训练，得到步骤C词典中每个词语对应的q维向量表示，得到每条缺陷文本的表示为一个大小为m×q的矩阵。其中，矩阵列数也即词向量维数q。

步骤E：利用步骤D中训练后的word2vec自定义embedding层的训练矩阵embedding_matrix。训练矩阵embedding_matrix的大小为(x+1)×q，训练矩阵的每一行代表步骤D中的一个词。Embedding层参数num_words设置为x+1，参数EMBEDDING_DIM设置为q，参数input_length设置为m，参数weights设置为[embedding_matrix]，参数trainable设置为True。

步骤F：卷积处理：采用一维卷积进行处理，具体采用了2层卷积层，进行了2次卷积。第一层卷积核数目nb_filter设置为256，第二层卷积核数目nb_filter设置为32，两层的卷积核时域长度filter_length均设置为3，padding方式均设置为same，激活函数activation均设置为relu。

步骤G：池化处理：本模型采用最大池化法，在步骤F的两层卷积层中加入一层最大池化层。池化窗口大小pool_size设置为m-5，padding方式选择same，下采样因子strides设置为3。

步骤H：通过softmax分类器进行分类，输出最终的牵引供电设备缺陷等级分类结果。设置一般缺陷的输出期望为[0,0,1]，设置重大缺陷的输出期望为[0,1,0]，设置紧急缺陷的输出期望为[1,0,0]。

步骤I：在步骤H中模型的基础上使用compile函数来配置训练方法，使用adam优化器，学习率为0.001，设置损失函数loss为多分类损失函数'categorical_crossentropy'，标注评价指标metrics为准确率'accuracy'。

步骤J：在步骤I中模型的基础上使用fit函数来执行训练过程，设置训练集的输入为步骤C中向量化表示的缺陷文本，标签设置为步骤H中向量表示的三类缺陷等级，根据缺陷文本数量n合理设置分批参数batch_size，迭代次数epochs，设置验证集划分参数validation_split为0.2。

步骤K：新产生的λ条待分类缺陷文本的预测与评估。

将待分类文本作为步骤H中所得模型的输入，利用predcit函数预测并输出每条缺陷文本分别属于一般、重大、紧急缺陷的概率，输出记作为矩阵result。

预测：对矩阵result利用argmax函数，输出模型对各条缺陷文本对应的缺陷等级的判断结果，即result矩阵中各条缺陷文本对应的概率最大的缺陷等级。输出形式为λ维向量，每一维均为0、1、2其中的一个数字，0、1、2分别对应一般，重大，紧急三个缺陷等级。

评估：将待分类文本作为步骤H中所得模型的输入，利用evaluate函数评估缺陷文本的损失值loss及分类准确率accuracy。输出形式为二维向量，第一维是损失值loss，第二维是分类准确率accuracy。

进一步的，步骤F具体为：采用列数为n、行数为h的卷积窗口

与文本表示所得矩阵

中的每个h行n列矩阵块由上至下依次进行卷积运算，结果如下：

r_i＝W·I_i:i+h-1(i＝1,2,…,m-h+1)

式中I_i:i+h-1表示从上至下第i个矩阵块。可知共进行了m-h+1次卷积，且每次卷积运算过后所得结果需再进行非线性化处理，非线性化结果c_i如下：

c_i＝ReLU(r_i+b)

式中ReLU为修正线性单元函数，b为偏置项。最终将得到的m-h+1个实数c_i依次排列便构成卷积层的向量

本发明的有益技术效果为：

本发明通过自然语言处理的方法对缺陷记录数据进行挖掘与分析，能够实现对牵引供电设备缺陷等级的自动分类，相比于人工分类，提高了缺陷等级分类的准确率与效率，减轻了工作人员的任务量，提高了牵引供电系统的智能化程度，降低了工作人员的知识水平与经验水平对缺陷等级分类准确率的影响。此外，在本发明中，通过将分词得到的词语自动构成词典，省去了手动建词典的工作，且使用Word2vec词嵌入模型预训练的词向量自定义了权重矩阵，代替了卷积神经网络的输入层，相比于原装的embedding层效果更好。

附图说明

图1为本发明方法的流程示意图。

具体实施方式

下面结合附图和具体实施方法对本发明做进一步详细说明。

本发明的一种牵引供电设备缺陷等级分类方法如图1所示，包括以下步骤：

步骤A：将牵引供电设备缺陷记录数据(以上海维管处2016-2019四年间牵引供电设备数据为例)中的n次缺陷的缺陷内容及其相应的缺陷等级，形成一份含有n条历史缺陷文本的csv格式文件。将每条缺陷内容与其缺陷等级放在同一行，两者之间以英文逗号分隔。其中缺陷等级由轻到重依次分为一般、重大、紧急三级。

步骤D：文本表示：利用python的gensim库中的word2vec模块，利用word2vec词嵌入模型对步骤B中得到的经过分词与去停用词处理的n条缺陷文本进行训练，得到步骤C词典中每个词语对应的q维向量表示，得到每条缺陷文本的表示为一个大小为m×q的矩阵。其中，矩阵列数也即词向量维数q，一般为100左右。

采用列数为n、行数为h的卷积窗口

与文本表示所得矩阵

r_i＝W·I_i:i+h-1(i＝1,2,…,m-h+1)

c_i＝ReLU(r_i+b)

步骤K：新产生的λ条待分类缺陷文本的预测与评估。

Claims

1.一种牵引供电设备缺陷等级分类方法，其特征在于，包括以下步骤：

步骤A：将牵引供电设备缺陷记录数据中的n次缺陷的缺陷内容及其相应的缺陷等级，形成一份含有n条历史缺陷文本的csv格式文件；将每条缺陷内容与其缺陷等级放在同一行，两者之间以英文逗号分隔；其中缺陷等级由轻到重依次分为一般、重大、紧急三级；

步骤B：利用python的pandas模块的read函数读取步骤A中的n条历史缺陷文本，对缺陷文本进行分词与去停用词处理；

其中，利用python的jieba模块的load函数加载牵引供电领域的专业词典，使用jieba模块的精确分词模式对缺陷内容按行进行分词处理；通过jieba模块的load函数加载停用词词典，根据停用词词典剔除缺陷内容中的停用词，利用正则表达式按行去除缺陷内容中的中英文标点符号；

步骤C：将步骤B中对缺陷文本分词得到的全部词语的集合作为词典；

利用python的Tokenizer分词器模块，使用fit_on_text函数按照词频大小对每个词语从1开始依次编号；若词典中词语的个数为x，则各个词的编号为1到x；使步骤A中的n条缺陷文本各表示为一个向量，向量中每一维的数字代表缺陷文本中的一个词语；

利用python的pad_sequences模块，通过pad_sequences函数保证得到的各个向量维数相等，均为m：若向量的维数低于m，则在向量前不足m维的位置用0填补，若向量的维数高于m，则取其后m维；其中，m为步骤B完成之后n条缺陷文本中单条缺陷文本含有的最多词语数；

步骤D：文本表示：利用python的gensim库中的word2vec模块，利用word2vec词嵌入模型对步骤B中得到的经过分词与去停用词处理的n条缺陷文本进行训练，得到步骤C词典中每个词语对应的q维向量表示，得到每条缺陷文本的表示为一个大小为m×q的矩阵；其中，矩阵列数也即词向量维数q；

步骤E：利用步骤D中训练后的word2vec自定义embedding层的训练矩阵embedding_matrix；训练矩阵embedding_matrix的大小为(x+1)×q，训练矩阵的每一行代表步骤D中的一个词；Embedding层参数num_words设置为x+1，参数EMBEDDING_DIM设置为q，参数input_length设置为m，参数weights设置为[embedding_matrix]，参数trainable设置为True；

步骤F：卷积处理：采用一维卷积进行处理，具体采用了2层卷积层，进行了2次卷积；第一层卷积核数目nb_filter设置为256，第二层卷积核数目nb_filter设置为32，两层的卷积核时域长度filter_length均设置为3，padding方式均设置为same，激活函数activation均设置为relu；

步骤G：池化处理：本模型采用最大池化法，在步骤F的两层卷积层中加入一层最大池化层；池化窗口大小pool_size设置为m-5，padding方式选择same，下采样因子strides设置为3；

步骤H：通过softmax分类器进行分类，输出最终的牵引供电设备缺陷等级分类结果；设置一般缺陷的输出期望为[0,0,1]，设置重大缺陷的输出期望为[0,1,0]，设置紧急缺陷的输出期望为[1,0,0]；

步骤I：在步骤H中模型的基础上使用compile函数来配置训练方法，使用adam优化器，学习率为0.001，设置损失函数loss为多分类损失函数'categorical_crossentropy'，标注评价指标metrics为准确率'accuracy'；

步骤J：在步骤I中模型的基础上使用fit函数来执行训练过程，设置训练集的输入为步骤C中向量化表示的缺陷文本，标签设置为步骤H中向量表示的三类缺陷等级，根据缺陷文本数量n合理设置分批参数batch_size，迭代次数epochs，设置验证集划分参数validation_split为0.2；

步骤K：新产生的λ条待分类缺陷文本的预测与评估；

将待分类文本作为步骤H中所得模型的输入，利用predcit函数预测并输出每条缺陷文本分别属于一般、重大、紧急缺陷的概率，输出记作为矩阵result；

预测：对矩阵result利用argmax函数，输出模型对各条缺陷文本对应的缺陷等级的判断结果，即result矩阵中各条缺陷文本对应的概率最大的缺陷等级；输出形式为λ维向量，每一维均为0、1、2其中的一个数字，0、1、2分别对应一般，重大，紧急三个缺陷等级；

评估：将待分类文本作为步骤H中所得模型的输入，利用evaluate函数评估缺陷文本的损失值loss及分类准确率accuracy；输出形式为二维向量，第一维是损失值loss，第二维是分类准确率accuracy。

2.根据权利要求1所述的一种牵引供电设备缺陷等级分类方法，其特征在于，所述步骤F具体为：采用列数为n、行数为h的卷积窗口

与文本表示所得矩阵

r_i＝W·I_i:i+h-1(i＝1,2,…,m-h+1)

式中I_i:i+h-1表示从上至下第i个矩阵块；可知共进行了m-h+1次卷积，且每次卷积运算过后所得结果需再进行非线性化处理，非线性化结果c_i如下：

c_i＝ReLU(r_i+b)

式中ReLU为修正线性单元函数，b为偏置项；最终将得到的m-h+1个实数c_i依次排列便构成卷积层的向量