CN112182205A

CN112182205A - 一种利用文字识别识别电气设备中监测数据的处理方法

Info

Publication number: CN112182205A
Application number: CN202010860366.1A
Authority: CN
Inventors: 李�根; 梅华威; 刘冬; 张帅
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2021-01-05

Abstract

本发明涉及一种利用文字识别识别电气设备中监测数据的处理方法，其包括如下步骤：建立故障文本空间向量模型，进行文本特征提取；机器学习算法应用，采用机器学习建立分类模型，将电气设备故障文本分类；采用DA‑BiLSTM分类模型进行故障文本识别；本发明利用OCR技术实现了自动识别文本记录的故障数据，可以为电力系统故障文本分类提供了有力支撑，不仅能够提高故障文本分类的准确率，而且减少了人工分类的成本。

Description

一种利用文字识别识别电气设备中监测数据的处理方法

技术领域

本发明涉及一种利用文字识别识别电气设备中监测数据的处理方法。

背景技术

电力系统的复杂性与日俱增，电气设备的故障信息也正在以前所未有的速度增长，并且这些故障数据呈现出多元化的发展方向。原来都是通过人工的方式对故障进行记录，但是这种方式记录速度非常慢，无法满足当前信息快速增长下对故障的记录需求，目前对设备故障记录方式有文本、图片、视频、音频等口，其中文本记录为故障数据的主要记录方式，这些数据中往往记录着电气设备中隐藏的重要故障，而这些故障不易被发现又对设备及其重要。因此，对这些文本故障信息进行快速有效的识别分类非常困难。

发明内容

本发明所要解决的技术问题是提供一种利用文字识别识别电气设备中监测数据的处理方法，可以实现检测数据的自动识别，减少人工分类成本。

本发明所采用的技术方案是：一种利用文字识别识别电气设备中监测数据的处理方法，其特征在于其包括如下步骤：

建立故障文本空间向量模型，进行文本特征提取；

机器学习算法应用，采用机器学习建立分类模型，将电气设备故障文本分类；

采用DA-BiLSTM分类模型进行故障文本识别。

进一步的，建立故障文本空间向量模型时，首先分析电气设备故障文本特点，根据特点选择文本预处理方法，然后对预处理后的文本进行特征提取。

进一步的，所述文本预处理方法包括分词、去除停用词。

进一步的，在对文本进行特征提取时，采用卡方统计量、互信息法以及MCHI方法。

进一步的，机器学习算法应用过程中，首先对故障数据进行人工筛选，将存在明显误差、稀疏的故障数据去除，然后将处理后的数据按照预处理流程进行筛选，分别应用到支持向量机、k-最近邻、Logistic回归、Gradicnt Boosting、朴素贝叶斯机器学习分类模型中，对文本进行分类。

进一步的，在对文本分类之前，对模型进行预定义分类评估指标，根据电力设备缺陷的分类标准，将电力系统故障评估分为一般、重要、紧急3个等级。

进一步的，采用DA-BiLSTM分类模型进行故障文本识别的具体方法为：

语映射为一组向量实现对文本的分类；

DA-BiLSTM模型是将深层注意力机制和双层双向LSTM模型融合，能判断重要文本信息并进行分类，DA-BiLSTM模型结构包含嵌入层、双向LSTM层、注意力层和输出层；

嵌入层：该层的输入是由一组文本序列组成的故障文本信息，将不同的文本序列Y＝{y₁，y₂，...，y_n}映射到文本词向量空间RE；其中，E是嵌入层的长度，n是文本中词的个数；

BiLSTM层：LSTM将文本词向量作为输入，隐藏状态H＝(h₁,h₂,...h_t)是对词向量的注释；其中，ht是LSTM在时间步骤t的隐藏状态，总结从y₁到y_t所有词向量的信息；BiLSTM从前后两个方向获得词向量信息，BiLSTM模型包括前向LSTMf和后向LSTMf，前向LSTMF读取y₁到y_n向量，后向LSTMf读取y_n到y₁向量，并从两个方向上的向量注释获得最终向量表示：

式中

表示连接h1和hi，L表示LSTM的长度，两层BiLSTM是为了获得更准确的词向量特征。

注意力层：所有词向量对文本分类贡献率是不同的，注意力机制可以判断不同词向量的重要程度。该过程能基于隐藏状态ht而获得注意力权重a；特征向量s可以由当前状态ht和前面的状态ht-1得出。

输出层：s作为特征向量进行分类，并将分类结果反馈到最终连接的sofmax分类器层，该层输出所有类的概率分布。

本发明的积极效果为：

本发明利用OCR技术实现了自动识别文本记录的故障数据，可以为电力系统故障文本分类提供了有力支撑，不仅能够提高故障文本分类的准确率，而且减少了人工分类的成本。

附图说明

图1为本发明方法流程图；

图2为本发明算法分词步骤图；

图3为本发明DA-BiLSTM分类模型训练过程。

具体实施方式

如附图1所示，本发明的处理方法包括：

S01：故障文本空间向量模型建立。主要从三个方面对空间向量模型进行建立。首先分析电气设备故障文本特点，根据特点选择文本预处理的方法，预处理包括分词、去除停用词等，分词步骤如附图2。

一般情况下，为了增强数据的可用性，提高分类模型的准确度，首先要对收集的故障文本进行人工处理，如①对于纯文文本档的处理，需要清除文档中的某些标记、图画、视频、音频等，减少噪声污染；②中文文本需要经过分词、去停用词和字典中未登录词的处理；③剔除意义不大的噪声文本。接着对人工处理后的文本采用HMM方法进行分词预处理。

使复杂的文本变为可以划分特征项的相对简单的文本，接着对预处理后的文本进行特征提取，使用3种特征提取方法，分别为：卡方统计量、互信息法和MCHI方法，MCHI法是通过卡方统计量和互信息法融合而来，有效改进了这两种方法的缺陷，提高了特征提取准确率，最后对文本分类流程和分类评价指标进行描述。

S02：机器学习算法应用。首先对这些故障数据进行人工筛选，将存在明显误差的、稀疏的故障数据全部去除，降低噪音数据的干扰，然后将处理后的數据按照预处理流程进行筛选，特征提取是技术的关键，使用3种提取方法，包括CHI、MI、MCHI，分别应用到支持向量机、k-最近邻、Logistic回归、Gradicnt Boosting.朴素贝叶斯这5种经典的机器学习分类模型中。在对文本分类之前，所有模型都必须预定义分类评估指标。根据电力设备缺陷的分类标准，电力系统故障评估-.般被描述为3个等级“一般”、“重要”、“紧急”，基本上总结了故障的严重程度。MCHI方法不仅保留了CHI法和MI法的优点，还减少了CHI法没有统计特征项频数的缺点和MI法没有测量特征项本身频度的缺点，从而可有效识别权重较大的词汇。

S03：采用DA-BiLSTM分类模型进行故障文本识别。

采用机器学习模型对文本进行分类时，如果建立的文本词向量集合维度很高，分类模型的参数调节、训练时长等都会导致文本特征提取的准确率较差，从而影响最终分类结果。而深度学习模型不需要对文本进行特征提取，擅长解决词向量维度过高问题。深度学习的分类评价指标与传统的机器学习分类指标相同，由召回率、正确率和F-测度值表示。深度学习分类模型的过程首先需要收集电力缺陷文本，然后对缺陷文本进行分词、词向量训练，最后构建DA-BiLSTM模型对缺陷文本分类，其过程如图3所示。

语映射为一组向量实现对文本的分类；

式中

提出一种融合深层注意力机制的双层双向LSTM模型。双向LSTM图在隐藏层保存2个值，一个参与正向计算，一个参与反向计算，最终的输出值由2个计算过程决定，这就可以将上下文信息有效关联在一起，从而获得更全面、更准确的文本信息。双层LSTMI通过将一个句子分割为几部分，对于每部分都使用双向LSTM结合注意力机制将小句子映射为一个向量，然后对于映射得到的一组序列向量，我们再通过一层双向LSTM结合注意力机制将词语映射为--组向量实现对文本的分类。DA-BiLSTM模型是将深层注意力机制和双层双向LSTM模型融合，能判断重要文本信息并进行分类.DA-BiLSTM模型结构包含嵌入层、双向LSTM层、注意力层和输出层。

电气设备故障识别一般分为两种，一种是故障发生后对故障进行记录分析，另一种是定期对设备进行检查，对检查状况进行记录识别。第一种方法无论对电气设备还是用户部会造成很大的利益损失，而第二种方法会在故障发生之前识别出来，对电气设备进行了强有力的保护，预防重大事故的发生，也不会给用户带来不便。因此，电力产业公司一般采用第二种故障识别的方法，对电气设备进行有效维护以及对故障进行及时预测识别。电力系统的故障文本中记录了设备整个生命周期各个阶段的缺陷等数据，为了深入研究电力系统故障文本的应用价值，以电力变压器运维环节中的故障文本为例，其记录了变压器设备中不同组件或部位运行时的故障数据，以及变压器的健康状况、运行效果、在维护环节中某个部件出现的差错记录或设备维修后对系统的影响等，这些故障文本大多是短文本形式，其中夹杂着大量的数字、符号和字母，这些记录的内容能对电力系统可靠性分析提供重要的参考价值。但是，由于文本内容具有难切分、有歧义等特点，对故障文本的挖掘带来很大影响，从而影响了文本分类的准确性口。随着一种利用文字识别识别电气设备中监测数据的处理方法的应用，可以为电力系统故障文本分类提供了有力支撑，不仅能够提高故障文本分类的准确率，而且减少了人工分类的成本。

Claims

1.一种利用文字识别识别电气设备中监测数据的处理方法，其特征在于其包括如下步骤：

建立故障文本空间向量模型，进行文本特征提取；

采用DA-BiLSTM分类模型进行故障文本识别。

2.根据权利要求1所述的一种利用文字识别识别电气设备中监测数据的处理方法，其特征在于建立故障文本空间向量模型时，首先分析电气设备故障文本特点，根据特点选择文本预处理方法，然后对预处理后的文本进行特征提取。

3.根据权利要求2所述的一种利用文字识别识别电气设备中监测数据的处理方法，其特征在于所述文本预处理方法包括分词、去除停用词。

4.根据权利要求2所述的一种利用文字识别识别电气设备中监测数据的处理方法，其特征在于在对文本进行特征提取时，采用卡方统计量、互信息法以及MCHI方法。

5.根据权利要求1所述的一种利用文字识别识别电气设备中监测数据的处理方法，其特征在于机器学习算法应用过程中，首先对故障数据进行人工筛选，将存在明显误差、稀疏的故障数据去除，然后将处理后的数据按照预处理流程进行筛选，分别应用到支持向量机、k-最近邻、Logistic回归、Gradicnt Boosting、朴素贝叶斯机器学习分类模型中，对文本进行分类。

6.根据权利要求5所述的一种利用文字识别识别电气设备中监测数据的处理方法，其特征在于在对文本分类之前，对模型进行预定义分类评估指标，根据电力设备缺陷的分类标准，将电力系统故障评估分为一般、重要、紧急3个等级。

7.根据权利要求1所述的一种利用文字识别识别电气设备中监测数据的处理方法，其特征在于采用DA-BiLSTM分类模型进行故障文本识别的具体方法为：

语映射为一组向量实现对文本的分类；

式中

表示连接h1和hi，L表示LSTM的长度，两层BiLSTM是为了获得更准确的词向量特征；

注意力层：所有词向量对文本分类贡献率是不同的，注意力机制可以判断不同词向量的重要程度；该过程能基于隐藏状态ht而获得注意力权重a；特征向量s可以由当前状态ht和前面的状态ht-1得出；