CN114912460A

CN114912460A - 基于文本挖掘的精细化拟合识别变压器故障方法及设备

Info

Publication number: CN114912460A
Application number: CN202210538012.4A
Authority: CN
Inventors: 胡俊华; 李晨; 王雅雯; 蔺家骏; 王渊; 马国明; 郑一鸣; 高山; 刘咏飞; 杨景刚; 赵科
Original assignee: State Grid Zhejiang Electric Power Co Ltd; North China Electric Power University; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; North China Electric Power University; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-16

Abstract

本发明公开了基于文本挖掘的精细化拟合识别变压器故障方法及设备，属于变压器故障识别技术领域。本发明的基于文本挖掘的精细化拟合识别变压器故障方法，在数据预处理时，对变压器故障文本数据进行切分，同时进行数据增强处理，一方面能够有效避免语义信息丢失，另一方面在有限的样本量里向主体模型提供尽可能多的特征，使得变压器故障类型中样本数量少的故障描述文本在模型计算拟合损失值时占比更大，避免过拟合，增强了模型识别效果；通过全连接层进行线性降维处理得到全局语义向量；利用Canopy+K‑Means模型对所有计算结果进行聚类处理，识别出变压器故障文本数据的具体故障部位和故障类型，提升整体语义的理解能力，方案科学合理，切实可行。

Description

基于文本挖掘的精细化拟合识别变压器故障方法及设备

技术领域

本发明涉及基于文本挖掘的精细化拟合识别变压器故障方法及设备，属于变压器故障识别技术领域。

背景技术

电力变压器是电力系统正常运行中不可或缺的设备之一，在变压器发生故障后，巡检人员根据现场情况以文本形式进行记录并判断形成故障分析报告。由于巡检人员的实践经验、知识储备和专业能力良莠不齐，不仅对相同故障现象的记录有不同的描述形式，而且很多时候难以准确判断故障缘由，从而出现误判的情况，因此依靠人工判断的方法效率不高。随着人工智能领域自然语言处理技术的发展，可以实现基于电力文本信息挖掘的故障自动判别。

现有的针对电力文本信息挖掘的设备主要是基于TextCNN、BiLSTM、BERT以及传统机器学习等方法，现有设备中采用的分类方法主要有逻辑回归分类器、贝叶斯分类器、支持向量机等，这些设备可以实现样本数量多、故障类型数目单一的短文本机器识别与故障分类，但在对小样本、故障类型数目不确定的变压器故障长文本的识别与分类时易出现过拟合现象，导致故障识别准确率极低。

进一步，现有的设备无法实时反馈巡检人员高准确率的故障信息，不能满足电力现场的实际应用。

发明内容

针对现有技术的缺陷，本发明的目的一在于提供一种在数据预处理时，对变压器故障文本数据进行切分，同时进行数据增强处理，一方面能够有效避免语义信息丢失，另一方面在有限的样本量里向主体模型提供尽可能多的特征；其后对增强文本数据进行向量化处理；然后利用语言表征模型BERT预训练单元设置文本特征提取的初始参数；利用Canopy+K-Means模型对所有计算结果进行聚类处理，识别出变压器故障文本数据的具体故障部位和故障类型，进而能够有效提高语义特征提取质量，提升整体语义的理解能力，方案科学合理，切实可行的基于文本挖掘的精细化拟合识别变压器故障方法。

针对现有技术的缺陷，本发明的目的二在于提供一种能够实时反馈巡检人员高准确率的故障信息，并能够实现变压器故障案例的实时处理、分析，对数量少且包含多故障类型故障描述长文本具有高准确率的识别效果，缓解人员需求，大大降低了人工成本的基于文本挖掘的精细化拟合识别变压器故障设备。

为实现上述目的之一，本发明的第一种技术方案为：

基于文本挖掘的精细化拟合识别变压器故障方法，

包括以下步骤：

第一步：对变压器故障文本数据中超字数的句子文本进行切分，并做增强处理，得到增强文本数据，用以在有限的样本量里向主体模型提供尽可能多的特征；

第二步：对第一步中的增强文件数据，进行初始向量化处理，得到初始向量化的文本矩阵，用以转化为计算机能够理解和计算的向量形式，

第三步：对第二步中的初始向量化的文本矩阵，利用残差连接和层归一化处理进行编码，得到语句向量；

第四步：构建语言表征模型BERT对第三步中的语句向量进行线性降维处理，得到各类故障标签的概率；并通过添加权重动态调整语言表征模型BERT识别损失值；

第五步：对第四步中的各类故障标签的概率，通过Canopy+K-Means模型进行聚类分析；

提取得到变压器故障文本数据对应的类型标签；

第六步：根据第五步中的类型标签，识别出变压器故障文本数据描述的具体故障部位和故障类型。

本发明经过不断探索以及试验，在数据预处理时，对变压器故障文本数据进行切分，同时进行数据增强处理，一方面能够有效避免语义信息丢失，另一方面在有限的样本量里向主体模型提供尽可能多的特征；其后输入处理好的增强文本数据，对增强文本数据进行向量化处理；然后利用语言表征模型BERT预训练单元设置文本特征提取的初始参数；利用Canopy+K-Means模型对所有计算结果进行聚类处理，识别出变压器故障文本数据的具体故障部位和故障类型，进而能够有效提高语义特征提取质量，提升整体语义的理解能力，方案科学合理，切实可行。

进一步，本发明提供了一种基于文本挖掘的精细化拟合识别变压器故障方法，提高包括多故障类型的变压器故障长文本的识别准确率，满足现场实际应用；并且能实现变压器故障案例的高效处理、分析，对数量少且包含多故障类型故障描述长文本具有高准确率的识别效果，缓解人员需求，大大降低了人工成本。

作为优选技术措施：

所述第一步中，变压器故障文本数据包括故障描述文本和故障类型，其规律性地填写在同样的表格位列；

由于故障描述文本超过最大文本长度时会造成信息丢失，在同一故障类型的描述文本中，当句子文本长度超过最大文本长度时，将原本的变压器故障文本以标点符号进行切分，其包括以下内容；

每一句子文本长度最长为L字符，最短句子文本长度为M；

当句子长度小于M时，将若干句子拼接，以满足最短字符长度；

当句子长度在[M，L]区间内时，句子不做拼接；

拼接后的句子按照长度大小进行排序，长度相近的句子放入同一训练批次，避免句子长短不一影响同一批次的训练时长；

同时，故障描述文本经数据增强处理后向主体模型提供更多的特征向量。

作为优选技术措施：

所述第二步中，向量化处理，包括以下内容：

将变压器故障文本数据中的单个字符作为最小单位token，然后经过若干嵌入层得到初始文本向量矩阵Xe,0；

若干嵌入层至少包括标记嵌入层、片段嵌入层、位次嵌入层。

作为优选技术措施：

标记嵌入层包括以下内容：

采用transformer机制对变压器故障文本数据中的单个字符进行随机初始化，将各字符转换为固定维的向量，然后再进行token-id转换，经id映射得到相应的向量表示，再在各文本的开头和结尾分别加以向量[CLS]和向量[SEP]；

片段嵌入层包括以下内容：

利用向量[SEP]对两个文本在语义上是否相似进行分类，用至少两个向量表示，第一个句子向量的索引号为A，属于这个句子的所有标记的索引都被标记为A；第二个句子向量的索引号为B，属于该句子的所有标记的索引均标记为B；

片段嵌入层的向量是通过索引号对照片段嵌入表得到的；

所述位次嵌入层为向量对照查询表，其包括以下内容：

当文本字数不足最大文本长度时，需要对其进行长度补齐，补齐位置无意义，不参与后续计算；

初始文本向量矩阵X_e,0通过若干嵌入层的向量表示进行求和得到，并传递给语言表征模型BERT。

作为优选技术措施：

所述第三步中，语句向量经过12个编码层进行并行编码处理，通过识别句首的向量[CLS]得到向量y^[CLS]；每个编码层内部的残差连接和层归一化处理，用于解决特征提取饱和问题；

语句向量的得到过程如下所述；

文本矩阵为X_e，0，其通过与预训练模型的权重矩阵W^Q、W^K、W^V相乘得到查询向量矩阵Q、键向量矩阵K和值向量矩阵V；

Q和K相乘得到每个词和其他各个词的权重表；

为了不让分值随着向量维度的增加而增加，将Q和K的乘积结果除以

然后利用逻辑回归模型Softmax进行归一化，归一化后与V相乘给每一个字符赋予权重，最后将相乘的结果向量相加，得到新的语句向量，其具体的计算公式如下：

X_e，i×W^Q＝Q

X_e，i×W^K＝K

X_e，i×W^V＝V

Q.shape＝[m，d_k]

K^T.shape＝[d_k，m]

V.shape＝[m，d_v]

A＝QK^T，shape＝[m，m]

B＝softmax(A，dim＝0)，shape＝[m，m]

out＝B*V，shape＝[m，d_v]

其中，d为向量维度；

d_Q，sh为查询向量矩阵Q中每个字符对应的向量维度；

d_K，sh为键向量矩阵K中每个字符对应的向量维度；

d_V，sh为值向量矩阵V矩阵中每个字符对应的向量维度；

m为每条文本的总字数；

上述计算公式是单头注意力机制得到单个字符全局语义融合向量的方式，在Q，K，V矩阵中每个字符对应的向量维度等于多头注意力机制下的向量维度d_mh除以自注意力机制的个数n，本发明模型中n为12，d_mh为768，其计算公式如下：

其中，sh表示single-head缩写，mh表示multi-head缩写；

利用多头注意力计算方式融合关键语义信息并得到新的语句向量，然后通过识别句首的全局语义向量[CLS]，将新的语句向量y^[CLS]用于后续工作；

MultiHead(Q，K，V)＝Concat(head₁，……，headh)W⁰。

作为优选技术措施：

所述第四步中，语言表征模型BERT编码层最终输出的语句向量y[CLS]的维度是d_mh，其为768维，仅含有语义向量信息，再经过语言表征模型BERT内的全连接层做线性降维处理，得到各类故障标签的概率；

利用逻辑回归函数Softmax对y[CLS]做概率归一化处理，得到一维向量y^out，该向量对应的数值即代表对应故障类型标签的概率；

选用最大概率值对应的标签为所预测的变压器故障类型，其计算公式如下：

y^out＝Softmax(W^out·y^[CLS]+b^out)

式中W^out和b^out是全连接层的权值矩阵和偏差向量。

动态调整语言表征模型BERT识别损失值的方法如下：

迭代次数是主要决定模型性能的超参数之一，选择迭代次数过大时会导致模型出现欠拟合现象，而且模型训练速度也很慢，选择迭代次数过小时模型会出现过拟合现象；由于变压器故障文本数量较少，本发明设置初始迭代次数为50，当模型准确率在连续批次里无法明显提升时，则迭代次数按照40、30、20、10、5依次进行尝试；在调试过程中，模型在迭代次数为10时有最好的拟合效果；

但变压器故障多样，包含有常发故障与偶发故障，因而变压器故障实例的数量分布不均匀，每类变压器故障文本所能提供的特征向量与该故障类型的文本数量成正比，若直接采用以往在电力系统领域常用的交叉熵的方法计算损失值，即每个故障文本的权重一样，那么在识别样本数量较少的故障类型时容易出现过拟合现象，识别效果不理想；为了进一步提升模型拟合效果，本发明又做了损失值计算方法的调整。

在交叉熵损失函数的基础上添加权重，给数据量少的类别赋予更高的权重，使网络模型重视小样本类别，对所有类型的故障描述文本进行精细化拟合，其计算公式如下所示：

式中L_j表示第j个训练批次的模型损失值，N表示一个训练批次的变压器故障文本数；p_i表示一个训练批次里第i个故障样本标签的识别准确率。

通过调试，本发明设备在N＝2，β＝2时有最好的效果；通过添加权重动态调整模型的识别损失值，令变压器故障类型中样本数量少的故障描述文本在模型计算拟合损失值时占比更大，避免过拟合，增强了模型识别效果。

作为优选技术措施：

所述第五步中，Canopy+K-Means模型包括Canopy单元、K-Means单元；

所述Canopy单元，用于对标签概率值y^out进行初步聚类，获得K值和K个初始聚类中心；所述K-Means单元，用于对标签概率值y^out做精细聚类分析；

聚类分析的方法如下：

所有的标签概率值y^out在计算机中以集合list形式存储，选择一个距离阈值L，L由下式计算可得：

式中D代表点的欧式距离运算，N代表总的变压器故障文本数；

从标签概率值y^out的集合中随机取出一点P₁(n₁，n₂),将它视为第一类故障类型，继续从集合中随机取出点P₂、P₃、P₄、……P_N，计算出新取出的点到属于第一类故障类型中所有点的距离，若距离均小于L，则将该点从集合list中删除，若距离均大于L，则将该点从集合list中抽取出来作为新的故障类型；不断重复计算直到集合中的点为空，初步聚类结束，得到K值和K个初始聚类中心，本发明计算得K为15；

接着做K-means单元运算，计算所有点到K个初始聚类中心的距离，将各点分别与距离最近的初始聚类中心归为一类，再计算每个聚类的平均值作为新的聚类中心，反复迭代直到聚类中心的位置不再变化为止，最后提取得到变压器故障文本数据对应的类型标签。

作为优选技术措施：

还包括变压器故障识别设备性能评估，其具体包括以下内容：

将变压器故障文本数据集按照8:2的比例随机划分为训练集和测试集，训练集用于设备训练，测试集用于设备性能评估；

性能评价指标值为F₁值，F₁值的计算公式如下：

为实现上述目的之一，本发明的第二种技术方案为：

基于文本挖掘的精细化拟合识别变压器故障设备，

应用上述的基于文本挖掘的精细化拟合识别变压器故障方法；

其包括键盘、显示屏、处理器、输入变压器故障文本单元、主存储单元、外存储单元、电源模块、基于文本挖掘的精细化拟合识别变压器故障模块以及输出变压器故障部位及类型单元；

所述基于文本挖掘的精细化拟合识别变压器故障模块包括文本向量化单元、语言表征模型BERT编码单元、变压器故障标签概率计算单元、Canopy+K-Means聚类分析单元，均封装存储在主存储单元内；

巡检人员经键盘将变压器故障文本数据输入到变压器故障文本单元，或外存储单元读取变压器故障文本数据；

主存储单元对传入设备中的变压器故障文本数据进行存储并读取传至基于文本挖掘的精细化拟合识别变压器故障模块中处理分析，然后将精细化拟合识别变压器故障模块分析出的结果数据返回至主存储单元中，最后经输出变压器故障部位及类型单元输出识别结果。

本发明经过不断探索以及试验，设置键盘、显示屏、处理器、输入变压器故障文本单元、主存储单元、外存储单元、电源模块、基于文本挖掘的精细化拟合识别变压器故障模块以及输出变压器故障部位及类型单元，能够实时反馈巡检人员高准确率的故障信息，并能够实现变压器故障案例的实时处理、分析，对数量少且包含多故障类型故障描述长文本具有高准确率的识别效果，缓解人员需求，大大降低了人工成本。

为实现上述目的之一，本发明的第三种技术方案为：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于文本挖掘的精细化拟合识别变压器故障方法。

与现有技术相比，本发明具有以下有益效果：

本发明经过不断探索以及试验，在数据预处理时，对变压器故障文本数据进行切分，同时进行数据增强处理，一方面能够有效避免语义信息丢失，另一方面在有限的样本量里向主体模型提供尽可能多的特征；其后输入处理好的增强文本数据，对增强文本数据进行向量化处理；然后利用语言表征模型BERT预训练单元设置文本特征提取的初始参数，接着进入语言表征模型BERT编码层，通过持续迭代文本数据，可以改进语言表征模型BERT模型的关键权重参数，同时动态调整不同故障类型文本的识别损失值权重，可获取最优全局特征向量，使得变压器故障类型中样本数量少的故障描述文本在模型计算拟合损失值时占比更大，避免过拟合，增强了模型识别效果；随后将该向量输入至全连接层进行线性降维处理得到全局语义向量；最后对全局语义向量做归一化处理得到每个故障文本的标签概率值，利用Canopy+K-Means模型对所有计算结果进行聚类处理，识别出变压器故障文本数据的具体故障部位和故障类型，进而能够有效提高语义特征提取质量，提升整体语义的理解能力，方案科学合理，切实可行。

进一步，本发明经过不断探索以及试验，设置键盘、显示屏、处理器、输入变压器故障文本单元、主存储单元、外存储单元、电源模块、基于文本挖掘的精细化拟合识别变压器故障模块以及输出变压器故障部位及类型单元，能够实时反馈巡检人员高准确率的故障信息，并能够实现变压器故障案例的实时处理、分析，对数量少且包含多故障类型故障描述长文本具有高准确率的识别效果，缓解人员需求，大大降低了人工成本。

更进一步，本发明针对变压器故障识别问题，提供了一种适用于长文本、多故障类型、小样本的变压器故障识别设备，其具有以下优势：

1)本发明提出的动态调整模型损失值的计算方法避免了因数据量少而引发的过拟合问题，比传统的交叉熵损失值计算方法的拟合效果更好。通过增大小样本数据的损失值权重，降低样本量多且易识别数据的损失值权重，在损失函数计算公式中N取2，取2时有最好的聚类效果，实现了对训练样本的精细化拟合，有效提升设备对数据量分布不均匀、含多故障类型变压器故障文本的识别效果。

2)本发明提供的设备实现了机器对包含多故障类型故障描述长文本的高准确率识别，对比当前常用的TextCNN、BiLSTM、单一BERT及传统机器学习等方法，其F1值可以提高4％至50％，大幅提升变压器故障识别的效率，降低人工成本。

3)本发明设备利用Canopy+K-Means对变压器故障类型标签概率计算结果进行聚类处理，K取15时有最佳聚类效果，可以避免无关识别结果的输出。

4)本发明设备利用变压器故障文本不断迭代改进中文BERT预训练模型中的查询向量矩阵、键向量矩阵、值向量矩阵等关键参数，可以提升模型下游的聚类任务效果。

5)本发明设备利用切分拼接句子对变压器故障文本进行数据增强处理，使主体模型在有限的数据量里能够学习到更多的特征向量。

6)本发明提供的设备能够实时反馈给巡检人员高准确率的故障识别信息，满足电力现场的实际应用。

附图说明

图1为本发明精细化拟合识别变压器故障方法的训练及评估流程图；

图2为本发明单个变压器故障描述文本生成X_e,0向量矩阵的流程图；

图3为本发明BERT的一个编码层示图；

图4为本发明Canopy+K-Means模型聚类分析流程图；

图5为本发明精细化拟合识别变压器故障的设备的硬件配置图；

图6为本发明基于文本挖掘的精细化拟合识别变压器故障模块框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

本发明基于文本挖掘的精细化拟合识别变压器故障方法的一种具体实施例：

基于文本挖掘的精细化拟合识别变压器故障方法，

包括以下步骤：

第一步：对已有的变压器故障文本数据中超字数的句子文本进行切分，并做增强处理，得到增强文本数据，用以在有限的样本量里向主体模型提供尽可能多的特征；

Canopy+K-Means模型包括Canopy单元、K-Means单元；

先利用Canopy单元对标签概率值yout进行初步聚类，获得K值和K个初始聚类中心；然后再使用K-Means单元对标签概率值yout做精细聚类分析；

最后提取得到变压器故障文本数据对应的类型标签；

如图1-图4所示，本发明基于文本挖掘的精细化拟合识别变压器故障方法的一种最佳具体实施例：

本发明结合BERT模型和Canopy+K-Means算法提出一种包括多故障类型的变压器故障精细化拟合识别方法。

基于文本挖掘的精细化拟合识别变压器故障方法，其包括以下内容：

首先输入原始变压器故障分析报告，自动抽取出变压器故障报告中的故障现象描述及故障原因；在数据预处理时，对变压器故障文本进行数据增强处理，在有限的样本量里向主体模型提供尽可能多的特征；其后输入处理好的文本数据，对数据进行向量化处理；然后利用BERT预训练模型设置文本特征提取的初始参数，接着进入BERT编码层，通过持续迭代文本数据，可以改进BERT模型的关键权重参数，同时动态调整不同故障类型文本的识别损失值权重，可获取最优全局特征向量；随后将该向量输入至全连接层进行线性降维处理得到全局语义向量；最后对全局语义向量做归一化处理得到每个故障文本的标签概率值，利用Canopy+K-Means对所有计算结果进行聚类处理，识别出变压器故障描述文本的具体故障部位和故障类型。

进而，基于文本挖掘的精细化拟合识别变压器故障方法，具体包括以下步骤：

第一步：对现有的变压器故障文本数据做增强处理

现有变压器故障报告中故障描述文本和故障类型都规律性地填写在同样的表格位列。BERT能处理的最大文本长度为512字符，当输入的故障描述文本超过最大文本长度时会造成信息丢失。因此设定，在同一故障类型的描述文本中，当句子文本长度超过最大文本长度时，将原本的变压器故障文本以标点符号进行切分。规定每一句子长度最长为150字符，最短字符长度为12，当句子长度小于12时需要做两句子拼接或三句子拼接以满足最短字符长度。当句子长度在[12，150]区间内时，句子不做拼接。拼接后的句子按照长度大小进行排序，长度相近的句子放入同一训练批次，避免句子长短不一影响同一批次的训练时长。变压器故障文本经数据增强处理后向主体模型提供更多的特征向量。

第二步：变压器故障文本初始向量化

本发明录入上述经数据增强处理后的变压器故障文本数据，首先对变压器故障文本数据进行向量化处理，转化为计算机可以理解和计算的向量形式。将变压器故障文本数据中的单个字符作为最小单位token，然后经过三个嵌入层得到初始文本向量矩阵X_e,0。第一个是Token嵌入层，采用transformer机制的随机初始化，将各字符转换为固定维的向量，然后再进行token-id转换，经id映射得到相应的向量表示，再在各文本的开头和结尾分别加以[CLS]和[SEP]向量，该层可以解决一词多义的问题。在BERT中，每个字符都表示为一个768维的向量。第二个是Segment嵌入层，其目的是利用[SEP]对两个文本在语义上是否相似进行分类，仅用两个向量表示，第一个句子向量的索引号为0，属于这个句子的所有tokens的索引都被标记为0，相反地，最后一个句子向量的索引号为1，属于该句子的所有tokens的索引均标记为1。Segment嵌入的向量是通过索引号对照Segment嵌入表得到的。第三个为Position嵌入层，在BERT中，Position嵌入层用来提取文本序列的顺序特征，而BERT能处理的最大文本长度为512，文本字数不足最大文本长度时，需要对其进行长度补齐，补齐位置无意义，不参与后续计算。该嵌入层就相当于一个大小为(512，768)的向量对照查询表，比如，当输入“变压器”和“主变”时，由于“变”和“主”都是输入序列中的第一个单词，所以具有相同的Position嵌入。最后，将三个嵌入层的向量表示进行求和得到初始文本向量矩阵X_e，0，也是传递给BERT预训练模型编码层的输入表示。

第三步：对初始向量化的文本矩阵进行编码

本发明将完成向量表达的初始文本向量矩阵X_e，0作为BERT预训练模型的输入，对字向量经过12个编码层进行并行编码处理，通过识别句首的[CLS]向量得到y^[CLS]。每个编码层内部利用残差连接处理，通过求和与层归一化以及前馈神经网络，得到新的向量矩阵X_e，1，用于解决模型特征提取饱和问题，参见图3。具体计算过程如下所述。

变压器故障描述文本经过初始向量化后得到词嵌入矩阵X_e，0，通过与预训练模型的权重矩阵W^Q、W^K、W^V相乘得到查询向量矩阵Q、键向量矩阵K和值向量矩阵V，Q和K相乘得到每个词和其他各个词的权重表，为了不让分值随着向量维度的增加而增加，将Q和K的乘积结果除以

然后利用Softmax按行归一化，归一化后与V相乘给每一个字符赋予权重，最后将相乘的结果向量相加，得到新的语句向量。

X_e，i×W^Q＝Q

X_e，i×W^K＝K

X_e，i×W^V＝V

Q.shape＝[m，d_k]

K^T.shape＝[d_k，m]

V.shape＝[m，d_v]

A＝QK^T，shape＝[m，m]

B＝softmax(A，dim＝0)，shape＝[m，m]

out＝B*V，shape＝[m，d_v]

上述计算公式是单头注意力机制得到单个字符全局语义融合向量的方式，在Q，K，V矩阵中每个字符对应的向量维度d等于多头注意力机制下的向量维度除以自注意力机制的个数n，本发明模型中n为12，d_mh为768，m为每条文本的总字数，sh表示single-head缩写，mh表示multi-head缩写。

本发明利用多头注意力计算方式融合关键语义信息并得到新的语句向量，然后通过识别句首的全局语义向量[CLS]，将新的语句向量y^[CLS]用于后续工作。

MultiHead(Q，K，V)＝Concat(head₁，……，hcad_h)W⁰

第四步：变压器故障类型标签概率计算

本发明中BERT编码层最终输出的语句向量y^[CLS]的维度是d_mh，为768维，仅含有语义向量信息，还需要经BERT内的全连接层做线性降维处理才能得到各类故障标签的概率。本发明利用Softmax对y^[CLS]做概率归一化处理，得到一维向量y^out，该向量对应的数值即代表对应故障类型标签的概率。本发明选用最大概率值对应的标签为所预测的变压器故障类型。计算公式如下：

y^out＝Softmax(W^out·y^[CLS]+b^out)

式中W^out和b^out是全连接层的权值矩阵和偏差向量。

第五步：动态调整模型识别损失值

迭代次数是主要决定模型性能的超参数之一，选择迭代次数过大时会导致模型出现欠拟合现象，而且模型训练速度也很慢，选择迭代次数过小时模型会出现过拟合现象。由于变压器故障文本数量较少，本发明设置初始迭代次数为50，当模型准确率在连续批次里无法明显提升时，则迭代次数按照40、30、20、10、5依次进行尝试。在调试过程中，模型在迭代次数为10时有最好的拟合效果。

但变压器故障多样，包含有常发故障与偶发故障，因而变压器故障实例的数量分布不均匀，每类变压器故障文本所能提供的特征向量与该故障类型的文本数量成正比，若直接采用以往在电力系统领域常用的交叉熵的方法计算损失值，即每个故障文本的权重一样，那么在识别样本数量较少的故障类型时容易出现过拟合现象，识别效果不理想。为了进一步提升模型拟合效果，本发明又做了损失值计算方法的调整。在交叉熵损失函数的基础上添加权重，给数据量较少的类别赋予更高的权重，使网络模型重视小样本类别，这样就可以做到对所有类型的故障描述文本进行精细化拟合，其计算公式如下所示：

通过调试，本发明设备在N＝2，β＝2时有最好的效果。通过添加权重动态调整模型的识别损失值，令变压器故障类型中样本数量少的故障描述文本在模型计算拟合损失值时占比更大，避免过拟合，增强了模型识别效果。

第六步：Canopy+K-Means聚类分析

每类变压器故障描述文本对应类型标签的概率是相近的。本发明利用Canopy算法在速度上的优势，先对y^out标签概率值进行初步聚类，获得K值和K个初始聚类中心。然后再使用K-Means算法对y^out标签概率值做精细聚类分析。具体操作如下所述。

所有的y^out标签概率值在计算机中以list集合形式存储，选择一个距离阈值L，L由下式计算可得：

式中D代表点的欧式距离运算，N代表总的变压器故障文本数。

从y^out标签概率值的集合中随机取出一点P₁(n₁，n₂),将它视为第一类故障类型，继续从集合中随机取出点P₂、P₃、P₄、……P_N，计算出新取出的点到属于第一类故障类型中所有点的距离，若距离均小于L，则将该点从list集合中删除，若距离均大于L，则将该点从list集合中抽取出来作为新的故障类型。不断重复计算直到集合中的点为空，初步聚类结束，得到K值和K个初始聚类中心，本发明计算得K为15。

接着做K-means运算，计算所有点到K个初始聚类中心的距离，将各点分别与距离最近的初始聚类中心归为一类，再计算每个聚类的平均值作为新的聚类中心，反复迭代直到聚类中心的位置不再变化为止，最后提取得到变压器故障描述文本对应的类型标签。

第七步：变压器故障识别设备性能评估

将变压器故障文本数据集按照8:2的比例随机划分为训练集和测试集，训练集用于设备训练，测试集用于设备性能评估。本发明采用F₁值作为设备的性能评价指标，利用下式可计算得到设备的F₁值。

如图5所示，本发明基于文本挖掘的精细化拟合识别变压器故障设备的一种具体实施例：

本发明基于上述方法形成了一套相应的变压器故障设备，该设备的硬件配置包括键盘、9.7英寸1080P显示屏、Zynq UltraScale+MPsoc处理器、输入变压器故障文本单元、主存储单元、外存储单元、电源模块、基于文本挖掘的精细化拟合识别变压器故障模块以及输出变压器故障部位及类型单元、显示设备。其中基于文本挖掘的精细化拟合识别变压器故障模块包括文本向量化单元、BERT编码单元、变压器故障标签概率计算单元、Canopy+K-Means聚类分析单元，均封装存储在主存储单元内。

该设备的整体运作流程是，巡检人员经键盘输入变压器故障文本单元或外存储单元读取将变压器故障文本数据传入设备中，主存储单元对传入设备中的文本数据进行存储并读取传至基于文本挖掘的精细化拟合识别变压器故障模块中处理分析，然后将模块分析出的结果数据返回至主存储单元中，最后经输出变压器故障部位及类型单元输出识别结果，并在显示设备上进行显示。

如图6所示，本发明精细化拟合识别变压器故障模块的一种具体实施例：

所述基于文本挖掘的精细化拟合识别变压器故障模块包括变压器故障文本初始向量化单元、变压器故障文本向量矩阵编码单元、变压器故障类型标签概率计算单元、Canopy+K-Means聚类分析单元，均封装存储在主存储单元内。

本发明提供的基于文本挖掘的精细化拟合变压器故障识别设备是一种针对变压器故障文本特征的识别设备，切实地考虑了故障文本长、故障类型多、多歧义、难切分等特点，能够解决因字符间距离过长导致的词汇顺序和位置信息等关键信息的丢失问题，判别出具体的故障类型，最终变压器故障识别设备可以得到极高的F1值。在电力现场实际工作环境中，相关电力人员由于经验不足，可能会存在对变压器故障类型的误判，本发明提供的设备对现场人员处理同类型变压器故障和实现变压器故障类型的预判具有重要的参考意义，具体可参见表1。

表1

应用本发明方法的一种计算机介质实施例：

本申请术语解释：

机器学习

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

电力文本

在电力操作规则、运维记录、调度运行记录、营销档案、客服、故障检修中产生的大量文本类数据。

语言表征模型BERT

全称Bidirectional Encoder Representation from Transformers，指基于转换器的双向编码表征，是2018年10月由Google AI研究院提出的一种预训练模型。

LSTM

全称Long short term memory，指长短期记忆人工神经网络，是为了解决一般的Recurrent Neural Network(循环神经网络)存在的长期依赖问题而专门设计出来的神经网络。

BiLSTM

BiLSTM全称Bidirectional Long Short Term Memory，指含注意力机制的双向长短期记忆人工神经网络，适用于复杂程度较高的场景，同时能够更好地捕捉文本里的长期依赖。

TextCNN

全称Text Convolutional Neural Networks，指文本卷积神经网络，是YoonKim在2014年提出用来做文本分类的卷积神经网络。

过拟合

指为了得到一致假设而使假设变得过度严格。

逻辑回归分类器

用一条直线对一些现有的数据点进行拟合的过程，就叫做回归，逻辑回归分类器的主要思想是根据现有数据对分类边界建立回归公式，并以此分类。

贝叶斯分类器

通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。

支持向量机

支持向量机是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。

文本向量化

将文本表示成一系列能够表达文本语义的向量，是文本表示的一种重要方式。

预训练模型

在某一任务模型训练结束时结果比较好的一组权重值，可广泛应用于别的模型作为基础参数值。

[CLS]和[SEP]

[CLS]和[SEP]的全称分别为classification分类和separator分隔，是语言表征模型BERT模型中具有标志作用的向量，[CLS]放在一个句子的首位，[SEP]放在一个句子的末尾。

编码

将自然语言序列转换为数学表达。

聚类

将物理或抽象对象的集合分为由类似的对象组成的多个类的过程被称为聚类。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.基于文本挖掘的精细化拟合识别变压器故障方法，其特征在于，包括以下步骤：

第一步：对变压器故障文本数据中超字数的句子文本进行切分，并做增强处理，得到增强文本数据；

第二步：对第一步中的增强文件数据，进行初始向量化处理，得到初始向量化的文本矩阵，

提取得到变压器故障文本数据对应的类型标签；

2.如权利要求1所述的基于文本挖掘的精细化拟合识别变压器故障方法，其特征在于，

切分的方法，包括以下内容；

每一句子文本长度最长为L字符，最短句子文本长度为M；

当句子长度小于M时，将若干句子拼接；

当句子长度在[M，L]区间内时，句子不做拼接；

拼接后的句子按照长度大小进行排序，长度相近的句子放入同一训练批次。

3.如权利要求1所述的基于文本挖掘的精细化拟合识别变压器故障方法，其特征在于，

所述第二步中，向量化处理，包括以下内容：

将变压器故障文本数据中的单个字符作为最小单位token，然后经过若干嵌入层得到初始文本向量矩阵X_e,0；

4.如权利要求3所述的基于文本挖掘的精细化拟合识别变压器故障方法，其特征在于，

标记嵌入层包括以下内容：

片段嵌入层包括以下内容：

利用向量[SEP]对两个文本在语义上是否相似进行分类，用至少两个向量表示，第一个句子向量的索引号为A，属于这个句子的所有标记的索引都被标记为A；

第二个句子向量的索引号为B，属于该句子的所有标记的索引均标记为B；

片段嵌入层的向量是通过索引号对照片段嵌入表得到的；

所述位次嵌入层向量对照查询表其包括以下内容：

5.如权利要求1所述的基于文本挖掘的精细化拟合识别变压器故障方法，其特征在于，

语句向量的得到过程如下所述；

文本矩阵为X_e,0，其通过与预训练模型的权重矩阵W^Q、Q^K、W^V相乘得到查询向量矩阵Q、键向量矩阵K和值向量矩阵V；

Q和K相乘得到每个词和其他各个词的权重表；

将Q和K的乘积结果除以

X_e，i×W^Q＝Q

X_e，i×W^K＝K

X_e，i×W^V＝V

Q.shape＝[m，d_k]

K^T.shape＝[d_k，m]

V.shape＝[m，d_v]

A＝QK^T，shape＝[m，m]

B＝softmax(A，dim＝0)，shape＝[m，m]

out＝B*V，shape＝[m，d_v]

其中，d为向量维度；

d_Q，sh为查询向量矩阵Q中每个字符对应的向量维度；

d_K，sh为键向量矩阵K中每个字符对应的向量维度；

d_V，sh为值向量矩阵V矩阵中每个字符对应的向量维度；

m为每条文本的总字数；

在Q，K，V矩阵中每个字符对应的向量维度等于多头注意力机制下的向量维度d_mh除以自注意力机制的个数n，其计算公式如下：

其中，sh表示single-head缩写，mh表示multi-head缩写；

利用多头注意力计算方式融合关键语义信息并得到新的语句向量，然后通过识别句首的向量[CLS]，将新的语句向量y^[CLS]用于后续工作；

MultiHcad(Q，K，V)＝Concat(hcad₁，……，hcad_h)W⁰。

6.如权利要求1所述的基于文本挖掘的精细化拟合识别变压器故障方法，其特征在于，

利用逻辑回归函数Softmax对y[CLS]做概率归一化处理，得到一维向量y^out，该向量对应的数值代表对应故障类型标签的概率；

y^out＝Softmax(W^out·y^[CLS]+b^out)

式中W^out和b^out是全连接层的权值矩阵和偏差向量；

动态调整语言表征模型BERT识别损失值的方法如下：

7.如权利要求1所述的基于文本挖掘的精细化拟合识别变压器故障方法，其特征在于，

所述第五步中，Canopy+K-Means模型包括Canopy单元、K-Means单元；

所述Canopy单元，用于对标签概率值y^out进行初步聚类，获得K值和K个初始聚类中心；

所述K-Means单元，用于对标签概率值y^out做精细聚类分析；

聚类分析的方法如下：

从标签概率值y^out的集合中随机取出一点P₁(n₁，n₂),将它视为第一类故障类型，继续从集合中随机取出点P₂、P₃、P₄、……P_N，计算出新取出的点到属于第一类故障类型中所有点的距离，若距离均小于L，则将该点从集合list中删除，若距离均大于L，则将该点从集合list中抽取出来作为新的故障类型；不断重复计算直到集合中的点为空，初步聚类结束，得到K值和K个初始聚类中心；

8.如权利要求1所述的基于文本挖掘的精细化拟合识别变压器故障方法，其特征在于，

性能评价指标值为F₁值，F₁值的计算公式如下：

9.基于文本挖掘的精细化拟合识别变压器故障设备，其特征在于，

应用如权利要求1-8任一所述的基于文本挖掘的精细化拟合识别变压器故障方法；

10.一种计算机可读存储介质，其特征在于，

其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-8任一所述的基于文本挖掘的精细化拟合识别变压器故障方法。