CN109740164B

CN109740164B - 基于深度语义匹配的电力缺陷等级识别方法

Info

Publication number: CN109740164B
Application number: CN201910020562.5A
Authority: CN
Inventors: 罗麟; 位一鸣; 袁海范; 邓业; 杨海波; 潘巍巍
Original assignee: State Grid Corp of China SGCC; Zhoushan Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Zhoushan Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2023-08-15
Anticipated expiration: 2039-01-09
Also published as: CN109740164A

Abstract

本发明公开了一种基于深度语义匹配的电力缺陷等级识别方法，涉及电力缺陷等级识别技术领域。传统的文本分类模型有基于布尔值的向量空间模型，无法考虑深层次的上下文语义，向量稀疏，不具有可解释性等缺点，针对电力设备缺陷文本，分类精度不高。本方法采用深度神经网络将句子分为输入层、表示层、匹配层、排序层与输出层等五层结构，实现深度结构语义模型；然后在输入层基于word hashing和分词模型对文本进行预处理；再基于深度神经网络，依次训练了输入层、表示层、匹配层，得到缺陷文本的低维表示向量；最后基于cosin距离的语义相似度和TopK排序模型得到待分类文本的平均缺陷等级。有效提升缺陷文本的等级识别率，实现高精度的电力缺陷等级识别。

Description

基于深度语义匹配的电力缺陷等级识别方法

技术领域

本发明涉及电力缺陷等级识别技术领域，尤其涉及基于深度语义匹配的电力缺陷等级识别方法。

背景技术

在电力设备的日常运行与维护过程中，通常需要对电力设备的缺陷进行记录，记录内容通常包括缺陷设备类型、名称、缺陷发现日期、缺陷说明、缺陷分类等，从而形成大量的电力缺陷文本。与缺陷记录的其他内容不同，缺陷说明以短文本的形式进行记录，没有固定的格式与结构，但其包含了较为重要的缺陷信息，如设备发生缺陷的具体部件、缺陷的具体现象等，是对缺陷其他记录内容的重要补充，尤其是对于一些模糊性较强的缺陷，巡检人员都会将具体的缺陷信息以文本的形式详细记录在缺陷说明中，因此缺陷说明包含的信息对于缺陷的评估往往具有重要的价值。

按照电力设备缺陷分类标准，缺陷分类可按缺陷严重程度分为“一般”、“重要”和“紧急”三类，分类的任务一般由人工完成。通过机器学习的方法，利用现有的缺陷文本进行训练，挖掘缺陷说明中包含的具体缺陷信息，可以实现缺陷的自动分类。

与一般的中文文本相比，电力设备缺陷说明文本有以下的特点：

1)缺陷说明文本涉及电力设备专业领域内容，含有大量电气专业词汇，且由于巡检人员经验与习惯不同，对同一部件可能有不同的描述方式，如“储油柜”和“油枕”、“气体继电器”和“瓦斯继电器”等等。

2)由于各种缺陷的复杂性不同以及巡检人员记录详细程度的差异，各条缺陷说明的文本长度差别很大，最短的可少至4个词，最长的可达40多个词。

3)有相当一部分的缺陷说明文本中混杂着文字和数字，如“压力释放阀漏油，1分钟15到20滴”，这些包含量化信息的字段对缺陷等级的分类有着重要甚至决定性的作用。

4)缺陷说明文本的数据量大，有利于机器学习挖掘文本中隐含的规律，但同时也对分类模型的分类效率和存储开销提出了一定的要求。

传统的文本分类模型有基于布尔值的向量空间模型，其基本思想是用矩阵实现对句子集合的表示，矩阵的每一行代表一个句子的句向量，矩阵的列则表示句子的特征，每个句子的特征数一致；还有基于TF-IDF(词频-逆文档频率)的词频特征模型，即将分词形成的字典中的每个词作为一个特征，每个特征的权重由TF-IDF指标计算得到，权重的大小与对应的词在该句子中出现的频率以及在其他句子中出现的频率有关。除此之外，基于LDA(隐狄利克雷分布)的主题向量模型，即首先根据所有文本的内容生成若干个主题，每个主题作为一个特征，再根据句子与每个主题的相关度对每个特征赋予权重，从而得到句子的句向量。但是，以上传统方法无法考虑深层次的上下文语义，向量稀疏，不具有可解释性等缺点，进而导致分类精度不高，或者泛化能力较差。

发明内容

本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进，提供基于深度语义匹配的电力缺陷等级识别方法，以实现高精度的电力缺陷等级识别为目的。为此，本发明采取以下技术方案。

基于深度语义匹配的电力缺陷等级识别方法，包括以下步骤：

1)构建深度结构语义模型，采用深度神经网络将句子从下往上可以分为五层结构，包括输入层、表示层、匹配层、排序层与输出层；

2)基于word hashing和分词模型对文本进行预处理，构建输入层；

3)基于深度神经网络，依次训练了输入层、表示层、匹配层，得到了缺陷文本的低维表示向量；

4)基于cosin距离的语义相似度和TopK排序模型得到了待分类文本的平均缺陷等级。

能够有效地提升缺陷文本的等级识别率，实现高精度的电力缺陷等级识别。

作为优选技术手段：

所述的输入层为待分类的缺陷文本，以及N条训练集文本，把句子映射到一个向量空间里并输入到DNN中。

作为优选技术手段：

步骤2)中，针对英文与数字预处理时，采用基于字的n-gams来切分单词。例：10kV这个英文-数字词组会被切为#-1-0,1-0-k,0-k-V,k-V-#。数字与字母的组合相对中文更有限，这样可以起到压缩空间的作用，而前缀后缀具有通用的语义，可以增强泛化能力。

作为优选技术手段：

步骤2)中，针对中文文本分词预处理时，由于中文文本的词与词之间没有空格的自然分界，因此，在文本表示之前需要对中文文本进行分词，采用隐马尔科夫模型，并借助自行编纂的电力设备缺陷词典，对缺陷说明文本进行分词。

作为优选技术手段：

步骤3)中，通过输入层，将英文、数字和中文转化为词袋型BOW表示，再输入紧接着是一个含有多个隐层的DNN，其中，第一层向量为500000维，后续隐层向量为300维，输出向量为128维，且采用tanh作为隐层和输出层的激活函数，最终输出一个128维的低维语义向量V。

作为优选技术手段：

步骤3)中，将第i条待分类的文本的语义向量V_i与训练库中各文本的综合向量V_j进行相似度计算，如下公式所示：

接着，通过Softmax函数可以把两条文本的语义相似性转化为一个后验概率：

其中γ为Softmax的平滑因子；

然后，在训练阶段，以极大似然估计函数最小作为训练目标，借助随机梯度下降算法SGD更新表示层中的网络参数，直至收敛，由此训练得到DSSM最后的网络结构。

作为优选技术手段：

步骤4)中，在线分类时，将待计算文本输入训练好的DSSM网络结构中，得到排序前k名的缺陷文本及其对应的缺陷等级。

有益效果：能够有效地提升缺陷文本的等级识别率，提升泛华能力，实现高精度的电力缺陷等级识别。

附图说明

图1是本发明深度结构语义模型的流程图。

图2是本发明表示层的隐层结构示意图。

具体实施方式

以下结合说明书附图对本发明的技术方案做进一步的详细说明。

如图1所示，基于深度语义匹配的电力缺陷等级识别方法，包括以下步骤：

2)基于word hashing和分词模型对文本进行预处理，构建输入层，输入层为待分类的缺陷文本，以及N条训练集文本，N的数值越大越好，把句子映射到一个向量空间里并输入到DNN中；由于电力缺陷文本是中文、英文字母、数字夹杂的情况，而这三种字符的处理有较大不同：

针对英文与数字预处理时，采用基于字的n-gams来切分单词，则10kV这个英文-数字词组会被切为#-1-0,1-0-k,0-k-V,k-V-#。数字与字母的组合相对中文更有限，这样可以起到压缩空间的作用，而前缀后缀具有通用的语义，如KV和MW等前后缀词，可以增强泛化能力，本实例中，n取值3。

针对中文文本分词预处理时，由于中文文本的词与词之间没有空格的自然分界，因此，在文本表示之前需要对中文文本进行分词，采用隐马尔科夫模型，并借助自行编纂的电力设备缺陷词典，对缺陷说明文本进行分词，部分缺陷字典见下表：

注：上表中“/”后为词性的标注，其中v为动词，ad为副形词，n为名词，m为数词，等等。

部分缺陷说明分词结果表如下表：

对于一些无法表征电力设备缺陷严重程度的词，如变电站的名称、相关的地名等，需要作为停用词在分词后从缺陷说明文本中剔除，以减少文本的噪声。本文建立了停用词表，在分词后对照停用词表，将缺陷说明中的停用词剔除。部分停用词如下表：

表2-3部分停用词

3)如图1-2所示，基于深度神经网络，依次训练了输入层、表示层、匹配层，得到了缺陷文本的低维表示向量；通过输入层，将英文、数字和中文转化为词袋型BOW表示，再输入紧接着是一个含有多个隐层的DNN，其中，第一层向量为500000维，后续隐层向量为300维，输出向量为128维，且采用tanh作为隐层和输出层的激活函数，最终输出一个128维的低维语义向量V；

将第i条待分类的文本的语义向量V_i与训练库中各文本的综合向量V_j进行相似度计算，如下公式所示：

其中γ为Softmax的平滑因子；

4)基于cosin距离的语义相似度和TopK排序模型得到了待分类文本的平均缺陷等级，在线分类时，将待计算文本输入训练好的DSSM网络结构中，得到排序前k名的缺陷文本及其对应的缺陷等级Level＝1、2、3，本实例中，当k＝3时，三个缺陷等级的平均值并取整则为最后的缺陷等级。

本方法首先基于深度结构语义模型(DSSM)，对文本的深层次语义特征进行了提取，得到了语义特征向量；然后，借助cosin距离计算公式，计算待分类的缺陷文本与训练文本之间的语义相似度；最后，基于KNN思想，选取语义相似度最高的k个训练句子，将k个缺陷等级的平均值作为待评价缺陷的等级，通过参照文本的展示，具有可追溯与可解释性，能够有效地提升缺陷文本的等级识别率，提升泛华能力，实现高精度的电力缺陷等级识别。

以上图1-2所示的基于深度语义匹配的电力缺陷等级识别方法是本发明的具体实施例，已经体现出本发明突出的实质性特点和显著进步，可根据实际的使用需要，在本发明的启示下，对其进行形状、结构等方面的等同修改，均在本方案的保护范围之列。

Claims

1.基于深度语义匹配的电力缺陷等级识别方法，其特征在于包括以下步骤：

1）构建深度结构语义模型，采用深度神经网络将句子从下往上可以分为五层结构，包括输入层、表示层、匹配层、排序层与输出层；

2）基于word hashing和分词模型对文本进行预处理，构建输入层；

3）基于深度神经网络，依次训练了输入层、表示层、匹配层，得到了缺陷文本的低维表示向量；

4）基于cosin距离的语义相似度和TopK排序模型得到了待分类文本的平均缺陷等级；

步骤3）中，将第i条待分类的文本的语义向量与训练库中各文本的综合向量/>进行相似度计算，如下公式所示：

接着，通过Softmax 函数可以把两条文本的语义相似性转化为一个后验概率：

其中为 Softmax 的平滑因子；

然后，在训练阶段，以极大似然估计函数最小作为训练目标，借助随机梯度下降算法SGD更新表示层中的网络参数，直至收敛，由此训练得到DSSM最后的网络结构；

首先基于深度结构语义模型(DSSM)，对文本的深层次语义特征进行了提取，得到了语义特征向量；然后，借助cosin距离计算公式，计算待分类的缺陷文本与训练文本之间的语义相似度；最后，选取语义相似度最高的k个训练句子，将k个缺陷等级的平均值作为待评价缺陷的等级。

2.根据权利要求1所述的基于深度语义匹配的电力缺陷等级识别方法，其特征在于：所述的输入层为待分类的缺陷文本，以及N条训练集文本，把句子映射到一个向量空间里并输入到 DNN 中。

3.根据权利要求1所述的基于深度语义匹配的电力缺陷等级识别方法，其特征在于：步骤2）中，针对英文与数字预处理时，采用基于字的n-gams 来切分单词。

4.根据权利要求1所述的基于深度语义匹配的电力缺陷等级识别方法，其特征在于：步骤2）中，针对中文文本分词预处理时，由于中文文本的词与词之间没有空格的自然分界，因此，在文本表示之前需要对中文文本进行分词，采用隐马尔科夫模型，并借助自行编纂的电力设备缺陷词典，对缺陷说明文本进行分词。

5.根据权利要求1所述的基于深度语义匹配的电力缺陷等级识别方法，其特征在于：步骤3）中，通过输入层，将英文、数字和中文转化为词袋型BOW表示，再输入紧接着是一个含有多个隐层的DNN，其中，第一层向量为500000 维，后续隐层向量为300 维，输出向量为128维，且采用 tanh 作为隐层和输出层的激活函数，最终输出一个128维的低维语义向量。

6.根据权利要求1所述的基于深度语义匹配的电力缺陷等级识别方法，其特征在于：步骤4）中，在线分类时，将待计算文本输入训练好的DSSM网络结构中，得到排序前k名的缺陷文本及其对应的缺陷等级。