CN112256873A

CN112256873A - 一种基于深度学习的变电检修工作任务多标签分类方法

Info

Publication number: CN112256873A
Application number: CN202011119282.9A
Authority: CN
Inventors: 任伟; 白东亚; 陈立; 姜昀芃; 王旭; 施开译; 辜旭炜; 翁水; 胡镒钢; 朱小炜; 翁利国; 霍凯龙; 史碧航
Original assignee: Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhejiang Zhongxin Electric Power Engineering Construction Co Ltd
Current assignee: Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhejiang Zhongxin Electric Power Engineering Construction Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-22
Anticipated expiration: 2040-10-19
Also published as: CN112256873B

Abstract

本发明公开了一种基于深度学习的变电检修工作任务多标签分类方法，主要包括：步骤S100，采集并输入变电检修任务工作内容文本并进行格式预处理；步骤S200，利用BERT语言训练模型对检修任务文本进行词向量编码转化；步骤S300，利用卷积神经网络对输入的文本词向量进行多标签识别及分类；步骤S400，检验多标签分类的正确性并进行输出分类结果。本发明在变电检修工作票的开票过程中通过引入基于深度学习的多标签智能分类技术，自动完成检修任务文本的非结构化信息到“间隔类型”、“检修间隔”、“检修设备”等多任务标签的结构化信息确定，快速、准确的确定检修关键信息，为安全措施布置提供有力支撑，大幅提高工作票开票过程的工作效率和准确性。

Description

一种基于深度学习的变电检修工作任务多标签分类方法

技术领域

本发明涉及一种多标签分类方法，尤其涉及一种基于深度学习的变电检修工作任务多标签分类方法，属于电力系统运维技术领域。

背景技术

工作票制度是变电站电气设备检修过程中保障人员、设备安全的基本制度。变电检修工作的实施必须严格按照工作票指示的工作范围、工作内容、安全措施等内容正确开展。因此，在工作票签发阶段，快速、准确的确定检修区域、检修间隔、检修设备等信息，可以为工作票签发人及许可人科学合理的布置安全措施提供支撑，为检修工作的安全有序开展提供极大便利。

在以往的工作过程中，工作票的内容基本由人工根据下达的检修任务指令逐条填写完成，一方面消耗了大量签发、审核的人工工时，另一方面也存在因人为疏忽等原因而造成安全措施布置不正确等安全隐患。但随着变电站工作的不断标准化、人工智能技术的不断发展，智能生成变电站检修工作票开始成为可能。本发明所提出的变电检修工作任务多标签分类方法正是解决工作票智能开票过程中文本信息到标签信息这一重要难题的。变电站工作票智能开票软件根据导入的检修工作任务文本直接智能识别文本信息，对检修任务的检修区域、检修间隔、检修设备等标签进行识别分类以及输出，同时智能化生成工作票内容。但其中，由于检修任务文本指令由上级部门人为下达，其文本形式为非结构化信息，同标签这类结构化信息存在显著差异。

发明内容

本发明主要是解决现有技术中存在的不足，提供一种利用人工智能技术自动识别变电检修工作任务的文本信息，并根据关键信息完成多标签任务，以实现对检修区域、检修间隔、检修设备等内容的智能确定，最终完成非结构化的文本信息到结构化的标签信息确定这一过程的一种基于深度学习的变电检修工作任务多标签分类方法。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于深度学习的变电检修工作任务多标签分类方法，按以下步骤进行：

步骤S100，采集并输入变电检修任务工作内容文本并进行格式预处理；

步骤S200，利用BERT语言训练模型对检修任务文本进行词向量编码转化；

步骤S300，利用卷积神经网络对输入的文本词向量进行多标签识别及分类；

步骤S400，检验多标签分类的正确性并进行输出分类结果。

作为优选，所述的步骤S100，具体包括：

对变电站检修工作任务的文本信息进行采集，其文本采集格式包括一般通用办公文档格式(.xls.doc.txt)；由于直接导入采集的文本可能存在符号错乱、多处空格相关情况，例如“110kV长山&1842线！！”，其中“&”、“！！”均是变电检修领域不常用字符；又如“2#主变”，在电力系统习惯用语中“2#”为“2号”的意思；这些都是会影响后续词向量标签的识别及分类过程，因此此处将对文本句进行简单的文本预处理，自动删除非变电检修领域使用的符号和空格符等；需要注意的是，这里的文本预处理是基于变电检修专业领域的，与下一步BERT分词过程中的符号去处虽有重叠但并不重复。

作为优选，所述的步骤S200，具体包括：

通过BERT预训练语言模型的预处理构建文本词向量；BERT是通过 encoder-decoder的框架对语言进行训练的；而在语言训练之前，BERT会对文本进行字词的分词，然后进行字符编码得到给定的一条变电站检修工作任务文本的编码词向量X(x₁,x₂,…,x_n-1,x_n)，其中x_i表示检修工作任务文本的第i 个字词；

分词过程BERT依赖于名为Basic Tokenizer的一个分词器，其大致流程为①优先转成unicode字符串；②去除各种奇怪字符；③处理中文；④空格分词；⑤去除多余字符和标点分词；⑥再次空格分词，结束；

编码过程中，编码词向量X包含了3个编码信息单元向量，即根据每个字词在文本中的位置顺序生成位置嵌入向量单元X_w(x_w,1,x_w,2,…,x_w,n-1,x_w,n)，根据每个字词的本义生成字义嵌入向量单元X_v(x_v,1,x_v,2,…,x_v,n-1,x_v,n)，根据每个字词的上下文信息生成上下文分割嵌入向量单元X_q(x_q,1,x_q,2,…,x_q,n-1, x_q,n)，综上就有了文本信息字词向量表达：

X＝X_w+X_v+X_q\*MERGEFORMAT(1.1)

除变电检修工作任务文本的字词向量信息外，由于变电检修领域属于一个特有的工作领域存在大量特有的专业词汇，所以对于相应字词，还存在其在专业词汇表中的向量表达E(e₁,e₂,…,e_n-1,e_n)，E∈U_{专业词汇集}；将这些专业词汇中的相应字词做整体化处理，其专业词汇向量可表征为：

E＝W_专业词汇v_专业词汇\*MERGEFORMAT(1.2)

式中，W_专业词汇表示对应的每个词都存在一个词向量矩阵，W_专业词汇∈R^{dw|v专业词汇|} _电网领域；其中，v_专业词汇是一个固定大小的变电检修工作任务文本中不可拆分的词汇构成的词汇表；d^w是词向量的维度，是一个自定义的超参量；

而最终文本的编码向量表达为文本信息向量和专业词汇向量的拼接向量矩阵，为一个大型数字向量矩阵S：

S＝X+E\*MERGEFORMAT(3)

然后进入下一步的识别分类过程。

作为优选，所述的步骤S300，具体包括：

利用卷积神经网络(LeNet-5)对变电检修工作任务文本的词向量矩阵进行训练，实现多标签识别分类；

LeNet-5模型是一种常用的卷积神经网络，被广泛用于手写体数字识别、文本分类等领域；LeNet-5模型由7层组成，分别为输入层(Input层)、卷积层(C1层)、池化层(S2层)、卷积层(C3层)、池化层(S4层)、卷积层(C5层)、全连接层(F6层)、输出层(Output层)；

输入层(Input层)将输入的矩阵尺寸统一归一化为32*32；

卷积层(C1层)中输入的矩阵为32*32，卷积核大小为5*5，卷积核种类为6，卷积操作时采用的SAME填充模式，输出6个28*28的特征矩阵；

池化层(S2层)中输入的矩阵为28*28，采样区域为2*2，采样种类为6，采样方式为4个输入矩阵相加乘以训练参数再加上训练偏置并通过Sigmoid 函数输出，输出6个14*14的特征矩阵；

卷积层(C3层)中输入的矩阵为14*14，卷积核大小为5*5，卷积核种类为16，卷积操作时采用的SAME填充模式，输出16个10*10的特征矩阵；

池化层(S4层)中输入的矩阵为10*10，采样区域为2*2，采样种类为16，采样方式为4个输入矩阵相加乘以训练参数再加上训练偏置并通过Sigmoid 函数输出，输出16个5*5的特征矩阵；

卷积层(C5层)中输入的矩阵为5*5，卷积核大小为5*5，卷积核种类为120，卷积操作时采用的SAME填充模式，输出为120维向量；

全连接层(F6层)中输入为120维向量，通过计算输入向量和权重向量之间的点积，再加上偏置，结果通过sigmoid函数输出；输出为84维向量；

输出层(Output层)共有n个神经元，分别代表0～n-1这n个数字，分别对应不同的输出；

其中，卷积层的作用是提取矩阵的特征数据，利用卷积核在矩阵中滑动，与矩阵局部数据卷积生成特征矩阵；卷积核遍历输入矩阵时，计算方式表示为：

式(4)中，x^l _j为第l层中第j个神经元的值；P_j为第j个神经元的特征矩阵；x^l-1 _i为第l-1层中第i个神经元的值；k^l _j为第l层中第j个神经元卷积核的值；b^l _j为第l层中第j个神经元的偏置值；f(x)为激活函数；

池化层的作用是对特征数据进行聚合，降低特征数据的维度；利用池化层对卷积层后产生的多个特征平面进行降维处理，减少训练参数数量，提高运算效率；池化方法包括最大池化和均值池化，计算可以表示为：

式(5)中，x^l _j为第l层中第j个神经元的值；x^l-1 _i为第l-1层中第i个神经元的值；P_j为第j个神经元的卷积感受野区域；b^l _j为第l层中第j个神经元的偏置值；pool(x)为抽样函数；

输出层采用径向基函数(RBF)网络连接；RBF的计算方式为：

式(6)中，y_i为输出层第i个神经元；x_j为全连接层中第j个神经元；ω_ij为全连接层第j个神经元与输出层第i个神经元之间的权值。

作为优选，所述的步骤S400，具体包括：

检验识别分类出标签的正确性并将结果输出；将卷积神经网络识别出的分类结果关键词与变电站内的台账文本进行对比，若识别内容存在且完全一致，则记录识别内容直接输出；若识别内容不完全一致，则输出结果提示工作人员进行人工校核，校核无误记录结果；若无法识别分类或者识别分类出错则提示工作人员重新输入检修工作任务文本。

总体而言，通过以上技术方案与现有技术相比，能够取得下列有益效果：

(1)高效性。通过语言训练模型及深度学习来快速完成检修工作等相关信息的确定，实现多标签的智能分类，为安全措施布置提供有力支撑，将大幅提高工作票开票过程的工作效率。

(2)准确性。基于深度学习技术实现变电检修工作任务文本的智能分类，具有较高的准确性，同时将分类结果与历史数据库进行匹配校验，可进一步提升分类的准确性。

(3)普适性。可以调整更换训练集合以适应不同变电站的检修工作需求，具有很强的普适性。

(4)经济性。属于纯软件领域，开发成本不高。但若广泛推广应用，可以节省大量人工工作工时，具有较好的经济性。

附图说明

图1为本发明的流程示意图；

图2为本发明中BERT语言训练模型词向量编码示意图；

图3为本发明中卷积神经网络结构示意图；

图4为本发明的使用案例。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例1：如图所示，一种基于深度学习的变电检修工作任务多标签分类方法，其特征在于，包括以下步骤：

步骤S400，检验多标签分类的正确性并进行输出分类结果。

优选地，所述的步骤S100，具体包括：

对变电站检修工作任务的文本信息进行采集，其文本采集格式包括一般通用办公文档格式(.xls.doc.txt)。由于直接导入采集的文本可能存在符号错乱、多处空格等情况，例如“110kV长山&1842线！！”，其中“&”、“！！”均是变电检修领域不常用字符；又如“2#主变”，在电力系统习惯用语中“2#”为“2号”的意思；这些都是会影响后续词向量标签的识别及分类过程，因此此处将对文本句进行简单的文本预处理，自动删除非变电检修领域使用的符号和空格符等。需要注意的是，这里的文本预处理是基于变电检修专业领域的，与下一步BERT分词过程中的符号去处虽有重叠但并不重复。在案例附图3中，分类识别软件从工作票excel文档中读取到“1#主变本体呼吸器硅胶变色程度超2/3缺陷处理。”文本一条，通过简单的格式处理文本转变为“1号主变本体呼吸器硅胶变色程度超2/3缺陷处理”。

优选地，所述的步骤S200，具体包括：

通过BERT预训练语言模型的预处理构建文本词向量。BERT是通过 encoder-decoder的框架对语言进行训练的。而在语言训练之前，BERT会对文本进行字词的分词，然后进行字符编码得到给定的一条变电站检修工作任务文本的编码词向量X(x₁,x₂,…,x_n-1,x_n)，其中x_i表示检修工作任务文本的第i 个字词。其流程示意图如附图2所示。

分词过程BERT依赖于名为Basic Tokenizer的一个分词器，其大致流程为①优先转成unicode字符串；②去除各种奇怪字符；③处理中文；④空格分词；⑤去除多余字符和标点分词；⑥再次空格分词，结束。

X＝X_w+X_v+X_q\*MERGEFORMAT(1.13)

除变电检修工作任务文本的字词向量信息外，由于变电检修领域属于一个特有的工作领域存在大量特有的专业词汇，所以对于相应字词，还存在其在专业词汇表中的向量表达E(e₁,e₂,…,e_n-1,e_n)，E∈U_{专业词汇集}。将这些专业词汇中的相应字词做整体化处理，其专业词汇向量可表征为

E＝W_专业词汇v_专业词汇\*MERGEFORMAT(1.14)

式中，W_专业词汇表示对应的每个词都存在一个词向量矩阵，W_专业词汇∈R^{dw|v专业词汇|} _电网领域。其中，v_专业词汇是一个固定大小的变电检修工作任务文本中不可拆分的词汇构成的词汇表；d^w是词向量的维度，是一个自定义的超参量。

S＝X+E\*MERGEFORMAT(1.15)

然后进入下一步的识别分类过程。

优选地，所述的步骤S300，具体包括：

利用卷积神经网络(LeNet-5)对变电检修工作任务文本的词向量矩阵进行训练，实现多标签识别分类。

LeNet-5模型是一种常用的卷积神经网络，被广泛用于手写体数字识别、文本分类等领域。LeNet-5模型由7层组成，分别为输入层(Input层)、卷积层(C1层)、池化层(S2层)、卷积层(C3层)、池化层(S4层)、卷积层(C5层)、全连接层(F6层)、输出层(Output层)，其结构如图3所示。

输入层(Input层)将输入的矩阵尺寸统一归一化为32*32。

卷积层(C1层)中输入的矩阵为32*32，卷积核大小为5*5，卷积核种类为6，卷积操作时采用的SAME填充模式，输出6个28*28的特征矩阵。

池化层(S2层)中输入的矩阵为28*28，采样区域为2*2，采样种类为6，采样方式为4个输入矩阵相加乘以训练参数再加上训练偏置并通过Sigmoid 函数输出，输出6个14*14的特征矩阵。

卷积层(C3层)中输入的矩阵为14*14，卷积核大小为5*5，卷积核种类为16，卷积操作时采用的SAME填充模式，输出16个10*10的特征矩阵。

池化层(S4层)中输入的矩阵为10*10，采样区域为2*2，采样种类为16，采样方式为4个输入矩阵相加乘以训练参数再加上训练偏置并通过Sigmoid 函数输出，输出16个5*5的特征矩阵。

卷积层(C5层)中输入的矩阵为5*5，卷积核大小为5*5，卷积核种类为 120，卷积操作时采用的SAME填充模式，输出为120维向量。

全连接层(F6层)中输入为120维向量，通过计算输入向量和权重向量之间的点积，再加上偏置，结果通过sigmoid函数输出。输出为84维向量。

输出层(Output层)共有n个神经元，分别代表0～n-1这n个数字，分别对应不同的输出。

其中，卷积层的作用是提取矩阵的特征数据，利用卷积核在矩阵中滑动，与矩阵局部数据卷积生成特征矩阵。卷积核遍历输入矩阵时，计算方式表示为

式(16)中，x^l _j为第l层中第j个神经元的值；P_j为第j个神经元的特征矩阵；x^l-1 _i为第l-1层中第i个神经元的值；k^l _j为第l层中第j个神经元卷积核的值；b^l _j为第l层中第j个神经元的偏置值；f(x)为激活函数。

池化层的作用是对特征数据进行聚合，降低特征数据的维度。利用池化层对卷积层后产生的多个特征平面进行降维处理，减少训练参数数量，提高运算效率。池化方法包括最大池化和均值池化，计算可以表示为

式(17)中，x^l _j为第l层中第j个神经元的值；x^l-1 _i为第l-1层中第i个神经元的值；P_j为第j个神经元的卷积感受野区域；b^l _j为第l层中第j个神经元的偏置值；pool(x)为抽样函数。

输出层采用径向基函数(RBF)网络连接。RBF的计算方式为

式(18)中，y_i为输出层第i个神经元；x_j为全连接层中第j个神经元；ω_ij为全连接层第j个神经元与输出层第i个神经元之间的权值。

至此，模型完成变电检修工作任务文本的多标签分类功能。其中，所需进行分类的标签五个：一次检修区域(110kV部分、主变部分、10kV部分等)、二次检修区域(控制室、无)、间隔类型(线路、电容器、接地所用变、压变等)、检修间隔(XX线、X号电容器、X号接地所用变、10kVI段母线压变等)、检修设备(上柜门、下柜门、开关小车等)。

在案例附图4中，通过BERT预训练语言模型构建文本词向量并通过卷积神经网络训练后，文本“1号主变本体呼吸器硅胶变色超2/3缺陷处理”被识别分类出一次检修区域为“1号主变”、间隔类型为“主变压器”、检修间隔为“1号主变”、检修设备为“本体呼吸器”、二次检修区域为“无”。

优选地，所述的步骤S400，具体包括：

检验识别分类出标签的正确性并将结果输出。将卷积神经网络识别出的分类结果关键词与变电站内的台账文本进行对比，若识别内容存在且完全一致，则记录识别内容直接输出；若识别内容不完全一致，则输出结果提示工作人员进行人工校核，校核无误记录结果；若无法识别分类或者识别分类出错则提示工作人员重新输入检修工作任务文本。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的变电检修工作任务多标签分类方法，其特征在于按以下步骤进行：

步骤S400，检验多标签分类的正确性并进行输出分类结果。

2.根据权利要求1所述的一种基于深度学习的变电检修工作任务多标签分类方法，其特征在于：所述的步骤S100，具体包括：

3.根据权利要求1所述的一种基于深度学习的变电检修工作任务多标签分类方法，其特征在于：所述的步骤S200，具体包括：

通过BERT预训练语言模型的预处理构建文本词向量；BERT是通过encoder-decoder的框架对语言进行训练的；而在语言训练之前，BERT会对文本进行字词的分词，然后进行字符编码得到给定的一条变电站检修工作任务文本的编码词向量X(x₁,x₂,…,x_n-1,x_n)，其中x_i表示检修工作任务文本的第i个字词；

编码过程中，编码词向量X包含了3个编码信息单元向量，即根据每个字词在文本中的位置顺序生成位置嵌入向量单元X_w(x_w,1,x_w,2,…,x_w,n-1,x_w,n)，根据每个字词的本义生成字义嵌入向量单元X_v(x_v,1,x_v,2,…,x_v,n-1,x_v,n)，根据每个字词的上下文信息生成上下文分割嵌入向量单元X_q(x_q,1,x_q,2,…,x_q,n-1,x_q,n)，综上就有了文本信息字词向量表达：

X＝X_w+X_v+X_q\*MERGEFORMAT(1.1)

E＝W_专业词汇v_专业词汇\*MERGEFORMAT(1.2)

S＝X+E\*MERGEFORMAT(3)

然后进入下一步的识别分类过程。

4.根据权利要求1所述的一种基于深度学习的变电检修工作任务多标签分类方法，其特征在于：所述的步骤S300，具体包括：

输入层(Input层)将输入的矩阵尺寸统一归一化为32*32；

池化层(S2层)中输入的矩阵为28*28，采样区域为2*2，采样种类为6，采样方式为4个输入矩阵相加乘以训练参数再加上训练偏置并通过Sigmoid函数输出，输出6个14*14的特征矩阵；

池化层(S4层)中输入的矩阵为10*10，采样区域为2*2，采样种类为16，采样方式为4个输入矩阵相加乘以训练参数再加上训练偏置并通过Sigmoid函数输出，输出16个5*5的特征矩阵；

输出层采用径向基函数(RBF)网络连接；RBF的计算方式为：

5.根据权利要求1所述的一种基于深度学习的变电检修工作任务多标签分类方法，其特征在于：所述的步骤S400，具体包括：