CN113065352B

CN113065352B - 一种电网调度工作文本的操作内容识别方法

Info

Publication number: CN113065352B
Application number: CN202010607534.6A
Authority: CN
Inventors: 郑伟彦; 刘宏伟; 姜健; 曹青; 邢海青; 郑洁; 马利东; 傅婧; 侯伟宏; 向新宇; 卢家驹
Original assignee: Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2022-07-19
Anticipated expiration: 2040-06-29
Also published as: CN113065352A

Abstract

本申请提出了一种电网调度工作文本的操作内容识别方法，包括将电网调度工作文本进行分词处理，对得到的词组进行向量重组操作；将向量重组后的词组输出至基于双向LSTM和CNN的深度学习网络，得到词组对应电网调度工作文本的概率值；选取最大概率值对应的电网调度工作文本进行基于编辑距离的模糊匹配计算，基于计算结果确定深度学习网络输出的词组对应的具体操作类型；对已确定的具体操作类型进行基于字符串匹配的运算得到处理详情。通过采用了深度学习网络，避免其他信息对操作内容信息的干扰；另外引入基于编辑距离和字符串匹配结合的规则对分句中的关键信息进行识别，提高了电网调度工作文本中的操作设备类型和操作类型信息的识别准确率。

Description

一种电网调度工作文本的操作内容识别方法

技术领域

本申请属于文本语义识别领域，尤其涉及一种电网调度工作文本的操作内容识别方法。

背景技术

随着电网调度领域的人工智能技术应用不断深入，一些研究开始探索采用智能虚拟调度员代替人工调度员进行大量简单重复的收发调度命令工作。在长度相对较长的调度工作文本中，常常会包含对于已完成工作、设备状态、现场情况等信息的描述，这些描述与操作内容，尤其是操作类型的描述比较相近，会对操作内容的识别形成较大的干扰，从而给电网调度工作文本的操作内容识别带来困难。

电网调度工作文本的操作内容识别，属于自然语言处理技术中的语义识别问题。目前，在电力系统领域针对电力文本语义识别的研究相对较少。一些研究直接采用字符串匹配的方法，对电力调度运行和管理相关文本中的关键信息进行识别；考虑到直接采用字符串匹配难以适应某些表述形式多样的信息识别，一些研究提出了模糊匹配的规则，对电网调控工作中的故障告警文本进行告警设备、事件、原因等信息的识别。但无论是采用字符串直接匹配，还是构建模糊匹配的规则，都是基于固定规则对电力文本的局部信息进行识别，而未能从整体上深入理解文本各部分的语义信息，识别关键信息时很容易受到无关信息的干扰。

发明内容

为了解决现有技术中存在的缺点和不足，本申请提出了一种电网调度工作文本的操作内容识别方法，所述操作内容识别方法包括：

从待处理的电网调度工作文本中提取语法标记，基于提取到的语法标记将电网调度工作文本进行分词处理，对得到的词组进行向量重组操作；

将向量重组后的词组输出至基于双向LSTM和CNN的深度学习网络，得到深度学习网络输出的词组对应电网调度工作文本的概率值；

选取最大概率值对应的电网调度工作文本进行基于编辑距离的模糊匹配计算，基于计算结果确定深度学习网络输出的词组对应的具体操作类型；

对已确定的具体操作类型进行基于字符串匹配的运算，得到处理详情。

可选的，所述从待处理的电网调度工作文本中提取语法标记，基于提取到的语法标记将电网调度工作文本进行分词处理，对得到的词组进行向量重组操作，包括：

将待识别的电网调度工作文本以包括逗号在内的语法标记为界，划分为多个分句，对每个分句进行分词处理；

采用全局向量模型将分句中的各个词转化为词义向量，词义向量的维数均为a，对分句中的各个词进行词性标注，用独热编码的方法生成各个词的词性向量，电网调度工作文本词语所有可能的词性共有b种，则词性向量的维数均为b；

将各个词的词义向量和词性向量进行连接，构成维数等于a+b的词向量。

可选的，所述将向量重组后的词组输出至基于双向LSTM和CNN的深度学习网络，得到深度学习网络输出的词组对应电网调度工作文本的概率值，包括：

构建对待识别电网调度工作文本的所有分句进行语义分析的基于双向LSTM和CNN的深度学习网络；

在深度学习网络中，基于双向LSTM模型对导入的向量重组后的词组进行计算，得到输出的拼接后的分句矩阵，基于CNN网络对分句矩阵进行概率运算，得到对应电网调度工作文本的概率值。

可选的，所述基于双向LSTM模型对导入的向量重组后的词组进行计算，得到输出的拼接后的分句矩阵，包括：

分别输入双向LSTM模型中的前向LSTM和后向LSTM结构，其中，输入前向LSTM时按照分句中每个词由前往后的顺序依次将对应的词向量输入LSTM模块，而输入后向LSTM时则按相反的顺序将每个词对应的词向量输入LSTM模块，从而可以同时捕捉到每个词的上文和下文与该词的相关语义信息；

经过前向LSTM的计算后，每个词生成对应的a+b维的前向隐层向量sc；经过后向LSTM的计算后，每个词生成对应的a+b维的后向隐层向量tc；

将每个词的前向隐层向量sc和后向隐层向量tc进行连接，构成2a+2b维的综合隐层向量uc，再将所有词的综合隐层向量进行横向拼接，形成行数为2a+2b、列数为C的代表分句语义信息的分句矩阵W。

可选的，所述基于CNN网络对分句矩阵进行概率运算，得到对应电网调度工作文本的概率值，包括：

将分句矩阵输入CNN，对分句的语义信息进行进一步的提取；

CNN采用32个行数为2a+2b、列数为3的卷积核，分别对分句矩阵进行卷积计算，再经过非线性化和最大值池化处理后，生成32个卷积值x1，x2，…，x32，将32个卷积值合并为一个32维的向量v，向量v为代表分句综合语义信息的特征向量；

采用softmax分类器对特征向量v进行分类；

分类的类别数设置为2，即把特征向量v分为2类；

若将特征向量v被分为第1类，则表示特征向量v对应的分句包含操作类型信息的描述；

若将特征向量v被分为第2类，则表示特征向量v对应的分句不包含操作类型信息的描述；softmax分类器在进行分类时，可以同时给出特征向量v属于第1类和第2类的概率值，概率值越大表示特征向量v属于该类的概率越大，且两个类别的概率值之和等于1；

经过深度学习网络对待识别电网调度工作文本每个分句的语义分析，可以得到每个分句包含操作类型信息描述的概率。

可选的，所述选取最大概率值对应的电网调度工作文本进行基于编辑距离的模糊匹配计算，基于计算结果确定深度学习网络输出的词组对应的具体操作类型，包括：

采用基于编辑距离的模糊匹配规则，计算第d个分句与电网调度操作规范中各种操作类型之间的编辑距离，并取与第d个分句的编辑距离最小的操作类型，作为该电网调度工作文本的操作类型；

如果存在多个与第d个分句编辑距离最小的操作类型，则给出未识别到操作类型的提示，并结束识别。

可选的，所述对已确定的具体操作类型进行基于字符串匹配的运算，得到处理详情，包括：

从电力设备台账中提取每个电力设备名称以及所属的电力设备类型，形成电力设备列表；

采用字符串精确匹配的规则，将电力设备列表中的每个电力设备类型以及电力设备名称依次与第d个分句进行字符串匹配；

基于匹配情况，确定对应的处理措施。

可选的，所述基于匹配情况，确定对应的处理措施，包括：

如果能在第d个分句中匹配到电力设备类型或名称的字段，则在第d个分句中匹配成功的所有电力设备类型或名称的字段中，取分句中最后一个匹配成功的字段；

如果该字段为电力设备名称字段，则按照电力设备列表查找出该电力设备名称所属的电力设备类型，并将该电力设备类型作为待识别电网调度工作文本的操作设备类型。

可选的，所述基于匹配情况，确定对应的处理措施，包括：

如果不能在第d个分句中匹配到电力设备类型或名称的字段，则如果d等于1，即包含操作类型信息的概率值最大的分句为待识别电网调度工作文本的第1个分句，则给出未识别到操作设备类型的提示，并结束识别；如果d大于1，则令d自减1，再重新进行对已确定的具体操作类型进行基于字符串匹配的运算的操作。

可选的，在将该电力设备类型作为待识别电网调度工作文本的操作设备类型后，所述方法还包括：

将识别到的操作类型和识别到的操作设备类型进行组合，得到包含操作设备类型和操作类型的操作内容信息，完成对电网调度工作文本的操作内容识别。

本申请提供的技术方案带来的有益效果是：

通过采用了深度学习网络，能够从整体上对电网调度工作文本的各个分句进行语义分析，避免了已完成工作、设备状态、现场情况等其他信息对操作内容信息的干扰；另外引入基于编辑距离和字符串匹配结合的规则对分句中的关键信息进行识别，更好地适应了电网调度工作文本中包含大量电力专有名词和专业术语的特点，从而提高了电网调度工作文本中的操作设备类型和操作类型信息的识别准确率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提出的一种电网调度工作文本的操作内容识别方法的流程示意图；

图2是本申请提出的基于双向LSTM和CNN的深度学习网络结构示意图。

具体实施方式

为使本申请的结构和优点更加清楚，下面将结合附图对本申请的结构作进一步地描述。

实施例一

本申请提出了一种电网调度工作文本的操作内容识别方法，如图1所示，所述操作内容识别方法包括：

11、从待处理的电网调度工作文本中提取语法标记，基于提取到的语法标记将电网调度工作文本进行分词处理，对得到的词组进行向量重组操作；

12、将向量重组后的词组输出至基于双向LSTM和CNN的深度学习网络，得到深度学习网络输出的词组对应电网调度工作文本的概率值；

13、选取最大概率值对应的电网调度工作文本进行基于编辑距离的模糊匹配计算，基于计算结果确定深度学习网络输出的词组对应的具体操作类型；

14、对已确定的具体操作类型进行基于字符串匹配的运算，得到处理详情。

在实施中，为了同时从整体和局部语义上对电网调度工作文本的操作内容信息进行识别，提出一种结合深度学习网络与特定规则的电网调度工作文本操作内容识别方法，在利用深度学习网络整体分析电网调度工作文本语义信息的基础上，建立基于编辑距离和字符串匹配结合的规则识别电网调度工作文本中与操作内容相关的局部关键信息，从而完成对电网调度工作文本包含的操作内容信息的识别。

具体的，步骤11提出的句子成分划分以及向量重组操作包括：

111、将待识别的电网调度工作文本以包括逗号在内的语法标记为界，划分为多个分句，对每个分句进行分词处理；

112、采用全局向量模型将分句中的各个词转化为词义向量，词义向量的维数均为a，对分句中的各个词进行词性标注，用独热编码的方法生成各个词的词性向量，电网调度工作文本词语所有可能的词性共有b种，则词性向量的维数均为b；

113、将各个词的词义向量和词性向量进行连接，构成维数等于a+b的词向量。

其中，将每个分句的各个词转化为词向量。对每个分句进行分词处理，再采用全局向量(Global Vectors，GloVe)模型，将分句中的各个词转化为词义向量。

步骤12提出基于双向LSTM和CNN的深度学习网络得到语句对应电网调度工作文本的概率值的过程包括：

121、构建对待识别电网调度工作文本的所有分句进行语义分析的基于双向LSTM和CNN的深度学习网络；

基于双向LSTM和CNN的深度学习网络结构如图2所示。对于待识别电网调度工作文本的某一个分句，假设共包含C个词，将其所有词转化成对应的词向量r₁，r₂，…，r_C后，分别输入双向LSTM模型中的前向LSTM和后向LSTM结构。

122、在深度学习网络中，基于双向LSTM模型对导入的向量重组后的词组进行计算，得到输出的拼接后的分句矩阵，基于CNN网络对分句矩阵进行概率运算，得到对应电网调度工作文本的概率值。

在实施中，一方面，基于双向LSTM模型对导入的向量重组后的词组进行计算，得到输出的拼接后的分句矩阵，包括：

1221、分别输入双向LSTM模型中的前向LSTM和后向LSTM结构，其中，输入前向LSTM时按照分句中每个词由前往后的顺序依次将对应的词向量输入LSTM模块，而输入后向LSTM时则按相反的顺序将每个词对应的词向量输入LSTM模块，从而可以同时捕捉到每个词的上文和下文与该词的相关语义信息。

1222、经过前向LSTM的计算后，每个词生成对应的a+b维的前向隐层向量sc；经过后向LSTM的计算后，每个词生成对应的a+b维的后向隐层向量tc。

1223、将每个词的前向隐层向量sc和后向隐层向量tc进行连接，构成2a+2b维的综合隐层向量uc，再将所有词的综合隐层向量进行横向拼接，形成行数为2a+2b、列数为C的代表分句语义信息的分句矩阵W。

另一方面，基于CNN网络对分句矩阵进行概率运算，得到对应电网调度工作文本的概率值，包括：

1224、将分句矩阵输入CNN，对分句的语义信息进行进一步的提取；

1224、CNN采用32个行数为2a+2b、列数为3的卷积核，分别对分句矩阵进行卷积计算，再经过非线性化和最大值池化处理后，生成32个卷积值x1，x2，…，x32，将32个卷积值合并为一个32维的向量v，向量v为代表分句综合语义信息的特征向量；

1224、采用softmax分类器对特征向量v进行分类，分类的类别数设置为2，即把特征向量v分为2类；若将特征向量v被分为第1类，则表示特征向量v对应的分句包含操作类型信息的描述；若将特征向量v被分为第2类，则表示特征向量v对应的分句不包含操作类型信息的描述；softmax分类器在进行分类时，可以同时给出特征向量v属于第1类和第2类的概率值，概率值越大表示特征向量v属于该类的概率越大，且两个类别的概率值之和等于1；

1225、经过深度学习网络对待识别电网调度工作文本每个分句的语义分析，可以得到每个分句包含操作类型信息描述的概率。

步骤13提出的基于最大概率值确定深度学习网络输出的词组，包括：

131、采用基于编辑距离的模糊匹配规则，计算第d个分句与电网调度操作规范中各种操作类型之间的编辑距离，并取与第d个分句的编辑距离最小的操作类型，作为该电网调度工作文本的操作类型；

132、如果存在多个与第d个分句编辑距离最小的操作类型，则给出未识别到操作类型的提示，并结束识别。

在实施中，经过深度学习网络对待识别电网调度工作文本每个分句的语义分析，可以得到每个分句包含操作类型信息描述的概率，从而可以从整体上识别电网调度工作文本各个分句所描述的内容与操作类型是否相关，以排除设备状态信息、现场情况信息等其他信息的干扰。待识别电网调度工作文本的每个分句经过深度学习网络的分类预测后，都会生成一个属于第1类的概率值，即包含操作类型信息的概率值。取包含操作类型信息的概率值最大的分句，假设其为该电网调度工作文本中的第d个分句，则可以认为待识别电网调度工作文本的操作类型信息在第d个分句进行了描述。

步骤14提出的基于已确定的具体操作类型进行基于字符串匹配的运算，得到处理详情，包括：

141、从电力设备台账中提取每个电力设备名称以及所属的电力设备类型，形成电力设备列表；

142、采用字符串精确匹配的规则，将电力设备列表中的每个电力设备类型以及电力设备名称依次与第d个分句进行字符串匹配；

143、基于匹配情况，确定对应的处理措施。

在实施中，确定对应的处理措施，包括：

1)如果能在第d个分句中匹配到电力设备类型或名称的字段，则在第d个分句中匹配成功的所有电力设备类型或名称的字段中，取分句中最后一个匹配成功的字段；例如，在分句“合上学院#1环网单元11开关接地闸刀”中，所有匹配成功的电力设备类型或名称字段应包括“学院#1环网单元”、“11开关”和“接地闸刀”，此时只取最后一个匹配成功的字段“接地闸刀”。如果该字段为电力设备名称字段，则按照电力设备列表查找出该电力设备名称所属的电力设备类型，并将该电力设备类型作为待识别电网调度工作文本的操作设备类型。

2)如果不能在第d个分句中匹配到电力设备类型或名称的字段，则如果d等于1，即包含操作类型信息的概率值最大的分句为待识别电网调度工作文本的第1个分句，则给出未识别到操作设备类型的提示，并结束识别；如果d大于1，则令d自减1，再重新进行对已确定的具体操作类型进行基于字符串匹配的运算的操作。

通过发明提出的电网调度工作文本的操作内容识别方法，可结合深度学习网络和特定规则，从整体和局部上分别对电网调度工作文本的语义进行理解与分析，并对电网调度工作文本所包含的操作设备类型和操作类型信息进行识别，从而完成对电网调度工作文本操作内容的准确识别。

对的电网调度工作文本操作内容识别方法进行性能测试时，从某电网公司收集30000条电网调度工作文本，并随机将所有电网调度工作文本平均划分为5份，采用5折交叉验证方法，依次将其中4份作为训练集，1份作为测试集。用训练集的电网调度工作文本对深度学习网络进行训练后，在测试集上对的电网调度工作文本操作内容识别方法性能进行测试，每条测试文本只有操作设备类型和操作类型均识别正确，才认为该文本的操作内容被正确识别。以5次实验的测试集文本操作内容识别准确率平均值作为指标，考察电网调度工作文本操作内容识别方法的性能。

在实验过程中，将每个分句的各个词转化为词向量时，词义向量的维数a为50，词性向量的维数b为9，因此每个词向量为59维。同时，采用两种对照方法，与方法的识别效果进行对比，如表1所示。其中，对照方法1不采用深度学习网络对电网调度工作文本进行整体语义分析，区分各个分句的语义，而直接采用基于编辑距离和字符串匹配结合的规则，对所有分句的操作类型和操作设备类型进行识别；对照方法2采用深度学习网络，先从整体上对电网调度工作文本的各个分句进行语义分析，但在识别操作类型和操作设备类型时都直接采用字符串匹配的规则进行识别。

表1操作内容识别实验方法的设置

经过5折交叉验证后，方法和两种对照方法的5次实验测试集文本操作内容识别准确率平均值如表2所示。

表2操作内容识别实验结果

从表2的结果可以看出，方法相对于两个对照方法的操作内容识别准确率平均值，都有比较显著的优势。对照方法1由于未采用深度学习网络从整体上对电网调度工作文本各个分句的语义进行区分，容易将已完成工作、设备状态、现场情况等信息与操作类型信息混淆。例如文本“东魁变进港H687线带电作业已终结，可以恢复其重合闸”中，操作设备类型是“重合闸”，操作类型是“恢复”，通过基于深度学习网络的整体语义分析，可以识别出“带电作业”属于对已完成工作的描述，但如果只采用基于编辑距离和字符串匹配结合的规则进行识别，由于在电网调度操作规范中存在“带电作业”这一操作类型，就会将其误识别为该条文本关于操作类型的描述。对照方法2则由于直接采用字符串匹配的规则进行操作设备类型和操作类型的识别，不能很好地适应操作类型信息在表述上与电网调度操作规范的细小差异。例如文本“繁荣H305线重合闸由跳闸改为信号”中，操作类型的表述“由跳闸改为信号”与电网调度操作规范中“由跳闸改信号”的表述有所差异，通过基于编辑距离的规则仍可以识别出操作类型，但直接采用字符串匹配的规则就难以识别出来。方法则结合了深度学习网络对于文本整体语义理解的优势，以及基于编辑距离和字符串匹配结合的规则对于局部关键信息识别的优势，达到了较高的电网调度工作文本操作内容识别准确率。

提出了一种电网调度工作文本的操作内容识别方法，提高了电网调度工作文本操作内容识别的准确率。关键点一是采用了深度学习网络，从整体上对电网调度工作文本的各个分句进行语义分析，避免了已完成工作、设备状态、现场情况等其他信息对操作内容信息的干扰；关键点二是采用基于编辑距离和字符串匹配结合的规则对分句中的关键信息进行识别，更好地适应了电网调度工作文本中包含大量电力专有名词和专业术语的特点，从而提高了电网调度工作文本中的操作设备类型和操作类型信息的识别准确率。

上述实施例中的各个序号仅仅为了描述，不代表各部件的组装或使用过程中的先后顺序。

以上所述仅为本申请的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种电网调度工作文本的操作内容识别方法，其特征在于，所述操作内容识别方法包括：

对已确定的具体操作类型进行基于字符串匹配的运算，得到处理详情；

所述选取最大概率值对应的电网调度工作文本进行基于编辑距离的模糊匹配计算，基于计算结果确定深度学习网络输出的词组对应的具体操作类型，包括：

如果存在多个与第d个分句编辑距离最小的操作类型，则给出未识别到操作类型的提示，并结束识别；

所述对已确定的具体操作类型进行基于字符串匹配的运算，得到处理详情，包括：

从电力设备台账中提取每个电力设备名称以及所属的电力设备类型，形成电力设备列表;

基于匹配情况，确定对应的处理措施；

所述基于匹配情况，确定对应的处理措施，包括：

如果能在第d个分句中匹配到电力设备类型或名称的字段，则在第d 个分句中匹配成功的所有电力设备类型或名称的字段中，取分句中最后一个匹配成功的字段；

如果该字段为电力设备名称字段，则按照电力设备列表查找出该电力设备名称所属的电力设备类型，并将该电力设备类型作为待识别电网调度工作文本的操作设备类型；

2.根据权利要求1所述的一种电网调度工作文本的操作内容识别方法，其特征在于，所述从待处理的电网调度工作文本中提取语法标记，基于提取到的语法标记将电网调度工作文本进行分词处理，对得到的词组进行向量重组操作，包括：

3.根据权利要求1所述的一种电网调度工作文本的操作内容识别方法，其特征在于，所述将向量重组后的词组输出至基于双向LSTM和CNN的深度学习网络，得到深度学习网络输出的词组对应电网调度工作文本的概率值，包括：

在深度学习网络中，基于双向LSTM模型对导入的向量重组后的词组进行计算，得到输出的拼接后的分句矩阵；

基于CNN网络对分句矩阵进行概率运算，得到对应电网调度工作文本的概率值。

4.根据权利要求3所述的一种电网调度工作文本的操作内容识别方法，其特征在于，所述基于双向LSTM模型对导入的向量重组后的词组进行计算，得到输出的拼接后的分句矩阵，包括：

5.根据权利要求3所述的一种电网调度工作文本的操作内容识别方法，其特征在于，所述基于CNN网络对分句矩阵进行概率运算，得到对应电网调度工作文本的概率值，包括：

将分句矩阵输入CNN，对分句的语义信息进行进一步的提取；

采用softmax分类器对特征向量v进行分类；

分类的类别数设置为2，即把特征向量v分为2类；

6.根据权利要求1所述的一种电网调度工作文本的操作内容识别方法，其特征在于，在将该电力设备类型作为待识别电网调度工作文本的操作设备类型后，所述方法还包括：