CN113094494A

CN113094494A - 电力操作票文本智能分类方法、装置、设备及介质

Info

Publication number: CN113094494A
Application number: CN202110419148.9A
Authority: CN
Inventors: 董锴; 何祥针; 孟子杰; 吴龙腾; 蔡新雷; 邱丹骅; 王勇超; 梁升洪; 李嘉铭; 崔艳林; 黎嘉明; 何剑军; 赵瑞锋
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-09

Abstract

本发明公开了一种电力操作票文本智能分类方法、装置、设备及介质，该方法包括将第一操作票文本输入至DNN深度神经网络模型进行训练，得到第一操作票文本的深层次语义特征及语义特征向量；计算语义特征向量与训练操作票样本之间的相似度，并根据相似度筛选出与训练操作票样本的匹配度大于预设值的多条操作票文本，作为第二操作票文本；获取第二操作票文本的操作票等级，若操作票等级不一致，利用KNN加权算法计算第二操作票文本中每条文本对总分类操作票文本的影响权重，并根据影响权重与相似度的叠加，得到第二操作票文本的目标操作票等级。本发明不仅提高了文本分类识别的准确率和召回率，同时能够对分类依据进行展示，增强了分类结果的可解释性。

Description

电力操作票文本智能分类方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种电力操作票文本智能分类方法、装置、设备及介质。

背景技术

目前，针对电力操作票文本的智能分类问题，现有技术先后提出了三种分类模型：第一种，基于One-hot和KNN算法的分类方法，该方法能够实现80％以上的分类准确率；第二种，基于TF-IDF(词频－逆文档频率)词频特征模型的分类方法，该算法模型也同样取得了较好的分类检出率；第三种，基于隐狄利克雷分布的主题向量模型(LDA)构建的停电文本信息的检测模型，该模型也被用于电网事故的舆情监测。

然而，上述几种方法在分类时，均未考虑被检测句子中的词汇顺序以及邻近词汇之间的关联，因此也无法区分句子中每个词汇的重要程度，进而无法获得语句的深层语义信息。鉴于此，现有技术又提出了基于Word2Vec和卷积神经网络(CNN)构建操作票文本的分类模型，并将该模型与上述三类传统文本分类模型进行了详细比较，结果表明该模型在分类效果上具有显著提升。但是，基于CNN网络属于黑箱模型，虽然能直接给出准确度高的分类结果，而如何实现这一结果的中间过程都无法给出解释，因此也不能为现场人员提供分类依据等过程信息，进而使其无法在生产运维中得到实际应用，可学习性及可操作性低。

发明内容

本发明的目的在于提供一种电力操作票文本智能分类方法、装置、设备及介质，以解决现有技术中分类模型无法兼顾分类精度和提供有效分类依据的问题。

为了克服上述现有技术中的缺陷，本发明提供了一种电力操作票文本智能分类方法，包括：

将第一操作票文本输入至DNN深度神经网络模型进行训练，得到所述第一操作票文本的深层次语义特征及语义特征向量；

计算所述语义特征向量与训练操作票样本之间的相似度，并根据所述相似度筛选出与所述训练操作票样本的匹配度大于预设值的多条操作票文本，作为第二操作票文本；

获取所述第二操作票文本的操作票等级，若所述操作票等级不一致，利用KNN加权算法计算所述第二操作票文本中每条文本对总分类操作票文本的影响权重，并根据所述影响权重与所述相似度的叠加，得到所述第二操作票文本的目标操作票等级。

进一步地，所述影响权重与所述相似度叠加时采用的模型为：

式中，i表示词性；j为训练集中按相似度大小排序的操作票文本序列，w_j表示第j条文本的权重；k根据测试集遍历寻优的方式获取，即在测试集依次计算当k＝1、2、…10时的分类准确率，取分类准确率最高的k值作为在线分类模型的参数；level_i为第k条待分类文本的操作票等级。

进一步地，利用cosin距离的语义相似度算法计算所述语义特征向量与训练操作票样本之间的相似度。

进一步地，在所述将第一操作票文本输入至DNN深度神经网络模型进行训练之前，还包括：

利用Word-Hashing算法对初始操作票文本进行预处理，得到所述第一操作票文本。

利用改进分词分类算法对初始操作票文本进行分词处理，得到所述第一操作票文本，所述改进分词分类算法为：

式中，J表示分词分类算法的目标函数，N表示分词总个数，i表示词性，

表示向量参数，c表示迭代次数，S表示聚类中心，x_r表示模糊指数，v_k表示聚类自适应参数，A_ir表示分类因子，r、N_i均表示常数系数，N_r表示聚类系数。

进一步地，所述将第一操作票文本输入至DNN深度神经网络模型进行训练，包括：

以极大似然估计函数最小作为训练目标对所述第一操作票文本进行训练，利用SGD随机梯度下降算法更新网络参数直至收敛，得到DNN神经网络的结构参数。

进一步地，所述电力操作票文本智能分类方法，还包括：若所述操作票等级一致，将当前操作票等级作为所述第二操作票文本的目标操作票等级。

本发明还提供了一种电力操作票文本智能分类装置，包括：

训练单元，用于将第一操作票文本输入至DNN深度神经网络模型进行训练，得到所述第一操作票文本的深层次语义特征及语义特征向量；

计算单元，用于计算所述语义特征向量与训练操作票样本之间的相似度，并根据所述相似度筛选出与所述训练操作票样本的匹配度大于预设值的多条操作票文本，作为第二操作票文本；

分类单元，用于获取所述第二操作票文本的操作票等级，若所述操作票等级不一致，利用KNN加权算法计算所述第二操作票文本中每条文本对总分类操作票文本的影响权重，并根据所述影响权重与所述相似度的叠加，得到所述第二操作票文本的目标操作票等级。

本发明还提供了一种计算机终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上任一项所述的电力操作票文本智能分类方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行实现如上任一项所述的电力操作票文本智能分类方法。

相对于现有技术，本发明的有益效果在于：

本发明通过构建基于DNN深度神经网络的深度语义匹配模型和KNN自寻优算法相结合，能够提高文本分类识别的准确率和召回率。同时，本发明能够对分类依据操作票文本进行展示，增强了分类结果的可解释性，避免了采用单一深度学习模型的黑箱操作票。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的电力操作票文本智能分类方法的流程示意图；

图2是本发明某一实施例提供的深度结构语义多层网络结构示意图；

图3是本发明又一实施例提供的电力操作票文本智能分类方法的流程示意图；

图4是本发明某一实施例提供的电力操作票文本智能分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，本发明某一实施例提供了一种电力操作票文本智能分类方法，包括：

S10、将第一操作票文本输入至DNN深度神经网络模型进行训练，得到所述第一操作票文本的深层次语义特征及语义特征向量；

需要说明的是，在本实施例中，第一操作票文本主要是经过预处理后得到的结构向量，将该结构向量作为词袋输入，输入到含有多个隐含层的DNN深度神经网络当中进行模型训练，其中，DNN的多层结构网络结构如图2所示；

具体地，用x代表输入的词向量，第i个隐含层的输出值为l_i,其由上一个第i-1隐含层的输出值l_i-1与训练得到的权重矩阵W_i相乘后，叠加上偏置向量b_i后，再传入激活函数后得到。当i＝N时，即深度神经网络的最后一层输出层y＝l_N即为词向量输出，其数学表达式如式(1)所示。

其中，第1层向量的维度设置为500000维，后续全连接的隐含层向量维度均设置为300维，并利用式(2)中所示正切函数作为模型训练的激活函数，最终输出一个维度为128维的低维语义向量。

需要强调，这样的处理方式在学习句子语义、抽取文本重要信息方面具有独特优势，能够有效地抽取电力设备文本中的核心操作票文本特征。

在某一个实施例中，以极大似然估计函数最小作为训练目标对输入的操作票文本上下文进行训练和学习，并借助SGD随机梯度下降算法更新网络参数直至收敛，并最终训练得到DNN神经网络的结构参数。式(3)中所示为极大似然函数。

L＝∏_i∈I,j∈JlogP_ij (3)

请参阅图3，在某一个实施例中，对于获取的待分类的初始操作票文本进行预处理，得到第一操作票文本，需要说明的是，区别于其他领域的文本，电力操作票文本中存在大量中文、英文、数字及单位符号混合的情况，并且文本长短不一。在这种情况下未加处理的操作票文本中的非重点词、无关词会带来严重干扰，不利于文本操作票特征的提取。因此，基于机器学习实现电力操作票文本的智能分析与分类，首先需对操作票文本信息进行预处理，以获得有效的待分类文本，

具体地，首先需要对电力操作票文本进行分词处理：分词处理的目的是构建结构化向量以作为文本分类算法模型的输入。针对电力操作票文本信息的特点，本实施例采用Word-Hashing算法对文本中的英文与数字符号进行预处理，即基于字的n-grams对单词进行切分(通常n＝3)。例如，“10kV”为“数字－英文”词组，可以被切分为“#-1-0、1-0-k、0-k-V、k-V-#”这几种。在电力操作票文本中，数字、字母、单位符号的组合有限，并且其前后缀往往具有通用语义和统计规律(如kV、MW等)。通过应用Word-Hashing算法的预处理方式能够降低句向量的空间维度、便于挖掘出字符共现的规律，继而增强分词处理的泛化能力。

请参阅图3，在某一个实施例中，由于中文文本词与词之间没有空格自然分界，因而还需专门的算法对中文文本进行分词处理。电力设备操作票文本中包含大量电力专有名词与数字字母，例如“主变压器”“有载分接开关”“D5000”“110kV”“拒动”“越限”等。在进行算法处理时，上述专有名词需要被准确地切分出来以构造句向量。目前，常用的中文文本分词算法包括隐马尔科夫模型(Hidden-Markov-Model，HMM)、条件随机场(Conditional-Random-Field，CRF)模型及长短记忆力反馈神经网络(Long-Short-Term-Model-basedRNN，LSTM-RNN)模型等。不过，对于未有充足标注语料的电力操作票文本而言，仅是基于公开互联网语料训练的LSTM-RNN效果并不理想，而CRF由于对词典并不敏感因而效果也同样不佳。因此在本实施例中，首先对专业电力词汇进行了总结编撰，在此基础上基于改进的分词分类算法对中文进行分词处理，以获得显著简化的句向量。

具体地，改进分词分类算法为：

S20、计算所述语义特征向量与训练操作票样本之间的相似度，并根据所述相似度筛选出与所述训练操作票样本的匹配度大于预设值的多条操作票文本，作为第二操作票文本；

在本实施例中，利用cosin距离的语义相似度算法计算所述语义特征向量与训练操作票样本之间的相似度。

具体地，文本语义相似度表达式如式(5)所示：

其中，该表达式表达的是经过预处理的第i条待分类文本的语义向量V_i，与训练库中各文本的综合向量V_j之间的关联。在此基础上，利用式(6)中所示Softmax函数将式(5)中所得两条比较文本的语义相似度进行转化，得到一个后验概率P。

式中：y为Softmax的平滑因子。通常，在电力设备操作票管理中，操作票的类型被分为“逐项令”“综合令”和“许可令”三类，因此上述Softmax函数即分为三类问题。对于新输入的操作票文本，经过DNN神经网络将其转化为有效的语义向量后，再利用式(5)和式(6)进行相似度计算，便可以得到若干个与匹配文本相似的文本。最终，所形成的操作票文本低维语义向量中能够涵盖操作设备、操作票类型情况以及操作票信息的伴随共现特征等重要语义信息，也为接下来基于自寻优的文本算法分类提供充分的特征输入条件。

S30、获取所述第二操作票文本的操作票等级，若所述操作票等级不一致，利用KNN加权算法计算所述第二操作票文本中每条文本对总分类操作票文本的影响权重，并根据所述影响权重与所述相似度的叠加，得到所述第二操作票文本的目标操作票等级。

在步骤S30中，主要对步骤S20中得到的多条操作票文本的操作票等级进行判断，判断它们是否一致，根据不同结果来得出最终的操作票等级，具体地，以以level＝1、2、3分别对应于“逐项令”“综合令”和“许可令”三个操作票类型。对于新输入的一条操作票文本而言，在前述基于DNN深度神经网络模型训练的基础上，便能够得到排序前k名的操作票文本及其对应的操作票等级(即level值)。当所得排序前k名的操作票文本操作票等级保持一致时，便可直接将其作为待分类处理文本的操作票等级；而当这k条操作票文本的操作票等级并不一致时.根据式(7)来计算第j条操作票文本对待分类操作票文本的影响权重。

在此基础上，将式(5)所得文本相似度和式(7)所得影响权重进行加权叠加，并四舍五入取整，最终得到待分类操作票文本的操作票等级，如式(8)所示：

本发明实施例提供的电力操作票文本智能分类方法，通过构建基于DNN深度神经网络的深度语义匹配模型和KNN自寻优算法相结合，能够提高文本分类识别的准确率和召回率。同时，本发明能够对分类依据操作票文本进行展示，增强了分类结果的可解释性，避免了采用单一深度学习模型的黑箱操作票。

请参阅图4，本发明某一实施例还提供了一种电力操作票文本智能分类装置，包括：

训练单元01，用于将第一操作票文本输入至DNN深度神经网络模型进行训练，得到所述第一操作票文本的深层次语义特征及语义特征向量；

计算单元02，用于计算所述语义特征向量与训练操作票样本之间的相似度，并根据所述相似度筛选出与所述训练操作票样本匹配度大于预设值的多条操作票文本，作为第二操作票文本；

分类单元03，用于获取所述第二操作票文本的操作票等级，若所述操作票等级不一致，利用KNN加权算法计算所述第二操作票文本中每条文本对总分类操作票文本的影响权重，并根据所述影响权重与所述相似度的叠加，得到所述第二操作票文本的目标操作票等级。

可以理解的是，本发明实施例提供的功能单元01-03分别对应执行步骤S10-S30，且该装置在执行对应的方法时，通过构建基于DNN深度神经网络的深度语义匹配模型和KNN自寻优算法相结合，能够提高文本分类识别的准确率和召回率。同时，本发明能够对分类依据操作票文本进行展示，增强了分类结果的可解释性，避免了采用单一深度学习模型的黑箱操作票。

本发明某一实施例还提供了一种计算机终端设备，包括：一个或多个处理器；存储器，与所述处理器耦接，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的电力操作票文本智能分类方法。

其中，处理器用于控制该计算机终端设备的整体操作，以完成上述的电力操作票文本智能分类方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作，这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random AccessMemory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable ProgrammableRead-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

进一步地，计算机终端设备可以被一个或多个应用专用集成电路(ApplicationSpecific 1ntegrated Circuit，简称AS1C)、数字信号处理器(Digital SignalProcessor，简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行如上述任一项实施例所述的电力操作票文本智能分类方法，并达到如上述方法一致的技术效果。

本发明某一实施例还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现如上述任一项实施例所述的电力操作票文本智能分类方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器，上述程序指令可由计算机终端设备的处理器执行以完成如上述任一项实施例所述的电力操作票文本智能分类方法，并达到如上述方法一致的技术效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种电力操作票文本智能分类方法，其特征在于，包括：

2.根据权利要求1所述的电力操作票文本智能分类方法，其特征在于，所述影响权重与所述相似度叠加时采用的模型为：

3.根据权利要求1所述的电力操作票文本智能分类方法，其特征在于，利用cosin距离的语义相似度算法计算所述语义特征向量与训练操作票样本之间的相似度。

4.根据权利要求1所述的电力操作票文本智能分类方法，其特征在于，在所述将第一操作票文本输入至DNN深度神经网络模型进行训练之前，还包括：

5.根据权利要求1所述的电力操作票文本智能分类方法，其特征在于，在所述将第一操作票文本输入至DNN深度神经网络模型进行训练之前，还包括：

6.根据权利要求1所述的电力操作票文本智能分类方法，其特征在于，所述将第一操作票文本输入至DNN深度神经网络模型进行训练，包括：

7.根据权利要求1-6任一项所述的电力操作票文本智能分类方法，其特征在于，还包括：若所述操作票等级一致，将当前操作票等级作为所述第二操作票文本的目标操作票等级。

8.一种电力操作票文本智能分类装置，其特征在于，包括：

9.一种计算机终端设备，其特征在于，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至7任一项所述的电力操作票文本智能分类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行实现如权利要求1至7任一项所述的电力操作票文本智能分类方法。