CN111651601A

CN111651601A - 用于电力信息系统的故障分类模型的训练方法及分类方法

Info

Publication number: CN111651601A
Application number: CN202010490481.4A
Authority: CN
Inventors: 宋博川; 柴博; 张强; 贾全烨; 马应龙; 李建桂
Original assignee: State Grid Corp of China SGCC; State Grid Shanxi Electric Power Co Ltd; Global Energy Interconnection Research Institute
Current assignee: State Grid Corp of China SGCC; State Grid Shanxi Electric Power Co Ltd; Global Energy Interconnection Research Institute
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-09-11
Anticipated expiration: 2040-06-02
Also published as: CN111651601B

Abstract

本发明涉及故障分类技术领域，具体涉及电力信息系统的故障分类模型的训练方法及分类方法。训练方法包括获取电力信息系统的故障文本训练集；故障文本训练集中的各个故障文本带有至少一个故障分类标签；对各个故障文本进行预处理；对预处理后的各个故障文本进行文本向量化，得到向量化的故障文本；将向量化的故障文本输入故障分类模型中得到各个故障文本对应的至少一个预测分类标签，并利用各个故障文本的故障分类标签与对应的至少一个预测分类标签，对故障分类模型中的参数进行优化。各个故障文本带有至少一个故障分类标签，故障分类模型对其进行分类可以得到至少一个预测分类标签，能够在保证故障分类准确率的前提下，提高故障文本分类的效率。

Description

用于电力信息系统的故障分类模型的训练方法及分类方法

技术领域

本发明涉及故障分类技术领域，具体涉及用于电力信息系统的故障分类模型的训练方法及分类方法。

背景技术

信息、通信和技术三个英文单词的词头组合(Information andCommunicationsTechnology，简称ICT)，它是信息技术与通信技术相融合而形成的一个新的概念和新的技术领域。其中，将ICT应用在电力系统中，对应的就可以称之为电力信息系统。

电网ICT客服工作的核心内容之一是对ICT信息系统用户所提出的具体的故障现象描述进行准确分析，确定引起该故障现象发生的所有可能的故障原因，并及时地将这些信息反馈给用户。其中，将ICT应用在电力系统中，对应的就可以称之为电力信息系统。

由于当前的ICT客服(即，电力信息系统客服)工作主要采用电话渠道人工受理的方式，依靠坐席个人的专业能力和知识经验来解答ICT信息系统专业性问题。然而，随着ICT系统部署数量以及系统复杂度的不断增加，ICT客户服务因为客服人力资源局限以及客服人员专业能力和知识储备等方面差异而导致客户服务逐渐变得低效、难以快速准确地解决用户提出的ICT故障研判问题。

发明内容

有鉴于此，本发明实施例提供了一种电力信息系统的故障分类模型的训练方法及分类方法，以解决电力信息系统故障分类效率较低的问题。

根据第一方面，本发明实施例提供了一种用于电力信息系统的故障分类模型的训练方法，包括：

获取所述电力信息系统的故障文本训练集；其中，所述故障文本训练集中的各个故障文本带有至少一个故障分类标签；

对各个所述故障文本进行预处理；其中，所述预处理包括分词处理；

对预处理后的各个所述故障文本进行文本向量化，得到向量化的故障文本；

将所述向量化的故障文本输入故障分类模型中得到各个所述故障文本对应的至少一个预测分类标签，并利用各个所述故障文本的故障分类标签与对应的所述至少一个预测分类标签，对所述故障分类模型中的参数进行优化。

本发明实施例提供的用于电力信息系统的故障分类模型的训练方法，利用电力信息系统的故障文本训练集对故障分类模型进行训练，以便于后续利用该故障分类模型自动对故障文本进行分类；且对于各个故障文本而言，其带有至少一个故障分类标签，那么后续训练得到的故障分类模型对故障文本进行分类时可以得到至少一个预测分类标签，能够在保证故障分类准确率的前提下，提高了故障文本分类的效率。

结合第一方面，在第一方面第一实施方式中，所述对预处理后的各个所述故障文本进行文本向量化，得到向量化的故障文本，包括：

对预处理后的各个所述故障文本中的词进行向量化处理，得到词向量；

基于各个所述故障文本包含的所有所述词向量，形成与各个所述故障文本对应的向量化的故障文本。

本发明实施例提供的用于电力信息系统的故障分类模型的训练方法，由于故障文本可能是一句连续的文字表述，那么就需要对其进行向量化处理，以便于形成与故障文本对应的向量化的故障文本；同时，由于对于计算机其无法直接处理文本数据，就需要将文本进行数值化处理，得到与各个故障文本对应的向量化的故障文本，以便于后续对于故障分类模型的训练。

结合第一方面第一实施方式，在第一方面第二实施方式中，所述基于各个所述故障文本包含的所有所述词向量，形成与各个所述故障文本对应的向量化的故障文本，包括：

对各个所述故障文本包含的所有所述词向量进行加和后取平均值，形成与各个所述故障文本对应的向量化的故障文本。

本发明实施例提供的用于电力信息系统的故障分类模型的训练方法，通过对所有词向量进行加和后取平均值的方式形成于各个故障文本对应的向量化的故障文本，由于仅仅进行了加和取平均的方式，而不引入其他计算方式，提高了故障分类模型训练的效率。

结合第一方面，或第一方面第一实施方式或第二实施方式，在第一方面第三实施方式中，所述对各个所述故障文本进行预处理，包括：

对各个所述故障文本进行分词；

去除分词后的各个所述故障文本中的停用词。

本发明实施例提供的用于电力信息系统的故障分类模型的训练方法，通过去除分词后的各个故障文本中的停用词，能够减少故障文本的噪声，提高了后续模型训练的效率。

结合第一方面，在第一方面第四实施方式中，所述故障分类模型是基于文本分类模型构建的。

本发明实施例提供的用于电力信息系统的故障分类模型的训练方法，基于分别分类模型构建出的故障分类模型更适用于电力信息系统的故障数据集，从而能够保证故障分类模型训练简单以及效率高。

结合第一方面，在第一方面第五实施方式中，所述故障分类标签包括安装问题、网络问题、用户不可用、系统不可用、账户密码问题、电脑问题、软件问题、平台问题、功能不可用或硬件问题。

结合第一方面，在第一方面第六实施方式中，还包括：

获取所述电力信息系统的故障文本测试集；其中，所述故障文本测试集中的各个故障文本带有至少一个所述故障分类标签；

基于所述故障文本测试集对参数优化后的所述故障分类模型进行测试，得到至少一个测试指标；其中，所述测试指标包括精准率以及召回率中的至少一种；

利用所述至少一个测试指标确定是否需要对参数优化后的所述故障分类模型再次进行参数优化。

本发明实施例提供的用于电力信息系统的故障分类模型的训练方法，在训练得到故障分类模型之后，再利用故障文本测试集对故障分类模型进行测试，以对故障分类模型进行进一步地的验证，保证了所得到的故障分类模型的可靠性。

根据第二方面，本发明实施例还提供了一种电力信息系统的故障分类方法，包括：

获取所述电力信息系统的目标故障文本；

对所述目标故障文本进行预处理；其中，所述预处理包括分词处理；

对预处理后的所述目标故障文本进行文本向量化，得到向量化的目标故障文本；

将所述向量化的目标故障文本输入故障分类模型中，得到所述目标故障文本对应的至少一个故障分类标签；其中，所述故障分类模型是根据本发明第一方面，或第一方面任一项实施方式中所述的用于电力系统的故障分类模型的训练方法训练得到的。

本发明实施例提供的电力信息系统的故障分类方法，利用故障分类模型自动对目标故障文本中的电力故障进行分类，能够得到对应于该目标故障文本的至少一个故障分类标签，在保证分类准确性的前提下，提高了故障分类的效率。

根据第三方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的用于电力系统的故障分类模型的训练方法，或第二方面中所述的电力信息系统的故障分类方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的用于电力系统的故障分类模型的训练方法，或第二方面中所述的电力信息系统的故障分类方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的用于电力信息系统的故障分类模型的训练方法的流程图；

图2是根据本发明实施例的用于电力信息系统的故障分类模型的训练方法的流程图；

图3a-3c是根据本发明实施例各个测试指标对应于各个故障分类模型的对比示意图；

图4是根据本发明实施例的用于电力信息系统的故障分类模型的训练方法的流程图；

图5是根据本发明实施例的电力信息系统的故障分类方法的流程图；

图6是根据本发明实施例的用于电力信息系统的故障分类模型的训练装置的结构框图；

图7是根据本发明实施例的电力信息系统的故障分类装置的结构框图；

图8是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中的故障分类模型与电力文本分类技术所依赖的机器学习模型不同。电力文本分类技术所依赖的机器学习模型都是二分类或多类分类模型，其本质上是从两个或者更多的文本类别标签中为一个文本实例标记一个分类标签。而本发明实施例中所述的故障分类模型是面向ICT客服的故障文本分类模型，其本质上是多标签分类模型，即，需要从总舵的ICT故障类型标签中为一个故障现象实例标记至少一个故障类型分类标签。

本发明实施例中所研究的电力ICT客服文本数据分类任务是典型的跨多个知识领域的多标签分类任务，电力领域的ICT客服数据涵盖了桌面、人资、财务、物资、电商等众多业务领域的知识，且客服数据中的故障类型分类可能来自于业务管理、通信领域、计算机硬件和计算机软件等多个知识领域，每个知识领域中包含大量的粒度更小的故障类型分类标签。一个ICT故障实例通常同时对应上述多个知识领域的不同分类标签。例如，发生了页面显示问题的故障可能同时由于网络连接问题、浏览器问题、数据库问等多种故障类型和原因导致的。

当将传统分类模型应用到ICT客户故障文本分类模型中，由于样本实例对应的分类标签的数量是不确定的，样本实例有的可能只对应一个分类标签，有的则可以同时对应十几、几十甚至上百个分类标签，分类标签之间极有可能存在相互依赖关系；多标签分类需要丰富的训练数据集，如何构建训练集使得每一个样本实例都准确对应到一个标签集是很耗时、费力的工作，因此导致训练集通常难以获取。相比之下，传统的多类分类技术可以看成是多标签分类的一个特例，不需要考虑上述诸多技术难点。另一方面由于电力领域目前已有的文本挖掘还很少涉及跨多个知识领域的分类任务。因此，传统分类模型无法解决面向ICT客服文本数据挖掘这一典型多标签分类问题，上述诸多原因使得ICT客服文本多标签分类任务成为一个技术难点。

根据本发明实施例，提供了一种用于电力信息系统的故障分类模型的训练方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种用于电力信息系统的故障分类模型的训练方法，可用于电子设备，如电脑、手机、平板电脑等，图1是根据本发明实施例的用于电力信息系统的故障分类模型的训练方法的流程图，如图1所示，该流程包括如下步骤：

S11，获取电力信息系统的故障文本训练集。

其中，所述故障文本训练集中的各个故障文本带有至少一个故障分类标签。

故障文本训练集为用于训练故障分类模型的样本集合，由多个故障文本组成。所述的故障文本可以来源于电力信息系统，例如，电力ICT客服记录和积累的ICT故障文本。

对于故障文本训练集中各个故障文本对应的故障分类标签可以是人工依据经验手工标注的，也可以是电力ICT客服记录的等等，在此对故障文本训练集中各个故障文本带有的故障分类标签的标注方式并不做任何限制。

需要说明的是，各个故障文本所带有的故障分类标签可以是一个，也可以是两个，或多个等等。；例如，对于电力信息系统中某一终端黑屏这一故障，对应的故障可能是硬件问题，或软件问题，或网络问题等等，相应地就可能存在1个，或2个，或3个故障分类标签。具体依据各个故障文本的故障类型确定，在此对各个故障文本所带有的故障分类标签的数量并不做任何限制。

S12，对各个故障文本进行预处理。

其中，所述预处理包括分词处理。

由于电力ICT信息系统故障文本的特点是没有统一的故障分类，因此，数据预处理是数据准备中非常重要的一步，需要把非结构化的故障文本训练集处理成统一的格式，以便符合后续对故障分类模型进行训练使用。

用户向电力ICT客服描述的故障可能是一句话，而一句话包括多个词语，因此就需要对这一句话进行分词处理。例如，故障文本可能采用的是中文进行描述的，中文是无空格切分字词的语言，那么在分词处理时就需要将这一句话划分为一个个独立的词组。

对于故障文本的分词处理，可以是采用分词工具(例如，jieba分词工具)进行，也可以采用自动分词的处理方式。具体可以根据实际情况进行相应的设置。

电子设备对各个故障文本的预处理，还可以包括其他处理，例如去除停用词等等，具体将在下文中进行详细描述。

S13，对预处理后的各个故障文本进行文本向量化，得到向量化的故障文本。

电子设备在得到预处理后的各个故障文本之后，对其进行文本向量化。即，对各个故障文本预处理后得到的一个个独立的词组进行向量化。由于电子设备无法直接处理文本数据，而文本的数值化就是实用数字代表特定的词汇，从而将词汇信息映射到一个数值化的语义空间，从而让电子设备能够理解。例如，预处理后的故障文本中各个词组向量化为一个40维的向量。

在故障文本中各个词组均得到一个对应的向量之后，那么整个故障文本对应的向量就可以利用各个词组对应的向量进行表示。例如，可以利用各个词组对应的向量进行加权求和求平均的方式得到向量化的故障文本，也可以利用各个词组对应的向量进行求和求平均的方式得到向量化的故障文本。在此并不做任何限制，具体可以根据实际情况进行相应的设置。

作为本实施例的一种可选实施方式，本实施例中采用word2vec工具进行文本向量化。其中，word2vec工具是一种无监督学习模型，是一种常用的文本特征表示方法，其主要思想是中心词与相邻词分布相似的中心词之间存在一定的语义相似性。关于采用word2vec工具进行文本向量化的具体处理过程，将在下文中进行详细描述。

S14，将向量化的故障文本输入故障分类模型中得到各个故障文本对应的至少一个预测分类标签，并利用各个故障文本的故障分类标签与对应的至少一个预测分类标签，对故障分类模型中的参数进行优化。

所述的故障分类模型是用于对输入的向量化的故障文本进行多标签分类，即，该故障分类模型的输入为向量化的故障文本，输出为该故障文本对应的至少一个分类标签。

所述的故障分类模型可以是采用多标签分类算法(Multi-Label k-NearestNeighbor，简称为ML-KNN)，或逻辑回归算法(Logistic Regression，简称为LR)，或文本分类算法TextCNN，或其他的分类算法等等，在此对故障分类模型所基于的具体算法并不做任何限制，可以根据实际情况进行相应的设置。

电子设备将向量化的故障文本输入至故障分类模型中，该故障分类模型就可以输出至少一个预设分类标签；其中，由于故障文本是标注有故障分类标签的，那么电子设备基于预设分类标签与标注出的故障分类标签之间的差异，对故障分类模型中的参数进行优化，对参数进行不断的迭代，直至达到训练结束条件为止。所述的训练结束条件可以是训练次数达到预设次数，也可以是误差值在某一预设范围内等等。

本实施例提供的用于电力信息系统的故障分类模型的训练方法，利用电力信息系统的故障文本训练集对故障分类模型进行训练，以便于后续利用该故障分类模型自动对故障文本进行分类；且对于各个故障文本而言，其带有至少一个故障分类标签，那么后续训练得到的故障分类模型对故障文本进行分类时可以得到至少一个预测分类标签，能够在保证故障分类准确率的前提下，提高了故障文本分类的效率。

在本实施例中提供了一种用于电力信息系统的故障分类模型的训练方法，可用于电子设备，如电脑、手机、平板电脑等，图2是根据本发明实施例的用于电力信息系统的故障分类模型的训练方法的流程图，如图2所示，该流程包括如下步骤：

S21，获取所述电力信息系统的故障文本训练集。

所述故障分类标签包括安装问题、网络问题、用户不可用、系统不可用、账户密码问题、电脑问题、软件问题、平台问题、功能不可用或硬件问题。当然，也可以包括其他的故障分类标签。

S22，对各个故障文本进行预处理。

其中，所述预处理包括分词处理。

具体地，上述S22包括如下步骤：

S221，对各个故障文本进行分词。

如上文所述，电子设备在获取到故障文本之后，就需要对故障文本进行分词处理；其中，具体的分词处理采用的是jieba分词工具。

S222，去除分词后的各个故障文本中的停用词。

电子设备在分词处理之后，从得到的一个个独立的词组中去除停用词。通过去除分词后的各个故障文本中的停用词，能够减少故障文本的噪声，提高了后续模型训练的效率。

其中，去停用词、冗余信息是通过python脚本来完成的，脚本的设计最大化的迎合了本实施例中对应的数据集，这样最后的分类效果受数据集噪声影响会比较小。

S23，对预处理后的各个故障文本进行文本向量化，得到向量化的故障文本。

具体地，上述S23包括如下步骤：

S231，对预处理后的各个故障文本中的词进行向量化处理，得到词向量。

如上文所述的，向量化处理可以采用word2vec分布式的表示方式表示分词后的词向量。

本实施例中word2vec的主要参数设置如下：sentences：我们要分析的语料是一个列表，词向量的长度设置为默认值100，迭代次数为5，采用CBOW模型。word2vec背后有两个计算字向量的模型：CBOW模型和skip-gram模型。CBOW模型对原神经网络语言模型(NNLM)进行了修改，并将中间层与softmax输出层直接连接。它忽略上下文的序列信息，将所有的词向量汇总到同一个嵌入层中。CBOW模型的特征是已知上下文的输入和当前单词预测的输出。其学习目标是使对数似然函数最大化：

其中，ω表示语料库中的任何单词，而skip-gram与CBOW相反，表示已知当前单词并预测上下文。

S232，基于各个故障文本包含的所有词向量，形成与各个故障文本对应的向量化的故障文本。

电子设备对各个故障文本包含的所有词向量进行加和后取平均值，形成与各个故障文本对应的向量化的故障文本。

S24，将向量化的故障文本输入故障分类模型中得到各个故障文本对应的至少一个预测分类标签，并利用各个故障文本的故障分类标签与对应的至少一个预测分类标签，对故障分类模型中的参数进行优化。

在本实施例中，使用TextCNN模型作为ICT系统故障文本分类模型，将卷积神经网络CNN应用到文本分类任务，利用多个不同size的kernel来提取句子中的关键信息，从而可以更好地捕捉局部相关性。对于TextCNN的参数设置是："TextCNN":{"kernel_sizes":[2,3,4],"num_kernels":100,"top_k_max_pooling":1}。整个故障分类模型包括四个部分：输入层、卷积层、池化层、全连接层。输入层也就是词嵌入层；卷积层是将词嵌入层映射后的特征做卷积操作，这里的卷积是一维卷积，经过kernel_sizes＝(2，3，4)的一维卷积层，每个kernel_size有两个输出的channel。池化层对卷积后的结果做pooling操作，本发明中top_k_max_pooling为1，这个部分减少了模型的参数，又保证了在不定长的卷积层的输出上获得一个定长的全连接层的输入。全连接层相当于把卷积层和池化层提取的特征输入到一个分类器中进行分类。

进一步地，TextCNN的卷积操作中，每一个卷积核的宽度都与词向量的维度一样大小，其中高度是可以变化的，比如一个卷积核高度为h，则该卷积核的每一次卷积操作将对h个词汇的词向量进行特征提取，记第i步提取后的特征值为Ci，则Ci的计算公式如下：

c_i＝f(ω·x_i:i+h-1+b)

其中，x_i:i+h-1表示词汇串x_i到x_i+h-1的拼接，b是偏置项。

当卷积核从上到下对句子的特征矩阵进行滑动时，步长为1，则每一步卷积对应的词汇串分别为{x_1:h,x_2:h,...,x_n-h+1:n}。卷积结束后会得到一个长度为n-h+1的特征向量：c＝[c₁,c₂,...,c_n-h+1]。进行池化操作时用最大池化操作max-pooling，从得到的特征向量中提取最大的值，池化操作得到的值为：

将每个卷积核得到的特征值进行拼接，每个句子得到一个向量表示，向量的长度为卷积核数量大小，句子向量表示为：

将卷积后得到的句子向量z传入一个全连接层，进行过拟合操作，最后将全连接层的计算结果接一个softmax层。

为了评估多标签分类算法的性能，本实施例中使用了常见的多标签分类算法(Multi-Label k-Nearest Neighbor，简称为ML-KNN)和逻辑回归算法(LogisticRegression，简称为LR)与本实施例中的TextCNN算法进行比较。ML-KNN算法是一种多标签懒惰学习方法。对于每个实例，先识别其在训练集中的k个最近的相邻样本，然后基于从这些相邻样本的标签集获得的统计信息，利用MAP来确定未知实例的标签集合。LR是一种广义的线性回归分析模型，是用于二分类的最常用的算法之一。图3a-3c为精准率、召回率、F1值的实验结果对比分析。从这些图中可以直观的看出，本实施例中的基于TextCNN的文本分类算法要优于其他两种算法。从这三个评价指标来看，采用TexrtCNN算法的故障标签分类更适用于电力故障数据集，充分验证了TextCNN模型训练简单、快速的特点。

本实施例提供的用于电力信息系统的故障分类模型的训练方法，由于故障文本可能是一句连续的文字表述，那么就需要对其进行向量化处理，以便于形成与故障文本对应的向量化的故障文本；同时，由于对于计算机其无法直接处理文本数据，就需要将文本进行数值化处理，得到与各个故障文本对应的向量化的故障文本，以便于后续对于故障分类模型的训练。

在本实施例中提供了一种用于电力信息系统的故障分类模型的训练方法，可用于电子设备，如电脑、手机、平板电脑等，图4是根据本发明实施例的用于电力信息系统的故障分类模型的训练方法的流程图，如图4所示，该流程包括如下步骤：

S31，获取所述电力信息系统的故障文本训练集。

详细请参见图2所示实施例的S21，在此并不赘述。

S32，对各个故障文本进行预处理。

其中，所述预处理包括分词处理。

详细请参见图2所示实施例的S22，在此并不赘述。

S33，对预处理后的各个故障文本进行文本向量化，得到向量化的故障文本。

详细请参见图2所示实施例的S23，在此并不赘述。

S34，将向量化的故障文本输入故障分类模型中得到各个故障文本对应的至少一个预测分类标签，并利用各个故障文本的故障分类标签与对应的至少一个预测分类标签，对故障分类模型中的参数进行优化。

详细请参见图2所示实施例的S24，在此并不赘述。

S35，获取电力信息系统的故障文本测试集。

其中，所述故障文本测试集中的各个故障文本带有至少一个所述故障分类标签。

本实施例中的ICT电力信息系统故障数据集来自国家电网公司，该数据集包括2000多个故障样本，这些样本都是真实的ICT电力信息系统故障文本记录。由于在ICT电力信息系统故障领域没有统一、明确的故障类别，所以本文从原始数据中提取了10个常用的标签。在分类过程中，该数据集中训练集、测试集和验证集的样本占比分别为60％、20％和20％。

所述的训练集用于上文所述的对故障分类模型的训练，测试集用于对训练后的故障分类模型进行测试，若测试不合格需要再次对故障分类模型进行训练；验证集用于对测试后的故障分类模型进行验证。

S36，基于故障文本测试集对参数优化后的故障分类模型进行测试，得到至少一个测试指标。

其中，所述测试指标包括精准率以及召回率中的至少一种。

电子设备在获取到故障文本测试集之后，还需要按照图4所示实施例的S32-S33所示的方法对测试集中的故障文本进行预处理以及向量化，之后再将向量化的故障文本输入S34训练得到的故障分类模型中，以对S34训练得到的故障分类模型进行测试。

其中，可以利用至少一个测试指标对测试结果进行评价。所述的测试指标包括：精准率、召回率以及基于精准率和召回率计算得到的F1值。

精准率是针对预测样本而言的，在预测返回的结果中，真正预测正确的个数占整个结果的比例。下式中TP是正类预测为正类。FP是预测负类为正类。可以采用如下公式表示：

召回率是针对原先实际样本而言的，指的是在预测结果中真正正确的个数占整个数据集中真正正确的个数的比例。TP是预测初始正类样本为正类。FN是预测初始正样本为负类。可以采用如下公式表示：

F1值是精准率和召回率这两个指标的权衡，同时兼顾了分类模型的精确率和召回率，这样就可以用一个标准来衡量模型的性能。F1值可以看作是模型精确率和召回率的一种加权平均。可以采用如下公式表示：

S37，利用至少一个测试指标确定是否需要对参数优化后的故障分类模型再次进行参数优化。

电子设备在S36中得到测试指标的结果之后，可以将测试结果与预设条件进行比较。若测试结果不满足预设条件，则需要对参数优化后的故障分类模型再次进行参数优化。

本实施例提供的用于电力信息系统的故障分类模型的训练方法，在训练得到故障分类模型之后，再利用故障文本测试集对故障分类模型进行测试，以对故障分类模型进行进一步的验证，保证了所得到的故障分类模型的可靠性。

根据本发明实施例，提供了一种电力信息系统的故障分类方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种电力信息系统的故障分类方法，可用于电子设备，如电脑、手机、平板电脑等，图5是根据本发明实施例的电力信息系统的故障分类方法的流程图，如图5所示，该流程包括如下步骤：

S41，获取电力信息系统的目标故障文本。

电子设备所获取到的电力信息系统的目标故障文本可以来自于电力ICT客户，也可以事先存储在电子设备中等等。在此对目标故障文本的来源并不做任何限制。

S42，对目标故障文本进行预处理。

其中，所述预处理包括分词处理。

所述的预处理可以参见图2所示实施例的S22，在此不再赘述。

S43，对预处理后的目标故障文本进行文本向量化，得到向量化的目标故障文本。

所述的文本向量化可以参见图2所示实施例的S23，在此不再赘述。

S44，将向量化的目标故障文本输入故障分类模型中，得到目标故障文本对应的至少一个故障分类标签。

其中，所述故障分类模型是根据本发明第一方面，或第一方面任一项实施方式中所述的用于电力系统的故障分类模型的训练方法训练得到的。

电子设备利用上述图1-图4实施例中所述的电力信息系统的故障分类模型的训练方法训练得到的故障分类模型，对目标故障文本进行故障分类，得到目标故障文本的至少一个故障分类标签。

本实施例提供的电力信息系统的故障分类方法，利用故障分类模型自动对目标故障文本中的电力故障进行分类，能够得到对应于该目标故障文本的至少一个故障分类标签，在保证分类准确性的前提下，提高了故障分类的效率。

在本实施例中还提供了一种用于电力信息系统的故障分类模型的训练装置，或电力信息系统的故障分类装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种用于电力信息系统的故障分类模型的训练装置，如图6所示，包括：

第一获取模块51，用于获取所述电力信息系统的故障文本训练集；其中，所述故障文本训练集中的各个故障文本带有至少一个故障分类标签；

第一预处理模块52，用于对各个所述故障文本进行预处理；其中，所述预处理包括分词处理；

第一向量化模块53，用于对预处理后的各个所述故障文本进行文本向量化，得到向量化的故障文本；

优化模块54，用于将所述向量化的故障文本输入故障分类模型中得到各个所述故障文本对应的至少一个预测分类标签，并利用各个所述故障文本的故障分类标签与对应的所述至少一个预测分类标签，对所述故障分类模型中的参数进行优化。

本实施例还提供一种电力信息系统的故障分类装置，如图7所示，包括：

第二获取模块61，用于获取所述电力信息系统的目标故障文本；

第二预处理模块，用于对所述目标故障文本进行预处理；其中，所述预处理包括分词处理62；

第二向量化模块63，用于对预处理后的所述目标故障文本进行文本向量化，得到向量化的目标故障文本；

分类模块64，用于将所述向量化的目标故障文本输入故障分类模型中，得到所述目标故障文本对应的至少一个故障分类标签；其中，所述故障分类模型是根据上述的用于电力系统的故障分类模型的训练方法训练得到的。

本实施例提供的电力信息系统的故障分类装置，利用故障分类模型自动对目标故障文本中的电力故障进行分类，能够得到对应于该目标故障文本的至少一个故障分类标签，在保证分类准确性的前提下，提高了故障分类的效率。

本实施例中的用于电力信息系统的故障分类模型的训练装置或电力信息系统的故障分类装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图6所示的用于电力信息系统的故障分类模型的训练装置，或图7所示的电力信息系统的故障分类装置。

请参阅图8，图8是本发明可选实施例提供的一种电子设备的结构示意图，如图8所示，该电子设备可以包括：至少一个处理器71，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口73，存储器74，至少一个通信总线72。其中，通信总线72用于实现这些组件之间的连接通信。其中，通信接口73可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口73还可以包括标准的有线接口、无线接口。存储器74可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器74可选的还可以是至少一个位于远离前述处理器71的存储装置。其中处理器71可以结合图6或图7所描述的装置，存储器74中存储应用程序，且处理器71调用存储器74中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线72可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线72可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器74可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器74还可以包括上述种类的存储器的组合。

其中，处理器71可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器71还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器74还用于存储程序指令。处理器71可以调用程序指令，实现如本申请图1至4实施例中所示的用于电力信息系统的故障分类模型的训练方法，或图5实施例中所示的电力信息系统的故障分类方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于电力信息系统的故障分类模型的训练方法，或电力信息系统的故障分类方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种用于电力信息系统的故障分类模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的训练方法，其特征在于，所述对预处理后的各个所述故障文本进行文本向量化，得到向量化的故障文本，包括：

3.根据权利要求2所述的训练方法，其特征在于，所述基于各个所述故障文本包含的所有所述词向量，形成与各个所述故障文本对应的向量化的故障文本，包括：

4.根据权利要求1-3中任一项所述的训练方法，其特征在于，所述对各个所述故障文本进行预处理，包括：

对各个所述故障文本进行分词；

去除分词后的各个所述故障文本中的停用词。

5.根据权利要求1所述的训练方法，其特征在于，所述故障分类模型是基于文本分类模型构建的。

6.根据权利要求1所述的训练方法，其特征在于，所述故障分类标签包括安装问题、网络问题、用户不可用、系统不可用、账户密码问题、电脑问题、软件问题、平台问题、功能不可用或硬件问题。

7.根据权利要求1所述的训练方法，其特征在于，还包括：

8.一种电力信息系统的故障分类方法，其特征在于，包括：

获取所述电力信息系统的目标故障文本；

将所述向量化的目标故障文本输入故障分类模型中，得到所述目标故障文本对应的至少一个故障分类标签；其中，所述故障分类模型是根据权利要求1-7中任一项所述的用于电力系统的故障分类模型的训练方法训练得到的。

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-7中任一项所述的用于电力系统的故障分类模型的训练方法，或权利要求8中所述的电力信息系统的故障分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的用于电力系统的故障分类模型的训练方法，或权利要求8中所述的电力信息系统的故障分类方法。