CN108388601A

CN108388601A - 故障的分类方法、存储介质及计算机设备

Info

Publication number: CN108388601A
Application number: CN201810108184.1A
Authority: CN
Inventors: 王月瑶; 洪楷; 刘伟; 陈乃华; 张学亮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2018-08-10

Abstract

本申请涉及一种故障的分类方法、计算机可读存储介质及计算机设备，该方法包括：获取待分类故障文本信息中的各待分类分词；基于预定的词分类器对各所述待分类分词进行分类，分别确定属于各预定故障类别的所述待分类分词的数目；根据属于各所述预定故障类别的所述待分类分词的数目，确定所述待分类故障文本信息所属的所述预定故障类别。本申请的方案能够基于故障文本信息对故障进行分类。

Description

故障的分类方法、存储介质及计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种故障的分类方法、计算机可读存储介质及计算机设备。

背景技术

随着互联网业务的迅速发展，运维人员面对的故障数量呈爆炸式增长，故障种类也呈多样化发展，在此背景下，自动化运维应运而生。自动化运维是指将传统运维中由人工执行的特定工作交由机器执行，从而降低运维人员的工作量，以及提高运维效率。对故障进行分类是自动化运维中的重点关注问题。

传统方法是基于监控曲线图进行故障分类，即获取与故障相关的曲线图(如网络流量曲线图)，再对曲线进行特征分析(如分析曲线的变化趋势及形状等特征)，进而基于特征分析结果对故障进行分类。然而，在运维工作中，时常需要根据用户反馈的故障信息进行故障分类，用户反馈的故障信息往往是故障文本信息，传统方法无法适用于故障文本信息。

发明内容

基于此，有必要针对传统方法无法适用于故障文本信息的技术问题，提供一种故障的分类方法、计算机可读存储介质及计算机设备。

一种故障的分类方法，包括步骤：

获取待分类故障文本信息中的各待分类分词；

基于预定的词分类器对各所述待分类分词进行分类，分别确定属于各预定故障类别的所述待分类分词的数目；

根据属于各所述预定故障类别的所述待分类分词的数目，确定所述待分类故障文本信息所属的所述预定故障类别。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的故障的分类方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的故障的分类方法的步骤。

上述故障的分类方法、计算机可读存储介质及计算机设备，获取待分类故障文本信息后，获得其各待分类分词，再基于预定的词分类器对各待分类分词进行分类，分别确定属于各预定故障类别的待分类分词的数目，并根据属于各预定故障类别的待分类分词的数目，在各预定故障类别中，确定该待分类故障文本信息所属的预定故障类别。可见，本申请各实施例的方案能够基于故障文本信息对故障进行分类。

附图说明

图1为一个实施例中故障的分类方法的应用环境图；

图2为一个实施例中故障的分类方法的流程示意图；

图3为一个实施例中词分类器构建方法的流程示意图；

图4为一个实施例中样本故障文本信息的原始分词的TF-IDF值的示意图；

图5为另一个实施例中故障的分类方法的流程示意图；

图6为另一个实施例中故障的分类方法的简化流程示意图；

图7为一个实施例中告警信息的展示界面图；

图8为一个实施例中故障的分类装置的结构框图；

图9为另一个实施例中词分类器构建模块的结构框图；

图10为一个实施例中计算机设备的结构框图；

图11为另一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请各实施例提供的故障的分类方法，可应用于如图1所示的应用环境中。该应用环境涉及终端110和服务器120，终端110和服务器120通过网络进行通信。终端110获取用户输入的故障文本信息后，将该故障文本信息发送至服务器120，服务器120对该故障文本信息进行处理，确定该故障文本信息所属的预定故障类别。其中，终端110可以是台式终端或移动终端，移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器120可以用独立的物理服务器，或者多个物理服务器构成的服务器集群来实现。

可以理解，在其他实施例中，终端110获取用户输入的故障文本信息后，也可以由终端110对该故障文本信息进行处理，在各预定故障类别中，确定该故障文本信息所属的预定故障类别。

在一个实施例中，如图2所示，提供了一种故障的分类方法。以该方法应用于上述图1中的服务器120为例进行说明。该方法可以包括如下步骤S202～S206。

S202，获取待分类故障文本信息中的各待分类分词。

故障文本信息，是指描述相关故障的情况的文本信息。以应用于网络游戏运维为例，故障文本信息可以为：华南一区掉线掉包网络波动有问题qq反馈是不是服务器问题请尽快解决。此外，相关故障可以指突发类故障。

在一个实施例中，当产品出现故障，用户可以向产品运营商反馈故障情况，进而由终端基于用户反馈生成故障文本信息，再将该故障文本信息发送至服务器。在另一个实施例中，也可以直接由服务器基于用户反馈生成故障文本信息。在又一个实施例中，还可以由预定的监测设备对产品的工作情况进行监测，当产品出现故障时，由该监测设备自动生成故障文本信息，再将该故障文本信息发送至服务器。

可以理解，不同的故障文本信息对应的故障种类可能有所不同，可以基于故障文本信息进行故障分类，即确定故障文本信息所属的预定故障类别。其中，预定故障类别可以根据产品的实际情况进行设定，且预定故障类别的数目通常多于一个。相应地，待分类故障文本信息是指需要确定其所属的预定故障类别的故障文本信息。仍以网络游戏运维为例，可预先设定三个类别，各预定故障类别分别为网络故障类、程序主机故障类和平台故障类，在此情况下，对于任一待分类故障文本信息，可在这三个类别中确定一个类别，作为该待分类故障文本信息所属的预定故障类别。

待分类分词，是指需要确定其所属的预定故障类别的分词。对于任一待分类故障文本信息，可对该待分类故障文本信息进行分词处理，获得该待分类故障文本信息的各原始分词，进而基于各原始分词确定各待分类分词。在一个实施例中，可将分词处理后获得的所有原始分词均作为待分类分词。

需要说明的是，分词处理可基于任何可能的分词方式实现。例如，jieba分词(可音译为结巴分词)、NLPIR分词、LTP(Language Technology Platform)分词、或者THULAC(THULexical Analyzer for Chinese)分词等等。

在一个实施例中，可基于自定义分词词典进行分词处理。例如，可基于jieba分词进行分词处理，jieba分词支持自定义分词词典，因此可以基于实际需求自定义分词词典，以提高分词的针对性，进而提高分类的准确性。例如，故障文本信息为“华南大区网络波动”，基于通用分词词典对该故障文本信息进行分词处理，获得的各原始分词可能分别为“华南”、“大区”、“网络”和“波动”。但基于实际需求，用户可能希望将“华南”和“大区”作为一个分词，而不是拆分为两个分词，“网络”和“波动”同理。在此情况下，用户可将“华南大区”和“网络波动”输入自定义分词词典，基于该自定义分词词典进行分词处理后，获得的各原始分词则可以分别为“华南大区”和“网络波动”。

S204，基于预定的词分类器对各待分类分词进行分类，分别确定属于各预定故障类别的待分类分词的数目。

预定的词分类器，是指包含若干个词，且记载有该若干个词各自所属的预定故障类别的映射工具。例如预定的词分类器中包含“掉包”、“网络波动”、“服务器问题”和“平台”这四个词，并且该词分类器中记载“掉包”和“网络波动”所属的预定故障类别为网络故障类、“服务器问题”所属的预定故障类别为程序主机故障类、以及“平台”所属的预定故障类别为平台故障类。

换言之，也可将词分类器理解为一个关系模型，基于词分类器可确定该词分类器所包含的各个词所属的预定故障类别。可以理解，在实际应用中，预定的词分类器中包含的词的数目通常十分庞大。并且，词的数目越多，词分类器的分类准确性越高。

对于任一待分类分词，可基于预定的词分类器对该待分类分词进行分类，即确定该待分类分词所属的预定故障类别。具体地，可在词分类器包含的各词中查找该待分类分词，若查找到，则可将该词分类器中所记载的该待分类分词所属的预定故障类别，确定为该待分类分词实际所属的预定故障类别。

在本实施例中，可基于预定的词分类器确定属于各预定故障类别的待分类分词的数目。例如，各预定故障类别分别为第一预定故障类别，第二预定故障类别和第三预定故障类别，则确定属于第一预定故障类别的待分类分词的总数目、属于第一预定故障类别的待分类分词的总数目、以及属于第一预定故障类别的待分类分词的总数目。

以待分类故障文本信息为“华南一区掉线掉包网络波动有问题qq反馈是不是服务器问题请尽快解决”，该待分类故障文本信息的各待分类分词共计11个，分别为“华南一区”、“掉线”、“掉包”、“网络波动”、“有问题”、“qq反馈”、“是不是”、“服务器问题”、“请”、“尽快”和“解决”，且各预定故障类别分为“网络故障类”、“程序主机故障类”和“平台故障类”为例，经词分类器分类后，可确定属于网络故障类的待分类分词为2个(掉包和网络波动)、属于程序主机故障类的待分类分词为1个(服务器问题)、以及属于平台故障类的待分类分词为0个(下文简称示例E-1)。

S206，根据属于各预定故障类别的待分类分词的数目，确定待分类故障文本信息所属的预定故障类别。

在一个实施例中，可直接将其对应的待分类分词的数目最多的预定故障类别，确定为待分类故障文本信息所属的预定故障类别。例如，对于示例E-1，网络故障类对应的待分类分词的数目为2，程序主机故障类对应的待分类分词的数目为1，平台故障类对应的待分类分词的数目为0，可见，网络故障类对应的待分类分词的数目最多，因此可将网络故障类确定为该待分类故障文本信息所属的预定故障类别。

在另一个实施例中，可根据属于各预定故障类别的待分类分词的数目，分别确定待分类故障文本信息属于各预定故障类别的各概率值，进而基于各概率值确定待分类故障文本信息所属的预定故障类别。具体地，可将概率值最大的预定故障类别，确定为待分类故障文本信息所属的预定故障类别。其中，对于任一预定故障类别而言，设待分类故障文本信息属于该预定故障类别的概率值为P，则count_i为属于该预定故障类别的待分类分词的总数目，count_total为该待分类故障文本信息的待分类分词的总数目。

以示例E-1为例，可确定待分类故障文本信息属于网络故障类的概率值待分类故障文本信息属于程序主机故障类的概率值待分类故障文本信息属于平台故障类的概率值因此，可将概率值最大的网络故障类，确定为该待分类故障文本信息所属的预定故障类别。

上述故障的分类方法，获取待分类故障文本信息后，获得其各待分类分词，再基于预定的词分类器对各待分类分词进行分类，分别确定属于各预定故障类别的待分类分词的数目，并根据属于各预定故障类别的待分类分词的数目，在各预定故障类别中，确定该待分类故障文本信息所属的预定故障类别。可见，本申请各实施例的方案能够基于故障文本信息对故障进行分类。

在一个实施例中，在获取待分类故障文本信息中的各待分类分词之前，即步骤S204之前，还可以包括如下步骤：获取原始故障文本信息；对原始故障文本信息进行数据清洗处理，获得待分类故障文本信息。

在原始故障文本信息所包含的文本信息中，除描述相关故障情况的文本信息之外，通常还包含无效文本信息。其中，无效文本信息可包括用户个人信息(如用户ID和用户登录设备信息等)。

可以理解，无效文本信息不仅对分类工作无益，还会给分类工作带来负面影响，例如增加运算量以及降低分类的准确性。基于此，在本实施例中，获取原始故障文本信息后，先对该原始故障文本信息进行清洗处理，获得待分类故障文本信息。相应地，待分类故障文本信息指的则是仅包含描述相关故障情况的文本信息。

清洗处理，是指去除原始故障文本信息中包含的无效文本信息的处理。在一个实施例中，清洗处理可包括如下步骤：在原始故障文本信息中搜索预定的无效信息标识，再基于无效信息标识获得无效文本信息，进而将该无效文本信息从原始故障文本信息中删除，以完成清洗处理，获得待分类故障文本信息。

如图3所示，在一个实施例中，构建词分类器的方式，可以包括如下步骤S302～步骤S310。

S302，获取属于各预定故障类别的各样本故障文本信息。S304，获得各样本故障文本信息中的各样本分词。S306，在各样本故障文本信息的各样本分词中，确定各样本故障文本信息的关键词。S308，基于各关键词对应的各样本故障文本信息所属的预定故障类别，确定各关键词所属的预定故障类别。S310，基于各样本故障文本信息的各关键词、以及各关键词所属的预定故障类别构建词分类器。

样本故障文本信息，是指其所属的预定故障类别已知的故障文本信息。在一个实施例中，样本故障文本信息可以携带类别标注信息，对于任一样本故障文本信息，其类别标注信息用于标识该样本故障文本信息所属的预定故障类别。在实际应用中，样本故障文本信息所属的预定故障类别可由相关技术人员基于业务经验进行确定。

对各样本故障文本信息进行分词处理，分别获得各样本故障文本信息的各样本分词。需要说明的是，对样本故障文本信息进行分词处理和前文的对待分类故障文本信息进行分词处理，两处分词处理的具体实现手段可以相同，此处不加赘述。

然后，在各样本故障文本信息的各样本分词中，确定各样本故障文本信息的关键词。在一个实施例中，对于任一样本故障文本信息，可在其各样本分词中，选择重要性值最高的预设数目的样本分词，作为该样本故障文本信息的关键词。例如，选择重要性值最高的3个样本分词。

进而，基于各关键词对应的各样本故障文本信息所属的预定故障类别，确定各关键词所属的预定故障类别。在一个实施例中，对于任一关键词，可直接将该关键词对应的样本故障文本信息所属的预定故障类别，确定为该关键词所属的预定故障类别。

需要说明的是，可能会出现关键词对应多个样本故障文本信息，且这多个样本故障文本信息所属的预定故障类别多于一个的情况。在此情况下，在一个实施例中，该关键词所属的预定故障类别的数目也可以相应多于一个，即将该关键词对应的各样本故障文本信息所属的各预定故障类别均确定为该关键词所属的预定故障类别。例如，对于“客户端”这一关键词，其对应的一部分样本故障文本信息所属的预定故障类别为网络故障类，其对应的另一部分样本故障文本信息所属的预定故障类别为程序主机故障类，则可将“客户端”这一关键词所属的预定故障类别确定为网络故障类和程序主机故障类。

最后，可基于各样本故障文本信息的各关键词、以及各关键词所属的预定故障类别构建词分类器。在一个实施例中，可以预先设置与各预定故障类别一一对应的各映射词典，各样本故障文本信息的各关键词中属于同一预定故障类别的各关键词，均存储至与该预定故障类别相对应的映射词典中，再基于与各预定故障类别一一对应的各映射词典构建词分类器。可以理解，映射词典是指关键词集合，该关键词集合中包含属于同一预定故障类别的各关键词。

具体地，对于任一样本故障文本信息，获得其各关键词后，即可将其各关键词存储至该样本故障文本信息所属的预定故障类别所对应的映射词典中。例如，各预定故障类别分别为网络故障类、程序主机故障类和平台故障类，则预先设置与网络故障类对应的映射词典A-D，与程序主机故障类对应的映射词典B-D、与平台故障类对应的映射词典C-D。假设样本故障文本信息A属于网络故障类，且该样本故障文本信息A的各关键词分别为a1、a2和a3，样本故障文本信息B属于程序主机故障类，且该样本故障文本信息B的各关键词分别为b1、b2和b3，样本故障文本信息C属于平台故障类，且该样本故障文本信息C的各关键词分别为c1、c2和c3。则，将关键词a1、a2和a3存储至网络故障类对应的映射词典A-D中，将关键词b1、b2和b3存储至程序主机故障类对应的映射词典B-D中，将关键词c1、c2和c3存储至平台故障类对应的映射词典C-D中。然后，再基于映射词典A-D、映射词典B-D、以及映射词典C-D构建词分类器。

在一个实施例中，在步骤S308之后，步骤S310之前，还可以包括步骤：获取各关键词的语义近似词，并将各关键词所属的预定故障类别确定为其语义近似词所属的预定故障类别。在此情况下，步骤S310可以包括：基于各样本故障文本信息的各关键词、各关键词所属的预定故障类别、各关键词的语义近似词以及语义近似词所属的预定故障类别，构建词分类器。其中，语义近似词是指词汇含义相同或相近的词语。

在一个实施例，对于任一样本故障文本信息，获得其各关键词后，对于任一关键词，均可基于预定的语义近似词集合获得该关键词的各语义近似词，进而将该关键词以及该关键词的各语义近似词一并存储至该样本故障文本信息所属的预定故障类别所对应的映射词典中。

在一个实施例中，语义近似词集合可以为向量空间模型。向量空间模型是指将词汇表达于一个连续的向量空间中，语义近似的词汇被映射为相邻的数据点。对于任一词，基于向量空间模型可以获取该词的各语义近似词。

需要说明的是，本实施例中构建词分类器的方式属于无监督学习，并且无需训练。其中，无监督学习是区别于有监督学习的一种方式。在有监督学习中，需要将各样本数据分为两部分，一部分用于构建模型，另一部分则作为测试数据用于测试该模型的准确度，例如对于决策树及朴素贝叶斯，可先基于60％的样本数据构建模型，再基于余下的40％的样本数据测试模型的准确度。然而，本实施例采用无监督学习，全部的样本故障文本信息均可用于构建词分类器，有利于提高分类的准确性。此外，无需训练可以简化词分类器构建过程。

在一个实施例中，在各样本故障文本信息的各样本分词中，确定各样本故障文本信息的关键词，即步骤S306，可以包括以下步骤：基于各样本故障文本信息的各样本分词的词频和逆文档频率，确定各样本故障文本信息的各样本分词的重要性值。然后，基于各样本故障文本信息的各样本分词的重要性值，确定各样本故障文本信息的关键词。

对于任一样本故障文本信息的任一样本分词，该样本分词的重要性值可用于评估该样本分词对于该样本故障文本信息的重要程度。在本实施例中，样本分词的重要性值基于该样本分词的词频(Term Frequency，TF)和逆文档频率(inverse document frequency，IDF)确定。具体地，样本分词的重要性值可以为TF-IDF值，样本分词的TF-IDF值为该样本分词的词频乘以逆文档频率，即TF-IDF＝TF×IDF。

其中，对于任一样本故障文本信息的任一样本分词，该样本分词的词频是指该样本分词在该样本故障文本信息中的出现频率。该样本分词的逆文档频率是指包含该样本分词的样本故障文本信息在所有样本故障文本信息中的出现频率的倒数。

在一个实施例中，对于样本故障文本信息j的样本分词i，该样本分词i的词频为TF_ji，其中，n_ij为样本分词i在样本故障文本信息j中的出现次数，n_j-all为样本故障文本信息j中的样本分词的总数，或者样本故障文本信息j中出现次数最多的样本分词的出现次数。

在一个实施例中，对于样本故障文本信息j的样本分词i，该样本分词i的逆文档频率为IDF_ji,N_total为预定语料库包含的文档的总数目，N_i为预定语料库包含的文档中包含样本分词i的文档的总数目。例如，预定语料库为样本数据库，该样本数据库包含若干个样本故障文本信息，则N_total为该样本数据库包含的若干个样本故障文本信息的总数目，N_i为这若干个样本故障文本信息中包含样本分词i的样本故障文本信息的总数目。

需要说明的是，在预定语料库包含的文档中包含样本分词i的文档的总数目为0时，这一公式的分母项N_i则为0，此时可将该样本分词i的逆文档频率设置为预定的无实义数值，例如设置为0。

在另一个实施例中，对于样本故障文本信息j的样本分词i，样本分词i的逆文档频率为IDF_ji,N_total为预定语料库包含的文档的总数目，N_i为预定语料库包含的文档中包含样本分词i的文档的总数目。本实施例可在预定语料库包含的文档中包含样本分词i的文档的总数目为0时，保证分母项N_i+1不为0。

在一个实施例中，基于各关键词对应的各样本故障文本信息所属的预定故障类别，确定各关键词所属的预定故障类别，即步骤S308，可以包括如下步骤：当关键词对应的各样本故障文本信息所属的预定故障类别多于一个时，确定该关键词对应的各待选预定故障类别。然后，基于该关键词与各待选预定故障类别相对应的总重要性值，在各待选预定故障类别中确定该关键词所属的预定故障类别，总重要性值为该关键词作为属于该待选预定故障类别的各样本故障文本信息的样本分词所确定的各重要性值的和。

在本实施例中，对于关键词对应多个样本故障文本信息，且这多个样本故障文本信息所属的预定故障类别多于一个的情况。需要在这多个预定故障类别中最终选定一个，作为该关键词所属的预定故障类别。可以理解，在本实施例中，各关键词所属的预定故障类别均是唯一的，能够有效地提高关键词分类的准确性。

在本实施例中，对于各关键词，当该关键词对应的各样本故障文本信息所属的预定故障类别多于一个时，将相应的多个预定故障类别确定为该关键词的待选预定故障类别。然后，基于该关键词与各待选预定故障类别相对应的总重要性值，在各待选预定故障类别中确定该关键词所属的唯一的预定故障类别，该总重要性值为该关键词作为属于该待选预定故障类别的各样本故障文本信息的样本分词所确定的各重要性值的和。在一个实施例中，可将其对应的总重要性值最大的待选预定故障类别确定为该关键词所属的唯一的预定故障类别。

例如，对于“客户端”这一关键词，其对应的样本故障文本信息有5个，分别为属于网络故障类的样本故障文本信息D和样本故障文本信息E，以及属于程序主机类的样本故障文本信息F、样本故障文本信息G和样本故障文本信息H。此外，“客户端”作为样本故障文本信息D的样本分词所确定的重要性值为0.5，“客户端”作为样本故障文本信息E的样本分词所确定的重要性值为0.1，“客户端”作为样本故障文本信息F的样本分词所确定的重要性值为0.3，“客户端”作为样本故障文本信息G的样本分词所确定的重要性值为0.2，“客户端”作为样本故障文本信息H的样本分词所确定的重要性值为0.4。则，“客户端”与网络故障类相对应的总重要性值为0.6(0.5+0.1)，“客户端”与程序主机故障类相对应的总重要性值为0.9(0.3+0.2+0.4)，因为0.6＜0.9，最终可在网络故障类和程序主机故障类这两个待选预定故障类别中，将其对应的总重要性值最大的程序主机故障类确定为“客户端”这一关键词所属的唯一的预定故障类别。

在一个实施例中，获取各样本故障文本信息中的各样本分词，即步骤S304，可以包括步骤：对各样本故障文本信息进行分词处理，获得各样本故障文本信息的原始分词。然后，对各原始分词进行停用词过滤处理，获得各样本故障文本信息的各样本分词。

停用词，通常是指不具备相关实际含义的词，如中文中的“和”、“的”、“是”以及“另外”等词。在一个实施例中，停用词可以指不具备与故障情况相关的实际含义的词。例如，某一样本故障文本信息的各原始分词分别为：刷分、小号、模式、龙之谷、具体、剑灵、战场、跨服、闪退和问题，其中，龙之谷、具体、剑灵和问题这四个原始分词不具备与故障情况相关的实际含义，即可将该四个原始分词确定为停用词。进行停用词过滤处理后，获得该样本故障文本信息的各样本分词，分别为：刷分、小号、模式、战场、跨服和闪退。

在一个实施例中，可基于预定的停用词表对各原始分词进行停用词过滤处理，停用词表中存储有预定停用词。对于各原始分词，将与停用词表中存储的各预定停用词相同的原始分词确定为停用词。可以理解，停用词表可基于实际需求进行设定。

需要说明的是，在另一个实施例中，还可以先将各样本故障文本信息的各原始分词均直接作为各样本故障文本信息的样本分词，后续确定各样本分词的重要性值后，再进行停用词的过滤处理，然后基于过滤处理后剩下的各样本分词的重要性值，在该剩下的各样本分词中，确定样本故障文本信息的关键词。

需要说明的是，停用词的出现次数通常比较多，且出现范围也通常比较大，由于停用词不具备与故障情况相关的实际含义，停用词不仅对分类工作毫无益处，还会给分类工作带来负面影响，例如增大运算量以及降低关键词确定的准确性。因此，在本实施例中，进行停用词过滤处理，能够有效地提高分类的效率以及准确性。

以下结合图4示出的某一属于程序主机类的样本故障文本信息的各原始分词的TF-IDF值，对一个实施例中基于该样本故障文本信息构建词分类器的过程进行说明。

假设在该实施例中将样本故障文本信息中TF-IDF值最高的3个样本分词确定为该样本故障文本信息的关键词。确定该样本故障文本信息的各原始分词的TF-IDF值后，对该各原始分词进行停用词过滤处理，过滤掉“龙之谷”、“具体”、“剑灵”和“问题”这四个停用词后，将“刷分”、“小号”、“模式”、“战场”、“跨服”和“闪退”这六个样本分词中TF-IDF值最大的3个样本分词确定为该样本故障文本信息的关键词，这3个关键词分别为：“刷分”、“跨服”和“小号”，并且将这3个关键词存储至程序主机故障类对应的映射词典。

在一个实施例中，在确定待分类故障文本信息所属的预定故障类别之后，即步骤S206之后，还可以包括步骤：在待分类故障文本信息的各待分类分词中，确定待分类故障文本信息的关键词；基于待分类故障文本信息的各关键词、以及待分类故障文本信息所属的预定故障类别更新词分类器。

在本实施例中，每完成一次分类处理，即每确定一个待分类故障文本信息所属的预定故障类别之后，该待分类故障文本信息所属的预定故障类别则是已知的，因此可将该待分类故障文本信息视为一个样本故障文本信息。进而，基于该样本故障文本信息对预定的词分类器进行更新。

更新处理与前文的构建词分类器的过程中对每一个样本故障文本信息的处理类似，具体可以包括如下步骤(1)和(2)。

(1)该待分类故障文本信息的各待分类分词中，确定待分类故障文本信息的关键词。

在一个实施例中，可基于各待分类分词的词频和逆文档频率，确定各待分类分词的重要性值，再基于各待分类分词的重要性值，确定该待分类故障文本信息的关键词。

(2)基于待分类故障文本信息的关键词、以及待分类故障文本信息所属的预定故障类别更新词分类器。

将该待分类故障文本信息的各关键词存储至与该待分类故障文本信息所属的预定故障类别对应的映射词典中，以更新词分类器。

需要说明的是，若该待分类故障文本信息的任一关键词已在与其他预定故障类别对应的映射词典中存在，则说明该关键词的待选预定故障类别多于一个。在此情况下，可以基于该关键词与各待选预定故障类别相对应的总重要性值，在各待选预定故障类别中确定该关键词所属的唯一的预定故障类别，具体处理与前文在各待选预定故障类别中确定关键词所属的唯一的预定故障类别的处理过程类似，此处不加赘述。

此外，在另一个实施例中，执行完步骤S206之后，可以不执行基于待分类故障文本信息对词分类器进行更新的处理。而是，基于预定的更新时间间隔和最新的样本故障文本信息对词分类器进行更新处理。例如，更新时间间隔可设定为3个月或6个月，即每隔3个月或6个月，获取最新的各样本故障文本信息，基于该最新的各样本故障文本信息对词分类器进行更新处理。

如图5所示，在一个实施例中，提供一种故障的分类方法。此外，可一并参照图6所示的流程简图。该分类方法可以包括如下步骤S501和步骤S502：S501，构建词分类器；S502，确定待分类故障文本信息所属的预定故障类别。

其中，步骤S501可以包括如下步骤S5011～S5016。

S5011，获取属于各预定故障类别的各样本故障文本信息。

S5012，对各样本故障文本信息进行分词处理，获得各样本故障文本信息的原始分词。

S5013，对各原始分词进行停用词过滤处理，获得各样本故障文本信息的各样本分词。

S5014，基于各样本故障文本信息的各样本分词的词频和逆文档频率，确定各样本故障文本信息的各样本分词的重要性值。

S5015，判断关键词对应的各样本故障文本信息所属的预定故障类别是否多于一个；若是，则跳转至步骤S5015a，若否，则跳转至步骤S5015b。

S5015a，确定该关键词对应的各待选预定故障类别，并基于该关键词与各待选预定故障类别相对应的总重要性值，在各待选预定故障类别中确定该关键词所属的预定故障类别，总重要性值为该关键词作为属于该待选预定故障类别的各样本故障文本信息的样本分词所确定的各重要性值的和。

S5015b，将关键词对应的各样本故障文本信息所属的预定故障类别确定为该关键词所属的预定故障类别。

S5016，基于各样本故障文本信息的各关键词、以及各关键词所属的预定故障类别构建词分类器。

此外，步骤S502可以包括如下步骤S5021～S5027。

S5021，获取原始故障文本信息。

S5022，对原始故障文本信息进行数据清洗处理，获得待分类故障文本信息。

S5023，对待分类故障文本信息进行分词处理，获得待分类故障文本信息中的各原始分词。

S5024，对待分类故障文本信息中的各原始分词进行停用词过滤处理，获得待分类故障文本信息的各待分类分词。

S5025，基于预定的词分类器对各待分类分词进行分类，分别确定属于各预定故障类别的待分类分词的数目。

S5026，根据属于各预定故障类别的待分类分词的数目，分别确定待分类故障文本信息属于各预定故障类别的各概率。

S5027，基于各概率确定待分类故障文本信息所属的预定故障类别。

需要说明的是，本实施例中的各步骤的技术特征可与前文的各实施例中的对应步骤的技术特征相同，此处不加赘述。

需要说明的是，在产品应用层面，本申请各实施例提供的故障的分类方法可应用于自动化运维平台，例如。自动化运维平台接入该故障的分类方法，作为一层过滤收敛。具体地，自动化运维平台获得待分类故障文本信息后，确定该待分类故障文本信息所属的预定故障类别，进而基于该预定故障类别获得相关的告警信息，进而发布该告警信息，如将该告警信息推送至相关运维人员，从而支撑运维人员高效且有针对性地进行故障维护。

例如，待分类故障文本信息为：华南一区掉线掉包网络波动有问题qq反馈是不是服务器问题请尽快解决。图1中的服务器120对该待分类故障文本信息进行处理，确定该待分类故障文本信息所属的预定故障类别为网络故障类，则可以将分类结果发送至终端110，该终端110显示图7所示的信息，以供相关人员查看。

此外，应当理解的是，虽然图2、3和5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3和5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于与上述方法相同的思想，如图8所示，在一个实施例中，提供了一种故障的分类装置800。该分类装置800可以包括如下模块：待分类分词获取模块802，用于获取待分类故障文本信息中的各待分类分词；词分类模块804，用于基于预定的词分类器对各待分类分词进行分类，分别确定属于各预定故障类别的待分类分词的数目；文本类别确定模块806，用于根据属于各预定故障类别的待分类分词的数目，确定待分类故障文本信息所属的预定故障类别。

上述故障的分类装置800，获取待分类故障文本信息后，获得其各待分类分词，再基于预定的词分类器对各待分类分词进行分类，分别确定属于各预定故障类别的待分类分词的数目，并根据属于各预定故障类别的待分类分词的数目，在各预定故障类别中，确定该待分类故障文本信息所属的预定故障类别。可见，传统方法仅适用于故障信息为曲线图的情况，而本申请各实施例的方案能够基于故障文本信息对故障进行分类。

在一个实施例中，该分类装置800还可以包括如下模块：原始文本获取模块，用于获取原始故障文本信息；待分类故障文本信息获取模块，用于对原始故障文本信息进行数据清洗处理，获得待分类故障文本信息。

在一个实施例中，该分类装置800还可以包括如下模块：关键词确定模块，用于在待分类故障文本信息的各待分类分词中，确定待分类故障文本信息的关键词；词分类器更新模块，用于基于待分类故障文本信息的各关键词、以及待分类故障文本信息所属的预定故障类别更新词分类器。

如图9所示，在一个实施例中，该分类装置800还可以包括词分类器构建模块。该词分类器构建模块可以包括如下单元：样本文本获取单元902，用于获取属于各预定故障类别的各样本故障文本信息；样本分词获取单元904，用于获得各样本故障文本信息中的各样本分词；样本关键词确定单元906，用于在各样本故障文本信息的各样本分词中，确定各样本故障文本信息的关键词；关键词类别确定单元908，用于基于各关键词对应的各样本故障文本信息所属的预定故障类别，确定各关键词所属的预定故障类别；词分类器构建单元910，用于基于各样本故障文本信息的各关键词、以及各关键词所属的预定故障类别构建词分类器。

在一个实施例中，样本关键词确定单元906，可以包括如下子单元：重要性值确定子单元，用于基于各样本故障文本信息的各样本分词的词频和逆文档频率，确定各样本故障文本信息的各样本分词的重要性值；样本关键词确定子单元，用于基于各样本故障文本信息的各样本分词的重要性值，确定各样本故障文本信息的关键词。

在一个实施例中，各关键词所属的预定故障类别均是唯一的。在此情况下，关键词类别确定单元908，可以包括如下子单元：待选类别确定子单元，用于当关键词对应的各样本故障文本信息所属的预定故障类别多于一个时，确定该关键词对应的各待选预定故障类别；关键词类别确定子单元，用于基于该关键词与各待选预定故障类别相对应的总重要性值，在各待选预定故障类别中确定该关键词所属的预定故障类别，总重要性值为该关键词作为属于该待选预定故障类别的各样本故障文本信息的样本分词所确定的各重要性值的和。

在一个实施例中，样本分词获取单元904，可以包括如下子单元：原始分词获取子单元，用于对各样本故障文本信息进行分词处理，获得各样本故障文本信息的原始分词；停用词过滤子单元，用于对各原始分词进行停用词过滤处理，获得各样本故障文本信息的各样本分词。

需要说明的是，关于故障的分类装置800的具体限定可以参见前文中对于故障的分类方法的限定，在此不再赘述。上述故障的分类装置800中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现本申请任一实施例提供的故障的分类方法。

在一个实施例中，该计算机设备可以是图1中示出的服务器120，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统和计算机程序，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境，该计算机程序被处理器执行时以实现本申请任一实施例提供的故障的分类方法。该网络接口用于与外部的终端通过网络连接通信。

在另一个实施例中，该计算机设备可以是图1中示出的终端110，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统和计算机程序，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境，该计算机程序被处理器执行时以实现本申请任一实施例提供的故障的分类方法。该网络接口用于与外部的终端通过网络连接通信。该显示屏可以是液晶显示屏或者电子墨水显示屏。该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

可以理解，图10和图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

需要说明的是，本申请各实施例提供的故障的分类装置可以实现为一种计算机程序的形式，计算机程序可在如图10或图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该分类装置的各个程序模块，比如，图8所示的待分类分词获取模块802、词分类模块804和文本类别确定模块806。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的故障的分类方法中的步骤。例如，图10或图11所示的计算机设备可以通过如图8所示的故障的分类装置800中的待分类分词获取模块802执行步骤S202、通过词分类模块804执行步骤S204、通过文本类别确定模块806执行步骤S206等等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

据此，在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任一实施例提供的故障的分类方法。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种故障的分类方法，其特征在于，包括步骤：

获取待分类故障文本信息中的各待分类分词；

2.根据权利要求1所述的方法，其特征在于，在所述获取待分类故障文本信息中的各待分类分词之前，还包括：

获取原始故障文本信息；

对所述原始故障文本信息进行数据清洗处理，获得待分类故障文本信息。

3.根据权利要求1所述的方法，其特征在于：在所述确定所述待分类故障文本信息所属的所述预定故障类别之后，还包括：

在所述待分类故障文本信息的各所述待分类分词中，确定所述待分类故障文本信息的关键词；

基于所述待分类故障文本信息的各所述关键词、以及所述待分类故障文本信息所属的所述预定故障类别更新所述词分类器。

4.根据权利要求1至3任一项所述的方法，其特征在于，构建所述词分类器的方式，包括步骤：

获取属于各所述预定故障类别的各样本故障文本信息；

获得各所述样本故障文本信息中的各样本分词；

在各所述样本故障文本信息的各所述样本分词中，确定各所述样本故障文本信息的关键词；

基于各所述关键词对应的各所述样本故障文本信息所属的所述预定故障类别，确定各所述关键词所属的所述预定故障类别；

基于各所述样本故障文本信息的各所述关键词、以及各所述关键词所属的所述预定故障类别构建所述词分类器。

5.根据权利要求4所述的方法，其特征在于，所述在各所述样本故障文本信息的各所述样本分词中，确定各所述样本故障文本信息的关键词，包括：

基于各所述样本故障文本信息的各所述样本分词的词频和逆文档频率，确定各所述样本故障文本信息的各所述样本分词的重要性值；

基于各所述样本故障文本信息的各所述样本分词的重要性值，确定各所述样本故障文本信息的关键词。

6.根据权利要求5所述的方法，其特征在于：

所述基于各所述关键词对应的各所述样本故障文本信息所属的所述预定故障类别，确定各所述关键词所属的所述预定故障类别，包括步骤：

当所述关键词对应的各所述样本故障文本信息所属的所述预定故障类别多于一个时，确定该关键词对应的各待选预定故障类别；

基于该关键词与各所述待选预定故障类别相对应的总重要性值，在各所述待选预定故障类别中确定该关键词所属的所述预定故障类别，所述总重要性值为该关键词作为属于该待选预定故障类别的各所述样本故障文本信息的样本分词所确定的各重要性值的和。

7.根据权利要求4所述的方法，其特征在于，所述获取各所述样本故障文本信息中的各样本分词，包括步骤：

对各所述样本故障文本信息进行分词处理，获得各所述样本故障文本信息的原始分词；

对各所述原始分词进行停用词过滤处理，获得各所述样本故障文本信息的各样本分词。

8.根据权利要求4所述的方法，其特征在于，在所述基于各所述样本故障文本信息的各所述关键词、以及各所述关键词所属的所述预定故障类别构建所述词分类器之前，还包括：

获取各所述关键词的语义近似词，并将各所述关键词所属的所述预定故障类别确定为其语义近似词所属的预定故障类别；

所述基于各所述样本故障文本信息的各所述关键词、以及各所述关键词所属的所述预定故障类别构建所述词分类器，包括：

基于各所述样本故障文本信息的各所述关键词、各所述关键词所属的所述预定故障类别、各所述关键词的语义近似词以及所述语义近似词所属的所述预定故障类别，构建所述词分类器。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。