CN108416375A

CN108416375A - 工单分类方法及装置

Info

Publication number: CN108416375A
Application number: CN201810150749.2A
Authority: CN
Inventors: 刘占春; 王丽; 姜晓东
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2018-08-17
Anticipated expiration: 2038-02-13
Also published as: CN108416375B

Abstract

本发明提供一种工单分类方法及装置，通过对工单进行分词，获得词语集合；然后根据词性词典获取所述词语集合中积极词性词语和消极词性词语的比例，若所述积极词性词语和消极词性词语的比例满足预设阈值，则确定所述工单为与所述预设阈值对应的工单类别；若所述比例不满足所述预设阈值，则采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断，以获取所述工单所属的工单类别。本发明的方法通过词语集合中积极词性词语和消极词性词语的比例进行初步分类，从而减小了需要朴素贝叶斯分类器进行分类的工单量，从而提高分类效率，适用于电信行业的海量工单的分类，且具有较高的准确性。

Description

工单分类方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种工单分类方法及装置。

背景技术

移动运营商客服代表需要对来自互联网方方面面的舆论评价进行工单处理，例如来自微博、朋友圈等社交网络的状态和评论等，客服代表每日要面对大量的信息，且工单可能有投诉类、建议类、咨询类、表扬类等等不同类别，为了便于客服代表对某一类别的工单进行处理，如优先处理投诉类的工单，从而提高客服代表处理工单的效率，因此需要对这些工单予以分类。

现有技术中通常采用朴素贝叶斯算法对文本进行分类，具有容易实现，运行速度快的特点，被广泛使用，对小规模的数据表现很好。而面对海量工单的分类，则需要占用大量的计算资源，在计算资源有限的前提下，则表现为分类效率降低，导致工单积压，工单无法及时被处理。

发明内容

本发明提供一种工单分类方法及装置，以提高分类效率，利于客服代表对某一类别工单及时的处理，适用于电信行业的海量工单的分类。

本发明的一个方面是提供一种工单分类方法，包括：

对工单进行分词，获得词语集合；

根据词性词典获取所述词语集合中积极词性词语和消极词性词语的比例，若所述积极词性词语和消极词性词语的比例满足预设阈值，则确定所述工单为与所述预设阈值对应的工单类别；

若所述比例不满足所述预设阈值，则采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断，以获取所述工单所属的工单类别。

进一步的，所述采用经过训练的朴素贝叶斯分类器对所述词语集合进行分类前，还包括：

查找所述词语集合中是否包含一级决策语料库中的判定词语，其中所述一级决策语料库包括类别代表词语和/或强烈感情色彩词语，若包含，则确定所述工单为与所述判定词语对应的工单类别。

进一步的，所述采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断，以获取所述工单所属的工单类别，具体包括：

采用所述贝叶斯分类器获取所述工单属于各个工单类别的概率；

根据所述工单属于各个工单类别的概率及所述积极词性词语和消极词性词语的比例确定所述工单所属的工单类别。

进一步的，所述对工单进行分词，获得词语集合，具体包括：

对所述工单进行分词，并进行词性标注；

根据词性和/或停用词表进行过滤，从而获得所述词语集合。

进一步的，所述采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断前，还包括：

获取训练样本集合，所述训练样本集合包括多个已知类别的工单；

获取每一所述已知类别的工单中的特征词语；

获取各个工单类别在所述训练样本集合中出现的频率、每一特征词语在各工单类别出现的条件概率、以及分类错误的代价因子，从而完成对所述朴素贝叶斯分类器的训练。

进一步的，所述方法还包括：

根据分类结果的正确率调整各个工单类别在所述训练样本集合中出现的频率、每一特征词语在各工单类别出现的条件概率、以及分类错误的代价因子。

进一步的，所述工单类别包括：投诉类、建议类、咨询类和表扬类。

本发明的另一个方面是提供一种工单分类装置，包括：

分词模块，用于对工单进行分词，获得词语集合；

第一分类模块，用于根据词性词典获取所述词语集合中积极词性词语和消极词性词语的比例，若所述积极词性词语和消极词性词语的比例满足预设阈值，则确定所述工单为与所述预设阈值对应的工单类别；

第二分类模块，用于若所述比例不满足所述预设阈值，则采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断，以获取所述工单所属的工单类别。

进一步的，所述装置还包括：

第三分类模块，用于查找所述词语集合中是否包含一级决策语料库中的判定词语，其中所述一级决策语料库包括类别代表词语和/或强烈感情色彩词语，若包含，则确定所述工单为与所述判定词语对应的工单类别。

进一步的，所述第二分类模块具体用于：

进一步的，所述分词模块具体用于：

对所述工单进行分词，并进行词性标注；

根据词性和/或停用词表进行过滤，从而获得所述词语集合。

进一步的，所述装置还包括训练模块，用于：

获取每一所述已知类别的工单中的特征词语；

进一步的，所述训练模块还用于：

本发明提供的工单分类方法及装置，通过对工单进行分词，获得词语集合；然后根据词性词典获取所述词语集合中积极词性词语和消极词性词语的比例，若所述积极词性词语和消极词性词语的比例满足预设阈值，则确定所述工单为与所述预设阈值对应的工单类别；若所述比例不满足所述预设阈值，则采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断，以获取所述工单所属的工单类别。本发明的方法通过词语集合中积极词性词语和消极词性词语的比例进行初步分类，从而减小了需要朴素贝叶斯分类器进行分类的工单量，从而提高分类效率，适用于电信行业的海量工单的分类，且具有较高的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的工单分类方法流程图；

图2为本发明另一实施例提供的工单分类方法流程图；

图3为本发明另一实施例提供的工单分类方法流程图；

图4本发明实施例提供的工单分类装置的结构图；

图5为本发明另一实施例提供的工单分类装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的工单分类方法流程图。本发明实施例提供了一种工单分类方法，该方法具体步骤如下：

S101、对工单进行分词，获得词语集合。

在本实施例中，运营商客服代表需要对来自互联网方方面面的舆论评价进行工单处理，例如来自微博、朋友圈等社交网络的状态和评论等，其中工单可以包括投诉类、建议类、咨询类、表扬类等等类别。本实施例以所述工单类别包括投诉类、建议类、咨询类和表扬类为例，为了对工单进行分类，便于客服代表对某一类别的工单进行处理，如优先处理投诉类的工单，首先将获取到的工单进行分词，从而获得词语集合，进而根据词语集合进行分类。具体的可以采用现有技术中的分词算法，例如基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法，也可采用单纯的分词方法或者分词与标注相结合的一体化方法。本实施例中采用汉语词法分析系统ICTCLAS(Institute of ComputingTechnology，Chinese Lexical Analysis System)，主要功能包括中文分词、词性标注、命名实体识别、新词识别，同时支持用户词典，其分词精度和分析速度较高。此外，本实施例中工单可以从分布式存储单元获取，具体可通过http协议对外提供服务，也即从分布式存储单元发送的http请求中获取待分类的工单，从而节省内存资源。当然，工单也可存储于本地存储单元中。

更具体的，S101所述的对工单进行分词，获得词语集合，具体可包括：

S1011、对所述工单进行分词，并进行词性标注；

S1012、根据词性和/或停用词(Stop Words)表进行过滤，从而获得所述词语集合。

本实施例中根据词性进行过滤例如对介词、连词、数词、量词、助词、语气词等进行删除，主要保留名词、动词、形容词和副词等。而停用词为人工输入的一些对工单分类无作用的词语。本实施例中可以仅仅根据词性进行过滤或者仅仅根据停用词表进行过滤，也可两者相结合。通过词性和/或停用词表进行过滤，从而忽略无用的词语，提高关键的词语(如特征词语)密度，节省存储空间，提高分类过程中词语搜索的效率，进而提高分类效率。

S102、根据词性词典获取所述词语集合中积极词性词语和消极词性词语的比例；

S102a、若所述积极词性词语和消极词性词语的比例满足预设阈值，则确定所述工单为与所述预设阈值对应的工单类别。

本实施例中，词性词典包括积极词性词典和消极词性词典，其中分别收录有积极词性词语和消极词性词语，通过词性词典统计词语集合中积极词性词语和消极词性词语的词频，从而获得积极词性词语和消极词性词语的比例，并将该比例与预设阈值进行比较，从而判断是否能够直接获得工单所属工单类别，其中具体的，对于表扬类设有第一预设阈值，对于投诉类设有第二预设阈值，当积极词性词语和消极词性词语的比例大于第一预设阈值，则判断工单为表扬类，而积极词性词语和消极词性词语的比例小于第二预设阈值，则判断工单为投诉类，而对于比例处于第一预设阈值和第二预设阈值之间的情况则进行下一步的贝叶斯分类。

例如：某条来源于微博的工单包含的内容为：“联通老用户有福了，终于可以换流量多多的套餐了，近几日，有网友爆料称，由于老用户的大量投诉，中国联通将修改套餐政策，老用户可以在10月底自由转入互联网套餐。说要改套餐，为什么要改套餐？现在新号码都可以开各种大王卡，小王卡，头条卡，米粉卡，蚂蚁宝卡什么的，说白了就是资费低，定向流量，流量大等优势，特别符合广大人民群众的上网用流量行为。一时间，网友喜大普奔。”通过分词后由词性词典进行查询，从而获得积极词性词语包括“有福”、“优势”、“喜大普奔”、“符合”和“自由”，消极词性词语包括“爆料”和“投诉”，积极词性词语的词频远超过消极词性词语，积极词性词语和消极词性词语的比例为5:2，而第一预设阈值可以为2，从而判断积极词性词语和消极词性词语的比例大于第一预设阈值，从而判断该工单为表扬类工单。当然第一预设阈值并不限于2，为了提高判断准确性，可提高第一预设阈值的数值，也即积极词性词语远远多于消极词性词语时才判断为表扬类工单；同理可降低第二预设阈值的数值。此外，为进一步提高判断准确性，可以同时考虑积极词性词语和消极词性词语占词语集合的比例，当积极词性词语和消极词性词语的比例满足预设阈值，且积极词性词语或消极词性词语占词语集合的比例达到另一预设阈值时，才确定工单所属的工单类别。

S103、若所述比例不满足所述预设阈值，则采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断，以获取所述工单所属的工单类别。

本实施例中对于S102中无法判断工单类别的工单采用朴素贝叶斯分类器进行进一步判断，其中朴素贝叶斯(Naive Bayes)算法的基本思想为：对于给出的待分类项，求解其属于各个类别的条件概率，其中哪个条件概率最大，该待分类项即属于对应的类别。本实施例朴素贝叶斯分类器包括一个决策库，该决策库经由训练获得，其中包含特征词语，以及每一特征词语在各工单类别出现的条件概率和各个工单类别的频率，将工单的词语集合输入朴素贝叶斯分类器，即可得到该工单所属的工单类别。

本实施例的工单分类方法，通过对工单进行分词，获得词语集合；然后根据词性词典获取所述词语集合中积极词性词语和消极词性词语的比例，若所述积极词性词语和消极词性词语的比例满足预设阈值，则确定所述工单为与所述预设阈值对应的工单类别；若所述比例不满足所述预设阈值，则采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断，以获取所述工单所属的工单类别。本实施例的方法通过词语集合中积极词性词语和消极词性词语的比例进行初步分类，从而减小了需要朴素贝叶斯分类器进行分类的工单量，从而提高分类效率，适用于电信行业的海量工单的分类，且具有较高的准确性。

图2为本发明另一实施例提供的工单分类方法流程图。在上述实施例的基础上，S103所述的采用经过训练的朴素贝叶斯分类器对所述词语集合进行分类前，还可包括：

S201、查找所述词语集合中是否包含一级决策语料库中的判定词语，其中所述一级决策语料库包括类别代表词语和/或强烈感情色彩词语；

S201a、若包含，则确定所述工单为与所述判定词语对应的工单类别；

进一步的，若不包含，则继续执行S103。

在本实施例中，一级决策语料库中包括类别代表词语和/或强烈感情色彩词语，其中类别代表词语，例如“投诉”、“投状”、“诉告”等为投诉类的类别代表词语，再如“建议”、“提议”、“倡议”等为建议类的类别代表词语，再如“咨询”、“请问”、“询问”等为咨询类的类别代表词语，当一个工单中仅包含一个类别的类别代表词语，则其有很大可能性就是该类别的工单；而强烈感情色彩词语，例如工单中包含某些特定的褒义词则判断工单为表扬类工单，或者工单中只包含第一决策语料库中的一些褒义词，而不包含第一决策语料库中的任一贬义词，则判断工单为表扬类工单，而工单中包含某些特定的贬义词则判断工单为投诉类工单，或者工单中只包含第一决策语料库中的一些贬义词，而不包含第一决策语料库中的任一褒义词，则判断工单为投诉类工单。其中类别代表词语和强烈感情色彩词语可由历史工单分类经验获得，此处不再赘述。本实施例通过根据一级决策语料库的分类，可以进一步的减少需要朴素贝叶斯分类器进行分类的工单量，从而进一步提高分类效率。

需要说明的是S201并不仅限于图2中在S102之后、S103之前执行，也可在S102之前、S101之后执行。

进一步的，S103所述采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断，以获取所述工单所属的工单类别，具体包括：

S1031、采用所述贝叶斯分类器获取所述工单属于各个工单类别的概率；

S1032、根据所述工单属于各个工单类别的概率及所述积极词性词语和消极词性词语的比例确定所述工单所属的工单类别。

本实施例中，可以将朴素贝叶斯分类器的分类结果和前述的积极词性词语和消极词性词语的比例结合，来判断工单所属的工单类别。具体例如，若朴素贝叶斯分类器的分类结果为该工单属于表扬类的工单的概率更大，若同时积极词性词语多于消极词性词语，则可确定该工单的类别为表扬类；而若朴素贝叶斯分类器的分类结果为该工单属于投诉类的工单的概率更大，若同时消极词性词语多于积极词性词语，则可确定该工单的类别为投诉类。本实施例通过将朴素贝叶斯分类器的分类结果和前述的积极词性词语和消极词性词语的比例结合来判断工单所属的工单类别，从而提高分类的准确性。

进一步的，如图3所示，在上述实施例中S103所述采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断前，还包括：

S301、获取训练样本集合，所述训练样本集合包括多个已知类别的工单；

S302、获取每一所述已知类别的工单中的特征词语；

S303、获取各个工单类别在所述训练样本集合中出现的频率、每一特征词语在各工单类别出现的条件概率、以及分类错误的代价因子，从而完成对所述朴素贝叶斯分类器的训练。

本实施例中，在准备阶段获取足够多的已知类别的工单作为训练样本集合，并确定特征词语，查找每一已知类别的工单中所包含的特征词语，进而通过统计和计算，获得各个工单类别在所述训练样本集合中出现的频率、每一特征词语在各工单类别出现的条件概率。此外考虑到工单的不平衡，例如在某些特殊的环境下如有新的套餐变动时，会突发大规模的投诉类或大规模的咨询类工单，将导致跟平时的工单分类数量存在不平衡的现象，进而导致某些工单分类会出现错误或问题，也就是会出现分类错误的代价，为了实现低代价的分类，更好的切合实际情况，引入分类错误的代价因子，用其修改样本的标记分类，从而基于原出现错误的算法上，继续训练学习出新的模型，达到能够准确的进行分类的目的。

进一步的，所述方法还可包括：

S304、根据分类结果的正确率调整各个工单类别在所述训练样本集合中出现的频率、每一特征词语在各工单类别出现的条件概率、以及分类错误的代价因子。

本实施例可以根据分类结果的正确率调整朴素贝叶斯分类器的各参数，从而提高分类的准确性，并且能够适应不同时段中工单的不平衡现象。

在上述实施例的基础上，若仍无法确定工单类别，则输出为其他类别，由人工进行分类，在分类完成后可将该工单加入到训练样本集合中，对朴素贝叶斯分类器进行进一步的训练。此外还可将其中一些新词加入到词性词典以及一级决策语料库中。此外，在上述实施例S101前还需要加载或更新词性词典、一级决策语料库、以及朴素贝叶斯分类器的各参数，从而以最新的词性词典、一级决策语料库、以及朴素贝叶斯分类器对工单进行分类，提高分类的准确性。

图4本发明实施例提供的工单分类装置的结构图。本实施例提供一种工单分类装置，可以执行工单分类方法实施例提供的处理流程，如图3所示，本实施例提供的工单分类装置包括分词模块401、第一分类模块402以及第二分类模块403。

其中，分词模块401，用于对工单进行分词，获得词语集合；

第一分类模块402，用于根据词性词典获取所述词语集合中积极词性词语和消极词性词语的比例，若所述积极词性词语和消极词性词语的比例满足预设阈值，则确定所述工单为与所述预设阈值对应的工单类别；

第二分类模块403，用于若所述比例不满足所述预设阈值，则采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断，以获取所述工单所属的工单类别。

进一步的，在上述实施例的基础上，如图5所示，所述装置还包括：

第三分类模块501，用于查找所述词语集合中是否包含一级决策语料库中的判定词语，其中所述一级决策语料库包括类别代表词语和/或强烈感情色彩词语，若包含，则确定所述工单为与所述判定词语对应的工单类别。

进一步的，所述第二分类模块403具体用于：

进一步的，所述分词模块401具体用于：

对所述工单进行分词，并进行词性标注；

根据词性和/或停用词表进行过滤，从而获得所述词语集合。

进一步的，所述装置还包括训练模块502，用于：

获取每一所述已知类别的工单中的特征词语；

进一步的，所述训练模块502还用于：

本发明实施例提供的发送设备可以具体用于执行上述图1所提供的方法实施例，具体功能此处不再赘述。

本实施例的工单分类装置，通过对工单进行分词，获得词语集合；然后根据词性词典获取所述词语集合中积极词性词语和消极词性词语的比例，若所述积极词性词语和消极词性词语的比例满足预设阈值，则确定所述工单为与所述预设阈值对应的工单类别；若所述比例不满足所述预设阈值，则采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断，以获取所述工单所属的工单类别。本实施例的装置通过词语集合中积极词性词语和消极词性词语的比例进行初步分类，从而减小了需要朴素贝叶斯分类器进行分类的工单量，从而提高分类效率，适用于电信行业的海量工单的分类，且具有较高的准确性。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种工单分类方法，其特征在于，包括：

对工单进行分词，获得词语集合；

2.根据权利要求1所述的方法，其特征在于，所述采用经过训练的朴素贝叶斯分类器对所述词语集合进行分类前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断，以获取所述工单所属的工单类别，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述对工单进行分词，获得词语集合，具体包括：

对所述工单进行分词，并进行词性标注；

根据词性和/或停用词表进行过滤，从而获得所述词语集合。

5.根据权利要求1所述的方法，其特征在于，所述采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断前，还包括：

获取每一所述已知类别的工单中的特征词语；

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述工单类别包括：投诉类、建议类、咨询类和表扬类。

8.一种工单分类装置，其特征在于，包括：

分词模块，用于对工单进行分词，获得词语集合；

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求8所述的装置，其特征在于，所述第二分类模块具体用于：

11.根据权利要求8所述的装置，其特征在于，所述分词模块具体用于：

对所述工单进行分词，并进行词性标注；

根据词性和/或停用词表进行过滤，从而获得所述词语集合。

12.根据权利要求8所述的装置，其特征在于，还包括训练模块，用于：

获取每一所述已知类别的工单中的特征词语；

13.根据权利要求12所述的装置，其特征在于，所述训练模块还用于：

14.根据权利要求8-13中任一项所述的装置，其特征在于，所述工单类别包括：投诉类、建议类、咨询类和表扬类。