CN110069627A

CN110069627A - 短文本的分类方法、装置、电子设备和存储介质

Info

Publication number: CN110069627A
Application number: CN201711157884.1A
Authority: CN
Inventors: 潘钢
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanghai Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanghai Co Ltd
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2019-07-30

Abstract

本发明实施例提供一种短文本的分类方法、装置、电子设备和存储介质。所述方法包括对目标短文本进行预处理，得到多个有效词；对有效词进行第一向量化处理，获取第一向量，第一向量表示每一有效词在目标短文本的重要度；根据第一向量，确定第一类别信息，第一类别信息包括所述目标短文本为每一类别的概率；对有效词进行第二向量化处理，获取第二向量，第二向量表示每一有效词在目标短文本的词序；根据第二向量，确定第二类别信息，第二类别信息包括目标短文本为每一类别的概率；根据第一类别信息和第二类别信息，确定目标短文本的类别。所述方法通过有效词的重要度结合有效词的词序，确定目标短文本的类别，提高了短文本的分类的准确率。

Description

短文本的分类方法、装置、电子设备和存储介质

技术领域

本发明实施例涉及一种通信技术领域，特别是一种短文本的分类方法、装置、电子设备和存储介质。

背景技术

客户咨询和投诉信息，以及公司内部咨询和投诉信息，会通过不同渠道(客服电话、营业厅、掌上营业厅、微厅及其他)，汇总到itos(Integrated Test and OperationsSystem，集成测试和操作系统,)平台形成事件单。为了不影响客户满意度，需要及时回复并解决事件单提出的问题。目前这个过程是通过有经验的业务人员在前台人工回复并解决的，占用大量人力和时间。为了提高事件单的处理即时性，降低事件单量，需要对事件单短文本进行自动分类。

现有技术用于短文本分类的算法很多，近几年较为常见的方法是采用k近邻分类(k-NN)、朴素贝叶斯分类(Naive Bayes NB)和支持向量机(SupportVector Machine，SVM)等经典的机器学习算法。将短文本经过特征提取和特征筛选，得到特征词，针对各个特征词进行识别，最终确定短文本的分类，实验证明，该方法在类似事件单这样的短文本分类上能发挥一定的效果。

现有技术存在以下问题：

客户具有其个性化的表达方式，仅针对各个特征词进行识别，无法准确掌握客户的本意，导致对于短文本的分类的准确性不高。

目前，现有技术还没有相应的方法来解决上述问题。

发明内容

针对现有技术的缺陷，本发明实施例提供一种短文本的分类方法、装置、电子设备和存储介质。

一方面，本发明实施例提供一种短文本的分类方法，所述方法包括：

对目标短文本进行预处理，得到多个有效词；

对所述有效词进行第一向量化处理，获取第一向量，所述第一向量表示每一有效词在所述目标短文本的重要度；

根据所述第一向量，确定所述目标短文本的第一类别信息，所述第一类别信息包括所述目标短文本为每一类别的概率；

对所述有效词进行第二向量化处理，获取第二向量，所述第二向量表示每一有效词在所述目标短文本的词序；

根据所述第二向量，确定所述目标短文本的第二类别信息，所述第二类别信息包括所述目标短文本为每一类别的概率；

根据所述第一类别信息和所述第二类别信息，确定所述目标短文本的类别。

另一方面，本发明实施例提供一种短文本的分类装置，所述装置包括：

预处理模块，用于对目标短文本进行预处理，得到多个有效词；

第一获取模块，用于对所述有效词进行第一向量化处理，获取第一向量，所述第一向量表示每一有效词在所述目标短文本的重要度；

第一确定模块，用于根据所述第一向量，确定所述目标短文本的第一类别信息，所述第一类别信息包括所述目标短文本为每一类别的概率；

第二获取模块，用于对所述有效词进行第二向量化处理，获取第二向量，所述第二向量表示每一有效词在所述目标短文本的词序；

第二确定模块，用于根据所述第二向量，确定所述目标短文本的第二类别信息，所述第二类别信息包括所述目标短文本为每一类别的概率；

第三确定模块，用于根据所述第一类别信息和所述第二类别信息，确定所述目标短文本的类别。

另一方面，本发明实施例还提供一种电子设备，包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上方法的步骤。

另一方面，本发明实施例还提供一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上方法的步骤。

由上述技术方案可知，本发明实施例提供的短文本的分类方法、装置、电子设备和存储介质，所述方法通过有效词的重要度结合有效词的词序，确定目标短文本的类别，提高了短文本的分类的准确率。

附图说明

图1为本发明实施例提供的一种短文本的分类方法的流程示意图；

图2为本发明又一实施例提供的总体算法的框架示意图；

图3为本发明又一实施例提供的一种短文本的分类装置的结构示意图；

图4为本发明又一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明实施例一部分实施例，而不是全部的实施例。

术语解释

短文本：论坛、留言及回复、咨询、建议及意见反馈、短信/网络小纸条、即时聊天记录(例如微信、微博)的文本称为短文本，通常将少于一百五十字的文本称为短文本，当然文本的长度是相对的，不以一百五十字为限制。

短文本的分类：由于文本短小，内容较少，特征不明显。常用的长文本分类方法已不适用，基于统计与向量空间模型的方法处理效果不好，针对这种情况，采用本发明实施例的方法对短文本进行分类。

图1示出了本发明实施例提供的一种短文本的分类方法的流程示意图。

如图1所示，本发明实施例提供的方法具体包括以下步骤：

步骤11、对目标短文本进行预处理，得到多个有效词；

本发明实施例提供的方法在短文本的分类装置上实施，短文本的分类装置可为计算机。

可选地，计算机自itos平台提取事件单，针对每一事件单，自事件单提取得到短文本，短文本用于表达事件单的主要信息。

可选地，主要信息包括事件单标题、事件单内容、官方回复原因和回复备注。

可选地，在本发明实施例中，短文本典型的类别有6类，例如业务受理类、前台操作不当类、经查订单正常流转类等，针对一个待分类的目标短文本，采用本发明实施例的方法，可确定目标短文本属于6类中的哪一类。

可选地，预处理主要包括三步：

可选地，对短文本的文字进行筛选，去除无信息文字。

举例来说，通过正则匹配去除无信息文字。

可选地，对筛选后的短文本进行分词处理，得到多个词。

举例来说，使用python的分词工具j ieba进行分词处理。

可选地，针对得到的多个词，进行筛选，去除停用词，得到多个有效词。

举例来说，引入停用词词典去除停用词。

步骤12、对所述有效词进行第一向量化处理，获取第一向量，所述第一向量表示每一有效词在所述目标短文本的重要度；

可选地，有效词的重要度表示一个有效词在目标短文本中的重要程度，如果重要度越大，则说明该有效词具有很好的类别区分能力。

可选地，可根据现有技术的方式预先确定每一有效词的重要度。

可选地，可根据现有技术的方式根据所述有效词，得到对应的第一向量。

步骤13、根据所述第一向量，确定所述目标短文本的第一类别信息，所述第一类别信息包括所述目标短文本为每一类别的概率；

可选地，可将所述第一向量输入至现有技术的词袋模型，可输出第一类别信息。

可选地，对于每个目标短文本，可得到词袋模型对于每个类别的预测概率值，且和为1。

例如，输出的第一类别信息为(0.8,0.1,0.1,0,0,0)，说明所述目标短文本为类别1的概率为80％，为类别2的概率为10％。

步骤14、对所述有效词进行第二向量化处理，获取第二向量，所述第二向量表示每一有效词在所述目标短文本的词序；

可选地，有效词的词序表示每一个有效词在目标短文本中的顺序，以及有效词与目标短文本中其他有效词的关系。

可选地，在确定每一个有效词的词序后，执行第二向量化处理，得到对应的第二向量。

步骤15、根据所述第二向量，确定所述目标短文本的第二类别信息，所述第二类别信息包括所述目标短文本为每一类别的概率；

可选地，可将所述第二向量输入至预先确定的词序模型，可输出第二类别信息。

可选地，词序模型是计算机预先训练得到的，词序模型可描述所述第二向量与第二类别信息的对应关系。

可选地，对于每个目标短文本，可得到词序模型对于每个类别的预测概率值，且和为1。

例如，输出的第二类别信息为(0.1,0.8,0.1,0,0,0)，说明所述目标短文本为类别2的概率为80％。

应当说明是是，现有技术中，仅根据有效词的重要度确定目标短文本的分类，但实际应用中，仅考虑重要度是无法准确分类的，考虑每一有效词的语序，即根据第二向量可保留目标短文本原本的语序，为理解客户的本意提供数据支持。

步骤16、根据所述第一类别信息和所述第二类别信息，确定所述目标短文本的类别。

可选地，词袋模型根据有效词的重要度，确定目标短文本的类别，词袋模型根据有效词的词序，确定目标短文本的类别，在本步骤中，根据所述第一类别信息和所述第二类别信息，相当于根据有效词的重要度结合有效词的词序，最终确定目标短文本的类别。既注重了有效词的重要度，也考虑了词序表达的重要性，结合了词袋模型和词序模型各自的优势，更有效的提升短文本分类的准确率。

本实施例提供的短文本的分类方法，通过有效词的重要度结合有效词的词序，确定目标短文本的类别，提高了短文本的分类的准确率。

在上述实施例的基础上，本发明又一实施例提供的短文本的分类方法，确定获取第一向量的方式有多种，本实施例以其中一种方式为例进行说明。

可选地，所述第一向量的列数是索引词典的维度，所述索引词典的维度是预先确定的训练集的样本短文本的有效词的总数。

可选地，获取所述索引词典的方式为：

在应用本发明实施例之前，先将多个样本短文本分为训练集、验证集、测试集。

可选地，根据训练集的样本短文本，获取训练集的所有有效词，并按照词频从大到小排序，其中，词频为有效词在训练集中出现的频率。

也就是说，针对一个训练集的所有短文本的有效词，可得到一个序列。

可选地，针对每一有效词，确定有效词在序列中的序号，也就是有效词在序列中的位置。

可选地，根据每一有效词以及对应的序号，生成索引词典，所述索引词典包括每一有效词在序列中的位置，该位置的序号作为所述有效词的索引。

也就是说，训练集的样本短文本的有效词的数量就是索引词典的维度。

举例来说，训练集的所有短文本包括300个有效词，将300个有效词按照词频从大到小进行排序，得到索引词典。词频为某一个有效词在训练集的所有样本短文本中出现的次数。

例如词频最高的是“是”，则排在第一位，“我”的索引为序号1，词频第二高的是“在”，则排在第二位，“在”的索引为序号1。

本实施例其他步骤与前述实施例步骤相似，本实施例不再赘述。

本实施例提供的短文本的分类方法，通过索引词典，可全面的描述有效词的特征，从而得到第一向量。

可选地，所述有效词的重要度是根据词频反文档频率的方式得到的。

可选地，针对得到的第一向量中值为1的有效词，计算有效词对应的TF(TermFrequency，词频)-IDF(Inverse Document Frequency，反文档频率)值，使第一向量可描述有效词的重要度。

可选地，TF-IDF方式的主要思想是，如果词语在一个文本中出现的频率高，并且在其他文本中很少出现，则认为此词具有很好的类别区分能力，适合用来分类。

TF词频指的是某一个给定的词语在短文本中出现的次数。IDF反文档频率的主要思想是：如果包含词语的文本越少，IDF越大，则说明词语具有很好的类别区分能力。

使用TF-IDF方式可以计算某个有效词在某个短文本中的重要性，因而识别短文本的主要含义，实现计算机读懂文本的功能。

本实施例提供的短文本的分类方法，通过词频反文档频率的方式，可准确的描述有效词的重要度，从而得到描述目标短文本的第一向量。

在上述实施例的基础上，本发明又一实施例提供的短文本的分类方法，确定所述目标短文本的第一类别信息的方式有多种，本实施例以其中一种方式为例进行说明。

可选地，根据所述第一向量，确定所述目标短文本的第一类别信息的步骤具体为:

将所述第一向量输入至预先确定的词袋模型，输出所述第一类别信息，所述词袋模型基于随机森林分类器或基于支持向量机分类器。

可选地，类别用6维向量表示，当属于某类别时，该类别在向量中的位置为1，其余为0，例如类别1表示为(1,0,0,0,0,0)。

可选地，针对获取的训练集，已知训练集中每一样本短文本对应的类别，将类别作为标签进行训练，得到词袋模型。使得应用该词袋模型时，将目标短文本转换为第一向量后，输入至词袋模型，可确定该第一向量对应的标签，即该目标短文本对应的类型。

可选地，词袋模型可采用现有技术的模型实现，例如随机森林分类器或支持向量机分类器

可选地，随机森林(Random Forest，RF)可以看成是Bagging(装袋法)和随机子空间的结合。是由一系列的分类器组合在一起进行决策，期望得到一个最“公平”的学习方法。

可选地，支持向量机(Support Vector Machine,SVM)是一种监督的小样本机器学习算法。基于Libsvm用于SVM分类模型的训练及测试，采用一对一法分别构建篇章级和句子级SVM二元分类器，保证分类时不会出现太大偏差。

本实施例提供的短文本的分类方法，通过基于随机森林的分类器或基于支持向量机的分类器，得到所述目标短文本的第一类别信息，可相对准确的预测所述目标短文本对应的类别。

在上述实施例的基础上，本发明又一实施例提供的短文本的分类方法，确定获取第二向量的方式有多种，本实施例以其中一种方式为例进行说明。

可选地，对所述有效词进行第二向量化处理，获取第二向量的步骤具体为：

对每一有效词进行处理，得到词向量，所述词向量的行数是有效词的个数，列数是预先确定的最大长度；

根据所述词向量，得到第二向量。

可选地，深度学习框架keras的embedding层用于将输入的有效词处理为词向量。

可选地，将每个目标短文本的有效词处理为Max_len*N的二维向量，其中，N为正整数，表示有效词的数量。。

可选地，在embedding层设置词向量生成规则，使生成的词向量的每一行的长度相同，统一为最大长度Max_len。

可选地，最大长度Max_len为预设的短文本的文本字数，例如150。

可选地，根据一个有效词，可生成一行向量，也就是说，每一行表示一个有效词，行的总数为有效词的数量。

可选地，预先设置的短文本的向量的最大长度Max_len，对于长度不足Max_len的向量，在该向量的后端填充用0填充，使得所有短文本得到的向量的长度一致。

其中，一行向量的长度为Max_len，在Max_len中只有一个位置有值，即该有效词在短文本的位置，其他用0填充，直至填充至最大长度Max_len。

可选地，用深度学习框架keras的序列处理函数pad_sequences实现向量长度一致。

可选地，再将词向量进行压缩处理成第二向量，第二向量为输出的一个1*N的句向量，每一个值分别对应一个有效词。

应当说明的是，第一向量中各词的按照索引词典的排序，索引词典的词序是根据词频设置的，通常情况下是与客户的目标短文本中词序是不同的，导致打乱了各词的顺序，造成短文本的分类的准确性不高，无法理解出客户的意思。

本实施例提供的短文本的分类方法，通过记录各有效词在目标短文本中的顺序，采用第二向量表示一个目标短文本，第二向量可对应有效词的个数，从而可保留短文本原本的语序，为理解客户的本意提供数据支持。

在上述实施例的基础上，本发明又一实施例提供的短文本的分类方法，确定所述目标短文本的第二类别信息的方式有多种，本实施例以其中一种方式为例进行说明。

可选地，根据所述第二向量，确定所述目标短文本的第二类别信息的步骤具体为:

将所述第二向量输入至预先确定的词序模型，输出所述第二类别信息，所述词序模型基于长短期记忆网络分类器或循环神经网络分类器。

可选地，最终输出结果第二类别信息也是对于每个类别的预测概率值，且和为1。

例如，输出结果为(0.8,0.1,0.1,0,0,0)，说明此文本为类别1的概率为80％。与前述词袋模型的输出结果格式一致。

可选地，针对获取的训练集、验证集和测试集，已知三个集合中每一样本短文本对应的类别，将类别作为标签进行训练，得到词序模型。使得应用该词序模型时，将目标短文本转换为第二向量后，输入至词序模型，可确定该第二向量对应的标签，即该目标短文本对应的类型。

可选地，词序模型可采用现有技术的模型实现，例如长短期记忆网络分类器或循环神经网络分类器。

可选地，LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

可选地，RNN(Recurrent neural Network、循环神经网络)神经网络是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。

应当说明的是，目标短文本数据本身的表示形式对于短文本分类结果好坏有着直接影响。短文本具有长度短小、信息描述能力弱、主体分散等特点，采用词袋模型使得文本数据在表示为结构矩阵的维度非常大，面临严重的特征稀疏问题。

而LSTM和RNN均为深度学习模型，具有强大的学习能力，其优势在于能从高维的原始特征中提取高区分度的特征，达到降维的作用，解决词袋模型中特征稀疏的问题。

本实施例提供的短文本的分类方法，通过采用LSTM和RNN模型，克服了短文本特征稀疏的问题，有效降低模型的复杂度，更符合实际应用。

在上述实施例的基础上，本发明又一实施例提供的短文本的分类方法，确定所述目标短文本的类别的方式有多种，本实施例以其中一种方式为例进行说明。

可选地，根据所述第一类别信息和所述第二类别信息，确定所述目标短文本的类别的步骤具体为:

将第一类别信息以及对应的第一权重，第二类别信息以及对应的第二权重输入至预先确定的线性回归模型，确定所述目标短文本的类别，所述线性回归模型是根据词袋模型和词序模型融合得到的。

可选地，训练得到所述线性回归模型的方式如下：

针对同一训练集分别构建词袋模型和词序模型，在构建完成之后，将第一向量输入至所述词袋模型，得到第一类别信息，将第二向量输入至所述词序模型，得到第二类别信息。

所述词袋模型可基于随机森林分类器和支持向量机分类器，所述词序模型可基于词序模型的LSTM分类器和RNN分类器。

接下来，构建线性回归模型，分别将四个分类器的输出结果(两个第一类别信息，以及两个第二类别信息)作为初步确定的线性回归模型的特征输入。

可选地，使用验证集进行线性回归模型的训练，从而得到融合的所述线性回归模型。

可选地，通过词袋模型确定每一有效词在短文本的重要度，通过词序模型确定每一有效词在短文本的词序，通过线性回归模型，根据每一有效词的词序以及重要度，确定短文本属于每一类别的概率。

本实施例提供的短文本的分类方法，通过融合词袋模型和词序模型的线性回归模型，可根据每一有效词的重要度结合词序，从而准确地确定短文本的类别。

可选地，所述第一类别信息包括多个第一概率，每一第一概率为所述目标短文本为一种类别的概率，所述第一权重为每一第一概率的权重，所述第二类别信息包括多个第二概率，每一第二概率为所述目标短文本为一种类别的概率，所述第二权重为每一第二概率的权重，

相应地，根据所述第一类别信息和所述第二类别信息，确定所述目标短文本的类别的步骤具体为：

针对每一第一概率和第二概率，根据所述第一概率以及第一权重，所述第二概率以及第二权重，得到一种类别的结果值；

将所述结果值最大时对应的类别，作为所述目标短文本的类别。

若词袋模型输出结果：所述第一类别信息为(0.8,0.1,0.1,0,0,0)，即包括6种类别的第一概率，每一类别词袋模型的权重分别为(0.2,0.1,0.6,0,0.1,0)。

针对第一种类别，词袋模型预测的短文本为类别1的概率：80％，

针对第一种类别，词袋模型预测的准确率(第一概率的权重)为0.2，可认为词袋模型针对第一种类别，预测的准确率不高。

词袋模型的对于类别1的权重(即预测类别1的准确率)为20％，

若词序模型输出结果：所述第二类别信息为(0.1,0.8,0.1,0,0,0)，即包括6种类别的第二概率，每一类别词序模型的权重分别为(0.1,0.5,0,0.2,0,0.2)。

针对第一种类别，词序模型预测的短文本的类别1的概率为10％。

针对第一种类别，词序模型预测的准确率(第二概率的权重)为0.1，可认为词序模型针对第一种类别，预测的准确率不高。

则预测目标短文本为类别1的概率：80％*20％+10％*10％＝17％，以此类推，预测的短文本为类别2的概率10％*10％+80％*50％＝41％，类别2在各类别的概率中最高，将类别2作为短文本的概率。

本实施例提供的短文本的分类方法，通过所述第一概率以及第一权重，所述第二概率以及第二权重，得到一种类别的结果值，并将所述结果值最大时对应的类别，作为所述目标短文本的类别，可提高短文本的分类

为了更充分理解本发明的技术内容，在上述实施例的基础上，详细说明本实施例提供的短文本的分类方法。

现有技术的缺点：现有技术的文本分类算法通常是基于词袋模型的，词袋模型是将短文本经过特征提取和特征筛选，得到特征词，针对各个特征词进行识别，根据每一特征词的词频，最终确定短文本的分类，但仅针对各个特征词进行识别，存在准确率低和正确率分布不均匀的问题。

基于词袋模型的文本分类算法准确率低且正确率分布不均匀的原因主要是：

1)文本数据的表示对于文本分类结果好坏有着直接影响。短文本具有长度短小、信息描述能力弱、主体分散等特点，采用词袋模型使得文本数据在表示为结构矩阵的维度非常大，面临严重的特征稀疏问题。

2)词袋模型忽略了词语间的语义关系以及上下文词序关系，无法识别文本信息中更深层的词义，而对于事件单类型的短文本，客户在语序上的表达会影响短文本最终的归类，没有词序关系的词袋模型在事件单短文本分类上模型准确率低。

针对上述缺点，本发明提出了基于词袋模型的短文本分类基础上融合基于词序模型的深度学习文本分类方法，对训练数据分别采用短文本分类和深度学习生成分类器，通过线性加权对不同分类器的输出结果进行融合，兼顾词袋模型和词序模型的特点，结合各分类器的优势，提升文本分类的准确性。

本发明主要从三大部分阐述，第一部分是融合词袋和词序短文本分类模型的构建，第二部分是该模型的效果，以及在事件单短文本分类上的应用。

图2为本发明又一实施例提供的总体算法的框架示意图。

如图2所示，第一部分模型的构建又分为五个步骤，分别为数据预处理、特征工程、词袋模型、深度模型、模型融合。

步骤一，数据预处理：

1)数据选取：目前事件单相对稳定的类别有6种，我们从平台选取此6种类别下的事件单作为样本，平台中6种类别的比例近似为4:2:1:1:1:1。由于样本采集时具有随机性，我们需要对抽取的样本进行相应的扩充或缩减处理，保证样本类别分布均匀，接近平台的总分布。最终样本集数量为2796，通过一般经验方法，按照6.5:2:1.5拆分，生成训练集1800，验证集540，测试集456，各集合中类别比例近似为4:2:1:1:1:1。

2)文本构成：每条事件单短文本由事件单标题、事件单内容、官方回复原因和回复备注组成，能够表达事件单的主要信息。

3)去除无信息模板文字及内容：事件单短文本中包含一些与类别无关的字句，给后面的文本建模带来一定的困难。通过正则匹配去除八类模型文字，例如手机号码、备注提醒、故障标题等。

4)分词：使用python最著名的分词工具j ieba，结巴支持几个模式，精确模式、全模式、搜索引擎模式，各个模式有不同的适合场景。

5)生成索引词典：分词后的结果会包含很多无效的停用词等信息，会增加词典的冗余，引入停用词词典去除停用词，去除长度为1的词，去除数字和标点符号信息。将剩余有效词，按照词频从大到小排序，从0开始生成索引词典，每个词对应唯一序号索引。

步骤二，特征工程：

由于深度学习是基于词序模型，在隐藏层自动进行特征工程的选择，无需人工干预。所以此步骤只针对于基于词袋模型的文本分类。

对于模型来说，特征工程是降维的过程。有两类方法，一类是特征选择，从有效词中提取特征词，从特征词中提取出少量的具有代表性的特征词，但词类型没有变化；一类是特征抽取，从原有的特征词中重构出新的特征，新的特征具有更强的代表性，耗费更少的计算资源。我们在该步骤选用第一类方法，计算索引词典中特征词的TF-IDF值，设定阈值选取区分度高的特征词，生成特征词词典。

TF-IDF的主要思想是，如果词语在一个文本中出现的频率TF高，并且在其他文本中很少出现，则认为此词具有很好的类别区分能力，适合用来分类。TF词频(TermFrequency)指的是某一个给定的词语在该文本中出现的次数。IDF反文档频率(InverseDocument Frequency)的主要思想是：如果包含词语的文本越少，IDF越大，则说明词语具有很好的类别区分能力。使用TF*IDF可以计算某个关键字在某个文本中的重要性，因而识别文本的主要含义，实现计算机读懂文本的功能。

步骤三，构建词袋模型：

1)文本向量化：

利用步骤二生成的特征词词典及tf-ifd值，以行为单位将文本转化为向量，对训练集、验证集和测试集构建向量空间模型。首先将文本表示为与词典维度相同的向量，如果文本中出现词典中某词汇，则文本向量对应位置计算tf-idf值作为值，最终生成文件，行数为短文本数，列为词典维度。此外采用one-hot编码，生成对应的label文件，行数为短文本数，类别用6维向量表示，当属于某类别时，该类别在向量中的位置为1，其余为0。例如类别1表示为(1,0,0,0,0,0)。

2)模型训练：

分别采用随机森林(RandomForest，RF)和支持向量机(SVM)对训练集进行建模，对于每个待分类样本，可得到模型对于每个类别的预测概率值，且和为1。例如，输出结果为(0.8,0.1,0.1,0,0,0)，说明此文本为类别1的概率为80％。

随机森林可以看成是Bagging和随机子空间的结合。是由一系列的分类器组合在一起进行决策，期望得到一个最“公平”的学习方法。构造每一个分类器需要从原数据集中随机抽取出一部分样本作为样本子空间，然后再从样本子空间中随机的选取一个新的特征子空间，在这个新空间中建立决策树作为分类器，最后通过投票的方法得到最终决。

支持向量机(SVM)是一种监督的小样本机器学习算法。此步骤使用台湾大学林智仁教授等开发的Libsvm用于SVM分类模型的训练及测试，采用一对一法分别构建篇章级和句子级SVM二元分类器。训练采用Libsvm提供的默认参数。核函数选择径向基核函数，选择该核函数的原因是为保证分类时不会出现太大偏差，在无参数调优的情况下能同时保证准确率和召回率。

步骤四，构建基于词序模型的深度模型：

1)文本向量化：

先把训练、验证与测试数据放在一起提取特征，使用keras的Tokenizer来实现，将文本处理成单词索引序列，单词与序号之间的对应关系靠步骤一的索引词典来记录。设置文本向量长度Max_len，然后将长度不足Max_len的文本用0填充(在前端填充)，用keras的pad_sequences实现。最后将标签处理成one-hot向量，比如6变成了[0,0,0,0,0,1]，用keras的to_categorical实现。

2)模型训练：

对于深度模型，分别搭建RNN和LSTM模型。首先是一个将文本处理为向量的embedding层，对于每个文本处理为Max_len*N的二维向量，Max_len是每个文本的固定长度，N为单词在空间中的词向量。接下来经过LSTM层或RNN层，将一个序列的词向量处理成一个句向量，输出1*N的向量，最后一个全连接层将长度收敛到6，对应6个类别。最终输出结果也是模型对于每个类别的预测概率值，且和为1。例如，输出结果为(0.8,0.1,0.1,0,0,0)，说明此文本为类别1的概率为80％。与词袋模型的输出结果格式一致。

步骤五，模型融合：

通过步骤三和步骤四，分别通过训练集构建了基于词袋模型的随机森林分类器和支持向量机分类器，以及基于词序模型的LSTM分类器和RNN分类器。接下来，在此步骤，构建线性回归模型，将四个分类器的输出结果作为线性回归模型的特征输入。使用验证集不断调整权重，在分类准确率最高时的权重即为最合理的权重值，完成融合线性回归模型的训练。

通过第一部分模型的构建，我们分别得到了基于词袋模型的分类器，基于词序模型的分类器，以及步骤五的融合线性回归模型。在测试集上对三个模型进行准确率的对比，其中基于词袋模型的分类器表现一般，测试集上各类别的准确率平均为70％，基于词序模型的分类器在训练集上表现很好达到92％，而在测试集上约为73％。融合的线性回归模型，在测试集上表现最好，准确率约为78％，提升了近5个百分点，个别类别达到85％。

将上述模型应用于事件单短文本分类。每当平台中新的事件单生成，模型会自动对事件单进行处理并分类，并根据分类结果，自动进行解决方案的匹配，解决了手工分类的问题，大大提高了事件单的处理速度，降低了事件单量，提高了事件单系统的效率。

本实施例提供的短文本的分类方法，至少具有以下技术效果：

在短文本特征选取方面，基于词袋模型的文本分类算法，一般通过n元文法，将词汇相关信息作为特征输入，其优势在于注重了文本中关键词的相似度，其不足在于造成了严重的特征稀疏问题，并且忽视了文本中词序的关系，无法识别文本信息中更深层的语义。而基于词序模型的深度学习分类，具有强大的学习能力，其优势在于能从高维的原始特征中提取高区分度的特征，达到降维的作用，解决词袋模型中特征稀疏的问题，并且深度学习将富含词汇语义及上下文位置关系的向量作为文本特征，通过文本词序的表达更好的挖掘文本的正确含义。

在样本集方面，文本分类算法在小样本集上更能发挥优势，而深度学习会存在过拟合的现象。

本发明提出的短文本分类模型融合了基于词序模型的深度学习和基于词袋模型的短文本分类，在文本特征选取上，既注重了关键词的相似度，也考虑了词序表达的重要性，并且通过融合短文本分类也弥补了深度学习在小样本集上的不足，结合了词袋模型和词序模型各自的优势，更有效的提升短文本分类的准确率。

图3示出了本发明又一实施例提供的一种短文本的分类装置的结构示意图。

参照图3，在上述实施例的基础上，本实施例提供的短文本的分类装置，所述装置包括预处理模块31、第一获取模块32、第一确定模块33、第二获取模块34、第二确定模块35和第三确定模块36，其中：

预处理模块31用于对目标短文本进行预处理，得到多个有效词；第一获取模块32用于对所述有效词进行第一向量化处理，获取第一向量，所述第一向量表示每一有效词在所述目标短文本的重要度；第一确定模块33用于根据所述第一向量，确定所述目标短文本的第一类别信息，所述第一类别信息包括所述目标短文本为每一类别的概率；第二获取模块34用于对所述有效词进行第二向量化处理，获取第二向量，所述第二向量表示每一有效词在所述目标短文本的词序；第二确定模块35用于根据所述第二向量，确定所述目标短文本的第二类别信息，所述第二类别信息包括所述目标短文本为每一类别的概率；第三确定模块36用于根据所述第一类别信息和所述第二类别信息，确定所述目标短文本的类别。

预处理模块31对短文本的文字进行筛选，去除无信息文字。

可选地，对筛选后的短文本进行分词处理，得到多个词。

第一获取模块32采用现有技术的方式根据所述有效词，得到对应的第一向量。

第一确定模块33可将所述第一向量输入至现有技术的词袋模型，可输出第一类别信息。

第二获取模块34根据所述有效词，执行第二向量化处理，可得到对应的第二向量。

可选地，有效词的词序表示一个有效词在目标短文本中的顺序，以及有效词与目标短文本中其他有效词的关系。

第二确定模块35可将所述第二向量输入至预先确定的词序模型，可输出第二类别信息。

应当说明是是，现有技术中，仅根据有效词的重要度确定目标短文本的分类，但实际应用中，仅考虑重要度是无法准确分类的，根据第二向量可保留目标短文本原本的语序，为理解客户的本意提供数据支持。

第三确定模块36根据所述第一类别信息和所述第二类别信息，相当于根据有效词的重要度结合有效词的词序，最终确定目标短文本的类别。既注重了有效词的重要度，也考虑了词序表达的重要性，结合了词袋模型和词序模型各自的优势，更有效的提升短文本分类的准确率。

本实施例提供的短文本的分类装置，可用于执行上述方法实施例的方法，本实施不再赘述。

本实施例提供的短文本的分类装置，通过第三确定模块根据有效词的重要度结合有效词的词序，最终确定目标短文本的类别，提高了分类的准确率。

图4示出了本发明又一实施例提供的一种电子设备的结构示意图。

参阅图4，本发明实施例提供的电子设备，所述电子设备包括存储器(memory)41、处理器(processor)42、总线43以及存储在存储器41上并可在处理器上运行的计算机程序。其中，所述存储器41、处理器42通过所述总线43完成相互间的通信。

所述处理器42用于调用所述存储器41中的程序指令，以执行所述程序时实现如图1的方法。

在另一种实施方式中，所述处理器执行所述程序时实现如下方法：

所述第一向量的列数是索引词典的维度，所述索引词典的维度是预先确定的训练集的样本短文本的有效词的总数。

所述有效词的重要度是根据词频反文档频率的方式得到的。

根据所述第一向量，确定所述目标短文本的第一类别信息的步骤具体为:

对所述有效词进行第二向量化处理，获取第二向量的步骤具体为：

根据所述词向量，得到第二向量。

根据所述第二向量，确定所述目标短文本的第二类别信息的步骤具体为:

根据所述第一类别信息和所述第二类别信息，确定所述目标短文本的类别的步骤具体为:

将所述第一类别信息以及对应的第一权重，所述第二类别信息以及对应的第二权重输入至预先确定的线性回归模型，确定所述目标短文本的类别，所述线性回归模型是根据词袋模型和词序模型融合得到的。

本实施例提供的电子设备，可用于执行上述方法实施例的方法对应的程序，本实施不再赘述。

本实施例提供的电子设备，通过所述处理器执行所述程序时实现有效词的重要度结合有效词的词序，最终确定目标短文本的类别，提高了分类的准确率。

本发明又一实施例提供的一种存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现如图1的步骤。

在另一种实施方式中，所述程序被处理器执行时实现如下方法：

所述有效词的重要度是根据词频反文档频率的方式得到的。

根据所述词向量，得到第二向量。

本实施例提供的存储介质，所述程序被处理器执行时实现上述方法实施例的方法，本实施不再赘述。

本实施例提供的存储介质，所述程序被处理器执行时实现通过有效词的重要度结合有效词的词序，最终确定目标短文本的类别，提高了分类的准确率。

本发明又一实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：

对目标短文本进行预处理，得到多个有效词；

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。

本领域技术人员可以理解，实施例中的各步骤可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种短文本的分类方法，其特征在于，所述方法包括：

对目标短文本进行预处理，得到多个有效词；

2.根据权利要求1所述的方法，其特征在于：所述第一向量的列数是索引词典的维度，所述索引词典的维度是预先确定的训练集的样本短文本的有效词的总数。

3.根据权利要求1所述的方法，其特征在于：所述有效词的重要度是根据词频反文档频率的方式得到的。

4.根据权利要求1所述的方法，其特征在于：根据所述第一向量，确定所述目标短文本的第一类别信息的步骤具体为:

5.根据权利要求1所述的方法，其特征在于:对所述有效词进行第二向量化处理，获取第二向量的步骤具体为：

根据所述词向量，得到第二向量。

6.根据权利要求1所述的方法，其特征在于：根据所述第二向量，确定所述目标短文本的第二类别信息的步骤具体为:

7.根据权利要求1所述的方法，其特征在于：根据所述第一类别信息和所述第二类别信息，确定所述目标短文本的类别的步骤具体为:

8.一种短文本的分类装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任意一项的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现如权利要求1-7任意一项的步骤。