CN110019792A

CN110019792A - 文本分类方法及装置和分类器模型训练方法

Info

Publication number: CN110019792A
Application number: CN201711052787.6A
Authority: CN
Inventors: 刘晨; 唐超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2019-07-16

Abstract

本申请公开了一种文本分类方法及装置，包括：对文本进行分词处理，并去除所述文本中的冗余词；提取分词处理后得到的各分词的特征向量；利用训练得到的分类器模型对提取的各特征向量进行处理，得到所述文本的文本类别；其中，所述分类器模型通过提取的关键词，以及设定环境的语料训练得到。本申请通过提高了文本细分类的预测效果，从而提高了文本分类的准确率。

Description

文本分类方法及装置和分类器模型训练方法

技术领域

本申请涉及计算机技术，尤指一种文本分类方法及装置和分类器模型训练方法。

背景技术

文本分类的任务是在文本类别分类体系的前提下，根据文本的内容自动判别文本的类别。通过对文本实现自动快速的分类预测结果，可以方便用户快速定位到相关的类别信息，节省大量的人力标注工作。而在更多情况下，文本长度过短会影响如上述根据文本的内容自动判别文本的类别的常规的文本分类算法的效果，并且在类别间区分较小时，会大大增加文本分类的难度。如何对短文本进行细类别分类，是当前信息化建设亟需解决的问题之一。

相对于一般的文本分类，特殊领域的文本长度较短，在30-100字之间，文本格式较单一固定，而且目标类别之间的差异(比如盗窃、盗抢)较小。这种场景下，使用常规的文本分类方法对短文本进行分类的准确率是无法满足实际使用需求。

发明内容

本申请提供了一种文本分类的方法及装置和分类器模型训练方法，能够提高短文本分类的准确率。

为了达到本发明目的，本发明提供了一种文本分类方法，包括：

对文本进行分词处理，并去除所述文本中的冗余词；

提取分词处理后得到的各分词的特征向量；

利用训练得到的分类器模型对提取的各特征向量进行处理，得到所述文本的文本类别；

其中，所述分类器模型通过提取的关键词，以及设定环境的语料训练得到。

可选地，所述分类器模型通过提取的关键词，以及设定环境的语料训练得到，具体包括：

对训练文本和获取的互联网语料进行分词处理，并去除训练文本和获取的互联网语料中的冗余词；

对分词处理后的互联网语料进行词向量训练得到词向量模型，对分词处理后的训练文本构建类别关键词词典；

根据得到的类别关键词词典和词特征向量模型进行分类器训练得到所述分类器模型。

可选地，所述去除冗余词包括：删除停用词、删除无关词。

可选地，所述对分词处理后的互联网语料进行词向量训练得到词向量模型包括：

利用用于词向量训练的算法对所述分词处理后的互联网预料进行训练得到所述词向量模型。

可选地，所述构建类别关键词词典包括：根据词频和逆词频筛选出所述分词处理后的训练文本中每个类别中重要的词，以构建所述类别关键词词典。

可选地，所述进行分类器训练得到分类器模型包括：分别将得到的所述类别关键词词典和所述词特征向量模型转化为空间向量格式以训练得到所述分类器模型。

可选地，所述提取分词处理后得到的各分词的特征向量包括：

利用所述词向量模型和类别关键词词典，从所述分词处理后的得到的各分词分别提取词特征向量和关键词分布向量。

可选地，所述得到所述文本的文本类别包括：

将提取的所述词特征向量和所述关键词分布向量输入到所述分类器模型中，分别获取所述文本属于每一类别的概率，并将最高的概率对应的类别作为所述文本的文本类别。

本申请还提出了一种分类器模型训练方法，包括：

可选地，所述去除冗余词包括：删除停用词、无关词。

本申请又提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执上述任一项所述的文本分类方法，和/或，用于执行上述任一项所述的分类器模型训练方法。

本申请再公开了一种用于实现文本分类的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：对文本进行分词处理，并去除所述文本中的冗余词；提取分词处理后得到的各分词的特征向量；利用训练得到的分类器模型对提取的各特征向量进行处理，得到所述文本的文本类别；其中，所述分类器模型通过提取的关键词，以及设定环境的语料训练得到。

本申请还公开了一种用于实现分类器模型训练的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：对训练文本和获取的互联网语料进行分词处理，并去除训练文本和获取的互联网语料中的冗余词；对分词处理后的互联网语料进行词向量训练得到词向量模型，对分词处理后的训练文本构建类别关键词词典；根据得到的类别关键词词典和词特征向量模型进行分类器训练得到所述分类器模型。

本申请文分类方法至少包括：对文本进行分词处理，并去除所述文本中的冗余词；提取分词处理后得到的各分词的特征向量；利用训练得到的分类器模型对提取的各特征向量进行处理，得到所述文本的文本类别；其中，所述分类器模型通过提取的关键词，以及设定环境的语料训练得到。本申请提高了文本细分类的预测效果，从而提高了文本分类的准确率。

本申请分类器模型训练方法至少包括：对训练文本和获取的互联网语料进行分词处理，并去除训练文本和获取的互联网语料中的冗余词；对分词处理后的互联网语料进行词向量训练得到词向量模型，对分词处理后的训练文本构建类别关键词词典；根据得到的类别关键词词典和词特征向量模型进行分类器训练得到所述分类器模型。本申请在训练阶段构建每个类别的类别关键词词典，并基于类别关键词词典添加一组特征即词特征向量以形成分类器模型，为短文本的分类提供了好预测效果的保障，从而提高了短文本分类的准确率。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请文本分类方法的流程图；

图2为本申请文本分类装置的组成结构示意图；

图3为本申请文本分类的实施例的流程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

短文本分类与一般的文本分类工作相似，大致包括，中文分词与预处理，特征选择，基于特征的分类等几个主要过程。

由于文本短小，单词出现频率低，为了使得对短文本的分类更关注于分类目标，本申请发明人提出在训练阶段构建每个类别的类别关键词词典，并基于类别关键词词典添加一组特征即词特征向量以形成分类器模型，提高了短文本细分类的预测效果，从而提高了短文本分类的准确率。

图1为本申请文本分类方法的流程图，如图1所示，包括：

步骤100：通过提取的关键词，以及设定环境的语料训练分类器模型。

可选地，本步骤的分类器训练方法具体包括：

1)首先，对训练文本和获取的互联网语料进行分词处理，并去除训练文本和获取的互联网语料中的冗余词。

其中，分词处理的具体实现可以采用相关技术来实现，具体实现并不用于限定本申请的保护范围。

其中，去除冗余词可以包括：删除停用词、无关词等。

这里，停用词是指那些对分类没有作用的词语，这些没有意义的词语对文本分类没有贡献，比如：各种标点符号，今后、今天、今年、今後等这样的词语。去掉这些对分类没有作用的词语可以减少后续文本特征向量的维数，从而减少不必要的运算量。

其中，删除停用词可以包括：首先，删除分词结果中全部含有非汉字的单词，比如：文本中可能包含的各种全角符号，全角数字，全角字母，再如：一些数字和标点符号的混合体等；然后，再根据常见的停用词表删除文本中的停用词。

其中，删除无关词可以包括：根据词性去掉无关词，其中，词性是指如预先设置的与分类目标无关的词，比如：人名、地名、机构名、时间等。假设文本中具体的人员、地名出现较多，比如“王某在海淀区抢劫了张某”，对分类目标来说，其中人名的差异性对文本分类没有贡献，因此，可以统一用“人名”这个词替换掉所有具体的人名，用“地名”替换掉所有具体的地名。这样“王某在海淀区抢劫了李某”和“王某在上海抢劫了张某”在语义上是完全相同的，即应该是同一类的。

2)接着，对分词处理后的互联网语料进行词向量训练得到词向量模型，利用对分词处理后的训练文本构建类别关键词词典。

可选地，互联网语料如在互联网上下载的公开新闻网页数据集，在经过上述分词处理后，利用词向量训练的算法如word2vec算法对分词处理后的互联网语料进行训练得到大小为如100维的word2vec词向量模型，其中，word2vec是词向量训练的算法，具体实现可以参见相关技术，这里并不用于限定本申请的保护范围，这里不再赘述。其中，维数是可以根据实际情况预先设置的。需要说明的是，这里利用互联网语料进行处理，避免了由于训练文本数据量较少，并且文本格式、长度比较单一，而给训练词向量模型带来的不准确问题。

可选地，可以根据词频和逆词频筛选出预处理后的训练文本中每个类别中重要的词，以构建类别关键词词典。

在常见的停用词表之外，仍有一些常见词虽然具有一定的语义含义，但是与本申请的文本分类目标无关，比如“嫌疑人”、“受害人”、“报案”等，这些词对判别是“盗窃”还是“抢劫”的作用不大。因此，需要一个词条的重要程度表征值来衡量一个词在目标场景中是不是重点词。如果某个词比较少见，但是这个词在这个文档中多次出现，那么，这个词很可能就反映了这个文档的特性，正是所需要的关键词。

其中，每个训练文本都有自己的类别标签，也就是文本的类别是训练集中已有的。在每个类别中重要的词即在该类别的文本集合中经常出现，但是在其他类别的文本集合中很少出现的词。

可选地，本申请中可以TD-IDF算法来筛选出每个类别中重要的词即关键词。其中，词频(TF)是某个词在该文档中出现的次数与总词数的比值，用于衡量这个词在本文档中的重要程度；逆词频(IDF)是对文档语料库进行计算，包含该词的文档数的比例值，用于衡量这个词是否在语料库中很常见。TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语料中的出现次数成反比。其中，TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的具体实现可以参见相关技术，这里并不用于限定本申请的保护范围，这里不再赘述。

如果某个词比较少见，但是这个词在这个文档中多次出现，那么这个词很可能就反映了这个文档的特性，也正是筛选出的所需要的关键词。利用TF-IDF算法得到的词条的重要程度表征值便可很好地衡量出一个词是不是重点词了。

其中，利用对分词处理后的训练文本构建类别关键词词典包括：将训练文本中同一类别的文本看作一个文档，利用TD-IDF算法对每个类别中词语进行计算，这样既可以去掉在所有类别中都经常出现的词，也可以找到具有类别差异性的关键词；利用得到的关键词构建类别关键词词典即与类别分别对应的关键词集合。比如，对每个类别可以选取经过TF-IDF计算后最高的前100(top100)个词语。

3)然后，根据得到的类别关键词词典和词特征向量模型进行分类器训练得到分类器模型。具体可以包括：分别将得到的类别关键词词典和词特征向量模型转化为空间向量格式以训练分类器模型，具体实现可以参见相关技术，并不用于限定本申请的保护范围。

本申请通过在训练阶段构建每个类别的类别关键词词典，并基于类别关键词词典添加一组特征即词特征向量以形成分类器模型，提高了短文本细分类的预测效果，从而提高了短文本分类的准确率。

以短文本为例来看，假设采用的训练集为三个类别的短文本集合，其中，第类别1、类别2是类别差异很小的文本集合，通过两次实验对比，第一次实验中只使用词特征向量V1作为特征向量，第二次使用词特征向量V1和关键词分布向量V2结合的特征向量，分类效果在测试集上评估如表1所示。其中，本示例中采用了准确率作为评估指标。

特征方法	词特征向量V1	词特征向量V1+关键词分布向量V2
			类别1	0.6956	0.7819
类别2	0.6078	0.7371
			类别3	0.9659	0.9735

表1

从表1可以看出，采用词向量V1作为特征的短文本分类在文本差异较大时效果较好，但是，在语义相近的两个类别上分类效果较差。在结合词向量V1和关键词分布V2作为特征时，细类别的文本分类效果有明显提升。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述的分类器模型训练方法。

本申请还提供一种用于分类器模型训练装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：对训练文本和获取的互联网语料进行分词处理，并去除训练文本和获取的互联网语料中的冗余词；对分词处理后的互联网语料进行词向量训练得到词向量模型，对分词处理后的训练文本构建类别关键词词典；根据得到的类别关键词词典和词特征向量模型进行分类器训练得到所述分类器模型。

步骤101：对文本进行分词处理，并去除所述文本中的冗余词。

其中，去除冗余词可以包括：删除停用词、无关词等。

具体实现如步骤100中所述，这里不再赘述。不同的是，本步骤是针对待分类的文本进行粉分词和冗余词去除处理。

步骤102：提取分词处理后的得到的各分词的特征向量。

可选地，本步骤中的提取特征向量包括：利用预先训练好的词向量模型如word2vec词向量模型和类别关键词词典，从分词处理后的得到的各分词提取第一特征向量如word2vec词特征向量和第二特征向量如关键词分布向量。

特征的提取是分类问题中最重要的步骤，特征能否准确的表示出不同类别中样本的特性是分类的决定性因素。本申请中，会提取两部分特征向量：

一种特征向量是词特征向量V1。具体提取词特征向量V1包括：根据训练好的词向量模型如word2vec词向量模型，将分词处理后的待分类文本中的词的集合转换为词向量的集合，将一个文档即同一类别的文本中出现的所有的词的词向量的平均值作为该文档的一组特征向量，称为第一特征向量。如果训练的词向量模型有100维，那么，这组文本向量就有100维。举例来看，假设预测文本为：“2016年10月21日，受害人xx在甘家村12号的家中发生入室盗窃案件，丢失现金1000元、手机一部”，那么，词的集合为：{2016年10月21日受害人xx在甘家村12号的家中发生入室盗窃案件丢失现金1000元手机一部}，经过特征提取后的词特征向量的集合为：{2016年10月21日：0.1290，0.827，0.128，0.1293，0.475等等}。

另一种特征向量是关键词分布向量V2。具体提取关键词分布向量V2包括：利用训练得到的类别关键词词典计算每一个文本中关键词的分布情况，作为一组特征，称为第二特征向量。比如对于100个关键词，其中只有第一个，第三个，最后一个词在该文本中出现。那么该关键词分布向量为：[1,0,1,0,.........0,1]，中间省略部分都用0表示。如选取了500维特征词，则有500维的关键词分布特征向量。

步骤103：利用训练得到的分类器模型对提取的各特征向量进行处理，得到所述文本的文本类别。

其中，分类器模型为通过提取的关键词，以及设定环境的语料训练得到。

可选地，本步骤中的得到所述文本的文本类别包括：

将提取的特征向量即词特征向量和关键词分布向量输入到预先训练好的分类器模型中，分别获取待分类文本属于每一类别的概率，并将最高的概率对应的类别作为待预分类文本的文本类别。

本申请文本分类方法提高了文本细分类的预测效果，从而提高了文本分类的准确率。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述的文本分类方法。

本申请还提供一种用于实现文本分类的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：对文本进行分词处理，并去除所述文本中的冗余词；提取分词处理后得到的各分词的特征向量；利用训练得到的分类器模型对提取的各特征向量进行处理，得到所述文本的文本类别；其中，所述分类器模型通过提取的关键词，以及设定环境的语料训练得到。

图2为本申请实现短文本分类的装置的组成结构示意图，如图2所示，至少包括：建模单元、第一处理单元、第二处理单元、确定单元；其中，

建模单元，用于通过提取的关键词，以及设定环境的语料训练分类器模型，具体用于：

对训练文本和获取的互联网语料进行分词处理，并去除训练文本和获取的互联网语料中的冗余词；对分词处理后的互联网语料进行词向量训练得到词向量模型，对分词处理后的训练文本构建类别关键词词典；根据得到的类别关键词词典和词特征向量模型进行分类器训练得到所述分类器模型。

第一处理单元，对待分类的文本进行分词处理，并去除所述文本中的冗余词；

第二处理单元，用于提取分词处理后的得到的各分词的特征向量；

确定单元，用于利用训练得到的分类器模型对提取的各特征向量进行处理，得到所述文本的文本类别。

可选地，建模单元中的对预分词处理后的互联网语料进行词向量训练得到词向量模型具体用于：

对互联网语料进行分词处理后，利用word2vec算法对分词处理后的互联网预料进行训练得到word2vec词向量模型。

可选地，建模单元中的利用对分词处理后的训练文本构建类别关键词词典具体用于：根据词频和逆词频筛选出预处理后的训练文本中每个类别中重要的词，以构建类别关键词典。

可选地，建模单元中的进行分类器训练得到分类器模型具体用于：分别将得到的类别关键词词典和词特征向量模型转化为空间向量格式以训练分类器模型。

可选地，第二处理单元中的从分词处理后的得到的各分词的提取特征向量包括：利用预先训练好的词向量模型如word2vec词向量模型和类别关键词词典，从预处理后的得到的各分词提取第一特征向量如word2vec词特征向量和第二特征向量如关键词分布向量。更具体地，

根据训练好的词向量模型如word2vec词向量模型，将分词处理后的待分类文本中的词的集合转换为词向量的集合，将一个文档即同一类别的文本中出现的所有的词的词向量的平均值作为该文档的一组特征向量，称为第一特征向量；

利用训练得到的类别关键词词典计算每一个文本中关键词的分布情况，作为一组特征，称为第二特征向量。

图3为本申请实现短文本分类的实施例的流程示意图，如图3所示，包括两大部分处理：一部分是利用训练文本和互联网语料预先训练分类器模型，具体实现如步骤100所述，这里不再赘述；另一部分是利用训练好的分类器模型对待分类文本进行分类处理，具体实现如步骤101～步骤103所述，这里不再赘述。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种文本分类方法，其特征在于，包括：

对文本进行分词处理，并去除所述文本中的冗余词；

提取分词处理后得到的各分词的特征向量；

2.根据权利要求1所述的文本分类方法，其特征在于，所述分类器模型通过提取的关键词，以及设定环境的语料训练得到，具体包括：

3.根据权利要求1或2所述的文本分类方法，其特征在于，所述去除冗余词包括：删除停用词、删除无关词。

4.根据权利要求2所述的方法，其特征在于，所述对分词处理后的互联网语料进行词向量训练得到词向量模型包括：

5.根据权利要求2所述的文本分类方法，其特征在于，所述构建类别关键词词典包括：根据词频和逆词频筛选出所述分词处理后的训练文本中每个类别中重要的词，以构建所述类别关键词词典。

6.根据权利要求2所述的文本分类方法，其特征在于，所述进行分类器训练得到分类器模型包括：分别将得到的所述类别关键词词典和所述词特征向量模型转化为空间向量格式以训练得到所述分类器模型。

7.根据权利要求2所述的文本分类方法，其特征在于，所述提取分词处理后得到的各分词的特征向量包括：

8.根据权利要求7所述的文本分类方法，其特征在于，所述得到所述文本的文本类别包括：

9.一种分类器模型训练方法，其特征在于，包括：

10.根据权利要求9所述的分类器模型训练方法，其特征在于，所述去除冗余词包括：删除停用词、无关词。

11.根据权利要求9所述的分类器模型训练方法，其特征在于，所述对分词处理后的互联网语料进行词向量训练得到词向量模型包括：

12.根据权利要求9所述的分类器模型训练方法，其特征在于，所述构建类别关键词词典包括：根据词频和逆词频筛选出所述分词处理后的训练文本中每个类别中重要的词，以构建所述类别关键词词典。

13.根据权利要求9所述的分类器模型训练方法，其特征在于，所述进行分类器训练得到分类器模型包括：分别将得到的所述类别关键词词典和所述词特征向量模型转化为空间向量格式以训练得到所述分类器模型。

14.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～权利要求8任一项所述的文本分类方法，和/或，用于执行权利要求9～权利要求13任一项所述的分类器模型训练方法。

15.一种用于实现文本分类的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：对文本进行分词处理，并去除所述文本中的冗余词；提取分词处理后得到的各分词的特征向量；利用训练得到的分类器模型对提取的各特征向量进行处理，得到所述文本的文本类别；其中，所述分类器模型通过提取的关键词，以及设定环境的语料训练得到。

16.一种用于实现分类器模型训练的装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：对训练文本和获取的互联网语料进行分词处理，并去除训练文本和获取的互联网语料中的冗余词；对分词处理后的互联网语料进行词向量训练得到词向量模型，对分词处理后的训练文本构建类别关键词词典；根据得到的类别关键词词典和词特征向量模型进行分类器训练得到所述分类器模型。