CN106095996B

CN106095996B - 用于文本分类的方法

Info

Publication number: CN106095996B
Application number: CN201610457431.XA
Authority: CN
Inventors: 李甫
Original assignee: Wuxi Liangziyun Digital New Media Technology Co Ltd; Quantum Cloud Future (beijing) Mdt Infotech Ltd
Current assignee: Wuxi Liangziyun Digital New Media Technology Co Ltd; Quantum Cloud Future (beijing) Mdt Infotech Ltd
Priority date: 2016-06-22
Filing date: 2016-06-22
Publication date: 2020-02-21
Anticipated expiration: 2036-06-22
Also published as: CN106095996A

Abstract

本发明涉及一种用于文本分类的方法，所述方法包括：获取预先标注好类别的文本集合作为训练样本，对训练样本中的文本进行预处理，得到训练用特征词集合；提取特征词，获得特征词典；由特征词典生成训练样本中各文本的特征向量，并获取训练样本的特征向量集；利用特征向量集训练SVM分类器；对待分类的文本进行预处理，得到待分类文本的特征词集；根据特征词典生成待分类文本的特征向量；将该特征向量输入经过训练的SVM分类器，得到待分类文本的类别。

Description

用于文本分类的方法

技术领域

本发明涉及数据分类技术领域，尤其涉及一种用于文本分类的方法。

背景技术

文本信息是一种广泛存在于各个领域的数据，使用分类模型对文本进行分类有着广阔的应用市场。文本分类时，特征提取的优劣对分类准确率有着极大的影响。如果将所有词都作为特征词会造成两方面不利影响：1.特征维度过高并且稀疏；2.很多词普遍存在于各个类别，区分性不强，如果这些词作为特征，将会降低分类效果。因此，需要对文本进行特征词的选择。考虑到各个领域的特征词并不一样，因此并无通用的特征词，常用方法是通过领域专家进行特征词挑选。采用领域专家进行挑选的方法比较耗费人力，并且提取出来的特征词依赖于领域专家的主观意愿，不同专家会得到不同的结果，这对后续的工作将产生不利的影响。

随着大数据的发展，机器学习得到了越来越多的应用。本发明提供了一种文本分类方法，其中采用了基于机器学习进行特征自动提取的方法，该方法无需领域专家参与即可快速完成对文本特征词的提取，并用提取出来的特征词构建特征向量，用于文本的分类。

发明内容

鉴于上述的分析，本发明旨在提供一种文本分类方法，用以解决现有文本分类方法，需要领域专家参与，易受到人为主观认识的影响，导致分类准确率不高的问题。

为了实现本发明的目的，提出了一种用于文本分类的方法，包括以下步骤：

步骤1.获取预先标注好类别的文本集合作为训练样本，该训练样本有n+1个类别，其中1至n为有效类、第n+1类为无效类，n≥1；

步骤2.对训练样本中的文本进行预处理，得到训练用特征词集合；对该集合中有效类的特征词进行提取，再结合无效类的全部特征词，得到特征词典；由特征词典生成训练样本中各文本的特征向量，并获取训练样本的特征向量集；

步骤3.利用特征向量集训练SVM分类器；

步骤4.获取待分类的文本，对待分类的文本进行预处理，得到待分类文本的特征词集；根据特征词典生成待分类文本的特征向量；将该特征向量输入经过训练的SVM分类器，得到待分类文本类别。

其中，步骤2和步骤4中的预处理，包括分词处理，具体步骤为：使用分词工具对文本进行分词，获得文本词集；

其中，对中文文本采用中文分词器；对英文文本，使用空格分词，且英文分词完成后，使用词干提取的方式归一化时态和单复数。

预处理还可以包括停用词、同义词处理，具体为：使用预先建立的停用词表处理分词结果，剔除停用词；使用预先建立的同义词表替换同义词。

步骤2中的特征词提取进一步包括步骤：

S21.计算特征词的TF-IDF值；其中TF-IDF值为TF×IDF，TF表示指定类中具体词的词频，IDF是指反文档频率，IDF＝log(D/n)，式中n表示词出现的文档数，D为总文档数；

S22.将特征词按对应的TF-IDF值从高到低进行排序；

S23.提取排序后的前N个特征词，N≥1。

上述N的确定可以采用下述步骤：根据排序结果，依次用当前词的TF-IDF值减去下一个词的TF-IDF值，记为当前值的差值，选取差值最大的词为选取点，即差值最大的词为第N个词。

步骤3中根据特征词典生成待分类文本的特征向量的步骤，进一步包括：将待分类文本的特征词集与特征词典进行比较，根据以下规则对特征向量进行重新赋值，获得待分类文本的特征向量；所述规则为：若特征词典中的词出现在待分类文本的特征词集中，则获取该特征词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值；若特征词典中的词没有出现在待分类文本的特征词集中，则该特征词相应位置的特征值为0。

本发明有益效果如下：采用提取特征词、构建特征字典、训练分类器的方式，实现了特征词的自动提取和文本的自动分类；通过以TF-IDF值之间的差值作为特征词选取依据，能选取合适数量的特征词，降低特征词的维度，进而加快文本分类的速度。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为文本分类方法的流程示意图；

图2为特征词提取的示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

本发明的一个具体实施例，公开了一种针对快递评论的文本分类的方法，具体包括如下步骤：

随机获取网络中有关快递评论的数据作为文本集合，由多位工作人员对文本集合中的各个快递评论标注类别，分别标记为很快、快、慢、很慢、无效这5个类别。统计标记结果后，根据每条快递评论标记类别的多少，确定其最终类别。再按照训练样本：测试集＝10:1的比例随机分割标注好的文本集合，得到标注好的训练样本和测试集。其中，无效类是指那些不属于任何所需的类别(即与快递评价无关的文本集合)，也可以作为拒绝类。无效类不参与特征词提取的过程，仅作为分类时的类别，参与分类器的训练。

S1.获取上述标注好类别的训练样本，该训练样本有5个类别，其中1至4为有效类(很快、快、慢、很慢)、第5类为无效类。

S2.对训练样本中的文本进行预处理，预处理包括分词、停用词和同义词处理，得到训练用特征词集合，具体包括下述步骤：

S21.使用分词工具对训练样本中的每条文本进行分词，获得训练样本的文本词集。如果文本是中文，则采用中文分词器；如果是英文，则使用空格进行分词，且在英文分词完成后使用词干提取的方式归一化时态和单复数。

具体地，可以采用ICTCLAS(Institute of Computing Technology,ChineseLexical Analysis System，汉语词法分析系统)和IK Analyzer(IK分词器)等分词工具作为中文分词器。

S22.使用预先建立的停用词表对分词结果进行处理，剔除停用词，获取训练样本中各个类别的原始特征词集合。

其中，对分词结果进行的处理包括去除没有实际意义的字或者词，如“的、了、不但、而且、虽然、但是”等，以及一些生僻字和特殊符号。

S23.使用预先建立的同义词表对原始特征词集合中的同义词进行替换，使得所有同义词均用一个词来表示，得到训练用特征词集合。

S3.对训练用特征词集合中有效类的特征词进行特征选择，再结合无效类的全部特征词，得到特征词典。特征词提取得过多，会造成特征维度过高，不利于分类器的训练，因此核心问题就是提取合适数量的特征词。

特征词提取具体包括如下步骤：

S31.对训练用特征词集合中的所有词计算TF-IDF(Term Frequency-InverseDocument Frequency，词频-逆文本率)值。

其中，TF-IDF值为TF×IDF，TF是指词频，表示指定类中具体词的词频；IDF是指反文档频率，IDF＝log(D/n)，式中n表示该词出现的文档数，D为总文档数。TF值越高，表明该词越能代表该类的特征；而IDF即log(D/n)越低，则说明该词普遍存在于各个文档，因此区分能力较弱。综合TF和IDF的特点，本发明使用TF×IDF作为词的区分性指标，记为TF-IDF。TF-IDF越大，排序越靠前，说明该词的类别区分性越强。

S32.将每一有效类中的词按对应的TF-IDF值从高到低进行排序，依次用当前词的TF-IDF值减去下一个词的TF-IDF值，记为当前值的差值，选取差值最大的词为选取点，选取该词前面(包括该词)的所有词为该有效类别的特征词，再结合无效类的全部特征词，得到特征词典。由于每一个有效类中，经过步骤S31已经排好序，当前词的TF-IDF值肯定大于等于下一个词的值，故差值大于等于0。差值越大则说明两个特征词之间的分类能力差别越大，即前一个词的分类能力明显大于后面的词。因此，利用差值作为特征词选取依据，能选取合适数量的特征词。

S4.由特征词典生成训练样本中文本的特征向量，并获取训练样本的特征向量集，其中特征向量的值是TF-IDF值。

S5.利用特征向量集训练SVM分类器，得到经过训练的SVM分类器。

S6.获取待分类的文本，该文本可以是来源于互联网的快递评论。

S7.对待分类的文本进行预处理，得到待分类文本的特征词集；其中，预处理包括分词、停用词和同义词处理，具体包括下述步骤

S71.使用分词工具对待分类文本进行分词，获得待分类文本的文本词集，其中分词方法同步骤S21；

S72.使用停用词表对分词后得到的文本词集进行处理，剔除停用词，所述停用词表与步骤S22中使用的相同。

S73.使用同义词表对停用词处理后的文本词集中的同义词进行替换，使得所有同义词均用一个词来表示。所述同义词表与步骤S23中使用的相同。

S8.根据特征词典生成待分类文本的特征向量。具体地：将待分类文本的特征词集与步骤S3中的特征词典进行比较，根据以下规则对S3中的特征向量进行重新赋值，获得待分类文本的特征向量。若特征词典中的词出现在待分类文本的特征词集中，则获取该词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值；若特征词典中的词没有出现在待分类文本的特征词集中，则该词相应位置的特征值为0。由此生成待分类文本的特征向量。

S9.将待分类文本的特征向量输入经过训练的SVM分类器，得到待分类文本的类别。

本实施例将测试集作为待分类的文本集合，经过步骤S7-S9，预测测试集中文本的类别。分类结果与人工选定关键词方法进行比对，比较结果如下：

实验结果表明，本发明所提出的特征提取方法在分类效果上优于人工挑选关键词的方式，并且分类速度快，实现了自动分类，无需领域专家参与，不受专家主观认识的影响。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种用于文本分类的方法，其特征在于，包括以下步骤：

步骤1.获取预先标注好类别的网络中有关快递评论的数据作为训练样本，该训练样本有n+1个类别，其中1至n为有效类、第n+1类为无效类，n≥1；

有效类的特征词提取进一步包括：

S22.将特征词按对应的TF-IDF值从高到低进行排序；

S23.提取排序后的前N个特征词，N≥1；

步骤S23中N的确定步骤如下：根据排序结果，依次用当前词的TF-IDF值减去下一个词的TF-IDF值，记为当前值的差值，选取差值最大的词为选取点，即差值最大的词为第N个词；

步骤3.利用特征向量集训练SVM分类器，得到经过训练的SVM分类器；

步骤4.获取待分类的文本，对待分类的文本进行预处理，得到待分类文本的特征词集；根据特征词典生成待分类文本的特征向量；将该特征向量输入经过训练的SVM分类器，得到待分类文本的类别；

上述步骤2和步骤4中的预处理，包括：分词处理，对中文文本采用中文分词器，对英文文本，使用空格分词，且英文分词完成后，使用词干提取的方式归一化时态和单复数；停用词、同义词处理，使用预先建立的停用词表处理分词结果，剔除停用词，使用预先建立的同义词表替换同义词；

上述步骤4中的所述根据特征词典生成待分类文本的特征向量，进一步包括：将待分类文本的特征词集与特征词典进行比较，根据以下规则对特征向量进行重新赋值，获得待分类文本的特征向量，所述规则为：若特征词典中的词出现在待分类文本的特征词集中，则获取该特征词在训练样本中的TF-IDF值作为特征向量中相应位置的特征值；若特征词典中的词没有出现在待分类文本的特征词集中，则该特征词相应位置的特征值为0。