CN106557485B

CN106557485B - 一种选取文本分类训练集的方法及装置

Info

Publication number: CN106557485B
Application number: CN201510623563.0A
Authority: CN
Inventors: 林漫鹏
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-09-25
Filing date: 2015-09-25
Publication date: 2020-11-06
Anticipated expiration: 2035-09-25
Also published as: CN106557485A

Abstract

本发明公开了一种选取文本分类训练集的方法及装置，涉及计算机技术领域，解决了现有的文本训练集分类方式速度慢、误差大、效率低的问题。本发明主要的技术方案为：利用余弦相似性按照预定聚类算法，将训练集中的文本进行相似聚类得到多个文本簇；在所述多个文本簇中分别提取一个代表文本，所述代表文本与其所在簇中的其他文本具有共同的相似特征；根据预定的关键词确定所述代表文本的文本分类标签；将所述代表文本所在文本簇中的所有文本全部加入到所述文本分类标签对应的文本训练集中。本发明主要用于对文本训练集的分类选取。

Description

一种选取文本分类训练集的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种选取文本分类训练集的方法及装置。

背景技术

在信息化的时代，网上信息资源急剧增长，对信息文本的归并和分类成为信息管理必须解决的问题。基于此，文本自动分类技术应运而生。文本自动分类是把未知类别的文本自动分配到已知类别中的过程。实现文本自动分类，首先需要创建文本分类器，该文本分类器是在大量分类好的文本训练集的基础上建立的。

对一个文本训练集的分类是将该训练集中的文本按照分类的规则进行标记，一般做法是选定一个关键词，判断文本与该关键词的相关度，相关则标记该文本为正标签文本，不相关就标记该文本为反标签文本，最后将具有相同标签的文本重新组合，就得到了一个分类号的文本训练集。对于文本训练集的分类方式，传统方式是由人工进行分类，完全依靠肉眼识别正标签和反标签文本，这种方式需要耗费大量的人工成本，并且效率低下。目前，还能够使用计算机进行分类，主要是通过对文本进行关键词检索以判断该文本与关键词的相关度，将存在关键词的文本标记成正标签文本。但是这种方式相对死板，对于一些含有与关键词相似意义但不含该关键词的文本，将无法对该文本进行正确的标记。因此，该方式对于文本训练集的选取也存在着标记准确率不高，误差大的弊端。

发明内容

有鉴于此，本发明提供一种选取文本分类训练集的方法及装置，主要目的在于对文本训练集中的文本进行快速、准确标记分类，进而达到快速创建文本分类器的目的。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明提供了一种选取文本分类训练集的方法，该方法包括：

利用余弦相似性按照预定聚类算法，将训练集中的文本进行相似聚类得到多个文本簇；

在所述多个文本簇中分别提取一个代表文本，所述代表文本与其所在簇中的其他文本具有共同的相似特征；

根据预定的关键词确定所述代表文本的文本分类标签；

将所述代表文本所在文本簇中的所有文本全部加入到所述文本分类标签对应的文本训练集中。

另一方面，本发明还提供了一种选取文本分类训练集的方法装置，该装置包括：

分类单元，用于利用余弦相似性按照预定聚类算法，将训练集中的文本进行相似聚类得到多个文本簇；

提取单元，用于在所述分类单元分出的多个文本簇中分别提取一个代表文本，所述代表文本与其所在簇中的其他文本具有共同的相似特征；

确定单元，用于根据预定的关键词确定所述提取单元提取代表文本的文本分类标签；

添加单元，用于将所述代表文本所在文本簇中的所有文本全部加入到所述文本分类标签对应的文本训练集中。

依据上述本发明所提出的选取文本分类训练集的方法及装置，通过聚类算法对训练集中的文本先进行分类，将文本按照相似度分成多个簇，再对每个簇提取其中的一个文本并对该文本分析，标记该文本针对预定关键词的标签类型，进而将该文本所在簇中的所有文本都标记成该标签类型，并将具有相同标签的文本组成新的文本训练集。相比现有的分类技术，本发明利用聚类算法将相似度高的文本先进行分类，再选取其中的一个作为代表文本进行标记，不仅相对人工分类提高了整体的分类速度，而且由于簇中的文本具有较高的相似度，对选取文本的标记标签可以用于本簇中的其它文本，且具有很高的准确性。可见，本发明在对训练集中的文本进行分类时能够准确、快速地完成对训练集分类标记的工作，进而实现快速创建文本分类器的目的。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提出的一种选取文本分类训练集的方法流程图；

图2示出了本发明实施例提出的另一种选取文本分类训练集的方法流程图；

图3示出了本发明实施例提出的一种选取文本分类训练集的装置组成框图；

图4示出了本发明实施例提出的另一种选取文本分类训练集的装置组成框图；

图5示出了本发明实施例提出的第三种选取文本分类训练集的装置组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种选取文本分类训练集的方法，如图1所示，该方法应用于对训练集中的文本进行标记分类，从而构建文本分类器实现对文本的准确分类，具体步骤包括：

101、利用余弦相似性按照预定聚类算法，将训练集中的文本进行相似聚类得到多个文本簇。

聚类算法，也叫聚类分析或者群分析，是研究分类问题的一种统计分析方法，也是数据挖掘的一个重要算法。聚类分析以相似性为基础，其具体的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。本实施例所采用的聚类算法为基于距离的划分法，即给定要构建的分区数，划分法首先创建一个初始化划分，然后，采用一种迭代的重定位技术，通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准则是：同一个簇中的对象尽可能相互接近或相关，而不同的簇中的对象尽可能远离或不同。

本发明实施例在使用划分法进行聚类分析时，是以余弦相似性来判断文本之间的相似性。具体说就是通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。在比较过程中，向量的规模大小不予考虑，仅仅考虑到向量的指向方向。余弦相似度通常用于两个向量的夹角小于90°之内，因此余弦相似度的值为0到1之间。

需要说明的是，经过聚类算法得出的簇的个数是可以预先设置的，且簇的个数越多，将训练集中的文本划分的就越细，而每个簇中的文本间的相似性就越高，聚类的效果就越好。

102、在多个文本簇中分别提取一个代表文本。

在将训练集中的多个文本分为多个簇后，分别在每个簇中选择一个文本，以该文本作为这个簇中其他文本的代表。由于簇中的文本具有较高的相似性，因此被选中的文本与簇中其他文本具有共同的相似特征。

在本步中需要指出的是，本实施例不限定提取文本的具体方式，可以是随机选取，也可以是指定选择。

103、根据预定的关键词确定代表文本的文本分类标签。

在提取出代表文本后，将对该文本按照预先给定的关键词进行分类，标记该文本所属的文本分类标签。对文本标记分类标签的方式可以是通过人工对该文本进行分类标记，也可以使用计算机对文本进行关键词搜索，本实施例对此不做具体限定。需要说明的是，采用何种方式对文本进行标记可根据视不同情况具体选择，例如需要快速判断时可使用计算机分类，而对速度要求不高，而对准确度或是成本有一定要求时，就可以使用传统的人工分类。

需要指出的时，同一个文本根据关键词的不同可以标记有多个不同的分类标签。

104、将代表文本所在文本簇中的所有文本全部加入到文本分类标签对应的文本训练集中。

确定代表文本的文本分类标签后，由于该簇中的其他文本与代表文本具有相似的特征，因此，可以认为代表文本所标记的标签同样可以作为文本簇中其他文本的分类标签。所以，可以将该簇中的所用文本都标记上代表文本所标记的文本分类标签。

同时，根据其他簇的分类标记的结果，将具有相同文本分类标签的簇中的文本组成一个新的文本训练集，在该集合中的所有文本都具有针对同一个关键词相同的文本分类标签。

结合上述的实现方式可以看出，本发明实施例所采用的选取文本分类训练集方法，是通过聚类算法对训练集中的文本先进行分类，将文本按照相似度分成多个簇，再对每个簇提取其中的一个文本并对该文本进行分析，标记该文本针对预定关键词的标签类型，进而将该文本所在簇中的所有文本都标记成该标签类型，并将具有相同标签的文本组成新的文本训练集。相比现有的对文本训练集分类的技术，本发明实施例利用聚类算法将相似度高的文本先进行分类，再选取其中的一个作为代表文本进行标记，不仅相对人工分类方式提高了整体的分类速度，而且由于簇中的文本具有较高的相似度，对选取文本的标记标签可以用于本簇中的其它文本，且具有很高的准确性。可见，本发明实施例在对训练集中的文本进行分类时能够准确、快速地完成对训练集分类标记的工作，进而实现快速创建文本分类器的目的。

为了更加详细地说明本发明提出的一种选取文本分类训练集的方法，本发明实施例将对分类使用的聚类方式进行具体说明，如图2所示，该方法在选取文本分类训练集时所包括步骤为：

201、创建包含训练集中所有文本特征项的特征项集合。

由于本发明实施例在计算文本相似度时利用的是余弦相似性进行判断的，因此，在判断前就需要对训练集中的文件进行向量化。具体到本实施例中，对文本进行向量化的方式是对训练集中每一条文本逐一进行分词，经过去重后，得到一个词典，训练集中的所有本文均可以由该词典中的词组成。将该词典中的每一个词定义为训练集的一个特征项，如此，该词典就成为了一个特征项集合，可以用于表示训练集中文本的所有特征项。

202、利用特征项集合对训练集中的文本进行特征向量化，得到特征向量化文本。

对训练集中的文本进行特征向量化的方式有很多种，对于较小的文本，即特征项不多的文本，较为简单的实现方式为，对该文本进行分词，将分词的结果带入到201中得到的特征项集合进行比对，在特征项集合中找出各个分词对应的特征项，利用布尔值对比对的结果进行表示，就得出了该文本的特征化向量。例如，一个特征项集合有5个特征项，为{a,b,c,d,e}，如果将一个文本分词后得到的结果是(b,e,d)，则对该文本的特征向量化后的值为{0,1,0,1,1}。

上述的特征向量化的方式为现有方式中较为简单的一种，而目前较为常用的方式还有通过对特征向量进行加权的TF-IDF算法，本实施例对于具体的向量化方式不做具体限定。目的是要将训练集中的文本以特征向量的方式进行向量化表示，从而可以通过余弦相似性计算来得出文本之间的相似度，以便后续的分类处理。

203、利用余弦相似性按照预定聚类算法，将训练集中的文本进行相似聚类得到多个文本簇。

在以划分法为基本思想的聚类算法中主要是K-MEANS算法、K-MEDOIDS算法、CLARANS算法。其中，本发明实施例以K-MEANS算法中的一种改进算法bisecting Kmeans(二分K均值算法)为例进行说明，该算法的优势在于消除KMeans算法运行过程中随机初始化簇质心的影响，使得分类的效果达到全局最优。该算法需要预先设置一个值，该值为最终得到簇的个数，然后将训练集中的所有文本视为一个簇，再随机选取两个文本作为初始类质心，利用余弦相似性计算与质心距离近的向量化文本，按照远近程度将训练集中的文本分为两个簇，然后通过误差平方和(SSE)的结果判断这两个簇的聚类效果。其中，SSE的值为簇中的每个文本的向量值与该簇的质心的向量值的差值的平方和，这个值可以用来度量聚类的效果，该值越小，说明聚类的效果越好。在计算出两个簇的SSE值后，将值大的簇再进行bisecting Kmeans聚类计算，就得到了3个簇，如此迭代计算，直至得到预先设置的簇的个数为止。

其中，在计算过程中，当簇的个数大于两个的时候，在比较SSE值时还可以将对上一代中聚类效果好的簇的SSE值带入比较的过程，将值最大的簇进行再聚类，从而达到分类更加均衡的效果。

204、在多个文本簇中分别提取一个代表文本。

本步骤同上述的102，此处不再赘述。

205、根据预定的关键词确定代表文本的文本分类标签。

在确定代表文本的文本分类标签时，由于该文本代表了簇中的其他文本，因此，在进行分类标签的标记时应尽可能的保证该文本的分类准确性。目前在对文本针对预定关键词的分类过程中人工分类由于能够根据关键词的意义进行判断，因此要比计算机根据是否存在关键词的判断方法要准确。但随着计算机人工智能的发展以及人工成本的提高，使用人工进行分类的消费比将越来越低。不过本实施例对于采用的具体分类方式并不限定，使用现有的能够准确标记分类标签的方式都可以应用在本方案中。

目前针对关键词进行分类标记所使用的标签最常用的是正标签与反标签，当文本中含有该关键词或含有与关键词意义相近似的词时，就标记该文本为正标签文本，反之则标记为反标签文本。而本实施例对于标签的分类方式并不限定在只有正反两种标签上，对于有多种分类标签的，也可以根据上述的方式对文本进行标注。

206、将代表文本所在文本簇中的所有文本全部加入到文本分类标签对应的文本训练集中。

在标记出代表文本的文本分类标签后，由于簇中文本的相似性，可以将该簇中的其他文本进行相同的标记。在对训练集中的所有簇都完成标记后，将具有相同文本分类标签的文本组合成一个新的文本训练集，该训练集就为分类好的文本训练集，可以用于文本分类器中对新文本进行分类。

进一步的，作为对上述方法的实现，本发明实施例提供了一种选取文本分类训练集的装置，该装置设置在用于对训练集进行分类的计算设备中，如图3所示，该装置包括：

分类单元31，用于利用余弦相似性按照预定聚类算法，将训练集中的文本进行相似聚类得到多个文本簇；

提取单元32，用于在所述分类单元31分出的多个文本簇中分别提取一个代表文本，所述代表文本与其所在簇中的其他文本具有共同的相似特征；

确定单元33，用于根据预定的关键词确定所述提取单元32提取代表文本的文本分类标签；

添加单元34，用于将所述代表文本所在文本簇中的所有文本全部加入到所述确定单元33确定的文本分类标签对应的文本训练集中。

进一步的，如图4所示，所述装置还包括：

创建单元35，用于创建包含所述训练集中所有文本特征项的特征项集合；

特征向量化单元36，用于利用所述创建单元35创建的特征项集合对所述训练集中的文本进行特征向量化，得到特征向量化文本，以便所述分类单元31在进行分类时对所述特征向量化文本进行余弦相似性计算。

进一步的，如图5所示，所述创建单元35包括：

分词模块351，用于对所述训练集中的文本进行分词；

组建模块352，用于将所述分词模块351得到的分词构成特征项，得到特征项集合。

进一步的，如图5所示，所述特征向量化单元36包括：

获取模块361，用于获取对文本分词后得到的分词结果；

查找模块362，用于根据所述获取模块361获取的分词结果在所述特征项集合中查找所述文本具有的特征项；

特征向量化模块363，用于利用布尔值表示所述查找模块362查找出文本所具有的特征项，得到特征向量化文本。

进一步的，如图5所示，所述分类单元31包括：

判断模块311，用于通过余弦相似性计算判断所述特征向量化文本之间的相似度；

计算模块312，用于利用二分K均值算法bisecting Kmeans进行聚类计算，按照所述判断模块311判断的相似度将所述特征向量化文本划分为两个文本簇；

比较模块313，用于比较所述计算模块312计算出的两个文本簇的聚类效果；

所述计算模块312还用于，利用bisecting Kmeans对所述比较模块313比较出聚类效果差的簇继续进行聚类计算，直至将训练集中的文本划分成预定个数的多个文本簇。

进一步的，所述比较模块313包括：

获取子模块，用于获取所述文本簇中质心的向量值，所述质心为在聚类计算中所确定的簇的中心；

计算子模块，用于根据特征向量化文本的向量值以及所述获取子模块获取的质心的向量值，计算所述文本簇中所有特征向量化文本到所述质心的误差平方和；

比较子模块，用于比较所述计算子模块计算出的两个文本簇的误差平方和的值，所述误差平方和的值与聚类效果成反比。

进一步的，如图5所示，所述确定单元33包括：

获取模块331，用于获取对文本分类的关键词；

判断模块332，用于判断在所述代表文本中是否存在所述获取模块331获取的关键词；

标记模块333，用于当所述判断模块332的判断结果为存在时，标记所述代表文本为正标签文本，反之则标记为反标签文本。

综上所述，本发明实施例所采用的选取文本分类训练集方法及装置，通过聚类算法对训练集中的文本先进行分类，将文本按照相似度分成多个簇，再对每个簇提取其中的一个文本并对该文本分析，标记该文本针对预定关键词的标签类型，进而将该文本所在簇中的所有文本都标记成该标签类型，并将具有相同标签的文本组成新的文本训练集。相比现有的分类技术，本发明利用聚类算法将相似度高的文本先进行分类，再选取其中的一个作为代表文本进行标记，不仅相对人工分类提高了整体的分类速度，而且由于簇中的文本具有较高的相似度，对选取文本的标记标签可以用于本簇中的其它文本，且具有很高的准确性。可见，本发明在对训练集中的文本进行分类时能够准确、快速地完成对训练集分类标记的工作，进而实现快速创建文本分类器的目的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种选取文本分类训练集的方法，其特征在于，所述方法包括：

创建包含所述训练集中所有文本特征项的特征项集合；

利用所述特征项集合对所述训练集中的文本进行特征向量化，得到特征向量化文本，以便对特征向量化文本进行余弦相似性计算；

根据预定的关键词确定所述代表文本的文本分类标签；

2.根据权利要求1所述的方法，其特征在于，所述创建包含所述训练集中所有文本特征项的特征项集合包括：

对所述训练集中的文本进行分词；

将所述分词构成特征项，得到特征项集合。

3.根据权利要求2所述的方法，其特征在于，所述利用所述特征项集合对所述训练集中的文本进行特征向量化，得到特征向量化文本包括：

获取对文本分词后得到的分词结果；

根据所述分词结果在所述特征项集合中查找所述文本具有的特征项；

利用布尔值表示所述文本所具有的特征项，得到特征向量化文本。

4.根据权利要求1所述的方法，其特征在于，所述利用余弦相似性按照预定聚类算法，将训练集中的文本进行相似聚类得到多个文本簇包括：

通过余弦相似性计算判断所述特征向量化文本之间的相似度；

利用二分K均值算法bisecting Kmeans进行聚类计算，按照所述相似度将所述特征向量化文本划分为两个文本簇；

比较所述两个文本簇的聚类效果；

利用bisecting Kmeans对聚类效果差的簇继续进行聚类计算，直至将训练集中的文本划分成预定个数的多个文本簇。

5.根据权利要求4所述的方法，其特征在于，所述比较所述两个文本簇的聚类效果包括：

获取所述文本簇中质心的向量值，所述质心为在聚类计算中所确定的簇的中心；

根据特征向量化文本的向量值以及所述质心的向量值，计算所述文本簇中所有特征向量化文本到所述质心的误差平方和；

比较所述两个文本簇的误差平方和的值，所述误差平方和的值与聚类效果成反比。

6.根据权利要求1所述的方法，其特征在于，所述根据预定的关键词确定所述代表文本的文本分类标签包括：

获取用于文本分类的关键词；

判断在所述代表文本中是否存在所述关键词；

若存在，则标记所述代表文本为正标签文本，反之则标记为反标签文本。

7.一种选取文本分类训练集的装置，其特征在于，所述装置包括：

创建单元，用于创建包含所述训练集中所有文本特征项的特征项集合；

特征向量化单元和分类单元，所述特征向量化单元用于利用所述创建单元创建的特征项集合对所述训练集中的文本进行特征向量化，得到特征向量化文本，以便所述分类单元在进行分类时对所述特征向量化文本进行余弦相似性计算；

所述分类单元，用于利用余弦相似性按照预定聚类算法，将训练集中的文本进行相似聚类得到多个文本簇；

8.根据权利要求7所述的装置，其特征在于，所述分类单元包括：

判断模块，用于通过余弦相似性计算判断所述特征向量化文本之间的相似度；

计算模块，用于利用二分K均值算法bisecting Kmeans进行聚类计算，按照所述判断模块判断的相似度将所述特征向量化文本划分为两个文本簇；

比较模块，用于比较所述计算模块计算出的两个文本簇的聚类效果；

所述计算模块还用于，利用bisecting Kmeans对所述比较模块比较出聚类效果差的簇继续进行聚类计算，直至将训练集中的文本划分成预定个数的多个文本簇。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求6中任意一项所述的选取文本分类训练集的方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至权利要求6中任意一项所述的选取文本分类训练集的方法。