CN102289522B

CN102289522B - 一种对于文本智能分类的方法

Info

Publication number: CN102289522B
Application number: CN201110278817.1A
Authority: CN
Inventors: 吕福军; 李军锋; 李跃海
Original assignee: Beijing Jinher Software Co Ltd
Current assignee: Beijing Jinher Software Co Ltd
Priority date: 2011-09-19
Filing date: 2011-09-19
Publication date: 2014-08-13
Anticipated expiration: 2031-09-19
Also published as: CN102289522A

Abstract

本发明公开了一种对于文本智能分类的方法。包括步骤：先准备大量的训练文本集，然后对每篇的文本进行文本分词，接着进行特征项提取并存储，然后对于每个特征项进行权重计算，把该文本转换成文本向量并存储到分类器中，最后形成了特征项集合和分类器集合。把需要确定分类的文本进行分词，默认特征项集合里面的特征都是符合待分类文本，然后进行特征项权重计算，不符合的过滤掉，符合的留下作为该文本的特征。将这些特征项转化成为该文本向量。通过相似度算法将该文本向量和分类器中的向量进行比对，根据相似文本向量来确定该文本的分类所属。本发明提供了一套有效的方法来使文本的分类提取更加准确，而且在速度上也优于现有的同类技术。

Description

一种对于文本智能分类的方法

技术领域

本发明涉及人工智能领域数据挖掘的分类技术，特别涉及应用于互联网产品中对于文本的分类的分类技术。

背景技术

互联网的迅猛发展导致了网络中的文本数据成指数级的增长，因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。随着我国的网络普及率越来越高，网络用户越来越多，各种各样的网站中蕴涵着海量的中文信息，这些信息绝大多数是以文本的形式存在着，因此能否准确地对文本进行分类具有非常重要的现实意义。在互联网产品中很多地方也都使用到分类技术，比如在百度知道、天涯知道等产品中都涉及到分类，但是这些产品在使用中都存在分类不准确而且分类速度慢的问题。

发明内容

本发明针对互联网上的产品在文本分类过程中存在分类不准确和分类速度慢等问题，提供一种对于本文的智能分类的方法。

本发明的目的是可以实现自动的将某段文本分到某个特定的类别。

本发明的另一个目的是解决文本分类不够准确的问题和加快提取速度。

为此，本发明公开了一种对于文本智能分类的方法。所述文本智能分类的方法步骤如下：

步骤一、准备一定数量的训练文本，并将这些训练文本分成多个类别；

步骤二、对每一件训练文本通过中文分词算法进行分词，并根据分词的特征属性，计算各分词的权重值W；

步骤三、将所有训练文本中的所有分词的权重值统一进行排序，并取权重值位于前N名的N个分词作为特征项，各特征项均具有自己的权重值W_i(i＝1～N)；

步骤四、将任意一件训练文本中所有分词与上述N个特征项进行比对，形成文本向量{a1，a2，a3…ai…aN}，在该文本向量中，未匹配到该件训练文本中的任一个分词的第i个特征项对应的ai值被定义为一个统一的数值B，而匹配到该件训练文本中的一个分词的第i个特征项对应的ai值被定义为与该第i个特征项的权重值W_i相关的数值；

步骤五、建立训练文本向量数据库，其中存储有包含各训练文本的识别码、所属类别和文本向量信息；

步骤六、取待分类文本，进行中文算法分词处理，随后根据上述N个特征项形成文本向量；

步骤七、将待分类文本的文本向量与训练文本的文本向量进行比较，找出最相似的训练文本，将待分类文本划入最相似的训练文本所属的类别。

优选的是，所述的对文本进行智能分类的方法中，在所述步骤二中，分词的特征属性包括分词的词性、词频和词长。

优选的是，所述的对文本进行智能分类的方法中，在所述步骤三中，N为1000。

优选的是，所述的对文本进行智能分类的方法中，在所述步骤四中，统一的数值B为0。

优选的是，所述的对文本进行智能分类的方法中，在所述步骤四中，与该第i个特征项的权重值W_i相关的数值为：相匹配的分词在该件训练文本中出现的频率x该第i个特征项的权重值W_i。

优选的是，所述的对文本进行智能分类的方法中，在所述步骤七中，通过余弦相似度算法从训练文本向量数据库中找到最相似的文本向量。

优选的是，所述的对文本进行智能分类的方法中，所有文本向量和分词结果均保存在计算机内存中。

优选的是，所述的对文本进行智能分类的方法中，所有文本保存为TXT格式。

本发明的有益效果是：可以人工进行训练文本分类数据，也可以采用自动采集数据的方式进行分类训练，在处理获取数据和分类数据的时候，可以配合数据挖掘中的其他算法一起使用比如分类算法、聚类算法，可以做到灵活配置。本发明提供了一种针对海量数据进行分类训练的方式，在经过文本搜集、特征提取、文本向量转化等过程后，对于任何一篇文本的分类都能有效的进行分类，应用领域非常广泛。

附图说明

附图1为该方法的流程图。

具体实施方式

下面结合附图对本发明做进一步说明，以使本领域普通技术人员参照本说明书后能够据以实施。

如图1所示，本发明的一种对于文本智能分类的方法，包括如下步骤：

步骤一、准备一定数量的训练文本，并将这些训练文本分成多个类别，并在系统内存中建立一个文本信息链表LIST<TEXTINFO>m_TextInfoLIst，将所有的文本字符串以TXT格式保存在内存里，其中TEXTINFO数据类型为：

步骤二、在系统中建立分词链表LIST<String>，遍历文本信息链表，对每个文本通过中文分词算法进行分词，并根据分词的词频、词长和词性等属性，计算各分词的权重值W，保存在分词链表中。

步骤三、建立分词权重字典Dictionary<string，double>，将每个分词的权重保存在权重字典里，然后根据权重对字典进行升序排序，取出权重值最大的前1000个作为特征项。

步骤四、将任意一件训练文本中所有分词与上述1000个特征项进行比对，形成文本向量{a1，a2，a3…ai…a1000}，在该文本向量中，未匹配到该件训练文本中的任一个分词的第i个特征项对应的ai值被定义为一个统一的数值0，而匹配到该件训练文本中的一个分词的第i个特征项对应的ai值被定义为与该第i个特征项的权重值W_i相关的数值。例如文本为“明天去北京出差”，转化成文本向量描述为{3，0，1}。

步骤五、建立训练文本向量数据库，其中存储有包含各训练文本的识别码、所属类别和文本向量信息。

步骤六、取待分类文本，进行中文算法分词处理，随后根据上述1000个特征项进行比对形成文本向量，将这些文本向量保存在数据结构里：

步骤七、将待分类文本的文本向量与训练文本的文本向量进行比较，通过标准的余弦相似度算法从分类器链表中进行遍历匹配，找出最相似的训练文本，将待分类文本划入最相似的训练文本所属的类别。

另一种实现形式是：

步骤一、搜集大量的训练文集，将所有文本保存为TXT格式，预先设定若干分类，将文本分别保存在不同的分类下。

步骤二、在系统内存中建立一个文本信息链表LIST<TEXTINFO>m_TextInfoLIst，其中TEXTINFO数据类型为：

在该链表中将所有的文本字符串加载到内存里。

步骤三、在系统中建立分词链表LIST<String>，遍历文本信息链表，对每个文本通过中文分词算法进行分词，将分词保存在分词链表中。同时建立分词权重字典Dictionary<string，double>，将每个分词的权重保存在权重字典里，然后对字典进行根据权重进行升序排序，取出权重值最大的前1000个作为特征项。

步骤四、遍历文本信息链表，取出每一个文本进行特征维度的1000个维度的描述，对于每个特征项进行权重计算。

步骤五、将每个文本进行进行文本向量转化，形成数字维度权重的描述方式，比如文本为“明天去北京出差”，转化成文本向量描述为{3，0，1}。在数据库中建立一个文本向量表用于存储所有的文本的向量，字段包括

(ID、分类、向量)。

步骤六、以上步骤都进行完后，大量的文本最后形成了特征项集合和分类器集合，对于文本的训练结束。

步骤七、系统接收一文本字符串，并加载到内存的临时变量进行保存。

步骤八、通过中文分词算法对该文本字符串进行中文分词处理。

步骤九、将已经训练好的1000特征取出，保存在内存的特征链表中。

步骤十、在内存中定义数组，将该文本进行1000个维度权重的描述并存储在数组里。

步骤十一、将该文本进行文本向量处理，然后默认特征项集合里面的特征都是符合待分类文本，然后进行特征项权重计算，不符合的过滤掉，符合的留下作为该文本的特征。

步骤十二、在内存中形成数字维度权重的保存形式，存放在如下数据结构里：

步骤十三、通过标准的余弦相似度算法从分类器链表中进行遍历匹配找到最相似的文本向量。

步骤十四、根据文本向量确定分类。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种对文本进行智能分类的方法，其特征在于，包括以下步骤：

步骤三、将所有训练文本中的所有分词的权重值统一进行排序，并取权重值位于前N名的N个分词作为特征项，各特征项均具有自己的权重值W_i，其中i=1～N；

步骤七、将待分类文本的文本向量与训练文本的文本向量进行比较，找出最相似的训练文本，将待分类文本划入最相似的训练文本所属的类别；其中，通过余弦相似度算法从训练文本向量数据库中找到最相似的文本向量。

2.如权利要求1所述的对文本进行智能分类的方法，其特征在于，在所述步骤二中，分词的特征属性包括分词的词性、词频和词长。

3.如权利要求1所述的对文本进行智能分类的方法，其特征在于，在所述步骤三中，N为1000。

4.如权利要求1所述的对文本进行智能分类的方法，其特征在于，在所述步骤四中，统一的数值B为0。

5.如权利要求1所述的对文本进行智能分类的方法，其特征在于，所有文本向量和分词结果均保存在计算机内存中。

6.如权利要求1所述的对文本进行智能分类的方法，其特征在于，所有文本保存为TXT格式。