CN111666407A

CN111666407A - 一种文本分类方法及装置

Info

Publication number: CN111666407A
Application number: CN202010332603.7A
Authority: CN
Inventors: 陈家兵; 陈涛; 薛云; 季家亮
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-09-15

Abstract

本发明公开一种文本分类方法及装置，该方法至少包括如下步骤：基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn，M≥2，N≥2，n＝M*N；将属于同一种分类类型的N个评分t_n进行加权融合，获得每一种分类类型的最终评分T_m；对所述M种分类类型的最终评分T_m进行排序，并选出最终评分T_m最高的类型作为所述待分类文本的最终分类类型，该方法基于预先设置的分类类型，通过多种算法相融合的方式获得一种准确度较高的文本分类结果。

Description

一种文本分类方法及装置

技术领域

本发明涉及计算机数据处理领域，特别涉及一种文本分类方法及装置。

背景技术

文本分类，就在给定的分类体系下，根据文本的内容自动地确定文本关联的类别。文本分类是一个映射的过程，它将未标明类别的文本映射到已有的类别中，该映射可以是一一映射，也可以是一对多的映射，因为通常一篇文本可以同多个类别相关联。

然而，现有技术中至少存在如下问题：现有的文本分类方法存在分类不准确以及效率不高等问题。如已授权中国专利CN102073704A中公开的文本分类处理方法：其通过网络侧设备提供的分类参数，在用户设备上通过预先设置的模型进行分类，获取多个分类特征与分类参数的相关程度，并将文本存储在相关程度最高的文本信息主体中，实际上为根据文本特征与分类参数相关性进行分类的技术方案，其采用的算法较为单一，分类过程可能存在片面性较大的问题，最终获取的分类结果准确度不够高。

发明内容

为解决上述技术问题，本发明提供了一种文本分类方法及装置，其基于预先设定的分类类型，通过多种算法相融合的方法获得一种准确度较高的文本分类结果。

本发明提供的技术方案如下：

第一方面，提供一种文本分类方法，所述方法至少包括如下步骤：

基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分tn，M≥2，N≥2，n＝M*N；

将属于同一种分类类型的N个评分t_n进行加权融合，获得每一种分类类型的最终评分T_m；

对所述M种分类类型的最终评分T_m进行排序，并选出最终评分T_m最高的类型作为所述待分类文本的最终分类类型。

在一些较佳的实施方式中，所述分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分t_n之前，还包括：获取训练文本集；

所述基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分t_n，包括：

分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率；

获取待分类文本的特征向量；

利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分t_n。

在一些较佳的实施方式中，获取训练文本集具体包括如下子步骤：

将样本集中的每一文本样本进行分词获得第一分词结果，并对每一文本样本进行预分类；

基于所述第一分词结果生成样本集词列表；

将每一文本样本的第一分词结果与所述样本集词列表对比，并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类，将所述样本集表示成向量形式，并作为训练文本集。

在一些较佳的实施方式中，所述获取待分类文本的特征向量，包括：

对所述待分类文本进行分词获得第二分词结果；

将所述第二分词结果与所述样本集词列表对比，并以所述样本集词列表中是否存在所述第二分词结果中的分词进行分类，获得所述待分类文本的特征向量。

在一些较佳的实施方式中，对所述条件概率的值进行策略增加，以使每一个分词的每一类型的条件概率均大于0，且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。

在一些较佳的实施方式中，所述分类算法至少包括贝叶斯算法及TFIDF算法。

在一些较佳的实施方式中，所述采用TFIDF算法计算每一种分类类型的评分t_n时，至少包括如下子步骤：

根据所述训练文本集及TFIDF算法得出TFIDF的向量；

将所述TFIDF的向量作为输入，通过神经网络计算每一种分类类型的评分t_n。

第二方面，提供一种文本分类装置，所述装置至少包括：

第一计算模块，用于基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分t_n，M≥2，N≥2，n＝M*N；

第二计算模块，用于将属于同一种分类类型的N个评分t_n进行加权融合，获得每一种分类类型的最终评分T_m；

排序筛选模块，用于对所述M种分类类型的最终评分T_m进行排序，并选出最终评分T_m最高的类型作为所述待分类文本的最终分类类型。

在一些较佳的实施方式中，所述装置还包括：训练文本集获取模块；

所述第一计算模块至少包括：

第一计算子模块，用于分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率；

特征向量获取子模块，用于获取待分类文本的特征向量；

第二计算子模块，利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分t_n。

在一些较佳的实施方式中，所述训练文本集获取模块至少包括：

第一分词子模块，用于将样本集中的每一文本样本进行分词获得第一分词结果；

预分类子模块，用于对所述每一文本样本进行预分类；

生成子模块，用于基于所述第一分词结果生成样本集词列表；

第一处理子模块，用于将每一文本样本的第一分词结果与所述样本集词列表对比，并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类，将所述样本集表示成向量形式，并作为训练文本集。

在一些较佳的实施方式中，所述特征向量获取子模块至少包括：

第一分词单元，用于对所述待分类文本进行分词获得第二分词结果；

第一处理单元，用于将所述第二分词结果与所述样本集词列表对比，并以所述样本集词列表中是否存在所述第二分词结果中的分词进行分类，获得所述待分类文本的特征向量。

在一些较佳的实施方式中，所述第二计算子模块至少包括策略增加单元，用于对所述条件概率的值进行策略增加，以使每一个分词的每一类型的条件概率均大于0，且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。

在一些较佳的实施方式中，所述第二计算子模块还包括：贝叶斯算法单元与TFIDF算法单元。

在一些较佳的实施方式中，所述采用贝叶斯算法计算每一种分类类型的评分t_n时，获取对数贝叶斯评分。

在一些较佳的实施方式中，所述TFIDF算法单元至少包括：

第一计算子单元，用于根据所述训练文本集及TFIDF算法得出TFIDF的向量；

第二计算子单元，用于将所述TFIDF的向量作为输入，通过神经网络计算每一种分类类型的评分t_n。

第三方面，还提供一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分t_n，M≥2，N≥2，n＝M*N；

将每一种分类类型的N个评分t_n进行加权融合，获得每一种分类类型的最终评分T_m；

本发明相比现有技术而言的有益效果在于：

本发明提供一种文本分类方法，该方法至少包括如下步骤：基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分t_n，M≥2，N≥2，n＝M*N；将属于同一种分类类型的N个评分t_n进行加权融合，获得每一种分类类型的最终评分T_m；对所述M种分类类型的最终评分T_m进行排序，并选出最终评分T_m最高的类型作为所述待分类文本的最终分类类型，该方法基于预先设置的分类类型，通过多种算法相融合的方式获得准确度较高且速度较快的文本分类结果；

所述分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分t_n之前，还包括：获取训练文本集，利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本的每一种分类类型在每一种分类算法下的评分t_n，通过基于已有并完成分类的样本获取的训练文本集，作为分类参照，并参与后续评分t_n的计算，能进一步提高该文本分类方法的准确性；

本申请的方案只要实现其中任一技术效果即可。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一中的一种文本分类方法的流程图；

图2是本发明实施例二中的一种文本分类装置的结构图；

图3是本申请实施例三提供的计算机系统架构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种文本分类方法及装置，该文本分类方法基于预先获取的训练文本集以及预先设置的多种分类类型计算待分类文本就每一种分类类型的评分，并将评分最高的一类认定为该待分类文本的类型。另外，该文本分类方法还利用所述训练文本集与待分类文本计算所述待分类文本的每一种分类类型的评分t_n，如此，评分t_n是基于已进行分类的样本基础上得出的，进一步提高了文本分类的准确性。

下面将结合具体实施例对该文本分类方法及装置作进一步说明。

实施例一

结合图1所示，本实施例提供一种文本分类方法，其至少包括如下步骤：

S1、基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分t_n，M≥2，N≥2，n＝M*N。

其中，M种文本分类类型可基于目前掌握的已分类样本集所包括的全部或部分类型确定，为了避免类型的缺失，本实施例中优选基于预先设置M种分类类型所包括的全部分类类型。

作为一种优选，在步骤S1之前，还包括步骤S0：获取训练文本集。并在获取训练文本集之后，利用训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本的每一种分类类型的评分t_n。

具体地，该步骤S0至少包括如下子步骤：

S01、将样本集中的每一文本样本进行分词获得第一分词结果，并对每一文本样本进行预分类。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。本实施例中的分词适用于中文分词及任一种外文分词，为了便于描述，本实施例以中文分词为例。中文分词通常采用基于词典分词算法或基于统计的机器学习算法获得，为本领域技术人员所公知，且并非本实施例核心技术，在此不再加以详述。示例性地：将样本“我想要开发票”分词后获得的分词结果为：“我”“想要”“开”“发票”。

在完成分词之后，对每一样本都预先完成分类，并将每一个第一分词结果按照分类结果表示成向量的形式。

如，目前样本集中包括如下5条样本：

1、我想要开发票；

2、请问货什么时候到；

3、发票抬头写苏宁；

4、支持送货上门；

5、我们物流非常快。

故分词后样本列表表示为：

postingList＝[

['我'，'想要'，'开'，'发票']，

['请问'，'货'，'什么'，'时候'，'到']，

['发票'，'抬头'，'写'，'苏宁']，

['支持'，'送货'，'上门']，

['我们'，'物流'，'非常'，'快']

]。

本示例以M＝2为例，但并不以此为限。上述分词后的样本列表中的1、3为开票相关，类型定为0；2、4、5为物流相关，类型定为1。如此可将其预设为标记向量：classVec＝[0，1，0，1，1]。

S02、基于第一分词结果生成样本集词列表。样本集词列表包括所有文本样本中的分词，且无重复。如基于上述5条样本中生成的样本集词列表为：

trainVec＝['我'，'想要'，'开'，'发票'，'请问'，'货'，'什么'，'时候'，'到'，'抬头'，'写'，'苏宁'，'支持'，'送货'，'上门'，'我们'，'物流'，'非常'，'快']。

S03、将每一文本样本的第一分词结果与样本集词列表对比，并以样本集词列表中是否存在第一分词结果中的分词进行分类，将样本集表示成向量形式，并作为训练文本集。

优选地，将每一文本样本的第一分词结果与样本集词列表对比，若是在样本集词列表中存在该分词，则记为1，若是不存在，则即为0。

示例性地，如该步骤将样本集向量化后为：

trainVecNum＝

[

[1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],

[0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0],

[0,0,0,1,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0],

[0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0],

[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1]

]。

上述得到的trainVecNum即为训练文本集，其为文本样本向量化后的向量集。

在获取训练文本集之后，执行步骤S1，步骤S1至少包括如下子步骤：

S11、分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率。

S12、获取待分类文本的特征向量。

具体地，步骤S12至少包括如下子步骤：

S121、对待分类文本进行分词获得第二分词结果；

S122、将第二分词结果与样本集词列表对比，并以样本集词列表中是否存在第二分词结果中的分词进行分类，获得待分类文本的特征向量。

S13、利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分t_n。

示例性地，针对训练文本集中分类为“1”和“0”分别计算条件概率：训练文本集中分类为“0”的条件概率可以为：

[0,0,1/8,1/8,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]

训练文本集中分类为“1”的条件概率可以为：

[0,0,0,0,1/12,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。

作为一种优选，本实施例中在获得条件概率后，可对条件概率的值进行策略增加，以使每一个分词的每一类型的条件概率均大于0，且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。

策略增加具体采用的手段可以是：为每一个分词的每一个类型的条件概率数值中分子加上一个较小的统一数值，分母加上一个较大的统一数值，由此实现在基本不改变条件概率的前提下避免出现0的情况，以避免当待分类文本中的分词不属于样本集而出现结果为0，从而使最终结果为0的情况。

需要说明的是，本实施例对于策略增加时分子与分子统一增加的数值并不限制，仅要求统一增加后的，每一类型的各项条件概率之和为1。

示例性地，将上述每一条件概率在现有数值基础上，分子都加上1，分母都加上19，如此，其条件概率的矩阵就变化为：

[1/27,1/27,2/27,2/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27,1/27]

[1/31,1/31,1/31,1/31,2/31,3/31,3/31,3/31,2/31,2/31,2/31,1/31,1/31,1/31,1/31,2/31,2/31,2/31,2/31]。

接着，获取待分类文本的特征向量。待分类文本为：请问可以开发票。其分词结果为：'请问'，'可以'，'开'，'发票'。然后，将该分词结果与前述的样本及词列表对比并转化为特征向量表示为：

predVecNum＝[0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。

然后，基于该特征向量及训练文本集中每一个分词的每一种类型的条件概率，分别采用N种分类算法计算每一种分类类型的评分t_n。

本实施例中对于分类算法的具体类型及分类算法的数量(N)并不加以限定，数量可以是两种或两种以上。作为一种优选，本实施例中的分类算法至少包括贝叶斯算法及TFIDF算法。

需要说明的是，贝叶斯算法及TFIDF算法为本领域的常规技术手段且并非本发明的重点，故此处不作详述。

作为一种优选，当采用贝叶斯算法计算每一种分类类型的评分t_n时，考虑到计算获得的贝叶斯评分数值很小，不利于后续计算，故优选对贝叶斯算法结果取对数后获得对数贝叶斯值作为贝叶斯算法评分t_n，以便于后续计算，使计算更方便，且能提高该分类方法的分类速度。

本实施例中，当采用TFIDF算法计算每一种分类类型的评分t_n时，至少包括如下子步骤：

根据训练文本集及TFIDF算法得出TFIDF的向量；

将TFIDF的向量作为输入，通过神经网络计算每一种分类类型的评分t_n。

S2、将属于同一种分类类型的N个评分t_n进行加权融合，获得每一种分类类型的最终评分T_m。

本实施例包括两种类型：0、1，采用两种算法计算评分：贝叶斯算法及TFIDF算法。针对0类：采用贝叶斯算法获得的评分为t₁，采用TFIDF算法获得的评分为t₂，且每一算法相应的加权系数分别为a₁、b₁。故0类的最终评分T₀＝a₁*t₁+b₁*t₂，且a₁₊b₁＝1。同样地，1类的最终评分T₁＝a₁'*t₁'+b₁'*t₂'，且a₁'₊b₁'＝1。

本实施例中的加权系数a、b的实际大小可以根据每一算法的分类准确性进行动态调整，由此能进一步提高该分类方法的准确性。示例性的，经计算：

为0类的最终评分是：P(0|“请问，可以，开，发票”)＝P(请问|0)P(可以|0)P(开|0)P(发票|0)P(0)/P(“请问，可以，开，发票”)＝2/27*2/27*1/27*1/27*2/5/P(“请问，可以，开，发票”)。

为1类的最终评分是：P(1|“请问，可以，开，发票”)＝P(请问|1)P(可以|1)P(开|1)P(发票|1)P(1)/P(“请问，可以，开，发票”)＝2/31*1/31*1/31*1/31*3/5/P(“请问，可以，开，发票”)。

S3、对M种分类类型的最终评分T_m进行排序，并选出最终评分T_m最高的类型作为待分类文本的最终分类类型。

具体地，将T_m升序或降序设置，并选出最大的最终评分所对应的类型，作为该待分类文本的文本类型。本实施例中优雅的结合了贝叶斯算法和神经网络算法两种分类算法，使该方法更加适合文本分类的场景，相比于现有技术，仅增加了一种算法不至于对分类的速度产生明显的影响，而采用两种算法相结合，则可以在一定程度上提高文本分类的准确性；

本实施例还通过基于已有并完成分类的样本获取的训练文本集，作为分类参照，并参与后续评分t_n的计算，能进一步提高该文本分类方法的准确性。

实施例二

为执行上述实施例一中的一种文本分类方法，本实施例提供一种与之对应的文本分类装置100，如图2所示，该装置100至少包括：

第一计算模块1，用于基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分t_n，M≥2，N≥2，n＝M*N；

第二计算模块2，用于将属于同一种分类类型的N个评分t_n进行加权融合，获得每一种分类类型的最终评分T_m；

排序筛选模块3，用于对所述M种分类类型的最终评分T_m进行排序，并选出最终评分T_m最高的类型作为所述待分类文本的最终分类类型。

所述装置100还包括：训练文本集获取模块4；

所述第一计算模块1至少包括：

第一计算子模块11，用于分别计算预先获取的训练文本集中每一个分词的每一类型的条件概率；

特征向量获取子模块12，用于获取待分类文本的特征向量；

第二计算子模块13，利用所述训练文本集的条件概率与待分类文本的特征向量分别计算所述待分类文本采用每一种分类类型分类时的评分t_n。

所述训练文本集获取模块4至少包括：

第一分词子模块41，用于将样本集中的每一文本样本进行分词获得第一分词结果；

预分类子模块42，用于对所述每一文本样本进行预分类；

生成子模块43，用于基于所述第一分词结果生成样本集词列表；

第一处理子模块44，用于将每一文本样本的第一分词结果与所述样本集词列表对比，并以所述样本集词列表中是否存在所述第一分词结果中的分词进行分类，将所述样本集表示成向量形式，并作为训练文本集。

所述特征向量获取子模块12至少包括：

第一分词单元121，用于对所述待分类文本进行分词获得第二分词结果；

第一处理单元122，用于将所述第二分词结果与所述样本集词列表对比，并以所述样本集词列表中是否存在所述第二分词结果中的分词进行分类，获得所述待分类文本的特征向量。

所述第二计算子模块13至少包括策略增加单元131，用于对所述条件概率的值进行策略增加，以使每一个分词的每一类型的条件概率均大于0，且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。

所述第二计算子模块13还包括：贝叶斯算法单元132与TFIDF算法单元133。

在一些较佳的实施方式中，所述TFIDF算法单元133至少包括：

需要说明的是：上述实施例提供的文本分类装置在触发文本分类装置业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的一种文本分类装置与实施例一提供的一种文本分类装置方法的实施例属于同一构思，即该装置是基于该方法的，其具体实现过程详见方法实施例，这里不再赘述。

实施例三

对应上述方法和装置，本申请实施例五提供一种计算机系统，包括：

一个或多个处理器；以及

基于预先设置的M种分类类型，分别采用N种分类算法计算待分类文本的每一种分类类型的评分t_n，M≥2，N≥2；

其中，图3示例性的展示出了计算机系统的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CXU(Central Xrocessing Unit，中央处理器)、微处理器、应用专用集成电路(AXXlication SXecific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521，用于控制计算机系统1500的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器1523，数据存储管理系统1524，以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的数据下，即可以理解并实施。

尽管已描述了本发明实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文本分类方法，其特征在于，所述方法至少包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述分别采用N种分类算法计算待分类文本采用每一种分类类型分类时的评分t_n之前，还包括：获取训练文本集；

获取待分类文本的特征向量；

3.根据权利要求2所述的方法，其特征在于，获取训练文本集具体包括如下子步骤：

基于所述第一分词结果生成样本集词列表；

4.根据权利要求3所述的方法，其特征在于，所述获取待分类文本的特征向量，包括：

对所述待分类文本进行分词获得第二分词结果；

5.根据权利要求4所述的方法，其特征在于，对所述条件概率的值进行策略增加，以使每一个分词的每一类型的条件概率均大于0，且所述训练文本集中每一个分词针对同一类型的增加后的条件概率和为1。

6.根据权利要求1～5任意一项所述的方法，其特征在于，所述分类算法至少包括贝叶斯算法及TFIDF算法。

7.一种文本分类装置，其特征在于，所述装置至少包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：训练文本集获取模块；

所述第一计算模块至少包括：

特征向量获取子模块，用于获取待分类文本的特征向量；

9.根据权利要求8所述的装置，其特征在于，所述训练文本集获取模块至少包括：

预分类子模块，用于对所述每一文本样本进行预分类；

10.一种计算机系统，其特征在于，包括：

一个或多个处理器；以及