CN110442709A

CN110442709A - 一种基于朴素贝叶斯模型的文本分类方法

Info

Publication number: CN110442709A
Application number: CN201910547226.6A
Authority: CN
Inventors: 肖清林
Original assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Current assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-11-12

Abstract

一种基于朴素贝叶斯模型的文本分类方法，方法步骤包括：收集样本数据，构建训练集和验证集；选出常见的信息关键词，确定特征属性；建立朴素贝叶斯模型；利用训练集对朴素贝叶斯模型进行训练；利用验证集对训练结果进行验证，并校正完善；模型应用。本发明在朴素贝叶斯模型的基础上，对文本进行分类，提高了分类工作准确性和效率性，降低了工作人员的工作量，保证了工作的顺利进行。

Description

一种基于朴素贝叶斯模型的文本分类方法

技术领域

本发明涉及领域，尤其涉及一种基于朴素贝叶斯模型的文本分类方法。

背景技术

朴素贝叶斯分类器发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率，同时朴素贝叶斯模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单，与其他分类方法相比具有最小的误差率。

相关部门在进行工作时，需要对大量文本进行整理分类，工作量大，工作效率低，容易出错，因此亟需一种分类方法。

为解决上述问题，本申请中提出一种基于朴素贝叶斯模型的文本分类方法。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于朴素贝叶斯模型的文本分类方法，本发明在朴素贝叶斯模型的基础上，通过收集样本数据，构建训练集和验证集；选出常见的信息关键词，确定特征属性；建立朴素贝叶斯模型；利用训练集对朴素贝叶斯模型进行训练；利用验证集对训练结果进行验证，并校正完善；模型应用来对文本进行分类，提高了分类工作准确性和效率性，降低了工作人员的工作量，保证了工作的顺利进行。

(二)技术方案

为解决上述问题，本发明提供了一种基于朴素贝叶斯模型的文本分类方法，方法步骤包括：

S1、收集样本数据，构建训练集和验证集；

S2、选出常见的信息关键词，确定特征属性；以党员的性别、年龄、工作时间、工作岗位为特征属性；

S3、建立朴素贝叶斯模型；

S4、利用训练集对朴素贝叶斯模型进行训练；根据确定的特征属性，其中性别记为x1，年龄记为x2，工作时间记为x3，工作岗位记为x3；X代表文本，记为X＝(x1，x2，x3)；用Y表示类别，记为Y＝(c1，c2，c3...cm)；计算并收集每个文本所有属性的联合概率；

S5、利用验证集对训练结果进行验证，并校正完善；

S6、模型应用；计算待分类文本中的所有P(Y/X)，其中P(Y/X)最大项对应的类别Y，即为文本的分类。

优选的，在S1中，采用十折交叉验证方法，每次选取9份文本作为训练集， 1份文本作为验证集。

优选的，在S4中，每个文本所有属性的联合概率计算方法为：

其中P(Y/X)为Y的后验概率，P(Y)为Y的先验概率,P(X)表示特征概率P(X/Y)表示Y类别中X的特征概率。

优选的，在S7中，模型判断的准则为：

本发明的上述技术方案具有如下有益的技术效果：

本发明在朴素贝叶斯模型的基础上，构建训练集和验证集，在训练的同时对模型不断完善，再对文本进行分类，提高了分类工作准确性和效率性，降低了工作人员的工作量，保证了工作的顺利进行。

附图说明

图1为本发明提出的一种基于朴素贝叶斯模型的文本分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于朴素贝叶斯模型的文本分类方法，方法步骤包括：

S1、收集样本数据，构建训练集和验证集；

S3、建立朴素贝叶斯模型；

S5、利用验证集对训练结果进行验证，并校正完善；

在一个可选的实施例中，在S1中，采用十折交叉验证方法，每次选取9份文本作为训练集，1份文本作为验证集。

在一个可选的实施例中，在S4中，每个文本所有属性的联合概率计算方法为：

在一个可选的实施例中，在S7中，模型判断的准则为：

采用上述的一种基于朴素贝叶斯模型的文本分类方法，对三组文本进行分类测试，测试结果如下：

训练文本数	错分类文本数	错分率
			700	5	1.92％
400	6	2.30％
			100	6	2.30％

由测试结果可知，随着训练文本数增加，文本错分率下降，准确率较为理想。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于朴素贝叶斯模型的文本分类方法，其特征在于，方法步骤包括：

S1、收集样本数据，构建训练集和验证集；

S2、选出常见的信息关键词，确定特征属性；

以党员的性别、年龄、工作时间、工作岗位为特征属性；

S3、建立朴素贝叶斯模型；

S4、利用训练集对朴素贝叶斯模型进行训练；

根据确定的特征属性，其中性别记为x1，年龄记为x2，工作时间记为x3，工作岗位记为x3；X代表文本，记为X＝(x1，x2，x3)；用Y表示类别，记为Y＝(c1，c2，c3...cm)；计算并收集每个文本所有属性的联合概率；

S5、利用验证集对训练结果进行验证，并校正完善；

S6、模型应用；

计算待分类文本中的所有P(Y/X)，其中P(Y/X)最大项对应的类别Y，即为文本的分类。

2.根据权利要求1所述的一种基于朴素贝叶斯模型的文本分类方法，其特征在于，在S1中，采用十折交叉验证方法，每次选取9份文本作为训练集，1份文本作为验证集。

3.根据权利要求1所述的一种基于朴素贝叶斯模型的文本分类方法，其特征在于，在S4中，每个文本所有属性的联合概率计算方法为：

4.根据权利要求1所述的一种基于朴素贝叶斯模型的文本分类方法，其特征在于，在S7中，模型判断的准则为：