CN110442709A - 一种基于朴素贝叶斯模型的文本分类方法 - Google Patents
一种基于朴素贝叶斯模型的文本分类方法 Download PDFInfo
- Publication number
- CN110442709A CN110442709A CN201910547226.6A CN201910547226A CN110442709A CN 110442709 A CN110442709 A CN 110442709A CN 201910547226 A CN201910547226 A CN 201910547226A CN 110442709 A CN110442709 A CN 110442709A
- Authority
- CN
- China
- Prior art keywords
- model
- naive bayesian
- text
- denoted
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于朴素贝叶斯模型的文本分类方法,方法步骤包括:收集样本数据,构建训练集和验证集;选出常见的信息关键词,确定特征属性;建立朴素贝叶斯模型;利用训练集对朴素贝叶斯模型进行训练;利用验证集对训练结果进行验证,并校正完善;模型应用。本发明在朴素贝叶斯模型的基础上,对文本进行分类,提高了分类工作准确性和效率性,降低了工作人员的工作量,保证了工作的顺利进行。
Description
技术领域
本发明涉及领域,尤其涉及一种基于朴素贝叶斯模型的文本分类方法。
背景技术
朴素贝叶斯分类器发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率,同时朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单,与其他分类方法相比具有最小的误差率。
相关部门在进行工作时,需要对大量文本进行整理分类,工作量大,工作效率低,容易出错,因此亟需一种分类方法。
为解决上述问题,本申请中提出一种基于朴素贝叶斯模型的文本分类方法。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于朴素贝叶斯模型的文本分类方法,本发明在朴素贝叶斯模型的基础上,通过收集样本数据,构建训练集和验证集;选出常见的信息关键词,确定特征属性;建立朴素贝叶斯模型;利用训练集对朴素贝叶斯模型进行训练;利用验证集对训练结果进行验证,并校正完善;模型应用来对文本进行分类,提高了分类工作准确性和效率性,降低了工作人员的工作量,保证了工作的顺利进行。
(二)技术方案
为解决上述问题,本发明提供了一种基于朴素贝叶斯模型的文本分类方法,方法步骤包括:
S1、收集样本数据,构建训练集和验证集;
S2、选出常见的信息关键词,确定特征属性;以党员的性别、年龄、工作时间、工作岗位为特征属性;
S3、建立朴素贝叶斯模型;
S4、利用训练集对朴素贝叶斯模型进行训练;根据确定的特征属性,其中性别记为x1,年龄记为x2,工作时间记为x3,工作岗位记为x3;X代表文本,记为X=(x1,x2,x3);用Y表示类别,记为Y=(c1,c2,c3...cm);计算并收集每个文本所有属性的联合概率;
S5、利用验证集对训练结果进行验证,并校正完善;
S6、模型应用;计算待分类文本中的所有P(Y/X),其中P(Y/X)最大项对应的类别Y,即为文本的分类。
优选的,在S1中,采用十折交叉验证方法,每次选取9份文本作为训练集, 1份文本作为验证集。
优选的,在S4中,每个文本所有属性的联合概率计算方法为:
其中P(Y/X)为Y的后验概率,P(Y)为Y的先验概率,P(X)表示特征概率P(X/Y)表示Y类别中X的特征概率。
优选的,在S7中,模型判断的准则为:
本发明的上述技术方案具有如下有益的技术效果:
朴素贝叶斯分类器发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率,同时朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单,与其他分类方法相比具有最小的误差率。
本发明在朴素贝叶斯模型的基础上,构建训练集和验证集,在训练的同时对模型不断完善,再对文本进行分类,提高了分类工作准确性和效率性,降低了工作人员的工作量,保证了工作的顺利进行。
附图说明
图1为本发明提出的一种基于朴素贝叶斯模型的文本分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于朴素贝叶斯模型的文本分类方法,方法步骤包括:
S1、收集样本数据,构建训练集和验证集;
S2、选出常见的信息关键词,确定特征属性;以党员的性别、年龄、工作时间、工作岗位为特征属性;
S3、建立朴素贝叶斯模型;
S4、利用训练集对朴素贝叶斯模型进行训练;根据确定的特征属性,其中性别记为x1,年龄记为x2,工作时间记为x3,工作岗位记为x3;X代表文本,记为X=(x1,x2,x3);用Y表示类别,记为Y=(c1,c2,c3...cm);计算并收集每个文本所有属性的联合概率;
S5、利用验证集对训练结果进行验证,并校正完善;
S6、模型应用;计算待分类文本中的所有P(Y/X),其中P(Y/X)最大项对应的类别Y,即为文本的分类。
在一个可选的实施例中,在S1中,采用十折交叉验证方法,每次选取9份文本作为训练集,1份文本作为验证集。
在一个可选的实施例中,在S4中,每个文本所有属性的联合概率计算方法为:
其中P(Y/X)为Y的后验概率,P(Y)为Y的先验概率,P(X)表示特征概率P(X/Y)表示Y类别中X的特征概率。
在一个可选的实施例中,在S7中,模型判断的准则为:
采用上述的一种基于朴素贝叶斯模型的文本分类方法,对三组文本进行分类测试,测试结果如下:
训练文本数 | 错分类文本数 | 错分率 |
700 | 5 | 1.92% |
400 | 6 | 2.30% |
100 | 6 | 2.30% |
由测试结果可知,随着训练文本数增加,文本错分率下降,准确率较为理想。
本发明在朴素贝叶斯模型的基础上,构建训练集和验证集,在训练的同时对模型不断完善,再对文本进行分类,提高了分类工作准确性和效率性,降低了工作人员的工作量,保证了工作的顺利进行。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (4)
1.一种基于朴素贝叶斯模型的文本分类方法,其特征在于,方法步骤包括:
S1、收集样本数据,构建训练集和验证集;
S2、选出常见的信息关键词,确定特征属性;
以党员的性别、年龄、工作时间、工作岗位为特征属性;
S3、建立朴素贝叶斯模型;
S4、利用训练集对朴素贝叶斯模型进行训练;
根据确定的特征属性,其中性别记为x1,年龄记为x2,工作时间记为x3,工作岗位记为x3;X代表文本,记为X=(x1,x2,x3);用Y表示类别,记为Y=(c1,c2,c3...cm);计算并收集每个文本所有属性的联合概率;
S5、利用验证集对训练结果进行验证,并校正完善;
S6、模型应用;
计算待分类文本中的所有P(Y/X),其中P(Y/X)最大项对应的类别Y,即为文本的分类。
2.根据权利要求1所述的一种基于朴素贝叶斯模型的文本分类方法,其特征在于,在S1中,采用十折交叉验证方法,每次选取9份文本作为训练集,1份文本作为验证集。
3.根据权利要求1所述的一种基于朴素贝叶斯模型的文本分类方法,其特征在于,在S4中,每个文本所有属性的联合概率计算方法为:
其中P(Y/X)为Y的后验概率,P(Y)为Y的先验概率,P(X)表示特征概率P(X/Y)表示Y类别中X的特征概率。
4.根据权利要求1所述的一种基于朴素贝叶斯模型的文本分类方法,其特征在于,在S7中,模型判断的准则为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910547226.6A CN110442709A (zh) | 2019-06-24 | 2019-06-24 | 一种基于朴素贝叶斯模型的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910547226.6A CN110442709A (zh) | 2019-06-24 | 2019-06-24 | 一种基于朴素贝叶斯模型的文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110442709A true CN110442709A (zh) | 2019-11-12 |
Family
ID=68428973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910547226.6A Pending CN110442709A (zh) | 2019-06-24 | 2019-06-24 | 一种基于朴素贝叶斯模型的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442709A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309913A (zh) * | 2020-02-26 | 2020-06-19 | 北京慧博科技有限公司 | 通过姓名分析性别的方法 |
CN111506566A (zh) * | 2020-04-22 | 2020-08-07 | 江苏卓易信息科技股份有限公司 | 一种对互联网数据采集结果校验的方法 |
CN112133434A (zh) * | 2020-09-17 | 2020-12-25 | 吾征智能技术(北京)有限公司 | 基于饮食习惯的高血脂辅助诊断系统、设备、存储介质 |
CN112906242A (zh) * | 2021-03-18 | 2021-06-04 | 吉林大学 | 一种基于朴素贝叶斯法与邻近分类法相结合的地球物理建模方法 |
CN113688436A (zh) * | 2020-05-19 | 2021-11-23 | 天津大学 | 一种pca与朴素贝叶斯分类融合的硬件木马检测方法 |
CN115292487A (zh) * | 2022-07-22 | 2022-11-04 | 杭州易有料科技有限公司 | 基于朴素贝叶斯的文本分类方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391772A (zh) * | 2017-09-15 | 2017-11-24 | 国网四川省电力公司眉山供电公司 | 一种基于朴素贝叶斯的文本分类方法 |
CN108062331A (zh) * | 2016-11-08 | 2018-05-22 | 南京理工大学 | 基于终生学习的增量式朴素贝叶斯文本分类方法 |
CN108460080A (zh) * | 2018-01-09 | 2018-08-28 | 南京邮电大学 | 基于特征二维信息增益加权的朴素贝叶斯文本分类方法 |
CN109299255A (zh) * | 2018-09-12 | 2019-02-01 | 东莞数汇大数据有限公司 | 基于朴素贝叶斯的案件文本分类方法、系统和存储介质 |
-
2019
- 2019-06-24 CN CN201910547226.6A patent/CN110442709A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062331A (zh) * | 2016-11-08 | 2018-05-22 | 南京理工大学 | 基于终生学习的增量式朴素贝叶斯文本分类方法 |
CN107391772A (zh) * | 2017-09-15 | 2017-11-24 | 国网四川省电力公司眉山供电公司 | 一种基于朴素贝叶斯的文本分类方法 |
CN108460080A (zh) * | 2018-01-09 | 2018-08-28 | 南京邮电大学 | 基于特征二维信息增益加权的朴素贝叶斯文本分类方法 |
CN109299255A (zh) * | 2018-09-12 | 2019-02-01 | 东莞数汇大数据有限公司 | 基于朴素贝叶斯的案件文本分类方法、系统和存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309913A (zh) * | 2020-02-26 | 2020-06-19 | 北京慧博科技有限公司 | 通过姓名分析性别的方法 |
CN111506566A (zh) * | 2020-04-22 | 2020-08-07 | 江苏卓易信息科技股份有限公司 | 一种对互联网数据采集结果校验的方法 |
CN113688436A (zh) * | 2020-05-19 | 2021-11-23 | 天津大学 | 一种pca与朴素贝叶斯分类融合的硬件木马检测方法 |
CN112133434A (zh) * | 2020-09-17 | 2020-12-25 | 吾征智能技术(北京)有限公司 | 基于饮食习惯的高血脂辅助诊断系统、设备、存储介质 |
CN112906242A (zh) * | 2021-03-18 | 2021-06-04 | 吉林大学 | 一种基于朴素贝叶斯法与邻近分类法相结合的地球物理建模方法 |
CN112906242B (zh) * | 2021-03-18 | 2023-02-28 | 吉林大学 | 一种基于朴素贝叶斯法与邻近分类法相结合的地球物理建模方法 |
CN115292487A (zh) * | 2022-07-22 | 2022-11-04 | 杭州易有料科技有限公司 | 基于朴素贝叶斯的文本分类方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442709A (zh) | 一种基于朴素贝叶斯模型的文本分类方法 | |
CN107067025B (zh) | 一种基于主动学习的文本数据自动标注方法 | |
Marqués et al. | On the suitability of resampling techniques for the class imbalance problem in credit scoring | |
Seiffert et al. | Improving software-quality predictions with data sampling and boosting | |
JP4273359B2 (ja) | 年齢推定システム及び年齢推定方法 | |
CN105574547B (zh) | 适应动态调整基分类器权重的集成学习方法及装置 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN105809123A (zh) | 人脸检测方法及装置 | |
CN104268134A (zh) | 一种主客观分类器构建方法和系统 | |
CN101923648B (zh) | 支持向量机的聚类方法与装置 | |
CN105760888A (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
EP2356588A1 (en) | Electronic document classification apparatus | |
CN104050556B (zh) | 一种垃圾邮件的特征选择方法及其检测方法 | |
CN109240258A (zh) | 基于词向量的汽车故障智能辅助诊断方法和系统 | |
CN107680018A (zh) | 一种基于大数据及人工智能的高考志愿填报系统及方法 | |
CN113362299A (zh) | 一种基于改进YOLOv4的X光安检图像检测方法 | |
CN108256016A (zh) | 基于个人微博的个人异常情绪检测方法及装置 | |
CN105608694A (zh) | 视网膜细胞显微图像分割与计数方法 | |
CN111027744A (zh) | 一种多层级发电厂实时对标优化方法 | |
CN101882136A (zh) | 文本情感倾向性分析方法 | |
CN110688484B (zh) | 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法 | |
CN106650782B (zh) | 用于评价图像信号处理器中实施的分类器的系统和方法 | |
Arbel et al. | Classifier evaluation under limited resources | |
CN107886130A (zh) | 一种基于聚类和相似度加权的kNN快速分类方法 | |
CN109635254A (zh) | 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191112 |
|
RJ01 | Rejection of invention patent application after publication |