CN107391772A

CN107391772A - 一种基于朴素贝叶斯的文本分类方法

Info

Publication number: CN107391772A
Application number: CN201710832802.2A
Authority: CN
Inventors: 简海英; 吕磊; 邓丕; 杨谦; 王海; 袁志刚; 陈焕章; 吴红; 张庆; 高峰; 刘悠; 张威
Original assignee: State Grid Sichuan Electric Power Co Ltd
Current assignee: State Grid Sichuan Electric Power Co Ltd
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2017-11-24
Anticipated expiration: 2037-09-15
Also published as: CN107391772B

Abstract

本发明公开了一种基于朴素贝叶斯的文本分类方法，包括：步骤1：将待分类文本利用分词工具形成特征向量，将特征向量与常用词进行比较，去掉待分类文本中无意义的词语；对待分类文本中出现的每一个单词s_i进行权重w_i设置；得到P(w₁,…,w_n)在训练文本集D_i中出现的概率集Q(w₁,…,w_n)；将Q(w₁,…,w_n)中属性相乘得到P(w₁,…,w_n)在训练文本集D_i中出现的先验概率P(w|D_i)；步骤3：训练文本集D_i中的文件数量除以整个训练文本集的总数得到先验概率P(D_i)，P(D_i)*P(x|D_i)得到P(w₁,…,w_n)在训练文本集D_i中的后验概率P(D_i|w)，步骤4：重复步骤2、3，计算出所有后验概率；步骤5：在步骤4的结果中比较出最大的后验概率P(D_i)，D_i类为P(w₁,…,w_n)所属类别，本方法的性能更好，在电力用户诉求文本分类问题中具备很好的实践应用价值。

Description

一种基于朴素贝叶斯的文本分类方法

技术领域

本发明涉及铁路接触网检测领域，具体地，涉及一种基于朴素贝叶斯的文本分类方法。

背景技术

电力客服部门每天都要面对大量用户的诉求信息。传统模式下，接线员将用户的诉求信息通过主观判断进行分类，之后交付给相应部门进行处理。这种方式需要人工逐条查看确认，信息化、智能化严重不足。

电力用户诉求文本分类方面的内容非常丰富，这些内容常见于信息检索、机器学习、知识挖掘与发现、模式识别、智能电网、电力科学与应用等各种国际会议及相关的期刊或杂志。比较有代表性的综述文章有Sebastiani的“Machine Learning in AutomatedText Categorization"和Aas的“Text Categorization:A Survey"。目前最常使用的文本分类算法有：kNN分类算法、朴素贝叶斯分类算法、支持向量机、神经网络等。其中，朴素贝叶斯算法由于其良好的执行速率和低复杂度而成为最为流行的数据挖掘算法之一。然而，朴素贝叶斯算法有一个严重的缺点：假设各属性之间相互独立。但是在电力行业的用户诉求文本中，各属性之间往往存在依赖关系。因此，传统的朴素贝叶斯算法并不能在电力行业的客户诉求信息分类问题中取得理想效果。

发明内容

本发明提供了一种基于朴素贝叶斯的文本分类方法，解决了现有的文本分类算法效果不理想的技术问题，本申请中的方法克服电力用户诉求信息难以满足传统朴素贝叶斯中属性独立假设这一不足，方法的性能更好，在电力用户诉求文本分类问题中具备很好的实践应用价值。

本发明提出的基于朴素贝叶斯的文本分类方法可以解决现有技术中缺点，能够用于对海量用户诉求进行实时的自动舆情分析、舆情汇总，并识别其中的关键舆情信息，及时反馈到相关人员建立应急响应，为正确舆论导向及收集用户意见提供直接支持的一套信息化平台。

为实现上述发明目前，本申请提供了一种基于朴素贝叶斯的文本分类方法，所述方法包括：

步骤1：将待分类文本利用分词工具形成特征向量，将特征向量与常用词进行比较，去掉待分类文本中无意义的词语；对待分类文本中出现的每一个单词s_i进行权重w_i设置；

步骤2：通过对P(w₁,...,w_n)属性w₁,...,w_n在训练文本集D_i中进行查找，计算出P(w₁,...,w_n)在训练文本集D_i中出现的次数集N(y₁,...y_n)，N(y₁,...y_n)属性除以训练文本集D_i中经过剔除无意义词预处理之后关键字的总数量，得到P(w₁,...,w_n)在训练文本集D_i中出现的概率集Q(w₁,...,w_n)；将Q(w₁,...,w_n)中属性相乘得到P(w₁,...,w_n)在训练文本集D_i中出现的先验概率P(w|D_i)，P(w₁,...,w_n)为：待分类文本，w_n为：文本P(w₁,...,w_n中的属性，y_n为：属性w_n在训练文本集D_i中出现的次数；

步骤3：训练文本集D_i中的文件数量除以整个训练文本集的总数得到先验概率P(D_i)，P(D_i)*P(x|D_i)得到P(w₁,...,w_n)在训练文本集D_i中的后验概率P(D_i|w)，P(x|D_i)为：…；

步骤4：重复步骤2、3，计算出所有后验概率；

步骤5：在步骤4的结果中比较出最大的后验概率P(D_i)，D_i类为P(w₁,...,w_n)所属类别。

进一步的，对待分类文本中出现的每一个单词s_i进行权重w_i设置，具体包括：

决策树中没有出现的特征权重设为1；

将最小深度为d的特征权重设为λ是用户给定的正整数；

待分类文本中出现的每一个单词s_i均定义了它的权重w_i：

其中，d_i为s_i的最小深度，w_i没有出现在决策树中时w_i等于1，w_i出现在决策树中时，w_i等于

进一步的，所述方法具体包括：

输入：训练文本库D、测试文本d；

建立一个未修剪二叉树，使用规定的增益比公式作为分割准则，增益比公式(2)如下：

其中，C为待分割数据，H(w_i)为：w_i的信息熵；IG(C，w_i)为C与w_i的基尼不纯度；

遍历决策树，并记录每个词s_i的最小深度d_i(i＝1,2,3,...,m)；

通过公式(1)对计算每个词s_i的权重w_i(i＝1,2,3,...,m)；

通过公式(3)计算测试文档d的P(c)；

先验概率：

其中，j为公式中的计数字母，n为属性个数，m为决策树中词的总数，c_j为文档d的第j个属性；

根据上式(3)，将条件概率公式修改为：

通过公式(4)计算测试文档d的P(s_i|c)；

通过公式(5)预测测试文档的类值c(d)：

S306：返回d的类值c(d)。本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

传统的朴素贝叶斯算法基于一个基本假设：属性之间相互独立。如果这一假设不能达成，则分类器的查全率和查准率将远低于预期。而在电力行业的用户诉求信息中，属性之间关联性强，因此传统朴素贝叶斯算法并不适用。本发明克服电力用户诉求信息难以满足传统朴素贝叶斯中属性独立假设这一不足，提出一种新颖的基于朴素贝叶斯算法的文本分类方法。新方法的性能更好，在电力用户诉求文本分类问题中具备很好的实践应用价值。本方法继承了电力文本特征加权方法的简单性。并且本方法将决策树中没有出现的电力文本特征权重设为1(而不是0)，使得不重要的特征也可以为电力用户文本分类做出贡献。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1是本申请中基于朴素贝叶斯的文本分类方法的流程示意图；

图2为本发明数据设置权重的子流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

请参考图1-图2，本发明的目的是通过以下技术方案来实现电力用户文本分类的，我们将设置电力用户文本内容权重分为以下几个步骤：

S101：树中没有出现的电力文本特征权重设为1。

S102：将最小深度为d的电力文本特征权重设为(λ是用户给定的正整数)。

这样，电力用户文本中出现的每一个单词s_i均定义了它的权重w_i

朴素贝叶斯分类器算法假定各待分类电力用户文本特征向量相互独立。相互独立表明所有特征向量之间的表述没有关联，有利于运算。朴素贝叶斯分类器算法包括以下步骤：

S201：将待分类电力用户文本利用分词工具形成特征向量，之后将特征向量与常用停用词进行比较，去掉电力用户文档中无意义的词语。

S202：通过对P(w₁,...,w_n)属性w₁,...,w_n在电力用户训练文本集D_i中进行查找，计算出P(w₁,...,w_n)在电力用户训练文本集D_i中出现的次数集N(y₁,...y_n)，N(y₁,...y_n)属性分别除以电力用户训练文本集D_i总文本数和电力用户训练文本集中经过剔除无用词去除文本预处理之后关键字的总数量，得到P(w₁,...,w_n)在电力用户训练文本集D_i中出现的概率集Q(w₁,...,w_n)。把Q(w₁,...,w_n)中属性相乘得到P(w₁,...,w_n)在电力用户训练文本集D_i中出现的先验概率P(w|D_i)。

S203：电力用户训练文本集D_i中的文件数量除以整个电力用户训练文本集的总数得到先验概率P(D_i)，P(D_i)*P(x|D_i)得到P(w₁,...,w_n)在电力用户训练文本集D_i中的后验概率P(D_i|w)。

S204：重复步骤2、3，计算出所有后验概率。

S205：在步骤4的结果中比较出最大的后验概率P(D_i)，D_i类就是P(w₁,...,w_n)所属类别。

根据权利1所述的要求的新的基于朴素贝叶斯算法的文本分类方法包括以下步骤：

S301：输入：电力用户训练文本库D、电力用户测试文本d；

S302：建立一个未修剪二叉树(每个词的价值分为零和非零)使用规定的增益比公式作为分割准则，增益比公式如下：

S303：遍历决策树，并记录每个词s_i的最小深度d_i(i＝1,2,3,...,m)

S304：通过公式对计算每个词s_i的权重w_i(i＝1,2,3,...,m)

S305：通过以下公式计算电力用户测试文档d的P(c)；

先验概率：

通过以下公式计算电力用户测试文档d的P(s_i|c)；

根据上式，可以将条件概率公式修改为：

通过以下公式预测电力用户测试文档的类值c(d)

S306：返回d的类值c(d)。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于朴素贝叶斯的文本分类方法，其特征在于，所述方法包括：

步骤3：训练文本集D_i中的文件数量除以整个训练文本集的总数得到先验概率P(D_i)，P(D_i)*P(x|D_i)得到P(w₁,...,w_n)在训练文本集D_i中的后验概率P(D_i|w)，P(x|D_i)为：D_i发生时x发生的概率；

步骤4：重复步骤2、3，计算出所有后验概率；

2.根据权利要求1所述的基于朴素贝叶斯的文本分类方法，其特征在于，对待分类文本中出现的每一个单词s_i进行权重w_i设置，具体包括：

决策树中没有出现的特征权重设为1；

将最小深度为d的特征权重设为λ是用户给定的正整数；

待分类文本中出现的每一个单词s_i均定义了它的权重w_i：

<mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mfrac> <mrow> <mn>1</mn> <mo>+</mo> <mi>&lambda;</mi> </mrow> <msqrt> <msub> <mi>d</mi> <mi>i</mi> </msub> </msqrt> </mfrac> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

3.根据权利要求2所述的基于朴素贝叶斯的文本分类方法，其特征在于，所述方法具体包括：

输入：训练文本库D、测试文本d；

遍历决策树，并记录每个词s_i的最小深度d_i(i＝1,2,3,...,m)；

通过公式(1)对计算每个词s_i的权重w_i(i＝1,2,3,...,m)；

通过公式(3)计算测试文档d的P(c)；

先验概率：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>&delta;</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

根据上式(3)，将条件概率公式修改为：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>f</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <mi>&delta;</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>w</mi> <mi>i</mi> </msub> <msub> <mi>f</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <mi>&delta;</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>m</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

通过公式(4)计算测试文档d的P(s_i|c)；

通过公式(5)预测测试文档的类值c(d)：

<mrow> <mi>c</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>arg</mi> <mi> </mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>&lsqb;</mo> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>W</mi> <mi>i</mi> </msub> <msub> <mi>f</mi> <mi>i</mi> </msub> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

S306：返回d的类值c(d)。