CN112215002A

CN112215002A - 一种基于改进朴素贝叶斯的电力系统文本数据分类方法

Info

Publication number: CN112215002A
Application number: CN202011203845.2A
Authority: CN
Inventors: 陈松波; 郭创新
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-12

Abstract

本发明公开了一种基于改进朴素贝叶斯的电力系统文本数据分类方法，该方法首先获取电力违章操作文本及对应类别，然后对文本数据进行预处理得到特征字典并生成特征向量，再根据特征向量构建分类模型，最后利用分类模型预测待分类文本。本发明可以直接应用于电力系统的原始文本数据，快速、准确的将不同类型的文本分类区分开来；具有步骤简单，时延小，可靠性高等特点；对于不同部门的不同类型的电力文本数据，都可以进行及时有效的检测。

Description

一种基于改进朴素贝叶斯的电力系统文本数据分类方法

技术领域

本发明属于电力系统文本分类的领域，尤其涉及一种基于改进朴素贝叶斯的电力系统文本数据分类方法。

背景技术

为确保电力系统安全运行，供电部门每年都要进行安全大检查，记录违规行为。电力文本数据具有的数据体量大、类型丰富、信息密度低、更新速度快的特征。然而，手工分析这些数据将耗费大量的人力成本。因此，对文本数据进行预处理，如文本分类具有重要的现实意义。

文本分类是将一组输入文本划分为两个或多个类，其中每个文本可以属于一个或多个类。采用基于机器学习的方法，对标注文本进行自动分类训练，具有较高的分析能力。目前，主要的机器学习方法包括传统朴素贝叶斯(Conventional

Bayes,CNB)，决策树(Decision Tree,DT)，K近邻(K-nearest neighbor,KNN)和支持向量机(Support VectorMachine,SVM)。

目前，关于英语文本分类的研究很多。相对而言，中文文本分类由于起步晚、难度大，仍处于起步阶段。中文文本分类的难点在于文本的预处理和分类器的改进，与英文文本相比，中文文本没有如英文单词之间的空格以区分两个单词，分词难度较大，如“南京市长江大桥”可以被分为“南京市/长江大桥”或“南京/市长/江大桥”，不同分词方法将引起歧义。此外，文本作为一种非结构数据，本身存在诸多难点需要克服。文本作为语言的一种表示形式以及种类多样，不同语种的语法不同，无统一且机器可理解的形式与规则。从语言学的角度看，文本本身存在诸多语言学现象，使得理解过程中容易出现歧义和模糊，为机器理解增添难度。因此，如何提高文本分类的准确性是中文文本分类的关键。

在文本分类中，文本通常被表示为计算机输入的特征向量。该方法易于实现，对文本内容的表达能力强，但文本的矢量化会带来高维的问题，随着文本数量的增加而加剧，高维问题主要是由于特征空间中的特征项过多，高维度的运算一方面会增加分类计算的复杂度，另一方面会影响分类精度。这一问题通常通过去掉部分停用词(如数字，介词等)和采用更具代表性的词作为特征词来解决。

传统上，TF-IDF(term frequency–inverse document frequency)算法是一种基于统计的计算方法，全称是词频-逆文档频率，通常用于评估文档集中单词对文档的重要性。

为了解决上述问题，本发明采用JIEBA分词法对中文文本进行分词处理，并改进了传统的TF-IDF算法，结合改进朴素贝叶斯算法(Improving

Bayes,INB)，提出了一种基于改进词频-逆文档频率(Improving Term Frequency-Inverse Document Frequency,ITF-IDF)的朴素贝叶斯分类方法。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于改进朴素贝叶斯的电力系统文本数据分类方法。本发明准确度高、可靠性高，且直接作用于电力系统原始文本数据。

本发明的目的是通过以下技术方案来实现的：一种基于改进朴素贝叶斯的电力系统文本数据分类方法，包括以下步骤：

(1)获取电力违章操作文本数据，标记对应的违章操作类别；

(2)根据文本类型特征进行数据预处理：利用结巴分词工具将步骤(1)获取的文本进行分词，再去除停用词得到特征字典；

(3)将步骤(1)获取的文本分别与步骤(2)得到的特征字典进行比较生成d维特征向量；所述d维特征向量的长度为特征字典中的特征词汇个数d，元素为文本中各特征词汇出现次数；

(4)构建分类模型，输入为步骤(3)生成的d维特征向量，模型如下：

其中，A表示文本，c_i为文本A的分类标签，P(c_i|A)是文本A的分类标签为c_i的概率；P(c_i)是c_i类标签的概率分布；a_j是文本A中出现的第j个特征词汇，j＝1～k，k是该文本中特征词汇个数；P(a_j|c_i)表示分类标签为c_i的文本中单词a_j出现的概率；w_ij为权重:

其中，ITF_ij表示特征词汇a_j在c_i类文本中出现次数与除了a_j的所有特征单词在文本中出现次数的比例，IIDF_ij表示c_i类文本中包含特征词汇的文本数与不包含特征词汇的文本总数的比率：

其中，K是调整因子，m_ci是c_i类文本的数目，n_zj是第z个c_i类文本中a_j出现的次数，const是常量；Numd(j,i)是包含a_j的c_i类文本的数量。

(5)将待分类电力系统文本数据输入步骤(4)构建的分类模型，计算出文本属于不同分类c_i的概率集合P(C|A)，集合中的最大值对应的类别标签c_i是模型预测的违章操作类别；其中，C为c_i的集合，P(C|A)为P(c_i|A)的集合。

进一步地，所述违章操作类别包括人员行为违章、工器具违章、安全活动违章、监管违章和两票违章。

本发明的有益效果是：

(1)本发明相对于传统的文本分类方法例如朴素贝叶斯、逻辑回归、支持向量机等，其准确率较高，因此本发明具有实用性好的特点。

(2)在实际应用中，本发明对于训练好的模型，从文本输入到给出分类结果只需要几毫秒，因此本发明具有时效性强的特点。

(3)本发明对于不同的文本数据类型，都可以通过同样的模型结构，利用改进朴素贝叶斯的方法得出分类结果，因此本发明较为灵活；对于电力系统不同部门的文本数据，本发明都能有效的进行分类。

(4)传统的文本分类方法例如支持向量机，在二分类问题上比较有效，但是对于多分类问题，表现不如改进朴素贝叶斯；本发明对于电力系统文本多分类问题仍旧适用，并且具有较高的准确率；因此，本发明提出的基于改进朴素贝叶斯的电力系统文本分类方法可靠性高。

附图说明

图1为电力公司违章数据分布示意图；

图2为不同分类方法LR，SVM，CNB，INB于电力文本数据的分类效果图。

具体实施方式

一种基于ITF-IDF权重和改进朴素贝叶斯的电力系统文本数据分类方法，能够以较高的准确率和较快的分类速度将电力系统中的违章数据进行分类，包括以下步骤：

(1)输入电力违章操作文本数据，将其分为训练数据和验证数据，标记对应的违章操作分类；其中，将80％随机抽取为训练数据，其余20％为测试验证数据。

(2)根据文本类型特征进行数据预处理：对于训练数据，先利用JIEBA结巴分词工具将文本进行分词，再通过去除停用词技术去除停用词得到特征字典。

(3)将训练数据和测试数据分别与特征字典进行比较，生成d维特征向量，将各文本数据以d维特征向量的形式作为分类模型的输入；所述d维特征向量的长度为特征字典词汇数d，元素为文本中对应词汇出现次数。

(4)根据训练数据及对应的违章操作分类，采用基于改进词频-逆文档频率ITF-IDF的改进朴素贝叶斯算法得到分类模型：

其中，w_ij是ITF-IDF的权重；ITF_ij表示特征词汇a_j在c_i类文本中出现次数与除了a_j的所有特征单词在文本中出现次数的比例，IIDF_ij表示c_i类文本中包含特征词汇的文本数与不包含特征词汇的文本总数的比率；c_i是测试数据对应的标签，A是测试文本数据，P(c_i|A)是文档A为标签c_i的概率；P(c_i)是标签c_i的概率分布，即训练数据中标签c_i出现的概率；k是测试文本数据的特征数目；a_j是文档A中的某个特征单词，P(a_j|c_i)是标签c_i中包含单词a_j的概率，即训练数据中分类标签为c_i的文本中单词a_j出现的概率；n_zj是文档z中a_j出现的次数，根据步骤(3)生成的d维特征向量得到；m_ci是c_i类文档的数目，const是等于1的常量，防止ITF_ij＝0；K是为了防止ITF_ij＜＜1导致分类器精度降低的调整因子；Numd(j,i)是包含a_j的c_i类文档的数量，sumNumd(i)是c_i类文档的总数；M是防止IIDF_ij＜0的常数。

(5)将测试数据输入步骤(4)得到的分类模型，计算出文档属于c_i的概率；然后根据贝尔斯决策理论(Bayes Decision Theory)，P(c_i|A)的最大值对应着c_i是A所属的文档类别。

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本实施例基于一种结合ITF-IDF权重的改进朴素贝叶斯电力系统文本分类算法，包括以下步骤：

(1)输入由中国南方电网清远供电局提供的电力违章操作文本数据，具体的电力违章操作分类包括人员行为违章、工器具违章、安全活动违章、监管违章、两票违章，每类的数量如图1所示；随机抽取80％为训练数据，其余20％为测试验证数据。

(2)对于训练数据，先利用JIEBA分词将文本进行分词，再通过除去部分停用词得到特征字典。

(3)将训练数据和测试数据分别与特征字典进行比较，生成(0,1)的特征向量。

(4)采用基于ITF-IDF的改进朴素贝叶斯算法得到分类模型。

TF_ij算法是计算单词i在文档j中出现的频率，基本思想是一个单词在文档中出现的次数越多，表达文档的能力就越强。

其中，k是文档中单词顺序，n_kj是文档中的总单词个数；n_ij是文档j中单词i出现的次数。

IDF_i算法是计算一个单词i在文档集中出现的文档数量。

其中，log()表示以10为底取对数；|D|是文档集中的文档总数，|D_i|是包含单词i的文档数。

TF-IDF算法由TF和IDF两部分组成，TF-IDF是用来衡量文档集中某个词的重要性的，对分类不是很具体。为此，本发明提出了改进的ITF-IDF算法来提高分类器的性能。

ITF_ij由a_j在c_i类文档中出现的次数和除a_j以外的所有功能项的数目表示，这意味着c_i在所属标签类文本中出现的次数越多，就越代表j类文档，计算公式为：

其中，K是调整因子，m_ci是c_i类文本的数目，n_zj是文本z中a_j出现的次数，const是等于1的常量。

IIDF_ij是c_i类文档中包含a_j的文档数与不包含a_j的文档总数的比率，这意味着越高的IIDF，a_j的分布越不均匀，计算公式为：

其中，Numd(j,i)是包含a_j的c_i类文本的数量，m_ci是c_i类文本的总数，M是常数。

将朴素贝叶斯的公式(1)结合ITF-IDF，进一步改进为公式(2)：

其中，w_ij是ITF-IDF的权重；根据公式(1)和(2)，分别计算出文档属于c_i的概率；然后根据贝叶斯决策理论，P(c_i|A)的最大值对应着c_i是A所属的文档类别。

(5)将测试数据A输入至模型，根据上述公式可以计算出文档属于c_i的概率，且P(c_i|A)的最大值对应的c_i是A所属的类别文档。

表1和图2显示了各种分类方法对电力系统违章数据的分类效果。其中，Acc用于描述在输入测试数据中被正确分类的概率。F1用于综合反映整体的准确指标。两项指标的数值越高，表示该方法的效果越好。CNB表示传统贝叶斯分类器；INB表示改进朴素贝叶斯分类器。

表1：传统贝叶斯分类与本发明的改进朴素贝叶斯分类器效果比较

结果表明，本发明方法比传统的朴素贝叶斯方法具有更好的性能，验证了该方法的有效性。在不损失一般性的前提下，我们还将该方法与逻辑回归(LR)、支持向量机(SVM)进行了比较。不同方法的预测准确率如图2所示，本发明所提方法的准确率分别提高了3.96％(CNB)，7.9％(SVM)，9％(LR)。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于改进朴素贝叶斯的电力系统文本数据分类方法，其特征在于，包括以下步骤：

(1)获取电力违章操作文本数据，标记对应的违章操作类别。

(2)根据文本类型特征进行数据预处理：利用结巴分词工具将步骤(1)获取的文本进行分词，再去除停用词得到特征字典。

(3)将步骤(1)获取的文本分别与步骤(2)得到的特征字典进行比较生成d维特征向量；所述d维特征向量的长度为特征字典中的特征词汇个数d，元素为文本中各特征词汇出现次数。

其中，A表示文本，c_i为文本A的分类标签，P(c_i|A)是文本A的分类标签为c_i的概率；P(c_i)是c_i类标签的概率分布；a_j是文本A中出现的第j个特征词汇，j＝1～k，k是该文本中特征词汇个数；P(a_j|c_i)表示分类标签为c_i的文本中单词a_j出现的概率；w_ij为权重：

2.如权利要求1所述基于改进朴素贝叶斯的电力系统文本数据分类方法，其特征在于，所述违章操作类别包括人员行为违章、工器具违章、安全活动违章、监管违章和两票违章等。