CN110287321A

CN110287321A - 一种基于改进特征选择的电力文本分类方法

Info

Publication number: CN110287321A
Application number: CN201910561443.0A
Authority: CN
Inventors: 邓松; 徐雨楠; 岳东; 朱博宇; 吴新新
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-09-27

Abstract

一种基于改进特征选择的电力文本分类方法是一种为了解决电力领域文本分类问题过程中其文本专业性过强，传统文本分类中使用的特征选择方法难以寻找到电力文本关键词或关键词不够准确的机制。它主要由数据分类预处理器、数据特征处理器、数据分类器、数据分类操作核心等部分组成。本专利使用tf‑idf算法进行一次特征选择后得到的关键词，利用word2vec算法找寻与特征选择中选中关键词词意最相近的一些词语，通过再次利用特征选择算法对这些词语进行二次特征选择，如果这些词语达到了设计的阈值，则将它们也作为文本的关键词使用。

Description

一种基于改进特征选择的电力文本分类方法

技术领域

本发明是一种基于改进特征选择的电力文本分类方法，主要用于电力领域中的文本分类，属于电力系统数据处理领域。

背景技术

从数据结构来看，电网中的数据主要分为两类。第一类是结构化数据，包括电网运行数据、气象数据和状态监测数据等，随着智能电网的建设，大量的智能电表及其配套监测设备投入使用，种类繁多的电力数据被及时的采集。这些数据资料贯穿电力生产的各个环节，它们相互联系、相辅相成，共同构成电力数据。第二类是非/半结构化数据，主要文本、声音、图像、视频等形式存储在数据库中。按照大多数信息化企业的数据管理经验，结构化数据约占数据总量的20％，它们能被关系型数据库处理，但其余80％的半结构化和非结构化数据则很难用关系型数据库表达。非/半结构化数据挖掘一直是信息学科的热点与难点。

现有的一些针对电网方向的数据挖掘都是针对电网中结构化数据的所做研究和应用，而电网中非结构化数据中的文本方向的研究却基本鲜有研究，迄今为止，有关电网中文文本处理的研究报告几乎为零。而电网企业在设备运维管理过程中，会以中文形式记录设备的敌障、缺陷、检修、消缺等信息。这些信息会以文本形式保存在信息管理系统中，不仅反映电力设备个体健康状态的既往史，还蕴藏着丰富的同类设备可靠性信息的技术。中文文本分类一直来被认为是一项重要而困难的技术，尤其当它应用于各专业领域时，需要与专业领域知识密切结合，则更为困难。在机械领域，有学者利用大量的历史设备诊断报告，运用自然语言处理技术对文本进行初始化处理，在实时诊断中将其与设备状态描述文本对比，寻找出最相似的情况，从而提供诊断建议。在电力领域，同样有国外的学者针对纽约电网提出运用机器学习的方法挖掘海量的历史缺陷数据，从而提供电力设备故障预测和预防性维修的依据。

电网数据文本分类主要考虑两个方面的问题：(1)如何解决电网数据文本中其文字具有很强的专业性，导致其分类效果不佳的问题。(2)如何利用解决传统文本中的特征选取方法来解决电力系统文本中特征冗余的问题。

发明内容

本发明的目的就是提供一种基于改进特征选择的电力文本分类方法，来解决电力系统文本分类的问题，本机制是一种策略性方法，通过使用本方法可以使得电力系统文本分类更具有针对性，提升分类的效果。

一种基于改进特征选择的电力文本分类方法，所述电力文本分类方法，使用的设备包括词典构造器、数据分类预处理器、数据特征处理器和数据分类操作核心；所述电力文本分类方法的执行过程主要包含以下步骤：

步骤1：利用电力领域相关文档建立一个电力领域词典；

步骤2：对待处理文本进行预处理，根据停用词表删除其中的一些不影响文本大意的词语；

步骤3：对步骤2中进行过预处理过的文本利用电力领域词典进行分词；

步骤4：对步骤3分过词后的文本利用tf-idf算法寻找文本中的关键词；

步骤5：先对步骤4中得到的关键词与电力领域词典进行对比，留下重复最多的数个关键词；

步骤6：利用word2vec算法对文本进行词向量语义分析，找寻和步骤5中得到的关键词词意最近的一组词；

步骤7：再次利用tf-idf算法，对步骤6中得到的一组词进行计算，如果其结果达到先设计的阈值，则将其也作为关键词；

步骤8：利用文本分类器对训练集进行训练，得出训练好的文本分类器；

步骤9：使用步骤8中训练好的文本分类器对步骤7中的进行过特征选择的待处理文本集进行分类；

步骤10：结束。

进一步地，所述词典构造器，构造一个电力领域词典，这个词典是一系列与电网领域相关的、按照首字母拼音排序的词语组合，在进行分类的时候可以借助该词典进行更加准确地寻找到需要的词语。

进一步地，所述数据分类预处理器，根据电力领域词典和停用词表，对待分类的测试文本进行文本的预处理，去除掉文本的一些无意义的词语与数字符号等。

进一步地，所述停用词表，指那些在文本中经常出现的词汇，例如英文中的‘a’，‘the’等，中文中的‘的’，‘啊’，还有一些数字和符号，这些词汇被收集到一个称为停用词表的集合中。

进一步地，由于电力领域的特殊性，其文本中必然含有大量的数字和符号，本方法中建立一个数据统计知识规则库，是否将某数字或符号填入停用词表设置一个阈值，通过和这个阈值的比较来确认是否将文本中的一些数字和符号加入停用词表。

进一步地，所述数据特征处理器，对进行预处理过后的文本需要进行文本分词的处理，所述数据特征处理器通过tf-idf算法对进行分词后的文本进行特征选择找到能代表文本的关键词，再通过利用word2vec算法计算与关键词词意相近的词，再次使用tf-idf算法对这些相近的词进行计算，找到同样能代表文本的关键词。

进一步地，所述数据分类操作核心包括了在数据进行特征选取后，数据分类时所需的所有具体操作。

进一步地，所述步骤3和步骤7中的tf-idf算法，具体地，设其中a为该词在文章中出现的次数，b文章的总词数，c为语料库的文档总数，e为包含该词的文档数，分母加1是为了避免分母为0的情况出现，计算该词tf×idf的值，选择计算结果最大的一些词语作为关键词。

进一步地，所述步骤4中，使用word2vec算法寻找与tf-idf算法所得关键词最为相近的一些词语，所述word2vec是一个将单词转换成向量形式，计算出向量空间上的相似度，来表示文本语义上的相似度的一个算法；本方法使用word2vec算法中的skip-grim模型，该模型是用一个词语作为输入，来预测它周围的上下文；这个模型的实质就是求两个词语的相似度u_x ^Tv_c，v_c代表目标词语的词向量，u_x代表除目标词语外第x个词语的词向量，其中v_c＝Ww_c，W表示目标词语的矩阵，W是一个d×V的矩阵，其中V代表所有词语的数量，d代表该目标词语的维数，w_c表示目标词语的one-hot向量。

本发明提供的一种基于改进特征选择的电力文本分类方法，解决了电力系统文本分类的问题，主要用于对电力领域文本分类过程中文本的特征选择处理，通过本发明中的模型，可以更加准确的找到能代表电力领域文本的特征向量和文本中能代表文本类别的关键词组。本机制是一种策略性方法，通过使用本方法可以使得电力系统文本分类更具有针对性，提升分类的效果。

附图说明

图1是本发明所述文本分类方法的系统结构图。

图2是本发明所述的文本分类方法的流程示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

一种基于改进特征选择的电力文本分类方法，所述电力文本分类方法，使用的设备包括词典构造器、数据分类预处理器、数据特征处理器和数据分类操作核心。

所述词典构造器，构造一个电力领域词典，这个词典是一系列与电网领域相关的、按照首字母拼音排序的词语组合，在进行分类的时候可以借助该词典进行更加准确地寻找到需要的词语。

所述数据分类预处理器，根据电力领域词典和停用词表，对待分类的测试文本进行文本的预处理，去除掉文本的一些无意义的词语与数字符号等。

所述停用词表，指那些在文本中经常出现的词汇，例如英文中的‘a’，‘the’等，中文中的‘的’，‘啊’，还有一些数字和符号，这些词汇被收集到一个称为停用词表的集合中。

由于电力领域的特殊性，其文本中必然含有大量的数字和符号，本方法中建立一个数据统计知识规则库，是否将某数字或符号填入停用词表设置一个阈值，通过和这个阈值的比较来确认是否将文本中的一些数字和符号加入停用词表。

所述数据特征处理器，对进行预处理过后的文本需要进行文本分词的处理，所述数据特征处理器通过tf-idf算法对进行分词后的文本进行特征选择找到能代表文本的关键词，再通过利用word2vec算法计算与关键词词意相近的词，再次使用tf-idf算法对这些相近的词进行计算，找到同样能代表文本的关键词。

所述数据分类操作核心包括了在数据进行特征选取后，数据分类时所需的所有具体操作。

所述电力文本分类方法的执行过程主要包含以下步骤：

步骤1：利用电力领域相关文档建立一个电力领域词典。

步骤2：对待处理文本进行预处理，根据停用词表删除其中的一些不影响文本大意的词语。

步骤3：对步骤2中进行过预处理过的文本利用电力领域词典进行分词。

步骤4：对步骤3分过词后的文本利用tf-idf算法寻找文本中的关键词。

步骤5：先对步骤4中得到的关键词与电力领域词典进行对比，留下重复最多的数个关键词。

步骤6：利用word2vec算法对文本进行词向量语义分析，找寻和步骤5中得到的关键词词意最近的一组词。

步骤7：再次利用tf-idf算法，对步骤6中得到的一组词进行计算，如果其结果达到先设计的阈值，则将其也作为关键词。

步骤8：利用文本分类器对训练集进行训练，得出训练好的文本分类器。

步骤9：使用步骤8中训练好的文本分类器对步骤7中的进行过特征选择的待处理文本集进行分类。

步骤10：结束。

所述步骤3和步骤7中的tf-idf算法，具体地，设其中a为该词在文章中出现的次数，b文章的总词数，c为语料库的文档总数，e为包含该词的文档数，分母加1是为了避免分母为0的情况出现，计算该词tf×idf的值，选择计算结果最大的一些词语作为关键词。

所述步骤4中，使用word2vec算法寻找与tf-idf算法所得关键词最为相近的一些词语，所述word2vec是一个将单词转换成向量形式，计算出向量空间上的相似度，来表示文本语义上的相似度的一个算法；本方法使用word2vec算法中的skip-grim模型，该模型是用一个词语作为输入，来预测它周围的上下文；这个模型的实质就是求两个词语的相似度u_x ^Tv_c，v_c代表目标词语的词向量，u_x代表除目标词语外第x个词语的词向量，其中v_c＝Ww_c，W表示目标词语的矩阵，W是一个d×V的矩阵，其中V代表所有词语的数量，d代表该目标词语的维数，w_c表示目标词语的one-hot向量。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于改进特征选择的电力文本分类方法，其特征在于：

所述电力文本分类方法，使用的设备包括词典构造器、数据分类预处理器、数据特征处理器和数据分类操作核心；

所述电力文本分类方法的执行过程主要包含以下步骤：

步骤1：利用电力领域相关文档建立一个电力领域词典；

步骤10：结束。

2.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法，其特征在于：所述词典构造器，构造一个电力领域词典，这个词典是一系列与电网领域相关的、按照首字母拼音排序的词语组合，在进行分类的时候可以借助该词典进行更加准确地寻找到需要的词语。

3.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法，其特征在于：所述数据分类预处理器，根据电力领域词典和停用词表，对待分类的测试文本进行文本的预处理，去除掉文本的一些无意义的词语与数字符号等。

4.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法，其特征在于：所述停用词表，指那些在文本中经常出现的词汇，例如英文中的‘a’，‘the’等，中文中的‘的’，‘啊’，还有一些数字和符号，这些词汇被收集到一个称为停用词表的集合中。

5.根据权利要求4所述的一种基于改进特征选择的电力文本分类方法，其特征在于：由于电力领域的特殊性，其文本中必然含有大量的数字和符号，本方法中建立一个数据统计知识规则库，是否将某数字或符号填入停用词表设置一个阈值，通过和这个阈值的比较来确认是否将文本中的一些数字和符号加入停用词表。

6.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法，其特征在于：所述数据特征处理器，对进行预处理过后的文本需要进行文本分词的处理，所述数据特征处理器通过tf-idf算法对进行分词后的文本进行特征选择找到能代表文本的关键词，再通过利用word2vec算法计算与关键词词意相近的词，再次使用tf-idf算法对这些相近的词进行计算，找到同样能代表文本的关键词。

7.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法，其特征在于：所述数据分类操作核心包括了在数据进行特征选取后，数据分类时所需的所有具体操作。

8.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法，其特征在于：所述步骤3和步骤7中的tf-idf算法，具体地，设其中a为该词在文章中出现的次数，b文章的总词数，c为语料库的文档总数，e为包含该词的文档数，分母加1是为了避免分母为0的情况出现，计算该词tf×idf的值，选择计算结果最大的一些词语作为关键词。

9.根据权利要求1所述的一种基于改进特征选择的电力文本分类方法，其特征在于：所述步骤4中，使用word2vec算法寻找与tf-idf算法所得关键词最为相近的一些词语，所述word2vec是一个将单词转换成向量形式，计算出向量空间上的相似度，来表示文本语义上的相似度的一个算法；本方法使用word2vec算法中的skip-grim模型，该模型是用一个词语作为输入，来预测它周围的上下文；这个模型的实质就是求两个词语的相似度u_x ^Tv_c，v_c代表目标词语的词向量，u_x代表除目标词语外第x个词语的词向量，其中v_c＝Ww_c，W表示目标词语的矩阵，W是一个d×V的矩阵，其中V代表所有词语的数量，d代表该目标词语的维数，w_c表示目标词语的one-hot向量。