CN108197295B

CN108197295B - 基于多粒度属性树的属性约简在文本分类中的应用方法

Info

Publication number: CN108197295B
Application number: CN201810059050.5A
Authority: CN
Inventors: 胡军; 邵瑞; 张清华; 于洪
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2022-03-11
Anticipated expiration: 2038-01-22
Also published as: CN108197295A

Abstract

本发明涉及数据挖掘技术领域，特别涉及一种基于多粒度属性树的属性约简在文本分类中的应用方法，包括：数据获取，并对数据进行初步预处理；构建多粒度属性树；根据多粒度属性树对微博数据约简；保存约简结果，利用数据挖掘算法进行进一步分析；本发明在遍历的过程中，由于子树的删除，子树的叶子结点代表的词语都一次性被删除，避免了再逐一测试子树中其他词语是否可删的操作，减少了解空间的范围，在确保得到约简结果的同时极大提升约简速度。

Description

基于多粒度属性树的属性约简在文本分类中的应用方法

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种基于多粒度属性树的属性约简在文本分类中的应用方法。

技术背景

微博数据是一种文本数据，其特征通常数以亿计，是典型的高维数据。在这些特征中，存在大量的冗余特征，从而使得挖掘效率不高。因此，微博数据挖掘必须通过属性约简去除冗余特征，尽可能减少分类算法的时间与空间复杂度。

基于粗糙集的属性约简方法不需要先验知识，因而被广泛地应用于数据挖掘、机器学习、模式识别等领域。针对粗糙集属性约简速度慢的问题，人们已经提出了多种属性约简的高效算法。文献“倪茂树,时达明与林鸿飞,基于粗糙集属性约简的文本分类.郑州大学学报(理学版),2007(02):第100-103页.”针对文本分类，计算区分矩阵得到属性核，接着穷举出所有不包含核属性的属性组合，放弃了复杂的规则匹配算法，选取包含属性个数最多的一组属性组，其余属性组析取得到筛选的特征。文献“刘毅,基于粗糙集的文本分类技术研究,2007,西南交通大学.第66页.”在文本的向量空间将文本属性权值离散化，得到决策信息表，按照属性重要性从大到小，逐步将条件属性加入到约简中，直到得到约简为止，避免了求核属性的复杂计算。

然而，现有的基于粗糙集的属性约简方法在面对微博数据这样的高维数据时，效率还有待提高。

发明内容

为了解决传统的粗糙集约简流程面对海量文本数据时约简的低效性，本发明提出一种基于多粒度属性树的属性约简在文本分类中的应用方法，如图1，包括：

S1、获取文本数据，并对数据进行初步预处理；

S2、构建多粒度属性树；

S3、根据多粒度属性树对文本数据约简，得到属性约简的数据。

优选的，文本数据获取，并进行初步数据预处理包括：

获取文本数据，若是获取微博的文本数据，可以利用爬虫与微博的应用程序编程接口API获取微博的文本数据；

将文本数据中有主题的数据筛选出来，并将有主题的文本数据的主题提取出来作为这条文本数据的主题；

对有主题的文本数据内容分词，得到组成该数据的一系列词汇，再删除其中的标点符号、停用词、非中文字符；

将有主题的文本数据都如上处理，最终将所有词汇与文本数据的主题构成预处理数据。

优选的，构建多粒度属性树包括：

所有预处理数据的分词结果组成一个大的词汇集合，作为根结点，根结点在树的第0层；

将根结点中的词汇分为m组，每组之间相交为空集，各个分组是根结点的子结点，处于多粒度属性树的第1层；

再将第1层的子结点看作根结点，递归的将每个结点分为m组，以此类推，直到结点不可再分，在分组的过程中，当m大于根结点中的词数，则m取根结点中的总词数。

优选的，根据多粒度属性树对文本数据约简包括：

对多粒度属性树，从根结点开始，以广度优先遍历的顺序判断每个结点的删除导致条件属性的变化，变化后的微博数据的正区域是否与原始数据的正区域相等，若相等，则删除该结点及其子树，继续遍历多粒度属性树；否则则继续进行广度优先遍历。

对于遍历后的多粒度属性树，提取其所有叶子结点代表的属性，这些属性作为要保留的条件属性，与微博主题属性组成新的数据。

本发明在剪枝的过程中，留下的单个词语都被测试过，这与传统的粗糙集约简流程——直接逐一遍历每个词语得到的约简结果达到了同样的目的，所以通过多粒度属性树约简的结果是一个约简而不是近似约简，新提出的约简流程是可行的；本发明在遍历的过程中，由于子树的删除，子树的叶子结点代表的词语都一次性被删除，避免了再逐一测试子树中其他词语是否可删的操作，减少了解空间的范围，在确保得到解的同时极大提升约简速度。

附图说明

图1为本发明基于多粒度属性树的属性约简在文本分类中的应用方法的实施例1流程图；

图2为本发明基于多粒度属性树的属性约简在文本分类中的应用方法的实施例2流程图；

图3为发明的多粒度属性树示意图；

图4为发明的优选实例微博多粒度属性树；

图5为发明的优选实例约简后的多粒度属性树；

图6为发明的优选实例约简后的最终多粒度属性树。

具体实施方式

为了解决传统的粗糙集约简流程面对海量文本数据时约简的低效性，本发明提出一种基于多粒度属性树的属性约简在文本分类中的应用方法，通过构建多粒度属性树，将多个分词集合看做一个树的一个结点，通过遍历树的结点，对树进行剪枝，缩小约简的解空间，避免了必须对每个分词结果测试的流程，极大地提高微博数据的约简速度，本发明的文本数据以微博为例，如图2，具体包括：

S1、获取微博数据，并对数据进行初步预处理；

S2、构建多粒度属性树；

S3、根据多粒度属性树对微博数据约简；

S4、利用其他数据挖掘算法对属性约简的数据进行进一步分析。

所述S1、获取微博数据，并对数据进行初步预处理，包括：

通过selenium自动化测试工具模拟登陆新浪微博，再用Scrapy框架编写微博爬虫，选择一个初始用户的ID爬取其粉丝，再递归爬取粉丝的粉丝，对于已经爬取到的粉丝不进行递归爬取。当爬取到海量用户的ID后，再爬取每个用户微博；保留有以下格式的微博：“#猫#我今天看见一只漂亮的猫咪！”、“#红楼梦#我喜欢红楼梦”；其中“#......#”之间是微博的主题，微博的主题后面是微博内容，本发明实施例中令“#猫#我今天看见一只漂亮的猫咪！”为第一条微博，“#红楼梦#我喜欢红楼梦”为第二条微博。

文本数据构成的决策信息表如表1所示，其中D_m表示第m条文档，{T₁,T₂,…,T_n}表示所有文档的分词结果，T_n表示某一个词语，W_m,n表示第m条文档是否包含T_n这个词汇，包含取值为1，不包含取值为0；Topic m表示第m条文档的主题，为决策属性。

表1形如“#主题#词1词2……”的微博文本决策信息表

文档编号	主题Topic	T<sub>1</sub>	T<sub>2</sub>	…	T<sub>n</sub>
						D<sub>1</sub>	Topic<sub>1</sub>	W<sub>1,1</sub>	W<sub>1,2</sub>	…	W<sub>1,n</sub>
D<sub>2</sub>	Topic<sub>2</sub>	W<sub>2,1</sub>	W<sub>2,2</sub>	…	W<sub>2,n</sub>
						…	…	…	…	…	…
D<sub>m</sub>	Topic<sub>m</sub>	W<sub>m,1</sub>	W<sub>m,2</sub>	…	W<sub>m,n</sub>

将表1中的多个分词集合{T₁,T₂,…,T_n}划分到多粒度属性树的相应结点中，通过遍历树的结点，对树进行剪枝，缩小约简的解空间，将对每个分词结果测试的流程变为对属性集的测试，极大地提高微博数据的约简速度。

对于爬取的数据，提取微博的主题，去除微博内容中所有非中文字符与标点符号与停用词，再用NLPIR汉语分词系统对微博内容进行分词，得到数据如表2：

表2微博数据处理结果1

微博	主题	内容
			第一微博	猫	我，今天，看见，一只，漂亮，猫咪
第二微博	红楼梦	我，喜欢，红楼梦

根据表2，将每个分词结果看做一个属性，一条微博的分词结果若在某属性下出现，则该属性值记为1，否则记为0，得到表2数据：

表3微博数据处理结果2

微博	主题	我	今天	看见	一只	漂亮	猫咪	喜欢	红楼梦
										第一微博	猫	1	1	1	1	1	1	0	0
第二微博	红楼梦	1	0	0	0	0	0	1	1

实际中微博数据上百万条，表3的属性个数往往是千、万、百万的级别。对于这么庞大的数据集，对其进行属性约简后进行挖掘是必须的；属性约简后的数据能够在保留原始数据集分类能力没有大幅减少的情况下，减少数据量，给数据的保存、管理、挖掘提供方便；同时由于保留的属性是优质属性，也能提高数据挖掘结果的精度。

所述S2、构建多粒度属性树，具体包括：

在构建多粒度属性树的过程中，所有有主题微博的分词结果组成一个大的词汇集合，作为根结点，根结点在多粒度属性树的第0层；

如图4，假设根结点中包括N个属性词，将这N个属性词分为m组，多粒度属性树包括根结点和子结点，多粒度属性树一共有

层；本发明实施例中第一条微博和第二条微博一共有8个属性词，此处构建多粒度属性树每一层的分组数量为m＝3，此时多粒度属性树的层数为：

即多粒度属性树一共有三层，如图5所示。

所述S3、根据多粒度属性树对微博数据约简，得到约简数据，具体包括：

对多粒度属性树，从根结点开始计算正区域，以广度优先遍历的方法判断每个结点的删除导致条件属性的变化，变化后的微博数据的正区域是否与根结点的正区域相等，若相等，则删除该结点及其子树，继续遍历多粒度属性树；否则继续进行广度优先遍历。

对于遍历后的多粒度属性树，提取其所有子结点代表的属性，这些属性作为要保留的条件属性，与微博主题属性组成新的数据。

以下是正区域计算说明。

定义决策信息表中，将一条文本数据记为x，如表2，文本数据的条件属性为文本数据的内容，文本数据的决策属性为文本数据的主题，将与x在条件属性C中取值完全相同的其他文本数据与x归为一个类别集合，把该类别集合称为x的等价类，记作[x]；若这个类别中的所有文本的决策属性D完全一致，则将这个类别集合称条为件属性集C相对于决策属性集D的正区域，记作POS_CD。

表3中，若令条件属性集C＝{“我”，“今天”，“看见”，“一只”，“漂亮”，“猫咪”，“喜欢”，“红楼梦”}，决策属性集D＝{“主题”}，本发明实施例中以第一微博和第二微博为样本，故条件属性集C为第一微博和第二微博的并集，则条件属性集C相对于决策属性集D的正区域POS_CD计算如下：

遍历表3，求得[第一微博]＝{第一微博}；同理，[第二微博]＝{第二微博}；

分别遍历[第一微博]、[第二微博]，查表3易知它们各自元素的决策属性相同的，即第一微博中所有元素的“主题”为“猫”，第二微博中所有元素的“主题”为“红楼梦”；故样本第一微博、第二微博在条件属性集C相对于决策属性集D的正区域中，记作POS_CD＝{第一微博，第二微博}，本发明简称条件属性集C的正区域；

若令条件属性集C＝{“我”}时，[第一微博]＝{第一微博，第二微博}，[第二微博]＝{第一微博，第二微博}；

遍历表2分别知[第一微博]、[第二微博]各自元素的决策属性{第一微博：猫，第二微博：红楼梦}，猫与红楼梦不一致，故第一微博与第二微博不在POS_CD，此时条件属性集C的正区域，即POS_CD为

其余情况的正区域计算以此类推。

令C为表3中的所有条件属性，D为决策属性，对于第一条微博和第二条微博，根结点的正区域POS_CD＝P＝{第一微博，第二微博}，令P2为新数据集的正区域，遍历图5的多粒度属性树的第1层的子结点，分别判断c1：“我、今天、看见”、c2：“一只、漂亮、猫咪”、c3：“喜欢、红楼梦”是否可删；在多粒度属性树第二层结点中，POS_c-c1D＝P2＝P，则c1可以删除，同理可知c2可删除；若c3删除，则剩余条件属性为空，不用计算正域即知c3不可删；

由上分析对图5所示的多粒度属性树剪枝，得到如图6所示的多粒度属性树；继续遍历多粒度属性树的第三层结点，令c4＝“喜欢”，c5＝“红楼梦”，根据第1层的正区域计算过程可知c4可删，c5不可删；对其剪枝得如图5的多粒度属性树，其中叶子结点为“红楼梦”，最后将多粒度属性树的叶子结点作为约简结果，约简后的多粒度属性树如图6所示，得到新的决策信息表，见表4。

表4表2的约简结果

微博	主题	红楼梦
			第一微博	猫	0
第二微博	红楼梦	1

表4通过“红楼梦”属性可从表3区别出两条微博所属的主题，这样在保持了原始信息决策表的分类能力不变的情况下，减少了数据量。

利用上述方法，计算了根结点正区域与c1、c2、c4结点的正区域，共计算了4次正区域；传统的约简流程需要计算原始数据集的正区域，每个属性被删除计算一次正区域，直到最后至少保留一个属性，在本实施例中传统的约简流程需要测试每个属性共8次正区域，明显可见本文中的算法在速度上有明显的优势。

优选的，在步骤S3之后还可以包括：

S4、保存约简结果，利用数据挖掘算法进行进一步分析，具体为例如：

对于新的未知主题微博，将其用约简后数据的属性进行表示，再利用最近邻(k-NearestNeighbor，KNN)算法，计算出新微博的主题；

对约简数据集训练word2vec模型，将所有微博用词向量表示，由于去掉了无用的分词结果，可提高词向量表达的准确度；

对约简数据集训练LDA、Plsa、Lsa模型，用来挖掘微博数据集的主题分布，通过判断各微博与某主题的相似度，相似度高的归为一类，最终达到对所有微博聚类与挖掘微博主题的目的。

此处挖掘微博的话题，以根据微博内容预测微博主题为例，在实际中，表4样本以及属性数的数据量仍然非常大，对于没有主题的微博3“红楼梦是曹雪芹写的”，进行分词、去除停用词后得到“红楼梦，曹雪芹，写”；通过表4中的属性表示该微博，则该微博被表示为“红楼梦：1”；利用KNN算法计算微博的主题，其中KNN算法中的参数k的大小是对实际中数据中微博数目的10％取上整，此处k＝1，KNN距离采用欧式距离计算微博之间的距离，例如微博3与第一微博距离为：

与第二微博距离为

0<1，所以该微博的最近邻第二微博，最终预测该微博主题同第二微博：“红楼梦”。

其中，KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多粒度属性树的属性约简在文本分类中的应用方法，其特征在于，包括：

S1、获取文本数据，并对文本进行初步预处理；

S2、构建多粒度属性树，即包括：

将初步预处理获得的文本数据分词结果组成词汇集合，作为根结点，根结点在树的第0层；

再将多粒度属性树第1层的子结点视为根结点，递归的将每个结点分为m组，以此类推，直到结点不可再分，在分组的过程中，当m大于根结点中的词数，则m取根结点中的总词数；

S3、根据多粒度属性树对文本属性数据约简，得到文本约简的数据，即包括：

对多粒度属性树，从根结点开始，以广度优先遍历的顺序判断每个结点的删除是否改变原始数据的正区域，若没有改变，则删除该结点及其子树，继续遍历多粒度属性树；否则继续进行广度优先遍历；

对于遍历后的多粒度属性树，提取其所有子结点代表的属性，这些属性作为要保留的条件属性，与文本数据主题属性组成新的数据。

2.根据权利要求1所述的基于多粒度属性树的属性约简在文本分类中的应用方法，其特征在于，所述文本数据获取，并进行初步数据预处理包括：

获取文本数据；

将文本数据中有主题的数据筛选出来，并将有主题的文本数据的主题提取出来作为这条文本数据的类别；

对有主题的文本数据内容进行分词，得到组成该文本的一系列词汇，再删除其中的标点符号、停用词、非中文字符；

将有主题的文本数据都如上处理，最终将所有词汇与文本数据的主题构成预处理数据结果。

3.根据权利要求1所述的基于多粒度属性树的属性约简在文本分类中的应用方法，其特征在于，广度优先遍历过程包括：

首先从多粒度属性树中选择根结点V0，并访问此根结点；

从根结点V0出发，访问根结点V0的各个未曾访问的孩子结点W1，W2，…，Wk；

然后，依次从W1，W2，…，Wk出发访问各自未被访问的孩子结点；

进行上述步骤，直到多粒度属性树中的所有结点都被访问过，遍历结束。

4.根据权利要求1所述的基于多粒度属性树的属性约简在文本分类中的应用方法，其特征在于，在步骤S3之后还包括：

S4、利用数据挖掘算法对属性约简的数据进行进一步分析，包括利用约简后数据的属性计算未知主题文本的主题。

5.根据权利要求4所述的基于多粒度属性树的属性约简在文本分类中的应用方法，其特征在于，利用约简后数据的属性计算未知主题文本的主题包括：

对于未知主题文本，将其用约简后数据的属性进行表示，再利用K最近邻KNN算法，计算出未知主题文本的主题。