CN110598192A

CN110598192A - 一种基于邻域粗糙集的文本特征约简方法

Info

Publication number: CN110598192A
Application number: CN201910571271.5A
Authority: CN
Inventors: 谢珺; 段利国; 郝晓燕; 梁凤梅; 续欣莹; 靳红伟
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-12-20

Abstract

本发明涉及一种基于邻域粗糙集的文本特征约简方法，包括以下步骤：将进行特征简约的文本进行预处理；其中预处理的方式至少包括中文分词、去停用词；用TF‑IDF算法计算预处理后文本中特征词项的权值，并构造文本决策系统；定义邻域，并求出每个词频下的邻域，判断并输出正域，从中寻找最大正域；根据最大正域计算词频重要度，如果词频重要度满足预设条件，则放入约简集合。通过本发明，提高了邻域粗糙集在文数据中的约简精度，改进邻域的计算方法，构建新的邻域关系，更好的刻画词项之间的关系，使得约简快速准确。

Description

一种基于邻域粗糙集的文本特征约简方法

技术领域

本发明涉及文本处理技术领域，更具体地说，涉及一种基于邻域粗糙集的文本特征约简方法。

背景技术

随着数字信息技术的迅猛发展，在大数据的浪潮下，互联网数据急速膨胀，网络文学、网络新闻、博客、微博等为代表的长文本快速增长，互联网文本数量庞大，获取方便，同时蕴含丰富的信息内容。为了快速找到自己想要了解的新闻内容，需要文本挖掘技术准确的挖掘出新闻信息要表达的核心内容，以及词项之间隐藏的深层含义。文本特征提取是文本挖掘的基本任务，文本特征提取的准确与否直接影响之后文本聚类、推荐算法等算法的性能。邻域粗糙集是常用的特征提取算法之一，主要作用是数据的约简，因其不需要先验知识而保持算法的客观性，以及强大的约简功能广泛的应用于各个领域。邻域粗糙集是根据邻域关系对数据进行划分，并不具有严格的等价关系，同时，数据属性之间的关系往往不是独立的，因此也会影响约简的结果。

在语料库中，每个词的出现包含不同的信息。信息论上由不确定性的大小来衡量每个词包含的信息量，不确定性越大，信息量也就越大；而从词频的角度来说，每个词出现的次数有显著的差异，其重要度也不同。对于给定的文本，每个句子当中词和词之间还存在依存关系，包括从属、并列、递进等关系，仅从信息量和词频的角度不足以准确的表示文本所要表达的含义，因此，语义关系往往不能忽略。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于邻域粗糙集的文本特征约简方法。

本发明解决其技术问题所采用的技术方案是：构造一种基于邻域粗糙集的文本特征约简方法，包括：

将进行特征简约的文本进行预处理；其中预处理的方式至少包括中文分词、去停用词；

用TF-IDF算法计算预处理后文本中特征词项的权值，并构造文本决策系统；

定义邻域δ-，并求出每个词频下的邻域，判断并输出正域，从中寻找最大正域；

根据最大正域计算词频重要度，如果词频重要度满足预设条件，则放入约简集合。

其中，构造文本决策系统为：

TDS＝(TU,TC∪D，V,f)，其中，TU＝D₁∪D₂∪...∪D_n，词频属性子集B＝{a₁,a₂,...a_n}，词频矩阵中且i,j∈n，定义x,y的在词频向量下的邻域δ-为：邻域半径为δa_i。

其中，预设的词频重要度满足条件为：

属性重要度参数η的计算方法如下，将属性集合与约简集合的差值应该控制在指定范围内，从而控制正域的选择，提高约简效率，θ是一个调节参数；

其中，θ为调节参数。

其中，TF-IDF是以特征词项在文档中出现的次数与包含该词项的文档数之比作为该词的权值，具体计算公式如下：

其中，t_j表示文档中特征词项t的词频，N表示文档总数，n_j表示包含词项t的文档数。

其中，词频重要度的计算公式为：

其中，如果词频重要度满足预设条件，则将词频放入约简集合RED＝RED∪TC_K；否则记录K值，并令RED＝RED+TC_K,S＝S-POS_K，再次计算正域及词频重要度，判断满意度是否满足预设条件。

区别于现有技术，本发明的基于邻域粗糙集的文本特征约简方法包括以下步骤：将进行特征简约的文本进行预处理；其中预处理的方式至少包括中文分词、去停用词；用TF-IDF算法计算预处理后文本中特征词项的权值，并构造文本决策系统；定义邻域δ-，并求出每个词频下的邻域，判断并输出正域，从中寻找最大正域；根据最大正域计算词频重要度，如果词频重要度满足预设条件，则放入约简集合。通过本发明，提高了邻域粗糙集在文数据中的约简精度，改进邻域的计算方法，构建新的邻域关系，更好的刻画词项之间的关系，使得约简快速准确。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明提供的一种基于邻域粗糙集的文本特征约简方法的流程示意图；

图2是本发明提供的一种基于邻域粗糙集的文本特征约简方法的算法结构示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

如图1所示，图1是本发明提供的一种基于邻域粗糙集的文本特征约简方法，包括：

S110：将进行特征简约的文本进行预处理；其中预处理的方式至少包括中文分词、去停用词。

在本发明中，待处理的文本为“哈工大停用词词库”、“百度停用词表”等各种停用词表。对“哈工大停用词词库”、“百度停用词表”等各种停用词表整理后，使用结巴分词对文本进行分词，得到“文本-词项”矩阵。

S120：用TF-IDF算法计算预处理后文本中特征词项的权值，并构造文本决策系统。

TF-IDF是以特征词项在文档中出现的次数与包含该词项的文档数之比作为该词的权值，具体计算公式如下：

构造文本决策系统TDS＝(TU,TC∪D，V,f)，其中，TU＝D₁∪D₂∪...∪D_n，词频属性子集B＝{a₁,a₂,...a_n}，词频矩阵中且i,j∈n，初始化词频约简集合正域POS_B(D)＝0。

S130：定义邻域δ-，并求出每个词频下的邻域，判断并输出正域，从中寻找最大正域。

定义邻域δ-为：邻域半径为δa_i对属性子集B求解协方差矩阵v，计算公式如下：

并求解其逆矩阵v^-1；

根据公式求解邻域ΔB(X,Y)；

根据公式δB_i(x_i)＝{x|x∈U,Δ(x,x_i)≤δa_i}，求出每个词频下的邻域；δB_i(x_i)是每个词频下的邻域，δa_i为邻域半径；

根据公式POS_B(D)＝N _BD判断并输出正域，寻找最大正域POS_K(D)。

S140：根据最大正域计算词频重要度，如果词频重要度满足预设条件，则放入约简集合。

根据公式得出词频重要度；

如果词频TC_K重要度满足公式

则放入约简集合RED＝RED∪TC_K，θ是一个调节参数，根据数据集的不同，设定不同的参数选择正域；否则记录K值，RED＝RED+TC_K,S＝S-POS_K，再次寻找最大正域POS_K(D)并输出约简结果RED。图2所示为本发明的算法结构图。

在本发明的实施例中，对UCI数据集中选取4组数据进行实验。选取邻域粗糙集常用的三种计算距离的方法，在这4组数据中分别进行对比，聚类精度、运行时间和属性个数。聚类选用K-means聚类算法，邻域半径取0.125。表1为UCI实验数据表，实验结果如下表所示。

表1 UCI数据集

表2聚类精度对比(％)

表2显示不同距离的聚类精度，虽然由于数据集的不同，不同距离对聚类结果的效果优次稍有差别，但是总体来看，邻域优于1-范数，2-范数次之，无穷范数效果稍差，2-范数距离就是两属性之间的最短距离，忽略了属性之间的联系，不能只用最短来衡量属性间的距离，无穷范数距离为两属性坐标数值差的最大值，属于空间距离，而本实验计算的是矩阵，因此结果稍差，1-范数距离计算的是投影距离，邻域计算的是属性间的协方差，对属性之间距离关系描述更精准。

表3约简运行时间对比(s)

表3显示运行时间对比，可以看出，随着特征属性的增加，时间在加长，Mess数据集对象数最多，但是运行时间并不是最长的，Musk数据集对象数只有Mess的一半，特征数却是Mess的近十倍，运行时间比Mess长了近4倍，可以看出，决定约简运行时间的因素主要是特征数量。邻域在运行时间方面优势并不明显，有几个数据集显示比1-范数要长，可能是数据协方差矩阵计算消耗了过多的时间。

表4约简后属性个数对比

由实验数据可以看出，以上4种不同的计算距离的方法，因其计算方式的不同对属性约简的结果有着不同的影响。由表4显示属性个数约简结果，邻域、1-范数较好，2-范数次之，无穷范数效果稍差，表4显示无穷范数属性个数最多，原因是由于1-范数、2-范数和无穷范数计算的邻域大小不同，使之对论域中所有对象的粒化程度各不相同，无穷范数邻域为正方形，较1-范数和2-范数的邻域偏大，导致对属性集合的粒化准确度稍差，邻域是基于协方差计算两变量之间的距离，同时考虑到属性之间的联系，基于属性总体计算邻域，使约简结果更准确。

表5、表6和表7是针对最新文献从聚类精度、运行时间、属性个数这三个方面做出的实验对比，a为ARABFTI算法，b为NWDR算法，c为NRS-MLSFS算法，d为多半径邻域改进算法，e为本发明算法，实验结果如下所示。

表5不同算法聚类精度对比(％)

表6不同算法运行时间对比(s)

表7不同算法属性个数对比

算法a为了提高邻域粗糙集的容错性，引入贝叶斯最小风险决策规则，通过对数据容错性能的分析，利用最小风险决策规则，提高了约简的抗噪能力，得到较好的约简，但是该决策规则只有0和1两项判别，对于处在边界的数据判别不够精准。算法b利用信息权重对依赖度赋予权重，得到对依赖度的加权算法，但是对权值的依赖性较大，而且容易趋近于一，导致约简结果不理想。算法c通过对属性特征进行标记达到分类的目的，该算法需要对属性进行标记并判别，可以看出时间消耗较大，算法d同样是通过对属性进行阈值的设定对约简算法进行改进，结果显示效果一般，且时间消耗较大。

本发明算法主要针对文本语料当中词项之间的依存关系而提出，以上实验已经验证对数值型数据是有效的，下面设计实验验证该算法对文本数据的性能。从复旦测试语料库中按照表8选取4组文本语料，对不同距离的属性约简结果进行对比。

表8文本数据集

表9聚类精度的比较

表10运行时间的比较

表11属性个数对比

由上图可以看出，文本语料属性较多，维度较大，从属性个数和聚类精度来看，约简结果较理想。与UCI数据集实验类似，邻域较其他三种距离效果稍好。可见，基于邻域的属性约简应用于文本语料的有效性，同时，也可以看出邻域更适合文本语料。但是，词项越多运行时间越长，时间代价翻倍增长。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于邻域粗糙集的文本特征约简方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于邻域粗糙集的文本特征约简方法，其特征在于，所述构造文本决策系统为：

3.根据权利要求1所述的基于邻域粗糙集的文本特征约简方法，其特征在于，定义邻域δ-为：邻域半径为δa_i对属性子集B求解协方差矩阵v，计算公式如下：

并求解其逆矩阵v^-1。

4.根据权利要求1所述的基于邻域粗糙集的文本特征约简方法，其特征在于，预设的词频重要度满足条件为：

其中，θ为调节参数。

5.根据权利要求1所述的基于邻域粗糙集的文本特征约简方法，其特征在于，TF-IDF是以特征词项在文档中出现的次数与包含该词项的文档数之比作为该词的权值，具体计算公式如下：

6.根据权利要求1所述的基于邻域粗糙集的文本特征约简方法，其特征在于，词频重要度的计算公式为：

7.根据权利要求6所述的基于邻域粗糙集的文本特征约简方法，其特征在于，如果词频重要度满足预设条件，则将词频放入约简集合RED＝RED∪TC_K；否则记录K值，并令RED＝RED+TC_K,S＝S-POS_K，再次计算正域及词频重要度，判断满意度是否满足预设条件。