CN110598192A - 一种基于邻域粗糙集的文本特征约简方法 - Google Patents

一种基于邻域粗糙集的文本特征约简方法 Download PDF

Info

Publication number
CN110598192A
CN110598192A CN201910571271.5A CN201910571271A CN110598192A CN 110598192 A CN110598192 A CN 110598192A CN 201910571271 A CN201910571271 A CN 201910571271A CN 110598192 A CN110598192 A CN 110598192A
Authority
CN
China
Prior art keywords
neighborhood
word frequency
reduction
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910571271.5A
Other languages
English (en)
Inventor
谢珺
段利国
郝晓燕
梁凤梅
续欣莹
靳红伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201910571271.5A priority Critical patent/CN110598192A/zh
Publication of CN110598192A publication Critical patent/CN110598192A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Abstract

本发明涉及一种基于邻域粗糙集的文本特征约简方法,包括以下步骤:将进行特征简约的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;用TF‑IDF算法计算预处理后文本中特征词项的权值,并构造文本决策系统;定义邻域,并求出每个词频下的邻域,判断并输出正域,从中寻找最大正域;根据最大正域计算词频重要度,如果词频重要度满足预设条件,则放入约简集合。通过本发明,提高了邻域粗糙集在文数据中的约简精度,改进邻域的计算方法,构建新的邻域关系,更好的刻画词项之间的关系,使得约简快速准确。

Description

一种基于邻域粗糙集的文本特征约简方法
技术领域
本发明涉及文本处理技术领域,更具体地说,涉及一种基于邻域粗糙集的文本特征约简方法。
背景技术
随着数字信息技术的迅猛发展,在大数据的浪潮下,互联网数据急速膨胀,网络文学、网络新闻、博客、微博等为代表的长文本快速增长,互联网文本数量庞大,获取方便,同时蕴含丰富的信息内容。为了快速找到自己想要了解的新闻内容,需要文本挖掘技术准确的挖掘出新闻信息要表达的核心内容,以及词项之间隐藏的深层含义。文本特征提取是文本挖掘的基本任务,文本特征提取的准确与否直接影响之后文本聚类、推荐算法等算法的性能。邻域粗糙集是常用的特征提取算法之一,主要作用是数据的约简,因其不需要先验知识而保持算法的客观性,以及强大的约简功能广泛的应用于各个领域。邻域粗糙集是根据邻域关系对数据进行划分,并不具有严格的等价关系,同时,数据属性之间的关系往往不是独立的,因此也会影响约简的结果。
在语料库中,每个词的出现包含不同的信息。信息论上由不确定性的大小来衡量每个词包含的信息量,不确定性越大,信息量也就越大;而从词频的角度来说,每个词出现的次数有显著的差异,其重要度也不同。对于给定的文本,每个句子当中词和词之间还存在依存关系,包括从属、并列、递进等关系,仅从信息量和词频的角度不足以准确的表示文本所要表达的含义,因此,语义关系往往不能忽略。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于邻域粗糙集的文本特征约简方法。
本发明解决其技术问题所采用的技术方案是:构造一种基于邻域粗糙集的文本特征约简方法,包括:
将进行特征简约的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;
用TF-IDF算法计算预处理后文本中特征词项的权值,并构造文本决策系统;
定义邻域δ-,并求出每个词频下的邻域,判断并输出正域,从中寻找最大正域;
根据最大正域计算词频重要度,如果词频重要度满足预设条件,则放入约简集合。
其中,构造文本决策系统为:
TDS=(TU,TC∪D,V,f),其中,TU=D1∪D2∪...∪Dn,词频属性子集B={a1,a2,...an},词频矩阵中且i,j∈n,定义x,y的在词频向量下的邻域δ-为:邻域半径为δai
其中,预设的词频重要度满足条件为:
属性重要度参数η的计算方法如下,将属性集合与约简集合的差值应该控制在指定范围内,从而控制正域的选择,提高约简效率,θ是一个调节参数;
其中,θ为调节参数。
其中,TF-IDF是以特征词项在文档中出现的次数与包含该词项的文档数之比作为该词的权值,具体计算公式如下:
其中,tj表示文档中特征词项t的词频,N表示文档总数,nj表示包含词项t的文档数。
其中,词频重要度的计算公式为:
其中,如果词频重要度满足预设条件,则将词频放入约简集合RED=RED∪TCK;否则记录K值,并令RED=RED+TCK,S=S-POSK,再次计算正域及词频重要度,判断满意度是否满足预设条件。
区别于现有技术,本发明的基于邻域粗糙集的文本特征约简方法包括以下步骤:将进行特征简约的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;用TF-IDF算法计算预处理后文本中特征词项的权值,并构造文本决策系统;定义邻域δ-,并求出每个词频下的邻域,判断并输出正域,从中寻找最大正域;根据最大正域计算词频重要度,如果词频重要度满足预设条件,则放入约简集合。通过本发明,提高了邻域粗糙集在文数据中的约简精度,改进邻域的计算方法,构建新的邻域关系,更好的刻画词项之间的关系,使得约简快速准确。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明提供的一种基于邻域粗糙集的文本特征约简方法的流程示意图;
图2是本发明提供的一种基于邻域粗糙集的文本特征约简方法的算法结构示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
如图1所示,图1是本发明提供的一种基于邻域粗糙集的文本特征约简方法,包括:
S110:将进行特征简约的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词。
在本发明中,待处理的文本为“哈工大停用词词库”、“百度停用词表”等各种停用词表。对“哈工大停用词词库”、“百度停用词表”等各种停用词表整理后,使用结巴分词对文本进行分词,得到“文本-词项”矩阵。
S120:用TF-IDF算法计算预处理后文本中特征词项的权值,并构造文本决策系统。
TF-IDF是以特征词项在文档中出现的次数与包含该词项的文档数之比作为该词的权值,具体计算公式如下:
其中,tj表示文档中特征词项t的词频,N表示文档总数,nj表示包含词项t的文档数。
构造文本决策系统TDS=(TU,TC∪D,V,f),其中,TU=D1∪D2∪...∪Dn,词频属性子集B={a1,a2,...an},词频矩阵中且i,j∈n,初始化词频约简集合正域POSB(D)=0。
S130:定义邻域δ-,并求出每个词频下的邻域,判断并输出正域,从中寻找最大正域。
定义邻域δ-为:邻域半径为δai对属性子集B求解协方差矩阵v,计算公式如下:
并求解其逆矩阵v-1
根据公式求解邻域ΔB(X,Y);
根据公式δBi(xi)={x|x∈U,Δ(x,xi)≤δai},求出每个词频下的邻域;δBi(xi)是每个词频下的邻域,δai为邻域半径;
根据公式POSB(D)=N BD判断并输出正域,寻找最大正域POSK(D)。
S140:根据最大正域计算词频重要度,如果词频重要度满足预设条件,则放入约简集合。
根据公式得出词频重要度;
如果词频TCK重要度满足公式
则放入约简集合RED=RED∪TCK,θ是一个调节参数,根据数据集的不同,设定不同的参数选择正域;否则记录K值,RED=RED+TCK,S=S-POSK,再次寻找最大正域POSK(D)并输出约简结果RED。图2所示为本发明的算法结构图。
在本发明的实施例中,对UCI数据集中选取4组数据进行实验。选取邻域粗糙集常用的三种计算距离的方法,在这4组数据中分别进行对比,聚类精度、运行时间和属性个数。聚类选用K-means聚类算法,邻域半径取0.125。表1为UCI实验数据表,实验结果如下表所示。
表1 UCI数据集
表2聚类精度对比(%)
表2显示不同距离的聚类精度,虽然由于数据集的不同,不同距离对聚类结果的效果优次稍有差别,但是总体来看,邻域优于1-范数,2-范数次之,无穷范数效果稍差,2-范数距离就是两属性之间的最短距离,忽略了属性之间的联系,不能只用最短来衡量属性间的距离,无穷范数距离为两属性坐标数值差的最大值,属于空间距离,而本实验计算的是矩阵,因此结果稍差,1-范数距离计算的是投影距离,邻域计算的是属性间的协方差,对属性之间距离关系描述更精准。
表3约简运行时间对比(s)
表3显示运行时间对比,可以看出,随着特征属性的增加,时间在加长,Mess数据集对象数最多,但是运行时间并不是最长的,Musk数据集对象数只有Mess的一半,特征数却是Mess的近十倍,运行时间比Mess长了近4倍,可以看出,决定约简运行时间的因素主要是特征数量。邻域在运行时间方面优势并不明显,有几个数据集显示比1-范数要长,可能是数据协方差矩阵计算消耗了过多的时间。
表4约简后属性个数对比
由实验数据可以看出,以上4种不同的计算距离的方法,因其计算方式的不同对属性约简的结果有着不同的影响。由表4显示属性个数约简结果,邻域、1-范数较好,2-范数次之,无穷范数效果稍差,表4显示无穷范数属性个数最多,原因是由于1-范数、2-范数和无穷范数计算的邻域大小不同,使之对论域中所有对象的粒化程度各不相同,无穷范数邻域为正方形,较1-范数和2-范数的邻域偏大,导致对属性集合的粒化准确度稍差,邻域是基于协方差计算两变量之间的距离,同时考虑到属性之间的联系,基于属性总体计算邻域,使约简结果更准确。
表5、表6和表7是针对最新文献从聚类精度、运行时间、属性个数这三个方面做出的实验对比,a为ARABFTI算法,b为NWDR算法,c为NRS-MLSFS算法,d为多半径邻域改进算法,e为本发明算法,实验结果如下所示。
表5不同算法聚类精度对比(%)
表6不同算法运行时间对比(s)
表7不同算法属性个数对比
算法a为了提高邻域粗糙集的容错性,引入贝叶斯最小风险决策规则,通过对数据容错性能的分析,利用最小风险决策规则,提高了约简的抗噪能力,得到较好的约简,但是该决策规则只有0和1两项判别,对于处在边界的数据判别不够精准。算法b利用信息权重对依赖度赋予权重,得到对依赖度的加权算法,但是对权值的依赖性较大,而且容易趋近于一,导致约简结果不理想。算法c通过对属性特征进行标记达到分类的目的,该算法需要对属性进行标记并判别,可以看出时间消耗较大,算法d同样是通过对属性进行阈值的设定对约简算法进行改进,结果显示效果一般,且时间消耗较大。
本发明算法主要针对文本语料当中词项之间的依存关系而提出,以上实验已经验证对数值型数据是有效的,下面设计实验验证该算法对文本数据的性能。从复旦测试语料库中按照表8选取4组文本语料,对不同距离的属性约简结果进行对比。
表8文本数据集
表9聚类精度的比较
表10运行时间的比较
表11属性个数对比
由上图可以看出,文本语料属性较多,维度较大,从属性个数和聚类精度来看,约简结果较理想。与UCI数据集实验类似,邻域较其他三种距离效果稍好。可见,基于邻域的属性约简应用于文本语料的有效性,同时,也可以看出邻域更适合文本语料。但是,词项越多运行时间越长,时间代价翻倍增长。
区别于现有技术,本发明的基于邻域粗糙集的文本特征约简方法包括以下步骤:将进行特征简约的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;用TF-IDF算法计算预处理后文本中特征词项的权值,并构造文本决策系统;定义邻域δ-,并求出每个词频下的邻域,判断并输出正域,从中寻找最大正域;根据最大正域计算词频重要度,如果词频重要度满足预设条件,则放入约简集合。通过本发明,提高了邻域粗糙集在文数据中的约简精度,改进邻域的计算方法,构建新的邻域关系,更好的刻画词项之间的关系,使得约简快速准确。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (7)

1.一种基于邻域粗糙集的文本特征约简方法,其特征在于,包括以下步骤:
将进行特征简约的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;
用TF-IDF算法计算预处理后文本中特征词项的权值,并构造文本决策系统;
定义邻域δ-,并求出每个词频下的邻域,判断并输出正域,从中寻找最大正域;
根据最大正域计算词频重要度,如果词频重要度满足预设条件,则放入约简集合。
2.根据权利要求1所述的基于邻域粗糙集的文本特征约简方法,其特征在于,所述构造文本决策系统为:
TDS=(TU,TC∪D,V,f),其中,TU=D1∪D2∪...∪Dn,词频属性子集B={a1,a2,...an},词频矩阵中且i,j∈n,定义x,y的在词频向量下的邻域δ-为:邻域半径为δai
3.根据权利要求1所述的基于邻域粗糙集的文本特征约简方法,其特征在于,定义邻域δ-为:邻域半径为δai对属性子集B求解协方差矩阵v,计算公式如下:
并求解其逆矩阵v-1
4.根据权利要求1所述的基于邻域粗糙集的文本特征约简方法,其特征在于,预设的词频重要度满足条件为:
属性重要度参数η的计算方法如下,将属性集合与约简集合的差值应该控制在指定范围内,从而控制正域的选择,提高约简效率,θ是一个调节参数;
其中,θ为调节参数。
5.根据权利要求1所述的基于邻域粗糙集的文本特征约简方法,其特征在于,TF-IDF是以特征词项在文档中出现的次数与包含该词项的文档数之比作为该词的权值,具体计算公式如下:
其中,tj表示文档中特征词项t的词频,N表示文档总数,nj表示包含词项t的文档数。
6.根据权利要求1所述的基于邻域粗糙集的文本特征约简方法,其特征在于,词频重要度的计算公式为:
7.根据权利要求6所述的基于邻域粗糙集的文本特征约简方法,其特征在于,如果词频重要度满足预设条件,则将词频放入约简集合RED=RED∪TCK;否则记录K值,并令RED=RED+TCK,S=S-POSK,再次计算正域及词频重要度,判断满意度是否满足预设条件。
CN201910571271.5A 2019-06-28 2019-06-28 一种基于邻域粗糙集的文本特征约简方法 Pending CN110598192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910571271.5A CN110598192A (zh) 2019-06-28 2019-06-28 一种基于邻域粗糙集的文本特征约简方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910571271.5A CN110598192A (zh) 2019-06-28 2019-06-28 一种基于邻域粗糙集的文本特征约简方法

Publications (1)

Publication Number Publication Date
CN110598192A true CN110598192A (zh) 2019-12-20

Family

ID=68852685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910571271.5A Pending CN110598192A (zh) 2019-06-28 2019-06-28 一种基于邻域粗糙集的文本特征约简方法

Country Status (1)

Country Link
CN (1) CN110598192A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378557A (zh) * 2021-05-08 2021-09-10 重庆邮电大学 一种基于容错粗糙集的自动关键字提取方法、介质及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106644484A (zh) * 2016-09-14 2017-05-10 西安工业大学 Eemd与邻域粗糙集结合的涡桨发动机转子系统故障诊断方法
CN108345720A (zh) * 2018-01-18 2018-07-31 河海大学 一种全时空域内大坝健康状况影响因素贡献度辨识方法
CN109165290A (zh) * 2018-06-21 2019-01-08 太原理工大学 一种基于全覆盖粒计算的文本特征选择方法
CN109670037A (zh) * 2018-11-08 2019-04-23 太原理工大学 基于主题模型和粗糙集的K-means文本聚类方法
CN109934278A (zh) * 2019-03-06 2019-06-25 宁夏医科大学 一种信息增益混合邻域粗糙集的高维度特征选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106644484A (zh) * 2016-09-14 2017-05-10 西安工业大学 Eemd与邻域粗糙集结合的涡桨发动机转子系统故障诊断方法
CN108345720A (zh) * 2018-01-18 2018-07-31 河海大学 一种全时空域内大坝健康状况影响因素贡献度辨识方法
CN109165290A (zh) * 2018-06-21 2019-01-08 太原理工大学 一种基于全覆盖粒计算的文本特征选择方法
CN109670037A (zh) * 2018-11-08 2019-04-23 太原理工大学 基于主题模型和粗糙集的K-means文本聚类方法
CN109934278A (zh) * 2019-03-06 2019-06-25 宁夏医科大学 一种信息增益混合邻域粗糙集的高维度特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘艳 等: ""基于K-S检验和邻域粗糙集的特征选择方法"", 《河南师范大学学报(自然科学版)》 *
李颖桃 等: ""一种基于邻域粗糙集特征选择的图像分类方法"", 《现代电子技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378557A (zh) * 2021-05-08 2021-09-10 重庆邮电大学 一种基于容错粗糙集的自动关键字提取方法、介质及系统

Similar Documents

Publication Publication Date Title
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
CN111694958A (zh) 基于词向量与single-pass融合的微博话题聚类方法
CN107145560B (zh) 一种文本分类方法及装置
CN101295294A (zh) 基于信息增益改进贝叶斯词义消歧方法
CN109408641A (zh) 一种基于有监督主题模型的文本分类方法及系统
Asim et al. Comparison of feature selection methods in text classification on highly skewed datasets
Wang et al. Text similarity calculation method based on hybrid model of LDA and TF-IDF
CN114997288A (zh) 一种设计资源关联方法
CN113032573B (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN110598192A (zh) 一种基于邻域粗糙集的文本特征约简方法
Thielmann et al. Coherence based document clustering
CN109284392B (zh) 一种文本分类方法、装置、终端及存储介质
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
Wang et al. Finding uninformative features in binary data
CN114912446A (zh) 一种关键词抽取方法、装置及储存介质
Zhang et al. A method of dimensionality reduction by selection of components in principal component analysis for text classification
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质
Williams Results of classifying documents with multiple discriminant functions
Cao Classification of Digital Teaching Resources Based on Data Mining.
Guo et al. An automatic image annotation method based on the mutual K-nearest neighbor graph
CN111368068A (zh) 一种基于词性特征和语义增强的短文本主题建模方法
Chen et al. Multi-class svm with negative data selection for web page classification
Choi et al. Refinement method of post-processing and training for improvement of automated text classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191220