CN105183813B - 基于互信息的用于文档分类的并行特征选择方法 - Google Patents
基于互信息的用于文档分类的并行特征选择方法 Download PDFInfo
- Publication number
- CN105183813B CN105183813B CN201510532920.2A CN201510532920A CN105183813B CN 105183813 B CN105183813 B CN 105183813B CN 201510532920 A CN201510532920 A CN 201510532920A CN 105183813 B CN105183813 B CN 105183813B
- Authority
- CN
- China
- Prior art keywords
- word
- variable
- document
- sigma
- mutual information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的基于互信息的用于文档分类的并行特征选择方法,包括a).选取样本并分类;b).求解词的TF‑IDF值;c).生成初始化数据集合D={x1,x2,...,xN};d).分布式计算,将所有子数据集平均分布到m个计算节点上;e).建立集合,S=Φ,V={X1,X2,...,XM};f).计算联合、条件概率分布;g).计算互信息;h).选取特征变量;i).判断数量是否已够;j).文本分类。本发明的文档分类的并行特征选择方法,基于瑞利熵的互信息被用来度量特征变量与类变量之间的相关性,使得最终选取的特征变量的更能代表文档分类的特征,分类效果更准确,分类结果要好于目前常用特征选择方法得到的结果,有益效果显著,适于推广应用。
Description
技术领域
本发明涉及一种文档分类特征的选择方法,更具体的说,尤其涉及一种基于互信息的用于文档分类的并行特征选择方法。
背景技术
自动文本分类是数据分析中特别具有挑战性的任务,不论是在理论还是实践方面,已成功应用于很多领域,如图书馆文献、新闻报纸分类、主题检测、垃圾邮件过滤、作者识别、网页分类等。随着信息技术的发展,在很多领域中,数据不论是在规模还是维度上都变得越来越大,这需要花费更多的时间和空间。对于文本分类,特征选择是实现高效文本分类而又不影响准确率的一项重要手段。特征选择是降维、去除不相关数据、提高学习精度、提高结果可理解性的关键技术,是直接影响文档分类的准确率的重要工作,特征选择主要有两个主要目的,首先,特征选择使分类更有效通过降低有效词组的大小,其次,分类准确率通常通过噪音特征去除而提高。有很多特征选择方法,如基于统计的词频法(TF)、词频逆文档频率(TF-IDF)法、卡方、信息增益(IG)、文档频次(DF)和互信息法(MI)等,DF和TF主要注重文档和词频,这两种方法是无监督方法,在不考虑类分布的情况下删除低频词,互信息、卡方、信息增益侧重于分析特征与类之间的关系,有些时候这些方法会对低频词产生偏差,而实际上很多低频词是噪音,只有一些对于分类提供有价值信息。
现有的用于分类的特征选择的方法有基于群体优化与信息增益混合的方法,以及基于概率的特征选择方法,所有特征选择方法最终目的都是为了提高分类效率和准确率,但如何设计一个合适的特征选择方法仍然是个具有挑战性的问题。为解决这个问题,本文提出了一种TF-IDF与互信息相结合的特征选择方法,首先,计算文档的TF-IDF值,生成文档的词向量,每个词的TF-IDF概率分布通过极大似然法进行估计。然后,联合互信息被用来度量特征和类之间的关系。
随着电子计算机技术的发展,电子数据量呈指数发展,特征选择的计算量也随之显著增加,当数据量很大时,传统的基于串行编程的特征选择方法已不适用,因此,基于并行算法的特征选择方法将是处理大规模数据的合理选择。并行算法通过不同的并行化技术来实现,如多线程、MPI、MapReduce、工作流技术等,不同的并行化技术会有不同的性能和使用特征,据了解,Hadoop是最流行的开源MapReduce平台,但Hadoop这种MapReduce架构不支持迭代的Map和Reduce任务,而很多机器学习算法需要这种迭代。为解决这个问题,一些迭代MapReduce架构被提出来,如Twister,Spark等。
已有一些基于并行化技术的研究工作来提高处理速度,一种并行协同进化遗传算法被提出来解决大规模特征选择问题,提出了一种基于MapReduce的并行粗糙集算法,基于互信息的并行特征选择方法被提出,这种方法只能处理离散变量的问题,而在文本分类中,词的TF-IDF值通常被认为是连续变量,如何处理大规模连续变量的特征选择是具有挑战性的问题。本文提出了一种处理大规模连续变量特征选择的并行方法,在该方法中,基于瑞利熵的互信息被用来度量特征与类之间的相关性。词变量的分布被认为服从正态分布,多个词变量的联合分布被认为服从多变量正态分布,该特征选择方法基于贪婪法。
经过特征选择,选择的特征被用来构建一个文档分类器。很多分类器用于文档分类,如KNN,朴素贝叶斯、Adaboost、支持向量机等。支持向量机被认为是最有效的文本分类器之一,但支持向量机所需计算和存储资源会随着训练样本量的增多而快速增加,因此,很多实际问题不能够用支持向量机进行处理。为提高支持向量机的训练速度,一种基于MapReduce的并行支持向量机模型,本文将用该模型进行文本分类。该方法的有效性将通过案例分析予以验证。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种基于互信息的用于文档分类的并行特征选择方法。
本发明的基于互信息的用于文档分类的并行特征选择方法,其特别之处在于,通过以下步骤来实现:a).选取样本并分类,选取N篇文档,形成训练样本集合D={d1,d2,...,dN},di为选取的单篇文档;采用人工划分的方式每个文档进行分类,形成类变量集合C=Y={c1,c2,...,cp},文档di的种类必属于类变量集合D;b).求解词的TF-IDF值,TF-IDF是词频tf(t,d)和逆文档频率idf(t,D)的乘积,对于每个文档中的每个词计算求解其TF-IDF值;在所有文档中如果某个词的TF-IDF值都小于临界值m,则该词属于低频词,将其忽落掉;c).生成初始化数据集合,以每个文档中词的TF-IDF值为向量,组成初始化数据集合D={x1,x2,...,xN},xi为文档i中所有被选中词的TF-IDF值所组成的向量;d).分布式计算,将数据集合D={x1,x2,...,xN}平均分成n个子数据集D1,D2,…,Dn,然后将所有子数据集平均分布到m个计算节点上,以确保较高的计算速度;设要选择出数目为k的词变量集合;e).建立集合,假设S和V为两个集合,设S=Φ,V={X1,X2,...,XM},S表示已被选择的特征,V表示没被选择的特征;f).计算联合、条件概率分布,对于每个没有被选中的词变量Xi,计算联合概率分布p({S,Xi})和条件概率分布函数p({S,Xi}|Cj),i∈{1,2,...,M},j∈{1,2,...,p};p({S,Xi})表示某一文档中待判断的特征变量Xi与已选中的特征词集合S之间的联合概率分布;g).计算互信息,通过公式(1)计算{S,Xi}与类变量Y之间的互信息I({S,Xi};Y):
I({S,Xi};Y)=H({S,Xi})+H(Y)-H({S,Xi},Y) (1)
其中,i∈{1,2,...,M};每个计算节点计算完毕后,本次计算中使互信息I({S,Xi};Y)具有最大值的特征变量Xi作为选中词;h).选取特征变量,统计每个计算节点所返回的特征变量Xi和相应的互信息,被选中次数最多的词Xi作为本次计算所要选择的特征变量;如果两个变量被选中的次数一样多,则选择互信息值的和最大的特征变量作为计算所要选择的特征变量;把本次计算中选取的词变量Xi从集合V中去除,将其增添至集合S中,执行步骤i);i).判断数量是否已够,判断集合S中所选取的特征变量的数目是否达到了设定的k个,如果达到,则停止运算;如果没有达到,则跳转至步骤f),继续进行特征变量的选取;j).文本分类,利用所选取的k个特征变量作为支持向量机的输入对文本进行分类,具有很高的准确率。
本发明的基于互信息的用于文档分类的并行特征选择方法,步骤b)中TF-IDF值的求取通过以下步骤来实现:
TF-IDF是词频tf(t,d)和逆文档频率idf(t,D)的乘积,词频利用词t在文档d中出现的频率进行计算,其通过公式(2)进行求取:
逆文档频率是该词提供信息的测度,某一特定词的idf(t,D)由总文档数目除以包含该词语之文档的数目,再将得到的商取对数得到,其通过公式(3)进行求取:
其中,N是文档总数,|d∈D:t∈d|是出现词t的文档数:
TF-IDF的值tfidf(t,d,D)通过公式(4)进行求取:
tfidf(t,d,D)=tf(t,d)×idf(t,D) (4)。
本发明的基于互信息的用于文档分类的并行特征选择方法,步骤f)中所述的联合概率分布和条件概率分布通过以下步骤来实现:
f-1).假设一组训练文档样本用(xi,ci)表示,i=1,2,…,N,xi是文档中所有TF-IDF值组成的向量,其中每个文档的向量值和对应的类变量值都已知,通过公式(5)计算概率分布函数:
其中,参数μ和Σ的极大似然估计分别通过公式(6)和公式(7)进行求取:
f-2).最初的数据集合被分成q部分,每部分的大小为Nj,它满足类C=cj的概率分布函数为:
f-3).离散类变量的概率分布函数通过统计方法计算,即:
f-4).X和C=cj的联合概率分布函数为:
将变量{S,Xi}代入公式(10)和(8)即可求取联合概率分布函数和条件概率分布函数。
本发明的基于互信息的用于文档分类的并行特征选择方法,步骤g)中所述的互信息I({S,Xi};Y)通过以下方法来求取:
特征变量X和类变量C之间的互信息可根据公式I(X;C)=H(X)+H(C)-H(X,C)中,特征变量X的二次熵H(X)、类变量C的二次熵H(C)、特征变量X与类变量C的联合熵分别通过公式(11)、(12)和(13)进行求取:
将特征变量{S,Xi}和类变量Y代入公式(11)、(12)和(13)中,即可求出公式(1)中的H({S,Xi})、H(Y)、H({S,Xi},Y),以计算出{S,Xi}与类变量Y之间的互信息I({S,Xi};Y)。
本发明的基于互信息的用于文档分类的并行特征选择方法,步骤d)中要选择出的词变量的数目k=30。
本发明的有益效果是:本发明的基于互信息的用于文档分类的并行特征选择方法,基于瑞利熵的互信息被用来度量特征变量与类变量之间的相关性,已经被选取的特征变量与下一个待选取特征进行联合密度信息计算,而不是采用现有的每个特征变量单独选取的方法,使得最终选取的特征变量的更能代表文档分类的特征,依据本方法选取的特征对文档的分类效果更准确,分类结果要好于目前常用特征选择方法得到的结果,有益效果显著,适于推广应用。
具体实施方式
下面利用实施例对本发明作进一步说明。
1互信息:
互信息是用来度量特征变量与类变量之间相关性的测度,互信息的计算基于熵,熵是度量信息量不确定性的测度,有不同熵的定义形式,如香农熵、瑞利熵等。本文采用瑞利熵来度量文本变量的不确定性。
设n个特征变量用X1,X2,…,Xn表示,其概率密度函数分别为p(x1),p(x2),…,p(xn),Ωi是变量Xi,i=1,2,…,n的定义域,Xi和Xj的联合概率分布密度是p(xi,xj),i=1,2,…,n,j=1,2,…,n。
设M个连续特征变量用向量X=(X1,X2,…,XM)表示,它的概率分布密度函数为p(x),Ω表示变量向量X的值阈,类变量用离散变量C表示,它有q个可能值,即C∈{c1,c2,…,cq}。它的概率密度函数为p(ci),i=1,2,…,q。变量向量X的α瑞利熵可表示为
当α=2,瑞利熵H(.)也叫做二次熵,变量向量X的二次熵可表示为
H(X)=-log∫Ω(p(x))2dx (15)
类变量C的二次熵为
特征变量向量X与类变量C的联合熵为
特征变量向量X与类变量C之间的互信息可表示为
I(X;C)=H(X)+H(C)-H(X,C) (15)
2多变量概率分布估计:
从熵和互信息的计算公式可以看出,概率分布式是基础,变量向量X的概率分布需要用多变量概率分布估计方法进行估计,这里我们用极大似然法进行估计,方法介绍如下。
设X的概率分布函数为p(x;θ1,θ2,…,θk),其中θ1,θ2,…,θk是k个需要估计得未知常参数,给定变量向量X的N个独立观察的样本x1,x2,…,xN,似然函数为
似然函数的对数为
参数θ1,θ2,…,θk的估计值通过最大化L获得,θ1,θ2,…,θk的极大似然估计是通过求解下面k个方程。
当X是M维向量,它的概率分布函数为多维正态分布,即
参数μ和Σ的极大似然估计为
3文本分类的并行特征选择:
3.1 TF-IDF计算
为选择文本分类信息量最大的词组合,首先要计算每个词的TF-IDF值,计算过程如下。TF-IDF是两个统计值的乘积,词频和逆文档频率,计算两种频率值的方法有多种。对于词频tf(t,d)的计算,最简单的方法就是用词在文档中出现的频率计算,即词t在文档d中出现的次数,
逆文档频率是该词提供信息量的测度,某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
其中,N是文档总数,|{d∈D:t∈d}|是出现词t的文档数,TF-IDF的值为
tfidf(t,d,D)=tf(t,d)×idf(t,D) (4)
3.2互信息计算
当计算完TF-IDF值后,计算词的概率分布和各个词与类变量之间的互信息,假设一组训练文本样本(xi,ci),i=1,2,…,N,xi∈RM是tfidf向量,其中每个文档的向量值和对应的类变量值都已知,词向量X的概率分布参数可通过公式(6)和(7)进行计算。得到概率分布函数:
其中X可用它的子集代替。
最初的数据集合被分成q部分,每部分的大小为Nj,它满足参数j=1,2,…,q可根据Nj个随机样本进行估计,类C=cj的概率分布函数为
离散类变量的概率分布函数通过统计方法计算,即
X和C=j的联合概率分布函数为
X和C之间的互信息可根据式(15)进行计算,其中
针对分类的基于互信息的并行特征选择方法总结如下。
步骤1:计算每个词的TF-IDF值,生成初始化数据集合D={d1,d2,...,dN},数据集合D被分成n部分D1,D2,…,Dn,所有子数据集被平均分布到m个计算节点,要选择的特征变量数指定为k。
步骤2:假设S和V为两个向量,设S=Φ和V={X1,X2,…,XM},S表示已被选择的特征,V表示没被选择的特征。
步骤3:对于每个没有被选中的词变量Xi,i∈{1,2,…,n},计算联合概率分布p({S,Xi}),i∈{1,2,…,M}和条件概率分布函数p({S,Xi}|Cj),i∈{1,2,…,M;j∈{1,2,…,p},计算{S,Xi},i∈{1,2,…,M}和Y之间的互信息。选择使I({S,Xi};Y)最大的特征变量Xi,i∈{1,2,…,M},选择变量的序列号为j和相应的互信息I({S,Xi};Y)通过收集传递给Reduce程序。
步骤4:在Reduce程序中,数量最多的特征变量Xj,j∈{1,2,…,N}被选择作为全局本次迭代要选择的特征变量,如果两个变量的数量一样多,选择互信息值的和大的特征变量作为全局本次迭代要选择的特征变量。设置S←{S,Xj}和V←V\{Xj}。
步骤5:改变后的S和V反馈到步骤3,重复上述过程直到选择特征变量数达到k为止。
基于MapReduce的文本分类特征选择过程如表1所示:
表1
算法1基于MapReduce的特征选择过程 |
准备: |
1)计算TF-IDF值,生成初始数据集; |
2)计算环境配置; |
3)数据划分并分布到各个节点; |
4)创建划分文件 |
主程序: |
1)任务配置JobConf;//配置MapReduce参数和类名 |
2)制定要选择特征变量的个数; |
3)启动任务TwisterDriver; |
4)当没有达到指定的特征数时,进行循环; |
5)获取MapReduce任务的反馈结果 |
Map类: |
1)从文件系统加载文件; |
2)计算互信息; |
3)结果收集,传递给Reduce程序; |
Reduce类: |
1)读取从Map类传递过来的数据; |
2)选择具有最大数据量的特征变量序号; |
3)结果反馈到主程序。 |
实例1:
从互联网收集37926个中文网页,其中网页词数少于50的被滤除掉,剩下17752个网页进行分类分析。这些网页根据内容分成2类,分别是食物和运动。食物类网页用0表示,运动类网页用1表示,所有文档通过人工方式进行划分。首先,根据式(13)计算每个文档中每个词的TF-IDF值,在所有文档中,如果某个词的TF-IDF值都小于0.02,那么该词属于低频词,被忽略掉。通过计算,词典包含2728个词,文档根据这2728个词进行分类,基于本文提出的特征选择方法,选择用于文本分类信息量最大的特征变量组合,过程如下。
2728个词用本文提出的特征选择方法进行分析,首先,每个词根据互信息值进行降序排序,每个词用该词的序列号进行表示,即0,1,...,2727。在本实例中,要选择的特征变量个数指定为30,本实验在山东省云计算平台进行计算,每个节点有3GHz的CPU,8GB的内存,操作系统为Ubuntu12.04。文档数据集分别被均匀划分成1份、2份、4份,第4部分的并行特征选择方法用来发现最有的特征组合,基于不同划分方式得到的特征选择结果如表1所示,基于不同划分方式选择的特征分别用变量向量F1,F2和F4表示。如表2所示,给出了基于不同划分形式的特征选择结果:
表2
经过特征选择,选择的特征用做支持向量机的输入进行文本分类。13000个文档用做训练样本,余下的当作测试样本,在这个支持向量机模型中,径向基函数当作核函数,常系数C=1,γ=0.003和ε=0.001。通过训练,测试结果如表3所示,给出了基于不同特征选择结果的分类结果。为了比较,取30个具有最大互信息的特征变量进行文本分类,分类结果如表4所示,给出了基于30个最大互信息的特征变量的分类结果。
表3
表4
为进行比较,基于MapReduce的逻辑回归和基于MPI的遗传算法用来选择特征变量组合,30个变量被选择,选择的结果列于表5,给出了基于逻辑回归和遗传算法的特征选择结果;在4个计算节点运行,基于特征选择结果进行文本分类,分类结果列于表6,给出了基于不同方法得到的特征选择分类结果。
表5
表6
多值分类问题要比二值分类复杂,互信息的计算也更复杂,为验证提出方法的有效性,一个多值分类问题被分析。
从雅虎网站收集171832个英文网页,网页的单词数少于50的页面被过滤掉,这些网页包含不同的主题,本实例选择3类主题进行研究,即金融、运动、汽车,金融网页被标注为0,运动网页标注为1,汽车网页标注为2。每个主题包含10000个网页,共30000个网页。首先,根据式(13)计算每个文档中每个词的TF-IDF值,在所有文档中,词的TF-IDF最大值小于0.02的将被忽略掉,通过过滤,剩余1200个词,我们利用本文提出的方法选择多值文本分类的最佳特征变量组合,过程如下。
特征选择:
1200个词用本文提出的特征选择方法进行分析,根据每个词与类变量之间的互信息值进行降序排序,每个词用相应的序列号进行表示,即0,1,,1199,在本实例中,选择特征的个数被指定为30,文档集合分别被均匀划分为1,2,4等份,基于不同划分形式的特征选择结果如表7所示,给出了基于不同划分形式的特征选择结果。基于不同划分形式选择的特征变量分别用向量F1,F2和F4表示。
表7
文本分类:
经过特征选择,选择的特征用做支持向量机的输入进行文本分类。20000个文档用做训练样本,余下的当作测试样本,在这个支持向量机模型中,径向基函数当作核函数,常系数C=1,γ=0.003和ε=0.001。通过训练,测试结果如表8所示,给出了基于不同特征选择结果分类结果。为了比较,取30个具有最大互信息的特征变量进行文本分类,分类结果如表9所示,给出了基于30个最大互信息的特征变量的分类结果。
表8
表9
特征选择比较:
为进行比较,基于MapReduce的逻辑回归和基于MPI的遗传算法用来选择特征变量组合,30个变量被选择,选择的结果列于表10,给出了基于逻辑回归和遗传算法的特征选择结果,在4个计算节点运行,基于特征选择结果进行文本分类,分类结果列于表11,给出了基于不同方法得到的特征选择分类结果。
表10
表11
从上面两个例子分析结果可以看出,本文提出的特征选择方法在处理大规模特征选择问题方面是有效的,可有效降低算法的计算量。
结论:特征选择是文本分类中重要任务,基于瑞利熵的互信息能够度量变量之间的任意统计相关性,然而,基于互信息的特征选择方法计算量特别大,本文提出的并行特征选择方法能够显著降低计算量,该方法具有很好的可扩展性。通过实例分析的结果看,基于本文提出的特征选择方法得到特征组合的分类结果要好于目前常用特征选择方法得到的结果,特征选择的计算量通过MapReduce并行化可显著降低,本文提出的并行特征选择方法可扩展性好,可处理大规模问题,可被广泛应用到各个领域。
Claims (4)
1.一种基于互信息的用于文档分类的并行特征选择方法,其特征在于,通过以下步骤来实现:
a).选取样本并分类,选取N篇文档,形成训练样本集合D={d1,d2,...,dN},di为选取的单篇文档;采用人工划分的方式每个文档进行分类,形成类变量集合C=Y={c1,c2,...,cp},文档di的种类必属于类变量集合C;
b).求解词的TF-IDF值,TF-IDF是词频tf(t,d)和逆文档频率idf(t,D)的乘积,对于每个文档中的每个词计算求解其TF-IDF值;在所有文档中如果某个词的TF-IDF值都小于临界值m,则该词属于低频词,将其忽略掉;
c).生成初始化数据集合,以每个文档中词的TF-IDF值为向量,组成初始化数据集合D={x1,x2,...,xN},xi为文档i中所有被选中词的TF-IDF值所组成的向量;
d).分布式计算,将数据集合D={x1,x2,...,xN}平均分成n个子数据集D1,D2,…,Dn,然后将所有子数据集平均分布到m个计算节点上,以确保较高的计算速度;设要选择出数目为k的词变量集合;
e).建立集合,假设S和V为两个集合,设S=Φ,V={X1,X2,...,XM},S表示已被选择的特征,V表示没被选择的特征,M表示特征变量个数;
f).计算联合、条件概率分布,对于每个没有被选中的词变量Xi,计算联合概率分布p({S,Xi})和条件概率分布函数p({S,Xi}|Cj),i∈{1,2,...,M},M表示特征变量个数;j∈{1,2,...,p};p({S,Xi})表示某一文档中待判断的特征变量Xi与已选中的特征词集合S之间的联合概率分布;
g).计算互信息,通过公式(1)计算{S,Xi}与类变量Y之间的互信息I({S,Xi};Y):
I({S,Xi};Y)=H({S,Xi})+H(Y)-H({S,Xi},Y) (1)
其中,i∈{1,2,...,M},M表示特征变量个数;每个计算节点计算完毕后,本次计算中使互信息I({S,Xi};Y)具有最大值的特征变量Xi作为选中词;
h).选取特征变量,统计每个计算节点所返回的特征变量Xi和相应的互信息,被选中次数最多的词Xi作为本次计算所要选择的特征变量;如果两个变量被选中的次数一样多,则选择互信息值的和最大的特征变量作为计算所要选择的特征变量;把本次计算中选取的词变量Xi从集合V中去除,将其增添至集合S中,执行步骤i);
i).判断数量是否已够,判断集合S中所选取的特征变量的数目是否达到了设定的k个,如果达到,则停止运算;如果没有达到,则跳转至步骤f),继续进行特征变量的选取;
j).文本分类,利用所选取的k个特征变量作为支持向量机的输入对文本进行分类,具有很高的准确率;
其中,步骤f)中所述的联合概率分布和条件概率分布通过以下步骤来实现:
f-1).假设一组训练文档样本用(xi,ci)表示,i=1,2,…,N,xi是文档中所有TF-IDF值组成的向量,其中每个文档的向量值和对应的类变量值都已知,通过公式(5)计算概率分布函数:
其中,参数μ和∑的极大似然估计分别通过公式(6)和公式(7)进行求取:
f-2).最初的数据集合被分成q部分,每部分的大小为Nj,它满足类C=cj的概率分布函数为:
f-3).离散类变量的概率分布函数通过统计方法计算,即:
f-4).X和C=cj的联合概率分布函数为:
将变量{S,Xi}代入公式(10)和(8)即可求取联合概率分布函数和条件概率分布函数。
2.根据权利要求1所述的基于互信息的用于文档分类的并行特征选择方法,其特征在于,步骤b)中TF-IDF值的求取通过以下步骤来实现:
TF-IDF是词频tf(t,d)和逆文档频率idf(t,D)的乘积,词频利用词t在文档d中出现的频率进行计算,其通过公式(2)进行求取:
逆文档频率是该词提供信息的测度,某一特定词的idf(t,D)由总文档数目除以包含该词之文档的数目,再将得到的商取对数得到,其通过公式(3)进行求取:
其中,N是文档总数,|d∈D:t∈d|是出现词t的文档数:
TF-IDF的值tfidf(t,d,D)通过公式(4)进行求取:
tfidf(t,d,D)=tf(t,d)×idf(t,D) (4)。
3.根据权利要求1或2所述的基于互信息的用于文档分类的并行特征选择方法,其特征在于,步骤g)中所述的互信息I({S,Xi};Y)通过以下方法来求取:
特征变量X和类变量C之间的互信息可根据公式I(X;C)=H(X)+H(C)-H(X,C)中,特征变量X的二次熵H(X)、类变量C的二次熵H(C)、特征变量X与类变量C的联合熵分别通过公式(11)、(12)和(13)进行求取:
其中:M′表示特征变量X的维数;将特征变量{S,Xi}和类变量Y代入公式(11)、(12)和(13)中,即可求出公式(1)中的H({S,Xi})、H(Y)、H({S,Xi},Y),以计算出{S,Xi}与类变量Y之间的互信息I({S,Xi};Y)。
4.根据权利要求1或2所述的基于互信息的用于文档分类的并行特征选择方法,其特征在于,步骤d)中要选择出的词变量的数目k=30。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510532920.2A CN105183813B (zh) | 2015-08-26 | 2015-08-26 | 基于互信息的用于文档分类的并行特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510532920.2A CN105183813B (zh) | 2015-08-26 | 2015-08-26 | 基于互信息的用于文档分类的并行特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105183813A CN105183813A (zh) | 2015-12-23 |
CN105183813B true CN105183813B (zh) | 2017-03-15 |
Family
ID=54905896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510532920.2A Active CN105183813B (zh) | 2015-08-26 | 2015-08-26 | 基于互信息的用于文档分类的并行特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105183813B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701084A (zh) * | 2015-12-28 | 2016-06-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于互信息的文本分类的特征提取方法 |
CN105740388B (zh) * | 2016-01-27 | 2019-03-05 | 上海晶赞科技发展有限公司 | 一种基于分布漂移数据集的特征选择方法 |
CN106557465B (zh) * | 2016-11-15 | 2020-06-02 | 科大讯飞股份有限公司 | 一种词权重类别的获得方法及装置 |
CN108108346B (zh) * | 2016-11-25 | 2021-12-24 | 广东亿迅科技有限公司 | 文档的主题特征词抽取方法及装置 |
CN106886569B (zh) * | 2017-01-13 | 2020-05-12 | 重庆邮电大学 | 一种基于mpi的ml-knn多标签中文文本分类方法 |
CN107145485B (zh) | 2017-05-11 | 2020-06-23 | 百度国际科技(深圳)有限公司 | 用于压缩主题模型的方法和装置 |
CN107436424B (zh) * | 2017-09-08 | 2022-03-25 | 中国电子科技集团公司信息科学研究院 | 一种基于信息增益的多雷达动态调节方法及装置 |
CN109598275A (zh) * | 2017-09-30 | 2019-04-09 | 富士通株式会社 | 特征选择装置、方法及电子设备 |
CN108647322B (zh) * | 2018-05-11 | 2021-12-17 | 四川师范大学 | 基于词网识别大量Web文本信息相似度的方法 |
CN109492546B (zh) * | 2018-10-24 | 2022-08-12 | 广东工业大学 | 一种融合小波包与互信息的生物信号特征提取方法 |
CN114091558A (zh) * | 2020-07-31 | 2022-02-25 | 中兴通讯股份有限公司 | 特征选择方法、装置、网络设备和计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130006996A1 (en) * | 2011-06-22 | 2013-01-03 | Google Inc. | Clustering E-Mails Using Collaborative Information |
CN103559205A (zh) * | 2013-10-09 | 2014-02-05 | 山东省计算中心 | 基于MapReduce的并行特征选择方法 |
CN103810293B (zh) * | 2014-02-28 | 2017-06-16 | 云宏信息科技股份有限公司 | 基于Hadoop的文本分类方法及装置 |
-
2015
- 2015-08-26 CN CN201510532920.2A patent/CN105183813B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105183813A (zh) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105183813B (zh) | 基于互信息的用于文档分类的并行特征选择方法 | |
Liang et al. | Dynamic embeddings for user profiling in twitter | |
Banfield et al. | Ensemble diversity measures and their application to thinning | |
Zhu et al. | Multi-labelled classification using maximum entropy method | |
Olhede et al. | Network histograms and universality of blockmodel approximation | |
CN104391835B (zh) | 文本中特征词选择方法及装置 | |
Dekel et al. | Multiclass-multilabel classification with more classes than examples | |
CN109271517B (zh) | Ig tf-idf文本特征向量生成及文本分类方法 | |
CN104750844A (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
Haiduc et al. | Automatic query performance assessment during the retrieval of software artifacts | |
DE112013002654T5 (de) | Verfahren zum Klassifizieren von Text | |
Ranalli et al. | Mixture models for ordinal data: a pairwise likelihood approach | |
WO2015077942A1 (en) | Relationship extraction | |
Yang et al. | Learning latent features with infinite nonnegative binary matrix trifactorization | |
Pradhan et al. | Comparison of text classifiers on news articles | |
Kletti et al. | Introducing the expohedron for efficient pareto-optimal fairness-utility amortizations in repeated rankings | |
Hvilshøj et al. | On quantitative evaluations of counterfactuals | |
Karaev et al. | Cancer: Another algorithm for subtropical matrix factorization | |
Lawless et al. | Interpretable and fair boolean rule sets via column generation | |
KR101585644B1 (ko) | 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램 | |
JP4143234B2 (ja) | 文書分類装置、文書分類方法及び記憶媒体 | |
Adi et al. | Classification of 20 news group with naïve bayes classifier | |
Amati et al. | Term frequency normalization via Pareto distributions | |
Banda et al. | Evaluation of collaborative filtering based on tagging with diffusion similarity using gradual decay approach | |
Ranalli et al. | A model-based approach to simultaneous clustering and dimensional reduction of ordinal data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160812 Address after: 250014 Ji'nan Province, Shandong Province, Lixia District, Department of road, No. 19, Shandong Computing Center Applicant after: SHANDONG COMPUTER SCIENCE CENTER Applicant after: Shandong Yi Yun Information Technology Co., Ltd Address before: 250014 Ji'nan Province, Shandong Province, Lixia District, Department of road, No. 19, Shandong Computing Center Applicant before: SHANDONG COMPUTER SCIENCE CENTER |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |