CN103279478B - 一种基于分布式互信息文档特征提取方法 - Google Patents

一种基于分布式互信息文档特征提取方法 Download PDF

Info

Publication number
CN103279478B
CN103279478B CN201310138475.2A CN201310138475A CN103279478B CN 103279478 B CN103279478 B CN 103279478B CN 201310138475 A CN201310138475 A CN 201310138475A CN 103279478 B CN103279478 B CN 103279478B
Authority
CN
China
Prior art keywords
document
participle
task
word
feature words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310138475.2A
Other languages
English (en)
Other versions
CN103279478A (zh
Inventor
林为民
张涛
马媛媛
邓松
李伟伟
时坚
汪晨
王玉斐
周诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Smart Grid Research Institute of SGCC
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
Global Energy Interconnection Research Institute
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Jiangsu Electric Power Co Ltd, Global Energy Interconnection Research Institute, Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201310138475.2A priority Critical patent/CN103279478B/zh
Publication of CN103279478A publication Critical patent/CN103279478A/zh
Application granted granted Critical
Publication of CN103279478B publication Critical patent/CN103279478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供针对海量文档处理过程中的数据处理规模限制和性能不足等方面的瓶颈问题,本发明提供一种基于分布式互信息文档特征提取方法,包括以下步骤:进行文档集合,并对文档进行初始化;计算文档中分词出现的频率和不同分类中分词的互信息值,从而选择出特征词集合;计算所有特征词的权值,从而形成最终的文档向量集合。本发明利用MapReduce分布式计算框架来进行文档分类的特征词以及其权值的提取,可以加快文档分类的速度以及可扩展性,通过对键值对的设计,在提取特征词的同时就可以并行计算出特征词在文档中的权值,加快文档分类的效率。

Description

一种基于分布式互信息文档特征提取方法
技术领域
本发明属于分布式计算和数据挖掘技术领域,具体涉及一种基于分布式互信息文档特征提取方法。
背景技术
互联网迅猛发展的同时,也给我们带来了非常壮观的信息爆炸,如何对互联网上海量的数据进行处理是互联网企业必须面对的严峻考验,想要解决“数据丰富,信息贫乏”这个问题,就必须对海量数据进行分析和挖掘,比较常见而且实用的处理海量数据的方法就是对文档进行分类,即文档分类。
文档分类的任务是在给定的分类体系下,对一未知类别标号的文档,根据其内容进行归类,它可以归为多类,也可以不属于任何类(对给定的类集合而言)。
常见的文档分类步骤为:对文档进行分词处理;特征词条的选择;文档的表示;确定文档分类。这四个步骤是相辅相成的,每一个步骤的数据输出都作为下一个步骤的数据输入。
其中文档表示就是VSM(向量空间模型),就是把文档看作一个多维向量,然后用余弦相似度来表示文档之间的关系,但是该方法的最大缺点就是向量的维数太大,为了减少向量的维数,需要文档的特征词的提取工作。互信息方法衡量的是某个词和某个类别之间的相互关系。它度量两个事物之间的相互性。互信息是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的数值表现,使用互信息理论进行特征提取是基于这样的假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。特征项和类别的互信息体现了特征项与类别的相关程度,是一种广泛用于建立词关联统计模型的标准。因此对于每一主题来讲,特征的互信息越大,说明它与该主题的共现概率越大,因此以互信息可以作为提取特征的评价时应选互信息最大的若干个特征。
常见的文档表示方法就是VSM(向量空间模型),就是把文档看作一个多维向量,然后文档之间的关系就可以表示成向量之间的关系,这样就可以利用余弦定理来计算文档之间的相似度,根据相似度对文档进行分类是一种很常见的方法,但是该方法的最大缺点就是向量的维数太大,为了减少向量的维数,文档的特征词条的提取就显得尤为重要。文档分类中复杂度最大的阶段就是特征词条的提取以及相应的文档表示,特别是在处理海量数据的文档分类的时候,这种问题显的更为突出。
分布式计算是解决海量数据计算的最重要的方式,经需要计算的大型数据分成多个部分,分布到多台计算机上进计算,最后将结果进行汇总,达到快速运算的目的。Hadoop就是典型的云计算环境,实现并解决海量数据集的存储、分析和计算的功能,现阶段已应用于多种平台,有着低成本、可扩展性、可伸缩性、高效性、高容错性等优点,它的主要组件包括分布式文件系统(HDFS)和映射-化简(MapReduce)编程模型,映射-化简模型的主要思想就是任务的分解以及对分解结果的汇总。映射-化简模型包括两个动词映射(Map)和化简(Reduce),映射就是将一个任务分解成为多个子任务,化简就是将分解后多子任务处理的结果汇总起来,得出最后的分析结果。
当前许多的现有成熟的文档分类的相关成熟的算法都是基于单任务设计的,如果将文档分类的特征词提取以及文档表示步骤结合到分布式计算框架中,将会对文档分类的速度以及处理语料库的数量都有显著的提高。
发明内容
针对海量文档处理过程中的数据处理规模限制和性能不足等方面的瓶颈问题,本发明提供一种基于分布式互信息文档特征提取方法,利用MapReduce分布式计算框架来进行文档分类的特征词以及其权值的提取,可以加快文档分类的速度以及可扩展性,通过对键值对的设计,在提取特征词的同时就可以并行计算出特征词在文档中的权值,加快文档分类的效率。
为了实现上述发明目的,本发明采取如下技术方案:
提供了一种基于分布式互信息文档特征提取方法,所述方法包括以下步骤:
步骤1:进行文档集合,并对文档进行初始化;
步骤2:计算文档中分词出现的频率和不同分类中分词的互信息值,从而选择出特征词集合;
步骤3:计算所有特征词的权值,从而形成最终的文档向量集合。
所述步骤1中,对文档进行初始化包括文档的分词简化处理以及分布式表示。
所述步骤1包括以下步骤:
步骤1-1:设D={d1,d2,...,dj,...,dN}表示语料库,dj表示语料库中每个文档,N表示语料库所有文档的数目;
F={f1,f2,...,fk,...,f|F|}表示特征词集合,|F|表示特征词的总数量,其中0<k≤|F|,k属于整数,fk表示每个特征词;
C={c1,c2,...,cs,...,c|C|}表示文档类别集合,cs表示每个文档类别,|C|表示文档类别的数量;
TF={tf11,...,tfij,...,tfMN}表示分词频率集合,其中i代表分词的序号,j代表文档的序号,M代表所有文档出现的分词数目,N代表语料库所有文档的数目,该集合中的元素代表分词ti在文档dj中出现的频率;
步骤1-2:将语料库中的所有文档转换为容易读取的文档,然后将语料库D中易读取的文档进行分词处理,得到的分词结果包括分词的内容和分词的类型,将这些分词处理后的文档作为MapReduce的输入分片,将这些输入分片分布在多个DataNode上,方便进行并行处理;
步骤1-3:将这些输入分片中的分词进行简化处理,简化处理包括去除停顿特征词、标点符号以及单个字的分词,简化处理的过程如下:
由任务A进行处理,所述任务A的输入分片即是分词处理后的文档,其中每个文档都作为单独输入数据分片,任务A的Map阶段的输入键值对为<<filename,texttype>,context>,filename代表文件名,texttype代表文档的分类名称,context代表文档的所有内容,任务A的Map阶段根据文档中的分词类型,去除停顿特征词和长度小于一个汉字长度的分词,任务A的Map阶段的输出键值对为<<filename,texttype,word>,1>,其中word代表每个文档中的分词,其中值1,代表出现一次,该输出键值对作为任务A的Reduce阶段的输入。
所述步骤2中,利用MapReduce计算分词的词频,通过连续的3个子Mapreduce进行分词的互信息值的计算。
所述步骤2包括以下步骤:
步骤2-1:任务A的Reduce阶段,统计相同的文件名和分词的键值对,即得到每个文档的中所有分词出现的次数,<<filename,texttype,word>,wordcount>为任务A的输出结果,wordcount代表每个文档中分词的出现频率,将任务A的输出结果保存到分词频率集合TF中;
步骤2-2:建立任务B,把任务A的输出结果则作为的任务B的输入;统计出所有分词在所有类别中的互信息值MI(ti,cj):
MI ( t i , c j ) = log 2 [ p ( t i | c j ) p ( t i ) ] = log 2 [ &alpha; &CenterDot; M N ( &alpha; + &beta; ) ] - - - ( 1 )
其中:p(ti|cj)代表在所有cj类别的文档中分词ti出现的文档频率;p(ti)代表分词ti的在所有类别的文档中出现的频率;α代表分词ti出现在cj类别文档中的频率;β代表分词ti出现在非cj类别文档中的频率;α+β即代表分词ti在所有类别文档中出现的频率。
步骤2-3:任务B的Map阶段,经过任务B的映射处理所有出现分词word以及其所出现的类别文档中,数量置1,即<<filename,texttype,word>,1>,任务B的Reduce阶段将Map阶段的所有输出中相同的分词以及类型集中到同一化简任务中,即统计出分词word在某一类别中出现的次数,即α,则任务B的最终输出为<<texttype,word>,<filename,α>>;
步骤2-4:建立任务C,计算α+β;任务B的最终输出作为任务C的输入,任务C的Map阶段统计同一分词以及其出现的文件名作为作为键值,值中记录α,并计数一次,即<word,<filename,texttype,α,1>>,然后化简阶段整合到同一化简任务中,统计出分词在所有类别文档中出现的次数,即α+β,则任务C的最终输出为<<word,texttype>,<α,α+β>>;
步骤2-5:建立任务D,根据任务C的输出计算MI(ticj);Map阶段根据输入键值对带入公式(1)进行计算,然后输出<<word,texttype>,MI(ticj)>,Reduce阶段把相同文档类别的键值对输入到同一化简任务中,Reduce阶段按照MI(ticj)进行排序,并选择出每个类别中所有分词中互信息值较高的分词作为最终该类别的特征词集合作为最终的类别特征词,即<texttype,word>,将特征词保存到特征词集合F中。
所述步骤3中,定义向量代表文档dj中所有特征词的权值向量,0<k≤|F|,k属于整数,wkj表示文档dj中特征词fk的权值大小,ti表示文档dj中的分词,wkj表示为:
w kj = { tf ij &Sigma; j = 0 N tf ij | tf ij &Element; TF , f k &Element; F , t i = f k , 0 &le; i < M } - - - ( 2 )
定义集合即为最终所有的文档向量集合,即最终的文档表示。
与现有技术相比,本发明的有益效果在于:
1.本发明针对海量文档处理过程中的数据处理规模限制和性能不足等方面的瓶颈问题,利用MapReduce分布式计算框架来进行文档分类的特征词以及其权值的提取,可以加快文档分类的速度以及可扩展性;
2.通过对键值对的设计,在提取特征词的同时就可以并行计算出特征词在文档中的权值,加快文档分类的效率;
3.解决文档过滤的海量文档数据过滤的整体效率问题,缓解传统文档挖掘方法对应于海量数据文本处理效率的不足,可以显著提高对于文本挖掘的效率以及准确度;
4.降低资源的消耗,提高文本表示的灵活性。
附图说明
图1是基于分布式互信息文档特征提取方法流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1,提供了一种基于分布式互信息文档特征提取方法,所述方法包括以下步骤:
步骤1:进行文档集合,并对文档进行初始化;
步骤2:计算文档中分词出现的频率和不同分类中分词的互信息值,从而选择出特征词集合;
步骤3:计算所有特征词的权值,从而形成最终的文档向量集合。
所述步骤1中,对文档进行初始化包括文档的分词简化处理以及分布式表示。
所述步骤1包括以下步骤:
步骤1-1:设D={d1,d2,...,dj,...,dN}表示语料库,dj表示语料库中每个文档,N表示语料库所有文档的数目;
F={f1,f2,...,fk,...,f|F|}表示特征词集合,|F|表示特征词的总数量,其中0<k≤|F|,k属于整数,fk表示每个特征词;
C={c1,c2,...,cs,...,c|C|}表示文档类别集合,cs表示每个文档类别,|C|表示文档类别的数量;
TF={tf11,...,tfij,...,tfMN}表示分词频率集合,其中i代表分词的序号,j代表文档的序号,M代表所有文档出现的分词数目,N代表语料库所有文档的数目,该集合中的元素代表分词ti在文档dj中出现的频率;
步骤1-2:将语料库中的所有文档转换为容易读取的文档,然后将语料库D中易读取的文档进行分词处理,得到的分词结果包括分词的内容和分词的类型,将这些分词处理后的文档作为MapReduce的输入分片,将这些输入分片分布在多个DataNode上,方便进行并行处理;
步骤1-3:将这些输入分片中的分词进行简化处理,简化处理包括去除停顿特征词、标点符号以及单个字的分词,简化处理的过程如下:
由任务A进行处理,所述任务A的输入分片即是分词处理后的文档,其中每个文档都作为单独输入数据分片,任务A的Map阶段的输入键值对为<<filename,texttype>,context>,filename代表文件名,texttype代表文档的分类名称,context代表文档的所有内容,任务A的Map阶段根据文档中的分词类型,去除停顿特征词和长度小于一个汉字长度的分词,任务A的Map阶段的输出键值对为<<filename,texttype,word>,1>,其中word代表每个文档中的分词,其中值1,代表出现一次,该输出键值对作为任务A的Reduce阶段的输入。
所述步骤2中,利用MapReduce计算分词的词频,通过连续的3个子Mapreduce进行分词的互信息值的计算。
所述步骤2包括以下步骤:
步骤2-1:任务A的Reduce阶段,统计相同的文件名和分词的键值对,即得到每个文档的中所有分词出现的次数,<<filename,texttype,word>,wordcount>为任务A的输出结果,wordcount代表每个文档中分词的出现频率,将任务A的输出结果保存到分词频率集合TF中;
步骤2-2:建立任务B,把任务A的输出结果则作为的任务B的输入;统计出所有分词在所有类别中的互信息值MI(ti,cj):
MI ( t i , c j ) = log 2 [ p ( t i | c j ) p ( t i ) ] = log 2 [ &alpha; &CenterDot; M N ( &alpha; + &beta; ) ] - - - ( 1 )
其中:p(ti|cj)代表在所有cj类别的文档中分词ti出现的文档频率;p(ti)代表分词ti的在所有类别的文档中出现的频率;α代表分词ti出现在cj类别文档中的频率;β代表分词ti出现在非cj类别文档中的频率;α+β即代表分词ti在所有类别文档中出现的频率。
步骤2-3:任务B的Map阶段,经过任务B的映射处理所有出现分词word以及其所出现的类别文档中,数量置1,即<<filename,texttype,word>,1>,任务B的Reduce阶段将Map阶段的所有输出中相同的分词以及类型集中到同一化简任务中,即统计出分词word在某一类别中出现的次数,即α,则任务B的最终输出为<<texttype,word>,<filename,α>>;
步骤2-4:建立任务C,计算α+β;任务B的最终输出作为任务C的输入,任务C的Map阶段统计同一分词以及其出现的文件名作为作为键值,值中记录α,并计数一次,即<word,<filename,texttype,α,1>>,然后化简阶段整合到同一化简任务中,统计出分词在所有类别文档中出现的次数,即α+β,则任务C的最终输出为<<word,texttype>,<α,α+β>>;
步骤2-5:建立任务D,根据任务C的输出计算MI(ticj);Map阶段根据输入键值对带入公式(1)进行计算,然后输出<<word,texttype>,MI(ticj)>,Reduce阶段把相同文档类别的键值对输入到同一化简任务中,Reduce阶段按照MI(ticj)进行排序,并选择出每个类别中所有分词中互信息值较高的分词作为最终该类别的特征词集合作为最终的类别特征词,即<texttype,word>,将特征词保存到特征词集合F中。
所述步骤3中,定义向量代表文档dj中所有特征词的权值向量,0<k≤|F|,k属于整数,wkj表示文档dj中特征词fk的权值大小,ti表示文档dj中的分词,wkj表示为:
w kj = { tf ij &Sigma; j = 0 N tf ij | tf ij &Element; TF , f k &Element; F , t i = f k , 0 &le; i < M } - - - ( 2 )
定义集合即为最终所有的文档向量集合,即最终的文档表示。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于分布式互信息文档特征提取方法,其特征在于:所述方法包括以下步骤:
步骤1:进行文档集合,并对文档进行初始化;
步骤2:计算文档中分词出现的频率和不同分类中分词的互信息值,从而选择出特征词集合;
步骤3:计算所有特征词的权值,从而形成最终的文档向量集合;
所述步骤1中,对文档进行初始化包括文档的分词简化处理以及分布式表示;
所述步骤1包括以下步骤:
步骤1-1:设D={d1,d2,...,dj,...,dN}表示语料库,dj表示语料库中每个文档,N表示语料库所有文档的数目;
F={f1,f2,...,fk,...,f|F|}表示特征词集合,|F|表示特征词的总数量,其中0<k≤|F|,k属于整数,fk表示每个特征词;
C={c1,c2,...,cs,...,c|C|}表示文档类别集合,cs表示每个文档类别,|C|表示文档类别的数量;
TF={tf11,...,tfij,...,tfMN}表示分词频率集合,其中i代表分词的序号,j代表文档的序号,M代表所有文档出现的分词数目,N代表语料库所有文档的数目,该集合中的元素代表分词ti在文档dj中出现的频率;
步骤1-2:将语料库中的所有文档转换为容易读取的文档,然后将语料库D中易读取的文档进行分词处理,得到的分词结果包括分词的内容和分词的类型,将这些分词处理后的文档作为MapReduce的输入分片,将这些输入分片分布在多个DataNode上,方便进行并行处理;
步骤1-3:将这些输入分片中的分词进行简化处理,简化处理包括去除停顿特征词、标点符号以及单个字的分词,简化处理的过程如下:
由任务A进行处理,所述任务A的输入分片即是分词处理后的文档,其中每个文档都作为单独输入数据分片,任务A的Map阶段的输入键值对为<<filename,texttype>,context>,filename代表文件名,texttype代表文档的分类名称,context代表文档的所有内容,任务A的Map阶段根据文档中的分词类型,去除停顿特征词和长度小于一个汉字长度的分词,任务A的Map阶段的输出键值对为<<filename,texttype,word>,1>,其中word代表每个文档中的分词,其中值1,代表出现一次,该输出键值对作为任务A的Reduce阶段的输入。
2.根据权利要求1所述的基于分布式互信息文档特征提取方法,其特征在于:所述步骤2中,利用MapReduce计算分词的词频,通过连续的3个子Mapreduce进行分词的互信息值的计算。
3.根据权利要求2所述的基于分布式互信息文档特征提取方法,其特征在于:所述步骤2包括以下步骤:
步骤2-1:任务A的Reduce阶段,统计相同的文件名和分词的键值对,即得到每个文档的中所有分词出现的次数,<<filename,texttype,word>,wordcount>为任务A的输出结果,wordcount代表每个文档中分词的出现频率,将任务A的输出结果保存到分词频率集合TF中;
步骤2-2:建立任务B,把任务A的输出结果则作为的任务B的输入;统计出所有分词在所有类别中的互信息值MI(ti,cj):
M I ( t i , c j ) = log 2 &lsqb; p ( t i | c j ) p ( t i ) &rsqb; = log 2 &lsqb; &alpha; &CenterDot; M N ( &alpha; + &beta; ) &rsqb; - - - ( 1 )
其中:p(ti|cj)代表在所有cj类别的文档中分词ti出现的文档频率;p(ti)代表分词ti的在所有类别的文档中出现的频率;α代表分词ti出现在cj类别文档中的频率;β代表分词ti出现在非cj类别文档中的频率;α+β即代表分词ti在所有类别文档中出现的频率;
步骤2-3:任务B的Map阶段,经过任务B的映射处理所有出现分词word以及其所出现的类别文档中,数量置1,即<<filename,texttype,word>,1>,任务B的Reduce阶段将Map阶段的所有输出中相同的分词以及类型集中到同一化简任务中,即统计出分词word在某一类别中出现的次数,即α,则任务B的最终输出为<<texttype,word>,<filename,α>>;
步骤2-4:建立任务C,计算α+β;任务B的最终输出作为任务C的输入,任务C的Map阶段统计同一分词以及其出现的文件名作为作为键值,值中记录α,并计数一次,即<word,<filename,texttype,α,1>>,然后化简阶段整合到同一化简任务中,统计出分词在所有类别文档中出现的次数,即α+β,则任务C的最终输出为<<word,texttype>,<α,α+β>>;
步骤2-5:建立任务D,根据任务C的输出计算MI(ticj);Map阶段根据输入键值对带入公式(1)进行计算,然后输出<<word,texttype>,MI(ticj)>,Reduce阶段把相同文档类别的键值对输入到同一化简任务中,Reduce阶段按照MI(ticj)进行排序,并选择出每个类别中所有分词中互信息值较高的分词作为最终该类别的特征词集合作为最终的类别特征词,即<texttype,word>,将特征词保存到特征词集合F中。
4.根据权利要求1所述的基于分布式互信息文档特征提取方法,其特征在于:所述步骤3中,定义向量代表文档dj中所有特征词的权值向量,0<k≤|F|,k属于整数,wkj表示文档dj中特征词fk的权值大小,ti表示文档dj中的分词,wkj表示为:
w k j = { tf i j &Sigma; j = 0 N tf i j | tf i j &Element; T F , f k &Element; F , t i = f k , 0 &le; i < M } - - - ( 2 )
定义集合即为最终所有的文档向量集合,即最终的文档表示。
CN201310138475.2A 2013-04-19 2013-04-19 一种基于分布式互信息文档特征提取方法 Active CN103279478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310138475.2A CN103279478B (zh) 2013-04-19 2013-04-19 一种基于分布式互信息文档特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310138475.2A CN103279478B (zh) 2013-04-19 2013-04-19 一种基于分布式互信息文档特征提取方法

Publications (2)

Publication Number Publication Date
CN103279478A CN103279478A (zh) 2013-09-04
CN103279478B true CN103279478B (zh) 2016-08-10

Family

ID=49061998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310138475.2A Active CN103279478B (zh) 2013-04-19 2013-04-19 一种基于分布式互信息文档特征提取方法

Country Status (1)

Country Link
CN (1) CN103279478B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140372457A1 (en) * 2013-06-17 2014-12-18 Tencent Technology Shenzhen Company Limited Method and device for processing data
CN103530345A (zh) * 2013-10-08 2014-01-22 北京百度网讯科技有限公司 短文本特征扩展及拟合特征库构建方法、装置
CN103955489B (zh) * 2014-04-15 2017-09-22 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
CN104050242B (zh) * 2014-05-27 2018-03-27 哈尔滨理工大学 基于最大信息系数的特征选择、分类方法及其装置
CN105488022A (zh) * 2014-09-24 2016-04-13 中国电信股份有限公司 一种文本特征提取系统和方法
CN104408034B (zh) * 2014-11-28 2017-03-22 武汉数为科技有限公司 一种面向文本大数据的中文分词方法
CN104462544A (zh) * 2014-12-24 2015-03-25 大连海天兴业科技有限公司 一种面向乘客需求的地铁/高铁车载服务器视频更新方法
CN104573027B (zh) * 2015-01-13 2018-07-24 清华大学 一种从文档集中挖掘特征词的系统和方法
CN105117466A (zh) * 2015-08-27 2015-12-02 中国电信股份有限公司湖北号百信息服务分公司 一种互联网信息筛选系统及方法
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法
CN106202498A (zh) * 2016-07-20 2016-12-07 淮阴工学院 一种基于分类语料库‑关键词词频‑记录关联的网络行为习惯量化方法
CN108108346B (zh) * 2016-11-25 2021-12-24 广东亿迅科技有限公司 文档的主题特征词抽取方法及装置
CN107766323B (zh) * 2017-09-06 2021-08-31 淮阴工学院 一种基于互信息和关联规则的文本特征提取方法
CN110069630B (zh) * 2019-03-20 2023-07-21 重庆信科设计有限公司 一种改进的互信息特征选择方法
CN110096705B (zh) * 2019-04-29 2023-09-08 扬州大学 一种无监督的英文句子自动简化算法
CN112948589B (zh) * 2021-05-13 2021-07-30 腾讯科技(深圳)有限公司 文本分类方法、装置和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763431A (zh) * 2010-01-06 2010-06-30 电子科技大学 基于海量网络舆情信息的pl聚类处理方法
CN102147813A (zh) * 2011-04-07 2011-08-10 江苏省电力公司 一种电力云环境下基于k最近邻算法的文档自动分类方法
US8234285B1 (en) * 2009-07-10 2012-07-31 Google Inc. Context-dependent similarity measurements
CN102638456A (zh) * 2012-03-19 2012-08-15 杭州海康威视系统技术有限公司 基于云计算的海量实时视频码流智能分析方法及其系统
CN102662952A (zh) * 2012-03-02 2012-09-12 成都康赛电子科大信息技术有限责任公司 一种基于层次的中文文本并行数据挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8234285B1 (en) * 2009-07-10 2012-07-31 Google Inc. Context-dependent similarity measurements
CN101763431A (zh) * 2010-01-06 2010-06-30 电子科技大学 基于海量网络舆情信息的pl聚类处理方法
CN102147813A (zh) * 2011-04-07 2011-08-10 江苏省电力公司 一种电力云环境下基于k最近邻算法的文档自动分类方法
CN102662952A (zh) * 2012-03-02 2012-09-12 成都康赛电子科大信息技术有限责任公司 一种基于层次的中文文本并行数据挖掘方法
CN102638456A (zh) * 2012-03-19 2012-08-15 杭州海康威视系统技术有限公司 基于云计算的海量实时视频码流智能分析方法及其系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Web文本特征提取方法的研究与发展;庞景安;《情报理论与实践》;20060530;第29卷(第3期);第338-340,367页 *
一种基于MapReduce的分布式文本数据过滤模型研究;李虎等;《信息网络安全》;20110910(第9期);第91-93,119页 *
基于文本内容的敏感数据识别方法研究与实现;李伟伟等;《计算机工程与设计》;20130416;第34卷(第4期);第1202-1206页 *

Also Published As

Publication number Publication date
CN103279478A (zh) 2013-09-04

Similar Documents

Publication Publication Date Title
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN104112026B (zh) 一种短信文本分类方法及系统
CN103593418B (zh) 一种面向大数据的分布式主题发现方法及系统
CN111581949B (zh) 学者人名的消歧方法、装置、存储介质及终端
Bates et al. Counting clusters in twitter posts
CN106095737A (zh) 文档相似度计算方法及相似文档全网检索跟踪方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
Liang et al. Express supervision system based on NodeJS and MongoDB
CN103955489A (zh) 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
Hossny et al. Feature selection methods for event detection in Twitter: a text mining approach
CN102629272A (zh) 一种基于聚类的考试系统试题库优化方法
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN104536830A (zh) 一种基于MapReduce的KNN文本分类方法
CN106372122A (zh) 一种基于维基语义匹配的文档分类方法及系统
CN104866606A (zh) 一种MapReduce并行化大数据文本分类方法
Campbell et al. Content+ context networks for user classification in twitter
CN106776724B (zh) 一种题目分类方法及系统
CN109325096B (zh) 一种基于知识资源分类的知识资源搜索系统
Tian A mathematical indexing method based on the hierarchical features of operators in formulae
Fu et al. Research on knowledge map construction in intelligentized content website
Yong-Sheng et al. The method for discovering technology competitor groups based on graph clustering
Chen et al. Text classification using SVM with exponential kernel
Jiang et al. The analysis of china’s integrity situation based on big data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160406

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: China Electric Power Research Institute

Applicant after: State Grid Smart Grid Institute

Applicant after: Information & Telecommunication Branch of State Grid Jiangsu Electric Power Company

Applicant after: Jiangsu Electric Power Company

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: China Electric Power Research Institute

Applicant before: Information & Telecommunication Branch of State Grid Jiangsu Electric Power Company

Applicant before: Jiangsu Electric Power Company

CB02 Change of applicant information

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: China Electric Power Research Institute

Applicant after: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE

Applicant after: Information & Telecommunication Branch of State Grid Jiangsu Electric Power Company

Applicant after: Jiangsu Electric Power Company

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: China Electric Power Research Institute

Applicant before: State Grid Smart Grid Institute

Applicant before: Information & Telecommunication Branch of State Grid Jiangsu Electric Power Company

Applicant before: Jiangsu Electric Power Company

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant