CN102799666A - 一种基于频繁词集的网络新闻自动文本分类的方法 - Google Patents

一种基于频繁词集的网络新闻自动文本分类的方法 Download PDF

Info

Publication number
CN102799666A
CN102799666A CN2012102445585A CN201210244558A CN102799666A CN 102799666 A CN102799666 A CN 102799666A CN 2012102445585 A CN2012102445585 A CN 2012102445585A CN 201210244558 A CN201210244558 A CN 201210244558A CN 102799666 A CN102799666 A CN 102799666A
Authority
CN
China
Prior art keywords
frequent
word set
word
sup
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102445585A
Other languages
English (en)
Other versions
CN102799666B (zh
Inventor
袁满
欧阳元新
赵海
熊璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rock Technology Co., Ltd.
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201210244558.5A priority Critical patent/CN102799666B/zh
Publication of CN102799666A publication Critical patent/CN102799666A/zh
Application granted granted Critical
Publication of CN102799666B publication Critical patent/CN102799666B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于频繁词集的网络新闻自动文本分类的方法,该方法具体为:步骤(1)数据预处理和特征选择;步骤(2)提取频繁词集;步骤(3)基于频繁词集的文本表示;步骤(4)训练分类器并对文本进行分类。本发明能够利用频繁词集的新的约束参数AD-Sup,使频繁特征具有更好的类别区分能力。并且针对频繁特征上的数据稀疏性问题,提出了基于特征相似度的权重计算方法,有效的降低了文档在新增频繁词特征上的数据稀疏性。

Description

一种基于频繁词集的网络新闻自动文本分类的方法
技术领域
本发明涉及信息检索、信息过滤、搜索引擎、推荐系统等技术领域,特别涉及一种基于频繁词集的网络新闻自动文本分类的方法。
背景技术
随着互联网的发展,海量的网络数据使得有效的检索和管理变得越来越重要。由于绝大多数信息仍以文本形式呈现,基于文本内容的信息检索和数据挖掘成为备受关注的研究领域。文本分类(Text categorization)是文本挖掘中的重要内容之一,是在预先标注的类别集合上,对未标注的文本(文档)根据内容判定其类别。作为一种有效的信息组织和管理方法,文本分类便于用户和信息系统准确定位所需信息,在信息检索、信息过滤、搜索引擎、推荐系统等领域有着广泛的应用。目前文本分类的常用方法主要是基于机器学习的,典型的包括朴素贝叶斯、决策树、k-NN、Rocchio和SVM等。在这些方法中,文本的表示是基于向量空间模型(VSM)的。在VSM中,文本内容被视为“Bag of words”(BOW),BOW的处理方法忽略了词条之间的关联性,不能保留文本的上下文和语法信息,而这种关联性却在自然语言中对文本内容所包含的具体含义有着重要的影响。
频繁项目集是数据挖掘中的基本概念,指共同出现次数即支持度高于一定阈值的一组项目集合。频繁项目集隐含了其中各项之间的关联性,当其中的项目是文本中的词条,频繁项目集也就包含了更多的上下文信息。
发明内容
本发明要解决的技术问题为:克服现有技术的不足,提供一种基于频繁词集的文本分类方法,该方法考虑文本上下文和语法信息,提出了一种新的文本表示策略,通过初始单词和频繁词集共同构建特征空间,并提高了文本分类的准确性。
本发明解决上述技术问题的技术方案为:一种基于频繁词集的网络新闻自动文本分类的方法,该方法具体步骤如下:
步骤(1)、数据预处理和特征选取:利用词干提取和停等词去除来进行文本数据预处理,利用信息增益来对文本数据进行特征选取,利用基于特征相似度的权重计算方法,对包含部分频繁词集的特征进行权重预测,有效的降低了文档在新增频繁词特征上的数据稀疏性。
步骤(2)、频繁词集抽取:从步骤(1)生成的候选词集中发现支持度高于最低支持度的词集。频繁词集抽取的过程利用Apriori算法,通过宽度优先的策略逐级生成各项频繁项目集;通过AD-Sup对提起的频繁集进行了优化
步骤(3)、文本表示:把频繁词集和初始单词作为一个整体,特征空间同时包含单词和频繁词集,并且利用基于相似度的权重的计算方法解决频繁集特征的数据稀释问题;
步骤(4)、文本分类:在训练集上构建分类器,并且在测试集上进行分类。利用的分类器是SVM。
所述步骤(2)中对候选词集的频繁词抽取,具体如下:
步骤①、采用新的文本分类的频繁集生成约束参数:均偏差支持率。假定文档集合包含n个类别{class1,…classi,…classn},令FS表示词集,t为词集FS中的词条,则AD-Sup的表达式为公式(1),而在公式(2)中,Sup(FS)i指的是词集FS在类别i中的支持数,在公式(3)中,df(t)指的是词条t的文档频率:
AD - Sup ( FS ) = Σ i = 1 n { Sup ( FS ) i - Ave ( Sup ( FS ) ) } 2 Ave ( Sup ( FS ) ) - - - ( 1 )
Ave ( Sup ( FS ) ) = Σ i = 1 n Sup ( FS ) i n - - - ( 2 )
Sup(FS)i=min{df(t)1...df(t)m}                               (3)
步骤②、利用步骤①产生的新的约束参数,对候选词集进行频繁词抽取,抽取的过程利用了Apriori算法,通过宽度优先的策略逐级生成各项频繁项目集,通过AD-Sup对提起的频繁集进行了优化;
所述步骤(3)中的文本的表示方法,具体如下:
步骤A、把在步骤(2)中得到的频繁词集和初始单词作为一个整体考虑,初始单词视为只包含一个频繁项的单元词集。因此全局特征空间就包含了项目数从1到n的各级词集;
步骤B、采用一种基于特征相似度的权重计算方法来解决数据稀疏性的问题。当一个文档包含某词集的一部分时,该部分词集即为原词集特征的一个相似特征。相似特征的权重可以通过原词集和部分词集之间的相似度来获得。若FS'为相似特征,FS为原特征,W为特征权重,则二者的相似度可以通过公式(4)来计算:
FeatureSimilarity ( FS ′ , FS ) = Σ i = 1 n W i ′ × W i Σ i = 1 n ( W i ′ ) 2 × Σ i = 1 n ( W i ) 2 - - - ( 4 )
步骤C、最终,FS'的权重为FS'中的词频均值乘以FS'和FS的相似度:
W ( FS ′ ) = ( Σ i = 1 n TF i ′ ) n × FeatureSimilarity ( FS ′ , FS ) - - - ( 5 )
本发明与现有技术相比的优点在于:
本发明提出了新的约束参数,提取适用于分类的频繁词集特征,用频繁词集作为补充特征来表示文本,更多的保留了单词的上下文信息;针对数据稀疏性问题,提出了基于特征相似度的权重计算方法,对包含部分频繁词集的特征进行权重预测,有效的降低了文档在新增频繁词特征上的数据稀疏性,提高了分类效果。
附图说明
图1为本发明的概要工作流程图;
图2为本发明的详细工作流程图;
图3为Reuters-21578数据集上的分类结果;
图4为WebKB数据集上的分类结果。
具体实施方式
现结合附图说明本发明的实施例。
如图2所示,本发明包括四个主要步骤:
步骤(1)、数据预处理和特征选取:利用词干提取和停等词去除来进行文本数据预处理,利用信息增益来对文本数据进行特征选取,利用基于特征相似度的权重计算方法,对包含部分频繁词集的特征进行权重预测,有效的降低了文档在新增频繁词特征上的数据稀疏性。
步骤(2)、频繁词集抽取:从步骤(1)生成的候选词集中发现支持度高于最低支持度的词集。频繁词集抽取的过程利用Apriori算法,通过宽度优先的策略逐级生成各项频繁项目集;
步骤①、采用新的文本分类的频繁集生成约束参数:均偏差支持率。假定文档集合包含n个类别{class1,…classi,…classn},令FS表示词集,t为词集FS中的词条,则AD-Sup的表达式为公式(1),而在公式(2)中,Sup(FS)i指的是词集FS在类别i中的支持数,在公式(3)中,df(t)指的是词条t的文档频率:
AD - Sup ( FS ) = Σ i = 1 n { Sup ( FS ) i - Ave ( Sup ( FS ) ) } 2 Ave ( Sup ( FS ) ) - - - ( 1 )
Ave ( Sup ( FS ) ) = Σ i = 1 n Sup ( FS ) i n - - - ( 2 )
Sup(FS)i=min{df(t)1...df(t)m}                               (3)
步骤②、利用步骤①产生的新的约束参数,对候选词集进行频繁词抽取,抽取的过程利用了Apriori算法,通过宽度优先的策略逐级生成各项频繁项目集;
步骤(3)、文本表示:把频繁词集和初始单词作为一个整体,特征空间同时包含单词和频繁词集并且利用基于相似度的权重的计算方法解决数据稀释的问题;
步骤A、我们把在步骤(2)中得到的频繁词集和初始单词作为一个整体考虑,初始单词视为只包含一个频繁项的单元词集。因此全局特征空间就包含了项目数从1到n的各级词集;
步骤B、采用一种基于特征相似度的权重计算方法来解决数据稀疏性的问题。当一个文档包含某词集的一部分时,该部分词集即为原词集特征的一个相似特征。相似特征的权重可以通过原词集和部分词集之间的相似度来获得。若FS'为相似特征,FS为原特征,W为特征权重,则二者的相似度可以通过公式(4)来计算:
FeatureSimilarity ( FS ′ , FS ) = Σ i = 1 n W i ′ × W i Σ i = 1 n ( W i ′ ) 2 × Σ i = 1 n ( W i ) 2 - - - ( 4 )
步骤C、最终,FS'的权重为FS'中的词频均值乘以FS'和FS的相似度:
W ( FS ′ ) = ( Σ i = 1 n TF i ′ ) n × FeatureSimilarity ( FS ′ , FS ) - - - ( 5 )
步骤(4)、文本分类:在训练集上构建分类器,并且在测试集上进行分类。利用的分类器是SVM;
本发明提出了一种基于频繁词集的网络新闻自动文本分类的方法,还可以应用于其他领域,如邮件过滤,文本检索,信息管理等,在频繁词集的选取中,我们引入了一个新的约束参数AD-Sup,充分考虑了频繁词集在各类别中的分布差异性,使所选取的频繁词集特征具有更好的类别区分能力。针对数据稀疏性问题,我们提出了基于特征相似度的权重计算方法,对包含部分频繁词集的特征进行权重预测,有效的降低了文档在新增频繁词特征上的数据稀疏性。在Reuters-21578和WebKB数据集上,训练SVM进行文本分类,通过与单特征训练下的SVM对比分类结果验证了特征组合策略的有效性,并对比了不同权重计算方法下的分类结果。结果表明,通过AD-Sup选取的频繁词集和特征组合策略可以有效提高SVM的分类结果。结果如图3,图4所示。
本发明未详细阐述的部分属于本领域公知技术。
以上实施例仅用以说明本发明的技术方案而非限制在具体实施方式的范围内,对本技术领域的普通技术人员来讲,只要各种变化在权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种基于频繁词集的网络新闻自动文本分类的方法,其特征在于:该方法具体步骤如下:
步骤(1)、数据预处理和特征选取:利用词干提取和停等词去除来进行文本数据预处理,利用信息增益来对文本数据进行特征选取;
步骤(2)、频繁词集抽取:从步骤(1)生成的候选词集中发现支持度高于最低支持度的词集;频繁词集抽取的过程利用Apriori算法,通过宽度优先的策略逐级生成各项频繁项目集;
步骤(3)、文本表示:把频繁词集和初始单词作为一个整体,初始单词视为只包含一个频繁项的单元词集;当频繁词集数量为0,特征空间就是由传统的bag of words组成,而当初始单词数量为0,那么特征空间就仅包含有频繁词集;并且利用基于相似度的权重的计算方法解决数据稀释的问题;
步骤(4)、文本分类:在训练集上构建分类器,并且在测试集上进行分类,利用的分类器是SVM。
2.根据权利要求1所述的一种基于频繁词集的网络新闻自动文本分类的方法,其特征在于:所述步骤(2)中对候选词集的频繁词抽取,具体如下:
步骤①、采用新的文本分类的频繁集生成约束参数:均偏差支持率;假定文档集合包含n个类别{class1,…classi,…,classn},令FS表示词集,t为词集FS中的词条,则AD-Sup的表达式为公式(1),而在公式(2)中,Sup(FS)i指的是词集FS在类别i中的支持数,在公式(3)中,df(t)指的是词条t的文档频率:
AD - Sup ( FS ) = Σ i = 1 n { Sup ( FS ) i - Ave ( Sup ( FS ) ) } 2 Ave ( Sup ( FS ) ) - - - ( 1 )
Ave ( Sup ( FS ) ) = Σ i = 1 n Sup ( FS ) i n - - - ( 2 )
Sup(FS)i=min{df(t)1...df(t)m}                  (3)
步骤②、利用步骤①产生的新的约束参数,对候选词集进行频繁词抽取,抽取的过程利用了Apriori算法,通过宽度优先的策略逐级生成各项频繁项目集;频繁集的提取是先用传统的支持度min-sup作提取,然后用提出的新的约束参数,对提取后的频繁集进行优化,并不是只用新约束参数提取一次。
3.根据权利要求1或2所述的一种基于频繁词集的网络新闻自动文本分类的方法,其特征在于:所述步骤(3)中的文本的表示方法,具体如下:
步骤A、把在步骤(2)中得到的频繁词集和初始单词作为一个整体考虑,初始单词视为只包含一个频繁项的单元词集;因此全局特征空间就包含了项目数从1到n的各级词集;
步骤B、采用一种基于特征相似度的权重计算方法来解决数据稀疏性的问题;当一个文档包含某词集的一部分时,该部分词集即为原词集特征的一个相似特征;相似特征的权重可以通过原词集和部分词集之间的相似度来获得;若FS'为相似特征,FS为原特征,W为特征权重,则二者的相似度可以通过公式(4)来计算:
FeatureSimilarity ( FS ′ , FS ) = Σ i = 1 n W i ′ × W i Σ i = 1 n ( W i ′ ) 2 × Σ i = 1 n ( W i ) 2 - - - ( 4 )
步骤C、最终,FS'的权重为FS'中的词频均值乘以FS'和FS的相似度:
W ( FS ′ ) = ( Σ i = 1 n TF i ′ ) n × FeatureSimilarity ( FS ′ , FS ) - - - ( 5 ) .
CN201210244558.5A 2012-07-13 2012-07-13 一种基于频繁词集的网络新闻自动文本分类的方法 Expired - Fee Related CN102799666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210244558.5A CN102799666B (zh) 2012-07-13 2012-07-13 一种基于频繁词集的网络新闻自动文本分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210244558.5A CN102799666B (zh) 2012-07-13 2012-07-13 一种基于频繁词集的网络新闻自动文本分类的方法

Publications (2)

Publication Number Publication Date
CN102799666A true CN102799666A (zh) 2012-11-28
CN102799666B CN102799666B (zh) 2015-01-21

Family

ID=47198776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210244558.5A Expired - Fee Related CN102799666B (zh) 2012-07-13 2012-07-13 一种基于频繁词集的网络新闻自动文本分类的方法

Country Status (1)

Country Link
CN (1) CN102799666B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095209A (zh) * 2014-04-21 2015-11-25 北京金山网络科技有限公司 文档聚类方法及装置、网络设备
CN108563735A (zh) * 2018-04-10 2018-09-21 国网浙江省电力有限公司 一种基于词语关联的数据分割搜索方法
CN110489652A (zh) * 2019-08-23 2019-11-22 重庆邮电大学 基于用户行为检测的新闻推荐方法、系统及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置
CN101853277A (zh) * 2010-05-14 2010-10-06 南京信息工程大学 一种基于分类和关联分析的漏洞数据挖掘方法
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱江涛: "基于加权频繁项集的文本分类规则挖掘", 《四川大学学报(工程科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095209A (zh) * 2014-04-21 2015-11-25 北京金山网络科技有限公司 文档聚类方法及装置、网络设备
CN105095209B (zh) * 2014-04-21 2019-05-10 珠海豹好玩科技有限公司 文档聚类方法及装置、网络设备
CN108563735A (zh) * 2018-04-10 2018-09-21 国网浙江省电力有限公司 一种基于词语关联的数据分割搜索方法
CN110489652A (zh) * 2019-08-23 2019-11-22 重庆邮电大学 基于用户行为检测的新闻推荐方法、系统及计算机设备

Also Published As

Publication number Publication date
CN102799666B (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
CN106844424A (zh) 一种基于lda的文本分类方法
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN108763484A (zh) 一种基于lda主题模型的法条推荐方法
CN101021838A (zh) 文本处理方法和系统
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN101630312A (zh) 一种用于问答平台中问句的聚类方法及系统
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN101393555A (zh) 一种垃圾博客检测方法
CN101996241A (zh) 一种基于贝叶斯算法的内容过滤方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN103268348A (zh) 一种用户查询意图识别方法
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN103309862A (zh) 一种网页类型识别方法和系统
CN103412878B (zh) 基于领域知识地图社区结构的文档主题划分方法
CN104050556A (zh) 一种垃圾邮件的特征选择方法及其检测方法
CN104731958A (zh) 一种面向用户需求倾向的云制造服务推荐方法
CN100543735C (zh) 基于文档结构的文档相似性度量方法
CN102073654A (zh) 生成与维护网页内容抽取模板的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Ouyang Yuanxin

Inventor after: Yuan Man

Inventor after: Zhao Hai

Inventor after: Xiong Zhang

Inventor before: Yuan Man

Inventor before: Ouyang Yuanxin

Inventor before: Zhao Hai

Inventor before: Xiong Zhang

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: YUAN MAN OUYANG YUANXIN ZHAO HAI XIONG ZHANG TO: OUYANG YUANXIN YUAN MAN ZHAO HAI XIONG ZHANG

C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170223

Address after: 100055 Beijing City, Guang'an Road, No. 9, the country voted wealth Plaza, building 3, floor 2,

Patentee after: Beijing Rock Technology Co., Ltd.

Address before: 100191 Haidian District, Xueyuan Road, No. 37,

Patentee before: Beihang University

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150121

Termination date: 20190713

CF01 Termination of patent right due to non-payment of annual fee