CN101968801A - 一种单篇文本关键词的提取方法 - Google Patents

一种单篇文本关键词的提取方法 Download PDF

Info

Publication number
CN101968801A
CN101968801A CN 201010290828 CN201010290828A CN101968801A CN 101968801 A CN101968801 A CN 101968801A CN 201010290828 CN201010290828 CN 201010290828 CN 201010290828 A CN201010290828 A CN 201010290828A CN 101968801 A CN101968801 A CN 101968801A
Authority
CN
China
Prior art keywords
text
field
single piece
collected works
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010290828
Other languages
English (en)
Inventor
骆祥峰
梁国宁
殷晓波
张顺香
徐炜民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN 201010290828 priority Critical patent/CN101968801A/zh
Publication of CN101968801A publication Critical patent/CN101968801A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种单篇文本关键词的提取方法,该方法具体步骤如下:(1)打开领域文集中的单篇文本;(2)文本内容预处理;(3)提取有意义的实词;(4)统计实词的词频;(5)打开领域文集的所有文本;(6)统计实词在领域文集中的篇频;(7)统计搜索引擎检索实词所返回的页面数;(8)用改进的TFIDF词权公式计算单篇文本中所有实词的权重,从中提取一定比例的关键词。该方法能够弥补TFIDF算法的不足,能避免无关领域文集对关键词提取的影响,提高关键词的提取精度,保持关键词提取结果的领域特性。

Description

一种单篇文本关键词的提取方法
技术领域
本发明涉及一种单篇文本关键词的提取方法,具体是涉及一种对TFIDF方法提取领域文集中单篇文本关键词的改进方法。
背景技术
单篇文本关键词是文本知识流生成、语义链网络构建、文本语境复杂度和信息量中文本表示的基本元素。单篇文本关键词的提取精度直接影响到文本分类、聚类、词语关联分析、文本自动摘要、文本过滤、信息检索、话题检测、标注网页等文本信息处理的质量与效果。目前对单篇文本关键词提取技术的研究主要有:TFIDF方法、朴素贝叶斯分类法、互信息方法、最大熵模型法、最大似然性和前缀树法等。
目前应用最广的单篇文本关键词的提取方法是TFIDF方法。TFIDF方法认为,单篇文本的关键词应该在文本中经常出现,并且在其他文集中很少出现。TFIDF方法用词权公式计算一个词对于文集中的单篇文本的重要程度。TFIDF方法的词权就是词频TF(Term Frequency)与逆文档频率IDF(Inverse Document Frequency)的乘积。TFIDF词权公式如下:
TFIDFt=TFt×IDFt=TFt×log(N/nt)
其中,TFt为词t的词频,也就是词t在文本中出现的次数。IDFt为词t的逆文档频率,它通过log(N/nt)计算;N为文集的文本总数;nt为词t的篇频,也就是文集中包含词t的文本数。词的逆文档频率与篇频成反比,篇频越高则逆文档频率越低。所以,通过检验词的逆文档频率可以过滤掉那些在文集里最普遍出现的高篇频词。
但是用TFIDF方法提取领域文集中的单篇文本关键词时,存在以下不足:
(1)TFIDF方法中无关领域文集涉及的领域和文本总数会降低单篇文本关键词的提取质量。
(2)由于词的逆文档频率与词在文集中出现的篇频成反比,TFIDF词权会倾向于低篇频词,导致单篇文本关键词的提取精度降低。
(3)当领域文集属于单一领域时,一些代表领域整体的高篇频也会被过滤掉,最终关键词提取结果只能保留文本特性而不能保持领域特性。
发明内容
本发明的目的在于针对TFIDF方法的不足,提供一种单篇文本关键词的提取方法,该方法能避免无关领域文集对关键词提取结果的影响,提高关键词的提取精度,还能提高关键词提取结果的领域特性。
为了达到上述的目的,本发明的构思如下:采用搜索引擎辅助法提取单篇文本的关键词,提高领域文集中单篇文本关键词的提取精度,提高关键词提取的领域特性;所述的搜索引擎辅助法是:通过搜索引擎检验词的普遍性,再通过改进的TFIDF词权公式提取关键词。
根据上述的发明构思,本发明采用下述技术方案:
一种单篇文本关键词的提取方法,其特征在于,其具体步骤如下:
(1)打开领域文集中的单篇文本;
(2)文本内容预处理,包括分词、词性标注;
(3)提取有意义的实词;
(4)统计实词的词频;
(5)打开领域文集的所有文本;
(6)统计实词在领域文集中的篇频;
(7)统计搜索引擎检索实词所返回的页面数;
(8)用改进的TFIDF词权公式计算单篇文本所有实词的权重,从中提取一定比例的关键词。
所述的改进的TFIDF词权公式,记为TFMIDF,其计算式如下:
TFMDFt=TFt×(α*DIDFt+(1-α)*SIDFt)
其中TFt是词t在文本中出现的次数;DIDFt是领域文集中的逆文档频率,SIDFt是利用搜索引擎计算的逆文档频率;α是用来调节原始DIDF与SIDF之间的权重;当α=1时,TFNDFt=TFt×DIDFt,词权赋值依赖领域文集数;当α=0时,TFMDFt=TFt×SIDFt,词权赋值不依赖领域文集数,提取关键词直接面向单篇文本。
所述的领域文集中的逆文档频率,其计算公式如下:
DIDF t = log ( N d n t )
其中Nd是领域文集的文本总数,nt是领域文集中包含词t的文本数。
所述的利用搜索引擎计算的逆文档频率,其计算公式如下:
SIDF t = log ( Ns p t )
其中Ns等价于搜索引擎的索引总页面数,pt为一个检索查到词t的页面数。
本发明的一种单篇文本关键词的提取方法与现有技术相比较,具有如下突出特点和优点:该方法以搜索引擎的网页索引数据库作为本发明的无关领域文集,能够避免无关领域文集的选择对关键词提取结果的影响;通过搜索引擎庞大的文本量减少了计算误差,能够提高领域文集中单篇文本关键词的提取精度;通过改进的TFIDF词权公式,用领域文集和无关领域文集一起对关键词的提取进行过滤,能够提高关键词提取结果的领域特性。
附图说明
图1是本发明的一种单篇文本关键词的提取方法的流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步的说明。
本发明的实施例,从路透社2008年到2009年的环境领域的243个新闻网页中提取单篇文本关键词。如图1所示,本发明的一种单篇文本关键词的提取方法,其步骤如下:
S1.打开领域文集中的单篇文本,例如,打开路透社环境领域的新闻网页正文集中的单篇网页正文;
S2.文本内容预处理,例如,对网页正文内容分词和词性标注;
S3.提取有意义的实词,例如名词和动词;
S4.统计所有实词的词频,记为TFt
S5.打开领域文集的所有文本,例如,打开路透社环境领域的新闻网页正文集中所有网页正文,正文总数记为Nd
S6.统计实词在路透社环境领域的新闻网页正文集中的篇频,记为nt
S7.统计用搜索引擎Google检索实词所返回的页面数,记为pt
S8.用改进的TFIDF词权公式计算单篇网页正文中所有实词的权重,从中提取一定比例的关键词;改进的TFIDF词权公式,记为TFMIDF,其计算式如下:
TFMDFt=TFt×(α*DIDFt+(1-α)*SIDFt)
其中,
TFt:表示实词t在路透社环境领域的新闻网页正文中词频,
DIDFt:表示实词t在路透社环境领域的新闻网页正文集中的逆文档频率,其计算式为:
DIDF t = log ( N d n t ) ,
Nd:表示路透社环境领域的新闻网页正文集中网页正文总数,
nt:表示实词t在路透社环境领域的新闻网页正文集中的篇频,
SIDFt:表示实词t用搜索引擎计算的逆文档频率,其计算式为:
SIDF t = log ( Ns p t ) ,
Ns:表示搜索引擎的索引总页面数,
pt:表示用搜索引擎检索实词t所查到的页面数。
α:表示DIDF与SIDF之间的权重调节系数。

Claims (4)

1.一种单篇文本关键词的提取方法,其特征在于,采用搜索引擎辅助法提取单篇文本的关键词,提高领域文集中单篇文本关键词的提取精度,提高关键词提取的领域特性;所述的搜索引擎辅助法是:通过搜索引擎检验词的普遍性,再通过改进的TFIDF词权公式提取关键词,其具体步骤如下:
(1)打开领域文集中的单篇文本;
(2)文本内容预处理,包括分词、词性标注;
(3)提取有意义的实词;
(4)统计实词的词频;
(5)打开领域文集的所有文本;
(6)统计实词在领域文集中的篇频;
(7)统计搜索引擎检索实词所返回的页面数;
(8)用改进的TFIDF词权公式计算单篇文本所有实词的权重,从中提取一定比例的关键词。
2.按权利要求1所述的一种单篇文本关键词的提取方法,其特征在于,上述步骤(8)中所述的改进的TFIDF词权公式,记为TFMIDF,其计算式如下:
TFMDFt=TFt×(α*DIDFt+(1-α)*SIDFt)
其中TFt是词t在文本中出现的次数;DIDFt是领域文集中的逆文档频率,SIDFt是利用搜索引擎计算的逆文档频率;α是用来调节原始DIDF与SIDF之间的权重;当α=1时,TFMDFt=TFt×DIDFt,词权赋值依赖领域文集数;当α=0时,TFMDFt=TFt×SIDFt,词权赋值不依赖领域文集数,提取关键词直接面向单篇文本。
3.按权利要求2所述的一种单篇文本关键词的提取方法,其特征在于,所述的领域文集中的逆文档频率,其计算公式如下:
DIDF t = log ( N d n t )
其中Nd是领域文集的文本总数,nt是领域文集中包含词t的文本数。
4.按权利要求2所述的一种单篇文本关键词的提取方法,其特征在于,所述的利用搜索引擎计算的逆文档频率,其计算公式如下:
SIDF t = log ( Ns p t )
其中Ns等价于搜索引擎的索引总页面数,pt为一个检索查到词t的页面数。
CN 201010290828 2010-09-21 2010-09-21 一种单篇文本关键词的提取方法 Pending CN101968801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010290828 CN101968801A (zh) 2010-09-21 2010-09-21 一种单篇文本关键词的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010290828 CN101968801A (zh) 2010-09-21 2010-09-21 一种单篇文本关键词的提取方法

Publications (1)

Publication Number Publication Date
CN101968801A true CN101968801A (zh) 2011-02-09

Family

ID=43547958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010290828 Pending CN101968801A (zh) 2010-09-21 2010-09-21 一种单篇文本关键词的提取方法

Country Status (1)

Country Link
CN (1) CN101968801A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法
CN104050294A (zh) * 2014-06-30 2014-09-17 北京奇虎科技有限公司 互联网稀有资源的挖掘方法及装置
CN104484388A (zh) * 2014-12-10 2015-04-01 北京奇虎科技有限公司 稀缺信息页面的筛选方法和装置
CN104866573A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种文本分类的方法
CN105808552A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于滑动窗口从网页中提取摘要的方法和装置
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN107102983A (zh) * 2017-04-20 2017-08-29 北京工业大学 一种基于网络知识源的中文概念的词向量表示方法
CN108182173A (zh) * 2017-12-27 2018-06-19 福建中金在线信息科技有限公司 一种提取关键词的方法、装置及电子设备
CN110765777A (zh) * 2019-10-17 2020-02-07 上海大学 一种基于关联语义链网络的事件相关度计算方法
CN110781679A (zh) * 2019-10-15 2020-02-11 上海大学 一种基于关联语义链网络的新闻事件关键词挖掘方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN101561818A (zh) * 2009-05-13 2009-10-21 北京用友移动商务科技有限公司 分词处理方法及全文检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN101561818A (zh) * 2009-05-13 2009-10-21 北京用友移动商务科技有限公司 分词处理方法及全文检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《计算机应用》 20050930 罗欣等 基于词频差异的特征选取及改进的TF-DF公式 第2031-2033页,表1-2 1-4 第25卷, 第9期 2 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567308A (zh) * 2011-12-20 2012-07-11 上海电机学院 一种信息处理特征提取方法
CN104050294A (zh) * 2014-06-30 2014-09-17 北京奇虎科技有限公司 互联网稀有资源的挖掘方法及装置
CN104484388A (zh) * 2014-12-10 2015-04-01 北京奇虎科技有限公司 稀缺信息页面的筛选方法和装置
CN105808552A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于滑动窗口从网页中提取摘要的方法和装置
CN104866573B (zh) * 2015-05-22 2018-02-13 齐鲁工业大学 一种文本分类的方法
CN104866573A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种文本分类的方法
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN107102983A (zh) * 2017-04-20 2017-08-29 北京工业大学 一种基于网络知识源的中文概念的词向量表示方法
CN107102983B (zh) * 2017-04-20 2020-12-04 北京工业大学 一种基于网络知识源的中文概念的词向量表示方法
CN108182173A (zh) * 2017-12-27 2018-06-19 福建中金在线信息科技有限公司 一种提取关键词的方法、装置及电子设备
CN110781679A (zh) * 2019-10-15 2020-02-11 上海大学 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN110781679B (zh) * 2019-10-15 2023-09-15 上海大学 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN110765777A (zh) * 2019-10-17 2020-02-07 上海大学 一种基于关联语义链网络的事件相关度计算方法
CN110765777B (zh) * 2019-10-17 2023-09-15 上海大学 一种基于关联语义链网络的事件相关度计算方法

Similar Documents

Publication Publication Date Title
CN101968801A (zh) 一种单篇文本关键词的提取方法
CN101067808B (zh) 文本关键词的提取方法
Yang Research and realization of internet public opinion analysis based on improved TF-IDF algorithm
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN103514213B (zh) 词语提取方法及装置
CN102955857B (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN108197117A (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN101609450A (zh) 基于训练集的网页分类方法
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN104462378A (zh) 用于文本识别的数据处理方法及装置
CN103678564A (zh) 一种基于数据挖掘的互联网产品调研系统
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN105893611A (zh) 一种构建面向社交网络的兴趣主题语义网络的方法
CN104881402A (zh) 中文网络话题评论文本语义倾向分析的方法及装置
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
Albishre et al. Effective 20 newsgroups dataset cleaning
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN106682123A (zh) 一种获取热点事件的方法及装置
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN104915443A (zh) 一种中文微博评价对象的抽取方法
CN107526792A (zh) 一种中文问句关键词快速提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20110209