CN101968801A

CN101968801A - 一种单篇文本关键词的提取方法

Info

Publication number: CN101968801A
Application number: CN 201010290828
Authority: CN
Inventors: 骆祥峰; 梁国宁; 殷晓波; 张顺香; 徐炜民
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2010-09-21
Filing date: 2010-09-21
Publication date: 2011-02-09

Abstract

本发明公开了一种单篇文本关键词的提取方法，该方法具体步骤如下：(1)打开领域文集中的单篇文本；(2)文本内容预处理；(3)提取有意义的实词；(4)统计实词的词频；(5)打开领域文集的所有文本；(6)统计实词在领域文集中的篇频；(7)统计搜索引擎检索实词所返回的页面数；(8)用改进的TFIDF词权公式计算单篇文本中所有实词的权重，从中提取一定比例的关键词。该方法能够弥补TFIDF算法的不足，能避免无关领域文集对关键词提取的影响，提高关键词的提取精度，保持关键词提取结果的领域特性。

Description

一种单篇文本关键词的提取方法

技术领域

本发明涉及一种单篇文本关键词的提取方法，具体是涉及一种对TFIDF方法提取领域文集中单篇文本关键词的改进方法。

背景技术

单篇文本关键词是文本知识流生成、语义链网络构建、文本语境复杂度和信息量中文本表示的基本元素。单篇文本关键词的提取精度直接影响到文本分类、聚类、词语关联分析、文本自动摘要、文本过滤、信息检索、话题检测、标注网页等文本信息处理的质量与效果。目前对单篇文本关键词提取技术的研究主要有：TFIDF方法、朴素贝叶斯分类法、互信息方法、最大熵模型法、最大似然性和前缀树法等。

目前应用最广的单篇文本关键词的提取方法是TFIDF方法。TFIDF方法认为，单篇文本的关键词应该在文本中经常出现，并且在其他文集中很少出现。TFIDF方法用词权公式计算一个词对于文集中的单篇文本的重要程度。TFIDF方法的词权就是词频TF(Term Frequency)与逆文档频率IDF(Inverse Document Frequency)的乘积。TFIDF词权公式如下：

TFIDF_t＝TF_t×IDF_t＝TF_t×log(N/n_t)

其中，TF_t为词t的词频，也就是词t在文本中出现的次数。IDF_t为词t的逆文档频率，它通过log(N/n_t)计算；N为文集的文本总数；n_t为词t的篇频，也就是文集中包含词t的文本数。词的逆文档频率与篇频成反比，篇频越高则逆文档频率越低。所以，通过检验词的逆文档频率可以过滤掉那些在文集里最普遍出现的高篇频词。

但是用TFIDF方法提取领域文集中的单篇文本关键词时，存在以下不足：

(1)TFIDF方法中无关领域文集涉及的领域和文本总数会降低单篇文本关键词的提取质量。

(2)由于词的逆文档频率与词在文集中出现的篇频成反比，TFIDF词权会倾向于低篇频词，导致单篇文本关键词的提取精度降低。

(3)当领域文集属于单一领域时，一些代表领域整体的高篇频也会被过滤掉，最终关键词提取结果只能保留文本特性而不能保持领域特性。

发明内容

本发明的目的在于针对TFIDF方法的不足，提供一种单篇文本关键词的提取方法，该方法能避免无关领域文集对关键词提取结果的影响，提高关键词的提取精度，还能提高关键词提取结果的领域特性。

为了达到上述的目的，本发明的构思如下：采用搜索引擎辅助法提取单篇文本的关键词，提高领域文集中单篇文本关键词的提取精度，提高关键词提取的领域特性；所述的搜索引擎辅助法是：通过搜索引擎检验词的普遍性，再通过改进的TFIDF词权公式提取关键词。

根据上述的发明构思，本发明采用下述技术方案：

一种单篇文本关键词的提取方法，其特征在于，其具体步骤如下：

(1)打开领域文集中的单篇文本；

(2)文本内容预处理，包括分词、词性标注；

(3)提取有意义的实词；

(4)统计实词的词频；

(5)打开领域文集的所有文本；

(6)统计实词在领域文集中的篇频；

(7)统计搜索引擎检索实词所返回的页面数；

(8)用改进的TFIDF词权公式计算单篇文本所有实词的权重，从中提取一定比例的关键词。

所述的改进的TFIDF词权公式，记为TFMIDF，其计算式如下：

TFMDF_t＝TF_t×(α*DIDF_t+(1-α)*SIDF_t)

其中TF_t是词t在文本中出现的次数；DIDF_t是领域文集中的逆文档频率，SIDF_t是利用搜索引擎计算的逆文档频率；α是用来调节原始DIDF与SIDF之间的权重；当α＝1时，TFNDF_t＝TF_t×DIDF_t，词权赋值依赖领域文集数；当α＝0时，TFMDF_t＝TF_t×SIDF_t，词权赋值不依赖领域文集数，提取关键词直接面向单篇文本。

所述的领域文集中的逆文档频率，其计算公式如下：

{DIDF}_{t} = \log (\frac{N_{d}}{n_{t}})

其中N_d是领域文集的文本总数，n_t是领域文集中包含词t的文本数。

所述的利用搜索引擎计算的逆文档频率，其计算公式如下：

{SIDF}_{t} = \log (\frac{Ns}{p_{t}})

其中Ns等价于搜索引擎的索引总页面数，p_t为一个检索查到词t的页面数。

本发明的一种单篇文本关键词的提取方法与现有技术相比较，具有如下突出特点和优点：该方法以搜索引擎的网页索引数据库作为本发明的无关领域文集，能够避免无关领域文集的选择对关键词提取结果的影响；通过搜索引擎庞大的文本量减少了计算误差，能够提高领域文集中单篇文本关键词的提取精度；通过改进的TFIDF词权公式，用领域文集和无关领域文集一起对关键词的提取进行过滤，能够提高关键词提取结果的领域特性。

附图说明

图1是本发明的一种单篇文本关键词的提取方法的流程图。

具体实施方式

以下结合附图对本发明的实施例作进一步的说明。

本发明的实施例，从路透社2008年到2009年的环境领域的243个新闻网页中提取单篇文本关键词。如图1所示，本发明的一种单篇文本关键词的提取方法，其步骤如下：

S1.打开领域文集中的单篇文本，例如，打开路透社环境领域的新闻网页正文集中的单篇网页正文；

S2.文本内容预处理，例如，对网页正文内容分词和词性标注；

S3.提取有意义的实词，例如名词和动词；

S4.统计所有实词的词频，记为TF_t；

S5.打开领域文集的所有文本，例如，打开路透社环境领域的新闻网页正文集中所有网页正文，正文总数记为N_d；

S6.统计实词在路透社环境领域的新闻网页正文集中的篇频，记为n_t；

S7.统计用搜索引擎Google检索实词所返回的页面数，记为p_t；

S8.用改进的TFIDF词权公式计算单篇网页正文中所有实词的权重，从中提取一定比例的关键词；改进的TFIDF词权公式，记为TFMIDF，其计算式如下：

TFMDF_t＝TF_t×(α*DIDF_t+(1-α)*SIDF_t)

其中，

TF_t：表示实词t在路透社环境领域的新闻网页正文中词频，

DIDF_t：表示实词t在路透社环境领域的新闻网页正文集中的逆文档频率，其计算式为：

{DIDF}_{t} = \log (\frac{N_{d}}{n_{t}}),

N_d：表示路透社环境领域的新闻网页正文集中网页正文总数，

n_t：表示实词t在路透社环境领域的新闻网页正文集中的篇频，

SIDF_t：表示实词t用搜索引擎计算的逆文档频率，其计算式为：

{SIDF}_{t} = \log (\frac{Ns}{p_{t}}),

Ns：表示搜索引擎的索引总页面数，

p_t：表示用搜索引擎检索实词t所查到的页面数。

α：表示DIDF与SIDF之间的权重调节系数。

Claims

1.一种单篇文本关键词的提取方法，其特征在于，采用搜索引擎辅助法提取单篇文本的关键词，提高领域文集中单篇文本关键词的提取精度，提高关键词提取的领域特性；所述的搜索引擎辅助法是：通过搜索引擎检验词的普遍性，再通过改进的TFIDF词权公式提取关键词，其具体步骤如下：

(1)打开领域文集中的单篇文本；

(2)文本内容预处理，包括分词、词性标注；

(3)提取有意义的实词；

(4)统计实词的词频；

(5)打开领域文集的所有文本；

(6)统计实词在领域文集中的篇频；

(7)统计搜索引擎检索实词所返回的页面数；

2.按权利要求1所述的一种单篇文本关键词的提取方法，其特征在于，上述步骤(8)中所述的改进的TFIDF词权公式，记为TFMIDF，其计算式如下：

TFMDF_t＝TF_t×(α*DIDF_t+(1-α)*SIDF_t)

其中TF_t是词t在文本中出现的次数；DIDF_t是领域文集中的逆文档频率，SIDF_t是利用搜索引擎计算的逆文档频率；α是用来调节原始DIDF与SIDF之间的权重；当α＝1时，TFMDF_t＝TF_t×DIDF_t，词权赋值依赖领域文集数；当α＝0时，TFMDF_t＝TF_t×SIDF_t，词权赋值不依赖领域文集数，提取关键词直接面向单篇文本。

3.按权利要求2所述的一种单篇文本关键词的提取方法，其特征在于，所述的领域文集中的逆文档频率，其计算公式如下：

{DIDF}_{t} = \log (\frac{N_{d}}{n_{t}})

4.按权利要求2所述的一种单篇文本关键词的提取方法，其特征在于，所述的利用搜索引擎计算的逆文档频率，其计算公式如下：

{SIDF}_{t} = \log (\frac{Ns}{p_{t}})

其中Ns等价于搜索引擎的索引总页面数，pt为一个检索查到词t的页面数。