CN101067808A

CN101067808A - 文本关键词的提取方法

Info

Publication number: CN101067808A
Application number: CN 200710041150
Authority: CN
Inventors: 方宁; 骆祥峰; 徐炜民
Original assignee: University of Shanghai for Science and Technology
Current assignee: Shanghai University; University of Shanghai for Science and Technology
Priority date: 2007-05-24
Filing date: 2007-05-24
Publication date: 2007-11-07
Anticipated expiration: 2027-05-24
Also published as: CN101067808B

Abstract

本发明涉及一种文本关键词的提取方法，它是改进TF－IDF方法，通过篇频修正法提取单篇文本的关键词，提高从单篇文本中提取关键词的精度；通过词频修正法或对比选择法，提取同类文本集合中共同的领域关键词。本发明的方法有效地提高单篇文本的关键词提取精度，能够提取领域关键词，从而提高文本领域知识获取的性能与领域知识本体建立的效果，提高网络资源服务的质量与效果。

Description

文本关键词的提取方法

技术领域：

本发明涉及一种计算机自动提取文本关键词的方法，更具体地说，涉及对TF-IDF公式提取文本关键词的若干改进方法。

背景技术：

文本知识获取与表示的基本单元之一是文本的关键词。文本关键词自动获取的精度直接影响到文本知识获取的性能与文本本体建立的质量。

属于一个领域的多个文本所共现的类关键词呈现该领域文本的最低层知识，是该领域文本知识表示与获取的基本单元之一。文本领域关键词的自动获取的精度直接影响到文本领域知识获取的性能与领域知识本体建立的效果，从而影响网络资源服务的质量与效果。

单篇文本关键词与多篇文本领域关键词在文本自动分类、聚类、资源智能服务等方面有着广泛的应用，它不仅是进行这些工作不可缺少的基础和前提，也是语义网格与知识网格中语义表示、知识获取与本体建设的最基本元素之一。

目前尚未见对领域关键词的研究论文，而目前主要运用于单个文本关键词提取研究的主要方法有：TF-IDF方法、互信息方法、朴素贝叶斯分类法，最大熵模型法、最大似然性和前缀树等方法等。TF-IDF方法提取关键词的精度还不够高。

发明内容：

本发明的目的在于针对已有技术存在的不足，提供一种改进的文本关键词提取方法，能提高从单篇文本中提取关键词的精度，并能提取同类文本集合中共同领域关键词。

为了达到上述的目的，本发明的构思如下：

本发明就是从分析TF-IDF公式提取关键词的基础上，提出通过篇频修正法提高单篇文本关键词获取精度，通过词频修正法和对比选择法提取同类文本集中共同的领域关键词。

TF-IDF公式的本质就是通过比较，在提取文本中如果一个词的词频越高，而在无关文本中的出现次数越低的话，那么它越有可能成为提取文本中的关键词。但是在TF-IDF公式中，无论一个关键词在一篇无关文本中出现几次，只要出现了，篇频就要加1，例如“grid”一词在被提取的文本中出现30次，但在10篇无关文本中，每篇只出现了一次，但是此时系统得到的篇频是10，而另一个词“service”也在被提取的文本中出现了30次，但在10篇无关文本中，每篇却出现了20次，此时的篇频也是10。我们可以直观地看到“grid”应该比“service”更像关键词，但是在系统计算的时候两者的值是一样的。为了解决以上问题，本发明提出在导入无关文本时，先对每篇无关文本求词频，把词频为1的词删去，即统计篇频时，只考虑关键词出现次数大于等于2的文本数。

领域关键词是多篇同类单篇文本关键词的交集，传统的TF-IDF关键词提取公式虽然可以取得不错的效果，但是在求文本领域关键词时，可能把属于单篇文章的关键词错认为是领域关键词，例如“SARS”一词是某篇描述网格运用于“SARS”研究方面的文章的关键词，因此在这篇文本中“SARS”一词有很高的词频，而且在无关文本中“SARS”出现的频率很低，在进行文本领域(类)关键词提取时，利用TF-IDF公式计算相对词频时，“SARS”一词就会拥有比较高的权重，系统就会认为它是领域关键词。但是事实上“SARS”的确属于该篇文本的关键词，但是它不可能属于网格这类文本的关键词。所以本发明在进行TF-IDF公式提取领域关键词前，先对词频进行修正。

传统的TF-IDF公式提取领域关键词时，是先把每类中的所有文章合并成一篇文章，在统一计算各词的词频，这样的话就引起了上面的错误，因为只要在一篇文本中一个词的绝对词频偏高的话，那么在这个领域中这个词的绝对词频也就偏高，可能导致最后求得的相对词频也偏高。所谓的词频修正法就是在求文本领域关键词的词频时，先在每篇文本求词频，然后再求出每个词在所有文章中的平均词频，最后把该词在每篇文本中的词频逐一与平均词频进行比较，把大于或小于平均词频一定比例的词频出去，再求该词词频的总和，获得一个最终的词频进行TF-IDF公式的计算。

本发明提出用对比选择法提取领域关键词，所谓的对比选择法就是从文本领域关键词的定义出发，先对每篇文本求出单篇文本的关键词，再通过对比，选出共同拥有率比较高的词，作为领域关键词。共同拥有率指的是在领域关键词提取时，某一单词为单篇文本关键词的次数与所有属于该领域的文本数之比。

根据上述的发明构思，本发明采用下述技术方案：

一种文本关键词提取方法，其特征在于改进TF-IDF方法，通过篇频修正法提取单篇文本的关键词，提高从单篇文本中提取关键词的精度；通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词。

上述的篇频修正法就是去除无关文本集中所有出现频率为1的词，获得一个最终的篇频进行TF-IDF公式提取单篇文本中的关键词；其具体步骤如下：

(1)打开训练文本集中的一篇无关文档；

(2)分词、词性标注；

(3)通过“废词”表，提取有意义的实词；

(4)统计所有实词出现的绝对频率；

(5)删除绝对词频为1的实词；

(6)用TF-IDF公式计算单篇文本中的所有实词的权重，从中提取一定比例的关键词。

上述的词频修正法就是在求领域关键词的词频时，先对每篇文本求词频，然后在求出每个词在所有文档中的平均词频，最后把该词在每篇文档中的词频逐一与平均词频进行比较，一定比例地除去大于或小于平均词频的词频，再求该词词频的总和，获得一个最终的词频，对同类文本集合运用TF-IDF公式提取领域关键词；其具体步骤如下：

(1)打开同类文本集中的所有文档；

(2)分词、词性标注；

(3)通过“废词”表，提取有意义的实词；

(4)统计一个实词出现的平均词频；

(5)删除超过平均词频一定范围的所在文本中的词频；

(6)求和剩余词频；

(7)用TF-IDF公式计算同类文本集中的所有实词的权重，从中提取一定比例的领域关键词。

上述的对比选择法就是提取同类文本集合中共同的领域关键词的方法，先对每篇文本运用TF-IDF公式，求出单篇文本的关键词，再通过对比，选出共同拥有率比较高的词，作为领域关键词，共同拥有率是指：在领域关键词提取时，某一关键词在同类文本集合中出现的文本数与该文本集合的文本数之比；其具体步骤如下：

(1)打开同类文本集中的所有文档；

(2)预处理(分词、词性标注)；

(3)通过“废词”表，提取有意义的实词；

(4)用TF-IDF公式计算同类文本集中的所有实词的权重，从中提取一定比例的关键词；

(5)统计所有实词的共同拥有率；

(6)选择共同拥有率高于设定阈值的关键词为领域关键词。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和优点：

本发明在TF-IDF方法提取关键词的基础上，通过篇频修正法、词频修正法和对比选择法提高从单篇文本提取关键词的精度，或提取同类文本集合中共同的领域关键词。本发明的特征在于能有效地避免在无关文档中仅出现一次的关键词被统计到篇频中；通过以一个关键词在所有文档中的平均词频为阈值，去除出现该关键词过大或过小的文档后，得到的绝对词频之和作为修正后的词频，用于提取领域关键词，从而避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词；通过对每篇文本求出单篇文本的关键词，再通过对比，选出共同拥有率比较高的词，作为领域关键词，从而避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词。该方法可以有效地提高单篇文本的关键词提取精度，或提取领域关键词，从而提高文本领域知识获取的性能与领域知识本体建立的效果，提高网络资源服务的质量与效果。

附图说明：

图1是篇频修正法提取关键词程序流程图。

图2是词频修正法提取关键词程序流程图。

图3是对比选择法提取关键词程序流程图。

具体实施方式：

本发明的一个优选实施例结合附图详述如下：

现有的关键词提取方法是通过TF-IDF公式计算单篇文本中有意义的实词(动词，名词)在文本中的权重，通过降序排列权重筛选单篇文本的关键词。

在TF-IDF公式中，绝对词频，即词在文本中出现的频率。相对词频为归一化的词频(即词的权重)，其计算方法是TF-IDF公式，即

W (t, \overset{&RightArrow;}{d}) = \frac{tf (t, \overset{&RightArrow;}{d}) \times \log (N / n_{t} + 0.01)}{\sqrt{\underset{t &Element; \overset{&RightArrow;}{d}}{Σ} {[tf (t, \overset{&RightArrow;}{d}) \times \log (N / n_{t} + 0.01)]}^{2}}}

其中

为词t在文本

中的权重，而

为词t在文本

中的绝对词频，N为训练文本的总数，即为无关文本的总数，n_t为训练文本集中出现t的文本数，即篇频，分母为归一化因子。

为了提高提取关键词的精度，预先设定了一个“废词”文本，其中包含一些常用的动词、副词和形容词(如：this，that，is等)，这些词都不可能是所需的关键词，对于关键词而言，它们都是些“废词”。

对于提取单篇文本的关键词，本实施例的篇频修正法具体流程如图1所示，步骤如下：

S1打开训练文本集中的一篇无关文档；

S2分词、词性标注；

S3通过“废词”表，提取有意义的实词；

S4统计所有实词出现的绝对频率；

S5删除绝对词频为1的实词；

S6用TF-IDF公式计算单篇文本中的所有实词的权重，从中提取一定比例的关键词。

对于提取同类文本集共同的领域关键词，本实施例的词频修正法具体流程如图2所示，步骤如下：

S1打开同类文本集中的所有文档；

S2分词、词性标注；

S3通过“废词”表，提取有意义的实词；

S4统计一个实词出现的平均词频；

S5删除超过平均词频一定范围的所在文本中的词频；

S6求和剩余词频；

S7用TF-IDF公式计算同类文本集中的所有实词的权重，从中提取一定比例的领域关键词。

例如词A在同一类的四篇文章中的词频分别四40，5，10，5，它的平均词频就是15。定义比例为0.8，那么系统就会对词频在15±15*0.8范围内的词频进行求和，那么40将被舍去，最终词A的绝对词频就是20，用这个值来计算最后的相对词频，提取关键词。

对于提取同类文本集共同的领域关键词，本实施例的对比选择法具体流程如图3所示，步骤如下：

S1打开同类文本集中的所有文档；

S2预处理(分词、词性标注)；

S3通过“废词”表，提取有意义的实词；

S4用TF-IDF公式计算同类文本集中的所有实词的权重，从中提取一定比例的关键词；

S5统计所有实词的共同拥有率；

S6选择共同拥有率高于设定阈值的关键词为领域关键词。

例如，一个领域中有10篇文本，关键词A是其中6篇文本的关键词，那么类共同拥有率就是6/10＝0.6。

Claims

1.一种文本关键词的提取方法，其特征在于改进TF-IDF方法，通过篇频修正法提取单篇文本的关键词，提高从单篇文本中提取关键词的精度；通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词。

2.按权利要求1所述的文本关键词的提取方法，其特征在于所述的篇频修正法就是去除无关文本集中所有出现频率为1的词，获得一个最终的篇频进行TF-IDF公式提取单篇文本中的关键词；其具体步骤如下：

(1)打开训练文本集中的一篇无关文档；

(2)分词、词性标注；

(3)通过“废词”表，提取有意义的实词；

(4)统计所有实词出现的绝对频率；

(5)删除绝对词频为1的实词；

3.按权利要求1所述的文本关键词的提取方法，其特征在于所述的词频修正法就是在求领域关键词的词频时，先对每篇文本求词频，然后在求出每个词在所有文档中的平均词频，最后把该词在每篇文档中的词频逐一与平均词频进行比较，一定比例地除去大于或小于平均词频的词频，再求该词词频的总和，获得一个最终的词频，对同类文本集合运用TF-IDF公式提取领域关键词；其具体步骤如下：

(1)打开同类文本集中的所有文档；

(2)分词、词性标注；

(3)通过“废词”表，提取有意义的实词；

(4)统计一个实词出现的平均词频；

(5)删除超过平均词频一定范围的所在文本中的词频；

(6)求和剩余词频；

4.按权利要求1所述的文本关键词的提取方法，其特征在于所述的对比选择法就是提取同类文本集合中共同的领域关键词的方法，先对每篇文本运用TF-IDF公式，求出单篇文本的关键词，再通过对比，选出共同拥有率比较高的词，作为领域关键词，共同拥有率是指：在领域关键词提取时，某一关键词在同类文本集合中出现的文本数与该文本集合的文本数之比；其具体步骤如下：

(1)打开同类文本集中的所有文档；

(2)预处理(分词、词性标注)；

(3)通过“废词”表，提取有意义的实词；

(5)统计所有实词的共同拥有率；

(6)选择共同拥有率高于设定阈值的关键词为领域关键词。