CN102541910A

CN102541910A - 提取关键字的方法

Info

Publication number: CN102541910A
Application number: CN2010106081184A
Authority: CN
Inventors: 王宵栋; 张丽晓
Original assignee: Sanda University
Current assignee: Sanda University
Priority date: 2010-12-27
Filing date: 2010-12-27
Publication date: 2012-07-04

Abstract

本发明揭示了一种提取关键字的方法，从一段文字中提取关键字，该方法包括：分词步骤，分词步骤将所述一段文字划分成单词；停用词消除步骤，从分词步骤中划分出的单词中去除停用词；词性还原步骤，将取出停用词后的单词的词性进行还原，该词性还原步骤使用词干分析算法将单词还原成词干原型；关键字确定步骤，以词干原型为基础，在一段文字中确定每一个词干原型出现的频率，基于出现的频率确定关键字。本发明的提取关键字的方法能够迅速准确地从一段文字中提取关键字，使得由计算机提取的关键字和通过人脑理解后获得的关键字尽可能接近。

Description

提取关键字的方法

技术领域

本发明涉及数据检索技术领域，尤其涉及一种提取关键字的方法。

背景技术

关键词(Keyword)是指在制作使用索引时所用到的词汇，关键词搜索是网络搜索索引主要方法之一。例如一本书的书名或部分书名、副标题、作者名都可以作为本书的关键词用于检索。现在大部分的图书及网上检索都是用关键词检索的形式。关键词的内容可以是：人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文等等。例如，可以搜索“windows”、“世博会”、“NBA篮球”等关键词，可以输入一个，也可以输入两个、三个、四个，甚至可以输入一句话。例如，您可以搜索“风景”、“mp3下载”、“蓦然回首，那人却在灯火阑珊处”。

简而言之，关键字就是某篇文章，某本书的主要内容。关键字虽然字数不多，但是它的存在方便我们很直观的去了解某篇文章，某本书的大致内容。举一个简短的例子，比如这篇文章：

北京时间3月29日凌晨，西甲联赛第29轮皇马在主场3-2击败德比对手马德里竞技，完成赛季双杀。开场不久皇马旧将雷耶斯反戈一击，下半时阿隆索首先扳平比分，之后又助攻阿贝罗阿反超，随后伊瓜因打入联赛第23球，阿根廷人在射手榜上距离梅西仅有2球差距，此后弗兰罚中点球无力回天，皇马逆转豪取11连胜，继续以净胜球优势压过巴萨排名榜首。

上文是一篇简单的体育报道，它的关键字可以归结为“西甲皇马3-2马竞”。对于我们来说，通过关键字了解文章内容是不是要比阅读完整篇文章来的更快速呢？有了关键字，可以很方便的确定是否需要阅读该文章，这对于提高阅读效率有着很大的帮助。对于不同长度的文章，关键字的长度也各有不同，但它们起到的作用都是相同的。

关键字在诸多的领域都有应用，在网络上，有搜索引擎和文本分类技术。在现实生活中，书店中都有很多的应用。可以不夸张的说，关键字已经融入到了生活的每一个角落，成为了生活中不可或缺的一部分。

既然关键字这么实用，那相应的关键字提取技术也逐渐发展起来。起初，关键字的提取都是人工的进行，就是人为的阅读之后总结出它的关键字，这种方法的准确率很高，但效率却非常的低。近来随着全球网络的发展，搜索引擎的壮大，以及每天最新资讯的更新，想要再人为的提取关键字已经不可行了。如何通过计算机去提取关键字已经成为了研究重点。计算机和人脑不同，它无法自行理解文章的内容，所以确立一个合适的算法来提取关键字就显得十分重要了。

发明内容

本发明旨在提出一种用于提取关键字的方法。

根据本发明，提出一种提取关键字的方法，从一段文字中提取关键字，该方法包括：

分词步骤，分词步骤将一段文字划分成单词；

停用词消除步骤，从分词步骤中划分出的单词中去除停用词；

词性还原步骤，将取出停用词后的单词的词性进行还原，该词性还原步骤使用词干分析算法将单词还原成词干原型；

关键字确定步骤，以词干原型为基础，在一段文字中确定每一个词干原型出现的频率，基于出现的频率确定关键字。

分词步骤包括从一段文字中提取空格、标点符号以及字符串作为分词的标记。

停用词消除步骤包括查找一停用词表，分词步骤中划分出的单词中存在于停用词表中的单词作为停用词去除。

关键字确定步骤基于密度聚类模式实现，包括：

TF/IDF值计算步骤，在一段文字中计算每一个词干原型的TF/IDF值；

词频过滤步骤，设定一词频阈值，选择词频大于该词频阈值的词干原型作为候选关键字；

共现度计算步骤，在候选关键字中计算候选关键字之间的词共现度，生成词共现矩阵；

聚类步骤，基于词共现矩阵进行候选关键字聚类，为每一个聚类计算TF/IDF平均值；

关键字确定步骤，选择具有最高的TF/IDF平均值得聚类中的词干原型作为关键字。

关键字确定步骤也可以基于非高频词查找实现，包括：

预处理步骤，对一段文字进行预处理，去除其中的停用词；

词频统计步骤，设定一词频阈值，选择词频大于该词频阈值的词干原型作为高频词；

构图步骤，设定一关联度阈值，以高频词作为顶点，关联度大于关联度阀值的词干原型作为边集构图；

划分步骤，基于聚类系数对构图进行划分，划分成数个子图；

关键字确定步骤，计算每一个子图的特征路径长度，选取具有最短特征路径长度的子图中的词干原型作为关键字。

本发明的提取关键字的方法能够迅速准确地从一段文字中提取关键字，使得由计算机提取的关键字和通过人脑理解后获得的关键字尽可能接近。

附图说明

图1揭示了根据本发明的提取关键字的方法的流程图。

图2揭示了根据本发明提取关键字的方法中基于密度聚类模式实现的关键字确定步骤的流程图。

图3揭示了根据本发明提取关键字的方法中基于非高频词查找实现的关键字确定步骤的流程图。

具体实施方式

参考图1所示，揭示了根据本发明的一种提取关键字的方法，该方法从一段文字中提取关键字，该方法包括：

S10.分词步骤，分词步骤将一段文字划分成单词。在一个实施例中，分词步骤包括从一段文字中提取空格、标点符号以及字符串作为分词的标记。分词就是把一段文字中的单词通过程序划分出来的过程。针对英文文本，分词相对简单，只要提取空格或者标点符号中间的字符串便能提取初步的单词。

S11.停用词消除步骤，从分词步骤中划分出的单词中去除停用词。在一个实施例中，停用词消除步骤包括查找一停用词表，分词步骤中划分出的单词中存在于停用词表中的单词作为停用词去除。主要是为了提取关键字时节省存储空间和提高效率，被广泛应用在搜索引擎和分类等技术中，实际操作中算法会自动忽略某些字或词，这些字或词即被称为停用词(StopWords)。使用停用词表来去除停用词相对来说比较精确，特别是针对某一类的文本提取，效率和精确度都有不错的效果。

S12.词性还原步骤，将取出停用词后的单词的词性进行还原，该词性还原步骤使用词干分析算法将单词还原成词干原型。词性还原步骤主要是将英文单词的时态还原，合并相同的词，区别人名地名等。在一个实施例中，使用的是Porter词干分析算法(或称为Porter词干还原器Porterstemmer)，对英文单词中较常见的、因时态、语态、复数格等原因引起的词尾变化进行移除的处理过程。在建立信息检索系统时，这个算法对各个项的标准化处理进行了其中一部分

S13.关键字确定步骤，以词干原型为基础，在一段文字中确定每一个词干原型出现的频率，基于出现的频率确定关键字。

关键字确定步骤S13具有几种不同的实现方式，例如，参考图2所示的实施例，揭示了一种基于密度聚类模式实现的关键字确定步骤，包括：

S20.TF/IDF值计算步骤，在所述一段文字中计算每一个词干原型的TF/IDF值。TF/IDF(term frequency/inverse document frequency)是一种用于资讯检索与文本挖掘的加权技术。TF/IDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF/IDF加权的各种形式常被应用于关键字提取技术，作为文件与用户查询之间相关程度的度量或评级。TF/IDF算法的基本原理如下：在一份给定的文件里，词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。)对于在某一特定文件里的词语来说，它的TF值可表示为：TF＝该词在此文件中的出现次数/此文件中所有字词的出现字数之和。这样，就得到了每个字词对于该文件是否重要的值TF。逆向文件频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。IDF的值可以表示为：IDF＝log(语料库中的文件总数/包含该词的文件数目)。最后，TF/IDF值就是TF*IDF。它的依据就是某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF/IDF。因此，TF/IDF倾向于过滤掉常见的词语，保留重要的词语。假如一篇文件的总词语数是100个，而词语“经济”出现了3次，那么“经济”一词在该文件中的词频就是0.03(3/100)。一个计算文件频率(IDF)的方法是测定有多少份文件出现过“经济”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是9.21(In(10,000,000/1,000))。最后的TF*IDF的分数为0.28(0.03*9.21)。

S21.词频过滤步骤，设定一词频阈值，选择词频大于该词频阈值的词干原型作为候选关键字。例如，可以选择词频阈值1，将词频大于1的词干原型W＝{W1，W2，......，Wn}作为候选关键词，并且都设置未被访问标记。

S22.共现度计算步骤，在候选关键字中计算候选关键字之间的词共现度，生成词共现矩阵。在所有未被访问词语中，选择e邻域为一个句子的范围，计算候选词语之间的词共现度，生成词共现矩阵M。

S23.聚类步骤，基于词共现矩阵进行候选关键字聚类，为每一个聚类计算TF/IDF平均值。聚类后，生成W的一个划分W＝{C1，C2，......Cm}。其中Ci为词语的一个聚类。分别计算簇Ci中词语TF/IDF平均值Ci.avgtf/idf，并按照其Ci.avgtf/idf对簇进行降序排列。

S24.关键字确定步骤，选择具有最高的TF/IDF平均值得聚类中的词干原型作为关键字。

参考图2所示的实施例，揭示了一种基于非高频词查找实现的关键字确定步骤，包括：

S30.预处理步骤，对一段文字进行预处理，去除其中的停用词。一个实施例中，去除停用词包括查找一停用词表，将存在于停用词表中的单词作为停用词去除。

S31.词频统计步骤，设定一词频阈值，选择词频大于该词频阈值的词干原型作为高频词。

S32.构图步骤，设定一关联度阈值，以高频词作为顶点，关联度大于关联度阀值的词干原型作为边集构图。该种实现方式基于下述的原理：高频词集表示了文档的主要内容。由构造图的方法，通过边集将图G划分为一系列连通的子图，称之为群上述假设也可表述为：G中的群表示了文档的主要内容。词语w与群g同现的定义：w与g中的词语同时出现在文档一句中的频率之和。词语的偏向度B(w，g)定义：w与g同现的实际值与期望值之间的差值。据上，提取高B(w，g)值的词语便可以从非高频词集中找出与某些群联系紧密的词语。

S33.划分步骤，基于聚类系数对构图进行划分，划分成数个子图。

S34.关键字确定步骤，计算每一个子图的特征路径长度，选取具有最短特征路径长度的子图中的词干原型作为关键字。

Claims

1.一种提取关键字的方法，其特征在于，从一段文字中提取关键字，该方法包括：

分词步骤，分词步骤将所述一段文字划分成单词；

停用词消除步骤，从所述分词步骤中划分出的单词中去除停用词；

关键字确定步骤，以所述词干原型为基础，在所述一段文字中确定每一个词干原型出现的频率，基于出现的频率确定关键字。

2.如权利要求1所述的提取关键字的方法，其特征在于，

所述分词步骤包括从所述一段文字中提取空格、标点符号以及字符串作为分词的标记。

3.如权利要求1所述的提取关键字的方法，其特征在于，

所述停用词消除步骤包括查找一停用词表，所述分词步骤中划分出的单词中存在于所述停用词表中的单词作为停用词去除。

4.如权利要求1所述的提取关键字的方法，其特征在于，所述关键字确定步骤基于密度聚类模式实现，包括：

TF/IDF值计算步骤，在所述一段文字中计算每一个词干原型的TF/IDF值；

聚类步骤，基于所述词共现矩阵进行候选关键字聚类，为每一个聚类计算TF/IDF平均值；

5.如权利要求1所述的提取关键字的方法，其特征在于，所述关键字确定步骤基于非高频词查找，包括：

预处理步骤，对所述一段文字进行预处理，去除其中的停用词；

构图步骤，设定一关联度阈值，以所述高频词作为顶点，关联度大于所述关联度阀值的词干原型作为边集构图；

划分步骤，基于聚类系数对所述构图进行划分，划分成数个子图；