CN103559310A

CN103559310A - 一种从文章中提取关键词的方法

Info

Publication number: CN103559310A
Application number: CN201310581543.2A
Authority: CN
Inventors: 徐波
Original assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Current assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Priority date: 2013-11-18
Filing date: 2013-11-18
Publication date: 2014-02-05

Abstract

本发明提供一种从文章中提取关键词的方法，包括：对文章进行预处理，得到文本的词语集合，所述预处理包括去除停用词、进行词性过滤以及同义词链构建；选取同义词链中的一个代表词，按一定规则分别计算出所述词语的词频变量值，区域位置变量值及分词距离次序变量值；根据所述词语的词频值，区域位置值及分词距离次序值，计算出所述词语的权重值，并根据所述权重值判定是否将所述词语作为所述文章的关键词，解决了现有技术中关键词提取算法资源占用多，提取的准确率低的问题，降低了系统资源占用率，提高了提取关键词的准确率。

Description

一种从文章中提取关键词的方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种从文章中提取关键词的方法。

背景技术

互联网络积累了海量的文本信息，如何高效地检索文本信息成为亟需解决的技术问题。文本信息处理包括文本分类、文本聚类、文本挖掘和近似查询处理等内容，而本文关键词提取在上述方面有着广发的应用，它不仅是进行这些工作不可缺少的基础和前提，也是互联网信息建库的一项重要的工作，英文文本的关键词自动标引的研究起步较早，已开发了一些相关的系统。主要有Turney在C4.5决策树算法基础上实现的GenEx系统。该系统使用遗传算法训练关键词提取器，然后提取器以文档为输入，经过处理后输出关键词；Frank等人提出了基于朴素贝叶斯方法的提取算法，使用离散的短语特征值训练统计学习模型以获取输入参数，较好地实现了关键词的自动提取。

由于汉语没有显示词的词边界，其关键词的自动抽取问题较英文文本的相同问题更为困难。为此要依次对文本进行应用分词算法、词法分析、语法处理以及语义分析，使用最多的一种方法是基于PAT Tree结构获取新词。另外有学者研究提出了最优概率分布的方法，并建立了一个特征集合，再根据丰富的语言特征来判断候选项是否可以选做文档的关键词。而基于语义的关键词提取算法在统计信息的基础上着重强调了语义对关键词判断的影响。此外，基于词汇链的关键词提取算法则在分词词频、文档反频、分词位置等基本统计手段的基础上，引入了词汇链的概念。

然而，现有中文文本关键词提取算法需要较大的空间代价，资源占用多，导致其实用性受限，此外，实际应用系统工作通常基于高频词提取等手段，但文档中的关键字往往并不都是高频词，导致提取关键词的准确率低。

发明内容

本发明的目的是克服现有技术中的不足之处，提供一种从文章中提取关键词的方法，解决了现有技术中关键词提取算法资源占用多，提取的准确率低的问题，降低了系统资源占用率，提高了提取关键词的准确率。

本发明实施例提供一种从文章中提取关键词的方法，包括：

对文章进行预处理，得到文本的词语集合，所述预处理包括去除停用词、进行词性过滤以及同义词链构建；

选取同义词链中的一个代表词，分别计算出所述词语的词频值，区域位置值及分词距离次序值；

根据所述词语的词频值，区域位置值及分词距离次序值，计算出所述词语的权重值，并根据所述权重值判定是否将所述词语作为所述文章的关键词。

通过本发明实施例提供的方法，选取词频、区域位置以及分词距离次序作为衡量关键词权重的主要因素，并为每一个因素构建了非线性计算函数。同时，利用训练样例训练该公式的调整因子是的其更好的逼近训练取值，并与已有相关工作进行了比较实验，其结果表明该方法改进了文本关键词提取算法的查准率和查全率，并具有良好的扩展性，可应用于文本信息处理中的自动关键词提取。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一的方法流程图.

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1是本发明实施例一的方法流程图，如图1所示，该方法包括：

S101、对文章进行预处理，得到文本的词语集合，所述预处理包括去除停用词、进行词性过滤以及同义词链构建；

需要说明的是，本发明的实施主体可以是计算机，也可以是终端，本发明实施例对此并无限制。

停用词是指那些不能反映主题的功能词，它们不但不能反映文献的主题，而且还会对关键词的抽取造成干扰，有必要将其滤除。停用词通常包含虚词、实词以及标点符号。如，在对文本扫描、进行词频统计时，有目的性地去掉一些对文章的关键词的抽取无实质作用的实词、虚词或标点，以避免对实验结果造成干扰。如标点“，”、“。”，实、实虚词如：我、他、你、的、地等，在词频统计前就将这些词语过滤掉。之所以进行词性过滤，是因为在汉语言中，这些词语或标点对标识文本的类别特性并没有贡献。如果把这些对文本分类没有意义的实虚词或标点作为文本特征词，将会带来很大的噪音，从而直接降低文本分词的效率和准确率。因此，在提取文本特征时，首先考虑剔除这些对文本分类没有用的虚词。

同义词链是指文档中根据上下文信息确定词义相同或相似的词的集合。基本思想是：根据上下文信息，利用词义相似度确定词汇在具体语境下的词义，用该词义代替词，利用义项相似度计算得到一系列的同义词，组成同义词链。

同义词的构建，主要是考虑到一篇文章中，也许对相同人、物、事前后称呼有些许不同，但它们其实是代表同一个意思，如：李天王、李某某、李某人、李天一，实际上，这4个词都可以归纳到同一个关键词中：李天一。采用同义词的构建主要是为了提高这种关键词提取结果的准确性。

S102、选取同义词链中的一个代表词，分别计算出所述词语的词频值，区域位置值及分词距离次序值；

其中，词频是对词的一种最简单的测度，也是最常用的参数之一。可以直接用它表示词在篇章或类别中的权重，这种处理方法假定一个词的重要程度与它出现的次数成正比例；区域位置：经调查发现，出现在标题中的词比出现在摘要中的词更能反映文献的主题，而出现在摘要中的词比出现在正文中的词更能反映文献主题，同时出现在首段中的词比其他段落中的词更能反映文献的主题；分词举例次序：随着文本长度的增加，利用词语第一次在文本中出现时距离文本开头的距离来衡量词语反映文本主题的价值也是很有意义的。因此，可将该因素引入关键词的抽取算法中，用来反映词语在文本中的权重。

其中，所述分别计算出所述词语的词频值，区域位置值及分词距离次序值，具体为：

一、计算出所述词语在所述词语集合中的出现次数，该结果为所述词频值。

二、对文章结构进行分类，按照不同类别分别统计所述词语在该类别中的出现次数，该结果为所述区域位置值，所述类别包括标题类、摘要类、段首类、段中类以及结尾类。

需要说明的是，按照不同类别分别统计所述词语在该类别中的出现次数，具体为：根据公式loci=ci×BT+di×ZY+ei×DS+fi×DZ+gi×JW计算出所述区域位置值，其中，loci是所述词语i的区域位置值，BT是所述词语在标题中的出现次数，ZY是所述词语在摘要中的出现次数，DS是所述词语在段首中的出现次数，DZ是所述词语在段中的出现次数，JW是所述词语在结尾中的出现次数，c、d、e、f、h为预设置的常数因子。

三、计算出所述词语第一次在文章中出现时与文本开头的距离值，该值为所述分词距离次序值。需要说明的是，计算出所述词语第一次在文章中出现时与文本开头的距离值，具体为：根据公式dis_i=a×W_i+b来计算所述词语的距离值，其中，dis_i表示第i个所述词语与文本开头的距离值，W_i表示第i个所述词语在文本中出现的次序，a、b均为可调节的常数因子。如“李天一”距离文章开头共800个字节，那么可以设W_i=800。

S103、根据所述词语的词频值，区域位置值及分词距离次序值，计算出所述词语的权重值，并根据所述权重值判定是否将所述词语作为所述文章的关键词。

本发明实施例中，可根据公式Weight_i=αx tf_i+βx loc_i+γx dis_i计算出所述词语的权重值，其中，weight_i是第i个所述词语的权重，tf_i是词频值，loc_i是区域位置值，dis_i是分词距离次序值，α、β、γ是预设置的调节因子。

假设本次实验统计的结果中，李天一（含李天王、李某某、李某人）在该文本中一共出现的频数为：27，即tf=27；而且仅在标题出现，假设c、d、e、f、g依次为5、4、3、2、1，由于仅在标题出现，所以仅标题取值1，其它区域位置均取0，即loc=5；（此处简单假设以下的常数因子a、b、α、β均为1，γ=-1）该关键词第一次出现的位置距离文章开头共10个字节，即W=10，得出dis=11，那么采用公式得出的“李天一”这个词语的关键词权重指数为：Weigh=1*27+1*5+(-1)*11=21。

需要说明的是，实际操作中，γ应该要小得多，或者相对的，α、β要大一些。γ之所以采用负数，是因为dis表示的是词语第一次在文本中出现时距离文本开头的距离。即距离文章开头越远，dis值越大，该词的关键词权重就越小，dis对Weigh是成反比关系，因此γ常熟因子应该为负数才符合它的实际意义。

从统计学的角度来讲，认为通过次公式得出的Weigh值越大，表示该词为关键词的可能性就越高。从理论上讲，Weigh值越大，反映该词在文本中出现的频率较高、在文章的标题、摘要、段首、结尾等关键位置出现、距离文章的开头越近，即在文章中很早就被提及，这样的词语可判断其为文章关键词的可能性非常大。因此，本发明实施例可通过对权重值的判断与统计各词语的权重值，来确定文章的关键词，解决了现有技术中关键词提取算法资源占用多，提取的准确率低的问题，降低了系统资源占用率，提高了提取关键词的准确率。

Claims

1.一种从文章中提取关键词的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别计算出所述词语的词频值，区域位置值及分词距离次序值，包括：

计算出所述词语在所述词语集合中的出现次数，该结果为所述词频值；

对文章的结构进行分类，按照不同类别分别统计所述词语在该类别中的出现次数，该结果为所述区域位置值，所述类别包括标题类、摘要类、段首类、段中类以及结尾类；

计算出所述词语第一次出现在文章中出现时与文本开头的距离值，该结果为所述分词距离次序值。

3.根据权利要求2所述的方法，其特征在于，所述按照不同类别分别统计所述词语在该类别中的出现次数，包括：

根据公式loc_i=c×BT_i+d×ZY_i+e×DS_i+f×DZ_i+g×JW_i计算出所述区域位置值，其中，loc_i是所述词语i的区域位置值，BT_i是第i个所述词语在标题中的出现次数，ZY_i是第i个所述词语在摘要中的出现次数，DS_i是第i个所述词语在段首中的出现次数，DZ_i是第i个所述词语在段中的出现次数，JW_i是第i个所述词语在结尾中的出现次数，c、d、e、f、h为预设置的常数因子。

4.根据权利要求2所述的方法，其特征在于，所述计算出所述词语第一次出现在文章中出现时与文本开头的距离值，包括：

根据公式dis_i=a×W_i+b来计算所述词语的距离值，其中，dis表示距离值，W_i表示第i个所述词语在文本中出现的次序，a、b均为可调节的常数因子。

5.根据权利要求1—4任一项所述的方法，其特征在于，所述根据所述词语的词频值，区域位置值及分词距离次序值，计算出所述词语的权重值，包括：

根据公式Weight_i=α×tf_i+β×loc_i+γ×dis_i计算出所述词语的权重值，其中，weight_i是第i个所述词语的权重，tf_i是其词频值，loc_i是其区域位置值，dis_i是其分词距离次序值，α、β、γ是预设置的调节因子。