CN103064969A

CN103064969A - 自动建立关键词索引表的方法

Info

Publication number: CN103064969A
Application number: CN2012105930972A
Authority: CN
Inventors: 江潮
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2013-04-24

Abstract

本发明公开了一种自动建立关键词索引表的方法，包括：对待翻译文档进行分词处理获得文档的词语列表，对该词语列表进行词性标注；过滤词语列表中的候选关键词，获得粗候选词语集合，获取候选关键词各个义项的代码；根据词语的语义相似度对候选关键词进行构建同义词词链，得到同义词链集合；获取同义词链集合中词汇的词语权值，按照词语权值提取关键词组成关键词集合；将关键词集合和已有的参考库关键词索引集合比较，如果参考库关键词索引集合包含候选关键词，则给出相关文档集；如果不包含候选关键词字，将候选关键词加入参考库关键词集合，同时建立索引。本发明技术方案与传统的关键词提取方法相比，在查准率和召回率上有明显提高。

Description

自动建立关键词索引表的方法

技术领域

本发明涉及一种计算机技术，具体说，涉及一种自动建立关键词索引表的方法。

背景技术

关键词用于表征文档的重要信息和核心内容，便于得到文档的摘要信息和检索具体文档。传统的关键词提取一般采用人工提取，而人工提取关键词非常费时，随着文档数量的剧增，人工提取关键词越来越不能满足实际应用的需求。因此，如何自动提取关键词是文档检索研究的一个热点难点。

关键词提取是文本挖掘领域的基础性研究问题，许多文本挖掘系统以关键词所在的句子作为文摘句，大多聚类和分类算法也是用关键词算法构造文章的特征向量以提高算法的准确度同时降低特征空间的维度。目前多数关键词提取算法是利用词的统计信息判断词的重要性，并选取超过一定阀值的词作为文章的关键词，基于这种方法提出了多个关键词衡量函数，包括TFIDF、熵函数、分布系数等。

许多机器学习算法也应用于关键词提取，例如朴素贝叶斯算法、决策树和最大熵算法。上述算法通过训练语料获得提取函数，然后选取能够使提取函数得到最大值的词作为关键词。

由于文档包含信息的多样性，使得现实应用中很难获得一个通用的提取函数或模型用于关键词提取。现有的关键词自动提取算法可以分为3大类：

1、基于统计的方法，该方法简单易行不需要复杂的算法过程，如词语频率统计方法。

2、基于规则的方法，根据一定规则将文档映射为词语网络，利用词语网络计算词语的关键度，如采用朴素贝叶斯技术对短语离散的特征值进行训练，获取模型的权值，然后从文档中抽取关键词。

以上两类方法都是从频度或规则上提取关键词，没有考虑到词语的语义、词性等信息，相对来说精确度不高。

3、基于上下文语义的自然语言理解的方法，该方法主要利用词义或语义和词性特征来提取关键词，配合上述两类方法，能从文档中提取出较高正确率的关键词。这是自动提取关键词的主要研究方向。

发明内容

本发明所解决的技术问题是提供一种自动建立关键词索引表的方法，与传统的关键词提取方法相比，在查准率和召回率上有明显提高。

技术方案如下：

一种自动建立关键词索引表的方法，包括：

对待翻译文档进行分词处理获得文档的词语列表，对该词语列表进行词性标注；

过滤所述词语列表中的候选关键词，获得粗候选词语集合，获取所述粗选词语集合中候选关键词各个义项的代码，两个义项的代码距离表征义项的语义距离；

根据词语的语义相似度，对粗选词语集合中候选关键词进行构建同义词词链，得到同义词链集合；

获取所述同义词链集合中词汇的词语权值，按照所述词语权值提取关键词，组成关键词集合；

将所述关键词集合和已有的参考库关键词索引集合比较，如果所述参考库关键词索引集合包含所述关键词集合中的候选关键词，则给出相关文档集；如果不包含所述候选关键词字，将所述候选关键词加入参考库关键词集合，同时建立索引。

进一步，对待翻译文档进行分词处理和词性标注的过程包括：

对待翻译文档进行分词处理，获得文档的所有词语列表；

对该词语列表进行词性标注，将词汇按照停用词、形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词等词性分类标准进行词性标注。

进一步，过滤候选关键词的过程包括：去除所获词语列表中的停用词，保留形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词，获得所述粗候选词语集合。

进一步，构建同义词链集合的步骤包括：

计算候选词集合W中的每个词汇在文本中出现的次数t；

根据词汇的t值的大小对W中所有的词汇按降序排列，假设排序后W＝{w₁，w₂，…，w_n}，并为每个词汇设立一个开关项F，F=1表示该词汇已成为某同义词集中的元素，初始全部设为0；

将W中w₁作为第一个词集WG₁的第一个元素，将w_i（2≤i≤n）中F值不为1的词语与w₁按式1进行语义相似度计算，当其语义相似度大于阈值0.7时，认定w_i属于WG₁，将w_i插入词集WG₁中，并将w_i的F值改为1；

按排序将w₁后首个F值不不为1的词语作为词链WG₂的头，重复第3步的算法，得到WG₂；

重复这个过程直到W中所有词汇的F值为1，得到同义词链集合{WG₁，WG₂，...，WG_k}。

进一步，获取所述同义词链集合中词汇的词语权值的过程包括：

根据得到的所述同义词链集合，计算每个同义词集中的元素个数num，及该集合中包含标题词的数目head；

计算每个词汇的位置特征值loc和词性特征值ch；若该词汇出现在标题中loc值为5，若出现在正文中loc值为1，若词汇为名词则ch值为2，其他词汇ch值为1；

获取词汇权重

Weights(w_i)=α×num_i+β×TF_iIDKF_i+γ×loc_i+δ×head_i+ε×ch_i

其中，α，β，γ，δ，ε为人为设定的权重调节因子，取值为0～1，且α+β+γ+δ+ε=1，此处设定α=0.45，β=0.25，γ=0.1，δ=0.1，ε=0.1；num_i为词汇w_i所在同义词集的集合个数；loc_i为w_i的位置特征值；head_i为w_i所在同义词集包含标题词的数目；ch_i为w_i的词性特征值。

与现有技术相比，技术效果如下：

本发明提供一种快速自动提取关键词建立索引表的方法，该方法使用以词汇语义构建同义词集合为基础，结合词频统计与词汇区域特征，并考虑词性、词语上下文关系等启发性知识计算词汇权重，通过对大量文档的测试，这种关键词提取方法与传统的关键词提取方法相比在查准率和召回率上有明显提高，为进行文档相似性计算、文档聚类、文档分类提供了基础性的工作。

附图说明

图1是本发明中自动建立关键词索引表的方法的流程图。

具体实施方式

面对海量参考翻译文献库，要为待译文档找到合适的相似文档，需对文献库进行完整的相似性匹配，无论时间还是空间都很难达到要求。通过为参考翻译文献库建立关键词索引表，可以快速在翻译文献库中为待译文档找到合适的参考文档子集，这样可以有效提高查询速度，得到相对准确的匹配文档。关键词用于表征文档的重要信息和核心内容，便于得到文档的摘要信息和检索具体文档。

同义词词典是一种按树形结构编码的同义词分类词典，该树结构的每个节点有唯一的代码，对应了若干个义项；这样词语的语义距离，就可以通过计算该词语的义项在树结构上的距离得到。

一个词语往往有多种表达含义，每个不同的含义称之为词语的一个义项。义项为同义词词典中的最小单位，在词典中有相应的代码与其对应。例如：“骄傲”这个词可以有两种含义，“自豪”和“傲慢”，这就是骄傲这个词语的两个义项。

两个义项（S1，S2）的距离通过计算其在词典中的代码距离得到，记为：Dis（S1，S2）。义项相似度与义项距离为反比关系，记为：Sim（S1，S2）=L/（Dis（S1,S2)+L），其中L为调节参数，L越大相似度表现得越不灵敏，一般可以取为词典树结构的层数。

词语的语义相似度是个取值范围在[0，1]之间的数值。词语与其本身的语义相似度为1,如果两个词语在任何上下文中都不可替换，则相似度为0。词语的语义相似度同词语的语义距离为反比关系。设有两个词语w1和w2，如果w1有n个义项：s1₁，s1₂，...，s1_n，w2有m个义项：s2₁，s2₂，...，s2_m，则规定w1和w2的词语相似度（Sim（w1，w2））为这两个词语各个义项相似度的最大值，即：

Sim (w 1, w 2) = \max_{i = 1,2, . . ., n; j = 1,2, . . ., m} Sim ({s 1}_{i}, {s 2}_{j}) - - - (1)

同义词集是通过一定算法将文档中表达相同意思的词汇组成的集合，一篇文档可以抽象为多个同义词集（关键词的同义词集）构成的集合。构建同义词集：首先对文档进行分词，再对这些候选词进行词义相似度计算，相似度在一定阀值内的词语组成了相应的同义词集。

TF-IDF（term frequency–inverse document frequency）即TF×IDF，是一种统计方法，用以评估词语对于一个文件集或一个语料库中的其中一份文件的重要程度。TF：词语在文档中的出现的频率；IDF：逆向文档频率。词语w_i在文档D中出现的频率TF_i=t_i/N（t_i为w_i在文档中的出现次数，N为文档中的词语总数）。

词语w_i在文档集合DS中的逆向文档频率

|DS|为文档集合中的文档总数；分母是文档集合DS中包含w_i的文档数。

本发明采取基于上下文语义的方法，利用哈工大的《同义词词林》扩展版和普林斯顿的《WorldNet》分别作为中英文的同义词词典，来计算词语的语义距离，获得词语的语义相似度，通过语义相似度构建同义词集，以同义词集为基础，结合词频特征、位置特征和集聚特征计算词汇在文档中的权重，从而得到关键词，并建立关键词索引表。

下面参考附图，对本发明技术方案作详细描述。如图1所示，是本发明中自动建立关键词索引表的方法的流程图。

步骤101：对待翻译文档进行分词处理获得文档的词语列表，对该词语列表进行词性标注；

1、对待翻译文档进行分词处理，获得文档的所有词语列表；

2、对该词语列表进行词性标注，将词汇按照停用词、形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词等词性分类标准进行词性标注。

步骤102：过滤所获词语列表中的候选关键词，获得粗候选词语集合；

去除所获词语列表中的停用词，保留形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词，获得粗候选词语集合W。

步骤103：获取粗选词语集合W中候选关键词各个义项的代码，两个义项的代码距离（即代码值的差）表征义项的语义距离；

根据《同义词词林》和《WorldNet》，获得候选词语集合W中词语的各个义项的代码。

步骤104：根据词语的语义相似度，对粗选词语集合中候选关键词进行构建同义词词链，得到同义词链集合；

同义词链是将文档中表达相同意思的候选关键词通过算法组成的词语集合，一篇文档可以抽象为多个同义词的同义词链集合。在构建同义词链时，首先要做的是对文档进行分词，对这些候选词进行词义相似度计算，从而得到同义词链。

构建同义词链集合的步骤包括：

1、计算候选词集合W中的每个词汇在文本中出现的次数t；

2、根据词汇的t值的大小对W中所有的词汇按降序排列，假设排序后W＝{w₁，w₂，…，w_n}，并为每个词汇设立一个开关项F（F=1表示该词汇已成为某同义词集中的元素，初始全部设为0）；

3、将W中w₁作为第一个词集WG₁的第一个元素，将w_i（2≤i≤n）中F值不为1的词语与w₁按式1进行语义相似度计算，当其语义相似度大于阈值0.7时，认定w_i属于WG₁，将w_i插入词集WG₁中，并将w_i的F值改为1；

4、按排序将w₁后首个F值不不为1的词语作为词链WG₂的头，重复第3步的算法，得到WG₂；

5、重复这个过程直到W中所有词汇的F值为1，得到同义词链集合{WG₁，WG₂，...，WG_k}。

步骤105：计算同义词链集合中词汇的词语权值；

1、根据得到的同义词链集合，计算每个同义词集中的元素个数num，及该集合中包含标题词的数目head；

2、计算每个词汇的位置特征值loc（若该词汇出现在标题中loc值为5，若出现在正文中loc值为1），和词性特征值ch（若该词汇为名词则ch值为2，其他词汇ch值为1）；

3、计算词汇权重，计算公式如下：

Weights(w_i)=α×num_i+β×TF_iIDF_i+γ×loc_i+δ×head_i+ε×ch_i

其中，α，β，γ，δ，ε为人为设定的权重调节因子，取值为0～1，且α+β+γ+δ+ε=1，此处设定α=0.45，β=0.25，γ=0.1，δ=0.1，ε=0.1；

num_i为词汇w_i所在同义词集的集合个数；

loc_i为w_i的位置特征值；

head_i为w_i所在同义词集包含标题词的数目；

ch_i为w_i的词性特征值。

步骤106：提取关键词，组成关键词集合；

按词汇的权重，根据一定阀值取排在前列的为该文档的关键词，数目不超过8个不少于3个，组成关键词集合。

步骤107：关键词比较；

比较所获得的待翻译文档的关键词集合和已有的参考库关键词索引集合，若参考库关键词索引集合包含该关键词，给出相关文档集，若无该关键词，将该关键词加入参考库关键词集合同时建立索引。

合并给出的符合关键词条件的文档集，得到符合条件的文档子集。

Claims

1.一种自动建立关键词索引表的方法，包括：

2.如权利要求1所述的自动建立关键词索引表的方法，其特征在于，对待翻译文档进行分词处理和词性标注的过程包括：

对待翻译文档进行分词处理，获得文档的所有词语列表；

3.如权利要求1所述的自动建立关键词索引表的方法，其特征在于，过滤候选关键词的过程包括：去除所获词语列表中的停用词，保留形容词、副词、名形词、成语、简称略语、习用语、动词、动语素、副动词、名动词和名词，获得所述粗候选词语集合。

4.如权利要求1所述的自动建立关键词索引表的方法，其特征在于，构建同义词链集合的步骤包括：

计算候选词集合W中的每个词汇在文本中出现的次数t；

5.如权利要求1所述的自动建立关键词索引表的方法，其特征在于，获取所述同义词链集合中词汇的词语权值的过程包括：

获取词汇权重

Weights(w_i)=α×num_i+β×TF_iIDF_i+γ×loc_i+δ×head_i+ε×ch_i