CN104298746A

CN104298746A - 一种基于短语网络图排序的领域文献关键词提取方法

Info

Publication number: CN104298746A
Application number: CN201410532681.6A
Authority: CN
Inventors: 王厚峰; 李广一
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2014-10-10
Filing date: 2014-10-10
Publication date: 2015-01-21

Abstract

本发明公开了一种基于短语网络图排序的领域文献关键词提取方法，首先对领域文献的文本进行预处理，将文本切分成词序列；然后基于DFAV统计量提取关键词候选短语，再构建短语网络；利用图排序算法对短语网络中的关键词候选短语进行排序，排名靠前的短语作为结果关键词。

Description

一种基于短语网络图排序的领域文献关键词提取方法

技术领域

本发明提供了一种领域关键词抽取方法，具体涉及一种通过DFAV统计量提取关键词候选短语及基于短语网络的图排序来提取关键词的方法，属于自然语言处理、信息检索领域。

背景技术

关键词是对文档内容和主题的浓缩，通常由几个词或者短语构成。关键词在信息检索、文本分类、知识挖掘等领域有着广泛应用。在当今信息爆炸式增长的时代，海量的文档已经超出人力在特定时间内所能浏览的范围。为了快速准确地获取所需信息，关键词就成为快速阅读海量数据的重要形式。

虽然很多专业文献(如论文)都有关键词，但仍然有大量的文献没有关键词。文献的关键词通常需要具有相关领域知识的人去标引，以保证关键词能够准确地反映文档的内容和主题。然而，随着各类文献的大量涌现，单纯依靠人工获取关键词已经十分困难；而且，人工提取的关键词标准难以统一，可能存在不规范或不能准确反映文本内容的现象。这就迫切需要一种自动提取文献关键词的技术。

发明内容

为了便于说明，首先约定下列概念：

关键词：能够表达文档主题思想的词或词组成的短语，一个文档的关键词通常不止一个。

关键词候选短语：可能作为文档关键词的词或短语。

DF(phr)：词(或短语)phr的文档频率。即phr在文档集合的多少个文档中出现，出现过的文档数称为文档频率。

DFAV(phr)：指在一个词(或短语)phr左侧(或右侧)出现过的所有词语的文档频率之和(或者频率的对数之和)。例如，若计算词(或短语)phr左边的DFAV(phr)(表示为DFAV_L(phr))，先假定S_L(phr)是phr在文档集合中左边的词的集合(类似地，可以用S_R(phr)表示phr右边的词集合)，按取频率的对数计算，则：

{DFAV}_{L} (phr) = \underset{Lphr &Element; S_{L} (phr)}{Σ} \log DF (Lphr)

短语网络：指由词或者短语表示节点，边表示节点之间的关系而形成的图。

为描述方便，本文中词和词组成的短语不做严格区分，短语网络中的短语泛指词和词组成的短语。

本发明的目的是提供一种新方法，在无人工干预的情况下从领域文献中提取关键词。

本发明的原理是：首先，对文档(可以包括题目、摘要和正文，也可以只包括题目、摘要)进行预处理，然后，基于DFAV统计量，提取关键词候选短语，再构建短语网络，利用图排序算法对关键词候选短语进行排序，排名靠前的短语作为结果关键词。在计算中，会利用相同领域中已有关键词的文档中所有关键词的相关信息。

本发明对应的流程图参见图1，详细技术方案如下：

一种领域文献关键词提取方法，包括以下步骤：

1)通过DFAV统计量提取领域文献中的关键词候选短语；

2)基于候选短语及它们之间的关系，构建短语网络；

3)依据图排序算法，对短语网络中的每个短语计算一个表示重要程度的得分；

4)按短语得分进行排序，将重要程度高的短语输出，即为所提取的关键词。上述步骤1)提取关键词候选短语，具体执行如下操作(如图2)：

A1.分别统计各短语在领域文献中所有出现位置左侧和右侧的词语集合；

A2.利用大规模语料，统计词语的文档频率，即DF值；

A3.依据领域内已知关键词的统计特性，剔除部分短语，例如：选取所有小于某一长度的短语，利用该领域内已有的关键词特性(如长度、构词特征)作为剔除依据；

A4.对于每个候选短语，求出它左侧出现过的词语的DF值之和，及它右侧出现过的词语的DF值之和(若DF值较大，可以取其对数)，二者相乘作为该短语的DFAV得分；

A5.依据DFAV得分从高到低排序，得分高于某一阈值的短语即为关键词候选短语。

对于中文文献，在提取关键词候选短语前通常先对文本进行预处理，预处理主要包括切分词，还可以进一步包括词性标注，目的是将文本切分成词序列(如果是英语论文，则不必要切分词)。预处理之后计算DFAV，提取关键词候选短语。

获得关键词候选短语后，在步骤2)基于候选短语以及各候选短语之间的关系，构建短语网络。两个候选短语之间的关系可以是一定窗口大小内两者的共现关系，也可以是短语间的其他关系。

可以对短语网络进一步简化，将共现程度高的相邻词语进行合并，以降低图的复杂性，并减少结果出现部分重叠的现象。

构建短语网络后，在步骤3)首先需要计算边的权重。对于短语网络中的每一条边，根据对应的两个短语的特定属性，计算该边的权重。其属性可以是两个短语在文中的距离、短语的长度，或者其他属性。然后依据图排序算法，对每个短语计算一个表示重要程度的得分。图排序算法可以是经典的TextRank算法，也可以是其他排序算法。

如果已获得某些该领域内关键词的统计特征，如关键词出现频率、关键词长度等，利用这些特性对短语得分进行加权处理。

最后，在步骤4)将短语按重要程度的得分排序，将重要程度高的短语输出，即为所提取的关键词。

利用本发明提供的技术方案，可以将文献转换为短语网络，通过图排序的方法提取其中的关键词。

附图说明

图1是本发明的关键词提取流程图；

图2是本发明提取候选短语流程图；

图3是从候选短语提取关键词的流程图；

图4是实施例列举的短语连通图；

图5是实施例中针对图4的短语连通图构建的短语网络图；

图6是实施例中将图5所示的短语网络精简后的网络图。

具体实施方式

下面通过实例对本发明做进一步的说明。需要注意的是，公布实施例的目的在于帮助进一步理解本发明。在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于本实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

假定本例中，目标论文为一篇汉语科技类论文，需要提取的是该论文的关键词列表。

首先需要对论文(包括题目、摘要和正文)进行预处理。预处理包括切分词、词性标注(可选)，目的是将论文切分成词序列(如果是英语论文，则不必要切分词)。

文档频率(DF)可以反映一个词语是否常用，越常用的词语，越可能在更多的文档中出现，即，文档频率就会越高；反过来，作为文献的关键词，应突显文献内容的特点，其文档频率相对较低。专业领域论文的关键词，大多是专业性词汇，在日常语境中较少使用。统计发现，科技论文中关键词出现的位置左右两侧通常是常用词，因而可以利用DFAV统计量提取关键词候选短语。

文档频率需要基于一个较大规模的文档集合计算，这里以中文Gigaword语料为例，统计每个词语出现在多少篇文档中。Gigaword是语言资源联盟LDC(Linguistic Data Consortium)提供的，主要包含了新华社的文稿。由于Gigaword规模大，文档频率值也较大。为了方便计算，对文档频率取对数操作。于是，定义左右DFAV值和短语的分数如下：

{DFAV}_{L} (phr) = \underset{Lphr &Element; S_{L} (phr)}{Σ} \log DF (Lphr)

{DFAV}_{R} (phr) = \underset{Lphr &Element; S_{R} (phr)}{Σ} \log DF (Lphr)

Score(phr)＝DFAV_L(phr)×DFAV_R(phr)

计算DFAV值时，可以依据领域内已知关键词的统计特性，剔除部分短语，如：过短或过长的短语，以及从未作为关键词成分的常用词作为组成成分的短语，等等。这可以利用领域已知关键词的规律(如长度信息)作为剔除依据；计算出剩余短语的分数后，将分数超过某预定阈值的短语选出作为关键词候选短语。

基于关键词候选短语，可以构造短语的网络。两个短语之间的连接边可以由这两个短语在窗口内的共现关系确定，边的方向是由出现在前的短语指向出现在后的短语。以词语序列“辐射带电子通量模式研究”为例，假定候选短语包含了“电子通量”、“通量模式”、“电子通量模式”，则将这些短语和词汇一起构造短语连通图。如果两个候选短语相邻，那么就在二者之间连接一条边。据此构建的短语连通图如图4所示。

基于短语连通图可以建立短语网络。具体方法是，假如窗口大小为n(n为自然数)，如果两个节点之间存在一条长度不大于n的有向路径(节点V_i到节点V_j的有向路径长度是指按照有向边的方向从节点V_i到节点V_j所经过的边的条数)，那么就在两个节点间添加一个连接边，部分重叠的两个节点间不会有链接，比如“电子”、“电子通量”、“电子通量模式”之间都不会有链接。以窗口大小取n＝2为例，针对图4的短语连通图构建的短语网络如图5所示。

短语网络进一步简化。如果两个词语的共现程度很高，比如词语“电子”和“通量”总是在该文档中同时出现，那么就将“电子”和“通量”结合在一起，作为一个短语，相应的，短语网络中“电子”和“通量”表示的节点和相关的路径都删除，只保留短语“电子通量”。于是，图5的短语网络图简化后如图6所示。可以看出网络得到明显简化。

构建短语网络后，需要计算边的权重。边的权重主要考虑两个因素：(1)节点间距离权重。定义dist_ij为节点V_i和节点V_j在短语网络中的最短路径长度，距离权重为：距离越长则权重越小。(2)头节点短语长度权重。以有向边的头节点(V_j)的长度为基础计算短语长度权重为：其中len(V_j)表示头节点(V_j)的短语长度，N_len(V_j)表示在领域已知关键词集合中长度与len(V_j)相同的关键词频数，N_Max是该关键词集合中，各长度中频数最高的值。于是，边e_ij的权重w_ij为上述两个权重的乘积，即w_ij＝w_dist(i,j)×w_len(V_j)。

有了短语网络，就可以利用图排序算法对每个短语的重要程度进行排序。以TextRank算法为例，定义有向图G＝(V,E)为该短语网络，V为节点集合，E为有向边的集合。对节点V_i，定义In(V_i)为有边指向V_i的节点集合，Out(V_j)为V_j指向的节点集合，则节点V_i的得分WS(V_i)由如下公式计算，其中，d取值0～1之间：

WS (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; In (V_{i})}{Σ} \frac{w_{ji}}{Σ_{V_{k} &Element; Out (V_{j}) w_{jk}}} WS (V_{j})

上面公式中，w_ji表示边e_ji的权重(同样，w_jk表示边e_jk的权重)。TextRank可以通过迭代和矩阵运算得到稳定状态下每个短语的得分。得到分数后，可以依据领域内已知关键词的频率对得分进行调整，频率高的关键词短语得分相应地提升。假设phr在已知关键词中出现的次数为freq(phr)，则权重对短语phr的TextRank得分乘上w_f得到最终分数。将调整后的得分由高到低排序，输出关键词结果。

Claims

1.一种领域文献关键词提取方法，包括以下步骤：

1)通过DFAV统计量提取领域文献中的关键词候选短语；

2)基于候选短语及它们之间的关系，构建短语网络；

4)按短语得分进行排序，将得分高的短语输出，即为所提取的关键词。

2.如权利要求1所述的领域文献关键词提取方法，其特征在于，所述步骤1)包括如下操作：

A2.利用大规模语料，统计词语的文档频率，即DF值；

A3.依据领域内已知关键词的统计特性，剔除部分短语；

A4.对于剩余的每个候选短语，求出它左侧出现过的词语的DF值或其对数之和，及它右侧出现过的词语的DF值或其对数之和，将两个和相乘作为该短语的DFAV得分；

A5.依据DFAV得分从高到低对短语排序，得分高于某一阈值的短语即为关键词候选短语。

3.如权利要求2所述的领域文献关键词提取方法，其特征在于，步骤A2所述大规模语料是中文Gigaword语料。

4.如权利要求1所述的领域文献关键词提取方法，其特征在于，在提取关键词候选短语前对文本进行预处理，将文本切分成词序列。

5.如权利要求1所述的领域文献关键词提取方法，其特征在于，步骤2)中两个候选短语之间的关系是指一定窗口大小内两者的共现关系，构建短语网络的步骤是：

2-1)基于候选短语构建短语连通图：在两个相邻候选短语之间连接一条边，边的方向是由出现在前的短语指向出现在后的短语；

2-2)基于短语连通图建立短语网络：在短语联通图的基础上，以短语表示节点，边表示节点之间的关系，假如窗口大小为n，如果两个节点之间存在一条长度小于n的有向路径，那么就在两个节点间添加一个连接边，部分重叠的两个短语节点间没有链接，其中n为自然数，节点V_i到节点V_j的有向路径长度是指按照有向边的方向从节点V_i到节点V_j所经过的边的条数；

2-3)简化短语网络：将共现程度高的相邻词语进行合并。

6.如权利要求1所述的领域文献关键词提取方法，其特征在于，步骤3)首先对于短语网络中的每一条边，根据对应的两个短语的特定属性，计算该边的权重；然后依据图排序算法，对每个短语计算一个表示重要程度的得分。

7.如权利要求6所述的领域文献关键词提取方法，其特征在于，边的权重是节点间距离权重和头节点短语长度权重的乘积，即w_ij＝w_dist(i,j)×w_len(V_j)；其中节点间距离权重dist_ij为节点V_i和节点V_j在短语网络中的最短路径长度；头节点短语长度权重其中len(V_j)表示头节点V_j的短语长度，N_len(V_j)表示在领域已知关键词集合中长度与len(V_j)相同的关键词频数，N_Max是该关键词集合中各长度中频数最高的值。

8.如权利要求7所述的领域文献关键词提取方法，其特征在于，所述图排序算法是TextRank算法，定义有向图G＝(V,E)为所述短语网络，V为节点集合，E为有向边的集合；对节点V_i，定义In(V_i)为有边指向V_i的节点集合，Out(V_j)为V_j指向的节点集合，则节点V_i的得分WS(V_i)由如下公式计算：

WS (V_{i}) = (1 - d) + d * \underset{V_{j} &Element; In (V_{i})}{Σ} \frac{w_{ji}}{Σ_{V_{k} &Element; Out (V_{j})} w_{jk}} WS (V_{j})

其中，d取值0～1之间。

9.如权利要求8所述的领域文献关键词提取方法，其特征在于，依据领域内已知关键词的频率对短语得分进行调整：假设phr在已知关键词中出现的次数为freq(phr)，则权重对短语phr的TextRank得分乘上w_f得到短语的最终得分。