CN110516225A

CN110516225A - 关键短语提取方法以及关键短语提取系统

Info

Publication number: CN110516225A
Application number: CN201810488423.0A
Authority: CN
Inventors: 高明; 廖晓锋; 余涛; 李明芳
Original assignee: Niga Technology Co Ltd Of Six Degree Shenzhen
Current assignee: Niga Technology Co Ltd Of Six Degree Shenzhen
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2019-11-29

Abstract

本发明提供一种关键短语提取方法以及关键短语提取系统，所述关键短语提取方法包括如下步骤：为每个文档构建加权无向图，所述加权无向图中每个节点代表一个词汇，节点之间的边为两个词汇在某个窗口阈值之内的关系权值；利用词嵌入模型Skip‑gram基于中心词预测前后词汇的概率值以作为加权无向图中两个词汇之间关系的权值；通过加权算法为每个节点计算相邻词汇的分数并进行排列；提取排列后的前N个词汇作为候选关键短语，其中，N为大于1的自然数。与相关技术相比，本发明提供的关键短语提取方法能够提高提取速度以及提取准确率。

Description

关键短语提取方法以及关键短语提取系统

技术领域

本发明涉及信息提取技术领域，尤其涉及一种关键短语提取方法以及关键短语提取系统。

背景技术

随着互联网的逐步普及，网络文本的数据规模越来越大，信息量的增长速度也越来越快。要从海量的数据中找到用户所需要的信息，往往需要对文本内容进行一定程度的压缩。在对文本内容进行压缩的方法中，关键词和关键短语提取是非常重要的方法，即从文本中找到一些有代表性的词语来表示文本基本内容。这可以极大地压缩文本规模，同时不会明显地丢失基本信息。

关键词和关键短语提取也叫自动标引，是指利用计算机从文本中提取出与文本内容相关程度较高的一些词语。关键词提取在文本检索、文本摘要、文本分类和文本相似性计算中有重要应用，是自然语言处理领域的基本技术之一。

关键短语是指由一个或多个词汇组成的短语。从给定文档中提取关键短语需要局部统计信息以及背景知识。

在已有的关键词和关键短语提取方法中，最常见的方法包括：

a)基于资料库的关键词和关键短语提取

基于资料库的关键词提取通过利用人工或自动标注的语义资源进行文本关键词的提取。常用的语义资源包括Hownet、Wordnet、FrameNet、Mindnet等等。在这些人工标注或自动标注的语义资源里，往往标注了常用词的语义信息，例如上下位词、同义词、反义词、词性、语义角色等等。这些语义信息及其约束关系往往能够体现出词的重要性。该方法的缺陷在于知识库的规模过小，只能覆盖比较有限的范围，绝大多数词语并不能被知识库所覆盖。

b)有监督型的关键词和关键短语提取

有监督的关键词提取通过人工标注语料和统计方法来实现关键词提取。在科技文献和法律文本中，关键词的位置往往与文本结构有关。这些结构化的信息包括文本标题、首段、末段、首句、末句等，关键词往往分布在这些特定的位置。通过人工标注部分数据，然后利用机器学习方法学习这些关键词分布的知识，可以实现有监督的关键词提取。有监督的关键词提取的缺陷在于，大量文本并非十分规范，内容表达的随意性很大，关键词的分布往往与文本位置没有明确的关系。在这种情况下，有监督的方法并不能发挥作用。另外，该方法会直接受制于人工标注语料规模的影响。语料规模太小，则会影响该方法的有效性；语料规模太大，往往代价大于收益。

c)非监督性的关键词和关键短语提取

非监督的关键词提取并不使用任何词表，也不用分词信息，直接将新词发现和关键词提取同时进行，在识别新词的过程中完成关键词和关键短语的提取。非监督的关键词提取的优点在于不会受制于分词系统的表现，往往能将新词确定为关键词和关键短语。该方法的缺陷在于：(1)将新词发现和关键词语提取合并在一起，计算复杂度太高，效率低下；(2)关键词提取的整体准确性不高，虽然有时能够捕捉到新词，但往往会将部分垃圾词串作为关键词，而且不能有效利用已有的知识库资源来指导关键词提取，导致提取的准确率不高。

而在非监督型类型中，基于图的排序方法是最新型的一种，其中尤其以结合词汇嵌入的图排序方法广泛应用，因为词汇嵌入特征向量所蕴含的丰富语义及语法信息。现有这些工作中，普遍采用词汇之间的相似性作为判断词汇是否可以组成短语的指标，但是词汇相似度并不保证词汇之间位置邻近，而位置邻近是短语中词汇的最明显特征。

因此需要对现有技术进行改进，以提供一种新的关键短语提取方法。

发明内容

本发明解决的技术问题是提供一种利用图的排序和词嵌入模型来提高提取速度以及准确率的关键短语提取方法。

为解决上述技术问题，本发明提供一种关键短语提取方法，所述关键短语提取方法包括如下步骤：

S1、为每个文档构建加权无向图，所述加权无向图中每个节点代表一个词汇，节点之间的边为两个词汇在某个窗口阈值之内关系的权值；

S2、利用词嵌入模型Skip-gram提供基于中心词预测前后词汇的概率值以作为加权无向图中两个节点之间边的权值；

S3、通过加权算法为每个节点计算相邻词汇的分数并进行排列；

S4、提取排列后的前N个词汇作为关键短语，其中，N为大于1的自然数。

优选的，在所述S2步骤中，利用所述词嵌入模型Skip-gram，权值W_ji,W_jk为：

P(V_t-1,V_t-2,V_t+1,V_t+2|V_t)

其中，V代表一个词汇，t是V的下标，代表上下文中的宽度，j代表语料库中的任意一篇文章，i和k代表文章j中上下文的两个词汇。

优选的，在所述S3步骤中，所述加权算法为PageRank算法。

优选的，每个节点相邻词汇的分数计算公式：

其中，d为调整系数，其值为介于0与1之间的常数，d的值可通过实验确定，S(V_j)和S(V_i)代表矩阵，S(V_j)和S(V_i)的长度为所有词汇的数量，S(V_j)和S(V_i)的值为计算得到的各个词之间的概率关系，In(V_i)是指所有指向该节点的边，OUT(V_j)代表从该节点引出的边。

本发明还提供一种关键短语提取系统，其特征在于，所述关键短语提取系统包括：

构图模块，用于对文档构建加权无向图，其中，每个词汇代表一个节点，两个节点之间的连线为边，边为两个词汇在某个窗口阈值之内关系的权值；

获取模块，用于根据加权无向图利用词嵌入模型Skip-gram根据前后词汇来获取中心词汇的概率值，所述概率值作为加权无向图中两个节点之间边的权值；

计算排列模块，用于根据所述获取模块得到的概率值利用加权算法进行计算，以获得每个词汇的分数并进行排列；

提取模块，用于根据得到的所述分数提取前N个词汇作为关键词汇，并将输入的词汇与提取的关键词汇组合，获得关键短语，其中N为大于1的自然数。

与相关技术相比较，本发明提供的关键词提取方法通过对需要提取的关键词进行构件加权无向图，采用所述词嵌入模型Skip-gram基于中心词预测前后词汇的概率值以作为加权无向图中两个词汇在某个窗口阈值之内关系的权值，最后通过加权算法计算各词汇分数并进行排列，从而提高关键短语的提取速度以及准确率，且方法简便，可操作性高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明关键短语提取方法的流程图；

图2为本发明关键短语提取系统的系统图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种关键词提取方法，所述关键词提取方法包括如下步骤：

在所述S1步骤中，为每一个文档构建加权无向图，所述加权无向图表示其中每个节点代表一个词汇，同一窗口出现的节点之间的连线为边，边为两个词汇之间在某个窗口阈值之内的共现关系，所述共现关系为边的权值。

S2、利用词嵌入模型Skip-gram提供基于中心词预测前后词汇的概率值以作为加权无向图中两个词汇之间的权值；

在所述S2步骤中，所述词嵌入模型Skip-gram将窗口中的词汇看成是无序的，边的权值由所述词嵌入模型Skip-gram提供的概率值充当。

所述词嵌入模型Skip-gram采用包括输入层、映射层以及输出层的三层神经网络模型，输入层将中心词以词向量方式输出到映射层，映射层将中心词的词向量进行映射，输出层输出一个基于中心词预测前后词汇的出现概率值，所述概率值作为加权无向图中两个词汇之间的权值。

采用所述词嵌入模型Skip-gram，取语料库当中任意一篇的文章j的上下文中两个词汇i和k，i和k仅是为进行区分而采用的命名，则边的权值表示为W_ji,W_jk，其中W代表权值，ji代表文章j中词汇i的边，jk代表文章j中词汇k的边，则边的权值W_ji,W_jk根据条件概率P(V_t-1,V_t-2,V_t+1,V_t+2|V_t)，P(V_t-1,V_t-2,V_t+1,V_t+2|V_t)表示在V_t出现概率的条件下，V_t-1,V_t-2,V_t+1,V_t+2出现的概率。

本发明中，优选采用所述词嵌入模型Skip-gram来获得概率值。当然也采用其他词嵌入模型，这理应属于本发明的保护范围。

在所述S3步骤中，所述加权算法为PageRank算法，通过所述PageRank算法为每个节点计算相邻词汇分数并排列，每个相邻词汇的分数计算公式：

其中，d为调整系数，其值为介于0与1之间的常数，d的值可通过实验确定，S(V_j)和S(V_i)代表1*N的矩阵，其长度为所有词汇的数量，其值为计算得到的各个词之间的概率关系。

为一稀疏方阵，In(V_i)是指所有指向该节点的边，OUT(V_j)代表从该节点引出的边，基于计算出一个词汇与其他词汇之间的距离，可以构建一个关于主对角线对称的稀疏方阵。

根据上述公式来进行迭代计算S(V)值，直到其值不再变化或者是变化小于某个阈值为止，再对计算所得的S(V)值进行排列，分数越大的代表该词汇相邻位置越近其关键性越高，分数越低的代表该词汇相邻位置越远其关键性越低。

S4、提取排列后的前N个词汇作为关键词汇与中心词组合从而提取出关键短语，其中，N为大于等于1的自然数。

在所述S4步骤中，提取重新排序后的前N(N为大于等于1的自然数)个候选关键词汇，在当前文本中取出若干候选关键词汇，将输入的中心词与获得的候选关键词汇进行组合，以提取出当前文本的关键短语。

请参阅图2，本发明还提供一种关键短语提取系统100，所述关键短语提取系统100包括：构图模块1001、获取模块1002、计算排列模块1003以及提取模块1004，所述关键短语提取方法基于所述关键短语提取系统100。

所述构图模块1001用于对语料库中的任一文章中的词汇构建加权无向图，其中，每个词汇代表一个节点，两个节点之间的连线为边，边为两个词汇在某个窗口阈值之内关系的权值；

所述获取模块1002用于根据加权无向图利用词嵌入模型Skip-gram根据前后词汇来获取中心词汇的概率值；

所述计算排列模块1003用于根据所述获取模块得到的概率值利用加权算法进行计算，以获得每个词汇的分数并进行排列，所述分数用于指示每个词汇在文章中的重要程度；

所述提取模块1004用于根据得到的所述分数提取前N个词汇作为关键词汇，并将输入的词汇与提取的关键词汇组合，获得关键短语，其中N为大于1的自然数。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种关键短语提取方法，其特征在于，所述关键短语提取方法包括如下步骤：

2.根据权利要求1所述的关键短语提取方法，其特征在于，在所述S2步骤中，当利用所述词嵌入模型Skip-gram时，权值W_ji，W_jk为：

P(V_t-1,V_t-2,V_t+1,V_t+2|V_t)

3.根据权利要求1所述的关键短语提取方法，其特征在于，在所述S3步骤中，所述加权算法为PageRank算法。

4.根据权利要求1所述的关键短语提取方法，其特征在于，每个节点相邻词汇的分数计算公式：

5.一种关键短语提取系统，其特征在于，所述关键短语提取系统包括：