CN111666772A

CN111666772A - 一种基于深度图神经网络的关键词抽取方法

Info

Publication number: CN111666772A
Application number: CN202010557742.XA
Authority: CN
Inventors: 段文影
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-09-15

Abstract

本发明属于计算机文档检索领域，具体设计一种基于深度图神经网络的关键词抽取方法，包括对文档进行矩阵加权形成有向图，利用图卷积编码器和图卷积解码器从相邻词汇中组合出最合适的关键词；期间为了保证数据的稳定，还可进行正则化的方式，保证数据的稳定性；因此，本方案是在图神经网络的端到端关键词抽取方法的基础上进行改进的，大大提高关键词抽取的效率。

Description

一种基于深度图神经网络的关键词抽取方法

技术领域

本发明属于计算机文档检索领域，具体涉及一种基于深度图神经网络的关键词抽取方法。

背景技术

文章的关键词通常是几个词或者短语，作为对该文档主要内容的提要。关键词的运用使得人们能够快速了解文档内容，把握文章主题。现今，关键抽取技术广泛应用于信息检索、信息管理等领域。

传统的关键词提取方法都是无监督的方法。无监督方法通常先用某些启发式方法识别候选关键词，再根据重要度得分对候选关键词排序。沿着该方向，最先进的算法是基于图的排序方法。然而，这类方法是完全无监督的，它们严重依赖手动设计的特征，当应用于不同类型的文档时，它们可能无法正常工作。

目前已存在许多网页关键词提取方法，这些方法的着眼点大多为词语的出现频率、词语在全文所处的区域、词语本身的语义特征。采用的方法大致有以下几类:基于统计学的方法，机器学习的方法，自然语言处理的方法。

但这些方法都存在着不足，其中对关键词提取，对正文的候选关键词进行评价，并经过排序后，提取前N个词作为网页的关键词，但这N个关键词中，并非所有的词都是真正与正文主题相关的关键词，而没被提取出的候选关键词中，却仍然存在一些与正文主题很相关的词，使得关键词提取的准确率和召回率都不高。

已有的关键词抽取方法在选取候选关键词时，通常会考虑机器学习得到的特征，然而这些特征只能通过对文档中词语的出现频率进行统计发现各个词语的重要性，并不能够揭示隐藏在文档内容中的完全语义。

最近，将端到端神经网络的用于提取关键关键词的方法吸引起了广泛的关注，神经网络方法通常在编码器-解码器框架中研究关键词提取，该框架首先将输入文档编码为矢量表示形式，然后使用基于条件的循环神经网络(RNN)解码器生成关键词。这些神经方法在端到端有监督的训练下，在多个基准数据集上取得了最优的性能。

但是，与无监督的基于图的排序方法相比，现有的端到端方法仅将文档视为词序列，并没有从图形结构的全局信息中获益。

基于图的无监督排名的关键词抽取方法在估计词的显著性上显示出良好的性能，这启发我们开发基于深度图神经网络的编码器。与基于序列的编码器(例如RNN和CNN)相比，基于深度图神经网络的编码器具有多个优点。例如，基于图神经网络的编码器可以显著表情词之间的短期与长期依赖性，以及体现出相同单词多次出现的文档综合视图。

发明内容

为解决上述问题，本发明提供了一种基于深度图神经网络的关键词抽取方法。

本发明的基础方案为：一种基于深度图神经网络的关键词抽取方法，包括以下步骤：假设文档中两个词的距离越接近，他们之间的关联性越强；

S1，构建待关键词提取的文档所对应的有向图，包括以下步骤：

S1-1，定义图

与图

分别对应邻接矩阵

和

词w_i∈W到词w_j∈W的边权重为

其中P(w_i)表示词w_i的位置p_i的集合；

S2，构造关键词集合对应的有向图

将关键词集合表示为图

计

对应的临接矩阵

计算方法如下。

给定源文档的节点集合W＝{w₁，w₂，…，w_n},关键词集合K＝{k₁，k₂，...，k_m}

S3,利用图卷积编码器进行编码，包括两个步骤；

S3-1，每个节点聚合来自其邻居节点的信息；

S3-2，根据节点当前的表示和从邻居节点汇集的信息更新每个节点的表示，给定第l层的节点表示矩阵H_l,每一层的图卷积神经网络计算如下，

其中，

和W_l均为可学习的参数矩阵，σ为sigmoid函数，

为逐点乘法，g_l为与fl定义相仿的函数；

S4，利用图卷积解码器进行解码：给定一个有L层图卷积网络编码器的输出H_L，解码器抽取的关键词邻接矩阵计算如下，

其中W_d为解码器的参数矩阵。

基础方案的有益效果为：本方案解决了编码器解码框架关键词抽取方法的不足，对此，本方案依赖于词基本的相邻信息，并自动学习这些信息，是一种新型的图到图关键词抽取方法。

本方案中，将文档设置成一个总图，将预设的所有可能关键词均设置为单元图，通过编码进行图神经卷积处理，保证节点特征时刻更新，并且随着图卷积神经处理层数的增加，参与计算的节点特征信息增多，整个计算所覆盖的域越广；而后解码器对编码器输出的节点特诊计算抽取关键词集合邻接矩阵，通过损失函数的计算保证关键词的多样性。

筛选出关联较大的几个子图，经过解码后获得对应的关键词。相比现有技术而言，本方案没有采用循环神经网络，计算过程较为简单，相比基于循环神经网络的关键词抽取算法快6-10倍。并且抽取的关键词能有效覆盖文档的大部分主题，提高了关键词抽取的效果。

进一步，S1还包括，对邻接矩阵

进行正则化：

其中

为单位矩阵。

为

的度矩阵。

进一步，还包括S5，计算损失函数：

其中其中yⁱ为真实值，

为预测值，||yⁱ||为L1范数，α为控制的超参数。

本方案中，正则化项||yⁱ||旨在提高模型抽取关键词的多样性通过计算真实值与预测值，得到损失函数，从而知晓本次方案的误差情况，以最小化损失函数Loss的值为目标，有利于后续方案验证和改进，选择出最佳方案。

进一步，S3中图卷积编码器由3层图卷积神经网络组成。

附图说明

图1为本发明一种基于深度图神经网络的关键词抽取方法实施例的运行示意图；

图2为图1的文档信息示意图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例基本如附图1和附图2所示：

给定源文档的节点集合W＝{w₁，w₂，...，w_n},待关键词集合K＝{k₁，k₂，...，k_m}；

一种基于深度图神经网络的关键词抽取方法，包括以下步骤：

S1，整理源文档，构建与源文档形状一致的邻接矩阵，定义

与图

分别对应邻接矩阵为

和

词w_i∈W到词w_j∈W的边权重为

其中P(w_i)表示词w_i的位置p_i的集合，边权重表现出两个节点之间关联度；

S2,待关键词提取的文档所对应的的有向图：待关键词集合表示为图

计

对应的临接矩阵

S3,利用图卷积编码器进行编码，包括两个步骤；

S3-1，每个节点将自身的提针信息经过变换后发送给邻居节点，对节点的信息特征进行抽取变换；因此，每个节点均会将邻居节点的特征信息聚集起来，实现对节点的局部结构信息进行融合；将每个节点所聚集起来的信息作非线性变换，增加模型的表达能力后；

其中，

和W_l均为可学习的参数矩阵，σ为sigmoid函数，

为逐点乘法，g_l为与fl定义相仿的函数；

由于每个节点包含了直接邻居的信息，在计算第二层图卷积神经网络时就能把邻居的邻居的信息包含起来，这样经过多次卷积神经网络编码，参与运算的信息旧更多更充分；也就是说，图卷积神经编码层数越多，感受域(由参与计算的信息所集合而成的范围)就越广；

S4，利用图卷积解码器进行关键词选择：给定一个有L层图卷积网络编码器的输出H_L，解码器抽取的关键词邻接矩阵计算如下，

其中W_d为解码器的参数矩阵。

值得注意的是，假设文档d中的每个节点(词语)

(即为一个n维的特征向量)，d对应的邻接矩阵为A_d,图卷积编码器的作用是对文档进行编码，更新节点的特征。解码器的作用是编码器输出经过图卷积神经网络编码后的节点特征计算抽取关键词集合邻接矩阵，通过损失函数的正则化项增强关键词的多样性。

为了稳定图卷积网络编码器中的消息迭代过程，还可以对邻接矩阵进行正则化。假设词“模型”在句子中于8，15两个位置出现，表示为P(w_i)＝{8，15}；利用函数relu(·)＝max(·，0)对邻接矩阵

进行正则化，正则化结果为

其中

I_N为单位矩阵，

为

的度矩阵。

并且，本方案中的预计关键词通常是从关键词库中抽取的，库内同时存储的还有各个预备关键词的选中概率，概率的计算方法为损失函数：

其中其中yⁱ为真实值，

为预测值，||yⁱ||为L1范数，α为控制的超参数。正则化项||yⁱ||旨在提高模型抽取关键词的多样性通过计算真实值与预测值，得到损失函数，从而知晓本次方案的误差情况，以最小化损失函数Loss的值为目标，有利于后续方案验证和改进，选择出最佳方案。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。