CN111666772A - 一种基于深度图神经网络的关键词抽取方法 - Google Patents

一种基于深度图神经网络的关键词抽取方法 Download PDF

Info

Publication number
CN111666772A
CN111666772A CN202010557742.XA CN202010557742A CN111666772A CN 111666772 A CN111666772 A CN 111666772A CN 202010557742 A CN202010557742 A CN 202010557742A CN 111666772 A CN111666772 A CN 111666772A
Authority
CN
China
Prior art keywords
neural network
matrix
graph
document
keyword extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010557742.XA
Other languages
English (en)
Inventor
段文影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202010557742.XA priority Critical patent/CN111666772A/zh
Publication of CN111666772A publication Critical patent/CN111666772A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机文档检索领域,具体设计一种基于深度图神经网络的关键词抽取方法,包括对文档进行矩阵加权形成有向图,利用图卷积编码器和图卷积解码器从相邻词汇中组合出最合适的关键词;期间为了保证数据的稳定,还可进行正则化的方式,保证数据的稳定性;因此,本方案是在图神经网络的端到端关键词抽取方法的基础上进行改进的,大大提高关键词抽取的效率。

Description

一种基于深度图神经网络的关键词抽取方法
技术领域
本发明属于计算机文档检索领域,具体涉及一种基于深度图神经网络的关键词抽取方法。
背景技术
文章的关键词通常是几个词或者短语,作为对该文档主要内容的提要。关键词的运用使得人们能够快速了解文档内容,把握文章主题。现今,关键抽取技术广泛应用于信息检索、信息管理等领域。
传统的关键词提取方法都是无监督的方法。无监督方法通常先用某些启发式方法识别候选关键词,再根据重要度得分对候选关键词排序。沿着该方向,最先进的算法是基于图的排序方法。然而,这类方法是完全无监督的,它们严重依赖手动设计的特征,当应用于不同类型的文档时,它们可能无法正常工作。
目前已存在许多网页关键词提取方法,这些方法的着眼点大多为词语的出现频率、词语在全文所处的区域、词语本身的语义特征。采用的方法大致有以下几类:基于统计学的方法,机器学习的方法,自然语言处理的方法。
但这些方法都存在着不足,其中对关键词提取,对正文的候选关键词进行评价,并经过排序后,提取前N个词作为网页的关键词,但这N个关键词中,并非所有的词都是真正与正文主题相关的关键词,而没被提取出的候选关键词中,却仍然存在一些与正文主题很相关的词,使得关键词提取的准确率和召回率都不高。
已有的关键词抽取方法在选取候选关键词时,通常会考虑机器学习得到的特征,然而这些特征只能通过对文档中词语的出现频率进行统计发现各个词语的重要性,并不能够揭示隐藏在文档内容中的完全语义。
最近,将端到端神经网络的用于提取关键关键词的方法吸引起了广泛的关注,神经网络方法通常在编码器-解码器框架中研究关键词提取,该框架首先将输入文档编码为矢量表示形式,然后使用基于条件的循环神经网络(RNN)解码器生成关键词。这些神经方法在端到端有监督的训练下,在多个基准数据集上取得了最优的性能。
但是,与无监督的基于图的排序方法相比,现有的端到端方法仅将文档视为词序列,并没有从图形结构的全局信息中获益。
基于图的无监督排名的关键词抽取方法在估计词的显著性上显示出良好的性能,这启发我们开发基于深度图神经网络的编码器。与基于序列的编码器(例如RNN和CNN)相比,基于深度图神经网络的编码器具有多个优点。例如,基于图神经网络的编码器可以显著表情词之间的短期与长期依赖性,以及体现出相同单词多次出现的文档综合视图。
发明内容
为解决上述问题,本发明提供了一种基于深度图神经网络的关键词抽取方法。
本发明的基础方案为:一种基于深度图神经网络的关键词抽取方法,包括以下步骤:假设文档中两个词的距离越接近,他们之间的关联性越强;
S1,构建待关键词提取的文档所对应的有向图,包括以下步骤:
S1-1,定义图
Figure BDA0002544912330000021
与图
Figure BDA0002544912330000022
分别对应邻接矩阵
Figure BDA0002544912330000023
Figure BDA0002544912330000024
词wi∈W到词wj∈W的边权重为
Figure BDA0002544912330000025
Figure BDA0002544912330000026
其中P(wi)表示词wi的位置pi的集合;
S2,构造关键词集合对应的有向图
将关键词集合表示为图
Figure BDA0002544912330000027
Figure BDA0002544912330000028
对应的临接矩阵
Figure BDA0002544912330000029
计算方法如下。
给定源文档的节点集合W={w1,w2,…,wn},关键词集合K={k1,k2,...,km}
Figure BDA00025449123300000210
S3,利用图卷积编码器进行编码,包括两个步骤;
S3-1,每个节点聚合来自其邻居节点的信息;
S3-2,根据节点当前的表示和从邻居节点汇集的信息更新每个节点的表示,给定第l层的节点表示矩阵Hl,每一层的图卷积神经网络计算如下,
Figure BDA0002544912330000031
Figure BDA0002544912330000032
其中,
Figure BDA0002544912330000033
和Wl均为可学习的参数矩阵,σ为sigmoid函数,
Figure BDA0002544912330000034
为逐点乘法,gl为与fl定义相仿的函数;
S4,利用图卷积解码器进行解码:给定一个有L层图卷积网络编码器的输出HL,解码器抽取的关键词邻接矩阵计算如下,
Figure BDA0002544912330000035
其中Wd为解码器的参数矩阵。
基础方案的有益效果为:本方案解决了编码器解码框架关键词抽取方法的不足,对此,本方案依赖于词基本的相邻信息,并自动学习这些信息,是一种新型的图到图关键词抽取方法。
本方案中,将文档设置成一个总图,将预设的所有可能关键词均设置为单元图,通过编码进行图神经卷积处理,保证节点特征时刻更新,并且随着图卷积神经处理层数的增加,参与计算的节点特征信息增多,整个计算所覆盖的域越广;而后解码器对编码器输出的节点特诊计算抽取关键词集合邻接矩阵,通过损失函数的计算保证关键词的多样性。
筛选出关联较大的几个子图,经过解码后获得对应的关键词。相比现有技术而言,本方案没有采用循环神经网络,计算过程较为简单,相比基于循环神经网络的关键词抽取算法快6-10倍。并且抽取的关键词能有效覆盖文档的大部分主题,提高了关键词抽取的效果。
进一步,S1还包括,对邻接矩阵
Figure BDA0002544912330000036
进行正则化:
Figure BDA0002544912330000037
其中
Figure BDA0002544912330000038
为单位矩阵。
Figure BDA0002544912330000039
Figure BDA00025449123300000310
的度矩阵。
进一步,还包括S5,计算损失函数:
Figure BDA00025449123300000311
其中其中yi为真实值,
Figure BDA00025449123300000312
为预测值,||yi||为L1范数,α为控制的超参数。
本方案中,正则化项||yi||旨在提高模型抽取关键词的多样性通过计算真实值与预测值,得到损失函数,从而知晓本次方案的误差情况,以最小化损失函数Loss的值为目标,有利于后续方案验证和改进,选择出最佳方案。
进一步,S3中图卷积编码器由3层图卷积神经网络组成。
附图说明
图1为本发明一种基于深度图神经网络的关键词抽取方法实施例的运行示意图;
图2为图1的文档信息示意图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例基本如附图1和附图2所示:
给定源文档的节点集合W={w1,w2,...,wn},待关键词集合K={k1,k2,...,km};
一种基于深度图神经网络的关键词抽取方法,包括以下步骤:
S1,整理源文档,构建与源文档形状一致的邻接矩阵,定义
Figure BDA0002544912330000041
与图
Figure BDA0002544912330000042
分别对应邻接矩阵为
Figure BDA0002544912330000048
Figure BDA0002544912330000049
词wi∈W到词wj∈W的边权重为
Figure BDA0002544912330000043
Figure BDA0002544912330000044
其中P(wi)表示词wi的位置pi的集合,边权重表现出两个节点之间关联度;
S2,待关键词提取的文档所对应的的有向图:待关键词集合表示为图
Figure BDA00025449123300000410
Figure BDA00025449123300000411
对应的临接矩阵
Figure BDA00025449123300000412
Figure BDA0002544912330000045
S3,利用图卷积编码器进行编码,包括两个步骤;
S3-1,每个节点将自身的提针信息经过变换后发送给邻居节点,对节点的信息特征进行抽取变换;因此,每个节点均会将邻居节点的特征信息聚集起来,实现对节点的局部结构信息进行融合;将每个节点所聚集起来的信息作非线性变换,增加模型的表达能力后;
S3-2,根据节点当前的表示和从邻居节点汇集的信息更新每个节点的表示,给定第l层的节点表示矩阵Hl,每一层的图卷积神经网络计算如下,
Figure BDA0002544912330000046
Figure BDA0002544912330000047
其中,
Figure BDA0002544912330000052
和Wl均为可学习的参数矩阵,σ为sigmoid函数,
Figure BDA0002544912330000053
为逐点乘法,gl为与fl定义相仿的函数;
由于每个节点包含了直接邻居的信息,在计算第二层图卷积神经网络时就能把邻居的邻居的信息包含起来,这样经过多次卷积神经网络编码,参与运算的信息旧更多更充分;也就是说,图卷积神经编码层数越多,感受域(由参与计算的信息所集合而成的范围)就越广;
S4,利用图卷积解码器进行关键词选择:给定一个有L层图卷积网络编码器的输出HL,解码器抽取的关键词邻接矩阵计算如下,
Figure BDA0002544912330000054
其中Wd为解码器的参数矩阵。
值得注意的是,假设文档d中的每个节点(词语)
Figure BDA0002544912330000055
(即为一个n维的特征向量),d对应的邻接矩阵为Ad,图卷积编码器的作用是对文档进行编码,更新节点的特征。解码器的作用是编码器输出经过图卷积神经网络编码后的节点特征计算抽取关键词集合邻接矩阵,通过损失函数的正则化项增强关键词的多样性。
为了稳定图卷积网络编码器中的消息迭代过程,还可以对邻接矩阵进行正则化。假设词“模型”在句子中于8,15两个位置出现,表示为P(wi)={8,15};利用函数relu(·)=max(·,0)对邻接矩阵
Figure BDA0002544912330000056
进行正则化,正则化结果为
Figure BDA0002544912330000057
其中
Figure BDA0002544912330000058
IN为单位矩阵,
Figure BDA0002544912330000059
Figure BDA00025449123300000510
的度矩阵。
并且,本方案中的预计关键词通常是从关键词库中抽取的,库内同时存储的还有各个预备关键词的选中概率,概率的计算方法为损失函数:
Figure BDA0002544912330000051
其中其中yi为真实值,
Figure BDA00025449123300000511
为预测值,||yi||为L1范数,α为控制的超参数。正则化项||yi||旨在提高模型抽取关键词的多样性通过计算真实值与预测值,得到损失函数,从而知晓本次方案的误差情况,以最小化损失函数Loss的值为目标,有利于后续方案验证和改进,选择出最佳方案。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (4)

1.一种基于深度图神经网络的关键词抽取方法,其特征在于,包括以下步骤:假设文档中两个词的距离越接近,他们之间的关联性越强;
S1,构建与文档图形状一致的邻接矩阵,定义
Figure FDA0002544912320000011
与图
Figure FDA0002544912320000012
分别对应邻接矩阵为
Figure FDA0002544912320000013
Figure FDA0002544912320000014
词wi∈W到词wj∈W的边权重为
Figure FDA0002544912320000015
Figure FDA0002544912320000016
其中P(wi)表示词wi的位置pi的集合;
S2,待关键词提取的文档所对应的有向图:将关键词集合表示为图
Figure FDA0002544912320000017
Figure FDA0002544912320000018
对应的临接矩阵
Figure FDA0002544912320000019
计算方法如下:
给定源文档的节点集合W={w1,w2,…,wn},关键词集合K={k1,k2,...,km}
Figure FDA00025449123200000110
S3,利用图卷积编码器进行编码,包括两个步骤;
S3-1,每个节点对应源文档的一个矩阵,每个节点均聚合来自其邻居节点的信息;
S3-2,根据节点当前的表示和从邻居节点汇集的信息更新每个节点的表示,给定第l层的节点表示矩阵H_l,每一层的图卷积神经网络计算如下,
Figure FDA00025449123200000111
Figure FDA00025449123200000112
其中,
Figure FDA00025449123200000113
和Wl均为可学习的参数矩阵,σ为sigmoid函数,
Figure FDA00025449123200000114
为逐点乘法,gl为与fl定义相仿的函数;
S4,利用图卷积解码器进行解码:给定一个有L层图卷积网络编码器的输出HL,解码器抽取的关键词临接矩阵计算如下,
Figure FDA00025449123200000115
其中Wd为解码器的参数矩阵。
2.根据权利要求1所述的一种基于深度图神经网络的关键词抽取方法,其特征在于:S1还包括,对邻接矩阵
Figure FDA00025449123200000116
进行正则化:
Figure FDA00025449123200000117
其中
Figure FDA00025449123200000118
为单位矩阵。
Figure FDA00025449123200000119
Figure FDA00025449123200000120
的度矩阵。
3.根据权利要求2所述的一种基于深度图神经网络的关键词抽取方法,其特征在于:计算损失函数:
Figure FDA0002544912320000021
其中yi为真实值,
Figure FDA0002544912320000022
为预测值,||yi||为L1范数,α为控制的超参数。
4.根据权利要求3所述的一种基于深度图神经网络的关键词抽取方法,其特征在于:S3中图卷积编码器由9层图卷积神经网络组成。
CN202010557742.XA 2020-06-18 2020-06-18 一种基于深度图神经网络的关键词抽取方法 Pending CN111666772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010557742.XA CN111666772A (zh) 2020-06-18 2020-06-18 一种基于深度图神经网络的关键词抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010557742.XA CN111666772A (zh) 2020-06-18 2020-06-18 一种基于深度图神经网络的关键词抽取方法

Publications (1)

Publication Number Publication Date
CN111666772A true CN111666772A (zh) 2020-09-15

Family

ID=72388727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010557742.XA Pending CN111666772A (zh) 2020-06-18 2020-06-18 一种基于深度图神经网络的关键词抽取方法

Country Status (1)

Country Link
CN (1) CN111666772A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874914A (zh) * 2018-05-29 2018-11-23 吉林大学 一种基于图卷积与神经协同过滤的信息推荐方法
CN110717617A (zh) * 2019-09-09 2020-01-21 广东工业大学 一种基于深度图网络自编码器的无监督关系预测方法
CN110851570A (zh) * 2019-11-14 2020-02-28 中山大学 基于Embedding技术的无监督关键词提取方法
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874914A (zh) * 2018-05-29 2018-11-23 吉林大学 一种基于图卷积与神经协同过滤的信息推荐方法
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion
CN110717617A (zh) * 2019-09-09 2020-01-21 广东工业大学 一种基于深度图网络自编码器的无监督关系预测方法
CN110851570A (zh) * 2019-11-14 2020-02-28 中山大学 基于Embedding技术的无监督关键词提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SÉBASTIEN LERIQUE 等: "Joint embedding of structure and features via graph convolutional networks", 《APPLIED NETWORK SCIENCE》 *
ZHIQING SUN 等: "DivGraphPointer: A Graph Pointer Network for Extracting Diverse Keyphrases", 《IN PROCEEDINGS OF THE 42ND INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *

Similar Documents

Publication Publication Date Title
Zhou et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN110413785B (zh) 一种基于bert和特征融合的文本自动分类方法
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN110765269A (zh) 基于动态词向量和层级神经网络的文档级情感分类方法
CN115794999A (zh) 一种基于扩散模型的专利文档查询方法及计算机设备
CN114692605A (zh) 一种融合句法结构信息的关键词生成方法及装置
CN113705099A (zh) 基于对比学习的社交平台谣言检测模型构建方法及检测方法
Zhang et al. An intrusion detection method based on stacked sparse autoencoder and improved gaussian mixture model
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Yong et al. A new emotion analysis fusion and complementary model based on online food reviews
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
CN112487110A (zh) 基于网络结构和节点内容的重叠社区演化分析方法及系统
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN116629361A (zh) 基于本体学习和注意力机制的知识推理方法
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
CN111666772A (zh) 一种基于深度图神经网络的关键词抽取方法
Rui et al. Data Reconstruction based on supervised deep auto-encoder
CN114911933A (zh) 基于图内图间联合信息传播的假新闻检测方法及系统
CN114091429A (zh) 基于异构图神经网络的文本摘要生成方法及系统
CN111339783B (zh) 一种基于rntm的话题挖掘方法与装置
CN114626530A (zh) 一种基于双边路径质量评估的强化学习知识图谱推理方法
CN111859979A (zh) 讽刺文本协同识别方法、装置、设备及计算机可读介质
Ji et al. An improved random walk based community detection algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200915