CN111666772A - 一种基于深度图神经网络的关键词抽取方法 - Google Patents
一种基于深度图神经网络的关键词抽取方法 Download PDFInfo
- Publication number
- CN111666772A CN111666772A CN202010557742.XA CN202010557742A CN111666772A CN 111666772 A CN111666772 A CN 111666772A CN 202010557742 A CN202010557742 A CN 202010557742A CN 111666772 A CN111666772 A CN 111666772A
- Authority
- CN
- China
- Prior art keywords
- neural network
- matrix
- graph
- document
- keyword extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 27
- 238000000605 extraction Methods 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机文档检索领域,具体设计一种基于深度图神经网络的关键词抽取方法,包括对文档进行矩阵加权形成有向图,利用图卷积编码器和图卷积解码器从相邻词汇中组合出最合适的关键词;期间为了保证数据的稳定,还可进行正则化的方式,保证数据的稳定性;因此,本方案是在图神经网络的端到端关键词抽取方法的基础上进行改进的,大大提高关键词抽取的效率。
Description
技术领域
本发明属于计算机文档检索领域,具体涉及一种基于深度图神经网络的关键词抽取方法。
背景技术
文章的关键词通常是几个词或者短语,作为对该文档主要内容的提要。关键词的运用使得人们能够快速了解文档内容,把握文章主题。现今,关键抽取技术广泛应用于信息检索、信息管理等领域。
传统的关键词提取方法都是无监督的方法。无监督方法通常先用某些启发式方法识别候选关键词,再根据重要度得分对候选关键词排序。沿着该方向,最先进的算法是基于图的排序方法。然而,这类方法是完全无监督的,它们严重依赖手动设计的特征,当应用于不同类型的文档时,它们可能无法正常工作。
目前已存在许多网页关键词提取方法,这些方法的着眼点大多为词语的出现频率、词语在全文所处的区域、词语本身的语义特征。采用的方法大致有以下几类:基于统计学的方法,机器学习的方法,自然语言处理的方法。
但这些方法都存在着不足,其中对关键词提取,对正文的候选关键词进行评价,并经过排序后,提取前N个词作为网页的关键词,但这N个关键词中,并非所有的词都是真正与正文主题相关的关键词,而没被提取出的候选关键词中,却仍然存在一些与正文主题很相关的词,使得关键词提取的准确率和召回率都不高。
已有的关键词抽取方法在选取候选关键词时,通常会考虑机器学习得到的特征,然而这些特征只能通过对文档中词语的出现频率进行统计发现各个词语的重要性,并不能够揭示隐藏在文档内容中的完全语义。
最近,将端到端神经网络的用于提取关键关键词的方法吸引起了广泛的关注,神经网络方法通常在编码器-解码器框架中研究关键词提取,该框架首先将输入文档编码为矢量表示形式,然后使用基于条件的循环神经网络(RNN)解码器生成关键词。这些神经方法在端到端有监督的训练下,在多个基准数据集上取得了最优的性能。
但是,与无监督的基于图的排序方法相比,现有的端到端方法仅将文档视为词序列,并没有从图形结构的全局信息中获益。
基于图的无监督排名的关键词抽取方法在估计词的显著性上显示出良好的性能,这启发我们开发基于深度图神经网络的编码器。与基于序列的编码器(例如RNN和CNN)相比,基于深度图神经网络的编码器具有多个优点。例如,基于图神经网络的编码器可以显著表情词之间的短期与长期依赖性,以及体现出相同单词多次出现的文档综合视图。
发明内容
为解决上述问题,本发明提供了一种基于深度图神经网络的关键词抽取方法。
本发明的基础方案为:一种基于深度图神经网络的关键词抽取方法,包括以下步骤:假设文档中两个词的距离越接近,他们之间的关联性越强;
S1,构建待关键词提取的文档所对应的有向图,包括以下步骤:
其中P(wi)表示词wi的位置pi的集合;
S2,构造关键词集合对应的有向图
给定源文档的节点集合W={w1,w2,…,wn},关键词集合K={k1,k2,...,km}
S3,利用图卷积编码器进行编码,包括两个步骤;
S3-1,每个节点聚合来自其邻居节点的信息;
S3-2,根据节点当前的表示和从邻居节点汇集的信息更新每个节点的表示,给定第l层的节点表示矩阵Hl,每一层的图卷积神经网络计算如下,
S4,利用图卷积解码器进行解码:给定一个有L层图卷积网络编码器的输出HL,解码器抽取的关键词邻接矩阵计算如下,
基础方案的有益效果为:本方案解决了编码器解码框架关键词抽取方法的不足,对此,本方案依赖于词基本的相邻信息,并自动学习这些信息,是一种新型的图到图关键词抽取方法。
本方案中,将文档设置成一个总图,将预设的所有可能关键词均设置为单元图,通过编码进行图神经卷积处理,保证节点特征时刻更新,并且随着图卷积神经处理层数的增加,参与计算的节点特征信息增多,整个计算所覆盖的域越广;而后解码器对编码器输出的节点特诊计算抽取关键词集合邻接矩阵,通过损失函数的计算保证关键词的多样性。
筛选出关联较大的几个子图,经过解码后获得对应的关键词。相比现有技术而言,本方案没有采用循环神经网络,计算过程较为简单,相比基于循环神经网络的关键词抽取算法快6-10倍。并且抽取的关键词能有效覆盖文档的大部分主题,提高了关键词抽取的效果。
进一步,还包括S5,计算损失函数:
本方案中,正则化项||yi||旨在提高模型抽取关键词的多样性通过计算真实值与预测值,得到损失函数,从而知晓本次方案的误差情况,以最小化损失函数Loss的值为目标,有利于后续方案验证和改进,选择出最佳方案。
进一步,S3中图卷积编码器由3层图卷积神经网络组成。
附图说明
图1为本发明一种基于深度图神经网络的关键词抽取方法实施例的运行示意图;
图2为图1的文档信息示意图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例基本如附图1和附图2所示:
给定源文档的节点集合W={w1,w2,...,wn},待关键词集合K={k1,k2,...,km};
一种基于深度图神经网络的关键词抽取方法,包括以下步骤:
其中P(wi)表示词wi的位置pi的集合,边权重表现出两个节点之间关联度;
S3,利用图卷积编码器进行编码,包括两个步骤;
S3-1,每个节点将自身的提针信息经过变换后发送给邻居节点,对节点的信息特征进行抽取变换;因此,每个节点均会将邻居节点的特征信息聚集起来,实现对节点的局部结构信息进行融合;将每个节点所聚集起来的信息作非线性变换,增加模型的表达能力后;
S3-2,根据节点当前的表示和从邻居节点汇集的信息更新每个节点的表示,给定第l层的节点表示矩阵Hl,每一层的图卷积神经网络计算如下,
由于每个节点包含了直接邻居的信息,在计算第二层图卷积神经网络时就能把邻居的邻居的信息包含起来,这样经过多次卷积神经网络编码,参与运算的信息旧更多更充分;也就是说,图卷积神经编码层数越多,感受域(由参与计算的信息所集合而成的范围)就越广;
S4,利用图卷积解码器进行关键词选择:给定一个有L层图卷积网络编码器的输出HL,解码器抽取的关键词邻接矩阵计算如下,
值得注意的是,假设文档d中的每个节点(词语)(即为一个n维的特征向量),d对应的邻接矩阵为Ad,图卷积编码器的作用是对文档进行编码,更新节点的特征。解码器的作用是编码器输出经过图卷积神经网络编码后的节点特征计算抽取关键词集合邻接矩阵,通过损失函数的正则化项增强关键词的多样性。
为了稳定图卷积网络编码器中的消息迭代过程,还可以对邻接矩阵进行正则化。假设词“模型”在句子中于8,15两个位置出现,表示为P(wi)={8,15};利用函数relu(·)=max(·,0)对邻接矩阵进行正则化,正则化结果为其中IN为单位矩阵,为的度矩阵。
并且,本方案中的预计关键词通常是从关键词库中抽取的,库内同时存储的还有各个预备关键词的选中概率,概率的计算方法为损失函数:
其中其中yi为真实值,为预测值,||yi||为L1范数,α为控制的超参数。正则化项||yi||旨在提高模型抽取关键词的多样性通过计算真实值与预测值,得到损失函数,从而知晓本次方案的误差情况,以最小化损失函数Loss的值为目标,有利于后续方案验证和改进,选择出最佳方案。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (4)
1.一种基于深度图神经网络的关键词抽取方法,其特征在于,包括以下步骤:假设文档中两个词的距离越接近,他们之间的关联性越强;
其中P(wi)表示词wi的位置pi的集合;
给定源文档的节点集合W={w1,w2,…,wn},关键词集合K={k1,k2,...,km}
S3,利用图卷积编码器进行编码,包括两个步骤;
S3-1,每个节点对应源文档的一个矩阵,每个节点均聚合来自其邻居节点的信息;
S3-2,根据节点当前的表示和从邻居节点汇集的信息更新每个节点的表示,给定第l层的节点表示矩阵H_l,每一层的图卷积神经网络计算如下,
4.根据权利要求3所述的一种基于深度图神经网络的关键词抽取方法,其特征在于:S3中图卷积编码器由9层图卷积神经网络组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010557742.XA CN111666772A (zh) | 2020-06-18 | 2020-06-18 | 一种基于深度图神经网络的关键词抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010557742.XA CN111666772A (zh) | 2020-06-18 | 2020-06-18 | 一种基于深度图神经网络的关键词抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111666772A true CN111666772A (zh) | 2020-09-15 |
Family
ID=72388727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010557742.XA Pending CN111666772A (zh) | 2020-06-18 | 2020-06-18 | 一种基于深度图神经网络的关键词抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666772A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874914A (zh) * | 2018-05-29 | 2018-11-23 | 吉林大学 | 一种基于图卷积与神经协同过滤的信息推荐方法 |
CN110717617A (zh) * | 2019-09-09 | 2020-01-21 | 广东工业大学 | 一种基于深度图网络自编码器的无监督关系预测方法 |
CN110851570A (zh) * | 2019-11-14 | 2020-02-28 | 中山大学 | 基于Embedding技术的无监督关键词提取方法 |
US20200074301A1 (en) * | 2018-09-04 | 2020-03-05 | Beijing Jingdong Shangke Information Technology Co., Ltd. | End-to-end structure-aware convolutional networks for knowledge base completion |
-
2020
- 2020-06-18 CN CN202010557742.XA patent/CN111666772A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874914A (zh) * | 2018-05-29 | 2018-11-23 | 吉林大学 | 一种基于图卷积与神经协同过滤的信息推荐方法 |
US20200074301A1 (en) * | 2018-09-04 | 2020-03-05 | Beijing Jingdong Shangke Information Technology Co., Ltd. | End-to-end structure-aware convolutional networks for knowledge base completion |
CN110717617A (zh) * | 2019-09-09 | 2020-01-21 | 广东工业大学 | 一种基于深度图网络自编码器的无监督关系预测方法 |
CN110851570A (zh) * | 2019-11-14 | 2020-02-28 | 中山大学 | 基于Embedding技术的无监督关键词提取方法 |
Non-Patent Citations (2)
Title |
---|
SÉBASTIEN LERIQUE 等: "Joint embedding of structure and features via graph convolutional networks", 《APPLIED NETWORK SCIENCE》 * |
ZHIQING SUN 等: "DivGraphPointer: A Graph Pointer Network for Extracting Diverse Keyphrases", 《IN PROCEEDINGS OF THE 42ND INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | A comprehensive survey on pretrained foundation models: A history from bert to chatgpt | |
CN108984724B (zh) | 利用高维表示提高特定属性情感分类准确率方法 | |
CN110413785B (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN110765269A (zh) | 基于动态词向量和层级神经网络的文档级情感分类方法 | |
CN115794999A (zh) | 一种基于扩散模型的专利文档查询方法及计算机设备 | |
CN114692605A (zh) | 一种融合句法结构信息的关键词生成方法及装置 | |
CN113705099A (zh) | 基于对比学习的社交平台谣言检测模型构建方法及检测方法 | |
Zhang et al. | An intrusion detection method based on stacked sparse autoencoder and improved gaussian mixture model | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
Yong et al. | A new emotion analysis fusion and complementary model based on online food reviews | |
CN112925907A (zh) | 基于事件图卷积神经网络的微博评论观点对象分类方法 | |
CN112487110A (zh) | 基于网络结构和节点内容的重叠社区演化分析方法及系统 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
CN111666772A (zh) | 一种基于深度图神经网络的关键词抽取方法 | |
Rui et al. | Data Reconstruction based on supervised deep auto-encoder | |
CN114911933A (zh) | 基于图内图间联合信息传播的假新闻检测方法及系统 | |
CN114091429A (zh) | 基于异构图神经网络的文本摘要生成方法及系统 | |
CN111339783B (zh) | 一种基于rntm的话题挖掘方法与装置 | |
CN114626530A (zh) | 一种基于双边路径质量评估的强化学习知识图谱推理方法 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 | |
Ji et al. | An improved random walk based community detection algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200915 |