CN114860920A - 一种基于异构图的单语言主题摘要生成方法 - Google Patents

一种基于异构图的单语言主题摘要生成方法 Download PDF

Info

Publication number
CN114860920A
CN114860920A CN202210416073.3A CN202210416073A CN114860920A CN 114860920 A CN114860920 A CN 114860920A CN 202210416073 A CN202210416073 A CN 202210416073A CN 114860920 A CN114860920 A CN 114860920A
Authority
CN
China
Prior art keywords
word
sentence
nodes
embedding
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210416073.3A
Other languages
English (en)
Inventor
云静
郑博飞
焦磊
袁静姝
刘利民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202210416073.3A priority Critical patent/CN114860920A/zh
Publication of CN114860920A publication Critical patent/CN114860920A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于异构图的单语言主题摘要生成方法,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操作;使用对抗训练学习一个从源语言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量,其中源语言即为需要生成摘要的数据集的语种,目标语言为一个大型语种;使用图注意力网络,将包含单词节点、句子节点和边特征的向量进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。

Description

一种基于异构图的单语言主题摘要生成方法
技术领域
本发明属于人工智能技术领域,特别涉及一种基于异构图的单语言主题摘 要生成方法。
背景技术
互联网快速发展,各种包含新闻的文本数据涌现,导致人们很难快速获取 本文中的主题信息;另外,同一新闻在不同记者报道下,会有不同角度的观点, 从而有助于帮助用户了解某一件事件的全貌,怎样把所有的报道归纳成的主要 的观点;在闲暇之余想看到长篇新闻的时候想快速了解新闻的主要内容。怎样 快速地从文本信息中去获取核心的内容,在当今格局下显得尤为必要与迫切。
现有用GCN或者GAT模型,用异构图的方法做到单语言摘要。但是缺点 是未考虑单词之间的多种关系,并且现有技术多针对于英语,对于其他语言, 缺少其对应的词嵌入。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于异构图的 单语言主题摘要生成方法,利用multi-GCN,可以考虑单词之间的关系,如句 法关系与语义关系;利用GAN网络,可以生成其他语言的词嵌入,从而可以 解决多种语言的摘要问题;并且通过图注意网络聚合异构图中的节点信息,提 高生成摘要的准确性。
为了实现上述目的,本发明采用的技术方案是:
一种基于异构图的单语言主题摘要生成方法,包括如下步骤:
步骤1,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操 作,所述源语言即为需要生成摘要的数据集的语种;
步骤2,使用对抗训练学习一个从源语言到目标语言的空间线性映射,得 到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签 操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量, 其中所述目标语言为一个大型语种;
步骤3,使用图注意力网络,将包含单词节点、句子节点和边特征的向量 进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;
步骤4,将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为 训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。
与现有技术相比,本发明针对新闻的文本数据涌现时很难快速获取新闻主 旨的现象,已经想要快速了解一个事情的全貌,采用异构图和图注意机制,让 句子聚合数据集中单词的信息,并更新单词节点,不断迭代,便会得到重要性 较高的句子,即为文章的主题摘要。采用本发明,极大程度上解决长文本摘要 不准确的问题,提高提取式摘要的准确性,为用户快速获取新闻信息作出贡献。
附图说明
图1是本发明整体流程示意图。
图2是本发明实施例中multi-GCN模型图
图3是本发明实施例中句子节点信息更新示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明一种基于异构图的单语言主题摘要生成方法,如图1所示,包括如 下步骤:
步骤1,从网络爬取源语言的摘要数据集。
网络爬取的数据集有很多无效字符或者错误,因此需要先对数据进行清洗 操作,保证数据集正确、完整,
本实施例中,以中文为源语言。对摘要数据集中的数据进行分词(中文需 要分词,以满足后续词嵌入需求,其他语种不需此操作)、分句和打标签操作, 源语言即为需要生成摘要的数据集的语种。
对于中文,可参照jieba词库进行分词操作,清洗其内部存留的异常文字和 分隔符,并对分词后的数据集进行分句、打标签操作。标签可为摘要在正文中 为第i-1句话。
步骤2,对分词、分句和打标签操作得到的数据进行预处理,得到包含单 词节点、句子节点和边特征的向量。
本步骤中,对分词、分句和打标签操作得到的数据,利用源语言的词向量 进行词嵌入操作,并将词嵌入整合获得句子嵌入,将词嵌入作为单词节点,句 子嵌入作为句子节点,词嵌入与句子嵌入之间的关系作为边特征,构造异构图。
为了保证本发明的方法对所有语言都适用,需要生成源语言的词向量作词 嵌入,并根据异构图的特性,将其图结构分为单词节点、句子节点、边特征, 对数据集进行四步预处理,得到包含单词节点、句子节点和边特征的向量。具 体如下:
步骤2.1,为了生成的源语言的词向量作为摘要模型词嵌入需要的材料, 本发明采用GAN网络,利用一一对应的两种语言的数据集(其中一种为源语 言,另一种为目标语言,目标语言一般应为一个大型语种,例如英语、法语等) 作为用来对抗的数据集,通过对抗训练的方法,使用对抗训练学习一个从源语 言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间 的词向量。本步骤是通过GAN网络训练,生成源语言的词向量。
其中空间线性映射的映射函数W如下所示
Figure BDA0003606038630000031
公式中,X表示源语言的词嵌入,Y表示与X对应的目标语言的词嵌入, 生成器生成X到Y的映射W,
Figure BDA0003606038630000032
为一个d×d维空间的实数矩阵,|| ||F为F范 数符号,W*表示WX-Y的F范数最小时映射函数的值;判别器辨别WX和对应 Y之间的不同,通过判别器和生成器的不断对抗,直到WX与Y相似程度使得 判别器判别不出。
判别器的参数为θD,判别器的损失函数如下所示:
Figure BDA0003606038630000041
n为源语言的单词数量,m为目标语言的单词数量,xi表示源语言中第i个 单词的词嵌入,yi表示目标语言中第i个单词的词嵌入;
Figure BDA0003606038630000042
表示判别器认为Wxi是源语言嵌入的概率,
Figure BDA0003606038630000043
表示判别器认为yi是目标语言嵌入的概率;
训练W使得判别器无法辨别出这原始嵌入WX与Y,则其损失函数为:
Figure BDA0003606038630000044
Figure BDA0003606038630000045
表示判别器认为Wxi是目标语言嵌入的概率,
Figure BDA0003606038630000046
表示判别器认为yi是源语言嵌入的概率;
给定输入的样本,判别器和映射函数W依次用随机梯度下降法进行更新, 使得LDD|W)与LW(W|θD)之和最小;
模型的训练方法是对抗网络的流程,给定输入的样本,判别器和映射矩阵 W依次用随机梯度下降法进行更新,使得LD与LW之和最小。
为了使语种之间产生可靠的匹配对,本发明实施例中改善了准则,采用 CSLS法,最终会得到源语言与目标语言在同一个共享向量空间的词向量,任 意一个源语言单词的邻居节点均为目标语言的对应单词,生成的源语言的词向 量作为摘要模型词嵌入需要的材料。
步骤2.2,使用步骤2.1生成的词向量对数据集中词部分进行词嵌入操作。
步骤2.3,使用步骤2.2生成的词嵌入,采用CNN+BiLSTM对数据集中的 每个句子的词作初始化,用Multi-GCN捕捉单词间的多个关系,得到该句子的 词嵌入,将词嵌入整合起来获得句子嵌入。
本步骤中,基于源语言的词向量,先采用卷积神经网络(CNN)捕捉每个 句子局部的n-garm特征,即单词的联合概率。然后采用双向长短期记忆网络 (BiLSTM)捕捉句子级特征,将局部的n-garm特征与句子级特征进行连接得 到上下文单词嵌入,即初始化后的结果,对于该初始化后的结果,用Multi- GCN捕捉单词间的多个关系。
具体地,参考图2,其中,对于句法关系,两个单词之间存在依赖关系时,Ar[wi,wj]=1,不存在依赖关系时,Ar[wi,wj]=0;对于语义关系,使用单词嵌入 之间的点积绝对值来构造,
Figure BDA0003606038630000051
式中,Ar[wi,wj]表示第i个单词wi与第j个单词wj之间的句法关系或者语 义关系;
Figure BDA0003606038630000052
表示第i个单词的词向量的转置,
Figure BDA0003606038630000053
第j个单词的词向量,
Figure BDA0003606038630000054
表示
Figure BDA0003606038630000055
Figure BDA0003606038630000056
点积的绝对值,以判断两个单词语义是否相似。
接下来,对Ar[wi,wj]进行融合,融合第l层表示计算某个单词与第l个单词 之间的关系(比如我、喜欢、吃、苹果、并且、喜欢、打、羽毛球。如果捕捉” 吃”这个单词与其他单词的关系,第3层就是计算吃与苹果的关系),更新函数 定义为:
Figure BDA0003606038630000057
Figure BDA0003606038630000058
式中,
Figure BDA0003606038630000059
Figure BDA00036060386300000510
表示权重和偏差,
Figure BDA00036060386300000511
为初始化后的初始嵌入,即上下 文单词嵌入,
Figure BDA00036060386300000512
表示某个单词第l-1层最终得到的词嵌入,
Figure BDA00036060386300000513
表示第l个 GCN层,
Figure BDA00036060386300000514
表示某个单词融合与第l个单词之间的关系后的词嵌入,
Figure BDA00036060386300000515
表示 第l个GCN层最终得到的词嵌入,通过若干个GCN层后,得到最后更新的结 果H,最终的词嵌入Fw=H+Xw,将句子的词嵌入整合即得到句子嵌入Fs
本步骤中,得到所有句子最终的词嵌入与其对应句子嵌入,词嵌入作为异 构图结构的单词节点,句子嵌入作为异构图结构的句子节点。
步骤2.4,采用TF-IDF表示词与句子之间的关系,作为图结构的边特征。
本步骤,在边特征中注入TF-IDF值,词频TF表示第i个单词wi在第j个 句子sj中出现的次数,逆文档频率IDF表示wi出现的逆函数。
步骤3,使用图注意力网络,将包含单词节点、句子节点和边特征的向量 进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点。 步骤如下:
步骤3.1,结合多头注意力机制、残差连接对GAT(图注意力网络)修改。
具体地,本步骤中,图注意力网络以图卷积神经网络作为基本框架,框架 引入一个注意力机制,并且添加了一个残差连接,本实施例采用多头注意力。 其中引入注意力机制用于搜集并聚合距离相近的邻居节点的特征表示,采用多 头注意力是起到集成作用,防止过拟合,添加残差连接是为了防止聚合节点信 息时迭代出现梯度消失问题。具体修改过程如下:
引入了注意力机制,单词节点与句子节点分别为Fw与Fs,节点特征表示为Fw∪Fs,边特征表示为E,节点特征与边特征构造的图表示为G,使用图注意 力网络,更新语义节点的表示。
指定
Figure BDA0003606038630000061
作为输出节点的隐藏状态,其图注意层设计如下:
zij=LeakyReLU(Wα[Wqhi;Wkhj])
Figure BDA0003606038630000062
Figure BDA0003606038630000063
式中Wa,Wq,Wk,Wv为可训练权重;aij是hi与hj之间的注意力权重,在多头注意 力中表示为:
Figure BDA0003606038630000064
为了防止在聚合信息时多次迭代后梯度消失,添加了一个残差连接,因此 最终输出表示为:
h'i=ui+hi
之后,进一步修改图注意力网络,注入边的标量权重值eij映射到多维嵌入 空间
Figure BDA0003606038630000071
于是修改注意力层公式为:
zi,j=LeakyReLU(Wα[Wqhi;Wkhj;eij])
最后,还在图注意层后加入一个位置级前馈层。
该步骤描述了模型从GCN引入注意力机制从而变为GAT的公式过程;信 息聚合的结果是句子节点的特征向量的一个新表示,会与重点词汇(关键词) 进行一个分数计算(即相似性度计算)句子节点的特征向量的一个新表示,会 与重点词汇(关键词)进行一个分数计算(即相似性度计算),分数越高那么 代表句子得分越高。
步骤3.2,使用步骤3.1修改后的网络更新句子节点。
使用图注意力网络更新单词节点和句子节点如下:
Figure BDA0003606038630000072
Figure BDA0003606038630000073
其中
Figure BDA0003606038630000074
是每个句子聚合包含的单词级信息,
Figure BDA0003606038630000075
表示用单词节点更新句 子节点,
Figure BDA0003606038630000076
Figure BDA0003606038630000077
Figure BDA0003606038630000078
表示进行了一次注意 机制的计算,其中
Figure BDA0003606038630000079
为注意力机制的query,
Figure BDA00036060386300000710
表示注意力机制的key和value。
然后,使用更新的句子节点获取单词节点的新表示,并进一步迭代地更新 句子节点。每次迭代都包含一个句子到单词和一个单词到句子的更新过程。第 t次迭代过程可以表示为:
Figure BDA00036060386300000711
Figure BDA00036060386300000712
Figure BDA00036060386300000713
表示第t次迭代每个句子聚合包含的单词级信息,
Figure BDA00036060386300000714
表示第t次迭代 用单词节点更新句子节点,
Figure BDA0003606038630000081
表示第t次迭代时注意力机制的key和value,
Figure BDA0003606038630000082
用一个前馈层FNN更新注意力机制的key和value,FNN为前馈网络, GAT为图注意力网络;
参考图3,更新句子节点(句子节点每次迭代更新都是其特征向量在GAT 通过query、key和value计算得到新的特征向量,从而达到更新句子节点,也 就是节点包含的信息达到了更)的处理步骤如下:
(1)文档中每个句子si聚合所包含的单词级信息;
(2)用单词wi所在句子si的新表示更新句子节点。由于句子节点的特性向 量是由单词节点的特征向量相加得到的,单词节点的特征向量更新,则句子节 点的特征向量也会同步更新。因此,用句子中包含单词的新表示(即特征向量 更新后的新特征向量)即可更新句子节点。
经过本步骤,会得到句子节点的特征向量的一个新表示,会在步骤4进行 一个分数计算(即相似性度计算),分数高,表示该句子为摘要候选。
步骤4,将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为 训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。具体步骤如 下:
(1)对更新之后的句子节点进行评分排名;具体方法如下:
1)、句子节点特征向量被线性变换到一个出现在摘要中的概率(具体是, 如果句子包含关键词越多,那么这个句子的分数越高,那么该句子作为摘要的 概率就越大),单词在句子中出现的概率与通过TD-IDF得到的边特征的向量 相关;
2)、按照概率进行排序,选择前k个作为摘要。
3)、丢弃与排名较高的句子有重复的三元组的句子。
(2)去除分数排名靠后的句子,保留排名靠前的句子为重点句子;
(3)去除重点句子中排名靠后且语义与靠前的句子句意重复或关键词重 复过多的句子;
(4)提取出最终摘要。
在本发明的一个具体实施例中,硬件为一台计算机,配置包含硬件环境: CPU:Intel Core处理器(3.1GHz)/4.5GHz/8GT;GPU:6块16G_TESLA- P100_4096b_P_CAC;内存:16根32G ECC Registered DDR4 2666;软件环境: 操作系统:Ubantu 16.04;深度学习框架:Pytorch;语言及开发环境:Python 3.6、Anaconda 3。
本实施例中文以2017年nlpcc测评数据集的数据为分析对象,英文以 CNN/DM数据集的数据为分析对象,中文按照上述步骤进行分词分句等操作, 英文只作分句操作,并将处理过的数据集提取单词节点特征、句子节点特征与 边特征,对句子特征进行聚合,聚合单词节点信息,更新句子节点,然后对最 后的句子节点进行排名,筛选出适合的摘要,得出最后对应的中英文摘要。
表1为中文与英文两种语言下经过分词分句等操作处理后的数据集(部分 示意),如下:
表1
Figure RE-GDA0003732917780000091
Figure RE-GDA0003732917780000101
对表一所示的数据集进行特征提取、句子节点聚合及更新,以及筛选适合 作为摘要的句子得到提取结果如下表2所示:
表2
Figure RE-GDA0003732917780000102
Figure RE-GDA0003732917780000111

Claims (9)

1.一种基于异构图的单语言主题摘要生成方法,其特征在于,包括如下步骤:
步骤1,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操作,所述源语言即为需要生成摘要的数据集的语种;
步骤2,使用对抗训练学习一个从源语言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量,其中所述目标语言为一个大型语种;
步骤3,使用图注意力网络,将包含单词节点、句子节点和边特征的向量进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;
步骤4,将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。
2.根据权利要求1所述基于异构图的单语言主题摘要生成方法,其特征在于,所述步骤2,对分词、分句和打标签操作得到的数据,利用所述源语言的词向量进行词嵌入操作,并将词嵌入整合获得句子嵌入,将词嵌入作为单词节点,句子嵌入作为句子节点,词嵌入与句子嵌入之间的关系作为边特征,构造异构图。
3.根据权利要求2所述基于异构图的单语言主题摘要生成方法,其特征在于,所述对抗训练采用GAN网络,其中用来对抗的数据集是一一对应的,所述空间线性映射的映射函数如下所示:
Figure FDA0003606038620000011
其中,X表示源语言的词嵌入,Y表示与X对应的目标语言的词嵌入,生成器生成X到Y的映射W,
Figure FDA0003606038620000012
为一个d×d维空间的实数矩阵,|| ||F为F范数符号,W*表示WX-Y的F范数最小时映射函数的值;判别器辨别WX和对应Y之间的不同,通过判别器和生成器的不断对抗,直到WX与Y相似程度使得判别器判别不出;
所述判别器的参数为θD,判别器的损失函数如下所示:
Figure FDA0003606038620000021
n为源语言的单词数量,m为目标语言的单词数量,xi表示源语言中第i个单词的词嵌入,yi表示目标语言中第i个单词的词嵌入;
Figure FDA0003606038620000022
表示判别器认为Wxi是源语言嵌入的概率,
Figure FDA0003606038620000023
表示判别器认为yi是目标语言嵌入的概率;
训练W使得判别器无法辨别出WX与Y,则其损失函数为:
Figure FDA0003606038620000024
Figure FDA0003606038620000025
表示判别器认为Wxi是目标语言嵌入的概率,
Figure FDA0003606038620000026
表示判别器认为yi是源语言嵌入的概率;
给定输入的样本,判别器和映射函数W依次用随机梯度下降法进行更新,使得LDD|W)与LW(W|θD)之和最小;
最终得到源语言与目标语言在同一个共享向量空间的词向量,任意一个源语言单词的邻居节点均为目标语言的对应单词。
4.根据权利要求3所述基于异构图的单语言主题摘要生成方法,其特征在于,基于所述源语言的词向量,先采用卷积神经网络捕捉每个句子局部的n-garm特征,然后采用双向长短期记忆网络捕捉句子级特征,将所述局部的n-garm特征与所述句子级特征进行连接得到上下文单词嵌入,再用multi-GCN捕捉单词间的多个关系,对于句法关系,两个单词之间存在依赖关系时,Ar[wi,wj]=1,不存在依赖关系时,Ar[wi,wj]=0;对于语义关系,使用单词嵌入之间的点积绝对值来构造,
Figure FDA0003606038620000031
其中,Ar[wi,wj]表示第i个单词wi与第j个单词wj之间的句法关系或者语义关系;
Figure FDA0003606038620000032
表示第i个单词的词向量的转置,
Figure FDA0003606038620000033
第j个单词的词向量,
Figure FDA0003606038620000034
表示
Figure FDA0003606038620000035
Figure FDA0003606038620000036
点积的绝对值,以判断两个单词语义是否相似。
5.根据权利要求4所述基于异构图的单语言主题摘要生成方法,其特征在于,对Ar[wi,wj]进行融合,融合第l层表示计算某个单词与第l个单词之间的关系,更新函数定义为:
Figure FDA0003606038620000037
Figure FDA0003606038620000038
其中,Wr (l)
Figure FDA0003606038620000039
表示权重和偏差,
Figure FDA00036060386200000310
为初始化后的初始嵌入,即所述上下文单词嵌入,
Figure FDA00036060386200000311
表示某个单词第l-1层最终得到的词嵌入,
Figure FDA00036060386200000312
表示第l个GCN层,
Figure FDA00036060386200000313
表示某个单词融合与第l个单词之间的关系后的词嵌入,
Figure FDA00036060386200000314
表示第l个GCN层最终得到的词嵌入,通过若干个GCN层后,得到最后更新的结果H,最终的词嵌入Fw=H+Xw,将句子的词嵌入整合即得到句子嵌入Fs
6.根据权利要求5所述基于异构图的单语言主题摘要生成方法,其特征在于,在边特征中注入TF-IDF值,词频TF表示第i个单词wi在第j个句子sj中出现的次数,逆文档频率IDF表示wi出现的逆函数。
7.根据权利要求5所述基于异构图的单语言主题摘要生成方法,其特征在于,所述步骤3,图注意力网络以图卷积神经网络作为基本框架,并引入一个注意力机制以及添加一个残差连接;使用所述图注意力网络更新单词节点和句子节点如下:
Figure FDA00036060386200000315
Figure FDA00036060386200000316
其中
Figure FDA00036060386200000317
是每个句子聚合包含的单词级信息,
Figure FDA00036060386200000318
表示用单词节点更新句子节点,
Figure FDA0003606038620000041
Figure FDA0003606038620000042
Figure FDA0003606038620000043
表示进行了一次注意机制的计算,其中
Figure FDA0003606038620000044
为注意力机制的query,也即句子节点,
Figure FDA0003606038620000045
表示注意力机制的key和value,也即单词节点;
然后,使用更新的句子节点获取单词节点的新表示,并进一步迭代地更新句子节点,每次迭代都包含一个句子到单词和一个单词到句子的更新过程,第t次迭代过程表示为:
Figure FDA0003606038620000046
Figure FDA0003606038620000047
Figure FDA0003606038620000048
表示第t次迭代每个句子聚合包含的单词级信息,
Figure FDA0003606038620000049
表示第t次迭代用单词节点更新句子节点,
Figure FDA00036060386200000410
表示第t次迭代时注意力机制的key和value,
Figure FDA00036060386200000411
用一个前馈层FNN更新注意力机制的key和value,FNN为前馈网络,GAT为图注意力网络;
更新句子节点的处理步骤如下:
(1)文档中每个句子si聚合所包含的单词级信息;
(2)用单词wi所在句子si的新表示更新句子节点。
8.根据权利要求1所述基于异构图的单语言主题摘要生成方法,其特征在于,所述步骤4,摘要句选择步骤如下:
(1)对更新之后的句子节点进行评分排名;
(2)去除分数排名靠后的句子,保留排名靠前的句子为重点句子;
(3)去除重点句子中排名靠后且语义与靠前的句子句意重复或关键词重复过多的句子;
(4)提取出最终摘要。
9.根据权利要求8所述基于异构图的单语言主题摘要生成方法,其特征在于,所述对更新之后的句子节点进行评分排名的具体方法如下:
1)、句子节点特征向量被线性变换到一个出现在摘要中的概率;
2)、按照概率进行排序,选择前k个作为摘要。
3)、丢弃与排名较高的句子有重复的三元组的句子。
CN202210416073.3A 2022-04-20 2022-04-20 一种基于异构图的单语言主题摘要生成方法 Pending CN114860920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210416073.3A CN114860920A (zh) 2022-04-20 2022-04-20 一种基于异构图的单语言主题摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210416073.3A CN114860920A (zh) 2022-04-20 2022-04-20 一种基于异构图的单语言主题摘要生成方法

Publications (1)

Publication Number Publication Date
CN114860920A true CN114860920A (zh) 2022-08-05

Family

ID=82630702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210416073.3A Pending CN114860920A (zh) 2022-04-20 2022-04-20 一种基于异构图的单语言主题摘要生成方法

Country Status (1)

Country Link
CN (1) CN114860920A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725928A (zh) * 2024-02-18 2024-03-19 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553154A (zh) * 2020-04-28 2020-08-18 合肥工业大学 一种基于扰动对抗训练的跨语言词向量构建方法
CN112541343A (zh) * 2020-12-03 2021-03-23 昆明理工大学 基于词对齐的半监督对抗学习跨语言摘要生成方法
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN113127632A (zh) * 2021-05-17 2021-07-16 同济大学 基于异质图的文本摘要方法及装置、存储介质和终端
CN113128214A (zh) * 2021-03-17 2021-07-16 重庆邮电大学 一种基于bert预训练模型的文本摘要生成方法
CN113254616A (zh) * 2021-06-07 2021-08-13 佰聆数据股份有限公司 面向智能问答系统的句向量生成方法及系统
CN113641820A (zh) * 2021-08-10 2021-11-12 福州大学 基于图卷积神经网络的视角级文本情感分类方法及系统
CN113743133A (zh) * 2021-08-20 2021-12-03 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法
CN113901229A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于句法图卷积的汉越双语新闻事件因果关系抽取方法
CN114091429A (zh) * 2021-10-15 2022-02-25 山东师范大学 基于异构图神经网络的文本摘要生成方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553154A (zh) * 2020-04-28 2020-08-18 合肥工业大学 一种基于扰动对抗训练的跨语言词向量构建方法
CN112541343A (zh) * 2020-12-03 2021-03-23 昆明理工大学 基于词对齐的半监督对抗学习跨语言摘要生成方法
CN112818113A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于异构图网络的文本自动摘要方法
CN112926324A (zh) * 2021-02-05 2021-06-08 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN113128214A (zh) * 2021-03-17 2021-07-16 重庆邮电大学 一种基于bert预训练模型的文本摘要生成方法
CN113127632A (zh) * 2021-05-17 2021-07-16 同济大学 基于异质图的文本摘要方法及装置、存储介质和终端
CN113254616A (zh) * 2021-06-07 2021-08-13 佰聆数据股份有限公司 面向智能问答系统的句向量生成方法及系统
CN113641820A (zh) * 2021-08-10 2021-11-12 福州大学 基于图卷积神经网络的视角级文本情感分类方法及系统
CN113743133A (zh) * 2021-08-20 2021-12-03 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法
CN113901229A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于句法图卷积的汉越双语新闻事件因果关系抽取方法
CN114091429A (zh) * 2021-10-15 2022-02-25 山东师范大学 基于异构图神经网络的文本摘要生成方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725928A (zh) * 2024-02-18 2024-03-19 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法
CN117725928B (zh) * 2024-02-18 2024-04-30 西南石油大学 基于关键词异构图和语义匹配的金融文本摘要方法

Similar Documents

Publication Publication Date Title
Liu et al. The emerging trends of multi-label learning
JP7195365B2 (ja) 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
Zhang et al. The gap of semantic parsing: A survey on automatic math word problem solvers
Cheng et al. Neural summarization by extracting sentences and words
WO2021223323A1 (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN111680159A (zh) 数据处理方法、装置及电子设备
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
WO2023134083A1 (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN112488301A (zh) 一种基于多任务学习和注意力机制的食品反演方法
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN113535949B (zh) 基于图片和句子的多模态联合事件检测方法
David et al. Comparison of word embeddings in text classification based on RNN and CNN
CN114860920A (zh) 一种基于异构图的单语言主题摘要生成方法
Mansour et al. Text vectorization method based on concept mining using clustering techniques
Liu et al. Adaptive Semantic Compositionality for Sentence Modelling.
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
Mahmoud et al. Arabic semantic textual similarity identification based on convolutional gated recurrent units

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination