CN114860920A - 一种基于异构图的单语言主题摘要生成方法 - Google Patents
一种基于异构图的单语言主题摘要生成方法 Download PDFInfo
- Publication number
- CN114860920A CN114860920A CN202210416073.3A CN202210416073A CN114860920A CN 114860920 A CN114860920 A CN 114860920A CN 202210416073 A CN202210416073 A CN 202210416073A CN 114860920 A CN114860920 A CN 114860920A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- nodes
- embedding
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 49
- 230000011218 segmentation Effects 0.000 claims abstract description 29
- 230000002776 aggregation Effects 0.000 claims abstract description 17
- 238000004220 aggregation Methods 0.000 claims abstract description 17
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 230000002159 abnormal effect Effects 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 10
- 239000000203 mixture Substances 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000009193 crawling Effects 0.000 claims abstract description 4
- 238000012216 screening Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 241000512668 Eunectes Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
一种基于异构图的单语言主题摘要生成方法,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操作;使用对抗训练学习一个从源语言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量,其中源语言即为需要生成摘要的数据集的语种,目标语言为一个大型语种;使用图注意力网络,将包含单词节点、句子节点和边特征的向量进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。
Description
技术领域
本发明属于人工智能技术领域,特别涉及一种基于异构图的单语言主题摘 要生成方法。
背景技术
互联网快速发展,各种包含新闻的文本数据涌现,导致人们很难快速获取 本文中的主题信息;另外,同一新闻在不同记者报道下,会有不同角度的观点, 从而有助于帮助用户了解某一件事件的全貌,怎样把所有的报道归纳成的主要 的观点;在闲暇之余想看到长篇新闻的时候想快速了解新闻的主要内容。怎样 快速地从文本信息中去获取核心的内容,在当今格局下显得尤为必要与迫切。
现有用GCN或者GAT模型,用异构图的方法做到单语言摘要。但是缺点 是未考虑单词之间的多种关系,并且现有技术多针对于英语,对于其他语言, 缺少其对应的词嵌入。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于异构图的 单语言主题摘要生成方法,利用multi-GCN,可以考虑单词之间的关系,如句 法关系与语义关系;利用GAN网络,可以生成其他语言的词嵌入,从而可以 解决多种语言的摘要问题;并且通过图注意网络聚合异构图中的节点信息,提 高生成摘要的准确性。
为了实现上述目的,本发明采用的技术方案是:
一种基于异构图的单语言主题摘要生成方法,包括如下步骤:
步骤1,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操 作,所述源语言即为需要生成摘要的数据集的语种;
步骤2,使用对抗训练学习一个从源语言到目标语言的空间线性映射,得 到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签 操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量, 其中所述目标语言为一个大型语种;
步骤3,使用图注意力网络,将包含单词节点、句子节点和边特征的向量 进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;
步骤4,将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为 训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。
与现有技术相比,本发明针对新闻的文本数据涌现时很难快速获取新闻主 旨的现象,已经想要快速了解一个事情的全貌,采用异构图和图注意机制,让 句子聚合数据集中单词的信息,并更新单词节点,不断迭代,便会得到重要性 较高的句子,即为文章的主题摘要。采用本发明,极大程度上解决长文本摘要 不准确的问题,提高提取式摘要的准确性,为用户快速获取新闻信息作出贡献。
附图说明
图1是本发明整体流程示意图。
图2是本发明实施例中multi-GCN模型图
图3是本发明实施例中句子节点信息更新示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明一种基于异构图的单语言主题摘要生成方法,如图1所示,包括如 下步骤:
步骤1,从网络爬取源语言的摘要数据集。
网络爬取的数据集有很多无效字符或者错误,因此需要先对数据进行清洗 操作,保证数据集正确、完整,
本实施例中,以中文为源语言。对摘要数据集中的数据进行分词(中文需 要分词,以满足后续词嵌入需求,其他语种不需此操作)、分句和打标签操作, 源语言即为需要生成摘要的数据集的语种。
对于中文,可参照jieba词库进行分词操作,清洗其内部存留的异常文字和 分隔符,并对分词后的数据集进行分句、打标签操作。标签可为摘要在正文中 为第i-1句话。
步骤2,对分词、分句和打标签操作得到的数据进行预处理,得到包含单 词节点、句子节点和边特征的向量。
本步骤中,对分词、分句和打标签操作得到的数据,利用源语言的词向量 进行词嵌入操作,并将词嵌入整合获得句子嵌入,将词嵌入作为单词节点,句 子嵌入作为句子节点,词嵌入与句子嵌入之间的关系作为边特征,构造异构图。
为了保证本发明的方法对所有语言都适用,需要生成源语言的词向量作词 嵌入,并根据异构图的特性,将其图结构分为单词节点、句子节点、边特征, 对数据集进行四步预处理,得到包含单词节点、句子节点和边特征的向量。具 体如下:
步骤2.1,为了生成的源语言的词向量作为摘要模型词嵌入需要的材料, 本发明采用GAN网络,利用一一对应的两种语言的数据集(其中一种为源语 言,另一种为目标语言,目标语言一般应为一个大型语种,例如英语、法语等) 作为用来对抗的数据集,通过对抗训练的方法,使用对抗训练学习一个从源语 言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间 的词向量。本步骤是通过GAN网络训练,生成源语言的词向量。
其中空间线性映射的映射函数W如下所示
公式中,X表示源语言的词嵌入,Y表示与X对应的目标语言的词嵌入, 生成器生成X到Y的映射W,为一个d×d维空间的实数矩阵,|| ||F为F范 数符号,W*表示WX-Y的F范数最小时映射函数的值;判别器辨别WX和对应 Y之间的不同,通过判别器和生成器的不断对抗,直到WX与Y相似程度使得 判别器判别不出。
判别器的参数为θD,判别器的损失函数如下所示:
n为源语言的单词数量,m为目标语言的单词数量,xi表示源语言中第i个 单词的词嵌入,yi表示目标语言中第i个单词的词嵌入;
训练W使得判别器无法辨别出这原始嵌入WX与Y,则其损失函数为:
给定输入的样本,判别器和映射函数W依次用随机梯度下降法进行更新, 使得LD(θD|W)与LW(W|θD)之和最小;
模型的训练方法是对抗网络的流程,给定输入的样本,判别器和映射矩阵 W依次用随机梯度下降法进行更新,使得LD与LW之和最小。
为了使语种之间产生可靠的匹配对,本发明实施例中改善了准则,采用 CSLS法,最终会得到源语言与目标语言在同一个共享向量空间的词向量,任 意一个源语言单词的邻居节点均为目标语言的对应单词,生成的源语言的词向 量作为摘要模型词嵌入需要的材料。
步骤2.2,使用步骤2.1生成的词向量对数据集中词部分进行词嵌入操作。
步骤2.3,使用步骤2.2生成的词嵌入,采用CNN+BiLSTM对数据集中的 每个句子的词作初始化,用Multi-GCN捕捉单词间的多个关系,得到该句子的 词嵌入,将词嵌入整合起来获得句子嵌入。
本步骤中,基于源语言的词向量,先采用卷积神经网络(CNN)捕捉每个 句子局部的n-garm特征,即单词的联合概率。然后采用双向长短期记忆网络 (BiLSTM)捕捉句子级特征,将局部的n-garm特征与句子级特征进行连接得 到上下文单词嵌入,即初始化后的结果,对于该初始化后的结果,用Multi- GCN捕捉单词间的多个关系。
接下来,对Ar[wi,wj]进行融合,融合第l层表示计算某个单词与第l个单词 之间的关系(比如我、喜欢、吃、苹果、并且、喜欢、打、羽毛球。如果捕捉” 吃”这个单词与其他单词的关系,第3层就是计算吃与苹果的关系),更新函数 定义为:
式中,和表示权重和偏差,为初始化后的初始嵌入,即上下 文单词嵌入,表示某个单词第l-1层最终得到的词嵌入,表示第l个 GCN层,表示某个单词融合与第l个单词之间的关系后的词嵌入,表示 第l个GCN层最终得到的词嵌入,通过若干个GCN层后,得到最后更新的结 果H,最终的词嵌入Fw=H+Xw,将句子的词嵌入整合即得到句子嵌入Fs。
本步骤中,得到所有句子最终的词嵌入与其对应句子嵌入,词嵌入作为异 构图结构的单词节点,句子嵌入作为异构图结构的句子节点。
步骤2.4,采用TF-IDF表示词与句子之间的关系,作为图结构的边特征。
本步骤,在边特征中注入TF-IDF值,词频TF表示第i个单词wi在第j个 句子sj中出现的次数,逆文档频率IDF表示wi出现的逆函数。
步骤3,使用图注意力网络,将包含单词节点、句子节点和边特征的向量 进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点。 步骤如下:
步骤3.1,结合多头注意力机制、残差连接对GAT(图注意力网络)修改。
具体地,本步骤中,图注意力网络以图卷积神经网络作为基本框架,框架 引入一个注意力机制,并且添加了一个残差连接,本实施例采用多头注意力。 其中引入注意力机制用于搜集并聚合距离相近的邻居节点的特征表示,采用多 头注意力是起到集成作用,防止过拟合,添加残差连接是为了防止聚合节点信 息时迭代出现梯度消失问题。具体修改过程如下:
引入了注意力机制,单词节点与句子节点分别为Fw与Fs,节点特征表示为Fw∪Fs,边特征表示为E,节点特征与边特征构造的图表示为G,使用图注意 力网络,更新语义节点的表示。
zij=LeakyReLU(Wα[Wqhi;Wkhj])
式中Wa,Wq,Wk,Wv为可训练权重;aij是hi与hj之间的注意力权重,在多头注意 力中表示为:
为了防止在聚合信息时多次迭代后梯度消失,添加了一个残差连接,因此 最终输出表示为:
h'i=ui+hi
zi,j=LeakyReLU(Wα[Wqhi;Wkhj;eij])
最后,还在图注意层后加入一个位置级前馈层。
该步骤描述了模型从GCN引入注意力机制从而变为GAT的公式过程;信 息聚合的结果是句子节点的特征向量的一个新表示,会与重点词汇(关键词) 进行一个分数计算(即相似性度计算)句子节点的特征向量的一个新表示,会 与重点词汇(关键词)进行一个分数计算(即相似性度计算),分数越高那么 代表句子得分越高。
步骤3.2,使用步骤3.1修改后的网络更新句子节点。
使用图注意力网络更新单词节点和句子节点如下:
然后,使用更新的句子节点获取单词节点的新表示,并进一步迭代地更新 句子节点。每次迭代都包含一个句子到单词和一个单词到句子的更新过程。第 t次迭代过程可以表示为:
表示第t次迭代每个句子聚合包含的单词级信息,表示第t次迭代 用单词节点更新句子节点,表示第t次迭代时注意力机制的key和value,用一个前馈层FNN更新注意力机制的key和value,FNN为前馈网络, GAT为图注意力网络;
参考图3,更新句子节点(句子节点每次迭代更新都是其特征向量在GAT 通过query、key和value计算得到新的特征向量,从而达到更新句子节点,也 就是节点包含的信息达到了更)的处理步骤如下:
(1)文档中每个句子si聚合所包含的单词级信息;
(2)用单词wi所在句子si的新表示更新句子节点。由于句子节点的特性向 量是由单词节点的特征向量相加得到的,单词节点的特征向量更新,则句子节 点的特征向量也会同步更新。因此,用句子中包含单词的新表示(即特征向量 更新后的新特征向量)即可更新句子节点。
经过本步骤,会得到句子节点的特征向量的一个新表示,会在步骤4进行 一个分数计算(即相似性度计算),分数高,表示该句子为摘要候选。
步骤4,将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为 训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。具体步骤如 下:
(1)对更新之后的句子节点进行评分排名;具体方法如下:
1)、句子节点特征向量被线性变换到一个出现在摘要中的概率(具体是, 如果句子包含关键词越多,那么这个句子的分数越高,那么该句子作为摘要的 概率就越大),单词在句子中出现的概率与通过TD-IDF得到的边特征的向量 相关;
2)、按照概率进行排序,选择前k个作为摘要。
3)、丢弃与排名较高的句子有重复的三元组的句子。
(2)去除分数排名靠后的句子,保留排名靠前的句子为重点句子;
(3)去除重点句子中排名靠后且语义与靠前的句子句意重复或关键词重 复过多的句子;
(4)提取出最终摘要。
在本发明的一个具体实施例中,硬件为一台计算机,配置包含硬件环境: CPU:Intel Core处理器(3.1GHz)/4.5GHz/8GT;GPU:6块16G_TESLA- P100_4096b_P_CAC;内存:16根32G ECC Registered DDR4 2666;软件环境: 操作系统:Ubantu 16.04;深度学习框架:Pytorch;语言及开发环境:Python 3.6、Anaconda 3。
本实施例中文以2017年nlpcc测评数据集的数据为分析对象,英文以 CNN/DM数据集的数据为分析对象,中文按照上述步骤进行分词分句等操作, 英文只作分句操作,并将处理过的数据集提取单词节点特征、句子节点特征与 边特征,对句子特征进行聚合,聚合单词节点信息,更新句子节点,然后对最 后的句子节点进行排名,筛选出适合的摘要,得出最后对应的中英文摘要。
表1为中文与英文两种语言下经过分词分句等操作处理后的数据集(部分 示意),如下:
表1
对表一所示的数据集进行特征提取、句子节点聚合及更新,以及筛选适合 作为摘要的句子得到提取结果如下表2所示:
表2
Claims (9)
1.一种基于异构图的单语言主题摘要生成方法,其特征在于,包括如下步骤:
步骤1,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操作,所述源语言即为需要生成摘要的数据集的语种;
步骤2,使用对抗训练学习一个从源语言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量,其中所述目标语言为一个大型语种;
步骤3,使用图注意力网络,将包含单词节点、句子节点和边特征的向量进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;
步骤4,将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。
2.根据权利要求1所述基于异构图的单语言主题摘要生成方法,其特征在于,所述步骤2,对分词、分句和打标签操作得到的数据,利用所述源语言的词向量进行词嵌入操作,并将词嵌入整合获得句子嵌入,将词嵌入作为单词节点,句子嵌入作为句子节点,词嵌入与句子嵌入之间的关系作为边特征,构造异构图。
3.根据权利要求2所述基于异构图的单语言主题摘要生成方法,其特征在于,所述对抗训练采用GAN网络,其中用来对抗的数据集是一一对应的,所述空间线性映射的映射函数如下所示:
其中,X表示源语言的词嵌入,Y表示与X对应的目标语言的词嵌入,生成器生成X到Y的映射W,为一个d×d维空间的实数矩阵,|| ||F为F范数符号,W*表示WX-Y的F范数最小时映射函数的值;判别器辨别WX和对应Y之间的不同,通过判别器和生成器的不断对抗,直到WX与Y相似程度使得判别器判别不出;
所述判别器的参数为θD,判别器的损失函数如下所示:
n为源语言的单词数量,m为目标语言的单词数量,xi表示源语言中第i个单词的词嵌入,yi表示目标语言中第i个单词的词嵌入;
训练W使得判别器无法辨别出WX与Y,则其损失函数为:
给定输入的样本,判别器和映射函数W依次用随机梯度下降法进行更新,使得LD(θD|W)与LW(W|θD)之和最小;
最终得到源语言与目标语言在同一个共享向量空间的词向量,任意一个源语言单词的邻居节点均为目标语言的对应单词。
4.根据权利要求3所述基于异构图的单语言主题摘要生成方法,其特征在于,基于所述源语言的词向量,先采用卷积神经网络捕捉每个句子局部的n-garm特征,然后采用双向长短期记忆网络捕捉句子级特征,将所述局部的n-garm特征与所述句子级特征进行连接得到上下文单词嵌入,再用multi-GCN捕捉单词间的多个关系,对于句法关系,两个单词之间存在依赖关系时,Ar[wi,wj]=1,不存在依赖关系时,Ar[wi,wj]=0;对于语义关系,使用单词嵌入之间的点积绝对值来构造,
6.根据权利要求5所述基于异构图的单语言主题摘要生成方法,其特征在于,在边特征中注入TF-IDF值,词频TF表示第i个单词wi在第j个句子sj中出现的次数,逆文档频率IDF表示wi出现的逆函数。
7.根据权利要求5所述基于异构图的单语言主题摘要生成方法,其特征在于,所述步骤3,图注意力网络以图卷积神经网络作为基本框架,并引入一个注意力机制以及添加一个残差连接;使用所述图注意力网络更新单词节点和句子节点如下:
然后,使用更新的句子节点获取单词节点的新表示,并进一步迭代地更新句子节点,每次迭代都包含一个句子到单词和一个单词到句子的更新过程,第t次迭代过程表示为:
表示第t次迭代每个句子聚合包含的单词级信息,表示第t次迭代用单词节点更新句子节点,表示第t次迭代时注意力机制的key和value,用一个前馈层FNN更新注意力机制的key和value,FNN为前馈网络,GAT为图注意力网络;
更新句子节点的处理步骤如下:
(1)文档中每个句子si聚合所包含的单词级信息;
(2)用单词wi所在句子si的新表示更新句子节点。
8.根据权利要求1所述基于异构图的单语言主题摘要生成方法,其特征在于,所述步骤4,摘要句选择步骤如下:
(1)对更新之后的句子节点进行评分排名;
(2)去除分数排名靠后的句子,保留排名靠前的句子为重点句子;
(3)去除重点句子中排名靠后且语义与靠前的句子句意重复或关键词重复过多的句子;
(4)提取出最终摘要。
9.根据权利要求8所述基于异构图的单语言主题摘要生成方法,其特征在于,所述对更新之后的句子节点进行评分排名的具体方法如下:
1)、句子节点特征向量被线性变换到一个出现在摘要中的概率;
2)、按照概率进行排序,选择前k个作为摘要。
3)、丢弃与排名较高的句子有重复的三元组的句子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210416073.3A CN114860920A (zh) | 2022-04-20 | 2022-04-20 | 一种基于异构图的单语言主题摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210416073.3A CN114860920A (zh) | 2022-04-20 | 2022-04-20 | 一种基于异构图的单语言主题摘要生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114860920A true CN114860920A (zh) | 2022-08-05 |
Family
ID=82630702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210416073.3A Pending CN114860920A (zh) | 2022-04-20 | 2022-04-20 | 一种基于异构图的单语言主题摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114860920A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725928A (zh) * | 2024-02-18 | 2024-03-19 | 西南石油大学 | 基于关键词异构图和语义匹配的金融文本摘要方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553154A (zh) * | 2020-04-28 | 2020-08-18 | 合肥工业大学 | 一种基于扰动对抗训练的跨语言词向量构建方法 |
CN112541343A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
CN112818113A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于异构图网络的文本自动摘要方法 |
CN112926324A (zh) * | 2021-02-05 | 2021-06-08 | 昆明理工大学 | 融合词典与对抗迁移的越南语事件实体识别方法 |
CN113127632A (zh) * | 2021-05-17 | 2021-07-16 | 同济大学 | 基于异质图的文本摘要方法及装置、存储介质和终端 |
CN113128214A (zh) * | 2021-03-17 | 2021-07-16 | 重庆邮电大学 | 一种基于bert预训练模型的文本摘要生成方法 |
CN113254616A (zh) * | 2021-06-07 | 2021-08-13 | 佰聆数据股份有限公司 | 面向智能问答系统的句向量生成方法及系统 |
CN113641820A (zh) * | 2021-08-10 | 2021-11-12 | 福州大学 | 基于图卷积神经网络的视角级文本情感分类方法及系统 |
CN113743133A (zh) * | 2021-08-20 | 2021-12-03 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
CN113901229A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
CN114091429A (zh) * | 2021-10-15 | 2022-02-25 | 山东师范大学 | 基于异构图神经网络的文本摘要生成方法及系统 |
-
2022
- 2022-04-20 CN CN202210416073.3A patent/CN114860920A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553154A (zh) * | 2020-04-28 | 2020-08-18 | 合肥工业大学 | 一种基于扰动对抗训练的跨语言词向量构建方法 |
CN112541343A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
CN112818113A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于异构图网络的文本自动摘要方法 |
CN112926324A (zh) * | 2021-02-05 | 2021-06-08 | 昆明理工大学 | 融合词典与对抗迁移的越南语事件实体识别方法 |
CN113128214A (zh) * | 2021-03-17 | 2021-07-16 | 重庆邮电大学 | 一种基于bert预训练模型的文本摘要生成方法 |
CN113127632A (zh) * | 2021-05-17 | 2021-07-16 | 同济大学 | 基于异质图的文本摘要方法及装置、存储介质和终端 |
CN113254616A (zh) * | 2021-06-07 | 2021-08-13 | 佰聆数据股份有限公司 | 面向智能问答系统的句向量生成方法及系统 |
CN113641820A (zh) * | 2021-08-10 | 2021-11-12 | 福州大学 | 基于图卷积神经网络的视角级文本情感分类方法及系统 |
CN113743133A (zh) * | 2021-08-20 | 2021-12-03 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
CN113901229A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
CN114091429A (zh) * | 2021-10-15 | 2022-02-25 | 山东师范大学 | 基于异构图神经网络的文本摘要生成方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725928A (zh) * | 2024-02-18 | 2024-03-19 | 西南石油大学 | 基于关键词异构图和语义匹配的金融文本摘要方法 |
CN117725928B (zh) * | 2024-02-18 | 2024-04-30 | 西南石油大学 | 基于关键词异构图和语义匹配的金融文本摘要方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | The emerging trends of multi-label learning | |
JP7195365B2 (ja) | 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 | |
Zhang et al. | The gap of semantic parsing: A survey on automatic math word problem solvers | |
Cheng et al. | Neural summarization by extracting sentences and words | |
WO2021223323A1 (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN112732916B (zh) | 一种基于bert的多特征融合模糊文本分类系统 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
CN111680159A (zh) | 数据处理方法、装置及电子设备 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
WO2023134083A1 (zh) | 基于文本的情感分类方法和装置、计算机设备、存储介质 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
CN112488301A (zh) | 一种基于多任务学习和注意力机制的食品反演方法 | |
CN114239612A (zh) | 一种多模态神经机器翻译方法、计算机设备及存储介质 | |
CN113535949B (zh) | 基于图片和句子的多模态联合事件检测方法 | |
David et al. | Comparison of word embeddings in text classification based on RNN and CNN | |
CN114860920A (zh) | 一种基于异构图的单语言主题摘要生成方法 | |
Mansour et al. | Text vectorization method based on concept mining using clustering techniques | |
Liu et al. | Adaptive Semantic Compositionality for Sentence Modelling. | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
Mahmoud et al. | Arabic semantic textual similarity identification based on convolutional gated recurrent units |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |