CN116821371A - 一种主题知识图联合增强的多文档科学摘要生成方法 - Google Patents
一种主题知识图联合增强的多文档科学摘要生成方法 Download PDFInfo
- Publication number
- CN116821371A CN116821371A CN202310792393.3A CN202310792393A CN116821371A CN 116821371 A CN116821371 A CN 116821371A CN 202310792393 A CN202310792393 A CN 202310792393A CN 116821371 A CN116821371 A CN 116821371A
- Authority
- CN
- China
- Prior art keywords
- document
- entity
- graph
- abstract
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002708 enhancing effect Effects 0.000 title claims description 6
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 20
- 238000011835 investigation Methods 0.000 abstract description 5
- 238000010276 construction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种主题知识图联合增强的多文档科学摘要生成方法,首先利用提供的参考文献集合的摘要部分进行文献信息抽取及子集划分,然后构建文献知识图,再构建多文档摘要生成模型,通过知识图增强输入文献的特征表示,最后生成包含文献集合核心信息的总结文本。本发明的方法解决了科学论文中相关工作总结的自动生成问题,可以从多篇文档中生成摘要文本,在满足大型可查询文献数据库的条件下,用户只需输入关键词便可从查询的文献结果集中获取摘要型的相关工作总结,使科研人员可以快速聚焦感兴趣的内容,避免浪费不必要的调研时间,提高科研工作的效率。
Description
技术领域
本发明属于文本数据挖掘领域技术领域,具体涉及一种主题知识图联合增强的多文档科学摘要生成方法。
背景技术
在科研工作的前期调查阶段,科研人员在探究某科研任务时需要知道该任务的研究现状、研究方法、热点问题等信息。研究人员掌握这一信息需要阅读大量的文献,总结该任务已有的研究方法、领域发展趋势、具体的难点问题等。对这些信息的归纳整理将成为论文撰写中introduction章节的部分内容和related work。文献调查的工作结果体现对同一问题的不同解决办法,这可以为研究人员提供更清晰的研究思路,更容易总结前人的工作成果、发现问题,帮助科研工作者更好的开展科研工作。
然而各类学术期刊、学术会议每天都有大量的论文、专利、成果报告等各种文献产生,数量增长迅速。研究人员往往需要进行持续地大量论文检索、阅读工作,这不仅十分繁琐,也消耗了大量的时间,人工阅读方式也不可避免接触了许多无关信息,降低了科研工作的效率。
为解决科学文献信息过载造成的问题,需要一种自动化的方法可以对大量文献进行相应的归纳总结,并形成简洁的摘要式总结文本,即论文相关工作的部分。使研究人员可以快速了解目标任务的研究成果,从而专注于感兴趣的内容,提高科研工作效率。
发明内容
为解决上述技术问题,本发明提出了一种主题知识图联合增强的多文档科学摘要生成方法,利用提供的参考文献集合的摘要部分,构建跨文档的知识图,通过知识图增强输入文献的特征表示,生成包含文献集合核心信息的总结文本。
本发明采用的技术方案为:一种主题知识图联合增强的多文档科学摘要生成方法,具体步骤如下:
S1、文献信息抽取及子集划分;
S2、文献知识图构建;
S3、构建多文档摘要生成模型;
S4、文献相关工作生成。
进一步地,所述步骤S1具体如下:
S11、文献内容的选择;
对于给定关键词的文献集合,使用文献的摘要部分作为输入数据,生成目标内容。
对于已有的N篇参考文献集合D={d1,d2,...,dN},每篇文献包含M个句子,di={si,1,si,2,...,Si,M},每个句子包含K个单词,Si,j={wi,j,1,wi,j,2,...,wi,j,K},则生成的摘要S={w1,w2,...,wN′}。
其中,dN表示第N篇文献,si,M表示文献di的第M个句子,wi,j,K表示句子Si,j的第K个单词,N′表示摘要中的单词数,wN′表示S中的第N′个单词。
S12、对参考文献进行实体抽取和关系抽取;
对于文献di,使用DYGIE++信息抽取工具中的科学领域信息抽取模型抽取di中的科学实体集合Ei={ei,1,ei,2,...,ei,n}及关系集合Ri={(ei,1,ei,2,ri,1),(ei,3,ei,4,ri,2),...,(ei,n-1,ei,n,ri,m)}。
其中,e表示实体,r表示关系,ei,n表示文献di的第n个实体,ri,m表示第m个关系。实体有六种类型,即任务、方法、度量、材料、一般实体和其他科学术语;关系包括:比较、用于、特征为、归属于、用于评估、..的部分、同时存在;实体及关系的定义来源于训练的数据集SciERC。
S13、实体词嵌入;
通过对实体词汇向量化,获取实体的特征表示。使用SciBert预训练语言模型对实体进行词嵌入,得到词嵌入结果集合。
S14、划分文献子集;
根据文献实体抽取结果,将给定文献划分为一个或多个文献子集。
对文献集中任意两篇文献di,dj在S13获取的实体词嵌入结果Vi,Vj,计算Vi中每个词嵌入μ与Vj中每个词嵌入τ的余弦相似度cos_simi,j=cos(μ,ε),且该余弦相似度作为两个实体间的实体相似度。设置相似度阈值τ,如果cos_simi,j>τ,则将di,dj归在同一子集中,形成一个簇,并将μ和ε组成一个实体对。对文献集中每篇文献进行计算,获得划分后的簇集合C及实体集合entity_set。
进一步地,所述步骤S2具体如下:
S21、文献知识图定义;
对步骤S14中生成的文献簇集合C中的一个簇ci,其中包含l篇文献ci={di,1,di,2,...,di,l}。对每个文献di,j,在步骤S12中获取实体抽取结果Ei,j和关系抽取结果Ri,j,利用此信息构建ci的知识图gi=(Vg,Eg)。
其中,Vg表示图的顶点集,由抽取的实体组成,Eg表示图的边集,由抽取的关系组成。两个实体顶点之间存在关系,则形成一条边。
S22、多文档知识图整合;
根据步骤S21中的定义对ci的知识图进行构建,由于ci中的文献都具有一定的关联性,则利用关联信息构建多文档整合图。
使用步骤S14中得到的实体集合entity_set,如果其中两个实体满足关联条件,则将它们进行合并。合并方法为将连接到其中一个实体的边都连接到另一个实体上,并删除该实体。遍历ci所有的实体,最终形成多文档整合的知识图。
S23、可学习图的构建;
将知识图转换为Levi图,Levi图将原图转换为二部图,把关系和实体都作为顶点,实体和关系为两个相互连通部分,则实体特征和关系特征都可以学习更新。对于步骤S22中形成图任意关系(sei,oej,ri,j),构建顶点sei,,oej,ri,j,边为sei→ri,j,ri,j→oej。
边的特征初始化为连接的两个顶点在步骤S13中获取的词嵌入加权平均的结果。随机初始化实体类型节点和边类型节点,并将类型节点连接到对应类型的所有节点上。最终生成的图信息表示结果包括图顶点邻接矩阵、顶点特征矩阵、实体顶点特征索引列表。
进一步地,所述步骤S3具体如下:
S31、构建基于transformer的编码器对文档进行编码;
设输入序列为词嵌入集合X={x1,x2,...,x|X|},|X|表示X的大小。由于数据来源为多篇文档,输入序列为长序列,则采用基于稀疏注意力Big bird的编码器结构获取文档的上下文注意力表示Atten(X)i,具体公式如下:
其中,xi∈X,H表示多头数量,Qh,Kh,Vh表示注意力计算的权重矩阵,(*)T表示矩阵的转置,N(i)表示xi对应计算的tokens。
输出注意力后输入残差连接和归一化层以及feed forward层网络。公式如下:
X=LayerNorm(Atten(X)i)
X=LayerNorm(X+FeedForward(X))
编码器最后使用线性层和softmax输出文档上下文表示HD。
S32、构建graph transformer图神经网络的编码器对文档知识图进行编码;
图神经网络利用图邻接矩阵捕获顶点之间的交互信息,学习知识图顶点的隐藏特征表示。graph transformer图神经网络的编码器利用transformer的自注意力计算机制计算每个特征与其邻居的注意力分数,并更新节点特征具体公式为:
其中,vi表示图的顶点,vj表示vi的邻居顶点,Ni表示vi所有的邻居节点,ng表示注意力头,H′表示头数,表示注意力计算的权重矩阵。除注意力计算外,其他网络层结构同基本transformer结构相同。使用两层graph transformer,学习到长距离顶点特征,并获得顶点的隐藏表示HG。
S33、使用主题模型Bertopic抽取文档中的潜在主题;
首先提取文档词嵌入,使用UMAP降维算法对词嵌入进行降维。降维后的词嵌入向量使用HDBSCAN算法对文档进行层次和密度聚类。每个簇中使用c-TF-IDF提取主题词。c-TF-IDF为TF-IDF变体,将簇内的多篇文档连接为一个单文档,对单文档中词计算TF-IDF值Wt,c,公式如下:
其中,tft,c表示文档中词项f在文档类别c中的频率,tft表示词项f在所有文档中的频率,A表示簇内平均词数量。获得每个簇内的主题词后,对主题词分数最高的主题使用SciBert词嵌入编码,得到文档主题集合特征表示HT。
S34、使用步骤S31中的Big bird结合前续步骤中获得的HD、HG、HT对给定的目标摘要进行解码;
构建2层transformer结构,其中masked selfattention层获取目标摘要的上下文表示HS。cross attention层用HS分别与HD、HG、HT计算attention。公式如下:
cd=CrossAtten(QS(HS),Kd(HD),Vd(HD))
cg=CrossAtten(QS(HS),Kg(HG),Vg(HG))
ct=CrossAtten(QS(HS),Kt(HT),Vt(HT))
其中,cd、cg、ct分别表示HS与HD、HG、HT计算的交叉注意力表示。QS表示HS的查询权重矩阵,Kd、Kg、Kt分别表示HD、HG、HT的键值权重矩阵,Vd、Vg、Vt分别表示HD、HG、HT的值权重矩阵。注意力计算方式同步骤S31。
使用层级融合机制对注意力进行融合,获取融合后的信息表示。公式如下:
c′=z1*cg+(1-z1)*ct
c″=z2*c′+(1-z2)*cd
z1=sigmoid(Wz,1[cg:ct]+bz,1)
z2=sigmoid(Wz,2[c′:cd]+bz,2)
其中,Wz,1、Wz,2、bz,1、bz,2表示线性层参数,z1、z2表示融合权值,c′表示融合cg和ct的结果,c″表示融合cg、ct、cd的结果。获得的c″经过线性层和softmax函数输出解码的摘要序列。
S35、训练摘要生成模型;
摘要生成模型由步骤S31中的文档编码子组件,步骤S32中的图编码子组件,步骤S33中的主题建模子组件和步骤S34中的摘要解码子组件共同构成。
模型输入为文档集合及其知识图,输出为生成的摘要。使用多文档科学文献摘要数据集对模型进行训练。设训练数据中参考摘要为生成的摘要为{S1,S2,...,Sδ}。
其中,表示参考摘要的句子,S表示生成摘要的句子,δ表示训练数据中摘要中的句子个数。则对应的交叉熵损失函数L表达式如下:
使用Multi-Xscience作为训练数据集对模型进行训练。
进一步地,所述步骤S4具体如下:
S41、输入参考文献摘要集合;
对每篇参考文献由步骤S1中方法抽取实体,根据实体抽取结果将原文献重新划分为多个簇,对其中每个簇ci,对其中每个簇ci,将其中每篇文献按照发表时间进行排序并编号。
每篇文献中的“we”,“our”词汇替换为文献第一作者的first name。对文档进行分词,对每个文档句子进行拼接,句子与句子之间增加<S>符号表示句分隔符,再转换为token集合。每个文档开头增加引用序号[num]表示文档分隔符,拼接为一个连续文档,num为具体的序号数字。使用SciBert预训练语言模型对文档进行词嵌入。
S42、使用步骤S2中方法构建每个簇ci的知识图;
S43、文档嵌入输入步骤S35中预训练的摘要生成模型,生成相关工作文本rwi;
S44、每个rwi为一个主题相关的段落,对每个簇ci执行步骤S42-S43,生成RW={rw1,rw2,...,rw|RW|},即拼接产生的段落集合,得到最终的相关工作报告。
本发明的有益效果:本发明的方法首先利用提供的参考文献集合的摘要部分进行文献信息抽取及子集划分,然后构建文献知识图,再构建多文档摘要生成模型,通过知识图增强输入文献的特征表示,最后生成包含文献集合核心信息的总结文本。本发明的方法解决了科学论文中相关工作总结的自动生成问题,可以从多篇文档中生成摘要文本,在满足大型可查询文献数据库的条件下,用户只需输入关键词便可从查询的文献结果集中获取摘要型的相关工作总结,使科研人员可以快速聚焦感兴趣的内容,避免浪费不必要的调研时间,提高科研工作的效率。所述摘要生成模型理论上可适用于通用科研领域,文本生成模型在特定领域上的表现较通用领域更好,因此可以针对特定领域数据预训练模型,并在该领域的科研工作上应用,模型采用基于Big bird的稀疏注意力结构对文本进行编解码,对长序列的处理和生成更有效,模型使用文档知识图建模及主题建模结果对文档编码表示进行增强,可以提高模型对源文档信息知识和主题感知能力,从而提高摘要生成的质量。
附图说明
图1为本发明的一种主题知识图联合增强的多文档科学摘要生成方法的流程图。
图2为本发明实施例中步骤S22中知识图结构图。
图3为本发明实施例中摘要生成模型结构图。
具体实施方式
下面结合附图和实施例说对本发明的方法做进一步的说明。
如图1所示,本发明的一种主题知识图联合增强的多文档科学摘要生成方法流程图,具体步骤如下:
S1、文献信息抽取及子集划分;
S2、文献知识图构建;
S3、构建多文档摘要生成模型;
S4、文献相关工作生成。
在本实施例中,所述步骤S1具体如下:
S11、文献内容的选择;
对于给定关键词的参考文献集合,使用文献的摘要部分作为输入数据,生成目标内容。选择摘要部分有以下几点原因:
(1)摘要简炼地概括了文献的核心内容,通常包括任务,方法,数据,评估结果,科研工作者通过阅读摘要可以了解该文献的大致工作内容,与相关工作中对参考文献的描述有很大相似性;
(2)全文文本具有较多细节,总结文本通常只关心主要方法,实验效果等,选择文献全文冗余度较高;
(3)考虑到版权原因,获取文献的全文比获取文献摘要更为受限。
对于已有的N篇参考文献集合D={d1,d2,...,dN},每篇文献包含M个句子,di={si,1,si,2,...,si,M},每个句子包含K个单词,si,j={wi,j,1,wi,j,2,...,wi,j,K},则生成的摘要S={w1,w2,...,wN′}。
其中,dN表示第N篇文献,si,M表示文献di的第M个句子,wi,j,K表示句子si,j的第K个单词,N′表示摘要中的单词数,wN′表示S中的第N′个单词。
S12、对参考文献进行实体抽取和关系抽取;
对于文献di,使用DYGIE++信息抽取工具中的科学领域信息抽取模型抽取di中的科学实体集合Ei={ei,1,ei,2,...,ei,n}及关系集合Ri={(ei,1,ei,2,ri,1),(ei,3,ei,4,ri,2),...,(ei,n-1,ei,n,ri,m)}。
其中,e表示实体,r表示关系,ei,n表示文献di的第n个实体,ri,m表示第m个关系。实体有六种类型,即任务、方法、度量、材料、一般实体和其他科学术语;关系包括:比较、用于、特征为、归属于、用于评估、..的部分、同时存在;实体及关系的定义来源于训练的数据集SciERC。
DYGIE++可以生成跨句子间的关系抽取结果,本实施例中训练的样例数据如表1所示:
表1
其中,元数据的前两个索引为关系前者的起始结束位置,后两个索引为关系后者的起始结束位置。
S13、实体词嵌入;
通过对实体词汇向量化,获取实体的特征表示。使用SciBert预训练语言模型对实体进行词嵌入,得到词嵌入结果集合。SciBert在科学论文数据集上进行预训练,更适合科研论文方面的自然语言处理任务。
S14、划分文献子集;
根据文献实体抽取结果,将给定文献划分为一个或多个文献子集。不同的文献抽取出的实体语义表示可能相似,甚至相同。因此可根据该特性将文献划分到不同的子集中,使得同一子集中的文献具有关联性,增强生成的总结文本的主题相关性。
对文献集中任意两篇文献di,dj的实体词嵌入结果Vi,Vj,计算Vi中每个词嵌入μ与Vj中每个词嵌入ε的余弦相似度cos_simi,j=cos(μ,ε),且该余弦相似度作为两个实体间的实体相似度。cos_sim>0则认为两个词嵌入具有一定的语义相似性,但并不能认为di,dj具有关联性,因此设置相似度阈值τ,如果cos_simi,j>τ,表示μ和ε语义上十分接近,很可能指代相同,则认为vi,vj具有实体关联关系,将di,dj归在同一子集中,形成一个簇,并将μ和ε组成一个实体对。对文献集中每篇文献进行计算,获得划分后的簇集合C及实体集合entity_set。
表2描述了子集划分过程,如下所示。
表2
其中,c0表示初始文档簇集,ei表示E中第i个实体,ch表示新增的文档簇集。
在本实施例中,所述步骤S2具体如下:
S21、文献知识图定义;
对步骤S14中生成的文献簇集合C中的一个簇ci,其中包含l篇文献ci={di,1,di,2,...,di,l}。对每个文献di,j,在步骤S12中获取实体抽取结果Ei,j和关系抽取结果Ri,j,利用此信息构建ci的知识图gi=(Vg,Eg)。
其中,Vg表示图的顶点集,由抽取的实体组成,Eg表示图的边集,由抽取的关系组成。两个实体顶点之间存在关系,则形成一条边。
S22、多文档知识图整合;
根据步骤S21中的定义对ci的知识图进行构建,由于ci中的文献都具有一定的关联性,因此可以利用关联信息构建多文档整合图。
使用步骤S14中计算得到实体集合entity_set,如果其中两个实体满足关联条件,则将它们进行合并。合并方法为将连接到其中一个实体的边都连接到另一个实体上,并删除该实体。遍历ci所有的实体,最终形成多文档整合的知识图。
知识图结构如图2所示,其右侧图示中深灰色实体表示任务,浅灰色实体表示方法。
S23、可学习图的构建;
为了不丢失边的信息,将知识图转换为Levi图。Levi图将原图转换为二部图,把关系和实体都作为顶点,实体和关系为两个相互连通部分,这使得实体特征和关系特征都可以学习更新。对于步骤S22中形成图任意关系(sei,oej,ri,j),构建顶点sei,,oej,ri,j,边为sei→ri,j,ri,j→oej。
边的特征初始化为连接的两个顶点在步骤S13中获取的词嵌入加权平均的结果。此外,考虑到顶点和边具有类型信息,创建图中实体类型顶点和边类型顶点,随机初始化实体类型节点和边类型节点,并将类型节点连接到对应类型的所有节点上。最终生成的图信息表示结果包括图顶点邻接矩阵、顶点特征矩阵、实体顶点特征索引列表。
在本实施例中,所述步骤S3具体如下:
从多篇文献生生成相关工作报告可以视为端到端文本生成任务,且对原文本信息进行压缩、转换、最终生成总结性文本。在自然语言处理领域属于多文档自动摘要。因此构建基于端到端的文本摘要生成模型,使用该模型生成文本。模型的结构如图3所示。
S31、构建基于transformer的编码器对文档进行编码;
设输入序列为词嵌入集合X={x1,x2,...,x|X|},|X|表示X的大小。由于数据来源为多篇文档,输入序列为长序列,因此采用基于稀疏注意力Big bird的编码器结构获取文档的上下文注意力表示Atten(X)i,Big bird通过全局注意力、随机注意力、窗口注意力结合的方式代替Bert的全注意力。相较transformer的全注意力机制,Big bird只和部分token计算注意力,在提高计算效率的同时也能够处理更长的序列。只有全局注意力的计算需要在序列中设置几个关键token,这些token需要与序列中每个token计算注意力,序列中每个token也需要计算与它们的注意力;随机注意力使序列中每个token随机在X中选取k个token计算其注意力;窗口注意力中每个token只与自己前一个token和后一个token及自己计算注意力。具体公式为:
其中,xi∈X,H表示多头数量,Qh,Kh,Vh表示注意力计算的权重矩阵,(*)T表示矩阵的转置,N(i)表示xi对应计算的tokens。
输出注意力后输入残差连接和归一化层以及feed forward层网络。公式如下:
X=LayerNorm(Atten(X)i)
X=LayerNorm(X+FeedForward(X))
encoder最后使用线性层和softmax输出文本隐藏表示,由于输入文档为多文档的结合,因此采用ITC模式,只有少量词会计算全局注意力。与transformer相同,为获取更丰富的文档上下文表示,采用多层encoder进行上下连接,最终输出编码后的文档表示HD。
S32、构建graph transformer图神经网络的编码器对文档知识图进行编码;
图神经网络可以利用图邻接矩阵捕获顶点之间的交互信息,学习知识图顶点的隐藏特征表示。graph transformer图神经网络的编码器利用transformer的自注意力计算机制计算每个特征与其邻居的注意力分数,并更新节点特征。具体公式为:
其中,vi表示图的顶点,vj表示vi的邻居顶点,Ni表示vi所有的邻居节点,ng表示注意力头,H′表示头数,表示注意力计算的权重矩阵。除注意力计算外,其他网络层结构同基本transformer相同。这里使用两层graph transformer,可以学习到长距离顶点特征,并获得顶点的隐藏表示HG。
S33、使用主题模型Bertopic抽取文档中的潜在主题;
现有基于LDA主题模型输入文档为词袋模型,没有充分考虑上下文语义,并且假定主题分布服从狄利克雷分布。Bertopic可以输入预训练语言模型计算的词嵌入,并且使用层次和密度的聚类方法,避免先验分布带来的误差。
首先提取文档词嵌入,由于Bertopic采用聚类算法进行主题建模,而词嵌入通常具有较高的维度,在嵌入空间中信息稀疏,不容易聚类,因此使用UMAP降维算法对词嵌入进行降维。降维后的词嵌入向量使用HDBSCAN算法对文档进行层次和密度聚类。每个簇中使用c-TF-IDF提取主题词。c-TF-IDF为TF-IDF变体,将簇内的多篇文档连接为一个单文档,对单文档中词计算TF-IDF值Wt,c,公式如下:
其中,tft,c表示文档中词项t在文档类别c中的频率,tft表示词项t在所有文档中的频率,A表示簇内平均词数量。
本实施例得到的主题挖掘结果格式如表3所示。
表3
Topic | Count | Name | |
0 | -1 | 238 | -1_training_work_evaluation_task |
1 | 0 | 69 | 0_documents_text_paper_sentences |
2 | 1 | 64 | 1_summary_Summarization_Sum_survey |
3 | 2 | 52 | 2_encoder_embedding_vector_module |
4 | 3 | 44 | 3_learning_learn_rate_scores |
其中,Topic-1表示最大的类簇,包含所有词,不使用。Name表示为每个类簇中生成的代表主题词集,主题词之间使用连接。
获得每个簇内的主题词后,对主题词分数最高的主题使用SciBert词嵌入编码,得到文档主题集合特征表示HT。
S34、使用步骤S31中的Big bird结合前续步骤中获得的HD、HG、HT对给定的目标摘要进行解码;
构建2层transformer解码器结构,其中masked self attention层通过使用上三角权重矩阵将目标序列每个词后的词掩藏,使得每个词只能注意到其前面的序列,使得该词只能由前面的词预测。通过该层获取目标摘要的上下文表示HS。cross attention层用HS分别与HD、HG、HT计算attention。公式如下:
cd=CrossAtten(QS(HS),Kd(HD),Vd(HD))
cg=CrossAtten(QS(HS),Kg(HG),Vg(HG))
ct=CrossAtten(QS(HS),Kt(HT),Vt(HT))
其中,cd、cg、ct分别表示HS与HD、HG、HT计算的交叉注意力表示。QS表示HS的查询权重矩阵,Kd、Kg、Kt分别表示HD、HG、HT的键值权重矩阵,Vd、Vg、Vt分别表示HD、HG、HT的值权重矩阵。注意力计算方式同步骤S31。使用层级融合机制对注意力进行融合,获取融合后的信息表示。公式如下:
c′=z1*cg+(1-z1)*ct
c″=z2*c′+(1-z2)*cd
z1=sigmoid(Wz,1[cg:ct]+bz,1)
z2=sigmoid(Wz,2[c′:cd]+bz,2)
其中,Wz,1、Wz,2、bz,1、bz,2表示线性层参数,z1、z2表示融合权值,c′表示融合cg和ct的结果,c″表示融合cg、ct、cd的结果。获得的c″经过线性层和softmax函数输出解码的摘要序列。
S35、训练摘要生成模型;
摘要生成模型由步骤S31中的文档编码子组件,步骤S32中的图编码子组件,步骤S33中的主题建模子组件和步骤S34中的摘要解码子组件共同构成。
模型输入为文档集合及其知识图,输出为生成的摘要。使用多文档科学文献摘要数据集对模型进行训练。设训练数据中参考摘要为生成的摘要为{S1,S2,...,Sδ}。
其中,表示参考摘要的句子,S表示生成摘要的句子,δ表示训练数据中摘要中的句子个数。则对应的交叉熵损失函数L表达式如下:
使用Multi-Xscience作为训练数据集对模型进行训练。
在本实施例中,词嵌入维度设置为512,feed forward长度设置为1024。使用6个Encoder上下连接,多头注意力头数设置为8,graph transformer层数设置为3,summarydecoder个数设置为6。训练使用adam优化器根据损失对模型参数进行优化,学习率设置为0.01,dropout的概率为0.2。训练数据的batch_size设置为8,epoch为50。解码阶段使用束搜索策略,设置束宽为5,最大生成长度为100,惩罚项系数设置为0.3。
在本实施例中,所述步骤S4具体如下:
S41、输入参考文献摘要集合;
对每篇参考文献由步骤S1中方法抽取实体,根据实体抽取结果将原文献重新划分为多个簇,对其中每个簇ci,对其中每个簇ci,将其中每篇文献按照发表时间进行排序并编号。
每篇文献中的“we”,“our”词汇替换为文献第一作者的first name。对文档进行分词,对每个文档句子进行拼接,句子与句子之间增加<S>符号表示句分隔符,再转换为token集合。每个文档开头增加引用序号[num]表示文档分隔符,拼接为一个连续文档,num为具体的序号数字。使用SciBert预训练语言模型对文档进行词嵌入。
S42、使用步骤S2中方法构建每个簇ci的知识图;
S43、文档嵌入输入步骤S35中预训练的摘要生成模型,生成相关工作文本rwi;
S44、每个rwi为一个主题相关的段落,对每个簇ci执行步骤S42-S43,生成RW={rw1,rw2,...,rw|RW|},即拼接产生的段落集合,得到最终的相关工作报告。
本实施例中,生成的工作报告如表4所示。
表4
综上,本发明的方法所述摘要生成模型理论上可适用于通用科研领域,但多种实验结果表明,文本生成模型在特定领域上的表现较通用领域更好,因此可以针对特定领域数据预训练模型,并在该领域的科研工作上应用,模型采用基于Big bird的稀疏注意力结构对文本进行编解码,对长序列的处理和生成更有效,模型使用文档知识图建模及主题建模结果对文档编码表示进行增强,可以提高模型对源文档信息知识和主题感知能力,从而提高摘要生成的质量。本发明的方法解决了科学论文中相关工作总结的自动生成问题,可以从多篇文档中生成摘要文本,在满足大型可查询文献数据库的条件下,用户只需输入关键词便可从查询的文献结果集中获取摘要型的相关工作总结,使科研人员可以快速聚焦感兴趣的内容,避免浪费不必要的调研时间,提高科研工作的效率。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (5)
1.一种主题知识图联合增强的多文档科学摘要生成方法,具体步骤如下:
S1、文献信息抽取及子集划分;
S2、文献知识图构建;
S3、构建多文档摘要生成模型;
S4、文献相关工作生成。
2.根据权利要求1所述的一种主题知识图联合增强的多文档科学摘要生成方法,其特征在于,所述步骤S1具体如下:
S11、文献内容的选择;
对于给定关键词的文献集合,使用文献的摘要部分作为输入数据,生成目标内容;
对于已有的N篇参考文献集合D={d1,d2,...,dN},每篇文献包含M个句子,di={si,1,si,2,...,si,M},每个句子包含K个单词,si,j={wi,j,1,wi,j,2,...,wi,j,K},则生成的摘要S={w1,w2,...,wN′};
其中,dN表示第N篇文献,si,M表示文献di的第M个句子,wi,j,K表示句子si,j的第K个单词,N′表示摘要中的单词数,wN′表示S中的第N′个单词;
S12、对参考文献进行实体抽取和关系抽取;
对于文献di,使用DYGIE++信息抽取工具中的科学领域信息抽取模型抽取di中的科学实体集合Ei={ei,1,ei,2,...,ei,n}及关系集合Ri={(ei,1,ei,2,ri,1),(ei,3,ei,4,ri,2),...,(ei,n-1,ei,n,ri,m)};
其中,e表示实体,r表示关系,ei,n表示文献di的第n个实体,ri,m表示第m个关系;实体有六种类型,即任务、方法、度量、材料、一般实体和其他科学术语;关系包括:比较、用于、特征为、归属于、用于评估、..的部分、同时存在;实体及关系的定义来源于训练的数据集SciERC;
S13、实体词嵌入;
通过对实体词汇向量化,获取实体的特征表示;使用SciBert预训练语言模型对实体进行词嵌入,得到词嵌入结果集合;
S14、划分文献子集;
根据文献实体抽取结果,将给定文献划分为一个或多个文献子集;
对文献集中任意两篇文献di,dj在S13获取的实体词嵌入结果Vi,Vj,计算Vi中每个词嵌入μ与Vj中每个词嵌入ε的余弦相似度cos_simi,j=cos(μ,ε),且该余弦相似度作为两个实体间的实体相似度;设置相似度阈值τ,如果cos_simi,j>τ,则将di,dj归在同一子集中,形成一个簇,并将μ和ε组成一个实体对;对文献集中每篇文献进行计算,获得划分后的簇集合C及实体集合entity_set。
3.根据权利要求1所述的一种主题知识图联合增强的多文档科学摘要生成方法,其特征在于,所述步骤S2具体如下:
S21、文献知识图定义;
对步骤S14中生成的文献簇集合C中的一个簇ci,其中包含l篇文献ci={di,1,di,2,...,di,l};对每个文献di,j,在步骤S12中获取实体抽取结果Ei,j和关系抽取结果Ri,j,利用此信息构建ci的知识图gi=(Vg,Eg);
其中,Vg表示图的顶点集,由抽取的实体组成,Eg表示图的边集,由抽取的关系组成;两个实体顶点之间存在关系,则形成一条边;
S22、多文档知识图整合;
根据步骤S21中的定义对ci的知识图进行构建,由于ci中的文献都具有一定的关联性,则利用关联信息构建多文档整合图;
使用步骤S14中得到的实体集合entity_set,如果其中两个实体满足关联条件,则将它们进行合并;合并方法为将连接到其中一个实体的边都连接到另一个实体上,并删除该实体;遍历ci所有的实体,最终形成多文档整合的知识图;
S23、可学习图的构建;
将知识图转换为Levi图,Levi图将原图转换为二部图,把关系和实体都作为顶点,实体和关系为两个相互连通部分,则实体特征和关系特征都可以学习更新;对于步骤S22中形成图任意关系(sei,oej,ri,j),构建顶点sei,,oej,ri,j,边为sei→ri,j,ri,j→oej;
边的特征初始化为连接的两个顶点在步骤S13中获取的词嵌入加权平均的结果;随机初始化实体类型节点和边类型节点,并将类型节点连接到对应类型的所有节点上;最终生成的图信息表示结果包括图顶点邻接矩阵、顶点特征矩阵、实体顶点特征索引列表。
4.根据权利要求1所述的一种主题知识图联合增强的多文档科学摘要生成方法,其特征在于,所述步骤S3具体如下:
S3 1、构建基于transformer的编码器对文档进行编码;
设输入序列为词嵌入集合X={x1,x2,...,x|X|},|X|表示X的大小;由于数据来源为多篇文档,输入序列为长序列,则采用基于稀疏注意力Big bird的编码器结构获取文档的上下文注意力表示Atten(X)i,具体公式如下:
其中,xi∈X,H表示多头数量,Qh,Kh,Vh表示注意力计算的权重矩阵,(*)T表示矩阵的转置,N(i)表示xi对应计算的tokens;
输出注意力后输入残差连接和归一化层以及feed forward层网络;公式如下:
X=LayerNorm(Atten(X)i)
X=LayerNorm(X+FeedForward(X))
编码器最后使用线性层和softmax输出文档上下文表示HD;
S32、构建graph transformer图神经网络的编码器对文档知识图进行编码;
图神经网络利用图邻接矩阵捕获顶点之间的交互信息,学习知识图顶点的隐藏特征表示;graph transformer图神经网络的编码器利用transformer的自注意力计算机制计算每个特征与其邻居的注意力分数,并更新节点特征具体公式为:
其中,vi表示图的顶点,vj表示vi的邻居顶点,Ni表示vi所有的邻居节点,ng表示注意力头,H′表示头数,表示注意力计算的权重矩阵。除注意力计算外,其他网络层结构同基本transformer结构相同;使用两层graph transformer,学习到长距离顶点特征,并获得顶点的隐藏表示HG;
S33、使用主题模型Bertopic抽取文档中的潜在主题;
首先提取文档词嵌入,使用UMAP降维算法对词嵌入进行降维;降维后的词嵌入向量使用HDBSCAN算法对文档进行层次和密度聚类;每个簇中使用c-TF-IDF提取主题词;c-TF-IDF为TF-IDF变体,将簇内的多篇文档连接为一个单文档,对单文档中词计算TF-IDF值Wt,c,公式如下:
其中,tft,c表示文档中词项t在文档类别c中的频率,tft表示词项t在所有文档中的频率,A表示簇内平均词数量;获得每个簇内的主题词后,对主题词分数最高的主题使用SciBert词嵌入编码,得到文档主题集合特征表示HT;
S34、使用步骤S31中的Big bird结合前续步骤中获得的HD、HG、HT对给定的目标摘要进行解码;
构建2层transformer结构,其中masked selfattention层获取目标摘要的上下文表示HS;cross attention层用HS分别与HD、HG、HT计算attention,公式如下:
cd=CrossAtten(QS(HS),Kd(HD),Vd(HD))
cg=CrossAtten(QS(HS),Kg(HG),Vg(HG))
ct=CrossAtten(QS(HS),Kt(HT),Vt(HT))
其中,cd、cg、ct分别表示HS与HD、HG、HT计算的交叉注意力表示;QS表示HS的查询权重矩阵,Kd、Kg、Kt分别表示HD、HG、HT的键值权重矩阵,Vd、Vg、Vt分别表示HD、HG、HT的值权重矩阵;注意力计算方式同步骤S31;
使用层级融合机制对注意力进行融合,获取融合后的信息表示;公式如下:
c′=z1*cg+(1-z1)*ct
c″=z2*c′+(1-z2)*cd
z1=sigmoid(Wz,1[cg:ct]+bz,1)
z2=sigmoid(Wz,2[c′:cd]+bz,2)
其中,Wz,1、Wz,2、bz,1、bz,2表示线性层参数,z1、z2表示融合权值,c′表示融合cg和ct的结果,c″表示融合cg、ct、cd的结果;获得的c″经过线性层和softmax函数输出解码的摘要序列;
S35、训练摘要生成模型;
摘要生成模型由步骤S31中的文档编码子组件,步骤S32中的图编码子组件,步骤S33中的主题建模子组件和步骤S34中的摘要解码子组件共同构成;
模型输入为文档集合及其知识图,输出为生成的摘要;使用多文档科学文献摘要数据集对模型进行训练;设训练数据中参考摘要为生成的摘要为{S1,S2,...,Sδ};
其中,表示参考摘要的句子,S表示生成摘要的句子,δ表示训练数据中摘要中的句子个数;则对应的交叉熵损失函数L表达式如下:
使用Multi-Xscience作为训练数据集对模型进行训练。
5.根据权利要求1所述的一种主题知识图联合增强的多文档科学摘要生成方法,其特征在于,所述步骤S4具体如下:
S41、输入参考文献摘要集合;
对每篇参考文献由步骤S1中方法抽取实体,根据实体抽取结果将原文献重新划分为多个簇,对其中每个簇ci,对其中每个簇ci,将其中每篇文献按照发表时间进行排序并编号;
每篇文献中的“we”,“our”词汇替换为文献第一作者的first name;对文档进行分词,对每个文档句子进行拼接,句子与句子之间增加<S>符号表示句分隔符,再转换为token集合;每个文档开头增加引用序号[num]表示文档分隔符,拼接为一个连续文档,num为具体的序号数字;使用SciBert预训练语言模型对文档进行词嵌入;
S42、使用步骤S2中方法构建每个簇ci的知识图;
S43、文档嵌入输入步骤S35中预训练的摘要生成模型,生成相关工作文本rwi;
S44、每个rwi为一个主题相关的段落,对每个簇ci执行步骤S42-S43,生成RW={rw1,rw2,...,rw|RW|},即拼接产生的段落集合,得到最终的相关工作报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310792393.3A CN116821371A (zh) | 2023-06-30 | 2023-06-30 | 一种主题知识图联合增强的多文档科学摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310792393.3A CN116821371A (zh) | 2023-06-30 | 2023-06-30 | 一种主题知识图联合增强的多文档科学摘要生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116821371A true CN116821371A (zh) | 2023-09-29 |
Family
ID=88140636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310792393.3A Pending CN116821371A (zh) | 2023-06-30 | 2023-06-30 | 一种主题知识图联合增强的多文档科学摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821371A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236435A (zh) * | 2023-11-08 | 2023-12-15 | 中国标准化研究院 | 一种设计理性知识网络的知识融合方法、装置及存储介质 |
-
2023
- 2023-06-30 CN CN202310792393.3A patent/CN116821371A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236435A (zh) * | 2023-11-08 | 2023-12-15 | 中国标准化研究院 | 一种设计理性知识网络的知识融合方法、装置及存储介质 |
CN117236435B (zh) * | 2023-11-08 | 2024-01-30 | 中国标准化研究院 | 一种设计理性知识网络的知识融合方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108519890B (zh) | 一种基于自注意力机制的鲁棒性代码摘要生成方法 | |
Awasthi et al. | Natural language processing (NLP) based text summarization-a survey | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN110134782B (zh) | 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法 | |
CN112417097B (zh) | 一种用于舆情解析的多模态数据特征提取与关联方法 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN117151220B (zh) | 一种基于实体链接与关系抽取的行业知识库系统及方法 | |
CN114969304B (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN109977220B (zh) | 一种基于关键句和关键字的反向生成摘要的方法 | |
Ma et al. | Co-attention memory network for multimodal microblog's hashtag recommendation | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN111814477B (zh) | 一种基于争议焦点实体的争议焦点发现方法、装置及终端 | |
CN114218389A (zh) | 一种基于图神经网络的化工制备领域长文本分类方法 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN114742071B (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
CN116821371A (zh) | 一种主题知识图联合增强的多文档科学摘要生成方法 | |
Roudsari et al. | Comparison and analysis of embedding methods for patent documents | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN111382333B (zh) | 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法 | |
CN116562286A (zh) | 一种基于混合图注意力的智能配置事件抽取方法 | |
CN116414988A (zh) | 基于依赖关系增强的图卷积方面级情感分类方法及系统 | |
CN113792144B (zh) | 基于半监督的图卷积神经网络的文本分类方法 | |
CN113111288A (zh) | 一种融合非结构化和结构化信息的Web服务分类方法 | |
CN115017260A (zh) | 一种基于子主题建模的关键词生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |