CN117150002A - 一种基于动态知识引导的摘要生成方法、系统及装置 - Google Patents
一种基于动态知识引导的摘要生成方法、系统及装置 Download PDFInfo
- Publication number
- CN117150002A CN117150002A CN202311440437.2A CN202311440437A CN117150002A CN 117150002 A CN117150002 A CN 117150002A CN 202311440437 A CN202311440437 A CN 202311440437A CN 117150002 A CN117150002 A CN 117150002A
- Authority
- CN
- China
- Prior art keywords
- abstract
- vector representation
- character
- text
- triples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000007246 mechanism Effects 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 136
- 238000012549 training Methods 0.000 claims description 31
- 230000009466 transformation Effects 0.000 claims description 26
- 238000010276 construction Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 13
- 230000006870 function Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于动态知识引导的摘要生成方法、系统及装置,构建了知识库,利用动态知识选择机制实现了对摘要生成过程的动态指导。采用开放信息抽取技术从纯文本中抽取出结构化三元组,并构成知识库,解决摘要生成中纯文本信息不足的问题。将知识库作为指导信息,指导摘要生成过程,解决摘要生成任务中生成内容和原始文档内容不一致问题。在指导生成过程中,对知识库采用一个动态选择机制,只选择和当前摘要内容最相关的知识,过滤掉那些和当前摘要内容不相关的知识,保持摘要生成过程中重点信息随生成内容逐渐变化,最终生成动态知识引导的摘要。
Description
技术领域
本发明属于摘要生成技术领域,尤其涉及一种基于动态知识引导的摘要生成方法、系统及装置。
背景技术
摘要生成是自然语言处理中的一项重要任务,该任务是为较长的源文本生成一个最代表其主要信息的简短的摘要。摘要任务使得用户只需要阅读摘要就能获取原始文本的主要内容,让用户在短时间内可以阅读大量的文本,从而节省用户的时间,提高工作效率。文本摘要技术在新闻领域、医疗领域、科技文献领域都发挥了重要的作用,使得该技术在各种领域都得到了广泛应用。
近年来,摘要生成方法主要分为基于抽取式的方法和基于生成式的方法。基于抽取式的方法专注于从原始文本中抽取出完整的句子,然后构成最终的摘要。随着深度学习技术的发展以及计算机硬件技术的成熟,越来越多的人开始关注基于生成式的摘要生成方法。相比抽取式的摘要生成技术,基于生成式的摘要生成方法和人类生成摘要过程更加相似,但是挑战性更大。此外,和抽取式生成方法这种简单从原始文本中抽取句子的方式不同,基于生成式摘要生成技术可以生成原始文档中不存在的新颖的单词,更加达到总结的目的。
现在基于生成式的摘要生成技术的主要问题是生成的摘要比较空洞,具体表现为摘要中没有包含原始文档的具体信息,只是泛泛的总结。现有的解决方法未能很好的解决这个问题。一方面基于知识指导的方法,指导知识粒度大小不合适。现有的基于句子级指导信息粒度太大,包含较多的冗余信息。基于实体级别的指导知识粒度太小,无法包含原始文档中完整的指导信息。
另一方面是基于知识指导的摘要生成方法中,指导知识在整个摘要生成过程中没有随着摘要生成过程变化,而是保持静态的状态。随着摘要生成内容的不断进行,摘要关注的内容是不断变化的,导致这种基于指导知识静态不变的方法无法真正达到指导生成的目的,反而会引入较多的噪声。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于动态知识引导的摘要生成方法、系统及装置。本发明主要通过以下两种途径解决摘要生成问题:一方面,本发明构建了三元组级别的知识库,不同于以前的基于句子级别的知识会带来冗余的指导信息,也不同于基于以前的基于实体级别的知识会导致知识不足的情况,本发明的三元组知识库不包含冗余信息,且包含实体之间的关系,构建了最佳粒度的知识库;另一方面,本发明采用了动态选择机制实现引导知识的动态变化。在充分利用已经生成的摘要内容的情况下,从知识库中动态选择最相关的知识作为引导,从而实现了真正的知识引导的摘要生成过程,生成和原文更加相关的摘要。
本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于动态知识引导的摘要生成方法,该方法包括以下步骤:
步骤一,收集原始文本数据,标注原始文本数据对应的摘要,构建训练集;
步骤二,利用开放信息抽取技术,对训练集文本进行信息抽取获取结构化三元组,按长度和数量进行筛选后,构建结构化三元组知识库;
步骤三,基于序列编码器文本模型构建原始文本的字符级向量表示,进而构建结构化三元组的向量表示,基于当前文本摘要的字符向量表示,根据动态选择机制,通过摘要生成的解码器文本模型得到下一个即将生成的文本摘要的字符向量表示;所述动态选择机制根据摘要对三元组的相关度分数筛选三元组,将筛选出来的三元组向量表示和当前的摘要字符的向量表示融合,得到最新的摘要字符的向量表示,生成最终的摘要字符;
步骤四,基于生成的摘要字符和标注的摘要中的字符,计算序列编码器文本模型和摘要生成的解码器文本模型的损失,更新序列编码器文本模型和摘要生成的解码器文本模型的权重,基于更新后的序列编码器文本模型和解码器文本模型生成摘要。
进一步地,所述步骤二中,按照长度和数量对三元组进行过滤,具体为:
过滤掉实体单词数大于10的三元组,并且每个原始文本只保留最多50个三元组。
进一步地,步骤三具体包括以下步骤;
(3.1)训练原始文本的序列编码器文本模型,获取原始文本的字符级向量表示;
(3.2)对知识库中结构化三元组,基于获取的原始文本的字符级向量表示,构建结构化三元组的向量表示;
(3.3)训练摘要生成的解码器文本模型;基于获取的原始文本的字符级向量表示、结构化三元组的向量表示以及当前已经生成的文本摘要的字符向量表示,根据动态选择机制,得到下一个即将生成的文本摘要的字符向量表示。
进一步地,动态选择机制具体如下:
(3.3.1)对当前摘要中字符的向量表示和知识库中结构化三元组的向量表示进行多轮点积,得到摘要对知识库中三元组的相关度分数;
(3.3.2)根据相关度分数,保留相关度分数最大的指定数量的三元组,其余三元组相关度分数置为零,得到更新后的摘要中的字符对知识库中三元组的相关度分数;
(3.3.3)根据更新后的相关度分数,融合当前的摘要字符的向量表示和相关度分数最大指定数量三元组向量表示,得到最新的摘要字符的向量表示,生成最终的摘要字符。
进一步地,构建三元组的向量表示,具体为:
输入的原始文本为,其中/>是原始文本的字符长度,/>表示原始文本中第/>个字符;输入的三元组知识/>, 其中/>是三元组的数量,表示第/>个三元组,每个三元组的形式为/>,其中/>表示头实体,/>表示尾实体,/>表示头实体和尾实体之间的关系;每个原始文本对应的摘要为:/>,其中表示摘要字符长度,并且/>,/>表示摘要中第/>个字符;
使用序列编码模型得到原始文本的字符级向量表示:对于输入文本,通过序列编码模型获取每个字符的语义向量表示,/>表示第/>个字符的向量表示;
根据得到的输入文本的语义向量表示,构建第/>个三元组/>的向量表示,具体为:
对于头实体,/>、/>分别表示头实体在原始文本中的开始位置和结束位置,根据这些位置信息从输入文本的向量表示中提取出头实体的向量表示/>;以此类推,对于关系/>,尾实体/>,用同样的提取方式分别得到对应的关系向量表示/>和尾实体的向量表示/>,再用线性变换得到第/>个三元组/>的向量表示/>为:
其中,和/>分别表示线性变换的权重和偏置;得到每个三元组的表示之后,拼接知识库中所有的三元组表示,得到所有的三元组表示/>为:
为了使得知识库中三元组之间能够彼此感知,采用了多头注意力机制去感知彼此的信息,得到上下文感知的三元组向量表示:
其中表示多头注意力。
进一步地,构建动态选择机制,具体为:
给定一个上下文感知的三元组知识库的向量表示,一个即将生成的摘要中的字符的初始向量表示/>,迭代计算其在知识库中所有三元组的相关度分数/>,然后更新即将生成的摘要中的字符的向量表示/>为/>:
其中,表示第/>次迭代,/>表示第/>次迭代的变换权重,/>表示在第/>次迭代时对/>次迭代的摘要中字符的向量表示/>的线性变换权重,/>表示第/>次迭代中对三元组的向量表示/>进行的线性变换权重,/>表示第/>次迭代的偏置;上述过程总共迭代/>次,经过/>次迭代之后,得到/>作为最终摘要中的字符对知识库中所有三元组的相关度分数,然后把最大的/>个分数保留,其他分数置为零,然后得到更新后的摘要中的字符的向量表示为/>:
最终,得到和当前摘要中字符最相关的三元组去更新当前的字符的向量表示,同时过滤掉不相关的三元组,实现动态知识指导。
进一步地,训练摘要生成的解码器文本模型,具体为:
定义表示解码器中对于第/>个字符在第/>层的向量表示,/>表示第/>层解码器对于第/>个字符的向量表示,编码器对于输入文档的字符级的语义向量表示,以及动态选择机制更新后的摘要中字符的表示/>;
首选通过多头注意力获取第/>个字符的上下文感知的字符向量表示/>:
然后结合动态选择机制之后的摘要中字符的向量表示和上下文感知的字符向量表示/>进行信息融合之后通过线性变换权重/>实现线性变换,得到新的第/>个字符的向量表示为/>:
之后再进行层归一化和多层线性变换输入到下一层的解码器中:
其中,表示层归一化,/>表示多层线性变换;
最后,对第个字符的向量表示进行非线性变换,得到该字符在目标词典中的权
重:
其中,分别表示非线性变换权重和偏置。
第二方面,本发明还提供了一种基于动态知识引导的摘要生成系统,该系统包括摘要标注模块、三元组构建模块、动态知识引导模块和摘要生成模块;
所述摘要标注模块用于收集原始文本数据,标注原始文本数据对应的摘要,构建训练集;
所述三元组构建模块用于利用开放信息抽取技术,对训练集文本进行信息抽取获取结构化三元组,按长度和数量进行筛选后,构建结构化三元组知识库:
所述动态知识引导模块用于基于序列编码器文本模型构建原始文本的字符级向量表示,进而构建结构化三元组的向量表示,基于当前的文本摘要的字符向量表示,根据动态选择机制,通过摘要生成的解码器文本模型得到下一个即将生成的文本摘要的字符向量表示;所述动态选择机制根据摘要对三元组的相关度分数筛选三元组,将筛选出来的三元组向量表示和当前的摘要字符的向量表示融合,得到最新的摘要字符的向量表示,生成最终的摘要字符;
所述摘要生成模块用于基于生成的摘要字符和标注的摘要中的字符,计算序列编码器文本模型和摘要生成的解码器文本模型的损失,更新序列编码器文本模型和摘要生成的解码器文本模型的权重,基于更新后的序列编码器文本模型和解码器文本模型生成摘要。
第三方面,本发明还提供了一种基于动态知识引导的摘要生成装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种基于动态知识引导的摘要生成方法。
第四方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的一种基于动态知识引导的摘要生成方法。
本发明的有益效果如下:
1.构建了结构化三元组知识库,利用开放信息抽取方法,实现了对纯文本信息的结构化三元组信息的抽取,弥补纯文本信息中结构化知识不足的问题;
2.将知识库作为指导信息,指导摘要生成过程,解决摘要生成任务中生成内容和原始文档内容不一致问题。
3.在指导生成过程中,对知识库采用一个动态选择机制,只选择和当前摘要内容最相关的知识,过滤掉那些和当前摘要内容不相关的知识,保持摘要生成过程中重点信息随生成内容逐渐变化,最终生成动态知识引导的摘要。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明实施提供一种基于动态知识引导的摘要生成方法的流程图。
图2为本发明提供的基于动态选择机制选择知识的流程示意图。
图3为本发明的摘要生成示意图。
图4为本发明提供的一种基于动态知识引导的摘要生成装置的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明中,知识三元组指:(头实体,关系,尾实体)。其中头实体和尾实体可以表示人、地点、组织,关系表示头实体和尾实体之间的具体关系。例如对于源文档中的描述“一位飞行员捕捉到了令人紧张的时刻”,那么对应的三元组为:(一位飞行员,捕捉到,令人紧张的时刻),三元组通常用于具有语义含义的最小单元,用于描述实体关系的最佳单元。
如图1和图3所示,本发明提供一种动态知识引导的摘要生成方法,步骤如下:
步骤一,获取新闻领域的原始文本数据并划分数据集,在每一个训练批次前,根据新闻领域的原始文本数据集总数量,将包含大规模标注样本数据集划分为训练集、验证集和测试集。
步骤二,构建结构化三元组知识库,具体包括以下三个步骤:
2.1 选择新闻领域的原始文本和摘要标注语料作为训练集,按照一定的规则对训练集进行过滤,得到最后的训练集;
a)训练集中原始文本的单词个数大于100,且小于1000;
b)训练集中原始文本对应的摘要的单词个数大于20,且小于200;
2.2 采用开放信息抽取技术,对训练集中的所有原始文档进行信息三元组抽取,得到训练集中每个原始文档对应的结构化三元组;
a)首先本地配置开放信息抽取工具。
b)把训练集原始文档输入到开放信息抽取工具中,得到处理好的结果文件。
c)从结果文件中解析三元组知识,三元组形如<实体、关系、实体>,其中关系代表两个实体之间的具体关系,实体包括人物、组织、时间、地点,关系表示实体之间存在的关系。
2.3 根据长度和数量对得到的三元组进行过滤,得到最终的三元组,构建结构化三元组知识库;
a)解析后的三元组如果实体单词数目大于10的过滤掉;
b)解析后的三元组如果关系单词数目大于10的过滤掉;
c)解析后的三元组对应每一个文档的数量大于50的过滤掉;
d)过滤后的三元组构建结构化三元组知识库,其中保存三元组、三元组对应的文档编号,保存在内存结构中;
步骤三,动态知识引导的摘要生成,包括以下步骤;
3.1 训练原始文档的序列编码器文本模型,获取文本的字符级语义向量表示;
3.2 对知识库中结构化三元组,基于获取的字符级语义向量表示,利用三元组编码器构建结构化三元组的向量表示;
3.3 训练摘要生成的解码器文本模型;基于获取的原文本的字符级向量表示、结构化三元组的向量表示、以及当前已经生成的摘要的向量表示(例如:飞行员的右后轮短暂接触),根据动态选择机制融合,得到下一个即将生成的摘要字符的向量表示;
3.4 基于生成的摘要字符和标注数据中的字符,计算序列编码器文本模型和摘要生成的解码器文本模型的损失,更新编码器文本模型和摘要生成的解码器文本模型的权重;
具体实施细节如下:
输入的新闻原始文档为,其中/>是原始文本的字符长度,/>表示原始文本中第/>个字符;输入的三元组知识/>, 其中/>是三元组的数量,/>表示第/>个三元组,每个三元组的形式为/>,其中/>表示头实体,/>表示尾实体,/>表示头实体和尾实体之间的关系。每个源文档对应的摘要为:/>,其中/>表示摘要字符长度,并且/>,/>表示摘要中第/>个字符。
使用序列编码模型得到文本的字符级向量表示:对于输入文本,通过序列编码模型获取每个字符的语义向量表示,/>表示第/>个字符的向量表示;
对于第个知识三元组/>,其中头实体/>,关系/>,尾实体/>,分别得到对应的特征表示为:
其中,、/>分别表示头实体在原始文本中的开始位置和结束位置,/>分别表示关系在原始文本中的开始位置和结束位置,/>分别表示尾实体在原始文本中的开始位置和结束位置。
然后拼接头实体的特征表示,关系的特征表示/>,尾实体的特征表示/>,再用一个线性变换得到第/>个知识三元组/>的向量表示为:
其中,和/>分别表示线性变换的权重和偏置;得到每个三元组的向量表示之后,拼接知识库中所有的三元组表示,得到所有的三元组表示为:
为了使得知识库中三元组之间能够彼此感知,采用了多头注意力机制去感知彼此的信息,得到上下文感知的三元组知识库向量表示:
其中表示多头注意力。
步骤三中的动态选择机制,包括以下步骤:
1)对当前摘要的向量表示和知识库中结构化三元组的表示进行多轮点积,得到知识库中三元组对当前摘要的相关度分数。
2)根据相关度分数,保留相关度分数最大的指定数量的三元组,其余三元组分数置为零,得到更新后的摘要对知识库中三元组的相关度分数。
3)根据更新后的相关度分数,融合当前的摘要和相关度分数最大的指定数量三元组,得到更新后的摘要字符的权重。
具体实施细节如下:
给定一个上下文感知的三元组知识库的向量表示,一个即将生成的摘要中的字符的初始向量表示/>,迭代计算其在知识库中所有三元组的相关度分数/>,然后更新即将生成的摘要中的字符的向量表示/>为/>:
其中,表示第/>次迭代,/>表示第/>次迭代的变换权重,/>表示在第/>次迭代时对/>次迭代的摘要中字符的向量表示/>的线性变换权重,/>表示第/>次迭代中对三元组的向量表示/>进行的线性变换权重,/>表示第/>次迭代的偏置;上述过程总共迭代/>次,如图2所示,将50个三元组经过第一轮迭代后,筛选出分数最高的40个三元组,经过第二轮迭代之后,筛选出分数最高的30个三元组,经过/>次迭代之后,得到/>作为最终摘要中的字符对知识库中所有三元组的相关度分数,然后把分数最高的5个三元组分数保留,其他三元组分数置为零,得到更新后的摘要中的字符的表示为:
最终,得到和当前摘要中字符最相关的知识三元组去更新当前的字符的向量表示,同时过滤掉不相关的知识三元组,达到动态指导的目的。
定义表示解码器中对于第/>个字符在第/>层的向量表示,/>表示第/>层解码器对于第/>个字符的向量表示,编码器对于输入文档的字符级的语义向量表示,以及动态选择机制更新后的摘要中字符的表示/>。
首先可以通过多头注意力获取第个字符的上下文感知的向量表示/>:
然后结合动态选择机制之后的摘要中字符的向量和上下文感知的字符的向量进行信息融合之后进行线性变换,得到新的摘要中字符的表示为:
之后再进行层归一化和多层线性变换输入到下一层的解码器中:
其中,表示层归一化,/>表示多层线性变换;最后一层的关于摘要中第i个字符的表示进行非线性变换,得到该字符在目标词典中的权重:
其中,,分别表示非线性变换权重和偏置。
首先采用最大相似度目标函数最小化模型得到摘要中的单词在词典中的权重和标注数据中同样位置的单词在词典中的权重,最大相似度目标函数/>为:
其中,D为训练数据集,为训练参数。除此之外,本发明使用一个额外的目标函数去衡量动态选择机制中选择的三元组和摘要中三元组之间的相似度,额外基于KL散度的目标函数/>为:
其中,和/>表示选择的三元组和摘要中三元组概率分布的概率质量函数,结合最大相似度函数和KL散度目标函数,构建最终的目标函数/>为:
其中,为比例系数,最后根据目标函数更新文本序列编码器,基于动态选择机制的解码器,实现动态知识引导的摘要生成模型。
在神经网络模型训练完成后,本发明可以将该模型运用到两个最常用的开放的摘要生成数据集CNN/DailyMail和XSum上测试其效果,得到的测试结果如表1和表2所示。和纯文本预训练方法、句子指导方法、实体指导方法、图知识的指导方法,本方法表现最优,更加有效。
表1 预测结果评估(CNN/DailyMail)
表2 预测结果评估(XSum)
与前述一种基于动态知识引导的摘要生成方法的实施例相对应,本发明还提供了一种基于动态知识引导的摘要生成系统,该系统包括摘要标注模块、三元组构建模块、动态知识引导模块和摘要生成模块;
所述摘要标注模块用于收集原始文本数据,标注原始文本数据对应的摘要,构建训练集;
所述三元组构建模块用于利用开放信息抽取技术,对训练集文本中进行信息抽取获取结构化三元组,按长度和数量进行筛后,构建结构化三元组知识库:
所述动态知识引导模块用于基于序列编码器文本模型构建原始文本的字符级向量表示,进而构建结构化三元组的向量表示,基于当前的文本摘要的字符向量表示,根据动态选择机制,通过摘要生成的解码器文本模型得到下一个即将生成的文本摘要的字符向量表示;所述动态选择机制根据摘要对三元组的相关度分数筛选三元组,将筛选出来的三元组向量表示和当前的摘要字符的向量表示融合,得到最新的摘要字符的向量表示,生成最终的摘要字符;
所述摘要生成模块用于基于生成的摘要字符和标注的摘要中的字符,计算序列编码器文本模型和摘要生成的解码器文本模型的损失,更新序列编码器文本模型和摘要生成的解码器文本模型的权重,基于更新后的序列编码器文本模型和解码器文本模型生成摘要。
与前述一种基于动态知识引导的摘要生成方法的实施例相对应,本发明还提供了一种基于动态知识引导的摘要生成装置的实施例。
参见图4,本发明实施例提供的一种基于动态知识引导的摘要生成装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的一种基于动态知识引导的摘要生成方法。
本发明提供的一种基于动态知识引导的摘要生成装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明提供的一种基于动态知识引导的摘要生成装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于动态知识引导的摘要生成方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种基于动态知识引导的摘要生成方法,其特征在于,该方法包括以下步骤:
步骤一,收集原始文本数据,标注原始文本数据对应的摘要,构建训练集;
步骤二,利用开放信息抽取技术,对训练集文本进行信息抽取获取结构化三元组,按长度和数量进行筛选后,构建结构化三元组知识库;
步骤三,基于序列编码器文本模型构建原始文本的字符级向量表示,进而构建结构化三元组的向量表示,基于当前文本摘要的字符向量表示,根据动态选择机制,通过摘要生成的解码器文本模型得到下一个即将生成的文本摘要的字符向量表示;所述动态选择机制根据摘要对三元组的相关度分数筛选三元组,将筛选出来的三元组向量表示和当前的摘要字符的向量表示融合,得到最新的摘要字符的向量表示,生成最终的摘要字符;
步骤四,基于生成的摘要字符和标注的摘要中的字符,计算序列编码器文本模型和摘要生成的解码器文本模型的损失,更新序列编码器文本模型和摘要生成的解码器文本模型的权重,基于更新后的序列编码器文本模型和解码器文本模型生成摘要。
2.根据权利要求1中所述的一种基于动态知识引导的摘要生成方法,其特征在于,所述步骤二中,按照长度和数量对三元组进行过滤,具体为:
过滤掉实体单词数大于10的三元组,并且每个原始文本只保留最多50个三元组。
3.根据权利要求1中所述的一种基于动态知识引导的摘要生成方法,其特征在于,步骤三具体包括以下步骤;
(3.1)训练原始文本的序列编码器文本模型,获取原始文本的字符级向量表示;
(3.2)对知识库中结构化三元组,基于获取的原始文本的字符级向量表示,构建结构化三元组的向量表示;
(3.3)训练摘要生成的解码器文本模型;基于获取的原始文本的字符级向量表示、结构化三元组的向量表示以及当前已经生成的文本摘要的字符向量表示,根据动态选择机制,得到下一个即将生成的文本摘要的字符向量表示。
4.根据权利要求3中所述的一种基于动态知识引导的摘要生成方法,其特征在于,动态选择机制具体如下:
(3.3.1)对当前摘要中字符的向量表示和知识库中结构化三元组的向量表示进行多轮点积,得到摘要对知识库中三元组的相关度分数;
(3.3.2)根据相关度分数,保留相关度分数最大的指定数量的三元组,其余三元组相关度分数置为零,得到更新后的摘要中的字符对知识库中三元组的相关度分数;
(3.3.3)根据更新后的相关度分数,融合当前的摘要字符的向量表示和相关度分数最大指定数量三元组向量表示,得到最新的摘要字符的向量表示,生成最终的摘要字符。
5.根据权利要求3中所述的一种基于动态知识引导的摘要生成方法,其特征在于,构建三元组的向量表示,具体为:
输入的原始文本为,其中/>是原始文本的字符长度,/>表示原始文本中第/>个字符;输入的三元组知识/>, 其中/>是三元组的数量,/>表示第/>个三元组,每个三元组的形式为/>,其中/>表示头实体,/>表示尾实体,/>表示头实体和尾实体之间的关系;每个原始文本对应的摘要为:/>,其中/>表示摘要字符长度,并且/>,/>表示摘要中第/>个字符;
使用序列编码模型得到原始文本的字符级向量表示:对于输入文本,通过序列编码模型获取每个字符的语义向量表示,/>表示第/>个字符的向量表示;
根据得到的输入文本的语义向量表示,构建第/>个三元组/>的向量表示,具体为:
对于头实体,/>、/>分别表示头实体在原始文本中的开始位置和结束位置,根据这些位置信息从输入文本的向量表示中提取出头实体的向量表示/>;以此类推,对于关系/>,尾实体/>,用同样的提取方式分别得到对应的关系向量表示/>和尾实体的向量表示/>,再用线性变换得到第/>个三元组/>的向量表示/>为:
;
其中,和/>分别表示线性变换的权重和偏置;得到每个三元组的表示之后,拼接知识库中所有的三元组表示,得到所有的三元组表示/>为:
;
为了使得知识库中三元组之间能够彼此感知,采用了多头注意力机制去感知彼此的信息,得到上下文感知的三元组向量表示:
;
其中表示多头注意力。
6.根据权利要求4中所述的一种基于动态知识引导的摘要生成方法,其特征在于,构建动态选择机制,具体为:
给定一个上下文感知的三元组知识库的向量表示,一个即将生成的摘要中的字符的初始向量表示/>,迭代计算其在知识库中所有三元组的相关度分数/>,然后更新即将生成的摘要中的字符的向量表示/>为/>:
;
;
;
其中,表示第/>次迭代,/>表示第/>次迭代的变换权重,/>表示在第/>次迭代时对次迭代的摘要中字符的向量表示/>的线性变换权重,/>表示第/>次迭代中对三元组的向量表示/>进行的线性变换权重,/>表示第/>次迭代的偏置;上述过程总共迭代/>次,经过/>次迭代之后,得到/>作为最终摘要中的字符对知识库中所有三元组的相关度分数,然后把最大的/>个分数保留,其他分数置为零,然后得到更新后的摘要中的字符的向量表示为/>:
;
最终,得到和当前摘要中字符最相关的三元组去更新当前的字符的向量表示,同时过滤掉不相关的三元组,实现动态知识指导。
7.根据权利要求3中所述的一种基于动态知识引导的摘要生成方法,其特征在于,训练摘要生成的解码器文本模型,具体为:
定义表示解码器中对于第/>个字符在第/>层的向量表示,/>表示第/>层解码器对于第/>个字符的向量表示,编码器对于输入文档的字符级的语义向量表示,以及动态选择机制更新后的摘要中字符的表示/>;
首选通过多头注意力获取第/>个字符的上下文感知的字符向量表示/>:
;
然后结合动态选择机制之后的摘要中字符的向量表示和上下文感知的字符向量表示/>进行信息融合之后通过线性变换权重/>实现线性变换,得到新的第/>个字符的向量表示为/>:
;
之后再进行层归一化和多层线性变换输入到下一层的解码器中:
;
;
其中,表示层归一化,/>表示多层线性变换;
最后,对第i个字符的向量表示进行非线性变换,得到该字符在目标词典中的权重:
;
其中,分别表示非线性变换权重和偏置。
8.一种实现权利要求1-7中任一项所述方法的基于动态知识引导的摘要生成系统,其特征在于,该系统包括摘要标注模块、三元组构建模块、动态知识引导模块和摘要生成模块;
所述摘要标注模块用于收集原始文本数据,标注原始文本数据对应的摘要,构建训练集;
所述三元组构建模块用于利用开放信息抽取技术,对训练集文本进行信息抽取获取结构化三元组,按长度和数量进行筛选后,构建结构化三元组知识库:
所述动态知识引导模块用于基于序列编码器文本模型构建原始文本的字符级向量表示,进而构建结构化三元组的向量表示,基于当前的文本摘要的字符向量表示,根据动态选择机制,通过摘要生成的解码器文本模型得到下一个即将生成的文本摘要的字符向量表示;所述动态选择机制根据摘要对三元组的相关度分数筛选三元组,将筛选出来的三元组向量表示和当前的摘要字符的向量表示融合,得到最新的摘要字符的向量表示,生成最终的摘要字符;
所述摘要生成模块用于基于生成的摘要字符和标注的摘要中的字符,计算序列编码器文本模型和摘要生成的解码器文本模型的损失,更新序列编码器文本模型和摘要生成的解码器文本模型的权重,基于更新后的序列编码器文本模型和解码器文本模型生成摘要。
9.一种基于动态知识引导的摘要生成装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-7中任一项所述的一种基于动态知识引导的摘要生成方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-7中任一项所述的一种基于动态知识引导的摘要生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311440437.2A CN117150002B (zh) | 2023-11-01 | 2023-11-01 | 一种基于动态知识引导的摘要生成方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311440437.2A CN117150002B (zh) | 2023-11-01 | 2023-11-01 | 一种基于动态知识引导的摘要生成方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117150002A true CN117150002A (zh) | 2023-12-01 |
CN117150002B CN117150002B (zh) | 2024-02-02 |
Family
ID=88897277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311440437.2A Active CN117150002B (zh) | 2023-11-01 | 2023-11-01 | 一种基于动态知识引导的摘要生成方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150002B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060826A1 (en) * | 2015-08-26 | 2017-03-02 | Subrata Das | Automatic Sentence And Clause Level Topic Extraction And Text Summarization |
CN112765345A (zh) * | 2021-01-22 | 2021-05-07 | 重庆邮电大学 | 一种融合预训练模型的文本摘要自动生成方法及系统 |
WO2021107760A1 (en) * | 2019-11-29 | 2021-06-03 | Mimos Berhad | System and method for dynamically processing data into a knowledge base repository |
CN113139050A (zh) * | 2021-05-10 | 2021-07-20 | 桂林电子科技大学 | 基于命名实体识别附加标签和先验知识的文本摘要生成方法 |
CN116150337A (zh) * | 2023-01-30 | 2023-05-23 | 南京航空航天大学 | 一种基于数控机床故障知识图谱的智能问答方法及其系统 |
CN116860960A (zh) * | 2023-08-10 | 2023-10-10 | 山西大学 | 一种基于知识图和bart语义的多文档摘要方法 |
-
2023
- 2023-11-01 CN CN202311440437.2A patent/CN117150002B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060826A1 (en) * | 2015-08-26 | 2017-03-02 | Subrata Das | Automatic Sentence And Clause Level Topic Extraction And Text Summarization |
WO2021107760A1 (en) * | 2019-11-29 | 2021-06-03 | Mimos Berhad | System and method for dynamically processing data into a knowledge base repository |
CN112765345A (zh) * | 2021-01-22 | 2021-05-07 | 重庆邮电大学 | 一种融合预训练模型的文本摘要自动生成方法及系统 |
CN113139050A (zh) * | 2021-05-10 | 2021-07-20 | 桂林电子科技大学 | 基于命名实体识别附加标签和先验知识的文本摘要生成方法 |
CN116150337A (zh) * | 2023-01-30 | 2023-05-23 | 南京航空航天大学 | 一种基于数控机床故障知识图谱的智能问答方法及其系统 |
CN116860960A (zh) * | 2023-08-10 | 2023-10-10 | 山西大学 | 一种基于知识图和bart语义的多文档摘要方法 |
Non-Patent Citations (2)
Title |
---|
AYHAM ALOMARI等: "Deep reinforcement and transfer learning for abstractive text summarization: A review", 《COMPUTER SPEECH & LANGUAGE》, pages 1 - 43 * |
郑梦悦;秦春秀;马续补;: "面向中文科技文献非结构化摘要的知识元表示与抽取研究――基于知识元本体理论", 情报理论与实践, no. 02, pages 161 - 167 * |
Also Published As
Publication number | Publication date |
---|---|
CN117150002B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Banks et al. | A review of best practice recommendations for text analysis in R (and a user-friendly app) | |
Grishman | Information extraction | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
Ayana et al. | Recent advances on neural headline generation | |
Dawdy-Hesterberg et al. | Learnability and generalisation of Arabic broken plural nouns | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
Baur et al. | eXplainable cooperative machine learning with NOVA | |
US11934781B2 (en) | Systems and methods for controllable text summarization | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
CN114417794A (zh) | 量表问题生成模型的训练方法、装置和计算机设备 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
CN116561298A (zh) | 基于人工智能的标题生成方法、装置、设备及存储介质 | |
CN117150002B (zh) | 一种基于动态知识引导的摘要生成方法、系统及装置 | |
Rai et al. | Is the corpus ready for machine translation? A case study with Python to pseudo-code corpus | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Kolappan | Computer Assisted Short Answer Grading with Rubrics using Active Learning | |
RU2796208C1 (ru) | Способ и система генерации текста для цифрового ассистента | |
US20240086768A1 (en) | Learning device, inference device, non-transitory computer-readable medium, learning method, and inference method | |
Erd | Data augmentation for named entity recognition in the German legal domain | |
RU2817524C1 (ru) | Способ и система генерации текста | |
Rojas-Simon et al. | Fundamentals of the ETS | |
Zaruba | Using natural language processing to measure the consistency of opinions expressed by politicians | |
Ephrem | Development of Bidirectional Amharic-Tigrinya Machine Translation using Recurrent Neural Networks | |
Menta et al. | Reaching quality and efficiency with a parameter-efficient controllable sentence simplification approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |