CN108763211B - 融合蕴含知识的自动文摘方法及系统 - Google Patents
融合蕴含知识的自动文摘方法及系统 Download PDFInfo
- Publication number
- CN108763211B CN108763211B CN201810499465.4A CN201810499465A CN108763211B CN 108763211 B CN108763211 B CN 108763211B CN 201810499465 A CN201810499465 A CN 201810499465A CN 108763211 B CN108763211 B CN 108763211B
- Authority
- CN
- China
- Prior art keywords
- model
- coding
- abstract
- network
- news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 60
- 230000006870 function Effects 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 55
- 238000007476 Maximum Likelihood Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 description 8
- 230000004927 fusion Effects 0.000 description 7
- 238000013145 classification model Methods 0.000 description 4
- 235000021152 breakfast Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理领域,提出一种融合蕴含知识的自动文摘方法,旨在解决在对新闻文本的自动文摘中,因生成摘要包含错误的信息,不能正确反映新闻的主体信息,使得自动文摘的效果差的问题。该方法包括:获取待进行文摘提取的新闻文本;利用预先构建的文摘提取模型提取上述新闻文本的文摘;其中,文摘提取模型是基于编码器‑解码器的端到端模型;文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;语料库包括预设的新闻语料和该新闻语料对应的蕴含语料。本发明可以快速、准确的从新闻文本中自动文摘出新闻文本的摘要。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种融合蕴含知识的自动文摘方法及系统。
背景技术
随着网络技术的飞速发展以及人类新思想的不断引进,移动互联网时代随之而来,这使得各式各样的新闻报道随处可见。有效地分析新闻信息,获取其中的重要信息,并以摘要的形式呈现给用户,可以帮助用户快速、便利地理解该新闻的主体信息。
对于新闻文本的自动文摘,当前大多使用编码器-解码器的端到端模型予以进行自动文摘。该模型通过编码器将输入文本编码为隐层表示序列,然后通过解码器输出摘要。
然而,新闻文本的自动文摘的效果往往不能令人满意,存在很多错误,例如,生成的摘要有时包含错误的信息,这样的摘要并不能正确的反映输入新闻的主体信息,使得自动文摘的效果较差,准确率低。
发明内容
为了解决现有技术中的上述问题,即为了解决在新闻文本的文本摘要提取中,自动文摘的效果较差,准确率低的技术问题。为此目的,本发明提供了一种融合蕴含知识的自动文摘方法,以解决上述问题。
第一方面,本发明提供的融合蕴含知识的自动文摘方法包括如下步骤:获取待进行文摘提取的新闻文本;利用预先构建的文摘提取模型提取所述新闻文本的文摘;其中,所述文摘提取模型是基于编码器-解码器的端到端模型;所述文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者所述文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;所述语料库包括预设的新闻语料和所述新闻语料对应的蕴含语料;所述蕴含语料的语料文本包括条件文本和假设文本,所述条件文本取决于所述新闻语料的文本内容,所述假设文本是所述文本内容所蕴含的语义文本。
进一步地,本发明提供的一个优选技术方案中,所述编码模型包括第一编/解码网络和第一蕴含分类网络;在“利用预先构建的文摘提取模型提取所述新闻文本的文摘根据训练用样本数据,通过多任务学习,将包含蕴含关系特征的蕴含知识融入到所述编码器”的步骤之前,所述方法包括:
利用所述第一编/解码网络中的编码网络分别对所述新闻语料和蕴含语料的语料文本进行编码;利用所述第一编/解码网络中的解码网络,并根据所述新闻语料的编码,生成所述新闻语料的摘要;利用所述第一蕴含分类网络,并根据所述蕴含语料的编码,对所述蕴含语料进行分类;按照下式所示的损失函数L1,并根据所述第一编/解码网络得到的编码信息、摘要和所述蕴含语料的分类,对所述编码模型进行模型训练:
L1=α×L-log+β×Lcross
其中,所述L-log是所述编/解码网络对应的损失函数,所述Lcross是第一蕴含分类网络对应的损失函数,所述α和β是预设的权重系数。
进一步地,本发明提供的一个优选技术方案中,所述L-log是负对数极大似然损失函数,所述Lcross是交叉熵损失函数;所述第一蕴含分类网络是多层感知机网络;“根据所述编/解码网络得到的编码信息和摘要,对所述编码模型进行模型训练”的步骤包括:
根据所述编/解码网络得到的编码信息和摘要,并利用随机梯度下降算法,对所述编码模型进行模型训练。
进一步地,本发明提供的一个优选技术方案中,所述解码模型包括第二编/解码网络和第二蕴含分类网络;在“利用预先构建的文摘提取模型提取所述新闻文本的文摘”的步骤之前,所述方法包括:
利用所述第二编/解码网络中的编码网络对所述新闻语料进行编码;利用所述第二编/解码网络中的解码网络,并根据所述新闻语料的编码,生成所述新闻语料的摘要;利用所述第二蕴含分类网络,计算所生成的摘要与所述新闻语料之间的蕴含得分;基于预设的模型损失函数,并根据所述新闻语料的编码、摘要和蕴含得分,对所述解码模型进行模型训练;其中,所述模型损失函数中待优化模型参数的权重值取决于所述蕴含得分。
进一步地,本发明提供的一个优选技术方案中,所述模型损失函数是负对数极大似然损失函数,所述第二蕴含分类网络是多层感知机网络;“根据所述新闻语料的编码、摘要和蕴含得分,对所述解码模型进行模型训练”的步骤包括:
根据所述新闻语料的编码、摘要和蕴含得分,并利用随机梯度下降算法,对所述解码模型进行模型训练。
第二方面,本发明还提供了一种融合蕴含知识的自动文摘系统,所述系统包括:新闻文本获取单元,配置用于获取待进行文摘提取的新闻文本;文摘提取单元,配置用于利用预先构建的文摘提取模型提取所述新闻文本的文摘;其中,其中,所述文摘提取模型是基于编码器-解码器的端到端模型;所述文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者所述文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;所述语料库包括预设的新闻语料和所述新闻语料对应的蕴含语料;所述蕴含语料的语料文本包括条件文本和假设文本,所述条件文本取决于所述新闻语料的文本内容,所述假设文本是所述文本内容所蕴含的语义文本。
进一步地,本发明提供的一个优选技术方案中,所述编码模型包括第一编/解码网络和第一蕴含分类网络;所述文摘提取单元包括编码模型构建单元,所述编码模型构建单元包括:
第一编码单元,配置用于利用所述第一编/解码网络中的编码网络分别对所述新闻语料和蕴含语料的语料文本进行编码;第一解码单元,配置用于利用所述第一编/解码网络中的解码网络,并根据所述新闻语料的编码,生成所述新闻语料的摘要;第一分类单元,配置用于利用所述第一蕴含分类网络,并根据所述蕴含语料的编码,对所述蕴含语料进行分类;第一训练单元,配置用于按照下式所示的损失函数L1,并根据所述第一编/解码网络得到的编码信息、摘要和所述蕴含语料的分类,对所述编码模型进行模型训练:
L1=α×L-log+β×Lcross
其中,所述L-log是所述编/解码网络对应的损失函数,所述Lcross是第一蕴含分类网络对应的损失函数,所述α和β是预设的权重系数。
进一步地,本发明提供的一个优选技术方案中,所述L-log是负对数极大似然损失函数,所述Lcross是交叉熵损失函数;所述第一蕴含分类网络是多层感知机网络;所述第一训练单元,进一步配置用于根据所述编/解码网络得到的编码信息和摘要,并利用随机梯度下降算法,对所述编码模型进行模型训练。
进一步地,本发明提供的一个优选技术方案中,所述解码模型包括第二编/解码网络和第二蕴含分类网络;所述文本提取单元包括解码模型构建单元,所述解码模型构建单元包括:
第二编码单元,配置用于利用所述第二编/解码网络中的编码网络对所述新闻语料进行编码;第二解码单元,配置用于利用所述第二编/解码网络中的解码网络,并根据所述新闻语料的编码,生成所述新闻语料的摘要;第二分类单元,配置用于利用所述第二蕴含分类网络,计算所生成的摘要与所述新闻语料之间的蕴含得分;第二训练单元,配置用于基于预设的模型损失函数,并根据所述新闻语料的编码、摘要和蕴含得分,对所述解码模型进行模型训练;其中,所述模型损失函数中待优化模型参数的权重值取决于所述蕴含得分。
进一步地,本发明提供的一个优选技术方案中,所述模型损失函数是负对数极大似然损失函数,所述第二蕴含分类网络是多层感知机网络;所述第二训练单元,进一步配置用于根据所述新闻语料的编码、摘要和蕴含得分,并利用随机梯度下降算法,对所述解码模型进行模型训练。
与最接近的现有技术相比,上述技术方案至少具有如下有益效果:
本发明提供的融合蕴含知识的自动文摘方法,通过预先构建的文摘提取模型提取新闻文本的摘要,其中,文摘提取模型为基于编码器-解码器的端到端模型,在编码器和解码器中预先融入了蕴含知识,保证了所提取出摘要含有重要和正确的信息,提高生成的摘要的正确性。
附图说明
图1是本发明实施例中一种融合蕴含知识的自动文摘方法的主要步骤示意图;
图2是本发明另一实施例中一种融合蕴含知识的自动文摘系统的主要结构示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
参阅附图1,附图1示例性示出了本发明实施例中一种融合蕴含知识的自动文摘方法的主要步骤。如图1所示,本实施例中融合蕴含知识的自动文摘方法,包括以下步骤:
步骤1,获取待进行文摘提取的新闻文本。
在本实施例中,应用于融合蕴含知识的自动文摘方法的电子设备(如服务器)或应用平台,获得待进行文摘提取的新闻文本。这里,进行文摘提取为从新闻文本中提取合适数量的代表句构成摘要。
步骤2,利用预先构建的文摘提取模型提取上述新闻文本的文摘。
在本实施例中,上述应用于本发明的融合蕴含知识的自动文摘方法的服务器或应用平台,利用预先构建的文摘提取模型提取上述新闻文本的文摘。这里,上述文摘提取模型为基于深度神经网络构建的模型。例如可以是Siamese网络模型,利用Siamese网络模型提取出新闻文本的摘要。上述文摘提取模型的输入为新闻文本,输出为所输入的新闻文本的内容摘要。
在本实施例中,上述文摘提取模型是基于编码器-解码器的端到端模型。上述文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者上述文摘提取模型中的解码器是基于上述语料库,并利用增强学习算法构建的解码模型。上述语料库包括预设的新闻语料和上述新闻语料对应的蕴含语料;上述蕴含语料的语料文本包括条件文本和假设文本,上述条件文本取决于上述新闻语料的文本内容,上述假设文本是上述文本内容所蕴含的语义文本。
这里,对上述文摘提取模型的训练可以为将上述蕴含知识融入到上述编码器和/或解码器中。具体为,上述训练样本数据可以为蕴含语料库,上述蕴含语料库包括新闻语料,和与该新闻语料对应的蕴含语料。蕴含语料的语料文本包括条件文本和假设文本。
蕴含是一种语言现象,比如:句子A蕴含句子B,指的是B表达的语义是A的一部分,即,由句子A能推理出句子B。例如,句子A为“我今天早饭吃了仨包子”,句子B“我今天吃早饭了”;其中,句子A中包含句子B所表达的含义。上述句子A为条件文本,句子B为假设文本。使用训练样本数据中的条件文本和假设文本,根据多任务学习对练文摘提取模型进行训练,得到优化后的文摘提取模型。上述优化后的文摘提取模型中融入了蕴含知识,即上述文摘提取模型的编码器和解码器中融入了蕴含知识的编码规则和分类规则的特征。
进一步地,本实施例提供的一个优选技术方案中,上述编码模型包括第一编/解码网络和第一蕴含分类网络;在“利用预先构建的文摘提取模型提取上述新闻文本的文摘”的步骤之前,上述方法包括:
利用上述第一编/解码网络中的编码网络分别对上述新闻语料和蕴含语料的语料文本进行编码;利用上述第一编/解码网络中的解码网络,并根据上述新闻语料的编码,生成上述新闻语料的摘要;利用上述第一蕴含分类网络,并根据上述蕴含语料的编码,对上述蕴含语料进行分类;按照下式所示的损失函数L1,并根据上述第一编/解码网络得到的编码信息、摘要和上述蕴含语料的分类,对上述编码模型进行模型训练;
L1=α×L-log+β×Lcross (1)
其中,上述L-log是上述编/解码网络对应的损失函数,上述Lcross是第一蕴含分类网络对应的损失函数,上述α和β是预设的权重系数。
这里,第一编码网络可以为编码GRU(Gated Recurrent Unit,门控循环网络),第一解码网络可以为解码GRU;上述编码GRU和上述解码GRU为上述第一编/解码网络的主要组成部分。构建上述解码模型可以为将上述蕴含知识融入到上述编码器,具体可以是:
利用编码GRU对输入的新闻文本进行编码;并使用同一个编码GRU该新闻文本所对应的蕴含语料的语料文本中的条件文本和假设文本进行编码。利用解码GRU生成上述新闻文本的摘要;计算生成摘要的极大似然损失。对上述条件文本和假设文本的编码进行分类;计算蕴含分类的交叉熵损。利用上述生成摘要的极大似然损失和蕴含分类的交叉熵损下训练上述编码器的编码模型。这里,分类的原因是“教会”编码器蕴含。编码器是提取新闻文本和语料文本的特征;如果分类正确,那说明编码器提取到了蕴含相关的特征,即学到了蕴含知识。
具体地,上述L-log是负对数极大似然损失函数,上述Lcross是交叉熵损失函数;上述第一蕴含分类网络可以是多层感知机网络;“根据上述编/解码网络得到的编码信息和摘要,对上述编码模型进行模型训练”的步骤包括:根据上述编/解码网络得到的编码信息和摘要,并利用随机梯度下降算法,对上述编码模型进行模型训练。
这里,利用解码GRU生成目标摘要,计算生成摘要的负对数(log)极大似然损失;分类模型中利用一个多层感知机,对条件文本和假设文本的编码进行分类,计算蕴含分类的交叉熵损失;对生成摘要的负log极大似然损失和蕴含分类的交叉熵损失加权求和,得到总的模型损失,通过随机梯度下降算法,优化模型参数。
上述将蕴含知识融入到上述编码器或解码器为:编码器对句子A和句子B编码,提取句子A和B的特征;分类器根据句子A和B的特征对其分类,如果A和B是蕴含关系,那么分类器就输出1;如果不是,则输出0。通过多任务学习实现,使得编码器能够学习到“蕴含”这一语言现象。分类模型基于句子A和B编码生成的向量,通过后接的softmax层,判断出类别(蕴含和非蕴含)概率。
进一步地,本实施例提供的一个优选技术方案中,上述解码模型包括第二编/解码网络和第二蕴含分类网络;在“利用预先构建的文摘提取模型提取上述新闻文本的文摘”的步骤之前,上述方法包括:利用上述第二编/解码网络中的编码网络对上述新闻语料进行编码;利用上述第二编/解码网络中的解码网络,并根据上述新闻语料的编码,生成上述新闻语料的摘要;利用上述第二蕴含分类网络,计算所生成的摘要与上述新闻语料之间的蕴含得分;基于预设的模型损失函数,并根据上述新闻语料的编码、摘要和蕴含得分,对上述解码模型进行模型训练;其中,上述模型损失函数中待优化模型参数的权重值取决于上述蕴含得分。
在上述技术方案中,将蕴含知识融入到解码器,具体可以是通过奖励增强的极大似然训练构建上述解码器的解码模型。
这里,上述蕴含语料为在进行蕴含关系识别中所使用的训练样本数据;上述蕴含语料包括具有蕴涵关系的语料文本,语料文本包括条件文本和假设文本。
这里,第二编码网络可以为编码GRU,第二解码网络可以为解码GRU;上述编码GRU和上述解码GRU为上述第二编/解码网络的主要组成部分。构建上述解码模型可以是:利用编码GRU对输入的新闻文本进行编码,根据上述新闻文本的编码,利用解码GRU生成新闻文本的目标摘要。计算生成上述新闻文本的目标摘要蕴含得分,根据文摘提取模型的损失函数训练上述解码模型。
进一步地,本实施例提供的一个优选技术方案中,上述模型损失函数是负对数极大似然损失函数,上述第二蕴含分类网络是多层感知机网络;“根据上述新闻语料的编码、摘要和蕴含得分,对上述解码模型进行模型训练”的步骤包括:根据上述新闻语料的编码、摘要和蕴含得分,并利用随机梯度下降算法,对上述解码模型进行模型训练。
这里,上述利用多层感知机对上述条件文本和假设文本的编码进行分类,其目的为对解码器进行蕴含知识的教学;编码器的编码模型提取上述条件文本和假设文本的特征,解码器的解码模型生成目标摘要,上述多层感知机的分类如果正确,则表明上述编码器提取到了蕴含相关的特征,即学到了蕴含知识,上述解码器生成了正确目标摘要,学到了蕴含知识。
这里,上述蕴含得分描述上述新闻文本与上述目标摘要之间的蕴含关系的程度。例如,上述目标摘要完全表达了上述新闻文本的内容,可以确定为上述蕴涵得分为最高,可以将蕴含得分记为1;如果上述目标摘要与上述新闻文本没有蕴含关系,则上述蕴含得分为最低,可以将上述蕴涵得分记为0分。上述分类模型的损失可以是利用上述蕴含得分对生成摘要的负对数极大似然损失加权得到;具体地,可以对生成上述新闻文本的目标摘要的负对数极大似然损失,以及生成上述目标摘要与上述新闻文本之间的蕴含得分,进行加权求和;确定加权求和的结果为上述分类模型的损失。通过上述随机梯度下降算法,优化上述解码模型文摘提取模型参数。
参阅附图2,附图2示例性示出了本发明另一实施例中一种融合蕴含知识的自动文摘系统的主要结构。如图1所示,本实施例中融合蕴含知识的自动文摘系统包括新闻文本获取单元和文摘提取单元。其中,新闻文本获取单元,配置用于获取待进行文摘提取的新闻文本;文摘提取单元,配置用于利用预先构建的文摘提取模型提取所述新闻文本的文摘。
其中,所述文摘提取模型是基于编码器-解码器的端到端模型;所述文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且/或者所述文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;所述语料库包括预设的新闻语料和所述新闻语料对应的蕴含语料;所述蕴含语料的语料文本包括条件文本和假设文本,所述条件文本取决于所述新闻语料的文本内容,所述假设文本是所述文本内容所蕴含的语义文本。
进一步地,本实施例提供的一个优选技术方案中,所述编码模型包括第一编/解码网络和第一蕴含分类网络;所述文摘提取单元包括编码模型构建单元,所述编码模型构建单元包括:
第一编码单元,配置用于利用所述第一编/解码网络中的编码网络分别对所述新闻语料和蕴含语料的语料文本进行编码;第一解码单元,配置用于利用所述第一编/解码网络中的解码网络,并根据所述新闻语料的编码,生成所述新闻语料的摘要;第一分类单元,配置用于利用所述第一蕴含分类网络,并根据所述蕴含语料的编码,对所述蕴含语料进行分类;第一训练单元,配置用于按照下式所示的损失函数L1,并根据所述第一编/解码网络得到的编码信息、摘要和所述蕴含语料的分类,对所述编码模型进行模型训练:
L1=α×L-log+β×Lcross (2)
其中,所述L-log是所述编/解码网络对应的损失函数,所述Lcross是第一蕴含分类网络对应的损失函数,所述α和β是预设的权重系数
进一步地,本实施例提供的一个优选技术方案中,所述L-log是负对数极大似然损失函数,所述Lcross是交叉熵损失函数;所述第一蕴含分类网络是多层感知机网络;所述第一训练单元,进一步配置用于根据所述编/解码网络得到的编码信息和摘要,并利用随机梯度下降算法,对所述编码模型进行模型训练。
进一步地,本实施例提供的一个优选技术方案中,所述解码模型包括第二编/解码网络和第二蕴含分类网络;所述文本提取单元包括解码模型构建单元,所述解码模型构建单元包括:
第二编码单元,配置用于利用所述第二编/解码网络中的编码网络对所述新闻语料进行编码;第二解码单元,配置用于利用所述第二编/解码网络中的解码网络,并根据所述新闻语料的编码,生成所述新闻语料的摘要;第二分类单元,配置用于利用所述第二蕴含分类网络,计算所生成的摘要与所述新闻语料之间的蕴含得分;第二训练单元,配置用于基于预设的模型损失函数,并根据所述新闻语料的编码、摘要和蕴含得分,对所述解码模型进行模型训练;其中,所述模型损失函数中待优化模型参数的权重值取决于所述蕴含得分。
进一步地,本实施例提供的一个优选技术方案中,所述模型损失函数是负对数极大似然损失函数,所述第二蕴含分类网络是多层感知机网络;所述第二训练单元,进一步配置用于根据所述新闻语料的编码、摘要和蕴含得分,并利用随机梯度下降算法,对所述解码模型进行模型训练。
本发明上述实施例所提供的方法通过预先构建的文摘提取模型对新闻文本进行文摘提取,实现了从新闻等文本内容中提取摘要。本发明中,文摘提取模型通过蕴含语料对文摘提取模型的编码器和解码器进行蕴含知识的融入,然后利用训练数据对融入了蕴含知识的文摘提取模型进行训练优化。本发明提高生成的摘要的正确性,解决摘要生成中包含错误信息、摘要不能正确的反映输入新闻的主体信息,所导致的自动文摘的效果较差的问题。
下表示出了应用本发明的融入蕴含知识的文摘提取与为进行蕴含知识融入的文摘提取对比的实验数据。利用Gigaword自动新闻文摘数据集验中的训练数据对如下四个模型进行了测试,其实验数据如下表所示:
模型 | R1 | R2 | RL |
Seq2seq | 43.76 | 22.28 | 41.14 |
seq2seq+MTL | 45.11 | 23.87 | 42.50 |
seq2seq+RAML | 44.71 | 23.74 | 42.11 |
seq2seq+MTL+RAML | 45.36 | 24.12 | 42.74 |
上述Gigaword自动新闻文摘数据集包含约三百八十万个训练样例,八千个验证样例,二千个测试样例。每个样例有输入新闻文本和输出摘要构成。利用ROUGE得分的F1值对生成摘要进行评价。
在上述列表中,seq2seq为编码器-解码器的模型;seq2seq+MTL为编码器-解码器的模型基础上,用融入蕴含知识的编码器替换原编码器;seq2seq+RAML为在编码器-解码器的模型基础上,用融入蕴含知识的解码器替换原解码器;seq2seq+MTL+RAML为在编码器-解码器的型基础上,用融入蕴含知识的编码器替换原编码器,用融入蕴含知识的解码器替换原解码器。
不同的文摘提取模型对生成摘要的ROUGE得分,其中,R1为ROUGE-1的F1得分;R2为ROUGE-2的F1得分;RL为ROUGE-L的F1得分。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (8)
1.一种融合蕴含知识的自动文摘方法,其特征在于,所述方法包括:
获取待进行文摘提取的新闻文本;
利用预先构建的文摘提取模型提取所述新闻文本的文摘;
其中,所述文摘提取模型是基于编码器-解码器的端到端模型;
所述文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且所述文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;
所述语料库包括预设的新闻语料和所述新闻语料对应的蕴含语料;所述蕴含语料的语料文本包括条件文本和假设文本,所述条件文本取决于所述新闻语料的文本内容,所述假设文本是所述文本内容所蕴含的语义文本;所述编码模型包括第一编/解码网络和第一蕴含分类网络;在“利用预先构建的文摘提取模型提取所述新闻文本的文摘”的步骤之前,所述方法包括:
利用所述第一编/解码网络中的编码网络分别对所述新闻语料和蕴含语料的语料文本进行编码;
利用所述第一编/解码网络中的解码网络,并根据所述新闻语料的编码,生成所述新闻语料的摘要;
利用所述第一蕴含分类网络,并根据所述蕴含语料的编码,对所述蕴含语料进行分类;
按照下式所示的损失函数L1,并根据所述第一编/解码网络得到的编码信息、摘要和所述蕴含语料的分类,对所述编码模型进行模型训练:
L1=α×L-log+β×Lcross
其中,所述L-log是所述第一编/解码网络对应的损失函数,所述Lcross是第一蕴含分类网络对应的损失函数,所述α和β是预设的权重系数。
2.根据权利要求1所述的融合蕴含知识的自动文摘方法,其特征在于,所述L-log是所述第一编/解码网络对应的损失函数,所述Lcross是第一蕴含分类网络对应的损失函数;所述第一蕴含分类网络是多层感知机网络;
“根据所述第一编/解码网络得到的编码信息、摘要和所述蕴含语料的分类,对所述编码模型进行模型训练”的步骤包括:
根据所述编/解码网络得到的编码信息和摘要,并利用随机梯度下降算法,对所述编码模型进行模型训练。
3.根据权利要求1所述的融合蕴含知识的自动文摘方法,其特征在于,所述解码模型包括第二编/解码网络和第二蕴含分类网络;在“利用预先构建的文摘提取模型提取所述新闻文本的文摘”的步骤之前,所述方法包括:
利用所述第二编/解码网络中的编码网络对所述新闻语料进行编码;
利用所述第二编/解码网络中的解码网络,并根据所述新闻语料的编码,生成所述新闻语料的摘要;
利用所述第二蕴含分类网络,计算所生成的摘要与所述新闻语料之间的蕴含得分;
基于预设的模型损失函数,并根据所述新闻语料的编码、摘要和蕴含得分,对所述解码模型进行模型训练;
其中,所述模型损失函数中待优化模型参数的权重值取决于所述蕴含得分。
4.根据权利要求3所述的融合蕴含知识的自动文摘方法,其特征在于,所述模型损失函数是负对数极大似然损失函数,所述第二蕴含分类网络是多层感知机网络;
“根据所述新闻语料的编码、摘要和蕴含得分,对所述解码模型进行模型训练”的步骤包括:
根据所述新闻语料的编码、摘要和蕴含得分,并利用随机梯度下降算法,对所述解码模型进行模型训练。
5.一种融合蕴含知识的自动文摘系统,其特征在于,所述系统包括:
新闻文本获取单元,配置用于获取待进行文摘提取的新闻文本;
文摘提取单元,配置用于利用预先构建的文摘提取模型提取所述新闻文本的文摘;
其中,其中,所述文摘提取模型是基于编码器-解码器的端到端模型;
所述文摘提取模型中的编码器是基于预设的语料库,并利用多任务学习算法构建的编码模型,并且所述文摘提取模型中的解码器是基于所述语料库,并利用增强学习算法构建的解码模型;
所述语料库包括预设的新闻语料和所述新闻语料对应的蕴含语料;所述蕴含语料的语料文本包括条件文本和假设文本,所述条件文本取决于所述新闻语料的文本内容,所述假设文本是所述文本内容所蕴含的语义文本;所述编码模型包括第一编/解码网络和第一蕴含分类网络;所述文摘提取单元包括编码模型构建单元,所述编码模型构建单元包括:
第一编码单元,配置用于利用所述第一编/解码网络中的编码网络分别对所述新闻语料和蕴含语料的语料文本进行编码;
第一解码单元,配置用于利用所述第一编/解码网络中的解码网络,并根据所述新闻语料的编码,生成所述新闻语料的摘要;
第一分类单元,配置用于利用所述第一蕴含分类网络,并根据所述蕴含语料的编码,对所述蕴含语料进行分类;
第一训练单元,配置用于按照下式所示的损失函数L1,并根据所述第一编/解码网络得到的编码信息、摘要和所述蕴含语料的分类,对所述编码模型进行模型训练:
L1=α×L-log+β×Lcross
其中,所述L-log是所述第一编/解码网络对应的损失函数,所述Lcross是第一蕴含分类网络对应的损失函数,所述α和β是预设的权重系数。
6.根据权利要求5所述的融合蕴含知识的自动文摘系统,其特征在于,所述L-log是所述第一编/解码网络对应的损失函数,所述Lcross是第一蕴含分类网络对应的损失函数;所述第一蕴含分类网络是多层感知机网络;
所述第一训练单元,进一步配置用于根据所述编/解码网络得到的编码信息和摘要,并利用随机梯度下降算法,对所述编码模型进行模型训练。
7.根据权利要求5所述的融合蕴含知识的自动文摘系统,其特征在于,所述解码模型包括第二编/解码网络和第二蕴含分类网络;所述文摘提取单元包括解码模型构建单元,所述解码模型构建单元包括:
第二编码单元,配置用于利用所述第二编/解码网络中的编码网络对所述新闻语料进行编码;
第二解码单元,配置用于利用所述第二编/解码网络中的解码网络,并根据所述新闻语料的编码,生成所述新闻语料的摘要;
第二分类单元,配置用于利用所述第二蕴含分类网络,计算所生成的摘要与所述新闻语料之间的蕴含得分;
第二训练单元,配置用于基于预设的模型损失函数,并根据所述新闻语料的编码、摘要和蕴含得分,对所述解码模型进行模型训练;
其中,所述模型损失函数中待优化模型参数的权重值取决于所述蕴含得分。
8.根据权利要求7所述的融合蕴含知识的自动文摘系统,其特征在于,所述模型损失函数是负对数极大似然损失函数,所述第二蕴含分类网络是多层感知机网络;
所述第二训练单元,进一步配置用于根据所述新闻语料的编码、摘要和蕴含得分,并利用随机梯度下降算法,对所述解码模型进行模型训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810499465.4A CN108763211B (zh) | 2018-05-23 | 2018-05-23 | 融合蕴含知识的自动文摘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810499465.4A CN108763211B (zh) | 2018-05-23 | 2018-05-23 | 融合蕴含知识的自动文摘方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763211A CN108763211A (zh) | 2018-11-06 |
CN108763211B true CN108763211B (zh) | 2020-07-31 |
Family
ID=64005006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810499465.4A Active CN108763211B (zh) | 2018-05-23 | 2018-05-23 | 融合蕴含知识的自动文摘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763211B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209725B (zh) * | 2018-11-19 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 一种文本信息生成方法、装置以及计算设备 |
WO2020237479A1 (zh) * | 2019-05-27 | 2020-12-03 | 中国科学院深圳先进技术研究院 | 实时事件摘要的生成方法、装置、设备及存储介质 |
CN110929024B (zh) * | 2019-12-10 | 2021-07-02 | 哈尔滨工业大学 | 一种基于多模型融合的抽取式文本摘要生成方法 |
CN113408272B (zh) * | 2021-06-30 | 2023-08-18 | 北京百度网讯科技有限公司 | 摘要生成模型的训练方法、装置、设备和存储介质 |
CN113688230A (zh) * | 2021-07-21 | 2021-11-23 | 武汉众智数字技术有限公司 | 一种文本摘要生成的方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360346A (zh) * | 2011-10-31 | 2012-02-22 | 武汉大学 | 基于受限的语义依存分析的文本推理方法 |
CN106682192A (zh) * | 2016-12-29 | 2017-05-17 | 北京奇虎科技有限公司 | 一种基于搜索关键词训练回答意图分类模型的方法和装置 |
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
CN107784099A (zh) * | 2017-10-24 | 2018-03-09 | 济南浪潮高新科技投资发展有限公司 | 一种自动生成中文新闻摘要的方法 |
CN107967261A (zh) * | 2017-11-17 | 2018-04-27 | 康成投资(中国)有限公司 | 智能客服中交互式问句语义理解方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150046152A1 (en) * | 2013-08-08 | 2015-02-12 | Quryon, Inc. | Determining concept blocks based on context |
-
2018
- 2018-05-23 CN CN201810499465.4A patent/CN108763211B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360346A (zh) * | 2011-10-31 | 2012-02-22 | 武汉大学 | 基于受限的语义依存分析的文本推理方法 |
CN106682192A (zh) * | 2016-12-29 | 2017-05-17 | 北京奇虎科技有限公司 | 一种基于搜索关键词训练回答意图分类模型的方法和装置 |
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
CN107784099A (zh) * | 2017-10-24 | 2018-03-09 | 济南浪潮高新科技投资发展有限公司 | 一种自动生成中文新闻摘要的方法 |
CN107967261A (zh) * | 2017-11-17 | 2018-04-27 | 康成投资(中国)有限公司 | 智能客服中交互式问句语义理解方法 |
Non-Patent Citations (1)
Title |
---|
中文文本蕴含识别研究;王敏达;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180331(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108763211A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763211B (zh) | 融合蕴含知识的自动文摘方法及系统 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN111738004B (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111931517B (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN111221939B (zh) | 评分方法、装置和电子设备 | |
CN112668319B (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
CN110427616B (zh) | 一种基于深度学习的文本情感分析方法 | |
CN109918681B (zh) | 一种基于汉字-拼音的融合问题语义匹配方法 | |
CN110390049B (zh) | 一种面向软件开发问题的答案自动生成方法 | |
CN112069295A (zh) | 相似题推荐方法、装置、电子设备和存储介质 | |
CN116628186B (zh) | 文本摘要生成方法及系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN110633456B (zh) | 语种识别方法、装置、服务器及存储介质 | |
CN114117041B (zh) | 一种基于特定属性词上下文建模的属性级情感分析方法 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
CN116882502B (zh) | 融合结构化知识和文本语义的专业文本推断方法和系统 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN115545030A (zh) | 实体抽取模型的训练方法、实体关系抽取方法及装置 | |
CN114579734A (zh) | 基于gcn网络融合要素关联图的汉越新闻抽取式摘要方法 | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN117972434B (zh) | 文本处理模型的训练方法、装置、设备、介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240618 Address after: 200-19, 2nd Floor, Building B, Wanghai Building, No.10 West Third Ring Middle Road, Haidian District, Beijing, 100036 Patentee after: Zhongke Zidong Taichu (Beijing) Technology Co.,Ltd. Country or region after: China Address before: 100190 No. 95 East Zhongguancun Road, Beijing, Haidian District Patentee before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES Country or region before: China |