CN112417149A - 一种基于多任务学习的标题生成方法 - Google Patents

一种基于多任务学习的标题生成方法 Download PDF

Info

Publication number
CN112417149A
CN112417149A CN202011258676.2A CN202011258676A CN112417149A CN 112417149 A CN112417149 A CN 112417149A CN 202011258676 A CN202011258676 A CN 202011258676A CN 112417149 A CN112417149 A CN 112417149A
Authority
CN
China
Prior art keywords
keyword
word
vector
article
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011258676.2A
Other languages
English (en)
Other versions
CN112417149B (zh
Inventor
刘博�
胡志超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202011258676.2A priority Critical patent/CN112417149B/zh
Publication of CN112417149A publication Critical patent/CN112417149A/zh
Application granted granted Critical
Publication of CN112417149B publication Critical patent/CN112417149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于多任务学习的标题生成方法,首先获取需要进行标题生成的源文本数据,并且进行清洗等预处理,将文章送入Self‑Encoder端的BiLSTM模型进行特征提取,之后再通过TextRank算法以及多任务学习模块提取文章中的关键词,再将关键词送入Keywords‑Encoder端进行特征提取,然后将融合关键词信息和源文本信息的特征送入由BiLSTM组成的Decoder端。该网络更好的利用了原文中的关键词信息来进行标题生成,极大的丰富了特征提取的信息,提高了生成标题的质量。

Description

一种基于多任务学习的标题生成方法
技术领域:
本发明属于文本生成领域。尤其涉及到一些循环神经网络、注意力机制、 多任务学习等。
背景技术:
随着互联网技术在国内的迅猛发展以及各种软硬件的不断更新升级,使 得人们获取信息的方式变得更加的多样化,同时也由于获取信息的成本越来 越小,导致每天获取的信息总量也增加了很多。然而,信息化的迅速发展给 人们带来便利的同时,使得网络中充斥着大量冗余、非结构化的文本信息, 大大降低了人们获取信息的效率。因此,如何通过机器来提取、精炼文本中 的关键有效信息,如何通过生成标题来快速获取文章的主题思想,已经成为 当今学术研究的热点。国内外已经对这一研究领域已经有较为成熟的理解和技术方法,且主要可分为两种:首先是抽取式生成标题(Extractive HeadlineGeneration,EHG)方法,这类方法主要是基于传统的统计学知识,强调文章的 表层含义,主要考察词汇的频率、句子的位置、句子的长度等信息。基于统 计的方法进行摘要自动提取的技术简单、便捷、易于实现,但是仅以文章的 表层词汇信息难以刻画句子的整体语义,不能很好的衡量句子的重要性;没 有考虑句子的上下文信息,难以全局性的选出符合要求的句子;随着神经网络 模型的不断发展与完善,第二种方法被有些学者提出,即生成式生成标题 (Abstractive Headline Generation,AHG)方法。这类方法可以很好的解决使 用EHG方法带来的生成的标题不能描述文章完整语义的问题。Soricut等人提 出一种生成生成式标题的WIDL-expression,利用该表达式可以将相关的文本 信息转换成一定结构特征的标题。随后,序列到序列(Sequence to Sequence, Seq2Seq)模型越来越多的被运用到文本生成的领域。2018年Hayashi等人将 摘要生成领域的Encoder-Decoder架构利用到标题生成任务上,其中Encoder 用来编码源文本输入,一个Decoder用来解码,输出目标文本,但是由于此 种网络结构是基于循环神经网络(RNN),所以存在并行度低,无法解决长期依 赖的问题。2019年由Gavrilov等人提出了Self-Attentive模型,在解决长 期依赖问题的同时进行标题生成。然而对于生成式标题来说,得到的语义和 目标标题仍有一定差距,并且生成的标题难以符合语义规则,标题可读性较 弱。
发明内容
为解决传统的生成式标题生成方法从源文本中提取出的语义向量难 以将所有的关键信息准确涵盖的问题,本发明提出一种基于多任务学习模型 的标题生成方法。
本发明的技术方案包括如下内容:
首先对包含源文本和对应参考标题的数据集进行句子清洗、去除空格 以及特殊字符,得到预处理结果;利用TextRank算法对预处理后的源文本进 行词的权重计算得到关键词权重序列。然后构建所需字典,key、value分别 表示词和对应的id。然后将需要处理的源文本根据字典转换为相应的id,并 且通过模型维度为m的Embedding层进行词向量初始化,然后根据id找到词 对应的词向量。将词向量送入模型的Encoder端,进行特征提取,并且在提 取的过程中通过多任务学习训练关键词分类器,通过关键词抽取器生成源文 本的对应关键词权重序列。之后将源文本的特征向量与之前计算得到的关键 词特征向量进行融合,并将融合后的向量作为输入输入到采用双向长短期记 忆神经网络(BidirctionLong Short-Term Memory,BiLSTM)模型的Decoder 端进行标题生成,这样便得到了一个基于BiLSTM和多任务学习架构的标题生 成框架。
一种基于多任务学习的标题生成方法包括以下步骤:
步骤1、获取需要标题生成的源文本数据,进行必要的文本数据处理, 得到预处理结果。
步骤2、对预处理后的文本进行词典构建,词和id唯一对应,自定义 词向量的维度,对词向量进行初始化。
步骤3、将文章的输入向量输入基于BiLSTM的Self-Encoder端进行特 征提取,并且通过关键词分类器获得文章的对应关键词权重序列,同时对分 类器进行训练。
步骤4、提取文章中的关键词,并将关键词向量输入到基于BiLSTM的 Keywords-Encoder端进行特征提取。
步骤5、将步骤3和步骤4生成的特征向量送入基于LSTM的Decoder 端进行解码,生成文章的标题。
作为优选,步骤3具体包括以下步骤:
步骤3.1、统计文章和标题的长度分布,选取文章中长度的最大值为m, 标题长度最大值为n。
步骤3.2、将文章输入模型的Embedding层获取词向量,维度为m,本 发明中m取值为300。
步骤3.3、将获取的词向量输入到基于BiLSTM的Self-Encoder端进行 特征提取
步骤3.4、通过关键词分类器对每个输入词向量判断是否为关键词,生 成关键词权重序列,并且对该多任务学习模块进行训练。
作为优选,步骤4具体包括以下步骤:
步骤4.1、利用TextRank算法对文章中词语进行权重计算,生成关键 词权重序列
步骤4.2、将步骤3和步骤4计算出的关键词权重序列进行线性组合, 得到最终的关键词权重序列并选取前k个词作为关键词。
步骤4.3、将关键词向量输入到基于BiLSTM的Keywords-Encoder端进 行特征提取。
作为优选,步骤5具体包括以下步骤:
步骤5.1、步骤3和步骤4生成的特征向量通过全连接网络进行维度转 换,使其符合Decoder端输入标准。
步骤5.2、通过Decoder端的Dual-attention机制,结果步骤3和步 骤4中生成的特征向量,分别计算出注意力权重,作用于Decoder端输入的 queries矩阵分别生成文章语义向量和关键词语义向量。再将二者进行特征融 合
步骤5.3、根据Decoder解码生成的语义向量,经过Softmax层之后生 成对应词汇。
与现有技术相比,本发明具有以下明显优势:
第一,本发明在生成文章标题时,不仅仅通过基于BiLSTM的Encoder 提取原文章中的特征信息,而且还通过添加多任务学习模块以及传统的 Textrank算法来进行关键词的提取用作生成标题,更好的利用了原文中的关 键词信息来进行标题生成。极大的丰富了特征提取的信息,提高了生成标题 的质量。第二,本发明提出了一种新的结合了Textrank算法以及关键词分类 器的文本关键词提取方式,使得提取出的关键词可以更加丰富的涵盖原文本 中的关键信息。
附图说明:
图1为本发明所涉及方法的流程图
图2为Self-Encoder以及Keywords-Encoder与BiLSTM Decoder模 块交互原理图
具体实施方式:
为了更好的说明本发明的目的和优点,一下结合具体网络模型实例,并 参照附图,对本发明进一步详细说明。
本发明所用到的硬件设备有PC机一台,1080显卡2块;
在这一部分,我们进行了广泛的实验,以探讨我们提出的方法的影响, 本发明设计的网络架构运行流程图如图1所示,具体包括以下步骤;
实验以ROUGE值指标作为评价指标:
ROUGE方法通过计算生成标题和标准标题的词单元重合度来区分候选 标题的质量,ROUGE-N是基于n-gram共现统计得到的,ROUGE-N的准确率、 召回率和F值得计算方法如式(1)、式(2)、式(3)所示。
Figure BDA0002773887150000041
Figure BDA0002773887150000042
Figure BDA0002773887150000051
其中,n表示n-gram的长度,S表示文档,下标r表示参考摘要, Countm(gramn)表示候选摘要和参考摘要中同时出现n-gram的个数, Count(gramn)则表示参考摘要中出现的n-gram个数。
在本实施例中,用于测试生成标题的原文本为:
["中新社北京11月1日电(陈杭)首钢集团总经理赵民革1日在2020 中国科幻大会开幕式上表示,北京首钢园将通过加快科幻产业创作人才集聚, 高新科技制作场景及体验场景营造,科幻活动交流与版权交易平台建设等工 作,打造科幻国际交流中心、科幻技术赋能中心、科幻消费体验中心和科幻 公共服务平台。赵民革认为,首钢园开发的电竞、数字创意活动和科技体验 项目,营造了科幻体验式消费氛围,加速了生态聚集效应。我们力争用10年 左右的时间,把首钢园建成一座科幻之城,成为科幻产业发展的重要承接地 和科幻产业创新展示重要窗口,成为具有全球影响力的科幻产业特色园区。” 赵民革表示。赵民革提到,目前,园区正在以工业遗址公园为载体,建设占 地71.7公顷的科幻启动区。将积极引进科幻大师工作坊,搭建国际科幻活动 与展教中心。重点引进科幻龙头企业、大师工作室、公共服务平台和体验消 费项目。"]表示为Xt=[x1,x2,…,xT]其中T为句子的长度。
步骤1,获取用于训练网络模型的4万条文章-标题训练集的源文本数 据,进行文本数据预处理,去除特殊符号,去停用词,去除频率低于百分之 一的低频词等得到预处理结果,之后构建训练所用到的字典。字典中key为 词,value为词的id。
步骤2,通过Embedding层对词向量进行初始化,根据字典中的id选 择每个词对应的词向量。
步骤3,根据输入的原文本内容X=[x1,x2,…,xT]在构造的词典里索引获 得对应的词向量,然后按照顺序输入基于BiLSTM的Self-Encoder端进行特 征提取,并且通过关键词分类器获得文章的对应关键词权重序列We(Vi)=(p1,p2,…,pn),其中p1,p2,…,pn分别代表句子序列第n个词为关键词的概 率,同时对分类器进行训练。
步骤3.1,输入为l*300的文本,其中句子长度为l,词向量维度为300。
步骤3.2,输入到基于BiLSTM的Self-Encoder,生成隐状态向量表达 序列hi。计算公式如下:
Figure BDA0002773887150000061
Figure BDA0002773887150000062
E[xi]为第i个输入词的embedding向量xi。最终的隐向量hi表示为两 个方向的向量拼接:
Figure BDA0002773887150000063
步骤3.3,在隐状态向量
表示hi上添加一层Softmax分类器作为关键词分类器,即多任务学习模 块,用来生成文章的对应关键词权重序列We(Vi)=(p1,p2,…,pn),并且对该分类 器进行训练。
步骤4,提取文章关键字,输入到Keywords-Encoder端。
步骤4.1,利用TextRank算法对摘要中词语的权重进行计算,词语权 重计算方法为:
Figure BDA0002773887150000064
其中,Vi表示第i个词;wij表示点Vi到点Vi链接的权重;Out(Vj)表示点Vi指向所有点的集合;In(Vj)表示指向点Vj的所有点集合;W(Vi)表示第i个词的 权重;d是阻尼因数,表示某一特定点指向其他任意点的概率,取值范围为0 到1之间。最终得到关键词权重序列Wt(Vi)=(p1,p2,…,pi)。其中pi表示句子序列 第i个词计算出的权重即W(Vi)。
.步骤4.2,将步骤3计算出的关键词权重序列We(Vi)以及步骤4.1计算 出的Wt(Vi)进行线性组合得到最终关键词权重序列W(Vi),计算公式如下:
W(Vi)=wt*Wt(Vi)+we*We(Vi) (7)
其中wt,we为可训练的参数,初始值均为0.5。
步骤4.3,通过对4万条文章-标题数据集中的标题以及其标题中的关 键字个数进行统计,得到关键词个数平均为8个,故选择关键词权重序列中 的前8个作为关键词。
步骤4.4,将8*300的关键词向量K=[k1,k2,…,k8]作为输入输入到 Keywords-Encoder端进行特征提取。
步骤5、将步骤3和步骤4分别生成的特征向量通过拼接进行特征融合, 输入模型的Decoder端进行解码生成标题序列。
步骤6,训练网络模型迭代200世代,模型收敛,使用ROUGE-N评价指 标评价生成的摘要质量,通过与原生BiLSTM比较生成的摘要质量,得出最终 结论。
步骤6.1,待网络模型收敛以后,保存训练好的模型,采用损失函数为 交叉熵损失函数(Cross Entropy Loss):
Figure BDA0002773887150000071
其中y(i)为真实值,
Figure BDA0002773887150000072
为预测值。
步骤6.2,将用于标题生成的原文本Xt=[x1,x2,…,xT]输入到训练好的 模型中,并且生成对应的论文标题Yt=[y1,y2,…,yM],其中M为标题的长度, 使用本模型生成的标题与传统BiLSTM模型生成标题的评价结果见表1:
表1.使用不同网络模型生成的标题
网络模型 生成标题
传统BiLSTM模型 首钢集团建设科幻之城窗口服务
本发明模型 北京首钢园打造国际科幻活动中心
表2.使用不同模型进行标题生成的评价结果
网络模型 P<sub>ROUGE-1</sub> R<sub>ROUGE</sub>-1 F<sub>ROUGE-1</sub>
传统BiLSTM模型 0.5614 0.7122 0.6218
本发明模型 0.5936 0.7724 0.6524
参考人工标题为:[首钢园将打造科幻国际交流中心],通过表2显示, 对于不同网络模型生成的标题进行ROUGE值评价,其中本发明模型的FROUGE-1 最高,为0.6524。所以使用本发明模型进行标题生成的效果要比传统方法效 果更好。
以上实施例仅为本发明的事例性实施例,不用于限制本发明,本发明 的保护范围由权利要求书限定。本领域技术人员可以再本发明的实质和保护 范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为 落在本发明的保护范围内。

Claims (5)

1.一种基于多任务学习的标题生成方法,其特征在于,包括以下步骤:
步骤1、获取需要标题生成的源文本数据,进行文本数据处理,得到预处理结果;
步骤2、对预处理后的文本进行词典构建,词和id唯一对应,自定义词向量的维度,对词向量进行初始化;
步骤3、将文章的输入向量输入基于BiLSTM的Self-Encoder端进行特征提取,并且通过关键词分类器获得文章的对应关键词权重序列,同时对分类器进行训练;
步骤4、提取文章中的关键词,并将关键词向量输入到基于BiLSTM的Keywords-Encoder端进行特征提取;
步骤5、将步骤3和步骤4生成的特征向量送入基于LSTM的Decoder端进行解码,生成文章的标题。
2.根据权利要求1所述的方法,其特征在于,步骤3具体包括以下步骤:
步骤3.1、统计文章和标题的长度分布,选取文章中长度的最大值为m,标题长度最大值为n;
步骤3.2、将文章输入模型的Embedding层获取词向量,维度为m,本发明中m取值为300;
步骤3.3、将获取的词向量输入到基于BiLSTM的Self-Encoder端进行特征提取
步骤3.4、通过关键词分类器对每个输入词向量判断是否为关键词,生成关键词权重序列,并且对该多任务学习模块进行训练。
3.根据权利要求1所述的方法,其特征在于,步骤4具体包括以下步骤:
步骤4.1、利用TextRank算法对文章中词语进行权重计算,生成关键词权重序列
步骤4.2、将步骤3和步骤4计算出的关键词权重序列进行线性组合,得到最终的关键词权重序列并选取前k个词作为关键词;
步骤4.3、将关键词向量输入到基于BiLSTM的Keywords-Encoder端进行特征提取。
4.根据权利要求1所述的方法,其特征在于,步骤5具体包括以下步骤:
步骤5.1、步骤3和步骤4生成的特征向量通过全连接网络进行维度转换,使其符合Decoder端输入标准;
步骤5.2、通过Decoder端的Dual-attention机制,结果步骤3和步骤4中生成的特征向量,分别计算出注意力权重,作用于Decoder端输入的queries矩阵分别生成文章语义向量和关键词语义向量;再将二者进行特征融合
步骤5.3、根据Decoder解码生成的语义向量,经过Softmax层之后生成对应词汇。
5.根据权利要求1所述的方法,其特征在于,
步骤1,获取用于训练网络模型的源文本数据,进行文本数据预处理,去除特殊符号,去停用词,去除频率低于百分之一的低频词得到预处理结果,之后构建训练所用到的字典;字典中key为词,value为词的id;
步骤2,通过Embedding层对词向量进行初始化,根据字典中的id选择每个词对应的词向量;
步骤3,根据输入的原文本内容X=[x1,x2,…,xT]在构造的词典里索引获得对应的词向量,然后按照顺序输入基于BiLSTM的Self-Encoder端进行特征提取,并且通过关键词分类器获得文章的对应关键词权重序列We(Vi)=(p1,p2,…,pn),其中p1,p2,…,pn分别代表句子序列第n个词为关键词的概率,同时对分类器进行训练;
步骤3.1,输入为l*300的文本,其中句子长度为l,词向量维度为300;
步骤3.2,输入到基于BiLSTM的Self-Encoder,生成隐状态向量表达序列hi;计算公式如下:
Figure FDA0002773887140000021
Figure FDA0002773887140000022
E[xi]为第i个输入词的embedding向量xi;最终的隐向量hi表示为两个方向的向量拼接:
Figure FDA0002773887140000031
步骤3.3,在隐状态向量
表示hi上添加一层Softmax分类器作为关键词分类器,即多任务学习模块,用来生成文章的对应关键词权重序列We(Vi)=(p1,p2,…,pn),并且对该分类器进行训练;
步骤4,提取文章关键字,输入到Keywords-Encoder端;
步骤4.1,利用TextRank算法对摘要中词语的权重进行计算,词语权重计算方法为:
Figure FDA0002773887140000032
其中,Vi表示第i个词;wij表示点Vi到点Vi链接的权重;Out(Vj)表示点Vi指向所有点的集合;In(Vj)表示指向点Vj的所有点集合;W(Vi)表示第i个词的权重;d是阻尼因数,表示某一特定点指向其他任意点的概率,取值范围为0到1之间;最终得到关键词权重序列Wt(Vi)=(p1,p2,…,pi);其中pi表示句子序列第i个词计算出的权重即W(Vi);
步骤4.2,将步骤3计算出的关键词权重序列We(Vi)以及步骤4.1计算出的Wt(Vi)进行线性组合得到最终关键词权重序列W(Vi),计算公式如下:
W(Vi)=wt*Wt(Vi)+we*We(Vi) (7)
其中wt,we为可训练的参数,初始值均为0.5;
步骤4.3,通过对文章-标题数据集中的标题以及其标题中的关键字个数进行统计,得到关键词个数平均为8个,故选择关键词权重序列中的前8个作为关键词;
步骤4.4,将8*300的关键词向量K=[k1,k2,…,k8]作为输入输入到Keywords-Encoder端进行特征提取;
步骤5、将步骤3和步骤4分别生成的特征向量通过拼接进行特征融合,输入模型的Decoder端进行解码生成标题序列;
步骤6.1,待网络模型收敛以后,保存训练好的模型,采用损失函数为交叉熵损失函数(Cross Entropy Loss):
Figure FDA0002773887140000041
其中y(i)为真实值,
Figure FDA0002773887140000042
为预测值;
步骤6.2,将用于标题生成的原文本Xt=[x1,x2,…,xT]输入到训练好的模型中,并且生成对应的论文标题Yt=[y1,y2,…,yM],其中M为标题的长度。
CN202011258676.2A 2020-11-11 2020-11-11 一种基于多任务学习的标题生成方法 Active CN112417149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011258676.2A CN112417149B (zh) 2020-11-11 2020-11-11 一种基于多任务学习的标题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011258676.2A CN112417149B (zh) 2020-11-11 2020-11-11 一种基于多任务学习的标题生成方法

Publications (2)

Publication Number Publication Date
CN112417149A true CN112417149A (zh) 2021-02-26
CN112417149B CN112417149B (zh) 2024-03-19

Family

ID=74781290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011258676.2A Active CN112417149B (zh) 2020-11-11 2020-11-11 一种基于多任务学习的标题生成方法

Country Status (1)

Country Link
CN (1) CN112417149B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268586A (zh) * 2021-05-21 2021-08-17 平安科技(深圳)有限公司 文本摘要生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
WO2020012595A1 (ja) * 2018-07-12 2020-01-16 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
WO2020012595A1 (ja) * 2018-07-12 2020-01-16 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268586A (zh) * 2021-05-21 2021-08-17 平安科技(深圳)有限公司 文本摘要生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112417149B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN112000791B (zh) 一种电机故障知识抽取系统及方法
CN108804495B (zh) 一种基于增强语义的自动文本摘要方法
CN111061862B (zh) 一种基于注意力机制生成摘要的方法
CN102866782B (zh) 一种提高整句生成效率的输入法和输入法系统
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN104391842A (zh) 一种翻译模型构建方法和系统
CN109101479A (zh) 一种用于中文语句的聚类方法及装置
CN109815476B (zh) 一种基于中文语素和拼音联合统计的词向量表示方法
CN113283236B (zh) 一种复杂中文文本中的实体消歧方法
CN111460132A (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN103869999B (zh) 对输入法所产生的候选项进行排序的方法及装置
CN111061951A (zh) 一种基于双层自注意力评论建模的推荐模型
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN114972848A (zh) 基于细粒度视觉信息控制网络的图像语义理解及文本生成
CN110826321A (zh) 合同文件风险校验方法、装置、计算机设备以及存储介质
CN115062139B (zh) 一种对话文本摘要模型自动搜索方法
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
Balouchzahi et al. LA-SACo: A study of learning approaches for sentiments analysis inCode-mixing texts
CN112417149B (zh) 一种基于多任务学习的标题生成方法
Zhang et al. Extractive Document Summarization based on hierarchical GRU
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
CN116958997A (zh) 一种基于异质图神经网络的图文摘要方法及系统
CN107633259A (zh) 一种基于稀疏字典表示的跨模态学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant