CN112417149B - 一种基于多任务学习的标题生成方法 - Google Patents
一种基于多任务学习的标题生成方法 Download PDFInfo
- Publication number
- CN112417149B CN112417149B CN202011258676.2A CN202011258676A CN112417149B CN 112417149 B CN112417149 B CN 112417149B CN 202011258676 A CN202011258676 A CN 202011258676A CN 112417149 B CN112417149 B CN 112417149B
- Authority
- CN
- China
- Prior art keywords
- keyword
- word
- vector
- keywords
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000013016 damping Methods 0.000 claims description 2
- 238000009826 distribution Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000004140 cleaning Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 7
- 229910000831 Steel Inorganic materials 0.000 description 6
- 239000010959 steel Substances 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 239000010410 layer Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种基于多任务学习的标题生成方法,首先获取需要进行标题生成的源文本数据,并且进行清洗等预处理,将文章送入Self‑Encoder端的BiLSTM模型进行特征提取,之后再通过TextRank算法以及多任务学习模块提取文章中的关键词,再将关键词送入Keywords‑Encoder端进行特征提取,然后将融合关键词信息和源文本信息的特征送入由BiLSTM组成的Decoder端。该网络更好的利用了原文中的关键词信息来进行标题生成,极大的丰富了特征提取的信息,提高了生成标题的质量。
Description
技术领域:
本发明属于文本生成领域。尤其涉及到一些循环神经网络、注意力机制、 多任务学习等。
背景技术:
随着互联网技术在国内的迅猛发展以及各种软硬件的不断更新升级,使 得人们获取信息的方式变得更加的多样化,同时也由于获取信息的成本越来 越小,导致每天获取的信息总量也增加了很多。然而,信息化的迅速发展给 人们带来便利的同时,使得网络中充斥着大量冗余、非结构化的文本信息, 大大降低了人们获取信息的效率。因此,如何通过机器来提取、精炼文本中的关键有效信息,如何通过生成标题来快速获取文章的主题思想,已经成为 当今学术研究的热点。国内外已经对这一研究领域已经有较为成熟的理解和 技术方法,且主要可分为两种:首先是抽取式生成标题(Extractive Headline Generation,EHG)方法,这类方法主要是基于传统的统计学知识,强调文章的 表层含义,主要考察词汇的频率、句子的位置、句子的长度等信息。基于统 计的方法进行摘要自动提取的技术简单、便捷、易于实现,但是仅以文章的 表层词汇信息难以刻画句子的整体语义,不能很好的衡量句子的重要性;没 有考虑句子的上下文信息,难以全局性的选出符合要求的句子;随着神经网络 模型的不断发展与完善,第二种方法被有些学者提出,即生成式生成标题(Abstractive Headline Generation,AHG)方法。这类方法可以很好的解决使用EHG方法带来的生成的标题不能描述文章完整语义的问题。Soricut等人提 出一种生成生成式标题的WIDL-expression,利用该表达式可以将相关的文本 信息转换成一定结构特征的标题。随后,序列到序列(Sequence to Sequence, Seq2Seq)模型越来越多的被运用到文本生成的领域。2018年Hayashi等人将 摘要生成领域的Encoder-Decoder架构利用到标题生成任务上,其中Encoder 用来编码源文本输入,一个Decoder用来解码,输出目标文本,但是由于此种网络结构是基于循环神经网络(RNN),所以存在并行度低,无法解决长期依赖的问题。2019年由Gavrilov等人提出了Self-Attentive模型,在解决长 期依赖问题的同时进行标题生成。然而对于生成式标题来说,得到的语义和 目标标题仍有一定差距,并且生成的标题难以符合语义规则,标题可读性较 弱。
发明内容
为解决传统的生成式标题生成方法从源文本中提取出的语义向量难 以将所有的关键信息准确涵盖的问题,本发明提出一种基于多任务学习模型 的标题生成方法。
本发明的技术方案包括如下内容:
首先对包含源文本和对应参考标题的数据集进行句子清洗、去除空格 以及特殊字符,得到预处理结果;利用TextRank算法对预处理后的源文本进 行词的权重计算得到关键词权重序列。然后构建所需字典,key、value分别 表示词和对应的id。然后将需要处理的源文本根据字典转换为相应的id,并 且通过模型维度为m的Embedding层进行词向量初始化,然后根据id找到词 对应的词向量。将词向量送入模型的Encoder端,进行特征提取,并且在提 取的过程中通过多任务学习训练关键词分类器,通过关键词抽取器生成源文 本的对应关键词权重序列。之后将源文本的特征向量与之前计算得到的关键 词特征向量进行融合,并将融合后的向量作为输入输入到采用双向长短期记忆神经网络(Bidirction LongShort-Term Memory,BiLSTM)模型的Decoder 端进行标题生成,这样便得到了一个基于BiLSTM和多任务学习架构的标题生 成框架。
一种基于多任务学习的标题生成方法包括以下步骤:
步骤1、获取需要标题生成的源文本数据,进行必要的文本数据处理, 得到预处理结果。
步骤2、对预处理后的文本进行词典构建,词和id唯一对应,自定义 词向量的维度,对词向量进行初始化。
步骤3、将文章的输入向量输入基于BiLSTM的Self-Encoder端进行特 征提取,并且通过关键词分类器获得文章的对应关键词权重序列,同时对分 类器进行训练。
步骤4、提取文章中的关键词,并将关键词向量输入到基于BiLSTM的 Keywords-Encoder端进行特征提取。
步骤5、将步骤3和步骤4生成的特征向量送入基于LSTM的Decoder 端进行解码,生成文章的标题。
作为优选,步骤3具体包括以下步骤:
步骤3.1、统计文章和标题的长度分布,选取文章中长度的最大值为m, 标题长度最大值为n。
步骤3.2、将文章输入模型的Embedding层获取词向量,维度为m,本 发明中m取值为300。
步骤3.3、将获取的词向量输入到基于BiLSTM的Self-Encoder端进行 特征提取
步骤3.4、通过关键词分类器对每个输入词向量判断是否为关键词,生 成关键词权重序列,并且对该多任务学习模块进行训练。
作为优选,步骤4具体包括以下步骤:
步骤4.1、利用TextRank算法对文章中词语进行权重计算,生成关键 词权重序列
步骤4.2、将步骤3和步骤4计算出的关键词权重序列进行线性组合, 得到最终的关键词权重序列并选取前k个词作为关键词。
步骤4.3、将关键词向量输入到基于BiLSTM的Keywords-Encoder端进 行特征提取。
作为优选,步骤5具体包括以下步骤:
步骤5.1、步骤3和步骤4生成的特征向量通过全连接网络进行维度转 换,使其符合Decoder端输入标准。
步骤5.2、通过Decoder端的Dual-attention机制,结果步骤3和步 骤4中生成的特征向量,分别计算出注意力权重,作用于Decoder端输入的 queries矩阵分别生成文章语义向量和关键词语义向量。再将二者进行特征融 合
步骤5.3、根据Decoder解码生成的语义向量,经过Softmax层之后生 成对应词汇。
与现有技术相比,本发明具有以下明显优势:
第一,本发明在生成文章标题时,不仅仅通过基于BiLSTM的Encoder 提取原文章中的特征信息,而且还通过添加多任务学习模块以及传统的 Textrank算法来进行关键词的提取用作生成标题,更好的利用了原文中的关 键词信息来进行标题生成。极大的丰富了特征提取的信息,提高了生成标题 的质量。第二,本发明提出了一种新的结合了Textrank算法以及关键词分类 器的文本关键词提取方式,使得提取出的关键词可以更加丰富的涵盖原文本中的关键信息。
附图说明:
图1为本发明所涉及方法的流程图
图2为Self-Encoder以及Keywords-Encoder与BiLSTM Decoder模 块交互原理图
具体实施方式:
为了更好的说明本发明的目的和优点,一下结合具体网络模型实例,并 参照附图,对本发明进一步详细说明。
本发明所用到的硬件设备有PC机一台,1080显卡2块;
在这一部分,我们进行了广泛的实验,以探讨我们提出的方法的影响, 本发明设计的网络架构运行流程图如图1所示,具体包括以下步骤;
实验以ROUGE值指标作为评价指标:
ROUGE方法通过计算生成标题和标准标题的词单元重合度来区分候选 标题的质量,ROUGE-N是基于n-gram共现统计得到的,ROUGE-N的准确率、 召回率和F值得计算方法如式(1)、式(2)、式(3)所示。
其中,n表示n-gram的长度,S表示文档,下标r表示参考摘要, Countm(gramn)表示候选摘要和参考摘要中同时出现n-gram的个数, Count(gramn)则表示参考摘要中出现的n-gram个数。
在本实施例中,用于测试生成标题的原文本为:
["中新社北京11月1日电(陈杭)首钢集团总经理赵民革1日在2020 中国科幻大会开幕式上表示,北京首钢园将通过加快科幻产业创作人才集聚, 高新科技制作场景及体验场景营造,科幻活动交流与版权交易平台建设等工 作,打造科幻国际交流中心、科幻技术赋能中心、科幻消费体验中心和科幻 公共服务平台。赵民革认为,首钢园开发的电竞、数字创意活动和科技体验项目,营造了科幻体验式消费氛围,加速了生态聚集效应。我们力争用10年 左右的时间,把首钢园建成一座科幻之城,成为科幻产业发展的重要承接地 和科幻产业创新展示重要窗口,成为具有全球影响力的科幻产业特色园区。” 赵民革表示。赵民革提到,目前,园区正在以工业遗址公园为载体,建设占 地71.7公顷的科幻启动区。将积极引进科幻大师工作坊,搭建国际科幻活动 与展教中心。重点引进科幻龙头企业、大师工作室、公共服务平台和体验消费项目。"]表示为Xt=[x1,x2,…,xT]其中T为句子的长度。
步骤1,获取用于训练网络模型的4万条文章-标题训练集的源文本数 据,进行文本数据预处理,去除特殊符号,去停用词,去除频率低于百分之 一的低频词等得到预处理结果,之后构建训练所用到的字典。字典中key为 词,value为词的id。
步骤2,通过Embedding层对词向量进行初始化,根据字典中的id选 择每个词对应的词向量。
步骤3,根据输入的原文本内容X=[x1,x2,…,xT]在构造的词典里索引获 得对应的词向量,然后按照顺序输入基于BiLSTM的Self-Encoder端进行特 征提取,并且通过关键词分类器获得文章的对应关键词权重序列We(Vi)=(p1,p2,…,pn),其中p1,p2,…,pn分别代表句子序列第n个词为关键词的概 率,同时对分类器进行训练。
步骤3.1,输入为l*300的文本,其中句子长度为l,词向量维度为300。
步骤3.2,输入到基于BiLSTM的Self-Encoder,生成隐状态向量表达 序列hi。计算公式如下:
E[xi]为第i个输入词的embedding向量xi。最终的隐向量hi表示为两 个方向的向量拼接:
步骤3.3,在隐状态向量
表示hi上添加一层Softmax分类器作为关键词分类器,即多任务学习模 块,用来生成文章的对应关键词权重序列We(Vi)=(p1,p2,…,pn),并且对该分类 器进行训练。
步骤4,提取文章关键字,输入到Keywords-Encoder端。
步骤4.1,利用TextRank算法对摘要中词语的权重进行计算,词语权 重计算方法为:
其中,Vi表示第i个词;wij表示点Vi到点Vi链接的权重;Out(Vj)表示点Vi指向所有点的集合;In(Vj)表示指向点Vj的所有点集合;W(Vi)表示第i个词的 权重;d是阻尼因数,表示某一特定点指向其他任意点的概率,取值范围为0 到1之间。最终得到关键词权重序列Wt(Vi)=(p1,p2,…,pi)。其中pi表示句子序列 第i个词计算出的权重即W(Vi)。
步骤4.2,将步骤3计算出的关键词权重序列We(Vi)以及步骤4.1计算 出的Wt(Vi)进行线性组合得到最终关键词权重序列W(Vi),计算公式如下:
W(Vi)=wt*Wt(Vi)+we*We(Vi) (7)
其中wt,we为可训练的参数,初始值均为0.5。
步骤4.3,通过对4万条文章-标题数据集中的标题以及其标题中的关 键字个数进行统计,得到关键词个数平均为8个,故选择关键词权重序列中 的前8个作为关键词。
步骤4.4,将8*300的关键词向量K=[k1,k2,…,k8]作为输入输入到 Keywords-Encoder端进行特征提取。
步骤5、将步骤3和步骤4分别生成的特征向量通过拼接进行特征融合, 输入模型的Decoder端进行解码生成标题序列。
步骤6,训练网络模型迭代200世代,模型收敛,使用ROUGE-N评价指 标评价生成的摘要质量,通过与原生BiLSTM比较生成的摘要质量,得出最终 结论。
步骤6.1,待网络模型收敛以后,保存训练好的模型,采用损失函数为 交叉熵损失函数(Cross Entropy Loss):
其中y(i)为真实值,为预测值。
步骤6.2,将用于标题生成的原文本Xt=[x1,x2,…,xT]输入到训练好的 模型中,并且生成对应的论文标题Yt=[y1,y2,…,yM],其中M为标题的长度, 使用本模型生成的标题与传统BiLSTM模型生成标题的评价结果见表1:
表1.使用不同网络模型生成的标题
网络模型 | 生成标题 |
传统BiLSTM模型 | 首钢集团建设科幻之城窗口服务 |
本发明模型 | 北京首钢园打造国际科幻活动中心 |
表2.使用不同模型进行标题生成的评价结果
网络模型 | PROUGE-1 | RROUGE-1 | FROUGE-1 |
传统BiLSTM模型 | 0.5614 | 0.7122 | 0.6218 |
本发明模型 | 0.5936 | 0.7724 | 0.6524 |
参考人工标题为:[首钢园将打造科幻国际交流中心],通过表2显示, 对于不同网络模型生成的标题进行ROUGE值评价,其中本发明模型的FROUGE-1 最高,为0.6524。所以使用本发明模型进行标题生成的效果要比传统方法效 果更好。
以上实施例仅为本发明的事例性实施例,不用于限制本发明,本发明 的保护范围由权利要求书限定。本领域技术人员可以再本发明的实质和保护 范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为 落在本发明的保护范围内。
Claims (2)
1.一种基于多任务学习的标题生成方法,其特征在于,包括以下步骤:
步骤1、获取需要标题生成的源文本数据,进行文本数据处理,得到预处理结果;
步骤2、对预处理后的文本进行词典构建,词和id唯一对应,自定义词向量的维度,对词向量进行初始化;
步骤3、将原文章文本序列通过步骤2中构建的词典映射为输入向量,送入基于BiLSTM的Self-Encoder端进行特征提取得到特征向量,并且通过关键词分类器获得文章的对应关键词权重序列,同时对分类器进行训练;
步骤4、提取文章中的关键词,并将关键词向量输入到基于BiLSTM的Keywords-Encoder端进行特征提取得到特征向量;
步骤5、将步骤3和步骤4分别生成的特征向量通过拼接进行特征融合生成特征向量,送入基于LSTM的Decoder端进行解码,生成文章的标题;
步骤3具体包括以下步骤:
步骤3.1、统计文章和标题的长度分布,选取文章中长度的最大值为m,标题长度最大值为n;
步骤3.2、将文章输入模型的Embedding层获取词向量,维度为m,
m取值为300;
步骤3.3、将获取的词向量输入到基于BiLSTM的Self-Encoder端进行特征提取;
步骤3.4、通过关键词分类器对每个输入词向量判断是否为关键词,生成关键词权重序列,并且对多任务学习模块进行训练;
步骤4具体包括以下步骤:
步骤4.1、利用TextRank算法对文章中词语进行权重计算,生成关键词权重序列;
步骤4.2、将计算出的关键词权重序列进行线性组合,得到最终的关键词权重序列并选取前k个词作为关键词;
步骤4.3、将关键词向量输入到基于BiLSTM的Keywords-Encoder端进行特征提取;
步骤5具体包括以下步骤:
步骤5.1、步骤3和步骤4生成的特征向量通过全连接网络进行维度转换,使其符合Decoder端输入标准;
步骤5.2、通过Decoder端的Dual-attention机制,结果步骤3和步骤4中生成的特征向量,分别计算出注意力权重,作用于Decoder端输入的queries矩阵分别生成文章语义向量和关键词语义向量;再将二者进行特征融合
步骤5.3、根据Decoder解码生成的语义向量,经过Softmax层之后生成对应词汇。
2.根据权利要求1所述的方法,其特征在于,具体包括以下步骤:
步骤1,获取用于训练网络模型的源文本数据,进行文本数据预处理,去除特殊符号,去停用词,去除频率低于百分之一的低频词得到预处理结果,之后构建训练所用到的字典;字典中key为词,value为词的id;
步骤2,通过Embedding层对词向量进行初始化,根据字典中的id选择每个词对应的词向量;
步骤3,根据输入的原文本内容X=[x1,x2,…,xT]在构造的词典里索引获得对应的词向量,然后按照顺序输入基于BiLSTM的Self-Encoder端进行特征提取,并且通过关键词分类器获得文章的对应关键词权重序列We(Vi)=(p1,p2,…,pi),其中p1,p2,…,pi分别代表句子序列第1-i个词为关键词的概率,同时对分类器进行训练;
步骤3.1,输入为l*300的文本,其中句子长度为l,词向量维度为300;
步骤3.2,输入到基于BiLSTM的Self-Encoder,生成隐状态向量表达序列hi;计算公式如下:
E[xi]为第i个输入词的embedding向量xi;最终的隐向量hi表示为两个方向的向量拼接:
步骤3.3,在隐状态向量
表示hi上添加一层Softmax分类器作为关键词分类器,即多任务学习模块,用来生成文章的对应关键词权重序列We(Vi)=(p1,p2,…,pn),并且对该分类器进行训练;
步骤4,提取文章关键字,输入到Keywords-Encoder端;
步骤4.1,利用TextRank算法对摘要中词语的权重进行计算,词语权重计算方法为:
其中,Vi表示第i个词;wij表示点Vi到点Vi链接的权重;Out(Vj)表示点Vi指向所有点的集合;In(Vj)表示指向点Vj的所有点集合;W(Vi)表示第i个词的权重;d是阻尼因数,表示某一点指向其他任意点的概率,取值范围为0到1之间;最终得到关键词权重序列Wt(Vi)=(p1,p2,…,pi);其中pi表示句子序列第i个词计算出的权重即W(Vi);
步骤4.2,将步骤3计算出的关键词权重序列We(Vi)以及步骤4.1计算出的Wt(Vi)进行线性组合得到最终关键词权重序列W(Vi),计算公式如下:
W(Vi)=wt*Wt(Vi)+we*We(Vi) (7)
其中wt,we为训练的参数,初始值均为0.5;
步骤4.3,通过对文章-标题数据集中的标题以及其标题中的关键字个数进行统计,得到关键词个数平均为8个,故选择关键词权重序列中的前8个作为关键词;
步骤4.4,将8*300的关键词向量K=[k1,k2,…,k8]作为输入输入到Keywords-Encoder端进行特征提取;
步骤5、将步骤3和步骤4分别生成的特征向量通过拼接进行特征融合,输入模型的Decoder端进行解码生成标题序列;
步骤6.1,待网络模型收敛以后,保存训练好的模型,采用损失函数为交叉熵损失函数:
其中y(i)为真实值,为预测值;
步骤6.2,将用于标题生成的原文本Xt=[x1,x2,…,xT]输入到训练好的模型中,并且生成对应的论文标题Yt=[y1,y2,…,yM],其中M为标题的长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011258676.2A CN112417149B (zh) | 2020-11-11 | 2020-11-11 | 一种基于多任务学习的标题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011258676.2A CN112417149B (zh) | 2020-11-11 | 2020-11-11 | 一种基于多任务学习的标题生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417149A CN112417149A (zh) | 2021-02-26 |
CN112417149B true CN112417149B (zh) | 2024-03-19 |
Family
ID=74781290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011258676.2A Active CN112417149B (zh) | 2020-11-11 | 2020-11-11 | 一种基于多任务学习的标题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417149B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268586A (zh) * | 2021-05-21 | 2021-08-17 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383817A (zh) * | 2016-09-29 | 2017-02-08 | 北京理工大学 | 利用分布式语义信息的论文标题生成方法 |
WO2020012595A1 (ja) * | 2018-07-12 | 2020-01-16 | 楽天株式会社 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
-
2020
- 2020-11-11 CN CN202011258676.2A patent/CN112417149B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383817A (zh) * | 2016-09-29 | 2017-02-08 | 北京理工大学 | 利用分布式语义信息的论文标题生成方法 |
WO2020012595A1 (ja) * | 2018-07-12 | 2020-01-16 | 楽天株式会社 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN112417149A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112000791B (zh) | 一种电机故障知识抽取系统及方法 | |
TWI732271B (zh) | 人機對話方法、裝置、電子設備及電腦可讀媒體 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN108519890A (zh) | 一种基于自注意力机制的鲁棒性代码摘要生成方法 | |
CN107832400A (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN104391842A (zh) | 一种翻译模型构建方法和系统 | |
CN107798140A (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN113283236B (zh) | 一种复杂中文文本中的实体消歧方法 | |
CN111639183A (zh) | 一种基于深度学习算法的金融同业舆情分析方法及系统 | |
CN116205222A (zh) | 一种基于多通道注意力融合的方面级情感分析系统及方法 | |
CN111737427A (zh) | 融合论坛互动行为与用户阅读偏好的慕课论坛帖推荐方法 | |
CN103869999B (zh) | 对输入法所产生的候选项进行排序的方法及装置 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN111967267A (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN115062139B (zh) | 一种对话文本摘要模型自动搜索方法 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN112417149B (zh) | 一种基于多任务学习的标题生成方法 | |
CN114972907A (zh) | 基于强化学习和对比学习的图像语义理解及文本生成 | |
Xiang et al. | Aggregating local and global text features for linguistic steganalysis | |
CN113139558B (zh) | 确定物品的多级分类标签的方法和装置 | |
Zhang et al. | Extractive Document Summarization based on hierarchical GRU | |
CN108763198A (zh) | 一种生成式的学术论文中相关工作的自动产生方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |