CN111709230A - 基于词性软模板注意力机制的短文本自动摘要方法 - Google Patents

基于词性软模板注意力机制的短文本自动摘要方法 Download PDF

Info

Publication number
CN111709230A
CN111709230A CN202010366742.1A CN202010366742A CN111709230A CN 111709230 A CN111709230 A CN 111709230A CN 202010366742 A CN202010366742 A CN 202010366742A CN 111709230 A CN111709230 A CN 111709230A
Authority
CN
China
Prior art keywords
speech
soft template
vector
attention
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010366742.1A
Other languages
English (en)
Other versions
CN111709230B (zh
Inventor
余正涛
左一溪
郭军军
张亚飞
高盛祥
王振晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010366742.1A priority Critical patent/CN111709230B/zh
Publication of CN111709230A publication Critical patent/CN111709230A/zh
Application granted granted Critical
Publication of CN111709230B publication Critical patent/CN111709230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于词性软模板注意力机制的短文本自动摘要方法,属于自然语言处理技术领域。本发明首先对文本进行词性标记,将标出的词性序列视为文本的词性软模板,指导模型学习构造摘要句的结构规范,在模型的编码端实现词性软模板的表征,然后引入词性软模板注意力机制,将文中名词、动词等词性序列以注意力的方式增强模型对核心词性的关注,最后在解码端联合词性软模板注意力与传统注意力产生摘要句;本发明提出在构建神经网络摘要生成框架时,加入词性软模板注意力机制,指导模型学习合理的词性组合方式,辅助生成结构清晰且语义完整的摘要。本发明有效提升了生成式摘要的性能,在当前ROUGE评价指标上取得了较好的效果。

Description

基于词性软模板注意力机制的短文本自动摘要方法
技术领域
本发明涉及基于词性软模板注意力机制的短文本自动摘要方法,属于自然语言处理技术领域。
背景技术
文本摘要任务旨在通过对原文核心信息进行提炼,生成一段高度概括原文内容的摘要句,帮助人们提高日常浏览和获取知识的效率。文本摘要从实现方法上主要分为抽取式和生成式两种。抽取式文摘直接从原文本中选出若干重要句子,将这些句子进行拼接组合,形成摘要句。而生成式文摘主要利用序列到序列的深度学习模型进行文本语义理解,再通过语言生成模型、信息压缩等处理手段来生成最终的摘要句,生成的摘要可读性、连贯性更强。基于深度学习的文本摘要任务取得了很多优秀的研究成果,但大部分模型中的注意力仅限于考虑整个原文内容,忽略了文本背后重要结构信息的影响,而词性组合对句子结构有约束作用。为增强模型对句子结构的学习,有效地将词性信息与注意力机制结合,让模型学习合理的词性组合方式有利于文摘系统生成结构清晰且语义完整的摘要。因此,本发明提出词性软模板注意力机制,指导模型学习合理的词性组合方式,辅助摘要的生成。
发明内容
本发明提供了基于词性软模板注意力机制的短文本自动摘要方法,以用于解决神经网络模型中传统注意力仅考虑整个原文内容,忽略了文本背后重要结构信息影响的问题,以及生成的摘要句结构不清晰、语义不完整的问题。
本发明的技术方案是:基于词性软模板注意力机制的短文本自动摘要方法,具体步骤如下:
Step1、使用开源的词性标注工具将原句子进行词性标注,将词性序列视为原句的词性软模板;
Step2、将原句子及其对应的词性软模板分别在双向LSTM中进行编码,分别得到原文上下文语义向量与词性软模板隐藏层向量;
Step3、引入词性软模板注意力机制,计算出词性软模板注意力系数,并将模型学习到的核心词性信息融入原句子隐层向量中,得到融合词性的原文上下文语义向量;
Step4、将融合词性的原文上下文语义向量与词性软模板隐藏层向量进行融合;得到融合了词和词性的高层语义表达向量,将其作为解码端的输入向量;
Step5、利用带有传统注意力机制的单向LSTM解码出文摘。
进一步地,所述步骤Step2中,具体包括:
(1)原句子编码:双向LSTM由前向和后向两个隐状态组成,原句子x的前向隐状态和后向隐状态的输出被分别表示成
Figure BDA0002476721770000021
Figure BDA0002476721770000022
下标“-1”代表隐状态中最后一个元素,i时刻原句中某个词的隐状态就形如
Figure BDA0002476721770000023
而整个原句子的原文上下文语义向量最终被完整地表示成
Figure BDA0002476721770000024
(2)词性软模板编码:词性软模板r经过双向LSTM编码后,整个词性软模板的隐藏层向量最终被完整地表示成
Figure BDA0002476721770000025
进一步地,所述步骤Step3的具体步骤为:
Step3.1、引入词性软模板注意力机制;注意力机制的关键在于对注意力系数进行计算,词性软模板注意力系数
Figure BDA0002476721770000026
具体计算方法如公式(1)所示:
Figure BDA0002476721770000027
x表示原句子,r表示词性软模板,利用涵盖原文全局信息的隐向量
Figure BDA0002476721770000028
和每个时间步i下的词性隐向量
Figure BDA0002476721770000029
计算词性软模板注意力系数,下标“-1”代表隐层中最后一个元素,η0是一个多层感知器,使用tanh作为激活函数。
Step3.2、把模型学习到的核心词性信息融入原句子隐层向量;将Step3.1计算出的词性软模板注意力系数
Figure BDA00024767217700000210
融进原句子隐向量中,得到融合词性信息的原文上下文语义向量oi,具体计算方法如公式(2)所示:
Figure BDA00024767217700000211
进一步地,所述步骤Step4中,具体包括:
将得到的融合词性的原文上下文语义向量oi与词性软模板隐藏层向量
Figure BDA00024767217700000212
进行融合,向量融合过程中采用了线性相加的方式,如公式(3)所示:
Figure BDA0002476721770000031
向量融合后得到解码端的输入hi,hi表示融合了词和词性的高层语义表达。
进一步地,所述步骤Step5中,具体包括:
首先计算出解码端i时刻的注意力系数值αt,i,如公式(4)和公式(5)所示:
Figure BDA0002476721770000032
Figure BDA0002476721770000033
其中st-1表示解码器的隐状态,下标“t-1”代表当前隐状态的前一个状态,Wa是神经网络模型学习到的权重矩阵,hi表示融合了词和词性的高层语义表达;
然后计算出上下文向量ct和最终用于解码的向量st,如公式(6)和公式(7)所示:
Figure BDA0002476721770000034
st=LSTM(yt-1,st-1,Ct-1) (7)
其中C是LSTM中的细胞状态,y表示预测的单词;
最终计算出词典内每个单词的概率Pvocab,输出预测单词完成解码,具体过程如公式(8)所示:
Pvocab=softmax(g([ct;st]))(8)
其中g(·)代表一个非线性函数。
本发明的有益效果是:
1.本发明基于仿写思想,将原文对应的词性标注序列当作词性软模板融入模型,该软模板能为句子结构的学习提供参考;
2.本发明提出的词性软模板注意力机制可以让模型学习合理的词性组合方式,词性组合对句子结构有约束作用,该机制最终引导模型生成结构清晰的摘要;
3.本发明中模型的解码端综合模型学习到的核心词性信息和原文内容进行解码,生成的摘要语义更加完整。
附图说明
图1为本发明中的模型总体流程图;
图2为本发明中的流程图。
具体实施方式
实施例1:如图1-2所示,基于词性软模板注意力机制的短文本自动摘要方法,本发明的主要思想是:首先对文本进行词性标记,将标出的词性序列视为文本的词性软模板,指导模型学习构造摘要句的结构规范,在模型的编码端实现词性软模板的表征,然后引入词性软模板注意力机制,将文中名词、动词等词性序列以注意力的方式增强模型对核心词性的关注,最后在解码端联合词性软模板注意力与传统注意力产生摘要句;本发明提出在构建神经网络摘要生成框架时,加入词性软模板注意力机制,指导模型学习合理的词性组合方式,辅助生成结构清晰且语义完整的摘要。本发明有效提升了生成式摘要的性能,在当前ROUGE评价指标上取得了较好的效果;本发明的具体步骤如下:
Step1、使用词性标注工具NLTK对英文语料Gigaword进行词性标注,用pyhanlp对自己收集的司法领域中文语料进行分词与词性标注,将词性序列视为原句的词性软模板;以一个英文句子为例,使用词性标注工具NLTK对其进行词性标注,具体如下表1所示:
表1原文及其词性标注示例
原句子 Sri lanka closes schools as war escalates
原句子的词性标注序列 NN NN VBZ NNS IN NN NNS
词性标注序列对句中的单词词性进行了标识,其中NN代表名词,NNS代表名词复数,VBZ代表动词第三人称时态,IN代表介词连词;
Step2、将原句子及其对应的词性软模板分别在双向LSTM中进行编码,分别得到原文上下文语义向量与词性软模板隐藏层向量;
进一步地,所述步骤Step2中,具体包括:
(1)原句子编码:双向LSTM由前向和后向两个隐状态组成,原句子x的前向隐状态和后向隐状态的输出被分别表示成
Figure BDA0002476721770000041
Figure BDA0002476721770000042
下标“-1”代表隐状态中最后一个元素,i时刻原句中某个词的隐状态就形如
Figure BDA0002476721770000043
而整个原句子的原文上下文语义向量最终被完整地表示成
Figure BDA0002476721770000051
(2)词性软模板编码:词性软模板r经过双向LSTM编码后,整个词性软模板的隐藏层向量最终被完整地表示成
Figure BDA0002476721770000052
Step3、引入词性软模板注意力机制,计算出词性软模板注意力系数,并将模型学习到的核心词性信息融入原句子隐层向量中,得到融合词性的原文上下文语义向量;
进一步地,所述步骤Step3的具体步骤为:
Step3.1、引入词性软模板注意力机制;注意力机制的关键在于对注意力系数进行计算,词性软模板注意力系数
Figure BDA0002476721770000053
具体计算方法如公式(1)所示:
Figure BDA0002476721770000054
x表示原句子,r表示词性软模板,利用涵盖原文全局信息的隐向量
Figure BDA0002476721770000055
和每个时间步i下的词性隐向量
Figure BDA0002476721770000056
计算词性软模板注意力系数,下标“-1”代表隐层中最后一个元素,η0是一个多层感知器,使用tanh作为激活函数。
Step3.2、把模型学习到的核心词性信息融入原句子隐层向量;将Step3.1计算出的词性软模板注意力系数
Figure BDA0002476721770000057
融进原句子隐向量中,得到融合词性信息的原文上下文语义向量oi,具体计算方法如公式(2)所示:
Figure BDA0002476721770000058
Step4、将融合词性的原文上下文语义向量与词性软模板隐藏层向量进行融合;得到融合了词和词性的高层语义表达向量,将其作为解码端的输入向量;
进一步地,所述步骤Step4中,具体包括:
将得到的融合词性的原文上下文语义向量oi与词性软模板隐藏层向量
Figure BDA0002476721770000059
进行融合,向量融合过程中采用了线性相加的方式,如公式(3)所示:
Figure BDA00024767217700000510
向量融合后得到解码端的输入hi,hi表示融合了词和词性的高层语义表达。
Step5、利用带有传统注意力机制的单向LSTM解码出文摘。
进一步地,所述步骤Step5中,具体包括:
首先计算出解码端i时刻的注意力系数值αt,i,如公式(4)和公式(5)所示:
Figure BDA0002476721770000061
Figure BDA0002476721770000062
其中st-1表示解码器的隐状态,下标“t-1”代表当前隐状态的前一个状态,Wa是神经网络模型学习到的权重矩阵,hi表示融合了词和词性的高层语义表达;
然后计算出上下文向量ct和最终用于解码的向量st,如公式(6)和公式(7)所示:
Figure BDA0002476721770000063
st=LSTM(yt-1,st-1,Ct-1) (7)
其中C是LSTM中的细胞状态,y表示预测的单词;
最终计算出词典内每个单词的概率Pvocab,输出预测单词完成解码,具体过程如公式(8)所示:
Pvocab=softmax(g([ct;st])) (8)
其中g(·)代表一个非线性函数。
本实施中的方法针对短文本的摘要生成,使用的数据集为英文公共数据集Gigaword和自已收集的中文司法领域数据集,表2展示了这两个数据集的详细情况。
表2为Gigaword和司法领域数据集的详细情况
Figure BDA0002476721770000064
Figure BDA0002476721770000071
收集司法领域数据集时,从新浪微博爬取了约468k条包括微博正文及标题的新闻文本,经筛选、过滤处理后,构造出司法领域数据集。
由于不同词性标注工具对中英语料处理各有优势,所以本实施中的方法使用词性标注工具NLTK对英文语料Gigaword进行词性标注,用pyhanlp对自己收集的司法领域中文语料进行分词与词性标注。
本实施中的方法采用基于召回率统计的ROUGE评价方法来进行模型性能的评估。ROUGE主要用来计算模型产生的文摘与标准文摘之间的一元词、二元词及最长公共子串等的重叠率。本实施中的方法通过分析ROUGE评测标准中的ROUGE-1、ROUGE-2、ROUGE-L的F值来进行实验结果的评价。
本实施中的方法使用PyTorch深度学习框架来编写模型。在NVIDIA Tesla K40mGPU上进行实验。原文本词典大小限制为50k。词嵌入向量和LSTM的隐藏层向量维度都为512维,考虑到原文对应词性的词典规模太小,故将词性的词向量维度设为30维。编码端与解码端的LSTM都采用三层结构。训练阶段,使用带默认参数的Adam优化器,学习率在每一轮的训练过程中折半进行衰减。批处理大小设置为64,dropout为0.3。
为了说明本发明的性能,实验设置了3组对比实验。第一组实验验证在英文数据集Gigaword上本发明方法和7个基准实验性能,实验结果见表3;第二个实验验证在英文数据集Gigaword上词性软模板和词性软模板注意力对模型性能提升的效果,实验结果见表4;第三个实验验证在自收集的中文司法领域数据集上词性软模板和词性软模板注意力对模型性能提升的效果,实验结果见表5。
表3本发明方法在英文数据集Gigaword上与其他模型实验对比结果
Model ROUGE-1 ROUGE-2 ROUGE-L
ABS 29.55 11.32 26.42
ABS+ 29.76 11.88 26.96
Luong-NMT 33.10 14.45 30.71
Feats2s 32.67 15.59 30.64
SEASS 36.15 17.54 33.63
FTSum 37.27 17.65 34.24
Re<sup>3</sup>Sum 37.04 19.03 34.46
seq2seq(base) 33.30 16.21 30.08
+POSTemp_Att<sub>+</sub> 37.39 17.56 34.16
其中seq2seq(base)表示本发明使用的基础模型,在seq2seq(base)上加入本发明方法后得到POSTemp_Att+模型。
表3的实验数据说明:本发明方法在ROUGE-1分数上达到了最好结果。相较于seq2seq(base)模型,POSTemp_Att+在ROUGE-1、ROUGE-2、ROUGE-L上分别提高了4.09、1.35、4.08个百分点,说明本发明方法是有效的。
表4本发明方法在英文数据集Gigaword上词性软模板和词性软模板注意力有效性实验对比结果
Model ROUGE-1 ROUGE-2 ROUGE-L
seq2seq(base) 33.30 16.21 30.08
+POSTemp 34.91 16.67 32.27
+POSTemp_Att<sub>+</sub> 37.39 17.56 34.16
首先在基础模型上加入词性软模板POSTemp,接着在上一步基础上加入词性软模板注意力机制POSTemp_Att+
表4的实验数据说明:在基础模型上加入POSTemp后,相较于seq2seq(base),模型在ROUGE-1、ROUGE-2、ROUGE-L上分别提高了1.61、0.46、2.19个百分点,说明词性软模板对辅助摘要的生成是有效的,它在模型生成摘要过程中发挥了一定的参考作用;加入POSTemp_Att+后,相较于POSTemp,模型在ROUGE-1、ROUGE-2、ROUGE-L上分别提高了2.48、0.89、1.89个百分点,说明本发明提出的词性软模板注意力机制是有效的,该机制能帮助模型捕获合理的词性组合方式,生成结构更优的摘要句。
表5本发明方法在自收集的中文司法领域数据集上词性软模板和词性软模板注意力有效性实验对比结果
Model ROUGE-1 ROUGE-2 ROUGE-L
seq2seq(base) 39.19 21.05 35.77
+POSTemp 41.41 23.43 38.12
+POSTemp_Att<sub>+</sub> 43.27 27.22 40.55
表5的实验数据说明:在基础模型上加入POSTemp后,相较于seq2seq(base),模型在ROUGE-1、ROUGE-2、ROUGE-L上分别提高了2.22、2.38、2.35个百分点;加入POSTemp_Att+后,相较于POSTemp,模型在ROUGE-1、ROUGE-2、ROUGE-L上分别提高了1.86、3.79、2.43个百分点,说明本发明方法同样适用于中文语料。
以上实验数据结果表明本发明方法在短文本摘要任务上取得了较好的结果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.基于词性软模板注意力机制的短文本自动摘要方法,其特征在于:具体步骤如下:
Step1、使用开源的词性标注工具将原句子进行词性标注,将词性序列视为原句的词性软模板;
Step2、将原句子及其对应的词性软模板分别在双向LSTM中进行编码,分别得到原文上下文语义向量与词性软模板隐藏层向量;
Step3、引入词性软模板注意力机制,计算出词性软模板注意力系数,并将模型学习到的核心词性信息融入原句子隐层向量中,得到融合词性的原文上下文语义向量;
Step4、将融合词性的原文上下文语义向量与词性软模板隐藏层向量进行融合;
Step5、利用带有传统注意力机制的单向LSTM解码出文摘。
2.根据权利要求1所述的基于词性软模板注意力机制的短文本自动摘要方法,其特征在于:所述步骤Step2中,具体包括:
(1)原句子编码:双向LSTM由前向和后向两个隐状态组成,原句子x的前向隐状态和后向隐状态的输出被分别表示成
Figure FDA0002476721760000011
Figure FDA0002476721760000012
下标“-1”代表隐状态中最后一个元素,i时刻原句中某个词的隐状态就形如
Figure FDA0002476721760000013
而整个原句子的原文上下文语义向量最终被完整地表示成
Figure FDA0002476721760000014
(2)词性软模板编码:词性软模板r经过双向LSTM编码后,整个词性软模板的隐藏层向量最终被完整地表示成
Figure FDA0002476721760000015
3.根据权利要求1所述的基于词性软模板注意力机制的短文本自动摘要方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、引入词性软模板注意力机制;注意力机制的关键在于对注意力系数进行计算,词性软模板注意力系数
Figure FDA0002476721760000016
具体计算方法如公式(1)所示:
Figure FDA0002476721760000017
x表示原句子,r表示词性软模板,利用涵盖原文全局信息的隐向量
Figure FDA0002476721760000018
和每个时间步i下的词性隐向量
Figure FDA0002476721760000021
计算词性软模板注意力系数,下标“-1”代表隐层中最后一个元素,η0是一个多层感知器,使用tanh作为激活函数。
Step3.2、把模型学习到的核心词性信息融入原句子隐层向量;将Step3.1计算出的词性软模板注意力系数
Figure FDA0002476721760000022
融进原句子隐向量中,得到融合词性信息的原文上下文语义向量oi,具体计算方法如公式(2)所示:
Figure FDA0002476721760000023
4.根据权利要求1所述的基于词性软模板注意力机制的短文本自动摘要方法,其特征在于:所述步骤Step4中,具体包括:
将得到的融合词性的原文上下文语义向量oi与词性软模板隐藏层向量
Figure FDA0002476721760000024
进行融合,向量融合过程中采用了线性相加的方式,如公式(3)所示:
Figure FDA0002476721760000025
向量融合后得到解码端的输入hi,hi表示融合了词和词性的高层语义表达。
5.根据权利要求1所述的基于词性软模板注意力机制的短文本自动摘要方法,其特征在于:所述步骤Step5中,具体包括:
首先计算出解码端i时刻的注意力系数值αt,i,如公式(4)和公式(5)所示:
Figure FDA0002476721760000026
Figure FDA0002476721760000027
其中st-1表示解码器的隐状态,下标“t-1”代表当前隐状态的前一个状态,Wa是神经网络模型学习到的权重矩阵,hi表示融合了词和词性的高层语义表达;
然后计算出上下文向量ct和最终用于解码的向量st,如公式(6)和公式(7)所示:
Figure FDA0002476721760000028
st=LSTM(yt-1,st-1,Ct-1) (7)
其中C是LSTM中的细胞状态,y表示预测的单词;
最终计算出词典内每个单词的概率Pvocab,输出预测单词完成解码,具体过程如公式(8)所示:
Pvocab=softmax(g([ct;st])) (8)
其中g(·)代表一个非线性函数。
CN202010366742.1A 2020-04-30 2020-04-30 基于词性软模板注意力机制的短文本自动摘要方法 Active CN111709230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010366742.1A CN111709230B (zh) 2020-04-30 2020-04-30 基于词性软模板注意力机制的短文本自动摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010366742.1A CN111709230B (zh) 2020-04-30 2020-04-30 基于词性软模板注意力机制的短文本自动摘要方法

Publications (2)

Publication Number Publication Date
CN111709230A true CN111709230A (zh) 2020-09-25
CN111709230B CN111709230B (zh) 2023-04-07

Family

ID=72536444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010366742.1A Active CN111709230B (zh) 2020-04-30 2020-04-30 基于词性软模板注意力机制的短文本自动摘要方法

Country Status (1)

Country Link
CN (1) CN111709230B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743133A (zh) * 2021-08-20 2021-12-03 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308089A (ja) * 2002-04-16 2003-10-31 Nippon Telegr & Teleph Corp <Ntt> 隠れマルコフモデル作成装置、方法、プログラム、記録媒体および音声認識装置、方法、プログラム、記録媒体
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法
WO2018153265A1 (zh) * 2017-02-23 2018-08-30 腾讯科技(深圳)有限公司 关键词提取方法、计算机设备和存储介质
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法
CN110334213A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN110489541A (zh) * 2019-07-26 2019-11-22 昆明理工大学 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN110807069A (zh) * 2019-10-23 2020-02-18 华侨大学 一种基于强化学习算法的实体关系联合抽取模型构建方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308089A (ja) * 2002-04-16 2003-10-31 Nippon Telegr & Teleph Corp <Ntt> 隠れマルコフモデル作成装置、方法、プログラム、記録媒体および音声認識装置、方法、プログラム、記録媒体
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法
WO2018153265A1 (zh) * 2017-02-23 2018-08-30 腾讯科技(深圳)有限公司 关键词提取方法、计算机设备和存储介质
CN109522403A (zh) * 2018-11-05 2019-03-26 中山大学 一种基于融合编码的摘要文本生成方法
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN110032729A (zh) * 2019-02-13 2019-07-19 北京航空航天大学 一种基于神经图灵机的自动摘要生成方法
CN110334213A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN110489541A (zh) * 2019-07-26 2019-11-22 昆明理工大学 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法
CN110619043A (zh) * 2019-08-30 2019-12-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于动态词向量的自动文本摘要生成方法
CN110807069A (zh) * 2019-10-23 2020-02-18 华侨大学 一种基于强化学习算法的实体关系联合抽取模型构建方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHOPRA S. 等: "Abstractive Sentence Summarization with Attentive Recurrent Neural Networks", 《PROCEEDINGS OF THE 2016 CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES》 *
NALLAPATI R. 等: "Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond", 《ARXIV》 *
NALLAPATI RAMESH 等: "Abstractive text summarization using sequence-to-sequence rnns and beyond", 《网页在线公开: HTTPS://ARXIV.ORG/ABS/1602.06023》 *
徐灿: "基于非结构化文档的开放域自动问答系统技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
李维勇 等: "一种基于深度学习的中文生成式自动摘要方法", 《广西师范大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743133A (zh) * 2021-08-20 2021-12-03 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法
CN113743133B (zh) * 2021-08-20 2023-10-17 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法

Also Published As

Publication number Publication date
CN111709230B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN107133211B (zh) 一种基于注意力机制的作文评分方法
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN104331451B (zh) 一种基于主题的网络用户评论的推荐度评分方法
CN107315737A (zh) 一种语义逻辑处理方法及系统
CN111581474B (zh) 基于多头注意力机制的涉案微博评论的评价对象抽取方法
CN104281645A (zh) 一种基于词汇语义和句法依存的情感关键句识别方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
Cheng et al. Ssvmr: Saliency-based self-training for video-music retrieval
CN112328782B (zh) 一种融合图像过滤器的多模态摘要生成方法
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
Jiang et al. Research on sentiment classification for netizens based on the BERT-BiLSTM-TextCNN model
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN112487151A (zh) 文案生成方法及装置、存储介质与电子设备
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
Fang et al. From spoken dialogue to formal summary: An utterance rewriting for dialogue summarization
CN111709230B (zh) 基于词性软模板注意力机制的短文本自动摘要方法
Lin et al. Multi-modal feature fusion with feature attention for VATEX captioning challenge 2020
CN112364225B (zh) 一种结合用户评论的司法舆情文本摘要方法
Luo et al. A frustratingly simple approach for end-to-end image captioning
CN112287687B (zh) 基于案件属性感知的案件倾向性抽取式摘要方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant