CN111241816A - 一种新闻标题自动生成方法 - Google Patents

一种新闻标题自动生成方法 Download PDF

Info

Publication number
CN111241816A
CN111241816A CN202010073302.7A CN202010073302A CN111241816A CN 111241816 A CN111241816 A CN 111241816A CN 202010073302 A CN202010073302 A CN 202010073302A CN 111241816 A CN111241816 A CN 111241816A
Authority
CN
China
Prior art keywords
news
sequence
hidden state
training
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010073302.7A
Other languages
English (en)
Other versions
CN111241816B (zh
Inventor
罗成
蒋宗礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010073302.7A priority Critical patent/CN111241816B/zh
Publication of CN111241816A publication Critical patent/CN111241816A/zh
Application granted granted Critical
Publication of CN111241816B publication Critical patent/CN111241816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明是一种新闻标题自动生成方法,利用从新闻网站抽取的新闻数据,使用深度学习框架和融合训练方法生成高质量的新闻标题。具体包括以下步骤:(1)获取新闻文本数据,对新闻文本数据处理并划分数据集;(2)对新闻文本数据进行预处理,生成词向量词典;(3)构建编‑解码网络,其中编码器网络进行编码,解码网络对编码进行解码;(4)利用融合方法对编‑解码网络进行训练,把待分析新闻数据输入训练完成的编‑解码网络生成新闻标题。本发明方法对新闻文本数据的理解更充分,可有效提高新闻文本标题的评价得分,具有广泛的应用场景。

Description

一种新闻标题自动生成方法
技术领域
本发明属于新闻文本处理的技术领域,具体地说,本发明涉及一种新闻标题自动生成方法。
背景技术
当今世界是互联网大数据时代,海量的信息充斥互联网,互联网用户从互联网上获取信息,一般通过主动使用搜索引擎搜索信息、或者被动接受app推送的新闻信息,而这些一般都是通过新闻标题的形式来描述信息内容。因此通过新闻标题这种方式,对新闻标题的关键性、精准性、简短性等提出了高要求和高标准。然而有些人为了吸引眼球和热度,弄虚作假胡夸海口制造虚假标题;还有些人制作信息不严谨,存在标题和新闻内容严重不符合。这些问题的存在导致读者常常从标题打开文本获取信息时,读者花费了大量时间和精力却得不到有价值的、所需要的信息。让用户不仅无法快速获得信息,甚至还造成了大量的信息冗余,导致信息获取效率的大大降低。
目前主要的新闻标题方法主要是新闻标题抽取式方法和生成式方法这两种。新闻标题抽取式一般采用基于统计或者规则的方法,从原新闻中抽取句子出来生成标题,这种方法获得的标题流畅度良好,但是概括性不能让人满意。新闻标题生成式方法,在理解原新闻基础上,按自己的话语生成新的标题,这种方法获得的新闻标题可以概况原文内容,然而流畅性还有问题。
针对新闻标题的存在的这些问题,研究一种新的方法,来获得更流畅,更概括的新闻标题成为了眼下亟需解决的一个技术问题。
发明内容
本发明针对上述现存的问题,提出了一种基于seq2seq+attention框架加融合方法训练的新闻标题自动生成。本发明的所述的模型基于最近几年提出的深度学习encoder-decoder(编码器解码器)框架,运用融合方法对模型进行改进,使其能够获得更多的语义信息,和生成更高质量的新闻标题。
为实现上述发明,本发明的流程如下所示。
(1):获取新闻文本数据,对新闻文本数据处理并划分数据集;
(2):对新闻文本数据进行预处理,生成词向量词典;
(3):构建编-解码网络,其中编码器网络使用双向GRU递归神经网络对预处理后的新闻文本数据进行编码;解码网络利用GRU网络加注意力机制对编码进行解码;
(4):利用融合方法对编-解码网络进行训练,把待分析新闻数据输入训练完成的编-解码网络,根据词汇表和此时的单词概率分布生成新闻标题。
优选的,所述步骤S1包括:
(1.1):从新浪新闻网站爬取新闻数据;
(1.2):只保留新闻文本数据;
(1.3):选取新闻文本数据第一段和第二段作为article,如果内容超过预选取的长度S,则进行截断处理,如果长度不够S,那么就使用0进行填充。
(1.4):选取新闻网页标签中的摘要部分作为title,如果该新闻文本数据没有摘要,则将使用从该新闻文本数据article中抽取第一条作为title。
(1.5):对新闻数据进行划分数据集操作,按照9:1的比例分别对title和article对应划分为训练集和测试集。
优选的,所述步骤S2包括:
对数据集使用分词工具进行分词,使用word2vec词向量工具对新闻文本数据进行词向量化并生成词向量词表。
优选的,所述步骤S3编码器编码包括如下:
(3.1)编码器模型公式如下所示:
rt=σ(wr[ht-1,xt]+br)
zt=σ(wz[ht-1,xt]+bz)
Figure BDA0002377817560000031
Figure BDA0002377817560000032
其中zt表示更新门、rt表示重置门、ht表示输出门、
Figure BDA0002377817560000033
表示候选状态,ht-1表示前一时间步t-1的隐藏状态,xt表示经过步骤2处理后的文本数据,σ表示激活函数sigmoid,tanh表示激活函数,
Figure BDA0002377817560000034
表示权重参数矩阵,
Figure BDA0002377817560000035
表示偏差系数。
(3.2)编码器采用双向结构编码,句子经过步骤2转换成词向量的形式输入编码器,由前向后的GRU网络顺序读句子中的每一个词,得到前向隐藏状态序列
Figure BDA0002377817560000036
从后向前的GRU网络倒序读句中的每一个词,得后向隐藏状态序列
Figure BDA0002377817560000041
把前向网络和后向网络各自的最后一个隐藏状态连接,作为编码器最终编码输出表示S,把编码器得到的编码表示S传递给解码器进行解码,其中S表示如下:
Figure BDA0002377817560000042
其中n表示句子长度,
Figure BDA0002377817560000043
表示向前序列最后的一个隐藏状态,
Figure BDA0002377817560000044
表示后向序列最后的一个隐藏状态,
Figure BDA0002377817560000045
表示连接操作。
(3.3)将前向和后向结构的隐藏状态向量相连接,连接得到的向量作为双向编码器的隐藏状态序列H=(h1,h2,···hn),双向编码器隐藏状态序列(h1,h2,···hn)在解码器中计算上下文向量ct的时候使用,具体计算如下:
Figure BDA0002377817560000046
优选的,所述步骤S3进一步包括解码器解码过程如下:
(3.4):解码器接受编码器最终状态输出表示S,开始进行解码;
(3.5):单向GRU解码器根据当前时间步t的输入yt、解码器前一时间步t-1的隐藏状态mt-1和上下文向量ct生成当前时间步t的隐藏状态mt,计算公式如下:
mt=g(mt-1+yt+ct)
其中(t=0时yt=S,t>0时yt=dt-1),g表示隐藏层的一系列变换,计算如公式(1)-(4);
(3.6):上下文向量ct计算公式如下所示:
Figure BDA0002377817560000051
Figure BDA0002377817560000052
et,j=vT·tanh(w1mt+w2hj)
其中hj表示双向编码器的隐藏状态序列H的第j个隐藏状态,mt表示步骤(4.2)得到的解码器的第t个隐藏状态,et,j表示了mt和hj的对齐相似度;at,j表示对齐相似度进行归一化后获得的hj的权重;(v,w1,w2表示参数矩阵)。
(3.7):根据上下文向量ct及解码器隐藏状态mt生成向量dt
Figure BDA0002377817560000053
其中σ表示激活函数sigmoid,
Figure BDA0002377817560000054
表示参数
Figure BDA0002377817560000055
矩阵,
Figure BDA0002377817560000056
表示偏差系数;
(3.8)将步骤(4.4)的向量dt依次连接全连接层和softmax层,得到输出向量dt在词汇表向量中的概率分布,softmax公式为:
p(pt)=softmax(dt*wk+bk)
其中wk是全连接层的权重矩阵,bk是偏差系数,softmax是softmax()函数,pt表示分布式词向量,p(pt)表示概率分布;
优选的,所述步骤(4)网络训练过程包括如下:
(4.1)在训练RNN做序列生成任务时,最常用的方法为定向比照,在解码的每个时间步以最大化似然估计作为目标进行网络的训练。最大化似然估计等价于最小化下面的损失函数:
Figure BDA0002377817560000061
其中n表示序列长度,
Figure BDA0002377817560000062
表示正确生成标题中第t个单词,xml表示新闻文本训练数据标题标签。
(4.2)设置两种规则,ys是根据分布
Figure BDA0002377817560000063
采样得到的输出序列,yg是根据分布
Figure BDA0002377817560000064
贪婪得到的输出序列,再根据ys和yg计算r(ys)和r(yg),得到奖励期望损失函数Lrl
Figure BDA0002377817560000065
其中xs表示当前输出序列中上一步的输出,
Figure BDA0002377817560000066
表示贪婪搜索生成标题序列过程中,第t步选择p(pt)中概率最大一个,即为输出序列yg中的第t个元素,
Figure BDA0002377817560000067
表示集束搜索生成标题序列过程中,第t步选择p(pt)中概率最大的前k个作为第t步的元素,优选k≤5,直到t=n时选每步概率和最大的序列即为最终输出序列ys,r(*)表示得到的预测标题序列的评价得分,评价得分是指预测标题与title标题使用评价指标ROUGE-1得到的评价分数;
(4.3)合并极大似然Lml和最小化负奖励期望Lrl,得到融合学习方法的最终损失计算函数Llos,γ∈[0,1]是一个比例参数。
Llos=(1-γ)Lml+γLrl
(4.4)使用优化器来对Llos进行迭代优化训练,网络参数循环更新,直到迭代达到目标次数,训练结束,保存训练模型。
优选的,所述步骤(4)进一步包括利用训练好的模型参数生成新闻标题:先构建测试模型,方法如步骤(3.1)-(3.8),再提取训练模型保存的参数给测试模型;然后把待分析新闻数据输入测试模型,根据词汇表和此时的单词概率分布生成新闻标题。
与现有的技术方法相比较,本发明的优点是:
1、利用GRU来进行编码解码,充分利用了递归神经网络长期记忆的同时,可以减少参数,提高运算速度。
2、模型中使用了基于全部权值的注意力机制,考虑到长句子序列中每个词的重要性影响大小不同,将句子的权重信息充分考虑进去,从而在长句子生成新闻标题时充分考虑每一个词的关注度,使得生成的标题对原文的理解更充分。
3、最后使用融合训练方法来进行模型训练,获得生成的标题与目标title的一种动态交互,通过这种交互反馈提高模型训练效果。
本发明基于深度学习模型,加入融合训练方法进行训练,所述方法合理可靠,可以有效的提高新闻标题生成的准确性、流畅性和概括性,具有良好的应用前景。
附图说明
图1本发明实施例的一种新闻标题的自动生成方法的流程图。
图2本发明实施例的新闻文本数据生成词典的流程图
图3本发明实施例的融合方法训练的流程图。
图4本发明实施例的k=3集束搜索采样流程图。
具体实施方式
以下结合具体实施对以上方案做进一步说明。本实施例是用于说明本发明的内容,而不是用来限制本发明的内容。本实施例子中的各个条件可以根据具体实际情况进行其他各个方向的调整。本实施例提供一种新闻标题自动生成方法,通过输入新闻生成标题。完整的流程如图1所示,所设计的融合方法训练流程如图3所示。首先获取新闻数据,进行数据集划分;然后预处理输入文本,使用分词工具对新闻文本数据分词、去除停用词;接着根据word2vec算法,生成一个相应的词向量词典;再接着使用双向编码器对输入序列的词向量编码;紧接着使用解码器GRU加注意力机制进行循环解码;最后使用融合方法训练模型,生成最终新闻标题。以一个新闻数据集为例,本发明的具体实施步骤如下:
步骤(1)获取新闻文本数据,对新闻文本数据处理并划分数据集。步骤(1.1)可以使用现有的一些新闻数据语料,如CNN/Daily-mail、搜狗新闻语料等,也可以选择自行从新闻网站上面爬取新闻数据。这里选择使用爬虫软件从新浪网站上爬取中文新闻数据,得到新闻文本数据。同时新闻数据中也有一些缺陷存在,例如有的新闻数据过于简短,只有一句话,有的有图片没有文本,对于这些新闻数据,我们删除它。另外有些新闻文本数据长篇大论,选取这种新闻文本数据第一段和第二段作为article。
步骤(1.2)选择网页标签类别为title的文本内容作为新闻实际标题。如果该新闻网页标签类别title为空,则将从该新闻数据的article中选取第一条作为该新闻的实际标题。
步骤(1.3)最终得到200000条新闻article和新闻title组合,把它们按照9:1的比例划分为train集和test集。
步骤(2)对新闻文本数据进行预处理,生成词向量词典。
步骤(2.1)将全部新闻文本数据,使用jieba分词工具加载中文停用词表,去除停用词进行分词。对于article句子使用‘,’‘。’‘!’‘?’来进行分句,每一句长度定为22词,如果超过则进行截断处理,如果不够则使用0来进行填充。每一个新闻article不超过10句,新闻title不超过1句。
步骤(2.2)使用word2vec工具,得到向量词典。参数设置如下表所示:
Size Window sg hs iter
300 5 1 1 10
步骤(2.3)词表长度设置为50000,词表维度为300,在词表中添加“BEGIN”“END”“UNK”“PAD”这几个辅助词。在训练和测试阶段都将使用这个词表。
步骤(3)构建编-解码网络,其中编码器网络使用双向GRU递归神经网络对预处理后的新闻文本数据进行编码;解码网络利用GRU网络加注意力机制对编码进行解码;
步骤(3.1)使用步骤3所述的编码器模型。
步骤(3.2)利用步骤2得到的词向量词典来代替句子序列中的词,然后把他们按照句子中词的顺序连接起来成为句子向量序列。编码器采用双向结构编码。前向编码器从句子开头依次输入一个词向量,前向编码器GRU根据输入的词向量、上一时间步的隐藏状态生成当前时间步的隐藏状态从而得到一个的隐藏状态序列
Figure BDA0002377817560000091
后向的编码器GRU从句子最后一个词开始反向依次读入句子中的每个词向量,每一步产生向后的的隐藏状态从而得到一个隐藏状态序列
Figure BDA0002377817560000101
依次把前向编码器的隐藏状态与后向编码器的隐藏状态连接得到双向编码器GRU的双向联合的状态序列。
Figure BDA0002377817560000102
Figure BDA0002377817560000103
Figure BDA0002377817560000104
其中公式(1-1)表示前向编码器的前向计算过程;公式(1-2)表示后向编码器的后向计算过程;公式(1-4)表示前向和后向依次连接的得到双向编码器的各个隐藏状态
步骤(3.3)前向编码器GRU最后一个隐藏状态和后向编码器GRU的最后一个隐藏状态连接起来得到双向编码器GRU最终的输出状态ht。计算公式如下所示:
Figure BDA0002377817560000105
其中公式(1-3)表示前向编码器最后和后向编码器最后一个连接得到编码器最终输出状态,这个状态给解码器;
步骤(3.4)(3.4):解码器接受编码器最终状态输出表示S,开始进行解码;
步骤(3.5)解码器是一个GRU神经网络,解码器在训练、测试、验证阶段接受上一时刻的title输入和上一时刻的隐藏状态生成这一时刻的隐藏状态。解码层第一个数据接受编码器的输出句子向量S,然后解码生成第一个隐藏状态。公式如下:
mt=g(mt-1+yt+ct) (2-1)
其中公式(2-1)表示训练、测试、验证阶段解码器解码生成隐藏状态。
步骤(3.6)注意力采用Bahdanau全注意力方式进行计算。在解码器解码阶段,每一时刻的注意力权重由前一时间步的隐藏状态和编码器各个时间步隐藏状态点乘并做归一化变换去求得ct
步骤(3.7)再将隐藏状态计算输出状态dt
Figure BDA0002377817560000111
其中公式(2-2)表示解码器输出。
步骤(3.8)解码器输出向量dt输入全连接层再接softmax层,得到输出向量dt在词汇表向量中的概率分布p(pt)。
步骤(4)融合方法进行训练如下。
步骤(4.1)极大似然的损失函数:
Figure BDA0002377817560000112
其中n表示序列长度,
Figure BDA0002377817560000113
表示正确生成标题中第t个单词,xml表示新闻文本训练数据标题标签。
步骤(4.2)负奖励期望损失函数Lrl
Figure BDA0002377817560000114
其中xs表示当前输出序列中上一步的输出,
Figure BDA0002377817560000115
表示贪婪搜索生成标题序列过程中,第t步选择p(pt)中概率最大一个,即为输出序列yg中的第t个元素,
Figure BDA0002377817560000121
表示集束搜索生成标题序列过程中,第t步选择p(pt)中概率最大的前k个作为第t步的元素,直到t=n时选每步概率和最大的序列即为最终输出序列ys,r(ys)、r(yg)表示得到的预测标题序列的评价得分,评价得分是指预测标题与title标题使用评价指标ROUGE-1得到的评价分数;
步骤(4.3)合并极大似然Lml和最小化负奖励期望Lrl,得到融合学习方法的最终损失计算函数Llos,γ∈[0,1]是一个比例参数。
Llos=(1-γ)Lml+γLrl
步骤(4.4)优化使用GradientDescentOptimizer优化器,学习率采用0.0005,直到迭代次数结束,模型训练完成,保村训练模型。
步骤(4)进一步包括生成新闻标题:
构建测试模型,方法如步骤(3.1)-(3.8),再提取训练模型保存的参数给测试模型;然后把待分析新闻数据输入测试模型,根据词汇表和此时的单词概率分布生成新闻标题。
为了说明本发明所述方法的优势,在具体实施过程中,我们在多种不同方法上进行对比试验,对比包括Seq2seq+attention+point、Text-rank、Seq2seq、Seq2seq+attention、Seq2seq+attention+my。
其中Seq2seq+attention+my代表本发明所述的方法,Text-rank代表基于机器学习的抽取式新闻标题生成方法,该方法在目前新闻标题中最为常用。另外,实施过程中还选择了广泛使用的基于深度学习端到端框架的Seq2seq+attention方法进行对比实验。
使用DUC--2004数据集,利用ROUGE-1、ROUGE-2、ROUGE-L这些指标数,分析译文和参考译文共同出现的程度。这里面ROUGE-1、ROUGE-2分别表示一元组、二元组,ROUGE-L表示最长子序列共现的程度。
表1、我们的模型和其他生成方法rouge得分结果
Rouge-1 Rouge-2 Rouge-L
Text-rank 24.58 10.92 22.14
Seq2seq 28.98 12.01 28.76
Seq2seq+attention 31.12 12.23 30.52
Seq2seq+attention+point 35.79 14.89 32.18
Seq2seq+attention+my 38.78 17.71 35.61
根据表1所示,本发明的Seq2seq+attention+my方法,在rouge评价指标中几种评估分数相比之前的几种方法各个方面都有了一定的提升,证明本发明方法真实有效。
上述实例只是为了说明本发明的发明特点及发明构思,其目的在于让了解此技术的人员能够获悉本发明的发明内容,但并不能因此而限制本发明的保护范围。凡根据本发明方法所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种新闻标题自动生成方法,其特征在于,包括以下步骤:
(1):获取新闻文本数据,对新闻文本数据处理并划分数据集;
(2):对新闻文本数据进行预处理,生成词向量词典;
(3):构建编-解码网络,其中编码器网络使用双向GRU递归神经网络对预处理后的新闻文本数据进行编码;解码网络利用GRU网络加注意力机制对编码进行解码;
(4):利用融合方法对编-解码网络进行训练,把待分析新闻数据输入训练完成的编-解码网络,根据词汇表和此时的单词概率分布生成新闻标题。
2.根据权利要求1所述的一种新闻标题自动生成方法,其特征在于,所述步骤(1)包括:
(1.1):从新闻网站上爬取新闻数据;
(1.2):只保留新闻文本数据;
(1.3):选取新闻文本数据第一段和第二段作为article,如果内容超过预选取的长度S,则进行截断处理,如果长度不够S,那么就进行0填充;
(1.4):选取新闻网页标签中的摘要部分作为title,如果该新闻文网页标签中没有摘要,则将从该新闻文本数据的article中抽取第一条作为title;
(1.5):对新闻数据进行划分数据集操作,按照9:1的比例分别对title和article对应划分为训练集和测试集。
3.根据权利要求1所述的一种新闻标题自动生成方法,其特征在于,所述步骤(2)进一步包括:
对数据集使用分词工具进行分词,去除停用词,使用word2vec工具对数据进行词向量化生成词表。
4.根据权利要求1所述的一种新闻标题自动生成方法,其特征在于,所述步骤(3)使用双向GRU递归神经网络对预处理后的新闻文本数据进行编码:
(3.1)编码器模型如下所示:
rt=σ(wr[ht-1,xt]+br) (1)
zt=σ(wz[ht-1,xt]+bz) (2)
Figure FDA0002377817550000021
Figure FDA0002377817550000022
其中zt表示更新门、rt表示重置门、ht表示输出门、
Figure FDA0002377817550000023
表示候选状态,ht-1表示前一时间步t-1的隐藏状态,xt表示经过步骤2处理后的文本数据,σ表示激活函数sigmoid,tanh表示激活函数,
Figure FDA0002377817550000024
表示权重参数矩阵,
Figure FDA0002377817550000025
表示偏差系数。
(3.2)编码器采用双向结构编码,句子经过步骤2转换成词向量的形式输入编码器,由前向后的GRU网络顺序读句子中的每一个词,得到前向隐藏状态序列
Figure FDA0002377817550000026
从后向前的GRU网络倒序读句中的每一个词,得后向隐藏状态序列
Figure FDA0002377817550000027
把前向网络和后向网络各自的最后一个隐藏状态连接,作为编码器最终编码输出表示S,把编码器得到的编码表示S传递给解码器进行解码,其中S表示如下:
Figure FDA0002377817550000031
其中n表示句子长度,
Figure FDA0002377817550000032
表示向前序列最后的一个隐藏状态,
Figure FDA0002377817550000033
表示后向序列最后的一个隐藏状态,
Figure FDA0002377817550000034
表示连接操作。
(3.3)将前向和后向结构的隐藏状态向量相连接,连接得到的向量作为双向编码器的隐藏状态序列H=(h1,h2,···hn),双向编码器隐藏状态序列(h1,h2,···hn)在解码器中计算上下文向量ct的时候使用,具体计算如下:
Figure FDA0002377817550000035
5.根据权利要求1所述的一种新闻标题自动生成方法,其特征在于,所述步骤(3)进一步包括解码器解码过程如下:
(3.4):解码器接受编码器最终状态输出表示S,开始进行解码;
(3.5):单向GRU解码器根据当前时间步t的输入yt、解码器前一时间步t-1的隐藏状态mt-1和上下文向量ct生成当前时间步t的隐藏状态mt,计算公式如下:
mt=g(mt-1+yt+ct)
其中,t=0时yt=S,t>0时yt=dt-1,g表示隐藏层的一系列变换,计算如公式(1)-(4);
(3.6)上下文向量ct计算公式如下所示:
Figure FDA0002377817550000036
Figure FDA0002377817550000041
et,m=vT·tahh(w1mt+w2hm)
其中hj表示双向编码器的隐藏状态序列H的第j个隐藏状态,mt表示步骤(3.5)得到的解码器的第t个隐藏状态,et,j表示了mt和hj的对齐相似度;at,j表示对齐相似度进行归一化后获得的hj的权重;v,w1,w2表示参数矩阵;
(3.7):根据上下文向量ct及解码器隐藏状态mt生成输出向量dt
Figure FDA0002377817550000042
其中σ表示激活函数sigmoid,
Figure FDA0002377817550000043
表示参数
Figure FDA0002377817550000044
矩阵,
Figure FDA0002377817550000045
表示偏差系数;
(3.8):向量dt依次连接全连接层和softmax层,得到输出向量dt在词汇表向量中的概率分布,softmax公式为:
p(pt)=soft max(dt*wk+bk)
其中wk是全连接层的权重矩阵,bk是偏差系数,softmax是softmax()函数,pt表示分布式词向量,p(pt)表示概率分布。
6.根据权利要求1所述的一种新闻标题自动生成方法,其特征在于,所述步骤(4)所述的训练过程如下:
(4.1)极大似然的损失函数:
Figure FDA0002377817550000046
其中n表示序列长度,
Figure FDA0002377817550000047
表示正确生成标题中第t个单词,xml表示新闻文本训练数据标题标签。
(4.2)最小化负奖励期望的损失函数Lrl
Figure FDA0002377817550000051
其中xs表示当前输出序列中上一步的输出,
Figure FDA0002377817550000052
表示贪婪搜索生成标题序列过程中,第t步选择p(pt)中概率最大一个,即为输出序列yg中的第t个元素,
Figure FDA0002377817550000053
表示集束搜索生成标题序列过程中,第t步选择p(pt)中概率最大的前k个作为第t步的元素,直到t=n时选每步概率和最大的序列即为最终输出序列ys,r(*)表示得到的预测标题序列的评价得分,评价得分是指预测标题与title标题使用评价指标ROUGE-1得到的评价分数;
(4.3)合并极大似然Lml和最小化负奖励期望Lrl,得到融合学习方法的损失函数Llos,γ∈[0,1]是一个比例参数。
Llos=(1-γ)Lml+γLrl
(4.4)使用优化器来对Llos进行迭代优化训练,网络参数循环更新,直到迭代达到目标次数,训练结束,保存训练模型。
CN202010073302.7A 2020-01-22 2020-01-22 一种新闻标题自动生成方法 Active CN111241816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010073302.7A CN111241816B (zh) 2020-01-22 2020-01-22 一种新闻标题自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010073302.7A CN111241816B (zh) 2020-01-22 2020-01-22 一种新闻标题自动生成方法

Publications (2)

Publication Number Publication Date
CN111241816A true CN111241816A (zh) 2020-06-05
CN111241816B CN111241816B (zh) 2023-10-27

Family

ID=70866947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010073302.7A Active CN111241816B (zh) 2020-01-22 2020-01-22 一种新闻标题自动生成方法

Country Status (1)

Country Link
CN (1) CN111241816B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990385A (zh) * 2019-11-26 2020-04-10 昆明信息港传媒有限责任公司 一套基于Sequence2Sequence的自动生成新闻标题的软件
CN111651970A (zh) * 2020-07-14 2020-09-11 华侨大学 基于表格型数据生成文本的方法、装置、设备及存储介质
CN111898337A (zh) * 2020-07-13 2020-11-06 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CN112417092A (zh) * 2020-11-11 2021-02-26 南京邮电大学 基于深度学习的智能化文本自动生成系统及其实现方法
CN113392639A (zh) * 2020-09-30 2021-09-14 腾讯科技(深圳)有限公司 基于人工智能的标题生成方法、装置及服务器
CN113408780A (zh) * 2021-04-29 2021-09-17 西安交通大学 汽车未来保值率预测方法、系统、设备及可读存储介质
CN113449079A (zh) * 2021-06-25 2021-09-28 平安科技(深圳)有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN115795039A (zh) * 2023-02-08 2023-03-14 成都索贝数码科技股份有限公司 基于深度学习的风格标题生成方法、设备及介质
CN116186420A (zh) * 2023-05-04 2023-05-30 南开大学 一种基于用户偏好的个性化新闻标题生成方法
CN116483990A (zh) * 2023-04-24 2023-07-25 重庆邮电大学 一种基于大数据的互联网新闻内容自动生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329883A1 (en) * 2017-05-15 2018-11-15 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN109800434A (zh) * 2019-01-25 2019-05-24 陕西师范大学 基于眼动注意力的抽象文本标题生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329883A1 (en) * 2017-05-15 2018-11-15 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN109800434A (zh) * 2019-01-25 2019-05-24 陕西师范大学 基于眼动注意力的抽象文本标题生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李国法;陈耀昱;吕辰;陶达;曹东璞;成波;: "智能汽车决策中的驾驶行为语义解析关键技术" *
蒋敏;: "基于深度学习的标题生成方法综述" *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990385A (zh) * 2019-11-26 2020-04-10 昆明信息港传媒有限责任公司 一套基于Sequence2Sequence的自动生成新闻标题的软件
CN111898337A (zh) * 2020-07-13 2020-11-06 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CN111898337B (zh) * 2020-07-13 2024-01-26 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CN111651970A (zh) * 2020-07-14 2020-09-11 华侨大学 基于表格型数据生成文本的方法、装置、设备及存储介质
CN111651970B (zh) * 2020-07-14 2022-07-22 华侨大学 基于表格型数据生成文本的方法、装置、设备及存储介质
CN113392639A (zh) * 2020-09-30 2021-09-14 腾讯科技(深圳)有限公司 基于人工智能的标题生成方法、装置及服务器
CN113392639B (zh) * 2020-09-30 2023-09-26 腾讯科技(深圳)有限公司 基于人工智能的标题生成方法、装置及服务器
CN112417092A (zh) * 2020-11-11 2021-02-26 南京邮电大学 基于深度学习的智能化文本自动生成系统及其实现方法
CN113408780B (zh) * 2021-04-29 2023-06-16 西安交通大学 汽车未来保值率预测方法、系统、设备及可读存储介质
CN113408780A (zh) * 2021-04-29 2021-09-17 西安交通大学 汽车未来保值率预测方法、系统、设备及可读存储介质
CN113449079B (zh) * 2021-06-25 2022-10-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN113449079A (zh) * 2021-06-25 2021-09-28 平安科技(深圳)有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN115795039A (zh) * 2023-02-08 2023-03-14 成都索贝数码科技股份有限公司 基于深度学习的风格标题生成方法、设备及介质
CN115795039B (zh) * 2023-02-08 2023-06-02 成都索贝数码科技股份有限公司 基于深度学习的风格标题生成方法、设备及介质
CN116483990A (zh) * 2023-04-24 2023-07-25 重庆邮电大学 一种基于大数据的互联网新闻内容自动生成方法
CN116186420A (zh) * 2023-05-04 2023-05-30 南开大学 一种基于用户偏好的个性化新闻标题生成方法
CN116186420B (zh) * 2023-05-04 2023-06-27 南开大学 一种基于用户偏好的个性化新闻标题生成方法

Also Published As

Publication number Publication date
CN111241816B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN111241816A (zh) 一种新闻标题自动生成方法
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN109145190B (zh) 一种基于神经机器翻译技术的局部引文推荐方法及系统
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111125367B (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN111723547A (zh) 一种基于预训练语言模型的文本自动摘要方法
CN112487807A (zh) 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN111061861A (zh) 一种基于XLNet的文本摘要自动生成方法
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN113723103A (zh) 融合多源知识的中文医学命名实体和词性联合学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant