CN110298436A - 基于指针生成网络的数据到文本的生成模型 - Google Patents

基于指针生成网络的数据到文本的生成模型 Download PDF

Info

Publication number
CN110298436A
CN110298436A CN201910573445.1A CN201910573445A CN110298436A CN 110298436 A CN110298436 A CN 110298436A CN 201910573445 A CN201910573445 A CN 201910573445A CN 110298436 A CN110298436 A CN 110298436A
Authority
CN
China
Prior art keywords
word
text
sequence
attention
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910573445.1A
Other languages
English (en)
Other versions
CN110298436B (zh
Inventor
琚生根
孙萌欣
刘实
赖星宇
王霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshan Jinmi Industrial Guard Service Co Ltd
Original Assignee
Leshan Jinmi Industrial Guard Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshan Jinmi Industrial Guard Service Co Ltd filed Critical Leshan Jinmi Industrial Guard Service Co Ltd
Priority to CN201910573445.1A priority Critical patent/CN110298436B/zh
Publication of CN110298436A publication Critical patent/CN110298436A/zh
Application granted granted Critical
Publication of CN110298436B publication Critical patent/CN110298436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于指针生成网络的数据到文本的生成模型,包括(1)建立输入层;(2)建立属性注意力机制;(3)建立指针生成网络;(4)建立覆盖机制;(5)建立注意力分布门控;(6)进行训练等步骤。本发明提供基于指针生成网络的数据到文本的生成模型,能够提供基于指针生成网络的数据到文本的生成模型,利用指针生成网络中的拷贝机制解决数据到文本生成中的严重的未登录词和稀有词问题,且引入槽‑值对数据的结构语义知识从而更好地对齐属性和值,在此基础上,不仅引入覆盖机制使模型更多地关注未表达的属性值在一定程度上保证表达的完整性,还引入注意力分布门控调整注意力分布的尖锐度,更好地对齐槽‑值对数据与生成的文本。

Description

基于指针生成网络的数据到文本的生成模型
技术领域
本发明属于计算机领域,具体是指基于指针生成网络的数据到文本的生成模型。
背景技术
自然语言生成和自然语言理解是自然语言处理的两个主要技术领域。自然语言理解(如命名实体识别等)的目标是帮助机器更好地理解自然语言。不同于自然语言理解任务,自然语言生成任务的目标是帮助机器生成人类能够理解的自然语言。自然语言生成包括文本到文本生成,如机器翻译、文本摘要等;非结构化数据的文本生成,如图片标题生成等;数据到文本生成。
数据到文本生成其输入为槽-值对数据,输出为表达槽-值对数据的文本。其在现实中被广泛应用,如根据体育比赛数据生成新闻、根据LinkedIn数据生成用户档案等,与人工生成文本相比更高效。
目前数据到文本生成的研究方法大致分为两种,一种是基于规则或统计的方法,其采用流水线结构,主要包括内容规划(确定句子的整体结构)、句子规划(确定单词形式)、句子实现(类似于润色)等阶段。流水线结构需要逐步搭建和调优,容易造成错误累积,并且不能够捕获不同阶段之间的交互。基于简单规则的方法通过设计并填充模板以生成文本,然而设计模板需依赖专家或领域知识,且在复杂情况下几乎不可能涵盖所有的规则,扩展性较差。基于统计的方法通过从历史数据中学习模板来减少时间成本。但是,统计方法容易产生错误的文本,不能满足整合信息的要求。另一种是基于注意力机制的编码器-解码器模型,该模型以端到端的方式对内容规划和句子规划进行联合训练。该类研究工作未充分考虑从槽-值对数据生成文本相关的任务背景,生成的文本的质量仍有待提升。
发明内容
本发明的目的在于克服上述问题,提供基于指针生成网络的数据到文本的生成模型,利用指针生成网络中的拷贝机制解决数据到文本生成中的严重的未登录词和稀有词问题,且引入槽-值对数据的结构语义知识从而更好地对齐属性和值,在此基础上,不仅引入覆盖机制使模型更多地关注未表达的属性值在一定程度上保证表达的完整性,还引入注意力分布门控调整注意力分布的尖锐度,更好地对齐槽-值对数据与生成的文本。
本发明的目的通过下述技术方案实现:
基于指针生成网络的数据到文本的生成模型,包括以下建立步骤:
(1)建立输入层;
(2)建立属性注意力机制;
(3)建立指针生成网络;
(4)建立覆盖机制;
(5)建立注意力分布门控;
(6)进行训练;
(7)完成预测。
步骤(1)的具体方式为:
令模型输入序列为x,目标输出文本为y={y1,y2,…,yT},其中yt是在t时刻生成的单词,设T为目标文本的长度,即T为文本最后一个词的时刻,t为文本中某一个时刻;
基础模型将属性-值对序列看作一个顺序序列作为输入,输入序列词嵌入为x=[s1,v1,1,…,v1,k,…,si,vi,1,…,vi,k′,…],其中,si表示第i个属性名,vi表示si对应的属性值序列;
本文模型将值词嵌入序列和属性词嵌入序列进行拼接得到序列x=[(s1,v1),…,(sJ,vJ)],其中[v1,…,vJ]是值词嵌入序列,[s1,…,sJ]是值序列对应的属性名词嵌入序列,设J为序列长度,j则为(1,……,J)中任意一个序列;
利用LSTM对x进行编码来初始化解码器隐藏状态
步骤(2)的具体方式为:
在解码时间步t计算每个属性-值对和解码器隐藏状态的注意力分数et,j
其中Wh、Ws、Wv为神经网络的权重,be为神经网络的偏差参数;并进行归一化得到注意力权重,表示每个属性-值对与生成的目标词的相关程度,权重越高表示越相关:
其中分母为exp(et,k)的累加,下标k从1到J;
然后,分别为属性序列和值序列构建对应的上下文向量,得到
利用属性名序列和属性值序列的上下文向量和解码器隐藏状态计算注意力隐藏状态,以此加入属性信息的控制:
其中Wz为神经网络的权重,bz为神经网络的偏差参数。
步骤(3)的具体方式为:
在解码过程中,输入中的单词Vx动态地扩展固定词汇表V,包括起始符号<sos>、终止符号<eos>和特殊的空字符<unk>,即Vext=V∪Vx,得到扩展词汇表Vext
模型在扩展词汇表上的概率分布由固定词汇表上的概率分布Pg(yt)和输入序列上的注意力分布Pc(yt)插值得到;
其中,pgen,t∈(0,1)是生成概率,其利用上下文向量解码器隐藏状态以及上一时间步解码器输出yt-1计算;
其中Ws,s、Ws,v、Ws,h、Wy为神经网络的权重,bs为神经网络的偏差参数;
固定词汇表上的概率分布Pg(yt)计算为:
其中Wd2v为神经网络的权重,bd2v为神经网络的偏差参数;
输入序列上的注意力分布Pc(yt)是所有出现的目标词的注意力权重之和:
可以看出,如果yt是一个未登录词,则Pg(yt)为0;同样如果yt没有出现在输入样本中,则Pc(yt)为0。
步骤(4)的具体方式为:
在每个解码时间步t构建一个覆盖向量向量的每个维度表示每个输入词在未来要表达的程度,覆盖向量每个维度初始化为1;
覆盖向量的更新方式为,在覆盖向量的每个维度上使用初始值减去该维度上的所有先前解码时间步的注意力权重之和:
其中Φj表示xj生成单词的个数,其定义为:
N∈是预定义的常量,表示输入词可以生成目标词数的最大值,是编码隐藏状态;
注意力分数计算为:
其中Wh、Ws、Wv为神经网络的权重,be为神经网络的偏差参数;
一个输入词未表达的信息越多,其覆盖向量对应的值越大,覆盖向量作为注意力分数计算公式的系数,未表达信息越多的词的系数越大,其相应的注意力分数就越大。
步骤(5)的具体方式为:
首先计算时间步t的门控参数τt,其根据分别表示将要表达的信息和已表达的信息的当前时间步的解码信息以及前一时间步的上下文向量来学习,在第一个解码时间步用解码器初始状态进行初始化:
其中Wz,s、Wz,v、Wz,h为神经网络的权重,λ为一个大于1的超参数,τt的范围是(1/λ,λ);
新的注意力分布计算为:
可以看出,当门控值增大时,注意力分布更平滑;当门控值减小时,注意力分布更尖锐。
步骤(6)的具体公式为:
在训练阶段,根据最大似然估计,最大化标签序列基于输入序列的条件概率:
损失函数即为:
步骤7的具体方式为:
预测阶段的目标是找到一个最优输出序列满足:
其中Y表示所有可能生成的文本的集合;
预测阶段采用束搜索算法:其从左到右生成序列在每个解码时间步保留条件概率最大的前束宽个词。
本发明与现有技术相比,具有以下优点及有益效果:
本发明相较于现有技术,采用指针生成网络既可以从输入中拷贝单词,又可以从固定词汇表生成单词,同时缓解未登录词和稀有词问题,并且提出基于属性的注意力机制加入属性信息的控制,引入覆盖机制利用历史注意力信息计算注意力分数使模型更多地考虑未表达的属性值,利用注意力分布门控动态地控制注意力分布的尖锐程度,以将输入属性-值对数据与生成的描述之间更好地对齐,在E2E数据集上进一步提高了文本生成的质量,很好的从准确性和完整性方面提升模型效果。
具体实施方式
下面结合实施例对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例
基于指针生成网络的数据到文本的生成模型,包括以下建立步骤:
(1)建立输入层;
具体方式为:
令模型输入序列为x,目标输出文本为y={y1,y2,…,yT},其中yt是在t时刻生成的单词,设T为目标文本的长度,即T为文本最后一个词的时刻,t为文本中某一个时刻;
基础模型将属性-值对序列看作一个顺序序列作为输入,输入序列词嵌入为x=[s1,v1,1,…,v1,k,…,si,vi,1,…,vi,k′,…],其中,si表示第i个属性名,vi表示si对应的属性值序列;
本文模型将值词嵌入序列和属性词嵌入序列进行拼接得到序列x=[(s1,v1),…,(sJ,vJ)],其中[v1,…,vJ]是值词嵌入序列,[s1,…,sJ]是值序列对应的属性名词嵌入序列,设J为序列长度,j则为(1,……,J)中任意一个序列;
利用LSTM对x进行编码来初始化解码器隐藏状态
LSTM为长短期记忆网络,是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM为本领域的现有技术,在此便不进行赘述。
(2)建立属性注意力机制;
具体方式为:
在解码时间步t计算每个属性-值对和解码器隐藏状态的注意力分数et,j
其中Wh、Ws、Wv为神经网络的权重,be为神经网络的偏差参数;并进行归一化得到注意力权重,表示每个属性-值对与生成的目标词的相关程度,权重越高表示越相关:
其中分母为exp(et,k)的累加,下标k从1到J;
然后,分别为属性序列和值序列构建对应的上下文向量,得到
利用属性名序列和属性值序列的上下文向量和解码器隐藏状态计算注意力隐藏状态,以此加入属性信息的控制:
其中Wz为神经网络的权重,bz为神经网络的偏差参数。
(3)建立指针生成网络;
具体方式为:
在解码过程中,输入中的单词Vx动态地扩展固定词汇表V,包括起始符号<sos>、终止符号<eos>和特殊的空字符<unk>,即Vext=V∪Vx,得到扩展词汇表Vext
模型在扩展词汇表上的概率分布由固定词汇表上的概率分布Pg(yt)和输入序列上的注意力分布Pc(yt)插值得到;
其中,pgen,t∈(0,1)是生成概率,其利用上下文向量解码器隐藏状态以及上一时间步解码器输出yt-1计算;
其中Ws,s、Ws,v、Ws,h、Wy为神经网络的权重,bs为神经网络的偏差参数;
固定词汇表上的概率分布Pg(yt)计算为:
其中Wd2v为神经网络的权重,bd2v为神经网络的偏差参数;
输入序列上的注意力分布Pc(yt)是所有出现的目标词的注意力权重之和:
可以看出,如果yt是一个未登录词,则Pg(yt)为0;同样如果yt没有出现在输入样本中,则Pc(yt)为0。
指针生成(pointer-generator)网络,其通过对词汇表上的概率分布和输入序列中注意力分布插值生成最终概率分布,既具有从输入中拷贝单词的能力,又保留了从固定词汇表生成单词的能力,同时缓解了未登录词和稀有词问题。
(4)建立覆盖机制;
具体方式为:
在每个解码时间步t构建一个覆盖向量向量的每个维度表示每个输入词在未来要表达的程度,覆盖向量每个维度初始化为1;
覆盖向量的更新方式为,在覆盖向量的每个维度上使用初始值减去该维度上的所有先前解码时间步的注意力权重之和:
其中Φj表示xj生成单词的个数,其定义为:
N∈是预定义的常量,表示输入词可以生成目标词数的最大值,是编码隐藏状态;
注意力分数计算为:
其中Wh、Ws、Wv为神经网络的权重,be为神经网络的偏差参数;
一个输入词未表达的信息越多,其覆盖向量对应的值越大,覆盖向量作为注意力分数计算公式的系数,未表达信息越多的词的系数越大,其相应的注意力分数就越大。
覆盖机制利用历史注意力信息计算注意力分数使模型更多地考虑未表达的属性值。
(5)建立注意力分布门控;
具体方式为:
首先计算时间步t的门控参数τt,其根据分别表示将要表达的信息和已表达的信息的当前时间步的解码信息以及前一时间步的上下文向量来学习,在第一个解码时间步用解码器初始状态进行初始化:
其中Wz,s、Wz,v、Wz,h为神经网络的权重,λ为一个大于1的超参数,τt的范围是(1/λ,λ);
新的注意力分布计算为:
可以看出,当门控值增大时,注意力分布更平滑;当门控值减小时,注意力分布更尖锐。
注意力分布函数(通常为softmax)将注意力分数映射为注意力权重,在大多数情况下,生成词只与部分的输入词相关,与其他输入词完全不相关,这些不相关的词可能会引入噪声而不是提供有用的信息。因此,注意力分布应该是稀疏且尖锐的,稀疏表示大多数输入词的注意力权重接近0,尖锐则表示与生成词最相关的输入词的注意力权重应尽可能大。
句子中的实词和虚词分别与句子的语义和语法相关,注意力分布门控使模型根据生成词的类型自动调整注意力分布的尖锐程度,即使得生成虚词时注意力分布更平滑以捕获语法信息,生成实词时注意力分布更尖锐以捕获语义的信息。
(6)进行训练;
具体公式为:
在训练阶段,根据最大似然估计,最大化标签序列基于输入序列的条件概率:
损失函数即为:
(7)完成预测;
具体方式为:
预测阶段的目标是找到一个最优输出序列满足:
其中Y表示所有可能生成的文本的集合;
预测阶段采用束搜索算法:其从左到右生成序列在每个解码时间步保留条件概率最大的前束宽个词。
实验例
本实验例采用Heriot-Watt大学在SIGDIAL 2017上发表的论文The E2E Dataset:New Challenges For End-to-End Generation中介绍的面向餐馆领域的E2E数据集,旨在训练端到端、数据驱动自然语言生成系统。
在E2E数据集中,输入是由描述餐馆的三到八个属性-值对组成的MR(MeaningRepresentation),输出是用自然语言表达的关于该输入餐馆的描述。
表1显示了E2E数据集的一个由八个属性-值对组成的示例样本:
表1
数据集以76.5:8.5:15比例划分为训练集、验证集和测试集,如表2所示:
训练集 验证集 测试集
样本 42061 4672 4693
MRs 4862 547 630
表2
在PyTorch深度学习框架下实现模型,在训练集上训练13轮,每轮均训练完整个训练集。每训练完一轮,在验证集上计算BLEU,选择最好BLEU结果的模型的参数。
模型采用Adam优化算法,初始学习率设置为0.0005,批量大小为64,编码器和解码器的词嵌入维度,隐藏单元数均设置为500,并且均为2层LSTM,丢失率和强制教学率均为0.3,源端和目标端长度均为50,此外使用300维的Glove向量初始化词嵌入,且在训练期间不进行微调,设束宽为5。
与现有算法对比试验如下:
本实验通过对比基线模型、E2E数据集上最近模型在测试集上的自动评估结果,以验证本申请模型的有效性。实验采用常用的评估指标BLEU、NIST、METEOR、Rouge-L和CIDEr。结果如表3所示:
模型 BLEU NIST METEOR ROUGE-L CIDEr
TGEN 65.93 8.60 44.83 68.50 2.23
TUDA 56.57 7.45 45.29 66.14 1.82
GONG 64.22 8.34 44.69 66.45 2.27
SHEFF1 60.15 8.30 44.05 67.78 2.17
Wiseman 59.80 7.56 38.75 65.01 1.95
本申请模型 68.65 8.64 46.01 69.03 2.11
表3
表3中各个模型详解如下:
TGEN:该方法为E2E数据集的基线模型,它将一个MR集合的多个参考文本作为多个训练样本。该模型采用seq2seq为基础框架,在测试阶段加入束搜索和重新排序(re-ranker),重新排序作用于束搜索产生的k个输出,它是用一个RNN建模生成的文本,然后它在句尾词的隐藏状态上使用多个二分类器,用于训练数据中看到的所有可能的属性-值对,每个分类器采用sigmoid函数为生成的文本产生one-hot向量。此外,也为MR生成one-hot向量,然后将这两个向量之间的汉明距离用作惩罚,从相应生成的文本的对数概率中减去加权罚分;
TUDA:该方法是基于模板的方法,考虑到MR属性值的词汇多样性很低以及MR属在训练数据中的表达方式,设计一个核心模板:“[name]is a[familyFriendly][eatType]which serves[food]food in the[price]price range.It has a[customerRating]customerrating.Itis locatedinthe[area]area,near[near].”。由于每个样本最多包含8个属性,将模板分解,并且针对一些特殊情况手动设计一些规则,例如有些属性可能缺失的情况。
GONG:基线模型中将一组属性-值对的多个参考文本视为不同的训练样本,强迫模型学习生成类似于同一输入的多个参考文本的句子可能会削弱模型生成多样化句子的能力,从而生成更多一般的表达,所以利用REINFORCE算法对TGEN基线模型微调,在训练期间使用单个MR的多个参考文本,将生成的句子和多个参考之间的BLEU作为奖励。
SHEFF1:等将任务建模为两种动作即内容预测动作和单词预测动作,内容预测动作决定选择哪个属性,反应了在生成文本中的单词顺序,内容预测动作完成后,对每个属性单词预测动作决定从属性的词汇表中选择哪个单词,最后的单词预测动作序列即为生成的文本。其中内容预测动作和单词预测动作由AROW分类器(adaptiveregularizationofweightvectors classifiers)参数化,模仿学习的LOLS算法控制整个搜索过程。该方法在等人工作的基础上,对每个MR仅保留其词具有最高平均频率的一个参考文本,利用目标探索(targeted exploration)修改LOLS来降低单词预测动作的搜索空间。
Wiseman:该模型采用lstm-hsmm结构,以端到端地方式自动学习模板,并利用神经网络进行参数化。模型训练完后,用训练好的模型计算训练数据的维特比分割,从分割中抽取常用模板,并且将模板与句子、状态与短语进行映射。最后,用训练好的模型和抽取的模板来生成文本。
从表3的结果可以看出基线模型(TGEN)是很强大的,并且神经网络模型比基于模板的模型(TUDA)、LOLS算法(SHEFF1)以及隐半马尔科夫模型(Wiseman)在自动度量指标上总体要好。
从表3中可以看出:
本申请模型在BLRU度量指标上相比TGEN提高了2.22;
本申请模型在METEOR指标上相比TGEN和TUDA分别提高了1.18和0.72;
本申请模型在NIST指标上略高于TGEN约0.04;
本申请模型在ROUGE-L指标上超过TGEN0.53,在一定程度上反应覆盖机制的有效性;
本申请模型在CIDEr指标上表现较为勉强,但是不能掩盖本申请模型在其他指标上的优异。
消融试验:
表4第一行为基础seq2seq+attention模型,记为M*,第二、三行在基础模型上依次加入拷贝机制和属性注意力机制。
表4为系由此对模型效果的影响,拷贝机制会提升模型效果,属性注意力机制在指针生成网络的基础上进行了持续地改进。
模型 BLEU NIST METEOR ROUGE-L CIDEr
M* 58.54 7.54 38.36 62.47 1.72
+pointer 63.36 8.35 43.17 67.24 1.73
+slot-attn 66.51 8.49 44.52 68.16 1.82
表4
表5中的-gate为本申请模型中未加入注意力分布门控的结果。实验结果表明加入覆盖机制和注意力分布门控后各指标的变化结果:
模型 BLEU NIST METEOR ROUGE-L CIDEr
本申请模型 68.65 8.64 46.01 69.03 2.11
-gate 67.67 8.57 45.33 68.72 1.97
表5
如表6所示,进行注意力门控实验,由注意力门控参数的定义可知,其依赖于当前时间步解码器隐藏状态和前一时间步的上下文向量由模型自动学习,是自适应的。本实验验证这种自适应性的有效性,将注意力门控参数值手动设定在0.8-1.2之间,粒度为0.05,且在训练过程中保持不变,以测试集上的BLEU指标为衡量标准。
表6
由表6可以看出,即使固定门控的BLEU峰值也没有超过对应的自适应门控的BLEU值,故而证明了自适应门控是有效的。
模型的输入为几个属性-值对组成的意义表示,每个输入可有多个参考文本。E2E数据集的每个训练样本为输入MR和其对应的某个参考文本。
表7展示了具有“name”、“eatType”、“customer rating”、“near”4个属性的MR的预测结果。参考1-参考6为一个训练样本输入后可能输出的多个参考文本。
表7
带注意力机制的seq2seq模型生成的文本未准确表达输入信息,如将“CaféSicilia”表达为“CaféRouge”。一个词可能会在多个属性中出现,指针网络可能会混淆,例如第8行“name”和“near”属性。而加入属性注意力机制则缓解了将属性值分配给错误属性的情况,如第9行所示。并且第10行和11行为加入覆盖机制和注意力分布门控的模型生成的文本,文本质量较好。
如上所述,便可很好的实现本发明。

Claims (8)

1.基于指针生成网络的数据到文本的生成模型,其特征在于:包括以下建立步骤:
(1)建立输入层;
(2)建立属性注意力机制;
(3)建立指针生成网络;
(4)建立覆盖机制;
(5)建立注意力分布门控;
(6)进行训练;
(7)完成预测。
2.根据权利要求1所述的基于指针生成网络的数据到文本的生成模型,其特征在于:步骤(1)的具体方式为:
令模型输入序列为x,目标输出文本为y={y1,y2,…,yT},其中yt是在t时刻生成的单词,设T为目标文本的长度,即T为文本最后一个词的时刻,t为文本中某一个时刻;
基础模型将属性-值对序列看作一个顺序序列作为输入,输入序列词嵌入为x=[s1,v1,1,…,v1,k,…,si,vi,1,…,vi,k′,…],其中,si表示第i个属性名,vi表示si对应的属性值序列;
本文模型将值词嵌入序列和属性词嵌入序列进行拼接得到序列x=[(s1,v1),…,(sJ,vJ)],其中[v1,…,vJ]是值词嵌入序列,[s1,…,sJ]是值序列对应的属性名词嵌入序列,设J为序列长度,j则为(1,……,J)中任意一个序列;
利用LSTM对x进行编码来初始化解码器隐藏状态
3.根据权利要求2所述的基于指针生成网络的数据到文本的生成模型,其特征在于:步骤(2)的具体方式为:
在解码时间步t计算每个属性-值对和解码器隐藏状态的注意力分数et,j
其中Wh、Ws、Wv为神经网络的权重,be为神经网络的偏差参数;并进行归一化得到注意力权重,表示每个属性-值对与生成的目标词的相关程度,权重越高表示越相关:
其中分母为exp(et,k)的累加,下标k从1到J;
然后,分别为属性序列和值序列构建对应的上下文向量,得到
利用属性名序列和属性值序列的上下文向量和解码器隐藏状态计算注意力隐藏状态,以此加入属性信息的控制:
其中Wz为神经网络的权重,bz为神经网络的偏差参数。
4.根据权利要求3所述的基于指针生成网络的数据到文本的生成模型,其特征在于:步骤(3)的具体方式为:
在解码过程中,输入中的单词Vx动态地扩展固定词汇表V,包括起始符号<sos>、终止符号<eos>和特殊的空字符<unk>,即Vext=V∪Vx,得到扩展词汇表Vext
模型在扩展词汇表上的概率分布由固定词汇表上的概率分布Pg(yt)和输入序列上的注意力分布Pc(yt)插值得到;
其中,pgen,t∈(0,1)是生成概率,其利用上下文向量解码器隐藏状态以及上一时间步解码器输出yt-1计算;
其中Ws,s、Ws,v、Ws,h、Wy为神经网络的权重,bs为神经网络的偏差参数;
固定词汇表上的概率分布Pg(yt)计算为:
其中Wd2v为神经网络的权重,bd2v为神经网络的偏差参数;
输入序列上的注意力分布Pc(yt)是所有出现的目标词的注意力权重之和:
可以看出,如果yt是一个未登录词,则Pg(yt)为0;同样如果yt没有出现在输入样本中,则Pc(yt)为0。
5.根据权利要求4所述的基于指针生成网络的数据到文本的生成模型,其特征在于:步骤(4)的具体方式为:
在每个解码时间步t构建一个覆盖向量向量的每个维度表示每个输入词在未来要表达的程度,覆盖向量每个维度初始化为1;
覆盖向量的更新方式为,在覆盖向量的每个维度上使用初始值减去该维度上的所有先前解码时间步的注意力权重之和:
其中Φj表示xj生成单词的个数,其定义为:
N∈是预定义的常量,表示输入词可以生成目标词数的最大值,是编码隐藏状态;
注意力分数计算为:
其中Wh、Ws、Wv为神经网络的权重,be为神经网络的偏差参数;
一个输入词未表达的信息越多,其覆盖向量对应的值越大,覆盖向量作为注意力分数计算公式的系数,未表达信息越多的词的系数越大,其相应的注意力分数就越大。
6.根据权利要求5所述的基于指针生成网络的数据到文本的生成模型,其特征在于:步骤(5)的具体方式为:
首先计算时间步t的门控参数τt,其根据分别表示将要表达的信息和已表达的信息的当前时间步的解码信息以及前一时间步的上下文向量来学习,在第一个解码时间步用解码器初始状态进行初始化:
其中Wz,s、Wz,v、Wz,h为神经网络的权重,λ为一个大于1的超参数,τt的范围是(1/λ,λ);
新的注意力分布计算为:
可以看出,当门控值增大时,注意力分布更平滑;当门控值减小时,注意力分布更尖锐。
7.根据权利要求6所述的基于指针生成网络的数据到文本的生成模型,其特征在于:步骤(6)的具体公式为:
在训练阶段,根据最大似然估计,最大化标签序列基于输入序列的条件概率:
损失函数即为:
8.根据权利要求7所述的基于指针生成网络的数据到文本的生成模型,其特征在于:步骤7的具体方式为:
预测阶段的目标是找到一个最优输出序列满足:
其中Y表示所有可能生成的文本的集合;
预测阶段采用束搜索算法:其从左到右生成序列在每个解码时间步保留条件概率最大的前束宽个词。
CN201910573445.1A 2019-06-28 2019-06-28 基于指针生成网络的数据到文本的生成模型 Active CN110298436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910573445.1A CN110298436B (zh) 2019-06-28 2019-06-28 基于指针生成网络的数据到文本的生成模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910573445.1A CN110298436B (zh) 2019-06-28 2019-06-28 基于指针生成网络的数据到文本的生成模型

Publications (2)

Publication Number Publication Date
CN110298436A true CN110298436A (zh) 2019-10-01
CN110298436B CN110298436B (zh) 2023-05-09

Family

ID=68029209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910573445.1A Active CN110298436B (zh) 2019-06-28 2019-06-28 基于指针生成网络的数据到文本的生成模型

Country Status (1)

Country Link
CN (1) CN110298436B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325002A (zh) * 2020-02-17 2020-06-23 广东博智林机器人有限公司 文本生成方法、装置、电子设备及存储介质
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN112069827A (zh) * 2020-07-30 2020-12-11 国网天津市电力公司 一种基于细粒度主题建模的数据到文本生成方法
CN112069777A (zh) * 2020-06-15 2020-12-11 北京理工大学 一种基于骨架的二阶段数据到文本生成方法
CN112271001A (zh) * 2020-11-17 2021-01-26 中山大学 一种应用异构图神经网络的医疗咨询对话系统及方法
CN112395892A (zh) * 2020-12-03 2021-02-23 内蒙古工业大学 基于指针生成网络实现占位符消歧的蒙汉机器翻译方法
CN112417155A (zh) * 2020-11-27 2021-02-26 浙江大学 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN112541350A (zh) * 2020-12-04 2021-03-23 支付宝(杭州)信息技术有限公司 一种变种文本还原方法、装置以及设备
CN113010693A (zh) * 2021-04-09 2021-06-22 大连民族大学 融合指针生成网络的知识图谱智能问答方法
CN113065336A (zh) * 2021-05-06 2021-07-02 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113127631A (zh) * 2021-04-23 2021-07-16 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN117407771A (zh) * 2023-12-13 2024-01-16 湘江实验室 基于数字孪生的轴承健康状态评估方法、装置及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959512A (zh) * 2018-06-28 2018-12-07 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统
US20190370338A1 (en) * 2017-06-22 2019-12-05 Tencent Technology (Shenzhen) Company Limited Summary generation method, apparatus, computer device, and storage medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370338A1 (en) * 2017-06-22 2019-12-05 Tencent Technology (Shenzhen) Company Limited Summary generation method, apparatus, computer device, and storage medium
CN108959512A (zh) * 2018-06-28 2018-12-07 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109635284A (zh) * 2018-11-26 2019-04-16 北京邮电大学 基于深度学习结合累积注意力机制的文本摘要方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIN LIU ET AL.: "Generating Commit Messages from Diffs using Pointer-Generator Network" *
鲍军威 等: "基于序列到序列模型的文本到信息框生成的研究", 《智能计算机与应用》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325002A (zh) * 2020-02-17 2020-06-23 广东博智林机器人有限公司 文本生成方法、装置、电子设备及存储介质
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN111488726B (zh) * 2020-03-31 2023-05-23 成都数之联科技股份有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN112069777A (zh) * 2020-06-15 2020-12-11 北京理工大学 一种基于骨架的二阶段数据到文本生成方法
CN112069777B (zh) * 2020-06-15 2022-09-30 北京理工大学 一种基于骨架的二阶段数据到文本生成方法
CN112069827A (zh) * 2020-07-30 2020-12-11 国网天津市电力公司 一种基于细粒度主题建模的数据到文本生成方法
CN112069827B (zh) * 2020-07-30 2022-12-09 国网天津市电力公司 一种基于细粒度主题建模的数据到文本生成方法
CN112271001B (zh) * 2020-11-17 2022-08-16 中山大学 一种应用异构图神经网络的医疗咨询对话系统及方法
CN112271001A (zh) * 2020-11-17 2021-01-26 中山大学 一种应用异构图神经网络的医疗咨询对话系统及方法
CN112417155A (zh) * 2020-11-27 2021-02-26 浙江大学 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN112395892A (zh) * 2020-12-03 2021-02-23 内蒙古工业大学 基于指针生成网络实现占位符消歧的蒙汉机器翻译方法
CN112541350A (zh) * 2020-12-04 2021-03-23 支付宝(杭州)信息技术有限公司 一种变种文本还原方法、装置以及设备
CN113010693A (zh) * 2021-04-09 2021-06-22 大连民族大学 融合指针生成网络的知识图谱智能问答方法
CN113010693B (zh) * 2021-04-09 2024-03-08 大连民族大学 融合指针生成网络的知识图谱智能问答方法
CN113127631B (zh) * 2021-04-23 2022-07-01 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN113127631A (zh) * 2021-04-23 2021-07-16 重庆邮电大学 基于多头自注意力机制和指针网络的文本摘要方法
CN113065336A (zh) * 2021-05-06 2021-07-02 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN113779310B (zh) * 2021-09-10 2023-06-02 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN117407771A (zh) * 2023-12-13 2024-01-16 湘江实验室 基于数字孪生的轴承健康状态评估方法、装置及相关设备

Also Published As

Publication number Publication date
CN110298436B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN110298436A (zh) 基于指针生成网络的数据到文本的生成模型
US11176330B2 (en) Generating recommendation information
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
Zhang et al. A joint model of intent determination and slot filling for spoken language understanding.
Salle et al. Matrix factorization using window sampling and negative sampling for improved word representations
CN109815493B (zh) 一种智能嘻哈音乐歌词生成的建模方法
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
Kreutzer et al. Bandit structured prediction for neural sequence-to-sequence learning
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111738007A (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
Dastgheib et al. The application of deep learning in persian documents sentiment analysis
Huang et al. Attention-enabled gated spiking neural P model for aspect-level sentiment classification
CN112100375A (zh) 文本信息生成方法、装置、存储介质及设备
CN109710760A (zh) 短文本的聚类方法、装置、介质及电子设备
Jiang et al. Study on text representation method based on deep learning and topic information
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
Su et al. Attention-based response generation using parallel double Q-learning for dialog policy decision in a conversational system
Moravvej et al. A novel plagiarism detection approach combining bert-based word embedding, attention-based lstms and an improved differential evolution algorithm
CN116543406A (zh) 多特征融合的双目标自监督医疗问题文本聚类方法及系统
Yong et al. A new emotion analysis fusion and complementary model based on online food reviews
Zhu et al. GANCoder: an automatic natural language-to-programming language translation approach based on GAN
CN112989803A (zh) 一种基于主题向量学习的实体链接模型
Mahmoodvand et al. Semi-supervised approach for Persian word sense disambiguation
Xu et al. CNN-based skip-gram method for improving classification accuracy of chinese text
Tomer et al. STV-BEATS: skip thought vector and bi-encoder based automatic text summarizer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant