CN110298436B - 基于指针生成网络的数据到文本的生成模型 - Google Patents
基于指针生成网络的数据到文本的生成模型 Download PDFInfo
- Publication number
- CN110298436B CN110298436B CN201910573445.1A CN201910573445A CN110298436B CN 110298436 B CN110298436 B CN 110298436B CN 201910573445 A CN201910573445 A CN 201910573445A CN 110298436 B CN110298436 B CN 110298436B
- Authority
- CN
- China
- Prior art keywords
- sequence
- attention
- text
- attribute
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于指针生成网络的数据到文本的生成模型,包括(1)建立输入层;(2)建立属性注意力机制;(3)建立指针生成网络;(4)建立覆盖机制;(5)建立注意力分布门控;(6)进行训练等步骤。本发明提供基于指针生成网络的数据到文本的生成模型,能够提供基于指针生成网络的数据到文本的生成模型,利用指针生成网络中的拷贝机制解决数据到文本生成中的严重的未登录词和稀有词问题,且引入槽‑值对数据的结构语义知识从而更好地对齐属性和值,在此基础上,不仅引入覆盖机制使模型更多地关注未表达的属性值在一定程度上保证表达的完整性,还引入注意力分布门控调整注意力分布的尖锐度,更好地对齐槽‑值对数据与生成的文本。
Description
技术领域
本发明属于计算机领域,具体是指基于指针生成网络的数据到文本的生成模型。
背景技术
自然语言生成和自然语言理解是自然语言处理的两个主要技术领域。自然语言理解(如命名实体识别等)的目标是帮助机器更好地理解自然语言。不同于自然语言理解任务,自然语言生成任务的目标是帮助机器生成人类能够理解的自然语言。自然语言生成包括文本到文本生成,如机器翻译、文本摘要等;非结构化数据的文本生成,如图片标题生成等;数据到文本生成。
数据到文本生成其输入为槽-值对数据,输出为表达槽-值对数据的文本。其在现实中被广泛应用,如根据体育比赛数据生成新闻、根据LinkedIn数据生成用户档案等,与人工生成文本相比更高效。
目前数据到文本生成的研究方法大致分为两种,一种是基于规则或统计的方法,其采用流水线结构,主要包括内容规划(确定句子的整体结构)、句子规划(确定单词形式)、句子实现(类似于润色)等阶段。流水线结构需要逐步搭建和调优,容易造成错误累积,并且不能够捕获不同阶段之间的交互。基于简单规则的方法通过设计并填充模板以生成文本,然而设计模板需依赖专家或领域知识,且在复杂情况下几乎不可能涵盖所有的规则,扩展性较差。基于统计的方法通过从历史数据中学习模板来减少时间成本。但是,统计方法容易产生错误的文本,不能满足整合信息的要求。另一种是基于注意力机制的编码器-解码器模型,该模型以端到端的方式对内容规划和句子规划进行联合训练。该类研究工作未充分考虑从槽-值对数据生成文本相关的任务背景,生成的文本的质量仍有待提升。
发明内容
本发明的目的在于克服上述问题,提供基于指针生成网络的数据到文本的生成模型,利用指针生成网络中的拷贝机制解决数据到文本生成中的严重的未登录词和稀有词问题,且引入槽-值对数据的结构语义知识从而更好地对齐属性和值,在此基础上,不仅引入覆盖机制使模型更多地关注未表达的属性值在一定程度上保证表达的完整性,还引入注意力分布门控调整注意力分布的尖锐度,更好地对齐槽-值对数据与生成的文本。
本发明的目的通过下述技术方案实现:
基于指针生成网络的数据到文本的生成模型,包括以下建立步骤:
(1)建立输入层;
(2)建立属性注意力机制;
(3)建立指针生成网络;
(4)建立覆盖机制;
(5)建立注意力分布门控;
(6)进行训练;
(7)完成预测。
步骤(1)的具体方式为:
令模型输入序列为x,目标输出文本为y={y1,y2,…,yT},其中yt是在t时刻生成的单词,设T为目标文本的长度,即T为文本最后一个词的时刻,t为文本中某一个时刻;
基础模型将属性-值对序列看作一个顺序序列作为输入,输入序列词嵌入为x=[s1,v1,1,…,v1,k,…,si,vi,1,…,vi,k′,…],其中,si表示第i个属性名,vi表示si对应的属性值序列;
本文模型将值词嵌入序列和属性词嵌入序列进行拼接得到序列x=[(s1,v1),…,(sJ,vJ)],其中[v1,…,vJ]是值词嵌入序列,[s1,…,sJ]是值序列对应的属性名词嵌入序列,设J为序列长度,j则为(1,……,J)中任意一个序列;
步骤(2)的具体方式为:
其中分母为exp(et,k)的累加,下标k从1到J;
其中Wz为神经网络的权重,bz为神经网络的偏差参数。
步骤(3)的具体方式为:
在解码过程中,输入中的单词Vx动态地扩展固定词汇表V,包括起始符号<sos>、终止符号<eos>和特殊的空字符<unk>,即Vext=V∪Vx,得到扩展词汇表Vext;
模型在扩展词汇表上的概率分布由固定词汇表上的概率分布Pg(yt)和输入序列上的注意力分布Pc(yt)插值得到;
其中Ws,s、Ws,v、Ws,h、Wy为神经网络的权重,bs为神经网络的偏差参数;
固定词汇表上的概率分布Pg(yt)计算为:
其中Wd2v为神经网络的权重,bd2v为神经网络的偏差参数;
输入序列上的注意力分布Pc(yt)是所有出现的目标词的注意力权重之和:
可以看出,如果yt是一个未登录词,则Pg(yt)为0;同样如果yt没有出现在输入样本中,则Pc(yt)为0。
步骤(4)的具体方式为:
其中Φj表示xj生成单词的个数,其定义为:
注意力分数计算为:
其中Wh、Ws、Wv为神经网络的权重,be为神经网络的偏差参数;
一个输入词未表达的信息越多,其覆盖向量对应的值越大,覆盖向量作为注意力分数计算公式的系数,未表达信息越多的词的系数越大,其相应的注意力分数就越大。
步骤(5)的具体方式为:
其中Wz,s、Wz,v、Wz,h为神经网络的权重,λ为一个大于1的超参数,τt的范围是(1/λ,λ);
新的注意力分布计算为:
可以看出,当门控值增大时,注意力分布更平滑;当门控值减小时,注意力分布更尖锐。
步骤(6)的具体公式为:
在训练阶段,根据最大似然估计,最大化标签序列基于输入序列的条件概率:
损失函数即为:
步骤7的具体方式为:
其中Y表示所有可能生成的文本的集合;
预测阶段采用束搜索算法:其从左到右生成序列在每个解码时间步保留条件概率最大的前束宽个词。
本发明与现有技术相比,具有以下优点及有益效果:
本发明相较于现有技术,采用指针生成网络既可以从输入中拷贝单词,又可以从固定词汇表生成单词,同时缓解未登录词和稀有词问题,并且提出基于属性的注意力机制加入属性信息的控制,引入覆盖机制利用历史注意力信息计算注意力分数使模型更多地考虑未表达的属性值,利用注意力分布门控动态地控制注意力分布的尖锐程度,以将输入属性-值对数据与生成的描述之间更好地对齐,在E2E数据集上进一步提高了文本生成的质量,很好的从准确性和完整性方面提升模型效果。
具体实施方式
下面结合实施例对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例
基于指针生成网络的数据到文本的生成模型,包括以下建立步骤:
(1)建立输入层;
具体方式为:
令模型输入序列为x,目标输出文本为y={y1,y2,…,yT},其中yt是在t时刻生成的单词,设T为目标文本的长度,即T为文本最后一个词的时刻,t为文本中某一个时刻;
基础模型将属性-值对序列看作一个顺序序列作为输入,输入序列词嵌入为x=[s1,v1,1,…,v1,k,…,si,vi,1,…,vi,k′,…],其中,si表示第i个属性名,vi表示si对应的属性值序列;
本文模型将值词嵌入序列和属性词嵌入序列进行拼接得到序列x=[(s1,v1),…,(sJ,vJ)],其中[v1,…,vJ]是值词嵌入序列,[s1,…,sJ]是值序列对应的属性名词嵌入序列,设J为序列长度,j则为(1,……,J)中任意一个序列;
LSTM为长短期记忆网络,是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM为本领域的现有技术,在此便不进行赘述。
(2)建立属性注意力机制;
具体方式为:
其中分母为exp(et,k)的累加,下标k从1到J;
其中Wz为神经网络的权重,bz为神经网络的偏差参数。
(3)建立指针生成网络;
具体方式为:
在解码过程中,输入中的单词Vx动态地扩展固定词汇表V,包括起始符号<sos>、终止符号<eos>和特殊的空字符<unk>,即Vext=V∪Vx,得到扩展词汇表Vext;
模型在扩展词汇表上的概率分布由固定词汇表上的概率分布Pg(yt)和输入序列上的注意力分布Pc(yt)插值得到;
其中Ws,s、Ws,v、Ws,h、Wy为神经网络的权重,bs为神经网络的偏差参数;
固定词汇表上的概率分布Pg(yt)计算为:
其中Wd2v为神经网络的权重,bd2v为神经网络的偏差参数;
输入序列上的注意力分布Pc(yt)是所有出现的目标词的注意力权重之和:
可以看出,如果yt是一个未登录词,则Pg(yt)为0;同样如果yt没有出现在输入样本中,则Pc(yt)为0。
指针生成(pointer-generator)网络,其通过对词汇表上的概率分布和输入序列中注意力分布插值生成最终概率分布,既具有从输入中拷贝单词的能力,又保留了从固定词汇表生成单词的能力,同时缓解了未登录词和稀有词问题。
(4)建立覆盖机制;
具体方式为:
其中Φj表示xj生成单词的个数,其定义为:
注意力分数计算为:
其中Wh、Ws、Wv为神经网络的权重,be为神经网络的偏差参数;
一个输入词未表达的信息越多,其覆盖向量对应的值越大,覆盖向量作为注意力分数计算公式的系数,未表达信息越多的词的系数越大,其相应的注意力分数就越大。
覆盖机制利用历史注意力信息计算注意力分数使模型更多地考虑未表达的属性值。
(5)建立注意力分布门控;
具体方式为:
其中Wz,s、Wz,v、Wz,h为神经网络的权重,λ为一个大于1的超参数,τt的范围是(1/λ,λ);
新的注意力分布计算为:
可以看出,当门控值增大时,注意力分布更平滑;当门控值减小时,注意力分布更尖锐。
注意力分布函数(通常为softmax)将注意力分数映射为注意力权重,在大多数情况下,生成词只与部分的输入词相关,与其他输入词完全不相关,这些不相关的词可能会引入噪声而不是提供有用的信息。因此,注意力分布应该是稀疏且尖锐的,稀疏表示大多数输入词的注意力权重接近0,尖锐则表示与生成词最相关的输入词的注意力权重应尽可能大。
句子中的实词和虚词分别与句子的语义和语法相关,注意力分布门控使模型根据生成词的类型自动调整注意力分布的尖锐程度,即使得生成虚词时注意力分布更平滑以捕获语法信息,生成实词时注意力分布更尖锐以捕获语义的信息。
(6)进行训练;
具体公式为:
在训练阶段,根据最大似然估计,最大化标签序列基于输入序列的条件概率:
损失函数即为:
(7)完成预测;
具体方式为:
其中Y表示所有可能生成的文本的集合;
预测阶段采用束搜索算法:其从左到右生成序列在每个解码时间步保留条件概率最大的前束宽个词。
实验例
本实验例采用Heriot-Watt大学在SIGDIAL 2017上发表的论文The E2E Dataset:New Challenges For End-to-End Generation中介绍的面向餐馆领域的E2E数据集,旨在训练端到端、数据驱动自然语言生成系统。
在E2E数据集中,输入是由描述餐馆的三到八个属性-值对组成的MR(MeaningRepresentation),输出是用自然语言表达的关于该输入餐馆的描述。
表1显示了E2E数据集的一个由八个属性-值对组成的示例样本:
表1
数据集以76.5:8.5:15比例划分为训练集、验证集和测试集,如表2所示:
训练集 | 验证集 | 测试集 | |
样本 | 42061 | 4672 | 4693 |
MRs | 4862 | 547 | 630 |
表2
在PyTorch深度学习框架下实现模型,在训练集上训练13轮,每轮均训练完整个训练集。每训练完一轮,在验证集上计算BLEU,选择最好BLEU结果的模型的参数。
模型采用Adam优化算法,初始学习率设置为0.0005,批量大小为64,编码器和解码器的词嵌入维度,隐藏单元数均设置为500,并且均为2层LSTM,丢失率和强制教学率均为0.3,源端和目标端长度均为50,此外使用300维的Glove向量初始化词嵌入,且在训练期间不进行微调,设束宽为5。
与现有算法对比试验如下:
本实验通过对比基线模型、E2E数据集上最近模型在测试集上的自动评估结果,以验证本申请模型的有效性。实验采用常用的评估指标BLEU、NIST、METEOR、Rouge-L和CIDEr。结果如表3所示:
模型 | BLEU | NIST | METEOR | ROUGE-L | CIDEr |
TGEN | 65.93 | 8.60 | 44.83 | 68.50 | 2.23 |
TUDA | 56.57 | 7.45 | 45.29 | 66.14 | 1.82 |
GONG | 64.22 | 8.34 | 44.69 | 66.45 | 2.27 |
SHEFF1 | 60.15 | 8.30 | 44.05 | 67.78 | 2.17 |
Wiseman | 59.80 | 7.56 | 38.75 | 65.01 | 1.95 |
本申请模型 | 68.65 | 8.64 | 46.01 | 69.03 | 2.11 |
表3
表3中各个模型详解如下:
TGEN:该方法为E2E数据集的基线模型,它将一个MR集合的多个参考文本作为多个训练样本。该模型采用seq2seq为基础框架,在测试阶段加入束搜索和重新排序(re-ranker),重新排序作用于束搜索产生的k个输出,它是用一个RNN建模生成的文本,然后它在句尾词的隐藏状态上使用多个二分类器,用于训练数据中看到的所有可能的属性-值对,每个分类器采用sigmoid函数为生成的文本产生one-hot向量。此外,也为MR生成one-hot向量,然后将这两个向量之间的汉明距离用作惩罚,从相应生成的文本的对数概率中减去加权罚分;
TUDA:该方法是基于模板的方法,考虑到MR属性值的词汇多样性很低以及MR属在训练数据中的表达方式,设计一个核心模板:“[name]is a[familyFriendly][eatType]which serves[food]food in the[price]price range.It has a[customerRating]customerrating.Itis locatedinthe[area]area,near[near].”。由于每个样本最多包含8个属性,将模板分解,并且针对一些特殊情况手动设计一些规则,例如有些属性可能缺失的情况。
GONG:基线模型中将一组属性-值对的多个参考文本视为不同的训练样本,强迫模型学习生成类似于同一输入的多个参考文本的句子可能会削弱模型生成多样化句子的能力,从而生成更多一般的表达,所以利用REINFORCE算法对TGEN基线模型微调,在训练期间使用单个MR的多个参考文本,将生成的句子和多个参考之间的BLEU作为奖励。
SHEFF1:等将任务建模为两种动作即内容预测动作和单词预测动作,内容预测动作决定选择哪个属性,反应了在生成文本中的单词顺序,内容预测动作完成后,对每个属性单词预测动作决定从属性的词汇表中选择哪个单词,最后的单词预测动作序列即为生成的文本。其中内容预测动作和单词预测动作由AROW分类器(adaptiveregularizationofweightvectors classifiers)参数化,模仿学习的LOLS算法控制整个搜索过程。该方法在等人工作的基础上,对每个MR仅保留其词具有最高平均频率的一个参考文本,利用目标探索(targeted exploration)修改LOLS来降低单词预测动作的搜索空间。
Wiseman:该模型采用lstm-hsmm结构,以端到端地方式自动学习模板,并利用神经网络进行参数化。模型训练完后,用训练好的模型计算训练数据的维特比分割,从分割中抽取常用模板,并且将模板与句子、状态与短语进行映射。最后,用训练好的模型和抽取的模板来生成文本。
从表3的结果可以看出基线模型(TGEN)是很强大的,并且神经网络模型比基于模板的模型(TUDA)、LOLS算法(SHEFF1)以及隐半马尔科夫模型(Wiseman)在自动度量指标上总体要好。
从表3中可以看出:
本申请模型在BLRU度量指标上相比TGEN提高了2.22;
本申请模型在METEOR指标上相比TGEN和TUDA分别提高了1.18和0.72;
本申请模型在NIST指标上略高于TGEN约0.04;
本申请模型在ROUGE-L指标上超过TGEN0.53,在一定程度上反应覆盖机制的有效性;
本申请模型在CIDEr指标上表现较为勉强,但是不能掩盖本申请模型在其他指标上的优异。
消融试验:
表4第一行为基础seq2seq+attention模型,记为M*,第二、三行在基础模型上依次加入拷贝机制和属性注意力机制。
表4为系由此对模型效果的影响,拷贝机制会提升模型效果,属性注意力机制在指针生成网络的基础上进行了持续地改进。
模型 | BLEU | NIST | METEOR | ROUGE-L | CIDEr |
M* | 58.54 | 7.54 | 38.36 | 62.47 | 1.72 |
+pointer | 63.36 | 8.35 | 43.17 | 67.24 | 1.73 |
+slot-attn | 66.51 | 8.49 | 44.52 | 68.16 | 1.82 |
表4
表5中的-gate为本申请模型中未加入注意力分布门控的结果。实验结果表明加入覆盖机制和注意力分布门控后各指标的变化结果:
模型 | BLEU | NIST | METEOR | ROUGE-L | CIDEr |
本申请模型 | 68.65 | 8.64 | 46.01 | 69.03 | 2.11 |
-gate | 67.67 | 8.57 | 45.33 | 68.72 | 1.97 |
表5
如表6所示,进行注意力门控实验,由注意力门控参数的定义可知,其依赖于当前时间步解码器隐藏状态和前一时间步的上下文向量由模型自动学习,是自适应的。本实验验证这种自适应性的有效性,将注意力门控参数值手动设定在0.8-1.2之间,粒度为0.05,且在训练过程中保持不变,以测试集上的BLEU指标为衡量标准。
表6
由表6可以看出,即使固定门控的BLEU峰值也没有超过对应的自适应门控的BLEU值,故而证明了自适应门控是有效的。
模型的输入为几个属性-值对组成的意义表示,每个输入可有多个参考文本。E2E数据集的每个训练样本为输入MR和其对应的某个参考文本。
表7展示了具有“name”、“eatType”、“customer rating”、“near”4个属性的MR的预测结果。参考1-参考6为一个训练样本输入后可能输出的多个参考文本。
表7
带注意力机制的seq2seq模型生成的文本未准确表达输入信息,如将“CaféSicilia”表达为“CaféRouge”。一个词可能会在多个属性中出现,指针网络可能会混淆,例如第8行“name”和“near”属性。而加入属性注意力机制则缓解了将属性值分配给错误属性的情况,如第9行所示。并且第10行和11行为加入覆盖机制和注意力分布门控的模型生成的文本,文本质量较好。
如上所述,便可很好的实现本发明。
Claims (6)
1.基于指针生成网络的数据到文本的模型生成方法,其特征在于:包括以下建立步骤:
(1)建立输入层;
(2)建立属性注意力机制;
(3)建立指针生成网络;
(4)建立覆盖机制;
(5)建立注意力分布门控;
(6)进行训练;
(7)完成预测;
所述步骤(1)的具体方式为:
令模型输入序列为x,目标输出文本为y={y1,y2,…,yT},其中yt是在t时刻生成的单词,设T为目标文本的长度,即T为文本最后一个词的时刻,t为文本中某一个时刻;
基础模型将属性-值对序列看作一个顺序序列作为输入,输入序列词嵌入为x=[s1,v1,1,…,v1,k,…,si,vi,1,…,vi,k′,…],其中,si表示第i个属性名,vi表示si对应的属性值序列;
本文模型将值词嵌入序列和属性词嵌入序列进行拼接得到序列x=[(s1,v1),…,(sJ,vJ)],其中[v1,…,vJ]是值词嵌入序列,[s1,…,sJ]是值序列对应的属性名词嵌入序列,设J为序列长度,j则为(1,……,J)中任意一个序列;
所述步骤(2)的具体方式为:
其中分母为exp(et,k)的累加,下标k从1到J;
其中Wz为神经网络的权重,bz为神经网络的偏差参数。
2.根据权利要求1所述的基于指针生成网络的数据到文本的模型生成方法,其特征在于:步骤(3)的具体方式为:
在解码过程中,输入中的单词Vx动态地扩展固定词汇表V,包括起始符号<sos>、终止符号<eos>和特殊的空字符<unk>,即Vext=V∪Vx,得到扩展词汇表Vext;
模型在扩展词汇表上的概率分布由固定词汇表上的概率分布Pg(yt)和输入序列上的注意力分布Pc(yt)插值得到;
PVext(yt)=pgen,tPg(yt)+(1-pgen,t)Pc(yt)
其中Ws,s、Ws,v、Ws,h、Wy为神经网络的权重,bs为神经网络的偏差参数;
固定词汇表上的概率分布Pg(yt)计算为:
其中Wd2v为神经网络的权重,bd2v为神经网络的偏差参数;
输入序列上的注意力分布Pc(yt)是所有出现的目标词的注意力权重之和:
可以看出,如果yt是一个未登录词,则Pg(yt)为0;同样如果yt没有出现在输入样本中,则Pc(yt)为0。
3.根据权利要求2所述的基于指针生成网络的数据到文本的模型生成方法,其特征在于:步骤(4)的具体方式为:
其中Φj表示xj生成单词的个数,其定义为:
注意力分数计算为:
其中Wh、Ws、Wv为神经网络的权重,be为神经网络的偏差参数;
一个输入词未表达的信息越多,其覆盖向量对应的值越大,覆盖向量作为注意力分数计算公式的系数,未表达信息越多的词的系数越大,其相应的注意力分数就越大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910573445.1A CN110298436B (zh) | 2019-06-28 | 2019-06-28 | 基于指针生成网络的数据到文本的生成模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910573445.1A CN110298436B (zh) | 2019-06-28 | 2019-06-28 | 基于指针生成网络的数据到文本的生成模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110298436A CN110298436A (zh) | 2019-10-01 |
CN110298436B true CN110298436B (zh) | 2023-05-09 |
Family
ID=68029209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910573445.1A Active CN110298436B (zh) | 2019-06-28 | 2019-06-28 | 基于指针生成网络的数据到文本的生成模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110298436B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325002A (zh) * | 2020-02-17 | 2020-06-23 | 广东博智林机器人有限公司 | 文本生成方法、装置、电子设备及存储介质 |
CN111488726B (zh) * | 2020-03-31 | 2023-05-23 | 成都数之联科技股份有限公司 | 基于指针网络的非结构文本抽取多任务联合训练方法 |
CN112069777B (zh) * | 2020-06-15 | 2022-09-30 | 北京理工大学 | 一种基于骨架的二阶段数据到文本生成方法 |
CN112069827B (zh) * | 2020-07-30 | 2022-12-09 | 国网天津市电力公司 | 一种基于细粒度主题建模的数据到文本生成方法 |
CN112183083A (zh) * | 2020-08-31 | 2021-01-05 | 杭州远传新业科技有限公司 | 文摘自动生成方法、装置、电子设备及存储介质 |
CN112271001B (zh) * | 2020-11-17 | 2022-08-16 | 中山大学 | 一种应用异构图神经网络的医疗咨询对话系统及方法 |
CN112417155B (zh) * | 2020-11-27 | 2022-06-10 | 浙江大学 | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 |
CN112395892B (zh) * | 2020-12-03 | 2022-03-18 | 内蒙古工业大学 | 基于指针生成网络实现占位符消歧的蒙汉机器翻译方法 |
CN112541350B (zh) * | 2020-12-04 | 2024-06-14 | 支付宝(杭州)信息技术有限公司 | 一种变种文本还原方法、装置以及设备 |
CN113010693B (zh) * | 2021-04-09 | 2024-03-08 | 大连民族大学 | 融合指针生成网络的知识图谱智能问答方法 |
CN113127631B (zh) * | 2021-04-23 | 2022-07-01 | 重庆邮电大学 | 基于多头自注意力机制和指针网络的文本摘要方法 |
CN113065336B (zh) * | 2021-05-06 | 2022-11-25 | 清华大学深圳国际研究生院 | 一种基于深度学习和内容规划的文本自动生成方法及装置 |
CN113779310B (zh) * | 2021-09-10 | 2023-06-02 | 电子科技大学 | 一种基于层级表征网络的视频理解文本生成方法 |
CN117407771A (zh) * | 2023-12-13 | 2024-01-16 | 湘江实验室 | 基于数字孪生的轴承健康状态评估方法、装置及相关设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280112B (zh) * | 2017-06-22 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
CN108959512B (zh) * | 2018-06-28 | 2022-04-29 | 清华大学 | 一种基于属性增强注意力模型的图像描述网络及技术 |
CN109344288B (zh) * | 2018-09-19 | 2021-09-24 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN109635284A (zh) * | 2018-11-26 | 2019-04-16 | 北京邮电大学 | 基于深度学习结合累积注意力机制的文本摘要方法及系统 |
-
2019
- 2019-06-28 CN CN201910573445.1A patent/CN110298436B/zh active Active
Non-Patent Citations (1)
Title |
---|
Qin Liu et al..Generating Commit Messages from Diffs using Pointer-Generator Network.《2019 IEEE/ACM 16th International Conference on Mining Software Repositories (MSR)》.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110298436A (zh) | 2019-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298436B (zh) | 基于指针生成网络的数据到文本的生成模型 | |
JP4532863B2 (ja) | 2言語コーパスを整列させるための方法および装置 | |
US11729120B2 (en) | Generating responses in automated chatting | |
CN109815493B (zh) | 一种智能嘻哈音乐歌词生成的建模方法 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
KR102281581B1 (ko) | 목표지향 대화시스템에서의 대화상태 추적방법 및 장치 | |
CN109271629B (zh) | 基于强化学习的生成式文本摘要方法 | |
US20230121711A1 (en) | Content augmentation with machine generated content to meet content gaps during interaction with target entities | |
King et al. | Evaluating approaches to personalizing language models | |
CN111859964A (zh) | 一种语句中命名实体的识别方法及装置 | |
CN111078866A (zh) | 一种基于序列到序列模型的中文文本摘要生成方法 | |
US20220300708A1 (en) | Method and device for presenting prompt information and storage medium | |
CN111767694B (zh) | 文本生成方法、装置和计算机可读存储介质 | |
CN110688450A (zh) | 一种基于蒙特卡洛树搜索的关键词生成方法、基于强化学习的关键词生成模型及电子设备 | |
CN113609284A (zh) | 一种融合多元语义的文本摘要自动生成方法及装置 | |
Su et al. | Attention-based response generation using parallel double Q-learning for dialog policy decision in a conversational system | |
CN115062139A (zh) | 一种对话文本摘要模型自动搜索方法 | |
Lee et al. | Simultaneous neural machine translation with a reinforced attention mechanism | |
Wang et al. | Data augmentation for internet of things dialog system | |
KR20220066554A (ko) | Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램 | |
Li et al. | Self-supervised bot play for transcript-free conversational recommendation with rationales | |
CN115858736A (zh) | 一种基于情感提示微调的情感文本生成方法 | |
Komatani et al. | Knowledge graph completion-based question selection for acquiring domain knowledge through dialogues | |
Jiang et al. | Pednet: A persona enhanced dual alternating learning network for conversational response generation | |
CN114398875A (zh) | 一种纠错模型的训练方法、检索词纠错方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |