CN111401003A - 一种外部知识增强的幽默文本生成方法 - Google Patents

一种外部知识增强的幽默文本生成方法 Download PDF

Info

Publication number
CN111401003A
CN111401003A CN202010164493.8A CN202010164493A CN111401003A CN 111401003 A CN111401003 A CN 111401003A CN 202010164493 A CN202010164493 A CN 202010164493A CN 111401003 A CN111401003 A CN 111401003A
Authority
CN
China
Prior art keywords
sentence
knowledge
background knowledge
humor
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010164493.8A
Other languages
English (en)
Other versions
CN111401003B (zh
Inventor
吕建成
张航
杨可心
彭德中
彭玺
孙亚楠
贺喆南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010164493.8A priority Critical patent/CN111401003B/zh
Publication of CN111401003A publication Critical patent/CN111401003A/zh
Application granted granted Critical
Publication of CN111401003B publication Critical patent/CN111401003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种外部知识增强的幽默文本生成方法,该方法包括对短笑话数据集预处理得到主体句‑背景知识‑妙语句对齐的数据,构建幽默文本生成模型,利用幽默文本生成模型生成幽默文本。本发明提出利用图注意力网络来聚合一个笑话主体句的背景知识图,增强节点表达,并提出将背景知识图融合到妙语句解码器中,从而实现给定主体句及相关的背景知识,能够生成富含幽默感的妙语句。

Description

一种外部知识增强的幽默文本生成方法
技术领域
本发明属于文本生成技术领域,具体涉及一种外部知识增强的幽默文本生成方法。
背景技术
幽默,描述一种有趣,可笑,蕴含深意的语句表达。它具有鲜明的文化特征,用诙谐、轻松或是讽刺的语言形式表现说话人想要表达的事物。随着人工智能技术迅猛成长,人们对计算机能力的期望也日益增高。“微软小冰”,“小爱同学”,“天猫精灵”等智能助手大火的重要原因之一,就是它们良好的交互能力。我们希望智能助手在交流中更具有情感和温度,也就是具有更高的情商。幽默被认为是交流中情商,“温度”的重要表现,在智能助手,对话生成等应用领域有着重要的意义。目前,智能助手中的对话生成技术大多是用检索,匹配式,虽然能够给出幽默的应答,但是并不能分析,理解,只是根据人们的聊天数据进行复制回应。根据乖讹论,幽默的语言,即笑话一般由主体(set-up)与(punchline,也称妙语)两部分构成,例如,“希特勒早上都吃什么?吃犹太人!”中,主体句“希特勒早上都吃什么?”,提供笑话的背景,包含读者的预期。妙语句“吃犹太人!”通常在笑话的结尾,产生出其不意的效果,令人发笑。
近年来,幽默的可计算生成得到越来越多的注意,这些工作主要对固定的模板进行填充,或者进行词语替换来产生幽默。但是,目前很少有研究人员对更加开放形式的幽默生成进行研究。此外,对于人来说,了解背景知识在理解,生成笑话中是至关重要的。例如上述例子中,如果要从这句话中感受到幽默,就必须了解到有关希特勒的背景,这些必须通过通用的外部知识进行导入。但是据我们所知,在目前的计算幽默研究中,笑话的背景知识并未被引入。
文章“迈向创造性语言生成:汉语幽默自动生成的探索”中,首次使用深度学习的方式进行妙语句生成,他们采用了Seq2Seq网络以及生成对抗网络,取得了一定的效果。但是在他们的算法中,并没有考虑到笑话背景知识的因素,会导致模型对主体句感知不足,无法生成关联性强的笑点句,从而使幽默的效果大打折扣。
发明内容
针对目前幽默生成方法形式固定和背景知识缺乏等问题,本发明提供了一种外部知识增强的幽默文本生成方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种外部知识增强的幽默文本生成方法,包括以下步骤:
S1、获取短笑话数据集并进行预处理,得到主体句-背景知识-妙语句对齐的数据;
S2、构建包含背景知识编码器、主体句编码器和背景知识融合的妙语句解码器的幽默文本生成模型;
S3、利用步骤S2构建的幽默文本生成模型对步骤S1得到的主体句-背景知识-妙语句对齐的数据进行处理,生成幽默文本。
进一步地,所述步骤S1具体包括以下分步骤:
S1-1、获取短笑话数据集,并进行笑话过滤、笑点分割和笑话去重复处理;
S1-2、将短笑话数据中的最后一个句子作为妙语句,其它句子作为主体句;
S1-3、使用实体链接工具TagMe将主体句中的实体链接到维基百科网站,获得实体的维基百科标题;
S1-4、使用SPARQL将实体链接到Wikidata并获得与实体相关的三元组,得到主体句-背景知识-妙语句对齐的数据。
进一步地,所述步骤S2具体包括以下分步骤:
S2-1、根据背景知识三元组构建背景知识图;
S2-2、采用背景知识编码器将背景知识图的邻近节点的特征进行融合,获取背景知识的隐藏特征;
S2-3、采用主体句编码器对主体句进行编码处理;
S2-4、将步骤S2-2获取的背景知识的隐藏特征和S2-3获取的主体句的隐藏特征整合到妙语句解码器的当前状态中,采用背景知识融合的妙语句解码器对妙语句进行解码处理。
进一步地,所述步骤S2-1具体包括以下分步骤:
S2-1-1、将背景知识三元组中的共引用实体折叠成单个实体节点,并将关系映射到关系节点;
S2-1-2、添加一个反向关系节点;
S2-1-3、采用双向长-短期记忆网络对实体和关系节点中的文本信息进行编码,采用最后的隐藏状态作为节点的初始特征。
进一步地,所述步骤S2-2具体为:
设定背景知识图为G=(V,E,Hl),V={v1,v2,...,vI},
Figure BDA0002406911440000031
节点vi的初始化特征为
Figure BDA0002406911440000032
每个节点通过一种多头注意力的机制融合邻居的信息来更新特性,表示为:
Figure BDA0002406911440000041
Figure BDA0002406911440000042
在第l层,节点vi的特征是
Figure BDA0002406911440000043
M是多头注意力运算中的头数,||表示M头注意力的运算结果进行拼接,
Figure BDA0002406911440000044
表示节点vi的一跳的邻居节点,σ为激活函数,
Figure BDA0002406911440000045
Figure BDA0002406911440000046
Figure BDA0002406911440000047
映射到第m头子空间。
进一步地,所述步骤S2-3具体为:
将经过词汇嵌入和位置编码的主体句序列设为{x1,x2,...,xp},然后输入到编码器模块的多个子层中进行处理。
进一步地,所述子层的处理步骤具体为:
A1、输入的序列{x1,x2,...,xp}经过多头自注意力运算,得到各元素的全局信息表达{x′1,x′2,...,x′p};
A2、进行残差连接并进行层规划化,表示为:
{l1,l2,...,ln}=LayNorm({x1+x′1,x2+x′2,...,xp+x′p})#
A3、经过前馈神经网络得到序列{f1,f2,...,fn};
A4、进行残差连接并进行层规划化,表示为:
{f′1,f′2,...,f′n}=LayNorm({l1+f1,l2+f2,...,ln+fn})#
A5、将{f′1,f′2,...,f′n}传递给下一个子层,重复N遍子层操作;
A6、得到最终主体句编码表达{q1,q2,...,qp}。
进一步地,所述步骤S2-4具体包括以下分步骤:
S2-4-1、设定知识编码器获得的节点特征为H={h1,h2,...,hI},主体句编码器获得的编码序列为Qp={q1,q2,...,qp},此时解码器的输入序列为Yt={y1,y2,...,yI}。使用多个相同的包含自注意力层、主体注意力层、知识融合层和线性层的模块计算解码端词汇表示;
S2-4-2、在第n块中,目标句Yt={y1,y2,...,yI}在经历多头掩码自注意力计算、与主体句表达Qp={q1,q2,...,qp}进行过多头注意力计算后,隐藏状态表示为
Figure BDA0002406911440000051
S2-4-3、将知识特征整合到当前状态,表示为:
An=MultiHead(Sn,H,H)
S2-4-4、引入门控机制,表示为:
Gate(Sn)=λnSn+(1-λn)An
S2-4-5、将特征输入到Transformer的前馈层,在N块操作之后,得到最终状态{e1,e2,...,et};
S2-4-6、生成下一个目标词yt+1的概率分布,表示为:
P(yt+1|X,K,y<=t;θ)∝exp(Woet),
其中
Figure BDA0002406911440000052
是模型参数,|vy|是目标的词汇表大小。
本发明具有以下有益效果:本发明提出利用图注意力网络来聚合一个笑话主体句的背景知识图,增强节点表达,并提出将背景知识图融合到妙语句解码器中,从而实现给定主体句及相关的背景知识,能够生成富含幽默感的妙语句。
附图说明
图1是本发明的外部知识增强的幽默文本生成方法流程示意图;
图2是本发明实施例中幽默文本生成模型架构示意图;
图3是本发明实施例中集束搜索示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种外部知识增强的幽默文本生成方法,包括以下步骤S1至S3:
一种外部知识增强的幽默文本生成方法,包括以下步骤:
S1、获取短笑话数据集并进行预处理,得到主体句-背景知识-妙语句对齐的数据;
在本实施例中,步骤S1具体包括以下分步骤:
S1-1、获取短笑话数据集,并进行笑话过滤、笑点分割和笑话去重复处理;
本发明选择短笑话数据集和Reddit-Joke数据集作为原始数据,这两个数据集在Kaggle网站上上是公开的。然后执行笑话过滤、笑点分割和笑话去重复。首先删除包含特殊字符的数据,只保留至少有两句话,每句话至少15个单词的笑话。
为了消除重复,我们使用BOW(bag of words)和余弦距离来检测句子相似性,被过滤相似度大于0.93的笑话。
S1-2、将短笑话数据中的最后一个句子作为妙语句,其它句子作为主体句;
S1-3、使用实体链接工具TagMe将主体句中的实体链接到维基百科网站,获得实体的维基百科标题;
为了获得背景知识,我们使用实体链接工具TagMe,它将出现在主体句中的实体链接到维基百科网站上。为了保证实体链接的可信度,我们只保留可信度大于0.1的实体。
S1-4、使用SPARQL将实体链接到Wikidata并获得与实体相关的三元组,得到主体句-背景知识-妙语句对齐的数据。
获得实体的维基百科标题之后,使用SPARQL将实体链接到Wikidata并获得与实体相关的三元组。最终得到了约10700对主体句-背景知识-笑点句对齐的数据。
S2、构建包含背景知识编码器、主体句编码器和背景知识融合的妙语句解码器的幽默文本生成模型;
在本实施例中,幽默文本生成模型架构如图2所示,步骤S2具体包括以下分步骤:
S2-1、根据背景知识三元组构建背景知识图,具体包括以下分步骤:
S2-1-1、将背景知识三元组中的共引用实体折叠成单个实体节点,并将关系映射到关系节点;一个三元组中的主题、关系和对象节点依次连接。
S2-1-2、为了允许对象的信息流入主题节点,添加一个反向关系节点;反向关系节点的内容是源和<rev>符号的连接。例如,(苹果,是一种,水果)这个三元组,本发明会构建四个节点,即苹果,是一种,水果,是一种<rev>。
S2-1-3、采用双向长-短期记忆网络对实体和关系节点中的文本信息进行编码,采用最后的隐藏状态作为节点的初始特征。
由于Wikidata中的实体和关系通常是多字表达式,本发明用双向长-短期记忆网络(Bi-LSTM)对这些词进行编码。本发明采用最后的隐藏状态作为节点的初始特征。最后得到一个连通图G=(V,E,H0),其中V是节点集合,E是边集合,H0是V的初始特性集合。
S2-2、采用背景知识编码器将背景知识图的邻近节点的特征进行融合,获取背景知识的隐藏特征,具体为:
设定背景知识图为G=(V,E,Hl),V={v1,v2,...,vI},
Figure BDA0002406911440000081
节点vi的初始化特征为
Figure BDA0002406911440000082
每个节点通过一种多头注意力的机制融合邻居的信息来更新特性,表示为:
Figure BDA0002406911440000083
Figure BDA0002406911440000084
在第l层,节点vi的特征是
Figure BDA0002406911440000085
M是多头注意力运算中的头数,||表示M头注意力的运算结果进行拼接,
Figure BDA0002406911440000086
表示节点vi的一跳的邻居节点,σ为激活函数,
Figure BDA0002406911440000087
Figure BDA0002406911440000088
Figure BDA0002406911440000089
映射到第m头子空间。
本发明通过等式2来计算每条边的连接权重
Figure BDA00024069114400000810
这种计算方式也可表达为Hl+1=MultiHead(Hl,Hl,Hl)。
本发明通过图注意力网络的方式,在每一层计算每个节点与其相邻节点的注意力权重,并根据注意力权重加权求和更新自身特征,通过这种方式,每个节点能够聚合周围节点的信息,具有更好地表达能力。
S2-3、采用主体句编码器对主体句进行编码处理,具体为:
将经过词汇嵌入和位置编码的主体句序列设为{x1,x2,...,xp},然后输入到编码器模块的多个子层中进行处理。
所述子层的处理步骤具体为:
A1、输入的序列{x1,x2,...,xp}经过多头自注意力运算,得到各元素的全局信息表达{x′1,x′2,...,x′p};
A2、进行残差连接并进行层规划化,表示为:
{l1,l2,...,ln}=LayNorm({x1+x′1,x2+x′2,...,xp+x′p})#
A3、经过前馈神经网络得到序列{f1,f2,...,fn};
A4、进行残差连接并进行层规划化,表示为:
{f′1,f′2,...,f′n}=LayNorm({l1+f1,l2+f2,...,ln+fn})#
A5、将{f′1,f′2,...,f′n}传递给下一个子层,重复N遍子层操作;
A6、得到最终主体句编码表达(q1,q2,...,qp}。
S2-4、将步骤S2-2获取的背景知识的隐藏特征和S2-3获取的主体句的隐藏特征整合到妙语句解码器的当前状态中,采用背景知识融合的妙语句解码器对妙语句进行解码处理,具体包括以下分步骤:
S2-4-1、设定知识编码器获得的节点特征为H={h1,h2,...,hI},主体句编码器获得的编码序列为Qp={q1,q2,...,qp},此时解码器的输入序列为Yt={y1,y2,...,yI}。使用多个相同的包含自注意力层、主体注意力层、知识融合层和线性层的模块计算解码端词汇表示;
S2-4-2、在第n块中,目标句Yt={y1,y2,...,yI}在经历多头掩码自注意力计算、与主体句表达Qp={q1,q2,...,qp}进行过多头注意力计算后,隐藏状态表示为
Figure BDA0002406911440000091
S2-4-3、知识融合层包括一个多头注意力层和一个受Highway Network启发的门控机制,本发明将知识特征整合到当前状态,表示为:
An=MultiHead(Sn,H,H)
S2-4-4、由于实体链接工具的不准确性,背景知识图中的节点信息可能包含噪声。为了解决这个问题,本发明引入门控机制,可以在背景知识的影响和来自设置编码器的信息之间更好地权衡,表示为:
Gate(Sn)=λnSn+(1-λn)An
其中λn表示门控权重,由下列式子计算得到
Figure BDA0002406911440000101
其中
Figure BDA0002406911440000102
为网络参数。
S2-4-5、将特征输入到Transformer的前馈层,在N块操作之后,得到最终状态{e1,e2,...,et};
S2-4-6、生成下一个目标词yt+1的概率分布,表示为:
P(yt+1|X,K,y<=t;θ)∝exp(Woet),
其中
Figure BDA0002406911440000103
是模型参数,|vy|是目标的词汇表大小。
S3、利用步骤S2构建的幽默文本生成模型对步骤S1得到的主体句-背景知识-妙语句对齐的数据进行处理,生成幽默文本。
在本实施例中,本发明采用常用的训练方式对幽默文本生成模型进行训练,训练过程为:
输入:训练数据集D={(X1,Y1),(X2,Y2),...,(Xn,Yn)}
超参数:网络参数,学习率η、最大迭代轮数epoch、批处理数据大小batch_size.等
过程:
1:初始化网络参数
2:while迭代次数<epoch
3:while迭代次数<((D的大小)/batch_size+1)
4:获取数据大小为batch_size的数据
5:前向传播,计算loss
6:反向传播,更新网络参数
7:保存网络参数
8:打印训练集,测试集loss
输出:
训练后的序列到序列网络模型
模型在训练集,测试集上Loss随迭代次数的变化曲线
在模型上的测试结果
在测试阶段,模型目标是取概率最高的一个句子作为输出。每一个时间步的输出就是之前时间步的输入。每一个时间步网络的输出都是离散概率的分布,我们需要从中进行采样,作为下一个时间步的输入。在这个采样过程中,通常有两种方法,一种是贪婪搜索,一种是集束搜索。贪婪搜索算法的思想很简单,即采取从网络的输出中采样最大概率的词语,作为下一个时间步的输入。但是这样就会出现一个问题,每一步的最大概率并不代表最终生成的文本序列概率最高,会有很大的几率忽略掉潜藏的高概率序列。因此集束搜索更加符合需求。
集束搜索作用在每一个时间步的输出采样阶段,该算法只留存下可能性大的几个结点。即在网络每一步输出中,挑选k个概率较高的节点保存下来,最终生成的序列就会避免贪婪搜索的局部最优问题,如图3所示。
在该示意图中,假设字典只有五个字,解码器每一个时间步输出字的离散概率分布,集束搜索每一步保存两个概率最高的节点。目标是获取可能性最大的一句话。如果采用贪心搜索,每一步都选择概率最大的,结果就会是“你爱国</s>”,但是该句子的概率并没有“我爱国</s>”的可能性高,产生了忽略潜在最高概率的句子。而集束搜索每一步选择可能性最高的两个节点,就能很大程度地选取最高概率的句子。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (8)

1.一种外部知识增强的幽默文本生成方法,其特征在于,包括以下步骤:
S1、获取短笑话数据集并进行预处理,得到主体句-背景知识-妙语句对齐的数据;
S2、构建包含背景知识编码器、主体句编码器和背景知识融合的妙语句解码器的幽默文本生成模型;
S3、利用步骤S2构建的幽默文本生成模型对步骤S1得到的主体句-背景知识-妙语句对齐的数据进行处理,生成幽默文本。
2.如权利要求1所述的外部知识增强的幽默文本生成方法,其特征在于,所述步骤S1具体包括以下分步骤:
S1-1、获取短笑话数据集,并进行笑话过滤、笑点分割和笑话去重复处理;
S1-2、将短笑话数据中的最后一个句子作为妙语句,其它句子作为主体句;
S1-3、使用实体链接工具TagMe将主体句中的实体链接到维基百科网站,获得实体的维基百科标题;
S1-4、使用SPARQL将实体链接到Wikidata并获得与实体相关的三元组,得到主体句-背景知识-妙语句对齐的数据。
3.如权利要求2所述的外部知识增强的幽默文本生成方法,其特征在于,所述步骤S2具体包括以下分步骤:
S2-1、根据背景知识三元组构建背景知识图;
S2-2、采用背景知识编码器将背景知识图的邻近节点的特征进行融合,获取背景知识的隐藏特征;
S2-3、采用主体句编码器对主体句进行编码处理;
S2-4、将步骤S2-2获取的背景知识的隐藏特征和S2-3获取的主体句的隐藏特征整合到妙语句解码器的当前状态中,采用背景知识融合的妙语句解码器对妙语句进行解码处理。
4.如权利要求3所述的外部知识增强的幽默文本生成方法,其特征在于,所述步骤S2-1具体包括以下分步骤:
S2-1-1、将背景知识三元组中的共引用实体折叠成单个实体节点,并将关系映射到关系节点;
S2-1-2、添加一个反向关系节点;
S2-1-3、采用双向长-短期记忆网络对实体和关系节点中的文本信息进行编码,采用最后的隐藏状态作为节点的初始特征。
5.如权利要求4所述的外部知识增强的幽默文本生成方法,其特征在于,所述步骤S2-2具体为:
设定背景知识图为G=(V,E,Hl),V={v1,v2,...,vI},
Figure FDA0002406911430000021
节点vi的初始化特征为
Figure FDA0002406911430000022
每个节点通过一种多头注意力的机制融合邻居的信息来更新特性,表示为:
Figure FDA0002406911430000023
Figure FDA0002406911430000024
在第l层,节点vi的特征是
Figure FDA0002406911430000025
Figure FDA0002406911430000026
M是多头注意力运算中的头数,||表示M头注意力的运算结果进行拼接,
Figure FDA0002406911430000027
表示节点vi的一跳的邻居节点,σ为激活函数,
Figure FDA0002406911430000028
Figure FDA0002406911430000029
Figure FDA00024069114300000210
映射到第m头子空间。
6.如权利要求5所述的外部知识增强的幽默文本生成方法,其特征在于,所述步骤S2-3具体为:
将经过词汇嵌入和位置编码的主体句序列设为{x1,x2,...,xp},然后输入到编码器模块的多个子层中进行处理。
7.如权利要求6所述的外部知识增强的幽默文本生成方法,其特征在于,所述子层的处理步骤具体为:
A1、输入的序列{x1,x2,...,xp}经过多头自注意力运算,得到各元素的全局信息表达{x′1,x′2,...,x′p};
A2、进行残差连接并进行层规划化,表示为:
{l1,l2,...,ln}=LayNorm({x1+x′1,x2+x′2,...,xp+x′p})#
A3、经过前馈神经网络得到序列{f1,f2,...,fn};
A4、进行残差连接并进行层规划化,表示为:
{f′1,f′2,...,f′n}=LayNorm({l1+f1,l2+f2,...,ln+fn})#
A5、将{f′1,f′2,...,f′n}传递给下一个子层,重复N遍子层操作;
A6、得到最终主体句编码表达{q1,q2,...,qp}。
8.如权利要求7所述的外部知识增强的幽默文本生成方法,其特征在于,所述步骤S2-4具体包括以下分步骤:
S2-4-1、设定知识编码器获得的节点特征为H={h1,h2,...,hI},主体句编码器获得的编码序列为Qp={q1,q2,...,qp},此时解码器的输入序列为Yt={y1,y2,...,yI}。使用多个相同的包含自注意力层、主体注意力层、知识融合层和线性层的模块计算解码端词汇表示;
S2-4-2、在第n块中,目标句Yt={y1,y2,...,yI}在经历多头掩码自注意力计算、与主体句表达Qp={q1,q2,...,qp}进行过多头注意力计算后,隐藏状态表示为
Figure FDA0002406911430000041
S2-4-3、将知识特征整合到当前状态,表示为:
An=MultiHead(Sn,H,H)
S2-4-4、引入门控机制,表示为:
Gate(Sn)=λnSn+(1-λn)An
S2-4-5、将特征输入到Transformer的前馈层,在N块操作之后,得到最终状态{e1,e2,...,et};
S2-4-6、生成下一个目标词yt+1的概率分布,表示为:
P(yt+1|X,K,y<=t;θ)∝exp(Woet),
其中
Figure FDA0002406911430000042
是模型参数,
Figure FDA0002406911430000043
是目标的词汇表大小。
CN202010164493.8A 2020-03-11 2020-03-11 一种外部知识增强的幽默文本生成方法 Active CN111401003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010164493.8A CN111401003B (zh) 2020-03-11 2020-03-11 一种外部知识增强的幽默文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010164493.8A CN111401003B (zh) 2020-03-11 2020-03-11 一种外部知识增强的幽默文本生成方法

Publications (2)

Publication Number Publication Date
CN111401003A true CN111401003A (zh) 2020-07-10
CN111401003B CN111401003B (zh) 2022-05-03

Family

ID=71430775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010164493.8A Active CN111401003B (zh) 2020-03-11 2020-03-11 一种外部知识增强的幽默文本生成方法

Country Status (1)

Country Link
CN (1) CN111401003B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN114860914A (zh) * 2022-05-26 2022-08-05 南京信息工程大学 一种基于知识库增强的端到端多领域任务型对话生成方法
CN114997070A (zh) * 2022-07-15 2022-09-02 合肥中科迪宏自动化有限公司 控制图模式识别模型的训练方法及控制图模式识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874896A (zh) * 2018-05-22 2018-11-23 大连理工大学 一种基于神经网络和幽默特征的幽默识别方法
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN110263353A (zh) * 2019-06-25 2019-09-20 北京金山数字娱乐科技有限公司 一种机器翻译方法及装置
US20200012953A1 (en) * 2018-07-03 2020-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN108874896A (zh) * 2018-05-22 2018-11-23 大连理工大学 一种基于神经网络和幽默特征的幽默识别方法
US20200012953A1 (en) * 2018-07-03 2020-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating model
CN110263353A (zh) * 2019-06-25 2019-09-20 北京金山数字娱乐科技有限公司 一种机器翻译方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭红叶等: "迈向创造性语言生成: 汉语幽默自动生成的探索", 《中国科学 : 信息科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN112084314B (zh) * 2020-08-20 2023-02-21 电子科技大学 一种引入知识的生成式会话系统
CN114860914A (zh) * 2022-05-26 2022-08-05 南京信息工程大学 一种基于知识库增强的端到端多领域任务型对话生成方法
CN114860914B (zh) * 2022-05-26 2023-06-16 南京信息工程大学 一种基于知识库增强的端到端多领域任务型对话生成方法
CN114997070A (zh) * 2022-07-15 2022-09-02 合肥中科迪宏自动化有限公司 控制图模式识别模型的训练方法及控制图模式识别方法

Also Published As

Publication number Publication date
CN111401003B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN108733792B (zh) 一种实体关系抽取方法
CN109062907B (zh) 融入依存关系的神经机器翻译方法
CN111401003B (zh) 一种外部知识增强的幽默文本生成方法
WO2022057669A1 (zh) 基于结构化上下文信息的知识图谱预训练方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN112069328B (zh) 一种基于多标签分类的实体关系联合抽取模型的建立方法
Mou et al. Backward and forward language modeling for constrained sentence generation
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN113157919A (zh) 语句文本方面级情感分类方法及系统
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN114925205A (zh) 基于对比学习的gcn-gru文本分类方法
CN116384371A (zh) 一种基于bert和依存句法联合实体及关系抽取方法
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统
CN112182439B (zh) 一种基于自注意力网络的搜索结果多样化方法
CN111428518A (zh) 一种低频词翻译方法及装置
CN114662659B (zh) 一种基于多阶段迁移学习策略综合的众包文本集成方法
CN114239575B (zh) 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备
CN114519353A (zh) 模型的训练方法、情感消息生成方法和装置、设备、介质
JP2019079087A (ja) 学習装置、プログラムパラメータおよび学習方法
SiChen A neural network based text classification with attention mechanism
Zhang Word Sense Disambiguation Model based on Bi-LSTM
Kim Text Classification Based on Neural Network Fusion
Kibria et al. Context-driven bengali text generation using conditional language model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant