CN115759042A - 一种基于句法感知提示学习的句子级问题生成方法 - Google Patents
一种基于句法感知提示学习的句子级问题生成方法 Download PDFInfo
- Publication number
- CN115759042A CN115759042A CN202211218782.7A CN202211218782A CN115759042A CN 115759042 A CN115759042 A CN 115759042A CN 202211218782 A CN202211218782 A CN 202211218782A CN 115759042 A CN115759042 A CN 115759042A
- Authority
- CN
- China
- Prior art keywords
- syntactic
- dependency
- sentence
- graph
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于句法感知提示学习的句子级问题生成方法,本发明首先根据给定的句子,构建相应的双向句法依存图,通过基于关系感知的注意力图编码器获取其语义表示,并将编码后的向量的输入softmax层,根据概率选取前k个向量作为连续型prompt。以前缀调整的方式将prompt拼接在给定源文本和答案上,共同输入到BERT模型中编码。然后将编码结果送入Transformer模型解码,并且在解码的每个时间步,建模已生成文本序列的句法依存信息,结合该信息和源句子的句法依存信息共同决定解码器需要重点关注的部分,辅助当前词的生成。同时,引入了复制机制来解决生成的单词不在问题词汇表中的情况,使得模型可以直接从源文本中复制单词。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于句法感知提示学习的句子级问题生成方法。
背景技术
近年来,随着人工智能的快速发展,自然语言处理技术得到了越来越广泛的应用。这里的自然语言指的是人类日常生活中沟通交流所使用的语言,比如汉语、英语等。自然语言处理就是指通过一系列的技术方法使得计算机能够理解自然语言和生成自然语言,因此自然语言处理分为自然语言理解和自然语言生成两大部分。其中,问题生成(QuestionGeneration,QG)任务是自然语言生成中的典型任务。问题生成指的是从一系列数据源中(例如文本、图片、知识库)自动生成内容相关、语言通顺的自然语言问题。
目前问题生成的工作主要集中在阅读理解领域,以事实文本为依据,针对给定答案生成一个自然语言表述的问题。而本发明研究的问题生成任务就是以事实文本和答案作为输入的。问题生成任务的应用前景十分广阔,例如,在人机交互领域,聊天机器人(Siri、微软小冰等)可以通过提问与用户产生对话或者请求用户反馈,适当的提出好问题可以给用户带来更好的体验。在教育领域,通过根据课程材料生成针对性的问题,对学生的水平进行测试,了解学生对知识的掌握程度,促进学生自我检查,减轻教学压力。另外,作为自动问答的对偶任务,QG任务可以通过生成大量高质量的问题,为训练问答模型提供大规模数据集,从而提升问答模型的效果。因此,研究问题生成任务具有重大的现实意义和广阔的应用前景。
传统的QG方法主要利用手工构建的规则模板并结合人工标注完成,这种方式十分耗费人力物力,并且通过模板生成的问题缺乏自然性和多样性。随着深度学习技术的发展,受序列到序列(Seq2seq)模型在机器翻译等文本生成任务的研究的启发,结合深度学习的QG方法研究也受到了学者们的广泛关注。使用端到端的深度神经网络模型不仅能够有效提升生成问题的自然性和多样性,而且能够达到较好的生成效果。近两年来,BERT、ERNIE等基于Transformer结构的预训练语言模型的提出,对问题生成研究产生了巨大影响。这些预训练语言模型通过在大规模语料集上进行预训练,可以准确地理解自然语言并以自然语言的形式流畅表达,在问题生成任务中的表现远超传统的编码器-解码器框架。然而使用预训练模型进行问题生成的效果虽然好,但是存在一个棘手的问题,它无法有效利用源文本的句法结构信息。句法信息指的是对源句子进行依存分析后获得的信息,包含了实体间的各种句法结构关系,比如复合词“compound”、名词性主语“nsubj”、连词“conj”等。这些信息能够帮助编码器融入句子的依存关系,生成更有效的源文本向量表示。但是由于这些关系都是定义好的符号,和预训练模型已经训练过的词处于不同的语义空间,如果直接采用训练语言模型编码就会产生语义鸿沟。所以如何有效地将这类句法结构信息融合到预训练模型是一大问题。
另外,现有的工作基本都只考虑输入文本的句法结构信息,而忽略了已经生成的句子的句法结构信息,在解码过程中将之前时间步已经生成的文本仅仅当作序列来处理。然而,已经生成的文本的句法结构信息对于下一个时间步要生成的单词有重要的提示作用。因为句子中通常会存在一些固定搭配的情况,在掌握现有的句法结构信息时,就能对源文本中相关的单词赋予更多的注意力,并且直接复制相应的搭配单词。
因此,本发明提出一种新型的问题生成模型,利用连续型Prompt学习的特性将句法依存信息融合到预训练模型中。并且在解码过程中对已经生成的文本的句法依存信息进行了建模,并和源文本的句法依存信息一起共同指导问题生成。
发明内容
技术问题:本发明要解决的技术问题在于现有方法难以将句法信息融入到预训练语言模型中,而且忽略了已生成文本序列的句法信息,提供一种基于句法感知提示学习的句子级问题生成方法。
技术方案:本发明解决其技术问题所采用的技术方案是:一种基于句法感知提示学习的句子级问题生成方法。该方法首先根据给定的句子,构建相应的双向句法依存图,通过基于关系感知的注意力图编码器获取其语义表示,并将编码后的向量的输入softmax层,根据概率选取前k个向量作为连续型prompt。以前缀调整的方式将prompt拼接在给定源文本和答案上,共同输入到BERT模型中编码。然后将编码结果送入Transformer模型解码,并且在解码的每个时间步,建模已生成文本序列的句法依存信息,结合该信息和源句子的句法依存信息共同决定解码器需要重点关注的部分,辅助当前词的生成。同时,引入了复制机制来解决生成的单词不在问题词汇表中的情况,使得模型可以直接从源文本中复制单词。
本发明的基于句法感知提示学习的句子级问题生成方法,包括如下步骤:
1)通过基于迭代强化的指代消解方法和基于生成式路径依存分析方法对给定的句子序列进行初步处理,首先构建依存分析树,然后将单向连接拓展成双向连接,构建出双向句法依存图。
2)对所述步骤1)最终得到的双向句法依存图,通过基于关系感知的注意力图编码器,首先对图中节点间的句法依存关系进行编码,然后基于句法依存关系向量更新图中节点的向量表示,最后获得整张图的向量表示。
3)对所述步骤2)最终得到的句法依存图向量,将其输入到softmax层中,计算概率,并取出前k个概率大的向量,作为前缀调整的prompt向量。将prompt向量作为前缀分别加入编码器和解码器的输入端。
4)采用BERT结合prompt前缀,对给定的文本和答案进行编码,获得句法感知的文本向量表示。
5)将句法感知的文本向量表示送入Transformer模型中解码,并且在解码的每个时间步,建模已生成文本序列的句法依存信息,结合该信息和源句子的句法依存信息共同决定解码器需要重点关注的部分,辅助当前词的生成。
6)引入复制机制来解决生成的单词不在问题词典中的情况,使得解码器在每个解码时间步,可以决定是从问题词典中生成单词还是从源文本中直接复制单词,
最终生成自然语言问题。
作为本发明的进一步改进,所述步骤1)中,对于给定的句子序列,首先基于迭代强化的指代消解技术,将代词替换成其指代的实体,便于后续构图时对相同的实体进行融合。在基于迭代强化的指代消解技术中,本发明首先将句子序列构建成图,将句子中的单词作为图节点,单词之间的关系作为边,然后在图结构中对共指链接进行建模,并且根据先前的预测迭代地对其进行细化,从而获得全局依赖关系,进行指代消解。
作为本发明的进一步改进,所述步骤1)中,采用基于生成式路径依存分析方法对句子进行依存分析,生成句法依存树。依存分析指的是输入一个句子X=[x1,…,xN],输出依存关系对P=[p1,…,pN],其中表示单词xi的依存关系对,和分别指单词xi的第j个中心词和他们的关系。基于生成式路径依存分析方法通过序列化器将依赖结构转换为符合预训练语言模型输出格式的序列化表示,然后利用预训练语言模型通过序列生成来解析句子的依存关系。具体来说,通过将依赖词xi分散到其每个中心词中,将依赖关系对分解为更小的依赖单元,从而形成三元组集合然后,将每个关系用一个特殊的标记替换,其中是所有不同关系的一组特殊标记。将中心词替换成其在输入句子中的位置最后将所有依赖单元与分割标记[SPT]连接起来,得到目标序列化表示
作为本发明的进一步改进,所述步骤1)中,在基于生成式路径依存分析方法对句子进行依存分析,生成句法依存树时,本发明为了消岐,将中心词替换成其在输入句子中的位置虽然通过位置表示中心词是中心词消歧的重要方案,但是预训练语言模型不太擅长数值推理,并且很难从头开始学习每个单词的位置信息。因此,本发明将单词位置信息注入到输入句子中,以避免进行数字推理。具体来说,为每个单词注入位置提示(PP),将位置编码问题转换为在输入中生成位置编号,而不是对每个单词进行计数。位置提示是每个单词的位置编号,其中包含两个特殊标记[PID]和[SPT]。[PID]标记位置编号的开头,并防止标记化算法错误地将位置提示作为前一个单词的一部分。[SPT]将位置编号与下一个单词分开。通过这种方式,输入的句子序列被表示成(x1[PID]1[SPT]x2[PID]2[SPT]…)。
作为本发明的进一步改进,所述步骤1)中,在基于生成式路径依存分析方法对句子进行依存分析,生成句法依存树时,前两个步骤都引入了原始词汇表之外的特殊标记,包括譬如分离标记[PID]、[SPT]。在训练之前,这些标记被添加到词汇表中,并且它们对应的嵌入是从与其他标记相同的分布中随机初始化的。由于不同的标记具有不同的语义,所以本发明采用预训练语言模型将这些特殊标记视为可训练变量,并在训练期间学习它们的语义。具体来说,输入句子首先被转换为带有位置提示的序列,该序列被进一步输入预训练语言模型并以最大概率获得序列输出。最终通过逆序列化器恢复预测的依存关系。逆序列化器通过用原始关系替换特殊标记并用输入句子中的位置索引头部来从序列化的表示中恢复依存关系。
作为本发明的进一步改进,所述步骤1)中,在对句子进行依存分析生成的句法依存树中,节点是句子中的每个单词,边是不同单词之间的句法关系,譬如复合词“compound”、名词性主语“nsubj”、连词“conj”等,这些都是不同边的标签。然而在这种树形结构中,只有在句子中直接相关的词才被连接起来,而很多单词之间是没有直接联系的。为了能够更加深入地挖掘句子中两个词之间的句法关系,本专利提出在句法依存树中添加反向连接将单向连接变为双向连接,将句法依存树拓展成句法依存图,通过扩展句法依存树的拓扑结构来建立全连接的交流。
作为本发明的进一步改进,所述步骤2)中,对图中节点间的句法依存关系进行编码时,两个节点间的关系通常是它们之间的最短关系路径。因此,本发明将句法关系看作是关系序列,采用双向LSTM(Long Short Term Memory,长短期记忆网络)对这些关系序列进行编码。
作为本发明的进一步改进,所述步骤2)中,对图中的节点进行编码时,通过融合与其相邻节点的语义信息以及之间的句法关系的语义信息,计算并更新该节点的向量表示。由于在句法关系编码中,仅编码了两个节点之间的最短路径,没有区分边的方向。为了将边的方向信息也融入到节点的向量表示中,本发明利用参数矩阵将句法关系编码向量分成前向句法关系编码向量和后向句法关系编码向量。由于相邻节点对该节点向量表示的贡献程度不一样,为了尽可能多的融入与节点关联程度高的相邻节点的信息,本发明提出使用一种句法感知的图注意力机制,计算不同节点的注意力得分。获得句法感知的注意力后,将来自相邻节点的信息与自身的语义信息相结合,更新节点的向量表示。
作为本发明的进一步改进,所述步骤4)中,采用BERT对给定的文本和答案进行编码,文本编码器的输入为{Prefix;[CLS]sentence[SEP]answer[SEP]},其中Prefix表示prompt前缀向量。前缀调整首先会初始化一个可训练矩阵来存储前缀参数。采用前缀调整后,预训练语言模型的参数被冻结,仅训练前缀的参数,实现了轻量级微调。在优化过程中,直接更新可训练参数会导致训练过程不稳定和性能的轻微下降,因此采用基于大型前馈神经网络组成的较小矩阵对矩阵实现重参数化。当训练结束后,仅保留前缀参数,删除重处理参数,并将分类字符—[CLS]的编码结果作为文本的编码结果,其包含了融合文本和答案的表征信息。
作为本发明的进一步改进,所述步骤5)中,鉴于已经生成的文本的句法结构信息对于下一个时间步要生成的单词有重要的提示作用,因此本发明提出建模已生成文本序列的句法信息。具体来说,首先利用所述步骤1)和所述步骤2)中句法依存图构建和编码的方式获得已生成句子序列的句法依存图以及对应的向量表示,然后和源文本的向量表示、源文本的句法结构图向量表示做匹配,指导当前词生成。
作为本发明的进一步改进,所述步骤5)中,为了防止解码器在生成单词的过程中对源句法依存图中的某个节点反复注意,导致单词重复的现象,本发明引入了覆盖机制。然而传统的覆盖机制都是针对文本序列中的每个单词计算覆盖程度,将输入序列视为一个向量集合,忽视了单词顺序的影响,更不用说句法依存关系。因此,本发明对其进行了改进,提出了句法感知的覆盖机制。鉴于句法依存图是由依存分析树演变而来的,本发明提出在计算当前节点的覆盖向量时,额外考虑其左右子节点的覆盖向量,从而将句法依存关系融入到覆盖向量的计算中。然后用覆盖向量约束当前时间步的注意力,缓解反复注意的现象。
有益效果:
相比于现有技术,本发明具有以下优点:1)本发明对于给定的句子序列构建了句法依存图,现有的问题生成方法仅仅利用了依存分析树获取句法信息,而本发明在依存分析树中添加反向连接将单向连接变为双向连接,将句法依存树拓展成句法依存图,通过这种方式建立全连接的交流,有利于获取更加丰富的句法信息。2)本发明使用一种关系感知的注意力图编码器获得句法依存图的语义表示向量,单独编码句法依存关系,并将其融入到节点向量的表示中,从而获得语义更加丰富的句法依存图表示向量。3)本发明使用了连续型提示学习建模句法信息,连续型提示学习侧重于向量化表达,不需要特定文本,可以学习直接作用到模型的embedding空间,因此,采用提示学习能够更好的建模句法依存关系,有效的解决语义鸿沟问题。并且现在有的连续型提示学习大都是随机初始化的,而且是静态的,本发明采用了一种动态的、句法感知的方式,通过句法信息进行prompt选择。4)本发明在解码过程中建模了已生成文本序列的句法依存信息,并指导当前词的生成。现有的工作基本都只考虑输入文本的句法结构信息,而忽略了已经生成的句子的句法结构信息,在解码过程中将之前时间步已经生成的文本仅仅当作序列来处理。然而,已经生成的文本的句法信息对于下一个时间步要生成的单词有重要的提示作用。因为句子中通常会存在一些固定搭配的情况,在掌握现有的句法依存信息时,就能对源文本中相关的单词赋予更多的注意力,并且直接复制相应的搭配单词。5)本发明设计了一种句法感知的覆盖机制。为了防止解码器在生成单词的过程中对源句法结构图中的某个节点反复注意,导致单词重复的现象,本发明计划引入覆盖机制。然而传统的覆盖机制都是针对文本序列中的每个单词计算覆盖程度,将输入序列视为一个向量集合,忽视了单词顺序的影响,更不用说句法结构。因此,本发明对其进行了改进,提出了句法感知的覆盖机制。鉴于句法依存图是由依存分析树演变而来的,本发明提出在计算当前节点的覆盖向量时,额外考虑其左右子节点的覆盖向量,从而将句法结构信息融入到覆盖向量的计算中。经过实验分析证明,本方法提出的基于句法感知提示学习的句子级问题生成方法对于提高生成问题的质量起到了改进作用,增强了问题生成的效果。
附图说明
图1是本发明的基本过程示意图;
图2是本发明的模型框架图;
图3是本发明的句法依存图和句法依存树的区别;
图4是本发明的使用连续型提示学习的编码器—解码器架构图;
图5是本发明的模型解码实现图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
实施例1:本发明的基于句法感知提示学习的句子级问题生成方法,包括以下几个步骤:
1)通过基于迭代强化的指代消解方法和基于生成式路径依存分析方法对给定的句子序列进行初步处理,构建出双向句法依存图。具体来说,对于给定的句子序列,首先采用基于迭代强化的指代消解方法,将代词替换成其指代的实体,便于后续构图时对相同的实体进行融合。然后采用基于生成式路径依存分析方法对句子进行依存分析,生成句法依存树。
在基于迭代强化的指代消解方法中,本发明首先将句子序列构建成图,将句子中的单词作为图节点,单词之间的关系作为边,然后在图结构中对共指链接进行建模,并且根据先前的预测迭代地对其进行细化,从而获得全局依赖关系,进行指代消解。具体来说,给定句子序列X=[x1,…,xN],构建的共指图即各个单词之间的关系矩阵G。其中,两个单词xi和xj之间的关系gi,j∈{0,1,2},0表示没有关系,1表示实体链接,2表示共指链接。
实体链接是用来确定句子序列中的实体的。本发明根据图是模型的输入还是输出,以两种不同的方式定义实体链接。当图是输入时,从每个实体的标记到实体的开头(简称实体头)都有一个有向链接,包括头到自身。当图是模型的输出时,从实体跨度的最后一个标记到第一个标记只有一个有向链接。两种编码方法都唯一地定义了一个实体跨度。每一个实体都有一个独特的起点组合和一个独特的头部。
共指链接定义了实体与其每个前件之间的关系。本发明根据图是模型的输入还是输出,以两种不同的方式定义共指链接。当输入图时,存在从实体头标记到同一集群中每个实体头的链接。当图是模型的输出时,实体应该至少与它的一个前件相关联。如果实体没有前件,或者对应于文本中第一次提及的实体,那么它连接到一个空前件。本发明使用实体集群中实体之间的所有可能连接作为输入,以便模型接收每个共指关系的直接输入。
最终的目的是学习到在给定句子序列上关系矩阵的条件概率分布p(G|X),根据概率分布实现共指解析,这个分布最初是通过假设每个关系gi,j之间的独立性来近似的,计算公式如下:
概率p(gi,j|D)的计算分为两种情况:一种是对于实体链接pm,另一种是对于共指链接pc。实体链接pm的概率计算如下:
pm(gi,j=1|X)=σ(Wm·[hi,hj])
其中,Wm是参数矩阵,hi和hj是单词xi和xj的隐向量。该概率表示在句子序列X中是否存在从位置j开始到位置i结束的实体。
共指链接pc的概率计算如下:
其中,Wc是参数矩阵。A(i)是单词xi所有候选前件的集合,包含了所有的区间小于i的实体头,同时也包含了空实体头∈,
即A(i)={∈,xk|k<i and xk∈H(D)},H(D)是句子序列中所有候选实体头的集合。
然后采用迭代共指建模关系之间的内在依赖关系。在第t轮迭代时,基于上一轮获得的共指图Gt-1预测这一轮的共指图Gt。模型的条件概率分布定义如下:
在基于生成式路径依存分析方法中,首先将依赖结构转换为符合预训练语言模型输出格式的序列化表示,然后将单词位置信息注入到输入句子中,以避免进行数字推理,最后将带有位置提示的序列输入预训练语言模型中并以最大概率获得序列输出,通过逆序列化器恢复预测的依存关系。第一步,通过序列化器将依赖结构转换为符合预训练语言模型输出格式的序列化表示。具体来说,通过将依赖词xi分散到其每个中心词中,将依赖关系对分解为更小的依赖单元,从而形成三元组集合然后,将每个关系用一个特殊的标记替换,其中是所有不同关系的一组特殊标记。将中心词替换成其在输入句子中的位置最后将所有依赖单元与分割标记[SPT]连接起来,得到目标序列化表示
第二步,将单词位置信息注入到输入句子中,以避免进行数字推理。在第一步中,本发明为了消岐,将中心词替换成其在输入句子中的位置虽然通过位置表示中心词是中心词消歧的重要方案,但是预训练语言模型不太擅长数值推理,并且很难从头开始学习每个单词的位置信息。因此,本发明为每个单词注入位置提示(PP),将位置编码问题转换为在输入中生成位置编号,而不是对每个单词进行计数。位置提示是每个单词的位置编号,其中包含两个特殊标记[PID]和[SPT]。[PID]标记位置编号的开头,并防止标记化算法错误地将位置提示作为前一个单词的一部分。[SPT]将位置编号与下一个单词分开。通过这种方式,输入的句子序列被表示成(x1[PID]1[SPT]x2[PID]2[SPT]…)。
最后,通过预训练语言模型生成序列。前两个步骤都引入了原始词汇表之外的特殊标记,包括譬如分离标记[PID]、[SPT]。在训练之前,这些标记被添加到词汇表中,并且它们对应的嵌入是从与其他标记相同的分布中随机初始化的。由于不同的标记具有不同的语义,所以本发明采用预训练语言模型将这些特殊标记视为可训练变量,并在训练期间学习它们的语义。具体来说,输入句子首先被转换为带有位置提示的序列,该序列被进一步输入预训练语言模型并以最大概率获得序列输出。最终通过逆序列化器恢复预测的依存关系。逆序列化器通过用原始关系替换特殊标记并用输入句子中的位置索引头部来从序列化的表示中恢复依存关系,获得句法依存树。
在句法依存树中,节点是句子中的每个token,边是不同token之间的句法关系,譬如复合词“compound”、名词性主语“nsubj”、连词“conj”等,这些都是不同边的标签。然而在这种树形结构中,只有在句子中直接相关的词才被连接起来,而很多单词之间是没有直接联系的。为了能够更加深入地挖掘句子中两个词之间的句法关系,本专利提出在句法依存树中添加反向连接将单向连接变为双向连接,将句法依存树拓展成句法依存图,通过扩展句法依存树的拓扑结构来建立全连接的交流。如图3所示,对于句子“How manypoints didthe Broncos score?”,图中左边构建了对应的句法依存树,通过在句法依存树中添加反向连接将单向连接变为双向连接,形成了图中右边的句法依存图。通过双向连接的方式,一个词能够直接接收和发送信息给任何其他词,无论它们是否直接连接。
2)对所述步骤1)最终得到的双向句法依存图,通过基于关系感知的注意力图编码器,首先对图中节点间的句法依存关系进行编码,然后基于句法依存关系向量更新图中节点的向量表示,最后获得整张图的向量表示。
在对句法依存关系编码时,两个节点间的关系通常是它们之间的最短关系路径。譬如节点i和节点j之间的最短关系路径spi→j=[sp1,…,spt,…,spb+1]=[e(i,k1),e(k1,k2),…,e(i,k1)],其中,spt表示关系路径中第t条边,这条关系路径一共由b+1条边组成,e(i,k1)表示节点i和节点k1之间相连边的标签,k1:b是最短关系路径spi→j上的中间节点。两个节点间的关系通常是它们之间的最短关系路径。因此,本发明将句法关系看作是关系序列,采用双向LSTM(Long Short Term Memory,长短期记忆网络)对这些关系序列进行编码,计算公式如下:
对于图中某个节点,通过融合与其相邻节点的语义信息以及之间的句法关系的语义信息,计算并更新该节点的向量表示。由于在句法关系编码中,仅编码了两个节点之间的最短路径,没有区分边的方向。为了将边的方向信息也融入到节点的向量表示中,本发明首先利用参数矩阵将句法关系编码向量rij分成前向句法关系编码向量ri→j和后向句法关系编码向量rj→i,即[ri→j,rj→i]=Wrrij。
另外,对于某个节点来说,其相邻节点与其关联的程度是不一样的,有些节点与其紧密相关,譬如这两个节点之间存在复合词关系,因此对该节点向量表示的贡献程度也不一样。为了尽可能多的融入与节点关联程度高的相邻节点的信息,本发明提出使用一种句法感知的图注意力机制,计算不同节点的注意力得分。具体来说,对于节点i和节点j,他们之间的注意力αij是根据他们各自的初始向量hi、hj,以及他们之间的句法关系向量rij获得的,计算方式如下:
通过这种计算方式,可以借助句法关系约束节点的向量表示,从而提升向量表示的准确性和寓意丰富性。获得句法感知的注意力后,将来自相邻节点的信息与自身的语义信息相结合,更新节点i的向量表示,计算方式如下:
其中,G(i)表示节点i相邻节点的集合。最后将图中所有节点的向量表示h1:m输入平均池化层,获得整张句法依存图的语义向量表示g,计算方式
如下:
g=AvgPooling(h1:m)
其中,AvgPooling(·)表示平均池化函数。
3)对所述步骤2)最终得到的句法依存图向量,将其输入到softmax层中,计算概率,并取出前k个概率大的向量,作为前缀调整的prompt向量。
4)采用BERT结合prompt前缀,对给定的文本和答案进行编码,获得句法感知的文本向量表示。如图4所示,BERT预训练语言模型的输入为{Prefix;[CLS]sentence[SEP]answer[SEP]}。在本模型中,一共有k个前缀,在图中,假定k=5。前缀调整首先会初始化一个可训练矩阵Pθ来存储前缀参数。采用前缀调整后,预训练语言模型的参数被冻结,仅训练前缀的参数θ,实现了轻量级微调。在优化过程中,直接更新可训练参数Pθ会导致训练过程不稳定和性能的轻微下降,因此采用基于大型前馈神经网络MLPθ组成的较小矩阵Pθ′对矩阵Pθ实现重参数化,即Pθ=MLPθ(Pθ′)。当训练结束后,仅保留前缀参数Pθ,删除重处理参数Pθ′,并将分类字符—[CLS]的编码结果作为文本的编码结果,用向量c表示,其包含了融合文本和答案的表征信息。
5)将句法感知的文本向量表示送入Transformer模型中解码,并且在解码的每个时间步,利用所述步骤1)和所述步骤2)中句法依存图构建和编码的方式获得已生成句子序列的句法依存图以及对应的向量表示qt,建模已生成文本序列的句法依存信息。解码过程如图5所示,由于在生成不同单词时,需要重点关注到源文本中不同的信息,因此采用注意力机制从给定源文本的句法结构图中获取关键信息。在解码的第t个时间步,基于注意力感知的源文本句法依存图向量表示gt、源文本的向量表示c、已生成句子序列的句法依存图向量表示qt和上一时间步的隐藏状态st-1,计算当前时间步的隐藏状态st,并生成当前词yt,计算方式如下:
st=Transformer(FFN(c,gt,qt),st-1)
Pvocab(yt)=softmax(st,yt-1)
其中,FFN(·)表示全联接前馈网络层。
为了防止解码器在生成单词的过程中对源句法依存图中的某个节点反复注意,导致单词重复的现象,本发明引入了覆盖机制。然而传统的覆盖机制都是针对文本序列中的每个单词计算覆盖程度,将输入序列视为一个向量集合,忽视了单词顺序的影响,更不用说句法结构。因此,本发明对其进行了改进,提出了句法感知的覆盖机制。鉴于句法依存图是由依存分析树演变而来的,本发明提出在计算当前节点的覆盖向量时,额外考虑其左右子节点的覆盖向量,从而将句法信息融入到覆盖向量的计算中,计算过程如下:
Covt,j
=GRU(Covt-1,j,at-1,j,st-1,hj,Covt-1,L(i),at-1,L(i),Covt-1,R(i),at-1,R(i))
其中,at-1,j是第t-1个时间步时,源文本的句法结构图中第j个节点的注意力权重。从该公式中可以看出,本发明在计算覆盖向量时,不仅考虑了当前节点的注意力值,还考虑了该节点的左子节点L(i)和右子节点R(i)的注意力值以及覆盖程度。
计算过程如下:
et,j=λ(st-1,hj,Covt,j)
其中,λ是一个激活函数,通常使用tanh实现。
6)引入复制机制来解决生成的单词不在问题词典中的情况,使得解码器在每个解码时间步,可以决定是从问题词典中生成单词还是从源文本中直接复制单词,最终生成自然语言问题。由于在生成过程中计算获得的注意力权重at=(at,1,at,2,…,at,N)衡量了当前时间步每个输入单词与部分解码状态的相关性,也就是输入序列的信息权重分布,因此可以直接将该权重向量at视为从输入序列复制单词的概率分布Pcopy(yt)。
最终当前时间步的输出yt,要么从问题词典中生成,要么从源文本中复制,计算公式如下:
P(yt)=pgen·Pvocab(yt)+(1-pgen)·Pcopy(yt)
pgen=σ(Wgen(st+c+gt+qt+yt-1))
其中,pgen表示从问题词典中生成的概率,根据当前时间步解码器的隐藏状态st、源文本的向量表示c、源文本句法结构图向量表示gt和生成文本序列的句法结构图向量表示qt计算获得。Wgen是可训练的参数矩阵,σ是sigmoid函数。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。
Claims (10)
1.一种基于句法感知提示学习的句子级问题生成方法,其特征在于,该方法包括如下步骤:
1)通过基于迭代强化的指代消解方法和基于生成式路径依存分析方法对给定的句子序列进行初步处理,首先构建依存分析树,然后将单向连接拓展成双向连接,构建出双向句法依存图;
2)对所述步骤1)最终得到的双向句法依存图,通过基于关系感知的注意力图编码器,首先对图中节点间的句法依存关系进行编码,然后基于句法依存关系向量更新图中节点的向量表示,最后获得整张图的向量表示;
3)对所述步骤2)最终得到的句法依存图向量,将其输入到softmax层中,计算概率,并取出前k个概率大的向量,作为前缀调整的prompt向量,将prompt向量作为前缀分别加入编码器和解码器的输入端;
4)采用BERT结合prompt前缀,对给定的文本和答案进行编码,获得句法感知的文本向量表示;
5)将句法感知的文本向量表示送入Transformer模型中解码,并且在解码的每个时间步,建模已生成文本序列的句法依存信息,结合该信息和源句子的句法依存信息共同决定解码器需要重点关注的部分,辅助当前词的生成;
6)引入复制机制来解决生成的单词不在问题词典中的情况,使得解码器在每个解码时间步,决定是从问题词典中生成单词还是从源文本中直接复制单词,最终生成自然语言问题。
2.根据权利要求书1所述的基于句法感知提示学习的句子级问题生成方法,其特征在于,所述步骤1)中,对于给定的句子序列,首先基于迭代强化的指代消解技术,将代词替换成其指代的实体,便于后续构图时对相同的实体进行融合,在基于迭代强化的指代消解技术中,首先将句子序列构建成图,将句子中的单词作为图节点,单词之间的关系作为边,然后在图结构中对共指链接进行建模,并且根据先前的预测迭代地对其进行细化,从而获得全局依赖关系,进行指代消解。
3.根据权利要求书1所述的基于句法感知提示学习的句子级问题生成方法,其特征在于,所述步骤1)中,采用基于生成式路径依存分析方法对句子进行依存分析,生成句法依存树,依存分析指的是输入一个句子X=[x1,…,xN],输出依存关系对P=[p1,…,pN],其中表示单词xi的依存关系对,和分别指单词xi的第j个中心词和他们的关系,基于生成式路径依存分析方法通过序列化器将依赖结构转换为符合预训练语言模型输出格式的序列化表示,然后利用预训练语言模型通过序列生成来解析句子的依存关系,具体来说,通过将依赖词xi分散到其每个中心词中,将依赖关系对分解为更小的依赖单元,从而形成三元组集合然后,将每个关系用一个特殊的标记替换,其中是所有不同关系的一组特殊标记,将中心词替换成其在输入句子中的位置最后将所有依赖单元与分割标记[SPT]连接起来,得到目标序列化表示
5.根据权利要求书1所述的基于句法感知提示学习的句子级问题生成方法,其特征在于,所述步骤1)中,在基于生成式路径依存分析方法对句子进行依存分析,生成句法依存树时,前两个步骤都引入了原始词汇表之外的特殊标记,包括分离标记[PID]、[SPT],在训练之前,这些标记被添加到词汇表中,并且它们对应的嵌入是从与其他标记相同的分布中随机初始化的,由于不同的标记具有不同的语义,采用预训练语言模型将这些特殊标记视为可训练变量,并在训练期间学习它们的语义,具体如下,输入句子首先被转换为带有位置提示的序列,该序列被进一步输入预训练语言模型并以最大概率获得序列输出,最终通过逆序列化器恢复预测的依存关系,逆序列化器通过用原始关系替换特殊标记并用输入句子中的位置索引头部来从序列化的表示中恢复依存关系,获得句法依存树。
6.根据权利要求书1所述的基于句法感知提示学习的句子级问题生成方法,其特征在于,所述步骤2)中,对图中节点间的句法依存关系进行编码时,两个节点间的关系通常是它们之间的最短关系路径,将句法关系看作是关系序列,采用双向LSTM(Long Short TermMemory,长短期记忆网络)对这些关系序列进行编码。
7.根据权利要求书1所述的基于句法感知提示学习的句子级问题生成方法,其特征在于,所述步骤2)中,对图中的节点进行编码时,通过融合与其相邻节点的语义信息以及之间的句法关系的语义信息,计算并更新该节点的向量表示,由于在句法关系编码中,仅编码了两个节点之间的最短路径,没有区分边的方向,为了将边的方向信息也融入到节点的向量表示中,利用参数矩阵将句法关系编码向量分成前向句法关系编码向量和后向句法关系编码向量,由于相邻节点对该节点向量表示的贡献程度不一样,为了尽可能多的融入与节点关联程度高的相邻节点的信息,提出使用一种句法感知的图注意力机制,计算不同节点的注意力得分,获得句法感知的注意力后,将来自相邻节点的信息与自身的语义信息相结合,更新节点的向量表示。
8.根据权利要求书1所述的基于句法感知提示学习的句子级问题生成方法,其特征在于,所述步骤4)中,将prompt作为前缀,采用BERT对给定的文本和答案进行编码,因此文本编码器的输入为{Prefix;[CLS]sentence[SEP]answer[SEP]},其中Prefix表示prompt前缀向量,前缀调整首先会初始化一个可训练矩阵来存储前缀参数,采用前缀调整后,预训练语言模型的参数被冻结,仅训练前缀的参数,实现了轻量级微调,在优化过程中,直接更新可训练参数会导致训练过程不稳定和性能的轻微下降,因此采用基于大型前馈神经网络组成的较小矩阵对矩阵实现重参数化,当训练结束后,仅保留前缀参数,删除重处理参数,并将分类字符—[CLS]的编码结果作为文本的编码结果,其包含了融合文本和答案的表征信息。
9.根据权利要求书1所述的基于句法感知提示学习的句子级问题生成方法,其特征在于,所述步骤5)中,鉴于已经生成的文本的句法结构信息对于下一个时间步要生成的单词有重要的提示作用,提出建模已生成文本序列的句法信息,具体如下,首先利用所述步骤1)和所述步骤2)中句法依存图构建和编码的方式获得已生成句子序列的句法依存图以及对应的向量表示,然后和源文本的向量表示、源文本的句法结构图向量表示做匹配,指导当前词生成。
10.根据权利要求书1所述的基于句法感知提示学习的句子级问题生成方法,其特征在于,所述步骤5)中,在计算当前节点的覆盖向量时,额外考虑其左右子节点的覆盖向量,从而将句法依存关系融入到覆盖向量的计算中,然后用覆盖向量约束当前时间步的注意力,缓解反复注意的现象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211218782.7A CN115759042A (zh) | 2022-10-07 | 2022-10-07 | 一种基于句法感知提示学习的句子级问题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211218782.7A CN115759042A (zh) | 2022-10-07 | 2022-10-07 | 一种基于句法感知提示学习的句子级问题生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115759042A true CN115759042A (zh) | 2023-03-07 |
Family
ID=85352105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211218782.7A Pending CN115759042A (zh) | 2022-10-07 | 2022-10-07 | 一种基于句法感知提示学习的句子级问题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115759042A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108830A (zh) * | 2023-03-30 | 2023-05-12 | 山东大学 | 一种句法可控文本改写方法和装置 |
CN116562303A (zh) * | 2023-07-04 | 2023-08-08 | 之江实验室 | 一种参考外部知识的指代消解方法及装置 |
CN116562275A (zh) * | 2023-06-09 | 2023-08-08 | 创意信息技术股份有限公司 | 一种结合实体属性图的自动文本摘要方法 |
CN117592483A (zh) * | 2023-11-21 | 2024-02-23 | 合肥工业大学 | 基于思维树的隐式情感分析方法与装置 |
CN117592483B (zh) * | 2023-11-21 | 2024-05-28 | 合肥工业大学 | 基于思维树的隐式情感分析方法与装置 |
-
2022
- 2022-10-07 CN CN202211218782.7A patent/CN115759042A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108830A (zh) * | 2023-03-30 | 2023-05-12 | 山东大学 | 一种句法可控文本改写方法和装置 |
CN116108830B (zh) * | 2023-03-30 | 2023-07-07 | 山东大学 | 一种句法可控文本改写方法和装置 |
CN116562275A (zh) * | 2023-06-09 | 2023-08-08 | 创意信息技术股份有限公司 | 一种结合实体属性图的自动文本摘要方法 |
CN116562275B (zh) * | 2023-06-09 | 2023-09-15 | 创意信息技术股份有限公司 | 一种结合实体属性图的自动文本摘要方法 |
CN116562303A (zh) * | 2023-07-04 | 2023-08-08 | 之江实验室 | 一种参考外部知识的指代消解方法及装置 |
CN116562303B (zh) * | 2023-07-04 | 2023-11-21 | 之江实验室 | 一种参考外部知识的指代消解方法及装置 |
CN117592483A (zh) * | 2023-11-21 | 2024-02-23 | 合肥工业大学 | 基于思维树的隐式情感分析方法与装置 |
CN117592483B (zh) * | 2023-11-21 | 2024-05-28 | 合肥工业大学 | 基于思维树的隐式情感分析方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN108763284B (zh) | 一种基于深度学习和主题模型的问答系统实现方法 | |
CN115759042A (zh) | 一种基于句法感知提示学习的句子级问题生成方法 | |
CN110110061B (zh) | 基于双语词向量的低资源语种实体抽取方法 | |
CN110196913A (zh) | 基于文本生成式的多实体关系联合抽取方法和装置 | |
CN108153864A (zh) | 基于神经网络生成文本摘要的方法 | |
CN110516244B (zh) | 一种基于bert的句子自动填充方法 | |
CN112417092B (zh) | 基于深度学习的智能化文本自动生成系统及其实现方法 | |
CN112765345A (zh) | 一种融合预训练模型的文本摘要自动生成方法及系统 | |
CN112597296B (zh) | 一种基于计划机制和知识图谱引导的摘要生成方法 | |
CN113254616B (zh) | 面向智能问答系统的句向量生成方法及系统 | |
CN111738006A (zh) | 基于商品评论命名实体识别的问题生成方法 | |
CN115906815B (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN111563146A (zh) | 一种基于推理的难度可控问题生成方法 | |
CN110781271A (zh) | 一种基于层次注意力机制的半监督网络表示学习模型 | |
CN114969278A (zh) | 一种基于知识增强图神经网络的文本问答模型 | |
CN114692568A (zh) | 一种基于深度学习的序列标注方法及应用 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN116204674A (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
CN115293168A (zh) | 基于预训练模型语义理解的多语言缩写消歧义算法 | |
CN114925170A (zh) | 文本校对模型训练方法及装置、计算设备 | |
CN114218928A (zh) | 一种基于图知识和主题感知的抽象文本摘要方法 | |
CN113590745B (zh) | 一种可解释的文本推断方法 | |
CN116150334A (zh) | 基于UniLM模型和Copy机制的中文共情语句训练方法及系统 | |
CN115858736A (zh) | 一种基于情感提示微调的情感文本生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |