CN113255918B

CN113255918B - 强化聚合知识指导的生成常识推理方法

Info

Publication number: CN113255918B
Application number: CN202110393843.2A
Authority: CN
Inventors: 李欣; 赵志云; 葛自发; 孙小宁; 张冰; 万欣欣; 袁钟怡; 赵忠华; 孙立远; 付培国; 王禄恒; 王晴
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2023-04-25
Anticipated expiration: 2041-04-13
Also published as: CN113255918A

Abstract

本发明公开了一种强化聚合知识指导的生成常识推理方法，包括：基于知识图谱构建概念推理图和分层概念扩展图；搭建强化聚合指导下基于概念推理图的知识图谱增强型编码器；搭建强化聚合指导下基于分层概念扩展图的知识图谱增强型解码器；训练包含知识图谱增强型编码器和知识图谱增强型解码器的生成常识推理模型；应用训练后的生成常识推理模型生成常识推理语句。本发明提供的方法可以有效避免因未考虑概念之间关系而导致生成语句不符合日常情景、逻辑不合理等一系列问题，通过引入强化聚合过程从知识图谱中筛选能提供丰富关系信息的附加概念描述，有效提升了模型对不可见概念集的概括。

Description

强化聚合知识指导的生成常识推理方法

技术领域

本发明涉及数据处理领域。更具体地说，本发明涉及一种强化聚合知识指导的生成常识推理方法。

背景技术

随着文本生成任务的开展，许多用于常识推理的基准已经被开发出来。各种预先训练的方法在各种尝试任务上取得了令人瞩目的性能。然后，文本生成中的常识推理，仍然是对现有模型的巨大挑战。目前的模型预训练方法仍然存在着忽略知识内在联系、生成语句不可信和异常、句子简单而刻板等一系列问题。针对上述问题，出现了很多改进模型，其中较为前沿的主要包括：基于Transformer的大规模无监督语言模型GPT-2；基于双向和自回归Transformer的语言模型BART；基于文本到文本Transformer的预训练模型T5等。

面对文本生成中常识推理任务存在的常见问题，上述主流的模型预训练方法，在某一特定问题上都做出了比较好的改进效果。但都存在一定的问题，比较限定于特定场景，生成语句质量仍有待提高。

首先，GPT-2虽然在一系列任务中表现较为出色，不受特定领域知识的影响，但是，由于其自回归特性可以生成任务，却不可以判别任务。这一特性也导致该方法在下游任务中的局限性，GPT-2虽然在文本生成上有较为惊艳的表现，但模型采用的只有解码器的Transformer架构将该方法的应用型大大降低，序列中所有的token用的都是从左到右单方向的因式分解，从组成架构来看，该方法缺乏新颖性，并没有提出更为突破性的想法。

其次，BART模型吸收了BERT的双向编码和GPT的从左至右解码特点，但也存在一定的局限性。实验表明，当输出仅受到输入的松散约束时，BART较为低效。在做文本生成任务时，该方法某种程度上只考虑了文本信息，而未能很有效地利用知识图谱等信息更好地挖掘语义深层次信息，捕获概念间关系，因而，在做文本生成的任务时，也会产生语句不合理或谬误的现象。

此外，T5模型做了大量的实验论证与分析，但是算力要求过高，微调运行成本太大，降低了生成环境下模型的真正实用性。该方法更多还是基于前人工作，在GLUE以及机器翻译上的提升很有限，模型复杂度和性能很难平衡，还有待进一步提高。

因此，需要提供一种强化聚合知识指导的生成常识推理方法来解决现有技术的不足。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种强化聚合指导的生成常识推理方法，应用强化学习框架，从知识图库中构建概念推理图和分层概念扩展图，加入到模型编解码过程中，以提供丰富的概念内与概念间关系，从而更好地完成文本生成的常识推理任务。

为了实现根据本发明的这些目的和其它优点，提供了一种强化聚合知识指导的生成常识推理方法，包括：

基于知识图谱构建概念推理图和分层概念扩展图；

搭建强化聚合指导下基于概念推理图的知识图谱增强型编码器；

搭建强化聚合指导下基于分层概念扩展图的知识图谱增强型解码器；

预训练包含知识图谱增强型编码器和知识图谱增强型解码器的生成常识推理模型；

应用预训练的生成常识推理模型生成常识推理语句。

优选的是，所述生成常识推理模型还包括：文本编码器和文本解码器，所述文本编码器与知识图谱增强型编码器共同构成BART编码器构架，所述文本解码器与知识图谱增强型解码器共同构成BART解码器构架。

优选的是，基于知识图谱构建概念推理图的方法包括：

将概念集中的每个概念与常识知识图谱中的单个实体节点相对应，匹配概念与实体节点；

收集每个概念对之间的一跳路径、二跳路径和三跳路径的三元组，以及每个概念的实体节点与邻居节点之间的三元组；

用收集的三元组训练TransE模型，生成概念推理图的节点的嵌入向量表示和概念推理图的边的嵌入向量表示。

优选的是，基于知识图谱构建分层概念扩展图的方法包括：

将利用概念集预训练的GloVe嵌入作为常识知识图谱的实体节点表示；

对常识知识图谱的实体节点的邻居节点按照词性进行细粒度划分，每种词性归为一类；

通过余弦相似性计算得出实体节点的邻居节点的相似性分数；

在每种词性下构建基于强化学习的相似性感知邻居选择器，选择每种词性下的邻居节点的相似性分数最佳过滤阈值；

根据最佳过滤阈值对实体节点的邻居节点的相似性分数进行top-p采样，选择相应邻居节点以及与邻居节点有关的边加入所述概念推理图中，得到分层概念扩展图的节点的嵌入向量表示和分层概念扩展图的边的嵌入向量表示。

优选的是，搭建强化聚合指导下基于概念推理图的知识图谱增强型编码器的方法包括：

构建整合模块，所述整合模块用于采用卷积神经网络将子词整合为概念；

构建多头图注意力模块，所述多头图注意力模块用于对整合模块得到的概念根据概念推理图，应用多头图注意力机制更新每个概念的嵌入向量表示；

构建分解模块，所述分解模块用于将更新后的概念通过上采样和反卷积分解为子词。

优选的是，所述多头图注意力模块对整合模块得到的概念更新每个概念的嵌入向量表示的方法包括：

将每个概念在概念推理图中的邻居节点按照词性划分，在每种词性范围内先做聚合嵌入；

将构建分层概念扩展图的过程得到的每种词性下的最佳过滤阈值作为聚合权重，向外聚合不同的词性向量；

应用多头图注意力机制学习来自文本的概念之间和/或来自概念推理图的概念之间和/或来自文本的概念与来自概念推理图的概念之间的关系，更新每个概念的嵌入向量表示。

优选的是，搭建强化聚合指导下基于分层概念扩展图的知识图谱增强型解码器的方法包括：

构建分层聚合模块，所述分层聚合模块用于将概念根据分层概念扩展图，应用多头图注意力机制进行分层聚合，再更新概念的嵌入向量表示；

构建关注度计算模块，所述关注度计算模块用于计算两个多头注意力以捕捉文本和分层概念扩展图之间的影响，得到两个关注度；

构建输出模块，所述输出模块用于将两个关注度连接得到输出结果，所述输出结果用于预测生成的token序列。

优选的是，所述分层聚合模块将概念进行分层聚合的方法包括：

将每个概念在分层概念扩展图通过概念节点周围的邻居节点用关系嵌入更新每个概念的嵌入向量表示；

应用多头图注意力机制学习来自文本的概念之间和/或来自分层概念扩展图的概念之间和/或来自文本的概念与来自分层概念扩展图的概念之间的关系，更新每个概念的嵌入向量表示。

优选的是，关注度计算模块计算两个多头注意力得到两个关注度的方法包括：

计算知识图谱增强型编码器隐藏状态与文本解码器生成的token级隐藏状态之间的关注度；

计算分层聚合模块更新后的概念的嵌入向量表示与文本解码器生成的token级隐藏状态之间的关注度。

优选的是，预训练所述生成常识推理模型的方法包括：

屏蔽部分原始文本中的概念，基于交叉熵优化知识图谱增强型解码器的输出和原始文本之间的重构损失，实现生成常识推理模型预训练。

本发明至少包括以下有益效果：

本发明构造的概念推理图和概念扩展图可以有效地涵盖概念内关系、概念之间关系等，在模型编码和解码过程中，提供丰富的结构信息和概念间关系，进而避免产生大量不可信句子，增强文本生成的常识推理能力，使得生成文本更符合人类认知。

本发明提出了基于强化聚合的生成常识推理模型，在BART模型基础上增加常识知识图谱的嵌入学习，构建基于知识图谱的编码器和解码器，为模型提供大量从语料库中挖掘的候选常识事实。同时，引入整合和分解模块来融合token与概念实体之间的异构信息，帮助模型同时使用文本概念和知识图作为输入，从而解决了语言文本忽略知识信息导致无法生成符合人类常识的输出的问题。

本发明提供的技术方案通过在BART原有模型架构上构建基于知识图谱增强的编码器和解码器，在生成常识推理任务上明显优于现有的预训练模型，本发明的生成常识推理模型可以通过生成有用的上下文作为后台场景，从而使下游任务受益。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明所述强化聚合指导的生成常识推理方法的流程图；

图2为本发明所述知识图谱增强型编码器进行知识图谱增强编码的流程图；

图3为本发明所述知识图谱增强型解码器进行知识图谱增强解码的流程图；

图4为本发明所述生成常识推理模型的结构示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得；在本发明的描述中，术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，本发明提供一种强化聚合指导的生成常识推理方法，其包括：

S101、基于知识图谱构建概念推理图和分层概念扩展图；

现有技术中，由于仅使用预训练的语言模型和文本概念不能为生成性常识推理提供足够的信息，而常识知识图谱提供了大量从语料库中挖掘的候选常识事实，有助于提供更多关系信息。比如，通过考虑事实“<fish,HasPrerequisite,using net>”和“<fish,HasSubevent,catch>”，很容易识别概念“<river,RelatedTo,clean>”之间的关系。对于生成常识性推理语句任务来说，常识知识图谱往往可以提供一些附加信息，如“<river,RelatedTo,clean>”，从而帮助生成更自然、更可信的句子。

基于知识图谱构建概念推理图的方法包括：

步骤一、将概念集中的每个概念与常识知识图谱中的单个实体节点相对应，匹配概念与实体节点；

这里的概念集在本实施例中为日常生活情境下的一组名词或动词，如：{河流、鱼、网、捕获}，而概念集中的每个概念则指其中的一个名词或者动词，如：河流或鱼或网或捕获。

步骤二、收集每个概念对之间的一跳路径、二跳路径和三跳路径的三元组。此外，考虑到语法关系，进一步收集每个概念的实体节点与其邻居节点之间的三元组，如：如果概念的实体节点是对象(名词)，则只会选择包含形容词单词的邻居节点；如果概念的实体节点是动作(动词)，则只选择包含副词的邻居节点。

步骤三、用步骤二收集的三元组作为训练集训练TransE模型，该模型通过每个边的关系嵌入为每个节点生成节点嵌入，每个关系的向量用节点向量之差表示，从而得到概念推理图的节点的嵌入向量表示和概念推理图的边的嵌入向量表示。

基于知识图谱构建分层概念扩展图的过程包括：

步骤一、将利用概念集预训练的GloVe嵌入作为常识知识图谱的实体节点表示；

步骤二、对常识知识图谱的实体节点的邻居节点按照词性进行细粒度划分，每种词性归为一类；

步骤三、通过余弦相似性计算得出实体节点的邻居节点的相似性分数；

步骤四、在每种词性下构建基于强化学习的相似性感知邻居选择器，选择每种词性下的邻居节点的相似性分数最佳过滤阈值；

步骤五、根据最佳过滤阈值对实体节点的邻居节点的相似性分数进行top-p采样，选择相应邻居节点以及与邻居节点有关的边加入所述概念推理图中，得到分层概念扩展图的节点的嵌入向量表示和分层概念扩展图的边的嵌入向量表示。

利用常识库为模型提供概念描述的附加信息，以使得生成句子更符合日常情景。如给定一个概念集{ski,skier,mountain}，考虑概念单词附属概念，考虑到“mountain”概念，“snowy”根据“snowy”和“ski/skier”的相近语义，要比“small”或“flat”更符合情景语义。基于这一事实，在强化学习框架下构建基于单词相似性感知的邻居选择器，根据过滤阈值筛选其潜在的相邻节点加入到概念推理图中，从而得到分层概念扩展图。为了计算单词相似性分数，使用由概念集预训练的GloVe嵌入作为常识知识图谱中每个实体节点的表示，选用余弦相似性机理计算相似性。特定相邻节点的排名分数是所有概念的相似性分数之和，从而使得生成语句包含的所有概念均处在相同日常情境下，更符合人类常识认知。

S102、搭建强化聚合指导下基于概念推理图的知识图谱增强型编码器；

在编码过程中，传统的文本Transformer编码器仅表示每个token的上下文信息，而忽略了一些常识事实，故常得出一些不合逻辑的语句。知识图谱增强型编码器通过考虑知识图谱结构来丰富token表示，通过基于图形的注意力机制来将图形表示纳入神经编码过程。

搭建强化聚合指导下基于概念推理图的知识图谱增强型编码器的方法包括：

步骤一、构建整合模块，所述整合模块用于采用卷积神经网络将子词整合为概念。

由于编码器的输入token是一系列子词，这里子词是指比单词更小的单元——子字符串，如“{ski,ski,er,moun,tain}”，而概念推理图中的概念都是单词级别的，如“{ski,skier,mountain}”，因此需要对齐统一这些不同粒度的序列，为了应用概念之间的关系，为每个概念对子词进行分组，采用卷积神经网络获取概念的单词级表示。

步骤二、构建多头图注意力模块，所述多头图注意力模块用于对整合模块得到的概念根据概念推理图，应用多头图注意力机制更新每个概念的嵌入向量表示。即将步骤一得到概念的单词级向量表示作为输入，根据给定具有节点特征和关系特征的概念推理图的嵌入表示，应用图注意力网络，通过其概念的实体节点的邻居节点迭代更新每个概念的嵌入向量表示。

具体而言，所述多头图注意力模块对整合模块得到的概念更新每个概念的嵌入向量表示的方法包括：

将每个概念(这里指概念的实体节点)在概念推理图中的邻居节点按照词性划分，在每种词性范围内先做聚合嵌入；

将构建分层概念扩展图的过程得到的每种词性下的最佳过滤阈值作为聚合权重，向外聚合不同的词性向量，可得到综合了来自概念推理图中不同词性邻居节点后更新的中心节点聚合向量；

应用多头图注意力机制学习来自文本的概念之间和/或来自概念推理图的概念之间和/或来自文本的概念与来自概念推理图的概念之间的关系，更新每个概念的嵌入向量表示。具体的，先修改GAT层，以注入成对嵌入关系；再定义多头图注意力机制，其中，单词级隐藏状态包含来自文本方面信息和概念推理图方面信息的任意两个概念之间的潜在关联性，将关系表示作为优先约束合并到编码过程中。由此得到综合考虑文本信息、概念推理图信息的包含概念间关系的概念表示。

步骤三、构建分解模块，所述分解模块用于将更新后的概念通过上采样和反卷积分解为子词。

具体而言，包括：首先对单词级隐藏状态进行上采样，然后通过反卷积得到单词级隐藏状态，再应用具有GeLU激活函数的两层前馈神经网络和残差层归一化来获得最终的输出。

所述知识图谱增强型编码器进行知识图谱增强编码的过程如图2所示，x表示来自文本编码器的输出，G^R表示来自知识图谱对应实体节点的输入，经过TransE模型的训练得到对应的节点嵌入v^R和关系嵌入r^R，SCI表示子词到概念的整合模块，MGAT表示在强化学习指导下的多头图注意力模块，CSD表示概念到子词的分解模块，输出的x^o为综合了文本信息与概念推理图信息的向量编码。

S103、搭建强化聚合指导下基于分层概念扩展图的知识图谱增强型解码器；

所述知识图谱增强型解码器将分层图结构结合到原BART模型的解码过程中，以捕获概念和它们的邻居节点之间的关系，这有助于生成更精确和自然的输出。

搭建强化聚合指导下基于分层概念扩展图的知识图谱增强型解码器的方法包括：

步骤一、构建分层聚合模块，所述分层聚合模块用于将概念根据分层概念扩展图，应用多头图注意力机制进行分层聚合，再更新概念的嵌入向量表示；

具体而言，所述分层聚合模块将概念进行分层聚合的过程包括：

将每个概念在分层概念扩展图通过概念节点周围的邻居节点用关系嵌入更新每个概念的嵌入向量表示，即分层聚合模块应用图注意力网络，其第一层图注意力关注层是通过概念的实体节点周围的邻居节点

用关系嵌入

来更新概念，在强化学习框架下，根据构建分层概念扩展图时得到的每个词性下的最佳过滤阈值作为对应的权重系数，聚合邻居节点关系，在用概念的实体节点的邻居节点更新概念之后，概念得到新的嵌入向量v^R′。

应用多头图注意力机制学习来自文本的概念之间和/或来自分层概念扩展图的概念之间和/或来自文本的概念与来自分层概念扩展图的概念之间的关系，更新每个概念的嵌入向量表示，即分层聚合模块的第二层图注意力关注层考虑概念内部关系

来更新概念表示，得到新嵌入向量表示v^R″。

步骤二、构建关注度计算模块，所述关注度计算模块用于计算两个多头注意力以捕捉文本和分层概念扩展图之间的影响，得到两个关注度；

这里，关注度计算模块计算两个多头注意力得到两个关注度的方法包括：

计算知识图增强型编码器隐藏状态x^O与文本解码器生成的token级隐藏状态y之间的关注度；

计算分层聚合模块更新后的概念的嵌入向量表示v^R″与文本解码器生成的token级隐藏状态y之间的关注度。

步骤三、构建输出模块，所述输出模块用于将两个关注度连接得到输出结果，所述输出结果通过计算概率来预测生成的token序列。

所述知识图谱增强型解码器进行知识图谱增强解码的过程如图3所示，其中，x^O表示编码器隐藏状态，y表示之前生成的token级隐藏状态，G^E是构建的分层概念扩展图，v^N是学到的概念的实体节点向量嵌入，v^R′与v^R″分别是经邻居节点更新和概念节点更新后的向量嵌入。y^O作为输出，用于预测token序列。

S104、预训练包含知识图谱增强型编码器和知识图谱增强型解码器的生成常识推理模型；

这里，如图4所示，所述生成常识推理模型还包括：文本编码器和文本解码器，所述文本编码器与知识图谱增强型编码器共同构成BART编码器构架，所述文本解码器与知识图谱增强型解码器共同构成BART解码器构架。

预训练所述生成常识推理模型的具体方法包括：屏蔽部分原始文本中的概念，基于交叉熵优化知识图谱增强型解码器的输出和原始文本之间的重构损失，实现生成常识推理模型预训练。

由于文本中单词的嵌入向量和知识图中的实体是以不同的方式获得的，使得它们的向量空间不一致。为了将概念推理图融合到传统的文本编码器中，形成类似于BART模型构架，通过破坏文本，然后优化解码器输出和原始文本之间的重构损失，即交叉熵来训练。比如从所选实体中随机选择五个概念节点，并在其中屏蔽一些概念，知识图谱增强型解码器被修改为不更新概念节点及相邻节点，模型经过预训练，可以从被屏蔽的概念节点中生成原始的概念标记。如：屏蔽token的数量从0到5随机抽样，输入文本编码器的原始文本为“[mask]wound[mask]teach soldier”，知识图谱增强型解码器中输出的文本为“studentwound treat teach soldier”。

S105、应用预训练的生成常识推理模型生成常识推理语句。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.强化聚合知识指导的生成常识推理方法，其特征在于，包括：

基于知识图谱构建概念推理图和分层概念扩展图；

应用预训练的生成常识推理模型生成常识推理语句；

其中，基于知识图谱构建分层概念扩展图的方法包括：

根据最佳过滤阈值对实体节点的邻居节点的相似性分数进行top-p采样，选择相应邻居节点以及与邻居节点有关的边加入所述概念推理图中，得到分层概念扩展图的节点的嵌入向量表示和分层概念扩展图的边的嵌入向量表示；

其中，搭建强化聚合指导下基于概念推理图的知识图谱增强型编码器的方法包括：

构建分解模块，所述分解模块用于将更新后的概念通过上采样和反卷积分解为子词；

所述多头图注意力模块对整合模块得到的概念更新每个概念的嵌入向量表示的方法包括：

应用多头图注意力机制学习来自文本的概念之间和/或来自概念推理图的概念之间和/或来自文本的概念与来自概念推理图的概念之间的关系，更新每个概念的嵌入向量表示；

其中，搭建强化聚合指导下基于分层概念扩展图的知识图谱增强型解码器的方法包括：

构建输出模块，所述输出模块用于将两个关注度连接得到输出结果，所述输出结果用于预测生成的token序列；

所述分层聚合模块将概念进行分层聚合的方法包括：

2.如权利要求1所述的强化聚合知识指导的生成常识推理方法，其特征在于，所述生成常识推理模型还包括：文本编码器和文本解码器，所述文本编码器与知识图谱增强型编码器共同构成BART编码器构架，所述文本解码器与知识图谱增强型解码器共同构成BART解码器构架。

3.如权利要求2所述的强化聚合知识指导的生成常识推理方法，其特征在于，基于知识图谱构建概念推理图的方法包括：

4.如权利要求1所述的强化聚合知识指导的生成常识推理方法，其特征在于，关注度计算模块计算两个多头注意力得到两个关注度的方法包括：

5.如权利要求2所述的强化聚合知识指导的生成常识推理方法，其特征在于，预训练所述生成常识推理模型的方法包括：