CN116028613B

CN116028613B - 常识问答方法、系统、计算机设备和存储介质

Info

Publication number: CN116028613B
Application number: CN202310316488.8A
Authority: CN
Inventors: 刘超雄; 谢明辉; 温颖; 李世闯; 王国强; 张鹏
Original assignee: Shanghai Digital Brain Technology Research Institute Co ltd
Current assignee: Shanghai Digital Brain Technology Research Institute Co ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-06-20
Anticipated expiration: 2043-03-29
Also published as: CN116028613A

Abstract

本发明提供了一种常识问答方法，包括：获取问题选项对，获取知识图谱子图；确定问题选项对的第一语义表示；根据第一语义表示生成关于图神经网络的变换参数；根据变换参数对输入图神经网络的特征进行线性变换；基于线性变换的结果并引入第一注意力机制更迭图神经网络，得到最后层节点特征；根据最后层节点特征确定出图神经网络学习的常识知识；根据第一语义表示和常识知识引入再注意力机制重新计算预训练语言模型在问题选项对的注意力确定问题选项对的第二语义表示；根据第一语义表示和第二语义表示计算候选项的分值。本发明可挖掘PLM本身的潜力，在更细粒度的特征级别上过滤噪声，并通过再注意力机制将常识知识补充给PLM，达到双重验证的效果。

Description

常识问答方法、系统、计算机设备和存储介质

技术领域

本申请涉及人工智能智能问答技术领域，特别是涉及一种常识问答方法、系统、计算机设备和存储介质。

背景技术

常识问答任务要求系统具备常识性知识和推理能力，这是人工智能与人类智能之间的关键差距。尽管预训练语言模型PLM隐含着丰富的知识，但由于预训练语料库的限制，它们不能覆盖所有的常识。因此，许多工作都利用外部知识来源来增强预训练模型。现有方法通常遵循先检索后建模的范式，首先，他们提取与给定问题相关的子图字符串匹配或语义相似性；其次，他们精心设计图神经网络，通过多跳推理从检索到的子图中学习常识。另一方面，近期的prompt learning 研究表明，预训练语言模型PLM的潜能和对常识的表达能力并未完全挖掘。

以往的方法专注于设计精巧的图神经网络，比如图神经网络的各种节点和边注意力机制。如图1所示，我们通过探究性实验发现，在预训练语言模型的基础上，引入提示学习技术（prompt learning），可以提升模型在常识问答任务上的效果，这表明了预训练语言模型本身在常识问答的能力还未被充分利用。另外，以往的方法在预训练语言模型和图神经网络融合过程中，过于强调图神经网络的作用，认为图神经网络和预训练语言模型的角色是相同的。但是我们通过探究性实验发现，在常识问答任务中，单独使用预训练语言模型的准确率与现在主流预训练结合图神经网络的方法相差仅4-5%，而单独使用图神经网络与主流方法相差18-20%。探究性实验结果表明，在常识问答任务中，预训练语言模型起到了主要作用，图神经网络无法单独有效地进行推理，只能起到辅助作用。其原因是预训练语言模型包含更丰富的先验知识。由于提取到的知识图谱含有较多的噪声，以往的融合方式会导致GNN噪声对PLM干扰过大，从而导致最终判断的错误。

发明内容

本发明实施例提供了一种常识问答方法、系统、计算机设备和存储介质，以至少解决相关技术中没有充分挖掘预训练语言模型PLM的能力以及GNN噪声对PLM干扰过大导致最终判断失误的问题。

根据本发明的一个实施例，提供了一种常识问答方法，包括：获取问题选项对，其中，每个所述问题选项对包括一个问题项和与所述问题项对应的多个候选项中的一个候选项；获取与所述问题选项对的实体相关的知识图谱子图；根据预设模板和预训练语言模型，确定所述问题选项对的第一语义表示；根据所述第一语义表示生成关于图神经网络的变换参数；根据所述变换参数对输入图神经网络的特征信息进行线性变换；基于线性变换的结果，并引入第一注意力机制更迭所述图神经网络，得到所述图神经网络的最后层节点特征；根据所述最后层节点特征确定出所述图神经网络学习的常识知识；根据所述第一语义表示和所述常识知识，引入再注意力机制，重新计算预训练语言模型在所述问题选项对的注意力，确定所述问题选项对的第二语义表示；根据所述第一语义表示和所述第二语义表示计算所述候选项的分值;其中，多个候选项中分值最大的候选项为所述问题项的最优选项。

根据本发明的另一个实施例，提供了一种常识问答系统，包括：

获取模块，用于获取问题选项对，其中，每个所述问题选项对包括一个问题项和与所述问题项对应的多个候选项中的一个候选项；

知识图谱处理模块，用于获取与所述问题选项对的实体相关的知识图谱子图；

提示学习和预训练语言模型模块，用于根据预设模板和预训练语言模型，确定所述问题选项对的第一语义表示；

条件融合模块，用于根据所述第一语义表示生成关于图神经网络的变换参数；

以及根据所述变换参数对输入图神经网络的特征信息进行线性变换；

图神经网络处理模块，用于基于线性变换的结果，并引入第一注意力机制更迭所述图神经网络，得到所述图神经网络的最后层节点特征；

池化模块，用于根据所述最后层节点特征确定出所述图神经网络学习的常识知识；

知识补充模块，用于根据所述第一语义表示和所述常识知识，引入再注意力机制，重新计算预训练语言模型在所述问题选项对的注意力，确定所述问题选项对的第二语义表示；

计算处理模块，用于根据所述第一语义表示和所述第二语义表示计算所述候选项的分值;其中，多个候选项中分值最大的候选项为所述问题项的最优选项。

根据本发明的又一个实施例，还提供了一种计算机设备，包括存储器和处理器，所述处理器与存储器耦合，所述存储器中存储有至少一条程序指令或代码，所述至少一条程序指令或代码由所述处理器加载并执行，以使所述计算机设备实现以上所述的常识问答方法。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现以上所述的方法的步骤。

通过本发明，我们为常识问答任务设计了一个以预训练语言模型PLM为中心的推理框架，该框架简称为CAFE。不同于以往的方法直接使用PLM输出的问题选项对表示，我们提出使用提示学习技术来挖掘PLM本身的潜力。以往的方法，要么没有去充分挖掘PLM的能力，要么是利用提示学习技术从自然语言生成的角度来挖掘PLM的能力（通过提示学习技术促使PLM生成帮助解决问题的知识）。这里我们从自然语言理解的角度来充分挖掘PLM的能力，并利用PLM包含的丰富知识来过滤知识充分挖掘PLM的能力图谱中的噪声。

具体地，我们通过事先设计好的prompt模板对问题的输入进行重构，然后输入到PLM模型，得到更容易区分的问题-选项对表示，方便模型能够从混淆的选项中选择出正确的答案。（也即根据预设模板和预训练语言模型，确定所述问题选项对的第一语义表示）

然后，我们设计了一个条件融合模块。该模块更加强调了PLM的作用，以PLM的输出作为指导GNN模块（图神经网络）学习的监督信号，用于筛选与问题无关的图节点和边。具体地，我们将PLM的输出作为条件融合模块中的FiLM层（线性变换模块）的输入，来生成GNN节点和边的变换参数。（也即根据所述第一语义表示生成关于图神经网络的变换参数；根据所述变换参数对输入图神经网络的特征信息进行线性变换；基于线性变换的结果，并引入第一注意力机制更迭所述图神经网络，得到所述图神经网络的最后层节点特征；）这个对GNN节点和边的变换过程可以看作是使用PLM来过滤GNN噪声的过程。

进一步，不同于以往的工作将学到的知识和问题-选项对表示简单拼接的做法，我们设计了再注意力re-attention机制，使用GNN学习得到的常识知识重新计算PLM对问题-选项对的注意力，来实现将常识知识补充给PLM的目的。（也即根据所述第一语义表示和所述常识知识，引入再注意力机制，重新计算预训练语言模型在所述问题选项对的注意力，确定所述问题选项对的第二语义表示；根据所述第一语义表示和所述第二语义表示计算所述候选项的分值）这样可以对PLM的输出起到指导和验证的作用，减少PLM无关输出的可能性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本申请实施例提供的常识问答任务的探究实验图；

图2为本申请实施例提供的常识问答方法的应用场景示意图；

图3是本发明实施例的一种常识问答方法的移动终端的硬件结构框图；

图4为本申请实施例提供的常识问答系统模型结构图；

图5为本申请实施例提供的本申请的常识问答方法的流程示意图；

图6为一个实施例中的常识问答方法模型在OBQA数据集上的小样本效果图；

图7为一个实施例中计算机设备的示意性结构框图。

具体实施方式

本申请实施例提供了一种常识问答方法、系统、计算机设备和存储介质，可挖掘PLM本身的潜力，在不直接影响PLM的情况下，在更细粒度的特征级别上过滤噪声，并可以通过re-attention机制将常识知识补充给PLM，达到双重验证的效果。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了方便理解本申请实施例提供的技术方案，本申请先对部分技术术语进行如下说明：

PLM（Pretrain Language Model，预训练语言模型）

预训练语言模型是在大规模语料上以自监督方式进行预训练的具备多层网络结构的语言模型，可以同时学到浅层信息和深层信息，能够用来初始化下游任务模型。预训练语言模型是一种动态的文本表示方法，会根据当前上下文对文本表征进行动态调整，经过调整后的文本表征更能表达词语在该上下文中的具体含义，能有效处理一词多义的问题。

提示学习技术（Prompt Learning）

本申请中，提示学习技术是根据事先设计的模板对PLM的输入进行重构，以此挖掘PLM本身的潜能。

GNN（Graph Neural Network，图神经网络）

图神经网络(GNN)是一类基于深度学习的处理图域信息的方法, 它通过将图广播操作和深度学习算法结合, 可以让图的结构信息和顶点属性信息都参与到学习中, 在顶点分类、图分类、链接预测等应用中表现出良好的效果和可解释性, 已成为一种广泛应用的图分析方法。

FiLM（Feature-wise Linear Module，线性变换模块）

FiLM最早有视觉问答领域的工作提出，用于视觉和语言两个模态进行融合，完成推理回答自然语言问题。它是一个特征层面的线性变换，适合条件建模。在本申请中，FiLM是条件融合模块的核心，用于通过将条件信息输入到FiLM模块生成线性变换参数对其他信息进行变换。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请提供的常识问答方法，可以全部在服务器一侧执行，也可以全部在客户端一侧执行，还可以由服务器和客户端共同执行。在常识问答方法由服务器和客户端共同执行时，可以应用于如图2所示的应用环境中。其中，客户端201与服务器202通过网络进行通信。

示例性地，客户端可以执行：获取问题选项对和获取服务端最终的返回的结果并显示；

服务端可以执行：获取与所述问题选项对的实体相关的知识图谱子图；根据预设模板和预训练语言模型，确定所述问题选项对的第一语义表示；根据所述第一语义表示生成关于图神经网络的变换参数；根据所述变换参数对输入图神经网络的特征信息进行线性变换；基于线性变换的结果，并引入第一注意力机制更迭所述图神经网络，得到所述图神经网络的最后层节点特征；根据所述最后层节点特征确定出所述图神经网络学习的常识知识；根据所述第一语义表示和所述常识知识，引入再注意力机制，重新计算预训练语言模型在所述问题选项对的注意力，确定所述问题选项对的第二语义表示;根据所述第一语义表示和所述第二语义表示计算所述候选项的分值。

其中，客户端可以但不限于是各种计算机、笔记本电脑、智能手机、平板电脑和便携式智能设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例中所提供的方法实施例可以单独在移动终端、计算机终端或者类似的运算装置等客户端中执行。以运行在移动终端上为例，图3是本发明实施例的一种常识问答的移动终端的硬件结构框图。如图3所示，移动终端可以包括一个或多个（图3中仅示出一个）处理器302（处理器302可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器304，其中，上述移动终端还可以包括用于通信功能的传输设备306以及输入输出设备308。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图3所示不同的配置。

存储器304可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的数据恢复方法对应的计算机程序，处理器302通过运行存储在存储器304内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器304可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器304可进一步包括相对于处理器302远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置306包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置306可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

请参阅图4，为更好地理解本申请实施例提供的技术方案，提供了常识问答模型的结构图；

如图4中所示，question和choice1至choiceN构成了多个问题选项对，作为本模型的输入，也即本模型的解决的问题类型是针对给出选项答案的类似选择题类型的问题；

我们通过事先设计好的prompt模板（图4中所示Prompter模块，也就是提示学习模块）对输入的问题选项对进行重构，然后将重构结果输入到PLM模型，得到更容易区分的问题选项对的语义表示（即为第一语义表示），方便PLM模型能够从混淆的选项中选择出正确的答案；

同时设计了条件融合模块（即图4中虚线框所示出的Conditional FusionMudule）；该模块更加强调了PLM的作用，以PLM的输出作为指导GNN模块学习的监督信号，用于筛选与问题无关的图节点和边，具体地，我们将PLM的输出作为条件融合模块中的FiLM层（图中所示的FiLM Layer模块）的输入，来生成GNN节点和边的变换参数。这个对GNN节点和边的变换过程可以看作是使用PLM来过滤GNN噪声的过程。GNN从第1层（图中所示的GNNLayer 1）更迭到第N层（图中所示的GNN Layer N）均在条件融合模块的监督下，而条件融合模块又依赖于PLM的输出（也即图中所示出的PLM输入到Condition的第一语义表示），FiLMLayer模块根据输入Condition的语义表示得到变换参数，在GNN每次迭代中，以上一层的输出作为条件融合模块的输入（也即图中所示的Input）,通过变换参数对Input进行线性变换，直至完成GNN最后一层的更迭，这个这个对GNN节点和边的变换过程可以看作是使用PLM来过滤GNN噪声的过程。

图中Retrieve relevant KG可以看作检索与问题选项对相关的知识图谱的过程，最终会得到一个知识图谱子图（图中仅示出图形），将其作为初始的Input输入到条件融合模块，来确定出GNN第一层的节点特征。

此外，本申请还设计了知识补充模块（Knowledge Supplement Mudule）,利用GNN学习到的问题相关的知识

，重新分配PLM对问题选项对的注意力,来实现将常识知识补充给PLM的目的，得到关于问题选项对的另一语义表示（即第二语义表示）。

图中Pool表示池化模块，，G表示通过池化操作得到的GNN最后一层节点特征的加权求和值；最终基于第一语义表示、第二语义表示和加权求和值可以计算出每个候选项的概率得分probability score。

上述即使本申请的核心模型架构，为了进一步理解本申请的方法，下面将结合方法流程图对方案进行进一步说明:

如图5所示，提供了常识问答方法一个流程示意图，包括：

S501：获取问题选项对，其中，每个所述问题选项对包括一个问题项

和与所述问题项/>

对应的多个候选项中的第i个候选项/>

；

S502：获取与所述问题选项对的实体相关的知识图谱子图；

S503：根据预设模板和预训练语言模型，确定所述问题选项对的第一语义表示；

S504：根据所述第一语义表示生成关于图神经网络的变换参数；

S505：根据所述变换参数对输入图神经网络的特征信息进行线性变换；

S506：基于线性变换的结果，并引入第一注意力机制更迭所述图神经网络，得到所述图神经网络的最后层节点特征；

S507：根据所述最后层节点特征确定出所述图神经网络学习的常识知识

S508：根据所述第一语义表示和所述常识知识，引入再注意力机制，重新计算预训练语言模型在所述问题选项对的注意力，确定所述问题选项对的第二语义表示；

S509：根据所述第一语义表示和所述第二语义表示计算所述候选项的分值;其中，多个候选项中分值最大的候选项为所述问题项的最优选项。

作为一种可选地实施例，所述根据预设模板和预训练语言模型，获取所述问题选项对的第一语义表示信息，包括：

将问题选项对填入所述预设模板中进行重构，得到重构结果；

将所述重构结果输入到所述预训练语言模型，得到关于所述问题选项对的第一语义表示信息；其中，所述第一语义表示信息为句子级别表示。

作为具体的实施例，将问题

和第i个选项/>

填入到事先设计好的提示学习prompt模板中生成新的输入/>

：/>

其中，

是将输入转化为特定的prompt模板形式的函数；

然后将

输入到PLM预训练语言模型（这里我们采用的Roberta-large）中，得到问题-选项对的句子级别表示/>

：

作为一种可选地实施例，所述获取与所述问题选项对的实体相关的知识图谱子图，包括：

从预设知识图谱（图4中Retrieve relevant KG过程得到的知识图谱）中，将与所述问题选项对中问题项和候选项的实体相关的部分知识图谱抽取出来，形成知识图谱子图。

具体地，我们将问题-选项对看作是一个虚拟节点，嵌入到每个问题的知识图谱中，然后将该虚拟节点和知识图谱中的问题实体和选项实体进行连接。我们将知识图谱中的节点分为以下四个类型：{问题实体，答案实体，从Concept图谱中抽取的实体，问题-选项对的虚拟实体}。

作为一种可选地实施例，所述根据所述第一语义表示生成关于图神经网络的变换参数，包括：

将所述第一语义表示输入至线性变换模块；

通过所述线性变换模块的参数生成器生成对所述图神经网络的节点特征的第一变换参数和边特征的第二变换参数；

作为具体的实施例，用增强后的PLM输出句子级别表示

作为条件融合模块的FiLM（线性变换模块）/>

的输入，生成对GNN图神经网络节点特征/>

和边特征/>

的第一变换参数/>

，具体如下：

其中，

是GNN节点特征/>

的FiLM变换参数，/>

是节点特征的FiLM参数生成器，/>

是变换后的节点特征，/>

是GNN边特征/>

的FiLM变换参数，/>

是边特征的FiLM参数生成器，/>

是变换后的边特征。

其中，所述根据所述变换参数对输入图神经网络的特征进行线性变换，包括：

将所述知识图谱子图的特征输入至所述线性变换模块；

根据变换参数对所述图神经网络的节点特征和边特征进行线性变换，得到关于所述图神经网络的节点特征和边特征。

其中，所述图神经网络的节点特征是对所述知识图谱子图中的节点的表示；所述图神经网络的边特征是对应所述知识图谱子图中的边的表示。

作为一种可选地实施例，所述基于线性变换的结果，并引入第一注意力机制更迭所述图神经网络，得到所述图神经网络的最后层节点特征，包括：

将所述关于所述图神经网络的节点特征和边特征输入所述图神经网络的第一层；

计算所述图神经网络的第一层中出发节点传递给目标节点的消息；

基于图注意力网络，将传递的所述消息作为第一注意力机制中的query向量,所述目标节点的特征作为第一注意力机制中的key向量，计算多头注意力：

根据多头注意力和所述变换参数更新得到所述图神经网络的每一层的节点特征。

作为具体的实施例，GNN在消息传递过程中，充分使用各种关于边的信息，包括边的类别、边的出发节点s和目标节点t的节点类型，通过如下公式得到边特征：

其中，

表示第l层节点s到节点t的边/>

的特征，/>

是两层线性层，/>

和/>

分别表示节点s和t的类型;

然后计算GNN的第l层从节点s传递给节点t的消息

：

其中，

是线性层，/>

是经过FiLM变换的第l层节点s的特征，/>

是/>

经过FiLM变换的结果；

具体地，在更新过程中，我们采用了图注意力网络，将传递的消息

看作是注意力机制中的query向量,节点t的特征/>

看作是注意力机制中的key向量，计算多头注意力

：

其中，

表示query向量，/>

表示key向量，

表示节点t的所有邻居节点/>

的/>

的总和，/>

和/>

都是线性层，D是指向量/>

的维度；

每一层的节点表示更新公式如下：

其中，

表示第k个注意力头对从s到t的边的注意力权重，/>

表示K个注意力头输出的拼接操作，/>

表示节点t的所有邻居节点s的/>

的总和，/>

经过FiLM变换的第l层节点t的特征。

作为一种可选地实施例，所述根据所述最后层节点特征确定出所述图神经网络学习的常识知识包括：通过第二注意力机制对所述最后层节点特征进行池化处理，得到所述图神经网络最后一层的节点特征的加权求和值

，其具体过程如下：

其中，

表示图神经网络第L层（最后一层）的节点特征,/>

,/>

,/>

分别表示第二注意力机制中的query,key,value向量，/>

, />

为线性层，D是指向量/>

的维度,/>

表示图神经网络的每个节点特征的注意力权重，/>

表示第一语义，/>

是v与/>

。

最后，通过知识补充模块根据所述第一语义表示和所述常识知识，引入再注意力机制，重新计算预训练语言模型在所述问题选项对的注意力，确定所述问题选项对的第二语义表示；

具体地，通过知识补充模块实现，利用GNN学习到的问题相关的知识

，重新分配PLM对问题选项对的注意力：

其中，re-attention机制是用一般的多头注意力机制实现的，

是使用re-attention机制得到的关于问题选项对的新的句子级别表示，

H是PLM输出的问题选项对的字级别的表示。re-attention机制的具体实现如下：

其中,q,k,v分别表示注意力机制中的query,key,value向量，

, />

为线性层，D是指向量k的维度，/>

表示PLM对问题选项对的每个词的注意力权重，/>

表示第二语义，是v与/>

。

作为一种可选地实施例，所述根据所述第一语义表示和所述第二语义表示计算所述候选项的分值的计算如下：

其中，

是初始的问题-选项对的句子级别表示，/>

是经过re-attention机制得到的问题-选项对的句子级别表示，/>

和/>

是分数系数，满足/>

，这里我们设置

，/>

和/>

是线性变换层。

然后，我们设计了一个条件融合模块。该模块更加强调了PLM的作用，以PLM的输出作为指导GNN模块（图神经网络）学习的监督信号，用于筛选与问题无关的图节点和边。具体地，我们将PLM的输出作为条件融合模块中的FiLM层（线性变换模块）的输入，来生成GNN节点和边的变换参数。（也即根据所述第一语义表示生成关于图神经网络的变换参数；根据所述变换参数对输入图神经网络的特征信息进行线性变换；基于线性变换的结果，并引入注意力机制更迭所述图神经网络；）这个对GNN节点和边的变换过程可以看作是使用PLM来过滤GNN噪声的过程。

进一步，不同于以往的工作将学到的知识和问题-选项对表示简单拼接的做法，我们设计了re-attention机制，使用GNN学习得到的常识知识重新计算PLM对问题-选项对的注意力，来实现将常识知识补充给PLM的目的。（也即根据更迭后的所述图神经网络的最后层节点特征，确定所述问题选项对的第二语义表示，根据所述第一语义表示和所述第二语义表示计算所述候选项的分值）这样可以对PLM的输出起到指导和验证的作用，减少PLM无关输出的可能性。

为了反馈本模型和方案的效果，下面给出了本申请的模型在不同数据集的效果；如下表所示：

表1为本申请的模型在CSQA数据集上的效果，其中ours为本申请的模型，数值越大表示效果越好；

表1

表2和表3为本申请的模型在OBQA数据集和MedQA数据集上的效果，其中CAFE(ours)为本申请的模型，数值越大表示效果越好；

表2

表3

表4为本申请的模型在模型使用不同prompt模板是在CSQA数据集和OBQA数据集上的效果

表4

表5为本申请的模型的消融实验，可以看到，在模型没有Prompt模块、FiLM模块、没有re-attention机制时，验证集准确度DeV ACC.仅有76.33，全部包含后，整体为78.44,效果得到明显提升。

表5

本专利技术方案中使用提示学习的技术进一步挖掘了PLM本身的常识问答能力，所以提升了PLM本身在常识问答任务上的效果（如表1、2、3、4、5所示）；

本专利技术方案中对PLM和GNN的融合过程进行了改进，设计了条件融合模块，由于改进后GNN的噪声没有过多的干扰PLM本身的常识问答能力，PLM本身包含的丰富的知识可以有效过滤GNN中的噪声，进一步提升了融合效果（如表1、2、3、5所示）；

本专利技术方案中对GNN的知识补充给PLM的过程进行了改进，设计了re-attention机制，由于改进后GNN的知识能够帮助提升PLM的表示能力，有效避免PLM模型的无效和无关回答，所以提升了模型在常识问答领域的效果（如表1、2、3、5所示）；

如图6所示，本专利方案中由于引入了提示学习技术，所以具有部分小样本能力，在使用20%,40%,60%,80%的训练数据进行训练时，效果相对于其他模型具有优势。

本发明的实施例还提供了一种常识问答系统，所述系统包括：

关于常识问答系统的具体限定可参见上文中对于常识问答方法的限定，在此不再赘述。上述常识问答系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本发明的实施例还提供了一种计算机设备，包括存储器和处理器，所述处理器与存储器耦合，其特征在于，所述存储器中存储有至少一条程序指令或代码，所述至少一条程序指令或代码由所述处理器加载并执行，以使所述计算机设备实现以上所述的常识问答方法。

本申请实施例提供的计算机设备，可以是服务器，也可以是客户端：如图7所示，为本申请实施例提供的计算机设备的结构示意图。

处理器1701、存储器1702、总线1705、接口1704，处理器1701与存储器1702、接口1704相连，总线1705分别连接处理器1701、存储器1702以及接口1704，接口1704用于接收或者发送数据，处理器1701是单核或多核中央处理单元，或者为特定集成电路，或者为被配置成实施本发明实施例的一个或多个集成电路。存储器1702可以为随机存取存储器(randomaccess memory，RAM) ，也可以为非易失性存储器(non-volatile memory) ，例如至少一个硬盘存储器。存储器1702用于存储计算机执行指令。具体的，计算机执行指令中可以包括程序1703。

本实施例中，该处理器1701调用程序1703时，可以使图7中的管理服务器执行常识问答的操作，具体此处不再赘述。

应理解，本申请上述实施例提供的处理器，可以是中央处理单元(centralprocessing unit，CPU) ，还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路 (application-specific integrated circuit ，ASIC) 、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请中以上实施例中的计算机设备中的处理器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。本申请实施例中的存储器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。

还需要说明的是，当计算机设备包括处理器(或处理单元)与存储器时，本申请中的处理器可以是与存储器集成在一起的，也可以是处理器与存储器通过接口连接，可以根据实际应用场景调整，并不作限定。

本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持计算机设备（客户端或服务器）实现上述方法中所涉及的控制器的功能，例如处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，芯片系统还包括存储器，存储器，用于保存必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

在另一种可能的设计中，当该芯片系统为用户设备或接入网等内的芯片时，芯片包括：处理单元和通信单元，处理单元例如可以是处理器，通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使该客户端或管理服务器等内的芯片执行常识问答方法的步骤。可选地，存储单元为芯片内的存储单元，如寄存器、缓存等，存储单元还可以是客户端或管理服务器等内的位于芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现上述任一方法实施例中与客户端或管理服务器的控制器执行的方法流程。对应的，该计算机可以为上述计算机设备（客户端或服务器）。

应理解，本申请以上实施例中的提及的控制器或处理器，可以是中央处理单元(central processing unit，CPU) ，还可以是其他通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等中的一种或多种的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请中以上实施例中的计算机设备（客户端或服务器）或芯片系统等中的处理器或控制器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。本申请实施例中的存储器的数量可以是一个，也可以是多个，可以根据实际应用场景调整，此处仅仅是示例性说明，并不作限定。

还应理解，本申请实施例中以上实施例中的计算机设备（客户端或服务器）等中提及的存储器或可读存储介质等，可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM ，PROM) 、可擦除可编程只读存储器(erasable PROM， EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM) ，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM， SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM) 和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。

本领域普通技术人员可以理解实现上述实施例的全部或部分由计算机设备（客户端或服务器）或者处理器执行的步骤可以通过硬件或程序来指令相关的硬件完成。程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，随机接入存储器等。具体地，例如：上述处理单元或处理器可以是中央处理器，通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。上述的这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

当使用软件实现时，上述实施例描述的方法步骤可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质等。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别

类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本申请实施例中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，在本申请的描述中，除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。

取决于语境，如在此所使用的词语“如果”或“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种常识问答方法，其特征在于，所述方法包括：

获取问题选项对，其中，每个所述问题选项对包括一个问题项和与所述问题项对应的多个候选项中的一个候选项；

获取与所述问题选项对的实体相关的知识图谱子图；

根据预设模板和预训练语言模型，确定所述问题选项对的第一语义表示；

根据所述第一语义表示生成关于图神经网络的变换参数；

根据所述变换参数对输入图神经网络的特征进行线性变换；

基于线性变换的结果，并引入第一注意力机制更迭所述图神经网络，得到所述图神经网络的最后层节点特征；

根据所述最后层节点特征确定出所述图神经网络学习的常识知识；

根据所述第一语义表示和所述常识知识，引入再注意力机制，重新计算所述预训练语言模型在所述问题选项对的注意力，确定所述问题选项对的第二语义表示；

根据所述第一语义表示和所述第二语义表示计算所述候选项的分值;其中，多个候选项中分值最大的候选项为所述问题项的最优选项。

2.根据权利要求1所述的方法，其特征在于，所述根据预设模板和预训练语言模型，获取所述问题选项对的第一语义表示信息，包括：

将所述重构结果输入到所述预训练语言模型，得到关于所述问题选项对的第一语义表示信息。

3.根据权利要求1所述的方法，其特征在于，所述获取与所述问题选项对的实体相关的知识图谱子图，包括：

从预设知识图谱中，将与所述问题选项对中问题项和候选项的实体相关的部分知识图谱抽取出来，形成知识图谱子图。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一语义表示生成关于图神经网络的变换参数，包括：

将所述第一语义表示输入至线性变换模块；

通过所述线性变换模块的参数生成器生成对所述图神经网络的节点特征的第一变换参数和边特征的第二变换参数。

5.根据权利要求4所述的方法，其特征在于，所述根据所述变换参数对输入图神经网络的特征进行线性变换，包括：

将所述知识图谱子图输入至所述线性变换模块；

根据变换参数对所述图神经网络的节点特征和边特征进行线性变换，得到关于所述图神经网络的节点特征和边特征；

6.根据权利要求5所述的方法，其特征在于，所述基于线性变换的结果，并引入第一注意力机制更迭所述图神经网络，得到所述图神经网络的最后层节点特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述最后层节点特征确定出所述图神经网络学习的常识知识包括：

通过第二注意力机制对所述最后层节点特征进行池化处理，得到所述图神经网络最后一层的节点特征的加权求和值；

所述加权求和值即为所述图神经网络学习的常识知识。

8.一种常识问答系统，其特征在于，所述系统包括：

以及根据所述变换参数对输入图神经网络的特征进行线性变换；

9.一种计算机设备，包括存储器和处理器，所述处理器与存储器耦合，其特征在于，所述存储器中存储有至少一条程序指令或代码，所述至少一条程序指令或代码由所述处理器加载并执行，以使所述计算机设备实现权利要求1-7中任一项所述的常识问答方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现权利要求1-7中任一项所述的方法的步骤。