CN117216197A - 答案推理方法、装置、设备及存储介质 - Google Patents

答案推理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117216197A
CN117216197A CN202310421442.2A CN202310421442A CN117216197A CN 117216197 A CN117216197 A CN 117216197A CN 202310421442 A CN202310421442 A CN 202310421442A CN 117216197 A CN117216197 A CN 117216197A
Authority
CN
China
Prior art keywords
answer
graph
matrix
inference graph
logic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310421442.2A
Other languages
English (en)
Inventor
黄殷雅
梁小丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310421442.2A priority Critical patent/CN117216197A/zh
Publication of CN117216197A publication Critical patent/CN117216197A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种答案推理方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:获取基于背景知识文本、问题内容和备选答案构建的逻辑推理图;根据逻辑推理图,确定逻辑推理图对应的软连接关系;根据软连接关系对逻辑推理图进行更新,得到更新后的逻辑推理图;基于背景知识文本、问题内容和备选答案,以及更新后的逻辑推理图,确定备选答案对应的推理结果;根据问题内容对应的至少一个备选答案分别对应的推理结果,从至少一个备选答案中确定问题内容对应的正确答案。本申请提升了确定出来作为正确答案的备选答案的准确性。

Description

答案推理方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种答案推理方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,自动化的问答系统(Question Answering System,QA)在人类生产生活的各个领域中均得到广泛应用,如金融、医疗、游戏、教育、网络购物、旅游等领域。问答系统能够基于给定的背景知识文本并针对给定的问题内容输出正确答案,该正确答案由问答系统从若干个备选答案中选择得到。
相关技术中,根据背景知识文本、问题内容以及备选答案来构造逻辑推理图,并通过该逻辑推理图来提取背景知识文本、问题内容以及备选答案分别对应的特征信息。进一步地,利用提取到的特征信息来确定备选答案是否是正确答案。
然而,相关技术中构造的逻辑推理图的边是根据背景知识文本、问题内容以及备选答案中文本片段的显示结构直接确定出来的边,也即相关技术中构造出来的逻辑推理图相对较为简单。在逻辑推理图相对较为简单的情况下,提取到的特征信息相对较为浅层,因此推理出来的正确答案准确度较低。
发明内容
本申请实施例提供了一种答案推理方法、装置、设备及存储介质。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种答案推理方法,所述方法包括:
获取基于背景知识文本、问题内容和备选答案构建的逻辑推理图,所述逻辑推理图中包括至少两个节点以及至少一条与所述节点相连接的边,所述节点代表所述背景知识文本、问题内容和备选答案中的文本片段,所述边代表所述文本片段之间的逻辑推理关系;
根据所述逻辑推理图,确定所述逻辑推理图对应的软连接关系,所述软连接关系用于指示所述逻辑推理图中任意两个节点之间存在深层边的可能性,所述深层边是指根据所述逻辑推理图中节点与边的连接关系而推理出来的边;
根据所述软连接关系对所述逻辑推理图进行更新,得到更新后的逻辑推理图;
基于所述背景知识文本、问题内容和备选答案,以及所述更新后的逻辑推理图,确定所述备选答案对应的推理结果,所述推理结果用于表征所述备选答案是所述问题内容对应的正确答案的可能性;
根据所述问题内容对应的至少一个备选答案分别对应的推理结果,从所述至少一个备选答案中确定所述问题内容对应的正确答案。
根据本申请实施例的一个方面,提供了一种答案推理装置,所述装置包括:
图获取模块,用于获取基于背景知识文本、问题内容和备选答案构建的逻辑推理图,所述逻辑推理图中包括至少两个节点以及至少一条与所述节点相连接的边,所述节点代表所述背景知识文本、问题内容和备选答案中的文本片段,所述边代表所述文本片段之间的逻辑推理关系;
关系确定模块,用于根据所述逻辑推理图,确定所述逻辑推理图对应的软连接关系,所述软连接关系用于指示所述逻辑推理图中任意两个节点之间存在深层边的可能性,所述深层边是指根据所述逻辑推理图中节点与边的连接关系而推理出来的边;
所述图获取模块,还用于根据所述软连接关系对所述逻辑推理图进行更新,得到更新后的逻辑推理图;
结果确定模块,用于基于所述背景知识文本、问题内容和备选答案,以及所述更新后的逻辑推理图,确定所述备选答案对应的推理结果,所述推理结果用于表征所述备选答案是所述问题内容对应的正确答案的可能性;
答案确定模块,用于根据所述问题内容对应的至少一个备选答案分别对应的推理结果,从所述至少一个备选答案中确定所述问题内容对应的正确答案。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
基于背景知识文本、问题内容和备选答案的显式结构关系,构造逻辑推理图之后,进一步地,根据逻辑推理图确定出其中各个节点之间存在深层边的可能性。在得到各个节点之间存在深层边的可能性之后,为逻辑推理图中的节点构造深层边,得到更新后的逻辑推理图。由于更新后的逻辑推理图中携带深层边,也即包含有背景知识文本、问题内容和备选答案之间隐藏的推理逻辑关系,因此,更新后的逻辑推理图对于背景知识文本、问题内容和备选答案的表征更加丰富。在逻辑推理图包含的信息较为丰富的情况下,进一步根据各个备选答案基于逻辑推理图分别得到的推理结果,从多个备选答案中确定出来的作为正确答案的备选答案更加准确。
附图说明
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请一个实施例提供的答案推理方法的示意图;
图3是本申请一个实施例提供的答案推理方法的流程图;
图4是本申请另一个实施例提供的答案推理方法的流程图;
图5是本申请另一个实施例提供的答案推理方法的流程图;
图6是本申请另一个实施例提供的答案推理方法的流程图;
图7是本申请一个实施例提供的逻辑推理图的示意图;
图8是本申请一个实施例提供的答案推理方法的框图;
图9是本申请一个实施例提供的答案推理装置的框图;
图10是本申请另一个实施例提供的答案推理装置的框图;
图11是本申请一个实施例提供的计算机设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在介绍本申请技术方案之前,先对本申请涉及的一些背景技术知识进行介绍说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合,其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。
人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括自然语言处理技术、机器学习/深度学习等几大方向。
机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织相关的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
深度学习(Deep Learning,简称DL)是机器学习(Machine Learning,简称ML)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
计算机视觉技术(Computer Vision,简称CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取“信息”的人工智能系统。这里所指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。
自然语言处理(Nature Language Processing,简称NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、虚拟现实(Virtual Reality,简称VR)、增强现实(Augmented Reality,简称AR)、游戏、虚拟人、数字人等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的技术方案涉及人工智能的自然语言处理、计算机视觉和机器学习等,具体通过如下实施例进行说明。
在介绍本申请技术方案之前,先对本申请涉及的一些名词进行解释说明。以下相关解释作为可选方案与本申请实施例的技术方案可以进行任意结合,其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。
问答系统(Question Answering System,简称QA):一般给定背景知识文本P,可能是若干句话或者若干段落,以及一个问题Q,计算机需要根据P和Q来得到对应的正确答案A。在本申请实施例中,A需要计算机从若干个备选答案中选择得到。
逻辑推理(logical reasoning):需要计算机理解背景知识文本中的复杂逻辑,而且通常是句子级别的逻辑关系,例如如果A句成立,那么下面那句话是错误的;或者下面那句话是A句所需要依赖的等等。这类推理需要计算机理解句子之间的逻辑关系,而不仅仅是词汇之间的简单关系。
图神经网络(graph neural network):根据图结构中图节点的位置信息,对相邻图节点进行消息传递,从而获得图节点特征的聚合更新的一种神经网络,对结构化数据具有较好的表征能力。通常由多个图神经网络层堆叠而成,堆叠层数越多,图节点特征获得越远距离的节点特征的信号。
预训练语言模型(pre-train language model):通过大规模语料以及无监督任务训练得到的一个多层复杂模型,对于语言有较好的理解能力。一般将其看作一个黑盒,将输入的文本转化为新的特征表示,并将该特征作为最终任务模型的输入从而在各类NLP任务上达到更好的效果。本申请实施例中的预训练语言模型认为是下述实施例中的语言特征提取网络。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备10和模型使用设备20。
模型训练设备10可以是诸如个人计算机、电脑、平板电脑、服务器、智能机器人等电子设备,或者是其他一些具有较强计算能力的电子设备。模型训练设备10用于对答案推理模型30进行联合训练。
在本申请实施例中,答案推理模型30是机器学习模型。可选地,模型训练设备10可以采用机器学习的方式对该答案推理模型30进行训练,以使得其具备较好的性能。可选地,答案推理模型30的训练过程如下(此处仅为简述,具体的训练过程参见下述实施例,此时不作赘述):将一个背景知识文本、与该背景知识文本对应的一个问题内容以及该问题内容对应的一个备选答案,作为一个训练样本,将该备选答案是否是该问题内容对应的正确答案作为训练标签。可选地,训练标签分别0和1,0表示该备选答案不是该问题内容的正确答案,1表示该备选答案是该问题内容的正确答案。可选地,对于训练标签的获取方式本申请不作限定,可以是人工标注,也可以以强化学习的方式对训练样本进行训练标签的标注。可选的,将训练样本分批输入至答案推理模型中。一方面,通过逻辑推理图构建模块来构建训练样本对应的逻辑逻辑图(最终的逻辑推理图中包括推理出来的深层边,具体参见下述实施例的解释说明)。另一方面,通过语言特征提取网络来提取训练样本中各个字符的特征信息。可选地,根据图神经网络提取逻辑推理图中各个节点的特征信息。可选地,通过特征融合网络根据逻辑推理图中各个节点的特征信息以及训练样本中各个字符的特征信息,确定训练样本中各个字符的特征信息,并确定背景知识文本以及备选答案分别对应的特征信息。可选地,利用概率确定网络根据背景知识文本以及备选答案分别对应的特征信息,确定备选答案是问题内容的正确答案的概率。根据确定出来的概率与该备选答案对应的标签的差异,确定损失函数的值。并以最小化损失函数的值为目标,对答案推理模型30的参数进行更新。
在一些实施例中,模型使用设备20可以是诸如手机、电脑、智能电视、多媒体播放设备、可穿戴设备、医疗设备等终端设备,也可以是服务器,本申请对此不作限定。示例性地,训练好的答案推理模型30可以针对背景知识文本、问题内容,从至少一个备选答案中确定出正确答案。可选地,模型使用设备中运行有问答系统,该问题系统可以响应于用户的提问,为用户可以推理出该提问对应的正确答案。可选地,模型使用设备中运行有对话系统中,例如该对话系统应用在游戏应用程序中,当用户与NPC(Non-Player Character,非玩家用户)进行对话时,能够帮助NPC模拟带有推理性质的对话,并发送给用户所在的游戏应用程序的客户端。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如PC(PersonalComputer,个人计算机)、平板电脑、智能手机、可穿戴设备、智能机器人等终端;也可以是服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。计算机设备可以是图1中的模型训练设备10,也可以是模型使用设备20。
请参考图2,其示出了本申请一个实施例提供的答案推理方法的示意图。
在一些实施例中,通过答案推理模型200根据背景知识文本、问题内容以及多个备选答案,确定出问题内容对应的正确答案。
在一些实施例中,将背景知识文本、问题内容以及备选答案,作为一组数据,构架针对该组数据的逻辑推理图210。可选地,对背景知识文本、问题内容以及备选答案进行文本片段的划分。可选地,以标点符号为间隔,将背景知识文本、问题内容以及备选答案划分为多个文本片段,将该文本片段作为逻辑推理图的推理节点(或者简称为节点)。可选地,根据文本片段之间的不同连接关系,将节点之间连上不同的边。可选地,当文本片段之间具有显式关系时,在文本片段对应的节点之间连上具有显式关系的边。当文本片段之间具有隐式关系时,在文本片段对应的节点之间连上具有隐式关系的边。当文本片段之间共享实意词组(或者实意词语)时,在文本片段对应的节点之间连上共享实意词组(或者实意词语)的边。此时构建的逻辑推理图认为是未经过逻辑边推理的逻辑推理图,仅直接表示该组数据的显示结构。可选地,通过逻辑推理图210,确定逻辑推理图对应的软连接关系220(具体的如何确定软连接关系,参见下述实施例的解释说明,此处不再赘述),软连接关系用于指示所述逻辑推理图中任意两个节点之间存在深层边的可能性。其中,软连接关系220可以以邻接矩阵的形式表示,软连接关系220对应的矩阵中的第一行第三列的元素0.8表示,节点E1和节点E3之间存在深层边的可能性为0.8。软连接关系220对应的矩阵中的第三行第四列的元素0.1表示,节点E3和节点E4之间存在深层边的可能性为0.8。可选地,对该软连接关系作进一步处理,由于0.1较小,将其处理为0,0.8较大,将其处理为1(具体的处理流程参见下述实施例),从而得到新的邻接矩阵。根据新的邻接矩阵中的元素大小,对逻辑推理图构造深层边。可选地,当新的邻接矩阵中元素值为1时,构造两个节点之间的深层边。可选地,当新的邻接矩阵中元素值为0时,两个节点之间不存在深层边。根据深层边,对逻辑推理图210进行更新,得到更新后的逻辑推理图230。可选地,利用背景知识文本、问题内容、备选答案、以及更新后的逻辑推理图230,确定备选答案对应的推理结果(也可以认为是属于正确答案的可能性)。可选地,根据至少一个备选答案分别对应的推理结果,从至少一个备选答案中确定出正确答案。
相关技术中推理表征学习方法主要有两类。一类是先从数据中构造推理图,然后基于固定的图结构使用图神经网络学习高层的表征。给定一个背景文本P、问题Q和备选答案A,这类方法首先从P、Q、A中构造一个推理图G,同时将P、Q、A输入到一个预训练语言模型中获得上下文编码对G进行初始化,然后使用图神经网络更新G的特征,最后通过多层感知机获得备选答案是否正确的概率。另一类是使用对比学习方法,从数据中构造推理错误的负样本,使用对比训练样本对预训练语言模型进行微调或者领域特定的预训练,从而提升预训练语言模型的复杂推理表征。给定一个背景文本P、问题Q和备选答案A,这类方法首先从P的句子中抽取出推理结构,例如一阶逻辑表达式、实体词组成的路径等,然后变换推理结构得到负样本的推理结构并转换成自然语言句子作为负样本。最后将正负样本输入到预训练语言模型中,使用对比学习的目标函数训练模型区分正负样本,达到学习正确的推理表征的目的。
相关技术中基于构造推理图的技术,基本上是根据当前的数据集来构造推理图,且在表征学习过程中图结构是固定的,因此造成了这类方法通常在训练数据上过拟合,而在新数据上泛化能力比较差。而相关技术中基于对比学习的方法,其训练的负样本也基本上根据数据进行构造,且普遍使用预训练语言模型隐式地学习表征,模型没有可见的推理过程。
而本申请实施例提供的技术方案是基于显式化结构进行推理表征学习。该方法首先基于连接词对背景知识文本P和备选答案A进行划分,并从划分后的文本中提取重复出现的实意词组,构造以划分片段为图节点、共享实意词组和连接词为边的逻辑推理图。然后,通过一个逻辑边推理机制,学习从构造的初始逻辑图中选择一些逻辑推理的边,计算出具备有效信息的新的逻辑关系,并经过图神经网络学习逻辑推理表征。所学习的推理表征具有较好的泛化性能,在零样本迁移到此前未见的新任务时保持良好的性能。且在模型训练过程中,推理结构可以根据训练目标进行动态的适应性调整,使得所学习的表征能够在不同数据集和任务上有比较强的迁移泛化效果。
请参考图3,其示出了本申请一个实施例提供的答案推理方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型使用设备。在下文方法实施例中,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(310~350)中的至少一个步骤:
步骤310,获取基于背景知识文本、问题内容和备选答案构建的逻辑推理图,逻辑推理图中包括至少两个节点以及至少一条与节点相连接的边,节点代表背景知识文本、问题内容和备选答案中的文本片段,边代表文本片段之间的逻辑推理关系。
背景知识文本:以文本形式对事物进行描述的资料,并且基于该资料可以提出问题并基于该资料可以找出问题对应的正确答案。举例来说,当答题者做阅读理解时,提供给答题者的阅读材料可以认为是背景知识文本。当密室xx闯关者在进行解密时,提供给闯关者的背景资料,可以认为是背景知识文本。本申请实施例对于背景知识文本的内容和类型不作限定。背景知识文本可以是虚构出来的文本,也可以是对于真实事实的描述。当然,除去文本之外,背景知识文本,还可以是背景知识图片,背景知识音频、背景知识视频等等,所有可以算作背景信息的资料都可以纳入本申请的保护范围之内,本申请对此不作限定。
问题内容:针对背景知识文本提出的问题的内容,并且该问题的正确答案应当是基于该背景知识文本可以直接或者间接得到的。本申请实施例对于问题的类型以及数量不作限定。进一步地,本申请实施例对于提出问题的主体不作限定。当本申请实施例提供的技术方案的应用场景是问答系统时,提问者可以是用户,用户提出问题,而问答系统解答问题,也即问答系统给出正确答案。此时,问题的提出者是该问答系统面向的对象。当本申请实施例提供的技术方案的应用场景是游戏应用程序中的NPC推理场景时,提问者可以是NPC,也可以是用户。也即,问题可以由游戏应用程序预先设定好或者随机生成,也可以由用户自行输入。当用户进行解答时,可以由游戏应用程序判定用户的回答是否是正确答案。当用户进行提问时,可以由游戏应用程序根据用户提出的问题而推理出正确答案。
备选答案:针对问题内容的答案,当然该备选答案不一定是正确答案。可选地,针对通过一个问题的所有备选答案中至少包括一个正确答案。可选地,该备选答案应当可以基于背景知识文本而得到。在一些实施例中,备选答案是提前设定好。当本申请实施例提供的技术方案的应用场景是问答系统时,问答系统根据用户提出的问题内容,而从提前设定好的多个备选答案中选择出正确答案。
逻辑推理图:用于表征背景知识文本、问题内容和备选答案中文本的关系的图。本申请实施例对于具体的逻辑推理图的构建方式不作限定。由于针对不同的构建规则可以构建出不同的逻辑推理图,本申请实施例中对于逻辑推理图的构建规则不作限定,由于构建规则不同,相应的逻辑推理图也不同。不过,不论规则怎么变化,步骤310中的逻辑推理图认为是根据背景知识文本、问题内容和备选答案,可以直接确定出来的图。逻辑推理图中包括节点和边,这适用于所有的基于文本得到的图,因此关键在于如何确定节点和边。不同的逻辑推理图的构建规则对应不同的确定节点和边的规则。可选地,将背景知识文本、问题内容和备选答案中的每一个词作为一个节点、每一个词组作为一个节点、每几个词组作为一个节点、每一句话作为一个节点等等,这些代表不同的节点构建规则。可选地,当两个节点分别对应文本片段(一个词、一个词组、几个词或者一句话)中存在某种关联性时,认为这两个节点之间应当构建边。此时,对于关联性的判定是直接根据背景知识文本、问题内容和备选答案的内容自身得到的。譬如,边构建的规则是两个节点分别对应的文本片段存在词A时,在该两个节点之间构建边。此时,直接根据该节点对应的文本片段,确定逻辑推理图中的边。因此,步骤310中构建的逻辑推理图中的边或者节点,并不携带深层推理,而仅仅是直接从背景知识文本、问题内容和备选答案的得到的。本申请实施例提供的技术方案,目的是从步骤310中逻辑推理图中构建出逻辑推理边(深层边),使得逻辑推理图可以反映出高层逻辑关系,从而有利于后续特征的正确答案的确定。
文本片段:背景知识文本、问题内容和备选答案用于划分节点的文本长度。最小粒度可以是一个字符,最大粒度可以是一句话或者多句话,本申请对于文本片段的大小不作限定。示例性地,一个备选答案是“小明出生于x国,他家在x市x镇。”,则将“小明出生于x国”作为一个节点,“他家在x市x镇”也作为一个节点。
当然步骤310可以由机器完成,本申请对于逻辑推理图的确定方式不作限定。可选地,训练一个逻辑推理图构建网络,输入为背景知识文本、问题内容和备选答案,输出为逻辑推理图。
在一些实施例中,给定一个逻辑推理问答样本(P,Q,AC,A),其中AC={A1,A2,...,AM}为M个备选答案的集合,M为备选答案个数,A为问答的正确答案。对于备选答案Ak,需要执行步骤310至步骤340中的所有步骤。其中,k为小于等于M的正整数,M为正整数。
步骤320,根据逻辑推理图,确定逻辑推理图对应的软连接关系,软连接关系用于指示逻辑推理图中任意两个节点之间存在深层边的可能性,深层边是指根据逻辑推理图中节点与边的连接关系而推理出来的边。
软连接关系:用于指示逻辑推理图中任意两个节点之间存在深层边的可能性。本申请对于软连接关系的表现形式不作限定。下面以逻辑推理图中的节点个数为N来进行解释说明。对于这N个节点中的任意一个节点,均需要确定其与其他N-1个节点之间分别存在深层边的可能性。对于可能性的表示方式可以是数值、向量、直方图等任何能够表征大小的形式。
深层边:根据逻辑推理图中节点与边的连接关系而推理出来的边。在一些实施例中,不同于步骤310中的逻辑推理图中的边,步骤320中的深层边是基于背景知识文本、问题内容和备选答案并不能直接得到的边,而是需要通过具体的推理分析才能得到的边。可选地,深层边与步骤310中的逻辑推理图中的边不存在交集。
在一些实施例中,逻辑推理图中节点与边的连接关系可以用逻辑推理图对应的邻接矩阵来表示。示例性地,根据逻辑推理图对应的邻接矩阵,确定软连接关系。如图2的逻辑推理图210所示,逻辑推理图210中存在4个节点3条边,根据节点之间的边连接关系(也即节点与边的连接关系),确定逻辑推理图对应的邻接矩阵可选地,基于邻接矩阵/>确定软连接关系。在一些实施例中,通过软连接关系确定模型根据逻辑推理图对应的邻接矩阵/>得到逻辑推理图对应的软连接关系,进一步根据软连接关系确定深层边。或者,直接通过深层边确定模型根据逻辑推理图对应的邻接矩阵/>确定逻辑推理图对应的深层边,并基于确定出来的深层边对逻辑推理图进行更新。其中,软连接关系确定模型以及深层边确定模型均是预训练完成的机器学习模型。
步骤330,根据软连接关系对逻辑推理图进行更新,得到更新后的逻辑推理图。
在一些实施例中,以数值表示可能性的大小为例,对于可能性大小的上限以及下限本申请不作限定,示例性地,可能性上限是1,可能性下限是0。当可能性为0时,表示两个节点之间肯定不存在深层边,当可能性为1时,表示两个节点之间肯定存在深层边,当可能性为0.5时,表示两个节点之间不存在深层边的可能性为0.5。在一些实施例中,当可能性大于阈值时,认为是两个节点之间存在深层边,当可能性小于或等于阈值时,认为是两个节点之间不存在深层边。在另一些实施例中,在确定深层边,将可能性的大小认为是该深层边携带的权重。无论可能性的大小,均认为是两个节点之间存在深层边,不过深层边的权重不同。
在一些实施例中,根据确定出来的深层边,对步骤310中的逻辑推理图进行更新,得到更新后的逻辑推理图。参考图2,节点E1和节点E3之间存在深层边的可能性为0.8,则在节点E1和节点E3之间构建深层边。
步骤340,基于背景知识文本、问题内容和备选答案,以及更新后的逻辑推理图,确定备选答案对应的推理结果,推理结果用于表征备选答案是问题内容对应的正确答案的可能性。
推理结果:用于表征备选答案是问题内容对应的正确答案的可能性。可选地,以数值、向量、直方图等形式来表征可能性的大小,本申请对此不作限定。可选地,将备选答案是问题内容对应的正确答案的可能性作为该备选答案的推理结果。示例性地,备选答案是问题内容对应的正确答案的可能性是0.8,则备选答案对应的推理结果是0.8。
在一些实施例中,通过结果推理网络来完成步骤340,可选地,该网络的输入是背景知识文本、问题内容和备选答案,以及更新后的逻辑推理图,输出是备选答案是问题的正确答案的可能性。可选地,结果推理网络中包括语言特征提取网络、图神经网络、特征融合网络以及概率确定网络。可选地,该结果推理网络包括在答案推理模型中,是训练完成的机器学习网络。具体地,如何确定推理结果,也可以参考下述实施例,此处不再赘述。
步骤350,根据问题内容对应的至少一个备选答案分别对应的推理结果,从至少一个备选答案中确定问题内容对应的正确答案。
在一些实施例中,根据问题内容对应的至少一个备选答案分别对应的推理结果,将推理结果的最大值对应的备选答案确定为问题内容对应的正确答案。可选地,将问题内容对应的至少一个备选答案分别对应的推理结果降序排列,取前K个推理结果分别对应的备选答案确定为问题内容对应的正确答案,K为大于1的正整数。在一些实施例中,根据问题内容对应的至少一个备选答案分别对应的推理结果,将大于结果阈值的所有推理结果分别对应的备选答案均作为问题内容对应的正确答案。本申请实施例对于正确答案的数量不作限定,对于确定正确答案的方式不作限定。
本申请实施例提供的技术方案基于背景知识文本、问题内容和备选答案的显式结构关系,构造逻辑推理图之后,进一步地,根据逻辑推理图确定出其中各个节点之间存在深层边的可能性。在得到各个节点之间存在深层边的可能性之后,为逻辑推理图中的节点构造深层边,得到更新后的逻辑推理图。由于更新后的逻辑推理图中携带深层边,也即包含有背景知识文本、问题内容和备选答案之间隐藏的推理逻辑关系,因此,更新后的逻辑推理图对于背景知识文本、问题内容和备选答案的表征更加丰富。在逻辑推理图包含的信息较为丰富的情况下,进一步根据各个备选答案基于逻辑推理图分别得到的推理结果,从多个备选答案中确定出来的作为正确答案的备选答案更加准确。
请参考图4,其示出了本申请另一个实施例提供的答案推理方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型使用设备。在下文方法实施例中,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(410~470)中的至少一个步骤:
步骤410,获取基于背景知识文本、问题内容和备选答案构建的逻辑推理图,逻辑推理图中包括至少两个节点以及至少一条与节点相连接的边,节点代表背景知识文本、问题内容和备选答案中的文本片段,边代表文本片段之间的逻辑推理关系。
步骤420,根据逻辑推理图中包括的边,生成逻辑推理图对应的总体邻接矩阵,总体邻接矩阵用于数值化表示逻辑推理图中包括的边。
在一些实施例中,逻辑推理图中包括很多条边,总体邻接矩阵用于表征逻辑推理图中的边。可选地,以数值形式表示逻辑推理图中的边。当两个节点之间存在边时,用数值1表示,当两个节点不存在边时,用数值0表示。此处0和1仅作示例,当然还可以是其他数值形式。
在一些实施例中,不考虑逻辑推理图中边的类型,举一个简单的例子,一个逻辑推理图中仅有三个节点,分别为E1、E2、E3,其中E1、E2存在边连接,E2和E3存在边连接,则总体邻接矩阵可以表示为其中,该矩阵的行分别表示E1、E2、E3,该矩阵的列分别表示E1、E2、E3。例如,该矩阵中第一行第二列的1表示,节点E1和E2之间存在边连接,该矩阵中第二行第三列的1表示,节点E2和E3之间存在边连接。当逻辑推理图中节点的个数为N时,总体邻接矩阵的维度为N*N。
在一些实施例中,步骤420包括步骤421~步骤422(图中未示出)中的至少一个步骤。
在一些实施例中,逻辑推理图中包括如下至少一种类型的边:具有显式关系的边、具有隐式关系的边、共享实意词语的边。
具有显式关系的边认为是该边连接的两个节点分别对应的文本片段之间存在连接词。具有隐式关系的边认为是该边连接的两个节点分别对应的文本片段之间不存在连接词,但是属于同一个句子。共享实意词语的边认为是该边连接的两个节点分别对应的文本片段之间存在同一个实意词语(或者实意词组)。具体对于三种边的解释可以参见下述构建逻辑推理图时的论述,此处不再赘述。
当然,本申请对于逻辑推理图中包括的边的类型并不仅限于上述几种,其他类型的边也可以纳入本申请实施例的保护范围之内。
步骤421,生成每一种类型的边对应的邻接矩阵,邻接矩阵中的每一个元素用于表示两个节点之间是否具有类型的边,邻接矩阵的维度为N×N,N表示逻辑推理图中节点的数量,N为正整数。
在一些实施例中,具有显式关系的边E对应的邻接矩阵为AE。在一些实施例中,以图2中的逻辑推理图210为例,节点数量为4,逻辑推理图210中具有显式关系的边对应的邻接矩阵AE其中,该矩阵的行分别表示E1、E2、E3、E4,该矩阵的列分别表示E1、E2、E3、E4。例如,该矩阵中第三行第四列的1表示,节点E3和E4之间存在具有显式关系的边。可选地,具有显式关系的边对应的邻接矩阵的维度为4×4。
在一些实施例中,具有隐式关系的边I(此处I和单位矩阵I不同)对应的邻接矩阵为AI。在一些实施例中,以图2中的逻辑推理图210为例,节点数量为4,逻辑推理图210中具有隐式关系的边对应的邻接矩阵AI其中,该矩阵的行分别表示E1、E2、E3、E4,该矩阵的列分别表示E1、E2、E3、E4。例如,该矩阵中第二行第四列的1表示,节点E2和E4之间存在具有隐式关系的边。可选地,具有隐式关系的边对应的邻接矩阵的维度为4×4。
在一些实施例中,共享实意词语的边S对应的邻接矩阵为AS。在一些实施例中,以图2中的逻辑推理图210为例,节点数量为4,逻辑推理图210中共享实意词语的边对应的邻接矩阵AS其中,该矩阵的行分别表示E1、E2、E3、E4,该矩阵的列分别表示E1、E2、E3、E4。例如,该矩阵中第一行第四列的1表示,节点E1和E4之间存在共享实意词语的边。可选地,共享实意词语的边对应的邻接矩阵的维度为4×4。/>
步骤422,根据逻辑推理图中包括的各种类型的边分别对应的邻接矩阵,生成逻辑推理图对应的总体邻接矩阵。
在一些实施例中,对上述三种类型的边分别对应的邻接矩阵进行拼接,得到维度为3×N×N的矩阵。可选地,拼接方式是按照第0维的方向,对三个邻接矩阵进行拼接,得到3×N×N的矩阵。在一些实施例中,将该维度为3×N×N的矩阵作为上述总体邻接矩阵。
在另一些实施例中,构造单元矩阵。可选地,单位矩阵I的维度为N×N。当N为4时,单位矩阵为
在另一些实施例中,将上述AE、AI、AS、I进行拼接,得到4×N×N的矩阵。可选地,将该矩阵作为逻辑推理图对应的总体邻接矩阵可选地,拼接方式为按照第0维的方向进行拼接。也即,/>
本申请实施例中,引入单元矩阵,加入到总体邻接矩阵中,表征逻辑推理图中包括的边,可以使得后续在引入深层边时,更加灵活。单位矩阵也可以表征逻辑推理图中自反的边,可以在后续多次迭代中学到任意跳的关系。
步骤430,根据总体邻接矩阵和权重矩阵,得到初始化的软连接矩阵。
在一些实施例中,权重矩阵是预先配置好的,当答案推理模型训练完成之后,权重矩阵相当于已经被确定。具体可以参见下述实施例。在一些实施例中,步骤430相当于一次图边软选择。可选地,初始化的软连接矩阵=总体邻接矩阵×权重矩阵。通过总体邻接矩阵和权重矩阵,得到一次软选择的边。
在一些实施例中,步骤430包括步骤431~步骤432(图中未示出)中的至少一个步骤。
步骤431,从满足正态分布的数值区间中,随机选择数值生成权重矩阵,通过归一化指数函数对权重矩阵进行处理,得到归一化后的权重矩阵。
在一些实施例中,权重矩阵为W(0),归一化指数函数为softmax()。归一化后的权重矩阵为softmax(W(0))。通过归一化指数函数对权重矩阵进行处理,可以将权重矩阵中各个元素控制在[0,1]中。在一些实施例中,步骤431中的权重矩阵是第0维方向上的权重。在一些实施例中,权重矩阵的维度取与邻接矩阵一致,
在一些实施例中,正态分布是具有两个参数μ和σ^2的连续型随机变量的分布。可选地,当答案推理模型训练完成之后,μ和σ的数值被确定。可选地,从确定的正态分布中随机选择数值生成权重矩阵。
步骤432,将总体邻接矩阵与归一化后的权重矩阵相乘,得到初始化的软连接矩阵。
在一些实施例中,初始化的软连接矩阵为:在一些实施例中,/>可选地,Γ(0)中每一个元素的值在[0,1]中。
在一些实施例中,直接用步骤432中的初始化的软连接矩阵,作为用于更新逻辑推理图的软连接关系。如果直接不进行迭代的话,本申请实施例提供的答案推理方法,确定答案的速度较快,兼顾效率与精度。
当然,也可以对步骤432中的初始化的软连接矩阵进行迭代,得到多组软连接矩阵。将迭代得到的多组软连接矩阵,作为用于更新逻辑推理图的软连接关系。如果多次进行迭代的话,可以得到新的边的关系,对应得到多跳的更远的边的关系。因此,本申请实施例提供的答案推理方法,可以最大程度保证推理出来的答案的准确度。
步骤440,对初始化的软连接矩阵进行至少一轮迭代更新,得到至少一个更新后的软连接矩阵,每个更新后的软连接矩阵用于数值化表示逻辑推理图对应的软连接关系。
本申请实施例对于迭代次数不作限定。可选地,用i表示迭代次数。
在一些实施例中,步骤440包括步骤441(图中未示出)。
步骤441,在第i轮迭代更新的过程中,将第i-1轮迭代更新得到的更新后的软连接矩阵,与初始化的软连接矩阵相乘,得到第i轮迭代更新得到的更新后的软连接矩阵;其中,i为正整数,当i等于1时,第i-1轮迭代更新得到的更新后的软连接矩阵为初始化的软连接矩阵。
在一些实施例中,第i轮迭代更新得到的更新后的软连接矩阵为:Γ(i)其中,Γ(i-1)表示第i-1轮迭代更新得到的更新后的软连接矩阵。当i为1时,Γ(i-1)为Γ(0)。/>表示经过另外一次图边软选择获得的软连接矩阵。可选地,/>可选地,Γ(1)=Γ(0)Γ(0)。可选地,Γ(2)=Γ(1)Γ(0)Γ(0)
步骤450,根据软连接关系对逻辑推理图进行更新,得到更新后的逻辑推理图。
在一些实施例中,步骤450包括步骤451~步骤452(图中未示出)中的至少一个步骤。
步骤451,对于每一个更新后的软连接矩阵,将更新后的软连接矩阵中取值大于或等于阈值的元素设置为第一数值,取值小于阈值的元素设置为第二数值,得到更新后的软连接矩阵对应的数值矩阵。
在一些实施例中,当迭代次数为i次时,对于i次迭代分别得到的更新后的软连接矩阵,将更新后的软连接矩阵中取值大于或等于阈值的元素设置为第一数值,取值小于阈值的元素设置为第二数值,得到更新后的软连接矩阵对应的数值矩阵。在一些实施例中,阈值为δ,第一数值为1,第二数值为0。可选地,将每一个更新后的软连接矩阵中取值大于或等于δ的元素设置为1,取值小于δ的元素设置为0,得到更新后的软连接矩阵对应的数值矩阵。可选地,δ为设定的数值。可选地,δ为超参数。
在一些实施例中,对于i次迭代分别得到的更新后的软连接矩阵Γ(i),确定第i次迭代对应的总体邻接矩阵可选地,/> 其中,/>表示Γ(i),/>表示Γ(i)中第j行第k列的元素值。可选地,当/>中第j行第k列的元素值更新为0。可选地,当中第j行第k列的元素值更新为1。其中,j≤N,k≤N。/>
在一些实施例中,i次迭代对应的总体邻接矩阵集合
步骤452,在数值矩阵中每一个取值为第一数值的元素所对应的两个节点之间,添加深层边,得到更新后的逻辑推理图。
在一些实施例中,在数值矩阵中每一个取值为1的元素所对应的两个节点之间,添加深层边,得到更新后的逻辑推理图。可选地,对于第k个备选答案,逻辑推理图更新为Gk=(V,E∪EH),其中EH为总体邻接矩阵集合对应的逻辑边集合。其中,V表示逻辑推理图的所有节点的集合,E表示更新前的所有边的集合,E^H为总体邻接矩阵集合,也即对应所有的深层边的集合。
在一些实施例中,迭代一次得到一个新的总体邻接矩阵就对逻辑推理图更新一次。可选地,是迭代d次之后将得到的d个总体邻接矩阵一起对逻辑推理图进行更新。其中,d表示迭代的总次数,d为正整数。
步骤460,基于背景知识文本、问题内容和备选答案,以及更新后的逻辑推理图,确定备选答案对应的推理结果,推理结果用于表征备选答案是问题内容对应的正确答案的可能性。
步骤470,根据问题内容对应的至少一个备选答案分别对应的推理结果,从至少一个备选答案中确定问题内容对应的正确答案。
本申请实施例提供的技术方案,一方面根据总体邻接矩阵以及权重矩阵,确定软连接关系,依赖于总体邻接矩阵并且兼顾权重矩阵确定出来的软连接关系贴合背景知识文本、问题内容以及备选答案的实质文本内容。也即,是从背景知识文本、问题内容以及备选答案的实质文本内容出发而确定出来的软连接关系,因此软连接关系的确定有理可依,并且较为准确。另外,从满足正态分布的数值区间中,随机选择数值而生成的权重矩阵可以满足不同节点数量的逻辑推理图的要求,在满足训练要求的前提下,提升了生成的权重矩阵的灵活性。
另一方面,在确定总体邻接矩阵时,根据三种类型的边分别对应的邻接矩阵以及单位矩阵来确定,能够使得确定出来的总体邻接矩阵最大限度地表征背景知识文本、问题内容以及备选答案的显示结构。同时由于引入单位矩阵,在权重矩阵的作用下,可以学习到更为深层的边关系,因此有利于深层边的挖掘。
再一方面,通过对初始化的软连接矩阵进行多轮迭代,得到i轮更新后的软连接矩阵,并基于i轮更新后的软连接矩阵,对逻辑推理图进行更新。通过迭代的方式可以学习到逻辑推理图中多跳的关系,比如,本来只可以学习到节点1和节点2之间的关系,但是由于迭代多次,可以学习到节点1和节点i的关系。因此,提升了确定出来的软连接关系的多样性,有利于逻辑推理图的更新。
除此之外,引入阈值对软连接矩阵中的元素进行更新,使得深层边的确定相对较为简单,非1即0,简化了深层边确定的流程,提升了深层边确定的效率。
请参考图5,其示出了本申请另一个实施例提供的答案推理方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型使用设备。在下文方法实施例中,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(510~590)中的至少一个步骤:
步骤510,获取基于背景知识文本、问题内容和备选答案构建的逻辑推理图,逻辑推理图中包括至少两个节点以及至少一条与节点相连接的边,节点代表背景知识文本、问题内容和备选答案中的文本片段,边代表文本片段之间的逻辑推理关系。
步骤520,根据逻辑推理图,确定逻辑推理图对应的软连接关系,软连接关系用于指示逻辑推理图中任意两个节点之间存在深层边的可能性,深层边是指根据逻辑推理图中节点与边的连接关系而推理出来的边。
步骤530,根据软连接关系对逻辑推理图进行更新,得到更新后的逻辑推理图。
在一些实施例中,步骤540~步骤580可以直接通过答案推理网络得到。也即答案推理网络包括下述语言特征提取网络、图神经网络、特征融合网络以及概率确定网络。
步骤540,通过语言特征提取网络提取背景知识文本、问题内容和备选答案中各个字符分别对应的特征信息。
在一些实施例中,语言特征提取网络是预训练语言模型。可选地,该语言特征提取网络是经过预训练的网络。此外,语言特征提取网络可以是任何文本序列编码网络,例如长短时记忆网络、ELMo词向量网络等等。可选地,语言特征提取网络是机器学习网络。本申请实施例对于语言特征提取网络的具体类型不作限定。
在一些实施例中,将背景知识文本P、问题内容Q和备选答案Ak作为第k个问答样本,拼成一个文本序列。在一些实施例中,通过语言特征提取该文本序列中各个字符分别对应的特征信息。可选地,将背景知识文本P、问题内容Q和备选答案Ak之间分别用特殊的字符分隔开。可选地,将背景知识文本P、问题内容Q、备选答案Ak以及特殊的字符作为文本序列,通过语言特征提取网络,得到每个字符对应的上下文特征向量。在一些实施例中,表示文本序列开头的字符为<s>,表示序列中间分隔和结尾的字符</s>。可选地,该文本序列可以表示为“<s>、背景知识文本P、</s>、问题内容Q、</s>、备选答案
Ak、</s>、”。
步骤550,根据各个字符分别对应的特征信息以及逻辑推理图中的各个节点分别对应的文本片段,确定逻辑推理图中各个节点分别对应的初始特征信息,每一个文本片段中包括至少一个字符。
在一些实施例中,从预训练语言模型输出的字符上下文特征向量按照字符所归属的逻辑推理图的节点进行特征合并。可选地,节点1中对应的文本片段包括字符2、字符3。可选地,将字符2、字符3分别对应的特征信息,确定逻辑推理图中节点1对应的初始特征信息。可选地,将节点内的字符特征向量进行相加,作为该节点的初始特征信息。可选地,该初始节点特征信息是初始特征向量。
步骤555,通过图神经网络根据更新后的逻辑推理图以及逻辑推理图中各个节点分别对应的初始特征信息,确定逻辑推理图中各个节点分别对应的更新后特征信息。
在一些实施例中,通过图神经网络根据更新后的逻辑推理图对应的总体邻接矩阵集合以及逻辑推理图中各个节点分别对应的初始特征信息,确定逻辑推理图中各个节点分别对应的更新后特征信息。可选地,图神经网络中进行多轮的图节点特征聚合,然后输出逻辑推理图中各个节点分别对应的更新后特征信息。
在一些实施例中,对于图神经网络的解释说明可以上面对于图神经网络的解释说明,此处不作赘述。可选地,图神经网络是经过预训练的网络。可选地,图神经网络是机器学习网络。图神经网络包括但不限于图卷积神经网络、图注意力网络等。本申请实施例对于图神经网络的具体类型不作限定。
步骤560,通过特征融合网络根据逻辑推理图中各个节点分别对应的更新后特征信息,对各个字符分别对应的特征信息进行更新,得到各个字符分别对应的更新后特征信息。
在一些实施例中,特征融合网络中包括残差网络、层标准化网络、双向GRU(GatedRecurrent Unit,门控循环单元)。可选地,特征融合网络是经过预训练的网络。可选地,特征融合网络是机器学习网络。本申请实施例对于特征融合网络的具体类型以及架构不作限定。
在一些实施例中,将各个节点分别对应的更新后特征信息重新赋值到每个字符的位置上。其中,l表示文本序列中的第l个字符,文本序列的长度为L,L为正整数。可选地,当该节点中包括m个字符时,将该节点对应的更新后特征信息复制m份,分别赋值到m个字符的位置上。其中,m为正整数。在一些实施例中,一个节点例如“a pure analog system”会对应一个更新后特征信息,对应的字符位置比方说是“a”、“pure”、“analog”、“system”,则就把这个向量复制4份放到每个字符的位置上,也即字符“a”、“pure”、“analog”、“system”分别对应节点“a pure analog system”对应的更新后特征信息。
在一些实施例中,根据步骤540得到的每个字符的特征信息(tl表示第l个字符对应的特征信息)以及通过特征融合网络根据逻辑推理图中各个节点分别对应的更新后特征信息,对各个字符分别对应的特征信息进行更新,得到各个字符分别对应的更新后特征信息。可选地,对于字符“pure”来说,根据步骤540得到的该字符的特征信息以及节点“a pureanalog system”对应的更新后特征信息,得到该字符对应的更新后特征信息。可选地,将步骤540得到的字符“pure”的特征信息加上节点“a pure analog system”对应的更新后特征信息,得到该字符“pure”对应的更新后特征信息。
在一些实施例中,对相加之后的特征信息经过层标准化网络进行层标准化,得到可选地,将得到的字符特征序列/>送入双向GRU网络中,然后再经过一次残差网络进行残差计算和层标准化网络进行层标准化:el表示融合之后的第l个字符对应的更新后特征信息。
步骤570,根据各个字符分别对应的更新后特征信息,确定背景知识文本以及备选答案分别对应的特征信息。
在一些实施例中,经过特征融合网络而融合后得到的特征序列(e1,e2,...eL)被分成三部分,分别为序列开始字符e1、背景知识文本P对应的特征子序列问题内容Q和备选答案Ak对应的特征子序列/>其中1<M<L。进一步地,背景知识文本P对应的特征子序列/>和备选答案Ak对应的特征子序列/>(也可以认为是问题内容Q和备选答案Ak共同对应的特征子序列)被分别合并成为两个单独的特征向量eP和eO。在一些实施例中,背景知识文本对应的特征信息是eP。备选答案对应的特征信息为eO
在一些实施例中,
步骤580,通过概率确定网络根据背景知识文本以及备选答案分别对应的特征信息,确定备选答案是问题内容对应的正确答案的概率,并将概率作为备选答案对应的推理结果。
在一些实施例中,概率确定网络中包括单层感知机、层标准化网络。可选地,特征融合网络是经过预训练的网络。可选地,概率确定网络是机器学习网络。本申请实施例对于概率确定网络的具体类型以及架构不作限定。
在一些实施例中,Ak作为问答的正确答案的概率计算是通过合并三部分的单独特征向量后经过一个单层感知机和层标准化后获得。可选地,将三部分分别对应的特征向量进行合并,得到e=[e1;eP;eO]。可选地,经过单层感知机网络和层标准化网络,得到备选答案是问题内容对应的正确答案的概率 其中,Wσ和bσ是概率确定网络中的参数。
步骤590,根据问题内容对应的至少一个备选答案分别对应的推理结果,从至少一个备选答案中确定问题内容对应的正确答案。
本申请实施例提供的技术方案,通过先获取每个字符的特征信息,再基于逻辑推理图获得每个节点的更新后特征信息,并利用每个节点的更新后特征信息,对每个字符的特征信息进行更新,得到每个字符的更新后特征信息。利用更新后特征信息,融合得到背景知识文本以及备选答案分别对应的特征信息,并进一步计算出备选答案是问题内容对应的正确答案的概率。由于推理出来的特征表示(背景知识文本、问题内容以及备选答案分别对应的特征信息)兼顾字符本身的上下文信息、图结构信息、图深层结构信息,因此推理出来的特征表示更加准确,在确定备选答案是问题内容对应的正确答案的概率时,也更加符合真实情况,精度较高。
请参考图6,其示出了本申请另一个实施例提供的答案推理方法的流程图。该方法各步骤的执行主体可以是上文介绍的模型使用设备。在下文方法实施例中,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(601~650)中的至少一个步骤:
步骤601,提取背景知识文本、问题内容和备选答案中的连接词以及实意词语。
在一些实施例中,连接词是用于连接短句得到长句的词语。可选地,连接词的种类包括但不限于转折连接词、因果连接词、并列连接词等等。具体来说,连接词包括但不限于“because”、“since”、“if”、“and”等等。
在一些实施例中,实意词组认为是背景知识文本、问题内容和备选答案中的名词。
步骤602,根据连接词以及背景知识文本、问题内容和备选答案中出现的标点符号,对背景知识文本、问题内容和备选答案进行划分,得到至少两个文本片段,并将文本片段作为逻辑推理图中的节点。
在一些实施例中,在初始逻辑推理图中,将根据连接词分割的从句作为文本片段,认为是一个节点。例如背景知识文本、问题内容和备选答案中有一句话是“Digitalsystems are the best information systems,because error cannot occur in theemission of digital signals.”。通过标点符号“,”以及连接词“because”,将该句子分为两个从句(也即两个文本片段),分别为“Digital systems are the best informationsystems”以及“error cannot occur in the emission of digital signals”。这两个从句分别作为一个节点。
在一些实施例中,背景知识文本、问题内容和备选答案中包括第一句话“Digitalsystems are the best information systems【,because】error cannot occur in theemission of digital signals.”以及句话“Digital systems cannot produce signalsthat are more precise than their digital units.”。第一句话中的“because”是表示上文和下文之间的因果关系的连接词,而第二句话没有表示逻辑推理关系的连接词,因此第一句话通过“because”被划分为两个推理节点,且两个推理节点之间有一条逻辑关系的边,而第二句话单独作为一个推理节点。
步骤603,当两个文本片段中存在同一个实意词语时,在两个文本片段分别对应的节点之间构建共享实意词语的边。
在一些实施例中,上述第一句话的第一个推理节点与第二句话共享了实意词组“digital systems”,而第一句话的第二个推理节点与第二句话共享了实意词“signal”,因此,第一句话的两个推理节点分别与第二句话的推理节点之间有一条共享实意词语的边。
步骤604,当两个文本片段属于同一个句子并且两个文本片段间存在连接词时,在两个文本片段分别对应的节点之间构建具有显式关系的边。
在一些实施例中,如果两个推理节点之间的逻辑关系由具体的连接词表示,例如上述第一句话中的“because”,那么对应的逻辑关系边为显式关系的边E。
步骤605,当两个文本片段属于同一个句子并且两个文本片段间不存在连接词时,在两个文本片段分别对应的节点之间构建具有隐式关系的边。
在一些实施例中,如果两个推理节点之间有逻辑关系,但是没有具体的连接词,而是只有标点符号例如逗号分成了前后两个从句,那么对应的逻辑关系为隐式关系I。当然,这里不仅是逗号,还可以是其他标点符号,例如引号、破折号等等。当两个文本片段属于同一个句子,但是被用标点符号分开成不同的从句时,在两个文本片段分别对应的节点之间构建具有隐式关系的边。
步骤606,根据确定出来的节点以及构建出来的边,得到逻辑推理图。
在一些实施例中,根据上述逻辑边的构建规则,得到初始化的逻辑推理图,也即没加深层边的逻辑推理图。
在一些实施例中,如图7所示,根据背景知识文本:“[A singnal in a pureanalog system…detailed]E1,while[digital systems cannot produce signals that…units]E2.[With...disadvantage]E3.Since[there is...singal]E4,[theduplication...original]E5,[which are errors]E6.”、问题内容:“[The statementsabove]E7,[if true]E8,[most strongly support which one of the following]E9?”、备选答案:“[Diginal systems are the best information systens]E10,because[errorcannot occur in the emission of digital singals]E11.”来构建逻辑推理图700。其中,E1~E11是划分的推理节点。
步骤620,根据逻辑推理图,确定逻辑推理图对应的软连接关系,软连接关系用于指示逻辑推理图中任意两个节点之间存在深层边的可能性,深层边是指根据逻辑推理图中节点与边的连接关系而推理出来的边。
步骤630,根据软连接关系对逻辑推理图进行更新,得到更新后的逻辑推理图。
步骤640,基于背景知识文本、问题内容和备选答案,以及更新后的逻辑推理图,确定备选答案对应的推理结果,推理结果用于表征备选答案是问题内容对应的正确答案的可能性。
步骤650,根据问题内容对应的至少一个备选答案分别对应的推理结果,从至少一个备选答案中确定问题内容对应的正确答案。
本申请实施例提供的技术方案,通过背景知识文本、问题内容和备选答案的显示结构(具有显式关系、具有隐式关系、共享实意词语),确定三种类型的边。一方面,提升了逻辑推理图确定的效率,另一方面,基于三种类型的边确定出来的逻辑推理图的内容相对较为丰富,更能表征背景知识文本、问题内容和备选答案的文本内容,有利于下游任务的进行。
请参考图8,其示出了本申请一个实施例提供的答案推理方法的框图。该方法各步骤的执行主体可以是上文介绍的模型使用设备。在下文方法实施例中,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。
在一些实施例中,对背景知识文本P、问题内容Q和备选答案Ak进行关键连词以及实意词组(实意词语)进行提取,并基于三种逻辑边的构建规则,构建出初始的逻辑推理图。可选地,根据初始的逻辑推理图中的边,进行逻辑边的推理,得到高层逻辑关系(深层边)。可选地,利用高层逻辑关系对初始的逻辑推理图进行更新,得到更新后的逻辑推理图。
在一些实施例中,通过预训练语言模型810根据背景知识文本P、问题内容Q和备选答案Ak得到每个字符对应的字符上下文特征向量(每个字符的特征信息)。可选地,对于每个节点中包括的字符,将节点包括的每个字符的特征信息相加,得到节点的初始特征信息。通过图神经网络820根据每个节点的初始特征信息以及更新后的逻辑推理图对应的总体邻接矩阵集合,得到每个推理节点的更新特征信息,也即推理节点的特征向量。可选地,将每个推理节点的更新特征信息重新赋值到每个字符的位置上,并结合每个字符对应的字符上下文特征向量,进行多层级特征融合,得到每个字符的更新特征信息。可选地,进一步确定背景知识文本P、问题内容Q和备选答案Ak分别对应的特征信息。从而判断出Ak属于正确答案的概率。
本申请实施例提供的技术方案由于使用了适应性的逻辑边推理方法,能够根据训练目标(推理问答题的标签)动态地改变推理图中的关系,因而相比于基线方法具有更好的推理性能,同时也能够学习到泛化能力更强的推理表征。表1展示了本申请与基线方法在两个逻辑推理问答数据集上的性能对比,其中基线方法包括了基于图神经网络的FocalReasoner以及基于对比学习方法的LReasoner和MERIt。为了公平比较,本申请与对比学习方法比较时使用了相同的正负样本作为训练样本。而表2则展示了本申请相比于预训练语言模型而言从逻辑推理问答零样本迁移到推理对话任务上的表现。
表1.本申请与基线方法在ReClor以及LogiQA数据集上的准确率对比
表2.本申请与预训练语言模型从推理问答任务零样本迁移到推理对话任务的性能对比
下面对于答案推理模型的训练方法进行示例性说明。该方法各步骤的执行主体可以是上文介绍的模型训练设备。在下文方法实施例中,为了便于描述,仅以各步骤的执行主体为“计算机设备”进行介绍说明。该方法可以包括如下几个步骤(S1~S4)中的至少一个步骤:
在步骤S1之前,首先确定答案推理模型的训练样本集。训练样本集中至少包括至少一个训练样本。
在一些实施例中,将一个背景知识文本、与该背景知识文本对应的一个问题内容以及该问题内容对应的一个备选答案,作为一个训练样本,将该备选答案是否是该问题内容对应的正确答案作为训练标签。可选地,训练标签分别0和1,0表示该备选答案不是该问题内容的正确答案,1表示该备选答案是该问题内容的正确答案。可选地,对于训练标签的获取方式本申请不作限定,可以是人工标注,也可以以强化学习的方式对训练样本进行训练标签的标注。
在另一些实施例中,将一个背景知识文本、与该背景知识文本对应的一个问题内容以及该问题内容对应的一个备选答案,作为一个训练样本。当被备选答案是正确答案时,该训练样本为正样本。当备选答案不是正确答案时,该训练样本为负样本。可选地,此时训练样本集中不包括训练标签。此时,由于正负样本数量不均衡,可以采用对正样本进行增扩的方式,增加正样本的数量,例如,改变正确答案中字符的语序,得到不同于原始正确答案的又一正确答案。可选地,利用正负样本基于对比学习的方式,对答案推理模型进行训练。
步骤S1,根据答案推理模型中的逻辑推理图构建网络获取基于背景知识文本、问题内容和备选答案构建的逻辑推理图,逻辑推理图中包括至少两个节点以及至少一条与节点相连接的边,节点代表背景知识文本、问题内容和备选答案中的文本片段,边代表文本片段之间的逻辑推理关系;根据逻辑推理图,确定逻辑推理图对应的软连接关系,软连接关系用于指示逻辑推理图中任意两个节点之间存在深层边的可能性,深层边是指根据逻辑推理图中节点与边的连接关系而推理出来的边;根据软连接关系对逻辑推理图进行更新,得到更新后的逻辑推理图。
在一些实施例中,根据所述逻辑推理图中包括的边,生成所述逻辑推理图对应的总体邻接矩阵,所述总体邻接矩阵用于数值化表示所述逻辑推理图中包括的边。逻辑推理图中包括如下至少一种类型的边:具有显式关系的边、具有隐式关系的边、共享实意词语的边。
在一些实施例中,生成每一种类型的边对应的邻接矩阵,邻接矩阵中的每一个元素用于表示两个节点之间是否具有类型的边,邻接矩阵的维度为N×N,N表示逻辑推理图中节点的数量,N为正整数;根据逻辑推理图中包括的各种类型的边分别对应的邻接矩阵,生成逻辑推理图对应的总体邻接矩阵。
在一些实施例中,从满足正态分布的数值区间中,随机选择数值生成权重矩阵,通过归一化指数函数对权重矩阵进行处理,得到归一化后的权重矩阵;将总体邻接矩阵与归一化后的权重矩阵相乘,得到初始化的软连接矩阵。可选地,当答案推理模型训练完成时,权重矩阵中各个元素的数值确定,并利用该确定好的权重矩阵,来进行答案推理。
在一些实施例中,正态分布的两个参数μ和σ^2,随答案推理模型的更新,发生不断更新。可选地,根据反向梯度传播,对正态分布的参数进行更新。
在一些实施例中,在第i轮迭代更新的过程中,将第i-1轮迭代更新得到的更新后的软连接矩阵,与初始化的软连接矩阵相乘,得到第i轮迭代更新得到的更新后的软连接矩阵;其中,i为正整数,当i等于1时,第i-1轮迭代更新得到的更新后的软连接矩阵为初始化的软连接矩阵。
在一些实施例中,对于每一个更新后的软连接矩阵,将更新后的软连接矩阵中取值大于或等于阈值的元素设置为第一数值,取值小于阈值的元素设置为第二数值,得到更新后的软连接矩阵对应的数值矩阵;在数值矩阵中每一个取值为第一数值的元素所对应的两个节点之间,添加深层边,得到更新后的逻辑推理图。
步骤S2,根据答案推理模型中的结果推理网络基于背景知识文本、问题内容和备选答案,以及更新后的逻辑推理图,确定备选答案对应的推理结果,推理结果用于表征备选答案是问题内容对应的正确答案的可能性。
在一些实施例中,结果推理网络包括语言特征提取网络、图神经网络、概率确定网络。
在一些实施例中,通过语言特征提取网络提取背景知识文本、问题内容和备选答案中各个字符分别对应的特征信息;根据各个字符分别对应的特征信息以及逻辑推理图中的各个节点分别对应的文本片段,确定逻辑推理图中各个节点分别对应的初始特征信息,每一个文本片段中包括至少一个字符;通过图神经网络根据更新后的逻辑推理图以及逻辑推理图中各个节点分别对应的初始特征信息,确定逻辑推理图中各个节点分别对应的更新后特征信息;通过特征融合网络根据逻辑推理图中各个节点分别对应的更新后特征信息,对各个字符分别对应的特征信息进行更新,得到各个字符分别对应的更新后特征信息;根据各个字符分别对应的更新后特征信息,确定背景知识文本以及备选答案分别对应的特征信息;通过概率确定网络根据背景知识文本以及备选答案分别对应的特征信息,确定备选答案是问题内容对应的正确答案的概率,并将概率作为备选答案对应的推理结果。
步骤S3,根据备选答案对应的推理结果和备选答案对应的标签的差异,确定答案推理模型的损失函数值。
在一些实施例中,当备选答案是正确答案时,备选答案对应的标签是1,当备选答案不是正确答案时,备选答案对应的标签是0。在一些实施例中,损失函数是交叉熵损失函数。在一些实施例中,将正确答案与背景知识文本、问题内容构建的问答样本作为正样本,将其他备选答案与背景知识文本、问题内容构建的问答样本作为负样本,对答案推理模型进行训练。
步骤S4,以最小化损失函数值为目标,对答案推理模型的参数进行调整。
在一些实施例中,在训练过程中,对答案推理模型中的所有参数进行调整。
本实施例中部分步骤的解释说明可以上述实施例,此处不再赘述。
本申请实施例提供的技术方案,基于显式化结构进行推理表征学习,且在模型训练过程中,推理结构可以根据训练目标进行动态的适应性调整,使得所学习的表征能够在不同数据集和任务上有比较强的迁移泛化效果,有利于提升确定出来的作为正确答案的备选答案的准确性。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图9,其示出了本申请一个实施例提供的答案推理装置的框图。该装置具有实现上述方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备中。如图9所示,该装置900可以包括:图获取模块910、关系确定模块920、结果确定模块930以及答案确定模块940。
图获取模块910,用于获取基于背景知识文本、问题内容和备选答案构建的逻辑推理图,所述逻辑推理图中包括至少两个节点以及至少一条与所述节点相连接的边,所述节点代表所述背景知识文本、问题内容和备选答案中的文本片段,所述边代表所述文本片段之间的逻辑推理关系。
关系确定模块920,用于根据所述逻辑推理图,确定所述逻辑推理图对应的软连接关系,所述软连接关系用于指示所述逻辑推理图中任意两个节点之间存在深层边的可能性,所述深层边是指根据所述逻辑推理图中节点与边的连接关系而推理出来的边。
图获取模块910,还用于根据所述软连接关系对所述逻辑推理图进行更新,得到更新后的逻辑推理图。
结果确定模块930,用于基于所述背景知识文本、问题内容和备选答案,以及所述更新后的逻辑推理图,确定所述备选答案对应的推理结果,所述推理结果用于表征所述备选答案是所述问题内容对应的正确答案的可能性。
答案确定模块940,用于根据所述问题内容对应的至少一个备选答案分别对应的推理结果,从所述至少一个备选答案中确定所述问题内容对应的正确答案。
在一些实施例中,如图10所示,关系确定模块920包括矩阵生成单元921以及矩阵更新单元922。
矩阵生成单元921,用于根据所述逻辑推理图中包括的边,生成所述逻辑推理图对应的总体邻接矩阵,所述总体邻接矩阵用于数值化表示所述逻辑推理图中包括的边。
矩阵生成单元921,还用于根据所述总体邻接矩阵和权重矩阵,得到初始化的软连接矩阵。
矩阵更新单元922,用于对所述初始化的软连接矩阵进行至少一轮迭代更新,得到至少一个更新后的软连接矩阵,每个所述更新后的软连接矩阵用于数值化表示所述逻辑推理图对应的软连接关系。
在一些实施例中,所述逻辑推理图中包括如下至少一种类型的边:具有显式关系的边、具有隐式关系的边、共享实意词语的边。
矩阵生成单元921,用于生成每一种类型的边对应的邻接矩阵,所述邻接矩阵中的每一个元素用于表示两个节点之间是否具有所述类型的边,所述邻接矩阵的维度为N×N,N表示所述逻辑推理图中节点的数量,N为正整数。
矩阵生成单元921,还用于根据所述逻辑推理图中包括的各种类型的边分别对应的邻接矩阵,生成所述逻辑推理图对应的总体邻接矩阵。
在一些实施例中,矩阵生成单元921,用于从满足正态分布的数值区间中,随机选择数值生成所述权重矩阵;通过归一化指数函数对所述权重矩阵进行处理,得到归一化后的权重矩阵;将所述总体邻接矩阵与所述归一化后的权重矩阵相乘,得到所述初始化的软连接矩阵。
在一些实施例中,矩阵更新单元922,用于在第i轮迭代更新的过程中,将第i-1轮迭代更新得到的更新后的软连接矩阵,与所述初始化的软连接矩阵相乘,得到所述第i轮迭代更新得到的更新后的软连接矩阵;其中,i为正整数,当i等于1时,所述第i-1轮迭代更新得到的更新后的软连接矩阵为所述初始化的软连接矩阵。
在一些实施例中,图获取模块910,用于对于每一个更新后的软连接矩阵,将所述更新后的软连接矩阵中取值大于或等于阈值的元素设置为第一数值,取值小于所述阈值的元素设置为第二数值,得到所述更新后的软连接矩阵对应的数值矩阵;
图获取模块910,还用于在所述数值矩阵中每一个取值为所述第一数值的元素所对应的两个节点之间,添加所述深层边,得到所述更新后的逻辑推理图。
在一些实施例中,结果确定模块930,用于通过语言特征提取网络提取所述背景知识文本、问题内容和备选答案中各个字符分别对应的特征信息。
结果确定模块930,还用于根据所述各个字符分别对应的特征信息以及所述逻辑推理图中的各个节点分别对应的文本片段,确定所述逻辑推理图中各个节点分别对应的初始特征信息,每一个文本片段中包括至少一个字符。
结果确定模块930,还用于通过图神经网络根据所述更新后的逻辑推理图以及所述逻辑推理图中各个节点分别对应的初始特征信息,确定所述逻辑推理图中各个节点分别对应的更新后特征信息。
结果确定模块930,还用于通过特征融合网络根据所述逻辑推理图中各个节点分别对应的更新后特征信息,对所述各个字符分别对应的特征信息进行更新,得到所述各个字符分别对应的更新后特征信息。
结果确定模块930,还用于根据所述各个字符分别对应的更新后特征信息,确定所述背景知识文本以及所述备选答案分别对应的特征信息。
结果确定模块930,还用于通过概率确定网络根据所述背景知识文本以及所述备选答案分别对应的特征信息,确定所述备选答案是所述问题内容对应的正确答案的概率,并将所述概率作为所述备选答案对应的推理结果。
在一些实施例中,图获取模块910,用于提取所述背景知识文本、问题内容和备选答案中的连接词以及实意词语。
图获取模块910,还用于根据所述连接词以及所述背景知识文本、问题内容和备选答案中出现的标点符号,对所述背景知识文本、问题内容和备选答案进行划分,得到至少两个文本片段,并将所述文本片段作为所述逻辑推理图中的节点。
图获取模块910,还用于当两个文本片段中存在同一个实意词语时,在所述两个文本片段分别对应的节点之间构建共享实意词语的边。
图获取模块910,还用于当两个文本片段属于同一个句子并且所述两个文本片段间存在所述连接词时,在所述两个文本片段分别对应的节点之间构建具有显式关系的边。
图获取模块910,还用于当两个文本片段属于同一个句子并且所述两个文本片段间不存在所述连接词时,在所述两个文本片段分别对应的节点之间构建具有隐式关系的边。
图获取模块910,还用于根据确定出来的节点以及构建出来的边,得到所述逻辑推理图。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图11示出了本申请另一个示例性实施例提供的计算机设备的结构框图。
通常,计算机设备1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、11核心处理器等。处理器1101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括AI处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是有形的和非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质存储有计算机程序,该计算机程序由处理器1101加载并执行以实现上述答案推理方法。
本领域技术人员可以理解,图11中示出的结构并不构成对计算机设备1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上答案推理方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取存储器可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取存储器)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机程序,所述处理器执行所述计算机程序,使得所述计算机设备执行上述答案推理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
需要说明的是,本申请中相关数据收集处理在实例应用时应该严格根据相关国家法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种答案推理方法,其特征在于,所述方法包括:
获取基于背景知识文本、问题内容和备选答案构建的逻辑推理图,所述逻辑推理图中包括至少两个节点以及至少一条与所述节点相连接的边,所述节点代表所述背景知识文本、问题内容和备选答案中的文本片段,所述边代表所述文本片段之间的逻辑推理关系;
根据所述逻辑推理图,确定所述逻辑推理图对应的软连接关系,所述软连接关系用于指示所述逻辑推理图中任意两个节点之间存在深层边的可能性,所述深层边是指根据所述逻辑推理图中节点与边的连接关系而推理出来的边;
根据所述软连接关系对所述逻辑推理图进行更新,得到更新后的逻辑推理图;
基于所述背景知识文本、问题内容和备选答案,以及所述更新后的逻辑推理图,确定所述备选答案对应的推理结果,所述推理结果用于表征所述备选答案是所述问题内容对应的正确答案的可能性;
根据所述问题内容对应的至少一个备选答案分别对应的推理结果,从所述至少一个备选答案中确定所述问题内容对应的正确答案。
2.根据权利要求1所述的方法,其特征在于,所述根据所述逻辑推理图,确定所述逻辑推理图对应的软连接关系,包括:
根据所述逻辑推理图中包括的边,生成所述逻辑推理图对应的总体邻接矩阵,所述总体邻接矩阵用于数值化表示所述逻辑推理图中包括的边;
根据所述总体邻接矩阵和权重矩阵,得到初始化的软连接矩阵;
对所述初始化的软连接矩阵进行至少一轮迭代更新,得到至少一个更新后的软连接矩阵,每个所述更新后的软连接矩阵用于数值化表示所述逻辑推理图对应的软连接关系。
3.根据权利要求2所述的方法,其特征在于,所述逻辑推理图中包括如下至少一种类型的边:具有显式关系的边、具有隐式关系的边、共享实意词语的边;
所述根据所述逻辑推理图中包括的边,生成所述逻辑推理图对应的总体邻接矩阵,包括:
生成每一种类型的边对应的邻接矩阵,所述邻接矩阵中的每一个元素用于表示两个节点之间是否具有所述类型的边,所述邻接矩阵的维度为N×N,N表示所述逻辑推理图中节点的数量,N为正整数;
根据所述逻辑推理图中包括的各种类型的边分别对应的邻接矩阵,生成所述逻辑推理图对应的总体邻接矩阵。
4.根据权利要求2所述的方法,其特征在于,所述根据所述总体邻接矩阵和权重矩阵,得到初始化的软连接矩阵,包括:
从满足正态分布的数值区间中,随机选择数值生成所述权重矩阵;
通过归一化指数函数对所述权重矩阵进行处理,得到归一化后的权重矩阵;
将所述总体邻接矩阵与所述归一化后的权重矩阵相乘,得到所述初始化的软连接矩阵。
5.根据权利要求2所述的方法,其特征在于,所述对所述初始化的软连接矩阵进行至少一轮迭代更新,得到至少一个更新后的软连接矩阵,包括:
在第i轮迭代更新的过程中,将第i-1轮迭代更新得到的更新后的软连接矩阵,与所述初始化的软连接矩阵相乘,得到所述第i轮迭代更新得到的更新后的软连接矩阵;
其中,i为正整数,当i等于1时,所述第i-1轮迭代更新得到的更新后的软连接矩阵为所述初始化的软连接矩阵。
6.根据权利要求2所述的方法,其特征在于,所述根据所述软连接关系对所述逻辑推理图进行更新,得到更新后的逻辑推理图,包括:
对于每一个更新后的软连接矩阵,将所述更新后的软连接矩阵中取值大于或等于阈值的元素设置为第一数值,取值小于所述阈值的元素设置为第二数值,得到所述更新后的软连接矩阵对应的数值矩阵;
在所述数值矩阵中每一个取值为所述第一数值的元素所对应的两个节点之间,添加所述深层边,得到所述更新后的逻辑推理图。
7.根据权利要求1所述的方法,其特征在于,所述基于所述背景知识文本、问题内容和备选答案,以及所述更新后的逻辑推理图,确定所述备选答案对应的推理结果,包括:
通过语言特征提取网络提取所述背景知识文本、问题内容和备选答案中各个字符分别对应的特征信息;
根据所述各个字符分别对应的特征信息以及所述逻辑推理图中的各个节点分别对应的文本片段,确定所述逻辑推理图中各个节点分别对应的初始特征信息,每一个文本片段中包括至少一个字符;
通过图神经网络根据所述更新后的逻辑推理图以及所述逻辑推理图中各个节点分别对应的初始特征信息,确定所述逻辑推理图中各个节点分别对应的更新后特征信息;
通过特征融合网络根据所述逻辑推理图中各个节点分别对应的更新后特征信息,对所述各个字符分别对应的特征信息进行更新,得到所述各个字符分别对应的更新后特征信息;
根据所述各个字符分别对应的更新后特征信息,确定所述背景知识文本以及所述备选答案分别对应的特征信息;
通过概率确定网络根据所述背景知识文本以及所述备选答案分别对应的特征信息,确定所述备选答案是所述问题内容对应的正确答案的概率,并将所述概率作为所述备选答案对应的推理结果。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述获取基于背景知识文本、问题内容和备选答案构建的逻辑推理图,包括:
提取所述背景知识文本、问题内容和备选答案中的连接词以及实意词语;
根据所述连接词以及所述背景知识文本、问题内容和备选答案中出现的标点符号,对所述背景知识文本、问题内容和备选答案进行划分,得到至少两个文本片段,并将所述文本片段作为所述逻辑推理图中的节点;
当两个文本片段中存在同一个实意词语时,在所述两个文本片段分别对应的节点之间构建共享实意词语的边;
当两个文本片段属于同一个句子并且所述两个文本片段间存在所述连接词时,在所述两个文本片段分别对应的节点之间构建具有显式关系的边;
当两个文本片段属于同一个句子并且所述两个文本片段间不存在所述连接词时,在所述两个文本片段分别对应的节点之间构建具有隐式关系的边;
根据确定出来的节点以及构建出来的边,得到所述逻辑推理图。
9.一种答案推理装置,其特征在于,所述装置包括:
图获取模块,用于获取基于背景知识文本、问题内容和备选答案构建的逻辑推理图,所述逻辑推理图中包括至少两个节点以及至少一条与所述节点相连接的边,所述节点代表所述背景知识文本、问题内容和备选答案中的文本片段,所述边代表所述文本片段之间的逻辑推理关系;
关系确定模块,用于根据所述逻辑推理图,确定所述逻辑推理图对应的软连接关系,所述软连接关系用于指示所述逻辑推理图中任意两个节点之间存在深层边的可能性,所述深层边是指根据所述逻辑推理图中节点与边的连接关系而推理出来的边;
所述图获取模块,还用于根据所述软连接关系对所述逻辑推理图进行更新,得到更新后的逻辑推理图;
结果确定模块,用于基于所述背景知识文本、问题内容和备选答案,以及所述更新后的逻辑推理图,确定所述备选答案对应的推理结果,所述推理结果用于表征所述备选答案是所述问题内容对应的正确答案的可能性;
答案确定模块,用于根据所述问题内容对应的至少一个备选答案分别对应的推理结果,从所述至少一个备选答案中确定所述问题内容对应的正确答案。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上述权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至8任一项所述的方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如上述权利要求1至8任一项所述的方法。
CN202310421442.2A 2023-04-18 2023-04-18 答案推理方法、装置、设备及存储介质 Pending CN117216197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310421442.2A CN117216197A (zh) 2023-04-18 2023-04-18 答案推理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310421442.2A CN117216197A (zh) 2023-04-18 2023-04-18 答案推理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117216197A true CN117216197A (zh) 2023-12-12

Family

ID=89041309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310421442.2A Pending CN117216197A (zh) 2023-04-18 2023-04-18 答案推理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117216197A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892818A (zh) * 2024-03-18 2024-04-16 浙江大学 一种基于隐式思维链的大语言模型推理性内容生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892818A (zh) * 2024-03-18 2024-04-16 浙江大学 一种基于隐式思维链的大语言模型推理性内容生成方法
CN117892818B (zh) * 2024-03-18 2024-05-28 浙江大学 一种基于隐式思维链的大语言模型推理性内容生成方法

Similar Documents

Publication Publication Date Title
Liu et al. Ekt: Exercise-aware knowledge tracing for student performance prediction
CN111767405A (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN110781680A (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN110379225A (zh) 互动式语言习得的系统和方法
CN112131366A (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN111898374B (zh) 文本识别方法、装置、存储介质和电子设备
CN111382231B (zh) 意图识别系统及方法
US20210232751A1 (en) Sentence generation method and apparatus, device, and storage medium
Gao et al. Question-Led object attention for visual question answering
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN114648032B (zh) 语义理解模型的训练方法、装置和计算机设备
CN112232086A (zh) 一种语义识别方法、装置、计算机设备及存储介质
CN113010645A (zh) 文本生成方法、装置、设备及存储介质
CN117216197A (zh) 答案推理方法、装置、设备及存储介质
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
Huang Robustness analysis of visual question answering models by basic questions
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN112132075B (zh) 图文内容处理方法及介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
Bachrach et al. An attention mechanism for answer selection using a combined global and local view
Liu et al. Attention based r&cnn medical question answering system in chinese
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication