CN117076653B

CN117076653B - 基于思维链及可视化提升上下文学习知识库问答方法

Info

Publication number: CN117076653B
Application number: CN202311340689.8A
Authority: CN
Inventors: 陈文希; 王永梅; 王芃力; 刘飞; 夏川; 杨光; 闫雅楠; 张世豪; 潘海瑞; 石博艺
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-01-02
Anticipated expiration: 2043-10-17
Also published as: CN117076653A

Abstract

本发明适用于知识库问答技术领域，提供了基于思维链及可视化提升上下文学习知识库问答方法，包括以下步骤：在知识库中检索与需查询问题相似的示例；对所述相似的示例和所述需查询问题一并利用思维链产生逻辑推理过程；利用CodeGeex2模型学习所述逻辑推理过程后，生成需查询问题的逻辑形式；获取所述用户勘误后的逻辑形式，在知识库中对需查询问题进行知识抽取、实体绑定与关系绑定，利用多数票策略来确定需查询问题的答案，并将答案输出给用户。本发明在模型生成逻辑形式前引入思考链，利用符号内存提高大语言模型的复杂问题多跳推理能力，先针对示例用思维链进行推理回答，再利用模型来生成逻辑形式的模板，能够提高答案推理与错误分析能力。

Description

基于思维链及可视化提升上下文学习知识库问答方法

技术领域

本发明属于知识库问答领域，尤其涉及基于思维链及可视化提升上下文学习知识库问答方法。

背景技术

目前，现有的知识库问答领域主要有两类主流方法基于语义法分析的方法和基于信息检索的方法；基于语义句法分析的方法旨在将自然语言问题解析成逻辑形式，并在知识库上进行查询得到答案。这类方法通常包括问题理解、逻辑分析、知识库实例化和知识库执行等步骤；基于信息检索的方法则旨在使用问题中传达的信息，直接从知识库中检索并排序答案。这类方法通常包括确定中心实体、从知识库中提取问题相关的子图、对输入问题进行编码、基于图的推理模块进行语义匹配、利用答案排序模块对图中的实体进行排序等步骤。

现有技术的KB-BINDER框架模型是一种用于知识库问答的上下文少样本学习框架，它通过利用大型语言模型生成问题的逻辑形式，并在知识库中进行逐步绑定，实现了无需训练的知识库问答任务的上下文少样本学习。其不足之处在于生成的逻辑形式难以干预，准确度不高，具体体现在：

第一，模型模仿与生成查询对应的逻辑形式的准确度难以保障和提升，其可能会生成错误的逻辑形式，对其后的答案检索与回答带来干扰与误差，降低了模型问答的准确性；

第二，依据输入的问题生成逻辑形式的过程难以解释和干预，即使模型生成了错误的逻辑形式，用户也无法对其进行编辑与修正。

发明内容

本发明实施例的目的在于提供基于思维链及可视化提升上下文学习知识库问答方法，旨在解决上述背景中所提出的技术问题。为实现上述目的，本发明提供了如下的技术方案。

基于思维链及可视化提升上下文学习知识库问答方法，该问答方法包括以下步骤：

获取用户输入的需查询问题，在知识库中检索与所述需查询问题相似的示例；

对所述相似的示例和所述需查询问题一并利用思维链产生逻辑推理过程；

利用CodeGeex2模型学习所述逻辑推理过程后，生成需查询问题的逻辑形式；

获取所述用户勘误后的逻辑形式，在所述知识库中对需查询问题进行知识抽取、实体绑定与关系绑定，利用多数票策略来确定需查询问题的答案，并将所述答案输出给用户。

作为本发明方案的进一步限定，所述勘误后的逻辑形式的获取方式包括：

在所述生成需查询问题的逻辑形式的步骤之后，向用户输出所述逻辑形式以及与所述逻辑形式对应的自然语言；

基于所述逻辑形式对应的自然语言和所述用户输入的需查询内容二者的逻辑差异，响应于所述用户根据逻辑差异对所述逻辑形式进行的修改与校正，将所述修改与校正后的逻辑形式作为勘误后的逻辑形式并输出。

作为本发明的进一步限定，所述获取用户输入的需查询问题，在知识库中检索与所述需查询问题相似的示例的步骤包括：

对用户输入查询的自然语言使用Skip-Gram模型进行词向量编码，并利用OpenMatch-v2检索器进行检索，检索选出与输入查询问题相关的示例对、/>...../>，其中，/>表示知识库中选出的问题，/>表示问题/>所对应的答案。

作为本发明的进一步限定，所述利用CodeGeex2模型学习所述逻辑推理过程后，生成需查询问题的逻辑形式的步骤包括：

利用大预言模型CodeGeex2的上下文学习能力，为检索器检索的示例问题生成逻辑形式模板，利用实体名称替代逻辑形式中的机器标识符；

对于模型CodeGeex2生成的以机器标识符形式存在的模板，将其一一还原为对应的自然语言，并向用户输出所述逻辑形式以及与所述逻辑形式对应的自然语言。

作为本发明的进一步限定，所述在知识库中对需查询问题进行实体抽取、实体绑定与关系绑定，利用多数票策略来确定需查询问题的答案的步骤包括：

利用联合抽取方法抽取用户查询中的实体、实体关系以及实体属性，并进行实体对齐，使其对于异构知识库中的实体，找出属于显示世界中的同一类实体；

依据抽取出的实体在知识库中进行模糊搜索，得到候选实体，根据候选实体和用户查询问句在符号层面的相似性，以及相应多跳规则约束，对候选实体进行进一步的筛选，得到查询的实体链接结果；

基于检索到的示例对，利用每一个示例样例与原始查询一起作为搜索查询，从整个知识库中整合检索出最相似的项目；保留关系相似度较高的前k个项目，并筛选掉不符合约束关系的其余项目；对于每个机器标识符组成的逻辑形式，遍历所有的k个保留下来的关系候选项；

对于相关的逻辑形式和它们相应的答案，将这些项目重复执行n次，并采用多数票策略来决定需查询问题的答案。

作为本发明的进一步限定，所述利用OpenMatch-v2检索器进行检索，检索选出与输入查询相关的示例对的步骤包括：

使用双编码器框架来训练密集检索模型：

对来自预训练的语言模型初始化编码器，让知识库中随机示例对成为训练集，其中/>是输入问题，/>是与问题语义相关的段落；

将问题和段落/>输入T5编码器，并将编码器的均值池作为输出，将问题和段落编码成Em-beddings，将输出嵌入层的大小固定为768；

使用批量采样softmax loss来训练模型，其损失函数计算如下：

其中，在softmax函数的公式中，/>是一个索引，表示对所有可能的类别进行求和；具体来说，如果我们有C个类别，那么/>就会从1遍历到C，这样，我们就可以计算出所有类别的指数函数值的总和，然后用每个类别的指数函数值除以这个总和，得到每个类别的预测概率；相似性评分函数/>是/>和/>的入之间的余弦相似性；/>是迷你批次的示例，/>是softmax温度，对于输入问题/>，可以给出额外的否定词/>，计算损失时，将它们计入分母：

负样本/>通常指的是与我们预测目标不符的样本；

在训练模型时，我们通常有正样本和负样本/>，正样本是我们希望模型学习的目标，而负样本则是我们希望模型避免学习的，在计算损失函数时，正样本和负样本都会被考虑进去，以帮助模型更好地进行学习和优化；

使用双向批量采样软性最大损失法：

计算问题到文档匹配和文档到问题匹配的损失；

采样方法的基本目标是求解某个函数在某个特定概率/>的期望值E；

即；

从概率分布中采样个点，组成样本集合/>；

这些点的统计属性服从概率分布；

然后估计的期望值，即为：

。

作为本发明的进一步限定，所述利用大预言模型CodeGeex2的上下文学习能力，为检索器检索的示例问题生成逻辑形式模板，利用实体名称替代逻辑形式中的机器标识符的步骤包括：

生成预训练目标：

通过采用GPT范式，在大量无标记代码数据上训练模型；

其原理是迭代地将代码标记作为输入，预测下一个标记，并将其与地面实况进行比较，具体来说，对于任何长度为n的输入序列，x指输入长序列中的一个词或一个字符；

CodeGeeX2的输出是下一个标记的概率分布：

；

其中，代表模型的所有参数，/>代表词汇量，通过将其与真实分布进行比较，优化累积交叉熵损失：/>，其中，大N为总类别数，所述真实分布为真实标记的单击向量/>；

顶部查询层：

原始的GPT模型使用池器函数获得最终输出，CodeGeeX2在所有其他转换层之上使用了一个额外的查询层，顶层查询层的输入用n+1位置的查询嵌入替换查询输入，最终输出乘以词嵌入矩阵的转置，得到输出概率；

解码生成模板：

对于所查询到的top-k层输出，将其解码为机器标识符（MID)，用来标记某个实体的标识符，将实体名称替代其标识符名称。

作为本发明的进一步限定，所述利用联合抽取方法抽取用户查询中的实体、实体关系以及实体属性，并进行实体对齐，使其对于异构知识库中的实体，找出属于显示世界中的同一类实体的步骤包括实体抽取、关系抽取和事件抽取；

所述实体抽取包括：

分词：将文本分割成一个个单独的词语；

词性标注：确定每个词语的词性；

命名实体识别：在分词和词性标注的基础上，通过模型或规则来识别文本中的命名实体；

实体分类：对于已经识别出来的命名实体，进行分类；

关系抽取：在已经确定了实体之间的关系后，进一步抽取出实体之间的关系；

所述关系抽取包括：

输入条子文本，先用实体抽取器识别出输入条子文本中的各个实体，然后对抽取出来的实体每两个进行组合，再加上原文本句子作为关系识别器的输入，进行两输入实体间的关系识别；

所述事件抽取包括：

表示训练样本，在基于特征的方法中提取和构建特征向量；

选择分类器并训练模型，优化模型参数；

使用训练好的模型从未标明的数据中提取事件实体。

作为本发明的进一步限定，所述依据抽取出的实体在知识库中进行模糊搜索，得到候选实体，根据候选实体和用户查询问句在符号层面的相似性，以及相应多跳规则约束，对候选实体进行进一步的筛选，得到查询的实体链接结果的步骤包括构建同义词表、构建缩写全称映射表、构建别名词表、基于编辑距离召回实体和基于词向量相似性召回实体；其中：

所述构建同义词表包括：

确定目标领域和语料库，根据用户输入的查询构建同义词表的目标领域，选择合适的语料库作为挖掘种子；

挖掘新的同义词，用基于预训练词向量计算词语间的相似度；

判断是否为同义词对，在挖掘到新的候选同义词后，判断它们是否真正是同义词对；

所述构建缩写全称映射表包括：对于人名，名字扩展成为全称；对于大写缩写，可根据库中实体核对首字母；对于地名，可根据地名表扩展；

所述基于编辑距离召回实体包括：

预处理：从知识库中收集所有实体及其同义词，对实体和同义词进行预处理，删除停顿词、标点符号和特殊字符；

标记化：将输入的查询词标记为单词；

编辑距离计算：采用Jaro-Winkler距离算法计算实体/同义词之间的编辑距离；

排序：根据编辑距离得分对实体/同义词进行排序；

筛选：筛选出编辑距离得分超过一定阈值的实体/同义词；

输出：根据编辑距离得分，返回前k个实体/同义词的编辑距离得分；

所述基于词向量相似性召回实体包括：

需要使用词向量模型来训练词向量，将每个词语映射到一个高维空间中的一个向量，利用词语的向量来计算词语之间的相似度；

当需要召回与某个实体相关的其他实体时，计算这个实体对应的词语与语料库中所有其他词语的相似度，将相似度最高的若干个词语作为召回结果。

与现有技术相比，本发明提供的基于思维链及可视化提升上下文学习知识库问答方法的有益效果是：

第一，在模型生成逻辑形式前引入思考链，利用符号内存提高大语言模型复杂问题的多跳推理能力，先针对示例用思维链进行推理回答，再利用模型来生成逻辑形式的模板，能够提高答案推理与错误分析能力，利用思维链提高生成模板的准确性；

第二，将检索器检索到的示例及语言模型生成的逻辑形式及其对应的自然语言输出在显示器上，使用户能够直接地进行观测，并选择是否对生成的逻辑形式进行勘误与修改，模型接收用户编辑后的逻辑形式，若用户未对其进行修改，则模型接收其未改变的逻辑形式，该步骤引入人机交互，利用人类的思维能力校准与修正其逻辑形式，加强对中间逻辑形式与反馈问答结果的质量保证。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明基于思维链及可视化提升上下文学习知识库问答方法的流程框架图；

图2为本发明基于思维链及可视化提升上下文学习知识库问答方法的实现流程图；

图3为本发明基于思维链及可视化提升上下文学习知识库问答方法的一个子流程框架图；

图4为本发明提供的一种知识库问答系统的结构框图；

图5为本发明提供的一种计算机设备的结构框图。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请，在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合，基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中，KB-BINDER框架模型是一种用于知识库问答的上下文少样本学习框架，它通过利用大型语言模型生成问题的逻辑形式，并在知识库中进行逐步绑定，实现了无需训练的知识库问答任务的上下文少样本学习。其不足之处在于生成的逻辑形式准确度难以干预与提高，具体体现在：

为解决上述问题，本发明提供了基于思维链及可视化提升上下文学习知识库问答方法，本发明的问答方法在模型生成逻辑形式前引入思考链，利用符号内存提高大语言模型的复杂问题多跳推理能力，先针对示例用思维链进行推理回答，再利用模型来生成逻辑形式的模板，利用思维链能够进行的答案推理与错误分析能力提高对于生成模板的准确性；本发明还将检索器检索到的示例及语言模型生成的逻辑形式及其对应的自然语言输出在显示器上，使用户能够直接地进行观测，并选择是否对生成的逻辑形式进行勘误与修改，模型接收用户编辑后的逻辑形式，若用户未对其进行修改，则模型接收其未改变的逻辑形式，该步骤引入人机交互，利用人类的思维能力校准与修正其逻辑形式，加强对中间逻辑形式与反馈问答结果的质量保证。

以下结合具体实施例对本发明的具体实现进行详细描述。

实施例1

如图1－图3所示，在本发明实施例1中，提供了基于思维链及可视化提升上下文学习知识库问答方法，该问答方法包括以下步骤：

步骤S10：获取用户输入的需查询问题，在知识库中检索与所述需查询问题相似的示例；

步骤S20：对所述相似的示例和所述需查询问题一并利用思维链产生逻辑推理过程；

步骤S30：利用CodeGeex2模型学习所述逻辑推理过程后，生成需查询问题的逻辑形式，输出所述逻辑形式以及与所述逻辑形式对应的自然语言；

步骤S40：基于所述用户对输出结果与输入查询逻辑的一致性判断，利用勘误后的逻辑形式在知识库中对需查询问题进行知识抽取、实体绑定与关系绑定，利用多数票策略来确定答案，并将答案输出给用户。

其中，所述基于所述用户对输出结果与输入查询逻辑的一致性判断的步骤包括：基于所述逻辑形式对应的自然语言和所述用户输入的需查询内容二者的逻辑差异，响应于所述用户根据逻辑差异对所述逻辑形式进行的修改与校正，将所述修改与校正后的逻辑形式作为勘误后的逻辑形式并输出。

具体的，用户输入需查询的问题，模型对于该问题在知识库中检索相似的示例，并对示例和问题一并利用思维链产生逻辑推理过程，再利用CodeGeex2模型学习推理过程后生成待查询问题的逻辑形式，将其对应的自然语言输出，让用户判断是否与输入查询的逻辑一致，利用勘误后的逻辑形式在知识库中对查询问题进行知识抽取、实体绑定与关系绑定，并利用多数票策略来决定最后回答给用户的答案。

其中，所述在知识库中检索与所述需查询问题相似的示例的步骤包括：对用户输入查询的自然语言使用Skip-Gram模型进行词向量编码，并利用OpenMatch-v2检索器进行检索，检索选出与输入查询相关的示例对、/>...../>。

在知识库中，问题与答案是以（问题--答案）对的形式存储的；这里的（x1, y1),(x2, y2)...就是表示选出的问题和答案对，其中，x是知识库中选出的问题，y是这个问题对应的答案。

另外，下文的qi相当于示例对中的x,Pt相当于示例对中的y；

进一步的，在本发明实施例中，所述利用CodeGeex2模型学习所述逻辑推理过程后，生成需查询问题的逻辑形式，输出所述逻辑形式以及与所述逻辑形式对应的自然语言的步骤包括：

在大预言模型CodeGeex2学习并生成逻辑形式模板时，在其加入思维链，在用户端显示模型理解即推理问题的思维过程，将其中间过程保留；

利用大预言模型CodeGeex2的上下文学习能力，为检索器检索的示例问题x生成逻辑形式模板。这些示例问题将以〈问题，逻辑形式〉对的形式显示给CodeGeex2；

原始的逻辑形式以机器标识符的形式呈现，由于其难以解释和模仿，我们用实体名称替代其逻辑形式中的机器标识符。

对于模型CodeGeex2生成的以机器标识符形式存在的模板，将其一一还原为对应的自然语言，并输出在显示器上。

进一步的，所述在知识库中对需查询问题进行知识抽取、实体绑定与关系绑定，利用多数票策略来确定答案的步骤包括：

模板生成的初步关系可能不存在于知识库中，但它们的格式和语义仍应与真实存在的关系类似。基于检索到的示例对，利用每一个示例对样例与原始查询一起作为搜索查询，从整个知识库中整合检索出最相似的项目。我们保留关系相似度较高的前k个项目，并筛选掉不符合约束关系的其余项目。对于每个机器标识符组成的逻辑形式，我们遍历所有的k个保留下来的关系候选项；

对于相关的逻辑形式和它们相应的答案，我们将这些项目重复执行n次，并采用多数票策略来决定最终的答案。

其中，所述异构知识库是知识库中的一种，知识库是一种总称，异构知识库是指由多种不同类型的数据和信息组成的知识库，这些数据和信息可能来自不同的源，有不同的格式和结构，但都被整合在一起，以便用户可以从一个单一的接口进行访问；异构知识库可以包括各种类型的数据，如文本、图像、音频、视频等。

所述显示世界中的同一类实体指的是在某种特定上下文或视角下被归类为相同类型或类别的实体；例如，在一个关于动物的知识库中，所有的猫可能被视为显示世界中的同一类实体。

在本发明实施例中，所述多跳规则约束是指在回答复杂问题时，需要通过多个步骤或跳跃来获取答案，这些跳跃可能涉及在知识库中沿着多个关系路径进行导航，或者需要满足一些特定的约束条件；例如，考虑一个问题：“成龙主演的电影的导演是谁？”为了回答这个问题，我们首先需要找到所有成龙主演的电影（第一跳），然后对于每部电影，我们需要找到它的导演（第二跳），这就是一个典型的多跳问题。

具体的，本发明实施例1提供的问答方法中，对用户输入的自然语言使用 Skip-Gram 模型进行词向量编码，Skip-Gram 是一种无监督学习算法，用于从大量文本语料中学习单词的表示，它是Word2Vec模型的一种，旨在通过给定输入单词来预测上下文单词，Skip-Gram 模型使用一个长度为2c+1的滑动窗口，在语料库中滑动，每次滑动后，窗口内的2c+1个单词都会用于模型的训练。

对于用户输入的查询，用OpenMatch-v2检索器进行检索，选出与输入查询相关的示例对、/>...../>，这些示例将作为生成逻辑形式的典范。

进一步的，以思维链显示模型推导过程中，在大预言模型CodeGeex2学习并生成逻辑形式模板时，在其加入思维链，在用户端显示模型理解即推理问题的思维过程，将其中间过程保留。模型能够学习其中的逻辑模式，在对于用户输入的问题生成逻辑形式时会有所增益。

进一步的，利用大预言模型CodeGeex2的上下文学习能力，为检索器检索的示例问题生成逻辑形式模板。这些示例问题将以〈问题，逻辑形式〉对的形式显示给CodeGeex2，原始的逻辑形式以机器标识符的形式呈现，由于其难以解释和模仿，我们用实体名称替代其逻辑形式中的机器标识符。

进一步的，在模板可视化与用户交互中，对于模型CodeGeex2生成的以机器标识符形式存在的模板，将其一一还原为对应的自然语言，并输出在显示器上，用户可以直观通过自然语言了解并比对其输入的问题之间的逻辑相似度与差异，选择是否对其进行修改与校正。

在知识抽取中，抽取用户查询中的实体、实体关系以及实体属性，并进行实体对齐，使其对于异构知识库中的实体，找出属于显示世界中的同一类实体。可用联合抽取方法实现。

在实体链接中，依据抽取出的实体在知识库中进行模糊搜索，得到候选实体，根据候选实体和用户查询问句在符号层面（如最长公共字符串等）的相似性，以及相应多跳规则约束，对候选实体进行进一步的筛选，得到查询的实体链接结果。

在关系绑定中，模板生成的初步关系可能不存在于知识库中，但它们的格式和语义仍应与真实存在的关系类似；利用检索到的提示演示，利用每一个演示与原始查询一起作为搜索查询，从整个知识库中整合检索出最相似的项目；我们保留关系相似度较高的前k个项目，并筛选掉不符合约束关系的其余项目；对于每个机器标识符组成的逻辑形式，我们遍历所有的k个保留下来的关系候选项。

在排序候选中，对于相关的逻辑形式和它们相应的答案，我们将这些项目重复执行n次，并采用多数票策略来决定最终的答案。

使用双编码器框架来训练密集检索模型：

对来自预训练的语言模型初始化编码器：让知识库中随机对示例对成为训练集，其中/>是输入问题，/>是与问题语义相关的段落。

我们将问题和段落/>输入T5编码器，并将编码器的均值池作为输出，从而将问题和段落编码成 Em-beddings 在所有的实验中，我们将输出嵌入层的大小固定为768；

使用批量采样softmax loss来训练模型，其损失函数计算如下：

其中，在softmax函数的公式中，/>是一个索引，表示对所有可能的类别进行求和，具体来说，如果我们有C个类别，那么/>就会从1遍历到C；这样，我们就可以计算出所有类别的指数函数值的总和，然后用每个类别的指数函数值除以这个总和，得到每个类别的预测概率；

相似性评分函数是/>和/>的入之间的余弦相似性；/>是迷你批次的示例，/>是softmax温度，对于输入问题/>，可以给出额外的否定词/>，计算损失时，会将它们计入分母：

通常代表负样本或者称为负例，负样本/>通常指的是与我们预测目标不符的样本。

在训练模型时，我们通常有正样本和负样本/>，正样本是我们希望模型学习的目标，而负样本则是我们希望模型避免学习的，在计算损失函数时，正样本和负样本都会被考虑进去，以帮助模型更好地进行学习和优化。

进一步的，使用双向批量采样软性最大损失法：

计算问题到文档匹配和文档到问题匹配的损失；

采样方法的基本目标时求解某个函数在某个特定概率/>的期望值；

即；

但的维度可能非常高，因此期望值是非常难求的；一个非常自然的想法是，从概率分布/>中采样个点，组成样本集合/>；

值得注意的是，这些点的统计属性服从概率分布；

然后，可以粗略的估计的期望值，即为：

具体的，T5是一个文本到文本的转换器，它将所有的NLP问题转换为文本到文本的格式。它是一个编码器-解码器模型，可以直接应用于各种任务，例如翻译、摘要、语法可接受性分类和语义相似度等；T5通过为每个任务对应的输入添加不同的前缀来实现这一点。

进一步的，在本发明实施例1中，所述利用大预言模型CodeGeex2的上下文学习能力，为检索器检索的示例问题生成逻辑形式模板。这些示例问题将以〈问题，逻辑形式〉对的形式显示给CodeGeex2的步骤包括：

生成预训练目标：

通过采用GPT范式，在大量无标记代码数据上训练模型；

其原理是迭代地将代码标记作为输入，预测下一个标记，并将其与地面实况进行比较，具体来说，对于任何长度为n的输入序列，此处的/>指输入长序列中的一个词或一个字符；CodeGeeX2的输出是下一个标记的概率分布：

其中，/>代表模型的所有参数，/>代表词汇量，通过将其与真实分布进行比较，我们可以优化累积交叉熵损失：，其中，大N为总类别数，这意味着，如果我们有一个分类问题，其中有N个可能的类别或标签，所述真实分布为真实标记的单击向量；

顶部查询层：

解码生成模板：

在解码策略方面，CodeGeeX2支持贪婪、温度采样、top-k采样、top-p采样和波束搜索；对于所查询到的top-k层输出，将其解码为机器标识符（MID)，即用来标记某个实体的标识符。为了便于解释和模仿，将实体名称替代其标识符名称；

进一步的，所述利用联合抽取方法抽取用户查询中的实体、实体关系以及实体属性，并进行实体对齐，使其对于异构知识库中的实体，找出属于显示世界中的同一类实体的步骤包括实体抽取、关系抽取和事件抽取；

所述实体抽取包括：

分词：将文本分割成一个个单独的词语；

词性标注：确定每个词语的词性，如名词、动词、形容词等；

命名实体识别：在分词和词性标注的基础上，通过模型或规则来识别文本中的命名实体。

实体分类：对于已经识别出来的命名实体，进行分类，如人名、地名、组织机构名等；

所述关系抽取包括：

关系抽取的具体步骤是：输入条子文本，先用实体抽取器识别出其中的各个实体，然后对抽取出来的实体每两个进行组合再加上原文本句子作为关系识别器的输入进行两输入实体间的关系识别；关系抽取的主要任务就是，给定一段句子文本抽取句子中的两个实体以及实体之间的关系，以此来构成一个二元组（s,p,o），s是subject表示主实体，o为object表示客实体，p为predicate表示两实体间的关系；

所述事件抽取包括：

表示训练样本，如在基于特征的方法中提取和构建特征向量；

在基于特征的方法中构建特征向量；

选择分类器并训练模型，优化模型参数；

使用训练好的模型从未标明的数据中提取事件实例。

所述依据抽取出的实体在知识库中进行模糊搜索，得到候选实体，根据候选实体和用户查询问句在符号层面的相似性，以及相应多跳规则约束，对候选实体进行进一步的筛选，得到查询的实体链接结果的步骤包括构建同义词表、构建缩写全称映射表、构建别名词表、基于编辑距离召回实体和基于词向量相似性召回实体；其中：

所述构建同义词表包括：

利用已有知识库，利用已有的知识库，如同义词词典、知识图谱等，作为挖掘种子；

所述构建缩写全称映射表包括：

对于人名，名字扩展成为全称，例如Brown扩展成John Brown；

对于大写缩写，可根据库中实体核对首字母，例如：IBM扩展成InternationalBrotherhood of Magicians；

对于地名，可根据地名表扩展，例如：US扩展为United States；

所述基于编辑距离召回实体包括：

预处理：从知识库中收集所有实体及其同义词；

然后，对实体进行预处理。然后，对实体和同义词进行预处理，删除停顿词、标点符号和特殊字符；

标记化：将输入的查询词标记为单词；

编辑距离计算：计算实体/同义词之间的编辑距离；

编辑距离的计算方法采用Jaro-Winkler距离算法；

排序：根据编辑距离得分对实体/同义词进行排序；

筛选：筛选出编辑距离得分超过一定阈值的实体/同义词；

输出：根据编辑距离得分，返回前k个实体/同义词的编辑距离得分。

所述基于词向量相似性召回实体包括：

需要使用词向量模型来训练词向量。将每个词语映射到一个高维空间中的一个向量，这个向量能够捕捉到词语之间的语义关系；

在获得了词向量之后，使用它们来计算词语之间的相似度；

当我们需要召回与某个实体相关的其他实体时，计算这个实体对应的词语与语料库中所有其他词语的相似度，然后选择相似度最高的若干个词语作为召回结果。

综上所述，本发明在模型生成逻辑形式前引入思考链，利用符号内存提高大语言模型的复杂问题多跳推理能力，先针对示例用思维链进行推理回答，再利用模型来生成逻辑形式的模板，利用思维链能够进行的答案推理与错误分析能力提高对于生成模板的准确性；本发明还将检索器检索到的示例及语言模型生成的逻辑形式及其对应的自然语言输出在显示器上，使用户能够直接地进行观测，并选择是否对生成的逻辑形式进行勘误与修改，模型接收用户编辑后的逻辑形式，若用户未对其进行修改，则模型接收其未改变的逻辑形式，该步骤引入人机交互，利用人类的思维能力校准与修正其逻辑形式，加强对中间逻辑形式与反馈问答结果的质量保证。

实施例2

如图4所示，本发明实施例2中，本发明还提供了基于思维链及可视化提升上下文学习知识库问答系统，所述的知识库问答系统50包括：

问题获取模块51，用于获取用户输入的需查询问题；

示例检索模块52，用于在知识库中检索与所述需查询问题相似的示例；

逻辑推理模块53，用于对所述相似的示例和所述需查询问题一并利用思维链产生逻辑推理过程；

逻辑生成模块54，用于利用CodeGeex2模型学习所述逻辑推理过程后，生成需查询问题的逻辑形式，输出所述逻辑形式以及与所述逻辑形式对应的自然语言；

逻辑判断模块55，用于基于所述用户对输出结果与输入查询逻辑的一致性判断，利用勘误后的逻辑形式在知识库中对需查询问题进行知识抽取、实体绑定与关系绑定；

信息输出模块56，用于利用多数票策略来确定答案，并将答案输出给用户。

本发明的基于思维链及可视化提升上下文学习知识库问答系统在知识库问答领域具有广泛的应用前景，能够显著提高知识库问答的效率和可靠性。

实施例3

如图5所示，在本发明实施例3中，还提供了一种计算机设备，所述计算机设备60包括存储器61、处理器62和通讯接口63，该存储器61中存储有计算机程序，该计算机程序被该处理器62执行时实现上述任意一项实施例的方法。

在该计算机设备中包括一个处理器以及一个存储器，并还可以包括：输入系统和输出系统。处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接，输入系统可接收输入的数字或字符信息，以及产生与基于思维链及可视化提升上下文学习知识库问答有关的信号输入。输出系统可包括显示屏等显示设备。

存储器作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于思维链及可视化提升上下文学习知识库问答方法对应的程序指令/模块。存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储基于思维链及可视化提升上下文学习知识库问答方法的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器在一些实施例中可以是中央处理器（Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中，处理器用于运行存储器中存储的程序代码或者处理数据。本实施例计算机设备的多个计算机设备的处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的基于思维链及可视化提升上下文学习知识库问答方法的步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

最后需要说明的是，本文的计算机可读存储介质（例如，存储器）可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦写可编程ROM（EEPROM）或快闪存储器。易失性存储器可以包括随机存取存储器（RAM），该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM 可以以多种形式获得，比如同步RAM（DRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据速率SDRAM（DDRSDRAM）、增强SDRAM（ESDRAM）、同步链路DRAM（SLDRAM）、以及直接Rambus RAM（DRRAM）。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行：通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围（包括权利要求）被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.基于思维链及可视化提升上下文学习知识库问答方法，其特征在于，所述方法包括以下步骤：

获取所述用户勘误后的逻辑形式，在所述知识库中对需查询问题进行知识抽取、实体绑定与关系绑定，利用多数票策略来确定需查询问题的答案，并将所述答案输出给用户；

所述勘误后的逻辑形式的获取方式包括：

基于所述逻辑形式对应的自然语言和所述用户输入的需查询内容二者的逻辑差异，响应于所述用户根据逻辑差异对所述逻辑形式进行的修改与校正，将所述修改与校正后的逻辑形式作为勘误后的逻辑形式并输出；

所述获取用户输入的需查询问题，在知识库中检索与所述需查询问题相似的示例的步骤包括：对用户输入查询的自然语言使用Skip-Gram模型进行词向量编码，并利用OpenMatch-v2检索器进行检索，检索选出与输入查询问题相关的示例对、/>...../>，其中，/>表示知识库中选出的问题，/>表示问题/>所对应的答案；

所述利用CodeGeex2模型学习所述逻辑推理过程后，生成需查询问题的逻辑形式的步骤包括：利用大预言模型CodeGeex2的上下文学习能力，为检索器检索的示例问题生成逻辑形式模板，利用实体名称替代逻辑形式中的机器标识符；

将模型CodeGeex2生成的以机器标识符形式存在的模板一一还原为对应的自然语言，并向用户输出所述逻辑形式以及与所述逻辑形式对应的自然语言；

所述在知识库中对需查询问题进行实体抽取、实体绑定与关系绑定，利用多数票策略来确定需查询问题的答案的步骤包括：

基于检索到的示例对，利用每一个示例对样例与原始查询一起作为搜索查询，从整个知识库中整合检索出最相似的项目；保留关系相似度较高的前k个项目，并筛选掉不符合约束关系的其余项目；对于每个机器标识符组成的逻辑形式，遍历所有的k个保留下来的关系候选项；

2.根据权利要求1所述的基于思维链及可视化提升上下文学习知识库问答方法，其特征在于，所述利用OpenMatch-v2检索器进行检索，检索选出与输入查询相关的示例对的步骤包括：

使用双编码器框架来训练密集检索模型：

使用批量采样softmax loss来训练模型，其损失函数计算如下：

其中，j是一个索引，表示对所有可能的类别进行求和；相似性评分函数/>是/>和/>的入之间的余弦相似性；/>是迷你批次的示例，/>是softmax温度，对于输入问题/>，可以给出额外的否定词/>，计算损失时，将它们计入分母：

其中，负样本/>指的是与预测目标不符的样本；

使用双向批量采样软性最大损失法：

计算问题到文档匹配和文档到问题匹配的损失；

即；

从概率分布中采样个点，组成样本集合/>；

这些点的统计属性服从概率分布；

然后估计的期望值，即为：

。

3.根据权利要求1所述的基于思维链及可视化提升上下文学习知识库问答方法，其特征在于，所述利用大预言模型CodeGeex2的上下文学习能力，为检索器检索的示例问题生成逻辑形式模板，利用实体名称替代逻辑形式中的机器标识符的步骤包括：

生成预训练目标：

通过采用GPT范式，在大量无标记代码数据上训练模型；

迭代地将代码标记作为输入，预测下一个标记，并将其与地面实况进行比较，对于任何长度为n的输入序列，x指输入长序列中的一个词或一个字符，CodeGeeX2的输出是下一个标记的概率分布，其中，/>代表模型的所有参数，/>代表词汇量，通过将其与真实分布进行比较，优化累积交叉熵损失：，其中，大N为总类别数，所述真实分布为真实标记的单击向量/>；

顶部查询层：

解码生成模板：

对于所查询到的top-k层输出，将其解码为机器标识符，用来标记某个实体的标识符，将实体名称替代其标识符名称。

4.根据权利要求1所述的基于思维链及可视化提升上下文学习知识库问答方法，其特征在于，所述利用联合抽取方法抽取用户查询中的实体、实体关系以及实体属性，并进行实体对齐，使其对于异构知识库中的实体，找出属于显示世界中的同一类实体的步骤包括实体抽取、关系抽取和事件抽取；

所述实体抽取包括：

分词：将文本分割成一个个单独的词语；

词性标注：确定每个词语的词性；

实体分类：对于已经识别出来的命名实体，进行分类；

所述关系抽取包括：

所述事件抽取包括：

表示训练样本，在基于特征的方法中提取和构建特征向量；

选择分类器并训练模型，优化模型参数；

使用训练好的模型从未标明的数据中提取事件实体。

5.根据权利要求4所述的基于思维链及可视化提升上下文学习知识库问答方法，其特征在于，所述依据抽取出的实体在知识库中进行模糊搜索，得到候选实体，根据候选实体和用户查询问句在符号层面的相似性，以及相应多跳规则约束，对候选实体进行进一步的筛选，得到查询的实体链接结果的步骤包括构建同义词表、构建缩写全称映射表、构建别名词表、基于编辑距离召回实体和基于词向量相似性召回实体；其中：

所述构建同义词表包括：

所述构建缩写全称映射表包括：对于人名，名字扩展成为全称；对于大写缩写，根据库中实体核对首字母；对于地名，根据地名表扩展；

所述基于编辑距离召回实体包括：

标记化：将输入的查询词标记为单词；

排序：根据编辑距离得分对实体/同义词进行排序；

筛选：筛选出编辑距离得分超过一定阈值的实体/同义词；

所述基于词向量相似性召回实体包括：