CN116775847A

CN116775847A - 一种基于知识图谱和大语言模型的问答方法和系统

Info

Publication number: CN116775847A
Application number: CN202311040643.4A
Authority: CN
Inventors: 张昊; 岳一峰; 范嘉薇; 任祥辉
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-09-19
Anticipated expiration: 2043-08-18
Also published as: CN116775847B

Abstract

本发明属于自然语言处理技术领域，提供一种基于知识图谱和大语言模型的问答方法和系统。该方法包括：接收待处理情报问题，进行实体特征抽取，得到初始特征实体；在向量数据库进行向量空间查找，确定扩展实体；基于初始特征实体查询自建立的图数据库，构建查询辅助信息，以生成初始中间答案；判断初始中间答案是否出现新实体，以确定是否执行下一轮实体特征抽取，每执行一轮实体特征抽取，生成一个中间答案，直到确定中间答案中未出现新实体为止；对经一轮或多轮实体特征抽取所有中间答案进行去重融合，以得到所述待处理情报问题相匹配的最终答案。本发明能够从海量的答案文本中高效地抽取和利用知识，能够为用户提供准确、完整、有效的答案。

Description

一种基于知识图谱和大语言模型的问答方法和系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于知识图谱和大语言模型的问答方法和系统。

背景技术

现有技术中，单纯使用大语言模型，模型中的信息通常是以非结构化的方式存在，难以进行有效的组织和查询。无法将信息进行结构化表示，也无法将信息进行连接和整合，甚至无法解决信息碎片化的问题。

此外，传统基于知识图谱中的问答系统往往缺乏对上下文的理解能力，无法根据上下文信息进行准确的回答。而基于大语言模型的系统可通过对上下文的建模和语义理解，实现对上下文的感知和理解，从而提供更准确和连贯的回答。此外，仅使用大语言模型还面临着知识更新和扩展的困难，难以跟上知识的更新和变化，无法基于快速迭代的领域知识进行关联性回答，无法提供知识上下文以形成更加专业有效的答案。

因此，有必要提供一种基于知识图谱和大语言模型的问答方法，以解决上述问题。

发明内容

本发明意在提供一种基于知识图谱和大语言模型的问答方法和系统，以解决现有技术中现有模型无法基于快速迭代的领域知识进行关联性回答，无法实时更新知识、支持知识间关联的特性，无法提供知识上下文信息以形成更加专业有效的答案等的技术问题，本发明要解决的技术问题通过以下技术方案来实现。

本发明第一方面提出一种基于知识图谱和大语言模型的问答方法，包括：采用历史科技情报信息数据进行实体及实体关系抽取来构建情报知识图谱，以建立图数据库；接收待处理情报问题，并对所述待处理情报问题进行实体特征抽取，得到初始特征实体；在向量数据库进行向量空间查找，以确定与所抽取的初始特征实体相似的扩展实体；基于所抽取的初始特征实体查询自建立的图数据库，构建查询辅助信息，以生成初始中间答案；判断初始中间答案是否出现新实体，以确定是否执行下一轮实体特征抽取，每执行一轮实体特征抽取，生成一个中间答案，直到确定中间答案中未出现新实体为止；对经一轮或多轮实体特征抽取所生成的所有中间答案进行去重融合，以得到所述待处理情报问题相匹配的最终答案。

根据可选的实施方式，所述判断初始中间答案是否出现新实体，以确定是否执行下一轮实体特征抽取，包括：在判断初始中间答案出现新实体时，利用pagerank算法，计算所出现的新实体在初始中间答案中的关键度；在所计算的新实体在初始中间答案中的关键度大于预定阈值时，根据新实体与初始特征实体之间的关系，进行关系检索；在所计算的新实体在初始中间答案中的关键度小于等于预定阈值时，将待处理情报问题继续生成带有上下文信息的问题，以生成中间答案，具体包括：将新实体及其上下文信息传递给辅助信息生成模版，采用辅助信息生成模版生成辅助信息，以生成中间答案。

根据可选的实施方式，基于LoRA算法微调和基于Transformer架构形成的大语言模型，构建问答预测模型；采用辅助信息生成模版，使用初始特征实体及相关实体生成辅助信息，将所生成的辅助信息和待处理情报问题作为输入数据，输入所构建的问答预测模型，得到中间答案。

根据可选的实施方式，所述每执行一轮实体特征抽取，生成一个中间答案，直到确定中间答案中未出现新实体为止，包括：在确定中间答案中未出现新实体时，停止实体特征抽取，使用摘要生成算法对所生成的所有中间答案进行去除重复处理，并进行文本总结得到最终答案。

根据可选的实施方式，进一步包括：根据历史情报信息文本，构建知识库；基于知识库进行实体间关系抽取，形成情报实体关系三元组，以建立情报知识图谱。

根据可选的实施方式，进一步包括：将知识库中的各实体转换为实体特征向量，采用实体标识建立各实体与及各自对应的实体向量之间的映射关系，以建立向量数据库。

根据可选的实施方式，采用局部敏感哈希算法，建立向量数据库，具体包括执行以下步骤：对历史情报信息相关实体以及所建立的情报信息知识图谱中实体所转换得到的向量数据进行预处理操作，该预处理操作包括标准化、归一化；根据预处理后的实体向量数据，构建多个哈希函数，所述多个哈希函数将实体向量数据映射到一个或多个哈希桶中，以得到一个或多个哈希桶集合。

根据可选的实施方式，所述在向量数据库中进行向量空间查找，以确定与所抽取的初始特征实体相似的扩展实体，包括：将所抽取的初始特征实体转换成初始特征向量；在向量数据库中进行向量空间查找与初始特征向量的相似度大于指定值的向量数据，以确定初始特征实体的扩展实体。

根据可选的实施方式，进一步包括：根据所确定的扩展实体，在图数据库中进行检索查找，确定与扩展实体最相关的目标实体；采用辅助信息生成模版，使用扩展实体、目标实体生成辅助信息，以生成中间答案。

本发明第二方面提供一种基于知识图谱和大语言模型的问答系统，包括：接收处理模块，接收待处理情报问题，并对所述待处理情报问题进行实体特征抽取，得到初始特征实体；查找确定模块，在向量数据库进行向量空间查找，以确定与所抽取的初始特征实体相似的扩展实体；构建生成模块，基于所抽取的初始特征实体查询自建立的图数据库，构建查询辅助信息，以生成初始中间答案；判断确定模块，判断初始中间答案是否出现新实体，以确定是否执行下一轮实体特征抽取，每执行一轮实体特征抽取，生成一个中间答案，直到确定中间答案中未出现新实体为止；去重融合模块，对经一轮或多轮实体特征抽取所生成的所有中间答案进行去重融合，以得到所述待处理情报问题相匹配的最终答案。

本发明实施例包括以下优点：

与现有技术相比，本发明通过对待处理情报问题进行实体识别、实体特征化，采用图数据库和向量数据库配合查询，具体通过向量空间查找，配合自构建的情报知识图谱的节点查询及重要度计算，利用辅助信息生成模版生成辅助信息，以生成中间答案；通过对经一轮或多轮实体特征抽取所生成的所有中间答案进行去重融合，以得到所述待处理情报问题相匹配的最终答案，通过去重和文本融合，能够从海量的答案文本中高效地抽取和利用知识，能够为用户提供准确、完整、有效的答案。

此外，在确定中间答案中未出现新实体时，停止实体特征抽取，使用摘要生成算法对所生成的所有中间答案进行去除重复处理，并进行文本总结得到最终答案，能够得到更准确、更有效的答案。

附图说明

图1是本发明的基于知识图谱和大语言模型的问答方法的一示例的步骤流程图；

图2是本发明的基于知识图谱和大语言模型的问答方法中建立向量数据库的流程示意图；

图3是本发明的基于知识图谱和大语言模型的问答方法中在向量数据库中进行向量空间查找的流程示意图；

图4是根据本发明的基于知识图谱和大语言模型的问答系统的一示例的结构示意图；

图5是根据本发明的电子设备实施例的结构示意图；

图6是根据本发明的计算机可读介质实施例的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

鉴于上述问题，本发明提出一种基于知识图谱和大语言模型的问答方法，该方法通过对待处理情报问题进行实体识别、实体特征化、向量空间查找、文本融合、关键程度计算、采用图数据库和向量数据库配合查询等多处理过程。能够从海量的文本中高效地抽取和利用知识，能够为用户提供准确、完整的答案。

下面参照图1至图3，将对本发明的内容进行详细说明。

图1是本发明的基于知识图谱和大语言模型的问答方法的一示例的步骤流程图。

接下来，在步骤S101中，接收待处理情报问题，并对所述待处理情报问题进行实体特征抽取，得到初始特征实体。

在一具体实施方式中，待处理情报问题例如为“A舰在*国战略体系中的作用？”

具体地，对所述待处理情报问题“A舰在*国战略体系中的作用？”进行实体特征抽取，得到初始特征实体，例如“A舰”、“*国”、“战略体系”。

具体将待处理情报问题中的实体进行识别和特征化。实体识别的目标是从文本中找出具有特定含义的实体，例如人物、地点、组织等。利用自然语言处理技术，如命名实体识别算法，来识别待处理情报问题中的实体。实体特征化则是将识别出的实体转化为机器可理解的向量表示，以便后续处理使用。利用词向量模型（Bert模型，或者还可以使用的大语言模型的语义转换基座）对所识别处的实体进行向量化表示。

需要说明的是，上述仅作为可选示例进行说明，不能理解成对本发明的限制。

接下来，在步骤S102中，在向量数据库进行向量空间查找，以确定与所抽取的初始特征实体相似的扩展实体。

在一具体实施方式中，根据历史情报信息文本，构建知识库。

具体地，基于知识库进行实体识别、实体间关系抽取，形成情报实体关系三元组，以建立情报知识图谱，具体情报知识图谱中相关内容见下表1。

表1

对于历史情报信息文本，例如情报知识来源的原始文本，用户针对某个实体对象提出的问题，进行实体识别。具体识别实体（例如人名、地名、等名词）在历史情报信息文本中的定位，并取出该token对应的embedding向量作为该实体的特征向量。

本发明为了提升知识构建与回答中的模型一致性，例如都使用大语言模型进行实体识别，并通过大语言模型抽取对应的特征向量，或者转换成指定维度的特征向量。

在一具体实施方式中，从历史情报信息文本中抽取实体、实体之间的关系，并将其表示为三元组形式。这些实体关系三元组（如“A母舰”—“隶属”—“*国海军”，以用于构建情报知识图谱。

具体地，优化微调一个通用大语言模型得到问答预测模型，使用准备好的实体识别业务标注数据（标注文档参数标签或类别标签的数据，利用收集到的科技新闻、科技报告、技术文档等，标注出文本中的科技文本摘要、技术趋势预测、技术文档参数、政策内容信息），将问答预测模型进行微调后，得到最终的问答预测模型。在知识抽取阶段，使用微调后的问答预测模型对历史情报信息文本进行实体识别或实体抽取。

需要说明的是，对于实体关系抽取，利用所抽取得到的实体，在对实体对进行关系分类，从而找出spo三元组，例如使用管道模型（Pipeline）找到spo三元组。管道模型把实体关系抽取分成两个子任务，实体识别和关系分类，两个子任务按照顺序依次执行，它们之间没有交互，是相互独立的。此外，本发明使用的指针网络采用了两个标签序列或者多个标签序列（即多层label网络），一个表示实体的起始位置，另一个表示实体的结束位置。在解码时使用Sigmoid代替Softmax，预测每个token对应的标签是0还是1。由于指针网络的表达能力较强，可以很好地解决实体关系重叠等问题。

例如，通过多层label网络，确定各实体的类型和各实体在历史情报信息文本中的位置；对于每个识别出的实体，抽取其上下文信息，如周围词语、句法结构等，并将其转化为特征向量。使用模型的隐藏状态或其他方法来表示实体的特征；将实体的特征向量存储在向量数据库中，以便后续的查询和检索。

接着，将知识库中的各实体转换为各自对应的实体特征向量，采用实体标识（例如实体ID、存储索引等）建立各实体与及各自对应的实体向量之间的映射关系，以建立向量数据库。

优选地，将向量数据库中的实体标识（例如实体ID、存储索引等）作为附加信息存储到知识库中的对应实体，以用于构建情报知识图谱，即情报知识图谱中实体节点包括实体特征向量、附加信息。

对于建立向量数据库，采用局部敏感哈希算法，建立向量数据库，如图2所示，具体包括执行以下步骤。

步骤S201：对历史情报信息相关实体以及所建立的情报信息知识图谱中实体所转换得到的向量数据进行预处理操作，该预处理操作包括标准化、归一化。例如将各实体的向量转换成相同格式、相同维度。

步骤S202：根据预处理后的实体向量数据，构建多个哈希函数，所述多个哈希函数将实体向量数据映射到一个或多个哈希桶中，以得到一个或多个哈希桶集合；通过建立多个向量的哈希桶，可在进行向量检索时减少查找空间提升效率。每个向量的哈希桶用于存储。向量存储使用局部敏感哈希算法，其基本思路是让相邻的点落入同一个“桶”中，在进行最近邻搜索时，只需要在一个桶，或者相邻的几个桶内进行搜索。具体是使用一个哈希函数将数据从原空间映射到一个新的空间中，使得在原空间相似（距离近）的数据，在新的空间中也相似的概率很大，而在原空间不相似（距离远）的数据，在新的空间中相似的概率很小。因为哈希映射过程损失了部分的距离信息，如果只使用一个哈希函数进行分桶，则会存在相似点误判的情况，解决的方式是采用多个哈希函数同时进行分桶，同时掉进这些个哈希函数同一个桶中的两个点，是相似点的概率则大大增加。通过分桶找到候选集合后，就可以在有限的候选集合中通过遍历的方法找到最近的数个近邻数据点。

接着，根据所建立的向量数据库和所构建的情报知识图谱来建立图数据库，具体将各实体、各实体对应的实体特征向量、附加信息、抽取出实体关系的原始文本都一起存储到图数据库对应的知识节点上。

基于所抽取的初始特征实体，在向量数据库中进行向量空间查找包括以下步骤，以确定与所抽取的初始特征实体相似的扩展实体。

在向量数据库存储数据建立索引时，会通过聚类算法选出几个中心点，当给定查询 q 时，算法能快速找到离 q 最近的 k 个中心点，之后只要从这k个中心点的相邻点搜索即可。

步骤S301：将所抽取的初始特征实体转换成初始特征向量。

步骤S302：基于初始特征向量，确定初始特征实体的扩展实体。

查找向量数据库在存储实体及实体特征向量时所建立的索引，通过聚类算法选出几个中心点，当给定查询 q 时，能快速找到离 q 最近的 k 个中心点，之后只要从这k各中心点的相邻点搜索即可。其中，给定查询q为初始特征向量，通过初始特征向量确定与初始特征向量的距离下小于特定值的一个或多个扩展实体。

进一步地，根据所确定的扩展实体，在图数据库中进行检索查找，确定与扩展实体最相关的目标实体，例如目标实体为a。

在一可选实施方式中，在向量数据库中进行向量空间查找与初始特征向量的相似度大于指定值的向量数据，以确定初始特征实体的扩展实体。

例如，初始特征实体“A舰”的初始特征向量为s，查找与初始向量s的相似度大于指定值的向量，确定初始特征实体“A舰”的扩展实体为实体a、实体a1和实体a2。

需要说明的是，图数据库提供了实体间关系的存储和查询功能，可根据实体之间的关系，找到相关的知识。向量数据库则提供了高效的向量查找功能，可根据向量的相似度，找到与目标实体（即初始特征实体、扩展实体）最相关的知识。使用如局部敏感哈希（LSH）等的近似最近邻算法进行向量查找。上述仅作为可选示例进行说明，不能理解成对本发明的限制。

接下来，在步骤S103中，基于所抽取的初始特征实体查询自建立的图数据库，构建查询辅助信息，以生成初始中间答案。

采用辅助信息生成模版，使用初始特征实体及相关实体生成辅助信息，将所生成的辅助信息和待处理情报问题作为输入数据，输入所构建的问答预测模型，得到中间答案。

具体地，采用辅助信息生成模版，使用初始特征实体、扩展实体、目标实体生成辅助信息，以生成中间答案。如将初始特征实体、扩展实体依据二者之间的关系根据抽取的模板设定（如关系：“A舰”、“*国”、关系“属于”）组成句子（“*国拥有A舰。”），并补充出原始文本的句子，作为提示prompt输入大模型中（构成的问题具体如下）。

接着，将初始特征实体、扩展实体、目标实体这些实体相关的文本和描述传递给Prompt，以构建一个包含上下文信息的Prompt模版（即辅助信息生成模版）。然后，将Prompt传递给问答预测模型，生成初始中间答案。

例如，辅助信息生成模版为以下模式：回答问题：{这里替换为从知识库中查询出来的相关知识文本}，问题是：{这里替换为用户提出的问题}。

需要说明的是，Prompt是一种模板化的问题模式，通过将实体插入到模板中，以生成与实体相关的问题和回答。

具体地，基于LoRA算法微调和基于Transformer架构形成的大语言模型，构建问答预测模型，以用于生成初始中间答案。LoRA 允许我们通过优化适应过程中密集层变化的秩分解矩阵，来间接训练神经网络中的一些密集层，同时保持预先训练的权重不变，从而降低训练模型适配相关任务带来的计算成本。

例如，使用类似chatgpt这种具有综合总结能力，且带有一定基础知识的生成式大语言模型。

接下来，在步骤S104中，判断初始中间答案是否出现新实体，以确定是否执行下一轮实体特征抽取，每执行一轮实体特征抽取，生成一个中间答案，直到确定中间答案中未出现新实体为止。

在判断初始中间答案出现新实体时，利用TextRank算法，计算所出现的新实体在初始中间答案中的关键度。

对中间答案对应的文本进行分词，将每个词作为一个节点。

基于各分词，将文本划分为词语的序列，以此构建词语共现网络。具体根据词语在该文本中的共现关系，构建一个词语共现网络。词语共现图是一个无向图，其中的节点表示词语，边表示词语之间的共现关系。词语之间的共现可以通过滑动窗口来定义，即在指定大小的窗口内，如果两个词语在文本中同时出现，则认为它们之间存在共现关系。该共现网络用于表示每个词语在上下文中的链接关系，既同一个词语在不同的上下文中出现，那么这个词语更为重要；通过构建出该词语共现网络，就可以使用下述的pagerank计算方式计算出每个词语的关键程度，自然就得到了需要计算的新实体在中间答案文本中的关键程度。

计算各实体对应的节点的出度和入度：对于每个节点，计算它的出度和入度。出度表示该实体（即该词）连接到其他词的数量，入度表示其他词连接到该词的数量。

构建转移矩阵，根据词语共现网络计算转移矩阵。该矩阵是一个二维方阵，表示需要计算的文本中所有词语两两之间的转移概率。转移概率计算如下：将上一步计算得到的出度、入度求和后进行归一化，既是计算每个节点的出度和入度之和，然后将每个节点的出边权重除以出度之和，得到归一化的转移概率；根据这个转移概率，对应填写到这个二维矩阵对应的词语位置中。其中每个元素表示从一个词语可以链接到另一个词语的概率。转移概率可使用各节点的出度和入度来计算。

进行PageRank迭代计算：使用PageRank算法对转移矩阵进行迭代计算，直到收敛为止。PageRank算法通过迭代计算每个节点的重要性分数，节点的重要性分数可表示为其他节点传递给该节点的概率之和。通过上述迭代计算，最终得到每个节点的PageRank分数，根据分数大小评估各节点对应的实体（即各词）在中间答案的文本中的重要程度。

具体采用以下表达式，计算所出现的新实体在初始中间答案中的关键度。

,

其中，PR(V)表示情报知识图谱中节点V的PageRank分数；d表示阻尼系数（范围为0到1，可选地，取值为0.85），T₁、T₂、…、T_n 表示连接到节点V的其他节点， C(T₁)、C(T₂)、…、C(T_n )表示节点T₁、T₂、…、T_n的出度，是该词连接到其他词的数量，其中n为正整数；PR(T₁)、PR(T₂)、…、PR(T_n )分别是情报知识图谱中节点T₁、T₂、…、T_n的PageRank分数。

需要说明的是，所计算的PageRank分数表示该词在中间答案的文本中的重要性，PageRank分数越高表示该词在中间答案的文本中的重要性越高。

在所计算的新实体在初始中间答案中的关键度大于预定阈值时，根据新实体与初始特征实体之间的关系，进行关系检索。具体依据新实体及其关联实体在情报知识图谱中进行查找，得到所需要的关系三元组信息，既是“新实体-关联关系-关联实体”，同时也会获取到该三元组对应的原始文本。

在所计算的新实体在初始中间答案中的关键度小于等于预定阈值时，将待处理情报问题继续生成带有上下文信息的问题，以生成中间答案。具体包括：将新实体及其上下文信息传递给辅助信息生成模版，采用辅助信息生成模版生成辅助信息，以生成中间答案。每执行一轮实体特征抽取，生成一个中间答案，直到确定中间答案中未出现新实体为止。所述中间答案包括初始中间答案、在生成初始中间答案之后的多个中间答案，具体包括第一中间答案、第二中间答案等等，中间答案的数量（使用h表示）与执行实体特征抽取的轮次（n）减一（即h=n-1）。

例如，如果新实体的关键程度值大于阈值，则将问题传递给关系检索模块，以。如果新实体的关键程度值小于等于阈值，则将待处理情报问题传递回Prompt，继续生成带有上下文的问题。最后，将通过关系检索或Prompt生成的问题传递给问题预测模型，生成最终的答案。

采用辅助信息生成模版，使用初始特征实体及相关实体（包括扩展实体中的目标实体、中间答案中出现的新实体）生成辅助信息，将所生成的辅助信息和待处理情报问题作为输入数据，输入所构建的问答预测模型，得到中间答案。

在确定中间答案中未出现新实体时，停止实体特征抽取，使用摘要生成算法对所生成的所有中间答案进行去除重复处理，并进行文本总结得到最终答案。

最终，根据查找结果包括知识三元组及原始文本，给出回答。回答可是从图数据库中获取的原始文本，也可以是通过文本生成技术生成的新的文本。回答的质量可以通过评估答案的准确性、完整性和可读性来进行评判。

接下来，在步骤S105中，对经一轮或多轮实体特征抽取所生成的所有中间答案进行去重融合，以得到所述待处理情报问题相匹配的最终答案。

在一具体实施方式中，经多轮实体特征抽取所生成的所有中间答案进行去重融合。具体使用摘要生成算法对所生成的所有中间答案进行去除重复处理，并进行文本总结得到最终答案。

具体地，在最终答案生成过程中，需要对上述所有中间回答进行融合和选择。所述融合是指将之前生成的多个中间答案进行整合，以提高回答的准确性和完整性。利用句法分析将中间回答进行短句拆分，以拆分成一个个最小语法单元（如“A母舰是*国海军隶下的一艘可以搭载固定翼飞机的航空母舰，也是*国第一艘服役的航空母舰。”拆分成“A母舰是*国海军隶下的”、“A母舰是一艘可以搭载固定翼飞机的航空母舰”、“A母舰是*国第一艘服役的航空母舰”）。

将多个回答拆分成小句之后，根据内容相似程度，将相同的句子放在一起进行自动摘要抽取出关键的部分，既首先根据句子之间的用词相似程度进行去重，然后，使用关键词计算的textrank计算出关键词筛选出包含关键词更多的句子。此外，还可以根据实体的关键程度进行筛选，以确保回答的重点与用户提问的相关度一致。

在最终答案生成过程中，根据新的实体和向量，通过在图数据库和向量数据库中进行查找，得到与问题相关的知识。系统会首先利用语言模型的信息抽取能力，定位用户提出问题中的核心实体（如提出“B舰在我国战略体系中的作用”中，会首先进行实体抽取“B舰”、“*国”），并使用同知识构建过程中相同的向量化方法，生成该关键实体的查询向量，使用向量空间模型来计算问题和知识库中的信息之间的相似度，以找到最相关的答案。

需要说明的是，上述仅作为可选示例进行说明，不能理解成对本发明的限制。此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明系统实施例，可以用于执行本发明方法实施例。对于本发明系统实施例中未披露的细节，请参照本发明方法实施例。

图4是根据本发明的基于知识图谱和大语言模型的问答系统的一示例的结构示意图。

如图4所示，本公开第二方面提供一种基于知识图谱和大语言模型的问答系统500，所述问答系统500包括接收处理模块510、查找确定模块520和构建生成模块530、判断确定模块540和去重融合模块540。

具体地，接收处理模块510用于接收待处理情报问题，并对所述待处理情报问题进行实体特征抽取，得到初始特征实体。查找确定模块520在向量数据库进行向量空间查找，以确定与所抽取的初始特征实体相似的扩展实体。构建生成模块530基于所抽取的初始特征实体查询自建立的图数据库，构建查询辅助信息，以生成初始中间答案。判断确定模块540用于判断初始中间答案是否出现新实体，以确定是否执行下一轮实体特征抽取，每执行一轮实体特征抽取，生成一个中间答案，直到确定中间答案中未出现新实体为止。去重融合模块550对经一轮或多轮实体特征抽取所生成的所有中间答案进行去重融合，以得到所述待处理情报问题相匹配的最终答案。

在一可选实施方式中，根据历史情报信息文本，构建知识库。基于知识库进行实体间关系抽取，形成情报实体关系三元组，以建立情报知识图谱。

将知识库中的各实体转换为实体特征向量，采用实体标识建立各实体与及各自对应的实体向量之间的映射关系，以建立向量数据库。

采用所构建的情报知识图谱和所建立的向量数据库来建立图数据库。

采用局部敏感哈希算法，建立向量数据库，具体包括执行以下步骤：

在一可选实施方式中，对历史情报信息相关实体以及所建立的情报信息知识图谱中实体所转换得到的向量数据进行预处理操作，该预处理操作包括标准化、归一化。

根据预处理后的实体向量数据，构建多个哈希函数，所述多个哈希函数将实体向量数据映射到一个或多个哈希桶中，以得到一个或多个哈希桶集合。

所述在向量数据库中进行向量空间查找，以确定与所抽取的初始特征实体相似的扩展实体，将所抽取的初始特征实体转换成初始特征向量。

在向量数据库中进行向量空间查找与初始特征向量的相似度大于指定值的向量数据，以确定初始特征实体的扩展实体。

根据所确定的扩展实体，在图数据库中进行检索查找，确定与扩展实体最相关的目标实体。

采用辅助信息生成模版，使用扩展实体、目标实体生成辅助信息，以生成中间答案。

具体地，基于LoRA算法微调和基于Transformer架构形成的大语言模型，构建问答预测模型。

具体地，所述每执行一轮实体特征抽取，生成一个中间答案，直到确定中间答案中未出现新实体为止，其中，在确定中间答案中未出现新实体时，停止实体特征抽取，进入下一步骤。

在一可选实施方式中，所述判断初始中间答案是否出现新实体，以确定是否执行下一轮实体特征抽取。

具体地，在判断初始中间答案出现新实体时，利用pagerank算法，计算所出现的新实体在初始中间答案中的关键度。

在所计算的新实体在初始中间答案中的关键度大于预定阈值时，根据新实体与初始特征实体之间的关系，进行关系检索。具体根据所出现的新实体和初始特征实体之间的查询关系，使用情报知识图谱和图数据库进行关系检索，以确定与查询关系相关的实体和文本。

在所计算的新实体在初始中间答案中的关键度小于等于预定阈值时，将待处理情报问题继续生成带有上下文信息的问题，以生成中间答案，具体包括：

将新实体及其上下文信息传递给辅助信息生成模版，采用辅助信息生成模版生成辅助信息，以生成中间答案。

在确定中间答案中未出现新实体时，停止实体特征抽取，以进入下一步骤。这时，使用摘要生成算法对所生成的所有中间答案进行去除重复处理，并进行文本总结得到最终答案。

需要说明的是，在该实施方式中，基于知识图谱和大语言模型的问答系统所执行的基于知识图谱和大语言模型的问答方法与图1中的基于知识图谱和大语言模型的问答方法大致相同，因此省略了相同部分的说明。

图5是根据本发明的电子设备实施例的结构示意图。

如图5所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元（RAM）和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元（ROM）。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图5所示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按钮、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图6所示，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干命令以使得一台计算设备（可以是个人计算机、服务器、或者网络设备等）执行根据本发明实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

上述计算机可读介质承载有一个或者多个程序（例如为计算机可执行程序），当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现本公开的方法。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干命令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本发明实施例的方法。

以上具体地示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种基于知识图谱和大语言模型的问答方法，其特征在于，包括：

接收待处理情报问题，并对所述待处理情报问题进行实体特征抽取，得到初始特征实体；

在向量数据库进行向量空间查找，以确定与所抽取的初始特征实体相似的扩展实体；

基于所抽取的初始特征实体查询自建立的图数据库，构建查询辅助信息，以生成初始中间答案；

判断初始中间答案是否出现新实体，以确定是否执行下一轮实体特征抽取，每执行一轮实体特征抽取，生成一个中间答案，直到确定中间答案中未出现新实体为止；

对经一轮或多轮实体特征抽取所生成的所有中间答案进行去重融合，以得到所述待处理情报问题相匹配的最终答案。

2.根据权利要求1所述的基于知识图谱和大语言模型的问答方法，其特征在于，所述判断初始中间答案是否出现新实体，以确定是否执行下一轮实体特征抽取，包括：

在判断初始中间答案出现新实体时，利用pagerank算法，计算所出现的新实体在初始中间答案中的关键度；

在所计算的新实体在初始中间答案中的关键度大于预定阈值时，根据新实体与初始特征实体之间的关系，进行关系检索；

3.根据权利要求1所述的基于知识图谱和大语言模型的问答方法，其特征在于，

基于LoRA算法微调和基于Transformer架构形成的大语言模型，构建问答预测模型；

4.根据权利要求1所述的基于知识图谱和大语言模型的问答方法，其特征在于，所述每执行一轮实体特征抽取，生成一个中间答案，直到确定中间答案中未出现新实体为止，包括：

5.根据权利要求1所述的基于知识图谱和大语言模型的问答方法，其特征在于，进一步包括：

根据历史情报信息文本，构建知识库；

基于知识库进行实体间关系抽取，形成情报实体关系三元组，以建立情报知识图谱。

6.根据权利要求5所述的基于知识图谱和大语言模型的问答方法，其特征在于，进一步包括：

将知识库中的各实体转换为实体特征向量，采用实体标识建立各实体与及各自对应的实体向量之间的映射关系，以建立向量数据库；

7.根据权利要求5所述的基于知识图谱和大语言模型的问答方法，其特征在于，

对历史情报信息相关实体以及所建立的情报信息知识图谱中实体所转换得到的向量数据进行预处理操作，该预处理操作包括标准化、归一化；

8.根据权利要求1所述的基于知识图谱和大语言模型的问答方法，其特征在于，所述在向量数据库中进行向量空间查找，以确定与所抽取的初始特征实体相似的扩展实体，包括：

将所抽取的初始特征实体转换成初始特征向量；

9.根据权利要求8所述的基于知识图谱和大语言模型的问答方法，其特征在于，进一步包括：

根据所确定的扩展实体，在图数据库中进行检索查找，确定与扩展实体最相关的目标实体；

10.一种基于知识图谱和大语言模型的问答系统，其特征在于，包括：

图数据库建立模块，采用历史科技情报信息数据进行实体及实体关系抽取来构建情报知识图谱，以建立图数据库；

接收处理模块，接收待处理情报问题，并对所述待处理情报问题进行实体特征抽取，得到初始特征实体；

查找确定模块，在向量数据库进行向量空间查找，以确定与所抽取的初始特征实体相似的扩展实体；

构建生成模块，基于所抽取的初始特征实体查询自建立的图数据库，构建查询辅助信息，以生成初始中间答案；

判断确定模块，判断初始中间答案是否出现新实体，以确定是否执行下一轮实体特征抽取，每执行一轮实体特征抽取，生成一个中间答案，直到确定中间答案中未出现新实体为止；

去重融合模块，对经一轮或多轮实体特征抽取所生成的所有中间答案进行去重融合，以得到所述待处理情报问题相匹配的最终答案。