CN117271724A

CN117271724A - 一种基于大模型和语义图谱的智能问答实现方法及系统

Info

Publication number: CN117271724A
Application number: CN202311179186.7A
Authority: CN
Inventors: 张晨; 周研; 吴菁; 徐文龙
Original assignee: Zhejiang Create Link Technology Co ltd
Current assignee: Zhejiang Create Link Technology Co ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-12-22

Abstract

本发明公开了一种基于大模型和语义图谱的智能问答实现方法及系统，方法包括：获取知识库，对所述知识库进行知识提取，并根据知识提取结果构建语义图谱；获取自然查询语句，根据所述自然查询语句提取问题向量；根据所述语义图谱和问题向量进行知识匹配，并输出知识向量结果；根据所述自然查询语句和知识向量结果基于大模型输出智能问答结果，并根据所述智能问答结果更新语义图谱。本发明对知识库进行知识提取并构建语义图谱，根据语义图谱和自然查询语句的问题向量进行知识匹配以获取知识向量结果，进而根据知识向量结果基于大模型技术得到智能问答结果，可减少大模型对专业知识的依赖，提高问答服务的可信赖性，保障语义图谱的时效性。

Description

一种基于大模型和语义图谱的智能问答实现方法及系统

技术领域

本发明涉及计算机技术领域，具体涉及一种基于大模型和语义图谱的智能问答实现方法及系统。

背景技术

智能问答系统是一种使用自然语言处理和人工智能技术，旨在以人类方式理解用户提出的问题，并通过搜索、推理或其他方法来提供准确和有用的回答。这种系统通常由以下几个关键组件构成：(1)语言理解——智能问答系统需要对用户输入的自然语言进行理解和解析，这包括词法分析、句法分析、语义理解等任务，以抽取问题中的关键信息和意图；(2)知识表示与存储——智能问答系统需要具备知识库或知识图谱，用于存储结构化和半结构化的知识数据，这些数据可以包括事实、关系、实体属性等，以支持对问题的准确回答；(3)检索与推理——为了回答用户的问题，系统可以使用信息检索技术从大规模的文本数据中找到相关的信息，此外，推理和逻辑推断也可以应用于问题解析和答案生成过程中，以引入更高层次的推理能力；(4)答案生成与排名——基于理解和推理的结果，智能问答系统可以生成候选答案，并对这些答案进行评分和排序，以选择最佳的答案进行呈现给用户。

当前智能问答系统广泛应用于各种领域，如互联网搜索引警的问题回答、虚拟助手、智能客服等。它们的目标是提供高质量、个性化和及时的答案，以满足用户对信息的需求，并改善人机交互体验。

大模型是指具有庞大参数量和计算资源需求的机器学习或深度学习模型。这些模型通常由数十亿到数百亿甚至更多的可训练参数组成，远远超过传统规模的模型。大模型的出现得益于两个主要因素，一是数据规模的增长，随着互联网的普及和数据收集能力的提升，大量的训练数据变得可用，更多的数据可以帮助大模型学习到更复杂、更准确的特征表示，从而提高其性能；二是计算资源的发展，随着硬件技术的不断进步，如图形处理单元(GPU)、张量处理单元(TPU)和分布式计算等，大模型的训练和推理变得更加可行。这些技术提供了强大的计算能力，使得大模型可以在合理的时间内进行训练和部署。

基于大模型的智能问答系统通常具有以下一些缺点：(1)预训练数据依赖性高：大模型的性能高度依赖于预训练阶段所使用的数据，如果预训练数据集不充分或偏斜，可能导致模型在特定领域或任务上表现不佳；(2)可解释性有限：大模型通常具有黑盒属性，其复杂的结构和参数使得难以解释模型内部的决策过程，这在涉及关键决策、法律责任等场景下可能引发问题；(3)数据隐私风险：大模型的训练通常需要访问和处理大量的用户数据，这可能引发数据隐私和安全方面的担忧；(4)面临领域适应性挑战：大模型的泛化能力受限于预训练数据集的领域范围，如果模型在特定领域或任务上没有足够的训练数据，其性能可能下降。

发明内容

针对现有技术中的缺陷，本发明提供一种基于大模型和语义图谱的智能问答实现方法及系统。

第一方面，一种基于大模型和语义图谱的智能问答实现方法，包括：

获取知识库，对所述知识库进行知识提取，并根据知识提取结果构建语义图谱；

获取自然查询语句，根据所述自然查询语句提取问题向量；

根据所述语义图谱和问题向量进行知识匹配，并输出知识向量结果；

根据所述自然查询语句和知识向量结果基于大模型输出智能问答结果，并根据所述智能问答结果更新语义图谱。

进一步地，所述获取知识库，对所述知识库进行知识提取，并根据知识提取结果构建语义图谱，具体为：

获取知识库，基于大模型技术对所述知识库进行知识提取；

根据提取的知识形成语义三元组的样式结果；

将所述语义三元组的样式结果以图数据的形式存储至图数据库中，并构建语义图谱。

进一步地，所述获取自然查询语句，根据所述自然查询语句提取问题向量，具体为：

获取用户输入的自然查询语句；

对所述自然查询语句进行预处理，所述预处理包括但不限于分词处理、去除停用词处理、转换大小写处理；

将预处理后的自然查询语句传递至预训练模型，以基于大模型技术将所述自然查询语句进行向量化处理，并通过汇聚方法提取问题向量。

进一步地，所述根据所述语义图谱和问题向量进行知识匹配，并输出知识向量结果，具体为：

将所述语义图谱通过图嵌入算法进行向量化；

将所述语义图谱的向量化结果与问题向量做向量计算，以计算相似度；

根据向量计算结果获取相似度最大的知识向量，并作为最匹配的知识向量结果输出。

进一步地，所述根据所述自然查询语句和知识向量结果基于大模型输出智能问答结果，并根据所述智能问答结果更新语义图谱，具体为：

将所述自然查询语句作为prompt、所述知识向量结果作为约束条件，并输入至大模型中，以基于大模型技术进行计算并输出智能问答结果；

将所述智能问答结果进行语义向量化，并根据语义向量化结果更新所述语义图谱。

第二方面，一种基于大模型和语义图谱的智能问答实现系统，包括：

图谱构建模块：用于获取知识库，对所述知识库进行知识提取，并根据知识提取结果构建语义图谱；

向量提取模块：用于获取自然查询语句，根据所述自然查询语句提取问题向量；

知识匹配模块：用于根据所述语义图谱和问题向量进行知识匹配，并输出知识向量结果；

智能问答模块：用于根据所述自然查询语句和知识向量结果基于大模型输出智能问答结果，并根据所述智能问答结果更新语义图谱。

进一步地，所述图谱构建模块具体用于：

获取知识库，基于大模型技术对所述知识库进行知识提取；

根据提取的知识形成语义三元组的样式结果；

进一步地，所述知识匹配模块具体用于：

将所述语义图谱通过图嵌入算法进行向量化；

进一步地，所述智能问答模块具体用于：

第三方面，一种基于大模型和语义图谱的智能问答实现系统，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面所述的方法步骤。

本发明的有益效果体现在：对知识库进行知识提取并构建语义图谱，根据语义图谱和自然查询语句的问题向量进行知识匹配以获取知识向量结果，进而根据知识向量结果基于大模型技术得到智能问答结果。具有以下优点：

(1)可减少大模型对专业知识的依赖，从而降低大模型在垂直领域上的预训练或推理所需的算力和时间；

(2)在传统大模型输出的基础上，结合语义图谱的输出，可为知识应用提供交叉验证、交叉对比的手段，提高问答服务的可信赖性；

(3)语义图谱中的知识结构，可以约束大模型输出结果，并且降低数据偏见，强化输出边界；

(4)可以帮助系统整体更好的获得领域专业知识，保障语义图谱的时效性，从而适应更多不同的领域任务和场景；

(5)语义图谱中对于领域知识的加密和保护能力，可降低大模型对行业隐私数据的依赖，有利于保障数据隐私安全。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明实施例提供的一种基于大模型和语义图谱的智能问答实现方法的流程图；

图2为图1的另一流程图；

图3为本发明实施例提供的一种基于大模型和语义图谱的智能问答实现系统的结构图；

图4为图3所示结构的另一种结构图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

如图1和图2所示，一种基于大模型和语义图谱的智能问答实现方法，包括：

S1：获取知识库，对所述知识库进行知识提取，并根据知识提取结果构建语义图谱；

具体地，获取知识库，基于大模型技术对知识库进行知识提取，包括但不限于实体提取或关系提取等。根据所提取的知识形成语义三元组的样式结果，如实体1(发卡机构)、关系(发行)、实体2(信用卡)。

进一步地，将所形成的语义三元组的样式结果按照图数据的形式存储至图数据库中，并构建语义图谱。

优选地，语义图谱是一种用于表示和组织知识的结构化数据模型，以及基于该模型构建的知识图谱，它通过将实体、关系和属性等元素连接起来，形成一个图结构，以描述现实世界中事物之间的语义关系和语境信息。在语义图谱中，实体表示具体的事物或概念，可以是人、地点、物体、事件等；关系表示实体之间的关联或联系，明确描述它们之间的语义关系，例如“工作于”、“位于”、“是子类”等；属性是关联到实体上的特征或描述性信息，可以包括名称、年龄、位置等，这些元素通过节点和边进行连接形成一个有向图结构。

语义图谱旨在提供一种可机器理解和处理的知识表示方式，使得计算机能够更好地理解和推理实体之间的语义关系，不仅记录了实体的基本信息，还捕捉了更深层次的语义含义和上下文关系，可以用于多个领域的知识表示和应用，如自然语言处理、智能问答、知识推理、语义搜索等。常见的语义图谱包括维基百科的知识图谱(Wikidata)、谷歌的知识图谱(Google KnowledgeGraph)和微软的开放式语义图谱(Microsoft Open DataInitiative)，这些图谱通过整合多个数据源和人工编辑，构建了庞大的知识库，为计算机系统提供了丰富而准确的语义信息。

S2：获取自然查询语句，根据所述自然查询语句提取问题向量；

具体地，获取用户输入的自然查询语句，对自然查询语句进行预处理，包括但不限于分词处理、去停用词处理以及转换大小写等操作。

将预处理好的自然查询语句传递至预训练模型，获取其对应的隐藏状态或嵌入表示，以基于大模型技术将自然查询语句进行向量化处理，并通过汇聚方法提取出问题向量。

优选地，所述预训练模型包括但不限于BERT、GPT等。

S3：根据所述语义图谱和问题向量进行知识匹配，并输出知识向量结果；

具体地，将语义图谱通过图嵌入算法进行向量化，所述图嵌入算法包括但不限于Node2Vec等算法。

将语义图谱的向量化结果与问题向量做向量计算，以计算知识向量与问题向量之间的相似度。所述向量计算包括但不限于采用余弦相似度、欧式距离、皮尔逊相关系数等算法。

进一步地，根据向量计算结果获取相似度值最大的知识向量，并将该相似度值最大的知识向量作为最匹配的知识向量结果输出。优选地，若存在多个相似度值最大的知识向量，则输出多个最匹配的知识向量。

S4：根据所述自然查询语句和知识向量结果基于大模型输出智能问答结果，并根据所述智能问答结果更新语义图谱；

具体地，将原始的自然查询语句作为prompt，将知识向量结果作为约束条件，一并输入至大模型中，以基于大模型技术计算并输出智能问答结果。优选地，所述大模型包括但不限于BERT、GPT等。

进一步地，将智能问答结果通过图嵌入算法(如Node2Vec等)进行语义向量化，并根据语义向量化结果对语义图谱进行语义更新。

基于相同的发明构思，本发明实施例提供了一种基于大模型和语义图谱的智能问答实现系统，如图3所示，该系统包括：

进一步地，所述图谱构建模块具体用于：

获取知识库，基于大模型技术对所述知识库进行知识提取；

根据提取的知识形成语义三元组的样式结果；

进一步地，所述知识匹配模块具体用于：

将所述语义图谱通过图嵌入算法进行向量化；

进一步地，所述智能问答模块具体用于：

本发明对知识库进行知识提取并构建语义图谱，根据语义图谱和自然查询语句的问题向量进行知识匹配以获取知识向量结果，进而根据知识向量结果基于大模型技术得到智能问答结果。本发明具有以下优点：

可选地，作为本发明的另一优选实施方式，如图4示，一种基于大模型和语义图谱的智能问答实现系统还可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行如前述方法实施例所描述的方法步骤。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的基于大模型和语义图谱的智能问答实现方法的实施例中所描述的实现方式，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于大模型和语义图谱的智能问答实现方法，其特征在于，包括：

获取自然查询语句，根据所述自然查询语句提取问题向量；

2.根据权利要求1所述的一种基于大模型和语义图谱的智能问答实现方法，其特征在于，所述获取知识库，对所述知识库进行知识提取，并根据知识提取结果构建语义图谱，具体为：

获取知识库，基于大模型技术对所述知识库进行知识提取；

根据提取的知识形成语义三元组的样式结果；

3.根据权利要求2所述的一种基于大模型和语义图谱的智能问答实现方法，其特征在于，所述获取自然查询语句，根据所述自然查询语句提取问题向量，具体为：

获取用户输入的自然查询语句；

4.根据权利要求3所述的一种基于大模型和语义图谱的智能问答实现方法，其特征在于，所述根据所述语义图谱和问题向量进行知识匹配，并输出知识向量结果，具体为：

将所述语义图谱通过图嵌入算法进行向量化；

5.根据权利要求4所述的一种基于大模型和语义图谱的智能问答实现方法，其特征在于，所述根据所述自然查询语句和知识向量结果基于大模型输出智能问答结果，并根据所述智能问答结果更新语义图谱，具体为：

6.一种基于大模型和语义图谱的智能问答实现系统，其特征在于，包括：

7.根据权利要求6所述的一种基于大模型和语义图谱的智能问答实现系统，其特征在于，所述图谱构建模块具体用于：

获取知识库，基于大模型技术对所述知识库进行知识提取；

根据提取的知识形成语义三元组的样式结果；

8.根据权利要求7所述的一种基于大模型和语义图谱的智能问答实现系统，其特征在于，所述知识匹配模块具体用于：

将所述语义图谱通过图嵌入算法进行向量化；

9.根据权利要求8所述的一种基于大模型和语义图谱的智能问答实现系统，其特征在于，所述智能问答模块具体用于：

10.一种基于大模型和语义图谱的智能问答实现系统，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-5任一项所述的方法步骤。