CN117473053A

CN117473053A - 基于大语言模型的自然语言问答方法、装置、介质及设备

Info

Publication number: CN117473053A
Application number: CN202310694350.1A
Authority: CN
Inventors: 董帅豪
Original assignee: Shanghai Shuheng Information Technology Co ltd
Current assignee: Shanghai Shuheng Information Technology Co ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2024-01-30

Abstract

本发明提供了一种基于大语言模型的自然语言问答方法、装置、介质及设备，该方法包括：获取参考知识文档；将所述参考知识文档分割成多个文本块，并对所述多个文本块进行分词及词向量表示，得到包括多个文本特征向量的向量数据库；获取用户输入的自然语言问题；对所述自然语言问题进行分词及词向量表示，得到分词向量；从向量数据库中查找与分词向量相关度大于设定阈值的目标文本特征向量；确定所述目标文本特征向量对应的目标文本块；基于大语言模型对自然语言问题和所述目标文本块进行语言处理，生成所述自然语言问题的答案。该方法能够基于大语言模型，使得自然语言问答模型更加智能，而且部署资源消耗少、回复准确率高。

Description

基于大语言模型的自然语言问答方法、装置、介质及设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于大语言模型的自然语言问答方法、装置、介质及设备。

背景技术

目前知识库问答大多采用知识图谱技术，把信息格式化为三元组，存储到向量数据库中，当我们查询某个问题时，我们采用比较近似度方式，取出相似度最高的几个三元组，然后进行组装并返回答案。知识图谱面临着一些问题，对文档中的数据需要通过模型进行格式化，把文档中的数据处理成三元组，处理过程中可能会造成信息丢失，模型格式化效果不好，最终导致数据质量不高。因此，亟需提供一种新的自然语言问答方法，来解决上述问题。

发明内容

本发明的目的在于提供一种基于大语言模型的自然语言问答方法、装置、介质及设备，该方法能够基于大语言模型，使得自然语言问答模型更加智能，而且部署资源消耗少、回复准确率高。

第一方面，本发明实施例提供一种基于大语言模型的自然语言问答方法，该方法包括：获取参考知识文档；将所述参考知识文档分割成多个文本块，并对所述多个文本块进行分词及词向量表示，得到包括多个文本特征向量的向量数据库；获取用户输入的自然语言问题；对所述自然语言问题进行分词及词向量表示，得到分词向量；从向量数据库中查找与分词向量相关度大于设定阈值的目标文本特征向量；确定所述目标文本特征向量对应的目标文本块；基于大语言模型对自然语言问题和所述目标文本块进行语言处理，生成所述自然语言问题的答案。

本发明实施例提供的基于大语言模型的自然语言问答方法的有益效果在于：本发明具有文档处理方便、部署资源消耗少、回复准确率高等优点，而且在大语言模型的支持下，基于大语言模型的自然语言问答模型的回复更加合理，回复更加智能。

在一种可能的实施方案中，将所述参考知识文档分割成多个文本块，包括：

借助开源的应用开发框架，加载指定文档格式的参考知识文档，将所述参考知识文档分割成多个指定大小的文本块；或者，使用正则匹配，将所述参考知识文档按照段落分割为多个文本块。

在另一种可能的实施例中，从向量数据库中查找与分词向量相关度大于设定阈值的目标文本特征向量，包括：通过聚类算法从向量数据库中查找与分词向量相关的目标索引；从所述目标索引关联的向量簇中搜索大于设定阈值的目标文本特征向量。

在其他可能的实施例中，对所述多个文本块进行分词及词向量表示，得到包括多个文本特征向量的向量数据库，包括：对所述多个文本块进行分词，将分词结果送到预训练好的嵌入模型中；基于所述嵌入模型的输出结果进行平均池化，最终得到多个文本块对应的包括文本特征向量的向量数据库。

又一种可能的实施例中，对所述自然语言问题进行分词及词向量表示，得到分词向量，包括：对所述自然语言问题进行分词，将分词结果送到预训练好的嵌入模型中；基于所述嵌入模型的输出结果进行平均池化，最终得到所述自然语言问题对应的分词向量。

第二方面，本发明实施例还提供一种基于大语言模型的自然语言问答装置，该装置包括执行上述第一方面的任意一种可能的实施方式的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

第三方面，本发明实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质包括程序，当程序在终端设备上运行时，使得所述终端设备执行上述第一方面的任意一种可能的实施方式的方法。

第四方面，本发明实施例中还提供一种终端设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的程序，当所述程序被所述处理器执行时，使得所述终端设备实现如上述第一方面任意一实施例所述的方法。

第五方面，本发明实施例还提供一种计算机程序产品，当所述程序产品在终端设备上运行时，使得所述终端设备执行上述第一方面的任意一种可能的实施方式的方法。

关于上述第二方面至第五方面的有益效果可以参见上述第一方面中的描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种知识问答模型结构示意图；

图2为本发明实施例提供的一种基于大语言模型的自然语言问答方法流程示意图；

图3为本发明实施例提供的一种基于大语言模型的自然语言问答示例架构示意图；

图4为本发明实施例提供的知识问答模型的用户界面示意图一；

图5为本发明实施例提供的知识问答模型的用户界面示意图二；

图6为本发明实施例提供的一种终端设备结构示意图。

具体实施方式

本发明实施例涉及人工智能(artificial intelligence，AI)和机器学习(machine learning，ML)技术，基于人工智能中的深度学习网络和机器学习而实现方案。

随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

在本发明实施例的描述中，以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本发明的限制。如在本发明的说明书和所附权利要求书中所使用的那样，单数表达形式“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本发明以下各实施例中，“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接，除非另外说明。“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

在本发明实施例中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性地”或者“例如”的任何实施例或实现方案方案不应被解释为比其它实施例或实现方案方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

大语言模型(large language model，LLM)是一种基于深度学习的自然语言处理技术。该模型可以处理大量的文本数据，从而学习到自然语言的语法和语义规则。在大语言模型(large language model，LLM)没有大规模开源之前，知识库问答大多采用知识图谱技术，而随着ChatGPT的爆火，大语言模型受到前所未有的关注，大语言模型快速发展，已经具有很好的文档提取能力。本发明提出一种更加通用的解决方案，把原始文档分割，借助开源的应用开发框架构建向量数据库，保留更多的语义信息，再借助LLM的文档提取能力和语言组织能力对用户的问题进行准备回复。

本发明实施例中所提供的知识问答模型如图1所示，包括获取模型、文档分割模块、向量表示模块、快速相似性搜索计算模块和大语言模型模块，其中：

获取模块用于获取参考知识文档；文档分割模块用于将所述参考知识文档分割成多个文本块，并对所述多个文本块进行分词及词向量表示，得到包括多个文本特征向量的向量数据库；所述获取模块，还用于获取用户输入的自然语言问题；向量表示模块，用于对所述自然语言问题进行分词及词向量表示，得到分词向量；快速相似性搜索计算模块，用于从向量数据库中查找与分词向量相关度大于设定阈值的目标文本特征向量；确定所述目标文本特征向量对应的目标文本块；大语言模型模块，用于基于大语言模型对自然语言问题和所述目标文本块进行语言处理，生成所述自然语言问题的答案。

本实施例提供了一种更加通用的解决方案，通过快速相似性搜索计算模块构建向量知识库，分割模块把原始文档分割，保留更多的语义信息，再借助大语言模型模块的文档提取能力和语言组织能力对用户的问题进行回复，使得自然语言问答模型更加智能，而且部署资源消耗少、回复准确率高。

本发明实施例提供了一种基于大语言模型的自然语言问答方法，如图2所示，该方法的流程可以由终端设备执行，该方法包括以下步骤：

S201，获取参考知识文档。

S202，将所述参考知识文档分割成多个文本块，并对所述多个文本块进行分词及词向量表示，得到包括多个文本特征向量的向量数据库。

该步骤中，分割模块可以在开源的应用开发框架加载指定文档格式的参考知识文档之后，将所述参考知识文档分割成多个指定大小的文本块；或者，使用正则匹配，将所述参考知识文档按照段落分割为多个文本块，其中，一个文本块可以作为创建文本向量的基本单位。之后，向量表示模块对所述多个文本块进行分词，例如通过BertTokenizer对多个文本块进行分词，将分词结果送到预训练好的嵌入模型中，嵌入模型例如可以是Embedding模块；基于所述嵌入模型的输出结果进行平均池化，最终得到多个文本块对应的包括文本特征向量的向量数据库。

S203，获取用户输入的自然语言问题；对所述自然语言问题进行分词及词向量表示，得到分词向量。

该步骤中，当用户向图1所示的知识问答模型输入问题后，知识问答模型中的向量表示模块对所述自然语言问题进行分词，将分词结果送到预训练好的嵌入模型中；基于所述嵌入模型的输出结果进行平均池化，最终得到所述自然语言问题对应的分词向量。

S204，从向量数据库中查找与分词向量相关度大于设定阈值的目标文本特征向量。

该步骤中，快速相似性搜索计算模块通过聚类算法从向量数据库中查找与分词向量相关的目标索引；然后从所述目标索引关联的向量簇中搜索大于设定阈值的目标文本特征向量。具体来说，可以通过从前一模块中获得的向量数据库，选择不同的策略创建索引，例如IVFFlat把所有文档的向量(Embedding)通过一个聚类算法，分成不同簇，当一个查询来的时候，先通过聚类算法找到属于哪个簇，再暴力搜索形式对比整个簇的向量的相似度。暴力搜索虽然效率不高，但是召回率100％，优化算法创建索引，牺牲了一些精度，减少了一些时间空间上的开销。

S205，确定所述目标文本特征向量对应的目标文本块；

S206，基于大语言模型对自然语言问题和所述目标文本块进行语言处理，生成所述自然语言问题的答案。

结合图3来说，本实施例可以先将天气文档分割成文本块，每一个文本块作为文本特征向量(Embedding)的基本单位输入到分词模块(Tokenizer)，分词模块分词后获得对应如下分词类型的分词结果：input_ids，token_type_idsattention_mask，根据分词结果送入模型得到每个词的向量表示，对整个句子做平均池化。当用户向知识问答模型输入的自然语言问题为“今天天气怎么样，适合穿什么衣服？”，知识问答模型对问题分词后获得对应如下分词类型的分词结果：input_ids，token_type_ids，attention_mask；然后将分词结果送入知识问答模型得到每个词的向量表示，对整个句子做平均池化。快速相似性搜索计算模块通过聚类算法从向量数据库中查找与分词向量对应索引，然后找到天气文档对应的文本块，最终自然语言问答模型输出答案“今天天气晴朗，平均气温27℃，建议短袖短裤”。

再比如，本实施例可以提供如图4和图5所示的知识问答模型的用户界面，知识问答模型中已加载了关于篮球发展历史的数据库，当用户输入问题“XXX什么时候出生？”，之后知识问答模型可以基于上述方法流程进行自然语言问答的文档分割和查找等操作，知识问答模型输出答案“XXX出生于1977年7月8日”。再比如，当用户输入问题“XXX什么时候退役？”，之后知识问答模型可以基于上述方法流程进行自然语言问答的文档分割和查找等操作，知识问答模型输出答案“XXX在2015年11月30日宣布退役，之后在2017年12月19日湖人队为他矩形了球衣退役仪式。XXX也于2020年4月5日入选了XXX篮球名人纪念堂”。也就是说，知识问答模型可以根据篮球发展历史，准备回复关于球员的个人信息，实现方式可以网页插件形式，部署资源消耗少、回复准确率高。

综上所述，本发明实施例提供的知识问答模型以知识库数据集和问题集为依托，构造了一个可靠的自然语言问答系统。在选取依据信息的过程中，本发明所提出的方法可以有效提取概括问题和候选信息的语义特征，从而更好地计算问题和候选信息之间的语义相关性，以取得更好的自然语言问答效果。

在本发明的另一些实施例中，本发明实施例公开了一种终端设备，如图6所示，该终端设备可以集成上述图像合成模型，硬件组成上包括：一个或多个处理器601；存储器602；显示器603；一个或多个应用程序(未示出)；以及一个或多个计算机程序604，上述各器件可以通过一个或多个通信总线605连接。其中该一个或多个计算机程序604被存储在上述存储器602中并被配置为被该一个或多个处理器601执行，该一个或多个计算机程序604包括指令。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现上述方法实施例所述方法。具体有益效果可以参见上述方法实施例。

本发明还提供了一种计算机程序产品，该计算机程序产品被计算机执行时实现上述方法实施例所述方法。具体有益效果可以参见上述方法实施例。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何在本发明实施例揭露的技术范围内的变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于大语言模型的自然语言问答方法，其特征在于，包括：

获取参考知识文档；

将所述参考知识文档分割成多个文本块，并对所述多个文本块进行分词及词向量表示，得到包括多个文本特征向量的向量数据库；

获取用户输入的自然语言问题；对所述自然语言问题进行分词及词向量表示，得到分词向量；

从向量数据库中查找与分词向量相关度大于设定阈值的目标文本特征向量；

确定所述目标文本特征向量对应的目标文本块；

基于大语言模型对自然语言问题和所述目标文本块进行语言处理，生成所述自然语言问题的答案。

2.根据权利要求1所述的方法，其特征在于，将所述参考知识文档分割成多个文本块，包括：

借助开源的应用开发框架，加载指定文档格式的参考知识文档，将所述参考知识文档分割成多个指定大小的文本块；或者，

或者使用正则匹配，将所述参考知识文档按照段落分割为多个文本块。

3.根据权利要求1所述的方法，其特征在于，从向量数据库中查找与分词向量相关度大于设定阈值的目标文本特征向量，包括：

通过聚类算法从向量数据库中查找与分词向量相关的目标索引；

从所述目标索引关联的向量簇中搜索大于设定阈值的目标文本特征向量。

4.根据权利要求1至3任一项所述的方法，其特征在于，对所述多个文本块进行分词及词向量表示，得到包括多个文本特征向量的向量数据库，包括：

对所述多个文本块进行分词，将分词结果送到预训练好的嵌入模型中；

基于所述嵌入模型的输出结果进行平均池化，最终得到多个文本块对应的包括文本特征向量的向量数据库。

5.根据权利要求1至3任一项所述的方法，其特征在于，对所述自然语言问题进行分词及词向量表示，得到分词向量，包括：

对所述自然语言问题进行分词，将分词结果送到预训练好的嵌入模型中；

基于所述嵌入模型的输出结果进行平均池化，最终得到所述自然语言问题对应的分词向量。

6.一种基于大语言模型的自然语言问答装置，其特征在于，包括：

获取模块，用于获取参考知识文档；

文档分割模块，用于将所述参考知识文档分割成多个文本块，并对所述多个文本块进行分词及词向量表示，得到包括多个文本特征向量的向量数据库；

所述获取模块，还用于获取用户输入的自然语言问题；

向量表示模块，用于对所述自然语言问题进行分词及词向量表示，得到分词向量；

快速相似性搜索计算模块，用于从向量数据库中查找与分词向量相关度大于设定阈值的目标文本特征向量；确定所述目标文本特征向量对应的目标文本块；

大语言模型模块，用于基于大语言模型对自然语言问题和所述目标文本块进行语言处理，生成所述自然语言问题的答案。

7.根据权利要求6所述的装置，其特征在于，文档分割模块将所述参考知识文档分割成多个文本块，具体用于：

8.根据权利要求6所述的装置，其特征在于，快速相似性搜索计算模块从向量数据库中查找与分词向量相关度大于设定阈值的目标文本特征向量，具体用于：

9.一种计算机可读存储介质，所述计算机可读存储介质内存储有程序，其特征在于，所述程序被处理器执行时，实现如权利要求1至5中任一项所述的方法。

10.一种终端设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的程序，当所述程序被所述处理器执行时，使得所述终端设备实现如权利要求1至5中任一项所述的方法。