CN117370513A

CN117370513A - 基于轻量级大模型的智能问答系统的构建方法

Info

Publication number: CN117370513A
Application number: CN202311281450.8A
Authority: CN
Inventors: 赵华蕾
Original assignee: Shanghai Aiwei Information Technology Co ltd
Current assignee: Shanghai Aiwei Information Technology Co ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-01-09

Abstract

本发明公开了一种基于轻量级大模型的智能问答系统的构建方法，包括如下步骤：S1)选择开源可商用的轻量级大模型作为基座，部署到本地服务器；S2)在本地服务器存放向量化知识库、QA对知识库和专业知识库；S3)将智能问答系统分为两个匹配阶段：第一匹配阶段将泛化问题精准匹配到本地QA对知识库，第二匹配阶段将泛化问题匹配到向量知识库和专业知识库；S4)在第二匹配阶段中构建大模型的思维链提问技术，利用大模型构建出专业的精准回答。本发明采用大模型私有化部署，能够实现本地知识库和大模型结合的智能化应用落地，降低大模型的使用门槛，可以让智能化应用落地到更多可适用的应用场景中。

Description

基于轻量级大模型的智能问答系统的构建方法

技术领域

本发明涉及一种智能问答系统的构建方法，尤其涉及一种基于轻量级大模型的智能问答系统的构建方法。

背景技术

在2022年11月30日，OpenAI发布了ChatGPT的应用，至此，大模型进入大家的视线。基于大模型做出的智能应用，极大的方面了人们的工作和生活，其对人类语言理解的智能化和知识储备的广泛性深受大家的认可。

GPT(Generative Pre-Trained Transformer)是一种生成式预训练模型。在2017年，由google团队发布的《Attention is all you need》中提出了transformer的架构。在2018年，在transformer的架构基础上，OpenAI发布了《Improving LanguageUnderstandingby Generative Pre-Training》，正式提出GPT深度神经网络的大语言模型。

2022年OpenAI推出的ChatGPT应用是基于GPT3.5的模型构建的智能聊天应用。这个应用因为其底层模型太大，训练成本昂贵，导致学习迭代速度较低，模型知识更新不及时。而且此应用针对open领域的大众用户，也导致其训练数据并不会精准到精准专业的领域，所以其专业性受限。另外因为OpenAI只开放接口调用不开放模型本身，所以导致使用只能联网调用，对于本地知识的保护性不足，会存在本地知识外泄的风险。最后，目前的大模型都是生成式语言模型，这就导致模型会根据概率生成无法预测的回答，答案不受控容易编造虚假内容，导致可用性不强。

在ChatGPT的基础上，诞生了langchain的技术，即通过langchian的技术链接大模型接口和本地知识库，这样可以做到大模型的转化型，这个技术的缺点是，结合了本地知识库，但是因为其生成答案的逻辑依然是用大模型的生成技术，所以导致答案无法受控，可用性依然不足。

基于以上几个原因，有必要研究出私有化部署本地大模型，并结合本地知识库的智能聊天应用，解决其知识更新速度，解决其本地知识的专业性，解决其本地应用的私有化，保护本地知识库；并且在文本处理和答案生成的方面，由自己独特的方法，避免了答案生成的不可控和编造问题，最大限度的保证了答案的准确性。

发明内容

本发明所要解决的技术问题是提供一种基于轻量级大模型的智能问答系统的构建方法，能够实现本地知识库和大模型结合的智能化应用落地，降低大模型的使用门槛，可以让智能化应用落地到更多可适用的应用场景中。

本发明为解决上述技术问题而采用的技术方案是提供一种基于轻量级大模型的智能问答系统的构建方法，包括如下步骤：S1)选择开源可商用的轻量级大模型作为基座，部署到本地服务器；S2)在本地服务器存放向量化知识库、QA对知识库和专业知识库；S3)将智能问答系统分为两个匹配阶段：第一匹配阶段将泛化问题精准匹配到本地QA对知识库，第二匹配阶段将泛化问题匹配到向量知识库和专业知识库；S4)在第二匹配阶段中构建大模型的思维链提问技术，利用大模型构建出专业的精准回答。

进一步地，所述步骤S2还包括构建本地知识库的推理逻辑类别，对于本地知识资料，通过人工标注和实体提取方法，建立本地QA对知识库、向量化知识库和专业知识库；在构建专业知识库中采用自然语言技术拆分文档中的每句话，提取每句话的主题，构建类似思维链的专业知识库。

进一步地，所述步骤S3包括：对接收到的问题和本地QA对知识库进行匹配，如果有匹配结果则生成答案。

进一步地，所述步骤S3包括将用户的问题用embedding模型做泛化变成向量和相似文本，然后本地知识库通过人工标注和文本理解的模型，构建成QA对知识库，根据QA对建立问题库，利用embedding模型建立问题向量库；根据余弦距离，计算出该问题余弦距离最近的topN个问题；具体余弦距离公式：

根据泛化出的topN个问题，匹配本地QA知识库，找出相近的topN个答案文本；

根据泛化出的topN个问题，利用大模型的文本理解和生成能力，生成与原问题相关的文本，最后根据这些相关文本匹配到专业知识库，利用大模型找出专业的答案。

进一步地，所述步骤S3针对文本的匹配，采用如下的双重相似度匹配方法：通过embedding的语义匹配获取语义相似度，对文本分词并根据term重要度获得tfidf-相似度，合并语义相似度和tfidf-相似度得出融合相似度。

进一步地，所述步骤S3具体包括：根据tfidf算法，计算出每个词的权重，利用每个词的权重与jaccard距离，计算本地知识问题库的相似度；

针对两句话sentenceA和sentenceB，先用分词模型做分词处理：word1，word2……，计算出两个词中；具体公式如下：

在相似度计算过程中，same_word的长度大于1，且要过滤掉停用词；

利用公式(2)计算出的相似度与余弦距离计算出的相似度，设置融合公式：

similarity＝

weight1*cos(sentenceA,sentenceB)+weight2*jaccard_similarity(sentenceA,sentenceB) (3)

此处weight是通过训练获得的参数，cos距离和jaccard距离做归一化处理；根据预设阈值，选出topN的相似文本。

进一步地，所述步骤S4包括：当用户问题无法匹配到本地QA对时，在embedding的模型后面加一个文本分类器模型，把用户问题通过分类器模型，识别出不同的推理逻辑类别，采用few-shot学习和思维链的方式建立相应的prompt，利用大模型的总结归纳能力返回答案。

进一步地，所述步骤S4还包括将得到的答案与本地建立的知识数据库做主题匹配计算相似度，如果相似度高于阈值则返回答案，如果低于阈值，则要结合知识图谱的实体再做归纳返回答案。

本发明对比现有技术有如下的有益效果：本发明提供的基于轻量级大模型的智能问答系统的构建方法，具体如下优点：

1.针对大模型对显卡需要大，成本高的问题，本技术找到一种轻量级模型结合本地知识库的应用方法，极大的降低了成本，实现了本地智能化应用落地。

2.大模型和本地知识库融合问题，在大模型和本地知识库的调用中，舍弃了通常使用的langchain技术，构建了自己的融合技术，避免了langchain技术的答案不受控问题。

3.用户问题和本地知识库融合问题，在用户问题和本地知识库的匹配过程中，使用bean-search的方法匹配到top的内容，然后用自己的方法进行编辑处理，变成一个知识范围的搜索，而不是单纯的问题搜索。

4.答案生成的过程中，舍弃了langchain的生成技术，采用自己的生成技术，生成精准专业的答案。

5.在构建本地专业智能助理的智能问答系统中，采用三级匹配的原则，而不是简单的一次大模型问答调用，保证了专业问题的专业级别回答。

6.在问题匹配中，采用embedding相似度和物理相似度同时作用的方法，避免了embedding的语义匹配不精准问题，保证了其语义和文字上面的双重相似，提高相似度的准确性。

7.根据本地知识库，生成本地知识类别，根据不同的类别生成本地知识推理逻辑分类，不同于本地知识图谱，本技术生成的本地知识推理逻辑，与大模型能够更好的融合。而传统的知识图谱是结构化知识，对大模型的支持不够灵活。

8.在构建答案过程中，增加了分类器，针对不同的问题，采用不同的答案生成逻辑，使得答案生成更加精准专业。

附图说明

图1为本发明采用三级匹配实现智能问答系统的流程示意图；

图2为本发明匹配最接近答案的知识并进行融合示意图；

图3为本发明采用双重相似度进行匹配示意图；

图4为本发明生成本地知识推理逻辑知识谱系示意图；

图5为本发明采用不同的逻辑生成答案示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

图1为本发明基于轻量级大模型的智能问答系统的构建流程示意图。

请参见图1，本发明提供的基于轻量级大模型的智能问答系统的构建方法，包括如下步骤：

S1、本发明中大模型没有调用OpenAI等大模型发布的api接口，而是选择开源可商用的轻量级大模型作为基座，部署到本地服务器，不受大模型联网的困扰，也不会因为接口而受到其他限制。

S2、本发明中，本地知识库的存放方式有3种：一种是向量化知识库，一种是QA对知识库，一种是专业知识文档。

S3、本发明中，智能问答系统分为三个匹配阶段：第一阶段是泛化问题精准匹配到本地QA对知识库，第二阶段将泛化问题匹配到向量知识库和专业知识库，具体请参见图2。

具体来说，首先用户的问题需要用embedding模型做泛化变成向量和相似文本。例如用户问题：“你好，XX科技的产品有哪些？”

该问题的embedding格式：<langchain.vectorstores.faiss.FAISS objectat0x7f2b49d69310>

然后本地知识库通过人工标注和文本理解的模型，构建成QA对知识库。根据QA对建立问题库:query_table.txt，利用embedding模型建立问题向量库。

根据余弦距离，计算出该问题余弦距离最近的topN个问题。具体余弦距离公式：

根据泛化出的topN个问题，匹配本地QA知识库，找出相近的topN个答案文本。

根据泛化出的topN个问题，利用大模型的文本理解和生成能力，生成与原问题相关的文本：“XX科技的公式介绍，产品，特点，优势介绍等。”根据这些文本，匹配到专业知识库，利用大模型找出专业的答案。

本发明在问答匹配过程中，除了embedding的语义匹配之外，增加了term重要度和tf-idf融合的文字匹配技术，保证了其语义和物理上面的双重相似度，避免了embedding技术不足带来的泛化不准确问题，请参见图3。

具体来说，用户问题的生成embedding格式：<langchain.vectorstores.faiss.FAISS object at 0x7f2b49d69310>，会用余弦距离计算与之相似的topN个相似本地知识问题文本。

再次用户问题“你好，XX科技的产品有哪些？”，根据同义词库，泛化为相似的n个问题文本，如：

“你好，XX科技公司的产品有什么？”

“您好，XX的产品是什么？”等等。

根据tfidf算法，计算出每个词的权重，利用每个词的权重与jaccard距离，计算本地知识问题库的相似度。

两句话sentenceA，sentenceB，先用分词模型做分词处理：word1，word2……，计算出两个词中

具体公式如下：

特别地，在这个相似度计算过程中，same_word的长度需要大于1，且需要过滤掉停用词。利用这个公式计算出的相似度与余弦距离计算出的相似度，设置融合公式：

similarity＝weight1*cos(sentenceA，sentenceB)+weight2*jaccard_{similarity(sentenceA，sentenceB)} (3)

此处weight是超参数，需要训练获得，cos距离和jaccard距离要归一化处理。根据阈值，选出topN的相似文本。利用这个方法得到的相似文本，即可以保留embedding语义相似的特征，也可以满足文本相似的特征，避免了因为embedding模型导致的信息缺失或者偏移问题。

在这个实例中，本发明可以通过这个方法来计算出与用户问题相近的文本：

query：我2000年入职，现在有几天年假？

similarity_query：年假

similarity_query：年休假

similarity_query：不享受当年年休假年假为0

similarity_query：带薪假日

similarity_query：事假时间单位

本发明针对本地知识库，生成本地知识推理逻辑知识谱系，与知识图谱不同的地方在于，本地知识推理逻辑更接近于思维链，更够更好的与大模型融合，而知识图谱用于结构化搜索，对大模型的支持不够灵活。

具体来说，本地知识资料，通过人工标注和实体提取等方法，建立本地QA对知识库和向量库，专业知识库。但是在对需要进行推理计算等专业相关的问题，轻量级的大模型推理能力并不能完全智能的准确回答。而建立本地知识图谱，依然需要大模型查询知识图谱给出答案，而轻量级大模型针对知识图谱的查询和识别能力依然有限。这就让需要进行专业推理的问题，无法给出专业而准确的答案。

本发明针对本地知识资料，做了独特的处理，即根据主题模型，抽取出本地知识的主题分类。针对每个主题分类，第一建立对用户问题的分类模型，第二建立针对每个主题建立独特的prompt，当识别出用户问题的类别之后，用独特prompt做处理，具体请参见图4。

举例来说，用户问题：“我2000年入职，今年有几天年假。”

首先，把人力资源制度的资料输入主题模型，得到不同的主题，举例5个结果如下：

top_words:检索部门技术索取浏览来源员工项目使用设定文档研发维护开发文件权限管理公司产品知识

top_words:意外补充离职疾病保额门急诊身故急诊员工职工保险人身保险公司住院范围签订医疗意外险理赔被保险人

top_words:用户话机安装拆移拆修加装传真机报修泄密分机管理不得公司自行人力资源部员工直线通讯设备通信电话

top_words:以免容易在案2020不高没收已登记电源插座大功率需至离开办公区域下班使用关闭功率设备电热取暖

top_words:超过婚假连续享受打卡工作冲抵年休假产假时间加班休假批准旷工员工累计考勤事假病假请假

从上面主题可以归纳出类别：技术文档维护、医疗保险、保密制度、物品维修、考勤休假。

其次，根据上面的主题归纳出来的类别，建立分类模型。具体来说，即在embedding的模型后面加一个分类器，可以把用户问题通过分类器，识别到不同的类别中，具体请参见图5。

针对上面这个例子来说，从分类模型中，识别出是休假类别。

然后，建立休假类别推算的prompt：

prp＝工龄是指从开始参加工作(入职)到现在的总工作年限，今年是2023年。\

问题:我工作满3年，年假有几天？推理:工作满3年，可知工龄有3年，工龄在1和10之间，得出年假有5天。

问题:工龄16年，年假有几天？推理:工龄16年，工龄在10和20之间，得出年假有10天。

问题，我入职24年，年假有几天？推理:工龄24年，工龄大于等于20年，得出年假有15天。

在此思路中，本发明采用了few-shot和思维链的方式，针对特定的推理，建立特定的few-shot的prompt，极大的提高了大模型的推理准确性。

根据这个推理prompt，针对问题“我2000年入职，今年有几天假”，可以准确得出问题的答案：根据已知知识，您的工作年限为23年，属于工龄大于等于20年的情况，所以您的年假为15天。

此过程是独立思考，并结合大模型推理过程中所需要的思维链和prompt提示语技术，是本发明独有的创造点。

在构建答案过程中先构造分类器，针对不同的逻辑推理，采用不同的逻辑生成答案，保证答案的准确性。

本发明提供的基于轻量级大模型的智能问答系统的构建方法，具有如下优点：

1.针对目前大模型调用接口受限，不好本地部署控制的问题，本技术方案提出了使用开源商用模型可以自助研发控制后续的应用，不再收到接口的局限。

2.针对目前大模型与本地知识融合不理想的问题，本技术方案提出了本地知识的分类处理，根据类别建立本地知识推理逻辑类别库，更好的与大模型融合，使得大模型答案更加精准。

3.针对目前大模型回答容易编造知识的问题，本技术方案提出了结合本地知识匹配到接近答案的知识集合，使得大模型产出的答案在本地知识范围内，不会产生编造的问题。

针对大模型的回答编造问题，本发明设置特定的prompt。在识别出对应的topN个QA对的answer文档后，把topN的answer文档做融合，利用大模型的总结归纳能力返回答案；并与本地建立的知识图谱，做主题匹配计算，即对大模型返回的答案，进行实体抽取，与本地知识图谱做相似度计算，高于阈值则返回答案，如果低于阈值，说明大模型的问题中编造内容较多，需要结合知识图谱的实体再做归纳返回答案。

针对目前大模型语义空间不完备，不具有专业语义的问题，本发明的技术方案提出了融合匹配技术，解决了训练样本语义偏差导致的专业性问题理解错误问题。

综上所述，针对以上问题的修复，使得轻量级大模型可以部署在消费级的显卡上，实现轻量级大模型的本地部署，实现了本地知识库和大模型结合的智能化应用落地。降低了大模型的使用门槛，可以让智能化应用落地到更多可适用的应用场景中。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种基于轻量级大模型的智能问答系统的构建方法，其特征在于，包括如下步骤：

S1)选择开源可商用的轻量级大模型作为基座，部署到本地服务器；

S2)在本地服务器存放向量化知识库、QA对知识库和专业知识库；

S3)将智能问答系统分为两个匹配阶段：第一匹配阶段将泛化问题精准匹配到本地QA对知识库，第二匹配阶段将泛化问题匹配到向量知识库和专业知识库；

S4)在第二匹配阶段中构建大模型的思维链提问技术，利用大模型构建出专业的精准回答。

2.如权利要求1所述的基于轻量级大模型的智能问答系统的构建方法，其特征在于，所述步骤S2还包括构建本地知识库的推理逻辑类别，对于本地知识资料，通过人工标注和实体提取方法，建立本地QA对知识库、向量化知识库和专业知识库；在构建专业知识库中采用自然语言技术拆分文档中的每句话，提取每句话的主题，构建类似思维链的专业知识库。

3.如权利要求1所述的基于轻量级大模型的智能问答系统的构建方法，其特征在于，所述步骤S3包括：对接收到的问题和本地QA对知识库进行匹配，如果有匹配结果则生成答案。

4.如权利要求3所述的基于轻量级大模型的智能问答系统的构建方法，其特征在于，所述步骤S3包括将用户的问题用embedding模型做泛化变成向量和相似文本，然后本地知识库通过人工标注和文本理解的模型，构建成QA对知识库，根据QA对建立问题库，利用embedding模型建立问题向量库；根据余弦距离，计算出该问题余弦距离最近的topN个问题；具体余弦距离公式：

5.如权利要求3所述的基于轻量级大模型的智能问答系统的构建方法，其特征在于，所述步骤S3针对文本的匹配，采用如下的双重相似度匹配方法：通过embedding的语义匹配获取语义相似度，对文本分词并根据term重要度获得tfidf-相似度，合并语义相似度和tfidf-相似度得出融合相似度。

6.如权利要求5所述的基于轻量级大模型的智能问答系统的构建方法，其特征在于，所述步骤S3具体包括：根据tfidf算法，计算出每个词的权重，利用每个词的权重与jaccard距离，计算本地知识问题库的相似度；

similarity＝weight1*cos(sentenceA,sentenceB)+weight2*jaccard_similarity(sentenceA,sentenceB) (3)

7.如权利要求1所述的基于轻量级大模型的智能问答系统的构建方法，其特征在于，所述步骤S4包括：当用户问题无法匹配到本地QA对时，在embedding的模型后面加一个文本分类器模型，把用户问题通过分类器模型，识别出不同的推理逻辑类别，采用few-shot学习和思维链的方式建立相应的prompt，利用大模型的总结归纳能力返回答案。

8.如权利要求1所述的基于轻量级大模型的智能问答系统的构建方法，其特征在于，所述步骤S4还包括将得到的答案与本地建立的知识数据库做主题匹配计算相似度，如果相似度高于阈值则返回答案，如果低于阈值，则要结合知识图谱的实体再做归纳返回答案。