CN117743556A

CN117743556A - 一种基于知识库的多轮问答意图识别方法及装置

Info

Publication number: CN117743556A
Application number: CN202410175322.3A
Authority: CN
Inventors: 何维; 周正斌; 肖美虹; 姚易佳; 胡誉; 陈泽源
Original assignee: Creative Information Technology Co ltd
Current assignee: Creative Information Technology Co ltd
Priority date: 2024-02-07
Filing date: 2024-02-07
Publication date: 2024-03-22
Anticipated expiration: 2044-02-07
Also published as: CN117743556B

Abstract

本发明提供了一种基于知识库的多轮问答意图识别方法及装置，属于意图识别技术领域。方法利用预设知识库文本的关键词集合与预处理后的问题文本进行相似度匹配，获得与问题文本相似的候选文本集合和对应的关键词集合；同时依据对候选文本集合进行第一分级阈值筛选和二级阈值分流，筛选出合适的文本输入预设大模型进行回答。在未能筛选到合适文本时，将问题文本与最近的历史问题文本结合，得到新的问题文本后，将其与候选文本集合输入预设大模型进行回答。本发明通过对多轮问答的问题意图进行识别，将历史问题中的重要信息识别出来与当前问题组合后在知识库中进行匹配，提高了用户输入意图匹配度，解决了多轮问答意图难以识别的问题。

Description

一种基于知识库的多轮问答意图识别方法及装置

技术领域

本发明涉及意图识别技术领域，尤其涉及一种基于知识库的多轮问答意图识别方法及装置。

背景技术

意图识别是判断用户输入的文本意思、要做什么，具体包含输入文本的主题、类别以及其他细粒度意图信息。多轮问题的意图识别主要是判断用户输入问题与历史问题的关系。从而将历史问题中的重要信息加入到当前问题中来，使其与用户真正的意图相匹配。

通常，大模型中多轮问答一般式将历史问题与答案同时输入大模型，大模型根据历史问题与答案，结合当前问题生成答案。但是大模型产生“幻觉”问题较为严重，回答的答案准确性无法保证。知识库与大模型结合使用能有效消除大模型“幻觉”问题、增加大模型在垂直领域问答更为专业。知识库的使用形态主要表现为向量化存储与搜索。然而，现有的向量搜索工具与技术，难以准确判断用户问题之间的关系，以及难以匹配出准确信息以供大模型参考生成答案，对多轮问答意图识别的准确率不高。

发明内容

有鉴于此，本发明实施例提供了一种基于知识库的多轮问答意图识别方法及装置，用以解决现有意图识别技术对多轮问答意图难以识别的问题。

本发明采用的技术方案是：

第一方面，本发明提供了一种基于知识库的多轮问答意图识别方法，包括：

获取预处理后的问题文本；

利用预设知识库文本的关键词集合与所述问题文本进行相似度匹配，获得与所述问题文本相似的候选文本集合和对应的关键词集合；

依据文本相似度对所述候选文本集合进行筛选，若所述候选文本集合中存在文本相似度大于第一分级阈值的文本，则将文本相似度大于第一分级阈值的文本输入预设大模型进行回答；

若所述候选文本集合中不存在文本相似度大于第一分级阈值的文本，则对所述问题文本进行成分句法分析，获得对应的问题关键信息集合；

对所述问题关键信息集合与所述关键词集合进行编辑距离相似度匹配计算，获得编辑距离匹配结果；

对所述编辑距离匹配结果进行二级阈值分流，若所述编辑距离匹配结果中存在编辑距离匹配个数大于第二分级阈值的文本，则将编辑距离匹配个数大于第二分级阈值的文本输入预设大模型进行回答；

若所述编辑距离匹配结果中不存在编辑距离匹配个数大于第二分级阈值的文本，则将所述问题文本与最近的历史问题文本结合，获得新的问题文本；

依据新的问题文本与所述候选文本集合输入预设大模型进行回答。

进一步地，所述获取预处理后的问题文本，包括：

基于预设数据清洗规则对用户输入的问题文本进行数据清洗，去除所述问题文本中的无效字符，得到预处理后的问题文本；所述无效字符包含无效的标点符号、语气词和乱码字符。

进一步地，所述利用预设知识库文本的关键词集合与所述问题文本进行相似度匹配，获得与所述问题文本相似的候选文本集合和对应的关键词集合，包括：

对所述问题文本进行关键词抽取，获取所述问题文本的关键词集合；

基于所述问题文本的关键词集合，在预设知识库文本中进行问题匹配查询，获得具有与所述问题文本的关键词集合相同的候选文本；

对所述问题文本和所述候选文本进行相似度计算，并按照预设评分标准对相似度计算结果进行评分和排名，将相似度得分排名前十的候选文本、候选文本的相似度得分和候选文本的主题作为候选文本集合；

将所述问题文本匹配到的最高相似度的候选文本的主题记为max_topic。

进一步地，所述对所述问题文本进行成分句法分析，获得对应的问题关键信息集合，包括：

利用成分句法分析算法对所述问题文本的词语语法进行分析，抽取出问题文本的名词短语；

将所述问题文本输入大模型ChatGLM2-6B，生成所述问题文本的关键词，并将所述问题文本的名词短语和问题文本的关键词作为关键信息集合。

进一步地，所述将所述问题文本与最近的历史问题文本结合，获得新的问题文本，包括：

以最高相似度的候选文本作为历史问题文本，将最高相似度的候选文本的主题max_topic与当前问题文本进行拼接，得到新的问题文本。

第二方面，本发明提供一种基于知识库的多轮问答意图识别装置，包括：

问题预处理模块，用于获取预处理后的问题文本；

问题匹配模块，用于利用预设知识库文本的关键词集合与所述问题文本进行相似度匹配，获得与所述问题文本相似的候选文本集合和对应的关键词集合；

一级候选文本筛选模块，用于依据文本相似度对所述候选文本集合进行筛选，若所述候选文本集合中存在文本相似度大于第一分级阈值的文本，则将文本相似度大于第一分级阈值的文本输入预设大模型进行回答；

关键信息抽取模块，用于当所述候选文本集合中文本不存在文本相似度大于第一分级阈值的文本时，对所述问题文本进行成分句法分析，获得对应的问题关键信息集合；

二级候选文本筛选模块，用于对所述问题关键信息集合与所述关键词集合进行编辑距离相似度匹配计算，获得编辑距离匹配结果；

二级阈值分流模块，用于对所述编辑距离匹配结果进行二级阈值分流，若所述编辑距离匹配结果中存在编辑距离匹配个数大于第二分级阈值的文本，则将编辑距离匹配个数大于第二分级阈值的文本输入预设大模型进行回答；

历史问题结合模块，用于当所述编辑距离匹配结果中不存在编辑距离匹配个数大于第二分级阈值的文本时，将所述问题文本与最近的历史问题文本结合，获得新的问题文本；

问题答复模块，用于依据新的问题文本与所述候选文本集合输入预设大模型进行回答。

综上所述，本发明的有益效果如下：

本发明提供的一种基于知识库的多轮问答意图识别方法，先利用预设知识库文本的关键词集合与问题文本进行相似度匹配，获得与问题文本相似的候选文本集合和对应的关键词集合，以此候选文本集合作为大模型问答该问题的依据。然后依据文本相似度对所述候选文本集合进行筛选，将文本相似度大于第一分级阈值的文本输入预设大模型进行回答，并在候选文本集合中文本不存在文本相似度大于第一分级阈值的文本时，抽取出问题文本的关键信息集合进行编辑距离相似度匹配计算，得到编辑距离匹配结果后进行二级阈值分流，筛选出编辑距离匹配个数大于第二分级阈值的文本输入预设大模型进行回答。最后，在编辑距离匹配个数大于第二分级阈值的文本，将问题文本与最近的历史问题文本结合，得到新的问题文本后，将其与候选文本集合输入预设大模型进行回答，通过对多轮问答的问题意图进行识别，将历史问题中的重要信息识别出来与当前问题组合后在知识库中进行匹配，再根据匹配得分或匹配结果进行判断组合的优劣，使得方法适用于多种数据、多个专业领域的多轮问答问题的意图识别，提高了用户输入意图匹配度，解决了多轮问答意图难以识别的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为本发明的一种基于知识库的多轮问答意图识别方法流程示意图；

图2为本发明的一种基于知识库的多轮问答意图识别装置的模块结构示意图；

图3为本发明的成分句法分析示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。如果不冲突，本发明以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。

实施例1：

请参见图1，图1为本发明实施例1中的一种基于知识库的多轮问答意图识别方法。本实施例提供的方法包括以下步骤：

S101：获取预处理后的问题文本；

S102：利用预设知识库文本的关键词集合与所述问题文本进行相似度匹配，获得与所述问题文本相似的候选文本集合和对应的关键词集合；其中，关键词集合指的是候选文本中的关键词集合。

S103：依据文本相似度对所述候选文本集合进行筛选，若所述候选文本集合中存在文本相似度大于第一分级阈值的文本，则将文本相似度大于第一分级阈值的文本输入预设大模型进行回答；

S104：若所述候选文本集合中不存在文本相似度大于第一分级阈值的文本，则对所述问题文本进行成分句法分析，获得对应的问题关键信息集合；

S105：对所述问题关键信息集合与所述关键词集合进行编辑距离相似度匹配计算，获得编辑距离匹配结果；

S106：对所述编辑距离匹配结果进行二级阈值分流，若所述编辑距离匹配结果中存在编辑距离匹配个数大于第二分级阈值的文本，则将编辑距离匹配个数大于第二分级阈值的文本输入预设大模型进行回答；

S107：若所述编辑距离匹配结果中不存在编辑距离匹配个数大于第二分级阈值的文本，则将所述问题文本与最近的历史问题文本结合，获得新的问题文本；

S108：依据新的问题文本与所述候选文本集合输入预设大模型进行回答。

其中，本发明实施例基于知识库，对多轮问答的问题意图进行识别，将历史问题中的重要信息识别出来与当前问题组合，在知识库中匹配，再根据匹配得分进行判断组合的优劣，创造了一种适用于多种数据、多个专业领域的多轮问答问题的意图识别方法。

进一步地，本发明步骤S101中的获取预处理后的问题文本，包括以下过程：

基于预设数据清洗规则对用户输入的问题文本进行数据清洗，去除问题文本中的无效字符，得到预处理后的问题文本。其中，无效字符包含无效的标点符号、语气词和乱码字符。例如，无效的“!”、“/”、“?”、“@”、“#”、语气词、乱码字符等。

具体的，数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。本发明实施例设置预设数据清洗规则是为了避免错误数据对意图识别准确度的影响。预设数据清洗规则主要包含重复数据清洗、不完整数据清洗、数据格式清洗、错误数据清洗等内容。

具体的，预设知识库文本是预先收集的问答数据，其包含历史问题文本、问题答复文本等内容。

进一步地，在一个实施例中，步骤S102中利用预设知识库文本的关键词集合与所述问题文本进行相似度匹配，获得与所述问题文本相似的候选文本集合和对应的关键词集合，包括以下子步骤：

S1021：对问题文本进行关键词抽取，获取问题文本的关键词集合，以便后续计算文本相似度。

S1022：基于问题文本的关键词集合，在预设知识库文本中进行问题匹配查询，获得具有与所述问题文本的关键词集合相同的候选文本。

S1023：对问题文本和候选文本进行相似度计算，并按照预设评分标准对相似度计算结果进行评分和排名，将相似度得分排名前十的候选文本、候选文本的相似度得分和候选文本的主题作为候选文本集合。

其中，本发明实施例预设知识库文本具体为向量数据库Milvus，问题匹配查询是通过在向量数据库Milvus中查询得到。问题匹配目的是找出知识库中与问题相似的候选文本集合、文本相对应的相似度得分和文本对应的主题。以此候选文本集合作为大模型问答该问题的依据。

同时，相似度计算是通过统计词语、句子等在一段文本中的出现频率来判断文本的相似度。本发明实施例的相似度计算过程可以采用现有的文本相识度算法实现，如余弦相似性、简单共有词、编辑距离、SimHash、汉明距离、Jaccard相似性系数、欧几里得距离、曼哈顿距离等算法。在计算出候选文本与问题文本的相似度后，按照预设评分标准进行评分，即可获得候选文本的相似度得分。

S1024：将问题文本匹配到的最高相似度的候选文本的主题记为max_topic，以便后续进行主题结合。

具体的，本发明实施例的步骤S103主要是对候选文本集合进行一级阈值分流，其依据文本相似度对候选文本集合进行筛选，当存在相似度得分大于第一分级阈值的文本时，则表明该问题已经找到最佳的匹配文本，直接将该问题与匹配的文本输入大模型进行回答即可。第一分级阈值可以根据匹配的准确度进行设置，例如10分、9分、8分等。

在具体实施过程中，在向量数据库Milvus中查询出当前问题与向量数据库中文本对应的关键词进行相似度计算，找出相似度得分前10的候选文本片段作为候选文本集合,其中还包括字段，关键词集合、相似度得分、主题等内容。

如“石油集输管道验收标准”，对应的主题为“集输管道”，关键词集合为[“石油”、“集输管道”、验收标准]。

进一步地，在一个实施例中，对问题文本进行成分句法分析，获得对应的问题关键信息集合，包括以下过程：

利用成分句法分析算法对问题文本的词语语法进行分析，抽取出问题文本的名词短语；

将问题文本输入大模型ChatGLM2-6B，生成问题文本的关键词，并将问题文本的名词短语和问题文本的关键词作为关键信息集合，关键信息集合一般包括一个及一个以上的关键信息。

其中，抽取关键信息的方法使用成分句法分析算法，调用hanlp库实现。

生成关键信息的ChatGLM2-6B大模型经过政务领域、能源领域、基础工程质检等领域数据微调得到。

具体的，如图2所示，调用hanlp库的成分句法分析算法，分析“塔体的验收标准和一般规则是什么？”，提取其中的名词短语NP作为关键信息[“塔体”、“验收标准”、“一般规则”]。

ChatGLM2-6B大模型对该问题生成的信息为“质检”，所以最终的关键信息集合为[“塔体”，“验收标准”，“一般规则”,“质检”]。

进一步地，在一个实施例中，将问题文本与最近的历史问题文本结合，获得新的问题文本，包括以下过程：

以最高相似度的候选文本作为历史问题文本，将最高相似度的候选文本的主题max_topic与当前问题文本进行拼接，得到新的问题文本。通过将当前问题与最高相似度的候选文本的主题进行结合，生成新的问题，以此识别用户多个问题之间的关系。

具体的，本发明实施例中的二级阈值分流主要是对候选文本进行二次筛选，问题关键信息集合与关键词集合的匹配使用编辑距离算法进行，具体方法如下：

对问题关键信息集合中的每一个关键信息，分别匹配候选文本集合中文本所对应的关键词，当编辑距离匹配得分大于第二分级阈值（第二分级阈值一般设为0.8）时，表示匹配命中该关键信息，记录每一个文本关键词命中问题关键信息的个数。

比如：问题关键信息集合为：[“塔体”，“验收标准”，“一般规则”,“质检”]，候选文本的关键词集合为[“石油”、“集输管道”、验收标准]，分别遍历问题关键信息集合与候选文本的关键词集合，得到能匹配到的关键信息为“验收标准”，即命中数为1个。

筛选关键信息命中数大于阈值的文本作为最终当前问题匹配成功的文本输入预设大模型回答。

具体的，本发明实施例的方法在将最高相似度的候选文本的主题max_topic与当前问题文本进行拼接之后，还包括：判断是否已与历史问题主题组合过；若未组合过则再次执行步骤S102至S107，否则，回答操作停止。

例如，问题“石油集输管道验收标准”经过上述步骤S101至S107未得到最终的匹配文本，结合上一个历史问题的主题“质检”，得到新问题“质检领域石油集输管道验收标准”，重新匹配上述步骤，若有满足条件的文本，表示用户的完整意图为上一个问题与当前问题结合。

本发明实施例适用于多种数据、多个专业领域的多轮问答问题的意图识别，提高了用户输入意图匹配度，解决了多轮问答意图难以识别的问题。

问题预处理模块1001，用于获取预处理后的问题文本；

问题匹配模块1002，用于利用预设知识库文本的关键词集合与所述问题文本进行相似度匹配，获得与所述问题文本相似的候选文本集合和对应的关键词集合；

一级候选文本筛选模块1003，用于依据文本相似度对所述候选文本集合进行筛选，若所述候选文本集合中存在文本相似度大于第一分级阈值的文本，则将文本相似度大于第一分级阈值的文本输入预设大模型进行回答；

关键信息抽取模块1004，用于当所述候选文本集合中文本不存在文本相似度大于第一分级阈值的文本时，对所述问题文本进行成分句法分析，获得对应的问题关键信息集合；

二级候选文本筛选模块1005，用于对所述问题关键信息集合与所述关键词集合进行编辑距离相似度匹配计算，获得编辑距离匹配结果；

二级阈值分流模块1006，用于对所述编辑距离匹配结果进行二级阈值分流，若所述编辑距离匹配结果中存在编辑距离匹配个数大于第二分级阈值的文本，则将编辑距离匹配个数大于第二分级阈值的文本输入预设大模型进行回答；

历史问题结合模块1007，用于当所述编辑距离匹配结果中不存在编辑距离匹配个数大于第二分级阈值的文本时，将所述问题文本与最近的历史问题文本结合，获得新的问题文本；

问题答复模块1008，用于依据新的问题文本与所述候选文本集合输入预设大模型进行回答。

具体的，当用户问题输入问题预处理模块1001，该模块基于预设数据清洗规则，将无效的标点符号、语气词、乱码字符等去除。接着将清洗过的问题文本输入问题匹配模块1002，目的是找出知识库中与问题相似的候选文本集合、候选文本相对应的相似度得分和对应的主题。进入一级候选文本筛选模块1003，筛选出相似度得分大于预先设置的阈值，当存在相似度得分大于阈值的文本时，则表明该问题已经找到最佳的匹配文本，直接将该问题与匹配的文本输入大模型回答。否则将问题输入问题的关键信息抽取模块1004，提取当前问题中的名词短语抽取和关键信息生成出来，构建出当前问题的关键信息集合。再进入二级候选文本筛选模块1005和二级阈值分流模块1006，将关键信息与候选文本的关键词进行匹配，匹配命中关键信息数大于阈值直接输入大模型，否则进入历史问题结合模块1007，将当前问题与最近的历史问题文本（即最高相似度的候选文本）进行组合，生成新问题，重新走以上流程。

具体的，本发明实施例的装置还包括主题组合判断模块，用于在将最高相似度的候选文本的主题max_topic与当前问题文本进行拼接之后，判断是否已与历史问题主题组合过；若未组合过则再次进入模块1001~1007进行匹配，否则，回答操作停止。

例如，问题“石油集输管道验收标准”经过上述模块1001~1007未得到最终的匹配文本，结合上一个历史问题的主题“质检”，得到新问题“质检领域石油集输管道验收标准”，重新匹配上述步骤，若有满足条件的文本，表示用户的完整意图为上一个问题与当前问题结合。

本发明实施例的装置适用于多种数据、多个专业领域的多轮问答问题的意图识别，提高了用户输入意图匹配度，解决了多轮问答意图难以识别的问题。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于知识库的多轮问答意图识别方法，其特征在于，包括：

获取预处理后的问题文本；

2.根据权利要求1所述的基于知识库的多轮问答意图识别方法，其特征在于，所述获取预处理后的问题文本，包括：

3.根据权利要求1所述的基于知识库的多轮问答意图识别方法，其特征在于，所述利用预设知识库文本的关键词集合与所述问题文本进行相似度匹配，获得与所述问题文本相似的候选文本集合和对应的关键词集合，包括：

4.根据权利要求1所述的基于知识库的多轮问答意图识别方法，其特征在于，所述对所述问题文本进行成分句法分析，获得对应的问题关键信息集合，包括：

5.根据权利要求1所述的基于知识库的多轮问答意图识别方法，其特征在于，所述将所述问题文本与最近的历史问题文本结合，获得新的问题文本，包括：

6.一种基于知识库的多轮问答意图识别装置，其特征在于，包括：

问题预处理模块，用于获取预处理后的问题文本；