CN117093698A - 基于知识库的对话生成方法、装置、电子设备及存储介质 - Google Patents

基于知识库的对话生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117093698A
CN117093698A CN202311353169.0A CN202311353169A CN117093698A CN 117093698 A CN117093698 A CN 117093698A CN 202311353169 A CN202311353169 A CN 202311353169A CN 117093698 A CN117093698 A CN 117093698A
Authority
CN
China
Prior art keywords
corpus
information
matched
knowledge base
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311353169.0A
Other languages
English (en)
Other versions
CN117093698B (zh
Inventor
谭克强
王帅
陈玉梅
雷成铭
赵磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Shutian Information Technology Co ltd
Original Assignee
Sichuan Shutian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Shutian Information Technology Co ltd filed Critical Sichuan Shutian Information Technology Co ltd
Priority to CN202311353169.0A priority Critical patent/CN117093698B/zh
Publication of CN117093698A publication Critical patent/CN117093698A/zh
Application granted granted Critical
Publication of CN117093698B publication Critical patent/CN117093698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于知识库的对话生成方法、装置、电子设备及存储介质,包括:获取用户输入信息,将用户输入信息进行向量化处理,得到问题向量;根据预设知识库对问题向量进行匹配,得到第一相似度;将第一相似度大于或等于预设匹配阈值对应的语料信息标记为第一待选匹配语料;判断第一待选匹配语料的数量是否大于0;如果是,则根据第一相似度对第一待选匹配语料进行排列和筛选,得到筛选后的语料信息,并将筛选后的语料信息作为第一检索信息;将第一检索信息和用户输入信息构成第一提示词;将第一提示词输入大模型中,生成对应的应答信息;提高对话大模型对本次用户输入意图的识别,进而提高应答信息的准确性。

Description

基于知识库的对话生成方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能对话技术领域,尤其是涉及基于知识库的对话生成方法、装置、电子设备及存储介质。
背景技术
通用语言模型在训练时通常使用大规模数据进行预训练,并采用多种常用指令进行调整使其易于与人类沟通,因而他们能够处理各种类型的任务,不仅限于某一个特定任务或领域,其在需要具有丰富知识的通用任务中具有明显优势。但是在细分的专业领域,由于缺少垂直的、专业的领域知识,通用语言模型在可信度、精准度和专业度方面还存在一些不足。
考虑到通用语言模型不能很好的处理特定专业领域的自然语言任务,则整合特定领域的知识对大语言模型进行调优构建垂直领域大语言模型,以具备更高的领域专业性和实用性。例如,想要得到如专精四大名著知识的语言模型、专精小学算术的语言模型等特定场景大模型,需要至少上千条该对应领域内高质量标注的特定语料数据对通用语言模型进行微调。而针对类似专精金融知识大模型、专精法律知识大模型等行业大模型,则需要至少上白万条该对应领域内高质量标注的特定语料数据对通用语言模型进行微调。
由此可见,无论是特定场景大模型还是行业大模型其在调优的过程中均需要大量特定领域数据,因此将面临数据收集和标注的挑战。而且,由于特定领域数据收集的困难性和高成本,以及标注数据要求的高专业性提高了通用语言模型进行调优训练的限制门槛,严重制约了通用语言模型在特定知识领域中的应用。
发明内容
有鉴于此,本发明的目的在于提供一种基于知识库的对话生成方法、装置、电子设备及存储介质,本申请中不需要利用专业领域知识语料对通用语言模型进行调优,而是基于知识库对用户输入信息进行匹配定位构建检索信息,利用检索信息与用户输入信息构造提示词作为原始通用语言模型的输入得到对应的应答信息,进而完成专业特定领域知识对话任务,解决通用语言模型完成特定领域知识问答任务需要大量高质量专业知识语料进行调优而造成的成本高、数据收集困难和高质量数据标注不易等问题。
第一方面,本发明实施例提供了基于知识库的对话生成方法,所述方法包括:
获取用户输入信息,将所述用户输入信息进行向量化处理,得到问题向量;
根据预设知识库对所述问题向量进行匹配,得到第一相似度;
将所述第一相似度大于或等于预设匹配阈值对应的语料信息标记为第一待选匹配语料;
判断所述第一待选匹配语料的数量是否大于0;
如果是,则根据所述第一相似度对所述第一待选匹配语料进行排列和筛选,得到筛选后的语料信息,并将所述筛选后的语料信息作为第一检索信息;
将所述第一检索信息和所述用户输入信息构成第一提示词;
将所述第一提示词输入大模型中,生成对应的应答信息。
第二方面,本发明实施例提供了基于知识库的对话生成装置,所述装置包括用于执行如上所述的基于知识库的对话生成方法的各个模块,所述模块包括:
获取模块,用于获取用户输入信息,将所述用户输入信息进行向量化处理,得到问题向量;
匹配模块,用于根据预设知识库对所述问题向量进行匹配,得到第一相似度;
标记模块,用于将所述第一相似度大于或等于预设匹配阈值对应的语料信息标记为第一待选匹配语料;
判断模块,用于判断所述第一待选匹配语料的数量是否大于0;
排列和筛选模块,用于在所述数量大于0的情况下,根据所述第一相似度对所述第一待选匹配语料进行排列和筛选,得到筛选后的语料信息,并将所述筛选后的语料信息作为第一检索信息;
构成模块,用于将所述第一检索信息和所述用户输入信息构成第一提示词;
输入模块,用于将所述第一提示词输入大模型中,生成对应的应答信息。
第三方面,本发明实施例提供了电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
第四方面,本发明实施例提供了具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行如上所述的方法。
本发明实施例提供了基于知识库的对话生成方法、装置、电子设备及存储介质,包括:获取用户输入信息,将用户输入信息进行向量化处理,得到问题向量;根据预设知识库对问题向量进行匹配,得到第一相似度;将第一相似度大于或等于预设匹配阈值对应的语料信息标记为第一待选匹配语料;判断第一待选匹配语料的数量是否大于0;如果是,则根据第一相似度对第一待选匹配语料进行排列和筛选,得到筛选后的语料信息,并将筛选后的语料信息作为第一检索信息;将第一检索信息和用户输入信息构成第一提示词;将第一提示词输入大模型中,生成对应的应答信息;利用第一检索信息与用户输入信息构造第一提示词,可以从第一检索信息与用户输入信息的上下文的语料信息中准确理解用户的真实意图。本申请中不需要利用专业领域知识语料对通用语言模型进行调优,而是通过用户的问题先行在知识库中进行匹配定位,并在该匹配到的知识库的范围内进行向量相似度的匹配,即构建提示词,并将该提示词作为大语言模型的输入得到对应的应答信息,进而完成专业特定领域知识对话任务。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的基于知识库的对话生成方法流程图;
图2为本发明实施例二提供的另一基于知识库的对话生成方法流程图;
图3为本发明实施例三提供的基于知识库的对话生成装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相对于现有大语言模型,本申请中不需要利用专业领域知识语料对通用语言模型进行调优,而是通过用户的问题先行在知识库中进行匹配定位,并在该匹配到的知识库的范围内进行向量相似度的匹配,即构建提示词,并将该提示词作为大语言模型的输入得到对应的应答信息,进而完成专业特定领域知识对话任务。
另外,当问题向量可以在预设知识库中匹配到应答信息的场景下,从预设知识库中筛选预设数量的语料信息作为问题向量的关联上下文,并将其与问题向量一起作为大语言模型的检索信息,可以避免仅以当前问题向量进行检索匹配的局限问题,能够从上下文的语料信息中准确理解用户的真实意图,提高检索匹配的准确度。
当问题向量在预设知识库中匹配不到应答信息的场景下,利用搜索引擎提供的API或者使用爬虫技术对问题向量进行实时搜索,解决了因预设知识库有限而引起的存在问答知识盲区的技术问题。
为便于对本实施例进行理解,下面对本发明实施例进行详细介绍。
实施例一:
图1为本发明实施例一提供的基于知识库的对话生成方法流程图。
参照图1,该方法包括以下步骤:
步骤S101,获取用户输入信息,将用户输入信息进行向量化处理,得到问题向量;
具体地,当从客户端获取用户输入信息后,需要先判断用户输入信息是否为文本信息,如果是,则将用户输入信息进行向量化处理,得到问题向量;如果否,则将用户输入信息(音频信息等非文本信息)转化为文本信息后,再进行向量化处理。
步骤S102,根据预设知识库对问题向量进行匹配,得到第一相似度;
这里,根据问题向量在预设知识库中语料信息进行相似匹配,并计算预设知识库中每个子库中的语料信息与问题向量的第一相似度。
步骤S103,将第一相似度大于或等于预设匹配阈值对应的语料信息标记为第一待选匹配语料;
步骤S104,判断第一待选匹配语料的数量是否大于0;
步骤S105,如果是,则根据第一相似度对第一待选匹配语料进行排列和筛选,得到筛选后的语料信息,并将筛选后的语料信息作为第一检索信息;
步骤S106,将第一检索信息和用户输入信息构成第一提示词;
步骤S107,将第一提示词输入大模型中,生成对应的应答信息。
相对于仅以当前用户输入信息进行检索匹配,本申请中利用第一检索信息与用户输入信息构造为第一提示词,可以从第一检索信息与用户输入信息的上下文的语料信息中准确理解用户的真实意图,解决单以当前用户提问信息进行匹配的局限性的问题,提高对话大模型对本次用户输入意图的识别,进而提高应答信息的准确性。
进一步的,预设知识库通过以下方式构建,具体步骤为:
步骤S201,获取文本格式的领域内文章;
步骤S202,根据预设标点符号和预设字符数对文本格式的领域内文章进行分割,得到分割后的文本信息;
具体地,在获取领域内文章后,先判断领域内文章的格式是否为文本格式;如果是,则基于预设标点符号和字符数对文本格式的领域内文章进行分割,得到分割后的文本信息;如果否,则将领域内文章的格式转化为文本格式,然后再对转化为文本格式的领域内文章进行分割。
具体分割过程为:获取某个特定专业领域内的相关文章,当文章格式为文本时,则根据预设标点符号进行初次分割;然后判断分割后的文本字符是否超过预设字符数;如果是,则进行二次分割。本申请中,首先是按照换行符进行断句,然后是按照英文省略号、中文省略号、双引号进行断句,(分号、破折号、英文双引号不做断句处理)。其次,还设置一个预设字符数,如果分割后的文本片段的字符超过预设字符数,则再次进行分割。
对获取的文本信息进行分割处理,可以保证分割后的片段在向量化处理过程中不会存在信息丢失的问题,且便于后期在进行问题匹配时,能够从大量的原文信息中截取到与问题信息匹配度更高的文段信息,将其作为大语言模型的输入信息,避免过多无效信息输入大语言模型产生干扰而影响最终应答信息的准确率。
步骤S203,根据分割后的文本信息进行向量化处理,得到M个文本特征向量,其中,M为正整数;
这里,利用Word2Vec、Sentence-BERT和CoSENT等多种文本表征工具,将分割后的文本信息进行向量化处理,得到M个文本特征向量。
步骤S204,从M个文本特征向量中选取预设个数的文本特征向量作为第一簇,第一簇为初始聚类中心的中心点;
步骤S205,从未被选取的文本特征向量中选取与第一簇的距离大于预设距离阈值的文本特征向量;
步骤S206,将选取的文本特征向量分配到第一簇中,并且重新计算第一簇中所有样本的均值后得到第二簇,第二簇为下一迭代循环的聚类中心的中心点;
具体地,从M个文本特征向量中选取预设个数的文本特征向量作为第一簇,然后在未被选取的文本特征向量中,计算每个文本特征向量分别到每个聚类中心点的距离;然后选取与第一簇的距离大于预设距离阈值的文本特征向量;将选取的文本特征向量重新分配到第一簇中;并且重新计算第一簇中所有样本的均值后得到第二簇,第二簇为下一迭代循环的聚类中心的中心点。
步骤S207,计算每个文本特征向量分别到第二簇的距离,直至相邻的第一簇和第二簇的聚类中心的中心点位置不变,或者达到预设迭代次数后,得到分类后的子库;
步骤S208,根据分类后的子库构建预设知识库。
具体地,对分割后的文本信息先进行向量化处理后再进行分类处理,便于后期针对问题向量进行子库的相似度匹配,快速定位与用户输入信息相关的知识库,提高响应用户提问的精准度。
进一步的,步骤S104包括以下步骤:
步骤S301,在第一待选匹配语料的数量不大于0的情况下,根据搜索引擎或爬虫技术对用户输入信息进行搜索,得到搜索结果;
步骤S302,对搜索结果进行提取,得到第二检索信息;
步骤S303,将第二检索信息和用户输入信息构成第二提示词;
步骤S304,将第二提示词输入大模型中,生成对应的应答信息。
具体地,第一待选匹配语料的数量不大于0的情况下,则说明当前用户提问在预设知识库中无法匹配对应的应答信息,则使用搜索引擎提供的API或者使用爬虫技术对问题向量进行搜索,并且基于检索结果访问前N个链接,并分别逐个提取关于问题向量的相关信息,然后整合得到第二检索信息,并利用第二检索信息与用户输入信息构造第二提示词,将其作为大语言模型的输入信息,以提高应答信息的准确率。
进一步的,为了避免对文本信息分割粒度过细,而使得语料信息中没有包含关键信息的问题,故在步骤S105前,将通过意图识别的方式寻找的上下文补充信息也作为检索信息,可以对用户输入信息进行语境信息的扩充,以提高大模型对用户输入信息意图识别的准确性。
具体地,在步骤S105前,该方法还包括以下步骤:
步骤S401,将第一待选匹配语料进行意图识别,得到第一意图;
步骤S402,将用户输入信息进行意图识别,得到第二意图;
具体地,将预设筛选个数的所有第一待选匹配语料作为意图识别模型的输入信息进行识别,得到第一意图;将用户输入信息输入意图识别模型中进行识别,得到第二意图。本申请中,意图识别模型可以是基于词典规则模板算法、LSTM+Attention算法、基于NLU意图识别算法、百度unit意图识别算法等,在其他实施例中也可以是其他适配意图识别模型,具体不做限制。
步骤S403,判断第一意图和第二意图是否一致;
步骤S404,如果是,则根据第一相似度对第一待选匹配语料进行排列和筛选;
步骤S405,如果否,则确定第一待选匹配语料在预设知识库中对应文章的位置信息,根据位置信息在文章中截取相应文本进行关键信息补充,得到更新后的待匹配语料。
具体地,当第一意图和第二意图一致时,说明根据当前筛选的第一待选匹配语料推测出的第一意图,与用户输入信息推测出的第二用户意图相符,进而推测出当前筛选的第一待选匹配语料已经包含关键信息,不需要对当前筛选的第一待选匹配语料进行关键信息的补充,然后进行降序排列即可;并用第一待选匹配语料和用户输入信息构建第一提示词。当第一意图和第二意图不一致时,说明根据当前筛选的第一待选匹配语料推测出的第一意图,与用户输入信息推测出的第二用户意图不相符,说明当前筛选的第一待选匹配语料中没有包含关键信息,则需要确定第一待选匹配语料在原对应文章中的位置信息,如在哪一篇文章的第几段第几行等。根据位置信息在文章中截取相应文本进行关键信息补充,得到更新后的待匹配语料。
本申请中,将第一待选匹配语料对应的第一意图做预测结果,将用户输入信息对应的第二意图做检测结果,通过预测结果和检测结果的对比判断当前待选匹配语料中是否缺少关键信息,能够提高用户提问信息的关联上下文信息的有效性,进而提高最终获得提示词的精准度,有利于后期大语言模型基于该提示词生成更为准确的应答信息。
进一步的,在步骤S405后,该方法还包括以下步骤:
步骤S501,将更新后的待匹配语料与问题向量进行匹配,得到第二相似度;
步骤S502,将第二相似度大于或等于预设匹配阈值对应的语料信息标记为第二待选匹配语料;
步骤S503,当第二待选匹配语料大于0时,根据第二相似度对第二待选匹配语料进行排列和筛选后,构建第一检索信息。
具体地,当对语料内的关键信息进行补充后,得到更新后的待匹配语料;然后再继续将更新后的待匹配语料与问题向量进行匹配,得到第二相似度;若相似度小于预设匹配阈值,则直接使用搜索引擎提供的API或者使用爬虫技术对问题向量进行搜索,并且基于检索结果访问前N个链接,并分别逐个提取关于问题向量的相关信息,然后整合得到第一检索信息。
进一步的,步骤S401包括以下步骤:
步骤S601,将每个第一待选匹配语料分别输入意图识别模型中进行识别,得到多个子意图;
步骤S602,计算每个子意图对应的关联系数;
步骤S603,从每个子意图对应的关联系数中选取最大的关联系数;
步骤S604,将最大的关联系数对应的子意图作为第一意图。
具体地,将每个第一待选匹配语料分别输入意图识别模型中进行识别,对应得到多个子意图。例如:N条第一待选匹配语料对应有N个子意图。
每种子意图的关联系数可以是该类子意图出现频次占所有子意图出现次数的百分比。在本实施例中,关联系数的计算方法为:首先针对所有子意图将相同意图对应待选匹配语料分为一类,计算每类子意图对应待选匹配语料占所有待选匹配语料总量的百分比,然后根据公式(1)计算关联系数:
(1)
其中,为第i类子意图对应的关联系数,/>为第i类子意图中待选匹配语料对应的最大相似度值(即问题向量和知识库进行向量匹配时的相似度值),/>为第i类子意图对应待选匹配语料占所有待选匹配语料总量的百分比。
在进行意图识别时是基于用户输入信息在预设知识库中匹配相似度靠前的语料作为输入,考虑到筛选后待选匹配语料之间对应相似度可能存在差异较大的情况,即不同待选匹配语料之间可能存在细微的意图差异。本申请中,综合考虑原待选匹配语料与提问信息关联度,以及通过筛选后待选匹配语料预测出最大意图的两个因素确定第一意图,从而得到更为精准的第一意图。
本实施例中,当用户输入信息为“介绍下A信息技术有限公司”时,在预设知识库中进行匹配,并计算每个语料对应的相似度,预设匹配阈值设为300,选取相似度靠前的5条语料为待选匹配语料,其对应匹配的语料和相似度参照表1:
表1
基于“介绍下A信息技术有限公司”进行意图识别,得到第二意图,为了解公司背景。对每条待选配语料分别进行意图识别,对应得到子意图参照表2:
表2
由表2可知,根据子意图进行归类,分为了解“公司背景”和“联系方式”两种意图,其对应占比为0.8和0.2,“公司背景”子意图中待选匹配语料对应的最大相似度值为336,“联系方式”子意图中待选匹配语料对应的最大相似度值为301,根据公式(2)和(3)计算子意图的关联系数为 :
了解“公司背景”子意图的关联系数为:(2)
了解“联系方式”子意图的关联系数为:(3)
由于>/>,则基于语料进行意图识别的第一意图为了解“公司背景”。然后基于“介绍下A信息技术有限公司”进行意图识别,得到的第二意图为了解“公司背景”。
基于第一意图和第二意图相同,则选取的5条待选匹配语料包含了关键信息,则对上述表1中待选匹配语料对应的相似度进行降序排列,并基于预设筛选个数选择靠前语料作为第一检索信息,将其输入大模型中。其中,预设筛选个数取设定的语料筛选数量常量与实际待选匹配语料数量的最小值。例如:设定的语料筛选数量常量为10条,但前期待选配语料只有5条,则预设筛选个数则为5条。
在另一实施例中,针对上述“介绍下A信息技术有限公司”的用户输入信息,若只匹配到一条待选配语料为上述第3条语料内容,则经过处理后得到第一意图为了解“联系方式”,而针对用户输入信息的第二意图为了解“公司背景”,则第一意图和第二意图是不一致,故基于上述第3条语料内容确定其在预设知识库中对应文章的位置信息。
基于对应文章的位置信息和预设句子个数,以当前文章的位置信息为中心,截取预设句子个数的文本并做去重处理,得到更新后的待选匹配语料。
若当前待选匹配语料中没有包含关键信息,则需要提取当前语料信息对应前后文信息作为关键信息的补充。本申请以当前文章的位置信息为中心,分别向前、向后筛选预设句子个数的文本信息作为补充信息,然后再将截选的信息进行去重操作,即可得到更新后的待选匹配语料。
本申请在对第一待选匹配语料进行降序排列之前,首先对第一待选匹配语料进行意图识别,通过意图识别结果判断第一待选匹配语料中是否包含关键信息,若不含有关键信息则基于第一待选匹配语料对应文章的位置信息,向前、向后重新截选对应文本信息作为更新后的待选匹配语料,可以有效避免知识库中对于文本信息分割粒度太细而导致分割后的文本信息没有包含关键信息的问题,提高待选匹配语料信息的有效性。
进一步的,步骤S105包括以下步骤:
步骤S701,根据第一相似度对第一待选匹配语料进行降序排列,得到排列后的第一待选匹配语料;
步骤S702,根据预设筛选个数从排列后的第一待选匹配语料中进行筛选,得到筛选后的语料信息;
其中,预设筛选个数为设置的语料筛选数量与实际待选匹配语料数量的最小值。
需要说明的是,本申请中预设筛选个数为设置的语料筛选数量与实际待选匹配语料数量的最小值。例如:当设置的语料筛选数量常量为5条,而实际匹配到的待选匹配语料数量为2条时,则取二者最小值为2条作为预设筛选个数。再例如:当设定的语料筛选数量常量为5条,而实际匹配到的待选匹配语料数量为10条时,则取二者最小值为5条作为预设筛选个数,避免由于实际匹配到的待选匹配语料数量小于自定义语料筛选数量常量时,出现报错等异常现象。
本申请中,针对问题向量可以在预设知识库中匹配对应应答信息的场景下,从预设知识库中筛选预设数量的语料信息作为问题向量的关联上下文,并将其与问题向量一起作为大语言模型的提示词,可以避免仅以当前问题向量进行检索匹配的局限问题,能够从上下文的语料信息中准确理解用户的真实意图,提高大语言模型生成应答信息的准确度。
针对问题向量不能在现有知识库中匹配对应应答信息的场景下,利用搜索引擎提供的API或者使用爬虫技术对问题向量进行实时搜索,不仅解决了因知识库有限而引起的问答知识盲区的技术问题,还提高了应答信息在时间维度上的实时性,能够以最新的相关信息回答当前知识库中无法匹配到用户提问的问题。其次,相对于传统大语言模型,本申请利用预设知识库对问题向量做向量匹配以实现回答特定专业领域问题的能力。而相对于垂直领域大语言模型,本申请不需要筛选高质量的标记数据进行调优,针对用户的问题只需要先进行知识库的匹配定位,并在该知识库的范围内进行向量相似度的匹配,即可得到对应的应答文本。
实施例二:
图2为本发明实施例二提供的另基于知识库的对话生成方法流程图。
参照图2,该方法包括以下步骤:
步骤S801,获取用户输入信息,将用户输入信息进行向量化处理,得到问题向量;
步骤S802,根据预设知识库对问题向量进行匹配,得到第一相似度;
步骤S803,将第一相似度大于或等于预设匹配阈值对应的语料信息标记为第一待选匹配语料;
步骤S804,判断第一待选匹配语料的数量是否大于0;如果是,则执行步骤S805;如果否,则执行步骤S806;
步骤S805,根据第一相似度对第一待选匹配语料进行排列和筛选,得到筛选后的语料信息,并将筛选后的语料信息作为第一检索信息;
步骤S806,根据搜索引擎或爬虫技术对用户输入信息进行搜索,得到搜索结果;对搜索结果进行提取,得到第二检索信息;
步骤S807,判断第一意图和第二意图是否一致;如果是,则执行步骤S808;如果否,则执行步骤S809;
步骤S808,根据第一相似度对第一待选匹配语料进行排列和筛选,得到筛选后的语料信息,并将筛选后的语料信息作为第一检索信息;
步骤S809,确定第一待选匹配语料在预设知识库中对应文章的位置信息,根据位置信息在文章中截取相应文本进行关键信息补充,得到更新后的待匹配语料;
步骤S810,将第一检索信息和用户输入信息构成第一提示词;
步骤S811,将第一提示词输入大模型中,生成对应的应答信息。
实施例三:
图3为本发明实施例三提供的基于知识库的对话生成装置示意图。
参照图3,该装置包括用于执行如上所述的基于知识库的对话生成方法的各个模块,模块包括:
获取模块,用于获取用户输入信息,将用户输入信息进行向量化处理,得到问题向量;
匹配模块,用于根据预设知识库对问题向量进行匹配,得到第一相似度;
标记模块,用于将第一相似度大于或等于预设匹配阈值对应的语料信息标记为第一待选匹配语料;
判断模块,用于判断第一待选匹配语料的数量是否大于0;
排列和筛选模块,用于在数量大于0的情况下,根据第一相似度对第一待选匹配语料进行排列和筛选,得到筛选后的语料信息,并将筛选后的语料信息作为第一检索信息;
构成模块,用于将第一检索信息和用户输入信息构成第一提示词;
输入模块,用于将第一提示词输入大模型中,生成对应的应答信息。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的基于知识库的对话生成方法的步骤。
本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,计算机可读介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例的基于知识库的对话生成方法的步骤。
本发明实施例所提供的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.基于知识库的对话生成方法,其特征在于,所述方法包括:
获取用户输入信息,将所述用户输入信息进行向量化处理,得到问题向量;
根据预设知识库对所述问题向量进行匹配,得到第一相似度;
将所述第一相似度大于或等于预设匹配阈值对应的语料信息标记为第一待选匹配语料;
判断所述第一待选匹配语料的数量是否大于0;
如果是,则根据所述第一相似度对所述第一待选匹配语料进行排列和筛选,得到筛选后的语料信息,并将所述筛选后的语料信息作为第一检索信息;
将所述第一检索信息和所述用户输入信息构成第一提示词;
将所述第一提示词输入大模型中,生成对应的应答信息。
2.根据权利要求1所述的基于知识库的对话生成方法,其特征在于,所述预设知识库通过以下方式构建:
获取文本格式的领域内文章;
根据预设标点符号和预设字符数对所述文本格式的领域内文章进行分割,得到分割后的文本信息;
根据所述分割后的文本信息进行向量化处理,得到M个文本特征向量,其中,M为正整数;
从所述M个文本特征向量中选取预设个数的文本特征向量作为第一簇,所述第一簇为初始聚类中心的中心点;
从未被选取的文本特征向量中选取与所述第一簇的距离大于预设距离阈值的文本特征向量;
将选取的文本特征向量分配到所述第一簇中,并且重新计算所述第一簇中所有样本的均值后得到第二簇,所述第二簇为下一迭代循环的聚类中心的中心点;
计算每个所述文本特征向量分别到所述第二簇的距离,直至相邻的所述第一簇和所述第二簇的聚类中心的中心点位置不变,或者达到预设迭代次数后,得到分类后的子库;
根据所述分类后的子库构建所述预设知识库。
3.根据权利要求1所述的基于知识库的对话生成方法,其特征在于,判断所述待选匹配语料的数量是否大于0,包括:
如果否,则根据搜索引擎或爬虫技术对所述用户输入信息进行搜索,得到搜索结果;
对所述搜索结果进行提取,得到第二检索信息;
将所述第二检索信息和所述用户输入信息构成第二提示词;
将所述第二提示词输入大模型中,生成所述对应的应答信息。
4.根据权利要求1所述的基于知识库的对话生成方法,其特征在于,在根据所述第一相似度对所述第一待选匹配语料进行排列和筛选,得到筛选后的语料信息前,所述方法还包括:
将所述第一待选匹配语料进行意图识别,得到第一意图;
将所述用户输入信息进行意图识别,得到第二意图;
判断所述第一意图和所述第二意图是否一致;
如果是,则根据所述第一相似度对所述第一待选匹配语料进行排列和筛选;
如果否,则确定所述第一待选匹配语料在所述预设知识库中对应文章的位置信息,根据所述位置信息在所述文章中截取相应文本进行关键信息补充,得到更新后的待匹配语料。
5.根据权利要求4所述的基于知识库的对话生成方法,其特征在于,在根据所述位置信息在所述文章中截取相应文本进行关键信息补充,得到更新后的待匹配语料后,所述方法还包括:
将所述更新后的待匹配语料与所述问题向量进行匹配,得到第二相似度;
将所述第二相似度大于或等于所述预设匹配阈值对应的语料信息标记为第二待选匹配语料;
当所述第二待选匹配语料大于0时,根据所述第二相似度对所述第二待选匹配语料进行排列和筛选后,构建所述第一检索信息。
6.根据权利要求4所述的基于知识库的对话生成方法,其特征在于,将所述第一待选匹配语料进行意图识别,得到第一意图,包括:
将每个所述第一待选匹配语料分别输入意图识别模型中进行识别,得到多个子意图;
计算每个所述子意图对应的关联系数;
从每个所述子意图对应的关联系数中选取最大的关联系数;
将所述最大的关联系数对应的子意图作为所述第一意图。
7.根据权利要求1所述的基于知识库的对话生成方法,其特征在于,根据所述第一相似度对所述第一待选匹配语料进行排列和筛选,得到筛选后的语料信息,包括:
根据所述第一相似度对所述第一待选匹配语料进行降序排列,得到排列后的第一待选匹配语料;
根据预设筛选个数从所述排列后的第一待选匹配语料中进行筛选,得到所述筛选后的语料信息;
其中,所述预设筛选个数为设置的语料筛选数量与实际待选匹配语料数量的最小值。
8.基于知识库的对话生成装置,其特征在于,所述装置包括用于执行权利要求1至7任一项所述的基于知识库的对话生成方法的各个模块,所述模块包括:
获取模块,用于获取用户输入信息,将所述用户输入信息进行向量化处理,得到问题向量;
匹配模块,用于根据预设知识库对所述问题向量进行匹配,得到第一相似度;
标记模块,用于将所述第一相似度大于或等于预设匹配阈值对应的语料信息标记为第一待选匹配语料;
判断模块,用于判断所述第一待选匹配语料的数量是否大于0;
排列和筛选模块,用于在所述数量大于0的情况下,根据所述第一相似度对所述第一待选匹配语料进行排列和筛选,得到筛选后的语料信息,并将所述筛选后的语料信息作为第一检索信息;
构成模块,用于将所述第一检索信息和所述用户输入信息构成第一提示词;
输入模块,用于将所述第一提示词输入大模型中,生成对应的应答信息。
9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的基于知识库的对话生成方法。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一项所述的基于知识库的对话生成方法。
CN202311353169.0A 2023-10-19 2023-10-19 基于知识库的对话生成方法、装置、电子设备及存储介质 Active CN117093698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311353169.0A CN117093698B (zh) 2023-10-19 2023-10-19 基于知识库的对话生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311353169.0A CN117093698B (zh) 2023-10-19 2023-10-19 基于知识库的对话生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117093698A true CN117093698A (zh) 2023-11-21
CN117093698B CN117093698B (zh) 2024-01-23

Family

ID=88783716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311353169.0A Active CN117093698B (zh) 2023-10-19 2023-10-19 基于知识库的对话生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117093698B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290492A (zh) * 2023-11-27 2023-12-26 深圳市灵智数字科技有限公司 知识库问答方法、装置、电子设备及存储介质
CN117743390A (zh) * 2024-02-20 2024-03-22 证通股份有限公司 针对金融信息的查询方法和系统、存储介质
CN118034637A (zh) * 2024-04-15 2024-05-14 青岛国创智能家电研究院有限公司 泛终端感知交互处理方法、控制装置及存储介质
CN118132735A (zh) * 2024-05-07 2024-06-04 支付宝(杭州)信息技术有限公司 医疗规则库的生成方法和装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260854A1 (en) * 2017-03-11 2018-09-13 International Business Machines Corporation Managing a set of offers using a dialogue
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及系统
CN111444722A (zh) * 2020-03-06 2020-07-24 中国平安人寿保险股份有限公司 基于投票决策的意图分类方法、装置、设备及存储介质
CN111858888A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种值机场景的多轮对话系统
CN112380331A (zh) * 2020-11-16 2021-02-19 北京京东尚科信息技术有限公司 信息推送的方法和装置
CN113343713A (zh) * 2021-06-30 2021-09-03 中国平安人寿保险股份有限公司 意图识别方法、装置、计算机设备及存储介质
CN114091477A (zh) * 2021-11-26 2022-02-25 中国建设银行股份有限公司 一种数据处理方法及装置
CN114116736A (zh) * 2020-09-01 2022-03-01 上海智臻智能网络科技股份有限公司 知识库更新、更新验证和基于知识库的搜索方法及装置
CN116010574A (zh) * 2023-01-10 2023-04-25 阿里巴巴(中国)有限公司 智能对话处理的方法、云服务器及可读存储介质
CN116756295A (zh) * 2023-08-16 2023-09-15 北京盛通知行教育科技集团有限公司 知识库的检索方法、装置及存储介质
CN116775853A (zh) * 2023-06-28 2023-09-19 唯思电子商务(深圳)有限公司 一种基于大语言模型的企业内部搜索引擎方法
CN116821308A (zh) * 2023-08-22 2023-09-29 浙江口碑网络技术有限公司 生成方法、模型的训练方法、设备及存储介质
CN116860925A (zh) * 2023-06-09 2023-10-10 国网吉林省电力有限公司吉林供电公司 基于LLMs提示词优化的电网调度智能问答系统及方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260854A1 (en) * 2017-03-11 2018-09-13 International Business Machines Corporation Managing a set of offers using a dialogue
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及系统
CN111444722A (zh) * 2020-03-06 2020-07-24 中国平安人寿保险股份有限公司 基于投票决策的意图分类方法、装置、设备及存储介质
CN111858888A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种值机场景的多轮对话系统
CN114116736A (zh) * 2020-09-01 2022-03-01 上海智臻智能网络科技股份有限公司 知识库更新、更新验证和基于知识库的搜索方法及装置
CN112380331A (zh) * 2020-11-16 2021-02-19 北京京东尚科信息技术有限公司 信息推送的方法和装置
CN113343713A (zh) * 2021-06-30 2021-09-03 中国平安人寿保险股份有限公司 意图识别方法、装置、计算机设备及存储介质
CN114091477A (zh) * 2021-11-26 2022-02-25 中国建设银行股份有限公司 一种数据处理方法及装置
CN116010574A (zh) * 2023-01-10 2023-04-25 阿里巴巴(中国)有限公司 智能对话处理的方法、云服务器及可读存储介质
CN116860925A (zh) * 2023-06-09 2023-10-10 国网吉林省电力有限公司吉林供电公司 基于LLMs提示词优化的电网调度智能问答系统及方法
CN116775853A (zh) * 2023-06-28 2023-09-19 唯思电子商务(深圳)有限公司 一种基于大语言模型的企业内部搜索引擎方法
CN116756295A (zh) * 2023-08-16 2023-09-15 北京盛通知行教育科技集团有限公司 知识库的检索方法、装置及存储介质
CN116821308A (zh) * 2023-08-22 2023-09-29 浙江口碑网络技术有限公司 生成方法、模型的训练方法、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHENHUI PENG 等: "CReBot: Exploring interactive question prompts for critical paper reading", 《INTERNATIONAL JOURNAL OF HUMAN-COMPUTER STUDIES》, vol. 167, pages 1 - 17 *
覃思中 等: "大语言模型在建筑工程中的应用测试与讨论", 《工业建筑》, vol. 53, no. 9, pages 162 - 169 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290492A (zh) * 2023-11-27 2023-12-26 深圳市灵智数字科技有限公司 知识库问答方法、装置、电子设备及存储介质
CN117743390A (zh) * 2024-02-20 2024-03-22 证通股份有限公司 针对金融信息的查询方法和系统、存储介质
CN117743390B (zh) * 2024-02-20 2024-05-28 证通股份有限公司 针对金融信息的查询方法和系统、存储介质
CN118034637A (zh) * 2024-04-15 2024-05-14 青岛国创智能家电研究院有限公司 泛终端感知交互处理方法、控制装置及存储介质
CN118132735A (zh) * 2024-05-07 2024-06-04 支付宝(杭州)信息技术有限公司 医疗规则库的生成方法和装置

Also Published As

Publication number Publication date
CN117093698B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN117093698B (zh) 基于知识库的对话生成方法、装置、电子设备及存储介质
CN111475623B (zh) 基于知识图谱的案件信息语义检索方法及装置
US10755185B2 (en) Rating difficulty of questions
CN106844352B (zh) 基于神经机器翻译系统的单词预测方法及系统
JP3981734B2 (ja) 質問応答システムおよび質問応答処理方法
CN110427618B (zh) 对抗样本生成方法、介质、装置和计算设备
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
CN107544982B (zh) 文本信息处理方法、装置及终端
CN108959559B (zh) 问答对生成方法和装置
US20120303355A1 (en) Method and System for Text Message Normalization Based on Character Transformation and Web Data
CN102663129A (zh) 医疗领域深度问答方法及医学检索系统
CN104471568A (zh) 对自然语言问题的基于学习的处理
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
CN111400493A (zh) 基于槽位相似度的文本匹配方法、装置、设备及存储介质
CN111488466A (zh) 中文带标记错误语料生成方法、计算装置和存储介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN111125295A (zh) 一种基于lstm的获取食品安全问题答案的方法及系统
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
JP2014052863A (ja) 情報処理装置、情報処理システム、情報処理方法
Araujo Part-of-speech tagging with evolutionary algorithms
CN106407332B (zh) 基于人工智能的搜索方法和装置
CN112100355A (zh) 一种智能交互方法、装置及设备
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN112966501B (zh) 一种新词发现方法、系统、终端及介质
CN115795007A (zh) 智能问答方法、智能问答装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant