CN117194602B - 基于大语言模型和bert模型的本地知识库更新方法及系统 - Google Patents

基于大语言模型和bert模型的本地知识库更新方法及系统 Download PDF

Info

Publication number
CN117194602B
CN117194602B CN202311144435.9A CN202311144435A CN117194602B CN 117194602 B CN117194602 B CN 117194602B CN 202311144435 A CN202311144435 A CN 202311144435A CN 117194602 B CN117194602 B CN 117194602B
Authority
CN
China
Prior art keywords
question
knowledge item
answer
answer knowledge
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311144435.9A
Other languages
English (en)
Other versions
CN117194602A (zh
Inventor
周建斌
徐姗
杨植根
闵腾超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuyin Shanghai Cultural Technology Co ltd
Original Assignee
Shuyin Shanghai Cultural Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuyin Shanghai Cultural Technology Co ltd filed Critical Shuyin Shanghai Cultural Technology Co ltd
Priority to CN202311144435.9A priority Critical patent/CN117194602B/zh
Publication of CN117194602A publication Critical patent/CN117194602A/zh
Application granted granted Critical
Publication of CN117194602B publication Critical patent/CN117194602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于大语言模型和BERT模型的本地知识库更新方法及系统,包括:接入预设的第三方平台并获取待分析数据;将待分析数据输入大语言模型,获取至少一个第一问答知识项;将待分析数据输入BERT模型,获取至少一个第二问答知识项;基于所述第一问答知识项和所述第二问答知识项,对本地知识库进行更新。本发明的基于大语言模型和BERT模型的本地知识库更新方法,实现准确有效地对本地知识库的更新。

Description

基于大语言模型和BERT模型的本地知识库更新方法及系统
技术领域
本发明涉及计算机技术领域,特别涉及一种基于大语言模型和BERT模型的本地知识库更新方法及系统。
背景技术
智能问答系统是人机交互的一种典型应用,其中当用户提出问题后,智能问答系统给出该问题的答案。智能问答系统能够实现给出用户的答案的准确以及是否给出都是基于本地知识库来实现的;因此如何实现本地知识库的更新,有助与提高智能问答系统的适用性以及智能性;而如何实现准确有效地对本地知识库的更新是亟需解决的技术问题。
发明内容
本发明目的之一在于提供了一种基于大语言模型和BERT模型的本地知识库更新方法,实现准确有效地对本地知识库的更新。
本发明实施例提供的一种基于大语言模型和BERT模型的本地知识库更新方法,包括:
接入预设的第三方平台并获取待分析数据;
将待分析数据输入大语言模型,获取至少一个第一问答知识项;
将待分析数据输入BERT模型,获取至少一个第二问答知识项;
基于第一问答知识项和第二问答知识项,对本地知识库进行更新。
优选的,接入预设的第三方平台并获取待分析数据,包括:
基于搜索关键词库,对第三方平台上的数据进行检索;
提取检索结果中前预设数量的对象对应的数据作为待分析数据;
优选的,搜索关键词库通过如下步骤构建:
获取历史问答记录;
确定历史问答记录中各个问题对应的匹配的各个答案的匹配度;
将匹配度小于等于预设的第一阈值的问题中的关键词提取后存入搜索关键词库中;
和/或,
确定各个历史问答记录对应的用户反馈意见;
基于预设的量化模板对用户反馈意见进行量化,获取量化值;
将量化值小于等于预设的第二阈值的问题中的关键词提取后存入搜索关键词库中。
优选的,基于第一问答知识项和第二问答知识项,对本地知识库进行更新,包括:
计算每个第一问答知识项中问题与每个第二问答知识项中问题的第一相似度;
计算每个第一问答知识项中答案与每个第二问答知识项中答案的第二相似度;
将第一相似度大于预设的第一相似度阈值且第二相似度大于预设的第二相似度阈值的第一问答知识项与第二问答知识项关联;
基于相关联的第一问答知识项与第二问答知识项,对本地知识库进行更新。
优选的,基于第一问答知识项和第二问答知识项,对本地知识库进行更新,包括:
确定第一问答知识项或第二问答知识项的来源;
基于预设的来源信任评分表,确定第一问答知识项或第二问答知识项的第一信任评分;
确定第一问答知识项或第二问答知识项对应的待分析数据的数量;
基于预设的数量信任评分表,确定第一问答知识项或第二问答知识项的第二信任评分;
将第一信任评分和第二信任评分的和值小于预设的信任阈值的第一问答知识项或第二问答知识项删除。
本发明还提供一种基于大语言模型和BERT模型的本地知识库更新系统,包括:
获取模块,用于接入预设的第三方平台并获取待分析数据;
第一分析模块,用于将待分析数据输入大语言模型,获取至少一个第一问答知识项;
第二分析模块,用于将待分析数据输入BERT模型,获取至少一个第二问答知识项;
更新模块,用于基于第一问答知识项和第二问答知识项,对本地知识库进行更新。
优选的,获取模块接入预设的第三方平台并获取待分析数据,执行如下操作:
基于搜索关键词库,对第三方平台上的数据进行检索;
提取检索结果中前预设数量的对象对应的数据作为待分析数据;
优选的,搜索关键词库通过如下步骤构建:
获取历史问答记录;
确定历史问答记录中各个问题对应的匹配的各个答案的匹配度;
将匹配度小于等于预设的第一阈值的问题中的关键词提取后存入搜索关键词库中;
和/或,
确定各个历史问答记录对应的用户反馈意见;
基于预设的量化模板对用户反馈意见进行量化,获取量化值;
将量化值小于等于预设的第二阈值的问题中的关键词提取后存入搜索关键词库中。
优选的,更新模块基于第一问答知识项和第二问答知识项,对本地知识库进行更新,执行如下操作:
计算每个第一问答知识项中问题与每个第二问答知识项中问题的第一相似度;
计算每个第一问答知识项中答案与每个第二问答知识项中答案的第二相似度;
将第一相似度大于预设的第一相似度阈值且第二相似度大于预设的第二相似度阈值的第一问答知识项与第二问答知识项关联;
基于相关联的第一问答知识项与第二问答知识项,对本地知识库进行更新。
优选的,更新模块基于第一问答知识项和第二问答知识项,对本地知识库进行更新,执行如下操作:
确定第一问答知识项或第二问答知识项的来源;
基于预设的来源信任评分表,确定第一问答知识项或第二问答知识项的第一信任评分;
确定第一问答知识项或第二问答知识项对应的待分析数据的数量;
基于预设的数量信任评分表,确定第一问答知识项或第二问答知识项的第二信任评分;
将第一信任评分和第二信任评分的和值小于预设的信任阈值的第一问答知识项或第二问答知识项删除。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于大语言模型和BERT模型的本地知识库更新方法的示意图;
图2为本发明实施例中一种基于大语言模型和BERT模型的本地知识库更新系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于大语言模型和BERT模型的本地知识库更新方法,如图1所示,包括:
步骤S1:接入预设的第三方平台并获取待分析数据;
步骤S2:将待分析数据输入大语言模型,获取至少一个第一问答知识项;
步骤S3:将待分析数据输入BERT模型,获取至少一个第二问答知识项;
步骤S4:基于第一问答知识项和第二问答知识项,对本地知识库进行更新。
上述技术方案的工作原理及有益效果为:
大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径;并且已在许多领域进行了广泛的应用;
BERT在预训练阶段采用了类似ELMO的双向语言模型,BERT证明了双向预训练对语言表示的重要性。与之前使用的单向语言模型进行预训练不同,BERT使用遮蔽语言模型来实现预训练的深度双向表示。BERT模型在语言特征提取方面具有显著的优越性;
本实施例的基于大语言模型和BERT模型的本地知识库更新方法,通过接入第三方平台(统一资源检索平台和智能导读服务),获取待分析数据,可以一次性获取多个待分析数据,然后将待分析数据分别输入大语言模型和BERT模型,获得第一问答知识项以及第二问答知识项,然后综合分析第一问答知识项和第二问答知识项进行本地知识库的更新;实现了基于第三方平台上的数据对于本地知识库的准确有效地更新。
在一个实施例中,接入预设的第三方平台并获取待分析数据,包括:
基于搜索关键词库,对第三方平台上的数据进行检索;
提取检索结果中前预设数量的对象对应的数据作为待分析数据;
其中,搜索关键词库通过如下步骤构建:
获取历史问答记录;
确定历史问答记录中各个问题对应的匹配的各个答案的匹配度;
将匹配度小于等于预设的第一阈值的问题中的关键词提取后存入搜索关键词库中;
和/或,
确定各个历史问答记录对应的用户反馈意见;
基于预设的量化模板对用户反馈意见进行量化,获取量化值;
将量化值小于等于预设的第二阈值的问题中的关键词提取后存入搜索关键词库中。
上述技术方案的工作原理及有益效果为:
通过在本地知识库的使用情况的分析,构建出搜索关键词库,在具体构建时,主要对使用情况的历史问答记录以及对应的用户反馈意见进行分析,根据分析结果进行构建。在此之前,先要明确问答的步骤,为将用户提出的问题与本地知识库中的存储的各个问答中的问题进行匹配,进而调取对应的问答中的答案;一般提取匹配度最高的问答中的答案进行回答;问答记录中的各个问题对应的匹配的各个答案的匹配度实际为用户提出的问题与存储的问答的问题的匹配度;其中,匹配度可以对应为用户提出的问题与问答中的问题的相似度;当历史问答记录中返回的答案的匹配度虽然是本地知识库中匹配度最高的但是其匹配度并未超过第一阈值时,说明返回的答案并不是很准确或者存在错误的风险,因此存在更新需求;此外,还可以通过对历史问答记录对应的用户的反馈意见进行分析,首先对反馈意见进行量化,以此获取反馈意见对应的量化值,进而通过第二阈值进行筛选确定,然后进行关键词提取,以此来获得搜索关键词库中的关键词。其中,客户的反馈意见可以为通过选择反馈模板进行反馈,例如:选择反馈模板上包括问题有“答案是否准确”;选项为“准确、不准确”;在量化模板中准确的选项对应量化值为2,不准确的选项对应量化值为-2;设置第二阈值为-1或-2;这样就可以筛选出需要搜索的问答记录了;此外,反馈意见还可以通过文本输入的方式进行输入,则在量化模板进行量化前,需要根据量化模板中各个量化项对应的关键词进行文本输入的反馈信息进行统计,统计到对应的关键词,以此确定量化值。
在一个实施例中,基于第一问答知识项和第二问答知识项,对本地知识库进行更新,包括:
计算每个第一问答知识项中问题与每个第二问答知识项中问题的第一相似度;
计算每个第一问答知识项中答案与每个第二问答知识项中答案的第二相似度;
将第一相似度大于预设的第一相似度阈值且第二相似度大于预设的第二相似度阈值的第一问答知识项与第二问答知识项关联;
基于相关联的第一问答知识项与第二问答知识项,对本地知识库进行更新。
此外,基于第一问答知识项和第二问答知识项,对本地知识库进行更新,还包括:
确定第一问答知识项或第二问答知识项的来源;
基于预设的来源信任评分表,确定第一问答知识项或第二问答知识项的第一信任评分;
确定第一问答知识项或第二问答知识项对应的待分析数据的数量;
基于预设的数量信任评分表,确定第一问答知识项或第二问答知识项的第二信任评分;
将第一信任评分和第二信任评分的和值小于预设的信任阈值的第一问答知识项或第二问答知识项删除。
上述技术方案的工作原理及有益效果为:
通过计算第一问答知识项中问题以及答案与第二问答知识项中的问题以及答案的相似度,以此来提取存在第一问答知识项以及第二问答知识项中的相同的问答,以此来进行数据库的更新,在更新前通对第一问答知识项或第二问答知识项进行信任评价,以此,间接确定第一知识项和第二知识项的准确性;在信用评价时,可以综合分析第一知识项或第二知识项对应的待分析数据的来源以及待分析数据在第三方平台上获取到的数量(次数);针对来源的分析,可以通过预先配置的来源信任评分表,确定来源对应的第一信任评分;此外,当存在多个来源时,以来源信任评分表中最大的评分值作为第一信任评分;在来源信任评分表中各个来源对应一个信任评分;针对数量(次数)的分析,可以通过预设,即预先配置的数量信任评分表,确定第二信任评分;在数量信任评分表中数量与第二信任评分一一对应关联;正常情况下,数量越多,第二信任评分越大;然后根据第一信任评分与第二信任评分的和值、预设的信任阈值,将不安全数据进行剔除,保证知识库的准确更新。
在一个实施例中,基于大语言模型和BERT模型的本地知识库更新方法,还包括:
对更新后的本地知识库中的更新项进行跟踪并获取更新项对应的问答记录;
提取问答记录对应的用户的反馈信息;
基于预设的量化模板对用户反馈意见进行量化,获取量化值;
将量化值小于等于预设的第二阈值的更新项作为预警项并输出;
接收管理人员对预警项的复核;
当复核结果为更新异常时,基于预设的信任修正值,对来源信息评分表中的来源对应的信任评分进行修正;
本实施例通过对更新项进行追踪,并以此为基础确定更新项是否异常,保证了本地知识库的准确有效;此外,以此为基础进行来源信任评分表的信任评分修正,保证了后续更新时提高了基于信任分析的数据剔除的准确性,进一步保证知识库更新的准确安全。此外,为了超限情形的发生,可以对来源信任评分表中各个来源的信任评分设置最小值和最大值;当信任评分修正至最小值后不再进行向下的修正。
在一个实施例中,在接入第三方平台(统一资源检索平台和智能导读服务),一次性实时多个文献数据库的并发搜索;通过智慧导读服务实时截取当前读者文献搜索结果的前若干篇文献(Top-N),在第三方平台搜索也可以应用大语言模型的搜索功能;将搜索的数据以相关概念提取、关联矩阵表达(语义脑图)、兴趣点聚焦和隐性知识链路发现等主要关键技术,提取第一问答知识项,以及通过BERT模型分析出第二问答知识项,然后综合分析第一问答知识项和第二问答知识项进行本地知识库的更新;在分析时,基于信任分析机制,剔除信任评价值不高的知识项,保证本地知识库的更新的准确性。
在一个实施例中,基于第一问答知识项和第二问答知识项,对本地知识库进行更新,还包括:
确定第一问答知识项或第二问答知识项的来源;
基于预设的来源信任评分表,确定第一问答知识项或第二问答知识项的第一信任评分;
确定第一问答知识项或第二问答知识项对应的待分析数据的数量;
基于预设的数量信任评分表,确定第一问答知识项或第二问答知识项的第二信任评分;
对第一知识项或第二知识项对应的搜索关键词库中关键词的构建所对应的历史问答记录对应的用户反馈意见进行分析,确定第三信任评分;
将第一信任评分、第二信任评分和第三信任评分的和值小于预设的第二信任阈值的第一问答知识项或第二问答知识项删除;
其中,对第一知识项或第二知识项对应的搜索关键词库中关键词的构建所对应的历史问答记录对应的用户反馈意见进行分析,确定第三信任评分,包括:
基于第一知识项中的答案或第二知识项中的答案,与用户反馈意见中的答案匹配,确定待分析反馈意见;
确定各个待分析反馈意见对应的用户的信任值;
基于各个待分析反馈意见对应的用户的权限值,确定对应的权重系数;
基于权重系数和信任值,确定第三信任评分。
本实施例在对第一问答项或第二问答项来源的分析基础上,进一步升级加入源头的用户信任分析,在搜索关键词中关键词的构建可以是一条历史问答记录也可以是多条历史问答记录,每一条历史问答记录对应一个用户;然后提取对应用户的信任值以及权限值;通过权限值,查询权限值与权重系数转化表,确定权重系数;然后通过权重系数和信任值确定第三信任评分,具体可以是各个用户对应信任值与权重系数的积的和。
在一个实施例中,当更新项被确定为更新异常时,确定对应反馈的用户,基于预设的第一修正值对用户的信任值进行向下修正;
当更新项在预设的时间后还未被确定为更新异常且调用次数达到预设的第一次数还未被确定为更新异常时,
或,当更新项被调用次数达到预设的第二次数,还未被确定为更新异常时;
基于预设的第二修正值对用户的信任值进行向上修正;
其中,第一次数小于第二次数;第一修正值的绝对值大于第二修正值的绝对值。
通过对更新项的追踪,以此调整用户的信任值,以保证后续更新的有效准确的进行。此外,对于调整也可设置信任值的最大值和最小值,避免对用户的信任值的调整影响占比过大,影响来源分析,提高了信任分析的准确性。
本发明还提供一种基于大语言模型和BERT模型的本地知识库更新系统,如图2所示,包括:
获取模块1,用于接入预设的第三方平台并获取待分析数据;
第一分析模块2,用于将待分析数据输入大语言模型,获取至少一个第一问答知识项;
第二分析模块3,用于将待分析数据输入BERT模型,获取至少一个第二问答知识项;
更新模块4,用于基于第一问答知识项和第二问答知识项,对本地知识库进行更新。
在一个实施例中,获取模块1接入预设的第三方平台并获取待分析数据,执行如下操作:
基于搜索关键词库,对第三方平台上的数据进行检索;
提取检索结果中前预设数量的对象对应的数据作为待分析数据;
在一个实施例中,搜索关键词库通过如下步骤构建:
获取历史问答记录;
确定历史问答记录中各个问题对应的匹配的各个答案的匹配度;
将匹配度小于等于预设的第一阈值的问题中的关键词提取后存入搜索关键词库中;
和/或,
确定各个历史问答记录对应的用户反馈意见;
基于预设的量化模板对用户反馈意见进行量化,获取量化值;
将量化值小于等于预设的第二阈值的问题中的关键词提取后存入搜索关键词库中。
在一个实施例中,更新模块4基于第一问答知识项和第二问答知识项,对本地知识库进行更新,执行如下操作:
计算每个第一问答知识项中问题与每个第二问答知识项中问题的第一相似度;
计算每个第一问答知识项中答案与每个第二问答知识项中答案的第二相似度;
将第一相似度大于预设的第一相似度阈值且第二相似度大于预设的第二相似度阈值的第一问答知识项与第二问答知识项关联;
基于相关联的第一问答知识项与第二问答知识项,对本地知识库进行更新。
在一个实施例中,更新模块4基于第一问答知识项和第二问答知识项,对本地知识库进行更新,执行如下操作:
确定第一问答知识项或第二问答知识项的来源;
基于预设的来源信任评分表,确定第一问答知识项或第二问答知识项的第一信任评分;
确定第一问答知识项或第二问答知识项对应的待分析数据的数量;
基于预设的数量信任评分表,确定第一问答知识项或第二问答知识项的第二信任评分;
将第一信任评分和第二信任评分的和值小于预设的信任阈值的第一问答知识项或第二问答知识项删除。
在一个实施例中,基于大语言模型和BERT模型的本地知识库更新系统,还包括:追踪模块,
追踪模块执行如下操作:
对更新后的本地知识库中的更新项进行跟踪并获取更新项对应的问答记录;
提取问答记录对应的用户的反馈信息;
基于预设的量化模板对用户反馈意见进行量化,获取量化值;
将量化值小于等于预设的第二阈值的更新项作为预警项并输出;
接收管理人员对预警项的复核;
当复核结果为更新异常时,基于预设的信任修正值,对来源信息评分表中的来源对应的信任评分进行修正;
在一个实施例中,更新模块4基于第一问答知识项和第二问答知识项,对本地知识库进行更新,还执行如下操作:
确定第一问答知识项或第二问答知识项的来源;
基于预设的来源信任评分表,确定第一问答知识项或第二问答知识项的第一信任评分;
确定第一问答知识项或第二问答知识项对应的待分析数据的数量;
基于预设的数量信任评分表,确定第一问答知识项或第二问答知识项的第二信任评分;
对第一知识项或第二知识项对应的搜索关键词库中关键词的构建所对应的历史问答记录对应的用户反馈意见进行分析,确定第三信任评分;
将第一信任评分、第二信任评分和第三信任评分的和值小于预设的第二信任阈值的第一问答知识项或第二问答知识项删除;
其中,对第一知识项或第二知识项对应的搜索关键词库中关键词的构建所对应的历史问答记录对应的用户反馈意见进行分析,确定第三信任评分,包括:
基于第一知识项中的答案或第二知识项中的答案,与用户反馈意见中的答案匹配,确定待分析反馈意见;
确定各个待分析反馈意见对应的用户的信任值;
基于各个待分析反馈意见对应的用户的权限值,确定对应的权重系数;
基于权重系数和信任值,确定第三信任评分。
在一个实施例中,当更新项被确定为更新异常时,确定对应反馈的用户,基于预设的第一修正值对用户的信任值进行向下修正;
当更新项在预设的时间后还未被确定为更新异常且调用次数达到预设的第一次数还未被确定为更新异常时,
或,当更新项被调用次数达到预设的第二次数,还未被确定为更新异常时;
基于预设的第二修正值对用户的信任值进行向上修正;
其中,第一次数小于第二次数;第一修正值的绝对值大于第二修正值的绝对值。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于大语言模型和BERT模型的本地知识库更新方法,其特征在于,包括:
接入预设的第三方平台并获取待分析数据;
将待分析数据输入大语言模型,获取至少一个第一问答知识项;
将待分析数据输入BERT模型,获取至少一个第二问答知识项;
基于所述第一问答知识项和所述第二问答知识项,对本地知识库进行更新;
其中,所述基于所述第一问答知识项和所述第二问答知识项,对本地知识库进行更新,包括:
确定第一问答知识项或第二问答知识项的来源;
基于预设的来源信任评分表,确定第一问答知识项或第二问答知识项的第一信任评分;
确定第一问答知识项或第二问答知识项对应的待分析数据的数量;
基于预设的数量信任评分表,确定第一问答知识项或第二问答知识项的第二信任评分;
将所述第一信任评分和所述第二信任评分的和值小于预设的信任阈值的第一问答知识项或第二问答知识项删除;
其中,基于第一问答知识项和第二问答知识项,对本地知识库进行更新,还包括:
确定第一问答知识项或第二问答知识项的来源;
基于预设的来源信任评分表,确定第一问答知识项或第二问答知识项的第一信任评分;
确定第一问答知识项或第二问答知识项对应的待分析数据的数量;
基于预设的数量信任评分表,确定第一问答知识项或第二问答知识项的第二信任评分;
对第一知识项或第二知识项对应的搜索关键词库中关键词的构建所对应的历史问答记录对应的用户反馈意见进行分析,确定第三信任评分;
将第一信任评分、第二信任评分和第三信任评分的和值小于预设的第二信任阈值的第一问答知识项或第二问答知识项删除;
其中,对第一知识项或第二知识项对应的搜索关键词库中关键词的构建所对应的历史问答记录对应的用户反馈意见进行分析,确定第三信任评分,包括:
基于第一知识项中的答案或第二知识项中的答案,与用户反馈意见中的答案匹配,确定待分析反馈意见;
确定各个待分析反馈意见对应的用户的信任值;
基于各个待分析反馈意见对应的用户的权限值,确定对应的权重系数;
基于权重系数和信任值,确定第三信任评分。
2.如权利要求1所述的基于大语言模型和BERT模型的本地知识库更新方法,其特征在于,所述接入预设的第三方平台并获取待分析数据,包括:
基于搜索关键词库,对第三方平台上的数据进行检索;
提取检索结果中前预设数量的对象对应的数据作为所述待分析数据。
3.如权利要求2所述的基于大语言模型和BERT模型的本地知识库更新方法,其特征在于,所述搜索关键词库通过如下步骤构建:
获取历史问答记录;
确定所述历史问答记录中各个问题对应的匹配的各个答案的匹配度;
将匹配度小于等于预设的第一阈值的问题中的关键词提取后存入搜索关键词库中;
和/或,
确定各个历史问答记录对应的用户反馈意见;
基于预设的量化模板对所述用户反馈意见进行量化,获取量化值;
将量化值小于等于预设的第二阈值的问题中的关键词提取后存入搜索关键词库中。
4.如权利要求1所述的基于大语言模型和BERT模型的本地知识库更新方法,其特征在于,所述基于所述第一问答知识项和所述第二问答知识项,对本地知识库进行更新,包括:
计算每个第一问答知识项中问题与每个第二问答知识项中问题的第一相似度;
计算每个第一问答知识项中答案与每个第二问答知识项中答案的第二相似度;
将第一相似度大于预设的第一相似度阈值且第二相似度大于预设的第二相似度阈值的第一问答知识项与第二问答知识项关联;
基于相关联的第一问答知识项与第二问答知识项,对本地知识库进行更新。
5.一种基于大语言模型和BERT模型的本地知识库更新系统,其特征在于,包括:
获取模块,用于接入预设的第三方平台并获取待分析数据;
第一分析模块,用于将待分析数据输入大语言模型,获取至少一个第一问答知识项;
第二分析模块,用于将待分析数据输入BERT模型,获取至少一个第二问答知识项;
更新模块,用于基于所述第一问答知识项和所述第二问答知识项,对本地知识库进行更新;
其中,所述更新模块基于所述第一问答知识项和所述第二问答知识项,对本地知识库进行更新,执行如下操作:
确定第一问答知识项或第二问答知识项的来源;
基于预设的来源信任评分表,确定第一问答知识项或第二问答知识项的第一信任评分;
确定第一问答知识项或第二问答知识项对应的待分析数据的数量;
基于预设的数量信任评分表,确定第一问答知识项或第二问答知识项的第二信任评分;
将所述第一信任评分和所述第二信任评分的和值小于预设的信任阈值的第一问答知识项或第二问答知识项删除;
其中,更新模块基于第一问答知识项和第二问答知识项,对本地知识库进行更新,还执行如下操作:
确定第一问答知识项或第二问答知识项的来源;
基于预设的来源信任评分表,确定第一问答知识项或第二问答知识项的第一信任评分;
确定第一问答知识项或第二问答知识项对应的待分析数据的数量;
基于预设的数量信任评分表,确定第一问答知识项或第二问答知识项的第二信任评分;
对第一知识项或第二知识项对应的搜索关键词库中关键词的构建所对应的历史问答记录对应的用户反馈意见进行分析,确定第三信任评分;
将第一信任评分、第二信任评分和第三信任评分的和值小于预设的第二信任阈值的第一问答知识项或第二问答知识项删除;
其中,对第一知识项或第二知识项对应的搜索关键词库中关键词的构建所对应的历史问答记录对应的用户反馈意见进行分析,确定第三信任评分,包括:
基于第一知识项中的答案或第二知识项中的答案,与用户反馈意见中的答案匹配,确定待分析反馈意见;
确定各个待分析反馈意见对应的用户的信任值;
基于各个待分析反馈意见对应的用户的权限值,确定对应的权重系数;
基于权重系数和信任值,确定第三信任评分。
6.如权利要求5所述的基于大语言模型和BERT模型的本地知识库更新系统,其特征在于,所述获取模块接入预设的第三方平台并获取待分析数据,执行如下操作:
基于搜索关键词库,对第三方平台上的数据进行检索;
提取检索结果中前预设数量的对象对应的数据作为所述待分析数据。
7.如权利要求6所述的基于大语言模型和BERT模型的本地知识库更新系统,其特征在于,所述搜索关键词库通过如下步骤构建:
获取历史问答记录;
确定所述历史问答记录中各个问题对应的匹配的各个答案的匹配度;
将匹配度小于等于预设的第一阈值的问题中的关键词提取后存入搜索关键词库中;
和/或,
确定各个历史问答记录对应的用户反馈意见;
基于预设的量化模板对所述用户反馈意见进行量化,获取量化值;
将量化值小于等于预设的第二阈值的问题中的关键词提取后存入搜索关键词库中。
8.如权利要求5所述的基于大语言模型和BERT模型的本地知识库更新系统,其特征在于,所述更新模块基于所述第一问答知识项和所述第二问答知识项,对本地知识库进行更新,执行如下操作:
计算每个第一问答知识项中问题与每个第二问答知识项中问题的第一相似度;
计算每个第一问答知识项中答案与每个第二问答知识项中答案的第二相似度;
将第一相似度大于预设的第一相似度阈值且第二相似度大于预设的第二相似度阈值的第一问答知识项与第二问答知识项关联;
基于相关联的第一问答知识项与第二问答知识项,对本地知识库进行更新。
CN202311144435.9A 2023-09-06 2023-09-06 基于大语言模型和bert模型的本地知识库更新方法及系统 Active CN117194602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311144435.9A CN117194602B (zh) 2023-09-06 2023-09-06 基于大语言模型和bert模型的本地知识库更新方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311144435.9A CN117194602B (zh) 2023-09-06 2023-09-06 基于大语言模型和bert模型的本地知识库更新方法及系统

Publications (2)

Publication Number Publication Date
CN117194602A CN117194602A (zh) 2023-12-08
CN117194602B true CN117194602B (zh) 2024-04-19

Family

ID=89004611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311144435.9A Active CN117194602B (zh) 2023-09-06 2023-09-06 基于大语言模型和bert模型的本地知识库更新方法及系统

Country Status (1)

Country Link
CN (1) CN117194602B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117453895B (zh) * 2023-12-20 2024-03-01 苏州元脑智能科技有限公司 一种智能客服应答方法、装置、设备及可读存储介质
CN117541084B (zh) * 2024-01-10 2024-05-10 河北省科技创新服务中心 一种藜麦灌浆期产量预测方法及系统
CN117725148A (zh) * 2024-02-07 2024-03-19 湖南三湘银行股份有限公司 一种基于自学习的问答词库更新方法
CN117743357B (zh) * 2024-02-19 2024-05-07 上海蜜度科技股份有限公司 历史人物信息知识库更新方法、系统、介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN110727779A (zh) * 2019-10-16 2020-01-24 信雅达系统工程股份有限公司 基于多模型融合的问答方法及系统
WO2020034642A1 (zh) * 2018-08-17 2020-02-20 齐鲁工业大学 医疗自动问答方法及装置、存储介质、电子设备
KR102098256B1 (ko) * 2018-11-28 2020-04-07 주식회사 솔트룩스 지식 베이스 기반의 자동 질의 응답 시스템
CN112364150A (zh) * 2021-01-12 2021-02-12 南京云创大数据科技股份有限公司 一种结合检索与生成的智能问答方法和系统
CN114385798A (zh) * 2021-12-16 2022-04-22 上海浦东发展银行股份有限公司 一种基于主动学习的问答方法、系统、设备及介质
CN116361306A (zh) * 2023-04-07 2023-06-30 北京智谱华章科技有限公司 面向开放域科普的问答库自动更新方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020034642A1 (zh) * 2018-08-17 2020-02-20 齐鲁工业大学 医疗自动问答方法及装置、存储介质、电子设备
KR102098256B1 (ko) * 2018-11-28 2020-04-07 주식회사 솔트룩스 지식 베이스 기반의 자동 질의 응답 시스템
CN110516055A (zh) * 2019-08-16 2019-11-29 西北工业大学 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN110727779A (zh) * 2019-10-16 2020-01-24 信雅达系统工程股份有限公司 基于多模型融合的问答方法及系统
CN112364150A (zh) * 2021-01-12 2021-02-12 南京云创大数据科技股份有限公司 一种结合检索与生成的智能问答方法和系统
CN114385798A (zh) * 2021-12-16 2022-04-22 上海浦东发展银行股份有限公司 一种基于主动学习的问答方法、系统、设备及介质
CN116361306A (zh) * 2023-04-07 2023-06-30 北京智谱华章科技有限公司 面向开放域科普的问答库自动更新方法和装置

Also Published As

Publication number Publication date
CN117194602A (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN117194602B (zh) 基于大语言模型和bert模型的本地知识库更新方法及系统
US11704494B2 (en) Discovering a semantic meaning of data fields from profile data of the data fields
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答系统
Canfora et al. Fine grained indexing of software repositories to support impact analysis
US9613317B2 (en) Justifying passage machine learning for question and answer systems
US8190616B2 (en) Statistical measure and calibration of reflexive, symmetric and transitive fuzzy search criteria where one or both of the search criteria and database is incomplete
CN109408578B (zh) 一种针对异构环境监测数据融合方法
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN113779272B (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
KR101814005B1 (ko) 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법
EP3232336A1 (en) Method and device for recognizing stop word
US9400826B2 (en) Method and system for aggregate content modeling
US20230121679A1 (en) Inference-Based Assignment of Data Type to Data
CN110109678B (zh) 一种代码审计规则库生成方法、装置、设备及介质
CN110597844A (zh) 异构数据库数据统一访问方法及相关设备
CN109471889A (zh) 报表加速方法、系统、计算机设备和存储介质
CN113886531A (zh) 智能问答话术确定方法、装置、计算机设备和存储介质
CN114153995B (zh) 医学术语的处理方法、装置、计算机设备和存储介质
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
Borthwick et al. Key concepts in the choicemaker 2 record matching system
US20190236512A1 (en) Career management platforms
US20230244987A1 (en) Accelerated data labeling with automated data profiling for training machine learning predictive models
CN111125319A (zh) 一种企业基础法律智能咨询终端、系统及方法
CN107463845B (zh) 一种sql注入攻击的检测方法、系统和计算机处理设备
US20180121502A1 (en) User Search Query Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant