CN117194602B

CN117194602B - 基于大语言模型和bert模型的本地知识库更新方法及系统

Info

Publication number: CN117194602B
Application number: CN202311144435.9A
Authority: CN
Inventors: 周建斌; 徐姗; 杨植根; 闵腾超
Original assignee: Shuyin Shanghai Cultural Technology Co ltd
Current assignee: Shuyin Shanghai Cultural Technology Co ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2024-04-19
Anticipated expiration: 2043-09-06
Also published as: CN117194602A

Abstract

本发明提供一种基于大语言模型和BERT模型的本地知识库更新方法及系统，包括：接入预设的第三方平台并获取待分析数据；将待分析数据输入大语言模型，获取至少一个第一问答知识项；将待分析数据输入BERT模型，获取至少一个第二问答知识项；基于所述第一问答知识项和所述第二问答知识项，对本地知识库进行更新。本发明的基于大语言模型和BERT模型的本地知识库更新方法，实现准确有效地对本地知识库的更新。

Description

基于大语言模型和BERT模型的本地知识库更新方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种基于大语言模型和BERT模型的本地知识库更新方法及系统。

背景技术

智能问答系统是人机交互的一种典型应用，其中当用户提出问题后，智能问答系统给出该问题的答案。智能问答系统能够实现给出用户的答案的准确以及是否给出都是基于本地知识库来实现的；因此如何实现本地知识库的更新，有助与提高智能问答系统的适用性以及智能性；而如何实现准确有效地对本地知识库的更新是亟需解决的技术问题。

发明内容

本发明目的之一在于提供了一种基于大语言模型和BERT模型的本地知识库更新方法，实现准确有效地对本地知识库的更新。

本发明实施例提供的一种基于大语言模型和BERT模型的本地知识库更新方法，包括：

接入预设的第三方平台并获取待分析数据；

将待分析数据输入大语言模型，获取至少一个第一问答知识项；

将待分析数据输入BERT模型，获取至少一个第二问答知识项；

基于第一问答知识项和第二问答知识项，对本地知识库进行更新。

优选的，接入预设的第三方平台并获取待分析数据，包括：

基于搜索关键词库，对第三方平台上的数据进行检索；

提取检索结果中前预设数量的对象对应的数据作为待分析数据；

优选的，搜索关键词库通过如下步骤构建：

获取历史问答记录；

确定历史问答记录中各个问题对应的匹配的各个答案的匹配度；

将匹配度小于等于预设的第一阈值的问题中的关键词提取后存入搜索关键词库中；

和/或，

确定各个历史问答记录对应的用户反馈意见；

基于预设的量化模板对用户反馈意见进行量化，获取量化值；

将量化值小于等于预设的第二阈值的问题中的关键词提取后存入搜索关键词库中。

优选的，基于第一问答知识项和第二问答知识项，对本地知识库进行更新，包括：

计算每个第一问答知识项中问题与每个第二问答知识项中问题的第一相似度；

计算每个第一问答知识项中答案与每个第二问答知识项中答案的第二相似度；

将第一相似度大于预设的第一相似度阈值且第二相似度大于预设的第二相似度阈值的第一问答知识项与第二问答知识项关联；

基于相关联的第一问答知识项与第二问答知识项，对本地知识库进行更新。

确定第一问答知识项或第二问答知识项的来源；

基于预设的来源信任评分表，确定第一问答知识项或第二问答知识项的第一信任评分；

确定第一问答知识项或第二问答知识项对应的待分析数据的数量；

基于预设的数量信任评分表，确定第一问答知识项或第二问答知识项的第二信任评分；

将第一信任评分和第二信任评分的和值小于预设的信任阈值的第一问答知识项或第二问答知识项删除。

本发明还提供一种基于大语言模型和BERT模型的本地知识库更新系统，包括：

获取模块，用于接入预设的第三方平台并获取待分析数据；

第一分析模块，用于将待分析数据输入大语言模型，获取至少一个第一问答知识项；

第二分析模块，用于将待分析数据输入BERT模型，获取至少一个第二问答知识项；

更新模块，用于基于第一问答知识项和第二问答知识项，对本地知识库进行更新。

优选的，获取模块接入预设的第三方平台并获取待分析数据，执行如下操作：

基于搜索关键词库，对第三方平台上的数据进行检索；

优选的，搜索关键词库通过如下步骤构建：

获取历史问答记录；

和/或，

确定各个历史问答记录对应的用户反馈意见；

优选的，更新模块基于第一问答知识项和第二问答知识项，对本地知识库进行更新，执行如下操作：

确定第一问答知识项或第二问答知识项的来源；

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于大语言模型和BERT模型的本地知识库更新方法的示意图；

图2为本发明实施例中一种基于大语言模型和BERT模型的本地知识库更新系统的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于大语言模型和BERT模型的本地知识库更新方法，如图1所示，包括：

步骤S1：接入预设的第三方平台并获取待分析数据；

步骤S2：将待分析数据输入大语言模型，获取至少一个第一问答知识项；

步骤S3：将待分析数据输入BERT模型，获取至少一个第二问答知识项；

步骤S4：基于第一问答知识项和第二问答知识项，对本地知识库进行更新。

上述技术方案的工作原理及有益效果为：

大语言模型(LLM)是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等，是通向人工智能的一条重要途径；并且已在许多领域进行了广泛的应用；

BERT在预训练阶段采用了类似ELMO的双向语言模型，BERT证明了双向预训练对语言表示的重要性。与之前使用的单向语言模型进行预训练不同，BERT使用遮蔽语言模型来实现预训练的深度双向表示。BERT模型在语言特征提取方面具有显著的优越性；

本实施例的基于大语言模型和BERT模型的本地知识库更新方法，通过接入第三方平台(统一资源检索平台和智能导读服务)，获取待分析数据，可以一次性获取多个待分析数据,然后将待分析数据分别输入大语言模型和BERT模型，获得第一问答知识项以及第二问答知识项，然后综合分析第一问答知识项和第二问答知识项进行本地知识库的更新；实现了基于第三方平台上的数据对于本地知识库的准确有效地更新。

在一个实施例中，接入预设的第三方平台并获取待分析数据，包括：

基于搜索关键词库，对第三方平台上的数据进行检索；

其中，搜索关键词库通过如下步骤构建：

获取历史问答记录；

和/或，

确定各个历史问答记录对应的用户反馈意见；

上述技术方案的工作原理及有益效果为：

通过在本地知识库的使用情况的分析，构建出搜索关键词库，在具体构建时，主要对使用情况的历史问答记录以及对应的用户反馈意见进行分析，根据分析结果进行构建。在此之前，先要明确问答的步骤，为将用户提出的问题与本地知识库中的存储的各个问答中的问题进行匹配，进而调取对应的问答中的答案；一般提取匹配度最高的问答中的答案进行回答；问答记录中的各个问题对应的匹配的各个答案的匹配度实际为用户提出的问题与存储的问答的问题的匹配度；其中，匹配度可以对应为用户提出的问题与问答中的问题的相似度；当历史问答记录中返回的答案的匹配度虽然是本地知识库中匹配度最高的但是其匹配度并未超过第一阈值时，说明返回的答案并不是很准确或者存在错误的风险，因此存在更新需求；此外，还可以通过对历史问答记录对应的用户的反馈意见进行分析，首先对反馈意见进行量化，以此获取反馈意见对应的量化值，进而通过第二阈值进行筛选确定，然后进行关键词提取，以此来获得搜索关键词库中的关键词。其中，客户的反馈意见可以为通过选择反馈模板进行反馈，例如：选择反馈模板上包括问题有“答案是否准确”；选项为“准确、不准确”；在量化模板中准确的选项对应量化值为2，不准确的选项对应量化值为-2；设置第二阈值为-1或-2；这样就可以筛选出需要搜索的问答记录了；此外，反馈意见还可以通过文本输入的方式进行输入，则在量化模板进行量化前，需要根据量化模板中各个量化项对应的关键词进行文本输入的反馈信息进行统计，统计到对应的关键词，以此确定量化值。

在一个实施例中，基于第一问答知识项和第二问答知识项，对本地知识库进行更新，包括：

此外，基于第一问答知识项和第二问答知识项，对本地知识库进行更新，还包括：

确定第一问答知识项或第二问答知识项的来源；

上述技术方案的工作原理及有益效果为：

通过计算第一问答知识项中问题以及答案与第二问答知识项中的问题以及答案的相似度，以此来提取存在第一问答知识项以及第二问答知识项中的相同的问答，以此来进行数据库的更新，在更新前通对第一问答知识项或第二问答知识项进行信任评价，以此，间接确定第一知识项和第二知识项的准确性；在信用评价时，可以综合分析第一知识项或第二知识项对应的待分析数据的来源以及待分析数据在第三方平台上获取到的数量(次数)；针对来源的分析，可以通过预先配置的来源信任评分表，确定来源对应的第一信任评分；此外，当存在多个来源时，以来源信任评分表中最大的评分值作为第一信任评分；在来源信任评分表中各个来源对应一个信任评分；针对数量(次数)的分析，可以通过预设，即预先配置的数量信任评分表，确定第二信任评分；在数量信任评分表中数量与第二信任评分一一对应关联；正常情况下，数量越多，第二信任评分越大；然后根据第一信任评分与第二信任评分的和值、预设的信任阈值，将不安全数据进行剔除，保证知识库的准确更新。

在一个实施例中，基于大语言模型和BERT模型的本地知识库更新方法，还包括：

对更新后的本地知识库中的更新项进行跟踪并获取更新项对应的问答记录；

提取问答记录对应的用户的反馈信息；

将量化值小于等于预设的第二阈值的更新项作为预警项并输出；

接收管理人员对预警项的复核；

当复核结果为更新异常时，基于预设的信任修正值，对来源信息评分表中的来源对应的信任评分进行修正；

本实施例通过对更新项进行追踪，并以此为基础确定更新项是否异常，保证了本地知识库的准确有效；此外，以此为基础进行来源信任评分表的信任评分修正，保证了后续更新时提高了基于信任分析的数据剔除的准确性，进一步保证知识库更新的准确安全。此外，为了超限情形的发生，可以对来源信任评分表中各个来源的信任评分设置最小值和最大值；当信任评分修正至最小值后不再进行向下的修正。

在一个实施例中，在接入第三方平台(统一资源检索平台和智能导读服务)，一次性实时多个文献数据库的并发搜索；通过智慧导读服务实时截取当前读者文献搜索结果的前若干篇文献(Top-N),在第三方平台搜索也可以应用大语言模型的搜索功能；将搜索的数据以相关概念提取、关联矩阵表达(语义脑图)、兴趣点聚焦和隐性知识链路发现等主要关键技术，提取第一问答知识项，以及通过BERT模型分析出第二问答知识项，然后综合分析第一问答知识项和第二问答知识项进行本地知识库的更新；在分析时，基于信任分析机制，剔除信任评价值不高的知识项，保证本地知识库的更新的准确性。

在一个实施例中，基于第一问答知识项和第二问答知识项，对本地知识库进行更新，还包括：

确定第一问答知识项或第二问答知识项的来源；

对第一知识项或第二知识项对应的搜索关键词库中关键词的构建所对应的历史问答记录对应的用户反馈意见进行分析，确定第三信任评分；

将第一信任评分、第二信任评分和第三信任评分的和值小于预设的第二信任阈值的第一问答知识项或第二问答知识项删除；

其中，对第一知识项或第二知识项对应的搜索关键词库中关键词的构建所对应的历史问答记录对应的用户反馈意见进行分析，确定第三信任评分，包括：

基于第一知识项中的答案或第二知识项中的答案，与用户反馈意见中的答案匹配，确定待分析反馈意见；

确定各个待分析反馈意见对应的用户的信任值；

基于各个待分析反馈意见对应的用户的权限值，确定对应的权重系数；

基于权重系数和信任值，确定第三信任评分。

本实施例在对第一问答项或第二问答项来源的分析基础上，进一步升级加入源头的用户信任分析，在搜索关键词中关键词的构建可以是一条历史问答记录也可以是多条历史问答记录，每一条历史问答记录对应一个用户；然后提取对应用户的信任值以及权限值；通过权限值，查询权限值与权重系数转化表，确定权重系数；然后通过权重系数和信任值确定第三信任评分，具体可以是各个用户对应信任值与权重系数的积的和。

在一个实施例中，当更新项被确定为更新异常时，确定对应反馈的用户，基于预设的第一修正值对用户的信任值进行向下修正；

当更新项在预设的时间后还未被确定为更新异常且调用次数达到预设的第一次数还未被确定为更新异常时，

或，当更新项被调用次数达到预设的第二次数，还未被确定为更新异常时；

基于预设的第二修正值对用户的信任值进行向上修正；

其中，第一次数小于第二次数；第一修正值的绝对值大于第二修正值的绝对值。

通过对更新项的追踪，以此调整用户的信任值，以保证后续更新的有效准确的进行。此外，对于调整也可设置信任值的最大值和最小值，避免对用户的信任值的调整影响占比过大，影响来源分析，提高了信任分析的准确性。

本发明还提供一种基于大语言模型和BERT模型的本地知识库更新系统，如图2所示，包括：

获取模块1，用于接入预设的第三方平台并获取待分析数据；

第一分析模块2，用于将待分析数据输入大语言模型，获取至少一个第一问答知识项；

第二分析模块3，用于将待分析数据输入BERT模型，获取至少一个第二问答知识项；

更新模块4，用于基于第一问答知识项和第二问答知识项，对本地知识库进行更新。

在一个实施例中，获取模块1接入预设的第三方平台并获取待分析数据，执行如下操作：

基于搜索关键词库，对第三方平台上的数据进行检索；

在一个实施例中，搜索关键词库通过如下步骤构建：

获取历史问答记录；

和/或，

确定各个历史问答记录对应的用户反馈意见；

在一个实施例中，更新模块4基于第一问答知识项和第二问答知识项，对本地知识库进行更新，执行如下操作：

确定第一问答知识项或第二问答知识项的来源；

在一个实施例中，基于大语言模型和BERT模型的本地知识库更新系统，还包括：追踪模块，

追踪模块执行如下操作：

提取问答记录对应的用户的反馈信息；

接收管理人员对预警项的复核；

在一个实施例中，更新模块4基于第一问答知识项和第二问答知识项，对本地知识库进行更新，还执行如下操作：

确定第一问答知识项或第二问答知识项的来源；

确定各个待分析反馈意见对应的用户的信任值；

基于权重系数和信任值，确定第三信任评分。

基于预设的第二修正值对用户的信任值进行向上修正；

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于大语言模型和BERT模型的本地知识库更新方法，其特征在于，包括：

接入预设的第三方平台并获取待分析数据；

将待分析数据输入BERT模型，获取至少一个第二问答知识项；

基于所述第一问答知识项和所述第二问答知识项，对本地知识库进行更新；

其中，所述基于所述第一问答知识项和所述第二问答知识项，对本地知识库进行更新，包括：

确定第一问答知识项或第二问答知识项的来源；

将所述第一信任评分和所述第二信任评分的和值小于预设的信任阈值的第一问答知识项或第二问答知识项删除；

其中，基于第一问答知识项和第二问答知识项，对本地知识库进行更新，还包括：

确定第一问答知识项或第二问答知识项的来源；

确定各个待分析反馈意见对应的用户的信任值；

基于权重系数和信任值，确定第三信任评分。

2.如权利要求1所述的基于大语言模型和BERT模型的本地知识库更新方法，其特征在于，所述接入预设的第三方平台并获取待分析数据，包括：

基于搜索关键词库，对第三方平台上的数据进行检索；

提取检索结果中前预设数量的对象对应的数据作为所述待分析数据。

3.如权利要求2所述的基于大语言模型和BERT模型的本地知识库更新方法，其特征在于，所述搜索关键词库通过如下步骤构建：

获取历史问答记录；

确定所述历史问答记录中各个问题对应的匹配的各个答案的匹配度；

和/或，

确定各个历史问答记录对应的用户反馈意见；

基于预设的量化模板对所述用户反馈意见进行量化，获取量化值；

4.如权利要求1所述的基于大语言模型和BERT模型的本地知识库更新方法，其特征在于，所述基于所述第一问答知识项和所述第二问答知识项，对本地知识库进行更新，包括：

5.一种基于大语言模型和BERT模型的本地知识库更新系统，其特征在于，包括：

获取模块，用于接入预设的第三方平台并获取待分析数据；

更新模块，用于基于所述第一问答知识项和所述第二问答知识项，对本地知识库进行更新；

其中，所述更新模块基于所述第一问答知识项和所述第二问答知识项，对本地知识库进行更新，执行如下操作：

确定第一问答知识项或第二问答知识项的来源；

其中，更新模块基于第一问答知识项和第二问答知识项，对本地知识库进行更新，还执行如下操作：

确定第一问答知识项或第二问答知识项的来源；

确定各个待分析反馈意见对应的用户的信任值；

基于权重系数和信任值，确定第三信任评分。

6.如权利要求5所述的基于大语言模型和BERT模型的本地知识库更新系统，其特征在于，所述获取模块接入预设的第三方平台并获取待分析数据，执行如下操作：

基于搜索关键词库，对第三方平台上的数据进行检索；

7.如权利要求6所述的基于大语言模型和BERT模型的本地知识库更新系统，其特征在于，所述搜索关键词库通过如下步骤构建：

获取历史问答记录；

和/或，

确定各个历史问答记录对应的用户反馈意见；

8.如权利要求5所述的基于大语言模型和BERT模型的本地知识库更新系统，其特征在于，所述更新模块基于所述第一问答知识项和所述第二问答知识项，对本地知识库进行更新，执行如下操作：