CN117555992A

CN117555992A - 基于大模型微调的分词检索方法、装置、设备及存储介质

Info

Publication number: CN117555992A
Application number: CN202311658312.7A
Authority: CN
Inventors: 周逸杰; 顾卓平; 申应科; 张奕; 杜伟; 甘世忠
Original assignee: China Communication Service Application And Solution Technology Co ltd
Current assignee: China Communication Service Application And Solution Technology Co ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-02-13

Abstract

本发明公开了一种基于大模型微调的分词检索方法、装置、设备及存储介质，涉及计算机与人工智能技术领域。所述方法是先使用用户询问数据集对已完成语料训练的大模型进行微调操作，以便让所述大模型学习和掌握文本分词的过程，得到能够从用户问题中获取关键词组的微调后大模型，然后使用所述微调后大模型对用户输入的新问题进行文本分词处理，得到多个新关键词，最后根据所述多个新关键词，对数据库进行查询操作，并将查询结果返回给所述用户。如此不仅提供了一个自动化、高效和准确的数据库查询方案，还具有低成本、易于实施和持续优化的特点，为数据库查询提供了一种全新的解决方案，便于实际应用和推广。

Description

基于大模型微调的分词检索方法、装置、设备及存储介质

技术领域

本发明属于计算机与人工智能技术领域，具体涉及一种基于大模型微调的分词检索方法、装置、设备及存储介质。

背景技术

分词检索是指当用户输入语句进行搜索时，搜索引擎会将这个语句分成一个个的词，并按一定规范重新组合，从而判断用户真实的搜索意图，进而将符合用户需求的内容展现出来。

目前，现有分词检索方案中的分词手段主要有基于规则的分词、基于统计的分词和基于深度学习的分词，但是这些分词手段具有如下缺陷：

(1)基于规则的分词：由于这种分词手段依赖于预先定义的词汇和语法规则，并是通过匹配这些规则将句子切分为独立的词汇，因此其对于新出现的词汇和语言存在变化不够灵活以及容易出现切分错误的问题。

(2)基于统计的分词：由于这种分词手段通常使用大量的语料库，通过统计词语的出现频率和相邻词语的联合概率来进行分词，因此需要大量的标注数据，对于低频词汇分词效果可能不佳。

(3)基于深度学习的分词：其是利用神经网络模型(如LSTM或Bi-LSTM等)进行分词，可以学习到词语的复杂模式和上下文关系，虽然能够学习到复杂的词汇模式，但对于训练数据不足的领域或特定语境可能表现不佳。

发明内容

本发明的目的是提供一种基于大模型微调的分词检索方法、装置、计算机设备及计算机可读存储介质，用以解决现有分词检索方案因分词手段缺陷而存在局限性的问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，提供了一种基于大模型微调的分词检索方法，包括：

获取用于大模型微调的用户询问数据集，其中，所述用户询问数据集包含有多个用户问题以及与所述多个用户问题一一对应的多个用户问题关键词组，所述用户问题关键词组包含有预先通过人工方式从对应用户问题中提取出的多个关键词；

使用所述用户询问数据集对已完成语料训练的大模型进行微调操作，以便让所述大模型学习和掌握文本分词的过程，得到能够从用户问题中获取关键词组的微调后大模型；

接收用户输入的新问题；

使用所述微调后大模型对所述新问题进行文本分词处理，得到多个新关键词；

根据所述多个新关键词，对数据库进行查询操作，并将查询结果返回给所述用户。

基于上述发明内容，提供了一种在分词检索过程中应用大模型进行关键词分解并根据分解结果进行数据库检索的新方案，即先使用用户询问数据集对已完成语料训练的大模型进行微调操作，以便让所述大模型学习和掌握文本分词的过程，得到能够从用户问题中获取关键词组的微调后大模型，然后使用所述微调后大模型对用户输入的新问题进行文本分词处理，得到多个新关键词，最后根据所述多个新关键词，对数据库进行查询操作，并将查询结果返回给所述用户。如此不仅提供了一个自动化、高效和准确的数据库查询方案，还具有低成本、易于实施和持续优化的特点，为数据库查询提供了一种全新的解决方案，便于实际应用和推广。

在一个可能的设计中，获取用于大模型微调的用户询问数据集，包括：

对原始的用户询问数据进行用于清除冗余信息及不相关信息的预处理，得到用于大模型微调的用户询问数据集，其中，所述用户询问数据集包含有多个用户问题以及与所述多个用户问题一一对应的多个用户问题关键词组，所述用户问题关键词组包含有预先通过人工方式从对应用户问题中提取出的多个关键词。

在一个可能的设计中，所述大模型采用规模在6B以上且经过数十亿以上的语料训练而成的ChatGLM-6B模型。

在一个可能的设计中，所述微调操作采用LoRA大模型微调方式、Adapter大模型微调方式、Prefix-tuning大模型微调方式、P-tuning大模型微调方式或Prompt-tuning大模型微调方式。

在一个可能的设计中，根据所述多个新关键词，对数据库进行查询操作，包括：

根据所述多个新关键词，匹配预设的SQL查询语句，生成与所述多个新关键词相关的特定SQL查询语句；

使用所述特定SQL查询语句对数据库进行查询操作。

在一个可能的设计中，在将查询结果返回给所述用户之后，所述方法还包括：

收集所述用户对所述查询结果的满意度；

当所述满意度超过预设阈值时，将所述新问题及所述多个新关键词添加到所述用户询问数据集中，得到新的用户询问数据集；

使用所述新的用户询问数据集对所述微调后大模型进行微调操作。

第二方面，提供了一种基于大模型微调的分词检索装置，包括有数据集获取模块、模型微调模块、问题接收模块、模型应用模块和查询操作模块；

所述数据集获取模块，用于获取用于大模型微调的用户询问数据集，其中，所述用户询问数据集包含有多个用户问题以及与所述多个用户问题一一对应的多个用户问题关键词组，所述用户问题关键词组包含有预先通过人工方式从对应用户问题中提取出的多个关键词；

所述模型微调模块，通信连接所述数据集获取模块，用于使用所述用户询问数据集对已完成语料训练的大模型进行微调操作，以便让所述大模型学习和掌握文本分词的过程，得到能够从用户问题中获取关键词组的微调后大模型；

所述问题接收模块，用于接收用户输入的新问题；

所述模型应用模块，分别通信连接所述模型微调模块和所述问题接收模块，用于使用所述微调后大模型对所述新问题进行文本分词处理，得到多个新关键词；

所述查询操作模块，通信连接所述模型应用模块，用于根据所述多个新关键词，对数据库进行查询操作，并将查询结果返回给所述用户。

在一个可能的设计中，还包括有满意度收集模块和数据集添加模块；

所述满意度收集模块，通信连接所述查询操作模块，用于收集所述用户对所述查询结果的满意度；

所述数据集添加模块，分别通信连接所述满意度收集模块和所述模型应用模块，用于当所述满意度超过预设阈值时，将所述新问题及所述多个新关键词添加到所述用户询问数据集中，得到新的用户询问数据集；

所述模型微调模块，还通信连接所述数据集添加模块，用于使用所述新的用户询问数据集对所述微调后大模型进行微调操作。

第三方面，本发明提供了一种计算机设备，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意可能设计所述的分词检索方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或第一方面中任意可能设计所述的分词检索方法。

第五方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面或第一方面中任意可能设计所述的分词检索方法。

上述方案的有益效果：

(1)本发明创造性提供了一种在分词检索过程中应用大模型进行关键词分解并根据分解结果进行数据库检索的新方案，即先使用用户询问数据集对已完成语料训练的大模型进行微调操作，以便让所述大模型学习和掌握文本分词的过程，得到能够从用户问题中获取关键词组的微调后大模型，然后使用所述微调后大模型对用户输入的新问题进行文本分词处理，得到多个新关键词，最后根据所述多个新关键词，对数据库进行查询操作，并将查询结果返回给所述用户。如此不仅提供了一个自动化、高效和准确的数据库查询方案，还具有低成本、易于实施和持续优化的特点，为数据库查询提供了一种全新的解决方案，便于实际应用和推广；

(2)可降低人工配置需求：传统的数据库查询通常需要大量的人工配置和优化，但本技术有效地降低了这一需求，从而节省了大量的时间和人力资源；

(3)具有强泛化能力：本技术采用的大模型具有出色的泛化能力，能够适应多种不同的查询场景和需求，提供稳定和高效的查询结果；

(4)可持续学习和优化：不仅在初次部署时具有优秀的查询效果，而且可以根据用户反馈和检索效果数据持续学习和优化，使得查询效果随着时间的推移而持续改善；

(5)可降低入门门槛：由于本技术的泛化和学习能力，即使是对数据库查询不熟悉的用户或开发者，也可以利用该技术实现高效的数据库查询，降低了技术实施的门槛；

(6)可提高查询效果：结合大模型的文本分析和数据库的检索技术，本技术能够提供准确和高效的查询结果，满足用户的各种查询需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于大模型微调的分词检索方法的流程示意图。

图2为本申请实施例提供的基于大模型微调的分词检索装置的结构示意图。

图3为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

应当理解，尽管本文可能使用术语第一和第二等等来描述各种对象，但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A、单独存在B或者同时存在A和B等三种情况；又例如，A、B和/或C，可以表示存在A、B和C中的任意一种或他们的任意组合；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A或者同时存在A和B等两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

实施例：

如图1所示，本实施例第一方面提供的且基于大模型微调的分词检索方法，可以但不限于由具有一定计算资源的计算机设备执行，例如由平台服务器、个人计算机(PersonalComputer，PC，指一种大小、价格和性能适用于个人使用的多用途计算机；台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal Digital Assistant，PDA)或可穿戴设备等电子设备执行。如图1所示，所述分词检索方法，可以但不限于包括有如下步骤S1～S5。

S1.获取用于大模型微调的用户询问数据集，其中，所述用户询问数据集包含但不限于有多个用户问题以及与所述多个用户问题一一对应的多个用户问题关键词组等，所述用户问题关键词组包含但不限于有预先通过人工方式从对应用户问题中提取出的多个关键词等。

在所述步骤S1中，所述大模型微调是指在使用预训练的大规模模型(例如BERT或GPT等)的基础上，通过在特定任务上进行有监督的微调，以提高模型在该任务上的性能。所述用户询问数据集即作为微调大模型的任务数据集，并由于本实施例的特定任务是对用户问题进行关键词分解的分词任务，因此所述用户询问数据集需要包含有多个用户问题以及与所述多个用户问题一一对应的多个用户问题关键词组，以及所述用户问题关键词组需要包含有预先通过人工方式从对应用户问题中提取出的多个关键词。举例的，若用户问题为“上海市人工智能产业企业数量的情况是？”，则对应的用户问题关键词组可以包含有“上海”、“人工智能”和“企业数量情况”等多个关键词。所述用户询问数据集可以基于原始的用户询问数据来得到，即具体的，获取用于大模型微调的用户询问数据集，包括但不限于有：对原始的用户询问数据进行用于清除冗余信息及不相关信息的预处理，得到用于大模型微调的用户询问数据集，其中，所述用户询问数据集包含有多个用户问题以及与所述多个用户问题一一对应的多个用户问题关键词组，所述用户问题关键词组包含有预先通过人工方式从对应用户问题中提取出的多个关键词。

S2.使用所述用户询问数据集对已完成语料训练的大模型进行微调操作，以便让所述大模型学习和掌握文本分词的过程，得到能够从用户问题中获取关键词组的微调后大模型。

在所述步骤S2中，具体的，所述大模型可以但不限于采用规模在6B以上(即模型参数量在60亿以上，B表示Billion的缩写)且经过数十亿以上的语料训练而成的ChatGLM-6B模型(其是一个开源的、支持中英双语的现有对话语言模型，基于General Language Model架构，具有62亿参数)。

在所述步骤S2中，具体的，所述微调操作可以但不限于采用LoRA大模型微调方式、Adapter大模型微调方式、Prefix-tuning大模型微调方式、P-tuning大模型微调方式或Prompt-tuning大模型微调方式等。所述LoRA(Learnable Regressionadapter)大模型微调方式是一种高效的模型微调方法，它通过在大模型的顶部添加一个可学习的线性层，实现对模型输出的调整，这个线性层用于对预训练模型的特征进行加权，从而实现对输入的适应性；LoRA方法在保持计算效率的同时，实现了与更复杂的Adapter相媲美的性能。所述Adapter大模型微调方式是一种模型微调方法，它通过替换预训练模型中的特定层来改变模型的特性；Adapter方法在NLP(Natural Language Processing,自然语言处理)领域取得了显著的成功，它通过使用小型网络来适应特定任务；与EfficientNet等其他可扩展模型相比，Adapters具有更高的灵活性，因为它们可以轻松地适应不同类型的任务。所述Prefix-tuning大模型微调方式是一种基于预训练模型的方法，它通过对输入序列的前缀进行微调，实现对模型行为的调整；这种方法在NLP领域取得了成功，它通过修改预训练模型的初始部分来适应新的任务；Prefix-tuning方法具有计算效率高、可扩展性强的优点。所述P-tuning大模型微调方式是一种模型微调方法，它通过修改预训练模型的自注意力机制来适应新的任务；具体来说，P-tuning方法通过对注意力分布进行加权，实现对输入的适应性；P-tuning方法在各种NLP基准测试中取得了优秀的性能，被认为是近期研究中最重要的技术之一。所述Prompt-tuning大模型微调方式是一种基于提示的方法，它通过修改输入序列中的提示词来调整模型的输出；这种方法在NLP领域取得了显著的成功，它通过对提示词进行微调，实现对模型行为的调整；Prompt-tuning方法具有灵活性和可扩展性强的优点，能够快速适应各种新的任务和领域。

S3.接收用户输入的新问题。

S4.使用所述微调后大模型对所述新问题进行文本分词处理，得到多个新关键词。

S5.根据所述多个新关键词，对数据库进行查询操作，并将查询结果返回给所述用户。

在所述步骤S5中，具体的，根据所述多个新关键词，对数据库进行查询操作，包括但不限于有如下步骤S51～S52：S51.根据所述多个新关键词，匹配预设的SQL(StructuredQuery Language，结构化查询语言)查询语句，生成与所述多个新关键词相关的特定SQL查询语句；S52.使用所述特定SQL查询语句对数据库进行查询操作。

在所述步骤S5之后，为了不断更新和优化所述大模型，以提高分词准确性以及数据检索的能力和准确性，优选的，在将查询结果返回给所述用户之后，所述方法还包括但不限于有如下步骤S61～S63：S61.收集所述用户对所述查询结果的满意度；S62.当所述满意度超过预设阈值时，将所述新问题及所述多个新关键词添加到所述用户询问数据集中，得到新的用户询问数据集；S63.使用所述新的用户询问数据集对所述微调后大模型进行微调操作。前述的满意度用于作为用户反馈及检索效果数据，可以通过常规方式收集得到。

由此基于前述步骤S1～S5所描述的分词检索方法，提供了一种在分词检索过程中应用大模型进行关键词分解并根据分解结果进行数据库检索的新方案，即先使用用户询问数据集对已完成语料训练的大模型进行微调操作，以便让所述大模型学习和掌握文本分词的过程，得到能够从用户问题中获取关键词组的微调后大模型，然后使用所述微调后大模型对用户输入的新问题进行文本分词处理，得到多个新关键词，最后根据所述多个新关键词，对数据库进行查询操作，并将查询结果返回给所述用户。如此不仅提供了一个自动化、高效和准确的数据库查询方案，还具有低成本、易于实施和持续优化的特点，为数据库查询提供了一种全新的解决方案，便于实际应用和推广。

如图2所示，本实施例第二方面提供了一种实现第一方面所述的分词检索方法的虚拟装置，包括有数据集获取模块、模型微调模块、问题接收模块、模型应用模块和查询操作模块；

所述问题接收模块，用于接收用户输入的新问题；

本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果，可以参见第一方面所述的分词检索方法，于此不再赘述。

如图3所示，本实施例第三方面提供了一种执行如第一方面所述的分词检索方法的计算机设备，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面所述的分词检索方法。具体举例的，所述存储器可以但不限于包括随机存取存储器(Random-Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(FlashMemory)、先进先出存储器(First Input First Output，FIFO)和/或先进后出存储器(First Input Last Output，FILO)等等；所述处理器可以但不限于采用型号为STM32F105系列的微处理器。此外，所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果，可以参见第一方面所述的分词检索方法，于此不再赘述。

本实施例第四方面提供了一种存储包含如第一方面所述的分词检索方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面所述的分词检索方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等计算机可读存储介质，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果，可以参见如第一方面所述的分词检索方法，于此不再赘述。

本实施例第五方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面所述的分词检索方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大模型微调的分词检索方法，其特征在于，包括：

接收用户输入的新问题；

2.根据权利要求1所述的分词检索方法，其特征在于，获取用于大模型微调的用户询问数据集，包括：

3.根据权利要求1所述的分词检索方法，其特征在于，所述大模型采用规模在6B以上且经过数十亿以上的语料训练而成的ChatGLM-6B模型。

4.根据权利要求1所述的分词检索方法，其特征在于，所述微调操作采用LoRA大模型微调方式、Adapter大模型微调方式、Prefix-tuning大模型微调方式、P-tuning大模型微调方式或Prompt-tuning大模型微调方式。

5.根据权利要求1所述的分词检索方法，其特征在于，根据所述多个新关键词，对数据库进行查询操作，包括：

使用所述特定SQL查询语句对数据库进行查询操作。

6.根据权利要求1所述的分词检索方法，其特征在于，在将查询结果返回给所述用户之后，所述方法还包括：

收集所述用户对所述查询结果的满意度；

7.一种基于大模型微调的分词检索装置，其特征在于，包括有数据集获取模块、模型微调模块、问题接收模块、模型应用模块和查询操作模块；

所述问题接收模块，用于接收用户输入的新问题；

8.根据权利要求7所述的分词检索装置，其特征在于，还包括有满意度收集模块和数据集添加模块；

9.一种计算机设备，其特征在于，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～6中任意一项所述的分词检索方法。

10.一种计算机可读存储介质，其特征在于,所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～6中任意一项所述的分词检索方法。