CN117076631A

CN117076631A - 基于LLaMA的财税问答模型构建方法、装置、设备及介质

Info

Publication number: CN117076631A
Application number: CN202311024423.2A
Authority: CN
Inventors: 施建生; 王唯炜; 徐煌; 刘子星; 沈懿忱
Original assignee: Servyou Software Group Co ltd
Current assignee: Servyou Software Group Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-11-17

Abstract

本申请公开了一种基于LLaMA的财税问答模型构建方法、装置、设备及介质，涉及模型训练领域，包括：通过低阶自适应技术利用预设中文训练集对预设LLaMA‑7B模型进行微调，以得到通用中文语言大模型；获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据；对过滤后财税数据进行分词处理，以将所述过滤后财税数据切分为若干分词结果序列，并基于所述分词结果序列创建中文财税训练集；基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型。这样一来，可以基于收集的财税语料在垂直领域对模型进行训练，减小模型训练难度，得到应用于财税行业专项领域的问答模型。

Description

基于LLaMA的财税问答模型构建方法、装置、设备及介质

技术领域

本发明涉及模型训练领域，特别涉及一种基于LLaMA的财税问答模型构建方法、装置、设备及介质。

背景技术

近年来，自然语言处理技术的不断进步为问答机器人提供了更多的可能。其中，最近出现的ChatGPT(Chat Generative Pre-trained Transformer)模型基于深度学习技术构建一个语言大模型，能够实现自然语言的生成和理解，具备高度的语义理解能力。通过调用ChatGPT模型的接口，我们可以将其集成到问答机器人中，让其代替人工回答用户的问题。相较于传统的基于规则或模板匹配的问答机器人，ChatGPT能够更加灵活、智能地处理用户的问题，提高了问答机器人的自然度和准确度。

现有技术中，基于传统自然语言处理的问答机器人大多以Q&A(问题&答案)为中心构建问答，需要运营去穷举用户的所有的问题，然后给每个问题配上相应的答案。然后利用算法解析到运营配置的问题上，召回答案返回给用户。目前广泛用于语音助手，客服机器人当中。但是这种方法需要手动编写大量的标准问题和答案，不够智能化和灵活，而且由于中文的复杂性，模型容易出现语义理解偏差，造成匹配的标准答案偏差。

使用ChatGPT作为问答机器人也有一些缺点，首先，目前ChatGPT生成的回答会出现胡言乱语的情况，因此需要额外的人工审核和校对，以确保回答的准确性和质量。其次，对于需要高度专业知识和复杂推理的问题，ChatGPT可能无法提供令人满意的答案，因为它只是基于模式和语言模型生成回答，而没有真正的理解能力。此外，调用ChatGPT接口回答用户的财税问题还存在信息泄漏等安全问题。

并且由于ChatGPT的代码并未开源，使得复现模型暂时有较大困难。并且大语言模型的训练和部署都极为昂贵，即使后续代码被公开，复现相同的模型也需要花费巨大成本。

发明内容

有鉴于此，本发明的目的在于提供一种基于LLaMA的财税问答模型构建方法、装置、设备及介质，通过引入垂直领域的财税数据，训练出属于财税领域的小模型。并且通过利用通用的中文语言大模型进行模型训练，可以解决当前国外开源大语言模型在中文任务上表现不理想的现状。其具体方案如下：

第一方面，本申请公开了一种基于LLaMA的财税问答模型构建方法，包括：

通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型；

获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据；

对过滤后财税数据进行分词处理，以将所述过滤后财税数据切分为若干分词结果序列，并基于所述分词结果序列创建中文财税训练集；

基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型。

可选的，所述通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型之前，还包括：

提取预设开源数据集中的中文数据，并将所述中文数据输入至生成型预训练变换模型进行训练，并基于训练后中文数据生成预设中文训练集。

可选的，所述通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型，包括：

基于低阶自适应技术冻结所述预设LLaMA-7B模型中的模型参数，以得到冻结后LLaMA-7B模型；

为所述预设LLaMA-7B模型添加目标网络层，并将所述预设中文训练集作为所述目标网络层的目标网络层参数，以利用所述目标网络层参数对所述冻结后LLaMA-7B模型进行训练，以得到通用中文语言大模型。

可选的，所述获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据，包括：

基于网络爬虫和/或预设财税数据库获取预设财税数据；

剔除所述预设财税数据中的超文本标记语言标签、图片数据以及重复数据，以得到剔除后财税数据；

对所述剔除后财税数据进行数据脱敏操作，以得到过滤后财税数据。

可选的，所述对所述剔除后财税数据进行数据脱敏操作，以得到过滤后财税数据，包括：

确定所述剔除后财税数据中的身份信息数据，并利用预设替换数据对所述身份信息数据进行替换，以对所述剔除后财税数据进行数据脱敏，得到所述过滤后财税数据。

可选的，所述对过滤后财税数据进行分词处理，以将所述过滤后财税数据切分为若干分词结果序列，并基于所述分词结果序列创建中文财税训练集，包括：

基于预设符号数据将所述过滤后财税数据分割为若干长文本，并通过字节对编码算法分别对所述若干长文本进行分词处理，以将所述若干长文本切分为若干分词结果序列；

基于所述分词结果序列创建中文财税训练集。

可选的，所述基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型，包括：

通过所述中文财税训练集对所述通用中文语言大模型进行训练，以得到待确定财税问答模型；

利用预设测试集对所述待确定财税问答模型进行问答测试，并生成与所述待确定财税问答模型对应的问答测试结果；

若所述问答测试结果表征所述待确定财税问答模型未通过所述问答测试，则跳转至所述获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据的步骤，以对所述通用中文语言大模型进行下一轮训练；

若所述问答测试结果表征所述待确定财税问答模型通过所述问答测试，则将所述待确定财税问答模型确定为目标财税问答模型，以通过所述目标财税问答模型对用户端发送的财税问题进行回复。

第二方面，本申请公开了一种基于LLaMA的财税问答模型构建装置，包括：

待训练模型构建模块，用于通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型；

数据过滤模块，用于获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据；

数据切分模块，用于对过滤后财税数据进行分词处理，以将所述过滤后财税数据切分为若干分词结果序列，并基于所述分词结果序列创建中文财税训练集；

模型训练模块，用于基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序以实现前述的基于LLaMA的财税问答模型构建方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的基于LLaMA的财税问答模型构建方法。

本申请中，首先通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型，然后获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据，对过滤后财税数据进行分词处理，以将所述过滤后财税数据切分为若干分词结果序列，并基于所述分词结果序列创建中文财税训练集，最后基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型。由此可见，通过本申请所述基于LLaMA的财税问答模型构建方法，可以通过低阶自适应技术对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型，并且可以通过创建的财税行业的财税数据集对通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型。这样一来，一方面，通过低阶自适应技术对LLaMA-7B模型进行微调得到通用中文语言大模型，可以有效降低语言模型适配中文的成本；另一方面，过引入垂直领域的财税数据，训练出属于财税领域的小模型。并且通过利用通用的中文语言大模型进行模型训练，可以解决当前国外开源大语言模型在中文任务上表现不理想的现状，并且保证了保证模型的整体性能，还可以在处理特定领域数据时获得更好的表现，为实际应用场景提供了更有效的解决方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种基于LLaMA的财税问答模型构建方法流程图；

图2为本申请提供的一种基于LLaMA的财税问答模型答复示例图；

图3为本申请提供的一种具体的基于LLaMA的财税问答模型构建方法流程图；

图4为本申请提供的一种数据过滤示例图；

图5为本申请提供的一种基于LLaMA的财税问答模型构建装置结构示意图；

图6为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，构建问答机器人的方法需要手动编写大量的标准问题和答案，不够智能化和灵活。而且由于中文的复杂性，模型容易出现语义理解偏差，造成匹配的标准答案偏差。并且，目前ChatGPT生成的回答会出现胡言乱语的情况，因此需要额外的人工审核和校对，以确保回答的准确性和质量，对于需要高度专业知识和复杂推理的问题，ChatGPT可能无法提供令人满意的答案，因为它只是基于模式和语言模型生成回答，而没有真正的理解能力。此外，调用ChatGPT接口回答用户的财税问题还存在信息泄漏等安全问题。

有鉴于此，本发明的目的在于提供一种基于LLaMA的财税问答模型构建方法、装置、设备及介质，通过引入垂直领域的财税数据，训练出属于财税领域的小模型。并且通过利用通用的中文语言大模型进行模型训练，可以解决当前国外开源大语言模型在中文任务上表现不理想的现状。

参见图1所示，本发明实施例公开了一种基于LLaMA的财税问答模型构建方法，包括：

步骤S11、通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型。

本实施例中，通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型。也即，在生成基于LLaMA(Large Language Model MetaAI，大语言模型)的目标财税问答模型之前，需要先生成适应中文语言环境的模型，也即通用中文语言大模型，可以选择LLaMA-7B(Large Language Model Meta AI-7B，大语言模型7B版本)模型作为生成通用中文语言大模型的待训练模型，并利用LoRA(Low-RankAdaptation of Large Language Models，低阶自适应技术)技术对LLaMA-7B模型的模型参数进行调整，需要进行说明的是，对LLaMA-7B模型进行调整的参数为预设的中文训练集，可以将预设中文训练集作为调整LLaMA-7B模型的参数，并通过LoRA技术对LLaMA-7B模型进行参数调整，以使得调整后的通用中文语言大模型适应中文语言环境。

需要进行说明的是，所述通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型之前，还包括：提取预设开源数据集中的中文数据，并将所述中文数据输入至生成型预训练变换模型进行训练，并基于训练后中文数据生成预设中文训练集。也即，由于LLaMA-7B模型的开发环境以及种子任务，收集的数据大多为英文，为了使LLaMA-7B模型适应中文环境，可以收集开源中文数据生成中文训练集作为训练参数对LLaMA-7B进行训练。例如，可以从Belle Dataset、Guanaco Dataset等开源数据中收集数据，然后通过调用ChatGPT的接口对收集的开源数据进行处理，得到Instruction指令数据，并基于生成的所述Instruction指令数据创建预设中文训练集。

步骤S12、获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据。

本实施例中，获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据。也即，在得到通用中文语言大模型之后，需要利用财税数据对通用中文语言大模型进行训练来生成财税问答模型，因此，需要先收集财税数据以生成中文财税训练集。可以通过网络爬虫获取网络公开的财税数据，也可以在预设的财税数据库中直接获取财税数据，需要进行说明的是，收集的财税数据中可能存在非文本数据，因此需要将收集的财税数据中的非文本数据剔除，得到剔除后财税数据。在得到剔除后财税数据后，可以确定的是剔除后财税数据中的数据一定为中文文本数据，但是剔除后财税数据中可能存在涉及用户隐私的数据，因此需要对剔除后财税数据进行数据脱敏操作，对涉及用户隐私的数据进行过滤，以得到过滤后财税数据。这样一来，可以通过对收集的财税数据进行过滤，避免非相关数据的干扰，提高模型训练的效率，并且可以对涉及用户隐私的数据进行过滤，保证用户的隐私安全。

步骤S13、对过滤后财税数据进行分词处理，以将所述过滤后财税数据切分为若干分词结果序列，并基于所述分词结果序列创建中文财税训练集。

本实施例中，对过滤后财税数据进行分词处理，以将所述过滤后财税数据切分为若干分词结果序列，并基于所述分词结果序列创建中文财税训练集。也即，在得到过滤后财税数据后，为了提高模型训练效率，以及模型训练的过程中对数据的利用率，可以对过滤后财税数据进行分词处理，可以以标点符号为单位，先对过滤后财税数据进行初步分割，将过滤后财税数据中的文本信息切分为完整的长文本，然后利用BPE(Byte Pair Encoding，字节对编码)算法对长文本进行进一步的切分，将每条长文本切分为若干分词结果序列，然后基于得到的所有分词结果序列创建中文财税训练集。

步骤S14、基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型。

本实施例中，基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型，包括：通过所述中文财税训练集对所述通用中文语言大模型进行训练，以得到待确定财税问答模型；利用预设测试集对所述待确定财税问答模型进行问答测试，并生成与所述待确定财税问答模型对应的问答测试结果；若所述问答测试结果表征所述待确定财税问答模型未通过所述问答测试，则跳转至所述获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据的步骤，以对所述通用中文语言大模型进行下一轮训练；若所述问答测试结果表征所述待确定财税问答模型通过所述问答测试，则将所述待确定财税问答模型确定为目标财税问答模型，以通过所述目标财税问答模型对用户端发送的财税问题进行回复。也即，在创建中文财税训练集之后，可以通过所述中文财税训练集对通用中文语言大模型进行训练，并将训练后得到的模型作为待确定财税问答模型，需要进行说明的是，由于对通用中文语言大模型进行训练得到的模型可能存在不满足财税行业问答需求的可能，因此需要将训练后的到的模型作为待确定财税问答模型，并对待确定财税问答模型进行问答测试，以判断待确定财税问答模型是否可以满足财税行业的问答需要。

可以通过预设测试集对待确定财税问答模型进行语言模型测试，通过计算模型预测文本的困惑度(perplexity)，来评估模型在某个语料库上的表现；可以对待确定财税问答模型进行问答测试，给模型被一些上下文信息，然对模型提问，以测试模型理解自然语言的能力和回答问题的能力；可以对待确定财税问答模型进行问答测试，给模型一段不完整的文本，然后要求生成相关的后续文本，以检查模型生成文本的质量；可以对待确定财税问答模型进行对话测试，通过模型与用户进行交互，模拟对话，以测试模型生成自然对话的能力；可以对待确定财税问答模型进行长文本处理测试，测试模型对长篇文本的处理能力，包括文本的连贯性和逻辑性；可以对待确定财税问答模型进行知识推理处理测试，测试模型对已有知识的推理能力，包括类比推理和逻辑推理等。如果模型可以通过上述测试，则可以直接将待确定财税问答模型确定为目标财税问答模型，以通过所述目标财税问答模型对用户端发送的财税问题进行回复。如图2所示为，对模型进行财税行业的问答测试。如果待确定财税问答模型未通过所述问答测试，则跳转至所述获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据的步骤，以对所述通用中文语言大模型进行下一轮训练。

由此可见，本实施例中首先通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型，然后获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据，对过滤后财税数据进行分词处理，以将所述过滤后财税数据切分为若干分词结果序列，并基于所述分词结果序列创建中文财税训练集，最后基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型。由此可见，通过本申请所述基于LLaMA的财税问答模型构建方法，可以通过低阶自适应技术对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型，并且可以通过创建的财税行业的财税数据集对通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型。这样一来，一方面，通过低阶自适应技术对LLaMA-7B模型进行微调得到通用中文语言大模型，可以有效降低语言模型适配中文的成本；另一方面，过引入垂直领域的财税数据，训练出属于财税领域的小模型。并且通过利用通用的中文语言大模型进行模型训练，可以解决当前国外开源大语言模型在中文任务上表现不理想的现状，并且保证了保证模型的整体性能，还可以在处理特定领域数据时获得更好的表现，为实际应用场景提供了更有效的解决方案。

基于前述实施例可知，如果要生成基于LLaMA的目标财税问答模型需要先对预设LLaMA-7B模型进行微调，并通过创建的中文财税训练集对微调后得到的通用中文语言大模型进行训练，以得到所述基于LLaMA的目标财税问答模型。为此，本实施例对如何对预设LLaMA-7B模型进行微调以及如何创建中文财税训练集进行了详细的描述。参见图3所示，本发明实施例公开了一种基于LLaMA的财税问答模型构建方法，包括：

步骤S21、基于低阶自适应技术冻结所述预设LLaMA-7B模型中的模型参数，以得到冻结后LLaMA-7B模型。

本实施例中，基于低阶自适应技术冻结所述预设LLaMA-7B模型中的模型参数，以得到冻结后LLaMA-7B模型。也即，需要通过LoRA技术对预设LLaMA-7B模型的模型参数进行冻结，以输入新的模型参数对冻结后的LLaMA-7B模型进行微调训练，以使得调整后的通用中文语言大模型适应中文语言环境。

步骤S22、为所述预设LLaMA-7B模型添加目标网络层，并将所述预设中文训练集作为所述目标网络层的目标网络层参数，以利用所述目标网络层参数对所述冻结后LLaMA-7B模型进行训练，以得到通用中文语言大模型。

本实施例中，为所述预设LLaMA-7B模型添加目标网络层，并将所述预设中文训练集作为所述目标网络层的目标网络层参数，以利用所述目标网络层参数对所述冻结后LLaMA-7B模型进行训练，以得到通用中文语言大模型。也即，通过LoRA技术冻结LLaMA-7B模型中的模型参数后，需要为冻结后LLaMA-7B模型添加新的网络层，并将预设中文训练集作为添加的新的网络层的参数，对冻结后LLaMA-7B模型进行训练。需要进行说明的是，由于LLaMA-7B模型的模型参数可达到十亿级别，因此对LLaMA-7B模型进行参数调整需要耗费大量的资源，而在冻结LLaMA-7B模型的模型参数的情况下，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数，由于这些新增参数数量较少，这样不仅微调的成本显著下降，还能获得和全模型微调类似的效果，有效节省了模型微调的成本，并且提高了本申请所述基于LLaMA的财税问答模型构建方法的效率。

步骤S23、基于网络爬虫和/或预设财税数据库获取预设财税数据。

本实施例中，基于网络爬虫和/或预设财税数据库获取预设财税数据。也即，模型微调成功之后，需要通过需要利用财税数据对通用中文语言大模型进行训练来生成财税问答模型，因此，需要先收集财税数据以创建中文财税训练集。需要进行说明的是，创建中文财税训练集的财税数据来源可以为通过网络爬虫获取的网络公开的财税数据，也可以为预设的财税数据库中的财税数据，因此可以通过上述方式获取用于创建中文财税训练集的财税数据，并且收集的财税数据包括但不限于财税软件使用文档，税收优惠政策，各地政策法规以及商务政策等。

步骤S24、剔除所述预设财税数据中的超文本标记语言标签、图片数据以及重复数据，以得到剔除后财税数据。

本实施例中，剔除所述预设财税数据中的超文本标记语言标签、图片数据以及重复数据，以得到剔除后财税数据。也即，如图4所示，由于收集到的财税数据可能来源于网络，因此收集到的部分财税数据中可能包含HTML(Hyper Text Markup Language，超文本标记语言)标签，例如图4中所示的财税数据内容“印花税纳税义务指标同类型发票有的提示，有的不提示，您可以结合提醒规则理解下: 1、若本季度最后一个月28号前首次命中这个指标 ”，财税数据中含有HTML标签，因此可以将、 1、 进行剔除，以得到纯净的财税数据“印花税纳税义务指标同类型发票有的提示，有的不提示，您可以结合提醒规则理解下:若本季度最后一个月28号前首次命中这个指标”，进一步的收集到的部分财税数据中可能包含图片数据，因此还需要剔除财税数据中的图片数据。需要进行说明的是，由于数据是从多个渠道获取的，其中包含了一些重复的信息，例如相同的政策法规等，需要对这些信息进行去重操作，以保证每个信息初始权重一致。

步骤S25、对所述剔除后财税数据进行数据脱敏操作，以得到过滤后财税数据。

本实施例中，对所述剔除后财税数据进行数据脱敏操作，以得到过滤后财税数据，包括：确定所述剔除后财税数据中的身份信息数据，并利用预设替换数据对所述身份信息数据进行替换，以对所述剔除后财税数据进行数据脱敏，得到所述过滤后财税数据。也即，由于获取到的财税数据中可能包含部分用户的身份信息或企业信息等敏感信息，因此保护个人信息不泄漏，需要确定处数据中的这些敏感信息，并对敏感信息进行替换，例如，将具体人名替换为“某人”，具体公司名称替换为“某机构”等，如图4所示，经过数据脱敏的数据可以为“[某人]持有[某公司]20％的股份，算关联方吗？”。这样一来，可以使用户隐私数据得到有效保护。

步骤S26、基于预设符号数据将所述过滤后财税数据分割为若干长文本，并通过字节对编码算法分别对所述若干长文本进行分词处理，以将所述若干长文本切分为若干分词结果序列。

本实施例中，基于预设符号数据将所述过滤后财税数据分割为若干长文本，并通过字节对编码算法分别对所述若干长文本进行分词处理，以将所述若干长文本切分为若干分词结果序列。也即，分词是数据预处理的关键步骤。分词的目的是将原始文本分割为单独的令牌序列，随后将其用作模型的输入。虽然利用现有的标记化器是方便的，但使用专门为预训练语料库设计的分词器效果可能更好，尤其是对于由多种领域、语言和格式组成的语料库。因此，可以以标点符号为单位，先对过滤后财税数据进行初步分割，将过滤后财税数据中的文本信息切分为完整的长文本，然后采用BPE算法对长文本进行进一步的切分，将每条长文本切分为若干分词结果序列，并且使用BPE算法可以确保标记化后的信息损失最小化。

步骤S27、基于所述分词结果序列创建中文财税训练集。

步骤S28、基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型。

由此可见，本实施例中首先基于低阶自适应技术冻结所述预设LLaMA-7B模型中的模型参数，以得到冻结后LLaMA-7B模型，并为所述预设LLaMA-7B模型添加目标网络层，并将所述预设中文训练集作为所述目标网络层的目标网络层参数，以利用所述目标网络层参数对所述冻结后LLaMA-7B模型进行训练，以得到通用中文语言大模型。然后基于网络爬虫和/或预设财税数据库获取预设财税数据，剔除所述预设财税数据中的超文本标记语言标签、图片数据以及重复数据，以得到剔除后财税数据，对所述剔除后财税数据进行数据脱敏操作，以得到过滤后财税数据，基于预设符号数据将所述过滤后财税数据分割为若干长文本，并通过字节对编码算法分别对所述若干长文本进行分词处理，以将所述若干长文本切分为若干分词结果序列，最后基于所述分词结果序列创建中文财税训练集，并基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型，这样一来，一方面，通过LoRA技术对预设LLaMA-7B模型进行模型微调有效节省了模型微调的成本，并且提高了本申请所述基于LLaMA的财税问答模型构建方法的效率；另一方面，对收集到的财税数据进行过滤，可以构建纯净的中文财税训练集，提高模型处理效果的同时，还可以有效保护用户隐私。

参见图5所示，本发明实施例公开了一种基于LLaMA的财税问答模型构建装置，包括：

待训练模型构建模块11，用于通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型；

数据过滤模块12，用于获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据；

数据切分模块13，用于对过滤后财税数据进行分词处理，以将所述过滤后财税数据切分为若干分词结果序列，并基于所述分词结果序列创建中文财税训练集；

模型训练模块14，用于基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型。

在一些实施例中，所述基于LLaMA的财税问答模型构建装置，还可以包括：

第一训练集生成单元，用于提取预设开源数据集中的中文数据，并将所述中文数据输入至生成型预训练变换模型进行训练，并基于训练后中文数据生成预设中文训练集。

在一些实施例中，所述待训练模型构建模块11，具体可以包括：

参数冻结单元，用于基于低阶自适应技术冻结所述预设LLaMA-7B模型中的模型参数，以得到冻结后LLaMA-7B模型；

第一模型训练单元，用于为所述预设LLaMA-7B模型添加目标网络层，并将所述预设中文训练集作为所述目标网络层的目标网络层参数，以利用所述目标网络层参数对所述冻结后LLaMA-7B模型进行训练，以得到通用中文语言大模型。

在一些实施例中，所述数据过滤模块12，具体可以包括：

数据获取子模块，用于基于网络爬虫和/或预设财税数据库获取预设财税数据；

数据剔除子模块，用于剔除所述预设财税数据中的超文本标记语言标签、图片数据以及重复数据，以得到剔除后财税数据；

数据脱敏子模块，用于对所述剔除后财税数据进行数据脱敏操作，以得到过滤后财税数据。

在一些实施例中，所述数据脱敏子模块，具体可以包括：

数据替换单元，用于确定所述剔除后财税数据中的身份信息数据，并利用预设替换数据对所述身份信息数据进行替换，以对所述剔除后财税数据进行数据脱敏，得到所述过滤后财税数据。

在一些实施例中，所述数据切分模块13，具体可以包括：

数据切分单元，用于基于预设符号数据将所述过滤后财税数据分割为若干长文本，并通过字节对编码算法分别对所述若干长文本进行分词处理，以将所述若干长文本切分为若干分词结果序列；

第二训练集生成单元，用于基于所述分词结果序列创建中文财税训练集。

第二模型训练单元，用于通过所述中文财税训练集对所述通用中文语言大模型进行训练，以得到待确定财税问答模型；

模型测试单元，用于利用预设测试集对所述待确定财税问答模型进行问答测试，并生成与所述待确定财税问答模型对应的问答测试结果；

步骤跳转单元，用于如果所述问答测试结果表征所述待确定财税问答模型未通过所述问答测试，则跳转至所述获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据的步骤，以对所述通用中文语言大模型进行下一轮训练；

模型确定单元，用于如果所述问答测试结果表征所述待确定财税问答模型通过所述问答测试，则将所述待确定财税问答模型确定为目标财税问答模型，以通过所述目标财税问答模型对用户端发送的财税问题进行回复。

进一步的，本申请实施例还公开了一种电子设备，图6是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图6为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的基于LLaMA的财税问答模型构建方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的基于LLaMA的财税问答模型构建方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的基于LLaMA的财税问答模型构建方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于LLaMA的财税问答模型构建方法，其特征在于，包括：

2.根据权利要求1所述的基于LLaMA的财税问答模型构建方法，其特征在于，所述通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型之前，还包括：

3.根据权利要求1所述的基于LLaMA的财税问答模型构建方法，其特征在于，所述通过低阶自适应技术利用预设中文训练集对预设LLaMA-7B模型进行微调，以得到通用中文语言大模型，包括：

4.根据权利要求1所述的基于LLaMA的财税问答模型构建方法，其特征在于，所述获取预设财税数据，并基于预设过滤规则对所述财税数据进行数据过滤，以得到过滤后财税数据，包括：

基于网络爬虫和/或预设财税数据库获取预设财税数据；

5.根据权利要求4所述的基于LLaMA的财税问答模型构建方法，其特征在于，所述对所述剔除后财税数据进行数据脱敏操作，以得到过滤后财税数据，包括：

6.根据权利要求1所述的基于LLaMA的财税问答模型构建方法，其特征在于，所述对过滤后财税数据进行分词处理，以将所述过滤后财税数据切分为若干分词结果序列，并基于所述分词结果序列创建中文财税训练集，包括：

基于所述分词结果序列创建中文财税训练集。

7.根据权利要求1至6任一项所述的基于LLaMA的财税问答模型构建方法，其特征在于，所述基于所述中文财税训练集对所述通用中文语言大模型进行训练，以得到基于LLaMA的目标财税问答模型，包括：

8.一种基于LLaMA的财税问答模型构建装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至7任一项所述的基于LLaMA的财税问答模型构建方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于LLaMA的财税问答模型构建方法。