CN117131945A

CN117131945A - 一种用于llm模型的数据训练方法及存储介质

Info

Publication number: CN117131945A
Application number: CN202311395847.XA
Authority: CN
Inventors: 靳雯; 于伟; 王全修; 石江枫; 赵洲洋; 吴凡
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2023-11-28

Abstract

本发明提供了一种用于LLM模型的数据训练方法及存储介质，涉及大语言模型训练技术领域，所述方法包括：获取训练用文本集，基于特定字符，对每一训练用文本进行划分，获取中间问答文本列表，将第一指令和中间问答文本列表输入LLM模型，获取LLM模型的输出的第一预测问题语句列表，若存在第一预测问题语句属于黑名单列表，将第二指令输入LLM模型，获取LLM模型输出的第二预测问题语句，将第二预测问题语句替换问题语句，获取最终文本列表，将第一指令和最终文本列表输入LLM模型，对LLM模型进行训练，从而达到引导LLM模型的目的。

Description

一种用于LLM模型的数据训练方法及存储介质

技术领域

本发明涉及大语言模型训练技术领域，特别是涉及一种用于LLM模型的数据训练方法及存储介质。

背景技术

大语言模型LLM是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义；大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等。目前，随着ChatGPT的迅速发展，使用ChatGPT或其它大语言模型进行问答获取到想要的问题或答案的需求越来越多，如何对大语言模型进行训练或引导使得大语言模型输出想要的答案至关重要。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种用于LLM模型的数据训练方法，所述方法包括如下步骤：

S100，获取训练用文本集A={A₁，A₂，…，A_i，…，A_m}，A_i是第i条训练用文本，i的取值范围是1到m，m是训练用文本的数量，所述训练用文本A_i包括目标领域中关于同一预设场景的p个第一语句和p+1个第二语句，其中，A_i中第q个第二语句是根据第q个第一语句提出的问题语句，第q个第三语句为关于预设场景的陈述语句，且同时为第q-1个第二语句的回答语句，q的取值范围是1到p，且当q=1时，第q个第一语句为关于预设场景的陈述语句；所述预设场景为所述目标领域中多个指定场景中的一个；

S200，基于特定字符，对A中每一训练用文本进行划分，获取中间问答文本列表B={B₁，B₂，…，B_j，…，B_n}，B_j是第j个中间问答文本，j的取值范围是1到n，n是训练用文本集A中所有训练用文本进行划分后的中间问答文本的数量；

其中，B_j={AB_j，QB_j}，AB_j是第j个中间问答文本B_j包含的回答语句，QB_j是第j个中间问答文本B_j包含的问题语句，QB_j是基于AB_j提出的问题语句；

S300，将第一指令和中间问答文本列表B输入LLM模型，获取LLM模型输出的第一预测问题语句列表QC={QC₁，QC₂，…，QC_j，…，QC_n}，所述第一指令为：基于AB_j生成问题语句；QC_j是LLM模型输出的AB_j对应的第一预测问题语句；

S400，遍历QC，若存在QC_j属于黑名单列表，将第二指令输入LLM模型，获取LLM模型输出的第二预测问题语句QD_j，将第二预测问题语句QD_j替换QB_j，获取E_j={AB_j，QD_j}；

所述黑名单列表为预设的无意义语句列表；

所述第二指令为：基于AB_j和k条领域摘要语句生成问题语句；所述领域摘要语句是目标领域内的预设语句；

S500，获取最终文本列表F={F₁，F₂，…，F_j，…，F_n}，将第一指令和最终文本列表F输入LLM模型，对LLM模型进行训练；其中，F_j是第j个最终文本，若QC_j属于黑名单列表，F_j=E_j；若QC_j不属于黑名单列表，F_j=B_j。

一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述方法。

本发明至少具有以下有益效果：

综上，获取训练用文本集，基于特定字符，对每一训练用文本进行划分，获取中间问答文本列表，将第一指令和中间问答文本列表B输入LLM模型，获取LLM模型的输出的第一预测问题语句列表，遍历第一预测问题语句列表，若存在第一预测问题语句属于黑名单列表，将第二指令输入LLM模型，获取LLM模型输出的第二预测问题语句，将第二预测问题语句替换问题语句，获取最终文本列表，将第一指令和最终文本列表输入LLM模型，对LLM模型进行训练，通过对LLM模型输出的第一预测问题语句进行是否属于黑名单列表的判断，使得获取到合理的最终文本列表，对LLM模型进行训练，从而达到引导LLM模型的目的，使得LLM输出目标领域相关的、有意义的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于LLM模型的数据训练方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种用于LLM模型的数据训练方法，如图1所示，所述方法包括如下步骤：

S100，获取训练用文本集A={A₁，A₂，…，A_i，…，A_m}，A_i是第i条训练用文本，i的取值范围是1到m，m是训练用文本的数量，所述训练用文本A_i包括目标领域中关于同一预设场景的p个第一语句和p+1个第二语句，其中，A_i中第q个第二语句是根据第q个第一语句提出的问题语句，第q个第三语句为关于预设场景的陈述语句，且同时为第q-1个第二语句的回答语句，q的取值范围是1到p，且当q=1时，第q个第一语句为关于预设场景的陈述语句；所述预设场景为所述目标领域中多个指定场景中的一个。

具体的，所述问答语句可以是目标领域中真实发生过的对话，例如当目标领域为医学领域时，一条训练用文本示例如下：“医生：哪里不舒服？病人：身体不舒服，嗓子痛。医生：有发烧吗？病人：昨晚有发烧。医生：发烧多少度？病人：最高温度到38.5摄氏度。医生：持续多长时间了？”。

S200，基于特定字符，对A中每一训练用文本进行划分，获取中间问答文本列表B={B₁，B₂，…，B_j，…，B_n}，B_j是第j个中间问答文本，j的取值范围是1到n，n是训练用文本集A中所有训练用文本进行划分后的中间问答文本的数量。

其中，B_j={AB_j，QB_j}，AB_j是第j个中间问答文本B_j包含的回答语句，QB_j是第j个中间问答文本B_j包含的问题语句，QB_j是基于AB_j提出的问题语句。

具体的，通过特定字符对训练用文本进行划分，例如，通过识别“用户：”“医生：”的特定字符对训练样本进行划分，本领域技术人员知晓，现有技术中任何一种对问答对象的特定字符的识别均属于本发明的保护范围。

进一步的，通过识别特定字符，将一个回答语句和一个问题语句作为一个中间问答文本，例如，将“病人：身体不舒服，嗓子痛。医生：有发烧吗？”“病人：昨晚有发烧。医生：发烧多少度？”“病人：最高温度到38.5摄氏度。医生：持续多长时间了？”作为3个中间问答文本。

S300，将第一指令和中间问答文本列表B输入LLM模型，获取LLM模型输出的第一预测问题语句列表QC={QC₁，QC₂，…，QC_j，…，QC_n}，所述第一指令为：基于AB_j生成问题语句；QC_j是LLM模型输出的AB_j对应的第一预测问题语句。

S400，遍历QC，若存在QC_j属于黑名单列表，将第二指令输入LLM模型，获取LLM模型输出的第二预测问题语句QD_j，将第二预测问题语句QD_j替换QB_j，获取E_j={AB_j，QD_j}。

其中，所述黑名单列表为预设的无意义语句列表。可以理解为：本发明中使用大语言模型LLM是为了让LLM预测出合理的、和目标领域相关的问题语句，当LLM模型输出的是一些无意义语句，例如，你是谁等；认为LLM模型没有预测出有效的语句。

所述第二指令为：基于AB_j和k条领域摘要语句生成问题语句；所述领域摘要语句是目标领域内的预设语句。

可选的，所述领域摘要语句为目标领域内论文引用指数超过预设阈值的论文中包含摘要关键词的摘要语句；可选的，所述领域摘要语句为检索目标领域关键词时所出现的前y条语句；所述目标领域关键词可通过现有技术中任一方法获取。

进一步的，可根据实际需求确定k的取值；可根据实际需要确定y的取值。

综上，当LLM输出的第一预测问题语句为无意义语句时，使用AB_j和领域摘要语句输入LLM模型中，生成第二预测问题语句，使用第二预测问题语句作为QB_j，使得对LLM模型训练时输出的均为满足要求的问题语句。

S500，获取最终文本列表F={F₁，F₂，…，F_j，…，F_n}，将第一指令和最终文本列表F输入LLM模型，对LLM模型进行训练，其中，F_j是第j个最终文本，若QC_j属于黑名单列表，F_j=E_j；若QC_j不属于黑名单列表，F_j=B_j。

进一步的，在对LLM模型输入较少的描述语言时，LLM模型往往不能输出合理的和目标领域相关的问题语句，使用领域摘要语句使得LLM模型输出更加合理、且和目标领域相关的问题语句。

具体的，S500具体包括如下步骤：

S510，获取最终文本列表F且将最终文本列表F分为s1个训练集和s2个测试集。

S520，利用s1个训练集对LLM模型进行训练，获取训练后的LLM模型。

S530，对训练后的LLM模型进行评估，若评估结果满足第一预设条件，则将所述训练后的LLM模型确定为待测试LLM模型。

S540，将s2个测试集输入所述待测试LLM模型中，获取测试结果。

S550，当测试结果满足第二预设条件时，将训练后的LLM模型确定为目标LLM模型。

综上，使用最终文本列表对LLM模型进行训练，获取目标LLM模型对输入的回答语句进行预测问题语句。

进一步的，本发明还包括：

S001，获取历史用文本集G={G₁，G₂，…，G_r，…，G_s}，G_r是第r个历史用文本，r的取值范围是1到s，s是历史用文本的数量，所述历史用文本G_r包括目标领域中关于同一预设场景的h个第三语句和h+1个第四语句，其中，G_r中第α个第四语句是根据第α个第三语句提出的问题语句，第α个第三语句为关于预设场景的陈述语句，且同时为第α-1个第四语句的回答语句；α的取值范围是1到h，且当α=1时，第α个第三语句为关于预设场景的陈述语句。

具体的，可通过实际需求确定h。

S002，遍历G，对历史用文本G_r中每一历史用文本进行划分得到G_r，1，G_r，2，…，G_r，g，…，G_r，zr，其中，G_r，g是G_r划分后的第g个简单问答文本，g的取值范围是1到zr，zr是G_r包含的简单问答文本的数量；所述第g个简单问答文本包括第g个第三语句和第g个第四语句；

具体的，G_r，g={AG_r，g，QG_r，g}，AG_r，g是第g个简单问答文本G_r，g包含的第三语句，QG_r，g是第g个简单问答文本G_r，g包含的第四语句。

可以理解为，第g个简单问答文本包括一个第三语句和一个第四语句，将每一历史用文本划分成一个第三语句和第四语句的组合的形式；例如，一个历史用文本G_r示例如下：“医生：哪里不舒服？病人：身体不舒服，嗓子痛。医生：有发烧吗？病人：昨晚有发烧。医生：发烧多少度？病人：最高温度到38.5摄氏度。医生：持续多长时间了？”；将该条历史用文本进行划分，G_r，1=“病人：身体不舒服，嗓子痛。医生：有发烧吗？”；G_r，2=“病人：昨晚有发烧。医生：发烧多少度？”；G_r，3=“病人：最高温度到38.5摄氏度。医生：持续多长时间了？”。

S003，将G_r对应的zr个简单问答文本按照前后顺序每x个简单问答文本划分作为一个多轮训练样本，从而获取历史用文本集G对应的多轮训练样本列表，所述多轮训练样本列表包括G对应的全部多轮训练样本；其中，x＜zr。

具体的，当x=2时，将G_r，1和G_r，2作为一个多轮训练样本，例如，将“病人：身体不舒服，嗓子痛。医生：有发烧吗？病人：昨晚有发烧。医生：发烧多少度？”作为一个多轮训练样本，因为此时只有一个G_r，3，不能作为一个多轮训练样本，所以该条历史用文本G_r只有一个多轮训练样本。

S004，将第三指令和多轮训练样本列表输入LLM模型，对LLM模型进行训练；所述第三指令为：根据每一多轮训练样本中前x-1个简单问答文本和第x个简单问答文本中的回答语句，生成问题语句。

综上，获取历史用文本集G，对G中每一历史用文本进行划分，将G_r中zr个多轮问答文本按照前后顺序每x个多轮问答文本作为一个多轮训练样本，从而获取历史用文本集包括的多轮训练样本作为多轮训练样本列表，将第三指令和多轮训练样本列表输入LLM模型，对LLM模型进行训练，本发明使用了多轮问答样本对LLM模型进行训练，使得LLM模型具有多轮对话的理解能力，引导LLM模型具有多轮对话的理解能力。

进一步的，本发明还包括：在S003中，将多轮训练样本中的回答语句进行输入，问题语句不进行输入，使LLM模型预测所有的问题语句，以此减少数据的输入。

更进一步的，本发明还包括：

S010，获取构造样本列表集K={K₁，K₂，…，K_b，…，K_c}，K_b={K_b，1，K_b，2，…，K_b，t，…，K_b，db}，第b个构造样本列表K_b是目标LLM模型基于目标领域的预设问答语句中的回答语句预测出的b个问题语句样本，K_b，t是K_b中第t个构造样本，b的取值范围是1到c，c是构造样本列表的数量，t的取值范围是1到db，db是K_b中构造样本的数量，c≥1。

其中，K_b，t={AK_b，t，QK_b，t}，AK_b，t是第b个构造样本包含的目标领域的预设问答语句中的回答语句，QK_b，t是第b个构造样本包含的b个问题语句。

具体的，d1，d2，…，db，…，dc满足预设比例要求。具体的，预设比例要求可根据实际需求确定。

可选的，c≤3；优选的，c=2。

S020，使用构造样本列表集K和第四指令输入目标LLM模型，对目标LLM模型进行训练，所述第四指令为：基于输入的回答语句生成至少一个问题语句。

通过S010-S020，获取构造样本集，构造样本集中包括c个构造样本列表，第b个构造样本列表包括b个问题语句，使用构造样本集和第四指令对目标LLM模型进行训练，使得目标LLM模型可以进行预测多个问题语句。

其中，第b个构造样本列表K_b通过如下步骤获取：

S011，获取参考文本集AH={AH₁，AH₂，…，AH_t，…，AH_db}，第t个参考文本AH_t是目标领域的预设问答语句中的回答语句。

例如，所述参考文本AH_t为“用户：身体不舒服，嗓子痛；”。

S012，遍历AH，对AH_t，将AH_t，e和第五指令输入目标LLM模型，获取预测的问题语句QJ_t，e，其中，e的初始值为1，且当e=1时，AH_t，e=AH_t；第五指令为：根据输入的回答语句AH_t，e生成一个预测的问题语句。

S013,如果e＜b，则执行S014，否则，执行S016。

S014，将QJ_t，e和第六指令输入目标LLM模型，获取预测的回答语句AH_t，e+1；所述第六指令为：基于输入的问题语句QJ_t，e生成对应的回答语句。

S015，将e+1赋值给e，执行S012。

可以理解为，将AH_t和第四指令输入目标LLM模型，获取训练问题语句QJ_t，1，将QJ_t，1和第五指令输入目标LLM模型，获取AH_t，2；将AH_t，2赋值给AH_t，e，继续执行，直到获取QJ_t，b，结束循环。

S016，获取K_b，t={AK_b，t，QK_b，t}，其中，AK_b，t=AH_t，QK_b，t={QJ_t，1，QJ_t，2，…，QJ_t，e，…，QJ_t，b}，从而获取第b个构造样本列表K_b。

在本发明的一个示例中，b=3，AH_t=AH_t，1=“用户：身体不舒服，嗓子痛；”，QJ_t，1=“有发烧吗？”，AH_t，2=“昨晚有发烧。”，QJ_t，2=“发烧多少度？”，AH_t，3=“最高温度到38.5摄氏度”，QJ_t，3=“持续多长时间了？”；QK_3，t={QJ_t，1，QJ_t，2，QJ_t，3}。

综上，获取参考文本集，对每一参考文本获取对应的K_b，t，从而构造出多个问题的样本，使用构造样本集和第四指令对目标LLM模型进行训练，使得目标LLM模型可以进行预测多个问题语句。

发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种用于LLM模型的数据训练方法，其特征在于，所述方法包括如下步骤：

S100，获取训练用文本集A={A₁，A₂，…，A_i，…，A_m}，A_i是第i条训练用文本，i的取值范围是1到m，m是训练用文本的数量，所述训练用文本A_i包括目标领域中关于同一预设场景的p个第一语句和p+1个第二语句，其中，A_i中第q个第二语句是根据第q个第一语句提出的问题语句，第q个第一语句为关于预设场景的陈述语句，且同时为第q-1个第二语句的回答语句，q的取值范围是1到p，且当q=1时，第q个第一语句为关于预设场景的陈述语句；所述预设场景为所述目标领域中多个指定场景中的一个；

所述黑名单列表为预设的无意义语句列表；

S500，获取最终文本列表F={F₁，F₂，…，F_j，…，F_n}，将第一指令和最终文本列表F输入LLM模型，对LLM模型进行训练；

其中，F_j是第j个最终文本，若QC_j属于黑名单列表，F_j=E_j；若QC_j不属于黑名单列表，F_j=B_j。

2.根据权利要求1所述的用于LLM模型的数据训练方法，其特征在于，S500具体包括如下步骤：

S510，获取最终文本列表F且将最终文本列表F分为s1个训练集和s2个测试集；

S520，利用s1个训练集对LLM模型进行训练，获取训练后的LLM模型；

S530，对训练后的LLM模型进行评估，若评估结果满足第一预设条件，则将所述训练后的LLM模型确定为待测试LLM模型；

S540，将s2个测试集输入所述待测试LLM模型中，获取测试结果；

3.根据权利要求1所述的用于LLM模型的数据训练方法，其特征在于，还包括：

S001，获取历史用文本集G={G₁，G₂，…，G_r，…，G_s}，G_r是第r个历史用文本，r的取值范围是1到s，s是历史用文本的数量，所述历史用文本G_r包括目标领域中关于同一预设场景的h个第三语句和h+1个第四语句，其中，G_r中第α个第四语句是根据第α个第三语句提出的问题语句，第α个第三语句为关于预设场景的陈述语句，且同时为第α-1个第四语句的回答语句；α的取值范围是1到h，且当α=1时，第α个第三语句为关于预设场景的陈述语句；

具体的，G_r，g={AG_r，g，QG_r，g}，AG_r，g是第g个简单问答文本G_r，g包含的第三语句，QG_r，g是第g个简单问答文本G_r，g包含的第四语句；

S003，将G_r对应的zr个简单问答文本按照前后顺序每x个简单问答文本划分作为一个多轮训练样本，从而获取历史用文本集G对应的多轮训练样本列表，所述多轮训练样本列表包括G对应的全部多轮训练样本；其中，x＜zr；

4.根据权利要求2所述的用于LLM模型的数据训练方法，其特征在于，还包括：

S010，获取构造样本列表集K={K₁，K₂，…，K_b，…，K_c}，K_b={K_b，1，K_b，2，…，K_b，t，…，K_b，db}，第b个构造样本列表K_b是目标LLM模型基于目标领域的预设问答语句中的回答语句预测出的b个问题语句样本，K_b，t是K_b中第t个构造样本，b的取值范围是1到c，c是构造样本列表的数量，t的取值范围是1到db，db是K_b中构造样本的数量，c≥1；

K_b，t={AK_b，t，QK_b，t}，AK_b，t是第b个构造样本包含的目标领域的预设问答语句中的回答语句，QK_b，t是第b个构造样本包含的b个问题语句；

5.根据权利要求4所述的用于LLM模型的数据训练方法，其特征在于，第b个构造样本列表K_b通过如下步骤获取：

S011，获取参考文本集AH={AH₁，AH₂，…，AH_t，…，AH_db}，第t个参考文本AH_t是目标领域的预设问答语句中的回答语句；

S012，遍历AH，对AH_t，将AH_t，e和第五指令输入目标LLM模型，获取预测的问题语句QJ_t，e，其中，e的初始值为1，且当e=1时，AH_t，e=AH_t；第五指令为：根据输入的回答语句AH_t，e生成一个预测的问题语句；

S013,如果e＜b，则执行S014，否则，执行S016；

S014，将QJ_t，e和第六指令输入目标LLM模型，获取预测的回答语句AH_t，e+1；所述第六指令为：基于输入的问题语句QJ_t，e生成对应的回答语句；

S015，将e+1赋值给e，执行S012；

6.根据权利要求5所述的用于LLM模型的数据训练方法，其特征在于，d1，d2，…，db，…，dc满足预设比例要求。

7.根据权利要求5所述的用于LLM模型的数据训练方法，其特征在于，c≤3。

8.根据权利要求7所述的用于LLM模型的数据训练方法，其特征在于，c=2。

9.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项的所述方法。