CN117131945A - 一种用于llm模型的数据训练方法及存储介质 - Google Patents

一种用于llm模型的数据训练方法及存储介质 Download PDF

Info

Publication number
CN117131945A
CN117131945A CN202311395847.XA CN202311395847A CN117131945A CN 117131945 A CN117131945 A CN 117131945A CN 202311395847 A CN202311395847 A CN 202311395847A CN 117131945 A CN117131945 A CN 117131945A
Authority
CN
China
Prior art keywords
llm
model
sentence
question
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311395847.XA
Other languages
English (en)
Inventor
靳雯
于伟
王全修
石江枫
赵洲洋
吴凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Original Assignee
Rizhao Ruian Information Technology Co ltd
Beijing Rich Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rizhao Ruian Information Technology Co ltd, Beijing Rich Information Technology Co ltd filed Critical Rizhao Ruian Information Technology Co ltd
Priority to CN202311395847.XA priority Critical patent/CN117131945A/zh
Publication of CN117131945A publication Critical patent/CN117131945A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种用于LLM模型的数据训练方法及存储介质,涉及大语言模型训练技术领域,所述方法包括:获取训练用文本集,基于特定字符,对每一训练用文本进行划分,获取中间问答文本列表,将第一指令和中间问答文本列表输入LLM模型,获取LLM模型的输出的第一预测问题语句列表,若存在第一预测问题语句属于黑名单列表,将第二指令输入LLM模型,获取LLM模型输出的第二预测问题语句,将第二预测问题语句替换问题语句,获取最终文本列表,将第一指令和最终文本列表输入LLM模型,对LLM模型进行训练,从而达到引导LLM模型的目的。

Description

一种用于LLM模型的数据训练方法及存储介质
技术领域
本发明涉及大语言模型训练技术领域,特别是涉及一种用于LLM模型的数据训练方法及存储介质。
背景技术
大语言模型LLM是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义;大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等。目前,随着ChatGPT的迅速发展,使用ChatGPT或其它大语言模型进行问答获取到想要的问题或答案的需求越来越多,如何对大语言模型进行训练或引导使得大语言模型输出想要的答案至关重要。
发明内容
针对上述技术问题,本发明采用的技术方案为:一种用于LLM模型的数据训练方法,所述方法包括如下步骤:
S100,获取训练用文本集A={A1,A2,…,Ai,…,Am},Ai是第i条训练用文本,i的取值范围是1到m,m是训练用文本的数量,所述训练用文本Ai包括目标领域中关于同一预设场景的p个第一语句和p+1个第二语句,其中,Ai中第q个第二语句是根据第q个第一语句提出的问题语句,第q个第三语句为关于预设场景的陈述语句,且同时为第q-1个第二语句的回答语句,q的取值范围是1到p,且当q=1时,第q个第一语句为关于预设场景的陈述语句;所述预设场景为所述目标领域中多个指定场景中的一个;
S200,基于特定字符,对A中每一训练用文本进行划分,获取中间问答文本列表B={B1,B2,…,Bj,…,Bn},Bj是第j个中间问答文本,j的取值范围是1到n,n是训练用文本集A中所有训练用文本进行划分后的中间问答文本的数量;
其中,Bj={ABj,QBj},ABj是第j个中间问答文本Bj包含的回答语句,QBj是第j个中间问答文本Bj包含的问题语句,QBj是基于ABj提出的问题语句;
S300,将第一指令和中间问答文本列表B输入LLM模型,获取LLM模型输出的第一预测问题语句列表QC={QC1,QC2,…,QCj,…,QCn},所述第一指令为:基于ABj生成问题语句;QCj是LLM模型输出的ABj对应的第一预测问题语句;
S400,遍历QC,若存在QCj属于黑名单列表,将第二指令输入LLM模型,获取LLM模型输出的第二预测问题语句QDj,将第二预测问题语句QDj替换QBj,获取Ej={ABj,QDj};
所述黑名单列表为预设的无意义语句列表;
所述第二指令为:基于ABj和k条领域摘要语句生成问题语句;所述领域摘要语句是目标领域内的预设语句;
S500,获取最终文本列表F={F1,F2,…,Fj,…,Fn},将第一指令和最终文本列表F输入LLM模型,对LLM模型进行训练;其中,Fj是第j个最终文本,若QCj属于黑名单列表,Fj=Ej;若QCj不属于黑名单列表,Fj=Bj
一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述方法。
本发明至少具有以下有益效果:
综上,获取训练用文本集,基于特定字符,对每一训练用文本进行划分,获取中间问答文本列表,将第一指令和中间问答文本列表B输入LLM模型,获取LLM模型的输出的第一预测问题语句列表,遍历第一预测问题语句列表,若存在第一预测问题语句属于黑名单列表,将第二指令输入LLM模型,获取LLM模型输出的第二预测问题语句,将第二预测问题语句替换问题语句,获取最终文本列表,将第一指令和最终文本列表输入LLM模型,对LLM模型进行训练,通过对LLM模型输出的第一预测问题语句进行是否属于黑名单列表的判断,使得获取到合理的最终文本列表,对LLM模型进行训练,从而达到引导LLM模型的目的,使得LLM输出目标领域相关的、有意义的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用于LLM模型的数据训练方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种用于LLM模型的数据训练方法,如图1所示,所述方法包括如下步骤:
S100,获取训练用文本集A={A1,A2,…,Ai,…,Am},Ai是第i条训练用文本,i的取值范围是1到m,m是训练用文本的数量,所述训练用文本Ai包括目标领域中关于同一预设场景的p个第一语句和p+1个第二语句,其中,Ai中第q个第二语句是根据第q个第一语句提出的问题语句,第q个第三语句为关于预设场景的陈述语句,且同时为第q-1个第二语句的回答语句,q的取值范围是1到p,且当q=1时,第q个第一语句为关于预设场景的陈述语句;所述预设场景为所述目标领域中多个指定场景中的一个。
具体的,所述问答语句可以是目标领域中真实发生过的对话,例如当目标领域为医学领域时,一条训练用文本示例如下:“医生:哪里不舒服?病人:身体不舒服,嗓子痛。医生:有发烧吗?病人:昨晚有发烧。医生:发烧多少度?病人:最高温度到38.5摄氏度。医生:持续多长时间了?”。
S200,基于特定字符,对A中每一训练用文本进行划分,获取中间问答文本列表B={B1,B2,…,Bj,…,Bn},Bj是第j个中间问答文本,j的取值范围是1到n,n是训练用文本集A中所有训练用文本进行划分后的中间问答文本的数量。
其中,Bj={ABj,QBj},ABj是第j个中间问答文本Bj包含的回答语句,QBj是第j个中间问答文本Bj包含的问题语句,QBj是基于ABj提出的问题语句。
具体的,通过特定字符对训练用文本进行划分,例如,通过识别“用户:”“医生:”的特定字符对训练样本进行划分,本领域技术人员知晓,现有技术中任何一种对问答对象的特定字符的识别均属于本发明的保护范围。
进一步的,通过识别特定字符,将一个回答语句和一个问题语句作为一个中间问答文本,例如,将“病人:身体不舒服,嗓子痛。医生:有发烧吗?”“病人:昨晚有发烧。医生:发烧多少度?”“病人:最高温度到38.5摄氏度。医生:持续多长时间了?”作为3个中间问答文本。
S300,将第一指令和中间问答文本列表B输入LLM模型,获取LLM模型输出的第一预测问题语句列表QC={QC1,QC2,…,QCj,…,QCn},所述第一指令为:基于ABj生成问题语句;QCj是LLM模型输出的ABj对应的第一预测问题语句。
S400,遍历QC,若存在QCj属于黑名单列表,将第二指令输入LLM模型,获取LLM模型输出的第二预测问题语句QDj,将第二预测问题语句QDj替换QBj,获取Ej={ABj,QDj}。
其中,所述黑名单列表为预设的无意义语句列表。可以理解为:本发明中使用大语言模型LLM是为了让LLM预测出合理的、和目标领域相关的问题语句,当LLM模型输出的是一些无意义语句,例如,你是谁等;认为LLM模型没有预测出有效的语句。
所述第二指令为:基于ABj和k条领域摘要语句生成问题语句;所述领域摘要语句是目标领域内的预设语句。
可选的,所述领域摘要语句为目标领域内论文引用指数超过预设阈值的论文中包含摘要关键词的摘要语句;可选的,所述领域摘要语句为检索目标领域关键词时所出现的前y条语句;所述目标领域关键词可通过现有技术中任一方法获取。
进一步的,可根据实际需求确定k的取值;可根据实际需要确定y的取值。
综上,当LLM输出的第一预测问题语句为无意义语句时,使用ABj和领域摘要语句输入LLM模型中,生成第二预测问题语句,使用第二预测问题语句作为QBj,使得对LLM模型训练时输出的均为满足要求的问题语句。
S500,获取最终文本列表F={F1,F2,…,Fj,…,Fn},将第一指令和最终文本列表F输入LLM模型,对LLM模型进行训练,其中,Fj是第j个最终文本,若QCj属于黑名单列表,Fj=Ej;若QCj不属于黑名单列表,Fj=Bj
综上,获取训练用文本集,基于特定字符,对每一训练用文本进行划分,获取中间问答文本列表,将第一指令和中间问答文本列表B输入LLM模型,获取LLM模型的输出的第一预测问题语句列表,遍历第一预测问题语句列表,若存在第一预测问题语句属于黑名单列表,将第二指令输入LLM模型,获取LLM模型输出的第二预测问题语句,将第二预测问题语句替换问题语句,获取最终文本列表,将第一指令和最终文本列表输入LLM模型,对LLM模型进行训练,通过对LLM模型输出的第一预测问题语句进行是否属于黑名单列表的判断,使得获取到合理的最终文本列表,对LLM模型进行训练,从而达到引导LLM模型的目的,使得LLM输出目标领域相关的、有意义的问题。
进一步的,在对LLM模型输入较少的描述语言时,LLM模型往往不能输出合理的和目标领域相关的问题语句,使用领域摘要语句使得LLM模型输出更加合理、且和目标领域相关的问题语句。
具体的,S500具体包括如下步骤:
S510,获取最终文本列表F且将最终文本列表F分为s1个训练集和s2个测试集。
S520,利用s1个训练集对LLM模型进行训练,获取训练后的LLM模型。
S530,对训练后的LLM模型进行评估,若评估结果满足第一预设条件,则将所述训练后的LLM模型确定为待测试LLM模型。
S540,将s2个测试集输入所述待测试LLM模型中,获取测试结果。
S550,当测试结果满足第二预设条件时,将训练后的LLM模型确定为目标LLM模型。
综上,使用最终文本列表对LLM模型进行训练,获取目标LLM模型对输入的回答语句进行预测问题语句。
进一步的,本发明还包括:
S001,获取历史用文本集G={G1,G2,…,Gr,…,Gs},Gr是第r个历史用文本,r的取值范围是1到s,s是历史用文本的数量,所述历史用文本Gr包括目标领域中关于同一预设场景的h个第三语句和h+1个第四语句,其中,Gr中第α个第四语句是根据第α个第三语句提出的问题语句,第α个第三语句为关于预设场景的陈述语句,且同时为第α-1个第四语句的回答语句;α的取值范围是1到h,且当α=1时,第α个第三语句为关于预设场景的陈述语句。
具体的,可通过实际需求确定h。
S002,遍历G,对历史用文本Gr中每一历史用文本进行划分得到Gr,1,Gr,2,…,Gr,g,…,Gr,zr,其中,Gr,g是Gr划分后的第g个简单问答文本,g的取值范围是1到zr,zr是Gr包含的简单问答文本的数量;所述第g个简单问答文本包括第g个第三语句和第g个第四语句;
具体的,Gr,g={AGr,g,QGr,g},AGr,g是第g个简单问答文本Gr,g包含的第三语句,QGr,g是第g个简单问答文本Gr,g包含的第四语句。
可以理解为,第g个简单问答文本包括一个第三语句和一个第四语句,将每一历史用文本划分成一个第三语句和第四语句的组合的形式;例如,一个历史用文本Gr示例如下:“医生:哪里不舒服?病人:身体不舒服,嗓子痛。医生:有发烧吗?病人:昨晚有发烧。医生:发烧多少度?病人:最高温度到38.5摄氏度。医生:持续多长时间了?”;将该条历史用文本进行划分,Gr,1=“病人:身体不舒服,嗓子痛。医生:有发烧吗?”;Gr,2=“病人:昨晚有发烧。医生:发烧多少度?”;Gr,3=“病人:最高温度到38.5摄氏度。医生:持续多长时间了?”。
S003,将Gr对应的zr个简单问答文本按照前后顺序每x个简单问答文本划分作为一个多轮训练样本,从而获取历史用文本集G对应的多轮训练样本列表,所述多轮训练样本列表包括G对应的全部多轮训练样本;其中,x<zr。
具体的,当x=2时,将Gr,1和Gr,2作为一个多轮训练样本,例如,将“病人:身体不舒服,嗓子痛。医生:有发烧吗?病人:昨晚有发烧。医生:发烧多少度?”作为一个多轮训练样本,因为此时只有一个Gr,3,不能作为一个多轮训练样本,所以该条历史用文本Gr只有一个多轮训练样本。
S004,将第三指令和多轮训练样本列表输入LLM模型,对LLM模型进行训练;所述第三指令为:根据每一多轮训练样本中前x-1个简单问答文本和第x个简单问答文本中的回答语句,生成问题语句。
综上,获取历史用文本集G,对G中每一历史用文本进行划分,将Gr中zr个多轮问答文本按照前后顺序每x个多轮问答文本作为一个多轮训练样本,从而获取历史用文本集包括的多轮训练样本作为多轮训练样本列表,将第三指令和多轮训练样本列表输入LLM模型,对LLM模型进行训练,本发明使用了多轮问答样本对LLM模型进行训练,使得LLM模型具有多轮对话的理解能力,引导LLM模型具有多轮对话的理解能力。
进一步的,本发明还包括:在S003中,将多轮训练样本中的回答语句进行输入,问题语句不进行输入,使LLM模型预测所有的问题语句,以此减少数据的输入。
更进一步的,本发明还包括:
S010,获取构造样本列表集K={K1,K2,…,Kb,…,Kc},Kb={Kb,1,Kb,2,…,Kb,t,…,Kb,db},第b个构造样本列表Kb是目标LLM模型基于目标领域的预设问答语句中的回答语句预测出的b个问题语句样本,Kb,t是Kb中第t个构造样本,b的取值范围是1到c,c是构造样本列表的数量,t的取值范围是1到db,db是Kb中构造样本的数量,c≥1。
其中,Kb,t={AKb,t,QKb,t},AKb,t是第b个构造样本包含的目标领域的预设问答语句中的回答语句,QKb,t是第b个构造样本包含的b个问题语句。
具体的,d1,d2,…,db,…,dc满足预设比例要求。具体的,预设比例要求可根据实际需求确定。
可选的,c≤3;优选的,c=2。
S020,使用构造样本列表集K和第四指令输入目标LLM模型,对目标LLM模型进行训练,所述第四指令为:基于输入的回答语句生成至少一个问题语句。
通过S010-S020,获取构造样本集,构造样本集中包括c个构造样本列表,第b个构造样本列表包括b个问题语句,使用构造样本集和第四指令对目标LLM模型进行训练,使得目标LLM模型可以进行预测多个问题语句。
其中,第b个构造样本列表Kb通过如下步骤获取:
S011,获取参考文本集AH={AH1,AH2,…,AHt,…,AHdb},第t个参考文本AHt是目标领域的预设问答语句中的回答语句。
例如,所述参考文本AHt为“用户:身体不舒服,嗓子痛;”。
S012,遍历AH,对AHt,将AHt,e和第五指令输入目标LLM模型,获取预测的问题语句QJt,e,其中,e的初始值为1,且当e=1时,AHt,e=AHt;第五指令为:根据输入的回答语句AHt,e生成一个预测的问题语句。
S013,如果e<b,则执行S014,否则,执行S016。
S014,将QJt,e和第六指令输入目标LLM模型,获取预测的回答语句AHt,e+1;所述第六指令为:基于输入的问题语句QJt,e生成对应的回答语句。
S015,将e+1赋值给e,执行S012。
可以理解为,将AHt和第四指令输入目标LLM模型,获取训练问题语句QJt,1,将QJt,1和第五指令输入目标LLM模型,获取AHt,2;将AHt,2赋值给AHt,e,继续执行,直到获取QJt,b,结束循环。
S016,获取Kb,t={AKb,t,QKb,t},其中,AKb,t=AHt,QKb,t={QJt,1,QJt,2,…,QJt,e,…,QJt,b},从而获取第b个构造样本列表Kb
在本发明的一个示例中,b=3,AHt=AHt,1=“用户:身体不舒服,嗓子痛;”,QJt,1=“有发烧吗?”,AHt,2=“昨晚有发烧。”,QJt,2=“发烧多少度?”,AHt,3=“最高温度到38.5摄氏度”,QJt,3=“持续多长时间了?”;QK3,t={QJt,1,QJt,2,QJt,3}。
综上,获取参考文本集,对每一参考文本获取对应的Kb,t,从而构造出多个问题的样本,使用构造样本集和第四指令对目标LLM模型进行训练,使得目标LLM模型可以进行预测多个问题语句。
发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (9)

1.一种用于LLM模型的数据训练方法,其特征在于,所述方法包括如下步骤:
S100,获取训练用文本集A={A1,A2,…,Ai,…,Am},Ai是第i条训练用文本,i的取值范围是1到m,m是训练用文本的数量,所述训练用文本Ai包括目标领域中关于同一预设场景的p个第一语句和p+1个第二语句,其中,Ai中第q个第二语句是根据第q个第一语句提出的问题语句,第q个第一语句为关于预设场景的陈述语句,且同时为第q-1个第二语句的回答语句,q的取值范围是1到p,且当q=1时,第q个第一语句为关于预设场景的陈述语句;所述预设场景为所述目标领域中多个指定场景中的一个;
S200,基于特定字符,对A中每一训练用文本进行划分,获取中间问答文本列表B={B1,B2,…,Bj,…,Bn},Bj是第j个中间问答文本,j的取值范围是1到n,n是训练用文本集A中所有训练用文本进行划分后的中间问答文本的数量;
其中,Bj={ABj,QBj},ABj是第j个中间问答文本Bj包含的回答语句,QBj是第j个中间问答文本Bj包含的问题语句,QBj是基于ABj提出的问题语句;
S300,将第一指令和中间问答文本列表B输入LLM模型,获取LLM模型输出的第一预测问题语句列表QC={QC1,QC2,…,QCj,…,QCn},所述第一指令为:基于ABj生成问题语句;QCj是LLM模型输出的ABj对应的第一预测问题语句;
S400,遍历QC,若存在QCj属于黑名单列表,将第二指令输入LLM模型,获取LLM模型输出的第二预测问题语句QDj,将第二预测问题语句QDj替换QBj,获取Ej={ABj,QDj};
所述黑名单列表为预设的无意义语句列表;
所述第二指令为:基于ABj和k条领域摘要语句生成问题语句;所述领域摘要语句是目标领域内的预设语句;
S500,获取最终文本列表F={F1,F2,…,Fj,…,Fn},将第一指令和最终文本列表F输入LLM模型,对LLM模型进行训练;
其中,Fj是第j个最终文本,若QCj属于黑名单列表,Fj=Ej;若QCj不属于黑名单列表,Fj=Bj
2.根据权利要求1所述的用于LLM模型的数据训练方法,其特征在于,S500具体包括如下步骤:
S510,获取最终文本列表F且将最终文本列表F分为s1个训练集和s2个测试集;
S520,利用s1个训练集对LLM模型进行训练,获取训练后的LLM模型;
S530,对训练后的LLM模型进行评估,若评估结果满足第一预设条件,则将所述训练后的LLM模型确定为待测试LLM模型;
S540,将s2个测试集输入所述待测试LLM模型中,获取测试结果;
S550,当测试结果满足第二预设条件时,将训练后的LLM模型确定为目标LLM模型。
3.根据权利要求1所述的用于LLM模型的数据训练方法,其特征在于,还包括:
S001,获取历史用文本集G={G1,G2,…,Gr,…,Gs},Gr是第r个历史用文本,r的取值范围是1到s,s是历史用文本的数量,所述历史用文本Gr包括目标领域中关于同一预设场景的h个第三语句和h+1个第四语句,其中,Gr中第α个第四语句是根据第α个第三语句提出的问题语句,第α个第三语句为关于预设场景的陈述语句,且同时为第α-1个第四语句的回答语句;α的取值范围是1到h,且当α=1时,第α个第三语句为关于预设场景的陈述语句;
S002,遍历G,对历史用文本Gr中每一历史用文本进行划分得到Gr,1,Gr,2,…,Gr,g,…,Gr,zr,其中,Gr,g是Gr划分后的第g个简单问答文本,g的取值范围是1到zr,zr是Gr包含的简单问答文本的数量;所述第g个简单问答文本包括第g个第三语句和第g个第四语句;
具体的,Gr,g={AGr,g,QGr,g},AGr,g是第g个简单问答文本Gr,g包含的第三语句,QGr,g是第g个简单问答文本Gr,g包含的第四语句;
S003,将Gr对应的zr个简单问答文本按照前后顺序每x个简单问答文本划分作为一个多轮训练样本,从而获取历史用文本集G对应的多轮训练样本列表,所述多轮训练样本列表包括G对应的全部多轮训练样本;其中,x<zr;
S004,将第三指令和多轮训练样本列表输入LLM模型,对LLM模型进行训练;所述第三指令为:根据每一多轮训练样本中前x-1个简单问答文本和第x个简单问答文本中的回答语句,生成问题语句。
4.根据权利要求2所述的用于LLM模型的数据训练方法,其特征在于,还包括:
S010,获取构造样本列表集K={K1,K2,…,Kb,…,Kc},Kb={Kb,1,Kb,2,…,Kb,t,…,Kb,db},第b个构造样本列表Kb是目标LLM模型基于目标领域的预设问答语句中的回答语句预测出的b个问题语句样本,Kb,t是Kb中第t个构造样本,b的取值范围是1到c,c是构造样本列表的数量,t的取值范围是1到db,db是Kb中构造样本的数量,c≥1;
Kb,t={AKb,t,QKb,t},AKb,t是第b个构造样本包含的目标领域的预设问答语句中的回答语句,QKb,t是第b个构造样本包含的b个问题语句;
S020,使用构造样本列表集K和第四指令输入目标LLM模型,对目标LLM模型进行训练,所述第四指令为:基于输入的回答语句生成至少一个问题语句。
5.根据权利要求4所述的用于LLM模型的数据训练方法,其特征在于,第b个构造样本列表Kb通过如下步骤获取:
S011,获取参考文本集AH={AH1,AH2,…,AHt,…,AHdb},第t个参考文本AHt是目标领域的预设问答语句中的回答语句;
S012,遍历AH,对AHt,将AHt,e和第五指令输入目标LLM模型,获取预测的问题语句QJt,e,其中,e的初始值为1,且当e=1时,AHt,e=AHt;第五指令为:根据输入的回答语句AHt,e生成一个预测的问题语句;
S013,如果e<b,则执行S014,否则,执行S016;
S014,将QJt,e和第六指令输入目标LLM模型,获取预测的回答语句AHt,e+1;所述第六指令为:基于输入的问题语句QJt,e生成对应的回答语句;
S015,将e+1赋值给e,执行S012;
S016,获取Kb,t={AKb,t,QKb,t},其中,AKb,t=AHt,QKb,t={QJt,1,QJt,2,…,QJt,e,…,QJt,b},从而获取第b个构造样本列表Kb
6.根据权利要求5所述的用于LLM模型的数据训练方法,其特征在于,d1,d2,…,db,…,dc满足预设比例要求。
7.根据权利要求5所述的用于LLM模型的数据训练方法,其特征在于,c≤3。
8.根据权利要求7所述的用于LLM模型的数据训练方法,其特征在于,c=2。
9.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项的所述方法。
CN202311395847.XA 2023-10-26 2023-10-26 一种用于llm模型的数据训练方法及存储介质 Pending CN117131945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311395847.XA CN117131945A (zh) 2023-10-26 2023-10-26 一种用于llm模型的数据训练方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311395847.XA CN117131945A (zh) 2023-10-26 2023-10-26 一种用于llm模型的数据训练方法及存储介质

Publications (1)

Publication Number Publication Date
CN117131945A true CN117131945A (zh) 2023-11-28

Family

ID=88858580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311395847.XA Pending CN117131945A (zh) 2023-10-26 2023-10-26 一种用于llm模型的数据训练方法及存储介质

Country Status (1)

Country Link
CN (1) CN117131945A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989794A (zh) * 2019-12-16 2021-06-18 科沃斯商用机器人有限公司 模型训练方法、装置、智能机器人和存储介质
US20220121710A1 (en) * 2020-10-21 2022-04-21 International Business Machines Corporation Training a question-answer dialog sytem to avoid adversarial attacks
CN116796857A (zh) * 2023-06-30 2023-09-22 平安科技(深圳)有限公司 一种llm模型训练方法、装置、设备及其存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989794A (zh) * 2019-12-16 2021-06-18 科沃斯商用机器人有限公司 模型训练方法、装置、智能机器人和存储介质
US20220121710A1 (en) * 2020-10-21 2022-04-21 International Business Machines Corporation Training a question-answer dialog sytem to avoid adversarial attacks
CN116796857A (zh) * 2023-06-30 2023-09-22 平安科技(深圳)有限公司 一种llm模型训练方法、装置、设备及其存储介质

Similar Documents

Publication Publication Date Title
Reutlinger et al. Understanding (with) toy models
CN110704621B (zh) 文本处理方法、装置及存储介质和电子设备
Cho Natural language understanding with distributed representation
CN109902159A (zh) 一种基于自然语言处理的智能运维语句相似度匹配方法
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
US12001465B2 (en) Response selecting apparatus, response selecting method, and response selecting program
CN110991195B (zh) 机器翻译模型训练方法、装置及存储介质
CN107193807A (zh) 基于人工智能的语言转换处理方法、装置及终端
CN108090047A (zh) 一种文本相似度的确定方法及设备
CN107544960B (zh) 一种基于变量绑定和关系激活的自动问答方法
CN111126552B (zh) 一种智能学习内容推送方法及系统
CN111626420B (zh) 一种认知能力的自适应测评方法、测评系统及其使用方法
CN117494727B (zh) 用于大语言模型的去偏倚方法
CN108536668A (zh) 唤醒词评估方法及装置、存储介质、电子设备
CN112948558A (zh) 面向开放域对话系统的上下文增强的问题生成方法及装置
CN116738959B (zh) 一种基于人工智能的简历改写方法及系统
Walker 20 Variation analysis
CN110765758A (zh) 一种同义句生成模型的生成方法、装置及介质
CN108228779B (zh) 一种基于学习社区对话流的成绩预测方法
Goldsmith Towards a new empiricism
CN116955624A (zh) 文本的识别方法、装置、处理器以及电子设备
CN117193823A (zh) 一种软件需求变更的代码工作量评估方法、系统及设备
CN117131945A (zh) 一种用于llm模型的数据训练方法及存储介质
CN114117054B (zh) 基于个性词的学生期末评价方法、系统、装置和存储介质
Horiuchi et al. Learning to Ask Specific Questions Naturally in Chat-Oriented Dialogue Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination