CN118070925A - 模型训练方法、装置、电子设备、存储介质及程序产品 - Google Patents
模型训练方法、装置、电子设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN118070925A CN118070925A CN202410459107.6A CN202410459107A CN118070925A CN 118070925 A CN118070925 A CN 118070925A CN 202410459107 A CN202410459107 A CN 202410459107A CN 118070925 A CN118070925 A CN 118070925A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- similarity
- sample
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 216
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 230000015654 memory Effects 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 description 31
- 238000003058 natural language processing Methods 0.000 description 17
- 238000013473 artificial intelligence Methods 0.000 description 16
- 238000000605 extraction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种模型训练方法、装置、电子设备、存储介质及程序产品;方法包括:获取携带第一样本标签的第一文本样本和多条携带第二样本标签的第二文本样本;其中,第一样本标签,用于指示第一文本样本对应的目标文本,第二样本标签,用于指示相应的第二文本样本与第一文本样本之间的目标相似度;调用检索模型,从多条第二文本样本中检索得到与第一文本样本相关联的目标第二文本样本;调用大语言模型,基于目标第二文本样本,对第一文本样本进行文本预测,得到第一文本样本对应的预测文本;基于目标文本、预测文本及目标相似度,对检索模型和大语言模型进行联合训练。通过本申请,能够有效提高训练后的模型的性能。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种模型训练方法、装置、电子设备、存储介质及程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
相关技术中,对于大语言模型和检索模型的训练,通常是将大语言模型和检索模型进行独立训练,也即大语言模型的训练不会对检索模型的模型参数带来影响,检索模型的训练不会对大语言模型的模型参数带来影响,这样导致大语言模型和检索模型的训练无法考虑相互之间的训练影响,导致训练后的模型的性能不佳。
发明内容
本申请实施例提供一种模型训练方法、文本预测方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够有效提高训练后的模型的性能。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种模型训练方法,包括:
获取携带第一样本标签的第一文本样本和多条携带第二样本标签的第二文本样本;
其中,所述第一样本标签,用于指示所述第一文本样本对应的目标文本,所述第二样本标签,用于指示相应的所述第二文本样本与所述第一文本样本之间的目标相似度;
调用检索模型,从多条所述第二文本样本中检索得到与所述第一文本样本相关联的目标第二文本样本;
调用大语言模型,基于所述目标第二文本样本,对所述第一文本样本进行文本预测,得到所述第一文本样本对应的预测文本;
基于所述目标文本、所述预测文本及所述目标相似度,对所述检索模型和所述大语言模型进行联合训练。
本申请实施例提供一种模型训练方法,包括:
获取待预测文本和多条知识拓展文本,调用目标检索模型,从所述多条知识拓展文本中检索得到与所述待预测文本相关联的目标拓展文本;
调用目标大语言模型,基于所述目标拓展文本,对所述待预测文本进行文本预测,得到所述待预测文本对应的目标预测文本;
其中,所述目标检索模型和所述目标大语言模型,基于上述模型训练方法所联合训练得到。
本申请实施例提供一种模型训练装置,包括:
获取模块,用于获取携带第一样本标签的第一文本样本和多条携带第二样本标签的第二文本样本;其中,所述第一样本标签,用于指示所述第一文本样本对应的目标文本,所述第二样本标签,用于指示相应的所述第二文本样本与所述第一文本样本之间的目标相似度;
调用模块,用于调用检索模型,从多条所述第二文本样本中检索得到与所述第一文本样本相关联的目标第二文本样本;调用大语言模型,基于所述目标第二文本样本,对所述第一文本样本进行文本预测,得到所述第一文本样本对应的预测文本;
训练模块,用于基于所述目标文本、所述预测文本及所述目标相似度,对所述检索模型和所述大语言模型进行联合训练。
上述方案中,上述训练模块,还用于获取所述目标文本和所述预测文本之间的第一文本相似度,基于所述第一文本相似度,对所述大语言模型进行训练,得到目标大语言模型;基于所述目标大语言模型和所述目标相似度,对所述检索模型进行训练,得到目标检索模型。
上述方案中,上述训练模块,还用于调用所述目标大语言模型,基于各所述第二文本样本,分别对所述第一文本样本进行文本预测,得到各所述第二文本样本分别对应的目标预测文本;基于所述目标预测文本和所述目标相似度,对所述检索模型进行训练,得到所述目标检索模型。
上述方案中,上述训练模块,还用于针对各所述第二文本样本分别执行以下处理:将所述第二文本样本和所述第一文本样本进行样本融合,得到融合文本样本;调用所述目标大语言模型,基于所述融合文本样本,对所述第一文本样本进行文本预测,得到所述第二文本样本对应的目标预测文本。
上述方案中,上述训练模块,还用于获取各所述目标预测文本分别与所述目标文本之间的第二文本相似度;针对各所述第二文本样本,确定所述第二文本样本对应的第二文本相似度和相应的所述目标相似度之间的第一相似度差值;将各所述第一相似度差值进行求和,得到所述检索模型的损失值,并基于所述损失值,对所述检索模型进行训练,得到所述目标检索模型。
上述方案中,上述调用模块,还用于调用所述检索模型,预测各所述第二文本样本与所述第一文本样本之间的相似度,并基于预测得到的相似度,从多条所述第二文本样本中确定与所述第一文本样本相关联的目标第二文本样本;上述训练模块,还用于获取各所述目标预测文本分别与所述目标文本之间的第二文本相似度;针对各所述第二文本样本,确定所述第二文本样本对应的第二文本相似度和相应的所述目标相似度之间的第一相似度差值,以及所述第二文本样本对应的预测得到的相似度和相应的所述目标相似度之间的第二相似度差值;将各所述第二相似度差值和各所述第二相似度差值进行求和,得到所述检索模型的损失值,并基于所述损失值,对所述检索模型进行训练,得到所述目标检索模型。
上述方案中,上述训练模块,还用于将各所述目标相似度进行求和,得到第一求和相似度;获取各所述目标预测文本分别与所述目标文本之间的第二文本相似度,并将各所述第二文本相似度进行求和,得到第二求和相似度;基于所述第一求和相似度和所述第二求和相似度,对所述检索模型进行训练,得到所述目标检索模型。
上述方案中,上述训练模块,还用于针对各所述第二文本样本,将所述第二文本样本对应的目标相似度除以所述第一求和相似度,得到所述第二文本样本对应的第一概率值,将所述第二文本样本对应的第二文本相似度除以所述第二求和相似度,得到所述第二文本样本对应的第二概率值,将所述第一概率值和所述第二概率值的差值,确定为所述第二文本样本对应的损失值;基于各所述第二文本样本对应的损失值,对所述检索模型进行训练,得到所述目标检索模型。
上述方案中,上述训练模块,还用于针对各所述第二文本样本,调用所述大语言模型,基于所述第二文本样本,对所述第一文本样本进行文本预测,得到所述第二文本样本对应的目标预测文本;基于所述目标预测文本和所述目标相似度,对所述检索模型进行训练,得到候选检索模型;基于所述候选检索模型、所述目标文本和所述预测文本,对所述大语言模型进行训练,得到目标大语言模型;基于所述目标大语言模型和所述目标相似度,对所述候选检索模型进行训练,得到目标检索模型。
上述方案中,上述训练模块,还用于获取所述目标文本和所述预测文本之间的第一文本相似度,基于所述第一文本相似度,对所述大语言模型进行训练,得到候选大语言模型;调用所述候选检索模型,从多条所述第二文本样本中检索得到与所述第一文本样本相关联的参考文本样本;调用所述候选大语言模型,基于所述参考文本样本,对所述第一文本样本进行文本预测,得到所述第一文本样本对应的参考预测文本;获取所述目标文本和所述参考预测文本之间的第三文本相似度,并基于所述第三文本相似度,对所述候选大语言模型进行训练,得到所述目标大语言模型。
本申请实施例提供一种模型训练装置,包括:
检索模块,用于获取待预测文本和多条知识拓展文本,调用目标检索模型,从所述多条知识拓展文本中检索得到与所述待预测文本相关联的目标拓展文本;
预测模块,用于调用目标大语言模型,基于所述目标拓展文本,对所述待预测文本进行文本预测,得到所述待预测文本对应的目标预测文本;其中,所述目标检索模型和所述目标大语言模型,基于上述模型训练方法所联合训练得到。
本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机可执行指令或者计算机程序;
处理器,用于执行所述存储器中存储的计算机可执行指令或者计算机程序时,实现本申请实施例提供的文本预测方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于引起处理器执行时,实现本申请实施例提供的文本预测方法。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的文本预测方法。
本申请实施例具有以下有益效果:
通过获取携带用于指示第一文本样本对应的目标文本的第一样本标签的第一文本样本和多条携带用于指示相应的第二文本样本与第一文本样本之间的目标相似度的第二样本标签的第二文本样本,调用检索模型,从多条第二文本样本中检索得到与第一文本样本相关联的目标第二文本样本;调用大语言模型,基于目标第二文本样本,对第一文本样本进行文本预测,得到第一文本样本对应的预测文本,基于目标文本、预测文本及目标相似度,对检索模型和大语言模型进行联合训练。如此,通过基于目标文本、预测文本及目标相似度,对检索模型和大语言模型进行联合训练,从而能够在训练过程中,大语言模型的训练和检索模型的训练能够互相影响互为补充,从而使得训练后的大语言模型和检索模型的模型性能得到显著提升,从而有效提高了训练后的模型的性能。
附图说明
图1是本申请实施例提供的模型训练系统的架构示意图;
图2是本申请实施例提供的用于训练模型电子设备的结构示意图;
图3是本申请实施例提供的用于文本预测的电子设备的结构示意图;
图4是本申请实施例提供的模型训练方法的流程示意图一;
图5是本申请实施例提供的模型训练方法的流程示意图二;
图6是本申请实施例提供的模型训练方法的流程示意图三;
图7是本申请实施例提供的文本预测方法的流程示意图四;
图8是本申请实施例提供的大语言模型进行文本预测的原理示意图;
图9是本申请实施例提供的检索模型的训练方法的原理示意图;
图10是本申请实施例提供的模型结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)自然语言处理(Natural Language Processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分,自然语言处理主要应用于机器翻译、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。
2)大语言模型(Large Language Model,LLM):又称大型语言模型、大模型,大语言模型是指使用大量文本数据训练的深度学习模型,包含数十亿甚至更加庞大的参数,可以用于生成自然语言文本并理解自然语言文本的含义,通过训练,模型能够学习到语言的统计规律和语义关联,以建立一个庞大的语言知识库,进而模拟人类的语言理解和生成能力。大语言模型具有以下特点:学习能力:通过海量的文本数据训练,大语言模型可以学习到丰富的语言知识和表达方式,包括语法、语义和常见的表达习惯。模式识别:大语言模型能够识别常见的文本模式和语义关联,例如词语之间的共现关系、语句的逻辑结构和语义角色等。上下文理解:大语言模型可以捕捉文本中的上下文信息,理解先前的文本对后续文本的影响,并根据上下文生成相应的回应。大语言模型的应用场景非常广泛,可以应用于智能客服、智能问答、自然语言生成、广告推荐、游戏等领域,能够提高人机交互的效率和准确性,并提升用户体验。
3)人工智能(Artificial Intelligence,AI):是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
4)机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
5)卷积神经网络(CNN,Convolutional Neural Networks):是一类包含卷积计算且具有深度结构的前馈神经网络(FNN,Feed forward Neural Networks),是深度学习(Deep Learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力,能够按其阶层结构对输入图像进行平移不变分类(Shift-InvariantClassification)。
6)响应于:用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
7)指令微调(Instruction Finetuning):是一种用于优化大型语言模型(LargeLanguage Models, LLMs)的技术,其目的是提高模型对人类指令的理解和遵循能力。在指令微调过程中,模型会在一个特定设计的数据集上进行进一步的训练,这个数据集包含了多种指令以及每个指令期望的输出结果。通过这种方式,模型可以学习如何更准确地响应用户的指令,提升其性能和可控性。
8)结构化查询语句(SQL Statement):是一种用于管理和操作关系数据库的标准编程语言。SQL语句用于执行各种数据库操作,如查询、更新、插入和删除数据。它是数据库管理系统(DBMS)中用于与数据库通信和交互的主要工具。
在本申请实施例的实施过程中,申请人发现相关技术存在以下问题:
相关技术中,对于大语言模型和检索模型的训练,通常是将大语言模型和检索模型进行独立训练,也即大语言模型的训练不会对检索模型的模型参数带来影响,检索模型的训练不会对大语言模型的模型参数带来影响,这样导致大语言模型和检索模型的训练无法考虑相互之间的训练影响,导致训练后的模型的性能不佳。
本申请实施例提供一种模型训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够有效提高训练后的模型的性能,下面说明本申请实施例提供的模型训练系统的示例性应用。
参见图1,图1是本申请实施例提供的模型训练系统100的架构示意图,终端(示例性示出了终端400)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于供用户使用客户端410,在图形界面410-1(示例性示出了图形界面410-1)显示目标预测文本。终端400和服务器200通过有线或者无线网络相互连接。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表、车载终端等,但并不局限于此。本申请实施例提供的电子设备可以实施为终端,也可以实施为服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
在一些实施例中,服务器200获取第一文本样本和第二文本样本,并确定第一文本样本对应的预测文本,并基于目标文本、预测文本和目标相似度,对大语言模型和检索模型进行联合训练,并将训练后的大语言模型和检索模型发送至终端400。
在另一些实施例中,终端400获取第一文本样本和第二文本样本,并确定第一文本样本对应的预测文本,并基于目标文本、预测文本和目标相似度,对大语言模型和检索模型进行联合训练,并将训练后的大语言模型和检索模型发送至服务器200。
在另一些实施例中,本申请实施例可以借助于云技术(Cloud Technology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。
参见图2,图2是本申请实施例提供的用于训练模型电子设备500的结构示意图,其中,图2所示出的电子设备500可以是图1中的服务器200或者终端400,图2所示的电子设备500包括:至少一个处理器430、存储器450、至少一个网络接口420。电子设备500中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器430可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘器等。存储器450可选地包括在物理位置上远离处理器430的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi,Wireless Fidelity)、和通用串行总线(USB,Universal Serial Bus)等。
在一些实施例中,本申请实施例提供的模型训练装置可以采用软件方式实现,图2示出了存储在存储器450中的模型训练装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块4551、调用模块4552、训练模块4553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
参见图3,图3是本申请实施例提供的用于文本预测的电子设备的结构示意图,其中,图3所示出的电子设备600可以是图1中的服务器200或者终端400,图3所示的电子设备600包括:至少一个处理器530、存储器550、至少一个网络接口520。电子设备600中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统540。
处理器530可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器530的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他电子设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi,Wireless Fidelity)、和通用串行总线(USB,Universal Serial Bus)等。
在一些实施例中,本申请实施例提供的文本预测装置可以采用软件方式实现,图3示出了存储在存储器550中的文本预测装置555,其可以是程序和插件等形式的软件,包括以下软件模块:检索模块5551、预测模块5552,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的模型训练装置可以采用硬件方式实现,作为示例,本申请实施例提供的模型训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的模型训练方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在一些实施例中,终端或服务器可以通过运行计算机程序或计算机可执行指令来实现本申请实施例提供的模型训练方法。举例来说,计算机程序可以是操作系统中的原生程序(例如,专用的模型训练程序)或软件模块,例如,可以嵌入到任意程序(如即时通信客户端、相册程序、电子地图客户端、导航客户端)中的模型训练模块;例如可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
将结合本申请实施例提供的服务器或终端的示例性应用和实施,说明本申请实施例提供的模型训练方法。
参见图4,图4是本申请实施例提供的模型训练方法的流程示意图一,将结合图4示出的步骤101至步骤104进行说明,本申请实施例提供的模型训练方法可以由服务器或终端单独实施,或者由服务器及终端协同实施,下面将以服务器单独实施为例进行说明。
在步骤101中,获取携带第一样本标签的第一文本样本和多条携带第二样本标签的第二文本样本。
在一些实施例中,第一样本标签,用于指示第一文本样本对应的目标文本,第二样本标签,用于指示相应的第二文本样本与第一文本样本之间的目标相似度。
在一些实施例中,第二样本标签与第二文本样本一一对应,上述第二样本标签相应的第二文本样本是指与第二样本标签一一对应的第二文本样本,例如,第二文本样本A1携带的第二样本标签B1,用于指示第二文本样本A1与第一文本样本之间的目标相似度,第二文本样本A2携带的第二样本标签B2,用于指示第二文本样本A2与第一文本样本之间的目标相似度,第二文本样本A3携带的第二样本标签B3,用于指示第二文本样本A3与第一文本样本之间的目标相似度。
在一些实施例中,上述第一文本样本是指具体的一个文本内容,可以是一段文字、一篇文章等。第二文本样本是指另外一个文本内容,也可以是一段文字、一篇文章等。这两个文本样本可以通过标签进行区分,第一样本标签用于指示第一文本样本对应的目标文本,而第二样本标签则用于指示第二文本样本与第一文本样本之间的目标相似度。通过这样的方式,可以对文本样本进行有针对性的分析和比较,以完成相应的任务或实现特定的目标。上述第二文本样本,用于对第一文本样本进行样本增强。
作为示例,参见图8,图8是本申请实施例提供的大语言模型进行文本预测的原理示意图,获取携带第一样本标签的第一文本样本(图8中所示出的输入)和多条携带第二样本标签的第二文本样本(图8中所示出的示例1、示例2至示例n)。
在步骤102中,调用检索模型,从多条第二文本样本中检索得到与第一文本样本相关联的目标第二文本样本。
在一些实施例中,上述检索模型可以是自然语言处理模型,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分,自然语言处理主要应用于机器翻译、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。
作为示例,参见图10,图10是本申请实施例提供的模型结构示意图,上述检索模型可以包括编码层和解码层,上述调用检索模型,从多条第二文本样本中检索得到与第一文本样本相关联的目标第二文本样本,可以通过如下方式实现:调用编码层1,对第二文本样本和第一文本样本进行编码,得到编码结果;调用解码层2,从多条第二文本样本中检索得到与第一文本样本相关联的目标第二文本样本。
在一些实施例中,上述步骤102可以通过如下方式实现:调用检索模型,预测各第二文本样本与第一文本样本之间的相似度,并基于预测得到的相似度,从多条第二文本样本中确定与第一文本样本相关联的目标第二文本样本。
在一些实施例中,上述基于预测得到的相似度,从多条第二文本样本中确定与第一文本样本相关联的目标第二文本样本,可以通过如下方式实现:将各预测得到的相似度分别与相似度阈值进行比较,得到各预测得到的相似度对应的比较结果;当比较结果指示预测得到的相似度大于相似度阈值时,将预测得到的相似度对应的第二文本样本,确定为目标第二文本样本。
在一些实施例中,相似度阈值是一个设定的数值,用于判断两个文本之间的相似度是否达到一定的标准。相似度阈值被用来进行预测得到的相似度的比较,具体步骤如下:首先,计算两个文本之间的相似度得分,可以使用各种文本相似度计算方法,如余弦相似度、编辑距离等。然后,将计算得到的相似度分别与设定的相似度阈值进行比较。如果相似度的得分大于相似度阈值,说明这两个文本之间的相似度达到了设定的标准。当比较结果指示预测得到的相似度大于相似度阈值时,就会将对应的第二文本样本确定为目标第二文本样本。这意味着这个第二文本和第一文本之间的相似度达到了设定的阈值,可以被认定为目标相似文本。通过设定相似度阈值并进行相似度比较,可以筛选出符合要求的相似文本,有助于进行精确的文本分析和对比。
在另一些实施例中,上述基于预测得到的相似度,从多条第二文本样本中确定与第一文本样本相关联的目标第二文本样本,可以通过如下方式实现:将预测得到的相似度中最大的相似度对应的第二文本样本,确定为目标文本样本。
在一些实施例中,上述调用检索模型,预测各第二文本样本与第一文本样本之间的相似度,可以通过如下方式实现:对各第二文本样本进行特征提取,得到各第二文本样本对应的第二文本特征,对第一文本样本进行特征提取,得到第一文本样本对应的第一文本特征;针对各第二文本样本,调用检索模型,基于第二文本样本对应的第二文本特征和第一文本特征,对第二文本样本和第一文本样本之间的相似度进行预测,得到第二文本样本与第一文本样本之间的相似度。
在一些实施例中,上述对各第二文本样本进行特征提取,得到各第二文本样本对应的第二文本特征,可以使用词袋模型(Bag of Words)、TF-IDF(Term Frequency-InverseDocument Frequency)、Word2Vec等方法对第二文本样本进行特征提取,将文本转换成数值型特征表示。
在一些实施例中,上述对各第二文本样本进行特征提取,得到各第二文本样本对应的第二文本特征,可以使用词袋模型、TF-IDF、Word2Vec等方法对第二文本样本进行特征提取,将文本转换成数值型特征表示。
如此,通过对文本进行特征提取可以将文本数据转换为计算机可处理的数值型特征表示,有助于提取文本的重要信息和特征。通过特征提取,可以更好地表示文本的语义和结构,提高后续模型的准确性。通过调用检索模型并基于第二文本样本的特征和第一文本样本的特征,预测第二文本样本与第一文本样本之间的相似度。这有助于量化和衡量两个文本之间的相似程度,为进一步的分析和应用提供有力支持。通过检索模型的预测,可以快速有效地对大量第二文本样本和第一文本样本进行相似度分析,从而找出目标文本样本并进行进一步研究和处理。基于特征提取和检索模型的相似度预测,可以提高文本相似度预测的准确性和可靠性,减少人工干预和主观判断的影响。
在步骤103中,调用大语言模型,基于目标第二文本样本,对第一文本样本进行文本预测,得到第一文本样本对应的预测文本。
在一些实施例中,大语言模型(Large Language Model,LLM):又称大型语言模型、大模型,大语言模型是指使用大量文本数据训练的深度学习模型,包含数十亿甚至更加庞大的参数,可以用于生成自然语言文本并理解自然语言文本的含义,通过训练,模型能够学习到语言的统计规律和语义关联,以建立一个庞大的语言知识库,进而模拟人类的语言理解和生成能力。大语言模型具有以下特点:学习能力:通过海量的文本数据训练,大语言模型可以学习到丰富的语言知识和表达方式,包括语法、语义和常见的表达习惯。模式识别:大语言模型能够识别常见的文本模式和语义关联,例如词语之间的共现关系、语句的逻辑结构和语义角色等。上下文理解:大语言模型可以捕捉文本中的上下文信息,理解先前的文本对后续文本的影响,并根据上下文生成相应的回应。生成能力:大语言模型能够根据输入信息生成与之相关的自然语言文本,包括回答问题、生成文章、对话交流等。解决歧义:尽管存在语言的多义性和歧义,大语言模型通过上下文信息和语言规律来解决歧义,提供更准确和合适的文本生成或理解。大语言模型的应用场景非常广泛,可以应用于智能客服、智能问答、自然语言生成、广告推荐、游戏等领域,能够提高人机交互的效率和准确性,并提升用户体验。
作为示例,参见图10,上述大语言模型包括编码层1和预测层2,上述调用大语言模型,基于目标第二文本样本,对第一文本样本进行文本预测,得到第一文本样本对应的预测文本,可以通过如下方式实现:调用编码层1,对目标第二文本样本和第一文本样本进行编码,得到编码结果;调用预测层2,基于编码结果,对第一文本样本进行文本预测,得到第一文本样本对应的预测文本。
在一些实施例中,大语言模型可以处理多种自然语言任务,如文本分类任务、问答任务、对话任务等,是通向人工智能的一条重要途径,大语言模型旨在理解和生成人类语言。大语言模型在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等,大语言模型的特点是规模庞大,包含数十亿甚至更加庞大的参数,帮助它们学习语言数据中的复杂模式。大语言模型通过对大量语料进行无监督或半监督学习,使用深度学习技术进行处理和学习,将自然语言编码成数字向量,然后基于已有的语料库对深度学习模型进行训练和优化。
在一些实施例中,上述调用大语言模型,基于目标第二文本样本,对第一文本样本进行文本预测,得到第一文本样本对应的预测文本,可以通过如下方式实现:对目标第二文本样本进行特征提取,得到目标文本样本特征,对第一文本样本进行特征提取,得到第一文本特征,将第一文本特征和第二文本特征进行融合,得到融合文本特征;调用大语言模型,基于融合文本特征,对第一文本样本进行文本预测,得到第一文本样本对应的预测文本。
作为示例,在问答应用场景中,上述第一文本样本为问题文本,上述第二文本样本用于对问题文本进行知识拓展的知识拓展文本,上述第一文本样本对应的预测文本可以是问题文本对应的预测答案文本,通过调用大语言模型,基于目标知识拓展文本,对问题文本进行文本预测,得到问题文本对应的预测答案文本。
作为示例,在查询文本生成的应用场景中,上述第一文本样本为原始文本,上述第二文本样本用于对原始文本进行知识拓展的知识拓展文本,上述第一文本样本对应的预测文本可以是原始文本对应的预测查询文本,通过调用大语言模型,基于目标知识拓展文本,对原始文本进行文本预测,得到原始文本对应的预测查询文本。
如此,通过大语言模型的预测能力,可以生成语法正确、连贯性强且内容丰富的预测文本。这有助于提高文本生成的质量,使得生成的文本更具可读性和信息量。大语言模型在文本生成和预测方面表现优异,可以基于目标第二文本样本对第一文本样本进行文本预测。这有助于生成与目标文本相关的预测文本,从而探索文本之间的关联性和内容扩展。调用大语言模型进行文本预测可以实现自动化的文本生成和处理过程,减轻人工编辑的压力,提高处理效率和速度。
在步骤104中,基于目标文本、预测文本及目标相似度,对检索模型和大语言模型进行联合训练。
在一些实施例中,联合训练是指在一个统一的框架下,同时训练多个模型或组件,以使它们能够协同工作以实现更好的性能。在本申请实施例中,联合训练指的是基于目标文本、预测文本以及目标相似度,对检索模型和大语言模型进行联合训练的过程。联合训练可以促使模型学习更加丰富和有效的文本表示,提高模型在相似度计算和文本生成任务上的表现。联合训练检索模型和大语言模型可以使两者相互补充,共同学习,提高模型整体的性能和效果。
在一些实施例中,参见图5,图5是本申请实施例提供的模型训练方法的流程示意图二,图4中所示出的步骤104可以通过图5所示出的步骤1041A至步骤1042A实现。
在步骤1041A中,获取目标文本和预测文本之间的第一文本相似度,基于第一文本相似度,对大语言模型进行训练,得到目标大语言模型。
在一些实施例中,目标文本和预测文本之间的第一文本相似度通常指的是通过某种相似度度量方式(如余弦相似度、Jaccard相似度等)计算目标文本和预测文本之间的相似程度。首先,分别对目标文本和预测文本进行特征表示或向量化,然后通过相似度度量计算这两个文本之间的相似度得分。这个相似度得分反映了两个文本在语义或结构上的接近程度,数值越高表示两个文本越相似,反之则表示差异性较大。目标文本和预测文本之间的第一文本相似度可以用来评估大语言模型生成的文本与目标文本之间的一致性程度或相关性,有助于衡量预测文本是否与目标文本相匹配。
在一些实施例中,上述基于第一文本相似度,对大语言模型进行训练,得到目标大语言模型,可以是以第一文本相似度为损失值,对大语言模型进行训练,得到目标大语言模型。
在一些实施例中,上述基于第一文本相似度,对大语言模型进行训练,得到目标大语言模型,可以通过如下方式实现:当第一文本相似度的数量为一个时,以第一文本相似度为损失值,对大语言模型进行训练,得到目标大语言模型;当第一文本相似度的数量为多个时,将各第一文本相似度进行求和,得到求和损失值,并基于求和损失值,对大语言模型进行训练,得到目标大语言模型。
在步骤1042A中,基于目标大语言模型和目标相似度,对检索模型进行训练,得到目标检索模型。
在一些实施例中,上述目标检索模型的检索性能大于检索模型的模型性能,上述目标检索模型和检索模型的模型参数相同,上述目标检索模型和检索模型的模型参数不同。
在一些实施例中,上述步骤1042A可以通过如下方式实现:调用目标大语言模型,基于各第二文本样本,分别对第一文本样本进行文本预测,得到各第二文本样本分别对应的目标预测文本;基于目标预测文本和目标相似度,对检索模型进行训练,得到目标检索模型。
在一些实施例中,针对各第二文本样本,调用目标大语言模型,基于第二文本样本,对第一文本样本进行文本预测,得到第二文本样本对应的目标预测文本。
作为示例,参见图8,针对第二文本样本(示例1),调用目标大语言模型,基于第二文本样本(示例1),对第一文本样本(输入)进行文本预测,得到第二文本样本对应的目标预测文本(预测结果)。
作为示例,参见图8,针对第二文本样本(示例2),调用目标大语言模型,基于第二文本样本(示例2),对第一文本样本(输入)进行文本预测,得到第二文本样本对应的目标预测文本(预测结果)。
在一些实施例中,上述调用目标大语言模型,基于各第二文本样本,分别对第一文本样本进行文本预测,得到各第二文本样本分别对应的目标预测文本,可以通过如下方式实现:针对各第二文本样本分别执行以下处理:将第二文本样本和第一文本样本进行样本融合,得到融合文本样本;调用目标大语言模型,基于融合文本样本,对第一文本样本进行文本预测,得到第二文本样本对应的目标预测文本。
作为示例,参见图8,针对第二文本样本(示例1):将第二文本样本(示例1)和第一文本样本(输入)进行样本融合,得到融合文本样本;调用目标大语言模型,基于融合文本样本,对第一文本样本进行文本预测,得到第二文本样本对应的目标预测文本(预测结果)。
作为示例,参见图8,针对第二文本样本(示例2):将第二文本样本(示例2)和第一文本样本(输入)进行样本融合,得到融合文本样本;调用目标大语言模型,基于融合文本样本,对第一文本样本进行文本预测,得到第二文本样本对应的目标预测文本(预测结果)。
如此,将第一文本样本和第二文本样本进行融合,有助于将两者的信息结合起来,提供更加全面和丰富的输入样本。这样做可以让目标大语言模型更好地理解两个文本之间的关联性,提升文本预测的精度和准确性。利用目标大语言模型对融合文本样本进行预测,可以生成与第二文本样本相关的目标预测文本。这有助于扩展文本内容、填充信息缺失,提高文本信息比例和一致性,从而产生更具意义和相关性的文本预测结果。通过融合处理和文本预测,可以使文本信息更加丰富和完整。预测文本能够提供对第二文本样本的进一步解释或补充,从而增加文本的信息量和质量。预测文本基于融合样本的生成,可以增加与第一文本样本之间的关联性。这有助于加强文本之间的逻辑关系、语义一致性,使文本更贴近实际语境和任务需求。
在一些实施例中,上述基于目标大语言模型和目标相似度,对检索模型进行训练,得到目标检索模型,可以通过如下方式实现:获取各目标预测文本分别与目标文本之间的第二文本相似度;针对各第二文本样本,确定第二文本样本对应的第二文本相似度和相应的目标相似度之间的第一相似度差值,以及第二文本样本对应的预测得到的相似度和相应的目标相似度之间的第二相似度差值;将各第二相似度差值和各第二相似度差值进行求和,得到检索模型的损失值,并基于损失值,对检索模型进行训练,得到目标检索模型。
在一些实施例中,上述目标相似度与第二文本样本一一对应,确定第二文本样本对应的第二文本相似度和相应的目标相似度之间的第一相似度差值,是指确定第二文本样本对应的第二文本相似度和与第二文本样本一一对应的目标相似度之间的第一相似度差值,例如,第二文本样本A1与目标相似度C1一一对应,确定第二文本样本A1对应的第二文本相似度和目标相似度C1之间的第一相似度差值,第二文本样本A2与目标相似度C2一一对应,确定第二文本样本A2对应的第二文本相似度和目标相似度C2之间的第一相似度差值,第二文本样本A3与目标相似度C3一一对应,确定第二文本样本A3对应的第二文本相似度和目标相似度C3之间的第一相似度差值。
在一些实施例中,目标预测文本与目标文本之间的第二文本相似度,是指目标预测文本的文本特征和目标文本的文本特征之间的特征距离。
作为示例,上述第一相似度差值的表达式可以为:
(1)
其中,用于指示第一相似度差值,用于指示第二文本样本对应的第二文本相
似度,用于指示相应的目标相似度。
作为示例,上述第二相似度差值的表达式可以为:
(2)
其中,用于指示第二相似度差值,用于指示第二文本样本对应的第二文本相
似度,用于指示相应的目标相似度。
作为示例,上述检索模型的损失值的表达式可以为:
(3)
其中,用于指示检索模型的损失值,用于指示第一相似度差值,用于指示第
二相似度差值。
如此,通过获取各目标预测文本与目标文本之间的第二文本相似度,可以量化预测文本与目标文本的相似性。这有助于评估预测文本生成的准确性和匹配程度。确定第二文本样本对应的第二文本相似度和目标相似度之间的差值,即第一相似度差值。这可以帮助衡量预测文本与目标文本的差异,为模型训练提供反馈。将各第一相似度差值进行求和,得到一个总体的损失值。这个损失值可以作为训练目标,指示模型在优化过程中需要减小的方向。
在一些实施例中,上述基于目标预测文本和目标相似度,对检索模型进行训练,得到目标检索模型,可以通过如下方式实现:将各所述目标相似度进行求和,得到第一求和相似度;获取各所述目标预测文本分别与所述目标文本之间的第二文本相似度,并将各所述第二文本相似度进行求和,得到第二求和相似度;基于所述第一求和相似度和所述第二求和相似度,对所述检索模型进行训练,得到所述目标检索模型。
作为示例,上述第一求和相似度的表达式可以为:
(4)
其中,用于指示第一求和相似度,用于指示各所述目标相似度。
作为示例,上述第二求和相似度的表达式可以为:
(5)
其中,用于指示第一求和相似度,用于指示第二文本相似度。
在一些实施例中,上述基于第一求和相似度和第二求和相似度,对检索模型进行训练,得到目标检索模型,可以通过如下方式实现:针对各第二文本样本,将第二文本样本对应的目标相似度除以第一求和相似度,得到第二文本样本对应的第一概率值,将第二文本样本对应的第二文本相似度除以第二求和相似度,得到第二文本样本对应的第二概率值,将第一概率值和第二概率值的差值,确定为第二文本样本对应的损失值;基于各第二文本样本对应的损失值,对检索模型进行训练,得到目标检索模型。
作为示例,上述第一概率值的表达式可以为:
(6)
其中,用于指示第一概率值,用于指示第二文本样本对应的目标相似度,用于指示第一求和相似度。
作为示例,上述第二概率值的表达式可以为:
(7)
其中,用于指示第二概率值,用于指示第二求和相似度,用于指示第
二文本样本对应的第二文本相似度。
如此,将第二文本样本对应的目标相似度除以第一求和相似度,得到第一概率值;将第二文本样本对应的第二文本相似度除以第二求和相似度,得到第二概率值。这些概率值可以描述第二文本样本与目标文本之间的相对相似程度,从而为模型训练提供具体的概率指导。将第一概率值和第二概率值的差值确定为第二文本样本对应的损失值。这样的损失值可以反映出模型对于第二文本样本相似度估计的偏差和错误程度,为模型优化提供关键的反馈信息。于各第二文本样本对应的损失值,对检索模型进行训练,可以帮助模型逐步优化,减少相似度估计的误差。采用基于概率值和损失值驱动的训练方式,提高模型在文本相似度匹配任务中的准确性和鲁棒性。通过基于损失值的训练,检索模型可以不断调整自身参数,降低对目标相似度的预测误差,提高文本匹配的精度和效率,优化检索模型的性能。
在一些实施例中,参见图6,图6是本申请实施例提供的模型训练方法的流程示意图三,图4中所示出的步骤104可以通过图6所示出的步骤1041B至步骤1044B实现。
在步骤1041B中,针对各第二文本样本,调用大语言模型,基于第二文本样本,对第一文本样本进行文本预测,得到第二文本样本对应的目标预测文本。
在一些实施例中,上述步骤1041B可以通过如下方式实现:针对各第二文本样本分别执行以下处理:将第二文本样本和第一文本样本进行样本融合,得到融合文本样本;调用大语言模型,基于融合文本样本,对第一文本样本进行文本预测,得到第二文本样本对应的目标预测文本。
作为示例,参见图8,针对第二文本样本(示例1):将第二文本样本(示例1)和第一文本样本(输入)进行样本融合,得到融合文本样本;调用大语言模型,基于融合文本样本,对第一文本样本进行文本预测,得到第二文本样本对应的目标预测文本(预测结果)。
作为示例,参见图8,针对第二文本样本(示例2):将第二文本样本(示例2)和第一文本样本(输入)进行样本融合,得到融合文本样本;调用大语言模型,基于融合文本样本,对第一文本样本进行文本预测,得到第二文本样本对应的目标预测文本(预测结果)。
在步骤1042B中,基于目标预测文本和目标相似度,对检索模型进行训练,得到候选检索模型。
在一些实施例中,上述步骤1042B可以通过如下方式实现:获取各目标预测文本分别与目标文本之间的第二文本相似度;针对各第二文本样本,确定第二文本样本对应的第二文本相似度和相应的目标相似度之间的第一相似度差值,以及第二文本样本对应的预测得到的相似度和相应的目标相似度之间的第二相似度差值;将各第二相似度差值和各第二相似度差值进行求和,得到检索模型的损失值,并基于损失值,对检索模型进行训练,得到候选检索模型。
在一些实施例中,目标预测文本与目标文本之间的第二文本相似度,是指目标预测文本的文本特征和目标文本的文本特征之间的特征距离。
在另一些实施例中,上述步骤1042B可以通过如下方式实现:获取各目标预测文本分别与目标文本之间的第二文本相似度;针对各第二文本样本,确定第二文本样本对应的第二文本相似度和相应的目标相似度之间的第一相似度差值;将各第一相似度差值进行求和,得到检索模型的损失值,并基于损失值,对检索模型进行训练,得到候选检索模型。
在一些实施例中,上述基于第一求和相似度和第二求和相似度,对检索模型进行训练,得到候选检索模型,可以通过如下方式实现:针对各第二文本样本,将第二文本样本对应的目标相似度除以第一求和相似度,得到第二文本样本对应的第一概率值,将第二文本样本对应的第二文本相似度除以第二求和相似度,得到第二文本样本对应的第二概率值,将第一概率值和第二概率值的差值,确定为第二文本样本对应的损失值;基于各第二文本样本对应的损失值,对检索模型进行训练,得到候选检索模型。
在步骤1043B中,基于候选检索模型、目标文本和预测文本,对大语言模型进行训练,得到目标大语言模型。
在一些实施例中,上述步骤1043B可以通过如下方式实现:获取目标文本和预测文本之间的第一文本相似度,基于第一文本相似度,对大语言模型进行训练,得到候选大语言模型;调用候选检索模型,从多条第二文本样本中检索得到与第一文本样本相关联的参考文本样本;调用候选大语言模型,基于参考文本样本,对第一文本样本进行文本预测,得到第一文本样本对应的参考预测文本;获取目标文本和参考预测文本之间的第三文本相似度,并基于第三文本相似度,对候选大语言模型进行训练,得到目标大语言模型。
在一些实施例中,上述目标文本和参考预测文本之间的第三文本相似度,是指目标文本的文本特征和参考预测文本的文本特征之间的特征距离。
如此,通过多次迭代训练和预测,不断优化大语言模型,使其在生成文本时更加准确和语义相近。通过对比目标文本和参考预测文本之间的相似度,可以评估模型的效果并进行进一步的优化,从而提高生成文本的质量和准确性。可以有效地提升大语言模型的生成能力,使其在各种任务和场景下都能够表现出更好的性能。
在步骤1044B中,基于目标大语言模型和目标相似度,对候选检索模型进行训练,得到目标检索模型。
在一些实施例中,上述步骤1044B可以通过如下方式实现:调用目标大语言模型,基于各第二文本样本,分别对第一文本样本进行文本预测,得到各第二文本样本分别对应的目标预测文本;基于目标预测文本和目标相似度,对候选检索模型进行训练,得到目标检索模型。
在一些实施例中,上述基于目标预测文本和目标相似度,对候选检索模型进行训练,得到目标检索模型,可以通过如下方式实现:获取各目标预测文本分别与目标文本之间的第二文本相似度;针对各第二文本样本,确定第二文本样本对应的第二文本相似度和相应的目标相似度之间的第一相似度差值;将各第一相似度差值进行求和,得到候选检索模型的损失值,并基于损失值,对候选检索模型进行训练,得到目标检索模型。
在一些实施例中,上述基于第一求和相似度和第二求和相似度,对候选检索模型进行训练,得到目标检索模型,可以通过如下方式实现:针对各第二文本样本,将第二文本样本对应的目标相似度除以第一求和相似度,得到第二文本样本对应的第一概率值,将第二文本样本对应的第二文本相似度除以第二求和相似度,得到第二文本样本对应的第二概率值,将第一概率值和第二概率值的差值,确定为第二文本样本对应的损失值;基于各第二文本样本对应的损失值,对候选检索模型进行训练,得到目标检索模型。
如此,通过获取携带用于指示第一文本样本对应的目标文本的第一样本标签的第一文本样本和多条携带用于指示相应的第二文本样本与第一文本样本之间的目标相似度的第二样本标签的第二文本样本,调用检索模型,从多条第二文本样本中检索得到与第一文本样本相关联的目标第二文本样本;调用大语言模型,基于目标第二文本样本,对第一文本样本进行文本预测,得到第一文本样本对应的预测文本,基于目标文本、预测文本及目标相似度,对检索模型和大语言模型进行联合训练。如此,通过基于目标文本、预测文本及目标相似度,对检索模型和大语言模型进行联合训练,从而能够在训练过程中,大语言模型的训练和检索模型的训练能够互相影响互为补充,从而使得训练后的大语言模型和检索模型的模型性能得到显著提升,从而有效提高了训练后的模型的性能。
参见图7,图7是本申请实施例提供的文本预测方法的流程示意图四,将结合图7示出的步骤201至步骤203进行说明,本申请实施例提供的文本预测方法可以由服务器或终端单独实施,或者由服务器及终端协同实施,下面将以服务器单独实施为例进行说明。
在步骤201中,获取待预测文本和多条知识拓展文本。
作为示例,在问答应用场景中,上述待预测为问题文本,上述知识拓展文本于对问题文本进行知识拓展的知识拓展文本,上述待预测文本对应的预测文本可以是问题文本对应的预测答案文本,通过调用目标大语言模型,基于目标知识拓展文本,对问题文本进行文本预测,得到问题文本对应的预测答案文本。
作为示例,在查询文本生成的应用场景中,上述待预测文本为原始文本,上述第二文本样本用于对原始文本进行知识拓展的知识拓展文本,上述待预测文本对应的预测文本可以是原始文本对应的预测查询文本,通过调用大语言模型,基于目标知识拓展文本,对原始文本进行文本预测,得到原始文本对应的预测查询文本。
在步骤202中,调用目标检索模型,从多条知识拓展文本中检索得到与待预测文本相关联的目标拓展文本。
承接上例,在问答应用场景中,调用目标检索模型,从多条知识拓展文本中检索得到与问题文本相关联的目标拓展文本。
承接上例,在查询文本生成的应用场景中,调用目标检索模型,从多条知识拓展文本中检索得到与原始文本相关联的目标拓展文本。
在步骤203中,调用目标大语言模型,基于目标拓展文本,对待预测文本进行文本预测,得到待预测文本对应的目标预测文本。
在一些实施例中,上述步骤203可以通过如下方式实现:将目标拓展文本和待预测文本进行融合,得到目标融合文本,调用目标大语言模型,基于目标融合文本,对待预测文本进行文本预测,得到待预测文本对应的目标预测文本。
在一些实施例中,目标检索模型和目标大语言模型,基于上述模型训练方法所联合训练得到。
如此,通过获取携带用于指示第一文本样本对应的目标文本的第一样本标签的第一文本样本和多条携带用于指示相应的第二文本样本与第一文本样本之间的目标相似度的第二样本标签的第二文本样本,调用检索模型,从多条第二文本样本中检索得到与第一文本样本相关联的目标第二文本样本;调用大语言模型,基于目标第二文本样本,对第一文本样本进行文本预测,得到第一文本样本对应的预测文本,基于目标文本、预测文本及目标相似度,对检索模型和大语言模型进行联合训练。如此,通过基于目标文本、预测文本及目标相似度,对检索模型和大语言模型进行联合训练,从而能够在训练过程中,大语言模型的训练和检索模型的训练能够互相影响互为补充,从而使得训练后的大语言模型和检索模型的模型性能得到显著提升,从而有效提高了训练后的模型的性能。
下面,将说明本申请实施例在一个实际的自然语言处理的应用场景中的示例性应用。
在教育领域,LLM已成为学生和教师的得力助手,为个性化学习和即时答疑提供了便利。在商业领域,企业利用LLM的自然语言处理能力自动化客户服务,提高了效率,同时通过分析市场趋势和消费者情绪来优化决策。在创意产业,作家和艺术家也借助LLM来激发灵感,辅助创作新作品。而在健康医疗领域,LLM也开始扮演辅助分析和决策的角色。
自然语言处理(NLP)作为一个快速发展的领域,为利用直观的SQL查询方式访问数据提供了新的机会。通过大语言模型,业务用户和数据分析师能够以简单的自然语言提出与数据和分析相关的问题,而不必涉及复杂的技术代码。这一前沿领域的主要目标是通过自然语言文本自动生成SQL查询。为实现这一目标,文本输入首先被转换为结构化表示,然后根据该表示创建可用于访问数据库的SQL查询,这一趋势将为数据访问和分析带来变革,使得更多人能够轻松地利用数据进行决策和洞察。
通用大语言模型的应用范围涵盖了文本生成、代码生成、摘要、翻译、聊天机器人等多个领域。目前基于大语言模型的Text2SQL方案主要包括两类:一类是基于提示工程(Prompt Engineering)的方案,通过精心设计的提示(prompt),来激发通用大模型在Text2SQL领域的能力,生成符合用户意图的SQL查询;另一类是基于指令微调(InstructionFinetuning)的方案,首先选取一个在大规模通用文本语料库上经过预训练的LLM作为基座模型,然后在经过标注的Text2SQL专用的指令数据集上继续训练来提高基座模型在Text2SQL任务上的性能。第一类基于提示工程的方案需要具有相应领域专业知识的人来设计优秀的提示(prompt),并且由于业务需求较为复杂,基于提示工程的方案在目标任务上的稳定性和准确度一般差于第二种方案。第二类基于指令微调的方案,需要大量的标注数据来针对特定任务优化模型,并且可能出现过拟合的现象,导致泛化性变差。
在本申请实施例提出的技术方案中,本申请实施例针对当前Text2SQL方案中普遍存在的扩展性、准确度、泛化性差等问题,提供了一种结合上下文学习(ICL)和指令微调(Instruction Finetuning)的Text2SQL方案,提高了模型的泛化性和生成SQL的准确度,并且可以通过增加相关示例的方式来高效地扩展到更丰富的业务场景。在微调过程中结合上下文学习的能力有两方面的优势:首先,它使LLM更好地适应并利用相关的背景知识以及示例进行预测;其次,即使是很优秀的检索器也可能返回不准确的结果,通过训练LLM在被提供相关性较低的检索示例时也能做出正确的预测,使得LLM在这种情况下能够忽略有误导性的检索内容,并依赖其经过微调后的参数来进行正确预测。
本申请实施例通过结合上下文学习(ICL)和指令微调(InstructionFinetuning),利用检索器(Retriever)检索出与用户输入问题相关的几个示例加入prompt中,使得大模型(LLM)可以综合利用相关示例以及经过微调后的参数来生成更好的SQL,提高了准确度和可扩展性。通过一种联合优化检索器(Retriever)和大模型(LLM)的训练方式,交替进行检索器和大模型的参数更新,具体来讲就是交替进行如下两步:对于Text2SQL指令数据集里的每条样本,用检索器检索出数条相关示例加入到指令中,然后在扩展后的指令数据集上进行大模型微调,更新大模型的参数;依据大模型对检索出的数条示例的反馈(每条示例对于预测正确结果的贡献程度)来设计损失函数以训练检索器、更新检索器的参数。
在一些实施例中,参见图8,对输入进行特征提取,得到输入特征,对示例1、示例2至示例n分别进行特征提取,得到各示例对应的示例特征;调用检索模型,基于各示例特征和输入特征,对各示例进行检索,得到示例中与输入的相似度大于相似度阈值的示例I、示例J和示例K;调用大语言模型,基于示例I、示例J和示例K分别对应的示例特征和输入特征,对输入进行预测,得到预测结果。图8中引入了两个模块,分别是检索器(Retriever),即上文所描述的检索模型和大语言模型(LLM),即上文所描述的大语言模型。检索器负责根据用户输入的问题,从包含很多示例的知识库中,检索出几个相关示例加入到prompt中,利用上下文学习(ICL)的思路激发大模型在Text2SQL领域的能力。知识库中包含的每个示例由Instruction(包含用户输入的问题)和Response(大模型应该生成的SQL)组成。大模型负责依据prompt来将用户输入的问题转换为SQL查询。并且本申请实施例提出了一种联合优化检索器和大模型的训练方式,交替进行检索器和大模型的参数更新,进一步提高了准确度。
在一些实施例中,检索器是一个由BERT模型组成的双塔结构,BERT分别将知识库
中的所有示例和用户输入的问题转换为embedding,把知识库中所有示例对应的embedding
记作,把用户输入的问题对应的embedding记作。
计算知识库中的所有示例与用户问题的相似度,即所有与的内积,然后选出值最高的个值对应的示例;
将这个与用户问题最相似的示例加入到用户输入的原始prompt中,具体可以参
见下面这个例子(包含2个例子,即):
例1:User: 按歌手年龄从最大到最小,显示每个歌手的姓名、国家、年龄:
LLM Assistant: SELECT name, country, age FROM singer ORDER BY ageDESC;
例2:User:某国所有歌手的平均年龄、最小年龄和最大年龄是多少?
LLM Assistant: SELECT avg(age), min(age), max(age) FROM singer WHEREcountry='某国';
User: 按年龄降序,每个歌手的名字、国家、年龄是什么?(用户实际输入的问题)LLM Assistant: …。将上述扩展后的prompt输入给大模型(LLM)生成对应的SQL。
在一些实施例中,在微调过程中结合上下文学习的能力有两方面的优势:首先,它使LLM更好地适应并利用相关的背景知识进行预测;其次,即使是很优秀的检索器也可能返回不准确的结果,通过训练LLM在被提供相关性较低的检索示例时也能做出正确的预测,使得LLM在这种情况下能够忽略有误导性的检索内容,并依赖其经过微调后的参数来进行正确预测。以下两步交替运行:
在一些实施例中,对于大语言模型的训练,在依据检索器扩展后的prompt(包含数个示例)上训练,最大化LLM输出正确SQL的概率,即:
(8)
其中,用于指示训练样本对应的样本标签,用于指示大语言模型的预测
结果。
在一些实施例中,对于检索模型的训练,参见图9,图9是本申请实施例提供的检索
模型的训练方法的原理示意图,基于示例1、示例2至示例n,依据大语言模型对检索模型选
出的每个示例(图9所示出的示例i、示例j和示例k)的反馈(每条示例对于预测正确结果的
贡献程度),设计损失函数用来微调检索模型。具体来讲,本申请实施例通过知识库里的
每个示例对预测正确结果的贡献程度:
(9)
其中,用于指示示例对预测正确结果的贡献程度,用
于指示当大语言模型的输入为输入和示例i时,大语言模型的预测结果(Output
SQL)与样本标签之间的相似度,用于指示当大语言模型的输入为输入和示例j时,大语言模型的预测结果与样本标签之间的相似度。
在一些实施例中,如果知识库中示例的贡献程度越大,那么大语言模型根据示
例预测出正确SQL的概率就越大。然后微调检索模型使得它以更高的概率选出贡献程度
较高的示例,即:
(10)
其中KL表示概率分布和之间的距离,为检索模型从知识库中选出
示例的概率。
如此,在微调过程中结合上下文学习的能力有两方面的优势,首先,它使大语言模型更好地适应并利用相关的背景知识进行预测,其次,即使是很优秀的检索器也可能返回不准确的结果,通过训练大语言模型在被提供相关性较低的检索示例时也能做出正确的预测,使得大语言模型在这种情况下能够忽略有误导性的检索内容,并依赖其经过微调后的参数来进行正确预测。
可以理解的是,在本申请实施例中,涉及到第一文本样本和第二文本样本等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的模型训练装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的模型训练装置455中的软件模块可以包括:获取模块,用于获取携带第一样本标签的第一文本样本和多条携带第二样本标签的第二文本样本;其中,第一样本标签,用于指示第一文本样本对应的目标文本,第二样本标签,用于指示相应的第二文本样本与第一文本样本之间的目标相似度;调用模块,用于调用检索模型,从多条第二文本样本中检索得到与第一文本样本相关联的目标第二文本样本;调用大语言模型,基于目标第二文本样本,对第一文本样本进行文本预测,得到第一文本样本对应的预测文本;训练模块,用于基于目标文本、预测文本及目标相似度,对检索模型和大语言模型进行联合训练。
在一些实施例中,上述训练模块,还用于获取目标文本和预测文本之间的第一文本相似度,基于第一文本相似度,对大语言模型进行训练,得到目标大语言模型;基于目标大语言模型和目标相似度,对检索模型进行训练,得到目标检索模型。
在一些实施例中,上述训练模块,还用于调用目标大语言模型,基于各第二文本样本,分别对第一文本样本进行文本预测,得到各第二文本样本分别对应的目标预测文本;基于目标预测文本和目标相似度,对检索模型进行训练,得到目标检索模型。
在一些实施例中,上述训练模块,还用于针对各第二文本样本分别执行以下处理:将第二文本样本和第一文本样本进行样本融合,得到融合文本样本;调用目标大语言模型,基于融合文本样本,对第一文本样本进行文本预测,得到第二文本样本对应的目标预测文本。
在一些实施例中,上述训练模块,还用于获取各目标预测文本分别与目标文本之间的第二文本相似度;针对各第二文本样本,确定第二文本样本对应的第二文本相似度和相应的目标相似度之间的第一相似度差值;将各第一相似度差值进行求和,得到检索模型的损失值,并基于损失值,对检索模型进行训练,得到目标检索模型。
在一些实施例中,上述调用模块,还用于调用检索模型,预测各第二文本样本与第一文本样本之间的相似度,并基于预测得到的相似度,从多条第二文本样本中确定与第一文本样本相关联的目标第二文本样本;上述训练模块,还用于获取各目标预测文本分别与目标文本之间的第二文本相似度;针对各第二文本样本,确定第二文本样本对应的第二文本相似度和相应的目标相似度之间的第一相似度差值,以及第二文本样本对应的预测得到的相似度和相应的目标相似度之间的第二相似度差值;将各第二相似度差值和各第二相似度差值进行求和,得到检索模型的损失值,并基于损失值,对检索模型进行训练,得到目标检索模型。
在一些实施例中,上述训练模块,还用于将各目标相似度进行求和,得到第一求和相似度;获取各目标预测文本分别与目标文本之间的第二文本相似度,并将各第二文本相似度进行求和,得到第二求和相似度;基于第一求和相似度和第二求和相似度,对检索模型进行训练,得到目标检索模型。
在一些实施例中,上述训练模块,还用于针对各第二文本样本,将第二文本样本对应的目标相似度除以第一求和相似度,得到第二文本样本对应的第一概率值,将第二文本样本对应的第二文本相似度除以第二求和相似度,得到第二文本样本对应的第二概率值,将第一概率值和第二概率值的差值,确定为第二文本样本对应的损失值;基于各第二文本样本对应的损失值,对检索模型进行训练,得到目标检索模型。
在一些实施例中,上述训练模块,还用于针对各第二文本样本,调用大语言模型,基于第二文本样本,对第一文本样本进行文本预测,得到第二文本样本对应的目标预测文本;基于目标预测文本和目标相似度,对检索模型进行训练,得到候选检索模型;基于候选检索模型、目标文本和预测文本,对大语言模型进行训练,得到目标大语言模型;基于目标大语言模型和目标相似度,对候选检索模型进行训练,得到目标检索模型。
在一些实施例中,上述训练模块,还用于获取目标文本和预测文本之间的第一文本相似度,基于第一文本相似度,对大语言模型进行训练,得到候选大语言模型;调用候选检索模型,从多条第二文本样本中检索得到与第一文本样本相关联的参考文本样本;调用候选大语言模型,基于参考文本样本,对第一文本样本进行文本预测,得到第一文本样本对应的参考预测文本;获取目标文本和参考预测文本之间的第三文本相似度,并基于第三文本相似度,对候选大语言模型进行训练,得到目标大语言模型。
下面继续说明本申请实施例提供的文本预测装置555的实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器550的文本预测装置555中的软件模块可以包括:检索模块,用于获取待预测文本和多条知识拓展文本,调用目标检索模型,从多条知识拓展文本中检索得到与待预测文本相关联的目标拓展文本;预测模块,用于调用目标大语言模型,基于目标拓展文本,对待预测文本进行文本预测,得到待预测文本对应的目标预测文本;其中,目标检索模型和目标大语言模型,基于上述模型训练方法所联合训练得到。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的模型训练方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的模型训练方法,例如,如图4示出的模型训练方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种电子设备。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上,本申请实施例具有如下有益效果:
(1)通过获取携带用于指示第一文本样本对应的目标文本的第一样本标签的第一文本样本和多条携带用于指示相应的第二文本样本与第一文本样本之间的目标相似度的第二样本标签的第二文本样本,调用检索模型,从多条第二文本样本中检索得到与第一文本样本相关联的目标第二文本样本;调用大语言模型,基于目标第二文本样本,对第一文本样本进行文本预测,得到第一文本样本对应的预测文本,基于目标文本、预测文本及目标相似度,对检索模型和大语言模型进行联合训练。如此,通过基于目标文本、预测文本及目标相似度,对检索模型和大语言模型进行联合训练,从而能够在训练过程中,大语言模型的训练和检索模型的训练能够互相影响互为补充,从而使得训练后的大语言模型和检索模型的模型性能得到显著提升,从而有效提高了训练后的模型的性能。
(2)通过对文本进行特征提取可以将文本数据转换为计算机可处理的数值型特征表示,有助于提取文本的重要信息和特征。通过特征提取,可以更好地表示文本的语义和结构,提高后续模型的准确性。通过调用检索模型并基于第二文本样本的特征和第一文本样本的特征,预测第二文本样本与第一文本样本之间的相似度。这有助于量化和衡量两个文本之间的相似程度,为进一步的分析和应用提供有力支持。通过检索模型的预测,可以快速有效地对大量第二文本样本和第一文本样本进行相似度分析,从而找出目标文本样本并进行进一步研究和处理。基于特征提取和检索模型的相似度预测,可以提高文本相似度预测的准确性和可靠性,减少人工干预和主观判断的影响。
(3)将计算得到的相似度分别与设定的相似度阈值进行比较。如果相似度的得分大于相似度阈值,说明这两个文本之间的相似度达到了设定的标准。当比较结果指示预测得到的相似度大于相似度阈值时,就会将对应的第二文本样本确定为目标第二文本样本。这意味着这个第二文本和第一文本之间的相似度达到了设定的阈值,可以被认定为目标相似文本。通过设定相似度阈值并进行相似度比较,可以筛选出符合要求的相似文本,有助于进行精确的文本分析和对比。
(4)在微调过程中结合上下文学习的能力有两方面的优势,首先,它使大语言模型更好地适应并利用相关的背景知识进行预测,其次,即使是很优秀的检索器也可能返回不准确的结果,通过训练大语言模型在被提供相关性较低的检索示例时也能做出正确的预测,使得大语言模型在这种情况下能够忽略有误导性的检索内容,并依赖其经过微调后的参数来进行正确预测。
(5)通过大语言模型的预测能力,可以生成语法正确、连贯性强且内容丰富的预测文本。这有助于提高文本生成的质量,使得生成的文本更具可读性和信息量。大语言模型在文本生成和预测方面表现优异,可以基于目标第二文本样本对第一文本样本进行文本预测。这有助于生成与目标文本相关的预测文本,从而探索文本之间的关联性和内容扩展。调用大语言模型进行文本预测可以实现自动化的文本生成和处理过程,减轻人工编辑的压力,提高处理效率和速度。
(6)联合训练是指在一个统一的框架下,同时训练多个模型或组件,以使它们能够协同工作以实现更好的性能。在本申请实施例中,联合训练指的是基于目标文本、预测文本以及目标相似度,对检索模型和大语言模型进行联合训练的过程。联合训练可以促使模型学习更加丰富和有效的文本表示,提高模型在相似度计算和文本生成任务上的表现。联合训练检索模型和大语言模型可以使两者相互补充,共同学习,提高模型整体的性能和效果。
(7)通过获取目标预测文本与目标文本之间的第二文本相似度,可以计算出预测文本与目标文本之间的相似度差值。这些差值反映了预测文本与目标文本之间的一致性或差异性。计算第二文本相似度和目标相似度之间的差值,可以更准确地评估预测文本与目标文本之间的相似度差异。这有助于模型更好地理解文本之间的相似度关系,提高预测的准确性。通过对第二相似度差值和第二相似度差值进行求和,得到一个综合的损失值。这个损失值可以作为训练目标,指导检索模型在训练过程中优化其参数。基于损失值对检索模型进行训练,可以使模型更好地学习和适应相似度差异的特性。这种训练方式可以帮助模型在实际应用中更准确地评估文本相似度,提高检索的准确性和效率。
(8)将第二文本样本对应的目标相似度除以第一求和相似度,得到第一概率值;将第二文本样本对应的第二文本相似度除以第二求和相似度,得到第二概率值。这些概率值可以描述第二文本样本与目标文本之间的相对相似程度,从而为模型训练提供具体的概率指导。将第一概率值和第二概率值的差值确定为第二文本样本对应的损失值。这样的损失值可以反映出模型对于第二文本样本相似度估计的偏差和错误程度,为模型优化提供关键的反馈信息。于各第二文本样本对应的损失值,对检索模型进行训练,可以帮助模型逐步优化,减少相似度估计的误差。采用基于概率值和损失值驱动的训练方式,提高模型在文本相似度匹配任务中的准确性和鲁棒性。通过基于损失值的训练,检索模型可以不断调整自身参数,降低对目标相似度的预测误差,提高文本匹配的精度和效率,优化检索模型的性能。
(9)通过多次迭代训练和预测,不断优化大语言模型,使其在生成文本时更加准确和语义相近。通过对比目标文本和参考预测文本之间的相似度,可以评估模型的效果并进行进一步的优化,从而提高生成文本的质量和准确性。可以有效地提升大语言模型的生成能力,使其在各种任务和场景下都能够表现出更好的性能。
以上,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (16)
1.一种模型训练方法,其特征在于,所述方法包括:
获取携带第一样本标签的第一文本样本和多条携带第二样本标签的第二文本样本;
其中,所述第一样本标签,用于指示所述第一文本样本对应的目标文本,所述第二样本标签,用于指示相应的所述第二文本样本与所述第一文本样本之间的目标相似度;
调用检索模型,从多条所述第二文本样本中检索得到与所述第一文本样本相关联的目标第二文本样本;
调用大语言模型,基于所述目标第二文本样本,对所述第一文本样本进行文本预测,得到所述第一文本样本对应的预测文本;
基于所述目标文本、所述预测文本及所述目标相似度,对所述检索模型和所述大语言模型进行联合训练。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本、所述预测文本及所述目标相似度,对所述检索模型和所述大语言模型进行联合训练,包括:
获取所述目标文本和所述预测文本之间的第一文本相似度,基于所述第一文本相似度,对所述大语言模型进行训练,得到目标大语言模型;
基于所述目标大语言模型和所述目标相似度,对所述检索模型进行训练,得到目标检索模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标大语言模型和所述目标相似度,对所述检索模型进行训练,得到目标检索模型,包括:
调用所述目标大语言模型,基于各所述第二文本样本,分别对所述第一文本样本进行文本预测,得到各所述第二文本样本分别对应的目标预测文本;
基于所述目标预测文本和所述目标相似度,对所述检索模型进行训练,得到所述目标检索模型。
4.根据权利要求3所述的方法,其特征在于,所述调用所述目标大语言模型,基于各所述第二文本样本,分别对所述第一文本样本进行文本预测,得到各所述第二文本样本分别对应的目标预测文本,包括:
针对各所述第二文本样本分别执行以下处理:
将所述第二文本样本和所述第一文本样本进行样本融合,得到融合文本样本;
调用所述目标大语言模型,基于所述融合文本样本,对所述第一文本样本进行文本预测,得到所述第二文本样本对应的目标预测文本。
5.根据权利要求3所述的方法,其特征在于,所述基于所述目标预测文本和所述目标相似度,对所述检索模型进行训练,得到所述目标检索模型,包括:
获取各所述目标预测文本分别与所述目标文本之间的第二文本相似度;
针对各所述第二文本样本,确定所述第二文本样本对应的第二文本相似度和相应的所述目标相似度之间的第一相似度差值;
将各所述第一相似度差值进行求和,得到所述检索模型的损失值,并基于所述损失值,对所述检索模型进行训练,得到所述目标检索模型。
6.根据权利要求3所述的方法,其特征在于,所述调用检索模型,从多条所述第二文本样本中检索得到与所述第一文本样本相关联的目标第二文本样本,包括:
调用所述检索模型,预测各所述第二文本样本与所述第一文本样本之间的相似度,并基于预测得到的相似度,从多条所述第二文本样本中确定与所述第一文本样本相关联的目标第二文本样本;
所述基于所述目标预测文本和所述目标相似度,对所述检索模型进行训练,得到所述目标检索模型,包括:
获取各所述目标预测文本分别与所述目标文本之间的第二文本相似度;
针对各所述第二文本样本,确定所述第二文本样本对应的第二文本相似度和相应的所述目标相似度之间的第一相似度差值,以及所述第二文本样本对应的预测得到的相似度和相应的所述目标相似度之间的第二相似度差值;
将各所述第二相似度差值和各所述第二相似度差值进行求和,得到所述检索模型的损失值,并基于所述损失值,对所述检索模型进行训练,得到所述目标检索模型。
7.根据权利要求3所述的方法,其特征在于,所述基于所述目标预测文本和所述目标相似度,对所述检索模型进行训练,得到所述目标检索模型,包括:
将各所述目标相似度进行求和,得到第一求和相似度;
获取各所述目标预测文本分别与所述目标文本之间的第二文本相似度,并将各所述第二文本相似度进行求和,得到第二求和相似度;
基于所述第一求和相似度和所述第二求和相似度,对所述检索模型进行训练,得到所述目标检索模型。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第一求和相似度和所述第二求和相似度,对所述检索模型进行训练,得到所述目标检索模型,包括:
针对各所述第二文本样本,将所述第二文本样本对应的目标相似度除以所述第一求和相似度,得到所述第二文本样本对应的第一概率值,将所述第二文本样本对应的第二文本相似度除以所述第二求和相似度,得到所述第二文本样本对应的第二概率值,将所述第一概率值和所述第二概率值的差值,确定为所述第二文本样本对应的损失值;
基于各所述第二文本样本对应的损失值,对所述检索模型进行训练,得到所述目标检索模型。
9.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本、所述预测文本及所述目标相似度,对所述检索模型和所述大语言模型进行联合训练,包括:
针对各所述第二文本样本,调用所述大语言模型,基于所述第二文本样本,对所述第一文本样本进行文本预测,得到所述第二文本样本对应的目标预测文本;
基于所述目标预测文本和所述目标相似度,对所述检索模型进行训练,得到候选检索模型;
基于所述候选检索模型、所述目标文本和所述预测文本,对所述大语言模型进行训练,得到目标大语言模型;
基于所述目标大语言模型和所述目标相似度,对所述候选检索模型进行训练,得到目标检索模型。
10.根据权利要求9所述的方法,其特征在于,所述基于所述候选检索模型、所述目标文本和所述预测文本,对所述大语言模型进行训练,得到目标大语言模型,包括:
获取所述目标文本和所述预测文本之间的第一文本相似度,基于所述第一文本相似度,对所述大语言模型进行训练,得到候选大语言模型;
调用所述候选检索模型,从多条所述第二文本样本中检索得到与所述第一文本样本相关联的参考文本样本;
调用所述候选大语言模型,基于所述参考文本样本,对所述第一文本样本进行文本预测,得到所述第一文本样本对应的参考预测文本;
获取所述目标文本和所述参考预测文本之间的第三文本相似度,并基于所述第三文本相似度,对所述候选大语言模型进行训练,得到所述目标大语言模型。
11.一种文本预测方法,其特征在于,所述方法包括:
获取待预测文本和多条知识拓展文本,调用目标检索模型,从所述多条知识拓展文本中检索得到与所述待预测文本相关联的目标拓展文本;
调用目标大语言模型,基于所述目标拓展文本,对所述待预测文本进行文本预测,得到所述待预测文本对应的目标预测文本;
其中,所述目标检索模型和所述目标大语言模型,基于权利要求1-10任一项所述的方法所联合训练得到。
12.一种模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取携带第一样本标签的第一文本样本和多条携带第二样本标签的第二文本样本;其中,所述第一样本标签,用于指示所述第一文本样本对应的目标文本,所述第二样本标签,用于指示相应的所述第二文本样本与所述第一文本样本之间的目标相似度;
调用模块,用于调用检索模型,从多条所述第二文本样本中检索得到与所述第一文本样本相关联的目标第二文本样本;调用大语言模型,基于所述目标第二文本样本,对所述第一文本样本进行文本预测,得到所述第一文本样本对应的预测文本;
训练模块,用于基于所述目标文本、所述预测文本及所述目标相似度,对所述检索模型和所述大语言模型进行联合训练。
13.一种文本预测装置,其特征在于,所述装置包括:
检索模块,用于获取待预测文本和多条知识拓展文本,调用目标检索模型,从所述多条知识拓展文本中检索得到与所述待预测文本相关联的目标拓展文本;
预测模块,用于调用目标大语言模型,基于所述目标拓展文本,对所述待预测文本进行文本预测,得到所述待预测文本对应的目标预测文本;其中,所述目标检索模型和所述目标大语言模型,基于权利要求1-10任一项所述的方法所联合训练得到。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令或者计算机程序;
处理器,用于执行所述存储器中存储的计算机可执行指令或者计算机程序时,实现权利要求1至11任一项所述的方法。
15.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的方法。
16.一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410459107.6A CN118070925B (zh) | 2024-04-17 | 2024-04-17 | 模型训练方法、装置、电子设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410459107.6A CN118070925B (zh) | 2024-04-17 | 2024-04-17 | 模型训练方法、装置、电子设备、存储介质及程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118070925A true CN118070925A (zh) | 2024-05-24 |
CN118070925B CN118070925B (zh) | 2024-07-09 |
Family
ID=91097445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410459107.6A Active CN118070925B (zh) | 2024-04-17 | 2024-04-17 | 模型训练方法、装置、电子设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118070925B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590850A (zh) * | 2021-01-29 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 多媒体数据的搜索方法、装置、设备及存储介质 |
CN116151236A (zh) * | 2022-10-17 | 2023-05-23 | 马上消费金融股份有限公司 | 文本处理模型的训练方法、文本处理方法及相关设备 |
WO2024031891A1 (zh) * | 2022-08-10 | 2024-02-15 | 浙江大学 | 知识表征解耦的分类模型的微调方法、装置和应用 |
CN117669512A (zh) * | 2024-02-01 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 答案生成方法、装置、设备及存储介质 |
CN117828024A (zh) * | 2023-12-29 | 2024-04-05 | 科大讯飞股份有限公司 | 一种插件检索方法、装置、存储介质及设备 |
-
2024
- 2024-04-17 CN CN202410459107.6A patent/CN118070925B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590850A (zh) * | 2021-01-29 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 多媒体数据的搜索方法、装置、设备及存储介质 |
WO2024031891A1 (zh) * | 2022-08-10 | 2024-02-15 | 浙江大学 | 知识表征解耦的分类模型的微调方法、装置和应用 |
CN116151236A (zh) * | 2022-10-17 | 2023-05-23 | 马上消费金融股份有限公司 | 文本处理模型的训练方法、文本处理方法及相关设备 |
CN117828024A (zh) * | 2023-12-29 | 2024-04-05 | 科大讯飞股份有限公司 | 一种插件检索方法、装置、存储介质及设备 |
CN117669512A (zh) * | 2024-02-01 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 答案生成方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
李志义;黄子风;许晓绵;: "基于表示学习的跨模态检索模型与特征抽取研究综述", 情报学报, no. 04, 24 April 2018 (2018-04-24), pages 86 - 99 * |
Also Published As
Publication number | Publication date |
---|---|
CN118070925B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271505B (zh) | 一种基于问题答案对的问答系统实现方法 | |
CN104216913A (zh) | 问题回答框架 | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
EP3598436A1 (en) | Structuring and grouping of voice queries | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口系统 | |
CN113988071A (zh) | 一种基于金融知识图谱的智能对话方法及装置、电子设备 | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
Bazaga et al. | Translating synthetic natural language to database queries with a polyglot deep learning framework | |
Chai | Design and implementation of English intelligent communication platform based on similarity algorithm | |
Aksonov et al. | Question-Answering Systems Development Based on Big Data Analysis | |
CN117851445A (zh) | 一种大语言模型Text2SQL图表生成方法及装置 | |
CN117932022A (zh) | 一种智能问答方法、装置、电子设备及存储介质 | |
CN117290478A (zh) | 一种知识图谱问答方法、装置、设备和存储介质 | |
CN116974554A (zh) | 代码数据处理方法、装置、计算机设备和存储介质 | |
Karpagam et al. | Deep learning approaches for answer selection in question answering system for conversation agents | |
CN118070925B (zh) | 模型训练方法、装置、电子设备、存储介质及程序产品 | |
CN114942981A (zh) | 问答查询方法、装置、电子设备及计算机可读存储介质 | |
CN114328860A (zh) | 一种基于多模型匹配的交互咨询方法、装置和电子设备 | |
CN117235237B (zh) | 一种文本生成方法及相关装置 | |
CN117743315B (zh) | 一种为多模态大模型系统提供高质量数据的方法 | |
CN116755683B (zh) | 一种数据处理方法和相关装置 | |
CN118246474A (zh) | 工具路由方法及设备 | |
Sinhababu et al. | Medical information retrieval and interpretation: a question-answer based interaction Model | |
CN118170894A (zh) | 一种知识图谱问答方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |