CN116127049A - 模型训练方法、文本生成方法、终端设备及计算机介质 - Google Patents
模型训练方法、文本生成方法、终端设备及计算机介质 Download PDFInfo
- Publication number
- CN116127049A CN116127049A CN202310403620.9A CN202310403620A CN116127049A CN 116127049 A CN116127049 A CN 116127049A CN 202310403620 A CN202310403620 A CN 202310403620A CN 116127049 A CN116127049 A CN 116127049A
- Authority
- CN
- China
- Prior art keywords
- text
- prompt
- training
- language model
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 description 12
- 230000008451 emotion Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000001907 polarising light microscopy Methods 0.000 description 3
- 239000002365 multiple layer Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了模型训练方法、文本生成方法、终端设备及计算机介质,该模型训练方法通过将若干通用任务的通用文本输入待训练的语言模型,获取若干第一提示文本,并通过对若干第一提示文本进行聚类,获取聚类簇信息,以根据聚类簇信息、第一提示文本、待训练任务的任务参数获取第二提示文本,并通过训练文本和第二提示文本对语言模型进行训练。本申请的模型训练方法通过第二提示文本对语言模型进行训练,无需对语言模型的参数进行微调,语言模型使用的训练数据较少,减少训练所需成本,并且语言模型能够根据第二提示文本的提示对训练文本进行预测,使得预测结果更加多样,使得生成的文本更易懂,提高用户的使用体验。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及模型训练方法、文本生成方法、终端设备及计算机介质。
背景技术
自然语言处理(Natural Language Processing, NLP)是计算机技术领域与人工智能领域中的一个重要方向,文本生成任务是指基于输入的文本数据自动生成人类可以理解的自然语言文本,主要在阅读理解、对话系统、文章/小说创作等领域应用广泛。
现有的文本生成方法主要包括模板驱动和模型驱动两种。模板驱动用于通过使用固定的句法模板来扩充知识库中标准问的相似问,通过多种不同表达形式的问句样本来训练文本匹配模型提升准确率。在使用模板驱动进行语言模型训练时,需要人工构造大量模板,且生成的文本灵活度不高,需要人工再次审核,人工成本高。
模型驱动基于深度神经网络可以端到端地学习输入数据到输出文本的语义映射,无需人工参与完成特征工程。通常可以使用大规模预训练的语言模型(PretrainedLanguage Models, PLMs)范式解决语言生成问题,并通过调整预训练模型参数就可以完成不同数据集下的文本生成任务;但是在使用模型驱动进行语言模型训练时,需花费大量人力成本获取标注数据,导致文本生成任务的标注数据有限,而PLMs模型往往具有大量的参数,在文本生成任务数据集很小的情况下,很容易在产生过拟合,导致其无法在实际应用中进行泛化。
发明内容
为解决上述技术问题,本申请提供了一种模型训练方法、文本生成方法、终端设备及计算机介质。
为解决上述问题,本申请提供一种模型训练方法,该模型训练方法包括:获取若干通用任务的通用文本,将所述通用文本输入待训练的语言模型,以获取对应的第一提示文本;对若干所述通用任务的第一提示文本进行聚类,以获取聚类簇信息;获取待训练任务的训练文本和任务参数,基于所述聚类簇信息、所述第一提示文本以及所述任务参数获取第二提示文本;利用所述训练文本和所述第二提示文本对所述待训练的语言模型进行训练。
可选地,所述利用所述训练文本和所述第二提示文本对所述待训练的语言模型进行训练,包括:将所述训练文本输入至所述语言模型,以获取所述语言模型的预测结果;根据所述预测结果对所述语言模型进行训练。
可选地,所述根据所述预测结果对所述语言模型进行训练,包括:根据所述预测结果与真实标签的偏差值对所述第二提示文本的训练参数进行优化;或者根据所述预测结果与所述真实标签的偏差值对所述第二提示文本的模板参数进行优化。
可选地,所述对若干所述通用任务的第一提示文本进行聚类,以获取聚类簇信息,包括:根据所述第一提示文本计算若干所述通用任务的相似度,以获取相似度数据;根据所述相似度数据对所述第一提示文本进行聚类,以获取所述聚类簇信息。
可选地,若干所述第一提示文本至少包括第一子提示文本和第二子提示文本;所述根据所述第一提示文本计算若干所述通用任务的相似度,以获取相似度数据,包括:获取所述第一子提示文本的第一特征向量以及第二子提示文本的第二特征向量;计算所述第一特征向量和所述第二特征向量的距离,以将所述距离记为所述第一子提示文本和第二子提示文本的相似度数据。
为解决上述问题,本申请提供一种文本生成方法,包括:接收实例文本,并将所述实例文本输入至语言模型,以得到所述实例文本的第二提示文本;将所述第二提示文本和所述实例文本输入至所述语言模型,以获取所述语言模型基于所述第二提示文本对所述实例文本输出的预测文本;所述语言模型是利用如上所述的模型训练方法得到的。
可选地,所述接收实例文本,基于所述实例文本获取对应的第二提示文本,包括:获取若干通用任务的第一提示文本;对若干所述第一提示文本进行聚类,以获取聚类簇信息;根据所述聚类簇信息和所述第一提示文本获取所述第二提示文本。
可选地,所述根据所述聚类簇信息和所述第一提示文本获取所述第二提示文本,包括:获取实例文本的特征参数;计算所述特征参数与所述第二提示文本的匹配值;
根据所述匹配值、所述聚类簇信息以及所述第一提示文本,获取所述第二提示文本。
为解决上述问题,本申请提供一种终端设备,包括处理器以及与所述处理器连接的存储器,其中,所述存储器中存储有程序数据,所述处理器调取所述存储器存储的所述程序数据,以执行如上所述的方法。
为解决上述问题,本申请提供一种计算机可读存储介质,存储有程序指令,所述程序指令被执行以实现如上所述的方法。
本申请提供了模型训练方法、文本生成方法、终端设备及计算机介质,该模型训练方法通过将若干通用任务的通用文本输入待训练的语言模型,获取若干第一提示文本,并通过对若干第一提示文本进行聚类,获取聚类簇信息,以根据聚类簇信息、第一提示文本、待训练任务的任务参数获取第二提示文本,并通过训练文本和第二提示文本对语言模型进行训练。本申请的模型训练方法通过第二提示文本对语言模型进行训练,无需对语言模型的参数进行微调,语言模型使用的训练数据较少,减少训练所需成本,并且语言模型能够根据第二提示文本的提示对训练文本进行预测,使得预测结果更加多样,使得生成的文本更易懂,提高用户的使用体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的模型训练方法的第一实施例的流程示意图;
图2是本申请提供的模型训练方法的第二实施例的流程示意图;
图3是本申请提供的模型训练方法的第三实施例的流程示意图;
图4是本申请提供的文本生成方法的第一实施例的流程示意图;
图5是本申请提供的文本生成方法的第二实施例的流程示意图;
图6是本申请提供的终端设备的一实施例的结构示意图;
图7是本申请提供的计算机可读存储介质的一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动情况下所获得的所有其他实施例,均属于本申请保护的范围。
需要说明,若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本申请实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
有鉴于此,本申请提出了一种模型训练方法,该模型训练方法用于对语言模型进行训练,该语言模型用于基于输入的实例文本生成对应的自然语言的答案文本,以实现用户问答、对话等功能,例如,该语言模型可以应用于金融科技,具体地,可以用于电子商务、电子支付、证券、电子银行、税务交易、信用卡、网络购物、保险等业务场景中的智能客服,以实现对用户的金融业务问题进行问答,或者,该语言模型可以与用户进行聊天,以回答用户的非业务问题,提升智能化程度和用户体验。
请参见图1,图1是本申请提供的模型训练方法的第一实施例的流程示意图。如图1所示,在本实施例中,该模型训练方法包括以下步骤:
步骤S11:获取若干通用任务的通用文本,将通用文本输入待训练的语言模型,以获取对应的第一提示文本。
具体地,若干通用任务为预先设置的若干类型的文本生成任务,每一通用任务可以包括多个示例的通用文本。其中,文本生成任务的类型可以根据语言模型的功能进行分类,示例性地,在语言模型用于根据文本进行阅读理解等场景时,通用任务可以包括阅读理解任务,例如,语言模型根据对联文本生成对联内容;在语言模型用于根据文本生成回复内容等场景时,例如,语言模型进行的通用任务可以包括情感分类任务,情感分类任务用于识别通用文本的情感并根据识别的情感对答案文本进行预测。通用文本可以包括自然语言文本、图片文本等信息,通用文本可以通过标准数据库获取、也可以为在人工进行数据标注所获得的文本,在此对通用任务和通用文本不做具体限定。
获取若干通用任务对应的通用文本后,将每一通用任务对应的通用文本输入至待训练的语言模型,语言模型获取与通用任务对应的第一提示文本。在每一通用任务包括多个通用文本时,语言模型可以对多个通用文本的提示文本进行加权,以获取该通用任务的第一提示文本。
步骤S12:对若干通用任务的第一提示文本进行聚类,以获取聚类簇信息。
获取若干通用任务的第一提示文本后,对若干第一提示文本进行聚类,以获取若干第一提示文本的聚类簇信息,聚类簇信息用于指示第一提示文本的分类信息,例如,根据若干第一提示文本的相似度数据可以对若干第一提示文本进行聚类,以将第一提示文本分成若干类别。
在可选地实施方式中,可以通过谱聚类(spectral clustering)对若干第一提示文本进行聚类,例如,通过计算第一提示文本之间的相似度矩阵进行聚类,以获取对应的聚类簇信息。
步骤S13:获取待训练任务的训练文本和任务参数,基于聚类簇信息、第一提示文本以及任务参数获取第二提示文本。
获取若干通用任务的第一提示文本的聚类簇信息后,进一步获取待训练任务的训练文本和任务参数。可以理解地,待训练任务为语言模型的目标任务,通过待训练任务对语言模型进行训练,以使语言模型的模型参数趋于收敛、并且语言模型所输出的预测结果能够以流畅的形式表达,提高用户的对话体验。待训练任务的训练文本为待训练的实例文本、对联文本等。
步骤S14:利用训练文本和第二提示文本对待训练的语言模型进行训练。
获取待训练任务的训练文本后,基于训练文本和第二提示文本对待训练的语言模型进行训练。具体地,将训练文本和第二提示文本输入至待训练的语言模型中,语言模型能够根据第二提示文本的提示模板对训练文本进行预测,以获取对应的预测结果。
在本申请实施例中,该模型训练方法通过第二提示文本对语言模型进行训练,无需对语言模型的参数进行微调,语言模型使用的训练数据较少,减少训练所需成本,并且语言模型能够根据第二提示文本的提示对训练文本进行预测,使得预测结果更加多样,使得生成的文本更易懂,提高用户的使用体验。
在一实施例中,步骤S12包括以下步骤:根据第一提示文本计算若干通用任务的相似度,以获取相似度数据;根据相似度数据对第一提示文本进行聚类,以获取聚类簇信息。
具体地,根据若干通用文本获取多个对应的第一提示文本后,计算若干通用任务的相似度,获取对应的相似度数据,以根据相似度数据对第一提示文本进行聚类,以将多个第一提示文本区分成不同的聚类类别,并获取聚类簇信息。
进一步地,若干第一提示文本至少包括第一子提示文本和第二子提示文本。根据相似度数据获取第一提示文本的聚类簇信息的步骤还包括:获取第一子提示文本的第一特征向量以及第二子提示文本的第二特征向量;计算第一特征向量和第二特征向量的距离,以将距离记为第一子提示文本和第二子提示文本的相似度数据。
具体地,在可选地实施方式中,语言模型中包括有提示资源池,提示资源池包括t个第一提示文本,记为P={P1,P2,P3,…,Pt},相似度数据的计算公式如下所示:
;
其中,每个第一提示文本中包括l个特征向量,表示第i个第一提示文本的第k1个特征向量,表示第j个第一提示文本的第k2个特征向量;为第i个第一提示文本与第j个第一提示文本间的相似度数据。
由上式可知,在对第一子提示文本和第二子提示文本的相似度数据进行计算时,需对第一子提示文本的所有特征向量与第二子提示文本的所有特征向量之间的距离进行加和,以根据相似度数据获取第一子提示文本和第二子提示文本的差异。
在本申请实施例中,根据第一提示文本的相似度数据对第一提示文本进行聚类,以获取聚类簇信息,并根据聚类簇信息生成第二提示文本,以使得语言模型根据第二提示文本进行训练时,能够通过聚类簇信息发现不同任务的差异,并根据不同任务的差异输出不同的预测结果,预测结果更加多样,提高语言模型的准确性。
在一实施例中,步骤S14包括以下步骤:将训练文本输入至语言模型,以获取语言模型的预测结果;根据预测结果对语言模型进行训练。例如,待训练任务包括训练文本和真实标签,真实标签为用户进行数据标注所获得的标签,根据训练文本的预测结果与真实标签的偏差值可以对语言模型进行训练。
请参见图2,图2是本申请提供的模型训练方法的第二实施例的流程示意图。如图2所示,在本实施例中,该模型训练方法包括以下步骤:
步骤S21:获取若干通用任务的通用文本,将通用文本输入待训练的语言模型,以获取对应的第一提示文本。
步骤S22:对若干通用任务的第一提示文本进行聚类,以获取聚类簇信息。
步骤S23:获取待训练任务的训练文本和任务参数,基于聚类簇信息、第一提示文本以及任务参数获取第二提示文本。
步骤S21-S23与步骤S11-S13类似,在此不再赘述。
步骤S24:将训练文本输入至语言模型,以获取语言模型的预测结果。
其中,预测结果与训练文本的内容对应。示例性地,在训练文本为对联文本时,预测结果为根据对联文本输出的对联结果,例如,在对联文本为平安时,语言模型需要根据“平安”的关键词进行关联预测,以获取对联结果,对联结果可以为“平安竹报全家庆,富贵花开满院春”等;在训练文本为实例文本时,预测结果为根据实例文本输出的回复结果,例如,接收用户输入的实例文本为“我今天不开心,因为我家的狗丢了,求安慰”,语言模型识别实例文本中的情感,以根据实例文本的情感分类输出对应的答案文本,答案文本可以为“抱抱你,别难过”等。
可以理解地,上述所述的训练文本、实例文本、答案文本、预测结果的文本类型包括但不局限于自然语言文本、图片文本、影音文本等,用户可以根据实际应用场景等对文本类型进行限制,在此不做具体限定。
步骤S25:根据预测结果与真实标签的偏差值对第二提示文本的模板参数进行优化。
其中,第二提示文本包括提示模板,在语言模型根据第二提示文本对训练文本进行预测时,例如,在待训练任务为情感分类任务时,训练文本X的内容为“我喜欢这部电影”,语言模型的输出内容Y应为正面情感或负面情感;而在本实施例中,通过输入第二提示文本的提示模板使得语言模型将训练文本的情感分类问题转化为填空问题,提示模板可以为“我喜欢这部电影,整体上来看,这是一个[Z]的电影”,此时,语言模型根据训练文本对Z的内容进行预测,以预测Z的内容是无聊的(对应于负面情感)或是有趣的(对应于正面情感),并获取预测结果。
可以理解地,真实标签与预测结果的偏差值可以表示语言模型的预测效果,根据预测效果对第二提示文本的模板参数进行优化,例如,可以根据真实标签调整提示模板的格式或者新增提示模板,以使得语言模型获取的第二提示文本与目标任务更加接近,提高语言模型的训练效果。由于训练只对模板参数进行调整,训练参数少、模型收敛速度加快、训练耗时减少,提高语言模型的训练效率。
在一实施例中,请参见图3,图3是本申请提供的模型训练方法的第三实施例的流程示意图。如图3所示,在本实施例中,该模型训练方法包括以下步骤:
步骤S31:获取若干通用任务的通用文本,将通用文本输入待训练的语言模型,以获取对应的第一提示文本。
步骤S32:对若干通用任务的第一提示文本进行聚类,以获取聚类簇信息。
步骤S33:获取待训练任务的训练文本和任务参数,基于聚类簇信息、第一提示文本以及任务参数获取第二提示文本。
步骤S31-S33与步骤S11-S13相同,在此不再赘述。
步骤S34:将训练文本输入至语言模型,以获取语言模型的预测结果。
步骤S34与步骤S24相同,在此不再赘述。
步骤S35:根据预测结果与真实标签的偏差值对第二提示文本的训练参数进行优化。
具体地,在利用训练文本和第二提示文本对语言模型进行训练时,语言模型为多层神经网络结构组合而成的模型,在语言模型的最后一层中加入了多层感知器(Multilayer Perceptron,缩写MLP),在将前述的神经网络结构的输出内容输入至MLP时,MLP根据第二提示文本获取输出的预测结果。
其中,第二提示文本的训练参数包括MLP参数,在获取MLP输出的预测结果后,根据预测结果与预设的真实标签的偏差值对MLP参数进行优化。例如,在预测结果与真实标签的偏差值大于预设阈值时,即预测结果与真实标签相差较大,可以根据反向传播的原理对MLP参数进行调整。
在一种可选地实施方式中,待训练的语言模型为预先经过训练的原始模型,例如,待训练的语言模型可以为经过大规模预训练的PLMs语言模型,此时,在语言模型的训练结束后,只保存MLP参数,以对第二提示文本进行训练。由于训练只对MLP参数进行调整,不改变其他神经网络结构的参数,使得训练参数减少、模型收敛速度加快、训练耗时减少,提高语言模型的训练效率。
本申请还提出了一种文本生成方法,该文本生成方法用于根据语言模型对输入的文本内容进行预测,以获取预测结果,并将预测结果返回至用户;其中,该语言模型为经上述任一实施例的模型训练方法得到的语言模型。该文本生成方法可以用于电子商务、电子银行、网络购物等应用场景的智能客服产品,以根据用户输入的问题返回对应的回答文本,减少人工回答的成本,提高用户的使用体验。
请参见图4,图4是本申请提供的文本生成方法的第一实施例的流程示意图。如图4所示,本实施例的文本生成方法包括以下步骤:
步骤S41:接收实例文本,基于实例文本获取对应的第二提示文本。其中,实例文本为语言模型在应用过程中获取的任务文本。例如,在语言模型应用于金融科技领域的智能客服产品时,实例文本为前端接收的用户输入的问题文本,语言模型根据输入的实例文本输出对应的答案文本,以对用户的问题进行回复。本实施例的第二提示文本与上述模型训练方法的类似,第二提示文本包括对应的提示模板,语言模型根据提示模板对实例文本进行预测。
步骤S42:将第二提示文本和实例文本输入至语言模型,以获取语言模型基于第二提示文本对实例文本输出的预测文本。
获取第二提示文本后,将第二提示文本和实例文本输入至语言模型。由于语言模型由上述的模型训练方法进行训练,语言模型能够根据第二提示文本的提示模板对实例文本的问题进行预测,以输出对应的预测文本,并根据预测文本对用户的问题进行回答。
在本申请实施例中,该文本生成方法通过接收实例文本,基于实例文本获取对应的第二提示文本,并将第二提示文本和实例文本输入至语言模型,以获取语言模型基于第二提示文本对实例文本输出的预测文本。由于可以根据第二提示文本对实例文本进行模板化的调整,第二提示文本能够对语言模型生成的预测文本的多样性和长度进行限制,便于对预测文本的语义连贯性、一致性进行调整,进而提高用户的使用体验。
可选地,步骤S41包括以下步骤:获取若干通用任务的第一提示文本;对若干第一提示文本进行聚类,以获取聚类簇信息;根据聚类簇信息和第一提示文本获取第二提示文本。
具体地,获取实例文本对应的第一提示文本的具体步骤与上述模型训练方法的类似,在此不再赘述。
可选地,步骤S41包括以下步骤:获取实例文本的特征参数;计算特征参数与第二提示文本的匹配值;根据匹配值、聚类簇信息以及第一提示文本,获取第二提示文本。
其中,在根据实例文本获取第二提示文本时,为了使得第二提示文本能够与实例文本对应,可以通过自注意力机制输出第二提示文本。具体地,在使用语言模型完成文本生成任务时,文本生成任务包括多种通用任务,此时,实例文本所对应的通用任务作为语言模型在应用级别的下游任务。
特征参数包括下游任务的任务特征以及实例文本的实例特征,任务特征为下游任务对应的特征参数,实例特征为输入实例文本时的特征参数,在使用自注意力机制生成第二提示文本时,语言模型需根据实例特征和任务特征获取第二提示文本,以使第二提示文本能够与实例文本对应,提高预测文本的准确性。
在一可选实施方式中,计算特征参数与第二提示文本的匹配值可以根据softmax函数进行计算,例如,获取实例文本后,对实例文本的实例特征进行编码,并获取编码后的第一表示值的平均值,以将平均值作为实例特征的第一特征参数,同时获取实例文本对应的下游任务,并对下游任务的任务特征进行编码,以获取编码后的第二表示值的平均值作为任务特征的第二特征参数,并通过softmax函数计算第一特征参数和第二特征参数的概率参数,并将概率函数与第二提示文本的特征向量的乘积结果作为匹配值。
例如,请参见图5,图5是本申请提供的文本生成方法的第二实施例的流程示意图。如图5所示,经过上述模型训练方法训练的语言模型可以根据第一通用任务获取对应的第一提示文本,并将第一提示文本存储于提示资源池中,在语言模型接收到输入的实例文本时,获取实例文本对应的下游任务以及实例文本的特征参数,并根据提示参数以及自注意力机制从提示资源池中获取对应的第二提示文本,以根据第二提示文本和实例文本输出对应的预测结果,以将预测结果作为用户输入的实例文本的答案文本,并将答案文本输出至用户端,完成与用户的问答。
请参见图6,图6是本申请提供的终端设备的一实施例的结构示意图。如图6所示,该终端设备100包括处理器101以及与处理器101连接的存储器102,其中,存储器102中存储有程序数据,处理器101调取存储器102存储的程序数据,以执行上述的所有方法。
可选地,在一实施例中,处理器101用于执行程序数据以实现如下方法:获取若干通用任务的通用文本,将通用文本输入待训练的语言模型,以获取对应的第一提示文本;对若干通用任务的第一提示文本进行聚类,以获取聚类簇信息;获取待训练任务的训练文本和任务参数,基于聚类簇信息、第一提示文本以及任务参数获取第二提示文本;利用训练文本和第二提示文本对待训练的语言模型进行训练。
可选地,在另一实施例中,处理器101用于执行程序数据以实现如下方法:接收实例文本,并将实例文本输入至语言模型,以得到实例文本的第二提示文本;将第二提示文本输入至语言模型,以获取语言模型基于第二提示文本对实例文本输出的预测结果;基于预测结果输出与实例文本对应的答案文本,以完成问答;语言模型是利用如上的模型训练方法得到的。
其中,处理器101还可以称为CPU(Central Processing Unit,中央处理单元)。处理器101可能是一种电子芯片,具有信号的处理能力。处理器101还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器102可以为内存条、TF卡等,可以存储终端设备100中的全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器102中。它根据处理器101指定的位置存入和取出信息。有了存储器102,终端设备100才有记忆功能,才能保证正常工作。终端设备100的存储器102按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
请参见图7,图7是本申请提供的计算机可读存储介质的一实施例的结构示意图。如图7所示,该计算机可读存储介质110中存储有能够实现上述所有方法的程序指令111。
在本申请各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质110中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机可读存储介质110在一个程序指令111中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)、电子设备(例如MP3、MP4等,也可以是手机、平板电脑、可穿戴设备等移动终端,也可以是台式电脑等)或者处理器(processor)以执行本申请各个实施方式方法的全部或部分步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质110(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可读存储介质110实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可读存储介质110到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令111产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机可读存储介质110也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储介质110中的程序指令111产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机可读存储介质110也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的程序指令111提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(可以是个人计算机,服务器,网络设备或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种模型训练方法,其特征在于,包括:
获取若干通用任务的通用文本,将所述通用文本输入待训练的语言模型,以获取对应的第一提示文本;
对若干所述通用任务的第一提示文本进行聚类,以获取聚类簇信息;
获取待训练任务的训练文本和任务参数,基于所述聚类簇信息、所述第一提示文本以及所述任务参数获取第二提示文本;
利用所述训练文本和所述第二提示文本对所述待训练的语言模型进行训练。
2.根据权利要求1所述的模型训练方法,其特征在于,所述利用所述训练文本和所述第二提示文本对所述待训练的语言模型进行训练,包括:
将所述训练文本输入至所述语言模型,以获取所述语言模型的预测结果;
根据所述预测结果对所述语言模型进行训练。
3.根据权利要求2所述的模型训练方法,其特征在于,所述根据所述预测结果对所述语言模型进行训练,包括:
根据所述预测结果与真实标签的偏差值对所述第二提示文本的训练参数进行优化;或者
根据所述预测结果与所述真实标签的偏差值对所述第二提示文本的模板参数进行优化。
4.根据权利要求1所述的模型训练方法,其特征在于,所述对若干所述通用任务的第一提示文本进行聚类,以获取聚类簇信息,包括:
根据所述第一提示文本计算若干所述通用任务的相似度,以获取相似度数据;
根据所述相似度数据对所述第一提示文本进行聚类,以获取所述聚类簇信息。
5.根据权利要求4所述的模型训练方法,其特征在于,若干所述第一提示文本至少包括第一子提示文本和第二子提示文本;所述根据所述第一提示文本计算若干所述通用任务的相似度,以获取相似度数据,包括:
获取所述第一子提示文本的第一特征向量以及第二子提示文本的第二特征向量;
计算所述第一特征向量和所述第二特征向量的距离,以将所述距离记为所述第一子提示文本和第二子提示文本的相似度数据。
6.一种文本生成方法,其特征在于,包括:
接收实例文本,基于所述实例文本获取对应的第二提示文本;
将所述第二提示文本和所述实例文本输入至所述语言模型,以获取所述语言模型基于所述第二提示文本对所述实例文本输出的预测文本;
所述语言模型是利用权利要求1-5中任一项所述的模型训练方法得到的。
7.根据权利要求6所述的文本生成方法,其特征在于,所述接收实例文本,基于所述实例文本获取对应的第二提示文本,包括:
获取若干通用任务的第一提示文本;
对若干所述第一提示文本进行聚类,以获取聚类簇信息;
根据所述聚类簇信息和所述第一提示文本获取所述第二提示文本。
8.根据权利要求7所述的文本生成方法,其特征在于,所述根据所述聚类簇信息和所述第一提示文本获取所述第二提示文本,包括:
获取实例文本的特征参数;
计算所述特征参数与所述第二提示文本的匹配值;
根据所述匹配值、所述聚类簇信息以及所述第一提示文本,获取所述第二提示文本。
9.一种终端设备,其特征在于,包括处理器以及与所述处理器连接的存储器,其中,所述存储器中存储有程序数据,所述处理器调取所述存储器存储的所述程序数据,以执行如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有程序指令,所述程序指令被执行以实现如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310403620.9A CN116127049A (zh) | 2023-04-17 | 2023-04-17 | 模型训练方法、文本生成方法、终端设备及计算机介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310403620.9A CN116127049A (zh) | 2023-04-17 | 2023-04-17 | 模型训练方法、文本生成方法、终端设备及计算机介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127049A true CN116127049A (zh) | 2023-05-16 |
Family
ID=86308508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310403620.9A Pending CN116127049A (zh) | 2023-04-17 | 2023-04-17 | 模型训练方法、文本生成方法、终端设备及计算机介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127049A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116955590A (zh) * | 2023-09-20 | 2023-10-27 | 成都明途科技有限公司 | 训练数据筛选方法、模型训练方法、文本生成方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114238629A (zh) * | 2021-11-29 | 2022-03-25 | 鹏城实验室 | 一种基于自动提示推荐的语言处理方法、装置及终端 |
-
2023
- 2023-04-17 CN CN202310403620.9A patent/CN116127049A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114238629A (zh) * | 2021-11-29 | 2022-03-25 | 鹏城实验室 | 一种基于自动提示推荐的语言处理方法、装置及终端 |
Non-Patent Citations (1)
Title |
---|
JUNYI LI等: "Learning to Transfer Prompts for Text Generation", pages 3506 - 3518, Retrieved from the Internet <URL:https://arxiv.org/abs/2205.01543> * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116955590A (zh) * | 2023-09-20 | 2023-10-27 | 成都明途科技有限公司 | 训练数据筛选方法、模型训练方法、文本生成方法 |
CN116955590B (zh) * | 2023-09-20 | 2023-12-08 | 成都明途科技有限公司 | 训练数据筛选方法、模型训练方法、文本生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
CN109101537B (zh) | 基于深度学习的多轮对话数据分类方法、装置和电子设备 | |
CN111695674B (zh) | 联邦学习方法、装置、计算机设备及可读存储介质 | |
CN108959482B (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
KR20180125905A (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
AU2016256764A1 (en) | Semantic natural language vector space for image captioning | |
US11900518B2 (en) | Interactive systems and methods | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
CN112069302A (zh) | 会话意图识别模型的训练方法、会话意图识别方法及装置 | |
US20230121711A1 (en) | Content augmentation with machine generated content to meet content gaps during interaction with target entities | |
CN113239169A (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN114021582B (zh) | 结合语音信息的口语理解方法、装置、设备及存储介质 | |
CN112100375A (zh) | 文本信息生成方法、装置、存储介质及设备 | |
CN112861514A (zh) | 分割语法和语义的注意力增强的全相关变分自编码器 | |
CN116127049A (zh) | 模型训练方法、文本生成方法、终端设备及计算机介质 | |
JP2024515199A (ja) | 要素テキスト処理方法、装置、電子機器及び記憶媒体 | |
CN114091452A (zh) | 一种基于适配器的迁移学习方法、装置、设备及存储介质 | |
WO2021174922A1 (zh) | 语句情感分类方法及相关设备 | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
CN116861363A (zh) | 多模态的特征处理方法、装置、存储介质与电子设备 | |
Octavany et al. | Cleveree: an artificially intelligent web service for Jacob voice chatbot | |
CN117271759A (zh) | 文本摘要生成模型训练方法、文本摘要生成方法和装置 | |
Huang et al. | Dynamic hypergraph convolutional network for multimodal sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230516 |