CN118260596A - 一种基于奖励模型的预训练方法及设备 - Google Patents
一种基于奖励模型的预训练方法及设备 Download PDFInfo
- Publication number
- CN118260596A CN118260596A CN202410464339.0A CN202410464339A CN118260596A CN 118260596 A CN118260596 A CN 118260596A CN 202410464339 A CN202410464339 A CN 202410464339A CN 118260596 A CN118260596 A CN 118260596A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- training
- language model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012549 training Methods 0.000 title claims abstract description 162
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000015654 memory Effects 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012797 qualification Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请的目的是提供一种基于奖励模型的预训练方法及设备,本申请通过确定用于模型预训练的至少两条文本样本及每条文本样本对应的实际偏好值;基于至少两条文本样本及每条文本样本对应的实际偏好值,训练生成奖励模型;选择一用于预训练的初始语言模型,基于初始语言模型和奖励模型生成用于调整初始语言模型的调整函数,并基于调整函数对初始语言模型进行调整训练,生成目标语言模型,利用文本样本及文本样本的实际偏好值训练生成奖励模型,使得奖励模型能够更好地理解和对齐用户的偏好,再结合奖励模型对初始语言模型进行训练,生成与人类偏好习惯吻合的目标语言模型,提高了目标语言模型生成本文质量,以及目标语言模型的可扩展性。
Description
技术领域
本申请涉及训练模型技术领域,尤其一种基于奖励模型的预训练方法及设备。
背景技术
目前神经网络在进行训练时,基本都是基于后向传播(BackPropagation,BP)算法,通过对网络模型参数进行随机初始化,然后利用优化算法优化模型参数,但是在标注数据很少的情况下,通过神经网络训练出的模型往往精度有限,“预训练”则能够很好地解决这个问题,并且对一词多义进行建模,具体的,预训练是通过大量无标注的语言文本进行语言模型的训练,得到模型参数,利用模型参数对模型进行初始化,再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有更好的效果。
但是,由于训练语言模型旨在模仿来自各种数据库的文本,语言模型通过预训练模仿互联网文本,但是被模仿数据库中不可避免会包括违反人类偏好的内容,比如:个人身份信息、攻击性言论等等,这与人们希望得到的结果背道而驰。针对上述问题,传统处理方法是基于规则或模板的自然语言处理,即,通过定义一系列固定的规则或模板来指导语言模型的生成过程,显然,固定的规则或模版导致生成文本的过程存在灵活性低、成本高、可扩展性差以及对齐性弱等问题。
发明内容
本申请的一个目的是提供一种基于奖励模型的预训练方法及设备,实现在预训练过程中结合训练的奖励模型,优化预训练策略,生成高度理解、且与实际偏好值对齐的目标语言模型,从而提高目标语言模型预训练生成文本的质量。
根据本申请的一个方面,提供了一种基于奖励模型的预训练方法,其中,所述方法包括:
确定用于模型预训练的至少两条文本样本及每条所述文本样本对应的实际偏好值;
基于所述至少两条文本样本及每条所述文本样本对应的实际偏好值,训练生成奖励模型;
选择一用于预训练的初始语言模型,基于所述初始语言模型和所述奖励模型生成用于调整所述初始语言模型的调整函数,并基于所述调整函数对所述初始语言模型进行调整训练,生成目标语言模型。
进一步地,上述方法中,所述确定用于模型预训练的至少两条文本样本及每条所述文本样本对应的实际偏好值,包括:
获取用于模型预训练的至少两条文本数据;
对所述文本数据进行数据清洗,得到清洗后的文本数据;
对所述清洗后的文本数据进行随机选取,并将选取的至少两条清洗后的文本数据作为用于模型预训练的至少两条文本样本,其中,所述至少两条文本样本在主题、风格和质量上均具备多样性;
通过评估者对每条所述文本样本进行实际偏好评估,得到每条所述文本样本对应的实际偏好值。
进一步地,上述方法中,所述基于所述至少两条文本样本及每条所述文本样本对应的实际偏好值,训练生成奖励模型,包括:
从每条所述文本样本中提取样本特征,得到每条所述文本样本的样本特征;
选取用于训练奖励模型的初始模型;
将所述至少两条文本样本及每条所述文本样本对应的样本特征输入至所述初始模型中进行偏好值的预测,得到每条所述文本样本对应的预测偏好值;
基于每条所述文本样本对应的实际偏好值和预测偏好值,对所述初始模型进行训练,以使最小化所述实际偏好值和所述预测偏好值之间的差值,训练生成奖励模型。
进一步地,上述方法中,所述选择一用于预训练的初始语言模型,基于所述初始语言模型和所述奖励模型生成用于调整所述初始语言模型的调整函数,并基于所述调整函数对所述初始语言模型进行调整训练,生成目标语言模型,包括:
选择一用于预训练的初始语言模型作为当前语言模型,基于所述当前语言模型和所述奖励模型重复如下操作,直至当前语言模型生成的训练样本的样本实际偏好值与所述奖励模型预测的所述训练样本的样本预测偏好值在预设差值阈值内,生成目标语言模型:
选择一用于预训练的初始语言模型作为当前语言模型;
基于所述当前语言模型生成至少一条训练样本;
基于所述奖励模型对每条所述训练样本进行偏好值的预测,得到每条所述训练样本的样本预测偏好值;
基于所述至少一条训练样本和每条所述训练样本的样本预测偏好值,生成用于调整所述初始语言模型的调整函数;
基于所述调整函数对所述初始语言模型进行调整训练,生成目标语言模型。
进一步地,上述一种基于奖励模型的预训练方法中,还包括:
构建用于验证所述奖励模型的验证集;
基于所述验证集对所述奖励模型进行性能评估,得到所述奖励模型的调整参数;
基于所述调整参数对所述奖励模型进行调优。
进一步地,上述一种基于奖励模型的预训练方法中,还包括:
构建用于测试所述目标语言模型的模型性能的测试文本,其中,所述测试文本包括无提示验证文本、下游任务文本和对抗性文本;
使用所述测试文本对所述目标语言模型进行性能评估,得到性能评估结果;
分析所述性能评估结果,并基于所述性能评估结果对所述目标语言模型进行调整。
进一步地,上述一种基于奖励模型的预训练方法中,还包括:
监控所述目标语言模型执行实际的目标任务时生成的应用数据;
收集用于更新所述目标语言模型和所述奖励模型的文本集,其中,所述文本集包括至少一条更新文本及每条所述更新文本对应的实际偏好值;
基于所述应用数据和所述文本集,对所述目标语言模型和所述奖励模型进行更新。
根据本申请的另一方面,还提供了一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述一种基于奖励模型的预训练方法。
根据本申请的另一方面,还提供了一种基于奖励模型的预训练设备,其中,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述一种基于奖励模型的预训练方法。
与现有技术相比,本申请通过确定用于模型预训练的至少两条文本样本及每条所述文本样本对应的实际偏好值;基于所述至少两条文本样本及每条所述文本样本对应的实际偏好值,训练生成奖励模型;选择一用于预训练的初始语言模型,基于所述初始语言模型和所述奖励模型生成用于调整所述初始语言模型的调整函数,并基于所述调整函数对所述初始语言模型进行调整训练,生成目标语言模型,利用文本样本及文本样本的实际偏好值训练生成奖励模型,使得奖励模型能够更好地理解和对齐用户的偏好,再结合奖励模型对初始语言模型进行训练,生成与人类偏好习惯吻合的目标语言模型,不仅提高了目标语言模型生成文本质量,还提高了目标语言模型在多种应用场景中的可扩展性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种基于奖励模型的预训练方法的流程示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
传统预训练的具体操作为语言专家分析大量文本数据,手动设计规则或模板;这些规则或模板定义了语言的某些固定模式,如特定的句式、词汇搭配等;将这些规则或模板嵌入到语言模型中,通过对语言模型进行训练,使其能够按照这些规则或模板生成文本;在给定输入的情况下,语言模型根据已学习的规则或模板生成相应的文本。
但是,由于规则或模板是固定的,因此语言模型在面对规则之外的情况时往往无法灵活应对,导致语言模型在处理复杂、多样化的语言现象时效果不佳;规则的设计需要大量的人力投入,随着语言现象的不断演变,规则也需要不断更新和维护,增加成本,当需要处理新的语言任务或领域时,需重新设计一套全新的规则或模板,这使可扩展性受到严重限制;固定的规则或模板的设计可能无法完全捕捉到人类的复杂偏好和判断标准,很难确保生成的文本与人类偏好完全对齐。为了解决传统预训练处理方法带来的问题,本申请提出一种基于奖励模型的预训练方法,具体的,如图1所示,为本申请一个方面的一种基于奖励模型的预训练方法的流程示意图,该方法可以通过使用Python、shell、C++等计算机语言实现,其中,所述方法包括步骤S11、步骤S12和步骤S13,具体包括如下步骤:
步骤S11,确定用于模型预训练的至少两条文本样本及每条所述文本样本对应的实际偏好值;其中,所述文本样本对应的实际偏好值是指用于实际反映文本样本对应人类偏好习惯的指标,在实际应用场景中,实际偏好值可使用数值或比值或百分数等形式表示,在本申请中不做限定;通过多条文本样本以及每条文本样本的实际偏好值,将文本样本是否符合人类偏好习惯这一抽象问题数字化,以便于后续训练奖励模型。
步骤S12,基于所述至少两条文本样本及每条所述文本样本对应的实际偏好值,训练生成奖励模型;在此,在训练奖励模型时,将文本样本的实际偏好值作为训练标签,以使生成的奖励模型高度符合实际偏好值,促使奖励模型深度嵌入人类偏好习惯。
步骤S13,选择一用于预训练的初始语言模型,基于所述初始语言模型和所述奖励模型生成用于调整所述初始语言模型的调整函数,并基于所述调整函数对所述初始语言模型进行调整训练,生成目标语言模型;在此,初始语言模型包括但不限于现有的预训练语言模型或其他初始语言模型,其中,现有的预训练语言模型包括但不限于GPT(GenerativePre-Trained,生成式预训练模型)、BERT(Bidirectional Encoder Representations fromTransformers,面向自然语言处理任务的无监督预训练语言模型)等。
通过上述步骤S11至步骤S13,利用文本样本和本文样本对应的实际偏好值训练生成高度吻合人类偏好习惯的奖励模型,并将奖励模型融入至初始语言模型的训练,实现生成匹配人类偏好习惯的目标语言模型,不仅促使通过目标语言模型预训练生成的文本契合人类偏好习惯、提高文本质量,而且达到高质量预训练方式,适应各复杂语言现象,提高适用范围。
在本申请一优选实施例中,确定用于模型预训练的N(其中,N为大于等于2的正整数)条文本样本及每条文本样本对应的实际偏好值,其中,文本样本1对应实际偏好值1、文本样本2对应实际偏好值2、……、文本样本(N-1)对应实际偏好值(N-1)以及文本样本N对应实际偏好值N;基于文本样本1-文本样本N以及文本样本1对应实际偏好值1、文本样本2对应实际偏好值2、……、文本样本(N-1)对应实际偏好值(N-1)和文本样本N对应实际偏好值N,并将文本样本1对应实际偏好值1、文本样本2对应实际偏好值2、……、文本样本(N-1)对应实际偏好值(N-1)和文本样本N对应实际偏好值N作为训练标签,训练生成奖励模型RM;选择初始语言模型LM0,基于所述初始语言模型LM0和所述奖励模型RM生成用于调整所述初始语言模型LM0的调整函数F,使用调整函数F对所述初始语言模型LM0进行训练调整,生成目标语言模型LM’。
接着本申请上述实施例,其中,所述步骤S11确定用于模型预训练的至少两条文本样本及每条所述文本样本对应的实际偏好值,包括:
获取用于模型预训练的至少两条文本数据;需要说明的是,所述文本数据可从网络数据库获取,也可人工输入本文数据,以确保文本数据来源的普遍性和多样性,提高实际偏好值的参考价值。
对所述文本数据进行数据清洗,得到清洗后的文本数据;在此,数据清洗包括但不限于内容清洗和格式清洗,其中,内容清洗包括但不限于去除重复文本内容的文本数据、去除无异议的文本数据、去除简短文本内容的文本数据等异常文本内容的文本数据;格式清洗包括但不限于HTML(Hyper Text Markup Language,超文本标记语言)标签清洗、特殊字符清洗、无关信息清洗等。同时,为便于后续对清洗后的文本数据的调用或选取,还将清洗后的文本数据存储在分布式文件系统内,根据预训练需求进行获取。
在分布式文件系统或其他存储清洗后的文本数据的存储空间内,对所述清洗后的文本数据进行随机选取,并将选取的至少两条清洗后的文本数据作为用于模型预训练的至少两条文本样本,其中,所述至少两条文本样本在主题、风格和质量上均具备多样性,进行多样、均衡的选取文本样本,提高文本样本普遍性,进一步提高对文本样本的实际偏好评估的质量。
通过评估者对每条所述文本样本进行实际偏好评估,得到每条所述文本样本对应的实际偏好值;需要说明的是,所述评估者是具备通过偏好资格相关测试的评估人员,且在实际偏好评估时,评估者还应从准确性、有用性、适当性等多角度进行偏好评定,生成精准的实际偏好值,同时,评估者不限于一组或多组。
在本申请一优选实施例中,使用网络爬虫从互联网抓取X(其中,X为大于等于2的正整数)条文本数据;分别对X条文本数据进行去除重复文本和去除无异议文本的内容清洗,以及HTML标签清洗和特殊字符清洗的格式清洗,得到清洗后的文本数据1`、清洗后的文本数据2`、清洗后的文本数据3`、……、清洗后的文本数据X`,并将清洗后的文本数据1`、清洗后的文本数据2`、清洗后的文本数据3`、……、清洗后的文本数据X`存储在分布式文件系统内;从分布式文件系统内随机选择用于模型预训练的N条文本样本(文本样本1、文本样本2、文本样本3、……、文本样本N),且N条文本样本在主题、风格和质量上均具备多样性;通过偏好资格测试的多位评估者对N条文本样本进行实际偏好评估,得到文本样本1对应的实际偏好值1、文本样本2对应的实际偏好值2、文本样本3对应的实际偏好值3、……、文本样本(N-1)对应的实际偏好值(N-1)和文本样本N对应的实际偏好值N,实现对文本样本对应的实际偏好值的计算和确定。
接着本申请上述实施例,其中,所述步骤S12基于所述至少两条文本样本及每条所述文本样本对应的实际偏好值,训练生成奖励模型,包括:
从每条所述文本样本中提取样本特征,得到每条所述文本样本的样本特征;需要说明的是,样本特征提取包括但不限于使用词袋模型特征提取、TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)特征提取、词嵌入特征提取等。
选取用于训练奖励模型的初始模型;在此,所述初始模型为符合文本分类或文本回归的、可机器学习模型,其中,机器学习包括但不限于进行逻辑回归训练、支持向量机以及神经网络训练等;初始模型还可为卷积神经网络模型或长短期记忆网络模型等深度神经网络模型,另外,当初始模型为深度模型时,可直接将多条文本样本进行输入。
将所述至少两条文本样本及每条所述文本样本对应的样本特征输入至所述初始模型中进行偏好值的预测,得到每条所述文本样本对应的预测偏好值;需要说明的是,所述预测偏好值是指通过初始模型预测的反映文本样本对应人类偏好习惯的指标。
基于每条所述文本样本对应的实际偏好值和预测偏好值,对所述初始模型进行训练,以使最小化所述实际偏好值和所述预测偏好值之间的差值,训练生成奖励模型,通过多位评估者的偏好反馈,进行最小化实际偏好值和预测偏好值之间的差值的奖励模型的训练,使得奖励模型深度嵌入、对齐人类偏好习惯,为后续预训练做准备。
在本申请一优选实施例中,分别从N条文本样本中提取每条文本样本的样本特征,得到文本样本1对应的样本特征1、文本样本2对应的样本特征2、……、文本样本(N-1)对应的样本特征(N-1)和文本样本N对应的样本特征N;选取用于训练奖励模型的初始模型model0;将文本样本1-文本样本N以及文本样本1对应的样本特征1-文本样本N对应的样本特征N输入至初始模型model0内进行偏好值的预测,得到文本样本1对应的预测偏好值1、文本样本2对应的预测偏好值2、……、文本样本(N-1)对应的预测偏好值(N-1)和文本样本N对应的预测偏好值N;根据文本样本1对应的实际偏好值1和预测偏好值1、文本样本2对应的实际偏好值2和预测偏好值2、……、文本样本(N-1)对应的实际偏好值(N-1)和预测偏好值(N-1)以及文本样本N对应的实际偏好值N和预测偏好值N,对初始模型model0进行训练,生成最小化实际偏好值与预测偏好值之间差值的奖励模型RM。
接着本申请上述实施例,其中,所述步骤S13选择一用于预训练的初始语言模型,基于所述初始语言模型和所述奖励模型生成用于调整所述初始语言模型的调整函数,并基于所述调整函数对所述初始语言模型进行调整训练,生成目标语言模型,包括:
选择一用于预训练的初始语言模型作为当前语言模型,基于所述当前语言模型和所述奖励模型重复如下操作,直至当前语言模型生成的训练样本的样本实际偏好值与所述奖励模型预测的所述训练样本的样本预测偏好值在预设差值阈值内,生成目标语言模型,其中,所述预设差值阈值可根据不同预训练需求进行设定:
选择一用于预训练的初始语言模型作为当前语言模型。
基于所述当前语言模型生成至少一条训练样本。
基于所述奖励模型对每条所述训练样本进行偏好值的预测,得到每条所述训练样本的样本预测偏好值。
基于所述至少一条训练样本和每条所述训练样本的样本预测偏好值,生成用于调整所述初始语言模型的调整函数。
基于所述调整函数对所述初始语言模型进行调整训练,生成目标语言模型。
在本申请一优选实施例中,设定预设差值阈值为δ;选择用于预训练的初始语言模型LM0作为当前语言模型;运行当前语言模型LM0,生成多条训练样本;基于奖励模型RM对当前语言模型LM0生成的多条训练样本进行偏好值的预测,得到当前语言模型LM0对应的样本预测偏好值集合,其中,样本预测偏好值集合包括当前语言模型LM0生成每条训练样本对应的样本预测偏好值;根据当前语言模型LM0生成的多条训练样本和样本预测偏好值集合,生成调整函数f0;调用调整函数f0对当前语言模型LM0进行调试训练,生成目标语言模型LM1。
运行目标语言模型LM1,当目标语言模型LM1生成的多条训练样本的样本实际偏好值与预测偏好值的差值不在δ内,将目标语言模型LM1确定为当前语言模型并运行当前语言模型LM1生成多条训练样本;基于奖励模型RM对当前语言模型LM1生成的多条训练样本进行偏好值的预测,得到当前语言模型LM1对应的样本预测偏好值集合,其中,样本预测偏好值集合包括当前语言模型LM1生成每条训练样本对应的样本预测偏好值;根据当前语言模型LM1生成的多条训练样本和样本预测偏好值集合,生成调整函数f1;调用调整函数f1对当前语言模型LM1进行调试训练,生成目标语言模型LM2。
运行目标语言模型LM2,当目标语言模型LM2生成的多条训练样本的样本实际偏好值与预测偏好值的差值不在δ内,将目标语言模型LM2确定为当前语言模型并运行…;……生成目标语言模型LMP;运行目标语言模型LMP,当目标语言模型LMP生成的多条训练样本的样本实际偏好值与预测偏好值的差值在δ内,将目标语言模型LMP确定为LM’,即,最终的目标语言模型,不断修改调整函数,不断训练当前语言模型,直至样本偏好阈值与样本预测阈值落入预设差值阈值内,将奖励模型与初始语言模型结合,优化目标语言模型的生成策略,提高目标语言模型生成效果,使高度适应各种复杂的语言现象。
接着本申请的上述实施例,本申请的另一个方面提供的一种基于奖励模型的预训练方法还包括:
构建用于验证所述奖励模型的验证集。
基于所述验证集对所述奖励模型进行性能评估,得到所述奖励模型的调整参数。
基于所述调整参数对所述奖励模型进行调优;在此,所述调优包括但不限于模型参数调优和模型选择。
例如,首先,使用网络爬虫从互联网上抓取多条文本数据,对多条文本数据去除重复文本内容的文本数据、去除无异议的文本数据、去除简短文本内容的文本数据、进行HTML标签清洗、进行特殊字符清洗以及进行无关信息清洗,将清洗后的多条文本数据存储在大规模分布式文件系统中,以供后续处理;从收集到的文本数据中随机选择多条清洗后的文本数据作为文本样本,并确保文本样本在主题、风格和质量上具有多样性;招募多位评估者,为评估者设计简单的任务界面,展示文本样本,并要求他们根据一系列标准(如准确性、有用性、适当性等)进行实际偏好评估,并且招募评估者时,要求评估者通过资格测试、设置复核机制等测试,以确保实际偏好值的质量。
接着,从多条文本样本中提取样本特征;选择一个文本分类或文本回归的、可机器学习模型作为初始模型,当然,对于复杂任务,可以使用深度神经网络,如卷积神经网络(CNN)或长短期记忆网络(LSTM);使用收集到的实际偏好值作为训练标签,训练奖励模型,并使奖励模型最小化实际偏好值和预测偏好值之间的差异;在独立的验证奖励模型验证集上评估奖励模型的性能,并根据调整参数进行奖励模型的参数调优和模型选择。
最后,选择一个现有的预训练语言模型当前语言模型;在使用当前语言模型生成训练样本过程中,引入奖励模型。具体的,使用强化学习算法来优化目标语言模型的生成策略,在每一步生成中,计算当前语言模型生成的训练样本的样本实际偏好值与奖励模型预测的训练样本的样本预测偏好值之间的差,以生成调整函数,进行目标语言模型的调整训练。
接着本申请的上述实施例,本申请的另一个方面提供的一种基于奖励模型的预训练方法还包括:
构建用于测试所述目标语言模型的模型性能的测试文本,其中,所述测试文本包括无提示验证文本、下游任务文本和对抗性文本。
使用所述测试文本对所述目标语言模型进行性能评估,得到性能评估结果。
分析所述性能评估结果,并基于所述性能评估结果对所述目标语言模型进行调整。
例如,构建测试文本,测试文本中包括无提示验证文本、下游任务文本和对抗性文本,其中,针对无提示验证文本:在没有额外提示的情况下,测试目标语言模型的生成性能,具体的,通过让目标语言模型生成一系列文本并评估其质量来实现,评估指标可以包括流畅性、连贯性、多样性以及与人类偏好的一致性等。
针对对抗性文本:使用对抗性文本测试目标语言模型的鲁棒性,具体的,对抗性文本可以是手动设计的或自动生成的,旨在挑战目标语言模型的生成策略并暴露目标语言模型潜在的弱点,从而发现目标语言模型在哪些情况下容易生成不良内容,并据此进行改进。
针对下游任务文本:选择一系列具有代表性的下游任务文本,如问答、文本生成、摘要生成、情感分析等,这些任务应该能够全面评估目标语言模型的性能和对齐性,针对每个下游任务文本,对目标语言模型进行必要的微调和适配,包括添加特定于任务的层、调整超参数或使用任务特定的数据进行训练等,以提高目标语言模型在特定任务上的性能,同时保持其对人类偏好的一致性。同时,评估目标语言模型在每个下游任务文本上的性能,客观地衡量目标语言模型的生成质量、准确性、效率等方面,了解目标语言模型在实际应用中的表现,并据此进行改进和优化。
接着本申请的上述实施例,本申请的另一个方面提供的一种基于奖励模型的预训练方法还包括:
监控目标语言模型执行实际的目标任务时生成的应用数据。
收集用于更新所述目标语言模型和所述奖励模型的文本集,其中,所述文本集包括至少一条更新文本及每条所述更新文本对应的实际偏好值。
基于所述应用数据和所述文本集,对所述目标语言模型和所述奖励模型进行更新。
例如,定期监控目标语言模型在实际应用中生成的应用数据,其中,应用数据包括生成文本的质量、用户反馈等,实现通过监控及时发现目标语言模型存在的问题或挑战,并据此进行改进和优化;持续收集新的、用于更新目标语言模型和奖励模型的文本集,其中,该文本集包括更新文本及每条更新文本对应的实际偏好值,以用于更新和改进目标语言模型和奖励模型。新文本集可以来自互联网上的新资源、用户生成的内容或其他可靠来源等。
通过不断的更新文本集以及收集到的应用数据,确保目标语言模型始终与最新的语言现象和人类偏好保持一致,定期更新目标语言模型和奖励模型,具体的,更新可以包括重新训练模型、调整超参数、引入新技术等,提高目标语言模型的性能和对齐性,以满足不断变化的需求和挑战。
根据本申请的另一方面,还提供了一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述一种基于奖励模型的预训练方法。
根据本申请的另一方面,还提供了一种基于奖励模型的预训练设备,其中,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述一种基于奖励模型的预训练方法。
在此,所述一种基于奖励模型的预训练设备的各实施例的详细内容,具体可参见上述一种基于奖励模型的预训练方法的实施例的对应部分,在此,不再赘述。
综上所述,本申请通过确定用于模型预训练的至少两条文本样本及每条所述文本样本对应的实际偏好值;基于所述至少两条文本样本及每条所述文本样本对应的实际偏好值,训练生成奖励模型;选择一用于预训练的初始语言模型,基于所述初始语言模型和所述奖励模型生成用于调整所述初始语言模型的调整函数,并基于所述调整函数对所述初始语言模型进行调整训练,生成目标语言模型,利用文本样本及文本样本的实际偏好值训练生成奖励模型,使得奖励模型能够更好地理解和对齐用户的偏好,再结合奖励模型对初始语言模型进行训练,生成与人类偏好习惯吻合的目标语言模型,不仅提高了目标语言模型生成本文质量,还提高了目标语言模型的可扩展性。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。左,右等词语用来表示名称,而并不表示任何特定的顺序。
Claims (9)
1.一种基于奖励模型的预训练方法,其中,所述方法包括:
确定用于模型预训练的至少两条文本样本及每条所述文本样本对应的实际偏好值;
基于所述至少两条文本样本及每条所述文本样本对应的实际偏好值,训练生成奖励模型;
选择一用于预训练的初始语言模型,基于所述初始语言模型和所述奖励模型生成用于调整所述初始语言模型的调整函数,并基于所述调整函数对所述初始语言模型进行调整训练,生成目标语言模型。
2.根据权利要求1所述的方法,其中,所述确定用于模型预训练的至少两条文本样本及每条所述文本样本对应的实际偏好值,包括:
获取用于模型预训练的至少两条文本数据;
对所述文本数据进行数据清洗,得到清洗后的文本数据;
对所述清洗后的文本数据进行随机选取,并将选取的至少两条清洗后的文本数据作为用于模型预训练的至少两条文本样本,其中,所述至少两条文本样本在主题、风格和质量上均具备多样性;
通过评估者对每条所述文本样本进行实际偏好评估,得到每条所述文本样本对应的实际偏好值。
3.根据权利要求1所述的方法,其中,所述基于所述至少两条文本样本及每条所述文本样本对应的实际偏好值,训练生成奖励模型,包括:
从每条所述文本样本中提取样本特征,得到每条所述文本样本的样本特征;
选取用于训练奖励模型的初始模型;
将所述至少两条文本样本及每条所述文本样本对应的样本特征输入至所述初始模型中进行偏好值的预测,得到每条所述文本样本对应的预测偏好值;
基于每条所述文本样本对应的实际偏好值和预测偏好值,对所述初始模型进行训练,以使最小化所述实际偏好值和所述预测偏好值之间的差值,训练生成奖励模型。
4.根据权利要求1所述的方法,其中,所述选择一用于预训练的初始语言模型,基于所述初始语言模型和所述奖励模型生成用于调整所述初始语言模型的调整函数,并基于所述调整函数对所述初始语言模型进行调整训练,生成目标语言模型,包括:
选择一用于预训练的初始语言模型作为当前语言模型,基于所述当前语言模型和所述奖励模型重复如下操作,直至当前语言模型生成的训练样本的样本实际偏好值与所述奖励模型预测的所述训练样本的样本预测偏好值在预设差值阈值内,生成目标语言模型:
选择一用于预训练的初始语言模型作为当前语言模型;
基于所述当前语言模型生成至少一条训练样本;
基于所述奖励模型对每条所述训练样本进行偏好值的预测,得到每条所述训练样本的样本预测偏好值;
基于所述至少一条训练样本和每条所述训练样本的样本预测偏好值,生成用于调整所述初始语言模型的调整函数;
基于所述调整函数对所述初始语言模型进行调整训练,生成目标语言模型。
5.根据权利要求3所述的方法,其中,所述方法还包括:
构建用于验证所述奖励模型的验证集;
基于所述验证集对所述奖励模型进行性能评估,得到所述奖励模型的调整参数;
基于所述调整参数对所述奖励模型进行调优。
6.根据权利要求1所述的方法,其中,所述方法还包括:
构建用于测试所述目标语言模型的模型性能的测试文本,其中,所述测试文本包括无提示验证文本、下游任务文本和对抗性文本;
使用所述测试文本对所述目标语言模型进行性能评估,得到性能评估结果;
分析所述性能评估结果,并基于所述性能评估结果对所述目标语言模型进行调整。
7.根据权利要求1所述的方法,其中,所述方法还包括:
监控目标语言模型执行实际的目标任务时生成的应用数据;
收集用于更新所述目标语言模型和所述奖励模型的文本集,其中,所述文本集包括至少一条更新文本及每条所述更新文本对应的实际偏好值;
基于所述应用数据和所述文本集,对所述目标语言模型和所述奖励模型进行更新。
8.一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如权利要求1至7中任一项所述的方法。
9.一种基于奖励模型的预训练设备,其中,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410464339.0A CN118260596A (zh) | 2024-04-17 | 2024-04-17 | 一种基于奖励模型的预训练方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410464339.0A CN118260596A (zh) | 2024-04-17 | 2024-04-17 | 一种基于奖励模型的预训练方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118260596A true CN118260596A (zh) | 2024-06-28 |
Family
ID=91602532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410464339.0A Withdrawn CN118260596A (zh) | 2024-04-17 | 2024-04-17 | 一种基于奖励模型的预训练方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118260596A (zh) |
-
2024
- 2024-04-17 CN CN202410464339.0A patent/CN118260596A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Syed et al. | Comparative analysis of CNN and RNN for voice pathology detection | |
CN111126552B (zh) | 一种智能学习内容推送方法及系统 | |
CN109190109B (zh) | 融合用户信息生成评论摘要的方法及装置 | |
CN110490304B (zh) | 一种数据处理方法及设备 | |
WO2020170593A1 (ja) | 情報処理装置及び情報処理方法 | |
Alarifi et al. | Using multiple machine learning algorithms to predict autism in children | |
CN110414003A (zh) | 建立文本生成模型的方法、装置、介质和计算设备 | |
Abbas et al. | Automated reuse recommendation of product line assets based on natural language requirements | |
Kengphanphanit et al. | Automatic requirements elicitation from social media (ARESM) | |
Yurtkan et al. | Student Success Prediction Using Feedforward Neural Networks | |
CN116522912B (zh) | 一种包装设计语言模型的训练方法、装置、介质及设备 | |
CN117057414B (zh) | 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及系统 | |
Lin et al. | Robust educational dialogue act classifiers with low-resource and imbalanced datasets | |
CN116883179A (zh) | 金融产品投资策略的确定方法、装置、处理器及电子设备 | |
Peeperkorn et al. | Conformance checking using activity and trace embeddings | |
CN116861913A (zh) | 基于gpt大模型的立场检测方法及相关设备 | |
CN112446206A (zh) | 一种菜谱标题的生成方法及装置 | |
CN118260596A (zh) | 一种基于奖励模型的预训练方法及设备 | |
CN115836288A (zh) | 用于生成训练数据的方法以及装置 | |
CN115114396A (zh) | 一种语言模型的训练方法、样本数据的构建方法及装置 | |
Jang et al. | Machine Learning-Based Programming Analysis Model Proposal: Based on User Behavioral Analysis | |
Uniyal et al. | Wine Quality Evaluation Using Machine Learning Algorithms | |
CN113849634A (zh) | 用于提升深度模型推荐方案可解释性的方法 | |
Liermann et al. | Batch processing—Pattern recognition | |
Raghuvanshi et al. | Dynamic memory networks for question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20240628 |